このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211223となっている論文です。

PDF登録状況(公開日: 20211223)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) マルコフデータセットによるディープラーニングの一般化エラー境界

Generalization Error Bounds on Deep Learning with Markov Datasets ( http://arxiv.org/abs/2201.11059v1 )

ライセンス: CC BY 4.0
Lan V. Truong(参考訳) 本稿では,マルコフデータセットを用いたディープニューラルネットワークにおける一般化誤差の上限を導出する。 これらの境界はKoltchinskiiとPanchenkoのアプローチに基づいて、組合せ分類器の一般化誤差をi.d.データセットにバウンドする。 マルコフ連鎖の高次元確率における新しい対称性の不等式の発展は、マルコフ連鎖の無限小生成子の擬スペクトルギャップがこれらの不等式における鍵パラメータとして作用するこの拡張の重要な要素である。 また,これらの境界や,従来のディープラーニングや機械学習の類似した境界を,i.d.d.とマルコフのデータセットのベイズ対応に変換する簡単な手法を提案する。

In this paper, we derive upper bounds on generalization errors for deep neural networks with Markov datasets. These bounds are developed based on Koltchinskii and Panchenko's approach for bounding the generalization error of combined classifiers with i.i.d. datasets. The development of new symmetrization inequalities in high-dimensional probability for Markov chains is a key element in our extension, where the pseudo-spectral gap of the infinitesimal generator of the Markov chain plays as a key parameter in these inequalities. We also propose a simple method to convert these bounds and other similar bounds on traditional deep learning and machine learning to Bayesian counterparts for both i.i.d. and Markov datasets.
翻訳日:2022-01-30 14:23:49 公開日:2021-12-23
# 出版物の信頼度推定のための合成予測市場

A Synthetic Prediction Market for Estimating Confidence in Published Work ( http://arxiv.org/abs/2201.06924v1 )

ライセンス: Link先を確認
Sarah Rajtmajer, Christopher Griffin, Jian Wu, Robert Fraleigh, Laxmaan Balaji, Anna Squicciarini, Anthony Kwasnica, David Pennock, Michael McLaughlin, Timothy Fritton, Nishanth Nakshatri, Arjun Menon, Sai Ajay Modukuri, Rajal Nivargi, Xin Wei and C. Lee Giles(参考訳) 出版された学術作品の信頼性を推定することは、より速くより堅牢な科学的進歩の機会を提供する。 我々は,社会・行動科学文学における論文の信頼性を評価するための総合予測市場を開発する。 我々は,本システムについて実演し,その成果を既知の複製プロジェクトを用いて詳述する。 我々はこの研究が、ピアレビューにAIを創造的に利用する研究アジェンダの基礎となることを示唆している。

Explainably estimating confidence in published scholarly work offers opportunity for faster and more robust scientific progress. We develop a synthetic prediction market to assess the credibility of published claims in the social and behavioral sciences literature. We demonstrate our system and detail our findings using a collection of known replication projects. We suggest that this work lays the foundation for a research agenda that creatively uses AI for peer review.
翻訳日:2022-01-23 18:26:13 公開日:2021-12-23
# (参考訳) インド道路条件に対する教師なし学習手法を用いたtwitterデータに基づく交通イベント記述 [全文訳有]

Traffic event description based on Twitter data using Unsupervised Learning Methods for Indian road conditions ( http://arxiv.org/abs/2201.02738v1 )

ライセンス: CC BY 4.0
Yasaswi Sri Chandra Gandhi Kilaru, Indrajit Ghosh(参考訳) 非リカレントかつ予測不能な交通事象は道路交通条件に直接影響を及ぼす。 道路ネットワーク管理を改善するためには,これらの予測不能事象の動的監視と予測が必要である。 既存の伝統的な方法(フローまたはスピードスタディ)の問題点は、多くのインドの道路のカバーが非常に少なく再現可能な方法で、イベントを識別し記述することはできないことである。 この問題を解決するためには、他の形式のデータを追加することが不可欠です。 これは、Google MapsやWazeなどのリアルタイムのスピードモニタリングデータや、TwitterやFacebookなどのソーシャルデータかもしれない。 本稿では,インド交通データ向上のための効果的なツイート分類を行うために,教師なし学習モデルを用いる。 このモデルは単語埋め込みを用いて意味的類似性を計算し、94.7%のテストスコアを得る。

Non-recurrent and unpredictable traffic events directly influence road traffic conditions. There is a need for dynamic monitoring and prediction of these unpredictable events to improve road network management. The problem with the existing traditional methods (flow or speed studies) is that the coverage of many Indian roads is very sparse and reproducible methods to identify and describe the events are not available. Addition of some other form of data is essential to help with this problem. This could be real-time speed monitoring data like Google Maps, Waze, etc. or social data like Twitter, Facebook, etc. In this paper, an unsupervised learning model is used to perform effective tweet classification for enhancing Indian traffic data. The model uses word-embeddings to calculate semantic similarity and achieves a test score of 94.7%.
翻訳日:2022-01-16 17:57:32 公開日:2021-12-23
# (参考訳) 衛星画像からの雲除去 [全文訳有]

Cloud Removal from Satellite Images ( http://arxiv.org/abs/2112.15483v1 )

ライセンス: CC BY 4.0
Rutvik Chauhan, Antarpuneet Singh, Sujoy Saha(参考訳) 本報告では,sentinel hubを用いて利用可能なクラウド検出手法を分析した。 また,空間的注意喚起広告ネットワークを実装し,従来のソリューションに比べて生成画像の品質が向上した[7]。

In this report, we have analyzed available cloud detection technique using sentinel hub. We have also implemented spatial attention generative adversarial network and improved quality of generated image compared to previous solution [7].
翻訳日:2022-01-09 15:23:52 公開日:2021-12-23
# 協調共進化による量子化深層ニューラルネットワークの訓練

Training Quantized Deep Neural Networks via Cooperative Coevolution ( http://arxiv.org/abs/2112.14834v1 )

ライセンス: Link先を確認
Fu Peng, Shengcai Liu, Ke Tang(参考訳) ディープニューラルネットワーク(DNN)の量子化は、組み込みデバイスにディープニューラルネットワークをデプロイする上で有望なソリューションである。 しかし、既存の手法の多くは勾配を量子化せず、DNNの量子化プロセスは依然として多くの浮動小数点演算を持ち、量子化DNNのさらなる応用を妨げる。 そこで本研究では,DNNの定量化のための協調的共進化に基づく新しいヒューリスティック手法を提案する。 協調的共進化の枠組みでは,分布推定アルゴリズムを用いて低ビット重みの探索を行う。 具体的には,まずランダム初期化に代えて事前学習したネットワークから初期量子化ネットワークを構築し,検索空間を制限して探索を開始する。 これまでのところ、この問題は進化アルゴリズムによって解決された最大の離散問題である。 実験の結果,Cifar-10データセット上の4ビットResNet-20を精度を犠牲にすることなくトレーニングできることがわかった。

Quantizing deep neural networks (DNNs) has been a promising solution for deploying deep neural networks on embedded devices. However, most of the existing methods do not quantize gradients, and the process of quantizing DNNs still has a lot of floating-point operations, which hinders the further applications of quantized DNNs. To solve this problem, we propose a new heuristic method based on cooperative coevolution for quantizing DNNs. Under the framework of cooperative coevolution, we use the estimation of distribution algorithm to search for the low-bits weights. Specifically, we first construct an initial quantized network from a pre-trained network instead of random initialization and then start searching from it by restricting the search space. So far, the problem is the largest discrete problem known to be solved by evolutionary algorithms. Experiments show that our method can train 4 bit ResNet-20 on the Cifar-10 dataset without sacrificing accuracy.
翻訳日:2022-01-09 13:32:34 公開日:2021-12-23
# 入出力分析と経済複雑性に基づく分散生産意思決定支援システム

Decision support system for distributed manufacturing based on input-output analysis and economic complexity ( http://arxiv.org/abs/2201.00694v1 )

ライセンス: Link先を確認
Arnault Pachot (IP), Ad\'ela\"ide Albouy-Kissi (IP), Benjamin Albouy-Kissi (IP), Fr\'ed\'eric Chausse (IP)(参考訳) コビッド19の危機で供給が途絶えたことで不足が生じたが、いくつかの企業は生産チェーンを迅速に適応させ、水アルコールゲル、マスク、医療ガウンなどの不足品を生産することに成功している。 製品aから製品bへのこれらの生産的ジャンプは、2つのタイプの製品間のノウハウの近さから実現可能である。 これらの近値は共同輸出の分析から計算され、積空間の構築に繋がった。 製品空間と、入出力行列から生じる顧客・供給関係に基づいて、企業への推薦システムを提案する。 目的は、各企業にローカルサプライヤーのリストを推薦することで、分散製造を促進することである。 常に所望の製品クラスに現地のサプライヤーが存在するわけではないので、サプライヤーがいない場合、サプライヤーがその生産ツールを適応して必要な製品を提供することができるように、製品間の近接性を考察する。 われわれの実験はフランスのデータに基づいており、そこから企業間の生産的つながりを示すシナジーのグラフを構築している。 最後に,本手法は,生産的ジャンプの可能性を考慮した領域の工業的レジリエンスのレベルを決定するための新たな視点を提供する。

The disruption of supplies during the Covid-19 crisis has led to shortages but has also shown the adaptability of some companies, which have succeeded in adapting their production chains quickly to produce goods experiencing shortages: hydroalcoholic gel, masks, and medical gowns. These productive jumps from product A to product B are feasible because of the know-how proximity between the two classes of products. The proximities were computed from the analysis of co-exports and resulted in the construction of the product space. Based on the product space, as well as the customer-supplier relationships resulting from the input-output matrices, we propose a recommender system for companies. The goal is to promote distributed manufacturing by recommending a list of local suppliers to each company. As there is not always a local supplier for a desired product class, we consider the proximity between products to identify, in the absence of a supplier, a substitute supplier able to adapt its production tools to provide the required product. Our experiments are based on French data, from which we build a graph of synergies illustrating the potential productive links between companies. Finally, we show that our approach offers new perspectives to determine the level of territories' industrial resilience considering potential productive jumps.
翻訳日:2022-01-09 13:29:59 公開日:2021-12-23
# (参考訳) 教師なし学習におけるクラスタ数決定とアルゴリズム選択のためのアンサンブル法 [全文訳有]

Ensemble Method for Cluster Number Determination and Algorithm Selection in Unsupervised Learning ( http://arxiv.org/abs/2112.13680v1 )

ライセンス: CC BY 4.0
Antoine Zambelli(参考訳) 教師なし学習(unsupervised learning)、特にクラスタリング(clustering)は、この分野の専門知識の必要性に苦しんでいる。 研究者は、与えられたデータセットのどのハイパーパラメータセットを使用するか、慎重に、そしてインフォームドな決定を下さなければならない。 さらに、研究者たちはデータセット内のクラスタ数を決定する必要があるかもしれない。 これらすべては、実際の課題に取り掛かる前に行われる。 アルゴリズムとハイパーパラメータ選択の影響を定量化した上で,最小限の入力で活用できるアンサンブルクラスタリングフレームワークを提案する。 データセット内のクラスタ数と、与えられたデータセットに使用するアルゴリズムの適切な選択の両方を決定するために使用できる。 統合の容易性のために、コードライブラリがConclusionに含まれている。

Unsupervised learning, and more specifically clustering, suffers from the need for expertise in the field to be of use. Researchers must make careful and informed decisions on which algorithm to use with which set of hyperparameters for a given dataset. Additionally, researchers may need to determine the number of clusters in the dataset, which is unfortunately itself an input to most clustering algorithms. All of this before embarking on their actual subject matter work. After quantifying the impact of algorithm and hyperparameter selection, we propose an ensemble clustering framework which can be leveraged with minimal input. It can be used to determine both the number of clusters in the dataset and a suitable choice of algorithm to use for a given dataset. A code library is included in the Conclusion for ease of integration.
翻訳日:2021-12-29 19:10:25 公開日:2021-12-23
# (参考訳) CT画像の反復再構成のための自己注意生成対向ネットワーク [全文訳有]

Self-Attention Generative Adversarial Network for Iterative Reconstruction of CT Images ( http://arxiv.org/abs/2112.12810v1 )

ライセンス: CC BY 4.0
Ruiwen Xing and Thomas Humphries and Dong Si(参考訳) CT(Computed tomography)は、体内のセンサーから採取したX線で人体のトモグラフィー画像を生成する。 従来の再構成アルゴリズムは、X線データが適切にサンプリングされ、高品質に利用できるが、患者への線量削減やデータ取得の幾何学的制限といった懸念は、品質や不完全なデータをもたらす可能性がある。 これらのデータから復元された画像はノイズやその他のアーティファクトによって品質が低下する。 本研究の目的は、低線量、スパースビュー、限定角度シナリオを含む、ノイズや不完全なCTスキャンデータから高品質なCT画像を再構成する1つのニューラルネットワークをトレーニングすることである。 この課題を達成するために,ctデータの逐次同時代数的再構成法(sart)と併用するために,前もって信号としてgan(generative adversarial network)を訓練する。 ネットワークには、データの長距離依存性をモデル化するセルフアテンションブロックが含まれている。 我々は,CT画像再構成のための自己注意型GANと,デノナイズサイクルGAN,CIRCLE GAN,および全変動優先アルゴリズムなど,最先端のアプローチを比較した。 我々のアプローチはCIRCLE GANに匹敵する全体的なパフォーマンスを示し、他の2つのアプローチよりも優れています。

Computed tomography (CT) uses X-ray measurements taken from sensors around the body to generate tomographic images of the human body. Conventional reconstruction algorithms can be used if the X-ray data are adequately sampled and of high quality; however, concerns such as reducing dose to the patient, or geometric limitations on data acquisition, may result in low quality or incomplete data. Images reconstructed from these data using conventional methods are of poor quality, due to noise and other artifacts. The aim of this study is to train a single neural network to reconstruct high-quality CT images from noisy or incomplete CT scan data, including low-dose, sparse-view, and limited-angle scenarios. To accomplish this task, we train a generative adversarial network (GAN) as a signal prior, to be used in conjunction with the iterative simultaneous algebraic reconstruction technique (SART) for CT data. The network includes a self-attention block to model long-range dependencies in the data. We compare our Self-Attention GAN for CT image reconstruction with several state-of-the-art approaches, including denoising cycle GAN, CIRCLE GAN, and a total variation superiorized algorithm. Our approach is shown to have comparable overall performance to CIRCLE GAN, while outperforming the other two approaches.
翻訳日:2021-12-29 18:59:43 公開日:2021-12-23
# (参考訳) 不確かさ推定による彗星アッセイ画像からのDNA損傷の定量化のためのより高速な深層アンサンブル法 [全文訳有]

Faster Deep Ensemble Averaging for Quantification of DNA Damage from Comet Assay Images With Uncertainty Estimates ( http://arxiv.org/abs/2112.12839v1 )

ライセンス: CC BY 4.0
Srikanth Namuduri, Prateek Mehta, Lise Barbe, Stephanie Lam, Zohreh Faghihmonzavi, Steve Finkbeiner, Shekhar Bhansali(参考訳) いくつかの神経変性疾患は、細胞のDNA損傷の蓄積を含む。 彗星アッセイはDNA損傷の程度を推定する一般的な方法である。 深層学習を用いたDNA損傷の定量化に関する最近の文献は、ハイパーパラメータ最適化に対する経験的アプローチを示し、不確実性評価を含んでいない。 ディープアンサンブル平均化(Deep ensemble averaging)は、不確実性を推定するための標準的なアプローチであるが、ネットワークトレーニングの繰り返しを必要とするため、時間を要する。 本稿では,深層学習と厳密で包括的な手法を組み合わせたdna損傷の程度を定量的に定量化し,ハイパーパラメータを統計的テストの助けを借りて最適化する手法を提案する。 また,深層アンサンブル平均化を高速に計算し,ネットワークに適用可能な統計的テストを行うアーキテクチャも使用している。 提案手法を1300枚以上の画像を用いた彗星アッセイデータセットに適用し,予測値の信頼区間を含む0.84ドルのR^2$を達成した。 提案したアーキテクチャは,統計的に厳密でありながら,不確実性評価を30倍高速化するため,現在のアプローチよりも改善されている。

Several neurodegenerative diseases involve the accumulation of cellular DNA damage. Comet assays are a popular way of estimating the extent of DNA damage. Current literature on the use of deep learning to quantify DNA damage presents an empirical approach to hyper-parameter optimization and does not include uncertainty estimates. Deep ensemble averaging is a standard approach to estimating uncertainty but it requires several iterations of network training, which makes it time-consuming. Here we present an approach to quantify the extent of DNA damage that combines deep learning with a rigorous and comprehensive method to optimize the hyper-parameters with the help of statistical tests. We also use an architecture that allows for a faster computation of deep ensemble averaging and performs statistical tests applicable to networks using transfer learning. We applied our approach to a comet assay dataset with more than 1300 images and achieved an $R^2$ of 0.84, where the output included the confidence interval for each prediction. The proposed architecture is an improvement over the current approaches since it speeds up the uncertainty estimation by 30X while being statistically more rigorous.
翻訳日:2021-12-29 18:43:40 公開日:2021-12-23
# (参考訳) SoK: 同型暗号化によるプライバシー保護ディープラーニング [全文訳有]

SoK: Privacy-preserving Deep Learning with Homomorphic Encryption ( http://arxiv.org/abs/2112.12855v1 )

ライセンス: CC BY 4.0
Robert Podschwadt, Daniel Takabi, Peizhao Hu(参考訳) ニューラルネットワークのアウトソース計算により、ユーザーは特別なハードウェアやノウハウに投資することなく、アートモデルの状態にアクセスすることができる。 問題は、ユーザーがプライバシーに敏感なデータをコントロールできなくなることだ。 ホモモルフィック暗号化(HE)計算は、その内容を明らかにすることなく暗号化データ上で実行できる。 この知識の体系化では、ニューラルネットワークとHEを組み合わせてプライバシー保護を行うアプローチを詳細に検討する。 ニューラルネットワークモデルとアーキテクチャの変更を分類して、HEよりも計算可能なものにし、これらの変更がパフォーマンスに与える影響を分類する。 計算オーバーヘッドやユーザビリティ,暗号化スキームによる制限など,HEベースのプライバシー保護深層学習には,数多くの課題がある。

Outsourced computation for neural networks allows users access to state of the art models without needing to invest in specialized hardware and know-how. The problem is that the users lose control over potentially privacy sensitive data. With homomorphic encryption (HE) computation can be performed on encrypted data without revealing its content. In this systematization of knowledge, we take an in-depth look at approaches that combine neural networks with HE for privacy preservation. We categorize the changes to neural network models and architectures to make them computable over HE and how these changes impact performance. We find numerous challenges to HE based privacy-preserving deep learning such as computational overhead, usability, and limitations posed by the encryption schemes.
翻訳日:2021-12-29 18:37:10 公開日:2021-12-23
# 長期リカレント畳み込みネットワークモデルを用いた全売電力価格予測

Wholesale Electricity Price Forecasting using Integrated Long-term Recurrent Convolutional Network Model ( http://arxiv.org/abs/2112.13681v1 )

ライセンス: Link先を確認
Vasudharini Sridharan, Mingjian Tuo, and Xingpeng Li(参考訳) 電力価格が市場参加者全員の意思決定に影響を及ぼす重要な要因である。 電気価格の正確な予測は非常に重要であり、様々な要因により電気価格が非常に不安定であるため非常に困難である。 本稿では,市場価格に最も寄与する属性を入力として,電力価格を予測するための長期再帰畳み込みネットワーク(ILRCN)モデルを提案する。 提案するILRCNモデルでは,畳み込みニューラルネットワークと長短期メモリ(LSTM)アルゴリズムの機能と,新しい条件付き誤り訂正項を組み合わせる。 ilrcnモデルは入力データ内の線形および非線形挙動を識別することができる。 ERCOTの市場価格データと負荷分布,温度,その他の要因を用いて,提案モデルについて検討した。 提案するilrcn電力価格予測モデルの性能は、平均絶対誤差や精度などの性能評価指標を用いて検証される。 ケーススタディにより,提案したILRCNモデルは,SVMモデル,完全接続型ニューラルネットワークモデル,LSTMモデル,LRCNモデルと比較して,条件付き誤差補正を行わず,電気価格予測において正確かつ効率的であることが判明した。

Electricity price is a key factor affecting the decision-making for all market participants. Accurate forecasting of electricity prices is very important and is also very challenging since electricity price is highly volatile due to various factors. This paper proposes an integrated long-term recurrent convolutional network (ILRCN) model to predict electricity prices considering the majority contributing attributes to the market price as input. The proposed ILRCN model combines the functionalities of convolutional neural network and long short-term memory (LSTM) algorithm along with the proposed novel conditional error correction term. The combined ILRCN model can identify the linear and non-linear behavior within the input data. We have used ERCOT wholesale market price data along with load profile, temperature, and other factors for the Houston region to illustrate the proposed model. The performance of the proposed ILRCN electricity price forecasting model is verified using performance/evaluati on metrics like mean absolute error and accuracy. Case studies reveal that the proposed ILRCN model is accurate and efficient in electricity price forecasting as compared to the support vector machine (SVM) model, fully-connected neural network model, LSTM model and the LRCN model without the conditional error correction stage.
翻訳日:2021-12-28 17:53:02 公開日:2021-12-23
# プライバシ保護フェデレーション学習のためのスパシファイドセキュアアグリゲーション

Sparsified Secure Aggregation for Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2112.12872v1 )

ライセンス: Link先を確認
Irem Ergun, Hasin Us Sami, Basak Guler(参考訳) セキュアアグリゲーションは、プライバシ保存型フェデレーション学習で一般的なプロトコルであり、個々のモデルを明確化することなくモデルアグリゲーションを可能にする。 一方,従来のセキュアアグリゲーションプロトコルでは通信オーバーヘッドが大きくなり,実際の帯域幅制限アプリケーションでは大きなボトルネックとなる可能性がある。 この課題に対処するために,本研究では,サーバが多数のユーザから,個々のパラメータを学習することなく,分散したローカルモデル更新の集合を学習する,セキュアアグリゲーションのための軽量な勾配スペーシフィケーションフレームワークを提案する。 理論的解析により,提案フレームワークは,計算複雑性を保証しながら,セキュアアグリゲーションの通信オーバーヘッドを大幅に低減できることを示した。 我々はさらに、プライバシーと通信効率とのトレードオフをスパーシフィケーションによって特定する。 実験により,従来のセキュアなベンチマークと比較すると,我々のフレームワークは通信オーバーヘッドを最大7.8倍削減し,壁時計のトレーニング時間を1.13倍短縮することを示した。

Secure aggregation is a popular protocol in privacy-preserving federated learning, which allows model aggregation without revealing the individual models in the clear. On the other hand, conventional secure aggregation protocols incur a significant communication overhead, which can become a major bottleneck in real-world bandwidth-limited applications. Towards addressing this challenge, in this work we propose a lightweight gradient sparsification framework for secure aggregation, in which the server learns the aggregate of the sparsified local model updates from a large number of users, but without learning the individual parameters. Our theoretical analysis demonstrates that the proposed framework can significantly reduce the communication overhead of secure aggregation while ensuring comparable computational complexity. We further identify a trade-off between privacy and communication efficiency due to sparsification. Our experiments demonstrate that our framework reduces the communication overhead by up to 7.8x, while also speeding up the wall clock training time by 1.13x, when compared to conventional secure aggregation benchmarks.
翻訳日:2021-12-28 17:52:41 公開日:2021-12-23
# 異種情報ネットワーク上でのレコメンデーションのための強化メタパス選択

Reinforced Meta-path Selection for Recommendation on Heterogeneous Information Networks ( http://arxiv.org/abs/2112.12845v1 )

ライセンス: Link先を確認
Wentao Ning, Reynold Cheng, Jiajun Shen, Nur Al Hasan Haldar, Ben Kao, Nan Huo, Wai Kit Lam, Tian Li and Bo Tang(参考訳) 異種情報ネットワーク(HIN)は、様々な種類のエンティティ間の複雑な関係を捉え、レコメンデータシステムなどの様々なデータマイニングタスクの有効性を改善するために広く利用されている。 既存のHINベースのレコメンデーションアルゴリズムの多くは、手作りのメタパスを使って、ネットワークから意味情報を抽出している。 これらのアルゴリズムは、最適なメタパスを選択できる広範なドメイン知識に依存している。 HINが多くのノードやリンクタイプと非常に複雑であるアプリケーションでは、メタパスセットを手作りするアプローチは面倒でエラーを起こしやすい。 本稿では,効果的なメタパスを選択し,既存のメタパスベースのレコメンダに組み込むための強化学習型メタパス選択(rms)フレームワークを提案する。 高品質なメタパスを特定するため、RMSは、下流レコメンデーションタスクのパフォーマンスから報酬を得る強化学習(RL)ベースのポリシーネットワーク(エージェント)を訓練する。 メタパス情報を効果的に利用するHINベースのレコメンデーションモデルHRecを設計する。 HRec を RMS と統合し,有効なメタパスを自動で活用する RMS-HRec というレコメンデーションソリューションを導出する。 実データを用いた実験により,提案アルゴリズムは重要なメタパスを自動的にキャプチャすることにより,レコメンデーションモデルの性能を大幅に向上できることを示した。

Heterogeneous Information Networks (HINs) capture complex relations among entities of various kinds and have been used extensively to improve the effectiveness of various data mining tasks, such as in recommender systems. Many existing HIN-based recommendation algorithms utilize hand-crafted meta-paths to extract semantic information from the networks. These algorithms rely on extensive domain knowledge with which the best set of meta-paths can be selected. For applications where the HINs are highly complex with numerous node and link types, the approach of hand-crafting a meta-path set is too tedious and error-prone. To tackle this problem, we propose the Reinforcement learning-based Meta-path Selection (RMS) framework to select effective meta-paths and to incorporate them into existing meta-path-based recommenders. To identify high-quality meta-paths, RMS trains a reinforcement learning (RL) based policy network(agent), which gets rewards from the performance on the downstream recommendation tasks. We design a HIN-based recommendation model, HRec, that effectively uses the meta-path information. We further integrate HRec with RMS and derive our recommendation solution, RMS-HRec, that automatically utilizes the effective meta-paths. Experiments on real datasets show that our algorithm can significantly improve the performance of recommendation models by capturing important meta-paths automatically.
翻訳日:2021-12-28 17:36:57 公開日:2021-12-23
# PI-RADS3患者から抽出した放射線バイオマーカーは, よりe\icientで堅牢な前立腺癌診断を支援する : 多施設共同研究

Radiomic biomarker extracted from PI-RADS 3 patients support more e\`icient and robust prostate cancer diagnosis: a multi-center study ( http://arxiv.org/abs/2112.13686v1 )

ライセンス: Link先を確認
Longfei Li, Rui Yang, Xin Chen, Cheng Li, Hairong Zheng, Yusong Lin, Zaiyi Liu, Shanshan Wang(参考訳) 多パラメータMRI分類i\^eesをベースとした前立腺イメージングレポートとデータシステム(PI-RADS 1-5)を5カテゴリーに分け,臨床診断指導を行った。 しかし,PI-RADS 3患者が生検を施行すべきかどうかについては合意が得られていない。 これらのハードサンプル(HS)から抽出した特徴は、医師が正確な診断を行う上で有意義である。 現在, HSバイオマーカーのマイニングはinsu\icientであり, 前立腺癌診断におけるHSバイオマーカーのe'eectivenessとロバストネスは検討されていない。 本研究では,di'eerentデータ分布のバイオマーカーを構築した。 その結果、HSバイオマーカーはdi\'eerentデータ分散においてより良い性能が得られることが示された。

Prostate Imaging Reporting and Data System (PI-RADS) based on multi-parametric MRI classi\^ees patients into 5 categories (PI-RADS 1-5) for routine clinical diagnosis guidance. However, there is no consensus on whether PI-RADS 3 patients should go through biopsies. Mining features from these hard samples (HS) is meaningful for physicians to achieve accurate diagnoses. Currently, the mining of HS biomarkers is insu\`icient, and the e\'eectiveness and robustness of HS biomarkers for prostate cancer diagnosis have not been explored. In this study, biomarkers from di\'eerent data distributions are constructed. Results show that HS biomarkers can achieve better performances in di\'eerent data distributions.
翻訳日:2021-12-28 17:28:00 公開日:2021-12-23
# MDN-VO:信頼度を用いた視力計測

MDN-VO: Estimating Visual Odometry with Confidence ( http://arxiv.org/abs/2112.12812v1 )

ライセンス: Link先を確認
Nimet Kaygusuz, Oscar Mendez, Richard Bowden(参考訳) 視覚オドメトリー(VO)は、ロボット工学や自律システムを含む多くのアプリケーションで使われている。 しかしながら、機能マッチングに基づく従来のアプローチは計算コストが高く、障害ケースを直接扱うのではなく、ヒューリスティックな方法で障害を検出する。 本研究では、6-DoFのポーズを効率的に推定する深層学習に基づくVOモデルと、これらの推定に対する信頼度モデルを提案する。 我々はCNN-RNNハイブリッドモデルを用いて画像列から特徴表現を学習する。 次に、抽出した時空間表現に基づいて、ガウスの混合としてカメラの動きを推定する混合密度ネットワーク(MDN)を用いる。 我々のモデルは、ポーズラベルを監督の源としているが、教師なしの方法で不確実性を引き出す。 提案手法をKITTIとnuScenesのデータセット上で評価し,定量的および定性的な結果を報告し,ポーズ推定と不確実性推定の両方のパフォーマンスを解析した。 本実験は,予測されたポーズの不確実性を用いた故障事例の検出に加えて,提案モデルが最先端性能を上回ることを示す。

Visual Odometry (VO) is used in many applications including robotics and autonomous systems. However, traditional approaches based on feature matching are computationally expensive and do not directly address failure cases, instead relying on heuristic methods to detect failure. In this work, we propose a deep learning-based VO model to efficiently estimate 6-DoF poses, as well as a confidence model for these estimates. We utilise a CNN - RNN hybrid model to learn feature representations from image sequences. We then employ a Mixture Density Network (MDN) which estimates camera motion as a mixture of Gaussians, based on the extracted spatio-temporal representations. Our model uses pose labels as a source of supervision, but derives uncertainties in an unsupervised manner. We evaluate the proposed model on the KITTI and nuScenes datasets and report extensive quantitative and qualitative results to analyse the performance of both pose and uncertainty estimation. Our experiments show that the proposed model exceeds state-of-the-art performance in addition to detecting failure cases using the predicted pose uncertainty.
翻訳日:2021-12-28 16:47:39 公開日:2021-12-23
# 深部不確かさ推定を用いた視覚計測のためのマルチカメラセンサフュージョン

Multi-Camera Sensor Fusion for Visual Odometry using Deep Uncertainty Estimation ( http://arxiv.org/abs/2112.12818v1 )

ライセンス: Link先を確認
Nimet Kaygusuz, Oscar Mendez, Richard Bowden(参考訳) ビジュアルオドメトリ(VO)推定は、車両の状態推定と自律運転のための重要な情報源である。 近年,深層学習に基づくアプローチが文献に現れ始めている。 しかし、運転においては、環境要因やカメラ配置などにより画質が劣化するため、単一センサベースのアプローチが失敗しがちである。 この問題に対処するために,複数の搭載カメラからの姿勢推定と不確実性推定の両方を用いて車両の動きを推定する深部センサ融合フレームワークを提案する。 ハイブリッドCNN-RNNモデルを用いて、連続した画像の集合から時空間の特徴表現を抽出する。 次に、混合密度ネットワーク(MDN)を用いて6-DoFポーズを分布と融合モジュールの混合として推定し、MDN出力を用いて最終ポーズを推定する。 我々は、利用可能な大規模自動運転車データセットnuScenesに対する我々のアプローチを評価した。 その結果,提案手法は最先端技術を超え,個々のカメラを用いた推定よりもロバストな推定と正確な軌跡が得られた。

Visual Odometry (VO) estimation is an important source of information for vehicle state estimation and autonomous driving. Recently, deep learning based approaches have begun to appear in the literature. However, in the context of driving, single sensor based approaches are often prone to failure because of degraded image quality due to environmental factors, camera placement, etc. To address this issue, we propose a deep sensor fusion framework which estimates vehicle motion using both pose and uncertainty estimations from multiple on-board cameras. We extract spatio-temporal feature representations from a set of consecutive images using a hybrid CNN - RNN model. We then utilise a Mixture Density Network (MDN) to estimate the 6-DoF pose as a mixture of distributions and a fusion module to estimate the final pose using MDN outputs from multi-cameras. We evaluate our approach on the publicly available, large scale autonomous vehicle dataset, nuScenes. The results show that the proposed fusion approach surpasses the state-of-the-art, and provides robust estimates and accurate trajectories compared to individual camera-based estimations.
翻訳日:2021-12-28 16:47:22 公開日:2021-12-23
# ソーシャルメディアテキスト分類のための双方向リカレント神経常微分方程式

Bi-Directional Recurrent Neural Ordinary Differential Equations for Social Media Text Classification ( http://arxiv.org/abs/2112.12809v1 )

ライセンス: Link先を確認
Maunika Tamire, Srinivas Anumasa, P.K. Srijith(参考訳) twitterのようなソーシャルメディアにおける投稿の分類は、テキストのノイズや短い性質のため難しい。 リカレントニューラルネットワーク(RNN)に基づくシーケンス分類モデルは、本質的にシーケンシャルなポストの分類に人気がある。 RNNは、隠された表現力学を離散的に進化させ、ポストの正確な時刻を考慮しないと仮定する。 本研究では,投稿時間を考慮したソーシャルメディアのポスト分類にrnode(recurrent neural ordinary differential equation)を応用し,隠れ表現の計算を時間に敏感な連続的に行うことを提案する。 また,ポストラベルを予測するために,ポストタイムの前後方向の情報フローを考慮した双方向rnode(bi-rnode)を提案する。 実験の結果, RNODE と Bi-RNODE はソーシャルメディアにおける噂の定式化に有効であることがわかった。

Classification of posts in social media such as Twitter is difficult due to the noisy and short nature of texts. Sequence classification models based on recurrent neural networks (RNN) are popular for classifying posts that are sequential in nature. RNNs assume the hidden representation dynamics to evolve in a discrete manner and do not consider the exact time of the posting. In this work, we propose to use recurrent neural ordinary differential equations (RNODE) for social media post classification which consider the time of posting and allow the computation of hidden representation to evolve in a time-sensitive continuous manner. In addition, we propose a novel model, Bi-directional RNODE (Bi-RNODE), which can consider the information flow in both the forward and backward directions of posting times to predict the post label. Our experiments demonstrate that RNODE and Bi-RNODE are effective for the problem of stance classification of rumours in social media.
翻訳日:2021-12-28 16:32:27 公開日:2021-12-23
# グラフによるクラスインクリメンタル学習

Graph Few-shot Class-incremental Learning ( http://arxiv.org/abs/2112.12819v1 )

ライセンス: Link先を確認
Zhen Tan, Kaize Ding, Ruocheng Guo, Huan Liu(参考訳) 新しいクラスを段階的に学ぶ能力は、現実世界のすべての人工知能システムにとって不可欠である。 ソーシャルメディアやレコメンデーションシステム、eコマースプラットフォームなど、影響力の高いアプリケーションの大部分は、グラフモデルで表現することができる。 本稿では,グラフモデルが新たに遭遇したクラスと事前学習したクラスの両方を分類する課題であるgraph few-shot class-incremental(gr aph fcl)問題について検討する。 その目的に向けて,基本クラスから反復的にタスクをサンプリングしてグラフ擬似インクリメンタル学習パラダイムを展開し,インクリメンタル学習スキルを実践するために,モデルに対して任意の数のトレーニングエピソードを生成する。 さらに,階層的アテンションに基づくグラフメタラーニングフレームワークhag-metaを設計する。 本稿では,タスクレベルの注意とノードクラスのプロトタイプから計算したタスクに敏感な正規化器を提案する。 トポロジカルな知識を活用するために,プロトタイプ表現を調整するノードレベルのアテンションモジュールを追加する。 我々のモデルは, 従来の知識統合の安定性を向上するだけでなく, 極めて限られたデータサンプルを用いて, 新たな知識に有利な適応性を得る。 amazon-clothing、reddit、dblpを含む3つの実世界のデータセットに関する広範な実験では、ベースラインや他の関連する最先端のメソッドと比較して、我々のフレームワークが顕著な利点を示している。

The ability to incrementally learn new classes is vital to all real-world artificial intelligence systems. A large portion of high-impact applications like social media, recommendation systems, E-commerce platforms, etc. can be represented by graph models. In this paper, we investigate the challenging yet practical problem, Graph Few-shot Class-incremental (Graph FCL) problem, where the graph model is tasked to classify both newly encountered classes and previously learned classes. Towards that purpose, we put forward a Graph Pseudo Incremental Learning paradigm by sampling tasks recurrently from the base classes, so as to produce an arbitrary number of training episodes for our model to practice the incremental learning skill. Furthermore, we design a Hierarchical-Attenti on-based Graph Meta-learning framework, HAG-Meta. We present a task-sensitive regularizer calculated from task-level attention and node class prototypes to mitigate overfitting onto either novel or base classes. To employ the topological knowledge, we add a node-level attention module to adjust the prototype representation. Our model not only achieves greater stability of old knowledge consolidation, but also acquires advantageous adaptability to new knowledge with very limited data samples. Extensive experiments on three real-world datasets, including Amazon-clothing, Reddit, and DBLP, show that our framework demonstrates remarkable advantages in comparison with the baseline and other related state-of-the-art methods.
翻訳日:2021-12-28 16:32:11 公開日:2021-12-23
# predi\c{c}\~ao de incid\^encia de les\~ao por press\~ao em pacientes de uti usando aprendizado de m\'aquina

Predi\c{c}\~ao de Incid\^encia de Les\~ao por Press\~ao em Pacientes de UTI usando Aprendizado de M\'aquina ( http://arxiv.org/abs/2112.13687v1 )

ライセンス: Link先を確認
Henrique P. Silva, Arthur D. Reys, Daniel S. Severo, Dominique H. Ruther, Fl\'avio A. O. B. Silva, Maria C. S. S. Guimar\~aes, Roberto Z. A. Pinto, Saulo D. S. Pedro, T\'ulio P. Navarro, Danilo Silva(参考訳) 圧力潰瘍はICU患者では高い頻度で発症するが、初期診断では予防可能である。 実際には、高リスク患者を分類するためにブラデン尺度が用いられる。 本稿では,MIMIC-III v1.4で利用可能なデータを用いて,電子健康記録データにおける機械学習の利用について検討する。 2つの主要なコントリビューションは、滞在中に行われたすべての予測を考慮に入れたモデルを評価するための新しいアプローチと、機械学習モデルの新たなトレーニング方法である。 さらに, 精度・リコール曲線のすべての操作点において, すべてのモデルがBradenスケールを超える結果が得られた。 --Les\~oes por press\~ao possuem alta preval\^encia em pacientes de UTI e s\~ao preven\'o serem identificadas em est\'agios iniciais。 ブラデン・パラ・クラスフィカ(Braden para classifica\c{c}\~ao de pacientes em risco)の略。 Este artigo investiga o uso de aprendizado de m'aquina em dados de registros eletr\^onicos para este fim, a partir da base de dados MIMIC-III v1.4。 s\~ao feitas duas contribui\c{c}\~oes principais: uma nova abordagem para a avalia\c{c}\~ao dos modelos e da escala de braden levando em conta todas as predi\c{c}\~oes feitas ao longo das interna\c{c}\~oes, e um novo m\'etodo de treinamento para os modelos de aprendizado de m\'aquina os resultados obtidos superam o estado da arte e verifica-se que os modelos superam significativamente a escala de braden em todos os pontos de opera\c{c}\~ao da curva de precis\~ao por sensibilidade

Pressure ulcers have high prevalence in ICU patients but are preventable if identified in initial stages. In practice, the Braden scale is used to classify high-risk patients. This paper investigates the use of machine learning in electronic health records data for this task, by using data available in MIMIC-III v1.4. Two main contributions are made: a new approach for evaluating models that considers all predictions made during a stay, and a new training method for the machine learning models. The results show a superior performance in comparison to the state of the art; moreover, all models surpass the Braden scale in every operating point in the precision-recall curve. -- -- Les\~oes por press\~ao possuem alta preval\^encia em pacientes de UTI e s\~ao preven\'iveis ao serem identificadas em est\'agios iniciais. Na pr\'atica utiliza-se a escala de Braden para classifica\c{c}\~ao de pacientes em risco. Este artigo investiga o uso de aprendizado de m\'aquina em dados de registros eletr\^onicos para este fim, a partir da base de dados MIMIC-III v1.4. S\~ao feitas duas contribui\c{c}\~oes principais: uma nova abordagem para a avalia\c{c}\~ao dos modelos e da escala de Braden levando em conta todas as predi\c{c}\~oes feitas ao longo das interna\c{c}\~oes, e um novo m\'etodo de treinamento para os modelos de aprendizado de m\'aquina. Os resultados obtidos superam o estado da arte e verifica-se que os modelos superam significativamente a escala de Braden em todos os pontos de opera\c{c}\~ao da curva de precis\~ao por sensibilidade.
翻訳日:2021-12-28 16:24:47 公開日:2021-12-23
# 自然言語生成モデルにおける属性の測定

Measuring Attribution in Natural Language Generation Models ( http://arxiv.org/abs/2112.12870v1 )

ライセンス: Link先を確認
Hannah Rashkin, Vitaly Nikolaev, Matthew Lamm, Michael Collins, Dipanjan Das, Slav Petrov, Gaurav Singh Tomar, Iulia Turc, David Reitter(参考訳) 近年の自然言語生成(NLG)モデルの改良により,NLGの出力が外部世界に関する検証可能な情報のみを共有しているかどうかを識別し,評価する手段が求められている。 本稿では,自然言語生成モデルのアウトプットを評価するために,そのアウトプットが外部世界に関係する場合に帰属する特定ソース(ais)を帰属する新たな評価フレームワークを提案する。 まずAISを定義し,AISガイドラインに従ってアノテータが適切なモデル出力を評価するための2段階のアノテーションパイプラインを導入する。 我々は,AISがモデル生成文が基盤となる情報源によって支持されているかどうかを測る共通の枠組みとして機能する可能性が示唆される3世代データセット(会話QAドメインでは2つ,要約では1つ)において,このアプローチを実証的に検証する。 我々は人間評価研究のガイドラインを公表する。

With recent improvements in natural language generation (NLG) models for various applications, it has become imperative to have the means to identify and evaluate whether NLG output is only sharing verifiable information about the external world. In this work, we present a new evaluation framework entitled Attributable to Identified Sources (AIS) for assessing the output of natural language generation models, when such output pertains to the external world. We first define AIS and introduce a two-stage annotation pipeline for allowing annotators to appropriately evaluate model output according to AIS guidelines. We empirically validate this approach on three generation datasets (two in the conversational QA domain and one in summarization) via human evaluation studies that suggest that AIS could serve as a common framework for measuring whether model-generated statements are supported by underlying sources. We release guidelines for the human evaluation studies.
翻訳日:2021-12-28 16:11:00 公開日:2021-12-23
# 知識グラフ推論のためのデュアルエージェントを用いた歩行学習

Learning to Walk with Dual Agents for Knowledge Graph Reasoning ( http://arxiv.org/abs/2112.12876v1 )

ライセンス: Link先を確認
Denghui Zhang, Zixuan Yuan, Hao Liu, Xiaodong Lin, Hui Xiong(参考訳) 強化学習(RL)に基づくグラフウォーキングは,マルチホップリレーショナルパスを探索することにより,不完全知識グラフ(KG)上の様々な推論タスクを自動的に完了するエージェントのナビゲートに成功している。 しかし、既存のマルチホップ推論アプローチは短い推論経路でのみうまく機能し、経路長が増加すると対象エンティティを見逃してしまう傾向にある。 これは、ソースとターゲットエンティティを繋ぐ短いパスが不完全なkgsでは利用できない現実のシナリオでは、多くの推論タスクでは望ましくないため、エージェントが長い経路からより多くの手がかりを探さない限り、推論のパフォーマンスは劇的に低下する。 この課題に対処するため,本論文では,2人のエージェント(GIANTとDWARF)が共同でKGの上を歩き,協調して回答を探索する,二重エージェント強化学習フレームワークを提案する。 提案手法は,クラスタレベルの経路を素早く探索するエージェント(GIANT)の1つを割り当て,別のエージェント(DWARF)にステージワイドヒントを提供することによって,長い経路における推論課題に対処する。 最後に,いくつかのKG推論ベンチマークによる実験結果から,提案手法はより正確かつ効率的に解を探索できることを示すとともに,従来のRLに基づく長経路探索法よりも大きなマージンで優れていた。

Graph walking based on reinforcement learning (RL) has shown great success in navigating an agent to automatically complete various reasoning tasks over an incomplete knowledge graph (KG) by exploring multi-hop relational paths. However, existing multi-hop reasoning approaches only work well on short reasoning paths and tend to miss the target entity with the increasing path length. This is undesirable for many reason-ing tasks in real-world scenarios, where short paths connecting the source and target entities are not available in incomplete KGs, and thus the reasoning performances drop drastically unless the agent is able to seek out more clues from longer paths. To address the above challenge, in this paper, we propose a dual-agent reinforcement learning framework, which trains two agents (GIANT and DWARF) to walk over a KG jointly and search for the answer collaboratively. Our approach tackles the reasoning challenge in long paths by assigning one of the agents (GIANT) searching on cluster-level paths quickly and providing stage-wise hints for another agent (DWARF). Finally, experimental results on several KG reasoning benchmarks show that our approach can search answers more accurately and efficiently, and outperforms existing RL-based methods for long path queries by a large margin.
翻訳日:2021-12-28 16:05:05 公開日:2021-12-23
# 合成負データを用いたロバスト学習による高密度異常検出

Dense anomaly detection by robust learning on synthetic negative data ( http://arxiv.org/abs/2112.12833v1 )

ライセンス: Link先を確認
Matej Grci\'c, Petra Bevandi\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 標準機械学習は、トレーニング分布に属さない入力を許容できない。 結果のモデルはしばしば、破壊的な結果をもたらす可能性のある確実な誤った予測を引き起こす。 この問題は、入力画像が部分的に異常である可能性があるため、密度予測の文脈で特に要求される。 これまでの研究は、混合コンテンツ画像の識別訓練による濃密な異常検出に対処してきた。 我々はこのアプローチを合成負のパッチで拡張し,高い確率的確率と均一な判別予測を同時に達成する。 我々は,その分布範囲と異なる解像度でサンプルを生成する能力から,流れの正規化を伴う合成陰性を生成する。 また,学習や推論を通じて一貫して適用できる情報理論の原理に従って異常を検出することを提案する。 結果として得られたモデルは、計算オーバーヘッドを最小限に抑えつつも、標準ベンチマークとデータセットの新たな技術を確立し、補助的な負のデータを避けた。

Standard machine learning is unable to accommodate inputs which do not belong to the training distribution. The resulting models often give rise to confident incorrect predictions which may lead to devastating consequences. This problem is especially demanding in the context of dense prediction since input images may be partially anomalous. Previous work has addressed dense anomaly detection by discriminative training on mixed-content images. We extend this approach with synthetic negative patches which simultaneously achieve high inlier likelihood and uniform discriminative prediction. We generate synthetic negatives with normalizing flows due to their outstanding distribution coverage and capability to generate samples at different resolutions. We also propose to detect anomalies according to a principled information-theoreti c criterion which can be consistently applied through training and inference. The resulting models set the new state of the art on standard benchmarks and datasets in spite of minimal computational overhead and refraining from auxiliary negative data.
翻訳日:2021-12-28 16:04:27 公開日:2021-12-23
# 胸部X線画像分類器の性能に及ぼすクラス不均衡の影響の理解

Understanding the impact of class imbalance on the performance of chest x-ray image classifiers ( http://arxiv.org/abs/2112.12843v1 )

ライセンス: Link先を確認
Candelaria Mosquera, Luciana Ferrer, Diego Milone, Daniel Luna, Enzo Ferrante(参考訳) 本研究の目的は,胸部X線分類器の性能に及ぼすクラス不均衡の影響を理解することである。 まず,一般的な科学的実践を分析するための文献研究を行い,(1)不均衡なデータセットを扱う場合であっても,多数派が支配する指標をコミュニティが利用する傾向にあり,(2)胸部x線分類器のキャリブレーション研究を含めることは稀である。 第2に,2つの胸部X線データセットの系統的な実験を行い,異なるクラス比で複数のパフォーマンス指標の挙動を探索し,広く採用されている指標がマイノリティクラスのパフォーマンスを隠蔽できることを示す。 最後に,これらのシナリオにおけるシステムの性能をよりよく反映した,精度・リコール曲線とバランスド・ブライアスコアの2つの代替指標を採用することを提案する。 以上の結果から,胸部X線分類器の研究コミュニティが採用している評価手法は,実際の臨床シナリオにおけるコンピュータ支援診断システムの性能を反映していない可能性が示唆された。

This work aims to understand the impact of class imbalance on the performance of chest x-ray classifiers, in light of the standard evaluation practices adopted by researchers in terms of discrimination and calibration performance. Firstly, we conducted a literature study to analyze common scientific practices and confirmed that: (1) even when dealing with highly imbalanced datasets, the community tends to use metrics that are dominated by the majority class; and (2) it is still uncommon to include calibration studies for chest x-ray classifiers, albeit its importance in the context of healthcare. Secondly, we perform a systematic experiment on two major chest x-ray datasets to explore the behavior of several performance metrics under different class ratios and show that widely adopted metrics can conceal the performance in the minority class. Finally, we propose the adoption of two alternative metrics, the precision-recall curve and the Balanced Brier score, which better reflect the performance of the system in such scenarios. Our results indicate that current evaluation practices adopted by the research community for chest x-ray classifiers may not reflect the performance of such systems for computer-aided diagnosis in real clinical scenarios, and suggest alternatives to improve this situation.
翻訳日:2021-12-28 16:04:13 公開日:2021-12-23
# HSPACE:複雑な環境でアニメーションされた合成パラメトリック人間

HSPACE: Synthetic Parametric Humans Animated in Complex Environments ( http://arxiv.org/abs/2112.12867v1 )

ライセンス: Link先を確認
Eduard Gabriel Bazavan, Andrei Zanfir, Mihai Zanfir, William T. Freeman, Rahul Sukthankar, Cristian Sminchisescu(参考訳) 人間の3Dセンシング技術の現状は、現在、複数の人物が動いたり、現実の環境で活動したり、複雑な照明や隠蔽を受けたり、移動中のカメラで観察されるような、視覚的なデータセットの欠如によって制限されている。 高度化されたシーン理解には、人間のポーズと形状とジェスチャーを推定し、最終的に有用なメートル法と行動信号と自由視点のフォトリアリスティックな視覚的能力を組み合わせた表現が必要である。 複雑な室内・屋外環境に設置したアニメーション人間を対象とした大規模写真リアルデータセットHSPACEを構築した。 さまざまな年齢、性別、比率、民族の数百の個人と、数百の動きとシーンを組み合わせることで、100万フレームを超える最初のデータセットを生成するために、体形(合計1,600人の異なる人間に対して)のパラメトリックなバリエーションを作ります。 ヒトのアニメーションは、表現力のある人体モデルGHUMを人の1つのスキャンに適合させ、続いて、身なりの人間の現実的なアニメーションを支援する新しい再ターゲットと位置決め手順、身体比の統計的変動、複数の移動者の共同的なシーン配置によって得られる。 資産は自動的に生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。 評価サーバを備えたデータセットが研究用に提供される予定だ。 実データと弱い監督との関係で,合成データの影響を大規模に分析した結果,モデル容量の増加に関連して,品質改善の継続とsim-to-realギャップの制限の可能性が示唆された。

Advances in the state of the art for 3d human sensing are currently limited by the lack of visual datasets with 3d ground truth, including multiple people, in motion, operating in real-world environments, with complex illumination or occlusion, and potentially observed by a moving camera. Sophisticated scene understanding would require estimating human pose and shape as well as gestures, towards representations that ultimately combine useful metric and behavioral signals with free-viewpoint photo-realistic visualisation capabilities. To sustain progress, we build a large-scale photo-realistic dataset, Human-SPACE (HSPACE), of animated humans placed in complex synthetic indoor and outdoor environments. We combine a hundred diverse individuals of varying ages, gender, proportions, and ethnicity, with hundreds of motions and scenes, as well as parametric variations in body shape (for a total of 1,600 different humans), in order to generate an initial dataset of over 1 million frames. Human animations are obtained by fitting an expressive human body model, GHUM, to single scans of people, followed by novel re-targeting and positioning procedures that support the realistic animation of dressed humans, statistical variation of body proportions, and jointly consistent scene placement of multiple moving people. Assets are generated automatically, at scale, and are compatible with existing real time rendering and game engines. The dataset with evaluation server will be made available for research. Our large-scale analysis of the impact of synthetic data, in connection with real data and weak supervision, underlines the considerable potential for continuing quality improvements and limiting the sim-to-real gap, in this practical setting, in connection with increased model capacity.
翻訳日:2021-12-28 16:03:50 公開日:2021-12-23
# グラフ注意ネットワークによるBGP異常検出のための多視点フレームワーク

A Multi-View Framework for BGP Anomaly Detection via Graph Attention Network ( http://arxiv.org/abs/2112.12793v1 )

ライセンス: Link先を確認
Songtao Peng, Jiaqi Nie, Xincheng Shu, Zhongyuan Ruan, Lei Wang, Yunxuan Sheng, Qi Xuan(参考訳) インターネット上のルーティング到達可能性情報を交換するためのデフォルトプロトコルとして、border gateway protocol(bgp)のトラフィックの異常挙動は、インターネット異常イベントと密接に関連している。 BGP異常検出モデルは、リアルタイム監視とアラート機能を通じてインターネット上の安定したルーティングサービスを保証する。 これまでの研究では、特徴選択問題やデータのメモリ特性に焦点をあてていたが、特徴と特徴の正確な時間相関(長期依存か短期依存か)を無視していた。 本稿では,bgp更新トラフィックから異常な振る舞いをキャプチャするマルチビューモデルを提案する。このモデルでは,loess (stl) 法を用いた季節的および傾向的分解を元の時系列データのノイズ低減に用い,グラフアテンションネットワーク (gat) を特徴量における特徴関係と時間相関関係の検出に利用する。 その結果, 異常検出タスクにおいて, 平均F1スコアは96.3%, 93.2%, バランスの取れたデータセットでは93.2%であった。 一方、我々のモデルは複数の異常を分類し、未知の事象を検出するために拡張することができる。

As the default protocol for exchanging routing reachability information on the Internet, the abnormal behavior in traffic of Border Gateway Protocols (BGP) is closely related to Internet anomaly events. The BGP anomalous detection model ensures stable routing services on the Internet through its real-time monitoring and alerting capabilities. Previous studies either focused on the feature selection problem or the memory characteristic in data, while ignoring the relationship between features and the precise time correlation in feature (whether it's long or short term dependence). In this paper, we propose a multi-view model for capturing anomalous behaviors from BGP update traffic, in which Seasonal and Trend decomposition using Loess (STL) method is used to reduce the noise in the original time-series data, and Graph Attention Network (GAT) is used to discover feature relationships and time correlations in feature, respectively. Our results outperform the state-of-the-art methods at the anomaly detection task, with the average F1 score up to 96.3% and 93.2% on the balanced and imbalanced datasets respectively. Meanwhile, our model can be extended to classify multiple anomalous and to detect unknown events.
翻訳日:2021-12-28 15:13:24 公開日:2021-12-23
# (参考訳) reach-avoid reinforcement learningによる安全と生活保証 [全文訳有]

Safety and Liveness Guarantees through Reach-Avoid Reinforcement Learning ( http://arxiv.org/abs/2112.12288v1 )

ライセンス: CC BY 4.0
Kai-Chieh Hsu, Vicen\c{c} Rubies-Royo, Claire J. Tomlin, Jaime F. Fisac(参考訳) 到達回避可能な最適制御問題は、システムが許容できない障害モードに近づいたまま特定の目標条件に達する必要があるが、自律ロボットシステムの安全性と生存保証の中心であるが、複雑なダイナミクスや環境においては、それらの厳密な解決策は難解である。 近年の強化学習法の成功により,性能目標を用いた最適制御問題の解法が注目されているが,強化学習におけるラグランジュ型の目的は時間論理の要求を符号化するのに適していない。 近年の研究では、強化学習機械の安全性問題への拡張が期待されているが、その目的は和ではなく、時間とともに最小(あるいは最大)である。 本研究では,強化学習の定式化を一般化し,到達回避圏におけるすべての最適制御問題を扱う。 縮退写像特性を持つ時分割リーチアビドベルマンバックアップを導出し、結果のリーチアビドQ学習アルゴリズムが従来のラグランジュ型問題と類似条件で収束し、リーチアビド集合に任意に厳密な保守近似を与えることを示す。 さらに,モデル予測型スーパーバイザリー制御フレームワークにおいて,近似解を信頼できないオラクルとして扱うことにより,ゼロ違反保証を保ちながら,深層強化学習手法を用いてこの定式化の利用を実証する。 提案手法は, 解析および数値解に対して, 従来は難解であったモンテカルロシミュレーションを用いて, 様々な非線形系の枠組みを検証した。 われわれの結果は、ロボット工学や自動化にまたがる、安全で生き生きとした自律行動のための、学習に基づくさまざまな手法への扉を開く。 コードと補足資料についてはhttps://github.com/s aferoboticslab/safet y_rlを参照。

Reach-avoid optimal control problems, in which the system must reach certain goal conditions while staying clear of unacceptable failure modes, are central to safety and liveness assurance for autonomous robotic systems, but their exact solutions are intractable for complex dynamics and environments. Recent successes in reinforcement learning methods to approximately solve optimal control problems with performance objectives make their application to certification problems attractive; however, the Lagrange-type objective used in reinforcement learning is not suitable to encode temporal logic requirements. Recent work has shown promise in extending the reinforcement learning machinery to safety-type problems, whose objective is not a sum, but a minimum (or maximum) over time. In this work, we generalize the reinforcement learning formulation to handle all optimal control problems in the reach-avoid category. We derive a time-discounted reach-avoid Bellman backup with contraction mapping properties and prove that the resulting reach-avoid Q-learning algorithm converges under analogous conditions to the traditional Lagrange-type problem, yielding an arbitrarily tight conservative approximation to the reach-avoid set. We further demonstrate the use of this formulation with deep reinforcement learning methods, retaining zero-violation guarantees by treating the approximate solutions as untrusted oracles in a model-predictive supervisory control framework. We evaluate our proposed framework on a range of nonlinear systems, validating the results against analytic and numerical solutions, and through Monte Carlo simulation in previously intractable problems. Our results open the door to a range of learning-based methods for safe-and-live autonomous behavior, with applications across robotics and automation. See https://github.com/S afeRoboticsLab/safet y_rl for code and supplementary material.
翻訳日:2021-12-25 02:40:50 公開日:2021-12-23
# (参考訳) 選択的多重電力反復:テンソルpcaから勾配に基づく景観探査へ [全文訳有]

Selective Multiple Power Iteration: from Tensor PCA to gradient-based exploration of landscapes ( http://arxiv.org/abs/2112.12306v1 )

ライセンス: CC BY 4.0
Mohamed Ouerfelli, Mohamed Tamaazousti, Vincent Rivasseau(参考訳) ガウスノイズテンソルである$\bf{z} \in (\mathbb{r}^n)^{\otimes k}$ によって破られたスパイク $\bf{v_0}^{\otimes k}$ から得られる重要なテンソルpca問題に対処するための新しいアルゴリズムであるsmpiを提案し、$\bf{t}=\sqrt{n} \beta \bf{v_0}^{\otimes k} + \bf{z}$ が信号対雑音比 (snr) である。 SMPIは、ランダムな初期化の多項式数を生成し、各初期化に対して対称化されたテンソルパワーイテレーションの多項式数を実行し、次に$\langle \bf{T}, \bf{v}^{\otimes k} \rangle$を選択する。 従来考えられていた範囲$n \leq 1000$の様々な数値シミュレーションは、smpiの実験性能が既存のアルゴリズムによって大幅に向上し、理論的最適回復に匹敵することを示した。 これらの予期せぬ性能は、ノイズが信号の回復に重要な役割を担い、低$\beta$で発生する強力なメカニズムによるものである。 さらに、このメカニズムは、パワーイテレーションに基づく以前のアルゴリズムと区別するSMPIの5つの重要な特徴から生じる。 これらの顕著な結果は、Tensor PCAの実用的および理論的応用に強い影響を与える可能性がある。 i) 低ランクCPテンソル分解に対処するため,本アルゴリズムの変種を提案する。 提案アルゴリズムは,実データにおいても既存の手法よりも優れており,実用的応用に大きな影響を与える可能性がある。 (ii)様々な機械学習問題に存在する高次元非凸景観における最適化のためのsmpiの挙動と勾配降下法に関する新しい理論的知見を提示する。 (iii)これらの結果は,推定された統計的利他的ギャップの存在に関する議論に有用であると考えられる。

We propose Selective Multiple Power Iterations (SMPI), a new algorithm to address the important Tensor PCA problem that consists in recovering a spike $\bf{v_0}^{\otimes k}$ corrupted by a Gaussian noise tensor $\bf{Z} \in (\mathbb{R}^n)^{\otimes k}$ such that $\bf{T}=\sqrt{n} \beta \bf{v_0}^{\otimes k} + \bf{Z}$ where $\beta$ is the signal-to-noise ratio (SNR). SMPI consists in generating a polynomial number of random initializations, performing a polynomial number of symmetrized tensor power iterations on each initialization, then selecting the one that maximizes $\langle \bf{T}, \bf{v}^{\otimes k} \rangle$. Various numerical simulations for $k=3$ in the conventionally considered range $n \leq 1000$ show that the experimental performances of SMPI improve drastically upon existent algorithms and becomes comparable to the theoretical optimal recovery. We show that these unexpected performances are due to a powerful mechanism in which the noise plays a key role for the signal recovery and that takes place at low $\beta$. Furthermore, this mechanism results from five essential features of SMPI that distinguish it from previous algorithms based on power iteration. These remarkable results may have strong impact on both practical and theoretical applications of Tensor PCA. (i) We provide a variant of this algorithm to tackle low-rank CP tensor decomposition. These proposed algorithms also outperforms existent methods even on real data which shows a huge potential impact for practical applications. (ii) We present new theoretical insights on the behavior of SMPI and gradient descent methods for the optimization in high-dimensional non-convex landscapes that are present in various machine learning problems. (iii) We expect that these results may help the discussion concerning the existence of the conjectured statistical-algorith mic gap.
翻訳日:2021-12-25 02:17:58 公開日:2021-12-23
# (参考訳) 多言語タスク指向対話システムにおける対話履歴の検討 [全文訳有]

Investigating Effect of Dialogue History in Multilingual Task Oriented Dialogue Systems ( http://arxiv.org/abs/2112.12318v1 )

ライセンス: CC BY 4.0
Michael Sun, Kaili Huang, and Mehrad Moradshahi(参考訳) 英語のバーチャルアシスタントは膨大なトレーニングリソースでエキサイティングなパフォーマンスを達成したが、非英語話者のニーズは十分に満たされていない。 2021年12月までに、世界で最も人気のあるスマートスピーカーの1つであるAlexaは、9つの異なる言語[1]をサポートすることができる。 しかし、特に低リソース言語では、英語以外の言語での仮想アシスタントのトレーニングは困難であることが多い。 高品質なトレーニングデータがないため、モデルの性能が制限され、ユーザ満足度は低下する。 そこで本研究では,自然言語入力に代えて形式的対話状態を用いるミニマリズム自然言語設計のためのキー設計選択を採用したbitod[5]と同じデータセット生成パイプラインとエンド・ツー・エンド対話システムアーキテクチャを用いて,多言語タスク指向対話システムのための効率的かつ効果的な学習ソリューションを考案する。 これにより、より弱い自然言語モデルによるエラーの余地を減らし、モデルが対話状態追跡(DST)を実行するのに必要なスロット値を正しく抽出できるようにする。 我々のゴールは、各ターンで符号化された自然言語の量を減らすことであり、調査する重要なパラメータは、履歴としてモデル化するターン数(H)である。 まず、hの増加が全体的なパフォーマンスに限界のリターンをもたらし始めるターニングポイントを調べます。 次に、hが小さいモデルが間違っている場合の例を、モデルが数秒の微調整を行う方法で分類できるかどうかを調べる。 最後に、このアプローチの限界と、このアプローチが解決できない特定の種類の例があるかどうかについて検討する。

While the English virtual assistants have achieved exciting performance with an enormous amount of training resources, the needs of non-English-speakers have not been satisfied well. Up to Dec 2021, Alexa, one of the most popular smart speakers around the world, is able to support 9 different languages [1], while there are thousands of languages in the world, 91 of which are spoken by more than 10 million people according to statistics published in 2019 [2]. However, training a virtual assistant in other languages than English is often more difficult, especially for those low-resource languages. The lack of high-quality training data restricts the performance of models, resulting in poor user satisfaction. Therefore, we devise an efficient and effective training solution for multilingual task-orientated dialogue systems, using the same dataset generation pipeline and end-to-end dialogue system architecture as BiToD[5], which adopted some key design choices for a minimalistic natural language design where formal dialogue states are used in place of natural language inputs. This reduces the room for error brought by weaker natural language models, and ensures the model can correctly extract the essential slot values needed to perform dialogue state tracking (DST). Our goal is to reduce the amount of natural language encoded at each turn, and the key parameter we investigate is the number of turns (H) to feed as history to model. We first explore the turning point where increasing H begins to yield limiting returns on the overall performance. Then we examine whether the examples a model with small H gets wrong can be categorized in a way for the model to do few-shot finetuning on. Lastly, will explore the limitations of this approach, and whether there is a certain type of examples that this approach will not be able to resolve.
翻訳日:2021-12-25 01:54:38 公開日:2021-12-23
# (参考訳) 近縁なニュースとユーザコメントに対する感情分析を用いた電気自動車の議論の意味 [全文訳有]

Making sense of electrical vehicle discussions using sentiment analysis on closely related news and user comments ( http://arxiv.org/abs/2112.12327v1 )

ライセンス: CC BY 4.0
Josh Everts and Xuan Jiang(参考訳) 我々は、教師なしモデルと教師なしモデルの両方を、ニュースおよびユーザレビューデータセットに適用したトークン単位および文書単位の感情分析を使用した。 トークン単位の感情分析では2つのグループ(どちらも非常に大きなN)の感情に統計的に有意な差がみられ、文書単位の感情分析では感情に有意な差は認められなかった。

We used a token-wise and document-wise sentiment analysis using both unsupervised and supervised models applied to both news and user reviews dataset. And our token-wise sentiment analysis found a statistically significant difference in sentiment between the two groups (both of which were very large N), our document-wise supervised sentiment analysis found no significant difference in sentiment.
翻訳日:2021-12-25 01:46:54 公開日:2021-12-23
# (参考訳) ランダムテンソルがランダム行列と交わるとき

When Random Tensors meet Random Matrices ( http://arxiv.org/abs/2112.12348v1 )

ライセンス: CC BY 4.0
Mohamed El Amine Seddik and Maxime Guillaud and Romain Couillet(参考訳) ランダム行列理論(RMT)に基づき、ガウス雑音を伴う非対称次数d$スパイクテンソルモデルを研究する。 特異ベクトルの変分的定義と [lim, 2005] の値を用いることで、考察されたモデルの解析は、最良階数-1近似に付随する特異ベクトルを持つテンソルの \textit{contractions} から構築される等価なスパイク対称な \textit{block-wise} 確率行列の解析へとボイルダウンすることを示した。 我々のアプローチは、$n_i$ がテンソル次元を持つ $\frac{n_i}{\sum_{j=1}^d n_j}\to c_i\in [0, 1]$ のとき、対応する特異ベクトルのほぼ確実に漸近特異値と真のスパイク成分とのアライメントを正確に特徴づけることができる。 統計物理学からランダムテンソルを研究するツールに大きく依存する他の研究とは対照的に、我々の結果はスタインの補題のような古典的なRTTツールにのみ依存する。 最後に、スパイクランダム行列に関する古典rmt結果を特定の場合として復元する。

Relying on random matrix theory (RMT), this paper studies asymmetric order-$d$ spiked tensor models with Gaussian noise. Using the variational definition of the singular vectors and values of [Lim, 2005], we show that the analysis of the considered model boils down to the analysis of an equivalent spiked symmetric \textit{block-wise} random matrix, that is constructed from \textit{contractions} of the studied tensor with the singular vectors associated to its best rank-1 approximation. Our approach allows the exact characterization of the almost sure asymptotic singular value and alignments of the corresponding singular vectors with the true spike components, when $\frac{n_i}{\sum_{j=1}^d n_j}\to c_i\in [0, 1]$ with $n_i$'s the tensor dimensions. In contrast to other works that rely mostly on tools from statistical physics to study random tensors, our results rely solely on classical RMT tools such as Stein's lemma. Finally, classical RMT results concerning spiked random matrices are recovered as a particular case.
翻訳日:2021-12-25 01:40:00 公開日:2021-12-23
# (参考訳) LAME:研究論文のためのレイアウト対応メタデータ抽出手法 [全文訳有]

LAME: Layout Aware Metadata Extraction Approach for Research Articles ( http://arxiv.org/abs/2112.12353v1 )

ライセンス: CC BY 4.0
Jongyun Choi, Hyesoo Kong, Hwamook Yoon, Heung-Seon Oh, Yuchul Jung(参考訳) 学術会議論文や雑誌などの学術文献の量は世界中で急速に増加しており、メタデータ抽出の研究が進行中である。 しかし,ジャーナルパブリッシャによるレイアウトの多様さから,高パフォーマンスなメタデータ抽出はいまだに困難である。 学術誌のレイアウトの多様性に対応するため,3つの特徴(自動レイアウト解析の設計,大規模メタデータトレーニングセットの構築,レイアウト-メタデータ抽出(Layout-MetaBERT)の構築など)を備えた新しいLayout-aware Metadata extract(LAME)フレームワークを提案する。 我々はPDFMinerを用いた自動レイアウト解析を設計した。 レイアウト分析に基づいて、タイトル、要約、著者名、著者関連組織、キーワードを含むメタデータ分離トレーニングデータを大量に自動抽出した。 さらに,Layout-MetaBERTを構築し,学術誌から様々なレイアウト形式でメタデータを抽出した。 Layout-MetaBERTの実験結果は、レイアウトの異なる未確認ジャーナルのメタデータ抽出における堅牢なパフォーマンス(Macro-F1, 93.27%)を示した。

The volume of academic literature, such as academic conference papers and journals, has increased rapidly worldwide, and research on metadata extraction is ongoing. However, high-performing metadata extraction is still challenging due to diverse layout formats according to journal publishers. To accommodate the diversity of the layouts of academic journals, we propose a novel LAyout-aware Metadata Extraction (LAME) framework equipped with the three characteristics (e.g., design of an automatic layout analysis, construction of a large meta-data training set, and construction of Layout-MetaBERT). We designed an automatic layout analysis using PDFMiner. Based on the layout analysis, a large volume of metadata-separated training data, including the title, abstract, author name, author affiliated organization, and keywords, were automatically extracted. Moreover, we constructed Layout-MetaBERT to extract the metadata from academic journals with varying layout formats. The experimental results with Layout-MetaBERT exhibited robust performance (Macro-F1, 93.27%) in metadata extraction for unseen journals with different layout formats.
翻訳日:2021-12-25 01:38:37 公開日:2021-12-23
# (参考訳) 変分レベル集合をもつ画像セグメンテーションに対するランダム点初期化法 [全文訳有]

A Random Point Initialization Approach to Image Segmentation with Variational Level-sets ( http://arxiv.org/abs/2112.12355v1 )

ライセンス: CC BY 4.0
J.N. Mueller, J.N. Corcoran(参考訳) 画像分割は多くの画像処理やコンピュータビジョンタスクで不可欠な要素である。 画像セグメンテーションの第一の目的は、画像を簡易に解析しやすくすることであり、これを実現するには、特定の既知のオブジェクトの境界を抽出するエッジベースの方法と、統計的に均一な領域に分割する領域ベースの方法の2つの幅広いアプローチがある。 レベルセット法として知られる、より顕著なエッジ発見手法の1つは、輪郭がオブジェクトの境界に収束するまで、勾配降下を伴う画像平面のゼロレベル輪郭を進化させる。 古典的なレベルセット法とその変種は実画像のセグメンテーションに成功しているが、画像の事前知識がなくても画像平面のノイズの多い領域で立ち往生し易く、対象外界の場所を超える詳細を提供することができない。 乱数点初期化を用いてオブジェクト境界を迅速に検出できる可変レベルセット画像分割法の改良を提案する。 実画像上での手法の性能をCanny法と比較することにより,提案手法の有効性を実証する。

Image segmentation is an essential component in many image processing and computer vision tasks. The primary goal of image segmentation is to simplify an image for easier analysis, and there are two broad approaches for achieving this: edge based methods, which extract the boundaries of specific known objects, and region based methods, which partition the image into regions that are statistically homogeneous. One of the more prominent edge finding methods, known as the level set method, evolves a zero-level contour in the image plane with gradient descent until the contour has converged to the object boundaries. While the classical level set method and its variants have proved successful in segmenting real images, they are susceptible to becoming stuck in noisy regions of the image plane without a priori knowledge of the image and they are unable to provide details beyond object outer boundary locations. We propose a modification to the variational level set image segmentation method that can quickly detect object boundaries by making use of random point initialization. We demonstrate the efficacy of our approach by comparing the performance of our method on real images to that of the prominent Canny Method.
翻訳日:2021-12-25 01:27:10 公開日:2021-12-23
# (参考訳) 新規物体学習のためのデュアルパス構造コントラスト埋め込み [全文訳有]

Dual Path Structural Contrastive Embeddings for Learning Novel Objects ( http://arxiv.org/abs/2112.12359v1 )

ライセンス: CC BY 4.0
Bingbin Li, Elvis Han Cui, Yanan Li, Donghui Wang, Weng Wong(参考訳) 少数のラベル付きサンプルから新しいクラスを学ぶことは、機械学習領域で注目を集めている。 メタラーニングベースあるいはトランスファーラーニングベースのパラダイムに関する最近の研究は、優れた機能空間に関する情報を得ることが、少ないタスクで良好なパフォーマンスを達成するための効果的な解決策であることを示している。 本稿では,特徴表現と分類器のタスクを分離し,典型的な伝達学習学習戦略を通じて,基本クラスからのみ特徴埋め込みアーキテクチャを学習する,単純だが効果的なパラダイムを提案する。 基本クラスと新しいクラスをまたいだ一般化能力とクラス内の識別能力の両方を維持するため,構造的類似性とコントラスト的特徴構成を効果的に組み合わせたデュアルパス特徴学習手法を提案する。 このように、内部クラスのアライメントとクラス間の均一性はバランスよく保たれ、性能が向上する。 3つの一般的なベンチマーク実験により、単純なプロトタイプベース分類器を組み込んだ場合、インダクティブ推論とトランスダクティブ推論のいずれにおいても、標準および一般化された少数ショット問題に対して有望な結果が得られることが示された。

Learning novel classes from a very few labeled samples has attracted increasing attention in machine learning areas. Recent research on either meta-learning based or transfer-learning based paradigm demonstrates that gaining information on a good feature space can be an effective solution to achieve favorable performance on few-shot tasks. In this paper, we propose a simple but effective paradigm that decouples the tasks of learning feature representations and classifiers and only learns the feature embedding architecture from base classes via the typical transfer-learning training strategy. To maintain both the generalization ability across base and novel classes and discrimination ability within each class, we propose a dual path feature learning scheme that effectively combines structural similarity with contrastive feature construction. In this way, both inner-class alignment and inter-class uniformity can be well balanced, and result in improved performance. Experiments on three popular benchmarks show that when incorporated with a simple prototype based classifier, our method can still achieve promising results for both standard and generalized few-shot problems in either an inductive or transductive inference setting.
翻訳日:2021-12-25 01:16:49 公開日:2021-12-23
# (参考訳) 圧縮通信を用いた分散マルチタスク確率最適化

Decentralized Multi-Task Stochastic Optimization With Compressed Communications ( http://arxiv.org/abs/2112.12373v1 )

ライセンス: CC BY 4.0
Navjot Singh, Xuanyu Cao, Suhas Diggavi, Tamer Basar(参考訳) 本稿では,各ノードが確率的(局所的な)コスト関数を持ち,そのノードの決定変数とランダム変数に依存するマルチエージェントネットワークについて考察する。 ノードにおける局所的コスト関数の期待値の加算として構成されたネットワークの集合客観関数があり、ネットワークの全体的な目標は、全ての対の制約を受けるこの集合客観関数に対する最小化解を得ることである。 これは分散情報とローカル計算を使ってノードレベルで実現され、隣のノードが許可する圧縮された情報だけを交換する。 本稿では,ノードにおけるローカル情報可用性の2つのモデルに対して,アルゴリズムを開発し,性能境界を求める。 (i)各ノードが局所確率変数のサンプルに直接アクセスして局所コストを評価するサンプルフィードバック、及び (ii) 確率変数のサンプルが得られないバンディットフィードバックであるが、決定に近い2つの確率点における局所コスト関数の値のみが各ノードで利用可能である。 両モデルとも, 隣人との通信を圧縮した分散サドルポイントアルゴリズムを開発し, 通信圧縮を伴わない性能を(順序的に)実現した。具体的には, 大域的最小値からの偏差と制約違反は, $\mathcal{O}(T^{-\frac{1}{2}})$ と $\mathcal{O}(T^{-\frac{1}{4}})$ で上界し, ここでは$T$ が反復数であることを示す。 論文で提示された数値例では,これらの境界をコラボレートし,提案手法の通信効率を示す。

We consider a multi-agent network where each node has a stochastic (local) cost function that depends on the decision variable of that node and a random variable, and further the decision variables of neighboring nodes are pairwise constrained. There is an aggregate objective function for the network, composed additively of the expected values of the local cost functions at the nodes, and the overall goal of the network is to obtain the minimizing solution to this aggregate objective function subject to all the pairwise constraints. This is to be achieved at the node level using decentralized information and local computation, with exchanges of only compressed information allowed by neighboring nodes. The paper develops algorithms and obtains performance bounds for two different models of local information availability at the nodes: (i) sample feedback, where each node has direct access to samples of the local random variable to evaluate its local cost, and (ii) bandit feedback, where samples of the random variables are not available, but only the values of the local cost functions at two random points close to the decision are available to each node. For both models, with compressed communication between neighbors, we have developed decentralized saddle-point algorithms that deliver performances no different (in order sense) from those without communication compression; specifically, we show that deviation from the global minimum value and violations of the constraints are upper-bounded by $\mathcal{O}(T^{-\frac{1}{2}})$ and $\mathcal{O}(T^{-\frac{1}{4}})$, respectively, where $T$ is the number of iterations. Numerical examples provided in the paper corroborate these bounds and demonstrate the communication efficiency of the proposed method.
翻訳日:2021-12-25 00:46:22 公開日:2021-12-23
# (参考訳) 両レベル最適化レンズによる高速対人訓練の見直しと改善 [全文訳有]

Revisiting and Advancing Fast Adversarial Training Through The Lens of Bi-Level Optimization ( http://arxiv.org/abs/2112.12376v1 )

ライセンス: CC BY 4.0
Yihua Zhang, Guanhuan Zhang, Prashant Khanduri, Mingyi Hong, Shiyu Chang, Sijia Liu(参考訳) 敵陣訓練(AT)は、敵陣攻撃に対するディープニューラルネットワークの堅牢性を改善するための防御メカニズムとして広く認知されている。 最小化器(すなわちディフェンダー)は、最大化器(すなわち攻撃者)が作成した敵の例の存在下で、最悪の場合のトレーニング損失を最小限に抑えるためのロバストなモデルを求める。 しかし、min-maxの性質は計算量が多いためスケールが難しい。 一方、FAST-ATアルゴリズムや、ATを改善する最近の多くのアルゴリズムは、その最大化ステップを単純なワンショット勾配符号ベースの攻撃生成ステップに置き換えることで、min-maxベースのATを単純化している。 実装は容易ではあるが、fast-atは理論的な保証が欠けており、その実用性は不十分であり、強力な敵とのトレーニングにおいて強固な破壊的過剰に苦しむ。 本稿では,双方向最適化(BLO)の観点からFAST-ATの設計を提案する。 まず,fast-atの最も一般的なアルゴリズム仕様は,符号操作を含む二値問題を解くための勾配降下型アルゴリズムと等価であることを示す。 しかし、符号操作の離散性はアルゴリズムの性能を理解するのを難しくしている。 そこで本研究では,Fast Bi-level AT (FAST-BAT) と呼ばれる新しいアルゴリズムの設計と解析を行う。 FAST-BATは、グラデーションサインメソッドや明示的なロバストな正規化を呼ばずに、符号ベースの投射勾配降下(PGD)攻撃を防御することができる。 さらに,本手法は, 従来のFAST-ATベースラインよりも優れたモデルロバスト性を実現し, 破滅的なオーバーフィッティングを誘発せず, あるいは標準精度の低下に悩まされることを実証的に示す。

Adversarial training (AT) has become a widely recognized defense mechanism to improve the robustness of deep neural networks against adversarial attacks. It solves a min-max optimization problem, where the minimizer (i.e., defender) seeks a robust model to minimize the worst-case training loss in the presence of adversarial examples crafted by the maximizer (i.e., attacker). However, the min-max nature makes AT computationally intensive and thus difficult to scale. Meanwhile, the FAST-AT algorithm, and in fact many recent algorithms that improve AT, simplify the min-max based AT by replacing its maximization step with the simple one-shot gradient sign based attack generation step. Although easy to implement, FAST-AT lacks theoretical guarantees, and its practical performance can be unsatisfactory, suffering from the robustness catastrophic overfitting when training with strong adversaries. In this paper, we propose to design FAST-AT from the perspective of bi-level optimization (BLO). We first make the key observation that the most commonly-used algorithmic specification of FAST-AT is equivalent to using some gradient descent-type algorithm to solve a bi-level problem involving a sign operation. However, the discrete nature of the sign operation makes it difficult to understand the algorithm performance. Based on the above observation, we propose a new tractable bi-level optimization problem, design and analyze a new set of algorithms termed Fast Bi-level AT (FAST-BAT). FAST-BAT is capable of defending sign-based projected gradient descent (PGD) attacks without calling any gradient sign method and explicit robust regularization. Furthermore, we empirically show that our method outperforms state-of-the-art FAST-AT baselines, by achieving superior model robustness without inducing robustness catastrophic overfitting, or suffering from any loss of standard accuracy.
翻訳日:2021-12-25 00:44:51 公開日:2021-12-23
# (参考訳) DD-NeRF:2次元拡散型ニューラルラジアンス場 [全文訳有]

DD-NeRF: Double-Diffusion Neural Radiance Field as a Generalizable Implicit Body Representation ( http://arxiv.org/abs/2112.12390v1 )

ライセンス: CC BY 4.0
Guangming Yao, Hongzhi Wu, Yi Yuan, Kun Zhou(参考訳) 本稿では,人体形状と外見を任意の入力ビューから表現するための新しい一般化可能な暗黙の場DD-NeRFを提案する。 中心となる貢献は二重拡散機構であり、スパース畳み込みニューラルネットワークを利用して、人体を異なるレベルに表現する2つのボリュームを構築する。 粗い体容積は、固定されていない変形可能なメッシュを利用して、大規模な幾何学的ガイダンスを提供し、細部の特徴容積は、局所的な画像特徴から複雑な幾何学を学ぶ。 また,画像の特徴や生画素を視界に集約するトランスフォーマーネットワークを用いて,最終的な高忠実放射場を演算する。 様々なデータセットの実験により,提案手法は幾何再構成と新規なビュー合成品質の両方において,従来よりも優れた性能を示した。

We present DD-NeRF, a novel generalizable implicit field for representing human body geometry and appearance from arbitrary input views. The core contribution is a double diffusion mechanism, which leverages the sparse convolutional neural network to build two volumes that represent a human body at different levels: a coarse body volume takes advantage of unclothed deformable mesh to provide the large-scale geometric guidance, and a detail feature volume learns the intricate geometry from local image features. We also employ a transformer network to aggregate image features and raw pixels across views, for computing the final high-fidelity radiance field. Experiments on various datasets show that the proposed approach outperforms previous works in both geometry reconstruction and novel view synthesis quality.
翻訳日:2021-12-25 00:16:48 公開日:2021-12-23
# (参考訳) 差分プライバシーを用いた分散コンピューティングにおけるデータ依存通信からの漏洩の軽減 [全文訳有]

Mitigating Leakage from Data Dependent Communications in Decentralized Computing using Differential Privacy ( http://arxiv.org/abs/2112.12411v1 )

ライセンス: CC BY 4.0
Riad Ladjel, Nicolas Anciaux, Aur\'elien Bellet, Guillaume Scerri(参考訳) データ分析や機械学習の計算の結果、社会的に有用な情報を生み出すための共通の利益のために、個人データをまとめて貢献しようとする市民のグループを想像してください。 計算を行う中央サーバと生の個人データを共有することは、プライバシーと大量監視のリスクを懸念させる可能性がある。 代わりに、市民は互いに信頼し、自身のデバイスが分散計算に関わり、共有する集約データリリースを共同生成することができる。 セキュアなコンピューティングノードが実行時にセキュアなチャネル上でメッセージを交換する状況において、重要なセキュリティ問題はトラフィックを監視している外部攻撃者から保護することであり、データに依存すると個人情報が明らかになる可能性がある。 既存のソリューションはクラウド設定用に設計されており、基盤となるデータセットのすべてのプロパティを隠すことを目的としている。 本稿では,グローバル実行計画における通信パターンに対する差分プライバシー保証を,ノードのローカルクラスタで得られる保証を組み合わせることで解析できる,ユーザ側分散計算における通信データ依存を制御する汎用実行モデルを定義する。 プライバシ,ユーティリティ,効率のトレードオフを可能にするアルゴリズムのセットを提案する。 我々の公式なプライバシー保証は、シャッフルによるプライバシー強化に関する最近の結果を活用および拡張します。 データ依存型通信を用いた分散実行計画の2つの代表的な例について,本提案の有効性について述べる。

Imagine a group of citizens willing to collectively contribute their personal data for the common good to produce socially useful information, resulting from data analytics or machine learning computations. Sharing raw personal data with a centralized server performing the computation could raise concerns about privacy and a perceived risk of mass surveillance. Instead, citizens may trust each other and their own devices to engage into a decentralized computation to collaboratively produce an aggregate data release to be shared. In the context of secure computing nodes exchanging messages over secure channels at runtime, a key security issue is to protect against external attackers observing the traffic, whose dependence on data may reveal personal information. Existing solutions are designed for the cloud setting, with the goal of hiding all properties of the underlying dataset, and do not address the specific privacy and efficiency challenges that arise in the above context. In this paper, we define a general execution model to control the data-dependence of communications in user-side decentralized computations, in which differential privacy guarantees for communication patterns in global execution plans can be analyzed by combining guarantees obtained on local clusters of nodes. We propose a set of algorithms which allow to trade-off between privacy, utility and efficiency. Our formal privacy guarantees leverage and extend recent results on privacy amplification by shuffling. We illustrate the usefulness of our proposal on two representative examples of decentralized execution plans with data-dependent communications.
翻訳日:2021-12-25 00:05:23 公開日:2021-12-23
# (参考訳) 顔が深い信念を反映する―顔の感情認識による人格とモラルの予測 [全文訳有]

Your Face Mirrors Your Deepest Beliefs-Predicting Personality and Morals through Facial Emotion Recognition ( http://arxiv.org/abs/2112.12455v1 )

ライセンス: CC BY 4.0
P. A. Gloor, A. Fronzetti Colladon, E. Altuntas, C. Cetinkaya, M. F. Kaiser, L. Ripperger, T. Schaefer(参考訳) 本当に"目の中で心を読む"ことができるのか? さらに、AIはこのタスクを助けてくれますか? 本稿では、顔に基づいて個人の性格特性を予測する機械学習システムを導入することで、これらの2つの疑問に答える。 それは、さまざまなジャンルの15の短いビデオを見ながら、顔の感情認識(fer)を通じて個人の顔の感情反応を追跡することによって行われる。 システムを校正するために、85人を招待して動画を視聴し、その感情的反応を表情で分析した。 同時に、これらの個人は、改定されたneo ffiパーソナリティインベントリ、haidt moral foundations test、schwartz personal value system、domain-specific risk-take scale(dospert)という4つの優れた調査を行った。 その結果,個人の性格特性とモラル価値は,顔に映るビデオに対する感情的反応によって予測でき,勾配ブースト木を用いて86%の精度で予測できることがわかった。 また,異なる個性特性が異なるビデオで予測されるのが良いことがわかった。言い換えれば,すべての個性特性に対して正確な予測を行う単一のビデオは存在しないが,正確な予測を可能にする異なるビデオの混合に対する反応である。

Can we really "read the mind in the eyes"? Moreover, can AI assist us in this task? This paper answers these two questions by introducing a machine learning system that predicts personality characteristics of individuals on the basis of their face. It does so by tracking the emotional response of the individual's face through facial emotion recognition (FER) while watching a series of 15 short videos of different genres. To calibrate the system, we invited 85 people to watch the videos, while their emotional responses were analyzed through their facial expression. At the same time, these individuals also took four well-validated surveys of personality characteristics and moral values: the revised NEO FFI personality inventory, the Haidt moral foundations test, the Schwartz personal value system, and the domain-specific risk-taking scale (DOSPERT). We found that personality characteristics and moral values of an individual can be predicted through their emotional response to the videos as shown in their face, with an accuracy of up to 86% using gradient-boosted trees. We also found that different personality characteristics are better predicted by different videos, in other words, there is no single video that will provide accurate predictions for all personality characteristics, but it is the response to the mix of different videos that allows for accurate prediction.
翻訳日:2021-12-24 23:20:46 公開日:2021-12-23
# (参考訳) 深部強化学習に基づく動的障害物回避における速度情報の欠落の影響 [全文訳有]

The Impact of Missing Velocity Information in Dynamic Obstacle Avoidance based on Deep Reinforcement Learning ( http://arxiv.org/abs/2112.12465v1 )

ライセンス: CC BY 4.0
Fabian Hart, Martin Waltz, Ostap Okhrin(参考訳) 本稿では,複雑な交通型独立環境を定義することにより,深層強化学習に基づく動的障害物回避手法を提案する。 現在の文献のギャップを埋めるため,障害物回避作業におけるエージェントの性能に及ぼす速度情報不足の影響を徹底的に検討した。 これは実際に重要な問題であり、いくつかのセンサーは物体や車両の位置情報しか得られない。 我々は、部分観測可能性のシナリオ、すなわちディープニューラルネットワークにおける繰り返しの取り込みと単純なフレームスタッキングにおける頻繁な適用アプローチを評価する。 我々の分析では、最先端のモデルフリーディープRLアルゴリズムに頼っている。 速度情報の欠如はエージェントのパフォーマンスに大きな影響を与えることが分かる。 繰り返しとフレームスタッキングの両方のアプローチは、観測空間における欠落した速度情報を一貫して置き換えることはできない。 しかし、単純なシナリオでは、パフォーマンスを著しく向上させ、全体的なトレーニング手順を安定化させることができる。

We introduce a novel approach to dynamic obstacle avoidance based on Deep Reinforcement Learning by defining a traffic type independent environment with variable complexity. Filling a gap in the current literature, we thoroughly investigate the effect of missing velocity information on an agent's performance in obstacle avoidance tasks. This is a crucial issue in practice since several sensors yield only positional information of objects or vehicles. We evaluate frequently-applied approaches in scenarios of partial observability, namely the incorporation of recurrency in the deep neural networks and simple frame-stacking. For our analysis, we rely on state-of-the-art model-free deep RL algorithms. The lack of velocity information is found to significantly impact the performance of an agent. Both approaches - recurrency and frame-stacking - cannot consistently replace missing velocity information in the observation space. However, in simplified scenarios, they can significantly boost performance and stabilize the overall training procedure.
翻訳日:2021-12-24 21:29:02 公開日:2021-12-23
# (参考訳) TFW2V: 形態的にリッチなフィンランド語の文書類似性向上手法 [全文訳有]

TFW2V: An Enhanced Document Similarity Method for the Morphologically Rich Finnish Language ( http://arxiv.org/abs/2112.12489v1 )

ライセンス: CC BY 4.0
Quan Duong, Mika H\"am\"al\"ainen, Khalid Alnajjar(参考訳) 異なるテキストの意味的類似性を測定することは、情報検索、文書クラスタリング、テキスト要約などのデジタル人文科学研究において重要な応用となっている。 異なるメソッドのパフォーマンスは、テキストの長さ、ドメイン、言語に依存します。 本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。 同時に、長いテキスト文書と限られた量のデータの両方を扱う上で高い効率性を示す簡易な方法TFW2Vを提案する。 さらに,テキスト類似性をベンチマークするためのフレームワークとして利用できる客観的評価手法を設計する。

Measuring the semantic similarity of different texts has many important applications in Digital Humanities research such as information retrieval, document clustering and text summarization. The performance of different methods depends on the length of the text, the domain and the language. This study focuses on experimenting with some of the current approaches to Finnish, which is a morphologically rich language. At the same time, we propose a simple method, TFW2V, which shows high efficiency in handling both long text documents and limited amounts of data. Furthermore, we design an objective evaluation method which can be used as a framework for benchmarking text similarity approaches.
翻訳日:2021-12-24 21:05:23 公開日:2021-12-23
# (参考訳) latr: シーンテキストvqaのためのレイアウト対応トランスフォーマー [全文訳有]

LaTr: Layout-Aware Transformer for Scene-Text VQA ( http://arxiv.org/abs/2112.12494v1 )

ライセンス: CC BY 4.0
Ali Furkan Biten, Ron Litman, Yusheng Xie, Srikar Appalaraju, R. Manmatha(参考訳) 本稿では,Scene Text Visual Question Answering (STVQA) のための新しいマルチモーダルアーキテクチャ,Layout-Aware Transformer (LaTr) を提案する。 STVQAのタスクは、異なるモダリティを推論するモデルを必要とする。 そこで我々はまず,各モダリティの影響を調査し,特にレイアウト情報に富んだ言語モジュールの重要性を明らかにする。 そこで本研究では,テキストと空間的手がかりのみを必要とする単目的事前学習方式を提案する。 スキャンした文書にこの事前学習方式を適用することは、ドメイン間差にもかかわらず、自然画像を使用するよりも一定の利点があることを示す。 スキャンされた文書は調達が容易で、テキストセンスがあり、様々なレイアウトを持ち、言語とレイアウト情報を結びつけることで、モデルが様々な空間的手がかり(例えば左、下等)を学ぶのを助ける。 既存の手法と比較すると,この手法は語彙を含まない復号化を行い,訓練語彙をはるかに一般化する。 さらに我々は,LaTrがOCRエラーに対する堅牢性を改善することを実証した。 さらに,視覚変換器を活用することで,外部物体検出装置の必要性を解消する。 LaTrは、複数のデータセット上で最先端のSTVQAメソッドより優れている。 特に、TextVQAでは+7.6%、ST-VQAでは+10.8%、OCR-VQAでは+4.0%である。

We propose a novel multimodal architecture for Scene Text Visual Question Answering (STVQA), named Layout-Aware Transformer (LaTr). The task of STVQA requires models to reason over different modalities. Thus, we first investigate the impact of each modality, and reveal the importance of the language module, especially when enriched with layout information. Accounting for this, we propose a single objective pre-training scheme that requires only text and spatial cues. We show that applying this pre-training scheme on scanned documents has certain advantages over using natural images, despite the domain gap. Scanned documents are easy to procure, text-dense and have a variety of layouts, helping the model learn various spatial cues (e.g. left-of, below etc.) by tying together language and layout information. Compared to existing approaches, our method performs vocabulary-free decoding and, as shown, generalizes well beyond the training vocabulary. We further demonstrate that LaTr improves robustness towards OCR errors, a common reason for failure cases in STVQA. In addition, by leveraging a vision transformer, we eliminate the need for an external object detector. LaTr outperforms state-of-the-art STVQA methods on multiple datasets. In particular, +7.6% on TextVQA, +10.8% on ST-VQA and +4.0% on OCR-VQA (all absolute accuracy numbers).
翻訳日:2021-12-24 20:53:45 公開日:2021-12-23
# (参考訳) 集中型多視点深部部分空間クラスタリングネット [全文訳有]

Attentive Multi-View Deep Subspace Clustering Net ( http://arxiv.org/abs/2112.12506v1 )

ライセンス: CC BY 4.0
Run-kun Lu, Jian-wei Liu, Xin Zuo(参考訳) 本稿では,注意機構によって得られた各視点の動的貢献を考慮し,複数視点の一貫性とビュー特有の情報を深く探究し,それらを融合する,新しい注意型多視点深層部分空間ネット(amvdsn)を提案する。 Unlike most multi-view subspace learning methods that they directly reconstruct data points on raw data or only consider consistency or complementarity when learning representation in deep or shallow space, our proposed method seeks to find a joint latent representation that explicitly considers both consensus and view-specific information among multiple views, and then performs subspace clustering on learned joint latent representation.Besid es, different views contribute differently to representation learning, we therefore introduce attention mechanism to derive dynamic weight for each view, which performs much better than previous fusion methods in the field of multi-view subspace clustering. 提案手法は直感的であり,従来の部分空間クラスタリング手法に比べて強い非線形キャラクタリゼーション能力を提供するニューラルネットワークフレームワークにより,確率勾配降下 (sgd) を用いるだけで容易に最適化できる。 7つの実世界のデータセットに対する実験結果から,提案手法の有効性が示された。

In this paper, we propose a novel Attentive Multi-View Deep Subspace Nets (AMVDSN), which deeply explores underlying consistent and view-specific information from multiple views and fuse them by considering each view's dynamic contribution obtained by attention mechanism. Unlike most multi-view subspace learning methods that they directly reconstruct data points on raw data or only consider consistency or complementarity when learning representation in deep or shallow space, our proposed method seeks to find a joint latent representation that explicitly considers both consensus and view-specific information among multiple views, and then performs subspace clustering on learned joint latent representation.Besid es, different views contribute differently to representation learning, we therefore introduce attention mechanism to derive dynamic weight for each view, which performs much better than previous fusion methods in the field of multi-view subspace clustering. The proposed algorithm is intuitive and can be easily optimized just by using Stochastic Gradient Descent (SGD) because of the neural network framework, which also provides strong non-linear characterization capability compared with traditional subspace clustering approaches. The experimental results on seven real-world data sets have demonstrated the effectiveness of our proposed algorithm against some state-of-the-art subspace learning approaches.
翻訳日:2021-12-24 20:31:57 公開日:2021-12-23
# (参考訳) グラディエントベースフレームワークにおける量子プロセッサデバイスの統合と制御最適化 [全文訳有]

Integrating Quantum Processor Device and Control Optimization in a Gradient-based Framework ( http://arxiv.org/abs/2112.12509v1 )

ライセンス: CC BY 4.0
Xiaotong Ni, Hui-Hai Zhao, Lei Wang, Feng Wu, Jianxin Chen(参考訳) 量子プロセッサでは、デバイス設計と外部制御を組み合わせることで、ターゲットの量子演算の品質が向上する。 より優れた代替のqubitプラットフォームを模索する中で、我々はますます大きなデバイスとコントロールデザイン空間を探求する。 したがって、最適化はますます困難になる。 本研究では,設計目標を反映したメリットの図形を,デバイスや制御パラメータに対して微分可能であることを示す。 さらに,設計対象の勾配をバックプロパゲーションアルゴリズムと同じような方法で効率的に計算し,その勾配を利用してデバイスと制御パラメータを協調的かつ効率的に最適化する。 これにより量子最適制御は超伝導デバイス設計に拡張される。 また,グラデーションに基づくジョイント最適化がデバイス上で実現可能であること,制御パラメータをいくつかの例を通して示す。

In a quantum processor, the device design and external controls together contribute to the quality of the target quantum operations. As we continuously seek better alternative qubit platforms, we explore the increasingly large device and control design space. Thus, optimization becomes more and more challenging. In this work, we demonstrate that the figure of merit reflecting a design goal can be made differentiable with respect to the device and control parameters. In addition, we can compute the gradient of the design objective efficiently in a similar manner to the back-propagation algorithm and then utilize the gradient to optimize the device and the control parameters jointly and efficiently. This extends the scope of the quantum optimal control to superconducting device design. We also demonstrate the viability of gradient-based joint optimization over the device and control parameters through a few examples.
翻訳日:2021-12-24 20:04:35 公開日:2021-12-23
# (参考訳) FourierMask: ニューラルネットワークにおけるフーリエマッピングを用いたインスタンスセグメンテーション [全文訳有]

FourierMask: Instance Segmentation using Fourier Mapping in Implicit Neural Networks ( http://arxiv.org/abs/2112.12535v1 )

ライセンス: CC BY 4.0
Hamd ul Moqeet Riaz, Nuri Benbarka, Timon Hoeffer, and Andreas Zell(参考訳) 本稿では,フーリエ級数と暗黙のニューラル表現を組み合わせてインスタンス分割マスクを生成するフーリエマスクについて述べる。 座標位置にフーリエ写像(fm)を適用し,その特徴を暗黙的な表現(座標系多層パーセプトロン(mlp))への入力として利用する。 フーリエマスクは特定の場合のFMの係数を予測することを学び、したがって特定の対象にFMを適用する。 これにより、fouriermaskを一般化して、自然画像からインスタンスセグメンテーションマスクを予測することができる。 暗黙関数は入力座標の領域で連続であるため、入力画素座標をサブサンプリングすることで、推論中に高い解像度のマスクを生成することができる。 さらに,フーリエマスクの未知の予測に基づいてレンダラーmlp(fourierrend)を訓練し,マスクの品質を大幅に向上させることを示す。 FourierMaskは同じ出力解像度でベースラインのMask R-CNNと比較してMS COCOデータセットの競合結果を示し、より高い解像度でそれを上回る。

We present FourierMask, which employs Fourier series combined with implicit neural representations to generate instance segmentation masks. We apply a Fourier mapping (FM) to the coordinate locations and utilize the mapped features as inputs to an implicit representation (coordinate-based multi-layer perceptron (MLP)). FourierMask learns to predict the coefficients of the FM for a particular instance, and therefore adapts the FM to a specific object. This allows FourierMask to be generalized to predict instance segmentation masks from natural images. Since implicit functions are continuous in the domain of input coordinates, we illustrate that by sub-sampling the input pixel coordinates, we can generate higher resolution masks during inference. Furthermore, we train a renderer MLP (FourierRend) on the uncertain predictions of FourierMask and illustrate that it significantly improves the quality of the masks. FourierMask shows competitive results on the MS COCO dataset compared to the baseline Mask R-CNN at the same output resolution and surpasses it on higher resolution.
翻訳日:2021-12-24 19:41:07 公開日:2021-12-23
# (参考訳) ディープニューラルネットワークを用いた高次元分類問題の最適学習

Optimal learning of high-dimensional classification problems using deep neural networks ( http://arxiv.org/abs/2112.12555v1 )

ライセンス: CC BY 4.0
Philipp Petersen, Felix Voigtlaender(参考訳) 本研究では,無騒音訓練サンプルから学習分類関数を学習する問題を,決定境界が一定の正則性を持つと仮定して検討する。 この推定問題の普遍的下限を,連続決定境界の一般クラスに対して定めている。 局所的バロン-正則決定境界のクラスでは、最適推定率は基本的に基底次元とは独立であり、深層ニューラルネットワークの適切なクラスに対する経験的リスク最小化法により実現可能である。 これらの結果は、バロン正則関数のクラスの$l^1$と$l^\infty$エントロピーの新しい推定に基づいている。

We study the problem of learning classification functions from noiseless training samples, under the assumption that the decision boundary is of a certain regularity. We establish universal lower bounds for this estimation problem, for general classes of continuous decision boundaries. For the class of locally Barron-regular decision boundaries, we find that the optimal estimation rates are essentially independent of the underlying dimension and can be realized by empirical risk minimization methods over a suitable class of deep neural networks. These results are based on novel estimates of the $L^1$ and $L^\infty$ entropies of the class of Barron-regular functions.
翻訳日:2021-12-24 19:31:35 公開日:2021-12-23
# (参考訳) ニューラルネットワークによる材料選択と設計最適化の統合 [全文訳有]

Integrating Material Selection with Design Optimization via Neural Networks ( http://arxiv.org/abs/2112.12566v1 )

ライセンス: CC BY 4.0
Aaditya Chandrasekhar, Saketh Sridhara, Krishnan Suresh(参考訳) エンジニアリング設計プロセスは、しばしば、適切な材料を選択しながら基礎となる幾何学を最適化する。 ある種の単純な問題に対して、2つは分離可能であり、例えば、まず最適な材料を選択し、次に幾何学を最適化することができる。 しかし、一般には両者は分離できない。 さらに、材料選択の離散的性質は勾配に基づく幾何最適化と互換性がなく、同時最適化が困難である。 本稿では,変分オートエンコーダ(VAE)を同時最適化に用いることを提案する。 まず、データ駆動型VAEを使用して、離散材料データベースを連続的で微分可能な潜在空間に投影する。 その後、有限要素ソルバに埋め込まれた完全連結ニューラルネットワークと結合し、材料と幾何学を同時に最適化する。 ニューラルネットワークの組込み勾配最適化とバックプロパゲーションは、最適化中に利用される。 提案手法は,トラス部材の断面領域を最適化しながら,データベースから最適な材料を選択する必要があるトラスを用いて実証する。 提案手法の有効性を示す数値例がいくつかある。 これらの実験で使用されたPythonコードはgithub.com/UW-ERSL/M aTrussで入手できる。

The engineering design process often entails optimizing the underlying geometry while simultaneously selecting a suitable material. For a certain class of simple problems, the two are separable where, for example, one can first select an optimal material, and then optimize the geometry. However, in general, the two are not separable. Furthermore, the discrete nature of material selection is not compatible with gradient-based geometry optimization, making simultaneous optimization challenging. In this paper, we propose the use of variational autoencoders (VAE) for simultaneous optimization. First, a data-driven VAE is used to project the discrete material database onto a continuous and differentiable latent space. This is then coupled with a fully-connected neural network, embedded with a finite-element solver, to simultaneously optimize the material and geometry. The neural-network's built-in gradient optimizer and back-propagation are exploited during optimization. The proposed framework is demonstrated using trusses, where an optimal material needs to be chosen from a database, while simultaneously optimizing the cross-sectional areas of the truss members. Several numerical examples illustrate the efficacy of the proposed framework. The Python code used in these experiments is available at github.com/UW-ERSL/M aTruss
翻訳日:2021-12-24 19:30:45 公開日:2021-12-23
# (参考訳) 3次元ミラー対称性検出のためのデータ効率学習 [全文訳有]

Data-efficient learning for 3D mirror symmetry detection ( http://arxiv.org/abs/2112.12579v1 )

ライセンス: CC BY 4.0
Yancong Lin, Silvia-Laura Pintea, Jan van Gemert(参考訳) 単視点画像から3次元ミラー面を検出するための幾何学的な深層学習手法を提案する。 学習に3次元ミラー幾何を明示的に付加することにより、大規模なトレーニングデータの需要を減らします。 意味的特徴を抽出し、画素内相関を計算し、各平面に対して3次元相関ボリュームを構築する。 相関体積は、入力が様々な深さの鏡に類似している程度を示し、与えられた平面が鏡面である可能性を特定することができる。 次に, サンプル面の特徴記述子として相関体積を扱い, サンプル面の正規分布を単位半球にマッピングする。 最後に,多段階の球面畳み込みを設計し,最適ミラー面を粗い方法で同定する。 合成データと実世界のデータの両方に関する実験は、データ効率と推論速度(最大25fps)を改善する3dミラー幾何の利点を示している。

We introduce a geometry-inspired deep learning method for detecting 3D mirror plane from single-view images. We reduce the demand for massive training data by explicitly adding 3D mirror geometry into learning as an inductive prior. We extract semantic features, calculate intra-pixel correlations, and build a 3D correlation volume for each plane. The correlation volume indicates the extent to which the input resembles its mirrors at various depth, allowing us to identify the likelihood of the given plane being a mirror plane. Subsequently, we treat the correlation volumes as feature descriptors for sampled planes and map them to a unit hemisphere where the normal of sampled planes lies. Lastly, we design multi-stage spherical convolutions to identify the optimal mirror plane in a coarse-to-fine manner. Experiments on both synthetic and real-world datasets show the benefit of 3D mirror geometry in improving data efficiency and inference speed (up to 25 FPS).
翻訳日:2021-12-24 19:16:57 公開日:2021-12-23
# (参考訳) 画像と画像の敵対的ネットワークの比較と解析:調査 [全文訳有]

Comparison and Analysis of Image-to-Image Generative Adversarial Networks: A Survey ( http://arxiv.org/abs/2112.12625v1 )

ライセンス: CC BY 4.0
Sagar Saxena, Mohammad Nayeem Teli(参考訳) GAN(Generative Adversarial Networks)は近年,画像から画像への翻訳を行う効果的な手法を導入している。 これらのモデルは、パラメータを変更することなく、画像から画像への変換において様々な領域に適用および一般化することができる。 本稿では、Pix2Px、CycleGAN、CoGAN、StarGAN、MUNIT、StarGAN2、DA-GAN、Self Attention GANの8つの画像対画像生成対応ネットワークを調査し、分析する。 これらのモデルはそれぞれ最先端の結果を示し、画像間GANを構築するための新しい技術を導入した。 モデルのサーベイに加えて、トレーニングした18のデータセットと、評価した9のメトリクスについても調査しました。 最後に、これらのモデルのうち6つを共通のメトリクスとデータセットで制御した実験結果を示す。 結果は混ざり合っていて、特定のデータセット、タスク、メトリクスによっては、他のモデルよりも優れています。 本稿の最後の節では,これらの結果について論じ,今後の研究分野を確立する。 研究者は新しい画像から画像へのganを革新し続けており、既存のメソッド、データセット、メトリクスをよく理解することが重要である。 本稿は、この基盤構築を支援するための総合的な概要と議論を提供する。

Generative Adversarial Networks (GANs) have recently introduced effective methods of performing Image-to-Image translations. These models can be applied and generalized to a variety of domains in Image-to-Image translation without changing any parameters. In this paper, we survey and analyze eight Image-to-Image Generative Adversarial Networks: Pix2Px, CycleGAN, CoGAN, StarGAN, MUNIT, StarGAN2, DA-GAN, and Self Attention GAN. Each of these models presented state-of-the-art results and introduced new techniques to build Image-to-Image GANs. In addition to a survey of the models, we also survey the 18 datasets they were trained on and the 9 metrics they were evaluated on. Finally, we present results of a controlled experiment for 6 of these models on a common set of metrics and datasets. The results were mixed and showed that on certain datasets, tasks, and metrics some models outperformed others. The last section of this paper discusses those results and establishes areas of future research. As researchers continue to innovate new Image-to-Image GANs, it is important that they gain a good understanding of the existing methods, datasets, and metrics. This paper provides a comprehensive overview and discussion to help build this foundation.
翻訳日:2021-12-24 19:05:29 公開日:2021-12-23
# (参考訳) TagLab:対話型セマンティックセグメンテーションのための人間中心AIシステム [全文訳有]

TagLab: A human-centric AI system for interactive semantic segmentation ( http://arxiv.org/abs/2112.12702v1 )

ライセンス: CC BY 4.0
Gaia Pavoni and Massimiliano Corsini and Federico Ponchio and Alessandro Muntoni and Paolo Cignoni(参考訳) 高度に特定の意味クラスと複雑な形状の完全な自動意味セマンティクスセグメンテーションは、科学者が要求する精度基準を満たさない可能性がある。 このような場合、複雑なタスクに対する人間の制御を保ちながらオペレータを支援することができる、人間中心のAIソリューションは、高い精度を維持しながら画像ラベリングをスピードアップする良いトレードオフである。 TagLabはオープンソースのAI支援ソフトウェアで、さまざまな自動化のメリットを生かし、画像アノテーションをスクラッチからツールを通じてスピードアップし、カスタマイズされた完全自動セマンティックセグメンテーションモデルを作成し、最後に、自動予測の迅速な編集を可能にする。 正像解析はいくつかの科学分野に適用されているため、TagLabはフレキシブルなラベリングパイプラインで設計されている。 海洋生態学と建築遺産という2つの異なるシナリオで結果を報告する。

Fully automatic semantic segmentation of highly specific semantic classes and complex shapes may not meet the accuracy standards demanded by scientists. In such cases, human-centered AI solutions, able to assist operators while preserving human control over complex tasks, are a good trade-off to speed up image labeling while maintaining high accuracy levels. TagLab is an open-source AI-assisted software for annotating large orthoimages which takes advantage of different degrees of automation; it speeds up image annotation from scratch through assisted tools, creates custom fully automatic semantic segmentation models, and, finally, allows the quick edits of automatic predictions. Since the orthoimages analysis applies to several scientific disciplines, TagLab has been designed with a flexible labeling pipeline. We report our results in two different scenarios, marine ecology, and architectural heritage.
翻訳日:2021-12-24 18:38:53 公開日:2021-12-23
# (参考訳) 印刷書籍のレイアウト分析のためのディスタント・スーパービジョンとしてのデジタル版 [全文訳有]

Digital Editions as Distant Supervision for Layout Analysis of Printed Books ( http://arxiv.org/abs/2112.12703v1 )

ライセンス: CC BY-SA 4.0
Alejandro H. Toselli, Si Wu and David A. Smith(参考訳) アーキビスト、テキスト学者、歴史家は、しばしば歴史文書のデジタル版を制作する。 Text Encoding Initiative や EpiDoc のようなマークアップスキームを用いて、これらのデジタル版は文書の意味領域(メモや図形など)や物理的な特徴(ページや行切れなど)を記録したり、テキストの内容の書き起こしを行う。 この意味的マークアップを利用する手法を,レイアウト解析モデルのトレーニングおよび評価のための遠隔監視として記述する。 DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。 自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。

Archivists, textual scholars, and historians often produce digital editions of historical documents. Using markup schemes such as those of the Text Encoding Initiative and EpiDoc, these digital editions often record documents' semantic regions (such as notes and figures) and physical features (such as page and line breaks) as well as transcribing their textual content. We describe methods for exploiting this semantic markup as distant supervision for training and evaluating layout analysis models. In experiments with several model architectures on the half-million pages of the Deutsches Textarchiv (DTA), we find a high correlation of these region-level evaluation methods with pixel-level and word-level metrics. We discuss the possibilities for improving accuracy with self-training and the ability of models trained on the DTA to generalize to other historical printed books.
翻訳日:2021-12-24 18:31:59 公開日:2021-12-23
# (参考訳) 部分報酬デカップリングを用いた学習協調型マルチエージェント政策 [全文訳有]

Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling ( http://arxiv.org/abs/2112.12740v1 )

ライセンス: CC BY 4.0
Benjamin Freed, Aditya Kapoor, Ian Abraham, Jeff Schneider, Howie Choset(参考訳) 多数のエージェントにマルチエージェント強化学習をスケールするための重要な障害の1つは、個々のエージェントのアクションにクレジットを割り当てることである。 本稿では, 大規模協調型マルチエージェントRL問題を, エージェントのサブセットを含む疎結合サブプロブレムに分解し, 信用代入を簡素化するアプローチを, textit{partial reward decoupling} (PRD) と呼ぶことによって, クレジット代入問題に対処する。 アクター・クリティカル・アルゴリズムにおけるPRDを用いたRL問題の分解により,データ効率,学習安定性,漸近的性能を,他のアクター・アクター・クリティカル・アプローチと比較して向上させる,低分散ポリシー勾配推定が導かれることを実証的に実証した。 さらに,最先端のmarlアルゴリズムであるcoma(counterfactual multi-agent policy gradient)へのアプローチと,エージェントの報酬ストリームにおける情報利用の改善と,近年のアドバンテージ推定の活用により,comaよりも優れることを示す。

One of the preeminent obstacles to scaling multi-agent reinforcement learning to large numbers of agents is assigning credit to individual agents' actions. In this paper, we address this credit assignment problem with an approach that we call \textit{partial reward decoupling} (PRD), which attempts to decompose large cooperative multi-agent RL problems into decoupled subproblems involving subsets of agents, thereby simplifying credit assignment. We empirically demonstrate that decomposing the RL problem using PRD in an actor-critic algorithm results in lower variance policy gradient estimates, which improves data efficiency, learning stability, and asymptotic performance across a wide array of multi-agent RL tasks, compared to various other actor-critic approaches. Additionally, we relate our approach to counterfactual multi-agent policy gradient (COMA), a state-of-the-art MARL algorithm, and empirically show that our approach outperforms COMA by making better use of information in agents' reward streams, and by enabling recent advances in advantage estimation to be used.
翻訳日:2021-12-24 18:19:24 公開日:2021-12-23
# (参考訳) slip: 自己スーパービジョンによる言語イメージ事前トレーニング [全文訳有]

SLIP: Self-supervision meets Language-Image Pre-training ( http://arxiv.org/abs/2112.12750v1 )

ライセンス: CC BY 4.0
Norman Mu, Alexander Kirillov, David Wagner, Saining Xie(参考訳) 近年の研究では、自己教師付き事前学習は、視覚認識課題に対する教師付き学習よりも改善されることが示された。 CLIPは、言語管理で学ぶためのエキサイティングな新しいアプローチで、さまざまなベンチマークで有望なパフォーマンスを示している。 本研究では,自己指導型学習が視覚表現学習における言語指導の活用に役立つかを検討する。 自己教師付き学習とCLIP事前学習を組み合わせたマルチタスク学習フレームワークSLIPを紹介する。 視覚変換器を用いた事前学習の後、表現品質を徹底的に評価し、ゼロショット転送、線形分類、エンドツーエンドファインタニングの3つの異なる設定下でCLIPと自己教師付き学習を比較した。 ImageNetと追加データセットのバッテリによって、SLIPは大きなマージンで精度を向上することがわかった。 さらに,モデルサイズ,トレーニングスケジュール,事前トレーニングデータセットについて実験を行い,結果の検証を行った。 以上の結果から,SLIPは自己超越(+8.1%の線形精度)や言語監督(+5.2%のゼロショット精度)よりも優れた性能を持つことがわかった。

Recent work has shown that self-supervised pre-training leads to improvements over supervised learning on challenging visual recognition tasks. CLIP, an exciting new approach to learning with language supervision, demonstrates promising performance on a wide variety of benchmarks. In this work, we explore whether self-supervised learning can aid in the use of language supervision for visual representation learning. We introduce SLIP, a multi-task learning framework for combining self-supervised learning and CLIP pre-training. After pre-training with Vision Transformers, we thoroughly evaluate representation quality and compare performance to both CLIP and self-supervised learning under three distinct settings: zero-shot transfer, linear classification, and end-to-end finetuning. Across ImageNet and a battery of additional datasets, we find that SLIP improves accuracy by a large margin. We validate our results further with experiments on different model sizes, training schedules, and pre-training datasets. Our findings show that SLIP enjoys the best of both worlds: better performance than self-supervision (+8.1% linear accuracy) and language supervision (+5.2% zero-shot accuracy).
翻訳日:2021-12-24 17:59:14 公開日:2021-12-23
# (参考訳) 常識の新しい科学に向けて [全文訳有]

Toward a New Science of Common Sense ( http://arxiv.org/abs/2112.12754v1 )

ライセンス: CC BY-SA 4.0
Ronald J. Brachman (Jacobs Technion-Cornell Institute and Cornell University), Hector J. Levesque (University of Toronto)(参考訳) 常識は常にAIに関心を持っているが、中心的な段階に入ることはめったにない。 ジョン・マッカーシーの初期の論文や専属研究者による長年の研究に言及されているにも拘わらず、膨大な一般的な常識を持つAIシステムはおそらく存在しない。 なぜですか? 何が足りないの? 一般的な意味でのaiシステムの失敗例が多々あり、aiが専門性に頻繁に注力していることが原因であると指摘する。 現代のディープラーニングの文脈でさえも、脆さの障壁を破ろうとする人々は、多くのコモンセンス知識にエネルギーを投資する傾向にある。 しかし、世界中の常識的な知識の断片は、人間のような方法で常識を実際に示すシステムに足りません。 我々は過去よりも広い視点から常識を探求することを提唱する。 常識は、これまで考えられてきたよりも複雑であり、科学的な探求に値する。

Common sense has always been of interest in AI, but has rarely taken center stage. Despite its mention in one of John McCarthy's earliest papers and years of work by dedicated researchers, arguably no AI system with a serious amount of general common sense has ever emerged. Why is that? What's missing? Examples of AI systems' failures of common sense abound, and they point to AI's frequent focus on expertise as the cause. Those attempting to break the brittleness barrier, even in the context of modern deep learning, have tended to invest their energy in large numbers of small bits of commonsense knowledge. But all the commonsense knowledge fragments in the world don't add up to a system that actually demonstrates common sense in a human-like way. We advocate examining common sense from a broader perspective than in the past. Common sense is more complex than it has been taken to be and is worthy of its own scientific exploration.
翻訳日:2021-12-24 17:36:17 公開日:2021-12-23
# (参考訳) querybank正規化によるクロスモーダル検索 [全文訳有]

Cross Modal Retrieval with Querybank Normalisation ( http://arxiv.org/abs/2112.12777v1 )

ライセンス: CC BY 4.0
Simion-Vlad Bogolin, Ioana Croitoru, Hailin Jin, Yang Liu, Samuel Albanie(参考訳) 大規模トレーニングデータセットの利益、ニューラルアーキテクチャ設計の進歩、効率的な推論、ジョイント埋め込みは、クロスモーダル検索に取り組むための主要なアプローチとなっている。 本研究は,その有効性にもかかわらず,最先端のジョイント埋め込みは,少数のギャラリー埋め込みが多くのクエリの最も近い近傍を形成するという,長年にわたるハブ性の問題に著しく悩まされていることを示す。 nlp文献から着想を得て、埋め込み空間のハブを考慮したクエリ類似性を再正規化するクエリバンク正規化(qb-norm)と呼ばれる、単純で効果的なフレームワークを定式化した。 QB-Normはリトレーニングを必要とせずに検索性能を向上させる。 従来の作業とは違って、QB-Normはテストセットクエリに同時アクセスすることなく効果的に動作することを示す。 また、QB-Normフレームワーク内では、既存のアプローチよりもはるかに堅牢な新しい類似性正規化手法であるDynamic Inverted Softmaxを提案する。 QB-Normは多岐にわたるクロスモーダル検索モデルとベンチマークで紹介され、最先端の強力なベースラインを一貫して強化している。 コードはhttps://vladbogo.git hub.io/QB-Norm/で入手できる。

Profiting from large-scale training datasets, advances in neural architecture design and efficient inference, joint embeddings have become the dominant approach for tackling cross-modal retrieval. In this work we first show that, despite their effectiveness, state-of-the-art joint embeddings suffer significantly from the longstanding hubness problem in which a small number of gallery embeddings form the nearest neighbours of many queries. Drawing inspiration from the NLP literature, we formulate a simple but effective framework called Querybank Normalisation (QB-Norm) that re-normalises query similarities to account for hubs in the embedding space. QB-Norm improves retrieval performance without requiring retraining. Differently from prior work, we show that QB-Norm works effectively without concurrent access to any test set queries. Within the QB-Norm framework, we also propose a novel similarity normalisation method, the Dynamic Inverted Softmax, that is significantly more robust than existing approaches. We showcase QB-Norm across a range of cross modal retrieval models and benchmarks where it consistently enhances strong baselines beyond the state of the art. Code is available at https://vladbogo.git hub.io/QB-Norm/.
翻訳日:2021-12-24 17:27:47 公開日:2021-12-23
# 自己調整型ポーズアテンションネットワークによるロバストで精密な顔ランドマーク検出

Robust and Precise Facial Landmark Detection by Self-Calibrated Pose Attention Network ( http://arxiv.org/abs/2112.12328v1 )

ライセンス: Link先を確認
Jun Wan, Hui Xi, Jie Zhou, Zhihui Lai, Witold Pedrycz, Xu Wang and Hang Sun(参考訳) 現在の完全に監視された顔ランドマーク検出法は急速に進歩し、目覚ましい性能を達成している。 しかし、大きなポーズで顔に対処したり、不正確な顔形状の制約やラベル付きトレーニングサンプルが不十分な場合、依然として苦しめられている。 本稿では,より堅牢で正確な顔のランドマーク検出を実現するための半教師付きフレームワーク,すなわち自己校正型姿勢注意ネットワーク(SCPAN)を提案する。 具体的には、境界線とランドマーク強度場情報を融合させることにより、より効果的な顔形状制約をモデル化する境界線対応ランドマーク強度(BALI)フィールドを提案する。 さらに、自己校正機構とポーズアテンションマスクを導入することにより、ラベル情報なしで中間管理を強制する自己学習型目標関数を提供するために、自己校正ポスアテンション(SCPA)モデルが設計された。 本研究では,BALIフィールドとSCPAモデルを新たな自己校正型ポーズアテンションネットワークに統合することにより,顔の事前知識を学習し,大きなポーズを持つ顔に対する検出精度とロバスト性を改善したことを示す。 ベンチマークデータセットに挑戦して得られた実験結果から,本手法が文献の最先端手法より優れていることが示された。

Current fully-supervised facial landmark detection methods have progressed rapidly and achieved remarkable performance. However, they still suffer when coping with faces under large poses and heavy occlusions for inaccurate facial shape constraints and insufficient labeled training samples. In this paper, we propose a semi-supervised framework, i.e., a Self-Calibrated Pose Attention Network (SCPAN) to achieve more robust and precise facial landmark detection in challenging scenarios. To be specific, a Boundary-Aware Landmark Intensity (BALI) field is proposed to model more effective facial shape constraints by fusing boundary and landmark intensity field information. Moreover, a Self-Calibrated Pose Attention (SCPA) model is designed to provide a self-learned objective function that enforces intermediate supervision without label information by introducing a self-calibrated mechanism and a pose attention mask. We show that by integrating the BALI fields and SCPA model into a novel self-calibrated pose attention network, more facial prior knowledge can be learned and the detection accuracy and robustness of our method for faces with large poses and heavy occlusions have been improved. The experimental results obtained for challenging benchmark datasets demonstrate that our approach outperforms state-of-the-art methods in the literature.
翻訳日:2021-12-24 16:44:00 公開日:2021-12-23
# more is better: ドメイン一般化のための新しいマルチビューフレームワーク

More is Better: A Novel Multi-view Framework for Domain Generalization ( http://arxiv.org/abs/2112.12329v1 )

ライセンス: Link先を確認
Jian Zhang, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) ソースドメインでトレーニングされたモデルを未確認対象ドメインに一般化することを目的としたドメイン一般化(DG)が最近注目を集めている。 DGの主な問題は、トレーニング中にターゲットドメインが利用できないため、観測されたソースドメインへの過度な適合を防止する方法である。 オーバーフィッティングは, 対象ドメインの認識を阻害するだけでなく, テスト段階での不安定な予測も引き起こす。 本稿では,訓練段階における複数のタスクのサンプリングと,テスト段階における拡張画像の生成が,一般化性能に大きく寄与することを示す。 そこで,タスクとイメージを異なるビューとして扱うことにより,新しいマルチビューdgフレームワークを提案する。 具体的には, 学習段階において, 一般化能力を高めるために, 複数のタスクを用いたマルチビュー正規化メタ学習アルゴリズムを開発し, モデル更新時に適切な最適化方向を生成する。 テスト段階では、不安定な予測を緩和するため、複数の拡張画像を用いてマルチビュー予測を行い、テスト画像の異なるビューの結果を融合することにより、モデルの信頼性を著しく向上させる。 3つのベンチマークデータセットの大規模な実験により、我々の手法はいくつかの最先端のアプローチより優れています。

Aiming to generalize the model trained in source domains to unseen target domains, domain generalization (DG) has attracted lots of attention recently. The key issue of DG is how to prevent overfitting to the observed source domains because target domain is unavailable during training. We investigate that overfitting not only causes the inferior generalization ability to unseen target domains but also leads unstable prediction in the test stage. In this paper, we observe that both sampling multiple tasks in training stage and generating augmented images in test stage largely benefit generalization performance. Thus, by treating tasks and images as different views, we propose a novel multi-view DG framework. Specifically, in training stage, to enhance generalization ability, we develop a multi-view regularized meta-learning algorithm that employs multiple tasks to produce a suitable optimization direction during updating model. In test stage, to alleviate unstable prediction, we utilize multiple augmented images to yield multi-view prediction, which significantly promotes model reliability via fusing the results of different views of a test image. Extensive experiments on three benchmark datasets validate our method outperforms several state-of-the-art approaches.
翻訳日:2021-12-24 16:43:37 公開日:2021-12-23
# 弱制御胸部X線異常の局在と診断のための階層的学習

Learning Hierarchical Attention for Weakly-supervised Chest X-Ray Abnormality Localization and Diagnosis ( http://arxiv.org/abs/2112.12349v1 )

ライセンス: Link先を確認
Xi Ouyang, Srikrishna Karanam, Ziyan Wu, Terrence Chen, Jiayu Huo, Xiang Sean Zhou, Qian Wang, Jie-Zhi Cheng(参考訳) 臨床応用における異常局所化の問題点を考察する。 深層学習は医用画像の進歩を大いに後押ししているが、多くの臨床課題は完全な解決には至っていない。 近年の方法では高い診断精度が報告されているが、医師は、アルゴリズム決定の推論と解釈可能性の欠如により、これらのアルゴリズム結果を診断の意思決定目的に信頼していることが懸念されている。 この問題に対処する潜在的な方法の1つは、これらのモデルを単に分類するだけでなく、異常をローカライズするためにさらに訓練することである。 しかし、これを正確に行うには、臨床専門家による大量の疾患局所化アノテーションが必要である。 本研究では,アクティベーションと勾配に基づく視覚的注意を総合的に統一する階層的注意マイニングフレームワークからなる,注意駆動型弱教師付きアルゴリズムを用いて,これらの問題に対処するための一歩を踏み出した。 我々の重要なアルゴリズムの革新は、明示的な順序的注意制約の設計、弱教師付きモデルトレーニングを可能にすること、そしてローカライズ・キューによる視覚的注意駆動モデル説明の生成を促進することである。 2つの大規模胸部X線データセット(NIH ChestX-ray14とCheXpert)上では,最先端のローカライゼーション性能を向上するとともに,競争力のある分類性能を実現した。 私たちのコードはhttps://github.com/o yxhust/hamで閲覧できます。

We consider the problem of abnormality localization for clinical applications. While deep learning has driven much recent progress in medical imaging, many clinical challenges are not fully addressed, limiting its broader usage. While recent methods report high diagnostic accuracies, physicians have concerns trusting these algorithm results for diagnostic decision-making purposes because of a general lack of algorithm decision reasoning and interpretability. One potential way to address this problem is to further train these models to localize abnormalities in addition to just classifying them. However, doing this accurately will require a large amount of disease localization annotations by clinical experts, a task that is prohibitively expensive to accomplish for most applications. In this work, we take a step towards addressing these issues by means of a new attention-driven weakly supervised algorithm comprising a hierarchical attention mining framework that unifies activation- and gradient-based visual attention in a holistic manner. Our key algorithmic innovations include the design of explicit ordinal attention constraints, enabling principled model training in a weakly-supervised fashion, while also facilitating the generation of visual-attention-dri ven model explanations by means of localization cues. On two large-scale chest X-ray datasets (NIH ChestX-ray14 and CheXpert), we demonstrate significant localization performance improvements over the current state of the art while also achieving competitive classification performance. Our code is available on https://github.com/o yxhust/HAM.
翻訳日:2021-12-24 16:43:16 公開日:2021-12-23
# クラス増分学習のためのDILF-ENフレームワーク

DILF-EN framework for Class-Incremental Learning ( http://arxiv.org/abs/2112.12385v1 )

ライセンス: Link先を確認
Mohammed Asad Karim, Indu Joshi, Pratik Mazumder, Pravendra Singh(参考訳) 深層学習モデルでは,新しい段階に導入された授業において,旧段階の授業を壊滅的に忘れてしまうことに苦しむ。 本研究は, モデル予測における破滅的忘れ方の影響が, 新たな発見である同一画像の向きの変化によって変化することを示す。 そこで本研究では,画像の向きの異なる予測を組み合わせることで,既見のクラスに関するさらなる情報をモデルに保持し,モデルの予測を忘れることの影響を低減させる新しいデータセンス手法を提案する。 しかし、モデルが従来の手法でトレーニングされている場合、データアンサンブルアプローチを直接使うことはできない。 そこで本研究では,2つの段階的な学習目標,すなわちクラス増分学習目標とデータ増分学習目標を併用してネットワークを共同で学習する,新たな2段階学習フレームワークを提案する。 dual-incremental learning frameworkでは、各イメージは2つのクラス、すなわち、イメージクラス(class-incremental learning)とオリエンテーションクラス(data-incremental learning)に属している。 クラスインクリメンタル学習では、各新しいフェーズが新しいクラスセットを導入し、モデルは古いフェーズから完全なトレーニングデータにアクセスすることができない。 提案したデータインクリメンタルラーニングでは,すべてのフェーズでオリエンテーションクラスは同じであり,クラスインクリメンタルラーニングの新たなフェーズによって導入されたデータは,これらのオリエンテーションクラスの新たなトレーニングデータとして機能する。 我々は,データエンセンブルアプローチにおいて,デュアルインクリメンタル学習フレームワークが不可欠であることを実証的に示す。 提案手法を最先端のクラス増分学習手法に適用し,これらの手法の性能向上を実証的に示す。

Deep learning models suffer from catastrophic forgetting of the classes in the older phases as they get trained on the classes introduced in the new phase in the class-incremental learning setting. In this work, we show that the effect of catastrophic forgetting on the model prediction varies with the change in orientation of the same image, which is a novel finding. Based on this, we propose a novel data-ensemble approach that combines the predictions for the different orientations of the image to help the model retain further information regarding the previously seen classes and thereby reduce the effect of forgetting on the model predictions. However, we cannot directly use the data-ensemble approach if the model is trained using traditional techniques. Therefore, we also propose a novel dual-incremental learning framework that involves jointly training the network with two incremental learning objectives, i.e., the class-incremental learning objective and our proposed data-incremental learning objective. In the dual-incremental learning framework, each image belongs to two classes, i.e., the image class (for class-incremental learning) and the orientation class (for data-incremental learning). In class-incremental learning, each new phase introduces a new set of classes, and the model cannot access the complete training data from the older phases. In our proposed data-incremental learning, the orientation classes remain the same across all the phases, and the data introduced by the new phase in class-incremental learning acts as new training data for these orientation classes. We empirically demonstrate that the dual-incremental learning framework is vital to the data-ensemble approach. We apply our proposed approach to state-of-the-art class-incremental learning methods and empirically show that our framework significantly improves the performance of these methods.
翻訳日:2021-12-24 16:42:49 公開日:2021-12-23
# 簡単な参照フレームを反復的に選択することで、教師なしビデオオブジェクトのセグメンテーションがより簡単になる

Iteratively Selecting an Easy Reference Frame Makes Unsupervised Video Object Segmentation Easier ( http://arxiv.org/abs/2112.12402v1 )

ライセンス: Link先を確認
Youngjo Lee, Hongje Seong, Euntai Kim(参考訳) 教師なしビデオオブジェクトセグメンテーション(unsupervised video object segmentation,uvos)は、フォアグラウンドオブジェクトのグラウンド真理(gt)マスクを使わずに、フォアグラウンドオブジェクトをビデオの背景から分離することを目的としたピクセル単位のバイナリラベリング問題である。 以前のUVOSモデルは、最初のフレームまたはビデオ全体を参照フレームとして使用し、前景オブジェクトのマスクを指定する。 我々の疑問は、なぜ最初のフレームが参照フレームとして選択されるべきなのか、また、ビデオ全体を使ってマスクを指定すべきなのかである。 最初のフレームやビデオ全体を参照フレームとして使用するよりも、uvosのパフォーマンス向上のためにより良い参照フレームを選択することができると考えています。 本稿では,簡単なフレームセレクタ(EFS)を提案する。 EFSにより、後続のVOSが容易になり、VOSの性能が向上する「簡単」参照フレームを選択することができる。 さらに,反復マスク予測(IMP)と呼ばれる新しいフレームワークを提案する。 本フレームワークでは,所定のビデオにEFSを適用して,ビデオからより簡単な参照フレームを選択することで,VOSの性能を漸進的に向上させる。 IMPは、EFS、双方向マスク予測(BMP)、時間情報更新(TIU)で構成されている。 提案したフレームワークから,DAVIS16,FBMS,SegTra ck-V2という3つのUVOSベンチマークセットの最先端性能を実現する。

Unsupervised video object segmentation (UVOS) is a per-pixel binary labeling problem which aims at separating the foreground object from the background in the video without using the ground truth (GT) mask of the foreground object. Most of the previous UVOS models use the first frame or the entire video as a reference frame to specify the mask of the foreground object. Our question is why the first frame should be selected as a reference frame or why the entire video should be used to specify the mask. We believe that we can select a better reference frame to achieve the better UVOS performance than using only the first frame or the entire video as a reference frame. In our paper, we propose Easy Frame Selector (EFS). The EFS enables us to select an 'easy' reference frame that makes the subsequent VOS become easy, thereby improving the VOS performance. Furthermore, we propose a new framework named as Iterative Mask Prediction (IMP). In the framework, we repeat applying EFS to the given video and selecting an 'easier' reference frame from the video than the previous iteration, increasing the VOS performance incrementally. The IMP consists of EFS, Bi-directional Mask Prediction (BMP), and Temporal Information Updating (TIU). From the proposed framework, we achieve state-of-the-art performance in three UVOS benchmark sets: DAVIS16, FBMS, and SegTrack-V2.
翻訳日:2021-12-24 16:42:18 公開日:2021-12-23
# 屋内シーン認識のための屋内・マルチモーダル深層学習

InstaIndoor and Multi-modal Deep Learning for Indoor Scene Recognition ( http://arxiv.org/abs/2112.12409v1 )

ライセンス: Link先を確認
Andreea Glavan, Estefania Talavera(参考訳) 屋内シーン認識は,行動理解,ロボットのローカライゼーション,高齢者のモニタリングなどに大きな可能性を持つ成長分野である。 本研究では,ソーシャルメディアから収集したマルチモーダル学習と映像データを用いて,新たな視点からシーン認識の課題にアプローチする。 アクセシビリティと多様なソーシャルメディアビデオは、現代のシーン認識技術やアプリケーションのための現実的なデータを提供できる。 InstaIndoorという屋内シーンのソーシャルメディアビデオの新しいデータセットを分類するために,テキストと視覚的特徴への書き起こし音声の融合に基づくモデルを提案する。 我々のモデルは最大70%の精度と0.7F1スコアを達成する。 さらに,室内シーンのyoutube-8mサブセット上でベンチマークを行い,0.74 f1-scoreの精度と74%の精度を実現することで,このアプローチの可能性を強調した。 この研究の貢献が,屋内シーン認識の課題分野における新たな研究への道を開くことを願っている。

Indoor scene recognition is a growing field with great potential for behaviour understanding, robot localization, and elderly monitoring, among others. In this study, we approach the task of scene recognition from a novel standpoint, using multi-modal learning and video data gathered from social media. The accessibility and variety of social media videos can provide realistic data for modern scene recognition techniques and applications. We propose a model based on fusion of transcribed speech to text and visual features, which is used for classification on a novel dataset of social media videos of indoor scenes named InstaIndoor. Our model achieves up to 70% accuracy and 0.7 F1-Score. Furthermore, we highlight the potential of our approach by benchmarking on a YouTube-8M subset of indoor scenes as well, where it achieves 74% accuracy and 0.74 F1-Score. We hope the contributions of this work pave the way to novel research in the challenging field of indoor scene recognition.
翻訳日:2021-12-24 16:40:33 公開日:2021-12-23
# ポーズ適応型デュアルミックスアップによる単眼3次元再構成

Pose Adaptive Dual Mixup for Few-Shot Single-View 3D Reconstruction ( http://arxiv.org/abs/2112.12484v1 )

ライセンス: Link先を確認
Ta-Ying Cheng, Hsuan-Ru Yang, Niki Trigoni, Hwann-Tzong Chen, Tyng-Luh Liu(参考訳) 本稿では,単眼3次元再構成のためのポーズ適応型2段階データ補間正規化法として,ポーズ適応型2重混合法(padmix)を提案する。 特徴ラベル対補間による補間は分類タスクにおいて有効であるが、レンダリング視点が不明な場合、2つの画像の補間生成物とボリュームとの矛盾による形状予測が不足する可能性がある。 PADMixはこの問題を、2セットの混合手順で順次実行する。 まず,ポーズ適応学習手順と組み合わせた入力ミックスアップを行い,2次元特徴抽出とポーズ適応潜在符号化の学習に有用である。 段階的にトレーニングすることで、ポーズ不変表現を構築でき、特徴量と基底ボリュームの間の1対1の対応の下で後続の潜伏混合を実行できます。 PADMixは、ShapeNetデータセットよりも数ショット設定で過去の文献を著しく上回り、より困難な現実世界のPix3Dデータセットで新しいベンチマークを設定している。

We present a pose adaptive few-shot learning procedure and a two-stage data interpolation regularization, termed Pose Adaptive Dual Mixup (PADMix), for single-image 3D reconstruction. While augmentations via interpolating feature-label pairs are effective in classification tasks, they fall short in shape predictions potentially due to inconsistencies between interpolated products of two images and volumes when rendering viewpoints are unknown. PADMix targets this issue with two sets of mixup procedures performed sequentially. We first perform an input mixup which, combined with a pose adaptive learning procedure, is helpful in learning 2D feature extraction and pose adaptive latent encoding. The stagewise training allows us to build upon the pose invariant representations to perform a follow-up latent mixup under one-to-one correspondences between features and ground-truth volumes. PADMix significantly outperforms previous literature on few-shot settings over the ShapeNet dataset and sets new benchmarks on the more challenging real-world Pix3D dataset.
翻訳日:2021-12-24 16:40:19 公開日:2021-12-23
# 属性拡張による多機能合成によるゼロショット生成学習の促進

Boosting Generative Zero-Shot Learning by Synthesizing Diverse Features with Attribute Augmentation ( http://arxiv.org/abs/2112.12573v1 )

ライセンス: Link先を確認
Xiaojie Zhao, Yuming Shen, Shidong Wang, Haofeng Zhang(参考訳) 深層生成モデルの最近の進歩は、ゼロショット学習(ZSL)の領域における有望な視点を概説している。 ほとんどの生成的ZSL法は、カテゴリー意味属性とガウス雑音を使って視覚的特徴を生成する。 未知のサンプルを生成した後、この一連のアプローチはZSL問題を教師付き分類スキームに効果的に変換する。 しかし、既存のモデルは、カテゴリの完全な属性情報を含む単一のセマンティック属性を使用する。 生成されたデータは完全な属性情報も持つが、実際には、視覚的なサンプルは通常、限定的な属性を持っている。 したがって、属性から生成されたデータは不完全な意味を持つ可能性がある。 そこで本研究では,多種多様な特徴を合成することによってZSLを強化する新しいフレームワークを提案する。 本手法は,視覚特徴の実際の分布をシミュレートするために,拡張意味属性を用いて生成モデルを訓練する。 提案モデルを4つのベンチマークデータセットで評価し,最新データに対する有意な性能改善を観測した。

The recent advance in deep generative models outlines a promising perspective in the realm of Zero-Shot Learning (ZSL). Most generative ZSL methods use category semantic attributes plus a Gaussian noise to generate visual features. After generating unseen samples, this family of approaches effectively transforms the ZSL problem into a supervised classification scheme. However, the existing models use a single semantic attribute, which contains the complete attribute information of the category. The generated data also carry the complete attribute information, but in reality, visual samples usually have limited attributes. Therefore, the generated data from attribute could have incomplete semantics. Based on this fact, we propose a novel framework to boost ZSL by synthesizing diverse features. This method uses augmented semantic attributes to train the generative model, so as to simulate the real distribution of visual features. We evaluate the proposed model on four benchmark datasets, observing significant performance improvement against the state-of-the-art.
翻訳日:2021-12-24 16:39:59 公開日:2021-12-23
# ユニバーサルGAN画像検出に向けて

Towards Universal GAN Image Detection ( http://arxiv.org/abs/2112.12606v1 )

ライセンス: Link先を確認
Davide Cozzolino, Diego Gragnaniello, Giovanni Poggi, Luisa Verdoliva(参考訳) より高品質で広範な偽画像の拡散は、信頼できる法医学ツールの探求を生み出している。 近年、多くのGAN画像検出器が提案されている。 しかし現実のシナリオでは、それらのほとんどは限定的な堅牢性と一般化能力を示している。 さらに、テスト時に利用できないサイド情報、つまり普遍的ではないサイド情報に依存していることが多い。 この問題を調査し,限定的なサブサンプリングアーキテクチャと適切なコントラスト学習パラダイムに基づく新しいgan画像検出手法を提案する。 難解な条件下で実施した実験により,提案手法は汎用gan画像検出への第一歩となり,共通画像障害に対するロバスト性が向上し,非知覚アーキテクチャへの優れた一般化が得られた。

The ever higher quality and wide diffusion of fake images have spawn a quest for reliable forensic tools. Many GAN image detectors have been proposed, recently. In real world scenarios, however, most of them show limited robustness and generalization ability. Moreover, they often rely on side information not available at test time, that is, they are not universal. We investigate these problems and propose a new GAN image detector based on a limited sub-sampling architecture and a suitable contrastive learning paradigm. Experiments carried out in challenging conditions prove the proposed method to be a first step towards universal GAN image detection, ensuring also good robustness to common image impairments, and good generalization to unseen architectures.
翻訳日:2021-12-24 16:39:47 公開日:2021-12-23
# ninjadesc: 逆学習によるコンテントコンセリングビジュアル記述子

NinjaDesc: Content-Concealing Visual Descriptors via Adversarial Learning ( http://arxiv.org/abs/2112.12785v1 )

ライセンス: Link先を確認
Tony Ng, Hyo Jin Kim, Vincent Lee, Daniel Detone, Tsun-Yi Yang, Tianwei Shen, Eddy Ilg, Vassileios Balntas, Krystian Mikolajczyk, Chris Sweeney(参考訳) 視覚ディスクリプタからのプライバシー保護シーンの啓示に関する最近の分析から,入力画像の内容を隠すディスクリプタを開発した。 特に,画像再構成を防止し,マッチング精度を維持しながら視覚記述子を訓練するための逆学習フレームワークを提案する。 我々は、特徴符号化ネットワークと画像再構成ネットワークを競合させ、特徴符号化ネットワークは生成した記述子で画像再構成を妨害しようとする一方で、再構成者は記述子からの入力画像の復元を試みる。 提案手法により得られた視覚ディスクリプタは,対応マッチングとカメラのローカライゼーション性能に最小限の影響を伴って画像再構成品質を著しく劣化させることを示した。

In the light of recent analyses on privacy-concerning scene revelation from visual descriptors, we develop descriptors that conceal the input image content. In particular, we propose an adversarial learning framework for training visual descriptors that prevent image reconstruction, while maintaining the matching accuracy. We let a feature encoding network and image reconstruction network compete with each other, such that the feature encoder tries to impede the image reconstruction with its generated descriptors, while the reconstructor tries to recover the input image from the descriptors. The experimental results demonstrate that the visual descriptors obtained with our method significantly deteriorate the image reconstruction quality with minimal impact on correspondence matching and camera localization performance.
翻訳日:2021-12-24 16:37:38 公開日:2021-12-23
# 過去の意思決定の会計によるオフポリシー強化学習の効率化

Improving the Efficiency of Off-Policy Reinforcement Learning by Accounting for Past Decisions ( http://arxiv.org/abs/2112.12281v1 )

ライセンス: Link先を確認
Brett Daley and Christopher Amato(参考訳) マルチステップリターンからのオフポリシー学習はサンプル効率のよい強化学習に不可欠であり、特にディープニューラルネットワークで一般的に使用されるエクスペリエンスリプレイ設定において重要である。 過去の時間差誤差は、各アクションの後に(可視性トレースによる)即時重要度サンプリング(IS)比によって再重み付けされる。 ツリーバックアップやリトレースのような多くの重要なオフポリシーアルゴリズムは、is推定器の過度なばらつきに対処するために、(トレース)比率を切り離すための異なるプロトコルとともに、このメカニズムに依存している。 局所的な情報に従ってトレースがカットされると、その効果は後戻りできないため、予測されたリターンの早期停止と学習の遅さにつながる可能性がある。 効率的なオフポリシーアルゴリズムの動機付けを目的として,任意の過去依存トレースを許容するマルチステップ演算子を提案する。 当社のオペレータは,政策評価に収束し,かつgreedy-in-the-limitポリシーをターゲットとした最適制御を行う。 我々の定理は、Trncated IS, Non-Markov Retrace, and history-dependent TD($\lambda$)を含む多くの既存のアルゴリズムに対する最初の収束保証を確立する。 提案手法は,信用分担と学習の高速化のために,複数の過去の決定を共同で検討する新しいアルゴリズムの開発のためのガイダンスを提供する。

Off-policy learning from multistep returns is crucial for sample-efficient reinforcement learning, particularly in the experience replay setting now commonly used with deep neural networks. Classically, off-policy estimation bias is corrected in a per-decision manner: past temporal-difference errors are re-weighted by the instantaneous Importance Sampling (IS) ratio (via eligibility traces) after each action. Many important off-policy algorithms such as Tree Backup and Retrace rely on this mechanism along with differing protocols for truncating ("cutting") the ratios ("traces") to counteract the excessive variance of the IS estimator. Unfortunately, cutting traces on a per-decision basis is not necessarily efficient; once a trace has been cut according to local information, the effect cannot be reversed later, potentially resulting in the premature truncation of estimated returns and slower learning. In the interest of motivating efficient off-policy algorithms, we propose a multistep operator that permits arbitrary past-dependent traces. We prove that our operator is convergent for policy evaluation, and for optimal control when targeting greedy-in-the-limit policies. Our theorems establish the first convergence guarantees for many existing algorithms including Truncated IS, Non-Markov Retrace, and history-dependent TD($\lambda$). Our theoretical results also provide guidance for the development of new algorithms that jointly consider multiple past decisions for better credit assignment and faster learning.
翻訳日:2021-12-24 16:36:33 公開日:2021-12-23
# バッチ正規化を伴わない効果的なresnetトレーニングのための残留ブロックのロバスト初期化

A Robust Initialization of Residual Blocks for Effective ResNet Training without Batch Normalization ( http://arxiv.org/abs/2112.12299v1 )

ライセンス: Link先を確認
Enrico Civitelli, Alessio Sortino, Matteo Lapucci, Francesco Bagattini and Giulio Galvan(参考訳) バッチ正規化は、最先端のニューラルネットワークアーキテクチャに不可欠なコンポーネントである。 しかし、多くの実用的な問題をもたらしているため、近年では正規化フリーアーキテクチャの設計に力を入れている。 本稿では,重み付き初期化がresnetライクな正規化フリーネットワークを訓練するための鍵であることを示す。 特に,ブロック出力の和演算をスキップ接続分岐に少し修正し,ネットワーク全体が正しく初期化されるようにする。 この修正されたアーキテクチャはcifar-10でさらなる正規化やアルゴリズムによる修正なしに競争力のある結果が得られることを示す。

Batch Normalization is an essential component of all state-of-the-art neural networks architectures. However, since it introduces many practical issues, much recent research has been devoted to designing normalization-free architectures. In this paper, we show that weights initialization is key to train ResNet-like normalization-free networks. In particular, we propose a slight modification to the summation operation of a block output to the skip connection branch, so that the whole network is correctly initialized. We show that this modified architecture achieves competitive results on CIFAR-10 without further regularization nor algorithmic modifications.
翻訳日:2021-12-24 16:36:05 公開日:2021-12-23
# 優れた部分ラベルによる学習

Learning with Proper Partial Labels ( http://arxiv.org/abs/2112.12303v1 )

ライセンス: Link先を確認
Zhenguo Wu, Masashi Sugiyama(参考訳) 部分ラベル学習(英: partial-label learning)とは、不規則なラベルを持つ弱い教師付き学習の一種であり、各トレーニング例に対して、真のラベルは1つではなく、候補ラベルのセットが与えられる。 近年, 候補ラベル集合の異なる生成モデルにおいて, 部分ラベル学習に対する様々なアプローチが提案されている。 しかし、これらの手法は生成モデルに対して比較的強い分布仮定を必要とする。 仮定が成立しない場合、その手法の性能は理論的に保証されない。 本稿では,部分ラベルに対する正当性の概念を提案する。 この適切な部分ラベル学習フレームワークは,従来の部分ラベル学習設定の多くを特別なケースとして含む。 次に、分類リスクの統一的非バイアス推定器を導出する。 我々は,推定誤差のバウンドを得ることにより,推定器のリスク一貫性を証明した。 最後に,実験によるアルゴリズムの有効性を検証する。

Partial-label learning is a kind of weakly-supervised learning with inexact labels, where for each training example, we are given a set of candidate labels instead of only one true label. Recently, various approaches on partial-label learning have been proposed under different generation models of candidate label sets. However, these methods require relatively strong distributional assumptions on the generation models. When the assumptions do not hold, the performance of the methods is not guaranteed theoretically. In this paper, we propose the notion of properness on partial labels. We show that this proper partial-label learning framework includes many previous partial-label learning settings as special cases. We then derive a unified unbiased estimator of the classification risk. We prove that our estimator is risk-consistent by obtaining its estimation error bound. Finally, we validate the effectiveness of our algorithm through experiments.
翻訳日:2021-12-24 16:35:56 公開日:2021-12-23
# AcME --Accelerated Model-Agnostic Explanations: Fast Whitening of the Machine-Learning Black Box

AcME -- Accelerated Model-agnostic Explanations: Fast Whitening of the Machine-Learning Black Box ( http://arxiv.org/abs/2112.12635v1 )

ライセンス: Link先を確認
David Dandolo, Chiara Masiero, Mattia Carletti, Davide Dalle Pezze, Gian Antonio Susto(参考訳) Decision Support Systemsのようなヒューマン・イン・ザ・ループの機械学習アプリケーションの場合、解釈可能性のアプローチはユーザーを待たせることなく行動可能な洞察を提供するべきである。 本稿では,グローバルレベルとローカルレベルの両方で特徴量スコアを迅速に提供する解釈可能性アプローチであるacme(accelerated model-agnostic explanations)を提案する。 AcMEは、各回帰モデルや分類モデルに後部に適用することができる。 acmeの計算機能ランキングだけでなく、機能値の変化がモデル予測に与える影響を評価するためのwhat-if分析ツールも提供している。 SHAP(SHapley Additive exPlanations)と比較して,合成および実世界のデータセットに対する提案手法の評価を行った。 計算時間を劇的に短縮し,グローバルおよび局所的な解釈に対して一貫した可視化を実現するとともに,生成した説明の品質の観点から比較結果を得た。 この分野での研究を育むため、再現性のために、実験に使用するコードを持つリポジトリも提供します。

In the context of human-in-the-loop Machine Learning applications, like Decision Support Systems, interpretability approaches should provide actionable insights without making the users wait. In this paper, we propose Accelerated Model-agnostic Explanations (AcME), an interpretability approach that quickly provides feature importance scores both at the global and the local level. AcME can be applied a posteriori to each regression or classification model. Not only does AcME compute feature ranking, but it also provides a what-if analysis tool to assess how changes in features values would affect model predictions. We evaluated the proposed approach on synthetic and real-world datasets, also in comparison with SHapley Additive exPlanations (SHAP), the approach we drew inspiration from, which is currently one of the state-of-the-art model-agnostic interpretability approaches. We achieved comparable results in terms of quality of produced explanations while reducing dramatically the computational time and providing consistent visualization for global and local interpretations. To foster research in this field, and for the sake of reproducibility, we also provide a repository with the code used for the experiments.
翻訳日:2021-12-24 16:34:04 公開日:2021-12-23
# 構造的パターン分類のためのProlog-based agnostic explanation module

Prolog-based agnostic explanation module for structured pattern classification ( http://arxiv.org/abs/2112.12641v1 )

ライセンス: Link先を確認
Gonzalo N\'apoles, Fabian Hoitsma, Andreas Knoben, Agnieszka Jastrzebska, Maikel Leon Espinosa(参考訳) 本稿では,ブラックボックス分類器で計算された予測値から反事実的説明を生成するprologベースの推論モジュールを提案する。 提案するシンボリック推論モジュールは、予測されたラベルではなく接地ラベルを使用して、what-ifクエリを解決できる。 全体として、このアプローチは構造化パターン分類問題に適用可能な4つの明確に定義された段階から構成される。 まず、欠落値を暗示し、数値的特徴を正規化することにより、与えられたデータセットを前処理する。 次に,抽出されたファジィクラスタを予め定義されたシンボルの集合にマッピングするように,ファジィクラスタリングを用いて数値特徴をシンボルに変換する。 第3に,インスタンスを名目値,予め定義されたシンボル,決定クラス,信頼度値を用いてprologルールとしてエンコードする。 第4に、ファジィロー集合理論を用いて各プロログ規則の全体的な信頼度を計算し、数値量から記号への変換による不確実性に対処する。 このステップは、信頼値を含む以前に定義されたPrologルールを比較するために、新しい類似性関数に対するさらなる理論的貢献が伴う。 最後に,人間とprologベースの推論モジュール間のプロキシとしてチャットボットを実装し,自然言語クエリを解決し,反事実的説明を生成する。 合成データセットを用いた数値シミュレーションにおいて,ファジィ演算子と類似関数を用いたシステムの性能について検討した。 最後に、さまざまなユースケースを使って推論モジュールがどのように動作するかを説明します。

This paper presents a Prolog-based reasoning module to generate counterfactual explanations given the predictions computed by a black-box classifier. The proposed symbolic reasoning module can also resolve what-if queries using the ground-truth labels instead of the predicted ones. Overall, our approach comprises four well-defined stages that can be applied to any structured pattern classification problem. Firstly, we pre-process the given dataset by imputing missing values and normalizing the numerical features. Secondly, we transform numerical features into symbolic ones using fuzzy clustering such that extracted fuzzy clusters are mapped to an ordered set of predefined symbols. Thirdly, we encode instances as a Prolog rule using the nominal values, the predefined symbols, the decision classes, and the confidence values. Fourthly, we compute the overall confidence of each Prolog rule using fuzzy-rough set theory to handle the uncertainty caused by transforming numerical quantities into symbols. This step comes with an additional theoretical contribution to a new similarity function to compare the previously defined Prolog rules involving confidence values. Finally, we implement a chatbot as a proxy between human beings and the Prolog-based reasoning module to resolve natural language queries and generate counterfactual explanations. During the numerical simulations using synthetic datasets, we study the performance of our system when using different fuzzy operators and similarity functions. Towards the end, we illustrate how our reasoning module works using different use cases.
翻訳日:2021-12-24 16:33:44 公開日:2021-12-23
# 神経常微分方程式におけるロバスト性と不確実性モデリングの改善

Improving Robustness and Uncertainty Modelling in Neural Ordinary Differential Equations ( http://arxiv.org/abs/2112.12707v1 )

ライセンス: Link先を確認
Srinivas Anumasa, P.K. Srijith(参考訳) ニューラル常微分方程式(NODE)は、Residual Network(ResNets)のような一般的なディープラーニングモデルに対する連続的な深度一般化として提案されている。 パラメータ効率を提供し、ディープラーニングモデルのモデル選択プロセスをある程度自動化します。 しかし、不確実性モデリングと堅牢性能力が欠如しており、これは自動運転や医療といった現実世界のアプリケーションでの使用に不可欠である。 odeソルバのエンドタイム$t$の分布を考慮し,ノードの不確実性をモデル化する新規かつユニークな手法を提案する。 提案手法である latent time node (lt-node) では,$t$ を潜在変数として扱い,データから$t$ 以上の後方分布を得るためにベイズ学習を適用する。 特に,変分推論を用いて近似後値およびモデルパラメータを学習する。 予測は後部の異なるサンプルからNODE表現を考慮し、単一の前方通過を用いて効率的に行うことができる。 T$がNODEの深さを暗黙的に定義しているように、$T$を超える後続分布はNODEのモデル選択にも役立ちます。 また、各データポイントが終末時間に異なる後続分布を持つことができる適応遅延時間NODE(ALT-NODE)を提案する。 ALT-NODEはアモルティズド変分推論を用いて、推論ネットワークを用いて近似後部学習を行う。 本研究では,合成画像と実世界の画像分類データを用いて,不確実性とロバスト性をモデル化する手法の有効性を示す。

Neural ordinary differential equations (NODE) have been proposed as a continuous depth generalization to popular deep learning models such as Residual networks (ResNets). They provide parameter efficiency and automate the model selection process in deep learning models to some extent. However, they lack the much-required uncertainty modelling and robustness capabilities which are crucial for their use in several real-world applications such as autonomous driving and healthcare. We propose a novel and unique approach to model uncertainty in NODE by considering a distribution over the end-time $T$ of the ODE solver. The proposed approach, latent time NODE (LT-NODE), treats $T$ as a latent variable and apply Bayesian learning to obtain a posterior distribution over $T$ from the data. In particular, we use variational inference to learn an approximate posterior and the model parameters. Prediction is done by considering the NODE representations from different samples of the posterior and can be done efficiently using a single forward pass. As $T$ implicitly defines the depth of a NODE, posterior distribution over $T$ would also help in model selection in NODE. We also propose, adaptive latent time NODE (ALT-NODE), which allow each data point to have a distinct posterior distribution over end-times. ALT-NODE uses amortized variational inference to learn an approximate posterior using inference networks. We demonstrate the effectiveness of the proposed approaches in modelling uncertainty and robustness through experiments on synthetic and several real-world image classification data.
翻訳日:2021-12-24 16:33:19 公開日:2021-12-23
# ファジィ認知マップを用いた暗示バイアスのモデル化

Modeling Implicit Bias with Fuzzy Cognitive Maps ( http://arxiv.org/abs/2112.12713v1 )

ライセンス: Link先を確認
Gonzalo N\'apoles and Isel Grau and Leonardo Concepci\'on and Lisa Koutsoviti Koumeri and Jo\~ao Paulo Papa(参考訳) 本稿では,特徴が数値的あるいは離散的である構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。 提案手法では,問題の特徴を専門家によって最初に活性化されるニューラル概念にマッピングする一方,ニューラル概念を結合する重みは特徴間の絶対相関・連想パターンを表す。 さらに,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を導入する。 この新たな推論機構のもう1つの利点は、各イテレーションでニューロンの活性化値を更新する際に非線形性を調整することで容易に制御できることである。 最後に,本モデルの収束について検討し,固定点アトラクタの存在と一様性に関する解析条件を導出する。

This paper presents a Fuzzy Cognitive Map model to quantify implicit bias in structured datasets where features can be numeric or discrete. In our proposal, problem features are mapped to neural concepts that are initially activated by experts when running what-if simulations, whereas weights connecting the neural concepts represent absolute correlation/associat ion patterns between features. In addition, we introduce a new reasoning mechanism equipped with a normalization-like transfer function that prevents neurons from saturating. Another advantage of this new reasoning mechanism is that it can easily be controlled by regulating nonlinearity when updating neurons' activation values in each iteration. Finally, we study the convergence of our model and derive analytical conditions concerning the existence and unicity of fixed-point attractors.
翻訳日:2021-12-24 16:32:54 公開日:2021-12-23
# Windows PEマルウェア検出に対する敵対的攻撃:現状調査

Adversarial Attacks against Windows PE Malware Detection: A Survey of the State-of-the-Art ( http://arxiv.org/abs/2112.12310v1 )

ライセンス: Link先を確認
Xiang Ling, Lingfei Wu, Jiangyu Zhang, Zhenqing Qu, Wei Deng, Xiang Chen, Chunming Wu, Shouling Ji, Tianyue Luo, Jingzheng Wu, Yanjun Wu(参考訳) このマルウェアは、複数のオペレーティングシステムとさまざまなファイルフォーマットにまたがるコンピュータにとって、最も重大な脅威の1つだ。 マルウェアの脅威が絶え間なく増加し続けるのを防ぎ、マルウェアを効果的かつ効率的に検出する様々なマルウェア検出方法を提案してきた。 近年の研究では、既存のMLとDLが新たに出現し、未確認のマルウェアをより優れた検出を可能にすることが示されている。 しかしながら、mlモデルとdlモデルは、本来は敵対的な例の形での敵の攻撃に対して脆弱であり、正当な入力を微妙かつ慎重に摂動させてターゲットとするモデルを混乱させることによって悪質に生成される。 基本的には、敵の攻撃はコンピュータビジョンの領域で広く研究されており、NLP、音声認識、さらにはマルウェア検出など他の領域にも急速に拡大している。 本稿では,Windows PE のファミリ内のファイル形式,すなわち Windows PE のマルウェアに着目し,このような敵の攻撃方法を研究するための代表的な事例として,ファイル形式である Windows PE のマルウェアに着目した。 具体的には、まずml/dlに基づくwindows peマルウェア検出の一般的な学習フレームワークを概説し、次にpeマルウェアの文脈で敵意攻撃を行うための3つのユニークな課題を強調する。 次に、PEマルウェア検出に対する最先端の敵攻撃と、それに対応する防御を分類し、PEマルウェア検出の堅牢性を高めるための総合的かつ体系的なレビューを行う。 本稿は、まず、敵攻撃以外のWindows PEマルウェア検出に対する他の関連する攻撃を提示し、その後、今後の研究の方向性と機会に光を当てることによって結論付ける。

The malware has been being one of the most damaging threats to computers that span across multiple operating systems and various file formats. To defend against the ever-increasing and ever-evolving threats of malware, tremendous efforts have been made to propose a variety of malware detection methods that attempt to effectively and efficiently detect malware. Recent studies have shown that, on the one hand, existing ML and DL enable the superior detection of newly emerging and previously unseen malware. However, on the other hand, ML and DL models are inherently vulnerable to adversarial attacks in the form of adversarial examples, which are maliciously generated by slightly and carefully perturbing the legitimate inputs to confuse the targeted models. Basically, adversarial attacks are initially extensively studied in the domain of computer vision, and some quickly expanded to other domains, including NLP, speech recognition and even malware detection. In this paper, we focus on malware with the file format of portable executable (PE) in the family of Windows operating systems, namely Windows PE malware, as a representative case to study the adversarial attack methods in such adversarial settings. To be specific, we start by first outlining the general learning framework of Windows PE malware detection based on ML/DL and subsequently highlighting three unique challenges of performing adversarial attacks in the context of PE malware. We then conduct a comprehensive and systematic review to categorize the state-of-the-art adversarial attacks against PE malware detection, as well as corresponding defenses to increase the robustness of PE malware detection. We conclude the paper by first presenting other related attacks against Windows PE malware detection beyond the adversarial attacks and then shedding light on future research directions and opportunities.
翻訳日:2021-12-24 16:32:42 公開日:2021-12-23
# s+page:会話における感情認識のための話者・位置認識グラフニューラルネットワークモデル

S+PAGE: A Speaker and Position-Aware Graph Neural Network Model for Emotion Recognition in Conversation ( http://arxiv.org/abs/2112.12389v1 )

ライセンス: Link先を確認
Chen Liang, Chong Yang, Jing Xu, Juyang Huang, Yongliang Wang, Yang Dong(参考訳) 会話における感情認識(erc)は、近年、広く応用される必要性から注目を集めている。 既存のERCメソッドは、主に自己と話者間のコンテキストを個別にモデル化し、それら間の相互作用が十分でないために大きな問題となる。 本稿では,トランスフォーマーとリレーショナルグラフ畳み込みネットワーク(r-gcn)の2つの利点を組み合わせた3つの段階を含む,erc(s+page)のための話者・位置認識型グラフニューラルネットワークモデルを提案する。 まず、2ストリームの会話変換器を提示し、発話毎に粗い自己および話者間コンテキスト特徴を抽出する。 次に,話者と位置認識対話グラフを構築し,相対的な位置符号化によって導かれる粗い特徴を洗練するために,pagと呼ばれる拡張r-gcnモデルを提案する。 最後に、前2段階の2つの特徴を条件付きランダムフィールド層に入力し、感情伝達をモデル化する。

Emotion recognition in conversation (ERC) has attracted much attention in recent years for its necessity in widespread applications. Existing ERC methods mostly model the self and inter-speaker context separately, posing a major issue for lacking enough interaction between them. In this paper, we propose a novel Speaker and Position-Aware Graph neural network model for ERC (S+PAGE), which contains three stages to combine the benefits of both Transformer and relational graph convolution network (R-GCN) for better contextual modeling. Firstly, a two-stream conversational Transformer is presented to extract the coarse self and inter-speaker contextual features for each utterance. Then, a speaker and position-aware conversation graph is constructed, and we propose an enhanced R-GCN model, called PAG, to refine the coarse features guided by a relative positional encoding. Finally, both of the features from the former two stages are input into a conditional random field layer to model the emotion transfer.
翻訳日:2021-12-24 16:32:13 公開日:2021-12-23
# データ強化に基づく自動音声認識のための一貫性コントラスト事前学習

Data Augmentation based Consistency Contrastive Pre-training for Automatic Speech Recognition ( http://arxiv.org/abs/2112.12522v1 )

ライセンス: Link先を確認
Changfeng Gao, Gaofeng Cheng, Yifan Guo, Qingwei Zhao, Pengyuan Zhang(参考訳) 自動音声認識(asr)タスクにおいて,自己教師付き音響事前学習は驚くべき結果を得た。 音響前訓練法の成功のほとんどは、異なる時間ステップから表現を区別し、話者を無視し、環境の頑健さを学習するために対照的な学習を用いる。 その結果、事前訓練されたモデルでは、微調整中にドメイン外のデータに合う場合の性能が低下する可能性がある。 本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。 元のオーディオに異なる種類の拡張が適用され、拡張されたオーディオがエンコーダに入力される。 エンコーダは1つのオーディオ内の表現をコントラストするだけでなく、異なる拡張オーディオ間の表現の測定を最大化する。 このように、事前学習したモデルは、話者や環境の変化に対してより堅牢なテキスト関連表現法を学習することができ、実験により、Wav2Vec2.0にCCL法を適用することにより、ドメイン内データとドメイン外データの両方でより良い結果が得られることを示す。 特にノイズの多いドメイン外データの場合、15%以上の相対的な改善が得られる。

Self-supervised acoustic pre-training has achieved amazing results on the automatic speech recognition (ASR) task. Most of the successful acoustic pre-training methods use contrastive learning to learn the acoustic representations by distinguish the representations from different time steps, ignoring the speaker and environment robustness. As a result, the pre-trained model could show poor performance when meeting out-of-domain data during fine-tuning. In this letter, we design a novel consistency contrastive learning (CCL) method by utilizing data augmentation for acoustic pre-training. Different kinds of augmentation are applied on the original audios and then the augmented audios are fed into an encoder. The encoder should not only contrast the representations within one audio but also maximize the measurement of the representations across different augmented audios. By this way, the pre-trained model can learn a text-related representation method which is more robust with the change of the speaker or the environment.Experime nts show that by applying the CCL method on the Wav2Vec2.0, better results can be realized both on the in-domain data and the out-of-domain data. Especially for noisy out-of-domain data, more than 15% relative improvement can be obtained.
翻訳日:2021-12-24 16:31:55 公開日:2021-12-23
# KFWC:Wet-AMDのきめ細かい分類のための知識駆動型ディープラーニングモデル

KFWC: A Knowledge-Driven Deep Learning Model for Fine-grained Classification of Wet-AMD ( http://arxiv.org/abs/2112.12386v1 )

ライセンス: Link先を確認
Haihong E, Jiawen He, Tianyi Hu, Lifei Wang, Lifei Yuan, Ruru Zhang and Meina Song(参考訳) 深部ニューラルネットワークを用いた自動診断は、眼科医が目障りな眼疾患の加齢関連黄斑変性(AMD)を検出するのに役立つ。 Wet-AMDには2つの類似したサブタイプがあり、Neovascular AMDとPolypoidal Choroidal Vessels (PCV)がある。 しかし,データ収集の困難さや画像間の類似性から,ほとんどの研究は湿性AMDサブタイプよりも粗粒度が細かい湿性AMDの分類に留まっている。 本稿では,この問題を解決するために,kfwc (kfwc) を用いて,未十分なデータを用いて細粒度疾患を分類する手法を提案する。 KFWCに入力画像の10の病変徴候の事前知識を導入することで、KFWCを多ラベル分類事前訓練により加速し、きめ細かな疾患分類タスクにおける決定的な画像特徴を特定し、より良い分類を実現することを目指している。 同時に、kfwcは、優れた解釈性を提供し、湿式amdの細粒度疾患分類の分野でのデータ収集やアノテーションの圧力を効果的に軽減することができる。 実験では、AU-ROCスコアの99.71%に達するKFWCの有効性と、データ駆動のw/o知識と眼科医に対する大幅な改善が示され、最も強いベースラインよりも6.69%、眼科医より4.14%である。

Automated diagnosis using deep neural networks can help ophthalmologists detect the blinding eye disease wet Age-related Macular Degeneration (AMD). Wet-AMD has two similar subtypes, Neovascular AMD and Polypoidal Choroidal Vessels (PCV). However, due to the difficulty in data collection and the similarity between images, most studies have only achieved the coarse-grained classification of wet-AMD rather than a finer-grained one of wet-AMD subtypes. To solve this issue, in this paper we propose a Knowledge-driven Fine-grained Wet-AMD Classification Model (KFWC), to classify fine-grained diseases with insufficient data. With the introduction of a priori knowledge of 10 lesion signs of input images into the KFWC, we aim to accelerate the KFWC by means of multi-label classification pre-training, to locate the decisive image features in the fine-grained disease classification task and therefore achieve better classification. Simultaneously, the KFWC can also provide good interpretability and effectively alleviate the pressure of data collection and annotation in the field of fine-grained disease classification for wet-AMD. The experiments demonstrate the effectiveness of the KFWC which reaches 99.71% in AU-ROC scores, and its considerable improvements over the data-driven w/o Knowledge and ophthalmologists, with the rates of 6.69% over the strongest baseline and 4.14% over ophthalmologists.
翻訳日:2021-12-24 16:31:36 公開日:2021-12-23
# キャリブレーション予測器と不偏体積推定の関係について

On the relationship between calibrated predictors and unbiased volume estimation ( http://arxiv.org/abs/2112.12560v1 )

ライセンス: Link先を確認
Teodora Popordanoska, Jeroen Bertels, Dirk Vandermeulen, Frederik Maes, Matthew B. Blaschko(参考訳) 機械学習駆動の医用画像分割は医用画像解析において標準となっている。 しかし、深層学習モデルは過信的な予測をしがちである。 これにより、医療画像と幅広い機械学習コミュニティにおける予測の校正に新たな焦点が当てられた。 校正予測は、信頼度に基づいて条件付けられたラベルの真の期待値に対応するラベルの確率を推定する。 このような校正予測は、不確実性下での手術計画やアクティブな学習システムを含む、様々な医療画像応用において有用である。 同時に、多くの医療応用において非常に重要な正確な体積測定であることが多い。 本研究は, モデルキャリブレーションと体積推定の関係について検討する。 画像毎に予測器を校正した場合、画像の画素/ボクセル当たりの確率スコアを期待して正しいボリュームが得られることを数学的および経験的に証明する。 さらに,キャリブレーションされた分類器の凸結合が体積推定を保ちながらキャリブレーションを保たないことを示す。 したがって, キャリブレーションされた予測器を持つことは, 容積の偏りのない推定値を得るのに必要な条件ではない。 我々は,BraTS 2018におけるグリオーマ量推定の課題に関する18の異なる(校正された)トレーニング戦略の収集と,ISLES 2018データセットにおける虚血性脳梗塞量推定に関する理論的知見を実証的に検証した。

Machine learning driven medical image segmentation has become standard in medical image analysis. However, deep learning models are prone to overconfident predictions. This has led to a renewed focus on calibrated predictions in the medical imaging and broader machine learning communities. Calibrated predictions are estimates of the probability of a label that correspond to the true expected value of the label conditioned on the confidence. Such calibrated predictions have utility in a range of medical imaging applications, including surgical planning under uncertainty and active learning systems. At the same time it is often an accurate volume measurement that is of real importance for many medical applications. This work investigates the relationship between model calibration and volume estimation. We demonstrate both mathematically and empirically that if the predictor is calibrated per image, we can obtain the correct volume by taking an expectation of the probability scores per pixel/voxel of the image. Furthermore, we show that convex combinations of calibrated classifiers preserve volume estimation, but do not preserve calibration. Therefore, we conclude that having a calibrated predictor is a sufficient, but not necessary condition for obtaining an unbiased estimate of the volume. We validate our theoretical findings empirically on a collection of 18 different (calibrated) training strategies on the tasks of glioma volume estimation on BraTS 2018, and ischemic stroke lesion volume estimation on ISLES 2018 datasets.
翻訳日:2021-12-24 16:31:08 公開日:2021-12-23
# Predi\c{c}\~ao da Idade Cerebral a partir de Imagens de Resson\^ancia Magn\'etica utilizando Redes Neurais Convolucionais

Predi\c{c}\~ao da Idade Cerebral a partir de Imagens de Resson\^ancia Magn\'etica utilizando Redes Neurais Convolucionais ( http://arxiv.org/abs/2112.12609v1 )

ライセンス: Link先を確認
Victor H. R. Oliveira, Augusto Antunes, Alexandre S. Soares, Arthur D. Reys, Robson Z. J\'unior, Saulo D. S. Pedro, Danilo Silva(参考訳) 本研究では,自然老化過程における生体マーカーの同定を支援するため,磁気共鳴画像からの脳年齢予測のための深層学習手法について検討した。 バイオマーカーの同定は、早期の神経変性過程の検出や、年齢関連または非年齢関連認知低下の予測に有用である。 体積画像に適用した3次元畳み込みニューラルネットワークと、軸方向からのスライスに適用された2次元畳み込みニューラルネットワークと、それに続く個々の予測の融合である。 最良の結果は2dモデルによって得られ、平均絶対誤差は3.83年であった。 -neste trabalho s\~ao investigadas t\'ecnicas de aprendizado profundo para a predi\c{c}\~ao da idade brain a partir de imagens de resson\^ancia magn\'etica, visando auxiliar na identifica\c{c}\~ao de biomarcadores do processo natural de envelhecimento a identifica\c{c}\~ao de biomarcadores \'e \'util para a detec\c{c}\~ao de um processo neurodegenerativo em est\'agio inicial, al\'em de possibilitar prever um decl\'inio cognitivo relacionado ou n\~ao \`a idade Duas t\'ecnicas s\~ao implementadas e comparadas neste trabalho: uma Rede Neural Convolucional 3D aplicada na imagem volum\'etrica e uma Rede Neural Convolucional 2D aplicada a fatias do Plano axial, com later fus\~ao das predi\c{c}\~oes individuais。 o melhor resultado foi obtido pelo modelo 2d, que alcan\c{c}ou um erro m\'edio absoluto de 3.83 anos

In this work, deep learning techniques for brain age prediction from magnetic resonance images are investigated, aiming to assist in the identification of biomarkers of the natural aging process. The identification of biomarkers is useful for detecting an early-stage neurodegenerative process, as well as for predicting age-related or non-age-related cognitive decline. Two techniques are implemented and compared in this work: a 3D Convolutional Neural Network applied to the volumetric image and a 2D Convolutional Neural Network applied to slices from the axial plane, with subsequent fusion of individual predictions. The best result was obtained by the 2D model, which achieved a mean absolute error of 3.83 years. -- Neste trabalho s\~ao investigadas t\'ecnicas de aprendizado profundo para a predi\c{c}\~ao da idade cerebral a partir de imagens de resson\^ancia magn\'etica, visando auxiliar na identifica\c{c}\~ao de biomarcadores do processo natural de envelhecimento. A identifica\c{c}\~ao de biomarcadores \'e \'util para a detec\c{c}\~ao de um processo neurodegenerativo em est\'agio inicial, al\'em de possibilitar prever um decl\'inio cognitivo relacionado ou n\~ao \`a idade. Duas t\'ecnicas s\~ao implementadas e comparadas neste trabalho: uma Rede Neural Convolucional 3D aplicada na imagem volum\'etrica e uma Rede Neural Convolucional 2D aplicada a fatias do plano axial, com posterior fus\~ao das predi\c{c}\~oes individuais. O melhor resultado foi obtido pelo modelo 2D, que alcan\c{c}ou um erro m\'edio absoluto de 3.83 anos.
翻訳日:2021-12-24 16:30:43 公開日:2021-12-23
# PandaSet: 自動運転のための高度なセンサースイートデータセット

PandaSet: Advanced Sensor Suite Dataset for Autonomous Driving ( http://arxiv.org/abs/2112.12610v1 )

ライセンス: Link先を確認
Pengchuan Xiao, Zhenlei Shao, Steven Hao, Zishuo Zhang, Xiaolin Chai, Judy Jiao, Zesong Li, Jian Wu, Kai Sun, Kun Jiang, Yunlong Wang, Diange Yang(参考訳) 自動運転技術の急速な発展により、大量の高品質なデータを得る必要性が高まっている。 代表的、ラベル付けされた現実世界のデータは、ディープラーニングネットワークのトレーニングの燃料となり、自動運転の知覚アルゴリズムを改善するのに不可欠である。 本稿では,無償商用ライセンスの完全かつ高精度な自動運転車用センサキットであるpandasetについて紹介する。 このデータセットは、360{\deg}の機械式回転式LiDARと前方向きの長距離LiDARと6台のカメラを使って収集された。 データセットには100以上のシーンが含まれており、それぞれが8秒の長さで、オブジェクト分類用の28種類のラベルとセマンティックセグメンテーションのための37種類のラベルを提供する。 我々は、LiDARのみの3Dオブジェクト検出、LiDARカメラ融合3Dオブジェクト検出、LiDARポイントクラウドセグメンテーションのベースラインを提供する。 PandaSetと開発キットの詳細については、https://scale.com/op en-datasets/pandaset を参照してください。

The accelerating development of autonomous driving technology has placed greater demands on obtaining large amounts of high-quality data. Representative, labeled, real world data serves as the fuel for training deep learning networks, critical for improving self-driving perception algorithms. In this paper, we introduce PandaSet, the first dataset produced by a complete, high-precision autonomous vehicle sensor kit with a no-cost commercial license. The dataset was collected using one 360{\deg} mechanical spinning LiDAR, one forward-facing, long-range LiDAR, and 6 cameras. The dataset contains more than 100 scenes, each of which is 8 seconds long, and provides 28 types of labels for object classification and 37 types of labels for semantic segmentation. We provide baselines for LiDAR-only 3D object detection, LiDAR-camera fusion 3D object detection and LiDAR point cloud segmentation. For more details about PandaSet and the development kit, see https://scale.com/op en-datasets/pandaset .
翻訳日:2021-12-24 16:29:33 公開日:2021-12-23
# InDuDoNet+:CT画像における金属アーチファクト低減のためのモデル駆動型解釈可能なデュアルドメインネットワーク

InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal Artifact Reduction in CT Images ( http://arxiv.org/abs/2112.12660v1 )

ライセンス: Link先を確認
Hong Wang, Yuexiang Li, Haimiao Zhang, Deyu Meng and Yefeng Zheng(参考訳) CT(Computed tomography)撮影の過程では、患者の金属インプラントは常に有害なアーティファクトを引き起こし、再構成CT画像の視覚的品質を低下させ、その後の臨床診断に悪影響を及ぼす。 金属アーティファクト削減(mar)タスクでは、現在のディープラーニングベースの手法が有望なパフォーマンスを達成している。 しかし、それらのほとんどは2つの主要な制限を共有している。 1)ct物理イメージング幾何制約は,深層ネットワーク構造に包括的に組み込まれていない。 2) フレームワーク全体が特定のmarタスクに対して弱い解釈性を持つため,各ネットワークモジュールの役割を評価することは困難である。 そこで本稿では,この問題を解決するために,indudonet+と呼ばれる新しい解釈可能なデュアルドメインネットワークを構築し,ct画像処理を微細に埋め込む。 具体的には,共同空間とラドン領域の再構成モデルを導出し,簡単な演算子のみを用いた最適化アルゴリズムを提案する。 提案アルゴリズムの反復的なステップを対応するネットワークモジュールに展開することにより,InDuDoNet+を明確な解釈性で容易に構築できる。 さらに,各組織間のct値を分析し,indudonet+の先行観測結果を先行ネットワークにマージし,その一般化性能を大幅に向上させた。 合成データと臨床データに関する包括的実験は,提案手法の優越性,および現在の最先端技術 (sota) mar 法よりも優れた一般化性能を示す。 コードは \url{https://github.com/h ongwang01/indudonet_ plus} で入手できる。

During the computed tomography (CT) imaging process, metallic implants within patients always cause harmful artifacts, which adversely degrade the visual quality of reconstructed CT images and negatively affect the subsequent clinical diagnosis. For the metal artifact reduction (MAR) task, current deep learning based methods have achieved promising performance. However, most of them share two main common limitations: 1) the CT physical imaging geometry constraint is not comprehensively incorporated into deep network structures; 2) the entire framework has weak interpretability for the specific MAR task; hence, the role of every network module is difficult to be evaluated. To alleviate these issues, in the paper, we construct a novel interpretable dual domain network, termed InDuDoNet+, into which CT imaging process is finely embedded. Concretely, we derive a joint spatial and Radon domain reconstruction model and propose an optimization algorithm with only simple operators for solving it. By unfolding the iterative steps involved in the proposed algorithm into the corresponding network modules, we easily build the InDuDoNet+ with clear interpretability. Furthermore, we analyze the CT values among different tissues, and merge the prior observations into a prior network for our InDuDoNet+, which significantly improve its generalization performance. Comprehensive experiments on synthesized data and clinical data substantiate the superiority of the proposed methods as well as the superior generalization performance beyond the current state-of-the-art (SOTA) MAR methods. Code is available at \url{https://github.com/h ongwang01/InDuDoNet_ plus}.
翻訳日:2021-12-24 16:29:14 公開日:2021-12-23
# omni-seg : 部分ラベルデータを用いた多発腎病理画像分割のための単一ダイナミックネットワーク

Omni-Seg: A Single Dynamic Network for Multi-label Renal Pathology Image Segmentation using Partially Labeled Data ( http://arxiv.org/abs/2112.12665v1 )

ライセンス: Link先を確認
Ruining Deng, Quan Liu, Can Cui, Zuhayr Asad, Haichun Yang, Yuankai Huo(参考訳) ギガピクセル画像のコンピュータ支援による定量的解析により,新しい精度医療の道が開かれた。 革新は主に癌病理(腫瘍の分節化と特徴化)に焦点を当てている。 非癌病理学では、学習アルゴリズムが複数のラベルの設定として、より包括的な組織タイプを同時に調べるよう求めることができる。 先行技術は通常、異種組織(例えば、糸球体タフト、糸球体ユニット、近位管状、遠位管状、細管状毛細血管、動脈)のドメイン固有の知識にマッチするために複数のセグメンテーションネットワークを訓練する必要があった。 本稿では, 腎病理学において, 部分的にラベル付けされた画像(訓練画像毎にラベル付けされる組織は1種類のみである)を用いて, 複数の組織タイプを分割することを学ぶ動的単一セグメント化ネットワーク (omni-seg) を提案する。 6つの組織タイプから約150,000のパッチワイズ病理画像から学習することにより,提案手法は,従来のマルチネットワークおよびマルチヘッド設計と比較して,セグメント化精度とリソース消費の低減を達成した。 試験段階において,本手法は「部分ラベル付き」トレーニング画像のみを用いて「完全ラベル付き」組織セグメント化結果を得る。 ソースコードはhttps://github.com/d drrnn123/Omni-Segで入手できる。

Computer-assisted quantitative analysis on Giga-pixel pathology images has provided a new avenue in precision medicine. The innovations have been largely focused on cancer pathology (i.e., tumor segmentation and characterization). In non-cancer pathology, the learning algorithms can be asked to examine more comprehensive tissue types simultaneously, as a multi-label setting. The prior arts typically needed to train multiple segmentation networks in order to match the domain-specific knowledge for heterogeneous tissue types (e.g., glomerular tuft, glomerular unit, proximal tubular, distal tubular, peritubular capillaries, and arteries). In this paper, we propose a dynamic single segmentation network (Omni-Seg) that learns to segment multiple tissue types using partially labeled images (i.e., only one tissue type is labeled for each training image) for renal pathology. By learning from ~150,000 patch-wise pathological images from six tissue types, the proposed Omni-Seg network achieved superior segmentation accuracy and less resource consumption when compared to the previous the multiple-network and multi-head design. In the testing stage, the proposed method obtains "completely labeled" tissue segmentation results using only "partially labeled" training images. The source code is available at https://github.com/d drrnn123/Omni-Seg.
翻訳日:2021-12-24 16:28:49 公開日:2021-12-23
# banmo: カジュアルなビデオから3dニューラルモデルを作る

BANMo: Building Animatable 3D Neural Models from Many Casual Videos ( http://arxiv.org/abs/2112.12761v1 )

ライセンス: Link先を確認
Gengshan Yang, Minh Vo, Natalia Neverova, Deva Ramanan, Andrea Vedaldi, Hanbyul Joo(参考訳) 関節型3d形状再構成の作業は、しばしば特殊なセンサー(例えば、同期マルチカメラシステム)や、事前構築された3d変形可能なモデル(例えば、smalやsmpl)に依存する。 このようなメソッドは、野生のさまざまなオブジェクトセットにスケールできない。 本稿では,特殊なセンサや事前定義されたテンプレート形状を必要としないBANMoを提案する。 BANMoは、多くのモノクロカジュアルビデオから高忠実な3Dモデル(形状とアニマタブルなスキンウェイトを含む)を、異なるレンダリングフレームワークで構築する。 多くのビデオを使用することで、カメラのビューやオブジェクトの調音をより広範にカバーできる一方で、背景や照明条件の異なるシーン間での対応を確立する上での重要な課題がもたらされる。 我々は,(1)関節骨とブレンドスキンを用いた古典的変形可能な形状モデル,(2)勾配に基づく最適化に寄与する体積神経放射場(NeRF),(3)ピクセルと関節モデルとの対応を生成する正準埋め込みの3つの学派を融合させることを考察した。 ニューラルブレンドスキンモデルを導入し, 可微分変形と可逆変形を可能にした。 標準埋め込みと組み合わせることで、サイクル整合性で自己教師できるビデオ間の密接な対応を確立することができる。 リアルと合成のデータセットでは、BANMoは人間や動物の以前の作品よりも忠実な3D再構成を示しており、新しい視点やポーズからリアルな画像をレンダリングすることができる。 プロジェクトWebページ: banmo-www.github.io

Prior work for articulated 3D shape reconstruction often relies on specialized sensors (e.g., synchronized multi-camera systems), or pre-built 3D deformable models (e.g., SMAL or SMPL). Such methods are not able to scale to diverse sets of objects in the wild. We present BANMo, a method that requires neither a specialized sensor nor a pre-defined template shape. BANMo builds high-fidelity, articulated 3D models (including shape and animatable skinning weights) from many monocular casual videos in a differentiable rendering framework. While the use of many videos provides more coverage of camera views and object articulations, they introduce significant challenges in establishing correspondence across scenes with different backgrounds, illumination conditions, etc. Our key insight is to merge three schools of thought; (1) classic deformable shape models that make use of articulated bones and blend skinning, (2) volumetric neural radiance fields (NeRFs) that are amenable to gradient-based optimization, and (3) canonical embeddings that generate correspondences between pixels and an articulated model. We introduce neural blend skinning models that allow for differentiable and invertible articulated deformations. When combined with canonical embeddings, such models allow us to establish dense correspondences across videos that can be self-supervised with cycle consistency. On real and synthetic datasets, BANMo shows higher-fidelity 3D reconstructions than prior works for humans and animals, with the ability to render realistic images from novel viewpoints and poses. Project webpage: banmo-www.github.io .
翻訳日:2021-12-24 16:28:25 公開日:2021-12-23
# 複数視点分析のための協調学習

Cooperative learning for multi-view analysis ( http://arxiv.org/abs/2112.12337v1 )

ライセンス: Link先を確認
Daisy Yi Ding, Robert Tibshirani(参考訳) 本研究では,複数の特徴集合(ビュー)を用いた教師付き学習手法を提案する。 協調学習は、予測の通常の正方形エラー損失と、異なるデータビューからの予測に同意するよう奨励する"集積"ペナルティを組み合わせる。 合意のペナルティの重みを変えることで、よく知られた早期および後期の融合アプローチを含むソリューションの連続体が得られる。 協調学習は、検証セットまたはクロスバリデーションを使用して、テストセット予測エラーを推定するために、適応的な方法で一致度(あるいは融合度)を選択する。 私たちの適合手順の1つのバージョンはモジュラーで、異なるデータビューに適した異なる適合メカニズム(例えば、ラッソ、ランダムフォレスト、ブースティング、ニューラルネットワーク)を選択できます。 協調正規化線形回帰の設定では、ラッソペナルティと合意ペナルティを組み合わせる。 この方法は、異なるデータビューが私たちが強化しようとしている信号の基盤となる関係を共有している場合、特に強力である。 シミュレーションおよび実データ例における提案手法の有効性について述べる。

We propose a new method for supervised learning with multiple sets of features ("views"). Cooperative learning combines the usual squared error loss of predictions with an "agreement" penalty to encourage the predictions from different data views to agree. By varying the weight of the agreement penalty, we get a continuum of solutions that include the well-known early and late fusion approaches. Cooperative learning chooses the degree of agreement (or fusion) in an adaptive manner, using a validation set or cross-validation to estimate test set prediction error. One version of our fitting procedure is modular, where one can choose different fitting mechanisms (e.g. lasso, random forests, boosting, neural networks) appropriate for different data views. In the setting of cooperative regularized linear regression, the method combines the lasso penalty with the agreement penalty. The method can be especially powerful when the different data views share some underlying relationship in their signals that we aim to strengthen, while each view has its idiosyncratic noise that we aim to reduce. We illustrate the effectiveness of our proposed method on simulated and real data examples.
翻訳日:2021-12-24 16:27:56 公開日:2021-12-23
# Poincar\'e から Log-Sobolev へのランゲヴィンモンテカルロの解析

Analysis of Langevin Monte Carlo from Poincar\'e to Log-Sobolev ( http://arxiv.org/abs/2112.12662v1 )

ライセンス: Link先を確認
Sinho Chewi, Murat A. Erdogdu, Mufan Bill Li, Ruoqi Shen, Matthew Zhang(参考訳) 古典的には、連続時間ランジュバン拡散は指数関数的にポアンカルコワ不等式を満たす唯一の仮定の下で、定常分布である$\pi$に収束する。 しかし、この事実を利用して離散時間ランジュバンモンテカルロ (lmc) アルゴリズムの保証を提供するのは、chi-squared や r\'enyi divergences を扱う必要があるため、かなり困難であり、以前の研究は、ログコンケーブの強いターゲットに重点を置いてきた。 本研究では, lmc に対する最初の収束保証を提供する。$\pi$ が a lata{\l}a--oleszkiewicz またはmodified log-sobolev 不等式のいずれかを満たすことを仮定し, poincar\'e と log-sobolev の設定を補間する。 従来の研究とは異なり、我々の結果は滑らかさが弱く、凸性や解離性条件を必要としない。

Classically, the continuous-time Langevin diffusion converges exponentially fast to its stationary distribution $\pi$ under the sole assumption that $\pi$ satisfies a Poincar\'e inequality. Using this fact to provide guarantees for the discrete-time Langevin Monte Carlo (LMC) algorithm, however, is considerably more challenging due to the need for working with chi-squared or R\'enyi divergences, and prior works have largely focused on strongly log-concave targets. In this work, we provide the first convergence guarantees for LMC assuming that $\pi$ satisfies either a Lata{\l}a--Oleszkiewicz or modified log-Sobolev inequality, which interpolates between the Poincar\'e and log-Sobolev settings. Unlike prior works, our results allow for weak smoothness and do not require convexity or dissipativity conditions.
翻訳日:2021-12-24 16:27:39 公開日:2021-12-23
# ネットワークにおけるランキングとコミュニティの相互作用

The interplay between ranking and communities in networks ( http://arxiv.org/abs/2112.12670v1 )

ライセンス: Link先を確認
Laura Iacovissi, Caterina De Bacco(参考訳) コミュニティ検出と階層抽出は通常、ネットワーク上の別々の推論タスクとみなされる。 現実世界のデータを研究するときの2つのうちの1つしか単純化できない。 本研究では,コミュニティ構造と階層構造との相互作用に基づく生成モデルを提案する。 それぞれのノードが相互作用機構の優先順位を持ち、同じ好みを持つノードが相互作用する傾向が強く、不均一な相互作用が許されていると仮定する。 アルゴリズムの実装は効率的であり、ネットワークデータセットのスパーシティを利用する。 本研究では,合成データと実世界データの比較を行い,コミュニティ検出とランキング抽出の2つの標準手法との比較を行った。 アルゴリズムは,各ノードの選好を異なるシナリオで正確に検索し,多数のノードと異なる振る舞いをするノードの小さなサブセットを識別できることが判明した。 その結果、ネットワークが全体的に望ましい相互作用機構を持っているかどうかを認識することができる。 これは、観測されたネットワークデータセットを説明する構造について明確な"優先順位"情報がない状況に関係しています。 私たちのモデルは、実践者がデータから自動的にこれを学べるようにします。

Community detection and hierarchy extraction are usually thought of as separate inference tasks on networks. Considering only one of the two when studying real-world data can be an oversimplification. In this work, we present a generative model based on an interplay between community and hierarchical structures. It assumes that each node has a preference in the interaction mechanism and nodes with the same preference are more likely to interact, while heterogeneous interactions are still allowed. The algorithmic implementation is efficient, as it exploits the sparsity of network datasets. We demonstrate our method on synthetic and real-world data and compare performance with two standard approaches for community detection and ranking extraction. We find that the algorithm accurately retrieves each node's preference in different scenarios and we show that it can distinguish small subsets of nodes that behave differently than the majority. As a consequence, the model can recognise whether a network has an overall preferred interaction mechanism. This is relevant in situations where there is no clear "a priori" information about what structure explains the observed network datasets well. Our model allows practitioners to learn this automatically from the data.
翻訳日:2021-12-24 16:27:19 公開日:2021-12-23
# バッチ処理とデータストリーミングフーリエに基づく畳み込みニューラルネットワーク加速器

Batch Processing and Data Streaming Fourier-based Convolutional Neural Network Accelerator ( http://arxiv.org/abs/2112.12297v1 )

ライセンス: Link先を確認
Zibo Hu, Shurui Li, Russell L.T. Schwartz, Maria Solyanik-Gorgone, Mario Miscuglio, Puneet Gupta, Volker J. Sorger(参考訳) ナビゲーション、トラッキング、リアルタイムマシンアクションシステムなど、多数のアプリケーションにおいて、最小レイテンシの人工ニューラルネットワークによる決定が最重要である。 これには機械学習ハードウェアが高スループットで多次元データを処理する必要がある。 データ分類タスクの主要な計算ツールである畳み込み処理は、残念ながら、実行時の複雑さのスケーリング法則に従っている。 しかし、フーリエ光学ディスプレイ光プロセッサに準同型に畳み込み定理を実装することで、1000 x 1000以上の大きな行列を含むデータ入力に対する非イテレーティブなo(1)ランタイムの複雑さが実現される。 本稿では,Fourier Convolutional Neural Network (FCNN)アクセラレータを用いたマルチカーネル画像バッチ処理を実演する。 本稿では,フーリエ領域におけるディジタル光処理モジュールによるパッシブ2億個のドット積乗法として,大規模行列の画像バッチ処理を示す。 さらに、この光学式FCNNシステムの並列化を、複数のスパパラレル回折順序を利用して行い、最先端のFCNNアクセラレータよりも98倍のスループット向上を実現する。 システムの能力の最先端で作業することに関する実践的課題に関する包括的な議論は、フーリエ領域におけるクロストークの問題と解決スケーリング法則を強調している。 ディスプレイ技術における膨大な並列性を利用することで畳み込みを加速することは、非バンニューマンベースの機械学習アクセラレーションをもたらす。

Decision-making by artificial neural networks with minimal latency is paramount for numerous applications such as navigation, tracking, and real-time machine action systems. This requires the machine learning hardware to handle multidimensional data with a high throughput. Processing convolution operations being the major computational tool for data classification tasks, unfortunately, follows a challenging run-time complexity scaling law. However, implementing the convolution theorem homomorphically in a Fourier-optic display-light-proces sor enables a non-iterative O(1) runtime complexity for data inputs beyond 1,000 x 1,000 large matrices. Following this approach, here we demonstrate data streaming multi-kernel image batch-processing with a Fourier Convolutional Neural Network (FCNN) accelerator. We show image batch processing of large-scale matrices as passive 2-million dot-product multiplications performed by digital light-processing modules in the Fourier domain. In addition, we parallelize this optical FCNN system further by utilizing multiple spatio-parallel diffraction orders, thus achieving a 98-times throughput improvement over state-of-art FCNN accelerators. The comprehensive discussion of the practical challenges related to working on the edge of the system's capabilities highlights issues of crosstalk in the Fourier domain and resolution scaling laws. Accelerating convolutions by utilizing the massive parallelism in display technology brings forth a non-van Neuman-based machine learning acceleration.
翻訳日:2021-12-24 16:26:14 公開日:2021-12-23
# 心房細動検出のための心電図データの解析

Analysis of ECG data to detect Atrial Fibrillation ( http://arxiv.org/abs/2112.12298v1 )

ライセンス: Link先を確認
Arjun Sridharkumar, Sai Bhargav, Rahul Guntha(参考訳) 心房細動(英: atrial fibrillation, AF/Afib thenforth)は、心臓のクロートに繋がる、離散的かつ頻繁な心臓リズムである。 fig(1)に示すように、pの欠如とr波間の不整合間隔により、ecg信号によりafibを検出できる。 既存の手法はafibの検出に使用されるcnnを中心に回転するが、そのほとんどは12点リードecgデータで動作し、我々の場合、ヘルスゲージウォッチは1点ecgデータを扱う。 12点リードECGデータは1点よりも正確である。 さらに、健康計の監視データはずっとノイズが多い。 時計用Afib検出モデルの実装は、実際のデータを扱うためにCNNをどのように変更・変更するかのテストである。

Atrial fibrillation(termed as AF/Afib henceforth) is a discrete and often rapid heart rhythm that can lead to clots near the heart. We can detect Afib by ECG signal by the absence of p and inconsistent intervals between R waves as shown in fig(1). Existing methods revolve around CNN that are used to detect afib but most of them work with 12 point lead ECG data where in our case the health gauge watch deals with single-point ECG data. Twelve-point lead ECG data is more accurate than a single point. Furthermore, the health gauge watch data is much noisier. Implementing a model to detect Afib for the watch is a test of how the CNN is changed/modified to work with real life data
翻訳日:2021-12-24 16:25:53 公開日:2021-12-23
# データ通信ネットワークにおける短時間予測のための物理制約流れニューラルネットワーク

Physics Constrained Flow Neural Network for Short-Timescale Predictions in Data Communications Networks ( http://arxiv.org/abs/2112.12321v1 )

ライセンス: Link先を確認
Xiangle Cheng, James He, Shihan Xiao, Yingxue Zhang, Zhitang Chen, Pascal Poupart, Fenglin Li(参考訳) 機械学習は、データ通信ネットワークにおける情報フローの動的解析のための様々なモデルにおいて、勢いを増している。 これらの予備モデルは、歴史的統計から予測するために、しばしば既成の学習モデルに依存し、これらのフローの生成行動を管理する物理を無視する。 本稿では,その代わりにflow neural network(flownn)を導入し,学習した物理的バイアスにより特徴表現を改善する。 これは、埋め込み層に作用する誘導層によって実装され、物理結合データ相関を課し、学習物理学を普遍化するために停止勾配を持つ自己教師付き学習戦略によって実装される。 短時間のネットワーク予測タスクでは、FlowNNは、合成および実世界のネットワークデータセットの最先端ベースラインよりも17%から71%の損失減少を実現しており、この新しいアプローチの強みを示している。 コードは利用可能になる。

Machine learning is gaining growing momentum in various recent models for the dynamic analysis of information flows in data communications networks. These preliminary models often rely on off-the-shelf learning models to predict from historical statistics while disregarding the physics governing the generating behaviors of these flows. This paper instead introduces Flow Neural Network (FlowNN) to improve the feature representation with learned physical bias. This is implemented by an induction layer, working upon the embedding layer, to impose the physics connected data correlations, and a self-supervised learning strategy with stop-gradient to make the learned physics universal. For the short-timescale network prediction tasks, FlowNN achieves 17% - 71% of loss decrease than the state-of-the-art baselines on both synthetic and real-world networking datasets, which shows the strength of this new approach. Code will be made available.
翻訳日:2021-12-24 16:25:40 公開日:2021-12-23
# 分散インバータによる学習

Learning with distributional inverters ( http://arxiv.org/abs/2112.12340v1 )

ライセンス: Link先を確認
Eric Binnendyk, Marco Carmosino, Antonina Kolokolova, Ramyaa Ramyaa, Manuel Sabin(参考訳) 我々はFurstらの"間接学習"技術を一般化する。 1991年、一様分布上の同じ概念クラスを学ぶために、samplable 分布上の概念クラスを学習することから$\mu$ を減じる。 この還元は、$\mu$ のサンプルがターゲット概念クラスに含まれ、1989年の Impagliazzo & Luby の意味で効率的に可逆であるときに成功する。 2つのアプリケーションを与えます。 - ac0[q]が簡潔に記述された製品分布よりも学習可能であることを示す。 AC0[q] は多項式サイズが AND, OR, NOT で、無有界ファインのモジュロ$q$ゲートを数える定数深さブール回路のクラスである。 我々のアルゴリズムはランダム化された準多項式時間で動作し、メンバシップクエリを使用する。 -ラズボロフ&ルディッヒ1997 -- ランダム弦と非自明な回路複雑性の文字列を区別できる効率的なアルゴリズム -- の意味で、非常に有用な自然特性がある場合、一般多項式サイズのブール回路は、対象関数へのメンバシップクエリが与えられた場合、ランダム化された多項式時間で、任意の効率的なsamplable分布上で学習することができる。

We generalize the "indirect learning" technique of Furst et. al., 1991 to reduce from learning a concept class over a samplable distribution $\mu$ to learning the same concept class over the uniform distribution. The reduction succeeds when the sampler for $\mu$ is both contained in the target concept class and efficiently invertible in the sense of Impagliazzo & Luby, 1989. We give two applications. - We show that AC0[q] is learnable over any succinctly-described product distribution. AC0[q] is the class of constant-depth Boolean circuits of polynomial size with AND, OR, NOT, and counting modulo $q$ gates of unbounded fanins. Our algorithm runs in randomized quasi-polynomial time and uses membership queries. - If there is a strongly useful natural property in the sense of Razborov & Rudich 1997 -- an efficient algorithm that can distinguish between random strings and strings of non-trivial circuit complexity -- then general polynomial-sized Boolean circuits are learnable over any efficiently samplable distribution in randomized polynomial time, given membership queries to the target function
翻訳日:2021-12-24 16:25:24 公開日:2021-12-23
# モバイルネットワークトラフィックにおける統計的特徴量に基づく個人情報検出

Statistical Feature-based Personal Information Detection in Mobile Network Traffic ( http://arxiv.org/abs/2112.12346v1 )

ライセンス: Link先を確認
Shuang Zhao, Shuhui Chen, Ziling Wei(参考訳) スマートフォンの普及に伴い、モバイルアプリケーション(アプリ)は人々の日常生活に浸透してきた。 アプリは豊富な機能を提供しているが、同時に大量の個人情報にアクセスできる。 その結果、プライバシーの懸念が高まる。 アプリが収集する個人情報を理解するために、アプリのプライバシー漏洩を検出する多くのソリューションが提示される。 近年,トラフィック監視に基づくプライバシー漏洩検出手法が有望な性能とスケーラビリティを示している。 しかし、まだいくつかの欠点がある。 まず、難読化による個人情報の漏洩の検出に苦しむ。 第二に、未定義型のプライバシー漏洩を見つけることはできない。 本稿では,上記の問題を解決するために,交通監視に基づく新たな個人情報検出手法を提案する。 本稿では,局所的なパターンやグローバルなパターンを含む,交通における個人情報の発生パターンを統計的に表現するために,個人情報の統計的特徴を設計する。 次に、機械学習アルゴリズムに基づいて検知器を訓練し、同様のパターンで潜在的な個人情報を検出する。 統計的特徴は個人情報の価値と種類とは独立しているため、トレーニングされた検出器は様々な種類のプライバシーリークと難解なプライバシーリークを特定することができる。 われわれの知る限り、統計的特徴に基づいて個人情報を検出するのはこれが初めてだ。 その結果,提案手法は最先端の手法よりも優れた性能が得られることがわかった。

With the popularity of smartphones, mobile applications (apps) have penetrated the daily life of people. Although apps provide rich functionalities, they also access a large amount of personal information simultaneously. As a result, privacy concerns are raised. To understand what personal information the apps collect, many solutions are presented to detect privacy leaks in apps. Recently, the traffic monitoring-based privacy leak detection method has shown promising performance and strong scalability. However, it still has some shortcomings. Firstly, it suffers from detecting the leakage of personal information with obfuscation. Secondly, it cannot discover the privacy leaks of undefined type. Aiming at solving the above problems, a new personal information detection method based on traffic monitoring is proposed in this paper. In this paper, statistical features of personal information are designed to depict the occurrence patterns of personal information in the traffic, including local patterns and global patterns. Then a detector is trained based on machine learning algorithms to discover potential personal information with similar patterns. Since the statistical features are independent of the value and type of personal information, the trained detector is capable of identifying various types of privacy leaks and obfuscated privacy leaks. As far as we know, this is the first work that detects personal information based on statistical features. Finally, the experimental results show that the proposed method could achieve better performance than the state-of-the-art.
翻訳日:2021-12-24 16:25:02 公開日:2021-12-23
# 総合的な映画レコメンデーションシステム

Comprehensive Movie Recommendation System ( http://arxiv.org/abs/2112.12463v1 )

ライセンス: Link先を確認
Hrisav Bhowmick, Ananda Chatterjee, and Jaydip Sen(参考訳) レコメンデータシステムは、レコメンデーションシステムとしても知られ、あるアイテムに対するユーザーの評価や好みを予測しようとする情報フィルタリングシステムの一種である。 本稿では,TFIDF と SVD を用いたコンテンツベースフィルタリング,TFIDF と SVD を用いた協調フィルタリング,サプライズライブラリベースのレコメンデーションシステム技術,Genre, Pearson correlation Coefficient, Cosine similarity, KNN-based, Content-based Filtering, TFIDF と SVD をベースとした完全な映画レコメンデーションシステムのプロトタイプを設計,実装する。 そこで,本論文では,ジャンルに基づく映画のためのクラスタを構築するために機械学習手法を適用し,クラスタの慣性値数を定義した新しいアイデアを提案する。 この研究で議論されたアプローチの制約と、ある戦略が別の戦略の欠点を克服する方法が述べられている。 この研究は、9742本の映画にまたがる100836のレーティングと3683のタグアプリケーションを含む、グループレンズのウェブサイトにあるデータセットの映画レンズで完了した。 これらのデータは1996年3月29日から2018年9月24日まで、610人のユーザーが作成した。

A recommender system, also known as a recommendation system, is a type of information filtering system that attempts to forecast a user's rating or preference for an item. This article designs and implements a complete movie recommendation system prototype based on the Genre, Pearson Correlation Coefficient, Cosine Similarity, KNN-Based, Content-Based Filtering using TFIDF and SVD, Collaborative Filtering using TFIDF and SVD, Surprise Library based recommendation system technology. Apart from that in this paper, we present a novel idea that applies machine learning techniques to construct a cluster for the movie based on genres and then observes the inertia value number of clusters were defined. The constraints of the approaches discussed in this work have been described, as well as how one strategy overcomes the disadvantages of another. The whole work has been done on the dataset Movie Lens present at the group lens website which contains 100836 ratings and 3683 tag applications across 9742 movies. These data were created by 610 users between March 29, 1996, and September 24, 2018.
翻訳日:2021-12-24 16:24:45 公開日:2021-12-23
# リカレントニューラルネットワークによる階層型マルチビルディングとマルチフロア屋内定位

Hierarchical Multi-Building And Multi-Floor Indoor Localization Based On Recurrent Neural Networks ( http://arxiv.org/abs/2112.12478v1 )

ライセンス: Link先を確認
Abdalla Elmokhtar Ahmed Elesawi and Kyeong Soo Kim(参考訳) 近代都市では、屋外から屋内のライフスタイルに移行する傾向が強まっている。 大型ショッピングモール、屋内スポーツ複合施設、工場、倉庫などが出現し、この傾向が加速している。 このような環境では、屋内ローカライズが必須のサービスの一つとなり、展開すべき屋内ローカライズシステムは、それらの屋内施設の期待される拡張をカバーするのに十分なスケーラビリティを持つべきである。 屋内ローカライゼーションにおける最も経済的かつ実践的なアプローチの1つはWi-Fiフィンガープリントであり、既存のインフラを変更することなくモバイルデバイス(例えばスマートフォン)を使って広く展開されているWi-Fiネットワークを利用する。 従来のWi-Fiフィンガープリント方式は複雑なデータ前処理と時間を要する手動パラメータチューニングに依存している。 本稿では,Wi-Fiフィンガープリントを用いたリカレントニューラルネットワーク(RNN)に基づく階層型マルチビルディングとマルチフロア屋内ローカライゼーションを提案する。 提案手法におけるRNNは, マルチビルディング環境とマルチフロア環境における局所化の階層的性質を活用するために, 一般から特定の場所(例えば, ビル>フロア>ロケーション)まで連続的に位置を推定する。 UJIIndoorLocデータセットによる実験の結果、提案手法は、それぞれ100%と95.24%の精度で建物と床を推定し、既存のディープニューラルネットワーク方式よりも優れた8.62mの3次元位置決め誤差を提供する。

There has been an increasing tendency to move from outdoor to indoor lifestyle in modern cities. The emergence of big shopping malls, indoor sports complexes, factories, and warehouses is accelerating this tendency. In such an environment, indoor localization becomes one of the essential services, and the indoor localization systems to be deployed should be scalable enough to cover the expected expansion of those indoor facilities. One of the most economical and practical approaches to indoor localization is Wi-Fi fingerprinting, which exploits the widely-deployed Wi-Fi networks using mobile devices (e.g., smartphones) without any modification of the existing infrastructure. Traditional Wi-Fi fingerprinting schemes rely on complicated data pre/post-processing and time-consuming manual parameter tuning. In this paper, we propose hierarchical multi-building and multi-floor indoor localization based on a recurrent neural network (RNN) using Wi-Fi fingerprinting, eliminating the need of complicated data pre/post-processing and with less parameter tuning. The RNN in the proposed scheme estimates locations in a sequential manner from a general to a specific one (e.g., building->floor->location) in order to exploit the hierarchical nature of the localization in multi-building and multi-floor environments. The experimental results with the UJIIndoorLoc dataset demonstrate that the proposed scheme estimates building and floor with 100% and 95.24% accuracy, respectively, and provides three-dimensional positioning error of 8.62 m, which outperforms existing deep neural network-based schemes.
翻訳日:2021-12-24 16:24:20 公開日:2021-12-23
# ニューラルネットワークにおけるニアデータ処理アーキテクチャの検討

A Survey of Near-Data Processing Architectures for Neural Networks ( http://arxiv.org/abs/2112.12630v1 )

ライセンス: Link先を確認
Mehdi Hassanpour, Marc Riera and Antonio Gonz\'alez(参考訳) データ集約型ワークロードと機械学習(ML)のようなアプリケーションは、基本的にvon-Neumannアーキテクチャに基づいた従来のコンピューティングシステムによって制限されている。 データ移動操作とエネルギー消費がコンピューティングシステムの設計において重要なボトルネックとなるにつれ、NDP(Near-Data Processing)や機械学習、特にニューラルネットワーク(NN)ベースのアクセラレーターなど、従来からあるアプローチへの関心が高まっている。 reramや3d-stackedといった新しいメモリ技術は、高密度/低エネルギーストレージとニアメモリ計算/検索エンジンの両方で動作するため、nn用のndpベースのアクセラレーターを効率的に設計することを約束している。 本稿では,NN 用 NDP アーキテクチャの設計手法について述べる。 使用するメモリ技術に基づいて手法を分類することにより、その類似性と相違点を強調する。 最後に、今後のコンピューティングプラットフォームにおけるNDPアーキテクチャの導入を改善・拡張するために検討すべき課題と今後の展望について論じる。 本論文は,機械学習分野のコンピュータアーキテクト,チップ設計者,研究者にとって有用である。

Data-intensive workloads and applications, such as machine learning (ML), are fundamentally limited by traditional computing systems based on the von-Neumann architecture. As data movement operations and energy consumption become key bottlenecks in the design of computing systems, the interest in unconventional approaches such as Near-Data Processing (NDP), machine learning, and especially neural network (NN)-based accelerators has grown significantly. Emerging memory technologies, such as ReRAM and 3D-stacked, are promising for efficiently architecting NDP-based accelerators for NN due to their capabilities to work as both: High-density/low-ene rgy storage and in/near-memory computation/search engine. In this paper, we present a survey of techniques for designing NDP architectures for NN. By classifying the techniques based on the memory technology employed, we underscore their similarities and differences. Finally, we discuss open challenges and future perspectives that need to be explored in order to improve and extend the adoption of NDP architectures for future computing platforms. This paper will be valuable for computer architects, chip designers and researchers in the area of machine learning.
翻訳日:2021-12-24 16:23:24 公開日:2021-12-23
# (参考訳) ELSA:ビジョントランスのためのローカルセルフアテンション強化 [全文訳有]

ELSA: Enhanced Local Self-Attention for Vision Transformer ( http://arxiv.org/abs/2112.12786v1 )

ライセンス: CC BY 4.0
Jingkai Zhou and Pichao Wang and Fan Wang and Qiong Liu and Hao Li and Rong Jin(参考訳) セルフアテンションは長距離依存のモデリングには強力だが、局所的なきめ細かい特徴学習では弱い。 局所自己注意(LSA)の性能は、畳み込みに匹敵するものであり、動的フィルタに劣る。 これらを明らかにするために, LSA と LSA の2つの側面である \emph{ channel setting} と \emph{spatial processing} を包括的に検討した。 相対的な位置埋め込みと隣り合うフィルタの適用が重要な要因である空間的注意の生成と応用に悪魔が存在することが分かる。 そこで本研究では,アダマールの注意とゴーストヘッドを併用した局所自己注意(ELSA)を提案する。 アダマールの注意は、高次マッピングを維持しながら、近隣のケースで効率的に注意を喚起するためにアダマール製品を導入する。 ゴーストヘッドは、チャンネル容量を増やすためにアテンションマップと静的行列を組み合わせる。 実験はELSAの有効性を示す。 アーキテクチャやハイパーパラメータを変更することなく、LSAをELSAに置き換えることで、トップ1の精度でSwin Transformer \cite{swin}を最大1.4アップする。 ELSA は D1 から D5 へのVOLO \cite{volo} の恩恵も一貫して受けており、この場合 ELSA-VOLO-D5 は 87.2 を ImageNet-1K 上で追加の訓練画像なしで達成している。 さらに,下流タスクにおけるELSAの評価を行った。 ELSA は COCO の +1.9 ボックス Ap / +1.3 マスク Ap と ADE20K の +1.9 mIoU のベースラインを大幅に改善する。 コードは \url{https://github.com/d amo-cv/elsa} で入手できる。

Self-attention is powerful in modeling long-range dependencies, but it is weak in local finer-level feature learning. The performance of local self-attention (LSA) is just on par with convolution and inferior to dynamic filters, which puzzles researchers on whether to use LSA or its counterparts, which one is better, and what makes LSA mediocre. To clarify these, we comprehensively investigate LSA and its counterparts from two sides: \emph{channel setting} and \emph{spatial processing}. We find that the devil lies in the generation and application of spatial attention, where relative position embeddings and the neighboring filter application are key factors. Based on these findings, we propose the enhanced local self-attention (ELSA) with Hadamard attention and the ghost head. Hadamard attention introduces the Hadamard product to efficiently generate attention in the neighboring case, while maintaining the high-order mapping. The ghost head combines attention maps with static matrices to increase channel capacity. Experiments demonstrate the effectiveness of ELSA. Without architecture / hyperparameter modification, drop-in replacing LSA with ELSA boosts Swin Transformer \cite{swin} by up to +1.4 on top-1 accuracy. ELSA also consistently benefits VOLO \cite{volo} from D1 to D5, where ELSA-VOLO-D5 achieves 87.2 on the ImageNet-1K without extra training images. In addition, we evaluate ELSA in downstream tasks. ELSA significantly improves the baseline by up to +1.9 box Ap / +1.3 mask Ap on the COCO, and by up to +1.9 mIoU on the ADE20K. Code is available at \url{https://github.com/d amo-cv/ELSA}.
翻訳日:2021-12-24 16:17:40 公開日:2021-12-23
# SeMask: セマンティックセグメンテーションのためのセマンティックマスク変換器

SeMask: Semantically Masked Transformers for Semantic Segmentation ( http://arxiv.org/abs/2112.12782v1 )

ライセンス: Link先を確認
Jitesh Jain, Anukriti Singh, Nikita Orlov, Zilong Huang, Jiachen Li, Steven Walton, Humphrey Shi(参考訳) イメージトランスフォーマネットワークのエンコーダ部分における事前学習されたバックボーンの微調整は、セマンティックセグメンテーションタスクの従来のアプローチである。 しかし、そのようなアプローチは、エンコーディング段階で画像が提供する意味的コンテキストを排除している。 本稿では,事前学習された階層的トランスフォーマーベースバックボーンに画像の意味情報を組み込むことにより,性能が大幅に向上することを示す。 そこで本研究では,セマンティックアテンション操作の助けを借りて,意味情報をエンコーダに組み込む,シンプルで効果的なフレームワークSeMaskを提案する。 さらに、トレーニング中に軽量なセマンティックデコーダを使用して、各ステージにおける中間セマンティック事前マップの監視を行う。 提案実験では,セマンティクス優先化が確立した階層エンコーダの性能を高め,フロップ数をわずかに増加させることを実証する。 我々は、Swin-Transformerの各変種にSeMaskを組み込んで、異なるデコーダと組み合わせたエンコーダとして実証的な証明を行う。 我々のフレームワークはADE20Kデータセットで58.22% mIoUの新たな最先端を実現し、CityscapesデータセットではmIoUメトリックで3%以上の改善を実現している。 コードとチェックポイントはhttps://github.com/P icsart-AI-Research/S eMask-Segmentation で公開されている。

Finetuning a pretrained backbone in the encoder part of an image transformer network has been the traditional approach for the semantic segmentation task. However, such an approach leaves out the semantic context that an image provides during the encoding stage. This paper argues that incorporating semantic information of the image into pretrained hierarchical transformer-based backbones while finetuning improves the performance considerably. To achieve this, we propose SeMask, a simple and effective framework that incorporates semantic information into the encoder with the help of a semantic attention operation. In addition, we use a lightweight semantic decoder during training to provide supervision to the intermediate semantic prior maps at every stage. Our experiments demonstrate that incorporating semantic priors enhances the performance of the established hierarchical encoders with a slight increase in the number of FLOPs. We provide empirical proof by integrating SeMask into each variant of the Swin-Transformer as our encoder paired with different decoders. Our framework achieves a new state-of-the-art of 58.22% mIoU on the ADE20K dataset and improvements of over 3% in the mIoU metric on the Cityscapes dataset. The code and checkpoints are publicly available at https://github.com/P icsart-AI-Research/S eMask-Segmentation .
翻訳日:2021-12-24 14:59:45 公開日:2021-12-23
# 高速MRIのためのAIベースの再構成 -- システムレビューとメタ分析

AI-based Reconstruction for Fast MRI -- A Systematic Review and Meta-analysis ( http://arxiv.org/abs/2112.12744v1 )

ライセンス: Link先を確認
Yutong Chen, Carola-Bibiane Sch\"onlieb, Pietro Li\`o, Tim Leiner, Pier Luigi Dragotti, Ge Wang, Daniel Rueckert, David Firmin, Guang Yang(参考訳) 圧縮センシング(CS)は磁気共鳴画像(MRI)取得プロセスの加速に重要な役割を果たしている。 人工知能の復活に伴い、ディープニューラルネットワークとCSアルゴリズムが統合され、高速MRIの最先端技術を再定義している。 過去数年間、高速MRIに特化したディープラーニングベースのCS技術の複雑さ、多様性、パフォーマンスが著しく向上しているのを目撃してきた。 このメタ分析では、高速MRIのためのディープラーニングに基づくCS手法を体系的にレビューし、キーモデルの設計を説明し、ブレークスルーを強調し、将来的な方向性について議論する。 我々はまた,MRIのCSベースの加速度におけるディープラーニングの役割を評価するための包括的分析フレームワークと分類システムも導入した。

Compressed sensing (CS) has been playing a key role in accelerating the magnetic resonance imaging (MRI) acquisition process. With the resurgence of artificial intelligence, deep neural networks and CS algorithms are being integrated to redefine the state of the art of fast MRI. The past several years have witnessed substantial growth in the complexity, diversity, and performance of deep learning-based CS techniques that are dedicated to fast MRI. In this meta-analysis, we systematically review the deep learning-based CS techniques for fast MRI, describe key model designs, highlight breakthroughs, and discuss promising directions. We have also introduced a comprehensive analysis framework and a classification system to assess the pivotal role of deep learning in CS-based acceleration for MRI.
翻訳日:2021-12-24 14:59:18 公開日:2021-12-23
# 安全なマップレスナビゲーションのためのカリキュラム学習

Curriculum Learning for Safe Mapless Navigation ( http://arxiv.org/abs/2112.12490v1 )

ライセンス: Link先を確認
Luca Marzari, Davide Corsi, Enrico Marchesini and Alessandro Farinelli(参考訳) 本研究は,カリキュラム学習(CL)に基づくアプローチがエージェントのパフォーマンスに与える影響について検討する。 特に,ロボットマップレスナビゲーションの安全性に着目し,標準的なエンドツーエンド(e2e)トレーニング戦略を比較した。 この目的のために,ロボットエージェントとしてRobotnik Kairosを用いたUnityベースのシミュレーションにおいて,Transfer of Learning(ToL)とファインチューニングを活用するCLアプローチを提案する。 公平な比較のために,本評価では,各学習手法(例えば,同一数の相互作用と環境の難易度)に対して同等な計算需要を考慮し,ToLを用いたCL法がE2E法より優れていることを確認した。 特に、トレーニングされたポリシーの平均成功率と安全性を改善し、見当たらないテストシナリオでの衝突が10%少なくなりました。 これらの結果をさらに確認するため,要求仕様に対する強化学習ポリシーの正しい行動の数を定量化するために,形式的検証ツールを用いる。

This work investigates the effects of Curriculum Learning (CL)-based approaches on the agent's performance. In particular, we focus on the safety aspect of robotic mapless navigation, comparing over a standard end-to-end (E2E) training strategy. To this end, we present a CL approach that leverages Transfer of Learning (ToL) and fine-tuning in a Unity-based simulation with the Robotnik Kairos as a robotic agent. For a fair comparison, our evaluation considers an equal computational demand for every learning approach (i.e., the same number of interactions and difficulty of the environments) and confirms that our CL-based method that uses ToL outperforms the E2E methodology. In particular, we improve the average success rate and the safety of the trained policy, resulting in 10% fewer collisions in unseen testing scenarios. To further confirm these results, we employ a formal verification tool to quantify the number of correct behaviors of Reinforcement Learning policies over desired specifications.
翻訳日:2021-12-24 14:58:45 公開日:2021-12-23
# 格子応用におけるニューラルネットワークの一般化能力

Generalization capabilities of neural networks in lattice applications ( http://arxiv.org/abs/2112.12474v1 )

ライセンス: Link先を確認
Srinath Bulusu, Matteo Favoni, Andreas Ipp, David I. M\"uller, Daniel Schuh(参考訳) 近年,格子場理論の文脈では,機械学習の利用が盛んに行われている。 このような理論の本質的な要素は対称性によって表現され、ニューラルネットワークの性質を包含することで、性能と一般化可能性の観点から高い報酬が得られる。 通常、周期境界条件を持つ格子上の物理系を特徴づける基本的な対称性は、時空変換の下で同値である。 本稿では、翻訳同値ニューラルネットワークを非同値ニューラルネットワークに導入する利点について考察する。 私たちが考えるシステムは、フラックス表現における二次元格子上の四次相互作用を持つ複素スカラー場であり、ネットワークは様々な回帰および分類タスクを実行する。 確率同変および非同変アーキテクチャは、体系的な探索と同一視される。 これらのタスクのほとんどにおいて、我々の最良の同変アーキテクチャは、トレーニングセットで表されるもの以外の物理パラメータだけでなく、異なる格子サイズにも適用できる、非同変アーキテクチャよりもはるかに優れた性能と一般化を実現できることを実証する。

In recent years, the use of machine learning has become increasingly popular in the context of lattice field theories. An essential element of such theories is represented by symmetries, whose inclusion in the neural network properties can lead to high reward in terms of performance and generalizability. A fundamental symmetry that usually characterizes physical systems on a lattice with periodic boundary conditions is equivariance under spacetime translations. Here we investigate the advantages of adopting translationally equivariant neural networks in favor of non-equivariant ones. The system we consider is a complex scalar field with quartic interaction on a two-dimensional lattice in the flux representation, on which the networks carry out various regression and classification tasks. Promising equivariant and non-equivariant architectures are identified with a systematic search. We demonstrate that in most of these tasks our best equivariant architectures can perform and generalize significantly better than their non-equivariant counterparts, which applies not only to physical parameters beyond those represented in the training set, but also to different lattice sizes.
翻訳日:2021-12-24 14:56:19 公開日:2021-12-23
# 神経形態の自己教師的表現学習

Self-supervised Representation Learning of Neuronal Morphologies ( http://arxiv.org/abs/2112.12482v1 )

ライセンス: Link先を確認
Marissa A. Weis, Laura Pede, Timo L\"uddecke, Alexander S. Ecker(参考訳) 脳内の細胞の種類とその機能を理解することは神経科学における重要な課題の1つである。 大規模データセットの出現は、細胞型分類に偏りのない定量的なアプローチの必要性をもたらした。 ニューロンの3次元形態の低次元表現を学習するための純粋データ駆動アプローチであるgraphdinoを提案する。 GraphDINOは,変圧器モデルを用いた自己教師付き学習を利用した空間グラフの新しいグラフ表現学習法である。 ノード間の注意に基づくグローバルインタラクションと古典的なグラフ畳み込み処理をスムーズに補間する。 本手法は,手動の特徴に基づく分類に匹敵する形態学的細胞型クラスタリングを実現し,二つの異なる種と皮質領域における専門家ラベル細胞型との良好な対応を示す。 本手法は,データセット中のサンプルがグラフであり,グラフレベルの埋め込みが望まれる設定において,神経科学を超えて適用可能である。

Understanding the diversity of cell types and their function in the brain is one of the key challenges in neuroscience. The advent of large-scale datasets has given rise to the need of unbiased and quantitative approaches to cell type classification. We present GraphDINO, a purely data-driven approach to learning a low dimensional representation of the 3D morphology of neurons. GraphDINO is a novel graph representation learning method for spatial graphs utilizing self-supervised learning on transformer models. It smoothly interpolates between attention-based global interaction between nodes and classic graph convolutional processing. We show that this method is able to yield morphological cell type clustering that is comparable to manual feature-based classification and shows a good correspondence to expert-labeled cell types in two different species and cortical areas. Our method is applicable beyond neuroscience in settings where samples in a dataset are graphs and graph-level embeddings are desired.
翻訳日:2021-12-24 14:56:01 公開日:2021-12-23
# ニューラルネットワークにおける等価性と一般化

Equivariance and generalization in neural networks ( http://arxiv.org/abs/2112.12493v1 )

ライセンス: Link先を確認
Srinath Bulusu, Matteo Favoni, Andreas Ipp, David I. M\"uller, Daniel Schuh(参考訳) 高エネルギー物理学や格子場理論の基盤となる対称性が果たす重要な役割は、考慮中の物理系に適用されるニューラルネットワークアーキテクチャにおけるそのような対称性の実装である。 本稿では,ネットワーク特性,特に性能と一般化の点において,翻訳の等価性を組み込んだ結果に焦点をあてる。 等変ネットワークの利点は、様々な回帰と分類タスクを調べる複素スカラー場理論を研究することによって例示される。 有意義な比較のために、有望な同変および非同変アーキテクチャを体系的な探索によって同定する。 その結果、ほとんどのタスクにおいて、最良の同変アーキテクチャは、非同変アーキテクチャよりもはるかに優れた性能と一般化が可能であることが示され、これはトレーニングセットで表されるものだけでなく、異なる格子サイズにも適用される。

The crucial role played by the underlying symmetries of high energy physics and lattice field theories calls for the implementation of such symmetries in the neural network architectures that are applied to the physical system under consideration. In these proceedings, we focus on the consequences of incorporating translational equivariance among the network properties, particularly in terms of performance and generalization. The benefits of equivariant networks are exemplified by studying a complex scalar field theory, on which various regression and classification tasks are examined. For a meaningful comparison, promising equivariant and non-equivariant architectures are identified by means of a systematic search. The results indicate that in most of the tasks our best equivariant architectures can perform and generalize significantly better than their non-equivariant counterparts, which applies not only to physical parameters beyond those represented in the training set, but also to different lattice sizes.
翻訳日:2021-12-24 14:55:47 公開日:2021-12-23
# JEANIEを用いた3Dスケルトンを用いたFew-shot Action Recognition

3D Skeleton-based Few-shot Action Recognition with JEANIE is not so Na\"ive ( http://arxiv.org/abs/2112.12668v1 )

ライセンス: Link先を確認
Lei Wang, Jun Liu, Piotr Koniusz(参考訳) 本稿では,Joint tEmporal と cAmera viewpoiNt alIgnmEnt (JEANIE) による3次元骨格に基づく動作認識のためのFew-shot Learningパイプラインを提案する。 本研究では,3次元体継手の問合せとサポートシーケンスの相違を解消するために,クエリとサポートフレーム間の各スムーズな経路を共同でモデル化し,時間的およびシミュレーションされたカメラ視点空間における最適なアライメントを実現するダイナミック・タイム・ウォーピング法を提案する。 シーケンスは、単純なスペクトルグラフ畳み込みに基づく時間的ブロックエンコーダ、軽量な線形グラフニューラルネットワークバックボーン(トランスフォーマによる設定も含む)で符号化される。 最後に,非関連配列のアライメントを防止しつつ,同一クラスのシーケンスのアライメントを促進する類似性に基づく損失を提案する。 NTU-60, NTU-120, Kinetics-skeleton, UWA3D Multiview Activity IIについて, 現状の成果を報告する。

In this paper, we propose a Few-shot Learning pipeline for 3D skeleton-based action recognition by Joint tEmporal and cAmera viewpoiNt alIgnmEnt (JEANIE). To factor out misalignment between query and support sequences of 3D body joints, we propose an advanced variant of Dynamic Time Warping which jointly models each smooth path between the query and support frames to achieve simultaneously the best alignment in the temporal and simulated camera viewpoint spaces for end-to-end learning under the limited few-shot training data. Sequences are encoded with a temporal block encoder based on Simple Spectral Graph Convolution, a lightweight linear Graph Neural Network backbone (we also include a setting with a transformer). Finally, we propose a similarity-based loss which encourages the alignment of sequences of the same class while preventing the alignment of unrelated sequences. We demonstrate state-of-the-art results on NTU-60, NTU-120, Kinetics-skeleton and UWA3D Multiview Activity II.
翻訳日:2021-12-24 14:55:34 公開日:2021-12-23
# マルコフ線形確率近似の最適およびインスタンス依存保証

Optimal and instance-dependent guarantees for Markovian linear stochastic approximation ( http://arxiv.org/abs/2112.12770v1 )

ライセンス: Link先を確認
Wenlong Mou, Ashwin Pananjady, Martin J. Wainwright, Peter L. Bartlett(参考訳) 本研究では,エルゴードマルコフ連鎖から長さn$の軌跡を観測し,d$次元線形不動点方程式を近似する確率近似法について検討する。 最初に、標準スキームの最後の反復の2乗誤差に基づいて、順序 $t_{\mathrm{mix}} \tfrac{d}{n}$の非漸近境界を示し、ここで$t_{\mathrm{mix}}$ は混合時間である。 次に、適切な平均化されたイテレート列上の非漸近的インスタンス依存境界を証明し、高次項において$(d, t_{\mathrm{mix}})$のパラメータに対する鋭い依存を含む局所漸近的ミニマックス極限に一致する先行項を持つ。 これらの上界を非漸近ミニマックス下界で補い、平均化されたSA推定器のインスタンス最適性を確立する。 マルコフノイズを用いた政策評価のためのこれらの結果は、すべての$\lambda \in [0, 1)$に対するTD($\lambda$)アルゴリズムファミリーと線形自己回帰モデルをカバーする。 インスタンス依存のキャラクタリゼーションは、ハイパーパラメータチューニングのためのきめ細かいモデル選択手順の設計への扉を開く(例えば、td($\lambda$)アルゴリズムを実行するときに$\lambda$の値を選択する)。

We study stochastic approximation procedures for approximately solving a $d$-dimensional linear fixed point equation based on observing a trajectory of length $n$ from an ergodic Markov chain. We first exhibit a non-asymptotic bound of the order $t_{\mathrm{mix}} \tfrac{d}{n}$ on the squared error of the last iterate of a standard scheme, where $t_{\mathrm{mix}}$ is a mixing time. We then prove a non-asymptotic instance-dependent bound on a suitably averaged sequence of iterates, with a leading term that matches the local asymptotic minimax limit, including sharp dependence on the parameters $(d, t_{\mathrm{mix}})$ in the higher order terms. We complement these upper bounds with a non-asymptotic minimax lower bound that establishes the instance-optimality of the averaged SA estimator. We derive corollaries of these results for policy evaluation with Markov noise -- covering the TD($\lambda$) family of algorithms for all $\lambda \in [0, 1)$ -- and linear autoregressive models. Our instance-dependent characterizations open the door to the design of fine-grained model selection procedures for hyperparameter tuning (e.g., choosing the value of $\lambda$ when running the TD($\lambda$) algorithm).
翻訳日:2021-12-24 14:54:44 公開日:2021-12-23
# 複数言語による事前学習型言語モデルでは、異なる言語における一貫した帰属が示されるか?

Do Multi-Lingual Pre-trained Language Models Reveal Consistent Token Attributions in Different Languages? ( http://arxiv.org/abs/2112.12356v1 )

ライセンス: Link先を確認
Junxiang Wang, Xuchao Zhang, Bo Zong, Yanchi Liu, Wei Cheng, Jingchao Ni, Haifeng Chen, Liang Zhao(参考訳) 過去数年間、多言語事前学習言語モデル(PLM)の急増は、多くの言語横断下流タスクにおいて最先端のパフォーマンスを達成するために提案されてきた。 しかし、多言語plmがうまく機能する理由の理解はまだオープンドメインである。 例えば、多言語 PLM が異なる言語で一貫したトークン属性を示すかどうかは不明である。 そこで本稿では,トークン属性の言語間一致(CCTA)評価フレームワークを提案する。 3つの下流タスクにおける広範囲な実験により、多言語 PLM は多言語同義語に大きく異なる属性を割り当てることを示した。 さらに、次のような観察がある。 1) スペイン語は,PLMを訓練する際に,異なる言語において最も一貫したトークン属性を達成する。 2) トークン属性の整合性は下流タスクのパフォーマンスと強く相関する。

During the past several years, a surge of multi-lingual Pre-trained Language Models (PLMs) has been proposed to achieve state-of-the-art performance in many cross-lingual downstream tasks. However, the understanding of why multi-lingual PLMs perform well is still an open domain. For example, it is unclear whether multi-Lingual PLMs reveal consistent token attributions in different languages. To address this, in this paper, we propose a Cross-lingual Consistency of Token Attributions (CCTA) evaluation framework. Extensive experiments in three downstream tasks demonstrate that multi-lingual PLMs assign significantly different attributions to multi-lingual synonyms. Moreover, we have the following observations: 1) the Spanish achieves the most consistent token attributions in different languages when it is used for training PLMs; 2) the consistency of token attributions strongly correlates with performance in downstream tasks.
翻訳日:2021-12-24 14:52:49 公開日:2021-12-23
# TOD-DA:音声対話におけるタスク指向対話モデリングのロバスト性向上に向けて

TOD-DA: Towards Boosting the Robustness of Task-oriented Dialogue Modeling on Spoken Conversations ( http://arxiv.org/abs/2112.12441v1 )

ライセンス: Link先を確認
Xin Tian, Xinxian Huang, Dongfeng He, Yingzhan Lin, Siqi Bao, Huang He, Liankai Huang, Qiang Ju, Xiyuan Zhang, Jian Xie, Shuqi Sun, Fan Wang, Hua Wu, Haifeng Wang(参考訳) タスク指向対話システムは、大規模で高品質な注釈付き会話を得ることの難しさに悩まされてきた。 さらに、一般に入手可能なデータセットのほとんどは、実際の対話システムにおける実際の人間の行動を反映しない、書かれた会話のみを含んでいる。 本稿では,タスク指向対話モデルの頑健性を高めるための新しいモデル非依存データ拡張パラダイムであるタスク指向対話データ拡張(tod-da)を提案する。 TOD-DAは2つのモジュールから構成される。 1【タスク指向会話の訓練データの拡大によるデータ疎結合の緩和】 2) 音声対話シミュレータは, 文章と会話のギャップを埋めるために, 多様な粒度の音声表現や音声認識誤りを模倣する。 そこで本手法は,音声対話におけるタスク指向対話モデリングのベンチマークであるDSTC10 Track2の両タスクにおいて第1位となり,提案したTOD-DAの優位性と有効性を示した。

Task-oriented dialogue systems have been plagued by the difficulties of obtaining large-scale and high-quality annotated conversations. Furthermore, most of the publicly available datasets only include written conversations, which are insufficient to reflect actual human behaviors in practical spoken dialogue systems. In this paper, we propose Task-oriented Dialogue Data Augmentation (TOD-DA), a novel model-agnostic data augmentation paradigm to boost the robustness of task-oriented dialogue modeling on spoken conversations. The TOD-DA consists of two modules: 1) Dialogue Enrichment to expand training data on task-oriented conversations for easing data sparsity and 2) Spoken Conversation Simulator to imitate oral style expressions and speech recognition errors in diverse granularities for bridging the gap between written and spoken conversations. With such designs, our approach ranked first in both tasks of DSTC10 Track2, a benchmark for task-oriented dialogue modeling on spoken conversations, demonstrating the superiority and effectiveness of our proposed TOD-DA.
翻訳日:2021-12-24 14:52:34 公開日:2021-12-23
# 言葉以上の:テキスト分類器の品質向上に向けて

More Than Words: Towards Better Quality Interpretations of Text Classifiers ( http://arxiv.org/abs/2112.12444v1 )

ライセンス: Link先を確認
Muhammad Bilal Zafar, Philipp Schmidt, Michele Donini, C\'edric Archambeau, Felix Biessmann, Sanjiv Ranjan Das, Krishnaram Kenthapadi(参考訳) 最先端のテキスト分類器の大規模かつ複雑な決定機構は、人間が予測を理解するのを難しくし、ユーザによる信頼の欠如につながる可能性がある。 これらの問題により、SHAPやIntegrated Gradientsといった手法が採用され、重要なスコアを入力トークンに割り当てることで分類決定が説明されるようになった。 しかし、異なるランダム化テストを用いた先行研究は、これらの方法によって生成された解釈は堅牢ではないかもしれないことを示した。 例えば、テストセットで同じ予測を行うモデルでは、機能重要度ランキングが異なる可能性がある。 トークンベースの解釈可能性の堅牢性の欠如に対処するため、文のようなより高度な意味レベルでの説明を探る。 我々は,文に基づく解釈の質とトークンに基づく解釈の質を比較するために,計算指標と人間の主題研究を用いる。 実験の結果,高次特徴属性にはいくつかの利点があることがわかった。 1) ランダム化テストで測定した方が頑健である。 2) SHAPなどの近似に基づく手法を用いる場合, 変動性が低下する。 3) 言語的コヒーレンスがより高い粒度レベルに存在する状況において, ヒトに対してより知性が高い。 これらの結果から,MLモデルの入力インタフェースを考えると,トークンベースの解釈性は便利な第1選択であるが,あらゆる状況において最も効果的ではないことを示す。

The large size and complex decision mechanisms of state-of-the-art text classifiers make it difficult for humans to understand their predictions, leading to a potential lack of trust by the users. These issues have led to the adoption of methods like SHAP and Integrated Gradients to explain classification decisions by assigning importance scores to input tokens. However, prior work, using different randomization tests, has shown that interpretations generated by these methods may not be robust. For instance, models making the same predictions on the test set may still lead to different feature importance rankings. In order to address the lack of robustness of token-based interpretability, we explore explanations at higher semantic levels like sentences. We use computational metrics and human subject studies to compare the quality of sentence-based interpretations against token-based ones. Our experiments show that higher-level feature attributions offer several advantages: 1) they are more robust as measured by the randomization tests, 2) they lead to lower variability when using approximation-based methods like SHAP, and 3) they are more intelligible to humans in situations where the linguistic coherence resides at a higher granularity level. Based on these findings, we show that token-based interpretability, while being a convenient first choice given the input interfaces of the ML models, is not the most effective one in all situations.
翻訳日:2021-12-24 14:52:16 公開日:2021-12-23
# 言語モデルとオントロジーによる患者フレンドリーな臨床ノートを目指して

Towards more patient friendly clinical notes through language models and ontologies ( http://arxiv.org/abs/2112.12672v1 )

ライセンス: Link先を確認
Francesco Moramarco, Damir Juric, Aleksandar Savkov, Jack Flann, Maria Lehl, Kristian Boda, Tessa Grafen, Vitalii Zhelezniak, Sunir Gohil, Alex Papadopoulos Korfiatis, Nils Hammerla(参考訳) 臨床ノートは患者情報を記録するための効果的な方法であるが、非専門家の解読が難しいことで知られている。 自動的に医療テキストを単純化することで、患者に健康に関する貴重な情報を与え、臨床医の時間を節約できる。 本稿では,日常語で表現された医療オントロジーに基づく,単語頻度と言語モデリングに基づく医療テキストの簡易化手法を提案する。 我々は,公開医療文のペアのデータセットと,臨床医による簡易化版を新たにリリースした。 また,本手法の大規模人為的評価を技術状況に対して行うために,新たなテキスト簡易化尺度と評価フレームワークを定義した。 本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。

Clinical notes are an efficient way to record patient information but are notoriously hard to decipher for non-experts. Automatically simplifying medical text can empower patients with valuable information about their health, while saving clinicians time. We present a novel approach to automated simplification of medical text based on word frequencies and language modelling, grounded on medical ontologies enriched with layman terms. We release a new dataset of pairs of publicly available medical sentences and a version of them simplified by clinicians. Also, we define a novel text simplification metric and evaluation framework, which we use to conduct a large-scale human evaluation of our method against the state of the art. Our method based on a language model trained on medical forum data generates simpler sentences while preserving both grammar and the original meaning, surpassing the current state of the art.
翻訳日:2021-12-24 14:51:56 公開日:2021-12-23
# ERNIE 3.0 Titan: 言語理解と生成のための大規模知識強化トレーニング

ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation ( http://arxiv.org/abs/2112.12731v1 )

ライセンス: Link先を確認
Shuohuan Wang, Yu Sun, Yang Xiang, Zhihua Wu, Siyu Ding, Weibao Gong, Shikun Feng, Junyuan Shang, Yanbin Zhao, Chao Pang, Jiaxiang Liu, Xuyi Chen, Yuxiang Lu, Weixin Liu, Xi Wang, Yangfan Bai, Qiuliang Chen, Li Zhao, Shiyong Li, Peng Sun, Dianhai Yu, Yanjun Ma, Hao Tian, Hua Wu, Tian Wu, Wei Zeng, Ge Li, Wen Gao, Haifeng Wang(参考訳) 事前訓練された言語モデルは、様々な自然言語処理(NLP)タスクにおいて最先端の結果を得た。 GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。 ERNIE 3.0という統合フレームワークが最近提案され、大規模知識強化モデルの事前トレーニングと100億のパラメータを持つモデルのトレーニングが行われた。 ERNIE 3.0は様々なNLPタスクにおいて最先端のモデルよりも優れていた。 ERNIE 3.0のスケールアップ性能を調べるため、PaddlePaddleプラットフォーム上で最大2600億のパラメータを持つERNIE 3.0 Titanと呼ばれる100億パラメータモデルをトレーニングしています。 さらに,ERNIE 3.0 Titanが信頼性と制御性のあるテキストを生成するために,自己教師付き対向損失と制御可能な言語モデリング損失を設計する。 計算オーバーヘッドと二酸化炭素排出量を削減するため,教員モデルが生徒に教え,同時に訓練を行うERNIE 3.0 Titanのオンライン蒸留フレームワークを提案する。 ERNIE 3.0 タイタンは中国最大の高密度事前訓練モデルである。 ERNIE 3.0 Titanは68 NLPデータセットの最先端モデルよりも優れていた。

Pre-trained language models have achieved state-of-the-art results in various Natural Language Processing (NLP) tasks. GPT-3 has shown that scaling up pre-trained language models can further exploit their enormous potential. A unified framework named ERNIE 3.0 was recently proposed for pre-training large-scale knowledge enhanced models and trained a model with 10 billion parameters. ERNIE 3.0 outperformed the state-of-the-art models on various NLP tasks. In order to explore the performance of scaling up ERNIE 3.0, we train a hundred-billion-para meter model called ERNIE 3.0 Titan with up to 260 billion parameters on the PaddlePaddle platform. Furthermore, we design a self-supervised adversarial loss and a controllable language modeling loss to make ERNIE 3.0 Titan generate credible and controllable texts. To reduce the computation overhead and carbon emission, we propose an online distillation framework for ERNIE 3.0 Titan, where the teacher model will teach students and train itself simultaneously. ERNIE 3.0 Titan is the largest Chinese dense pre-trained model so far. Empirical results show that the ERNIE 3.0 Titan outperforms the state-of-the-art models on 68 NLP datasets.
翻訳日:2021-12-24 14:51:42 公開日:2021-12-23
# (参考訳) 複数の教師を用いたルーマニア・ベルトの知識の蒸留 [全文訳有]

Distilling the Knowledge of Romanian BERTs Using Multiple Teachers ( http://arxiv.org/abs/2112.12650v1 )

ライセンス: CC BY-SA 4.0
Andrei-Marius Avram, Darius Catrina, Dumitru-Clementin Cercel, Mihai Dasc\u{a}lu, Traian Rebedea, Vasile P\u{a}i\c{s}, Dan Tufi\c{s}(参考訳) 大規模事前学習型言語モデルからの変換学習が自然言語処理で普及するにつれて、これらのモデルを計算に制約のある環境で実行することは、まだ解決が難しい問題である。 知識蒸留、ネットワーク量子化、ネットワークプルーニングなど、いくつかのソリューションが提案されているが、これらのアプローチは主に英語に焦点を当てており、低リソース言語を考える際のギャップを広げている。 本研究では,ルーマニア語で蒸留されたBERTモデルの3つの軽量・高速バージョンであるDistil-BERT-base-ro, Distil-RoBERT-base-r o,DistilMulti-BERT-b ase-roを紹介する。 最初の2つのモデルは、文献で利用可能な2種類のルーマニア式BERTの知識を個別に蒸留し、最後の1つはアンサンブルを蒸留することで得られた。 我々の知る限りでは、これはルーマニアの蒸留されたBERTモデルを作成する最初の試みであり、これは5つのタスクで徹底的に評価された: 音声タグ付け、名前付きエンティティ認識、感情分析、意味的テキスト類似性、方言識別である。 これらのベンチマーク実験の結果、我々の3つの蒸留モデルでは、GPUの2倍の速度と35倍の精度で、教師との精度で最も高い性能を維持していることがわかった。 さらに,この研究で導入された新たな指標である回帰忠誠とラベルと確率忠誠度を測ることで,学生と教師の予測の類似性をさらに検証する。

As transfer learning from large-scale pre-trained language models has become prevalent in Natural Language Processing, running these models in computationally constrained environments remains a challenging problem yet to address. Several solutions including knowledge distillation, network quantization or network pruning have been proposed; however, these approaches focus mostly on the English language, thus widening the gap when considering low-resource languages. In this work, we introduce three light and fast versions of distilled BERT models for the Romanian language: Distil-BERT-base-ro, Distil-RoBERT-base and DistilMulti-BERT-bas e-ro. The first two models resulted from individually distilling the knowledge of the two base versions of Romanian BERTs available in literature, while the last one was obtained by distilling their ensemble. To our knowledge, this is the first attempt to create publicly available Romanian distilled BERT models, which were thoroughly evaluated on five tasks: part-of-speech tagging, named entity recognition, sentiment analysis, semantic textual similarity and dialect identification. The experimental results on these benchmarks proved that our three distilled models maintain most performance in terms of accuracy with their teachers, while being twice as fast on a GPU and ~35\% smaller. In addition, we further test the similarity between our students and their teachers prediction by measuring their label and probability loyalty, together with regression loyalty - a new metric introduced in this work.
翻訳日:2021-12-24 14:49:40 公開日:2021-12-23
# 協調型マルチエージェント強化学習のためのローカルアドバンテージネットワーク

Local Advantage Networks for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2112.12458v1 )

ライセンス: Link先を確認
Rapha\"el Avalos, Mathieu Reymond, Ann Now\'e, Diederik M. Roijers(参考訳) マルチエージェント強化学習 (MARL) は, エージェントが観察に限界がある場合でも, 課題のある環境で適応エージェントを作成できる。 現代のMARL法は因子化値関数の発見に重点を置いている。 このアプローチは成功したが、結果として得られた手法はネットワーク構造を複雑にしている。 私たちは根本的に異なるアプローチをとり、独立したq-learnerの構造を構築します。 影響に基づく抽象化に着想を得て,観察行動履歴のコンパクト表現は,最適分散政策に近いものを学ぶのに十分である,という観察から始める。 この観測をデュエルアーキテクチャと組み合わせることで、我々のアルゴリズムであるLANは、これらのポリシーを中央集権的批判者による個別の優位関数として表現する。 これらのローカルアドバンテージネットワークは、単一のエージェントのローカルな観測-アクション履歴にのみ条件付けられる。 エージェントの表現と環境の完全な状態に関する一元的な値関数条件。 値関数は実行前にキャストされるが、学習をコーディネートし、学習中にDQNターゲットを定式化する安定化器として機能する。 他の方法とは対照的に、LANはモノトニック値関数のような追加の制約を課すことなく、エージェント数に独立して中央ネットワークのネットワークパラメータ数を維持できる。 StarCraftのマルチエージェントチャレンジベンチマークで評価すると、LANは最先端のパフォーマンスを示し、未解決の2つのマップ 'corridor' と `3s5z_vs_3s6z' で80%以上の勝利を達成し、14のマップの平均的なパフォーマンスでQPLEXよりも10%向上した。 さらに、エージェント数が大きくなると、LANはQPLEXやQMIXよりもはるかに少ないパラメータを使用する。 したがって、LANの構造がMARLメソッドのスケーラビリティを維持する上で重要な改善となることを示す。

Multi-agent reinforcement learning (MARL) enables us to create adaptive agents in challenging environments, even when the agents have limited observation. Modern MARL methods have hitherto focused on finding factorized value functions. While this approach has proven successful, the resulting methods have convoluted network structures. We take a radically different approach, and build on the structure of independent Q-learners. Inspired by influence-based abstraction, we start from the observation that compact representations of the observation-action histories can be sufficient to learn close to optimal decentralized policies. Combining this observation with a dueling architecture, our algorithm, LAN, represents these policies as separate individual advantage functions w.r.t. a centralized critic. These local advantage networks condition only on a single agent's local observation-action history. The centralized value function conditions on the agents' representations as well as the full state of the environment. The value function, which is cast aside before execution, serves as a stabilizer that coordinates the learning and to formulate DQN targets during learning. In contrast with other methods, this enables LAN to keep the number of network parameters of its centralized network independent in the number of agents, without imposing additional constraints like monotonic value functions. When evaluated on the StarCraft multi-agent challenge benchmark, LAN shows state-of-the-art performance and scores more than 80% wins in two previously unsolved maps `corridor' and `3s5z_vs_3s6z', leading to an improvement of 10% over QPLEX on average performance on the 14 maps. Moreover when the number of agents becomes large, LAN uses significantly fewer parameters than QPLEX or even QMIX. We thus show that LAN's structure forms a key improvement that helps MARL methods remain scalable.
翻訳日:2021-12-24 14:28:56 公開日:2021-12-23
# 燃焼パンデミックにおける説明可能な人工知能手法:システムレビュー

Explainable Artificial Intelligence Methods in Combating Pandemics: A Systematic Review ( http://arxiv.org/abs/2112.12705v1 )

ライセンス: Link先を確認
Felipe Giuste, Wenqi Shi, Yuanda Zhu, Tarun Naren, Monica Isgut, Ying Sha, Li Tong, Mitali Gupte, and May D. Wang(参考訳) 新型コロナウイルス感染症(covid-19)に対する新しいai(人工知能)ベースのソリューションを実証する無数の査読論文があるが、臨床的な影響はほとんどない。 新型コロナウイルスのパンデミックにおける人工知能の影響は、モデルの透明性の欠如によって大幅に制限された。 この系統的なレビューでは、パンデミックにおける説明可能な人工知能(XAI)の使用と、実際の成功への障壁を克服する方法について検討する。 XAIを成功させることで、モデルの性能を改善し、エンドユーザに信頼を与え、ユーザの意思決定に影響を与えるのに必要な価値を提供する。 我々は,一般的なXAI技術,その実用性,アプリケーションの具体的な例について紹介する。 また,AIに基づく臨床意思決定支援システムの価値を最大化するための重要なステップとして,XAI結果の評価も議論されている。 我々は,新しいXAI技術の進化を解明するために,XAIの古典的,近代的,将来的な動向を説明する。 最後に、最近の出版物がサポートする実験的な設計プロセス中に提案のチェックリストを提供する。 aiソリューションの実装における一般的な課題は、潜在的なソリューションの具体例で対処される。 このレビューが、将来のAIベースのソリューションの臨床的影響を改善するためのガイドになることを期待している。

Despite the myriad peer-reviewed papers demonstrating novel Artificial Intelligence (AI)-based solutions to COVID-19 challenges during the pandemic, few have made significant clinical impact. The impact of artificial intelligence during the COVID-19 pandemic was greatly limited by lack of model transparency. This systematic review examines the use of Explainable Artificial Intelligence (XAI) during the pandemic and how its use could overcome barriers to real-world success. We find that successful use of XAI can improve model performance, instill trust in the end-user, and provide the value needed to affect user decision-making. We introduce the reader to common XAI techniques, their utility, and specific examples of their application. Evaluation of XAI results is also discussed as an important step to maximize the value of AI-based clinical decision support systems. We illustrate the classical, modern, and potential future trends of XAI to elucidate the evolution of novel XAI techniques. Finally, we provide a checklist of suggestions during the experimental design process supported by recent publications. Common challenges during the implementation of AI solutions are also addressed with specific examples of potential solutions. We hope this review may serve as a guide to improve the clinical impact of future AI-based solutions.
翻訳日:2021-12-24 14:28:25 公開日:2021-12-23
# 説明可能なニューラル推論のための前方構成伝搬

Forward Composition Propagation for Explainable Neural Reasoning ( http://arxiv.org/abs/2112.12717v1 )

ライセンス: Link先を確認
Isel Grau and Gonzalo N\'apoles and Marilyn Bello and Yamisleydi Salgueiro(参考訳) 本稿では,構造化パターン認識問題で動作するフィードフォワードニューラルネットワークの予測について,FCP (Forward Composition Propagation) と呼ばれるアルゴリズムを提案する。 提案するfcpアルゴリズムでは、各ニューロンは、そのニューロンにおける各問題の特徴の役割を示す合成ベクターによって記述される。 構成ベクトルは与えられた入力インスタンスを使用して初期化され、出力層に到達するまでネットワーク全体に伝播する。 ネットワークのトレーニングネットワークが完了すると、アルゴリズムが実行されることは注目に値する。 各構成値の符号は、対応する特徴がニューロンを興奮させるか阻害するかを示し、絶対値はそのような影響を定量化する。 本研究では, FCPアルゴリズムの正当性を検証するために, 基礎的真理が知られている最先端問題におけるバイアス検出に関するケーススタディを開発する。 シミュレーションの結果, 構成値は保護特徴の期待挙動と密接に一致することがわかった。

This paper proposes an algorithm called Forward Composition Propagation (FCP) to explain the predictions of feed-forward neural networks operating on structured pattern recognition problems. In the proposed FCP algorithm, each neuron is described by a composition vector indicating the role of each problem feature in that neuron. Composition vectors are initialized using a given input instance and subsequently propagated through the whole network until we reach the output layer. It is worth mentioning that the algorithm is executed once the network's training network is done. The sign of each composition value indicates whether the corresponding feature excites or inhibits the neuron, while the absolute value quantifies such an impact. Aiming to validate the FCP algorithm's correctness, we develop a case study concerning bias detection in a state-of-the-art problem in which the ground truth is known. The simulation results show that the composition values closely align with the expected behavior of protected features.
翻訳日:2021-12-24 14:28:05 公開日:2021-12-23
# バッチポリシー最適化におけるモデル選択

Model Selection in Batch Policy Optimization ( http://arxiv.org/abs/2112.12320v1 )

ライセンス: Link先を確認
Jonathan N. Lee, George Tucker, Ofir Nachum, Bo Dai(参考訳) 固定された部分フィードバックデータセットと$M$モデルクラスを与えられた場合、最良のモデルクラスから派生したポリシーと競合する性能を持つポリシーを学習する。 1)近似誤差,(2)統計複雑性,(3)カバレッジという,任意のモデル選択アルゴリズムが最適にトレードオフすべき3つのエラー源を特定することで,線形モデルクラスを用いた文脈的帯域設定の問題を定式化する。 最初の2つのソースは教師付き学習のためのモデル選択において一般的であり、そこではこれらの特性を最適にトレードオフする。 対照的に、第3のソースはバッチポリシの最適化に特有であり、データセットのシフトによるものである。 まず,バッチポリシ最適化の難しさと教師付き学習で得られる肯定的な結果との対比から,バッチポリシ最適化アルゴリズムでは3つすべてを同時に対応できる保証が実現できないことを示す。 この否定的な結果にもかかわらず、3つの誤差源のうち1つを緩和することで、残りの2つの不等式に近似するアルゴリズムを設計できることを示す。 これらのアルゴリズムの有効性を実証する実験で締めくくった。

We study the problem of model selection in batch policy optimization: given a fixed, partial-feedback dataset and $M$ model classes, learn a policy with performance that is competitive with the policy derived from the best model class. We formalize the problem in the contextual bandit setting with linear model classes by identifying three sources of error that any model selection algorithm should optimally trade-off in order to be competitive: (1) approximation error, (2) statistical complexity, and (3) coverage. The first two sources are common in model selection for supervised learning, where optimally trading-off these properties is well-studied. In contrast, the third source is unique to batch policy optimization and is due to dataset shift inherent to the setting. We first show that no batch policy optimization algorithm can achieve a guarantee addressing all three simultaneously, revealing a stark contrast between difficulties in batch policy optimization and the positive results available in supervised learning. Despite this negative result, we show that relaxing any one of the three error sources enables the design of algorithms achieving near-oracle inequalities for the remaining two. We conclude with experiments demonstrating the efficacy of these algorithms.
翻訳日:2021-12-24 14:27:27 公開日:2021-12-23
# 逐次統計的テストを用いたハイパーパラメータチューニングにおけるランダム探索の性能向上

Using Sequential Statistical Tests to Improve the Performance of Random Search in hyperparameter Tuning ( http://arxiv.org/abs/2112.12438v1 )

ライセンス: Link先を確認
Philip Buczak and Daniel Horn(参考訳) ハイパーパラメータチューニング(hyperparamter tuning)は、マシンラーニングで最も時間を要する部分のひとつです。 最新の最適化アルゴリズムでは、必要な評価回数を最小限に抑えることができるが、単一設定の評価は依然として高価である。 設定の実行を推定する手段として、$k$ fitsのそれぞれの平均値を使用する。 ハイパフォーマンス設定よりも明らかに劣っているため、多くのハイパーパラメータ設定は1k$以下の繰り返しで破棄される可能性がある。 しかし、実際には、再サンプリングは最後までしばしば行われ、多くの計算労力を浪費する。 本稿では,リサンプリング回数を最小限に抑え,下位パラメータ設定を検出するためのシーケンシャルなテスト手法を提案する。 そのために,まず再サンプリングエラーの分布を解析し,ログ正規分布が有望であることを示す。 その後、この分布を仮定してシーケンシャルなテスト手順を構築する。 このシーケンシャルなテスト手順はランダム検索アルゴリズムで利用される。 標準ランダム検索と拡張された逐次ランダム検索を,現実的データ状況で比較する。 逐次ランダム検索は、比較できる限り優れたハイパーパラメータ設定を見つけることができるが、それらの設定を見つけるのに必要な計算時間はおよそ半分である。

Hyperparamter tuning is one of the the most time-consuming parts in machine learning: The performance of a large number of different hyperparameter settings has to be evaluated to find the best one. Although modern optimization algorithms exist that minimize the number of evaluations needed, the evaluation of a single setting is still expensive: Using a resampling technique, the machine learning method has to be fitted a fixed number of $K$ times on different training data sets. As an estimator for the performance of the setting the respective mean value of the $K$ fits is used. Many hyperparameter settings could be discarded after less than $K$ resampling iterations, because they already are clearly inferior to high performing settings. However, in practice, the resampling is often performed until the very end, wasting a lot of computational effort. We propose to use a sequential testing procedure to minimize the number of resampling iterations to detect inferior parameter setting. To do so, we first analyze the distribution of resampling errors, we will find out, that a log-normal distribution is promising. Afterwards, we build a sequential testing procedure assuming this distribution. This sequential test procedure is utilized within a random search algorithm. We compare a standard random search with our enhanced sequential random search in some realistic data situation. It can be shown that the sequential random search is able to find comparably good hyperparameter settings, however, the computational time needed to find those settings is roughly halved.
翻訳日:2021-12-24 14:27:05 公開日:2021-12-23
# 潜在時間神経常微分方程式

Latent Time Neural Ordinary Differential Equations ( http://arxiv.org/abs/2112.12728v1 )

ライセンス: Link先を確認
Srinivas Anumasa, P.K. Srijith(参考訳) ニューラル常微分方程式(NODE)は、Residual Network(ResNets)のような一般的なディープラーニングモデルに対する連続的な深度一般化として提案されている。 パラメータ効率を提供し、ディープラーニングモデルのモデル選択プロセスをある程度自動化します。 しかし、不確実性モデリングと堅牢性能力が欠如しており、これは自動運転や医療といった現実世界のアプリケーションでの使用に不可欠である。 odeソルバのエンドタイム$t$の分布を考慮し,ノードの不確実性をモデル化する新規かつユニークな手法を提案する。 提案手法である latent time node (lt-node) では,$t$ を潜在変数として扱い,データから$t$ 以上の後方分布を得るためにベイズ学習を適用する。 特に,変分推論を用いて近似後値およびモデルパラメータを学習する。 予測は後部の異なるサンプルからNODE表現を考慮し、単一の前方通過を用いて効率的に行うことができる。 T$がNODEの深さを暗黙的に定義しているように、$T$を超える後続分布はNODEのモデル選択にも役立ちます。 また、各データポイントが終末時間に異なる後続分布を持つことができる適応遅延時間NODE(ALT-NODE)を提案する。 ALT-NODEはアモルティズド変分推論を用いて、推論ネットワークを用いて近似後部学習を行う。 本研究では,合成画像と実世界の画像分類データを用いて,不確実性とロバスト性をモデル化する手法の有効性を示す。

Neural ordinary differential equations (NODE) have been proposed as a continuous depth generalization to popular deep learning models such as Residual networks (ResNets). They provide parameter efficiency and automate the model selection process in deep learning models to some extent. However, they lack the much-required uncertainty modelling and robustness capabilities which are crucial for their use in several real-world applications such as autonomous driving and healthcare. We propose a novel and unique approach to model uncertainty in NODE by considering a distribution over the end-time $T$ of the ODE solver. The proposed approach, latent time NODE (LT-NODE), treats $T$ as a latent variable and apply Bayesian learning to obtain a posterior distribution over $T$ from the data. In particular, we use variational inference to learn an approximate posterior and the model parameters. Prediction is done by considering the NODE representations from different samples of the posterior and can be done efficiently using a single forward pass. As $T$ implicitly defines the depth of a NODE, posterior distribution over $T$ would also help in model selection in NODE. We also propose, adaptive latent time NODE (ALT-NODE), which allow each data point to have a distinct posterior distribution over end-times. ALT-NODE uses amortized variational inference to learn an approximate posterior using inference networks. We demonstrate the effectiveness of the proposed approaches in modelling uncertainty and robustness through experiments on synthetic and several real-world image classification data.
翻訳日:2021-12-24 14:26:43 公開日:2021-12-23
# 変換の再検討 invariant geometric deep learning: 初期表現は必要なだけか?

Revisiting Transformation Invariant Geometric Deep Learning: Are Initial Representations All You Need? ( http://arxiv.org/abs/2112.12345v1 )

ライセンス: Link先を確認
Ziwei Zhang, Xin Wang, Zeyang Zhang, Peng Cui, Wenwu Zhu(参考訳) 幾何学的深層学習、すなわち点雲やグラフのようなユビキタスな幾何学的データを扱うニューラルネットワークの設計は、この10年で大きな成功を収めた。 重要な帰納バイアスの1つは、モデルが翻訳、回転、スケーリングといった様々な変換に対して不変性を維持することができることである。 既存のグラフニューラルネットワーク(GNN)アプローチでは、置換不変性のみが維持でき、他の変換に対する不変性を保証することができない。 GNN以外にも、計算コストが高く拡張が難しい高度な変換不変層を設計する研究もある。 この問題を解決するために、幾何学的データを扱う際に、既存のニューラルネットワークが変換不変性を維持できない理由を再考する。 この結果から, 変換不変および距離保存初期表現は, 高度な神経層設計を必要とせず, 変換不変性を実現するのに十分であることが示唆された。 これらの知見に触発されて、幾何データのための単純かつ一般的なフレームワークである変換不変ニューラルネットワーク(TinvNN)を提案する。 具体的には、ニューラルネットワークに表現を供給する前に多次元スケーリングを変更することにより、変換不変で距離保存された初期点表現を実現する。 我々は、TinvNNが変換不変性を厳密に保証し、既存のニューラルネットワークと組み合わせられるほど汎用的で柔軟なことを証明した。 点雲解析と組合せ最適化に関する大規模な実験結果から,提案手法の有効性と汎用性を示した。 実験結果に基づいて,TinvNNは新たな出発点であり,変換不変な幾何学的深層学習のさらなる研究に欠かせない基礎となるべきである。

Geometric deep learning, i.e., designing neural networks to handle the ubiquitous geometric data such as point clouds and graphs, have achieved great successes in the last decade. One critical inductive bias is that the model can maintain invariance towards various transformations such as translation, rotation, and scaling. The existing graph neural network (GNN) approaches can only maintain permutation-invarian ce, failing to guarantee invariance with respect to other transformations. Besides GNNs, other works design sophisticated transformation-invar iant layers, which are computationally expensive and difficult to be extended. To solve this problem, we revisit why the existing neural networks cannot maintain transformation invariance when handling geometric data. Our findings show that transformation-invar iant and distance-preserving initial representations are sufficient to achieve transformation invariance rather than needing sophisticated neural layer designs. Motivated by these findings, we propose Transformation Invariant Neural Networks (TinvNN), a straightforward and general framework for geometric data. Specifically, we realize transformation-invar iant and distance-preserving initial point representations by modifying multi-dimensional scaling before feeding the representations into neural networks. We prove that TinvNN can strictly guarantee transformation invariance, being general and flexible enough to be combined with the existing neural networks. Extensive experimental results on point cloud analysis and combinatorial optimization demonstrate the effectiveness and general applicability of our proposed method. Based on the experimental results, we advocate that TinvNN should be considered a new starting point and an essential baseline for further studies of transformation-invar iant geometric deep learning.
翻訳日:2021-12-24 14:24:10 公開日:2021-12-23
# 不均一性をもつワンショットフェデレート学習におけるデータフリーな実践的アプローチ

A Practical Data-Free Approach to One-shot Federated Learning with Heterogeneity ( http://arxiv.org/abs/2112.12371v1 )

ライセンス: Link先を確認
Jie Zhang, Chen Chen, Bo Li, Lingjuan Lyu, Shuang Wu, Jianghe Xu, Shouhong Ding, Chao Wu(参考訳) ワンショット連合学習(one-shot federated learning, fl)は、中央サーバが単一の通信ラウンドでモデルを学習できるようにする、有望なアプローチとして最近登場した。 通信コストは低いが、既存のワンショットflメソッドはほとんど実用的ではなく、例えばパブリックデータセットが必要な場合、クライアントのモデルは均質であり、追加のデータ/モデルの情報をアップロードする必要がある。 これらの問題を克服するため、不均一な一発FLフレームワークに対してFedSynというより実用的なデータフリーアプローチを提案する。 我々のFedSynは、データ生成段階とモデル蒸留段階によってグローバルモデルを訓練する。 To the best of our knowledge, FedSyn is the first method that can be practically applied to various real-world applications due to the following advantages: (1) FedSyn requires no additional information (except the model parameters) to be transferred between clients and the server; (2) FedSyn does not require any auxiliary dataset for training; (3) FedSyn is the first to consider both model and statistical heterogeneities in FL, i.e., the clients' data are non-iid and different clients may have different model architectures. さまざまな実世界のデータセットの実験は、FedSynの優位性を示しています。 例えば、FedSynはデータが非IDである場合、CIFAR10データセットでFed-ADIを5.08%上回っている。

One-shot Federated Learning (FL) has recently emerged as a promising approach, which allows the central server to learn a model in a single communication round. Despite the low communication cost, existing one-shot FL methods are mostly impractical or face inherent limitations, e.g., a public dataset is required, clients' models are homogeneous, need to upload additional data/model information. To overcome these issues, we propose a more practical data-free approach named FedSyn for one-shot FL framework with heterogeneity. Our FedSyn trains the global model by a data generation stage and a model distillation stage. To the best of our knowledge, FedSyn is the first method that can be practically applied to various real-world applications due to the following advantages: (1) FedSyn requires no additional information (except the model parameters) to be transferred between clients and the server; (2) FedSyn does not require any auxiliary dataset for training; (3) FedSyn is the first to consider both model and statistical heterogeneities in FL, i.e., the clients' data are non-iid and different clients may have different model architectures. Experiments on a variety of real-world datasets demonstrate the superiority of our FedSyn. For example, FedSyn outperforms the best baseline method Fed-ADI by 5.08% on CIFAR10 dataset when data are non-iid.
翻訳日:2021-12-24 14:23:41 公開日:2021-12-23
# 敵攻撃に対する適応的モデリング

Adaptive Modeling Against Adversarial Attacks ( http://arxiv.org/abs/2112.12431v1 )

ライセンス: Link先を確認
Zhiwen Yan, Teck Khim Ng(参考訳) 敵意トレーニング(adversarial training)は、敵意データを用いたディープラーニングモデルをトレーニングするプロセスであり、ディープラーニングモデルにおいて最も成功した敵意防御方法の1つである。 我々は,このモデルを推論段階に微調整して逆入力に適応させると,逆学習モデルの白色箱攻撃に対するロバスト性がさらに向上し,余分な情報が得られることを見出した。 本稿では,既存のトレーニングデータを用いて,元の出力クラスと"neighbor"クラスとの間の推論段階でモデルを"post train"するアルゴリズムを提案する。 トレーニング済みのFast-FGSM CIFAR10分類モデルのホワイトボックス投射勾配攻撃に対する精度は,アルゴリズムにより46.8%から64.5%に向上する。

Adversarial training, the process of training a deep learning model with adversarial data, is one of the most successful adversarial defense methods for deep learning models. We have found that the robustness to white-box attack of an adversarially trained model can be further improved if we fine tune this model in inference stage to adapt to the adversarial input, with the extra information in it. We introduce an algorithm that "post trains" the model at inference stage between the original output class and a "neighbor" class, with existing training data. The accuracy of pre-trained Fast-FGSM CIFAR10 classifier base model against white-box projected gradient attack (PGD) can be significantly improved from 46.8% to 64.5% with our algorithm.
翻訳日:2021-12-24 14:23:22 公開日:2021-12-23
# PyCIL: クラス増分学習のためのPythonツールボックス

PyCIL: A Python Toolbox for Class-Incremental Learning ( http://arxiv.org/abs/2112.12533v1 )

ライセンス: Link先を確認
Da-Wei Zhou, Fu-Yun Wang, Han-Jia Ye, De-Chuan Zhan(参考訳) 従来の機械学習システムは、オフライントレーニングプロセスの前にトレーニングデータ全体を必要とするクローズドワールド設定の下でデプロイされる。 しかし、現実世界のアプリケーションは、しばしば入ってくる新しいクラスに直面し、モデルはそれらを継続的に組み込むべきである。 学習パラダイムはCIL(Class-Incrementa l Learning)と呼ばれる。 機械学習コミュニティにおける研究者の負担を軽減するために,クラス増分学習のためのいくつかの重要なアルゴリズムを実装したPythonツールボックスを提案する。 このツールボックスには、EWCやiCaRLといった多くのCILの創設作業の実装が含まれているが、新しい基礎研究の実施に使用できる最先端のアルゴリズムも提供している。 PyCIL for Python Class-Incremental Learningというこのツールボックスはhttps://github.com/G -U-N/PyCILで入手できる。

Traditional machine learning systems are deployed under the closed-world setting, which requires the entire training data before the offline training process. However, real-world applications often face the incoming new classes, and a model should incorporate them continually. The learning paradigm is called Class-Incremental Learning (CIL). We propose a Python toolbox that implements several key algorithms for class-incremental learning to ease the burden of researchers in the machine learning community. The toolbox contains implementations of a number of founding works of CIL such as EWC and iCaRL, but also provides current state-of-the-art algorithms that can be used for conducting novel fundamental research. This toolbox, named PyCIL for Python Class-Incremental Learning, is available at https://github.com/G -U-N/PyCIL
翻訳日:2021-12-24 14:23:09 公開日:2021-12-23
# マニフォールド学習はGANに利益をもたらす

Manifold Learning Benefits GANs ( http://arxiv.org/abs/2112.12618v1 )

ライセンス: Link先を確認
Yao Ni, Piotr Koniusz, Richard Hartley, Richard Nock(参考訳) 本稿では,識別器に多様体学習のステップを組み込むことにより,生成適応ネットワークを改善する。 局所性制約線型および部分空間ベース多様体と局所性制約非線型多様体を考える。 我々の設計では、多様体の学習と符号化のステップは、多様体上の中間的特徴表現を引き付けることを目的として、判別器の層と連動する。 我々は、特徴表現と多様体のビューとの相違を適応的にバランスさせ、それは多様体上の denoising と多様体の精製の間のトレードオフを表す。 局所性に制約のある非線型多様体は、その非一様密度と滑らかさにより、線型多様体の上手を持つ。 近年の最先端のベースラインよりも大幅に改善されている。

In this paper, we improve Generative Adversarial Networks by incorporating a manifold learning step into the discriminator. We consider locality-constrained linear and subspace-based manifolds, and locality-constrained non-linear manifolds. In our design, the manifold learning and coding steps are intertwined with layers of the discriminator, with the goal of attracting intermediate feature representations onto manifolds. We adaptively balance the discrepancy between feature representations and their manifold view, which represents a trade-off between denoising on the manifold and refining the manifold. We conclude that locality-constrained non-linear manifolds have the upper hand over linear manifolds due to their non-uniform density and smoothness. We show substantial improvements over different recent state-of-the-art baselines.
翻訳日:2021-12-24 14:22:55 公開日:2021-12-23
# (参考訳) 皮膚病変の分類における注意・セルフ・アテンション機構の影響評価 [全文訳有]

Assessing the Impact of Attention and Self-Attention Mechanisms on the Classification of Skin Lesions ( http://arxiv.org/abs/2112.12748v1 )

ライセンス: CC BY 4.0
Rafael Pedro and Arlindo L. Oliveira(参考訳) ニューラルネットワークアーキテクチャのパフォーマンスが大幅に改善されることを約束しているため、アテンションメカニズムは研究コミュニティに大きな関心を集めている。 しかし、特定の問題では、我々はまだ、改善が保証される特定のメカニズムとハイパーパラメータを選択するための原則的な方法が欠けている。 最近では、トランスフォーマーのようなアーキテクチャで自己注意が提案され、広く使われている。 本研究では,注意モジュールと自己注意という,2種類の注意機構に注目した。 注意モジュールは各層入力テンソルの特徴を再重み付けするために使用される。 異なるモジュールは、この再重み付けを完全な連結層や畳み込み層で実行する方法が異なる。 調査した注目モデルは、完全にモジュール化されており、この作業で人気のあるResNetアーキテクチャで使用される予定である。 自然言語処理の分野で最初に提案されたセルフアテンションは、入力シーケンス内のすべての項目を関連付けることを可能にする。 コンピュータビジョンでは、畳み込み層と組み合わされることもあるが、最近のアーキテクチャでは畳み込みを完全に廃止しているものもある。 本研究では,特定のコンピュータビジョンタスクにおいて,広く使用されている皮膚がんmnistデータセットにおけるサンプルの分類について,様々な注意機構の客観的比較を行った。 その結果、注意モジュールは時には畳み込みニューラルネットワークアーキテクチャの性能を改善するが、この改善は顕著で統計的に重要であるが、異なる設定では一貫性がないことが示された。 一方,自己着脱機構を用いて得られた結果は,一貫性と大幅な改善を示し,パラメータの少ないアーキテクチャにおいても最良の結果が得られた。

Attention mechanisms have raised significant interest in the research community, since they promise significant improvements in the performance of neural network architectures. However, in any specific problem, we still lack a principled way to choose specific mechanisms and hyper-parameters that lead to guaranteed improvements. More recently, self-attention has been proposed and widely used in transformer-like architectures, leading to significant breakthroughs in some applications. In this work we focus on two forms of attention mechanisms: attention modules and self-attention. Attention modules are used to reweight the features of each layer input tensor. Different modules have different ways to perform this reweighting in fully connected or convolutional layers. The attention models studied are completely modular and in this work they will be used with the popular ResNet architecture. Self-Attention, originally proposed in the area of Natural Language Processing makes it possible to relate all the items in an input sequence. Self-Attention is becoming increasingly popular in Computer Vision, where it is sometimes combined with convolutional layers, although some recent architectures do away entirely with convolutions. In this work, we study and perform an objective comparison of a number of different attention mechanisms in a specific computer vision task, the classification of samples in the widely used Skin Cancer MNIST dataset. The results show that attention modules do sometimes improve the performance of convolutional neural network architectures, but also that this improvement, although noticeable and statistically significant, is not consistent in different settings. The results obtained with self-attention mechanisms, on the other hand, show consistent and significant improvements, leading to the best results even in architectures with a reduced number of parameters.
翻訳日:2021-12-24 14:22:15 公開日:2021-12-23
# FedFR: ジェネリックとパーソナライズされた顔認識のための統合最適化フェデレーションフレームワーク

FedFR: Joint Optimization Federated Framework for Generic and Personalized Face Recognition ( http://arxiv.org/abs/2112.12496v1 )

ライセンス: Link先を確認
Chih-Ting Liu, Chien-Yi Wang, Shao-Yi Chien, Shang-Hong Lai(参考訳) 現在の最先端のディープラーニングベースの顔認識(fr)モデルは、中央トレーニングのために多数の顔認証を必要とする。 しかし、プライバシー意識の高まりにより、ユーザデバイスの顔画像へのアクセスが禁止され、顔認識モデルが継続的に改善される。 フェデレートラーニング(FL)は、クライアント間でデータを共有せずにモデルを協調的に最適化する、プライバシー問題に対処するテクニックである。 本研究では,プライバシーを意識した汎用的な顔表現を改善するために,fefrと呼ばれるflベースのフレームワークを提案する。 さらにフレームワークは、提案されたDecoupled Feature Customizationモジュールを通じて、対応するクライアントのパーソナライズされたモデルを共同で最適化する。 クライアント固有のパーソナライズされたモデルは、ローカルデバイスで登録されたIDに対して最適化された顔認識エクスペリエンスを必要とする。 私たちの知る限り、私たちはfl設定でパーソナライズされた顔認識を初めて調査しました。 提案フレームワークは,様々なFLシナリオを持つ汎用的およびパーソナライズされた顔認識ベンチマークにおいて,従来のアプローチよりも優れていることが検証された。 FL設定下でのソースコードとパーソナライズされたFRベンチマークはhttps://github.com/j ackie840129/FedFRで公開されている。

Current state-of-the-art deep learning based face recognition (FR) models require a large number of face identities for central training. However, due to the growing privacy awareness, it is prohibited to access the face images on user devices to continually improve face recognition models. Federated Learning (FL) is a technique to address the privacy issue, which can collaboratively optimize the model without sharing the data between clients. In this work, we propose a FL based framework called FedFR to improve the generic face representation in a privacy-aware manner. Besides, the framework jointly optimizes personalized models for the corresponding clients via the proposed Decoupled Feature Customization module. The client-specific personalized model can serve the need of optimized face recognition experience for registered identities at the local device. To the best of our knowledge, we are the first to explore the personalized face recognition in FL setup. The proposed framework is validated to be superior to previous approaches on several generic and personalized face recognition benchmarks with diverse FL scenarios. The source codes and our proposed personalized FR benchmark under FL setup are available at https://github.com/j ackie840129/FedFR.
翻訳日:2021-12-24 14:06:20 公開日:2021-12-23
# sparse-softmax: よりシンプルで高速なsoftmax変換

Sparse-softmax: A Simpler and Faster Alternative Softmax Transformation ( http://arxiv.org/abs/2112.12433v1 )

ライセンス: Link先を確認
Shaoshi Sun, Zhenyuan Zhang, BoCheng Huang, Pengbin Lei, Jianlin Su, Shengfeng Pan, Jiarun Cao(参考訳) ソフトマックス関数は多クラス分類問題においてニューラルネットワークで広く用いられており、ソフトマックス変換は出力を正と和に強制し、対応する損失関数はモデルの最適化に最大度原理を用いることができる。 しかし、softmaxは、高次元の分類に関して最適化操作を行うために損失関数に対して大きなマージンを残しており、これによりある程度の低性能が得られる。 本稿では,従来のソフトマックスで発生した問題を高次元の分類問題の観点から緩和するために,単純で簡潔なソフトマックス変種であるスパースソフトマックスについて経験的研究を行う。 実験の結果,スパースソフトマックスはよりシンプルで,より高速で,ベースラインモデルよりも優れた結果が得られることがわかった。

The softmax function is widely used in artificial neural networks for the multiclass classification problems, where the softmax transformation enforces the output to be positive and sum to one, and the corresponding loss function allows to use maximum likelihood principle to optimize the model. However, softmax leaves a large margin for loss function to conduct optimizing operation when it comes to high-dimensional classification, which results in low-performance to some extent. In this paper, we provide an empirical study on a simple and concise softmax variant, namely sparse-softmax, to alleviate the problem that occurred in traditional softmax in terms of high-dimensional classification problems. We evaluate our approach in several interdisciplinary tasks, the experimental results show that sparse-softmax is simpler, faster, and produces better results than the baseline models.
翻訳日:2021-12-24 14:05:44 公開日:2021-12-23
# (参考訳) SOIT: インスタンス対応トランスによるオブジェクトのセグメンテーション [全文訳有]

SOIT: Segmenting Objects with Instance-Aware Transformers ( http://arxiv.org/abs/2112.11037v2 )

ライセンス: CC BY 4.0
Xiaodong Yu, Dahu Shi, Xing Wei, Ye Ren, Tingqun Ye, Wenming Tan(参考訳) 本稿では,SOIT(Segments Objects with Instance-aware Transformer)と呼ばれるエンドツーエンドのインスタンスセグメンテーションフレームワークを提案する。 DETR \cite{carion2020end} にインスパイアされた本手法は,インスタンスセグメンテーションを直接セット予測問題とみなし,RoI の刈り取り,一対多ラベル割り当て,非最大抑圧 (NMS) などの手作り部品の必要性を効果的に除去する。 SOITでは、複数のクエリが学習され、グローバル画像コンテキスト下で、セマンティックカテゴリ、バウンディングボックス位置、およびピクセルワイドマスクの一連のオブジェクト埋め込みを直接推論する。 クラスとバウンディングボックスは固定長ベクトルで簡単に埋め込むことができる。 特にpixel-wiseマスクは、軽量なインスタンス対応トランスフォーマーを構築するためにパラメータのグループによって埋め込まれている。 その後、RoIベースの操作を伴わずに、インスタンス認識変換器によってフルレゾリューションマスクが生成される。 全体として、SOITはシンプルな単一ステージのインスタンスセグメンテーションフレームワークを導入している。 MS COCOデータセットの実験結果は、SOITが最先端のインスタンスセグメンテーションアプローチを大幅に上回っていることを示している。 さらに、統合クエリ埋め込みにおける複数のタスクの共同学習により、検出性能が大幅に向上する。 コードは \url{https://github.com/y uxiaodonghri/soit} で入手できる。

This paper presents an end-to-end instance segmentation framework, termed SOIT, that Segments Objects with Instance-aware Transformers. Inspired by DETR \cite{carion2020end}, our method views instance segmentation as a direct set prediction problem and effectively removes the need for many hand-crafted components like RoI cropping, one-to-many label assignment, and non-maximum suppression (NMS). In SOIT, multiple queries are learned to directly reason a set of object embeddings of semantic category, bounding-box location, and pixel-wise mask in parallel under the global image context. The class and bounding-box can be easily embedded by a fixed-length vector. The pixel-wise mask, especially, is embedded by a group of parameters to construct a lightweight instance-aware transformer. Afterward, a full-resolution mask is produced by the instance-aware transformer without involving any RoI-based operation. Overall, SOIT introduces a simple single-stage instance segmentation framework that is both RoI- and NMS-free. Experimental results on the MS COCO dataset demonstrate that SOIT outperforms state-of-the-art instance segmentation approaches significantly. Moreover, the joint learning of multiple tasks in a unified query embedding can also substantially improve the detection performance. Code is available at \url{https://github.com/y uxiaodongHRI/SOIT}.
翻訳日:2021-12-24 12:42:25 公開日:2021-12-23
# 強化学習に基づくベイズ最適実験設計のための逐次バッチサンプリング

Reinforcement Learning based Sequential Batch-sampling for Bayesian Optimal Experimental Design ( http://arxiv.org/abs/2112.10944v2 )

ライセンス: Link先を確認
Yonatan Ashenafi, Piyush Pandita, Sayan Ghosh(参考訳) 高度な数学的手法を用いてモデル化される工学的な問題や、高価な導電性試験や実験によって特徴づけられるものは、限られた予算や有限の計算資源で満たされる。 さらに,産業における実践シナリオでは,実験の実施方法に基いて,物流や選好に基づく制約を課している。 例えば、材料供給は、単発または計算モデルの場合、共有された計算資源に基づいて重要な待ち時間に直面した少数の実験のみを可能にする。 このようなシナリオでは、通常、上記の実践的制約を満たしながら、自身の知識の状態の最大化を可能にする方法で実験を行う。 実験の逐次設計(SDOE)は一般的な手法であり、近年、様々な工学的、実践的な問題において有望な結果をもたらしている。 ベイズ形式主義を利用する一般的な戦略は、ベイズ SDOE であり、通常、一連の実験の各ステップにおいて単一の実験を選択する一段階またはミオピックのシナリオにおいて最もうまく機能する。 本研究の目的は,sdoe戦略を拡張し,実験やコンピュータコードを入力のバッチで問い合わせることである。 この目的のために,我々は,予算全体を考慮して選択されたクエリのバッチを提案するために,深層強化学習(rl)に基づくポリシー勾配手法を利用する。 このアルゴリズムは、SDOEに固有のシーケンシャルな性質を保ちながら、深いRLの領域からのタスクに基づく報酬の要素を取り入れている。 提案手法のユニークな機能は、訓練された関数の最適化など、複数のタスクに適用される能力である。 本稿では,合成問題における提案アルゴリズムの性能と高次元工学的課題について述べる。

Engineering problems that are modeled using sophisticated mathematical methods or are characterized by expensive-to-conduct tests or experiments, are encumbered with limited budget or finite computational resources. Moreover, practical scenarios in the industry, impose restrictions, based on logistics and preference, on the manner in which the experiments can be conducted. For example, material supply may enable only a handful of experiments in a single-shot or in the case of computational models one may face significant wait-time based on shared computational resources. In such scenarios, one usually resorts to performing experiments in a manner that allows for maximizing one's state-of-knowledge while satisfying the above mentioned practical constraints. Sequential design of experiments (SDOE) is a popular suite of methods, that has yielded promising results in recent years across different engineering and practical problems. A common strategy, that leverages Bayesian formalism is the Bayesian SDOE, which usually works best in the one-step-ahead or myopic scenario of selecting a single experiment at each step of a sequence of experiments. In this work, we aim to extend the SDOE strategy, to query the experiment or computer code at a batch of inputs. To this end, we leverage deep reinforcement learning (RL) based policy gradient methods, to propose batches of queries that are selected taking into account entire budget in hand. The algorithm retains the sequential nature, inherent in the SDOE, while incorporating elements of reward based on task from the domain of deep RL. A unique capability of the proposed methodology is its ability to be applied to multiple tasks, for example optimization of a function, once its trained. We demonstrate the performance of the proposed algorithm on a synthetic problem, and a challenging high-dimensional engineering problem.
翻訳日:2021-12-24 12:28:01 公開日:2021-12-23
# 帰納的論理プログラミングによるリフティング対称性の破れ

Lifting Symmetry Breaking Constraints with Inductive Logic Programming ( http://arxiv.org/abs/2112.11806v2 )

ライセンス: Link先を確認
Alice Tarzariol, Martin Gebser, Konstantin Schekotihin(参考訳) 対称解候補の効率的な脱落は組合せ問題解決に不可欠である。 既存のアプローチのほとんどはインスタンス固有であり、各問題インスタンスに対してSBC(Symmetry Breaking Constraints)の自動計算に重点を置いている。 しかしながら、計算されたsbcは命題的であるため、大規模インスタンスや高度な問題エンコーディングへのそのようなアプローチの適用は問題となりうるため、意味のある解釈も他のインスタンスへの転送もできない。 その結果、SBCの計算に要する時間は、ソルバの呼び出しに先立って行う必要がある。 これらの制約を克服するために、我々は、小さな問題インスタンスのSBCをインダクティブ論理プログラミングパラダイムを用いて解釈可能な一階制約のセットに引き上げるAnswer Set Programmingの新しいモデル指向のアプローチを導入する。 実験では,組換え問題の集合に対して,インスタンス固有のSBCから一般制約を学習する能力を示す。 その結果,提案手法は,解法の直接的適用と同様に,最先端のインスタンス固有メソッドを大幅に上回ることがわかった。

Efficient omission of symmetric solution candidates is essential for combinatorial problem-solving. Most of the existing approaches are instance-specific and focus on the automatic computation of Symmetry Breaking Constraints (SBCs) for each given problem instance. However, the application of such approaches to large-scale instances or advanced problem encodings might be problematic since the computed SBCs are propositional and, therefore, can neither be meaningfully interpreted nor transferred to other instances. As a result, a time-consuming recomputation of SBCs must be done before every invocation of a solver. To overcome these limitations, we introduce a new model-oriented approach for Answer Set Programming that lifts the SBCs of small problem instances into a set of interpretable first-order constraints using the Inductive Logic Programming paradigm. Experiments demonstrate the ability of our framework to learn general constraints from instance-specific SBCs for a collection of combinatorial problems. The obtained results indicate that our approach significantly outperforms a state-of-the-art instance-specific method as well as the direct application of a solver.
翻訳日:2021-12-24 12:27:33 公開日:2021-12-23