このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220203となっている論文です。

PDF登録状況(公開日: 20220203)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 機械学習タスクのためのプライバシ対応クラウドラベリング [全文訳有]

Privacy-Aware Crowd Labelling for Machine Learning Tasks ( http://arxiv.org/abs/2203.01373v1 )

ライセンス: CC BY 4.0
Giannis Haralabopoulos and Ioannis Anagnostopoulos(参考訳) オンラインソーシャルメディアの広範な利用は、デジタル空間におけるプライバシーの重要性を強調している。 これらのプラットフォームで作成されたデータをより多くの科学者が分析するにつれ、プライバシーに関する懸念はアカデミック内のデータ利用にまで広がった。 テキスト分析は学術文献では多岐にわたる話題であるが,ユーザ生成コンテンツのプライバシーの確保は見過ごされている。 ほとんどの感情分析手法は感情ラベルを必要とするが、これは非専門家個人が科学的タスクに貢献するクラウドソーシングを通じて得られる。 テキスト自体を第三者に公開してラベル付けする必要がある。 オンライン利用者の情報公開を減らすため,クラウドソーシングに基づく各種アプリケーションを対象としたプライバシ保護テキストラベリング手法を提案する。 我々は、異なるレベルのプライバシーでテキストを変換し、ラベル相関と一貫性に関する変換の有効性を分析する。 この結果から,従来のラベルのアノテーションの多様性と主観性を保ちながら,ラベル付けにおいてプライバシを実装できることが示唆された。

The extensive use of online social media has highlighted the importance of privacy in the digital space. As more scientists analyse the data created in these platforms, privacy concerns have extended to data usage within the academia. Although text analysis is a well documented topic in academic literature with a multitude of applications, ensuring privacy of user-generated content has been overlooked. Most sentiment analysis methods require emotion labels, which can be obtained through crowdsourcing, where non-expert individuals contribute to scientific tasks. The text itself has to be exposed to third parties in order to be labelled. In an effort to reduce the exposure of online users' information, we propose a privacy preserving text labelling method for varying applications, based in crowdsourcing. We transform text with different levels of privacy, and analyse the effectiveness of the transformation with regards to label correlation and consistency. Our results suggest that privacy can be implemented in labelling, retaining the annotational diversity and subjectivity of traditional labelling.
翻訳日:2022-03-06 16:05:14 公開日:2022-02-03
# (参考訳) 金融ビジョンに基づく強化学習トレーディング戦略 [全文訳有]

Financial Vision Based Reinforcement Learning Trading Strategy ( http://arxiv.org/abs/2202.04115v1 )

ライセンス: CC BY 4.0
Yun-Cheng Tsai, Fu-Min Szu, Jun-Hao Chen, Samuel Yen-Chi Chen(参考訳) 定量的取引のための人工知能(AI)の最近の進歩は、その一般的な超人的性能を重要な取引性能に導いた。 しかし、AI取引の潜在的なリスクは、"ブラックボックス"決定である。 一部のAIコンピューティングメカニズムは複雑で理解が難しい。 適切な監督なしにAIを使用する場合、AIは間違った選択を導き、大きな損失をもたらす可能性がある。 ですから、なぜAIがこれを決定したのか、など、AIの“ブラックボックス”について尋ねる必要があります。 なぜAIを信用できるのか? どうやってミスを直せるのか? これらの問題は、トレーディング分野でAI技術が説明できる課題も強調している。

Recent advances in artificial intelligence (AI) for quantitative trading have led to its general superhuman performance in significant trading performance. However, the potential risk of AI trading is a "black box" decision. Some AI computing mechanisms are complex and challenging to understand. If we use AI without proper supervision, AI may lead to wrong choices and make huge losses. Hence, we need to ask about the AI "black box", including why did AI decide to do this or not? Why can people trust AI or not? How can people fix their mistakes? These problems also highlight the challenges that AI technology can explain in the trading field.
翻訳日:2022-02-13 22:42:08 公開日:2022-02-03
# (参考訳) 最大確率不確実性推定:外れ値に対するロバスト性 [全文訳有]

Maximum Likelihood Uncertainty Estimation: Robustness to Outliers ( http://arxiv.org/abs/2202.03870v1 )

ライセンス: CC BY-SA 4.0
Deebul S. Nair, Nico Hochgeschwender, Miguel A. Olivares-Mendez(参考訳) 回帰タスクのトレーニングデータにおいて,最大確率に基づく不確実性推定手法のロバスト性を評価する。 トレーニングデータのアウトレーヤやノイズラベルは、劣化したパフォーマンスと不確実性の誤った推定をもたらす。 そこで本研究では,外れ値に対するロバスト性を改善するために,重み付き分布(ラプラス分布)を用いることを提案する。 この特性は, 標準回帰ベンチマークと, 単分子深度推定の高次元回帰タスクを用いて評価される。 特に、ヘビーテール分布に基づく最大確率は、より良い不確実性推定、分布外データに対する不確実性分離の改善、異常値の存在下での逆攻撃の検出の改善をもたらす。

We benchmark the robustness of maximum likelihood based uncertainty estimation methods to outliers in training data for regression tasks. Outliers or noisy labels in training data results in degraded performances as well as incorrect estimation of uncertainty. We propose the use of a heavy-tailed distribution (Laplace distribution) to improve the robustness to outliers. This property is evaluated using standard regression benchmarks and on a high-dimensional regression task of monocular depth estimation, both containing outliers. In particular, heavy-tailed distribution based maximum likelihood provides better uncertainty estimates, better separation in uncertainty for out-of-distribution data, as well as better detection of adversarial attacks in the presence of outliers.
翻訳日:2022-02-13 22:29:59 公開日:2022-02-03
# (参考訳) learnability lock: 逆可逆変換による学習可能性制御の認可 [全文訳有]

Learnability Lock: Authorized Learnability Control Through Adversarial Invertible Transformations ( http://arxiv.org/abs/2202.03576v1 )

ライセンス: CC BY 4.0
Weiqi Peng, Jinghui Chen(参考訳) 情報技術の革命により、近年のディープラーニングの進歩は、様々なデジタルフォーマットで利用可能なデータへのアクセスが大幅に強化されたことにより、信じられないほど恩恵を受けます。 しかし、特定のシナリオでは、商用モデルのトレーニングに自分のデータを使用したくない場合があり、ディープラーニングモデルの学習可能性への攻撃方法を研究している。 学習可能性攻撃に関する以前の研究は、特定のデータセットで不正な利用を防止するという目標のみを考慮し、許可されたケースで学習可能性を取り戻すプロセスではない。 この問題に取り組むため,本稿では,特別キーを用いたデータセット上でモデルの学習可能性を制御するための「学習可能性ロック」と呼ばれる新しい概念を紹介し,検討する。 特に、画像から画像へのマッピングとみなすことができる対向的非可逆変換を提案し、データサンプルをわずかに修正し、視覚的特徴の無視可能な機械学習モデルによって「学習不能」になるようにする。 一方、データセットとトレーニングモデルの学習性を、対応するキーを使ってアンロックすることができる。 提案した学習性ロックは、同一ラベルのデータサンプルに普遍変換関数を適用するクラスワイド摂動を利用する。 これにより、検出やリバースエンジニアリングが困難でありながら、単純な逆変換で学習性を簡単に復元できる。 視覚分類タスクにおける手法の成功と実践性を実証的に実証した。

Owing much to the revolution of information technology, the recent progress of deep learning benefits incredibly from the vastly enhanced access to data available in various digital formats. However, in certain scenarios, people may not want their data being used for training commercial models and thus studied how to attack the learnability of deep learning models. Previous works on learnability attack only consider the goal of preventing unauthorized exploitation on the specific dataset but not the process of restoring the learnability for authorized cases. To tackle this issue, this paper introduces and investigates a new concept called "learnability lock" for controlling the model's learnability on a specific dataset with a special key. In particular, we propose adversarial invertible transformation, that can be viewed as a mapping from image to image, to slightly modify data samples so that they become "unlearnable" by machine learning models with negligible loss of visual features. Meanwhile, one can unlock the learnability of the dataset and train models normally using the corresponding key. The proposed learnability lock leverages class-wise perturbation that applies a universal transformation function on data samples of the same label. This ensures that the learnability can be easily restored with a simple inverse transformation while remaining difficult to be detected or reverse-engineered. We empirically demonstrate the success and practicability of our method on visual classification tasks.
翻訳日:2022-02-13 22:17:37 公開日:2022-02-03
# (参考訳) ネットワーク一般化予測のためのDNN埋め込み多様体のマッピング [全文訳有]

Mapping DNN Embedding Manifolds for Network Generalization Prediction ( http://arxiv.org/abs/2202.03868v1 )

ライセンス: CC BY 4.0
Molly O'Brien, Julia Bukowski, Mathias Unberath, Aria Pezeshk, Greg Hager(参考訳) 環境変化におけるディープニューラルネットワーク(DNN)のパフォーマンスを理解することは、DNNを非制約環境(例えば自動運転車の認識や医療画像解析など)の安全クリティカルなアプリケーションにデプロイするために不可欠である。 近年,ネットワーク一般化予測(NGP)の課題は,DNNが新しいオペレーティングシステムでどのように一般化するかを予測するために提案されている。 これまでのngpアプローチは、新しい運用ドメインのラベル付きメタデータと既知のディストリビューションに依存していた。 本研究では,DNN埋め込み空間における外部操作領域マップからのラベルなし画像のみに基づいて,DNNの性能を予測する最初のNGP手法を提案する。 本手法は, 歩行者, メラノーマ, 動物分類タスクに応用し, ドメイン知識を必要とせず, 15個のNGPタスクのうち13個のアートNGPの状態を提示する。 さらに,このngp埋め込みマップは,dnnの性能が低ければ誤分類画像の識別にも利用できることを示した。

Understanding Deep Neural Network (DNN) performance in changing conditions is essential for deploying DNNs in safety critical applications with unconstrained environments, e.g., perception for self-driving vehicles or medical image analysis. Recently, the task of Network Generalization Prediction (NGP) has been proposed to predict how a DNN will generalize in a new operating domain. Previous NGP approaches have relied on labeled metadata and known distributions for the new operating domains. In this study, we propose the first NGP approach that predicts DNN performance based solely on how unlabeled images from an external operating domain map in the DNN embedding space. We demonstrate this technique for pedestrian, melanoma, and animal classification tasks and show state of the art NGP in 13 of 15 NGP tasks without requiring domain knowledge. Additionally, we show that our NGP embedding maps can be used to identify misclassified images when the DNN performance is poor.
翻訳日:2022-02-13 21:56:33 公開日:2022-02-03
# インターネット検索データによる新型コロナの入院予測

COVID-19 Hospitalizations Forecasts Using Internet Search Data ( http://arxiv.org/abs/2202.03869v1 )

ライセンス: Link先を確認
Tao Wang, Simin Ma, Soobin Baek, Shihao Yang(参考訳) 新型コロナウイルス(COVID-19)が世界中に広がり、新型の新型コロナウイルス(COVID-19)が相次いでいる中、ICUベッドや人工呼吸器、人員などの医療資源の配分について、新型コロナウイルスの入院の確実なリアルタイム予測が公衆衛生上の決定に欠かせない。 一般の検索行動と入院入院入院の強い関連性から,先程提案したインフルエンザ追跡モデルであるARGO(AutoRegression with GOogle search data)を拡張して,今後2週間の全国および州レベルの新規入院を予測した。 新型コロナウイルス(covid-19)関連時系列情報とgoogle検索データを活用することで、新型ウイルスのサージをロバストに捉え、国家レベルと州レベルで自己修正することが可能です。 提案手法は,12カ月間の比較期間のレトロスペクティブアウトオブサンプル評価に基づいて,新型コロナウイルス予測ハブから収集した最良の代替モデルに対して平均15倍の誤差削減を達成した。 全体として,本手法は柔軟性,自己修正性,堅牢性,正確性,解釈可能であり,医療従事者を支援し,現在および今後の感染症の流行に対する意思決定を支援する潜在的に強力なツールであることが示された。

As the COVID-19 spread over the globe and new variants of COVID-19 keep occurring, reliable real-time forecasts of COVID-19 hospitalizations are critical for public health decision on medical resources allocations such as ICU beds, ventilators, and personnel to prepare for the surge of COVID-19 pandemics. Inspired by the strong association between public search behavior and hospitalization admission, we extended previously-proposed influenza tracking model, ARGO (AutoRegression with GOogle search data), to predict future 2-week national and state-level COVID-19 new hospital admissions. Leveraging the COVID-19 related time series information and Google search data, our method is able to robustly capture new COVID-19 variants' surges, and self-correct at both national and state level. Based on our retrospective out-of-sample evaluation over 12-month comparison period, our method achieves on average 15\% error reduction over the best alternative models collected from COVID-19 forecast hub. Overall, we showed that our method is flexible, self-correcting, robust, accurate, and interpretable, making it a potentially powerful tool to assist health-care officials and decision making for the current and future infectious disease outbreak.
翻訳日:2022-02-13 14:39:10 公開日:2022-02-03
# IIoTのデータ管理のための深層強化学習支援フェデレーション学習アルゴリズム

Deep Reinforcement Learning Assisted Federated Learning Algorithm for Data Management of IIoT ( http://arxiv.org/abs/2202.03575v1 )

ライセンス: Link先を確認
Peiying Zhang, Chao Wang, Chunxiao Jiang, and Zhu Han(参考訳) 産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。 エンドユーザの異なる要件によると、これらのデータは一般的に高い不均一性とプライバシを持ち、ほとんどのユーザは公開ビューに公開することに消極的だ。 IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法はまだ未解決の問題であり、学術や産業から広く注目を集めている。 新しい機械学習(ML)パラダイムとして、フェデレーションドラーニング(FL)は、異種およびプライベートデータのトレーニングにおいて大きな利点がある。 本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。 モデル集約率を高め,通信コストを削減するため,IIoT機器選択プロセスに深部強化学習(DRL)を適用し,特に正確なモデルでIIoT機器ノードを選択する。 そこで本研究では,IIoT機器のデータトレーニングのプライバシと効率を考慮し,DRLを利用したFLアルゴリズムを提案する。 IIoT機器のデータ特性を解析することにより、MNIST、ファッションMNIST、CIFAR-10データセットを用いて、IIoTが生成したデータを表現する。 実験では,deep neural network (dnn)モデルを用いてデータトレーニングを行い,その精度が97\%以上に達することを示し,提案アルゴリズムの有効性を検証した。

The continuous expanded scale of the industrial Internet of Things (IIoT) leads to IIoT equipments generating massive amounts of user data every moment. According to the different requirement of end users, these data usually have high heterogeneity and privacy, while most of users are reluctant to expose them to the public view. How to manage these time series data in an efficient and safe way in the field of IIoT is still an open issue, such that it has attracted extensive attention from academia and industry. As a new machine learning (ML) paradigm, federated learning (FL) has great advantages in training heterogeneous and private data. This paper studies the FL technology applications to manage IIoT equipment data in wireless network environments. In order to increase the model aggregation rate and reduce communication costs, we apply deep reinforcement learning (DRL) to IIoT equipment selection process, specifically to select those IIoT equipment nodes with accurate models. Therefore, we propose a FL algorithm assisted by DRL, which can take into account the privacy and efficiency of data training of IIoT equipment. By analyzing the data characteristics of IIoT equipments, we use MNIST, fashion MNIST and CIFAR-10 data sets to represent the data generated by IIoT. During the experiment, we employ the deep neural network (DNN) model to train the data, and experimental results show that the accuracy can reach more than 97\%, which corroborates the effectiveness of the proposed algorithm.
翻訳日:2022-02-13 14:28:25 公開日:2022-02-03
# 機械学習とデータサイエンス:基礎、概念、アルゴリズム、ツール

Machine Learning and Data Science: Foundations, Concepts, Algorithms, and Tools ( http://arxiv.org/abs/2202.05163v1 )

ライセンス: Link先を確認
Milad Vazan(参考訳) 今日、データはビジネスにとって重要な洞察を得て、パフォーマンスを改善するためのツールであり、燃料となっている。 データサイエンスは世界のほぼすべての産業を支配してきた。 現在、データを使用しない業界は存在しない。 しかし、誰がこの洞察を得るだろうか? 生データを処理するのは誰か? すべてはデータアナリストやデータサイエンティストによって行われます。

Today, data is a tool and fuel for businesses to gain important insights and improve their performance. Data science has dominated almost every industry in the world. There is no industry in the world today that does not use data. But who will get this insight? Who processes all the raw data? Everything is done by a data analyst or a data scientist.
翻訳日:2022-02-13 14:27:15 公開日:2022-02-03
# iovシナリオ:無線ネットワーク通信モードにおける帯域幅認識アルゴリズムの実装

IoV Scenario: Implementation of a Bandwidth Aware Algorithm in Wireless Network Communication Mode ( http://arxiv.org/abs/2202.03488v1 )

ライセンス: Link先を確認
Peiying Zhang, Chao Wang, Gagangeet Singh Aujla, Neeraj Kumar, and Mohsen Guizani(参考訳) 車両のインターネット(IoV)に代表される無線ネットワーク通信モードが広く使われている。 しかし、従来のネットワークアーキテクチャの限界により、無線ネットワーク環境におけるリソーススケジューリングは依然として大きな課題に直面している。 本稿では,仮想ネットワーク環境における帯域幅資源の割り当てに着目した。 本稿では,マルチドメイン仮想ネットワーク埋め込みアルゴリズム(BA-VNE)を提案する。 このアルゴリズムは主に、ユーザが無線通信モードで多くの帯域幅を必要とする問題を対象としており、仮想ネットワーク埋め込み(VNE)の観点から帯域幅資源割り当ての問題を解決する。 アルゴリズムの性能を向上させるため,pso( particle swarm optimization)アルゴリズムを導入し,アルゴリズムの性能を最適化する。 提案手法の有効性を検証するために,リンク帯域幅,マッピングコスト,仮想ネットワーク要求(vnr)の受け入れ率からシミュレーション実験を行った。 最終結果は,提案アルゴリズムが上記の指標の他の代表アルゴリズムよりも優れていることを示す。

The wireless network communication mode represented by the Internet of vehicles (IoV) has been widely used. However, due to the limitations of traditional network architecture, resource scheduling in wireless network environment is still facing great challenges. This paper focuses on the allocation of bandwidth resources in the virtual network environment. This paper proposes a bandwidth aware multi domain virtual network embedding algorithm (BA-VNE). The algorithm is mainly aimed at the problem that users need a lot of bandwidth in wireless communication mode, and solves the problem of bandwidth resource allocation from the perspective of virtual network embedding (VNE). In order to improve the performance of the algorithm, we introduce particle swarm optimization (PSO) algorithm to optimize the performance of the algorithm. In order to verify the effectiveness of the algorithm, we have carried out simulation experiments from link bandwidth, mapping cost and virtual network request (VNR) acceptance rate. The final results show that the proposed algorithm is better than other representative algorithms in the above indicators.
翻訳日:2022-02-13 14:27:11 公開日:2022-02-03
# 深層強化学習に基づくネットワーク資源配分戦略

Network Resource Allocation Strategy Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2202.03193v1 )

ライセンス: Link先を確認
Shidong Zhang, Chao Wang, Junsan Zhang, Youxiang Duan, Xinhong You, and Peiying Zhang(参考訳) 従来のインターネットは、新興技術のニーズにネットワークリソースを割り当てるボトルネックに直面してきた。 将来的なネットワークアーキテクチャとしてのネットワーク仮想化(NV)技術,それをサポートする仮想ネットワーク埋め込み(VNE)アルゴリズムは,リソース割り当て問題を解決する大きな可能性を示している。 効率的な機械学習(ml)アルゴリズムと組み合わせることで、強化学習エージェントを訓練するために、基盤ネットワーク環境に近いニューラルネットワークモデルを構築する。 本稿では,既存のヒューリスティックアルゴリズムのマッピング結果が局所最適解に収束しやすいという問題に対して,深部強化学習(DRL)に基づく2段階VNEアルゴリズムを提案する。 MLに基づく既存のVNEアルゴリズムは、基板ネットワーク表現とトレーニングモードの重要性を無視することが多いため、フル属性行列(FAM-DRL-VNE)に基づくDRL VNEアルゴリズムを提案する。 既存のVNEアルゴリズムが仮想ネットワーク要求間のリソース変化を無視する問題として,行列摂動理論(MPT-DRL-VNE)に基づくDRL VNEアルゴリズムを提案する。 実験の結果,上記のアルゴリズムは他のアルゴリズムよりも優れていることがわかった。

The traditional Internet has encountered a bottleneck in allocating network resources for emerging technology needs. Network virtualization (NV) technology as a future network architecture, the virtual network embedding (VNE) algorithm it supports shows great potential in solving resource allocation problems. Combined with the efficient machine learning (ML) algorithm, a neural network model close to the substrate network environment is constructed to train the reinforcement learning agent. This paper proposes a two-stage VNE algorithm based on deep reinforcement learning (DRL) (TS-DRL-VNE) for the problem that the mapping result of existing heuristic algorithm is easy to converge to the local optimal solution. For the problem that the existing VNE algorithm based on ML often ignores the importance of substrate network representation and training mode, a DRL VNE algorithm based on full attribute matrix (FAM-DRL-VNE) is proposed. In view of the problem that the existing VNE algorithm often ignores the underlying resource changes between virtual network requests, a DRL VNE algorithm based on matrix perturbation theory (MPT-DRL-VNE) is proposed. Experimental results show that the above algorithm is superior to other algorithms.
翻訳日:2022-02-08 18:43:42 公開日:2022-02-03
# 自動プリコーダに基づく大規模MU-MIMOダウンリンクのためのPA非線形学習

Efficient Autoprecoder-based deep learning for massive MU-MIMO Downlink under PA Non-Linearities ( http://arxiv.org/abs/2202.03190v1 )

ライセンス: Link先を確認
Xinying Cheng (CNAM, CEDRIC - LAETITIA), Rafik Zayani (CEA-LETI), Marin Ferecatu (CNAM, CEDRIC - VERTIGO), Nicolas Audebert (CNAM, CEDRIC - VERTIGO)(参考訳) 本稿では,大規模マルチ入力マルチ出力(mMIMO)ダウンリンクシステムにおいて,省エネ電力増幅器(PA)を備えた多数のアンテナを備え,複数のユーザ端末にサービスを提供する,新しい効率的なオートプレコーダ(AP)に基づく深層学習手法を提案する。 本稿では,マルチユーザ干渉を解消し,重度非線形(NL)PA歪みを補償する新しい手法であるAP-mMIMOを提案する。 以前の研究とは異なり、AP-mMIMOは計算量が少なく、地球規模のエネルギー効率の高いシステムに適している。 具体的には、オートプリコーダの概念を利用して、pa対応プリコーダと受信デコーダを設計することを目的としているが、エンドツーエンドのマルチユーザ(mu)-mimoダウンリンクはディープニューラルネットワーク(nn)を用いて設計されている。 最も重要なことに、提案されたap-mmimoは様々なブロックフェージングチャネルシナリオに適している。 このようなシナリオに対処するために、2段階のプリコーディング方式を考える。 1) NN-precoder は、PA の非線形性に対処するために使用され、 2) マルチユーザ干渉を抑制するために線形プリコーダを用いる。 NN-precoderと受信デコーダはオフラインで訓練され、チャネルが変化すると、線形プレコーダのみがオンラインに変化する。 この後者は、広く使われているゼロ強制プリコーディングスキームまたは行列多項式に基づくその低複雑さバージョンを用いて設計されている。 数値シミュレーションにより, ap-mmimoアプローチは, 従来の文献に比べて複雑度が著しく低い競争性能を実現することが示された。 インデックス項-マルチユーザ(mu)プリコーディング、大量多入力多重出力(mimo)、エネルギー効率、ハードウェア障害、電力増幅器(pa)非線形、オートプレコーダ、ディープラーニング、ニューラルネットワーク(nn)

This paper introduces a new efficient autoprecoder (AP) based deep learning approach for massive multiple-input multiple-output (mMIMO) downlink systems in which the base station is equipped with a large number of antennas with energy-efficient power amplifiers (PAs) and serves multiple user terminals. We present AP-mMIMO, a new method that jointly eliminates the multiuser interference and compensates the severe nonlinear (NL) PA distortions. Unlike previous works, AP-mMIMO has a low computational complexity, making it suitable for a global energy-efficient system. Specifically, we aim to design the PA-aware precoder and the receive decoder by leveraging the concept of autoprecoder, whereas the end-to-end massive multiuser (MU)-MIMO downlink is designed using a deep neural network (NN). Most importantly, the proposed AP-mMIMO is suited for the varying block fading channel scenario. To deal with such scenarios, we consider a two-stage precoding scheme: 1) a NN-precoder is used to address the PA non-linearities and 2) a linear precoder is used to suppress the multiuser interference. The NN-precoder and the receive decoder are trained off-line and when the channel varies, only the linear precoder changes on-line. This latter is designed by using the widely used zero-forcing precoding scheme or its lowcomplexity version based on matrix polynomials. Numerical simulations show that the proposed AP-mMIMO approach achieves competitive performance with a significantly lower complexity compared to existing literature. Index Terms-multiuser (MU) precoding, massive multipleinput multiple-output (MIMO), energy-efficiency, hardware impairment, power amplifier (PA) nonlinearities, autoprecoder, deep learning, neural network (NN)
翻訳日:2022-02-08 17:50:32 公開日:2022-02-03
# 強化学習に基づくセキュリティ対応仮想ネットワーク埋め込みアルゴリズム

Security-Aware Virtual Network Embedding Algorithm based on Reinforcement Learning ( http://arxiv.org/abs/2202.02452v1 )

ライセンス: Link先を確認
Peiying Zhang, Chao Wang, Chunxiao Jiang, and Abderrahim Benslimane(参考訳) 仮想ネットワーク埋め込み(VNE)アルゴリズムは常にネットワーク仮想化(NV)技術の鍵となる問題である。 現在、この分野の研究には次のような問題がある。 VNE問題を解決する伝統的な方法はヒューリスティックアルゴリズムを使うことである。 しかし、この手法は手動の埋め込み規則に依存しており、VNEの実際の状況とは一致しない。 さらに、VNEの問題を解決するための知的学習アルゴリズムの利用がトレンドとなっているため、この手法は徐々に時代遅れになっている。 同時に、VNEにはいくつかのセキュリティ問題がある。 しかし、VNEのセキュリティ問題を解決するインテリジェントアルゴリズムは存在しない。 そこで本研究では,強化学習(RL)に基づくセキュリティ対応VNEアルゴリズムを提案する。 学習段階では,学習エージェントとしてポリシネットワークを使用し,抽出した基盤ノードの属性を入力として特徴行列を形成する。 この環境で学習エージェントを訓練し、各基板ノードのマッピング確率を得る。 テストフェーズでは、ノードをマッピング確率に応じてマッピングし、幅優先戦略(BFS)を用いてリンクをマップする。 セキュリティ問題に対して,各仮想ノードに対するセキュリティ要件レベル制約と,各基板ノードに対するセキュリティレベル制約を加えます。 仮想ノードは、セキュリティ要件のレベルよりも低い基板ノードにのみ組み込むことができる。 実験の結果, 提案アルゴリズムは, 長期平均リターン, 長期歳入率, 仮想ネットワーク要求 (vnr) の受入率において, 従来のアルゴリズムよりも優れていることがわかった。

Virtual network embedding (VNE) algorithm is always the key problem in network virtualization (NV) technology. At present, the research in this field still has the following problems. The traditional way to solve VNE problem is to use heuristic algorithm. However, this method relies on manual embedding rules, which does not accord with the actual situation of VNE. In addition, as the use of intelligent learning algorithm to solve the problem of VNE has become a trend, this method is gradually outdated. At the same time, there are some security problems in VNE. However, there is no intelligent algorithm to solve the security problem of VNE. For this reason, this paper proposes a security-aware VNE algorithm based on reinforcement learning (RL). In the training phase, we use a policy network as a learning agent and take the extracted attributes of the substrate nodes to form a feature matrix as input. The learning agent is trained in this environment to get the mapping probability of each substrate node. In the test phase, we map nodes according to the mapping probability and use the breadth-first strategy (BFS) to map links. For the security problem, we add security requirements level constraint for each virtual node and security level constraint for each substrate node. Virtual nodes can only be embedded on substrate nodes that are not lower than the level of security requirements. Experimental results show that the proposed algorithm is superior to other typical algorithms in terms of long-term average return, long-term revenue consumption ratio and virtual network request (VNR) acceptance rate.
翻訳日:2022-02-08 17:11:25 公開日:2022-02-03
# 仮想ネットワークアーキテクチャに基づく空間空域統合型マルチドメインネットワークリソースオーケストレーション:DRL法

Space-Air-Ground Integrated Multi-domain Network Resource Orchestration based on Virtual Network Architecture: a DRL Method ( http://arxiv.org/abs/2202.02459v1 )

ライセンス: Link先を確認
Peiying Zhang, Chao Wang, Neeraj Kumar, and Lei Liu(参考訳) 従来の地上無線通信ネットワークは、デプロイメント、カバレッジ、キャパシティの問題により、インテリジェントトランスポートシステム(ITS)のような人工知能(AI)アプリケーションのための高品質なサービスを提供しない。 宇宙空間統合ネットワーク(SAGIN)は、産業における研究の焦点となっている。 従来の無線通信ネットワークと比較して、SAGINはより柔軟で信頼性が高く、より広い範囲とシームレスな接続の質が高い。 しかし、その固有の異質性、時間的変化、自己組織化の特性から、SAGINの展開と利用は依然として大きな課題に直面しており、不均一なリソースのオーケストレーションが重要な問題となっている。 仮想ネットワークアーキテクチャと深部強化学習(DRL)に基づいて,多領域仮想ネットワーク埋め込み(VNE)問題としてSAGINの異種資源オーケストレーションをモデル化し,SAGINクロスドメインVNEアルゴリズムを提案する。 我々は、SAGINの異なるネットワークセグメントをモデル化し、SAGINの実際の状況とユーザニーズに応じてネットワーク属性を設定する。 DRLでは、エージェントは5層ポリシーネットワークによって作用する。 SAGINから抽出したネットワーク属性に基づいて特徴行列を構築し,エージェント訓練環境として利用する。 トレーニングを通じて、埋め込まれている各ノードの確率を導出することができる。 テストフェーズでは、仮想ノードとリンクの埋め込みプロセスをこの確率に基づいて順次完了します。 最後に、トレーニングとテストの両方からアルゴリズムの有効性を検証する。

Traditional ground wireless communication networks cannot provide high-quality services for artificial intelligence (AI) applications such as intelligent transportation systems (ITS) due to deployment, coverage and capacity issues. The space-air-ground integrated network (SAGIN) has become a research focus in the industry. Compared with traditional wireless communication networks, SAGIN is more flexible and reliable, and it has wider coverage and higher quality of seamless connection. However, due to its inherent heterogeneity, time-varying and self-organizing characteristics, the deployment and use of SAGIN still faces huge challenges, among which the orchestration of heterogeneous resources is a key issue. Based on virtual network architecture and deep reinforcement learning (DRL), we model SAGIN's heterogeneous resource orchestration as a multi-domain virtual network embedding (VNE) problem, and propose a SAGIN cross-domain VNE algorithm. We model the different network segments of SAGIN, and set the network attributes according to the actual situation of SAGIN and user needs. In DRL, the agent is acted by a five-layer policy network. We build a feature matrix based on network attributes extracted from SAGIN and use it as the agent training environment. Through training, the probability of each underlying node being embedded can be derived. In test phase, we complete the embedding process of virtual nodes and links in turn based on this probability. Finally, we verify the effectiveness of the algorithm from both training and testing.
翻訳日:2022-02-08 17:11:04 公開日:2022-02-03
# リワードは十分ではない。強化学習パラダイムからAIを解放できるだろうか?

Reward is not enough: can we liberate AI from the reinforcement learning paradigm? ( http://arxiv.org/abs/2202.03192v1 )

ライセンス: Link先を確認
Vacslav Glukhov(参考訳) silver氏、singh氏、precup氏、sutton氏(https://www.science direct.com/science/a rticle/pii/s00043702 21000862 )によって提起された仮説に対する議論を示す。 報酬の最大化は、知識、学習、知覚、社会知能、進化、言語、一般化、模倣を含む、自然および人工知能に関連する多くの活動を説明するのに十分ではない。 このようなリダクシオ・アド・ルクルムは、ホモ・エコノミクスの政治経済にその知的な起源を持ち、行動主義の過激なバージョンと著しく重なっている。 私は、強化学習パラダイムが、いくつかの実用的な応用において実証可能な有用性にもかかわらず、インテリジェンスのための不完全なフレームワークである理由を示しています。 知的行動の複雑さは、報酬の最大化の上の2階の複雑さだけではない。 この事実は、実用的でスマートで安全で堅牢な人工的なエージェントの開発に重大な意味を持つ。

I present arguments against the hypothesis put forward by Silver, Singh, Precup, and Sutton ( https://www.scienced irect.com/science/ar ticle/pii/S000437022 1000862 ) : reward maximization is not enough to explain many activities associated with natural and artificial intelligence including knowledge, learning, perception, social intelligence, evolution, language, generalisation and imitation. I show such reductio ad lucrum has its intellectual origins in the political economy of Homo economicus and substantially overlaps with the radical version of behaviourism. I show why the reinforcement learning paradigm, despite its demonstrable usefulness in some practical application, is an incomplete framework for intelligence -- natural and artificial. Complexities of intelligent behaviour are not simply second-order complications on top of reward maximisation. This fact has profound implications for the development of practically usable, smart, safe and robust artificially intelligent agents.
翻訳日:2022-02-08 16:43:45 公開日:2022-02-03
# 光皮膚:センサ統合フリーマルチモーダルフレキシブルセンシング

Optical skin: Sensor-integration-f ree multimodal flexible sensing ( http://arxiv.org/abs/2202.03189v1 )

ライセンス: Link先を確認
Sho Shimadera, Kei Kitagawa, Koyo Sagehashi, Tomoaki Niiyama, and Satoshi Sunada(参考訳) 動物の皮膚は様々な刺激を感知することができる。 近年, 生体皮膚の機能を高めるためのスマートスキン様センサの開発が盛んに行われているが, 多数のワイヤ接続による大規模センサの統合が求められているため, 広範囲の刺激を同時に感知することは困難である。 本稿では,複数のセンサを統合する必要のない,シンプルで高感度,マルチモーダルセンシング手法を提案する。 提案手法は,様々な刺激の情報を空間パターンとしてエンコードできる光干渉法に基づいている。 従来のアプローチとは対照的に,提案手法はディープニューラルネットワークと組み合わせることで,私たちの目的に応じてセンサモードを自由に選択することができる。 重要な例として, 複雑な積分を必要としない単一軟質材料を用いて, 3種類の物理量, 接触力, 接触位置, 温度の同時検知方式を示す。 提案手法のもうひとつの特徴は、数十マイクロメートルの超高分解能の空間連続センシングであり、接触対象の形状を識別することができる。 さらに,人間-機械インタフェースのための触覚ソフトデバイスを提案する。 提案手法は高性能光皮膚の開発を促進する。

The biological skin enables animals to sense various stimuli. Extensive efforts have been made recently to develop smart skin-like sensors to extend the capabilities of biological skins; however, simultaneous sensing of several types of stimuli in a large area remains challenging because this requires large-scale sensor integration with numerous wire connections. We propose a simple, highly sensitive, and multimodal sensing approach, which does not require integrating multiple sensors. The proposed approach is based on an optical interference technique, which can encode the information of various stimuli as a spatial pattern. In contrast to the existing approach, the proposed approach, combined with a deep neural network, enables us to freely select the sensing mode according to our purpose. As a key example, we demonstrate simultaneous sensing mode of three different physical quantities, contact force, contact location, and temperature, using a single soft material without requiring complex integration. Another unique property of the proposed approach is spatially continuous sensing with ultrahigh resolution of few tens of micrometers, which enables identifying the shape of the object in contact. Furthermore, we present a haptic soft device for a human-machine interface. The proposed approach encourages the development of high-performance optical skins.
翻訳日:2022-02-08 15:45:38 公開日:2022-02-03
# (参考訳) 歩行者と道路安全における都市変化の影響予測 [全文訳有]

Predicting the impact of urban change in pedestrian and road safety ( http://arxiv.org/abs/2202.01781v1 )

ライセンス: CC BY 4.0
Cristina Bustos, Daniel Rhoads, Agata Lapedriza, Javier Borge-Holthoefer, and Albert Sol\'e-Ribalta(参考訳) 今日の混雑した都市環境における歩行者と車両の相互作用の増加は、交通事故の増加というネガティブな副作用をもたらし、歩行者が最も脆弱な要素となっている。 近年の研究では、畳み込みニューラルネットワークが都市道路のストリートビュー画像を利用する事故率を正確に予測できることが示されている。 有望な結果は、歩行者と車両の両方にとって安全な都市景観の設計を支援する可能性を示している。 本稿では,過去の事故データとストリートビューの画像から,都市の介入が事故発生に与える影響(増加・減少)を自動的に予測する方法を詳述する。 その結果は肯定的であり、60から80%のアキュラシーが生じる。 都市の特徴の特定のカテゴリーが事故率に正または負の影響を与えるかを明らかにするための解釈可能性分析も提供する。 交通ネットワーク基盤(サイドウォーク・ロード・ネットワーク)とその需要を考慮して,これらの結果を複雑なネットワーク・フレームワークに統合し,歩行者や車両の安全に対する都市変化の効果を推定する。 分析の結果,現状のツールでは改善が限られているため,機械学習ツールを活用して対象の介入を優先順位付けできる可能性が示唆された。 さらに,歩行者のための安全な都市交通路の設計や,運転支援技術の分野など,幅広い応用範囲がある。

Increased interaction between and among pedestrians and vehicles in the crowded urban environments of today gives rise to a negative side-effect: a growth in traffic accidents, with pedestrians being the most vulnerable elements. Recent work has shown that Convolutional Neural Networks are able to accurately predict accident rates exploiting Street View imagery along urban roads. The promising results point to the plausibility of aided design of safe urban landscapes, for both pedestrians and vehicles. In this paper, by considering historical accident data and Street View images, we detail how to automatically predict the impact (increase or decrease) of urban interventions on accident incidence. The results are positive, rendering an accuracies ranging from 60 to 80%. We additionally provide an interpretability analysis to unveil which specific categories of urban features impact accident rates positively or negatively. Considering the transportation network substrates (sidewalk and road networks) and their demand, we integrate these results to a complex network framework, to estimate the effective impact of urban change on the safety of pedestrians and vehicles. Results show that public authorities may leverage on machine learning tools to prioritize targeted interventions, since our analysis show that limited improvement is obtained with current tools. Further, our findings have a wider application range such as the design of safe urban routes for pedestrians or to the field of driver-assistance technologies.
翻訳日:2022-02-08 03:45:00 公開日:2022-02-03
# (参考訳) ピクセルアダプティブフィルタを用いた網膜血管セグメンテーション [全文訳有]

Retinal Vessel Segmentation with Pixel-wise Adaptive Filters ( http://arxiv.org/abs/2202.01782v1 )

ライセンス: CC BY 4.0
Mingxing Li, Shenglong Zhou, Chang Chen, Yueyi Zhang, Dong Liu, Zhiwei Xiong(参考訳) 網膜血管の複雑なテクスチャと低画像コントラストのため、正確な網膜血管の分節は困難である。 従来の方法は、時間消費と非効率の複数のディープネットワークをカスケードすることで、セグメント化結果を洗練する。 本稿では,これらの課題に対処する2つの新しい手法を提案する。 まず,マルチスケール残差類似度収集 (MRSG) と呼ばれる軽量モジュールを考案し,画素ワイド適応フィルタ (PA-Filters) を生成する。 cascading multi deep networksとは異なり、1つのpaフィルタ層だけがセグメント化結果を改善することができる。 第2に,セグメント化精度を高めるための応答キュー消去(RCE)戦略を導入する。 DRIVE,CHASE_DB1,STAR Eデータセットによる実験結果から,提案手法は,コンパクトな構造を維持しつつ,最先端の手法よりも優れていることが示された。 コードはhttps://github.com/L imingxing00/Retinal- Vessel-Segmentation- ISBI20222で公開されている。

Accurate retinal vessel segmentation is challenging because of the complex texture of retinal vessels and low imaging contrast. Previous methods generally refine segmentation results by cascading multiple deep networks, which are time-consuming and inefficient. In this paper, we propose two novel methods to address these challenges. First, we devise a light-weight module, named multi-scale residual similarity gathering (MRSG), to generate pixel-wise adaptive filters (PA-Filters). Different from cascading multiple deep networks, only one PA-Filter layer can improve the segmentation results. Second, we introduce a response cue erasing (RCE) strategy to enhance the segmentation accuracy. Experimental results on the DRIVE, CHASE_DB1, and STARE datasets demonstrate that our proposed method outperforms state-of-the-art methods while maintaining a compact structure. Code is available at https://github.com/L imingxing00/Retinal- Vessel-Segmentation- ISBI20222.
翻訳日:2022-02-08 03:27:35 公開日:2022-02-03
# (参考訳) Facebookとテキストメッセージ言語におけるクロスプラットフォームの差異:抑うつ診断による画像化 [全文訳有]

Cross-Platform Difference in Facebook and Text Messages Language Use: Illustrated by Depression Diagnosis ( http://arxiv.org/abs/2202.01802v1 )

ライセンス: CC BY 4.0
Tingting Liu, Salvatore Giorgi, Xiangyu Tao, Douglas Bellew, Brenda Curtis, Lyle Ungar(参考訳) FacebookのステータスアップデートとSMS(SMS)では、言語はどのような違いがありますか? 本研究では,facebook と sms の使用が心理言語学的特性にどのように異なるか,およびこれらの差異がうつ病診断の例を用いて下流解析をいかに促進しているかを示す。 私たちは、facebookのステータスアップデートやsmsデータを共有し、標準の心理的うつ病スクリーニングに回答した参加者のサンプルを使っています。 我々は、心理的に駆動された語彙的手法を用いてドメインの差異を定量化し、Facebook上の言語はより個人的な関心事、経験、コンテンツ機能を含むのに対して、SMSの言語はより非公式でスタイル的な特徴を含んでいることを発見した。 次に,両テキストドメインから抑うつを推定し,facebookデータに基づいてトレーニングした抑うつモデルを用いて,smsに基づく抑うつ推定から自己報告した抑うつ評価を予測する際の精度の低下を求める。 最後に,クロスプラットフォーム差を駆動する単語に基づく単純なドメイン適応補正を評価し,sms由来の抑うつ推定に適用することで,予測精度が大幅に向上した。 我々の研究は、言語使用におけるFacebookとSMSの違いを示し、テキストベースの予測にクロスドメイン適応の必要性を示唆している。

How does language differ across one's Facebook status updates vs. one's text messages (SMS)? In this study, we show how Facebook and SMS use differs in psycho-linguistic characteristics and how these differences drive downstream analyses with an illustration of depression diagnosis. We use a sample of consenting participants who shared Facebook status updates, SMS data, and answered a standard psychological depression screener. We quantify domain differences using psychologically driven lexical methods and find that language on Facebook involves more personal concerns, experiences, and content features while the language in SMS contains more informal and style features. Next, we estimate depression from both text domains, using a depression model trained on Facebook data, and find a drop in accuracy when predicting self-reported depression assessments from the SMS-based depression estimates. Finally, we evaluate a simple domain adaption correction based on words driving the cross-platform differences and applied it to the SMS-derived depression estimates, resulting in significant improvement in prediction. Our work shows the Facebook vs. SMS difference in language use and suggests the necessity of cross-domain adaption for text-based predictions.
翻訳日:2022-02-08 03:19:18 公開日:2022-02-03
# (参考訳) 視認情報付き点雲からの深部表層復元 [全文訳有]

Deep Surface Reconstruction from Point Clouds with Visibility Information ( http://arxiv.org/abs/2202.01810v1 )

ライセンス: CC BY 4.0
Raphael Sulzer, Loic Landrieu, Alexandre Boulch, Renaud Marlet, Bruno Vallet(参考訳) 点雲から表面を再構築する現在のニューラルネットワークは、センサーのポーズを無視し、生の地点でのみ動作する。 しかし、センサーの可視性は、空間占有率と表面配向に関する有意義な情報を保持する。 本稿では,視認性情報を用いて生点雲を補強する2つの簡単な方法を提案する。 提案手法は, 生成面の精度を向上するとともに, ネットワークの形状領域に対する一般化能力も向上する。 私たちのコードとデータはhttps://github.com/r aphaelsulzer/dsrv-da taで入手できます。

Most current neural networks for reconstructing surfaces from point clouds ignore sensor poses and only operate on raw point locations. Sensor visibility, however, holds meaningful information regarding space occupancy and surface orientation. In this paper, we present two simple ways to augment raw point clouds with visibility information, so it can directly be leveraged by surface reconstruction networks with minimal adaptation. Our proposed modifications consistently improve the accuracy of generated surfaces as well as the generalization ability of the networks to unseen shape domains. Our code and data is available at https://github.com/r aphaelsulzer/dsrv-da ta.
翻訳日:2022-02-08 03:09:53 公開日:2022-02-03
# (参考訳) SAFE-OCC:畳み込みニューラルネットワークセンサの新しい検出フレームワークとそのプロセス制御への応用

SAFE-OCC: A Novelty Detection Framework for Convolutional Neural Network Sensors and its Application in Process Control ( http://arxiv.org/abs/2202.01816v1 )

ライセンス: CC BY 4.0
Joshua L. Pulsipher, Luke D. J. Coutinho, Tyler A. Soderstrom, and Victor M. Zavala(参考訳) 本稿では,センサアクティベート特徴抽出ワンクラス分類(SAFE-OCC)と呼ばれる,畳み込みニューラルネットワーク(CNN)センサの新規検出フレームワークを提案する。 このフレームワークは,プロセス制御アーキテクチャにおけるコンピュータビジョンセンサの安全な利用を可能にする。 緊急制御アプリケーションはcnnモデルを使用して、コントローラが解釈可能な状態信号に視覚データをマッピングする。 このようなセンサを組み込むと、CNNセンサーが新しい(異常な)視覚データに晒されたときに高い予測誤差を示すため、システム操作の重大な脆弱性が発生する。 残念ながら、そのような新事実をリアルタイムで特定するのは簡単ではない。 この問題に対処するため、SAFE-OCCフレームワークはCNNの畳み込みブロックを活用し、所望の1クラス分類技術を用いて新規性検出を行う効果的な特徴空間を作成する。 このアプローチでは、cnnセンサーが使用する機能空間に直接対応し、独立した潜在空間を導出する必要がなくなる。 シミュレーション制御環境によるSAFE-OCCの有効性を示す。

We present a novelty detection framework for Convolutional Neural Network (CNN) sensors that we call Sensor-Activated Feature Extraction One-Class Classification (SAFE-OCC). We show that this framework enables the safe use of computer vision sensors in process control architectures. Emergent control applications use CNN models to map visual data to a state signal that can be interpreted by the controller. Incorporating such sensors introduces a significant system operation vulnerability because CNN sensors can exhibit high prediction errors when exposed to novel (abnormal) visual data. Unfortunately, identifying such novelties in real-time is nontrivial. To address this issue, the SAFE-OCC framework leverages the convolutional blocks of the CNN to create an effective feature space to conduct novelty detection using a desired one-class classification technique. This approach engenders a feature space that directly corresponds to that used by the CNN sensor and avoids the need to derive an independent latent space. We demonstrate the effectiveness of SAFE-OCC via simulated control environments.
翻訳日:2022-02-08 02:51:52 公開日:2022-02-03
# (参考訳) 逆ロバストモデルでは伝達が良くないかもしれない:正規化の観点からのドメイン転送容易条件

Adversarially Robust Models may not Transfer Better: Sufficient Conditions for Domain Transferability from the View of Regularization ( http://arxiv.org/abs/2202.01832v1 )

ライセンス: CC BY 4.0
Xiaojun Xu, Jacky Yibo Zhang, Evelyn Ma, Danny Son, Oluwasanmi Koyejo, Bo Li(参考訳) 機械学習(ML)の堅牢性とドメインの一般化は基本的に相関関係にある。 一方、最近の研究では、より堅牢な(逆向きに訓練された)モデルの方がより一般化可能であることが示されている。 一方で、それらの基本的な関係に関する理論的理解が欠如している。 本稿では,標準正規化やデータ拡張(DA)といった異なる要因を考慮した正規化とドメイン転送可能性の関係について検討する。 本稿では,モデル関数クラス正規化に関わる因子が相対的ドメイン転送可能性の十分条件であることを証明する一般的な理論的枠組みを提案する。 本分析は,「ロバスト性」は伝達性に必要でも十分でもないことを示し,むしろ,敵対的訓練によって引き起こされる頑健性は,そのような関数クラス正規化の副産物である。 次に、一般的なdaプロトコルを議論し、特定の条件下で関数クラス正規化と見なすことができるかを示し、それゆえ一般化を改善する。 我々は、我々の理論的な知見を検証し、ロバスト性と一般化が異なるデータセットに負の相関を持ついくつかの反例を示す。

Machine learning (ML) robustness and domain generalization are fundamentally correlated: they essentially concern data distribution shifts under adversarial and natural settings, respectively. On one hand, recent studies show that more robust (adversarially trained) models are more generalizable. On the other hand, there is a lack of theoretical understanding of their fundamental connections. In this paper, we explore the relationship between regularization and domain transferability considering different factors such as norm regularization and data augmentations (DA). We propose a general theoretical framework proving that factors involving the model function class regularization are sufficient conditions for relative domain transferability. Our analysis implies that "robustness" is neither necessary nor sufficient for transferability; rather, robustness induced by adversarial training is a by-product of such function class regularization. We then discuss popular DA protocols and show when they can be viewed as the function class regularization under certain conditions and therefore improve generalization. We conduct extensive experiments to verify our theoretical findings and show several counterexamples where robustness and generalization are negatively correlated on different datasets.
翻訳日:2022-02-08 02:49:44 公開日:2022-02-03
# (参考訳) 隠れた不均一性: 類似性に基づくキャリブレーションを選択する場合

Hidden Heterogeneity: When to Choose Similarity-Based Calibration ( http://arxiv.org/abs/2202.01840v1 )

ライセンス: CC BY 4.0
Kiri L. Wagstaff and Thomas G. Dietterich(参考訳) 信頼できる分類器は多くの現実世界で機械学習の予測を採用するのに不可欠である。 予測される結果の確率は、特に代替決定の期待値や悪い結果のリスクを評価する場合、高い評価の意思決定に影響を及ぼす可能性がある。 これらの決定は、最も可能性の高いクラスの正しい予測だけでなく、十分に校正された確率を必要とする。 ブラックボックス分類器校正手法は、再訓練を必要とせず、分類器出力の信頼性を向上させることができる。 しかし,これらの手法では,キャリブレーションによって予測精度が向上するサブポピュレーションを検出できない。 このようなサブ集団は、元の分類器が検出しなかったため、「隠れた不均一性」(HH)を示すと言われている。 本稿では,HHの定量的尺度を提案する。 また、各テスト項目に局所的に適応することでHHに対処できる類似度重み付けキャリブレーション法が2つ導入されている:SWCはテスト項目と類似度で設定されたキャリブレーションを重み付けし、SWC-HHは隠蔽ヘテロジニティを明示的に組み込んでキャリブレーションセットをフィルタリングする。 実験により,類似性に基づく校正手法による校正改善はhhの量と相関し,十分な校正データが与えられた場合,大域的手法による校正を概ね上回ることを示した。 したがって、HHは局所的な校正法が必要なときの識別に有用な診断ツールとなる。

Trustworthy classifiers are essential to the adoption of machine learning predictions in many real-world settings. The predicted probability of possible outcomes can inform high-stakes decision making, particularly when assessing the expected value of alternative decisions or the risk of bad outcomes. These decisions require well calibrated probabilities, not just the correct prediction of the most likely class. Black-box classifier calibration methods can improve the reliability of a classifier's output without requiring retraining. However, these methods are unable to detect subpopulations where calibration could improve prediction accuracy. Such subpopulations are said to exhibit "hidden heterogeneity" (HH), because the original classifier did not detect them. The paper proposes a quantitative measure for HH. It also introduces two similarity-weighted calibration methods that can address HH by adapting locally to each test item: SWC weights the calibration set by similarity to the test item, and SWC-HH explicitly incorporates hidden heterogeneity to filter the calibration set. Experiments show that the improvements in calibration achieved by similarity-based calibration methods correlate with the amount of HH present and, given sufficient calibration data, generally exceed calibration achieved by global methods. HH can therefore serve as a useful diagnostic tool for identifying when local calibration methods are needed.
翻訳日:2022-02-08 02:48:37 公開日:2022-02-03
# (参考訳) 隠れパラメータを持つ未知の力学系のモデリング [全文訳有]

Modeling unknown dynamical systems with hidden parameters ( http://arxiv.org/abs/2202.01858v1 )

ライセンス: CC BY 4.0
Xiaohan Fu, Weize Mao, Lo-Bin Chang, Dongbin Xiu(参考訳) 本稿では,未知の力学系を未知/隠れパラメータでモデル化するためのデータ駆動数値手法を提案する。 この方法は、その軌道データを用いて未知系のディープニューラルネットワーク(DNN)モデルをトレーニングすることに基づいている。 鍵となる特徴は、未知の力学系に完全に隠されたシステムパラメータが含まれており、パラメータに関する情報が計測軌跡データまたはシステムの事前の知識を通して入手できないことである。 十分な時間履歴を持つ軌道データを用いてDNNを訓練することにより、DNNモデルが未知の力学系を正確にモデル化できることを実証する。 新しい未知のシステムパラメータに関連する新しい初期条件に対して、DNNモデルはより長い時間にわたって正確なシステム予測を生成することができる。

We present a data-driven numerical approach for modeling unknown dynamical systems with missing/hidden parameters. The method is based on training a deep neural network (DNN) model for the unknown system using its trajectory data. A key feature is that the unknown dynamical system contains system parameters that are completely hidden, in the sense that no information about the parameters is available through either the measurement trajectory data or our prior knowledge of the system. We demonstrate that by training a DNN using the trajectory data with sufficient time history, the resulting DNN model can accurately model the unknown dynamical system. For new initial conditions associated with new, and unknown, system parameters, the DNN model can produce accurate system predictions over longer time.
翻訳日:2022-02-08 02:47:18 公開日:2022-02-03
# (参考訳) A.I.をベースとした医用画像用紙のベストプラクティスと検査システム:その1 分類 [全文訳有]

Best Practices and Scoring System on Reviewing A.I. based Medical Imaging Papers: Part 1 Classification ( http://arxiv.org/abs/2202.01863v1 )

ライセンス: CC BY 4.0
Timothy L. Kline, Felipe Kitamura, Ian Pan, Amine M. Korchi, Neil Tenenholtz, Linda Moy, Judy Wawira Gichoya, Igor Santos, Steven Blumer, Misha Ysabel Hwang, Kim-Ann Git, Abishek Shroff, Elad Walach, George Shih, Steve Langer(参考訳) 近年のai方法論の進歩と医用イメージングへの応用により、これらの技術を用いて最先端の分類性能を実現する関連研究プログラムが急増している。 最終的に、これらの研究プログラムは、ピアレビューされたジャーナルで検討するために彼らの研究の提出に結実した。 現在、受理と拒絶の基準はしばしば主観的であるが、再現可能な科学には再現可能なレビューが必要である。 SIIMの機械学習教育サブミッションは、これらの研究をレビューするためのガイドラインを確立するための知識ギャップと深刻な必要性を特定している。 この目標に関する最近の論文はいくつかあるが、本稿は機械学習の実践者の視点から書かれている。 このシリーズでは、委員会は、a.i.ベースの研究で従うべきベストプラクティスを取り上げ、研究の結束性、再現性、正確性、自己完結性を持たせるために何を含むべきかの例と議論の観点で必要なセクションを提示する。 このシリーズの最初のエントリは、画像分類のタスクに焦点を当てている。 データセットキュレーション、データ前処理ステップ、適切な参照標準の定義、データのパーティショニング、モデルアーキテクチャ、トレーニングなどの要素について議論する。 セクションは、典型的な写本で詳述されるように提示され、研究が出版のために考慮されるのに十分な品質であることを保証するために必要な情報を記載した内容である。 このシリーズの目的は、A.I.ベースの医療イメージング論文のレビュープロセスを改善するだけでなく、研究研究のすべてのコンポーネントで提示される情報の標準化を促進するためのリソースを提供することである。 定性的なレビュープロセスである可能性のあるものについて、定量的なメトリクスを提供したいと思っています。

With the recent advances in A.I. methodologies and their application to medical imaging, there has been an explosion of related research programs utilizing these techniques to produce state-of-the-art classification performance. Ultimately, these research programs culminate in submission of their work for consideration in peer reviewed journals. To date, the criteria for acceptance vs. rejection is often subjective; however, reproducible science requires reproducible review. The Machine Learning Education Sub-Committee of SIIM has identified a knowledge gap and a serious need to establish guidelines for reviewing these studies. Although there have been several recent papers with this goal, this present work is written from the machine learning practitioners standpoint. In this series, the committee will address the best practices to be followed in an A.I.-based study and present the required sections in terms of examples and discussion of what should be included to make the studies cohesive, reproducible, accurate, and self-contained. This first entry in the series focuses on the task of image classification. Elements such as dataset curation, data pre-processing steps, defining an appropriate reference standard, data partitioning, model architecture and training are discussed. The sections are presented as they would be detailed in a typical manuscript, with content describing the necessary information that should be included to make sure the study is of sufficient quality to be considered for publication. The goal of this series is to provide resources to not only help improve the review process for A.I.-based medical imaging papers, but to facilitate a standard for the information that is presented within all components of the research study. We hope to provide quantitative metrics in what otherwise may be a qualitative review process.
翻訳日:2022-02-08 02:33:18 公開日:2022-02-03
# (参考訳) hawkesプロセスモデリングのためのフレキシブルトリガーカーネル [全文訳有]

Flexible Triggering Kernels for Hawkes Process Modeling ( http://arxiv.org/abs/2202.01869v1 )

ライセンス: CC BY 4.0
Yamac Alican Isik, Connor Davis, Paidamoyo Chapfuwa, Ricardo Henao(参考訳) 最近提案されたホークスプロセスのモデリングのためのエンコーダ・デコーダ構造はトランスフォーマティブ・インスパイアされたアーキテクチャを使用しており、埋め込みと自己アテンション機構を通じてイベントの履歴をエンコードしている。 これらのモデルは、RNNベースのモデルよりも優れた予測と適合性を提供します。 しかし、それらはしばしば高い計算量とメモリの複雑さの要求を必要とし、時々基礎となるプロセスのトリガー関数を適切に捉えることができない。 そこで我々は,複合的(多層)アテンション構造を観測データのカーネルのトリガに置き換えることで,歴史的イベントシーケンスの効率的かつ汎用的なエンコーディングを提案する。 ポイントプロセスのトリガーカーネルとアテンションスコアの類似性に注目して、トリガーカーネルを使用して履歴表現の構築に使用される重みを置き換えます。 トリガー関数の見積もりは、通常の崩壊オーバータイムカーネルでは困難な局所的インタイムトリガー効果をキャプチャするシグモイドゲーティング機構を備える。 さらに、イベントタイプ表現と時間的埋め込みの両方を入力として、モデルは、イベントタイプのペアが与えられた時型カーネルパラメータをトリガーする基礎を学習する。 筆者らは,競合モデルで広く使用されている合成および実データセットについて実験を行い,さらにcovid-19データセットを用いて,縦方向共変量が存在するシナリオを示す。 提案手法は,計算複雑性の点で効率が良く,新たに導入されたカーネルを直接適用することで解釈可能な結果が得られる。

Recently proposed encoder-decoder structures for modeling Hawkes processes use transformer-inspired architectures, which encode the history of events via embeddings and self-attention mechanisms. These models deliver better prediction and goodness-of-fit than their RNN-based counterparts. However, they often require high computational and memory complexity requirements and sometimes fail to adequately capture the triggering function of the underlying process. So motivated, we introduce an efficient and general encoding of the historical event sequence by replacing the complex (multilayered) attention structures with triggering kernels of the observed data. Noting the similarity between the triggering kernels of a point process and the attention scores, we use a triggering kernel to replace the weights used to build history representations. Our estimate for the triggering function is equipped with a sigmoid gating mechanism that captures local-in-time triggering effects that are otherwise challenging with standard decaying-over-time kernels. Further, taking both event type representations and temporal embeddings as inputs, the model learns the underlying triggering type-time kernel parameters given pairs of event types. We present experiments on synthetic and real data sets widely used by competing models, while further including a COVID-19 dataset to illustrate a scenario where longitudinal covariates are available. Results show the proposed model outperforms existing approaches while being more efficient in terms of computational complexity and yielding interpretable results via direct application of the newly introduced kernel.
翻訳日:2022-02-08 02:22:48 公開日:2022-02-03
# (参考訳) 対話としての説明可能性再考--実践者の視点から [全文訳有]

Rethinking Explainability as a Dialogue: A Practitioner's Perspective ( http://arxiv.org/abs/2202.01875v1 )

ライセンス: CC BY 4.0
Himabindu Lakkaraju, Dylan Slack, Yuxin Chen, Chenhao Tan, Sameer Singh(参考訳) 実践者が医療、金融、政策といった重要な領域で機械学習モデルをますます展開するにつれて、ドメインの専門家がこれらのモデルと共に効果的に機能することが不可欠になる。 説明可能性とは、人間の意思決定者と機械学習モデルの間のギャップを埋める方法のひとつだ。 しかし、既存の説明可能性に関する作業のほとんどは、機能の重要さやルールリストのような静的な説明に焦点を当てている。 このような説明は、利害関係者から動的で継続的な発見を必要とする多くのユースケースでは不十分かもしれない。 文献では、既存の説明や今後の説明で見たいと思うデシダータの有用性について意思決定者に尋ねる作品はほとんどない。 本研究では, このギャップに対処し, 医師, 医療専門家, 政策立案者に対して, 説明を求めるニーズと欲求についてインタビューを行う。 本研究は,意思決定者が自然言語対話の形で対話的な説明を強く好むことを示す。 ドメインの専門家は、機械学習モデルを「別の同僚」として扱うことを望んでいる。 これらのニーズを考慮して,インタラクティブな説明を将来の作業の出発点として設計する際に,研究者が従うべき5つの原則を概説する。 さらに,自然言語対話がこれらの原則を満たし,対話的説明を構築する上で望ましい方法であることを示す。 次に,システム構築のリスク,トレードオフ,研究機会について説明し,議論するための対話システムの設計を提案する。 全体として、我々の研究が、研究者やエンジニアがインタラクティブな説明可能性システムを設計するための出発点になることを願っています。

As practitioners increasingly deploy machine learning models in critical domains such as health care, finance, and policy, it becomes vital to ensure that domain experts function effectively alongside these models. Explainability is one way to bridge the gap between human decision-makers and machine learning models. However, most of the existing work on explainability focuses on one-off, static explanations like feature importances or rule lists. These sorts of explanations may not be sufficient for many use cases that require dynamic, continuous discovery from stakeholders. In the literature, few works ask decision-makers about the utility of existing explanations and other desiderata they would like to see in an explanation going forward. In this work, we address this gap and carry out a study where we interview doctors, healthcare professionals, and policymakers about their needs and desires for explanations. Our study indicates that decision-makers would strongly prefer interactive explanations in the form of natural language dialogues. Domain experts wish to treat machine learning models as "another colleague", i.e., one who can be held accountable by asking why they made a particular decision through expressive and accessible natural language interactions. Considering these needs, we outline a set of five principles researchers should follow when designing interactive explanations as a starting place for future work. Further, we show why natural language dialogues satisfy these principles and are a desirable way to build interactive explanations. Next, we provide a design of a dialogue system for explainability and discuss the risks, trade-offs, and research opportunities of building these systems. Overall, we hope our work serves as a starting place for researchers and engineers to design interactive explainability systems.
翻訳日:2022-02-08 02:08:02 公開日:2022-02-03
# (参考訳) 制約空間におけるリーマン・ハミルトン・モンテカルロのサンプリング

Sampling with Riemannian Hamiltonian Monte Carlo in a Constrained Space ( http://arxiv.org/abs/2202.01908v1 )

ライセンス: CC BY 4.0
Yunbum Kook, Yin Tat Lee, Ruoqi Shen, Santosh S. Vempala(参考訳) 私たちは初めて、非常に高次元で、10万以上の制約付き分布を効率的に$\textit{in practice}$でサンプリングできることを示しました。 我々のアルゴリズムは制約をハミルトニアンモンテカルロのリーマン版に組み込み、空間性を維持する。 これにより、滑らかさと条件数によらない混合率を達成することができる。 システム生物学および線形プログラミングにおけるベンチマークデータセットにおいて、我々のアルゴリズムは既存のパッケージを桁違いに上回っている。 特に,最大のヒト代謝ネットワーク (RECON3D) からのサンプリングにおいて,1000倍の高速化を実現する。 私たちのパッケージはCOBRAツールボックスに組み込まれました。

We demonstrate for the first time that ill-conditioned, non-smooth, constrained distributions in very high dimension, upwards of 100,000, can be sampled efficiently $\textit{in practice}$. Our algorithm incorporates constraints into the Riemannian version of Hamiltonian Monte Carlo and maintains sparsity. This allows us to achieve a mixing rate independent of smoothness and condition numbers. On benchmark data sets in systems biology and linear programming, our algorithm outperforms existing packages by orders of magnitude. In particular, we achieve a 1,000-fold speed-up for sampling from the largest published human metabolic network (RECON3D). Our package has been incorporated into the COBRA toolbox.
翻訳日:2022-02-08 01:42:51 公開日:2022-02-03
# 音声認識のためのランダム投影量子化器を用いた自己教師あり学習

Self-supervised Learning with Random-projection Quantizer for Speech Recognition ( http://arxiv.org/abs/2202.01855v1 )

ライセンス: Link先を確認
Chung-Cheng Chiu, James Qin, Yu Zhang, Jiahui Yu, Yonghui Wu(参考訳) 音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。 提案手法は,ランダム投影量化器で生成された離散ラベルを用いて,マスキング音声信号の予測モデルを学習する。 特に量子化器は、ランダムに初期化されたマトリクスで音声入力を投影し、ランダムに初期化されたコードブックで最寄りのneighborルックアップを行う。 マトリックスもコードブックも自己教師型学習では更新されない。 ランダム投影量子化器は訓練されず、音声認識モデルから分離されているため、この設計はアプローチを柔軟にし、普遍音声認識アーキテクチャと互換性がある。 LibriSpeechでは,従来の非ストリーミングモデルを用いた自己教師型学習と同様の単語エラー率を実現し,ストリーミングモデルを用いたwav2vec 2.0やw2v-BERTよりも低い単語エラー率とレイテンシを提供する。 多言語タスクにおいて、このアプローチはwav2vec 2.0とw2v-bertを大きく改善する。

We present a simple and effective self-supervised learning approach for speech recognition. The approach learns a model to predict the masked speech signals, in the form of discrete labels generated with a random-projection quantizer. In particular the quantizer projects speech inputs with a randomly initialized matrix, and does a nearest-neighbor lookup in a randomly-initialized codebook. Neither the matrix nor the codebook is updated during self-supervised learning. Since the random-projection quantizer is not trained and is separated from the speech recognition model, the design makes the approach flexible and is compatible with universal speech recognition architecture. On LibriSpeech our approach achieves similar word-error-rates as previous work using self-supervised learning with non-streaming models, and provides lower word-error-rates and latency than wav2vec 2.0 and w2v-BERT with streaming models. On multilingual tasks the approach also provides significant improvement over wav2vec 2.0 and w2v-BERT.
翻訳日:2022-02-07 16:12:53 公開日:2022-02-03
# デンマークのairs and grounds: 空中から路上への位置認識と位置推定のためのデータセット

Danish Airs and Grounds: A Dataset for Aerial-to-Street-Lev el Place Recognition and Localization ( http://arxiv.org/abs/2202.01821v1 )

ライセンス: Link先を確認
Andrea Vallone, Frederik Warburg, Hans Hansen, S{\o}ren Hauberg and Javier Civera(参考訳) 位置認識と視覚的ローカライゼーションは、幅広いベースライン構成において特に困難である。 本稿では,これらの事例を対象とする街路画像と航空画像の大規模な収集である<emph{Danish Airs and Grounds} (DAG) データセットに貢献する。 その主な課題は、照度と視点の変化によるクエリと参照イメージの極端な視角差である。 データセットは、都市部、郊外部、農村部で50km以上の道路を含む、現在利用可能なデータよりも大きく、多様である。 すべての画像は正確な6-dofメタデータに関連付けられ、視覚的ローカライゼーションメソッドのベンチマークを可能にする。 また,地図から画像への再局在化パイプラインを提案し,まず空中画像から高密度な3d再構成を推定し,クエリーのストリートレベル画像と3dモデルのストリートレベルレンダリングとをマッチングする。 データセットは、https://frederikwarb urg.github.io/DAGでダウンロードできる。

Place recognition and visual localization are particularly challenging in wide baseline configurations. In this paper, we contribute with the \emph{Danish Airs and Grounds} (DAG) dataset, a large collection of street-level and aerial images targeting such cases. Its main challenge lies in the extreme viewing-angle difference between query and reference images with consequent changes in illumination and perspective. The dataset is larger and more diverse than current publicly available data, including more than 50 km of road in urban, suburban and rural areas. All images are associated with accurate 6-DoF metadata that allows the benchmarking of visual localization methods. We also propose a map-to-image re-localization pipeline, that first estimates a dense 3D reconstruction from the aerial images and then matches query street-level images to street-level renderings of the 3D model. The dataset can be downloaded at: https://frederikwarb urg.github.io/DAG
翻訳日:2022-02-07 16:12:36 公開日:2022-02-03
# 視覚変換器を用いた深部アンカー注意学習による脳腫瘍生存予測

Brain Cancer Survival Prediction on Treatment-na ive MRI using Deep Anchor Attention Learning with Vision Transformer ( http://arxiv.org/abs/2202.01857v1 )

ライセンス: Link先を確認
Xuan Xu, Prateek Prasanna(参考訳) 画像に基づく脳腫瘍予測モデルは、放射能に基づいて、磁気共鳴画像(MRI)から放射能表現型を定量化する。 しかし、これらの機能は、取得および前処理パイプラインのばらつきのため、再現が難しい。 腫瘍内表現型不均一性の証拠にもかかわらず、MRIスキャンにおける異なるスライス間の空間的多様性は、そのような方法では比較的研究されていない。 本研究では,脳がん患者の生存リスクを予測するため,視覚トランスフォーマーを用いた深いアンカー注意集約戦略を提案する。 訓練可能な距離測定によるスライスレベルの表現に異なる重みを割り当てるために、ディープアンカー注意学習(DAAL)アルゴリズムを提案する。 n = 326 mriを用いた評価を行った。 その結果,複数の事例学習技術に優れていた。 daalは重要なスライスの重要性を強調し、スライス間空間の多様性が疾患の重症度を反映し、結果に関係しているという臨床的直観を裏付ける。

Image-based brain cancer prediction models, based on radiomics, quantify the radiologic phenotype from magnetic resonance imaging (MRI). However, these features are difficult to reproduce because of variability in acquisition and preprocessing pipelines. Despite evidence of intra-tumor phenotypic heterogeneity, the spatial diversity between different slices within an MRI scan has been relatively unexplored using such methods. In this work, we propose a deep anchor attention aggregation strategy with a Vision Transformer to predict survival risk for brain cancer patients. A Deep Anchor Attention Learning (DAAL) algorithm is proposed to assign different weights to slice-level representations with trainable distance measurements. We evaluated our method on N = 326 MRIs. Our results outperformed attention multiple instance learning-based techniques. DAAL highlights the importance of critical slices and corroborates the clinical intuition that inter-slice spatial diversity can reflect disease severity and is implicated in outcome.
翻訳日:2022-02-07 16:12:21 公開日:2022-02-03
# 深層ニューラルネットワークによるリスクセグメンテーションにおける臓器強化

Enhancing Organ at Risk Segmentation with Improved Deep Neural Networks ( http://arxiv.org/abs/2202.01866v1 )

ライセンス: Link先を確認
Ilkin Isler, Curtis Lisle, Justin Rineer, Patrick Kelly, Damla Turgut, Jacob Ricci, Ulas Bagci(参考訳) がん患者に対する放射線治療における治療計画と治療成績決定のためのOARセグメンテーションは重要なステップである。 近年、いくつかのディープラーニングに基づくセグメンテーションアルゴリズムが開発されているが、U-Netはバイオメディカル画像セグメンテーションに特化したデファクトアルゴリズムであり、既知の弱点を持つ多くの変種を生み出している。 本研究の目的は,u-netのアーキテクチャ上の簡単な変更を提示し,その精度と一般化性を改善することである。 単一中心データ上でアルゴリズムを評価する他の多くの研究とは異なり、我々はOARセグメンテーション問題に関する広範囲かつ信頼性の高い研究のために、複数のデータセット上の拡張アーキテクチャと同様に、U-Netの様々なバリエーションを徹底的に評価する。 拡張セグメンテーションモデルには (a)損失関数の構造的変化 (b)最適化フレームワーク、及び (c)畳み込み型。 公開されている3つのマルチオブジェクトセグメンテーションデータセットを用いて、ベースラインのU-Net性能の63%と比較して平均80%のダイススコアを得た。

Organ at risk (OAR) segmentation is a crucial step for treatment planning and outcome determination in radiotherapy treatments of cancer patients. Several deep learning based segmentation algorithms have been developed in recent years, however, U-Net remains the de facto algorithm designed specifically for biomedical image segmentation and has spawned many variants with known weaknesses. In this study, our goal is to present simple architectural changes in U-Net to improve its accuracy and generalization properties. Unlike many other available studies evaluating their algorithms on single center data, we thoroughly evaluate several variations of U-Net as well as our proposed enhanced architecture on multiple data sets for an extensive and reliable study of the OAR segmentation problem. Our enhanced segmentation model includes (a)architectural changes in the loss function, (b)optimization framework, and (c)convolution type. Testing on three publicly available multi-object segmentation data sets, we achieved an average of 80% dice score compared to the baseline U-Net performance of 63%.
翻訳日:2022-02-07 16:12:05 公開日:2022-02-03
# 胃癌のMSIおよびMSS分類のためのResNetモデルの改良

Modified ResNet Model for MSI and MSS Classification of Gastrointestinal Cancer ( http://arxiv.org/abs/2202.01905v1 )

ライセンス: Link先を確認
CH Sai Venkatesh, Caleb Meriga, M.G.V.L Geethika, T Lakshmi Gayatri, V.B.K.L Aruna(参考訳) 本研究では,消化器癌のマイクロサテライト不安定性(MSI)とマイクロサテライト安定性(MSS)の分類に改良されたResNetモデルを提案する。 このモデルの性能を解析し,既存モデルと比較する。 提案モデルは0.8981点,f1点0.9178点の精度で既存モデルを上回った。

In this work, a modified ResNet model is proposed for the classification of Microsatellite instability(MSI) and Microsatellite stability(MSS) of gastrointestinal cancer. The performance of this model is analyzed and compared with existing models. The proposed model surpassed the existing models with an accuracy of 0.8981 and F1 score of 0.9178.
翻訳日:2022-02-07 16:11:46 公開日:2022-02-03
# さらに単純な決定論的マトリックススケッチ

Even Simpler Deterministic Matrix Sketching ( http://arxiv.org/abs/2202.01780v1 )

ライセンス: Link先を確認
Edo Liberty(参考訳) 本稿では,行列のストリームをスケッチするために,頻出方向の1行証明(fd)を提供する。 より単純な証明は、ストリーム自体よりも行列のストリームの共分散をスケッチすることから生じる。

This paper provides a one-line proof of Frequent Directions (FD) for sketching streams of matrices. The simpler proof arises from sketching the covariance of the stream of matrices rather than the stream itself.
翻訳日:2022-02-07 16:09:40 公開日:2022-02-03
# タスク整合性損失による実世界の実践的模倣学習

Practical Imitation Learning in the Real World via Task Consistency Loss ( http://arxiv.org/abs/2202.01862v1 )

ライセンス: Link先を確認
Mohi Khansari and Daniel Ho and Yuqing Du and Armando Fuentes and Matthew Bennice and Nicolas Sievers and Sean Kirmani and Yunfei Bai and Eric Jang(参考訳) ロボット工学における視覚的エンドツーエンド学習の最近の研究は、様々なタスクにおける模倣学習の約束を示している。 このようなアプローチは、大量の実世界のトレーニングデモを必要とすることと、現実世界にデプロイする最良のモデルを特定するには、実世界の評価に時間を要するため、高価である。 これらの課題はシミュレーションによって軽減することができる: 実世界のデータをシミュレーションされたデモで補完し、高いパフォーマンスポリシーを特定するためにシミュレーション評価を使用すること。 しかし、これはよく知られた「現実のギャップ」の問題を導入し、シミュレータの不正確さが現実とシミュレーションのパフォーマンスを分離する。 本稿では,GANに基づくドメイン適応における先行作業の上に構築し,機能レベルと行動予測レベルの両方においてシミュレーションと実際のアライメントを促進する自己監督型損失であるタスク一貫性損失(TCL)の概念を導入する。 移動マニピュレータにドアに自律的に近づき、ハンドルを回してドアを開け、部屋に入るように教えることで、我々のアプローチの有効性を実証する。 このポリシーはRGBと深度画像から制御を行い、トレーニングデータに遭遇しないドアに一般化する。 我々は、シミュレートとリアルで遠隔操作されたデモをわずか16.2時間で10のシーンで80%の成功を達成した。 私たちの知る限りでは、ナビゲーションと操作のタスクは単一のニューラルネットワークによって共同でモデル化される純粋にエンドツーエンドの学習アプローチから、ラッチされたドアの開口に対処する最初の試みである。

Recent work in visual end-to-end learning for robotics has shown the promise of imitation learning across a variety of tasks. Such approaches are expensive both because they require large amounts of real world training demonstrations and because identifying the best model to deploy in the real world requires time-consuming real-world evaluations. These challenges can be mitigated by simulation: by supplementing real world data with simulated demonstrations and using simulated evaluations to identify high performing policies. However, this introduces the well-known "reality gap" problem, where simulator inaccuracies decorrelate performance in simulation from that of reality. In this paper, we build on top of prior work in GAN-based domain adaptation and introduce the notion of a Task Consistency Loss (TCL), a self-supervised loss that encourages sim and real alignment both at the feature and action-prediction levels. We demonstrate the effectiveness of our approach by teaching a mobile manipulator to autonomously approach a door, turn the handle to open the door, and enter the room. The policy performs control from RGB and depth images and generalizes to doors not encountered in training data. We achieve 80% success across ten seen and unseen scenes using only ~16.2 hours of teleoperated demonstrations in sim and real. To the best of our knowledge, this is the first work to tackle latched door opening from a purely end-to-end learning approach, where the task of navigation and manipulation are jointly modeled by a single neural network.
翻訳日:2022-02-07 16:09:36 公開日:2022-02-03
# ロバストなオーディオ異常検出

Robust Audio Anomaly Detection ( http://arxiv.org/abs/2202.01784v1 )

ライセンス: Link先を確認
Wo Jae Lee, Karim Helwani, Arvindh Krishnaswamy, Srikanth Tenneti(参考訳) 雑音の多い学習データに基づいて,これまで見られなかった異常な音を検出するために,外向き頑健な多変量時系列モデルを提案する。 提案したアプローチでは、トレーニングデータセットにラベル付き異常の存在を前提とせず、新しいディープニューラルネットワークアーキテクチャを使用して、トレーニングデータセットの汚染に対して堅牢でありながら、多変量時系列の時間的ダイナミクスを複数の解像度で学習する。 時間力学は、注意機構を付加した繰り返し層を用いてモデル化される。 これらのリカレント層は畳み込み層の上に構築され、ネットワークは複数の解像度で特徴を抽出することができる。 ネットワークの出力は、時系列履歴を与えられた将来のサンプルの条件付き確率をモデル化する外れ値ロバストな確率密度関数である。 他のマルチレゾリューションアーキテクチャを用いた最先端のアプローチは,提案手法とは対照的である。 利用可能な機械音響データセットを用いて,我々のソリューションを検証する。 いくつかの最先端モデルと比較することにより,異常検出におけるアプローチの有効性を示す。

We propose an outlier robust multivariate time series model which can be used for detecting previously unseen anomalous sounds based on noisy training data. The presented approach doesn't assume the presence of labeled anomalies in the training dataset and uses a novel deep neural network architecture to learn the temporal dynamics of the multivariate time series at multiple resolutions while being robust to contaminations in the training dataset. The temporal dynamics are modeled using recurrent layers augmented with attention mechanism. These recurrent layers are built on top of convolutional layers allowing the network to extract features at multiple resolutions. The output of the network is an outlier robust probability density function modeling the conditional probability of future samples given the time series history. State-of-the-art approaches using other multiresolution architectures are contrasted with our proposed approach. We validate our solution using publicly available machine sound datasets. We demonstrate the effectiveness of our approach in anomaly detection by comparing against several state-of-the-art models.
翻訳日:2022-02-07 16:03:02 公開日:2022-02-03
# 最適勧告のための学習者からの学習

Learning from a Learning User for Optimal Recommendations ( http://arxiv.org/abs/2202.01879v1 )

ライセンス: Link先を確認
Fan Yao, Chuanhao Li, Denis Nekipelov, Hongning Wang and Haifeng Xu(参考訳) 現実世界のレコメンデーション問題、特に非常に大きなアイテムスペースを持つ場合には、ユーザーは、以前消費されたアイテムに関する経験から、新しいレコメンデーションの効用を徐々に見積もる必要がある。 これはシステムとのインタラクションのダイナミクスに影響を与え、全能的なユーザの仮定に基づいて構築された以前のアルゴリズムを無効にすることができる。 本稿では,このような"学習ユーザ"をキャプチャするモデルを定式化し,ノイズロバストアクティブ楕円型探索(raes)という効率的なシステム側学習ソリューションを設計し,非定常フィードバックによる課題に対処した。 興味深いことに,ユーザ学習の収束率が悪化するにつれて,ユーザの学習が収束しない場合の線形後悔に達するまで,raesの後悔は優雅に低下する。 このような同時学習問題に対するRAESの強度を示す合成データセットの実験を行った。 本研究は,レコメンデーション問題におけるフィードバックループのモデル化に関する新しい視点を提供する。

In real-world recommendation problems, especially those with a formidably large item space, users have to gradually learn to estimate the utility of any fresh recommendations from their experience about previously consumed items. This in turn affects their interaction dynamics with the system and can invalidate previous algorithms built on the omniscient user assumption. In this paper, we formalize a model to capture such "learning users" and design an efficient system-side learning solution, coined Noise-Robust Active Ellipsoid Search (RAES), to confront the challenges brought by the non-stationary feedback from such a learning user. Interestingly, we prove that the regret of RAES deteriorates gracefully as the convergence rate of user learning becomes worse, until reaching linear regret when the user's learning fails to converge. Experiments on synthetic datasets demonstrate the strength of RAES for such a contemporaneous system-user learning problem. Our study provides a novel perspective on modeling the feedback loop in recommendation problems.
翻訳日:2022-02-07 16:02:48 公開日:2022-02-03
# クロスドメイン仮想ネットワーク埋め込みに基づく無線ネットワークの多目的資源最適化

Multi Objective Resource Optimization of Wireless Network Based on Cross Domain Virtual Network Embedding ( http://arxiv.org/abs/2202.02139v1 )

ライセンス: Link先を確認
Chao Wang, Tao Dong, Youxiang Duan, Qifeng Sun, and Peiying Zhang(参考訳) 仮想ネットワークアーキテクチャの急速な発展により、無線ネットワークを広く利用できるようになった。 日常生活における人工知能(AI)産業の普及に伴い、無線ネットワークの効率的な資源配分が問題となっている。 特に、ネットワークユーザーが異なる管理領域から無線ネットワークリソースを要求する場合、多くの実践的な問題に直面している。 仮想ネットワーク埋め込み(VNE)の観点から,無線ネットワークリソース割り当てのための多目的最適化VNEアルゴリズムの設計と実装を行う。 仮想ネットワークにおけるリソース割り当ては、仮想ネットワーク要求(VNR)の基盤となるリソースを割り当てる問題である。 提案した目的式によると、最適化マッピングコスト、ネットワーク遅延、VNR受け入れ率について検討する。 VNEはノードマッピングとリンクマッピングによって完了する。 実験とシミュレーションの段階では他のVNEアルゴリズムと比較し,本論文で提案したクロスドメインVNEアルゴリズムは上記の3つの指標において最適である。 これは無線ネットワークリソース割り当てにおけるアルゴリズムの有効性を示す。

The rapid development of virtual network architecture makes it possible for wireless network to be widely used. With the popularity of artificial intelligence (AI) industry in daily life, efficient resource allocation of wireless network has become a problem. Especially when network users request wireless network resources from different management domains, they still face many practical problems. From the perspective of virtual network embedding (VNE), this paper designs and implements a multi-objective optimization VNE algorithm for wireless network resource allocation. Resource allocation in virtual network is essentially a problem of allocating underlying resources for virtual network requests (VNRs). According to the proposed objective formula, we consider the optimization mapping cost, network delay and VNR acceptance rate. VNE is completed by node mapping and link mapping. In the experiment and simulation stage, it is compared with other VNE algorithms, the cross domain VNE algorithm proposed in this paper is optimal in the above three indicators. This shows the effectiveness of the algorithm in wireless network resource allocation.
翻訳日:2022-02-07 15:30:10 公開日:2022-02-03
# グラフ畳み込みニューラルネットワークと強化学習に基づく動的仮想ネットワーク埋め込みアルゴリズム

Dynamic Virtual Network Embedding Algorithm based on Graph Convolution Neural Network and Reinforcement Learning ( http://arxiv.org/abs/2202.02140v1 )

ライセンス: Link先を確認
Peiying Zhang, Chao Wang, Neeraj Kumar, Weishan Zhang, and Lei Liu(参考訳) ネットワーク仮想化(nv)は、幅広いアプリケーションの展望を持つ技術である。 VNE(Virtual Network Embedding)は,ユーザ関数要求に対して,よりフレキシブルな物理リソースアロケーションを提供することを目的とした,VNの中核的な指向性である。 古典的なvne問題は通常ヒューリスティックな方法で解くが、この手法はしばしばアルゴリズムの柔軟性を制限し、時間制限を無視する。 さらに、物理領域の分割自律性と仮想ネットワーク要求(VNR)の動的特性により、VNEの難易度も増大する。 本稿では、強化学習(RL)とグラフニューラルネットワーク(GNN)理論をアルゴリズム、特にグラフ畳み込みニューラルネットワーク(GCNN)とRLアルゴリズムの組み合わせに適用した新しいタイプのVNEアルゴリズムを提案する。 自己定義された適合行列と適合値に基づき,アルゴリズム実装の目的関数を設定し,効率的な動的vneアルゴリズムを実現し,資源断片化の程度を効果的に低減した。 最後に,提案手法の評価に比較アルゴリズムを用いた。 シミュレーション実験により、RLとGCNNに基づく動的VNEアルゴリズムは、優れた基本VNE特性を有することが示された。 物理ネットワークと仮想ネットワークのリソース属性を変更することで、アルゴリズムの柔軟性が良いことが証明できる。

Network virtualization (NV) is a technology with broad application prospects. Virtual network embedding (VNE) is the core orientation of VN, which aims to provide more flexible underlying physical resource allocation for user function requests. The classical VNE problem is usually solved by heuristic method, but this method often limits the flexibility of the algorithm and ignores the time limit. In addition, the partition autonomy of physical domain and the dynamic characteristics of virtual network request (VNR) also increase the difficulty of VNE. This paper proposed a new type of VNE algorithm, which applied reinforcement learning (RL) and graph neural network (GNN) theory to the algorithm, especially the combination of graph convolutional neural network (GCNN) and RL algorithm. Based on a self-defined fitness matrix and fitness value, we set up the objective function of the algorithm implementation, realized an efficient dynamic VNE algorithm, and effectively reduced the degree of resource fragmentation. Finally, we used comparison algorithms to evaluate the proposed method. Simulation experiments verified that the dynamic VNE algorithm based on RL and GCNN has good basic VNE characteristics. By changing the resource attributes of physical network and virtual network, it can be proved that the algorithm has good flexibility.
翻訳日:2022-02-07 15:29:52 公開日:2022-02-03
# トランスポートスコアクライミング:前向きKLと適応型ニューラルトランスポートを用いた変分推論

Transport Score Climbing: Variational Inference using Forward KL and Adaptive Neural Transport ( http://arxiv.org/abs/2202.01841v1 )

ライセンス: Link先を確認
Liyi Zhang (1), Christian A. Naesseth (2), David M. Blei (1) ((1) Columbia University, (2) University of Amsterdam)(参考訳) 変分推論はしばしば、近似分布 q から後 p への「逆」クルベック・リーバー (KL) KL(q||p) を最小化する。 最近の研究は、逆KLとは異なり「前方」KL KL(p||q)は不確実性を過小評価する変動近似を導かない。 本稿では,ハミルトニアンモンテカルロ(HMC)と新しい適応トランスポートマップを用いて,KL(p||q)を最適化するトランスポートスコアクライミング(TSC)を提案する。 トランスポートマップは、潜在変数空間と歪んだ空間の間の変数の変化として作用することで、HMCの軌道を改善する。 TSCはHMCサンプルを使用してKL(p||q)を最適化しながら輸送マップを動的に訓練する。 TSCはシナジーを活用し、より良い輸送マップはより良いHMCサンプリングをもたらし、より良い輸送マップをもたらす。 合成および実データ上でのTSCの実証を行った。 大規模データを用いた変分オートエンコーダの訓練において,TSCは競争性能が向上することがわかった。

Variational inference often minimizes the "reverse" Kullbeck-Leibler (KL) KL(q||p) from the approximate distribution q to the posterior p. Recent work studies the "forward" KL KL(p||q), which unlike reverse KL does not lead to variational approximations that underestimate uncertainty. This paper introduces Transport Score Climbing (TSC), a method that optimizes KL(p||q) by using Hamiltonian Monte Carlo (HMC) and a novel adaptive transport map. The transport map improves the trajectory of HMC by acting as a change of variable between the latent variable space and a warped space. TSC uses HMC samples to dynamically train the transport map while optimizing KL(p||q). TSC leverages synergies, where better transport maps lead to better HMC sampling, which then leads to better transport maps. We demonstrate TSC on synthetic and real data. We find that TSC achieves competitive performance when training variational autoencoders on large-scale data.
翻訳日:2022-02-07 15:11:40 公開日:2022-02-03
# 独立機器の活用:識別と流通の一般化

Exploiting Independent Instruments: Identification and Distribution Generalization ( http://arxiv.org/abs/2202.01864v1 )

ライセンス: Link先を確認
Sorawit Saengkyongam, Leonard Henckel, Niklas Pfister, and Jonas Peters(参考訳) 機器変数モデルにより、観測されていない共変量 X と応答 Y の間の因果関数を特定できる。 既存の推定者の多くは、応答 Y と隠れた共同創設者の誤り項は、楽器 Z とは無関係であると仮定している。 しかし、独立状態をとることは、より強い識別可能性の結果をもたらす。 我々は,既存の計量学文献に接続し,任意の勾配に基づく学習手順と組み合わせることができる独立性を活用した実践的手法を提供する。 特定可能な設定であっても、より高いモーメントを考慮に入れれば、より優れた有限サンプル結果が得られる。 さらに,流通の一般化に独立性を利用する。 提案した推定器は, 楽器の分布シフトに不変であり, これらのシフトが十分に強い場合, 最悪の場合最適であることを示す。 これらの結果は、機器が十分に豊かで因果関数を識別できない未確認のケースでも成り立つ。

Instrumental variable models allow us to identify a causal function between covariates X and a response Y, even in the presence of unobserved confounding. Most of the existing estimators assume that the error term in the response Y and the hidden confounders are uncorrelated with the instruments Z. This is often motivated by a graphical separation, an argument that also justifies independence. Posing an independence condition, however, leads to strictly stronger identifiability results. We connect to existing literature in econometrics and provide a practical method for exploiting independence that can be combined with any gradient-based learning procedure. We see that even in identifiable settings, taking into account higher moments may yield better finite sample results. Furthermore, we exploit the independence for distribution generalization. We prove that the proposed estimator is invariant to distributional shifts on the instruments and worst-case optimal whenever these shifts are sufficiently strong. These results hold even in the under-identified case where the instruments are not sufficiently rich to identify the causal function.
翻訳日:2022-02-07 15:11:22 公開日:2022-02-03
# 医療におけるアルゴリズム的公平性のための純利益、校正、閾値選択、訓練目標

Net benefit, calibration, threshold selection, and training objectives for algorithmic fairness in healthcare ( http://arxiv.org/abs/2202.01906v1 )

ライセンス: Link先を確認
Stephen R. Pfohl, Yizhe Xu, Agata Foryciarz, Nikolaos Ignatiadis, Julian Genkins, Nigam H. Shah(参考訳) 拡大する仕事の体系は、アルゴリズム的公平性のパラダイムを用いて、モデル誘導意思決定の使用から続く可能性のある健康不平等の導入や悪化を予測し、積極的に緩和するテクニックの開発を枠組にしている。 医療における予測モデルの開発と評価のためのアルゴリズム的公平原則の運用に関する実践的勧告を提供するために,モデル性能,公平性,および意思決定の期待される効用間の相互作用を評価した。 動脈硬化性心血管疾患(atherosclerotic cardiovascular disease)の10年間のリスクを,臨床ガイドラインに従ってスタチンの発症を知らせるモデルの開発を通じて経験的な症例研究を行う。 モデルトレーニング目標に公平性を考慮したアプローチは,通常,モデル性能の向上や,研究対象のどの患者に対しても,標準学習パラダイムの活用,患者の嗜好と一致したしきい値選択,介入効果の証拠,モデルキャリブレーションと比較して,大きな利益をもたらすものではない。 これらの結果は, 真偽正誤率などのモデル性能指標の違いの有無にかかわらず, 患者集団間で測定結果が差分測定誤差の対象にならず, しきい値選択が制約されない場合に有効である。 本研究は, 患者全員に良い結果を予測できる校正モデルの開発に焦点をあてるとともに, 透明な報告, 参加型設計, 文脈におけるモデルインフォームド介入の影響についての推論に相補的であることを強調する。

A growing body of work uses the paradigm of algorithmic fairness to frame the development of techniques to anticipate and proactively mitigate the introduction or exacerbation of health inequities that may follow from the use of model-guided decision-making. We evaluate the interplay between measures of model performance, fairness, and the expected utility of decision-making to offer practical recommendations for the operationalization of algorithmic fairness principles for the development and evaluation of predictive models in healthcare. We conduct an empirical case-study via development of models to estimate the ten-year risk of atherosclerotic cardiovascular disease to inform statin initiation in accordance with clinical practice guidelines. We demonstrate that approaches that incorporate fairness considerations into the model training objective typically do not improve model performance or confer greater net benefit for any of the studied patient populations compared to the use of standard learning paradigms followed by threshold selection concordant with patient preferences, evidence of intervention effectiveness, and model calibration. These results hold when the measured outcomes are not subject to differential measurement error across patient populations and threshold selection is unconstrained, regardless of whether differences in model performance metrics, such as in true and false positive error rates, are present. In closing, we argue for focusing model development efforts on developing calibrated models that predict outcomes well for all patient populations while emphasizing that such efforts are complementary to transparent reporting, participatory design, and reasoning about the impact of model-informed interventions in context.
翻訳日:2022-02-07 15:11:06 公開日:2022-02-03
# 口腔癌の検出と解釈: 深層多段階学習と従来の深層単段階学習

Oral cancer detection and interpretation: Deep multiple instance learning versus conventional deep single instance learning ( http://arxiv.org/abs/2202.01783v1 )

ライセンス: Link先を確認
Nadezhda Koriakina, Nata\v{s}a Sladoje, Vladimir Ba\v{s}i\'c and Joakim Lindblad(参考訳) 口腔癌(OC)を診断するための現在の医療基準は、口腔からの組織サンプルの組織学的検査である。 このプロセスは、ブラシサンプルを取得して細胞学的解析を行う方法よりも時間がかかり、より侵襲的である。 熟練細胞技術者は悪性度による変化を検出することができるが、このアプローチを臨床ルーチンに導入することは、専門家の欠如や労働集約的な作業といった課題と関連している。 細胞工学者を支援する信頼性の高いoc検出システムを設計するために,我々は,患者毎のラベルのみを与えられた癌を確実に検出する(アノテーションバイアスを最小化する)aiベースの手法に関心を持ち,診断に最も関係のある細胞(監督と理解)に関する情報を提供する。 そこで本研究では,従来の単一インスタンス学習(sil)手法と,oc検出と解釈に適した現代マルチインスタンス学習(mil)法を比較し,3つの異なるニューラルネットワークアーキテクチャを用いた。 提案手法の体系的評価を容易にするため,OCデータのモデルとして機能する合成PAP-QMNISTデータセットを導入した。 本研究は,pap-qmnistにおいて,silは平均的にミルアプローチよりも優れた性能を示す。 実世界の細胞学的データに対するバッグレベルのパフォーマンスはどちらの方法にも似ていますが、単一インスタンスのアプローチは平均よりも優れています。 細胞技術者による視覚検査は、この方法が悪性細胞を含む正常性から逸脱する細胞や、異形成を疑う細胞を識別することを示している。 ソースコードはhttps://github.com/M IDA-group/OralCancer MILvsSILで公開しています。

The current medical standard for setting an oral cancer (OC) diagnosis is histological examination of a tissue sample from the oral cavity. This process is time consuming and more invasive than an alternative approach of acquiring a brush sample followed by cytological analysis. Skilled cytotechnologists are able to detect changes due to malignancy, however, to introduce this approach into clinical routine is associated with challenges such as a lack of experts and labour-intensive work. To design a trustworthy OC detection system that would assist cytotechnologists, we are interested in AI-based methods that reliably can detect cancer given only per-patient labels (minimizing annotation bias), and also provide information on which cells are most relevant for the diagnosis (enabling supervision and understanding). We, therefore, perform a comparison of a conventional single instance learning (SIL) approach and a modern multiple instance learning (MIL) method suitable for OC detection and interpretation, utilizing three different neural network architectures. To facilitate systematic evaluation of the considered approaches, we introduce a synthetic PAP-QMNIST dataset, that serves as a model of OC data, while offering access to per-instance ground truth. Our study indicates that on PAP-QMNIST, the SIL performs better, on average, than the MIL approach. Performance at the bag level on real-world cytological data is similar for both methods, yet the single instance approach performs better on average. Visual examination by cytotechnologist indicates that the methods manage to identify cells which deviate from normality, including malignant cells as well as those suspicious for dysplasia. We share the code as open source at https://github.com/M IDA-group/OralCancer MILvsSIL
翻訳日:2022-02-07 15:08:59 公開日:2022-02-03
# ObjectSeeker: Patch-Agnostic MaskingによるPatch Hiding攻撃に対するロバストなオブジェクト検出

ObjectSeeker: Certifiably Robust Object Detection against Patch Hiding Attacks via Patch-agnostic Masking ( http://arxiv.org/abs/2202.01811v1 )

ライセンス: Link先を確認
Chong Xiang, Alexander Valtchanov, Saeed Mahloujifar, Prateek Mittal(参考訳) 自動運転車などのセキュリティクリティカルなシステムに広く展開されている物体検出装置は、物理的世界のパッチ隠蔽攻撃に弱いことが判明している。 攻撃者は、物理的に実現可能な1つの敵パッチを使用して、オブジェクト検出器が犠牲者オブジェクトの検出を見逃し、オブジェクト検出アプリケーションの機能を完全に損なうことができる。 本稿では,パッチ隠蔽攻撃に対して頑健な物体検出器を構築するための防御フレームワークとしてobjecteekerを提案する。 objecteekerの中核となる操作は、パッチ非依存のマスキングです。私たちは、パッチの形、サイズ、場所を事前に知ることなく、敵のパッチ全体をマスキングすることを目指しています。 このマスキング操作は、敵効果を中和し、任意のバニラ物体検出器がマスク画像上の物体を安全に検出できるようにする。 驚くべきことに、objecteekerは脅威モデル内の任意の適応攻撃者に対して証明可能な保証を持つ特定のオブジェクトを検出できるかどうかを判断する認証手順を開発した。 2つのオブジェクト検出器と3つのデータセットによる評価では、以前の作業よりも大幅に(10%~40%の絶対値と2~6倍の相対値)堅牢性が向上し、高いクリーンパフォーマンス(バニラ未定義モデルと比較して約1%のパフォーマンス低下)が示された。

Object detectors, which are widely deployed in security-critical systems such as autonomous vehicles, have been found vulnerable to physical-world patch hiding attacks. The attacker can use a single physically-realizabl e adversarial patch to make the object detector miss the detection of victim objects and completely undermines the functionality of object detection applications. In this paper, we propose ObjectSeeker as a defense framework for building certifiably robust object detectors against patch hiding attacks. The core operation of ObjectSeeker is patch-agnostic masking: we aim to mask out the entire adversarial patch without any prior knowledge of the shape, size, and location of the patch. This masking operation neutralizes the adversarial effect and allows any vanilla object detector to safely detect objects on the masked images. Remarkably, we develop a certification procedure to determine if ObjectSeeker can detect certain objects with a provable guarantee against any adaptive attacker within the threat model. Our evaluation with two object detectors and three datasets demonstrates a significant (~10%-40% absolute and ~2-6x relative) improvement in certified robustness over the prior work, as well as high clean performance (~1% performance drop compared with vanilla undefended models).
翻訳日:2022-02-07 15:05:59 公開日:2022-02-03
# HRBF-Fusion:オンザフライ暗黙を用いたRGB-Dデータからの正確な3D再構成

HRBF-Fusion: Accurate 3D reconstruction from RGB-D data using on-the-fly implicits ( http://arxiv.org/abs/2202.01829v1 )

ライセンス: Link先を確認
Yabin Xu and Liangliang Nan and Laishui Zhou and Jun Wang and Charlie C.L. Wang(参考訳) 高忠実度3Dオブジェクトやシーンの再構成は、基本的な研究課題である。 RGB-D融合の最近の進歩は、消費者レベルのRGB-Dカメラから3Dモデルを製造する可能性を示している。 しかし、離散的な性質と表面表現の限定的な解像度(例えば、点またはボクセルベース)のため、既存のアプローチは、カメラ追跡における誤差の蓄積と再構成における歪みに悩まされ、不満足な3D再構成につながる。 本稿では,既存のRGB-D融合フレームワークにおいて,Hermite Radial Basis Function (HRBFs) のオンザフライ暗黙を連続表面表現として用いる手法を提案する。 さらに, 曲率推定と信頼性評価は, より高品質なデータ融合に傾注した, オンザフライHRBF暗黙の固有表面特性からコヒーレントに導かれる。 我々は, 連続する面表現は, その頑健さによる騒音の影響を効果的に軽減し, 離散表現と比較した場合, 表面の滑らかさによる再構成を抑制できると主張している。 様々な実世界および合成データセットにおける実験結果から,hrbf-fusionはロバスト性および再構成精度の面で最先端のアプローチよりも優れていることが示された。

Reconstruction of high-fidelity 3D objects or scenes is a fundamental research problem. Recent advances in RGB-D fusion have demonstrated the potential of producing 3D models from consumer-level RGB-D cameras. However, due to the discrete nature and limited resolution of their surface representations (e.g., point- or voxel-based), existing approaches suffer from the accumulation of errors in camera tracking and distortion in the reconstruction, which leads to an unsatisfactory 3D reconstruction. In this paper, we present a method using on-the-fly implicits of Hermite Radial Basis Functions (HRBFs) as a continuous surface representation for camera tracking in an existing RGB-D fusion framework. Furthermore, curvature estimation and confidence evaluation are coherently derived from the inherent surface properties of the on-the-fly HRBF implicits, which devote to a data fusion with better quality. We argue that our continuous but on-the-fly surface representation can effectively mitigate the impact of noise with its robustness and constrain the reconstruction with inherent surface smoothness when being compared with discrete representations. Experimental results on various real-world and synthetic datasets demonstrate that our HRBF-fusion outperforms the state-of-the-art approaches in terms of tracking robustness and reconstruction accuracy.
翻訳日:2022-02-07 15:05:34 公開日:2022-02-03
# 逐次勾配法の高速収束のための良いデータ順序付けのキャラクタリゼーションと探索

Characterizing & Finding Good Data Orderings for Fast Convergence of Sequential Gradient Methods ( http://arxiv.org/abs/2202.01838v1 )

ライセンス: Link先を確認
Amirkeivan Mohtashami Sebastian Stich Martin Jaggi(参考訳) SGDは理論上はデータからサンプルを抽出するが、実際にはRandom Reshuffling (RR)と呼ばれる変種の方が一般的である。 RRはデータセットのランダムな置換を通して反復し、SGDよりも早く収束することが示されている。 順序が決定論的に選択されるとき、インクリメンタル勾配降下(IG)と呼ばれる変種は、既存の収束境界はSGDよりも改善されているが、RRよりも悪い。 しかし、これらの境界は良い順序と悪い順序を区別せず、最悪の順序の選択を保っている。 一方、IGを使用するときの正しい順序を選択すると、RRよりも早く収束することがある。 本研究では, 順序が収束速度に及ぼす影響を定量化し, 選択した順列に基づく収束境界を得るとともに, rr の先行結果を回収する。 さらに、様々なレベルの抽象化(タスク、クラス、拡張など)が理論や実践においてデータセットに存在する場合、構造化シャッフルを使用することの利点を示す。 最後に,本尺度に依拠して,トレーニング中に適切な注文を選択し,rrよりも優れた性能(精度で14%以上)を達成するための欲深いアルゴリズムを開発した。

While SGD, which samples from the data with replacement is widely studied in theory, a variant called Random Reshuffling (RR) is more common in practice. RR iterates through random permutations of the dataset and has been shown to converge faster than SGD. When the order is chosen deterministically, a variant called incremental gradient descent (IG), the existing convergence bounds show improvement over SGD but are worse than RR. However, these bounds do not differentiate between a good and a bad ordering and hold for the worst choice of order. Meanwhile, in some cases, choosing the right order when using IG can lead to convergence faster than RR. In this work, we quantify the effect of order on convergence speed, obtaining convergence bounds based on the chosen sequence of permutations while also recovering previous results for RR. In addition, we show benefits of using structured shuffling when various levels of abstractions (e.g. tasks, classes, augmentations, etc.) exists in the dataset in theory and in practice. Finally, relying on our measure, we develop a greedy algorithm for choosing good orders during training, achieving superior performance (by more than 14 percent in accuracy) over RR.
翻訳日:2022-02-07 15:01:53 公開日:2022-02-03
# トランスフォーマーモデルからの双方向エンコーダ表現の転送学習を用いた統一的偽ニュース検出

Unified Fake News Detection using Transfer Learning of Bidirectional Encoder Representation from Transformers model ( http://arxiv.org/abs/2202.01907v1 )

ライセンス: Link先を確認
Vijay Srinivas Tida, Dr. Sonya Hsu and Dr. Xiali Hei(参考訳) ソーシャルメディアプラットフォームのアクセシビリティが急速に向上しているため、公衆には偽ニュースの自動検出が必要である。 以前のモデルのほとんどは個別のデータセットで個別に設計され、検証された。 しかし、モデルにおける一般化の欠如は、個々のデータセットがサンプルよりも限られた対象とシーケンスの長さしかカバーしていないため、現実世界のアプリケーションにデプロイする際のパフォーマンスが低下する可能性がある。 本稿では、公開データセットを組み合わせて、フェイクニュースサンプルを効果的に検出し、統一モデルの構築を試みる。

Automatic detection of fake news is needed for the public as the accessibility of social media platforms has been increasing rapidly. Most of the prior models were designed and validated on individual datasets separately. But the lack of generalization in models might lead to poor performance when deployed in real-world applications since the individual datasets only cover limited subjects and sequence length over the samples. This paper attempts to develop a unified model by combining publicly available datasets to detect fake news samples effectively.
翻訳日:2022-02-07 15:01:32 公開日:2022-02-03
# アドデータセット:自動運転のためのデータセットのメタコレクション

Ad-datasets: a meta-collection of data sets for autonomous driving ( http://arxiv.org/abs/2202.01909v1 )

ライセンス: Link先を確認
Daniel Bogdoll, Felix Schreyer, J. Marius Z\"ollner(参考訳) 自律運転は、過去数年間でディープラーニングが進歩する上で重要な分野のひとつだ。 データセットの出現はこの開発と相まって行われた。 さらに注目すべきなのは、研究者には、データセットとその自動運転領域の機能に関する、迅速かつ包括的で最新の概要を提供するツールがないという事実だ。 本稿では,150以上のデータセットの概観を提供するオンラインツールad-datasetsを提案する。 このツールを使うとユーザーは、現在16のカテゴリーでデータセットをソートしてフィルタリングできる。 ad-datasetsはオープンソースのコミュニティコントリビューションプロジェクトだ。 常に開発が続けられており、コンテンツが最新であることを保証する。

Autonomous driving is among the largest domains in which deep learning has been fundamental for progress within the last years. The rise of datasets went hand in hand with this development. All the more striking is the fact that researchers do not have a tool available that provides a quick, comprehensive and up-to-date overview of data sets and their features in the domain of autonomous driving. In this paper, we present ad-datasets, an online tool that provides such an overview for more than 150 data sets. The tool enables users to sort and filter the data sets according to currently 16 different categories. ad-datasets is an open-source project with community contributions. It is in constant development, ensuring that the content stays up-to-date.
翻訳日:2022-02-07 15:01:23 公開日:2022-02-03
# 診断によるSGDの一般化の評価」についての一考察

A Note on "Assessing Generalization of SGD via Disagreement" ( http://arxiv.org/abs/2202.01851v1 )

ライセンス: Link先を確認
Andreas Kirsch, Yarin Gal(参考訳) Jiang et al. (2021) は、2つの個別に訓練されたネットワークの予測不一致により、ディープニューラルネットワークの平均テスト誤差を推定できるという実証的な証拠を与える。 また、この「一般化不一致等」は、提案された「クラス集約校正」という概念の下での深層アンサンブルのよく説明された性質から来ているという理論的説明もある。 本稿では, 深層アンサンブルのキャリブレーションが分散シフトによって劣化するため, 実験誤差と不一致の結合が実用的価値となる場合に, 提案手法が実用的でない可能性があることを示す。 理論的な証拠と実験的な証拠の両方を示し、単純なベイズ的視点を用いて理論的なステートメントを再導出し、それらを単純でより一般的であることを示す。 提案された校正基準は、Nixon et al. (2019) によって導入された「ACE」と「SCE」の2つの指標と等価である。

Jiang et al. (2021) give empirical evidence that the average test error of deep neural networks can be estimated via the prediction disagreement of two separately trained networks. They also provide a theoretical explanation that this 'Generalization Disagreement Equality' follows from the well-calibrated nature of deep ensembles under the notion of a proposed 'class-aggregated calibration'. In this paper we show that the approach suggested might be impractical because a deep ensemble's calibration deteriorates under distribution shift, which is exactly when the coupling of test error and disagreement would be of practical value. We present both theoretical and experimental evidence, re-deriving the theoretical statements using a simple Bayesian perspective and show them to be straightforward and more generic: they apply to any discriminative model -- not only ensembles whose members output one-hot class predictions. The proposed calibration metrics are also equivalent to two metrics introduced by Nixon et al. (2019): 'ACE' and 'SCE'.
翻訳日:2022-02-07 14:36:46 公開日:2022-02-03
# sum制約をマルチタスクガウスプロセスに組み込む

Incorporating Sum Constraints into Multitask Gaussian Processes ( http://arxiv.org/abs/2202.01793v1 )

ライセンス: Link先を確認
Philipp Pilar, Carl Jidling, Thomas B. Sch\"on, Niklas Wahlstr\"om(参考訳) 既存のバックグラウンド知識を尊重することで、機械学習モデルを改善することができる。 本稿では,出力の特定の和が一定である必要のある制約の形で,背景知識を持つマルチタスクガウス過程を考える。 これは制約充足の事前分布を条件付けることで達成される。 このアプローチは線形制約と非線形制約の両方を可能にする。 そこで本研究では,制約を高精度に満たし,標準ガウス法と比較して全体の予測精度を向上させることを実証する。

Machine learning models can be improved by adapting them to respect existing background knowledge. In this paper we consider multitask Gaussian processes, with background knowledge in the form of constraints that require a specific sum of the outputs to be constant. This is achieved by conditioning the prior distribution on the constraint fulfillment. The approach allows for both linear and nonlinear constraints. We demonstrate that the constraints are fulfilled with high precision and that the construction can improve the overall prediction accuracy as compared to the standard Gaussian process.
翻訳日:2022-02-07 14:35:45 公開日:2022-02-03
# 汚損耐性ガウス過程バンドに対するロバスト位相除去アルゴリズム

A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian Process Bandits ( http://arxiv.org/abs/2202.01850v1 )

ライセンス: Link先を確認
Ilija Bogunovic, Zihan Li, Andreas Krause, Jonathan Scarlett(参考訳) 雑音や逆向きに破損した観測報酬から、報酬関数を評価するために、未知、連続、費用の連続的な最適化を検討する。 汚職攻撃が適切な予算$C$で、その関数が再生ケルネルヒルベルト空間(RKHS)に存在する場合、その問題はガウス過程(GP)帯域最適化として表される。 本研究では,エポックで動作し,頻繁なスイッチングと組み合わせて少数のアクションを選択し,各アクションを複数のタイミングで再生する,新しいロバストな除去型アルゴリズムを提案する。 我々のアルゴリズムであるRobust GP Phased Elimination (RGP-PE) は、敵の汚職の存在(または欠如)においてその性能が最小限に低下するように、探索と悪用によって汚職に対する堅牢性をバランスさせることに成功した。 T$ がサンプル数であり、$\gamma_T$ が最大情報ゲインであるとき、我々の後悔境界における汚職依存項は $O(C \gamma_T^{3/2})$ であり、これはいくつかの一般的なカーネルに対して既存の $O(C \sqrt{T \gamma_T})$ よりもかなり厳密である。 GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。

We consider the sequential optimization of an unknown, continuous, and expensive to evaluate reward function, from noisy and adversarially corrupted observed rewards. When the corruption attacks are subject to a suitable budget $C$ and the function lives in a Reproducing Kernel Hilbert Space (RKHS), the problem can be posed as corrupted Gaussian process (GP) bandit optimization. We propose a novel robust elimination-type algorithm that runs in epochs, combines exploration with infrequent switching to select a small subset of actions, and plays each action for multiple time instants. Our algorithm, Robust GP Phased Elimination (RGP-PE), successfully balances robustness to corruptions with exploration and exploitation such that its performance degrades minimally in the presence (or absence) of adversarial corruptions. When $T$ is the number of samples and $\gamma_T$ is the maximal information gain, the corruption-dependent term in our regret bound is $O(C \gamma_T^{3/2})$, which is significantly tighter than the existing $O(C \sqrt{T \gamma_T})$ for several commonly-considered kernels. We perform the first empirical study of robustness in the corrupted GP bandit setting, and show that our algorithm is robust against a variety of adversarial attacks.
翻訳日:2022-02-07 14:07:53 公開日:2022-02-03
# (参考訳) ランダム初期化ネットワークによるロバストバイナリモデル [全文訳有]

Robust Binary Models by Pruning Randomly-initialized Networks ( http://arxiv.org/abs/2202.01341v1 )

ライセンス: CC BY 4.0
Chen Liu, Ziqi Zhao, Sabine S\"usstrunk, Mathieu Salzmann(参考訳) ランダムに初期化されたバイナリネットワークから敵攻撃に対する頑健なモデルを得る方法を提案する。 モデルパラメータを学習する逆学習とは異なり、ランダムに初期化されたバイナリネットワークを切断することでロバストモデルの構造を学習する。 本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。 非敵対的な設定で得られた結果と比較して,モデルの性能と圧縮性も向上した。 1)異なる層に対する適応型刈り取り戦略の使用、及び 2) 全てのモデルパラメータが+1または-1に初期化されるような異なる初期化スキームを使用する。 我々の大規模な実験は、我々のアプローチが堅牢なバイナリネットワークの最先端技術に勝るだけでなく、完全精度のネットワークトレーニング手法と同等あるいはそれ以上のパフォーマンスを達成していることを示している。

We propose ways to obtain robust models against adversarial attacks from randomly-initialized binary networks. Unlike adversarial training, which learns the model parameters, we in contrast learn the structure of the robust model by pruning a randomly-initialized binary network. Our method confirms the strong lottery ticket hypothesis in the presence of adversarial attacks. Compared to the results obtained in a non-adversarial setting, we in addition improve the performance and compression of the model by 1) using an adaptive pruning strategy for different layers, and 2) using a different initialization scheme such that all model parameters are initialized either to +1 or -1. Our extensive experiments demonstrate that our approach performs not only better than the state-of-the art for robust binary networks; it also achieves comparable or even better performance than full-precision network training methods.
翻訳日:2022-02-05 02:45:16 公開日:2022-02-03
# (参考訳) 技術倫理と行動 : 批判的・学際的視点

Technology Ethics in Action: Critical and Interdisciplinary Perspectives ( http://arxiv.org/abs/2202.01351v1 )

ライセンス: CC BY 4.0
Ben Green (editor)(参考訳) この特集は、デジタル技術研究、開発、利用、ガバナンスへの倫理の埋め込みという「技術倫理」の意味と影響を問うものである。 デジタル技術に関連する社会的危害に関する懸念に応えて、多くの個人や機関は、デジタル技術における倫理に重点を置く必要性を強調した。 しかし、より多くのグループが倫理の概念を受け入れるにつれて、倫理がどの倫理の中心にあるのか、"倫理"が技術を改善するための適切な枠組みなのか、実際に"倫理的"な技術を開発することの意味について、批判的な議論が生まれてきた。 この学際的な問題はこれらの問題を取り上げ、倫理、技術、社会の関係を問うものである。 この特別問題には、倫理そのものの規範的・論争的な概念、ドメイン間の技術と倫理がどのように統合されているか、そしてより公正で平等主義的な技術をサポートするための潜在的な道のりなどが含まれる。 この論文の著者たちは、哲学理論から始めるのではなく、現実の言説や技術倫理の影響、すなわち技術倫理の行動に関する記事を整理している。

This special issue interrogates the meaning and impacts of "tech ethics": the embedding of ethics into digital technology research, development, use, and governance. In response to concerns about the social harms associated with digital technologies, many individuals and institutions have articulated the need for a greater emphasis on ethics in digital technology. Yet as more groups embrace the concept of ethics, critical discourses have emerged questioning whose ethics are being centered, whether "ethics" is the appropriate frame for improving technology, and what it means to develop "ethical" technology in practice. This interdisciplinary issue takes up these questions, interrogating the relationships among ethics, technology, and society in action. This special issue engages with the normative and contested notions of ethics itself, how ethics has been integrated with technology across domains, and potential paths forward to support more just and egalitarian technology. Rather than starting from philosophical theories, the authors in this issue orient their articles around the real-world discourses and impacts of tech ethics--i.e., tech ethics in action.
翻訳日:2022-02-05 02:19:25 公開日:2022-02-03
# (参考訳) 離散確率モデリングのための生成フローネットワーク [全文訳有]

Generative Flow Networks for Discrete Probabilistic Modeling ( http://arxiv.org/abs/2202.01361v1 )

ライセンス: CC BY 4.0
Dinghuai Zhang, Nikolay Malkin, Zhen Liu, Alexandra Volokhova, Aaron Courville, Yoshua Bengio(参考訳) 我々は高次元離散データのための新しい確率的モデリングアルゴリズムであるエネルギーベース生成フローネットワーク(EB-GFN)を提案する。 生成フローネットワーク(GFlowNets)の理論に基づいて、確率的データ構築ポリシーにより生成過程をモデル化し、GFlowNetからサンプリングされた一定の数のアクションに対する高価なMCMC探索を記憶する。 GFlowNetsは,モード間を混在させるため,大ブロックギブスサンプリングをほぼ行うことができることを示す。 本稿では,gflownet をエネルギー関数と共同で訓練し,gflownet がエネルギー分布からサンプルを学習し,gflownet から負のサンプルを得た近似 mle 目標で学習する枠組みを提案する。 各種確率モデルにおけるEB-GFNの有効性を示す。

We present energy-based generative flow networks (EB-GFN), a novel probabilistic modeling algorithm for high-dimensional discrete data. Building upon the theory of generative flow networks (GFlowNets), we model the generation process by a stochastic data construction policy and thus amortize expensive MCMC exploration into a fixed number of actions sampled from a GFlowNet. We show how GFlowNets can approximately perform large-block Gibbs sampling to mix between modes. We propose a framework to jointly train a GFlowNet with an energy function, so that the GFlowNet learns to sample from the energy distribution, while the energy learns with an approximate MLE objective with negative samples from the GFlowNet. We demonstrate EB-GFN's effectiveness on various probabilistic modeling tasks.
翻訳日:2022-02-05 02:17:45 公開日:2022-02-03
# (参考訳) mSLAM:音声とテキストのための多言語共同学習 [全文訳有]

mSLAM: Massively multilingual joint pre-training for speech and text ( http://arxiv.org/abs/2202.01374v1 )

ライセンス: CC BY 4.0
Ankur Bapna, Colin Cherry, Yu Zhang, Ye Jia, Melvin Johnson, Yong Cheng, Simran Khanuja, Jason Riesa, Alexis Conneau(参考訳) 本稿では,多言語言語における多言語音声とテキストの多量のラベルなし音声を事前学習することにより,音声とテキストの言語間クロスモーダル表現を学習する多言語音声言語モデルmslamを提案する。 mSLAMは、音声によるw2v-BERT事前学習と文字レベルのテキストによるSpanBERT事前学習と、ペア音声と転写データにおける接続時分類(CTC)損失を組み合わせて、共有表現空間における音声とテキストの信号から学習し、表現できる単一のモデルを学ぶ。 複数の下流言語理解タスクにおいてmSLAMを評価し,音声のみの事前学習と比較して,音声翻訳,音声意図分類,音声言語IDの質が向上することを確認した。 音声翻訳モデルは,テキスト翻訳データを見ることなくゼロショットテキスト翻訳を示し,表現のクロスモーダルアライメントの証拠を提供する。 mSLAMはまた、マルチモーダル微調整の恩恵を受け、微調整プロセス中にテキスト翻訳データを直接活用することにより、音声翻訳の品質をさらに向上する。 実験分析では,大規模マルチモーダル事前学習から生じるいくつかの機会と課題を浮き彫りにして,今後の研究への方向性を示唆する。

We present mSLAM, a multilingual Speech and LAnguage Model that learns cross-lingual cross-modal representations of speech and text by pre-training jointly on large amounts of unlabeled speech and text in multiple languages. mSLAM combines w2v-BERT pre-training on speech with SpanBERT pre-training on character-level text, along with Connectionist Temporal Classification (CTC) losses on paired speech and transcript data, to learn a single model capable of learning from and representing both speech and text signals in a shared representation space. We evaluate mSLAM on several downstream speech understanding tasks and find that joint pre-training with text improves quality on speech translation, speech intent classification and speech language-ID while being competitive on multilingual ASR, when compared against speech-only pre-training. Our speech translation model demonstrates zero-shot text translation without seeing any text translation data, providing evidence for cross-modal alignment of representations. mSLAM also benefits from multi-modal fine-tuning, further improving the quality of speech translation by directly leveraging text translation data during the fine-tuning process. Our empirical analysis highlights several opportunities and challenges arising from large-scale multimodal pre-training, suggesting directions for future research.
翻訳日:2022-02-05 01:49:56 公開日:2022-02-03
# (参考訳) メッセージパッシングニューラルネットワークによる機械駆動創発行動の学習 [全文訳有]

Learning Mechanically Driven Emergent Behavior with Message Passing Neural Networks ( http://arxiv.org/abs/2202.01380v1 )

ライセンス: CC BY-SA 4.0
Peerasait Prachaseree, Emma Lejeune(参考訳) 設計された材料からスケールをまたいだ機械的挙動まで、計算モデリングは固体力学において重要なツールである。 近年、物理学に基づくシミュレーションの計算コストを削減するために機械学習の利用への関心が高まっている。 特に、グラフニューラルネットワーク(GNN)に依存する機械学習アプローチは、学習力学において成功している一方で、GNNのパフォーマンスは、無数の固体力学問題に関してまだ調査されていない。 本研究では,GNNが機械的に駆動される創発的行動の基本的な側面,すなわち柱の幾何学構造と座屈する方向との接続を予測できる能力について検討する。 これを実現するために、非対称および不均一な列ジオメトリの3つのサブデータセットからなる非対称バッキングカラム(ABC)データセットを導入し、不安定性の開始後の圧縮下での対称性破壊(左右)の方向を分類する。 複雑な局所幾何学のため、標準畳み込みニューラルネットワークベースのメタモデルを実装するのに必要な「画像のような」データ表現は理想的ではない。 gnnモデルアーキテクチャの研究に加えて、様々な入力データ表現アプローチ、データ拡張、および複数のモデルをアンサンブルとして組み合わせた効果について検討する。 良い結果が得られる一方で、固体力学に基づく創発行動を予測することは簡単ではないことも示しました。 私たちのモデル実装とデータセットはどちらもオープンソースライセンスの下で配布されているので、将来の研究者は、複雑な幾何学的構造の振る舞いを捉えるために、機械特有の機械学習パイプラインを構築するために、我々の研究を基盤として開発できることを願っています。

From designing architected materials to connecting mechanical behavior across scales, computational modeling is a critical tool in solid mechanics. Recently, there has been a growing interest in using machine learning to reduce the computational cost of physics-based simulations. Notably, while machine learning approaches that rely on Graph Neural Networks (GNNs) have shown success in learning mechanics, the performance of GNNs has yet to be investigated on a myriad of solid mechanics problems. In this work, we examine the ability of GNNs to predict a fundamental aspect of mechanically driven emergent behavior: the connection between a column's geometric structure and the direction that it buckles. To accomplish this, we introduce the Asymmetric Buckling Columns (ABC) dataset, a dataset comprised of three sub-datasets of asymmetric and heterogeneous column geometries where the goal is to classify the direction of symmetry breaking (left or right) under compression after the onset of instability. Because of complex local geometry, the "image-like" data representations required for implementing standard convolutional neural network based metamodels are not ideal, thus motivating the use of GNNs. In addition to investigating GNN model architecture, we study the effect of different input data representation approaches, data augmentation, and combining multiple models as an ensemble. While we were able to obtain good results, we also showed that predicting solid mechanics based emergent behavior is non-trivial. Because both our model implementation and dataset are distributed under open-source licenses, we hope that future researchers can build on our work to create enhanced mechanics-specific machine learning pipelines for capturing the behavior of complex geometric structures.
翻訳日:2022-02-05 01:19:11 公開日:2022-02-03
# (参考訳) ETSformer: 時系列予測のための指数平滑化変換器 [全文訳有]

ETSformer: Exponential Smoothing Transformers for Time-series Forecasting ( http://arxiv.org/abs/2202.01381v1 )

ライセンス: CC BY 4.0
Gerald Woo, Chenghao Liu, Doyen Sahoo, Akshat Kumar, Steven Hoi(参考訳) 近年,変圧器は時系列予測のために活発に研究されている。 様々なシナリオで有望な結果を示すことが多いが、従来のトランスフォーマーは時系列データの特徴を完全に活用するようには設計されておらず、一般に分解能力や解釈性に欠け、長期的な予測には効果的でも効率的でもない。 本稿では,時系列予測における指数的スムース化の原理を生かした新しい時系列トランスフォーマーアーキテクチャであるETSFormerを提案する。 特に,時系列予測における古典的指数的スムージング手法に着想を得て,バニラ変圧器の自己保持機構を置き換えるために,新しい指数的スムージングアテンション(ESA)と周波数アテンション(FA)を提案する。 これらに基づいて, 時系列データをレベル, 成長, 季節性などの解釈可能な時系列成分に分解し得るように, モジュール型分解ブロックでトランスフォーマアーキテクチャを再設計した。 様々な時系列ベンチマークにおける実験により,提案手法の有効性と利点が検証された。 私たちの実装のコードとモデルはリリースされます。

Transformers have been actively studied for time-series forecasting in recent years. While often showing promising results in various scenarios, traditional Transformers are not designed to fully exploit the characteristics of time-series data and thus suffer some fundamental limitations, e.g., they generally lack of decomposition capability and interpretability, and are neither effective nor efficient for long-term forecasting. In this paper, we propose ETSFormer, a novel time-series Transformer architecture, which exploits the principle of exponential smoothing in improving Transformers for time-series forecasting. In particular, inspired by the classical exponential smoothing methods in time-series forecasting, we propose the novel exponential smoothing attention (ESA) and frequency attention (FA) to replace the self-attention mechanism in vanilla Transformers, thus improving both accuracy and efficiency. Based on these, we redesign the Transformer architecture with modular decomposition blocks such that it can learn to decompose the time-series data into interpretable time-series components such as level, growth and seasonality. Extensive experiments on various time-series benchmarks validate the efficacy and advantages of the proposed method. The code and models of our implementations will be released.
翻訳日:2022-02-05 00:53:19 公開日:2022-02-03
# (参考訳) 非対称カーネルによる学習:最小二乗と特徴解釈 [全文訳有]

Learning with Asymmetric Kernels: Least Squares and Feature Interpretation ( http://arxiv.org/abs/2202.01397v1 )

ライセンス: CC BY 4.0
Mingzhen He, Fan He, Lei Shi, Xiaolin Huang and Johan A.K. Suykens(参考訳) 非対称核は、例えば条件確率や有向グラフに対して、実世界で自然に存在する。 しかし、既存のカーネルベースの学習方法の多くは、非対称カーネルの使用を防止するために、カーネルを対称にする必要がある。 本稿では、AsK-LSと呼ばれる最小二乗支援ベクトルマシンのフレームワークにおける非対称カーネルベースの学習について述べる。 AsK-LSが非対称な特徴、すなわち、ソースとターゲットの特徴で学習できることを示し、カーネルのトリックは依然として適用可能である、すなわち、ソースとターゲットの特徴は存在するが、必ずしも知られていない。 さらに、AsK-LSの計算負担は対称カーネルの処理と同じくらい安価である。 Corelデータベース、有向グラフ、UCIデータベースの実験結果から、非対称情報が重要である場合、提案したAsK-LSは非対称なカーネルで学習でき、非対称なカーネルに適応するために対称性を持たなければならない既存のカーネルメソッドよりもはるかに優れた性能を示す。

Asymmetric kernels naturally exist in real life, e.g., for conditional probability and directed graphs. However, most of the existing kernel-based learning methods require kernels to be symmetric, which prevents the use of asymmetric kernels. This paper addresses the asymmetric kernel-based learning in the framework of the least squares support vector machine named AsK-LS, resulting in the first classification method that can utilize asymmetric kernels directly. We will show that AsK-LS can learn with asymmetric features, namely source and target features, while the kernel trick remains applicable, i.e., the source and target features exist but are not necessarily known. Besides, the computational burden of AsK-LS is as cheap as dealing with symmetric kernels. Experimental results on the Corel database, directed graphs, and the UCI database will show that in the case asymmetric information is crucial, the proposed AsK-LS can learn with asymmetric kernels and performs much better than the existing kernel methods that have to do symmetrization to accommodate asymmetric kernels.
翻訳日:2022-02-05 00:27:31 公開日:2022-02-03
# (参考訳) 共同音声認識と音声キャプション [全文訳有]

Joint Speech Recognition and Audio Captioning ( http://arxiv.org/abs/2202.01405v1 )

ライセンス: CC BY 4.0
Chaitanya Narisetty, Emiru Tsunoo, Xuankai Chang, Yosuke Kashiwagi, Michael Hentschel, Shinji Watanabe(参考訳) 室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。 ほとんどのエンド・ツー・エンドのモノーラル音声認識システムは、これらの背景音を音声強調やトレインノイズロバストモデルを用いて除去する。 モデル解釈性と包括的理解を改善するために,音声自動キャプション(aac)と自動音声認識(asr)の分野を融合することを目指している。 AACの目標は、音声サンプルの内容を自然言語で記述することである。 本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案し,これらのタスクを独立にモデル化する従来のアプローチに対する優位性を実証する。 提案手法を評価する上での大きなハードルは、音声の書き起こしと音声キャプションの両方を含むラベル付きオーディオデータセットの欠如です。 そこで我々は,クリーンスピーチWall Street JournalコーパスとAudioCapsデータセットから選択した背景雑音を混合することにより,マルチタスクデータセットを作成する。 また,既存のasr法やaac法と比較して,提案手法の広範な実験評価を行い,改善点を示す。

Speech samples recorded in both indoor and outdoor environments are often contaminated with secondary audio sources. Most end-to-end monaural speech recognition systems either remove these background sounds using speech enhancement or train noise-robust models. For better model interpretability and holistic understanding, we aim to bring together the growing field of automated audio captioning (AAC) and the thoroughly studied automatic speech recognition (ASR). The goal of AAC is to generate natural language descriptions of contents in audio samples. We propose several approaches for end-to-end joint modeling of ASR and AAC tasks and demonstrate their advantages over traditional approaches, which model these tasks independently. A major hurdle in evaluating our proposed approach is the lack of labeled audio datasets with both speech transcriptions and audio captions. Therefore we also create a multi-task dataset by mixing the clean speech Wall Street Journal corpus with multiple levels of background noises chosen from the AudioCaps dataset. We also perform extensive experimental evaluation and show improvements of our proposed methods as compared to existing state-of-the-art ASR and AAC methods.
翻訳日:2022-02-05 00:07:19 公開日:2022-02-03
# (参考訳) DocBed: 複雑なレイアウトを持つドキュメントのためのマルチステージOCRソリューション [全文訳有]

DocBed: A Multi-Stage OCR Solution for Documents with Complex Layouts ( http://arxiv.org/abs/2202.01414v1 )

ライセンス: CC BY 4.0
Wenzhen Zhu, Negin Sokhandan, Guang Yang, Sujitha Martin, Suchitra Sathyanarayana(参考訳) 新聞のデジタル化は、歴史の保存、アクセシビリティ、検索能力など多くの理由から注目されている。 学術論文や雑誌などの文書のデジタル化は文学において一般的であるが、新聞をデジタル化する主な課題の1つは、複雑なレイアウト(例えば、複数の列にまたがる記事、画像によって中断されたテキスト)の分析にある。 This work provides a major breakthrough in the digitization of newspapers on three fronts: first, releasing a dataset of 3000 fully-annotated, real-world newspaper images from 21 different U.S. states representing an extensive variety of complex layouts for document layout analysis; second, proposing layout segmentation as a precursor to existing optical character recognition (OCR) engines, where multiple state-of-the-art image segmentation models and several post-processing methods are explored for document layout segmentation; third, providing a thorough and structured evaluation protocol for isolated layout segmentation and end-to-end OCR.

Digitization of newspapers is of interest for many reasons including preservation of history, accessibility and search ability, etc. While digitization of documents such as scientific articles and magazines is prevalent in literature, one of the main challenges for digitization of newspaper lies in its complex layout (e.g. articles spanning multiple columns, text interrupted by images) analysis, which is necessary to preserve human read-order. This work provides a major breakthrough in the digitization of newspapers on three fronts: first, releasing a dataset of 3000 fully-annotated, real-world newspaper images from 21 different U.S. states representing an extensive variety of complex layouts for document layout analysis; second, proposing layout segmentation as a precursor to existing optical character recognition (OCR) engines, where multiple state-of-the-art image segmentation models and several post-processing methods are explored for document layout segmentation; third, providing a thorough and structured evaluation protocol for isolated layout segmentation and end-to-end OCR.
翻訳日:2022-02-04 23:54:21 公開日:2022-02-03
# (参考訳) 災害現場における移動プラットフォーム上でのセマンティックセグメンテーションモデルの評価 [全文訳有]

Characterization of Semantic Segmentation Models on Mobile Platforms for Self-Navigation in Disaster-Struck Zones ( http://arxiv.org/abs/2202.01421v1 )

ライセンス: CC BY 4.0
Ryan Zelek and Hyeran Jeon(参考訳) 地震など被災地における被災者の捜索・位置特定における無人車両の役割はますます重要になっている。 地震帯での自己航行は、道路のひび割れ、道路の破片、水たまりなどの不規則な形の障害物を検出するというユニークな課題がある。 本稿では,非常に不規則な障害物を含む地点での自己航行を行うモバイル組込みプラットフォーム上で,最先端のFCNモデルを特徴付ける。 我々は,モデルの精度,性能,エネルギー効率について評価する。 設計した視覚システムの最適化について紹介する。 最後に、これらのモデルのトレードオフについて、それぞれが自己ナビゲートを行うことができるいくつかのモバイルプラットフォームについて論じる。 車両が安全に地震発生帯を走行できるようにするため,従来の道路被害データベースとは異なる各種地震被害域の注釈付き画像データベースを作成した。 我々は,地震帯に特有の障害を識別するために,最先端のセマンティクスセグメンテーションモデルを用いてデータベースを訓練する。 統計とトレードオフに基づいて,移動車載プラットフォームに対して最適なCNNモデルが選択され,設計の低消費電力と極低出力の両方に適用される。 われわれの知る限り、この研究は、独自の課題を特定し、エッジベースの自走自走車による地震・トラック地帯の精度、性能、エネルギーへの影響を論じる最初の研究である。 提案するデータベースとトレーニングモデルが公開されている。

The role of unmanned vehicles for searching and localizing the victims in disaster impacted areas such as earthquake-struck zones is getting more important. Self-navigation on an earthquake zone has a unique challenge of detecting irregularly shaped obstacles such as road cracks, debris on the streets, and water puddles. In this paper, we characterize a number of state-of-the-art FCN models on mobile embedded platforms for self-navigation at these sites containing extremely irregular obstacles. We evaluate the models in terms of accuracy, performance, and energy efficiency. We present a few optimizations for our designed vision system. Lastly, we discuss the trade-offs of these models for a couple of mobile platforms that can each perform self-navigation. To enable vehicles to safely navigate earthquake-struck zones, we compiled a new annotated image database of various earthquake impacted regions that is different than traditional road damage databases. We train our database with a number of state-of-the-art semantic segmentation models in order to identify obstacles unique to earthquake-struck zones. Based on the statistics and tradeoffs, an optimal CNN model is selected for the mobile vehicular platforms, which we apply to both low-power and extremely low-power configurations of our design. To our best knowledge, this is the first study that identifies unique challenges and discusses the accuracy, performance, and energy impact of edge-based self-navigation mobile vehicles for earthquake-struck zones. Our proposed database and trained models are publicly available.
翻訳日:2022-02-04 23:43:36 公開日:2022-02-03
# (参考訳) SparGE: 低ランク制約とグラフ埋め込みによるスパースコーディングに基づく患者類似学習 [全文訳有]

SparGE: Sparse Coding-based Patient Similarity Learning via Low-rank Constraints and Graph Embedding ( http://arxiv.org/abs/2202.01427v1 )

ライセンス: CC BY 4.0
Xian Wei, See Kiong Ng, Tongtong Zhang, Yingjie Liu(参考訳) 患者類似度評価(PSA)はエビデンスベースでパーソナライズドメディカルな医療に重要であり、EHR(Electronic Health Record)の分析によって可能になっている。 しかしながら、PSAの機械学習アプローチは、EHRの本質的なデータ不足、すなわち、欠落値、ノイズ、小さなサンプルサイズを扱う必要がある。 本研究では、PSAにおけるERHのこれらのデータ課題に対処するために、SparGEと呼ばれるエンドツーエンドの識別学習フレームワークを提案する。 SparGEは、共同でスパースコーディングとグラフ埋め込みによって類似度を測定する。 まず,低ランク制約スパース符号化を用いて類似した患者の体重を同定・算出する。 次に、スパース表現にグラフを埋め込み、距離によって定義された局所関係を保存することにより、患者ペア間の類似度を測定する。 最後に、関連するパラメータを最適化するために、グローバルコスト関数を構築する。 SingHEARTとMIMIC-IIIという2つのプライベートおよびパブリックな実世界の医療データセットの実験結果は、提案されたSparGEが、他の機械学習患者の類似性メソッドよりも大幅に優れていることを示している。

Patient similarity assessment (PSA) is pivotal to evidence-based and personalized medicine, enabled by analyzing the increasingly available electronic health records (EHRs). However, machine learning approaches for PSA has to deal with inherent data deficiencies of EHRs, namely missing values, noise, and small sample sizes. In this work, an end-to-end discriminative learning framework, called SparGE, is proposed to address these data challenges of EHR for PSA. SparGE measures similarity by jointly sparse coding and graph embedding. First, we use low-rank constrained sparse coding to identify and calculate weight for similar patients, while denoising against missing values. Then, graph embedding on sparse representations is adopted to measure the similarity between patient pairs via preserving local relationships defined by distances. Finally, a global cost function is constructed to optimize related parameters. Experimental results on two private and public real-world healthcare datasets, namely SingHEART and MIMIC-III, show that the proposed SparGE significantly outperforms other machine learning patient similarity methods.
翻訳日:2022-02-04 23:11:10 公開日:2022-02-03
# (参考訳) ハッカーフォーラム(deep web)における脅威検出のためのディープラーニングアルゴリズム [全文訳有]

Deep Learning Algorithm for Threat Detection in Hackers Forum (Deep Web) ( http://arxiv.org/abs/2202.01448v1 )

ライセンス: CC BY-SA 4.0
Victor Adewopo, Bilal Gonen, Nelly Elsayed, Murat Ozer, Zaghloul Saad Elsayed(参考訳) 現在の社会では、デバイスの相互接続性は、ネット市民がサイバースペース技術を違法な活動に利用するための容易なアクセスを提供する。 deep web platformは、信頼、情報共有、トレードオフ、レビューシステムの境界によって保護される、消費的エコシステムである。 ドメイン知識はハッカーのフォーラムの専門家の間で共有され、サイバーセキュリティのための妥協の指標を含んでいる。 脅威検出のためにデプロイできるツールの開発は、サイバースペースにおけるデジタル通信の確保に不可欠である。 本稿では,深層Webフォーラムにおける通信の匿名化におけるTOR中継ノードの利用について述べる。 深層学習アルゴリズムLong Short-Term Memory (LSTM) を用いてサイバー脅威を検出する新しい手法を提案する。 開発したモデルでは, 問題領域における他の研究者による実験結果を94 %, 精度90 %で上回った。 当社のモデルは,サイバー攻撃前に,デジタル通信の確保や脆弱性の発見において,組織によって容易に展開できる。

In our current society, the inter-connectivity of devices provides easy access for netizens to utilize cyberspace technology for illegal activities. The deep web platform is a consummative ecosystem shielded by boundaries of trust, information sharing, trade-off, and review systems. Domain knowledge is shared among experts in hacker's forums which contain indicators of compromise that can be explored for cyberthreat intelligence. Developing tools that can be deployed for threat detection is integral in securing digital communication in cyberspace. In this paper, we addressed the use of TOR relay nodes for anonymizing communications in deep web forums. We propose a novel approach for detecting cyberthreats using a deep learning algorithm Long Short-Term Memory (LSTM). The developed model outperformed the experimental results of other researchers in this problem domain with an accuracy of 94\% and precision of 90\%. Our model can be easily deployed by organizations in securing digital communications and detection of vulnerability exposure before cyberattack.
翻訳日:2022-02-04 22:50:03 公開日:2022-02-03
# (参考訳) ソートに基づく高速かつ説明可能なクラスタリング [全文訳有]

Fast and explainable clustering based on sorting ( http://arxiv.org/abs/2202.01456v1 )

ライセンス: CC BY 4.0
Xinye Chen, Stefan G\"uttel(参考訳) 我々はCLASSIXと呼ばれる高速で説明可能なクラスタリング手法を提案する。 これは2つのフェーズで構成されており、すなわち、ソートされたデータのグリーディーアグリゲーションフェーズを近くのデータポイントのグループに分割し、続いてグループをクラスタにマージする。 このアルゴリズムは2つのスカラーパラメータ、すなわちアグリゲーションのための距離パラメータと、最小クラスタサイズを制御する別のパラメータによって制御される。 各種クラスタ形状と低-高特徴次元を有する合成および実世界のデータセット上でのクラスタリング性能の包括的評価を行うために,大規模な実験を行った。 CLASSIXは最先端のクラスタリングアルゴリズムと競合することを示す。 このアルゴリズムは線形空間複雑性を持ち、幅広い問題に対してほぼ線形時間複雑性を実現する。 その固有の単純さは、計算されたクラスタの直感的な説明を生成することを可能にする。

We introduce a fast and explainable clustering method called CLASSIX. It consists of two phases, namely a greedy aggregation phase of the sorted data into groups of nearby data points, followed by the merging of groups into clusters. The algorithm is controlled by two scalar parameters, namely a distance parameter for the aggregation and another parameter controlling the minimal cluster size. Extensive experiments are conducted to give a comprehensive evaluation of the clustering performance on synthetic and real-world datasets, with various cluster shapes and low to high feature dimensionality. Our experiments demonstrate that CLASSIX competes with state-of-the-art clustering algorithms. The algorithm has linear space complexity and achieves near linear time complexity on a wide range of problems. Its inherent simplicity allows for the generation of intuitive explanations of the computed clusters.
翻訳日:2022-02-04 22:38:07 公開日:2022-02-03
# (参考訳) 教師なし概念を付加した概念ボトルネックモデル [全文訳有]

Concept Bottleneck Model with Additional Unsupervised Concepts ( http://arxiv.org/abs/2202.01459v1 )

ライセンス: CC BY 4.0
Yoshihide Sawada, Keigo Nakamura(参考訳) 説明責任の要求が高まるにつれ、解釈可能性は現実のAIアプリケーションにとって不可欠な機能になりつつある。 しかし、ほとんどの方法は解釈可能なモデルを訓練するよりも、ポストホックなアプローチを使う。 本稿では,概念ボトルネックモデル(CBM)に基づく新しい解釈可能なモデルを提案する。 cbmは概念ラベルを使用して中間層を追加可視層として訓練する。 しかし, 概念ラベルの数は, この層の大きさを制限しているため, 少数のラベルで高い精度を得ることは困難である。 この問題に対処するために、教師なしの概念と自己説明型ニューラルネットワーク(SENN)で訓練された教師なしの概念を統合する。 これら2つの概念をシームレスにトレーニングし,計算量を削減することにより,大規模画像においても,教師付き概念と教師なし概念を同時に得ることができる。 提案モデルについて,非教師付き概念を付加した概念ボトルネックモデル(CBM-AUC)と呼ぶ。 提案モデルがCBMとSENNより優れていることを確認した。 また,各概念のサリエンシーマップを可視化し,意味的意味と一致していることを確認した。

With the increasing demands for accountability, interpretability is becoming an essential capability for real-world AI applications. However, most methods utilize post-hoc approaches rather than training the interpretable model. In this article, we propose a novel interpretable model based on the concept bottleneck model (CBM). CBM uses concept labels to train an intermediate layer as the additional visible layer. However, because the number of concept labels restricts the dimension of this layer, it is difficult to obtain high accuracy with a small number of labels. To address this issue, we integrate supervised concepts with unsupervised ones trained with self-explaining neural networks (SENNs). By seamlessly training these two types of concepts while reducing the amount of computation, we can obtain both supervised and unsupervised concepts simultaneously, even for large-sized images. We refer to the proposed model as the concept bottleneck model with additional unsupervised concepts (CBM-AUC). We experimentally confirmed that the proposed model outperformed CBM and SENN. We also visualized the saliency map of each concept and confirmed that it was consistent with the semantic meanings.
翻訳日:2022-02-04 21:55:31 公開日:2022-02-03
# (参考訳) ExPoSe: ステートベースの探索とグラディエントベースのオンライン検索を組み合わせる [全文訳有]

ExPoSe: Combining State-Based Exploration with Gradient-Based Online Search ( http://arxiv.org/abs/2202.01461v1 )

ライセンス: CC BY 4.0
Dixant Mittal and Siddharth Arvindan and Wee Sun Lee(参考訳) ツリーベースのオンライン検索アルゴリズムは、軌道を反復的にシミュレートし、木構造で表される一連の状態のq値情報を更新する。 あるいは、ポリシー勾配に基づくオンライン検索アルゴリズムは、シミュレーションされた軌跡から得られた情報をポリシーのパラメータに直接更新し、有効であることが判明した。 木に基づく手法は、シミュレーションから木に存在する状態への更新を制限し、情報を近くの状態に補間しないが、ポリシー勾配探索法は明示的な探索を行わない。 本稿では,これら2つの手法の強みを組み合わせることで検索性能を向上させることができることを示す。 本改善の背景にある主要な理由を考察し,提案手法を探索的ポリシーグラディエント探索 (Exploratory Policy Gradient Search, ExPoSe) と名づけた簡易かつ効果的なオンライン検索手法を提案する。 疎グラフにおけるソコバンやハミルトニアンサイクル探索を含む複雑な計画問題に関する実験を行い,探索と政策勾配を組み合わせることでオンライン検索性能が向上することを示す。

A tree-based online search algorithm iteratively simulates trajectories and updates Q-value information on a set of states represented by a tree structure. Alternatively, policy gradient based online search algorithms update the information obtained from simulated trajectories directly onto the parameters of the policy and has been found to be effective. While tree-based methods limit the updates from simulations to the states that exist in the tree and do not interpolate the information to nearby states, policy gradient search methods do not do explicit exploration. In this paper, we show that it is possible to combine and leverage the strengths of these two methods for improved search performance. We examine the key reasons behind the improvement and propose a simple yet effective online search method, named Exploratory Policy Gradient Search (ExPoSe), that updates both the parameters of the policy as well as search information on the states in the trajectory. We conduct experiments on complex planning problems, which include Sokoban and Hamiltonian cycle search in sparse graphs and show that combining exploration with policy gradient improves online search performance.
翻訳日:2022-02-04 21:41:48 公開日:2022-02-03
# (参考訳) 合成音場評価による最先端音響イベント検出システムのベンチマーク [全文訳有]

A benchmark of state-of-the-art sound event detection systems evaluated on synthetic soundscapes ( http://arxiv.org/abs/2202.01487v1 )

ライセンス: CC BY 4.0
Francesca Ronchini, Romain Serizel(参考訳) 本稿では,音響シーンとイベント2021チャレンジ(dcase)タスク4の検出と分類を行うための提案のベンチマークを提案する。 提案手法は,DCASE 2021チャレンジタスク4で提案された2つのポリフォニック・サウンド検出スコア・シナリオに基づいて評価され,提案手法が詳細な時間的セグメンテーション,粗い時間的セグメンテーション,あるいは提案したシナリオに多価であるように設計されているかどうかを解析することができる。 被験者が提案する解は,非目標信号対雑音比に対する各レベル目標に対するロバスト性を分析し,目標音の時間的定位について検討する。 システム出力に対する非目標事象の影響を研究するために,最後の実験を行った。 その結果、粗いセグメンテーション出力に適応したシステムは、ターゲット外の信号-雑音比に対して異なるターゲットに対してより堅牢であり、特定のデータ拡張手法により、元のイベントの時間的局所化に対してより堅牢であることがわかった。 前回の実験の結果、システムは標的外イベントが存在する場合のショートイベントを急激に予測する傾向を示した。 これは、細かなセグメンテーションを持つように設計されたシステムに特に当てはまる。

This paper proposes a benchmark of submissions to Detection and Classification Acoustic Scene and Events 2021 Challenge (DCASE) Task 4 representing a sampling of the state-of-the-art in Sound Event Detection task. The submissions are evaluated according to the two polyphonic sound detection score scenarios proposed for the DCASE 2021 Challenge Task 4, which allow to make an analysis on whether submissions are designed to perform fine-grained temporal segmentation, coarse-grained temporal segmentation, or have been designed to be polyvalent on the scenarios proposed. We study the solutions proposed by participants to analyze their robustness to varying level target to non-target signal-to-noise ratio and to temporal localization of target sound events. A last experiment is proposed in order to study the impact of non-target events on systems outputs. Results show that systems adapted to provide coarse segmentation outputs are more robust to different target to non-target signal-to-noise ratio and, with the help of specific data augmentation methods, they are more robust to time localization of the original event. Results of the last experiment display that systems tend to spuriously predict short events when non-target events are present. This is particularly true for systems that are tailored to have a fine segmentation.
翻訳日:2022-02-04 21:25:39 公開日:2022-02-03
# (参考訳) 統合型および集中型機械学習の比較評価 [全文訳有]

Comparative assessment of federated and centralized machine learning ( http://arxiv.org/abs/2202.01529v1 )

ライセンス: CC BY 4.0
Ibrahim Abdul Majeed, Sagar Kaushik, Aniruddha Bardhan, Venkata Siva Kumar Tadi, Hwang-Ki Min, Karthikeyan Kumaraguru, Rajasekhara Duvvuru Muni(参考訳) フェデレーション学習(FL)は、デバイス間でフェデレーションされたデータによってトレーニングが行われ、ユーザのプライバシを維持できない、プライバシ保護機械学習スキームである。 これは、未訓練または部分的に訓練されたモデルを個々のデバイスに直接到達させ、デバイス所有のデータを使用してローカルに訓練された"オンデバイス"を得るようにし、サーバがすべての部分的に訓練されたモデル学習を集約してグローバルモデルを更新することによって保証される。 フェデレーション学習におけるモデル学習スキームのほとんどすべてが勾配勾配を用いたが、データ可用性の非IID的な性質によって引き起こされる特徴的な違いは、集中型スキームと比較して訓練に影響を及ぼす。 本稿では,データの非iid分散性や,典型的な集中型勾配降下手法に対するフェデレーション学習アプローチにおける本質的差異から,フェデレーション学習に影響を及ぼすさまざまな要因について考察する。 本研究では,デバイス毎のサンプル数と出力ラベルの分布が連合学習に与える影響を実証的に示す。 フェデレーション学習を通じて求めるプライバシのアドバンテージに加えて、フェデレーション学習フレームワークを使用する場合のコストアドバンテージも調べます。 トレーニング対象のモデルサイズが合理的に大きくない場合には,フェデレーション学習がコスト面で有利であることを示す。 全体として、パフォーマンスとコストの両面において、モデルの慎重な設計の必要性を示します。

Federated Learning (FL) is a privacy preserving machine learning scheme, where training happens with data federated across devices and not leaving them to sustain user privacy. This is ensured by making the untrained or partially trained models to reach directly the individual devices and getting locally trained "on-device" using the device owned data, and the server aggregating all the partially trained model learnings to update a global model. Although almost all the model learning schemes in the federated learning setup use gradient descent, there are certain characteristic differences brought about by the non-IID nature of the data availability, that affects the training in comparison to the centralized schemes. In this paper, we discuss the various factors that affect the federated learning training, because of the non-IID distributed nature of the data, as well as the inherent differences in the federating learning approach as against the typical centralized gradient descent techniques. We empirically demonstrate the effect of number of samples per device and the distribution of output labels on federated learning. In addition to the privacy advantage we seek through federated learning, we also study if there is a cost advantage while using federated learning frameworks. We show that federated learning does have an advantage in cost when the model sizes to be trained are not reasonably large. All in all, we present the need for careful design of model for both performance and cost.
翻訳日:2022-02-04 21:14:27 公開日:2022-02-03
# (参考訳) 影響強化ローカルシミュレータ:大規模ネットワークシステムにおける高速深部RLのためのスケーラブルソリューション [全文訳有]

Influence-Augmented Local Simulators: A Scalable Solution for Fast Deep RL in Large Networked Systems ( http://arxiv.org/abs/2202.01534v1 )

ライセンス: CC BY 4.0
Miguel Suau, Jinke He, Matthijs T. J. Spaan, Frans A. Oliehoek(参考訳) 実世界の問題に対する効果的な政策の学習は、強化学習(RL)分野におけるオープンな課題である。 主な制限は、必要なデータ量と、そのデータが得られるペースである。 本稿では,深部RLが適用できるほど高速に動作可能な複雑なシステムの軽量シミュレータを構築する方法について検討する。 我々は,グローバルなダイナミクスの影響を受けながら,エージェントがより大きな環境の一部と相互作用する領域に焦点を当てる。 本手法は,グローバルシステムの影響を模倣した学習モデルとローカルシミュレータの利用を併用する。 実験の結果、このアイデアを深層RLワークフローに組み込むことで、トレーニングプロセスが大幅に加速し、将来いくつかの機会が得られます。

Learning effective policies for real-world problems is still an open challenge for the field of reinforcement learning (RL). The main limitation being the amount of data needed and the pace at which that data can be obtained. In this paper, we study how to build lightweight simulators of complicated systems that can run sufficiently fast for deep RL to be applicable. We focus on domains where agents interact with a reduced portion of a larger environment while still being affected by the global dynamics. Our method combines the use of local simulators with learned models that mimic the influence of the global system. The experiments reveal that incorporating this idea into the deep RL workflow can considerably accelerate the training process and presents several opportunities for the future.
翻訳日:2022-02-04 20:58:24 公開日:2022-02-03
# (参考訳) 曲げグラフ: Gated Optimal Transport を用いた階層形状マッチング [全文訳有]

Bending Graphs: Hierarchical Shape Matching using Gated Optimal Transport ( http://arxiv.org/abs/2202.01537v1 )

ライセンス: CC BY 4.0
Mahdi Saleh, Shun-Cheng Wu, Luca Cosmo, Nassir Navab, Benjamin Busam, Federico Tombari(参考訳) 形状マッチングはコンピュータグラフィックスと視覚のコミュニティにとって長い間研究されてきた問題である。 目的は、一定の変形度を持つメッシュ間の密接な対応を予測することである。 既存の手法では、サンプル点の局所的な記述を検討するか、大域的な形状情報に基づいて対応を見つける。 本研究では,局所パッチレベル情報とグローバル形状レベル構造を組み込んだ階層的学習設計について検討する。 この柔軟な表現は対応予測を可能にし、マッチングステージに豊富な機能を提供する。 最後に,非信頼ノードの特徴を逐次更新し,形状間のグローバルに一貫した対応を学習する,新しい最適トランスポートソルバを提案する。 以上の結果から,大規模なトレーニングや改良を必要とせず,厳格な変形が存在する場合の堅牢な性能が示唆された。

Shape matching has been a long-studied problem for the computer graphics and vision community. The objective is to predict a dense correspondence between meshes that have a certain degree of deformation. Existing methods either consider the local description of sampled points or discover correspondences based on global shape information. In this work, we investigate a hierarchical learning design, to which we incorporate local patch-level information and global shape-level structures. This flexible representation enables correspondence prediction and provides rich features for the matching stage. Finally, we propose a novel optimal transport solver by recurrently updating features on non-confident nodes to learn globally consistent correspondences between the shapes. Our results on publicly available datasets suggest robust performance in presence of severe deformations without the need for extensive training or refinement.
翻訳日:2022-02-04 20:22:57 公開日:2022-02-03
# (参考訳) 自発的クリッピングによるビザンチンロバスト分散学習 [全文訳有]

Byzantine-Robust Decentralized Learning via Self-Centered Clipping ( http://arxiv.org/abs/2202.01545v1 )

ライセンス: CC BY 4.0
Lie He, Sai Praneeth Karimireddy, Martin Jaggi(参考訳) 本稿では,任意の通信グラフ上でのビザンチン・ロバスト分散学習の課題について考察する。 労働者がサーバーを介してコミュニケーションをとる連合学習とは異なり、分散環境の労働者は隣人としか会話できないため、合意に達するのが難しくなる。 トポロジにおける情報のボトルネックを利用してコラボレーションを汚染する悪質なノードがほとんどない,新たな不感攻撃を識別する。 これらの問題に対処するために、ビザンチン・ロバストコンセンサスと最適化のための自己中心クリッピング(scclip)アルゴリズムを提案し、標準仮定の下で非凸目的の定常点の$o(\delta_{\max}\zeta^2/\gamma^2)$近傍に最初に収束する。 最後に,多数の攻撃下でのSCClipの実証的性能を実証した。

In this paper, we study the challenging task of Byzantine-robust decentralized training on arbitrary communication graphs. Unlike federated learning where workers communicate through a server, workers in the decentralized environment can only talk to their neighbors, making it harder to reach consensus. We identify a novel dissensus attack in which few malicious nodes can take advantage of information bottlenecks in the topology to poison the collaboration. To address these issues, we propose a Self-Centered Clipping (SCClip) algorithm for Byzantine-robust consensus and optimization, which is the first to provably converge to a $O(\delta_{\max}\zeta^2/\gamma^2)$ neighborhood of the stationary point for non-convex objectives under standard assumptions. Finally, we demonstrate the encouraging empirical performance of SCClip under a large number of attacks.
翻訳日:2022-02-04 20:05:56 公開日:2022-02-03
# (参考訳) エントロピー正規化のトーリック幾何学 [全文訳有]

Toric Geometry of Entropic Regularization ( http://arxiv.org/abs/2202.01571v1 )

ライセンス: CC BY 4.0
Bernd Sturmfels, Simon Telen, Fran\c{c}ois-Xavier Vialard, and Max von Renesse(参考訳) エントロピー正規化は大規模線形プログラミングの方法である。 幾何学的には、実現可能なポリトープとスケールド・トーリック多様体の交点を追跡し、バーチ点から始まる。 これを解析中心から開始した逆線型空間と対数バリア法と比較する。 非平衡最適輸送に対するエントロピー正則化を再検討し,最適円錐カップリング法の開発を行った。 関連するトーリック多様体の度合いを計算し、反復スケーリングのようなアルゴリズムを探索する。

Entropic regularization is a method for large-scale linear programming. Geometrically, one traces intersections of the feasible polytope with scaled toric varieties, starting at the Birch point. We compare this to log-barrier methods, with reciprocal linear spaces, starting at the analytic center. We revisit entropic regularization for unbalanced optimal transport, and we develop the use of optimal conic couplings. We compute the degree of the associated toric variety, and we explore algorithms like iterative scaling.
翻訳日:2022-02-04 19:24:15 公開日:2022-02-03
# (参考訳) CoST:時系列予測のための季節変動表現のコントラスト学習 [全文訳有]

CoST: Contrastive Learning of Disentangled Seasonal-Trend Representations for Time Series Forecasting ( http://arxiv.org/abs/2202.01575v1 )

ライセンス: CC BY 4.0
Gerald Woo, Chenghao Liu, Doyen Sahoo, Akshat Kumar, Steven Hoi(参考訳) ディープラーニングは時系列予測のために活発に研究されており、主流のパラダイムは、古典的なLSTM/RNNから、最近のTCNやTransformersまで、ニューラルネットワークアーキテクチャのエンドツーエンドトレーニングに基づいている。 コンピュータビジョンと自然言語処理における表現学習の最近の成功に動機づけられ、時系列予測のより有望なパラダイムは、まず不連続な特徴表現を学習し、その後に簡単な回帰微調整ステップを踏むことであると論じている。 そこで本研究では,時系列予測のための新しい時系列表現学習フレームワークである「コスト」を提案する。 CoSTは、それぞれ時間領域と周波数領域の対比損失からなり、識別傾向と季節表現を学習する。 実世界のデータセットに対する大規模な実験により、CoSTは最先端の手法をかなりのマージンで一貫して上回り、多変量ベンチマークでMSEを21.3倍改善した。 また、バックボーンエンコーダや下流回帰器の様々な選択肢に対して堅牢である。

Deep learning has been actively studied for time series forecasting, and the mainstream paradigm is based on the end-to-end training of neural network architectures, ranging from classical LSTM/RNNs to more recent TCNs and Transformers. Motivated by the recent success of representation learning in computer vision and natural language processing, we argue that a more promising paradigm for time series forecasting, is to first learn disentangled feature representations, followed by a simple regression fine-tuning step -- we justify such a paradigm from a causal perspective. Following this principle, we propose a new time series representation learning framework for time series forecasting named CoST, which applies contrastive learning methods to learn disentangled seasonal-trend representations. CoST comprises both time domain and frequency domain contrastive losses to learn discriminative trend and seasonal representations, respectively. Extensive experiments on real-world datasets show that CoST consistently outperforms the state-of-the-art methods by a considerable margin, achieving a 21.3\% improvement in MSE on multivariate benchmarks. It is also robust to various choices of backbone encoders, as well as downstream regressors.
翻訳日:2022-02-04 19:05:17 公開日:2022-02-03
# (参考訳) 説明可能な機械学習における不一致問題--実践者の視点から

The Disagreement Problem in Explainable Machine Learning: A Practitioner's Perspective ( http://arxiv.org/abs/2202.01602v1 )

ライセンス: CC BY 4.0
Satyapriya Krishna, Tessa Han, Alex Gu, Javin Pombra, Shahin Jabbari, Steven Wu, Himabindu Lakkaraju(参考訳) 様々なポストホックな説明法が、ハイテイクな設定で複雑なモデルを説明するためにますます活用されているため、これらの方法によって出力される説明が互いに相反するかどうか、実際にどのように解決されるのかについて、より深く理解することが重要である。 しかし、これらの批判的な疑問に答える研究はほとんど、あるいは全くない。 本稿では,説明可能な機械学習における不一致問題を紹介し,検討する。 より具体的には、説明間の不一致の概念を定式化し、そのような不一致が実際にどれだけ頻繁に起こるかを分析し、実践者がこれらの不一致を解決する方法について分析する。 そこで我々はまずデータサイエンティストとのインタビューを行い、同じモデル予測のための異なる手法による説明の相違について理解し、この理解を形式化する新しい定量的枠組みを導入する。 次に,このフレームワークを用いて4つの実世界のデータセット,6つの最先端のhoc説明法,8つの異なる予測モデルを用いた厳密な経験的分析を行い,様々な一般的な説明法によって生成された説明間の不一致の程度を測定する。 さらに、上記の不一致を解決する方法を理解するために、データサイエンティストとオンラインユーザスタディを実施している。 以上の結果から, 現状説明法は, それらが出力する説明法と矛盾することが多いことが示唆された。 本研究は,実践者が説明を効果的に比較できる原則評価指標の開発の重要性を強調する。

As various post hoc explanation methods are increasingly being leveraged to explain complex models in high-stakes settings, it becomes critical to develop a deeper understanding of if and when the explanations output by these methods disagree with each other, and how such disagreements are resolved in practice. However, there is little to no research that provides answers to these critical questions. In this work, we introduce and study the disagreement problem in explainable machine learning. More specifically, we formalize the notion of disagreement between explanations, analyze how often such disagreements occur in practice, and how do practitioners resolve these disagreements. To this end, we first conduct interviews with data scientists to understand what constitutes disagreement between explanations generated by different methods for the same model prediction, and introduce a novel quantitative framework to formalize this understanding. We then leverage this framework to carry out a rigorous empirical analysis with four real-world datasets, six state-of-the-art post hoc explanation methods, and eight different predictive models, to measure the extent of disagreement between the explanations generated by various popular explanation methods. In addition, we carry out an online user study with data scientists to understand how they resolve the aforementioned disagreements. Our results indicate that state-of-the-art explanation methods often disagree in terms of the explanations they output. Our findings underscore the importance of developing principled evaluation metrics that enable practitioners to effectively compare explanations.
翻訳日:2022-02-04 18:46:31 公開日:2022-02-03
# (参考訳) 未知順序の隠れ状態LTI状態空間モデルの効率的な学習

Efficient learning of hidden state LTI state space models of unknown order ( http://arxiv.org/abs/2202.01625v1 )

ライセンス: CC BY 4.0
Boualem Djehiche and Othmane Mazhar(参考訳) 本研究の目的は,隠蔽状態の次元が不明な場合に,隠蔽状態線形時間不変(LTI)状態空間システムの設定に伴う2つの関連する推定問題に対処することである。 すなわち、システムのマルコフパラメータの有限個の数の推定と、単一の軌道の部分的観測からシステムの最小実現の推定である。 どちらの問題に対しても、様々な推定誤差上限、$\rank$回復条件、サンプル複雑性推定という形で統計的保証を提供する。 具体的には、ハンケルペナライズされた最小二乗推定器の低$\rank$解が、単純な最小二乗に対する既存の作用素ノルム上界よりも優れたシステム順序の効果を捉えた$s_p$-norms for $p \in [1,2]$の推定誤差を満たすことを最初に示す。 次に, マルコフパラメータのハンケル行列の次元依存性と最小特異値の両方を改善するHo-Kalmanアルゴリズムの変種に基づく推定手順の安定性解析を行う。 最後に,Hankelの最小二乗推定器とHo-Kalmanに基づく推定手法を併用した最小化のための推定アルゴリズムを提案し,システムの正しい順序を復元し,問題の次元および他のパラメータへの依存度を多項式還元した$S_2$-normの新たな高速化を満足する確率を高い確率で保証する。

The aim of this paper is to address two related estimation problems arising in the setup of hidden state linear time invariant (LTI) state space systems when the dimension of the hidden state is unknown. Namely, the estimation of any finite number of the system's Markov parameters and the estimation of a minimal realization for the system, both from the partial observation of a single trajectory. For both problems, we provide statistical guarantees in the form of various estimation error upper bounds, $\rank$ recovery conditions, and sample complexity estimates. Specifically, we first show that the low $\rank$ solution of the Hankel penalized least square estimator satisfies an estimation error in $S_p$-norms for $p \in [1,2]$ that captures the effect of the system order better than the existing operator norm upper bound for the simple least square. We then provide a stability analysis for an estimation procedure based on a variant of the Ho-Kalman algorithm that improves both the dependence on the dimension and the least singular value of the Hankel matrix of the Markov parameters. Finally, we propose an estimation algorithm for the minimal realization that uses both the Hankel penalized least square estimator and the Ho-Kalman based estimation procedure and guarantees with high probability that we recover the correct order of the system and satisfies a new fast rate in the $S_2$-norm with a polynomial reduction in the dependence on the dimension and other parameters of the problem.
翻訳日:2022-02-04 18:45:28 公開日:2022-02-03
# (参考訳) 畳み込みニューラルネットワークにおける学習ステップ [全文訳有]

Learning strides in convolutional neural networks ( http://arxiv.org/abs/2202.01653v1 )

ライセンス: CC BY 4.0
Rachid Riad, Olivier Teboul, David Grangier, Neil Zeghidour(参考訳) 畳み込みニューラルネットワークは通常、ストライド畳み込みやプール層のようないくつかのダウンサンプリング演算子を含み、中間表現の分解を徐々に減少させる。 これはアーキテクチャ全体の計算複雑性を減らしながら、シフト不変性を提供する。 そのような層の臨界ハイパーパラメータは、そのストライドである:ダウンサンプリングの整数係数である。 ストライドが微分できないため、最良の構成を見つけるにはクロスバリデーションか離散最適化(アーキテクチャ探索など)が必要であるが、探索空間が指数関数的に増大するにつれて急速に禁止される。 したがって、勾配降下によるこの探索空間の探索は、より低い計算コストでより良い構成を見つけることができる。 この研究は、学習可能なステップを持つ最初のダウンサンプリング層であるDiffStrideを紹介している。 この層はフーリエ領域におけるクロッピングマスクのサイズを学習し,微分可能な方法で再サイズを効果的に行う。 オーディオと画像の分類実験は、私たちのソリューションの汎用性と有効性を示している。 特に,CIFAR10,CIFAR100,Im ageNetにおいて,ランダムなストライド構成からトレーニングを開始する場合でも,階層をResNet-18アーキテクチャに導入することで,一貫したハイパフォーマンスを維持することができることを示す。 さらに、学習可能な変数としてステップを定式化することで、アーキテクチャの計算複雑性を制御する正規化項を導入することができる。 この正規化によって、imagenetの効率性に対する精度のトレードオフが可能になることを示す。

Convolutional neural networks typically contain several downsampling operators, such as strided convolutions or pooling layers, that progressively reduce the resolution of intermediate representations. This provides some shift-invariance while reducing the computational complexity of the whole architecture. A critical hyperparameter of such layers is their stride: the integer factor of downsampling. As strides are not differentiable, finding the best configuration either requires cross-validation or discrete optimization (e.g. architecture search), which rapidly become prohibitive as the search space grows exponentially with the number of downsampling layers. Hence, exploring this search space by gradient descent would allow finding better configurations at a lower computational cost. This work introduces DiffStride, the first downsampling layer with learnable strides. Our layer learns the size of a cropping mask in the Fourier domain, that effectively performs resizing in a differentiable way. Experiments on audio and image classification show the generality and effectiveness of our solution: we use DiffStride as a drop-in replacement to standard downsampling layers and outperform them. In particular, we show that introducing our layer into a ResNet-18 architecture allows keeping consistent high performance on CIFAR10, CIFAR100 and ImageNet even when training starts from poor random stride configurations. Moreover, formulating strides as learnable variables allows us to introduce a regularization term that controls the computational complexity of the architecture. We show how this regularization allows trading off accuracy for efficiency on ImageNet.
翻訳日:2022-02-04 18:44:16 公開日:2022-02-03
# (参考訳) 異なる問題のある選挙における条件付き最小投票の計算的側面 [全文訳有]

Computational Aspects of Conditional Minisum Approval Voting in Elections with Interdependent Issues ( http://arxiv.org/abs/2202.01660v1 )

ライセンス: CC BY 4.0
Evangelos Markakis and Georgios Papasotiropoulos(参考訳) 承認投票は、多項目選挙のための単純かつ実用的な枠組みを提供し、そのような選挙規則の中で最も代表的な例は、古典的なミニサム承認投票規則である。 我々は,条件付きミニサム (conditional minisum) と呼ばれる barrot と lang [2016] によって導入されたminisum の一般化を検討する。 この高い表現力に移行するとき、私たちが支払うコストは、計算的に難しいルールに終止符を打つことです。 このことに動機づけられた我々は、これまで進歩が少なかった条件最小項の計算面に焦点を当てた。 我々は、有権者の依存関係と最適解の価値を懸念する制約を特定し、この問題に対する最初の乗算近似アルゴリズムを提供する。 同時に、選挙人全体によって鋳造される依存関係の和合に対する一定の構造的特性を付加することにより、モチベーションの良い特殊ケースに対して最適なアルゴリズムを得る。 全体として、我々の研究は条件付投票によってもたらされる複雑さの意味をよりよく理解する。

Approval voting provides a simple, practical framework for multi-issue elections, and the most representative example among such election rules is the classic Minisum approval voting rule. We consider a generalization of Minisum, introduced by the work of Barrot and Lang [2016], referred to as Conditional Minisum, where voters are also allowed to express dependencies between issues. The price we have to pay when we move to this higher level of expressiveness is that we end up with a computationally hard rule. Motivated by this, we focus on the computational aspects of Conditional Minisum, where progress has been rather scarce so far. We identify restrictions that concern the voters' dependencies and the value of an optimal solution, under which we provide the first multiplicative approximation algorithms for the problem. At the same time, by additionally requiring certain structural properties for the union of dependencies cast by the whole electorate, we obtain optimal efficient algorithms for well-motivated special cases. Overall, our work provides a better understanding on the complexity implications introduced by conditional voting.
翻訳日:2022-02-04 18:23:26 公開日:2022-02-03
# (参考訳) ディープニューラルネットワークを用いた音楽の歪み効果の除去 [全文訳有]

Removing Distortion Effects in Music Using Deep Neural Networks ( http://arxiv.org/abs/2202.01664v1 )

ライセンス: CC BY 4.0
Johannes Imort, Giorgio Fabbro, Marco A. Mart\'inez Ram\'irez, Stefan Uhlich, Yuichiro Koyama, Yuki Mitsufuji(参考訳) オーディオ効果は音楽制作の文脈において不可欠な要素であり、アナログオーディオ効果のモデル化は数十年間、システム同定法、回路シミュレーション、そして最近ではディープラーニングを用いて広く研究されてきた。 しかし、オーディオ効果ユニットを用いて処理された信号の再構成に取り組む作品はわずかであった。 近年の音源分離と自動ミキシングの進歩を考えると、音響効果の除去は自動リミックスシステムを促進する可能性がある。 本稿では,この課題について異なるディープニューラルネットワーク(dnn)アーキテクチャの比較検討を行いながら,ギターの曲に適用される歪みやクリップの除去に焦点をあてる。 クリーン信号が重畳されていなければ, タスクはより困難である一方, 歪み信号に重畳される効果に対して, DNNを用いた歪み除去の優れた結果が得られる。 それにもかかわらず、後者の場合、評価中のニューラルモデルは、ソースと歪みの比率で1つの最先端のデクリッピングシステムを超え、より良い品質とより高速な推論をもたらす。

Audio effects are an essential element in the context of music production, and therefore, modeling analog audio effects has been extensively researched for decades using system-identificatio n methods, circuit simulation, and recently, deep learning. However, only few works tackled the reconstruction of signals that were processed using an audio effect unit. Given the recent advances in music source separation and automatic mixing, the removal of audio effects could facilitate an automatic remixing system. This paper focuses on removing distortion and clipping applied to guitar tracks for music production while presenting a comparative investigation of different deep neural network (DNN) architectures on this task. We achieve exceptionally good results in distortion removal using DNNs for effects that superimpose the clean signal to the distorted signal, while the task is more challenging if the clean signal is not superimposed. Nevertheless, in the latter case, the neural models under evaluation surpass one state-of-the-art declipping system in terms of source-to-distortion ratio, leading to better quality and faster inference.
翻訳日:2022-02-04 18:06:16 公開日:2022-02-03
# (参考訳) 重み付き頂点彩色におけるモンテカルロ木探索について [全文訳有]

On Monte Carlo Tree Search for Weighted Vertex Coloring ( http://arxiv.org/abs/2202.01665v1 )

ライセンス: CC BY 4.0
Cyril Grelier, Olivier Goudet and Jin-Kao Hao(参考訳) 本研究は,一般化モンテカルロ木探索法(mcts法)と重み付き頂点彩色問題を解決するための専用ヒューリスティックスを組み合わせた最初の研究である。 基本MCTSアルゴリズムから、グリードや局所探索ヒューリスティックといった様々なシミュレーション手法によりMCTSを拡張したアルゴリズムの変種を徐々に導入する。 我々は、よく知られたベンチマークインスタンスを用いて、各組み合わせの値を評価する実験を行う。 また、各戦略の利点と限界に光を当てる実証的な証拠も提供します。

This work presents the first study of using the popular Monte Carlo Tree Search (MCTS) method combined with dedicated heuristics for solving the Weighted Vertex Coloring Problem. Starting with the basic MCTS algorithm, we gradually introduce a number of algorithmic variants where MCTS is extended by various simulation strategies including greedy and local search heuristics. We conduct experiments on well-known benchmark instances to assess the value of each studied combination. We also provide empirical evidence to shed light on the advantages and limits of each strategy.
翻訳日:2022-02-04 17:42:42 公開日:2022-02-03
# (参考訳) 大規模比較データにおける信頼度ランキング [全文訳有]

Ranking with Confidence for Large Scale Comparison Data ( http://arxiv.org/abs/2202.01670v1 )

ライセンス: CC BY 4.0
Filipa Valdeira, Cl\'audia Soares(参考訳) 本研究では,比較ノイズを考慮した生成データモデルを用いて,各比較に対する信頼度を推定するペア比較から,高速で高精度で情報的ランキングアルゴリズムを開発する。 ノイズとスパースな対数比較データから多数の項目をランク付けする問題は、オンラインゲームにおけるランキングプレイヤー、文書検索、人間知覚のランク付けなど、さまざまなアプリケーションで発生します。 異なるアルゴリズムが利用できるが、比較の数が小さすぎると精度が低下する高速で大規模なアルゴリズムが必要である。 提案モデルを適合させるには,準凸関数と正規化項の和で近似する非凸最適化問題を解くことが必要となる。 繰り返し再重み付けされた最小化と主元-双次ハイブリッド勾配法を用いて,データモデルに適合するシミュレーションデータにおける誤比較の10\%であっても,すべての比較方法よりもケンドールtau 0.1を高い値で達成し,ブラッドレー・テリーモデルによるデータ生成を数秒で1桁早く行う場合の精度を導いた。 実データでは、PD-Rankはアクティブな学習方法よりも、同じKendall tauを達成するのに計算時間が少ない。

In this work, we leverage a generative data model considering comparison noise to develop a fast, precise, and informative ranking algorithm from pairwise comparisons that produces a measure of confidence on each comparison. The problem of ranking a large number of items from noisy and sparse pairwise comparison data arises in diverse applications, like ranking players in online games, document retrieval or ranking human perceptions. Although different algorithms are available, we need fast, large-scale algorithms whose accuracy degrades gracefully when the number of comparisons is too small. Fitting our proposed model entails solving a non-convex optimization problem, which we tightly approximate by a sum of quasi-convex functions and a regularization term. Resorting to an iterative reweighted minimization and the Primal-Dual Hybrid Gradient method, we obtain PD-Rank, achieving a Kendall tau 0.1 higher than all comparing methods, even for 10\% of wrong comparisons in simulated data matching our data model, and leading in accuracy if data is generated according to the Bradley-Terry model, in both cases faster by one order of magnitude, in seconds. In real data, PD-Rank requires less computational time to achieve the same Kendall tau than active learning methods.
翻訳日:2022-02-04 17:28:08 公開日:2022-02-03
# (参考訳) 非整合データセット間の固有距離に対するlog-euclideanシグネチャ [全文訳有]

Log-Euclidean Signatures for Intrinsic Distances Between Unaligned Datasets ( http://arxiv.org/abs/2202.01671v1 )

ライセンス: CC BY 4.0
Tal Shnitzer, Mikhail Yurochkin, Kristjan Greenewald and Justin Solomon(参考訳) 未知のアライメントによるデータセットの効率的な比較と表現の必要性は、モデル分析から機械学習の比較、医療データセットの集合におけるトレンド発見まで、さまざまな分野にまたがる。 離散サンプルから連続ラプラス・ベルトラミ作用素を近似した対称正定値行列(SPD)を比較して、異なるデータセットの固有幾何構造を比較するために多様体学習を用いる。 既存の手法は通常、そのような演算子を点的に比較したり、既知のデータアライメントを仮定する。 代わりに、SPD行列のリーマン幾何学を利用してこれらの作用素を比較し、対数ユークリッド計量の下界に基づいて新たな理論上の動機付けられた距離を定義する。 本フレームワークは,異なるサイズ,特徴数,測定モダリティを持つデータセットで表現されるデータ多様体の比較を容易にする。 当社のlog-euclidean signature(les)距離は有意義な構造的差異を回復し、さまざまなアプリケーションドメインにおける競合メソッドを上回っています。

The need for efficiently comparing and representing datasets with unknown alignment spans various fields, from model analysis and comparison in machine learning to trend discovery in collections of medical datasets. We use manifold learning to compare the intrinsic geometric structures of different datasets by comparing their diffusion operators, symmetric positive-definite (SPD) matrices that relate to approximations of the continuous Laplace-Beltrami operator from discrete samples. Existing methods typically compare such operators in a pointwise manner or assume known data alignment. Instead, we exploit the Riemannian geometry of SPD matrices to compare these operators and define a new theoretically-motiva ted distance based on a lower bound of the log-Euclidean metric. Our framework facilitates comparison of data manifolds expressed in datasets with different sizes, numbers of features, and measurement modalities. Our log-Euclidean signature (LES) distance recovers meaningful structural differences, outperforming competing methods in various application domains.
翻訳日:2022-02-04 17:08:54 公開日:2022-02-03
# (参考訳) SubOmiEmbed:癌型分類のためのマルチオミクスデータの自己教師付き表現学習 [全文訳有]

SubOmiEmbed: Self-supervised Representation Learning of Multi-omics Data for Cancer Type Classification ( http://arxiv.org/abs/2202.01672v1 )

ライセンス: CC BY 4.0
Sayed Hashim, Muhammad Ali, Karthik Nandakumar, Mohammad Yaqub(参考訳) パーソナライズされた医学では、非常に重要な内在的な情報が高次元のオミクスデータに存在し、多くの分子的特徴と少量のサンプルのために捕捉することが困難である。 様々な種類のオミクスデータがサンプルの様々な側面を示している。 マルチオミクスデータの統合と分析により、腫瘍の広い視野が得られ、臨床意思決定が改善される。 主にDNAメチル化と遺伝子発現プロファイルは、多くの分子的特徴を持つ高次元のデータである。 近年,画像やテキストデータを低次元の潜在空間に埋め込む際に,変分オートエンコーダ(VAE)が広く用いられている。 本プロジェクトでは,特徴分割の自己教師あり学習手法を用いて,低次元潜在空間抽出にvaeモデルを用いるアイデアを拡張した。 VAEでは、モデルに異なる種類のオミクスデータから有意義な表現を学習させ、がんのタイプ分類のような下流のタスクに使用できるようにすることが重要となる。 主な目標は、次元の呪いを克服し、メチル化と発現データを統合し、同じ組織サンプルの異なる側面に関する情報を結合し、生物学的に関連のある特徴を抽出することである。 私たちの拡張では、エンコーダとデコーダをトレーニングして、そのサブセットからデータを再構築しています。 これを行うことで、潜在表現において最も重要な情報をモデルにエンコードさせます。 また、トレーニングやテスト中にどのサブセットが供給されているかをモデルが知るように、サブセットにアイデンティティを追加しました。 実験を行った結果,subomiembedは,より小さなネットワークと,データのサブセットのみを使用することで,ベースラインに匹敵する結果が得られることが分かった。 この作業は、突然変異に基づくゲノムデータを統合するために改善される。

For personalized medicines, very crucial intrinsic information is present in high dimensional omics data which is difficult to capture due to the large number of molecular features and small number of available samples. Different types of omics data show various aspects of samples. Integration and analysis of multi-omics data give us a broad view of tumours, which can improve clinical decision making. Omics data, mainly DNA methylation and gene expression profiles are usually high dimensional data with a lot of molecular features. In recent years, variational autoencoders (VAE) have been extensively used in embedding image and text data into lower dimensional latent spaces. In our project, we extend the idea of using a VAE model for low dimensional latent space extraction with the self-supervised learning technique of feature subsetting. With VAEs, the key idea is to make the model learn meaningful representations from different types of omics data, which could then be used for downstream tasks such as cancer type classification. The main goals are to overcome the curse of dimensionality and integrate methylation and expression data to combine information about different aspects of same tissue samples, and hopefully extract biologically relevant features. Our extension involves training encoder and decoder to reconstruct the data from just a subset of it. By doing this, we force the model to encode most important information in the latent representation. We also added an identity to the subsets so that the model knows which subset is being fed into it during training and testing. We experimented with our approach and found that SubOmiEmbed produces comparable results to the baseline OmiEmbed with a much smaller network and by using just a subset of the data. This work can be improved to integrate mutation-based genomic data as well.
翻訳日:2022-02-04 16:40:28 公開日:2022-02-03
# (参考訳) 時系列自動予測パイプラインのレビュー

Review of automated time series forecasting pipelines ( http://arxiv.org/abs/2202.01712v1 )

ライセンス: CC BY 4.0
Stefan Meisenbacher, Marian Turowski, Kaleb Phipps, Martin R\"atz, Dirk M\"uller, Veit Hagenmeyer, Ralf Mikut(参考訳) 時系列予測は、エネルギーシステムや経済学など様々な分野の様々なユースケースにおいて基礎となる。 特定のユースケースの予測モデルを作成するには、反復的で複雑な設計プロセスが必要です。 典型的な設計プロセスは、(1)データ前処理、(2)特徴工学、(3)ハイパーパラメータ最適化、(4)予測方法の選択、(5)パイプライン構造で一般的に構成される予測センシングの5つのセクションを含む。 時系列予測の継続的な需要に対応するための有望なアプローチのひとつは、この設計プロセスを自動化することだ。 そこで本研究では,時系列予測自動化パイプラインに関する既存の文献を分析し,予測モデルの設計プロセスの自動化方法について検討する。 これにより、単一の予測パイプラインで自動機械学習(automl)と自動統計予測手法の両方を検討することができる。 この目的のために,提案するパイプライン区間の自動化手法をまず提示し,比較する。 次に,5つのパイプラインセクションの相互作用,組み合わせ,カバレッジに関する自動化手法を分析する。 両論とも,文献を議論し,問題を特定し,推薦し,今後の研究を提案する。 このレビューは、ほとんどの論文が5つのパイプラインセクションのうち2、3しかカバーしていないことを示している。 時系列予測の大規模適用を可能にするためには,予測パイプラインの自動化を総合的に検討する必要がある。

Time series forecasting is fundamental for various use cases in different domains such as energy systems and economics. Creating a forecasting model for a specific use case requires an iterative and complex design process. The typical design process includes the five sections (1) data pre-processing, (2) feature engineering, (3) hyperparameter optimization, (4) forecasting method selection, and (5) forecast ensembling, which are commonly organized in a pipeline structure. One promising approach to handle the ever-growing demand for time series forecasts is automating this design process. The present paper, thus, analyzes the existing literature on automated time series forecasting pipelines to investigate how to automate the design process of forecasting models. Thereby, we consider both Automated Machine Learning (AutoML) and automated statistical forecasting methods in a single forecasting pipeline. For this purpose, we firstly present and compare the proposed automation methods for each pipeline section. Secondly, we analyze the automation methods regarding their interaction, combination, and coverage of the five pipeline sections. For both, we discuss the literature, identify problems, give recommendations, and suggest future research. This review reveals that the majority of papers only cover two or three of the five pipeline sections. We conclude that future research has to holistically consider the automation of the forecasting pipeline to enable the large-scale application of time series forecasting.
翻訳日:2022-02-04 16:29:13 公開日:2022-02-03
# (参考訳) コンテキスト帯域の対実評価のための変数最適拡張ログ [全文訳有]

Variance-Optimal Augmentation Logging for Counterfactual Evaluation in Contextual Bandits ( http://arxiv.org/abs/2202.01721v1 )

ライセンス: CC BY 4.0
Aaron David Tucker and Thorsten Joachims(参考訳) オフラインa/bテストと非事実学習の方法は,既存のログデータの効率的な再利用を可能にするため,検索システムやレコメンダシステムで急速に採用されている。 しかしながら、これらの手法で一般的に使用される反ファクト的推定器は、ログポリシーが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性があるため、既存のログデータの使用には根本的な制限がある。 この制限を克服するために、我々は既存の帯域フィードバックのデータセットを効果的に強化し、学習と評価の両方にさらなる観察を行うデータ収集ポリシーを設計する方法について検討する。 そこで本研究では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するためのMVAL(Minimum Variance Augmentation Logging)を提案する。 我々は, MVAL ポリシーを効率的に計算するための複数のアプローチを探索し, 推定器の分散を na\ なアプローチよりも大幅に低減できることを示した。

Methods for offline A/B testing and counterfactual learning are seeing rapid adoption in search and recommender systems, since they allow efficient reuse of existing log data. However, there are fundamental limits to using existing log data alone, since the counterfactual estimators that are commonly used in these methods can have large bias and large variance when the logging policy is very different from the target policy being evaluated. To overcome this limitation, we explore the question of how to design data-gathering policies that most effectively augment an existing dataset of bandit feedback with additional observations for both learning and evaluation. To this effect, this paper introduces Minimum Variance Augmentation Logging (MVAL), a method for constructing logging policies that minimize the variance of the downstream evaluation or learning problem. We explore multiple approaches to computing MVAL policies efficiently, and find that they can be substantially more effective in decreasing the variance of an estimator than na\"ive approaches.
翻訳日:2022-02-04 16:28:07 公開日:2022-02-03
# (参考訳) PRUNIX:memristive Acceleratorのための畳み込みニューラルネットワーク解析 [全文訳有]

PRUNIX: Non-Ideality Aware Convolutional Neural Network Pruning for Memristive Accelerators ( http://arxiv.org/abs/2202.01758v1 )

ライセンス: CC BY 4.0
Ali Alshaarawy, Amirali Amirsoleimani, Roman Genov(参考訳) 本研究では、memristorクロスバーベースのアクセラレーターへの展開のために、畳み込みニューラルネットワークのトレーニングと解析のためのフレームワークであるPRUNIXを提案する。 PRUNIXは、ウェイト量子化、ステートドリフト、老朽化、スタント・アット・フォールトを含む、メムリスタクロスバーの多くの非理想効果を考慮に入れている。 PRUNIXは、非理想性と疎性を改善することを目的とした新しいグループソートゥース正規化と、CNNの異なるレイヤのプルーニングに対する感度を考慮して精度損失を最小限に抑えることを目的としたAdaptive Pruning Algorithm(APA)を利用している。 複数のCNNアーキテクチャにおける正規化とプルーニングの手法を他の標準と比較し、量子化や他の非理想的効果を考慮に入れた場合の13%の精度向上を、他の手法と類似した85%で観察する。

In this work, PRUNIX, a framework for training and pruning convolutional neural networks is proposed for deployment on memristor crossbar based accelerators. PRUNIX takes into account the numerous non-ideal effects of memristor crossbars including weight quantization, state-drift, aging and stuck-at-faults. PRUNIX utilises a novel Group Sawtooth Regularization intended to improve non-ideality tolerance as well as sparsity, and a novel Adaptive Pruning Algorithm (APA) intended to minimise accuracy loss by considering the sensitivity of different layers of a CNN to pruning. We compare our regularization and pruning methods with other standards on multiple CNN architectures, and observe an improvement of 13% test accuracy when quantization and other non-ideal effects are accounted for with an overall sparsity of 85%, which is similar to other methods
翻訳日:2022-02-04 15:56:55 公開日:2022-02-03
# (参考訳) 画像による物理学習:風による空間パターンへの応用 [全文訳有]

Learning Physics through Images: An Application to Wind-Driven Spatial Patterns ( http://arxiv.org/abs/2202.01762v1 )

ライセンス: CC BY 4.0
M. Giselle Fern\'andez-Godino, Donald D. Lucas, and Qingkai Kong(参考訳) 何世紀もの間、科学者は物理的世界を支配する法則を理解するために自然を観察してきた。 観察を物理的理解に変える伝統的なプロセスは遅い。 不完全なモデルは、データ内の関係を説明するために構築され、テストされる。 コンピューターが画像やビデオを観察することで物理を学べる強力な新しいアルゴリズムが利用可能だ。 このアイデアに触発されて、物理量を使って機械学習モデルをトレーニングするのではなく、画像、すなわちピクセル情報を使ってトレーニングしました。 この研究と概念の証明のために、関心のある物理学は風による空間パターンである。 これらの現象の例としては、エオリアの砂丘の特徴、火山灰の堆積、山火事煙、大気汚染梅などがある。 その結果, 堆積の対数の大きさを赤色, 緑色, 青色 (rgb) の色画像として記録する撮像装置で空間パターンを収集し, 0~255の範囲の値を含むチャンネルを推定した。 本稿では,深層畳み込みニューラルネットワークを用いたオートエンコーダを用いて,地学でよく見られる風による空間パターンの関係を活用し,その次元性を低減する。 エンコーダでデータサイズを小さくすることで、地理的および気象的なスカラー入力量をエンコーダ空間にリンクする回帰モデルをトレーニングできる。 これを達成すると、デコーダを用いて完全な予測空間パターンを再構築する。 本手法は, 汚染源からの空間沈着像に対して, エンコーダが原寸法の0.02%まで次元を圧縮し, 試験データにおける完全な予測モデル性能を92%の精度で達成する手法である。

For centuries, scientists have observed nature to understand the laws that govern the physical world. The traditional process of turning observations into physical understanding is slow. Imperfect models are constructed and tested to explain relationships in data. Powerful new algorithms are available that can enable computers to learn physics by observing images and videos. Inspired by this idea, instead of training machine learning models using physical quantities, we trained them using images, that is, pixel information. For this work, and as a proof of concept, the physics of interest are wind-driven spatial patterns. Examples of these phenomena include features in Aeolian dunes and the deposition of volcanic ash, wildfire smoke, and air pollution plumes. We assume that the spatial patterns were collected by an imaging device that records the magnitude of the logarithm of deposition as a red, green, blue (RGB) color image with channels containing values ranging from 0 to 255. In this paper, we explore deep convolutional neural network-based autoencoders to exploit relationships in wind-driven spatial patterns, which commonly occur in geosciences, and reduce their dimensionality. Reducing the data dimension size with an encoder allows us to train regression models linking geographic and meteorological scalar input quantities to the encoded space. Once this is achieved, full predictive spatial patterns are reconstructed using the decoder. We demonstrate this approach on images of spatial deposition from a pollution source, where the encoder compresses the dimensionality to 0.02% of the original size and the full predictive model performance on test data achieves an accuracy of 92%.
翻訳日:2022-02-04 15:46:19 公開日:2022-02-03
# (参考訳) 極弱スーパービジョンによる多物理探査 [全文訳有]

Exploring Multi-physics with Extremely Weak Supervision ( http://arxiv.org/abs/2202.01770v1 )

ライセンス: CC BY 4.0
Shihang Feng, Peng Jin, Yinpeng Chen, Xitong Zhang, Zicheng Liu, Youzuo Lin(参考訳) マルチフィジカルインバージョンは、地球物理学において重要な役割を果たす。 様々な物理的特性(速度や伝導率など)を同時に推定するために広く用いられている。 これらの逆問題のうち、いくつかは偏微分方程式(PDE)によって明示的に支配されるが、他の問題はそうではない。 明示的な支配方程式がなければ、従来の多物理反転技術は実現不可能であり、データ駆動反転には高価な完全なラベルが必要である。 この問題を克服するため,我々は,データ駆動型マルチフィジカルインバージョン技術を開発した。 我々の重要な発見は、擬似ラベルは、非常に狭い場所で物理特性間の局所的な関係を学習することで構築できるということである。 本研究では,2つの異なる測定値(地震データ,emデータ)から3つの物理特性(速度,導電率,co$_2$飽和)への多元的インバージョン問題を検討する。 この結果から, 明示的な支配方程式を使わずに特性を逆転できることがわかった。 さらに、3つの物理特性に関するラベルデータは、50倍(100から2箇所まで)に減少させることができる。

Multi-physical inversion plays a critical role in geophysics. It has been widely used to infer various physical properties (such as velocity and conductivity), simultaneously. Among those inversion problems, some are explicitly governed by partial differential equations (PDEs), while others are not. Without explicit governing equations, conventional multi-physical inversion techniques will not be feasible and data-driven inversion require expensive full labels. To overcome this issue, we develop a new data-driven multi-physics inversion technique with extremely weak supervision. Our key finding is that the pseudo labels can be constructed by learning the local relationship among geophysical properties at very sparse locations. We explore a multi-physics inversion problem from two distinct measurements (seismic and EM data) to three geophysical properties (velocity, conductivity, and CO$_2$ saturation). Our results show that we are able to invert for properties without explicit governing equations. Moreover, the label data on three geophysical properties can be significantly reduced by 50 times (from 100 down to only 2 locations).
翻訳日:2022-02-04 15:33:32 公開日:2022-02-03
# システム生物学:システム生物学情報ニューラルネットワークによる識別可能性分析とパラメータ同定

Systems Biology: Identifiability analysis and parameter identification via systems-biology informed neural networks ( http://arxiv.org/abs/2202.01723v1 )

ライセンス: Link先を確認
Mitchell Daneker and Zhen Zhang and George Em Karniadakis and Lu Lu(参考訳) システム生物学的プロセスのダイナミクスは、通常、ノイズやスパースの測定から推測する必要がある多くの未知のパラメータを持つ通常の微分方程式(ODE)のシステムによってモデル化される。 本稿では,ODEのシステムをニューラルネットワークに組み込んだパラメータ推定のためのシステム生物学情報ニューラルネットワークを提案する。 システム同定のワークフローを完成するために,パラメータの識別性を分析するための構造的かつ実用的な識別可能性解析についても述べる。 糖-インスリン相互作用の例として, ウリジアン・エンドクリンモデルを用いて, これらの方法とその実装を実証する。

The dynamics of systems biological processes are usually modeled by a system of ordinary differential equations (ODEs) with many unknown parameters that need to be inferred from noisy and sparse measurements. Here, we introduce systems-biology informed neural networks for parameter estimation by incorporating the system of ODEs into the neural networks. To complete the workflow of system identification, we also describe structural and practical identifiability analysis to analyze the identifiability of parameters. We use the ultridian endocrine model for glucose-insulin interaction as the example to demonstrate all these methods and their implementation.
翻訳日:2022-02-04 15:18:10 公開日:2022-02-03
# RipsNet: 点雲の永続的ホモロジーを高速かつ堅牢に推定するための汎用アーキテクチャ

RipsNet: a general architecture for fast and robust estimation of the persistent homology of point clouds ( http://arxiv.org/abs/2202.01725v1 )

ライセンス: Link先を確認
Thibault de Surrel, Felix Hensel, Mathieu Carri\`ere, Th\'eo Lacombe, Yuichi Ike, Hiroaki Kurihara, Marc Glisse, Fr\'ed\'eric Chazal(参考訳) トポロジカルデータ分析(TDA)から生じるパーシステンス図(PD)など、現代の機械学習アプリケーションにおけるトポロジカル記述子の使用は、様々な領域において大きな可能性を示している。 しかしながら、それらのアプリケーションにおける実用的利用は、そのような記述子を正確に計算するのに要する計算の複雑さと、低レベルのオフレイアの比率に対する感度の2つの大きな制限によって妨げられることが多い。 本研究では、点クラウド上に構築されたPDの(ベクトル化)推定をRipsNetと呼ぶニューラルネットワークアーキテクチャに委ねることで、これらの2つの負担をデータ駆動環境で回避することを提案する。 与えられたデータセットでトレーニングされると、ripsnetは一般化能力を持って、テストデータのトポロジカル記述子を非常に効率的に見積もることができる。 さらに,1-ワッサーシュタイン距離の点でRipsNetが入力摂動に頑健であることが証明された。これはハウスドルフ安定性のみを享受するPDの標準計算よりも大きく改善され,ノイズ条件下では精度良く計算されたPDよりも大幅に優れる。 合成データと実世界のデータの両方にRipsNetが使われていることを示す。 私たちのオープンソース実装はhttps://github.com/h ensel-f/ripsnetで公開されています。

The use of topological descriptors in modern machine learning applications, such as Persistence Diagrams (PDs) arising from Topological Data Analysis (TDA), has shown great potential in various domains. However, their practical use in applications is often hindered by two major limitations: the computational complexity required to compute such descriptors exactly, and their sensitivity to even low-level proportions of outliers. In this work, we propose to bypass these two burdens in a data-driven setting by entrusting the estimation of (vectorization of) PDs built on top of point clouds to a neural network architecture that we call RipsNet. Once trained on a given data set, RipsNet can estimate topological descriptors on test data very efficiently with generalization capacity. Furthermore, we prove that RipsNet is robust to input perturbations in terms of the 1-Wasserstein distance, a major improvement over the standard computation of PDs that only enjoys Hausdorff stability, yielding RipsNet to substantially outperform exactly-computed PDs in noisy settings. We showcase the use of RipsNet on both synthetic and real-world data. Our open-source implementation is publicly available at https://github.com/h ensel-f/ripsnet and will be included in the Gudhi library.
翻訳日:2022-02-04 15:17:59 公開日:2022-02-03
# 空間コンピューティングと直感的インタラクション: 複合現実とロボティクスの融合

Spatial Computing and Intuitive Interaction: Bringing Mixed Reality and Robotics Together ( http://arxiv.org/abs/2202.01493v1 )

ライセンス: Link先を確認
Jeffrey Delmerico, Roi Poranne, Federica Bogo, Helen Oleynikova, Eric Vollenweider, Stelian Coros, Juan Nieto, Marc Pollefeys(参考訳) 空間コンピューティングは、デバイスが周囲を認識でき、それをデジタル的に表現できる能力であり、人間とロボットの相互作用において新しい能力を提供する。 特に、空間コンピューティングとエゴセントリックセンシングの組み合わせは、人間の行動のキャプチャと理解を可能にし、それらを空間的意味のアクションに変換することで、人間とロボットのコラボレーションのためのエキサイティングな新しい可能性をもたらす。 本稿では,ロボットの新たなユースケースを実現するために,これらの機能を利用するロボットシステムについて述べる。 これらの研究は、人間とロボットの相互作用のツールとしての混合現実のパワーと、人間とロボットの相互作用の未来を駆動する空間コンピューティングと混合現実の可能性を示す。

Spatial computing -- the ability of devices to be aware of their surroundings and to represent this digitally -- offers novel capabilities in human-robot interaction. In particular, the combination of spatial computing and egocentric sensing on mixed reality devices enables them to capture and understand human actions and translate these to actions with spatial meaning, which offers exciting new possibilities for collaboration between humans and robots. This paper presents several human-robot systems that utilize these capabilities to enable novel robot use cases: mission planning for inspection, gesture-based control, and immersive teleoperation. These works demonstrate the power of mixed reality as a tool for human-robot interaction, and the potential of spatial computing and mixed reality to drive the future of human-robot interaction.
翻訳日:2022-02-04 15:17:36 公開日:2022-02-03
# VNEアルゴリズムに基づくICPSとIoTのリソース管理とセキュリティ手法

Resource Management and Security Scheme of ICPSs and IoT Based on VNE Algorithm ( http://arxiv.org/abs/2202.01375v1 )

ライセンス: Link先を確認
Peiying Zhang, Chao Wang, Chunxiao Jiang, Neeraj Kumar, and Qinghua Lu(参考訳) 仮想ネットワーク環境におけるインテリジェントサイバー物理システム(ICPS)の開発は、深刻な課題に直面している。 一方、ICPS構築に基づくモノのインターネット(IoT)は、合理的なネットワークリソースを大量にサポートする必要があります。 一方、ICPSは深刻なネットワークセキュリティ問題に直面している。 ICPSとネットワーク仮想化(NV)の統合により、IoTユーザにとってより効率的なネットワークリソースのサポートとセキュリティ保証が可能になる。 ICPSが直面している2つの問題に基づいて、ICPSにおける資源割り当ての合理性とセキュリティを確保するために、コンピューティング、ストレージリソース、セキュリティ制約を備えた仮想ネットワーク組み込み(VNE)アルゴリズムを提案する。 特に、アルゴリズム性能を改善する手段として強化学習法(RL)を用いる。 rlエージェントの訓練環境として,基盤ネットワークの重要な属性特性を抽出する。 agentはトレーニングを通じて最適なノード埋め込み戦略を導出して、リソース管理とセキュリティのためのicpsの要件を満たすことができる。 仮想リンクの埋め込みは、BFS(Broadth First Search)戦略に基づいている。 したがって、計算、記憶、セキュリティの3次元資源の制約を考慮した包括的2段階rl-vneアルゴリズムである。 最後に,vneアルゴリズムの典型的な指標の観点から,多数のシミュレーション実験を設計する。 実験結果は,ICPSの適用におけるアルゴリズムの有効性を効果的に示すものである。

The development of Intelligent Cyber-Physical Systems (ICPSs) in virtual network environment is facing severe challenges. On the one hand, the Internet of things (IoT) based on ICPSs construction needs a large amount of reasonable network resources support. On the other hand, ICPSs are facing severe network security problems. The integration of ICPSs and network virtualization (NV) can provide more efficient network resource support and security guarantees for IoT users. Based on the above two problems faced by ICPSs, we propose a virtual network embedded (VNE) algorithm with computing, storage resources and security constraints to ensure the rationality and security of resource allocation in ICPSs. In particular, we use reinforcement learning (RL) method as a means to improve algorithm performance. We extract the important attribute characteristics of underlying network as the training environment of RL agent. Agent can derive the optimal node embedding strategy through training, so as to meet the requirements of ICPSs for resource management and security. The embedding of virtual links is based on the breadth first search (BFS) strategy. Therefore, this is a comprehensive two-stage RL-VNE algorithm considering the constraints of computing, storage and security three-dimensional resources. Finally, we design a large number of simulation experiments from the perspective of typical indicators of VNE algorithms. The experimental results effectively illustrate the effectiveness of the algorithm in the application of ICPSs.
翻訳日:2022-02-04 15:17:22 公開日:2022-02-03
# 太陽風を駆動する太陽熱対流の機械的学習

Machine Learning Solar Wind Driving Magnetospheric Convection in Tail Lobes ( http://arxiv.org/abs/2202.01383v1 )

ライセンス: Link先を確認
Xin Cao, Jasper S. Halekas, Stein Haaland, Suranga Ruhunusiri, Karl-Heinz Glassmeier(参考訳) 磁気テールローブの磁気圏対流の駆動機構を地球規模で定量的に研究するために、深尾のアルテミス宇宙船と近尾のクラスター宇宙船のデータを利用する。 以前の研究では、月の近傍のローブでは、月のイオン速度のARTEMIS測定を利用して対流を推定できることを示した。 本稿では、これらのデータセットを機械学習モデルを用いて解析し、上流因子が異なる磁極領域でローブ対流を駆動するかを判断し、テールローブの力学を制御するメカニズムを理解する。 その結果、機械学習モデルの予測対流速度とテスト対流速度(> 0.75)の相関は、多重線形回帰モデル(~ 0.23 - 0.43)よりもずっと優れていることがわかった。 系統的な分析により、IMFと磁気圏活性は、大域磁気圏のプラズマ対流に影響を与える重要な役割を果たすことが明らかとなった。

To quantitatively study the driving mechanisms of magnetospheric convection in the magnetotail lobes on a global scale, we utilize data from the ARTEMIS spacecraft in the deep tail and the Cluster spacecraft in the near tail. Previous work demonstrated that, in the lobes near the Moon, we can estimate the convection by utilizing ARTEMIS measurements of lunar ions velocity. In this paper, we analyze these datasets with machine learning models to determine what upstream factors drive the lobe convection in different magnetotail regions and thereby understand the mechanisms that control the dynamics of the tail lobes. Our results show that the correlations between the predicted and test convection velocities for the machine learning models (> 0.75) are much better than those of the multiple linear regression model (~ 0.23 - 0.43). The systematic analysis reveals that the IMF and magnetospheric activity play an important role in influencing plasma convection in the global magnetotail lobes.
翻訳日:2022-02-04 15:17:04 公開日:2022-02-03
# (参考訳) マシンは一般的なキューシステムを解くことができるか? [全文訳有]

Can machines solve general queueing systems? ( http://arxiv.org/abs/2202.01729v1 )

ライセンス: CC BY 4.0
Eliran Sherzer, Arik Senderovich, Opher Baron and Dmitry Krass(参考訳) 本稿では,機械が待ち行列理論の一般的な問題をいかに解決できるかを分析する。 この質問に答えるために、我々は深層学習モデルを用いて、M/G/1$キュー(Poissonの到着、一般的なサービス時間、1サーバ)の待ち行列長分布を予測する。 私たちの知る限りでは、一般的な待ち行列理論問題に機械学習モデルを適用するのはこれが初めてです。 この論文では、解析的フロンティアの「カスプ」にあるため、M/G/1$キューを選択した:一方、このモデルの正確な解は、計算的かつ数学的に複雑である。 一方、問題(特にサービス時間分布)は一般的である。 これにより、ディープラーニングアプローチの精度と効率を分析解と比較することができる。 この問題に機械学習を適用する上での2つの重要な課題は、(1) "ジェネリック" 正値分布のよい表現を提供する多様なトレーニング例を生成し、(2)サービス時間の連続分布を入力として表現することである。 これらの課題を克服する方法を示します。 我々のモデルでは,M/G/1$キューの平均値が0.0009$である場合,M/G/1$キューの定常挙動を極めて正確に予測できることがわかった。 さらに、我々の機械学習モデルは、非常に効率的で、非常に正確な定常分布を1秒で計算する(シミュレーションモデリングに基づくアプローチでは、収束するのにはるかに時間がかかる)。 また,実生活環境を模倣したケーススタディを提案し,提案手法が従来の手法よりも堅牢で,より正確なソリューションを提供することを示す。 これは我々のアプローチを解析的に解決可能なシステム(例えば$G/G/1$または$G/G/c$)を超えて拡張するという約束を示している。

In this paper, we analyze how well a machine can solve a general problem in queueing theory. To answer this question, we use a deep learning model to predict the stationary queue-length distribution of an $M/G/1$ queue (Poisson arrivals, general service times, one server). To the best of our knowledge, this is the first time a machine learning model is applied to a general queueing theory problem. We chose $M/G/1$ queue for this paper because it lies "on the cusp" of the analytical frontier: on the one hand exact solution for this model is available, which is both computationally and mathematically complex. On the other hand, the problem (specifically the service time distribution) is general. This allows us to compare the accuracy and efficiency of the deep learning approach to the analytical solutions. The two key challenges in applying machine learning to this problem are (1) generating a diverse set of training examples that provide a good representation of a "generic" positive-valued distribution, and (2) representations of the continuous distribution of service times as an input. We show how we overcome these challenges. Our results show that our model is indeed able to predict the stationary behavior of the $M/G/1$ queue extremely accurately: the average value of our metric over the entire test set is $0.0009$. Moreover, our machine learning model is very efficient, computing very accurate stationary distributions in a fraction of a second (an approach based on simulation modeling would take much longer to converge). We also present a case-study that mimics a real-life setting and shows that our approach is more robust and provides more accurate solutions compared to the existing methods. This shows the promise of extending our approach beyond the analytically solvable systems (e.g., $G/G/1$ or $G/G/c$).
翻訳日:2022-02-04 15:13:57 公開日:2022-02-03
# 小児科の体重管理プログラムはいつから残るのか? --引き込みパターンの予測のための機械学習アプローチ

Who will Leave a Pediatric Weight Management Program and When? -- A machine learning approach for predicting attrition patterns ( http://arxiv.org/abs/2202.01765v1 )

ライセンス: Link先を確認
Hamed Fayyaz, Thao-Ly T. Phan, H. Timothy Bunnell, Rahmatollah Beheshti(参考訳) 小児肥満は公衆衛生の重要な問題である。 多学際的な小児の体重管理プログラムは、プライマリケア環境ではうまく管理できない肥満と重度の肥満の子供に対する標準的な治療と考えられているが、高い脱落率(脱落率)は、治療を成功させる上で大きなハードルとなっている。 トリオンパターンの予測は、プロバイダによるトリオン率の削減に役立つ。 従来の研究は主に統計的分析手法による誘惑の静的予測器の発見に重点を置いてきた。 本研究では,予測のための機械学習モデルを提案する。 a)誘惑の可能性、及び (b)体重管理プログラムに参加した後、異なる時点における子どもの体重指数(bmi)のパーセンタイルの変化。 小児の体重管理プログラムnemoursのデータを用いて集計した約4,550人の子どもに関する情報を含む5年間のデータセットを用いた。 本モデルでは,各タスクにおけるAUROCスコアの高い値(平均AUROC0.75,重み付け予測0.73)により,高い予測性能を示す。 さらに, 一連の説明実験において, 減量と重み付けを予測できる最上位特徴について報告する。

Childhood obesity is a major public health concern. Multidisciplinary pediatric weight management programs are considered standard treatment for children with obesity and severe obesity who are not able to be successfully managed in the primary care setting; however, high drop-out rates (referred to as attrition) are a major hurdle in delivering successful interventions. Predicting attrition patterns can help providers reduce the attrition rates. Previous work has mainly focused on finding static predictors of attrition using statistical analysis methods. In this study, we present a machine learning model to predict (a) the likelihood of attrition, and (b) the change in body-mass index (BMI) percentile of children, at different time points after joining a weight management program. We use a five-year dataset containing the information related to around 4,550 children that we have compiled using data from the Nemours Pediatric Weight Management program. Our models show strong prediction performance as determined by high AUROC scores across different tasks (average AUROC of 0.75 for predicting attrition, and 0.73 for predicting weight outcomes). Additionally, we report the top features predicting attrition and weight outcomes in a series of explanatory experiments.
翻訳日:2022-02-04 14:52:08 公開日:2022-02-03
# 遅延予測を用いたマルチドメイン仮想ネットワーク埋め込みアルゴリズム

A multi-domain virtual network embedding algorithm with delay prediction ( http://arxiv.org/abs/2202.01473v1 )

ライセンス: Link先を確認
Peiying Zhang, Xue Pang, Yongjing Ni, Haipeng Yao, Xin Li(参考訳) 仮想ネットワーク埋め込み(VNE)は、仮想ネットワーク(VN)を共有基板ネットワーク(SN)にマッピングすることを目的としたネットワーク仮想化(NV)の重要な部分である。 様々な遅延センシティブなアプリケーションが現れ、システムの遅延パフォーマンスを改善する方法が学術界でホットな話題となっている。 本研究では,遅延予測(DP-VNE)に基づくマルチドメイン仮想ネットワーク埋め込みアルゴリズムを提案する。 まず、仮想要求の遅延を推定して候補物理ノードを選択し、次にパーティクルスワム最適化(PSO)アルゴリズムを用いてマッピングプロセスの最適化を行い、システムの遅延を低減する。 シミュレーションの結果,他の3つのアルゴリズムと比較して,提案手法はシステムの遅延を著しく低減し,他の指標に影響を与えないことを示す。

Virtual network embedding (VNE) is an crucial part of network virtualization (NV), which aims to map the virtual networks (VNs) to a shared substrate network (SN). With the emergence of various delay-sensitive applications, how to improve the delay performance of the system has become a hot topic in academic circles. Based on extensive research, we proposed a multi-domain virtual network embedding algorithm based on delay prediction (DP-VNE). Firstly, the candidate physical nodes are selected by estimating the delay of virtual requests, then particle swarm optimization (PSO) algorithm is used to optimize the mapping process, so as to reduce the delay of the system. The simulation results show that compared with the other three advanced algorithms, the proposed algorithm can significantly reduce the system delay while keeping other indicators unaffected.
翻訳日:2022-02-04 14:51:35 公開日:2022-02-03
# 自動運転におけるAI-as-a-Service Toolkit

AI-as-a-Service Toolkit for Human-Centered Intelligence in Autonomous Driving ( http://arxiv.org/abs/2202.01645v1 )

ライセンス: Link先を確認
Valerio De Caro, Saira Bano, Achilles Machumilane, Alberto Gotta, Pietro Cassar\'a, Antonio Carta, Christos Sardianos, Christos Chronis, Iraklis Varlamis, Konstantinos Tserpes, Vincenzo Lomonaco, Claudio Gallicchio and Davide Bacciu(参考訳) 本稿では,h2020教育プロジェクトで開発されたai-as-a-serviceツールキットの概念実証実装を行い,自動運転者のストレス認識アルゴリズムの出力に応じて自律運転パーソナライズシステムを実装し,サイバー物理システムを実現する。 さらに,さまざまなセンサ,例えばウェアラブルやカメラからデータを収集し,ストレス認識を自動化するデータ収集サブシステムを実装した。 このシステムは、運転エミュレーションソフトウェアであるCARLAに、最小限のコストで、危険ドライバーや乗客を乗せることなく、アプローチの実現可能性をテストするために取り付けられた。 相対的なサブシステムのコアでは、Deep Neural Networks、Recurrent Neural Networks、Reinforcement Learningを用いて異なる学習アルゴリズムを実装した。

This paper presents a proof-of-concept implementation of the AI-as-a-service toolkit developed within the H2020 TEACHING project and designed to implement an autonomous driving personalization system according to the output of an automatic driver's stress recognition algorithm, both of them realizing a Cyber-Physical System of Systems. In addition, we implemented a data-gathering subsystem to collect data from different sensors, i.e., wearables and cameras, to automatize stress recognition. The system was attached for testing to a driving emulation software, CARLA, which allows testing the approach's feasibility with minimum cost and without putting at risk drivers and passengers. At the core of the relative subsystems, different learning algorithms were implemented using Deep Neural Networks, Recurrent Neural Networks, and Reinforcement Learning.
翻訳日:2022-02-04 14:51:21 公開日:2022-02-03
# 自動アルゴリズム構成手法の検討

A Survey of Methods for Automated Algorithm Configuration ( http://arxiv.org/abs/2202.01651v1 )

ライセンス: Link先を確認
Elias Schede, Jasmin Brandt, Alexander Tornede, Marcel Wever, Viktor Bengs, Eyke H\"ullermeier, Kevin Tierney(参考訳) アルゴリズム構成(ac)は、パラメータ化アルゴリズムの最も適切なパラメータ構成の自動探索に関係している。 現在、この文献では様々なAC問題と方法が提案されている。 既存のレビューは、ac問題のすべての微分を考慮せず、完全な分類スキームも提供していない。 この目的のために, ac問題と構成法の特徴を記述するために, 分類法を導入する。 我々は,我々の分類学のレンズ内に存在する既存のAC文献を概説し,構成手法,コントラスト法,問題変異の関連設計選択について概説し,産業におけるACの現状について述べる。 最後に,我々は,AC分野の今後の研究方向性を研究者や実践者に提供する。

Algorithm configuration (AC) is concerned with the automated search of the most suitable parameter configuration of a parametrized algorithm. There is currently a wide variety of AC problem variants and methods proposed in the literature. Existing reviews do not take into account all derivatives of the AC problem, nor do they offer a complete classification scheme. To this end, we introduce taxonomies to describe the AC problem and features of configuration methods, respectively. We review existing AC literature within the lens of our taxonomies, outline relevant design choices of configuration approaches, contrast methods and problem variants against each other, and describe the state of AC in industry. Finally, our review provides researchers and practitioners with a look at future research directions in the field of AC.
翻訳日:2022-02-04 14:51:06 公開日:2022-02-03
# MFA:短時間発話によるテキスト独立話者検証のためのマルチスケール周波数チャネル注意TDNN

MFA: TDNN with Multi-scale Frequency-channel Attention for Text-independent Speaker Verification with Short Utterances ( http://arxiv.org/abs/2202.01624v1 )

ライセンス: Link先を確認
Tianchi Liu, Rohan Kumar Das, Kong Aik Lee, Haizhou Li(参考訳) 時間遅延ニューラルネットワーク(TDNN)は、テキストに依存しない話者検証に対するニューラルネットワークの最先端の1つである。 しかし、任意の局所周波数領域の話者特性を捉えるために、多数のフィルタを必要とする。 さらに、このようなシステムの性能は短い発話シナリオで劣化する可能性がある。 これらの問題に対処するために、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。 我々は,提案したMFAをVoxCelebデータベース上で評価し,パラメータと計算複雑性を低減しつつ,MFAを用いたフレームワークが最先端の性能を実現することを観察した。 さらに, MFA機構は, 短時間の音声による話者検証に有効であることがわかった。

The time delay neural network (TDNN) represents one of the state-of-the-art of neural solutions to text-independent speaker verification. However, they require a large number of filters to capture the speaker characteristics at any local frequency region. In addition, the performance of such systems may degrade under short utterance scenarios. To address these issues, we propose a multi-scale frequency-channel attention (MFA), where we characterize speakers at different scales through a novel dual-path design which consists of a convolutional neural network and TDNN. We evaluate the proposed MFA on the VoxCeleb database and observe that the proposed framework with MFA can achieve state-of-the-art performance while reducing parameters and computation complexity. Further, the MFA mechanism is found to be effective for speaker verification with short test utterances.
翻訳日:2022-02-04 14:50:34 公開日:2022-02-03
# インスタンス学習による弱教師付き核セグメンテーション

Weakly Supervised Nuclei Segmentation via Instance Learning ( http://arxiv.org/abs/2202.01564v1 )

ライセンス: Link先を確認
Weizhen Liu, Qian He, Xuming He(参考訳) 弱い教師付き核セグメンテーションは病理画像解析において重要な問題であり、ラベリングコストの大幅な削減によりコミュニティに大きな利益がある。 ポイントアノテーションを採用すると、従来のメソッドは、主に核インスタンスの表現表現が少ないため、混み合った核を扱うのが困難になる。 本稿では,より効果的なサブタスク学習を実現するために,弱教師付きセマンティクスとインスタンスセマンティクスを分離し,インスタンス認識表現学習を促進することを提案する。 これを実現するために、セマンティック・プロポーザル・ネットワークとインスタンス・エンコーディング・ネットワークという2つのブランチを持つモジュール型のディープ・ネットワークを設計し、インスタンスに敏感な損失を伴って2段階的に訓練する。 実験の結果, 臓器の病理像を2つの公開ベンチマークで評価し, 現状の成果が得られた。

Weakly supervised nuclei segmentation is a critical problem for pathological image analysis and greatly benefits the community due to the significant reduction of labeling cost. Adopting point annotations, previous methods mostly rely on less expressive representations for nuclei instances and thus have difficulty in handling crowded nuclei. In this paper, we propose to decouple weakly supervised semantic and instance segmentation in order to enable more effective subtask learning and to promote instance-aware representation learning. To achieve this, we design a modular deep network with two branches: a semantic proposal network and an instance encoding network, which are trained in a two-stage manner with an instance-sensitive loss. Empirical results show that our approach achieves the state-of-the-art performance on two public benchmarks of pathological images from different types of organs.
翻訳日:2022-02-04 14:48:57 公開日:2022-02-03
# 変形性アテンションピラミッドを用いた高速オンラインビデオ超解像

Fast Online Video Super-Resolution with Deformable Attention Pyramid ( http://arxiv.org/abs/2202.01731v1 )

ライセンス: Link先を確認
Dario Fuoli, Martin Danelljan, Radu Timofte, Luc Van Gool(参考訳) ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。 これらの設定下でのVSR問題に対処し、将来のフレームからの情報が利用できないため、さらなる重要な課題を提起する。 重要なのは、効率的かつ効果的なフレームアライメントと融合モジュールの設計だ。 本稿では,変形性アテンションピラミッド(DAP)に基づく再帰型VSRアーキテクチャを提案する。 DAPは、リカレント状態からの情報を現在のフレーム予測に調整し、統合します。 従来の注目手法の計算コストを回避するため,DAPによって動的に予測される空間的位置の限られた数にのみ参加する。 提案する重要なイノベーションの総合的な実験と分析は、我々のアプローチの有効性を示している。 高い性能を維持しながら,最先端手法と比較して処理時間を著しく短縮する。 我々は,3倍以上のスピードアップを持つ2つの標準ベンチマークにおいて,最先端のEDVR-Mを超越した。

Video super-resolution (VSR) has many applications that pose strict causal, real-time, and latency constraints, including video streaming and TV. We address the VSR problem under these settings, which poses additional important challenges since information from future frames are unavailable. Importantly, designing efficient, yet effective frame alignment and fusion modules remain central problems. In this work, we propose a recurrent VSR architecture based on a deformable attention pyramid (DAP). Our DAP aligns and integrates information from the recurrent state into the current frame prediction. To circumvent the computational cost of traditional attention-based methods, we only attend to a limited number of spatial locations, which are dynamically predicted by the DAP. Comprehensive experiments and analysis of the proposed key innovations show the effectiveness of our approach. We significantly reduce processing time in comparison to state-of-the-art methods, while maintaining a high performance. We surpass state-of-the-art method EDVR-M on two standard benchmarks with a speed-up of over 3x.
翻訳日:2022-02-04 14:48:41 公開日:2022-02-03
# m2metチャレンジのためのroyalflush音声認識システム

The RoyalFlush System of Speech Recognition for M2MeT Challenge ( http://arxiv.org/abs/2202.01614v1 )

ライセンス: Link先を確認
Shuaishuai Ye, Peiyao Wang, Shunfei Chen, Xinhui Hu, and Xinkang Xu(参考訳) 本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。 大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。 まず,多チャンネル重み付き予測誤差 (WPE) やビームフォーミング, 音声分離, 音声強調などを含むフロントエンド手法を用いて, トレーニング, 検証, テストセットの処理を行った。 しかし,実験結果により,WPEとビームフォーミングのみをフロントエンドとして選択した。 第2に,主に雑音や残響の付加,重複音声シミュレーション,マルチチャネル音声シミュレーション,速度摂動,フロントエンド処理などの多話者ASRのデータ拡張に多大な取り組みを行い,性能向上を実現した。 最後に、異なるモデルアーキテクチャのパフォーマンス補完をフル活用するために、標準コンストラクタベースの共同CTC/Attention(Confor mer)とU2++ ASRモデルを双方向アテンションデコーダ(Conformerの修正)で訓練し、その結果を融合させた。 公式のベースラインシステムと比較すると、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。

This paper describes our RoyalFlush system for the track of multi-speaker automatic speech recognition (ASR) in the M2MeT challenge. We adopted the serialized output training (SOT) based multi-speakers ASR system with large-scale simulation data. Firstly, we investigated a set of front-end methods, including multi-channel weighted predicted error (WPE), beamforming, speech separation, speech enhancement and so on, to process training, validation and test sets. But we only selected WPE and beamforming as our frontend methods according to their experimental results. Secondly, we made great efforts in the data augmentation for multi-speaker ASR, mainly including adding noise and reverberation, overlapped speech simulation, multi-channel speech simulation, speed perturbation, front-end processing, and so on, which brought us a great performance improvement. Finally, in order to make full use of the performance complementary of different model architecture, we trained the standard conformer based joint CTC/Attention (Conformer) and U2++ ASR model with a bidirectional attention decoder, a modification of Conformer, to fuse their results. Comparing with the official baseline system, our system got a 12.22% absolute Character Error Rate (CER) reduction on the validation set and 12.11% on the test set.
翻訳日:2022-02-04 14:48:08 公開日:2022-02-03
# schr\"odinger方程式解における自己整合勾配様固有分解

Self-consistent Gradient-like Eigen Decomposition in Solving Schr\"odinger Equations ( http://arxiv.org/abs/2202.01388v1 )

ライセンス: Link先を確認
Xihan Li, Xiang Chen, Rasul Tutunov, Haitham Bou-Ammar, Lei Wang, Jun Wang(参考訳) schr\"odinger方程式は現代の量子力学の中心にある。 基底状態の厳密解は典型的には難解であるため、標準的アプローチではシュル=オディンガー方程式を非線形一般化固有値問題 $f(v)v = sv\lambda$ の形に近似し、分解される行列 $f(v)$ は自身のトップ-k$最小の固有ベクトル $v$ の関数であり、「自己矛盾問題」をもたらす。 伝統的な反復法は、量子力学に基づくドメイン固有ヒューリスティック法によって生成される$V$の高品質な初期推定に大きく依存している。 本稿では,$f(v)$を特別な"オンラインデータジェネレータ"として扱う,新しいフレームワークである自己整合勾配様固有分解(scgled)を提示することにより,k$-pcaストリーミングにおける勾配的固有分解法を,オンライン学習と同様の反復的な方法でスクラッチから解くことにより,ドメイン固有のヒューリスティックスの必要性を解消する。 いくつかの重要な数値的な改善により、SCGLEDは最初の推測に頑健であり、量子力学に基づくヒューリスティックス設計を含まない。 我々の実験では、従来のヒューリスティックスに基づく初期推定手法を、大きな性能上の利点で置き換えるだけでなく、従来の反復的手法を使わずに、より高精度な解を見つけることができることを示した。

The Schr\"odinger equation is at the heart of modern quantum mechanics. Since exact solutions of the ground state are typically intractable, standard approaches approximate Schr\"odinger equation as forms of nonlinear generalized eigenvalue problems $F(V)V = SV\Lambda$ in which $F(V)$, the matrix to be decomposed, is a function of its own top-$k$ smallest eigenvectors $V$, leading to a "self-consistency problem". Traditional iterative methods heavily rely on high-quality initial guesses of $V$ generated via domain-specific heuristics methods based on quantum mechanics. In this work, we eliminate such a need for domain-specific heuristics by presenting a novel framework, Self-consistent Gradient-like Eigen Decomposition (SCGLED) that regards $F(V)$ as a special "online data generator", thus allows gradient-like eigendecomposition methods in streaming $k$-PCA to approach the self-consistency of the equation from scratch in an iterative way similar to online learning. With several critical numerical improvements, SCGLED is robust to initial guesses, free of quantum-mechanism-ba sed heuristics designs, and neat in implementation. Our experiments show that it not only can simply replace traditional heuristics-based initial guess methods with large performance advantage (achieved averagely 25x more precise than the best baseline in similar wall time), but also is capable of finding highly precise solutions independently without any traditional iterative methods.
翻訳日:2022-02-04 14:46:01 公開日:2022-02-03
# 量子変分回路の最適化手法に関する実証的レビュー

An Empirical Review of Optimization Techniques for Quantum Variational Circuits ( http://arxiv.org/abs/2202.01389v1 )

ライセンス: Link先を確認
Owen Lockwood(参考訳) 量子変分回路(qvcs)は、短期と長期の両方の量子ハードウェアの最も強力な用途の1つとしてしばしば主張される。 これらの回路を最適化するための標準的なアプローチは、最適化ステップごとに新しいパラメータを計算する古典的なシステムに依存している。 しかし、この過程は、指数関数的に拡大する複素ヒルベルト空間、バレン高原、および予測可能な全ての量子ハードウェアに存在する雑音の両方において極めて困難である。 様々な最適化アルゴリズムが実際に用いられているが、理論的あるいは経験的なモチベーションが欠如していることが多い。 この目的のために、様々な最適化タスクにおいて、多くの共通勾配と勾配のないオプティマイザのポテンシャルを実証的に評価する。 これらのタスクには古典的および量子的データに基づく最適化ルーチンが含まれる。 評価は無騒音シミュレーションと無騒音シミュレーションの両方で行った。 多数の問題とオプティマイザは、現在不足しているQVCのオプティマイザを選択するための強力な実証的なガイダンスをもたらす。

Quantum Variational Circuits (QVCs) are often claimed as one of the most potent uses of both near term and long term quantum hardware. The standard approaches to optimizing these circuits rely on a classical system to compute the new parameters at every optimization step. However, this process can be extremely challenging both in terms of navigating the exponentially scaling complex Hilbert space, barren plateaus, and the noise present in all foreseeable quantum hardware. Although a variety of optimization algorithms are employed in practice, there is often a lack of theoretical or empirical motivations for this choice. To this end we empirically evaluate the potential of many common gradient and gradient free optimizers on a variety of optimization tasks. These tasks include both classical and quantum data based optimization routines. Our evaluations were conducted in both noise free and noisy simulations. The large number of problems and optimizers yields strong empirical guidance for choosing optimizers for QVCs that is currently lacking.
翻訳日:2022-02-04 14:45:24 公開日:2022-02-03
# いくつかの保護クラスによる公正表現クラスタリング

Fair Representation Clustering with Several Protected Classes ( http://arxiv.org/abs/2202.01391v1 )

ライセンス: Link先を確認
Zhen Dai, Yury Makarychev, Ali Vakilian(参考訳) 我々は、各クラスタが異なるグループの個人を公平に表現する必要があるフェア$k$-medianの問題を研究する。 公正表現 $k$-median 問題では、計量空間において点のセット $x$ が与えられる。 各点 $x\in x$ は $\ell$ グループに属する。 さらに、各群 $j\in [\ell]$ に対して、フェア表現パラメータ $\alpha_j$ と $\beta_j$ が与えられる。 a $k$-clustering $C_1, \cdots, C_k$ が全ての群を表すのは、群 $j$ in cluster $C_i$ が $\alpha_j |C_i|$ と $\beta_j |C_i|$ の間にあるときである。 その目的は、$(\mathcal{c}, \phi)$ で定義されるクラスタリングがすべての群を表し、$\ell_1$-objective $\sum_{x\in x} d(x, \phi(x))$ を最小化するような、$\phi: x\rightarrow \mathcal{c}$ と$\phi: x\rightarrow \mathcal{c}$ を見つけることである。 我々は、$n^{o(\ell)}$で実行される$o(\log k)$近似アルゴリズムを示す。 この問題の既知のアルゴリズムについても注意。 (i)不公平の制約を付加項で破る、又は (ii)$k$と$\ell$の両方で指数関数的な時間で実行する。 また、すべての$j\in [\ell]$に対して、$\alpha_j = \beta_j = \frac{f_j}{f}$ と $f_j, f \in \mathbb{N}$ が問題の重要な特別な場合を考える。 この特別な場合には、$(kf)^{o(\ell)}\log n + poly(n)$ timeで実行される$o(\log k)$近似アルゴリズムを示す。

We study the problem of fair $k$-median where each cluster is required to have a fair representation of individuals from different groups. In the fair representation $k$-median problem, we are given a set of points $X$ in a metric space. Each point $x\in X$ belongs to one of $\ell$ groups. Further, we are given fair representation parameters $\alpha_j$ and $\beta_j$ for each group $j\in [\ell]$. We say that a $k$-clustering $C_1, \cdots, C_k$ fairly represents all groups if the number of points from group $j$ in cluster $C_i$ is between $\alpha_j |C_i|$ and $\beta_j |C_i|$ for every $j\in[\ell]$ and $i\in [k]$. The goal is to find a set $\mathcal{C}$ of $k$ centers and an assignment $\phi: X\rightarrow \mathcal{C}$ such that the clustering defined by $(\mathcal{C}, \phi)$ fairly represents all groups and minimizes the $\ell_1$-objective $\sum_{x\in X} d(x, \phi(x))$. We present an $O(\log k)$-approximation algorithm that runs in time $n^{O(\ell)}$. Note that the known algorithms for the problem either (i) violate the fairness constraints by an additive term or (ii) run in time that is exponential in both $k$ and $\ell$. We also consider an important special case of the problem where $\alpha_j = \beta_j = \frac{f_j}{f}$ and $f_j, f \in \mathbb{N}$ for all $j\in [\ell]$. For this special case, we present an $O(\log k)$-approximation algorithm that runs in $(kf)^{O(\ell)}\log n + poly(n)$ time.
翻訳日:2022-02-04 14:45:09 公開日:2022-02-03
# ブラックボックスと嗜好に基づく最適化のための統一サロゲートベーススキーム

A unified surrogate-based scheme for black-box and preference-based optimization ( http://arxiv.org/abs/2202.01468v1 )

ライセンス: Link先を確認
Davide Previtali, Mirko Mazzoleni, Antonio Ferramosca, Fabio Previdi(参考訳) ブラックボックスと選好に基づく最適化アルゴリズムは最適化問題の大域的解を求める大域的最適化手法であり、最小限の機能評価やサンプル比較を可能な限り利用することを目的としている。 ブラックボックスの場合、対象関数の解析的な表現は不明であり、(高価な)コンピュータシミュレーションや実験を通してのみ評価することができる。 嗜好に基づく場合、目的関数はまだ不明であるが、個人の主観的基準に対応する。 したがって、そのような基準を信頼性と一貫性のある方法で定量化することは不可能である。 したがって、選好に基づく最適化アルゴリズムは、人間の意思決定者がどちらが好ましいかを示す、異なるサンプルのカップル間の比較のみを使用して、グローバルソリューションを求める。 ブラックボックスと好みベースのフレームワークは別々にカバーされ、異なるテクニックで処理されることが多い。 本稿では,ブラックボックスと嗜好に基づく最適化問題が密接に関連しており,同じ手法,すなわちサロゲート法を用いて解決可能であることを示す。 また、一般的なMSRSフレームワークを一般化した最適化スキームである一般化メトリック応答面(gMRS)アルゴリズムを提案する。 最後に,提案手法の収束証明について述べる。

Black-box and preference-based optimization algorithms are global optimization procedures that aim to find the global solutions of an optimization problem using, respectively, the least amount of function evaluations or sample comparisons as possible. In the black-box case, the analytical expression of the objective function is unknown and it can only be evaluated through a (costly) computer simulation or an experiment. In the preference-based case, the objective function is still unknown but it corresponds to the subjective criterion of an individual. So, it is not possible to quantify such criterion in a reliable and consistent way. Therefore, preference-based optimization algorithms seek global solutions using only comparisons between couples of different samples, for which a human decision-maker indicates which of the two is preferred. Quite often, the black-box and preference-based frameworks are covered separately and are handled using different techniques. In this paper, we show that black-box and preference-based optimization problems are closely related and can be solved using the same family of approaches, namely surrogate-based methods. Moreover, we propose the generalized Metric Response Surface (gMRS) algorithm, an optimization scheme that is a generalization of the popular MSRS framework. Finally, we provide a convergence proof for the proposed optimization method.
翻訳日:2022-02-04 14:44:33 公開日:2022-02-03
# 分布不等式メトリクスを用いたコンテンツレコメンデーションアルゴリズムの異なる結果の測定

Measuring Disparate Outcomes of Content Recommendation Algorithms with Distributional Inequality Metrics ( http://arxiv.org/abs/2202.01615v1 )

ライセンス: Link先を確認
Tomo Lazovich, Luca Belli, Aaron Gonzales, Amanda Bower, Uthaipon Tantipongpipat, Kristian Lum, Ferenc Huszar, Rumman Chowdhury(参考訳) アルゴリズム決定システムの有害な影響は最近注目されており、機械学習(ML)モデルのような多くのシステムの例は、既存の社会的バイアスを増幅している。 MLアルゴリズムから生じる格差を定量化しようとするほとんどの指標は、グループ間の差異に焦点を当て、人口密度に基づいてユーザーを分割し、モデルの性能やグループ間の全体的な結果を比較する。 しかし、業界ではそのような情報は利用できないことが多く、これらの特徴を推測することは独自のリスクとバイアスをもたらす。 さらに、単一の分類器の出力にフォーカスする典型的なメトリクスは、現実世界の設定で結果を生み出すシステムの複雑なネットワークを無視します。 本稿では, 生産推薦システム, Twitter のアルゴリズム・タイムラインにおいて, 経済, 流通不平等指標, および, コンテンツの露出の差異を測定する能力から得られた指標の集合を評価する。 我々は、特にML実践者が運用環境で使用するメトリクスの望ましい基準を定義します。 これらの指標を用いて、twitter上のコンテンツに対するさまざまなタイプのエンゲージメントを特徴付け、これらの結果を用いて、望ましい基準に対するメトリクスを評価する。 これらのメトリクスを用いて、ユーザ間の歪んだ結果に強く寄与するコンテンツ提案アルゴリズムを特定できることを示す。 全体として、これらの指標は、オンラインソーシャルネットワークにおける異なる結果を理解するのに有用なツールであると結論づける。

The harmful impacts of algorithmic decision systems have recently come into focus, with many examples of systems such as machine learning (ML) models amplifying existing societal biases. Most metrics attempting to quantify disparities resulting from ML algorithms focus on differences between groups, dividing users based on demographic identities and comparing model performance or overall outcomes between these groups. However, in industry settings, such information is often not available, and inferring these characteristics carries its own risks and biases. Moreover, typical metrics that focus on a single classifier's output ignore the complex network of systems that produce outcomes in real-world settings. In this paper, we evaluate a set of metrics originating from economics, distributional inequality metrics, and their ability to measure disparities in content exposure in a production recommendation system, the Twitter algorithmic timeline. We define desirable criteria for metrics to be used in an operational setting, specifically by ML practitioners. We characterize different types of engagement with content on Twitter using these metrics, and use these results to evaluate the metrics with respect to the desired criteria. We show that we can use these metrics to identify content suggestion algorithms that contribute more strongly to skewed outcomes between users. Overall, we conclude that these metrics can be useful tools for understanding disparate outcomes in online social networks.
翻訳日:2022-02-04 14:44:13 公開日:2022-02-03
# 認知マップの作り方:海馬形成モデルからの洞察

How to build a cognitive map: insights from models of the hippocampal formation ( http://arxiv.org/abs/2202.01682v1 )

ライセンス: Link先を確認
James C.R. Whittington, David McCaffary, Jacob J.W. Bakermans, Timothy E.J. Behrens(参考訳) 環境の構造を学習し、解釈することは、生物学的システムの本質的な特徴であり、進化的生存性のための柔軟な行動の導出に不可欠である。 認知地図の概念は、これらの能力の主要なメタファーの1つとして現れ、そのような地図の学習と神経表現が神経科学の中心となっている。 実験者は、海馬などにおける認知地図の神経基質の詳細な画像を提供しているが、理論家はニューロン、計算、行動の分割を橋渡しするモデルの構築に忙しかった。 これらのモデルは、様々な既知の表現や神経現象を説明できるが、認知地図の基本原理だけでなく、海馬と大脳皮質の役割についても、しばしば異なる理解を与える。 このパースペクティブでは、これらのモデルの多くを共通言語に導入し、認知地図構築の基本原理を駆使し、ニューラル現象の(再)解釈を提供し、前頭前皮質の表現を考慮に入れた原理をどのように拡張できるかを示唆し、最後に、認知地図の認知能力向上における役割を推測する。

Learning and interpreting the structure of the environment is an innate feature of biological systems, and is integral to guiding flexible behaviours for evolutionary viability. The concept of a cognitive map has emerged as one of the leading metaphors for these capacities, and unravelling the learning and neural representation of such a map has become a central focus of neuroscience. While experimentalists are providing a detailed picture of the neural substrate of cognitive maps in hippocampus and beyond, theorists have been busy building models to bridge the divide between neurons, computation, and behaviour. These models can account for a variety of known representations and neural phenomena, but often provide a differing understanding of not only the underlying principles of cognitive maps, but also the respective roles of hippocampus and cortex. In this Perspective, we bring many of these models into a common language, distil their underlying principles of constructing cognitive maps, provide novel (re)interpretations for neural phenomena, suggest how the principles can be extended to account for prefrontal cortex representations and, finally, speculate on the role of cognitive maps in higher cognitive capacities.
翻訳日:2022-02-04 14:43:50 公開日:2022-02-03
# (参考訳) 学習分類器システムにおけるルール発見とグローバルソリューション構成の分離 [全文訳有]

Separating Rule Discovery and Global Solution Composition in a Learning Classifier System ( http://arxiv.org/abs/2202.01677v1 )

ライセンス: CC BY 4.0
Michael Heider, Helena Stegherr, Jonathan Wurth, Roman Sraj, J\"org H\"ahner(参考訳) 重要な意思決定を支援するデジタルエージェントの利用は、多くの産業シナリオで増加している。 しかし、これらのエージェントによる提案に対する信頼は達成し難いが、アプリケーションから利益を得るには不可欠であり、結果として意思決定プロセスとモデル自体の両方の説明が必要である。 一般的なディープラーニングブラックボックスモデルのような多くのシステムでは、少なくともいくつかの説明可能性を達成するには複雑な後処理が必要です。 本稿では,これらのシナリオに特化して設計され,特に好適なルールベース学習システムを提案し,長い研究履歴を持つ卓越したルールベース学習システムであるXCSFに対する回帰問題と比較する。 このシステムの重要な利点は、ルールの条件と、問題に対する解決策を構成するルールが別々に進化することである。 独立したルール適合性を利用して、ユーザが所定の要件を満たすように、モデル構造を特別に調整する。 suprb2の評価結果はxcsfと同等であり、モデル構造の制御が容易であり、ランダムな種子やデータ分割に対する感度がかなり小さいことが判明した。 この制御の強化は、トレーニングとモデルの最終的な構造の両方を説明するのに役立つ。

The utilization of digital agents to support crucial decision making is increasing in many industrial scenarios. However, trust in suggestions made by these agents is hard to achieve, though essential for profiting from their application, resulting in a need for explanations for both the decision making process as well as the model itself. For many systems, such as common deep learning black-box models, achieving at least some explainability requires complex post-processing, while other systems profit from being, to a reasonable extent, inherently interpretable. In this paper we propose an easily interpretable rule-based learning system specifically designed and thus especially suited for these scenarios and compare it on a set of regression problems against XCSF, a prominent rule-based learning system with a long research history. One key advantage of our system is that the rules' conditions and which rules compose a solution to the problem are evolved separately. We utilise independent rule fitnesses which allows users to specifically tailor their model structure to fit the given requirements for explainability. We find that the results of SupRB2's evaluation are comparable to XCSF's while allowing easier control of model structure and showing a substantially smaller sensitivity to random seeds and data splits. This increased control aids in subsequently providing explanations for both the training and the final structure of the model.
翻訳日:2022-02-04 14:42:59 公開日:2022-02-03
# 手話認識のためのサブスケルトン軌道探索

Exploring Sub-skeleton Trajectories for Interpretable Recognition of Sign Language ( http://arxiv.org/abs/2202.01390v1 )

ライセンス: Link先を確認
Joachim Gudmundsson, Martin P. Seybold, John Pfeifer(参考訳) 近年のトラッキングセンサとポーズ推定ソフトウェアの進歩により、スマートシステムは骨格関節位置の軌跡を教師付き学習に利用できるようになった。 難聴者と非難聴者とのコミュニケーションギャップを狭める鍵となる手話単語を正確に認識する問題について検討する。 本手法は,移動の「サブスケルトン」という幾何学的特徴空間を探索する。 特徴空間軌跡の類似性を自然, 速度不変距離尺度を用いて評価し, 明瞭かつ洞察に富む近傍分類を可能にした。 基本的手法の単純さとスケーラビリティにより、パラメータチューニングをほとんど行わずに、異なるデータドメインで即時に適用できます。 そこで本研究では,アプリケーションドメインの異なるデータと追跡技術を用いて,基本手法の有効性と変化の増大を実証する。 驚くべきことに、私たちのシンプルな方法は、最近の最先端のアプローチよりもサイン認識を改善します。

Recent advances in tracking sensors and pose estimation software enable smart systems to use trajectories of skeleton joint locations for supervised learning. We study the problem of accurately recognizing sign language words, which is key to narrowing the communication gap between hard and non-hard of hearing people. Our method explores a geometric feature space that we call `sub-skeleton' aspects of movement. We assess similarity of feature space trajectories using natural, speed invariant distance measures, which enables clear and insightful nearest neighbor classification. The simplicity and scalability of our basic method allows for immediate application in different data domains with little to no parameter tuning. We demonstrate the effectiveness of our basic method, and a boosted variation, with experiments on data from different application domains and tracking technologies. Surprisingly, our simple methods improve sign recognition over recent, state-of-the-art approaches.
翻訳日:2022-02-04 14:28:17 公開日:2022-02-03
# 低遅延スパイクニューラルネットワークの最適化電位初期化

Optimized Potential Initialization for Low-latency Spiking Neural Networks ( http://arxiv.org/abs/2202.01440v1 )

ライセンス: Link先を確認
Tong Bu, Jianhao Ding, Zhaofei Yu, Tiejun Huang(参考訳) スパイキングニューラルネットワーク (SNN) は低消費電力, 生物学的可視性, 敵の強靭性といった特徴により, 非常に重要視されている。 ディープSNNをトレーニングする最も効果的な方法は、ディープネットワーク構造と大規模データセットで最高のパフォーマンスを得るANN-to-SNN変換である。 しかし、正確さとレイテンシの間にはトレードオフがある。 元のアンとして高い精度を達成するためには、スパイクニューロンの発射速度とアナログニューロンの活性化値とを一致させるために長いシミュレーション時間が必要であり、snの実用的利用を妨げる。 本稿では,非常に低レイテンシ(32段階未満)で高性能に変換されたSNNを実現することを目的とする。 まずANN-to-SNN変換を理論的に解析し、しきい値のスケーリングが重み正規化と同じような役割を果たすことを示す。 モデルキャパシティを犠牲にしてANN-SNN変換を促進する制約を導入する代わりに,初期膜電位を最適化して各層における変換損失を低減することによって,より直接的な手法を適用した。 さらに,膜電位の最適初期化により,期待される誤りのないANN-to-SNN変換を実現できることを示す。 我々は,CIFAR-10,CIFAR-100, ImageNetのデータセットを用いてアルゴリズムを評価し,より少ない時間ステップで最先端の精度を実現する。 例えば、CIFAR-10でトップ1の精度は93.38\%に達し、タイムステップは16である。 さらに,本手法は他のANN-SNN変換手法にも適用可能であり,時間ステップが小さい場合の性能が著しく向上する。

Spiking Neural Networks (SNNs) have been attached great importance due to the distinctive properties of low power consumption, biological plausibility, and adversarial robustness. The most effective way to train deep SNNs is through ANN-to-SNN conversion, which have yielded the best performance in deep network structure and large-scale datasets. However, there is a trade-off between accuracy and latency. In order to achieve high precision as original ANNs, a long simulation time is needed to match the firing rate of a spiking neuron with the activation value of an analog neuron, which impedes the practical application of SNN. In this paper, we aim to achieve high-performance converted SNNs with extremely low latency (fewer than 32 time-steps). We start by theoretically analyzing ANN-to-SNN conversion and show that scaling the thresholds does play a similar role as weight normalization. Instead of introducing constraints that facilitate ANN-to-SNN conversion at the cost of model capacity, we applied a more direct way by optimizing the initial membrane potential to reduce the conversion loss in each layer. Besides, we demonstrate that optimal initialization of membrane potentials can implement expected error-free ANN-to-SNN conversion. We evaluate our algorithm on the CIFAR-10, CIFAR-100 and ImageNet datasets and achieve state-of-the-art accuracy, using fewer time-steps. For example, we reach top-1 accuracy of 93.38\% on CIFAR-10 with 16 time-steps. Moreover, our method can be applied to other ANN-SNN conversion methodologies and remarkably promote performance when the time-steps is small.
翻訳日:2022-02-04 14:28:04 公開日:2022-02-03
# 物理インスパイアされたグラフニューラルネットワークによるグラフカラー化

Graph Coloring with Physics-Inspired Graph Neural Networks ( http://arxiv.org/abs/2202.01606v1 )

ライセンス: Link先を確認
Martin J. A. Schuetz, J. Kyle Brubaker, Zhihuai Zhu, Helmut G. Katzgraber(参考訳) 正準グラフ着色問題の解法としてグラフニューラルネットワークを用いる方法を示す。 グラフ彩色を多クラスノード分類問題として枠付けし,統計物理学的ポッツモデルに基づく教師なし学習戦略を用いる。 コミュニティ検出、データクラスタリング、最小のクランクカバー問題など、他のマルチクラス問題への一般化は簡単である。 提案手法は,汎用的なエンコード・プロセス・デコード・フレームワーク内の実世界のスケジューリング・ユースケースに対して,エンド・ツー・エンドのアプリケーションを用いて検証する。 我々の最適化アプローチは、既存の解法と同等かそれ以上かで、何百万もの変数で問題にスケールできる。

We show how graph neural networks can be used to solve the canonical graph coloring problem. We frame graph coloring as a multi-class node classification problem and utilize an unsupervised training strategy based on the statistical physics Potts model. Generalizations to other multi-class problems such as community detection, data clustering, and the minimum clique cover problem are straightforward. We provide numerical benchmark results and illustrate our approach with an end-to-end application for a real-world scheduling use case within a comprehensive encode-process-decod e framework. Our optimization approach performs on par or outperforms existing solvers, with the ability to scale to problems with millions of variables.
翻訳日:2022-02-04 14:27:34 公開日:2022-02-03
# 直接分子コンフォーメーション生成

Direct Molecular Conformation Generation ( http://arxiv.org/abs/2202.01356v1 )

ライセンス: Link先を確認
Jinhua Zhu, Yingce Xia, Chang Liu, Lijun Wu, Shufang Xie, Tong Wang, Yusong Wang, Wengang Zhou, Tao Qin, Houqiang Li, Tie-Yan Liu(参考訳) 分子配座生成は分子内の全ての原子の3次元座標を生成することを目的としており、バイオインフォマティクスや薬理学において重要な課題である。 従来の距離に基づく手法はまず原子間距離を予測し、それに基づいてコンフォメーションを生成する。 本研究では,原子の座標を直接予測する手法を提案する。 我々は、分子内の対称原子の配座と置換の座標のロト変換に不変な共形生成のための専用損失関数を設計する。 さらに,複数のブロックを積み重ねるバックボーンモデルも設計し,各ブロックが先行するブロックによって生成されたコンフォメーションを洗練する。 2万ドルのトレーニングデータを持つ小規模のgeom-qm9とgeom-drugsでは、以前のベストマッチングスコアを3.5\%$と28.9\%$で改善することができる。 これにより,本手法の有効性と直接的アプローチの可能性を示す。 私たちのコードは \url{https://github.com/D irectMolecularConfGe n/DMCG} でリリースされています。

Molecular conformation generation aims to generate three-dimensional coordinates of all the atoms in a molecule and is an important task in bioinformatics and pharmacology. Previous distance-based methods first predict interatomic distances and then generate conformations based on them, which could result in conflicting distances. In this work, we propose a method that directly predicts the coordinates of atoms. We design a dedicated loss function for conformation generation, which is invariant to roto-translation of coordinates of conformations and permutation of symmetric atoms in molecules. We further design a backbone model that stacks multiple blocks, where each block refines the conformation generated by its preceding block. Our method achieves state-of-the-art results on four public benchmarks: on small-scale GEOM-QM9 and GEOM-Drugs which have $200$K training data, we can improve the previous best matching score by $3.5\%$ and $28.9\%$; on large-scale GEOM-QM9 and GEOM-Drugs which have millions of training data, those two improvements are $47.1\%$ and $36.3\%$. This shows the effectiveness of our method and the great potential of the direct approach. Our code is released at \url{https://github.com/D irectMolecularConfGe n/DMCG}.
翻訳日:2022-02-04 14:26:58 公開日:2022-02-03
# スパースガイドポイントによる単眼深度推定の高速化

Boosting Monocular Depth Estimation with Sparse Guided Points ( http://arxiv.org/abs/2202.01470v1 )

ライセンス: Link先を確認
Guangkai Xu, Wei Yin, Hao Chen, Kai Cheng, Feng Zhao, Chunhua Shen(参考訳) 既存の単眼深度の推定は野生において優れたロバスト性を示すが、アフィン不変量予測は計量深度に変換されながら、地球規模での基底真理と一致する必要がある。 本研究では,まず,局所重み付き線形回帰戦略を改良し,スパース・グラウンド・真理を活用し,グローバル・リカバリ戦略によってもたらされる粗悪な不一致を補正するフレキシブルな深さ変換を生成する。 この戦略を適用することで、5つのゼロショットデータセットの最新の最先端メソッドに対して、大幅な改善(最大50%以上)を達成できます。 さらに,630万データを用いたロバストな深さ推定モデルをトレーニングし,不正確性を粗悪な不正確な不正確さと詳細の欠如に分離して,トレーニングプロセスを解析する。 その結果、ResNet50に基づくモデルは、回復戦略の助けを借りて最先端のDPT ViT-Largeモデルよりも優れています。 精度に加えて、フレーム毎のビデオ深度推定にも一貫性が強化される。 単眼深度推定,ロバストなビデオ深度推定,および深度補完法と比較して,我々のパイプラインは,ポストプロセッシングなしで映像深度推定の最先端性能を得る。 映像奥行きの一致から3次元シーンの再構成実験を行い,直観的比較を行った。

Existing monocular depth estimation shows excellent robustness in the wild, but the affine-invariant prediction requires aligning with the ground truth globally while being converted into the metric depth. In this work, we firstly propose a modified locally weighted linear regression strategy to leverage sparse ground truth and generate a flexible depth transformation to correct the coarse misalignment brought by global recovery strategy. Applying this strategy, we achieve significant improvement (more than 50% at most) over most recent state-of-the-art methods on five zero-shot datasets. Moreover, we train a robust depth estimation model with 6.3 million data and analyze the training process by decoupling the inaccuracy into coarse misalignment inaccuracy and detail missing inaccuracy. As a result, our model based on ResNet50 even outperforms the state-of-the-art DPT ViT-Large model with the help of our recovery strategy. In addition to accuracy, the consistency is also boosted for simple per-frame video depth estimation. Compared with monocular depth estimation, robust video depth estimation, and depth completion methods, our pipeline obtains state-of-the-art performance on video depth estimation without any post-processing. Experiments of 3D scene reconstruction from consistent video depth are conducted for intuitive comparison as well.
翻訳日:2022-02-04 14:26:35 公開日:2022-02-03
# 不確かさを考慮した動き符号化による軌道予測

Trajectory Forecasting from Detection with Uncertainty-Aware Motion Encoding ( http://arxiv.org/abs/2202.01478v1 )

ライセンス: Link先を確認
Pu Zhang, Lei Bai, Jianru Xue, Jianwu Fang, Nanning Zheng, Wanli Ouyang(参考訳) 軌道予測は、自律プラットフォームが安全な計画と行動を行うために重要である。 現在、ほとんどの軌道予測手法は、対象軌道が抽出されたと仮定し、基底真理軌道に基づいて軌道予測器を直接開発している。 しかし、この仮定は現実の状況では成り立たない。 物体検出と追跡から得られる軌道は必然的にノイズが多く、地上真理軌道上に構築された予測器に深刻な予測誤差を引き起こす可能性がある。 本稿では, 検出結果に基づいて, 明示的に生成した軌跡に依存しない軌道予測器を提案する。 エージェントの運動キューを、その明確な軌跡に基づいてエンコードする従来の方法とは異なり、検出結果のうち、親和性キューのみに基づいて動作情報を抽出することにより、関連の不確実性を考慮した親和性認識状態更新機構が設計される。 さらに,複数の適合候補が存在する可能性があることを考慮し,それらの状態を集計する。 この設計は、データアソシエーションから得られるノイズ軌道の望ましくない効果を緩和する。 広範囲にわたるアブレーション実験により, 本手法の有効性と各種検出器に対する一般化能力が検証された。 他の予測手法との比較により,提案手法の優位性がさらに証明される。 コードは受理時にリリースされる。

Trajectory forecasting is critical for autonomous platforms to make safe planning and actions. Currently, most trajectory forecasting methods assume that object trajectories have been extracted and directly develop trajectory predictors based on the ground truth trajectories. However, this assumption does not hold in practical situations. Trajectories obtained from object detection and tracking are inevitably noisy, which could cause serious forecasting errors to predictors built on ground truth trajectories. In this paper, we propose a trajectory predictor directly based on detection results without relying on explicitly formed trajectories. Different from the traditional methods which encode the motion cue of an agent based on its clearly defined trajectory, we extract the motion information only based on the affinity cues among detection results, in which an affinity-aware state update mechanism is designed to take the uncertainty of association into account. In addition, considering that there could be multiple plausible matching candidates, we aggregate the states of them. This design relaxes the undesirable effect of noisy trajectory obtained from data association. Extensive ablation experiments validate the effectiveness of our method and its generalization ability on different detectors. Cross-comparison to other forecasting schemes further proves the superiority of our method. Code will be released upon acceptance.
翻訳日:2022-02-04 14:25:37 公開日:2022-02-03
# マルチステージ時空間グラフ畳み込みニューラルネットワークを用いた骨格に基づくアクションセグメンテーション

Skeleton-Based Action Segmentation with Multi-Stage Spatial-Temporal Graph Convolutional Neural Networks ( http://arxiv.org/abs/2202.01727v1 )

ライセンス: Link先を確認
Benjamin Filtjens, Bart Vanrumste, Peter Slaets(参考訳) モーションキャプチャシーケンスにおけるきめ細かなアクションを識別し、時間分割する能力は、ヒトの動き分析の応用に不可欠である。 モーションキャプチャは通常、人間の移動を人間の関節の位置と方向の時系列または高次の表現として符号化する光学的または慣性測定システムで実行される。 最先端のアクションセグメンテーションアプローチは、時間的畳み込みの複数の段階を使用する。 主なアイデアは、いくつかの時間的畳み込みの層で初期予測を生成し、これらの予測を複数の段階、また時間的畳み込みで洗練することである。 これらの手法は長期の時間的パターンを捉えるが、初期予測は人間の関節の空間的階層を適切に考慮していない。 この制限に対処するため,多段階空間時間グラフ畳み込みニューラルネットワーク(MS-GCN)を提案する。 我々のフレームワークは初期予測生成段階のアーキテクチャを洗練段階から分離する。 具体的には, 時間的畳み込みの初期段階を空間的-時間的グラフ畳み込みに置き換え, 関節の空間的構成と時間的ダイナミクスをよりよく活用する。 私たちのフレームワークは5つのタスクで4つの強いベースラインと比較されました。 実験により,本フレームワークが最先端の性能を達成することを示す。

The ability to identify and temporally segment fine-grained actions in motion capture sequences is crucial for applications in human movement analysis. Motion capture is typically performed with optical or inertial measurement systems, which encode human movement as a time series of human joint locations and orientations or their higher-order representations. State-of-the-art action segmentation approaches use multiple stages of temporal convolutions. The main idea is to generate an initial prediction with several layers of temporal convolutions and refine these predictions over multiple stages, also with temporal convolutions. Although these approaches capture long-term temporal patterns, the initial predictions do not adequately consider the spatial hierarchy among the human joints. To address this limitation, we present multi-stage spatial-temporal graph convolutional neural networks (MS-GCN). Our framework decouples the architecture of the initial prediction generation stage from the refinement stages. Specifically, we replace the initial stage of temporal convolutions with spatial-temporal graph convolutions, which better exploit the spatial configuration of the joints and their temporal dynamics. Our framework was compared to four strong baselines on five tasks. Experimental results demonstrate that our framework achieves state-of-the-art performance.
翻訳日:2022-02-04 14:25:19 公開日:2022-02-03
# Metデータセット: アートワークのインスタンスレベルの認識

The Met Dataset: Instance-level Recognition for Artworks ( http://arxiv.org/abs/2202.01747v1 )

ライセンス: Link先を確認
Nikolaos-Antonios Ypsilantis, Noa Garcia, Guangxing Han, Sarah Ibrahimi, Nanne Van Noord, Giorgos Tolias(参考訳) 本稿では,アートワーク領域における大規模インスタンスレベルの認識のためのデータセットを提案する。 提案するベンチマークでは,クラス間の大きな類似性,ロングテール分布,多数のクラスなど,さまざまな課題が提示されている。 我々は、メトロポリタン博物館のオープンアクセスコレクションを頼りに、約224kクラスの大規模なトレーニングセットを形成し、各クラスは、スタジオ条件下で撮影された写真を含む博物館の展示に対応する。 テストは、主に博物館の客が展示品を描いた写真で行われ、トレーニングとテストの間の配布シフトが導入された。 さらに、Metに関係のない一連の画像に対して、タスクが配布外検出問題に似るようにテストを行う。 提案するベンチマークは、ドメイン独立アプローチの研究を促進するために、異なるドメインでのインスタンスレベルの認識のための他の最近のデータセットのパラダイムに従っている。 将来の比較のためのテストベッドを提供するために、いくつかの適切なアプローチが評価されている。 自己教師付きおよび教師付きコントラスト学習を効果的に組み合わせて、有望な方向を示す非パラメトリック分類に使用されるバックボーンを訓練する。 dataset webpage: http://cmp.felk.cvut .cz/met/

This work introduces a dataset for large-scale instance-level recognition in the domain of artworks. The proposed benchmark exhibits a number of different challenges such as large inter-class similarity, long tail distribution, and many classes. We rely on the open access collection of The Met museum to form a large training set of about 224k classes, where each class corresponds to a museum exhibit with photos taken under studio conditions. Testing is primarily performed on photos taken by museum guests depicting exhibits, which introduces a distribution shift between training and testing. Testing is additionally performed on a set of images not related to Met exhibits making the task resemble an out-of-distribution detection problem. The proposed benchmark follows the paradigm of other recent datasets for instance-level recognition on different domains to encourage research on domain independent approaches. A number of suitable approaches are evaluated to offer a testbed for future comparisons. Self-supervised and supervised contrastive learning are effectively combined to train the backbone which is used for non-parametric classification that is shown as a promising direction. Dataset webpage: http://cmp.felk.cvut .cz/met/
翻訳日:2022-02-04 14:25:00 公開日:2022-02-03
# GALAXY: Extremeでのグラフベースのアクティブラーニング

GALAXY: Graph-based Active Learning at the Extreme ( http://arxiv.org/abs/2202.01402v1 )

ライセンス: Link先を確認
Jifan Zhang, Julian Katz-Samuels, Robert Nowak(参考訳) アクティブラーニング(active learning)は、ラベルのないデータの小さなサブセットのみをラベル付けとトレーニングのために対話的に選択しながら、高度に効率的なモデルをトレーニングするためのラベル効率の高いアプローチである。 オープンワールド"の設定では、関心のあるクラスはデータセット全体のごく一部を構成することができます。 これは極端にクラス不均衡を招き、我々の理論と手法はこの中核的な問題に焦点をあてる。 本稿では,グラフに基づくアクティブラーニングとディープラーニングのアイデアを融合したGALAXY (Graph-based Active Learning At the eXtrEme) という,アクティブラーニングのための新しい戦略を提案する。 GALAXYは、他の多くのアクティブラーニング手法よりも、ラベル付けのためのクラスバランスのよい例を自動的に適応的に選択する。 我々の理論は、GALAXYがバニラ不確実性サンプリングよりもはるかに多くのクラスバランスデータセットを収集する、洗練された不確実性サンプリングを行うことを示している。 実験により、GALAXYは、一般的なデータセットから生成されたアンバランスな視覚分類設定において、既存の最先端のディープラーニングアルゴリズムよりも優れていることを示した。

Active learning is a label-efficient approach to train highly effective models while interactively selecting only small subsets of unlabelled data for labelling and training. In "open world" settings, the classes of interest can make up a small fraction of the overall dataset -- most of the data may be viewed as an out-of-distribution or irrelevant class. This leads to extreme class-imbalance, and our theory and methods focus on this core issue. We propose a new strategy for active learning called GALAXY (Graph-based Active Learning At the eXtrEme), which blends ideas from graph-based active learning and deep learning. GALAXY automatically and adaptively selects more class-balanced examples for labeling than most other methods for active learning. Our theory shows that GALAXY performs a refined form of uncertainty sampling that gathers a much more class-balanced dataset than vanilla uncertainty sampling. Experimentally, we demonstrate GALAXY's superiority over existing state-of-art deep active learning algorithms in unbalanced vision classification settings generated from popular datasets.
翻訳日:2022-02-04 14:21:07 公開日:2022-02-03
# 関節不確かさ推定を用いたデータ駆動型マルコフ鎖を用いたMRI再構成

MRI Reconstruction via Data Driven Markov Chain with Joint Uncertainty Estimation ( http://arxiv.org/abs/2202.01479v1 )

ライセンス: Link先を確認
Guanxiong Luo, Martin Heide, Martin Uecker(参考訳) 本稿では,MRI再構成のための学習確率分布からの効率的なサンプリングを可能にするフレームワークを提案する。 従来のディープラーニングを用いたmri再構成法とは異なり,markov chain monte carlo (mcmc) 法を用いて測定したk空間の後方分布からサンプルを抽出した。 従来の方法で得られる画像の最大アフター(MAP)推定に加えて、最小平均二乗誤差(MMSE)推定と不確実性マップも計算できる。 データ駆動型マルコフ連鎖は、所定の画像データベースから学習した生成モデルから構築され、k空間の測定をモデル化するフォワード演算子とは独立である。 この方法は、異なるサンプリングスキームで取得したk空間や、同じ事前訓練されたモデルを用いて受信コイルに適用できるため、柔軟性を提供する。 さらに, 逆拡散過程に基づくフレームワークを用いて, 高度な生成モデルを活用する。 提案手法の性能を10倍の高速化によるオープンデータセット上で評価する。

We introduce a framework that enables efficient sampling from learned probability distributions for MRI reconstruction. Different from conventional deep learning-based MRI reconstruction techniques, samples are drawn from the posterior distribution given the measured k-space using the Markov chain Monte Carlo (MCMC) method. In addition to the maximum a posteriori (MAP) estimate for the image, which can be obtained with conventional methods, the minimum mean square error (MMSE) estimate and uncertainty maps can also be computed. The data-driven Markov chains are constructed from the generative model learned from a given image database and are independent of the forward operator that is used to model the k-space measurement. This provides flexibility because the method can be applied to k-space acquired with different sampling schemes or receive coils using the same pre-trained models. Furthermore, we use a framework based on a reverse diffusion process to be able to utilize advanced generative models. The performance of the method is evaluated on an open dataset using 10-fold accelerated acquisition.
翻訳日:2022-02-04 14:18:57 公開日:2022-02-03
# 凸強化学習における共通想定の充足

Challenging Common Assumptions in Convex Reinforcement Learning ( http://arxiv.org/abs/2202.01511v1 )

ライセンス: Link先を確認
Mirco Mutti, Riccardo De Santi, Piersilvio De Bartolomeis, Marcello Restelli(参考訳) 古典的強化学習(RL)の定式化はスカラー報酬関数の最大化に関するものである。 最近では、RLの定式化を政策によって誘導される状態分布の凸関数である全ての目的に拡張するために凸RLが導入されている。 特に、凸RLは、模倣学習、リスク・アバースRL、純粋な探索など、スカラー定式化に該当しないいくつかの関連する応用をカバーしている。 古典的なRLでは、実際の軌道の数は実際には有限であるにもかかわらず、経験的状態訪問頻度の代わりに状態分布を考慮に入れた無限の試行目標を最適化することが一般的である。 これは理論上、無限の試行と有限の試行の目的が一致することが証明され、したがって同じ最適ポリシーが導かれるからである。 本稿では、この隠れた仮定が凸RL設定では成立しないことを示す。 特に, 実際の有限公試に代えて, 無限公試目標を誤って最適化することは, 重大な近似誤差を生じさせることを示した。 有限トライアル設定はシミュレーションと実世界のRLの両方でデフォルトであるため、この問題に光を当てることで凸RLのより良いアプローチや方法論がもたらされ、模倣学習、リスク・アバースRL、純粋な探査など、関連する研究領域に影響を与えると信じている。

The classic Reinforcement Learning (RL) formulation concerns the maximization of a scalar reward function. More recently, convex RL has been introduced to extend the RL formulation to all the objectives that are convex functions of the state distribution induced by a policy. Notably, convex RL covers several relevant applications that do not fall into the scalar formulation, including imitation learning, risk-averse RL, and pure exploration. In classic RL, it is common to optimize an infinite trials objective, which accounts for the state distribution instead of the empirical state visitation frequencies, even though the actual number of trajectories is always finite in practice. This is theoretically sound since the infinite trials and finite trials objectives can be proved to coincide and thus lead to the same optimal policy. In this paper, we show that this hidden assumption does not hold in the convex RL setting. In particular, we show that erroneously optimizing the infinite trials objective in place of the actual finite trials one, as it is usually done, can lead to a significant approximation error. Since the finite trials setting is the default in both simulated and real-world RL, we believe shedding light on this issue will lead to better approaches and methodologies for convex RL, impacting relevant research areas such as imitation learning, risk-averse RL, and pure exploration among others.
翻訳日:2022-02-04 14:18:40 公開日:2022-02-03
# ブラックボックス関数のドメイン外一般化の証明

Certifying Out-of-Domain Generalization for Blackbox Functions ( http://arxiv.org/abs/2202.01679v1 )

ライセンス: Link先を確認
Maurice Weber, Linyi Li, Boxin Wang, Zhikuan Zhao, Bo Li, Ce Zhang(参考訳) 有界データ分散シフトにおけるモデル性能のロバスト性の証明は,近年,分散ロバスト性の傘の下で大きな関心を集めている。 しかし、既存の手法はモデルクラスと、勾配のリプシッツ連続性を通して表現される滑らかさのような証明可能な損失関数を強く仮定するか、複雑な最適化問題を解く必要がある。 その結果、これらの技術のより広い適用は、スケーラビリティと柔軟性によって制限されている - これらのテクニックは、現代のディープニューラルネットワークで大規模データセットにスケールしたり、0-1損失のような非スムースな損失関数を処理できないことが多い。 本稿では,ブラックボックスモデルにおける分布ロバスト性および有界損失を他の仮定なしで証明する問題に焦点をあてる。 本稿では,2つの分布の平均距離と分散距離を限定した新しい認証フレームワークを提案する。 我々の認証技術は、ImageNetスケールのデータセット、複雑なモデル、多様な損失関数にスケールする。 次に,大規模ニューラルネットワークと精度やaucなどの損失関数に対する領域外一般化の証明など,スケーラビリティと柔軟性によって実現される特定のアプリケーションに焦点を当てる。 我々は,この認証手法をImageNetなどいくつかのデータセット上で実験的に検証し,最初の非空き証明済みの領域外一般化から,最先端技術との比較が可能なより小さな分類タスクまで提供し,その方法がかなり優れていることを示す。

Certifying the robustness of model performance under bounded data distribution shifts has recently attracted intensive interests under the umbrella of distributional robustness. However, existing techniques either make strong assumptions on the model class and loss functions that can be certified, such as smoothness expressed via Lipschitz continuity of gradients, or require to solve complex optimization problems. As a result, the wider application of these techniques is currently limited by its scalability and flexibility -- these techniques often do not scale to large-scale datasets with modern deep neural networks or cannot handle loss functions which may be non-smooth, such as the 0-1 loss. In this paper, we focus on the problem of certifying distributional robustness for black box models and bounded losses, without other assumptions. We propose a novel certification framework given bounded distance of mean and variance of two distributions. Our certification technique scales to ImageNet-scale datasets, complex models, and a diverse range of loss functions. We then focus on one specific application enabled by such scalability and flexibility, i.e., certifying out-of-domain generalization for large neural networks and loss functions such as accuracy and AUC. We experimentally validate our certification method on a number of datasets, ranging from ImageNet, where we provide the first non-vacuous certified out-of-domain generalization, to smaller classification tasks where we are able to compare with the state-of-the-art and show that our method performs considerably better.
翻訳日:2022-02-04 14:18:14 公開日:2022-02-03
# (参考訳) 物語生成におけるエンティティの一貫性と一貫性 [全文訳有]

Towards Coherent and Consistent Use of Entities in Narrative Generation ( http://arxiv.org/abs/2202.01709v1 )

ライセンス: CC BY-SA 4.0
Pinelopi Papalampidi, Kris Cao, Tomas Kocisky(参考訳) 大規模な事前学習された言語モデル(lms)は、長く、流動的なテキストを生成する素晴らしい能力を示しているが、エンティティの一貫性と一貫性を維持する能力に関する分析はほとんどない。 本研究では,物語生成の最終課題に着目し,生成した物語における長距離エンティティの一貫性と一貫性を体系的に解析する。 まず、エンティティ使用量の観点からモデル性能を測定するための自動メトリクスセットを提案する。 これらの指標から、現在のLMの限界を定量化する。 次に,メモリへの読み込みと書き込みを誘導する補助エンティティ関連損失を用いて,動的エンティティメモリで事前学習したlmをエンドツーエンドで拡張することを提案する。 動的エンティティメモリは、自動判定と人的判定の両方に応じてエンティティコヒーレンスを増大させ、特に限られたコンテキストウィンドウの設定においてエンティティ関連情報の保存を支援する。 最後に、自動メトリクスが人間の評価と相関していることを検証するとともに、生成されたストーリーの品質の指標として役立ちます。

Large pre-trained language models (LMs) have demonstrated impressive capabilities in generating long, fluent text; however, there is little to no analysis on their ability to maintain entity coherence and consistency. In this work, we focus on the end task of narrative generation and systematically analyse the long-range entity coherence and consistency in generated stories. First, we propose a set of automatic metrics for measuring model performance in terms of entity usage. Given these metrics, we quantify the limitations of current LMs. Next, we propose augmenting a pre-trained LM with a dynamic entity memory in an end-to-end manner by using an auxiliary entity-related loss for guiding the reads and writes to the memory. We demonstrate that the dynamic entity memory increases entity coherence according to both automatic and human judgment and helps preserving entity-related information especially in settings with a limited context window. Finally, we also validate that our automatic metrics are correlated with human ratings and serve as a good indicator of the quality of generated stories.
翻訳日:2022-02-04 14:16:42 公開日:2022-02-03
# FORML: フェアネスのためのデータリウェイトを学ぶ

FORML: Learning to Reweight Data for Fairness ( http://arxiv.org/abs/2202.01719v1 )

ライセンス: Link先を確認
Bobby Yan, Skyler Seto, Nicholas Apostoloff(参考訳) デプロイされた機械学習モデルは、公正性や堅牢性など、正確性を超えた複数のメトリクスによって評価される。 しかしながら、そのようなモデルは通常、1つのメトリックの平均損失を最小限に抑えるために訓練される。 単一のメトリックを最適化するトレーニングでは、トレーニングデータのサブグループの人口が不均衡である場合、これらのモデルが公正違反を起こしやすい。 本稿では,多クラス分類における公平性と予測性能を共同で最適化する課題に対処し,サンプル重みとニューラルネットワークのパラメータを共同で最適化することにより,公平さと正確さをバランスさせるトレーニングアルゴリズムであるメタラーニング(forml)による公平性最適化再重み付けを導入する。 このアプローチは、フェアネス違反の低減に対する影響に応じて、各トレーニングデータムの損失に対する貢献を重み付け、オーバーグループとアンダーグループの両方からの貢献のバランスをとることにより、フェアネスを増大させる。 我々は,ForlMLを様々なベンチマークおよび実世界の分類データセット上で実証的に検証し,既存の最先端再重み付け手法に対する機会フェアネス基準の等式を,画像分類タスクで約1%,顔属性予測タスクで約5%改善することを示す。 この改善は、前処理データや後処理モデルが出力することなく、追加の重み付け関数を学習することなく、元の予測メトリックの精度を維持しながら達成される。

Deployed machine learning models are evaluated by multiple metrics beyond accuracy, such as fairness and robustness. However, such models are typically trained to minimize the average loss for a single metric, which is typically a proxy for accuracy. Training to optimize a single metric leaves these models prone to fairness violations, especially when the population of sub-groups in the training data are imbalanced. This work addresses the challenge of jointly optimizing fairness and predictive performance in the multi-class classification setting by introducing Fairness Optimized Reweighting via Meta-Learning (FORML), a training algorithm that balances fairness constraints and accuracy by jointly optimizing training sample weights and a neural network's parameters. The approach increases fairness by learning to weight each training datum's contribution to the loss according to its impact on reducing fairness violations, balancing the contributions from both over- and under-represented sub-groups. We empirically validate FORML on a range of benchmark and real-world classification datasets and show that our approach improves equality of opportunity fairness criteria over existing state-of-the-art reweighting methods by approximately 1% on image classification tasks and by approximately 5% on a face attribute prediction task. This improvement is achieved without pre-processing data or post-processing model outputs, without learning an additional weighting function, and while maintaining accuracy on the original predictive metric.
翻訳日:2022-02-04 13:51:32 公開日:2022-02-03
# PARCEL:平行MRイメージングのための物理に基づく教師なしコントラスト表現学習

PARCEL: Physics-based unsupervised contrastive representation learning for parallel MR imaging ( http://arxiv.org/abs/2202.01494v1 )

ライセンス: Link先を確認
Shanshan Wang, Ruoyou Wu, Cheng Li, Juan Zou, Hairong Zheng(参考訳) 磁気共鳴イメージングにおけるディープラーニングの応用の成功により、ニューラルネットワークに基づく並列イメージング技術が注目を集めている。 しかしながら、トレーニングのための高品質な完全なサンプルデータセットがなければ、これらのメソッドのパフォーマンスは制限される傾向がある。 そこで本研究では,並列MR画像の高速化を目的とした物理に基づく非教師付きコントラスト表現学習法(PARCEL)を提案する。 具体的には、parcelには、アンサンプリングされたk空間データから直接ディープラーニングを実現するための3つの重要な要素がある。 すなわち、共役勾配アルゴリズムでアンロールされたモデルベースネットワークの2つの分岐を学習し、得られたk空間データからランダムに引き出されたアンダーサンプリングされたk空間データを用いて、並列ネットワークの詳細な情報をキャプチャする。 特別に設計された協調訓練損失は、2つのネットワークを誘導し、再構成されたMR画像の固有の特徴と表現を捉えるように設計されている。 提案手法は生体内データセットを用いて評価され,PARCELが完全サンプルデータセットに依存することなく,より正確なMR再構成のための有用な表現を学習できることを示す5つの最先端手法と比較された。

With the successful application of deep learning in magnetic resonance imaging, parallel imaging techniques based on neural networks have attracted wide attentions. However, without high-quality fully sampled datasets for training, the performance of these methods tends to be limited. To address this issue, this paper proposes a physics based unsupervised contrastive representation learning (PARCEL) method to speed up parallel MR imaging. Specifically, PARCEL has three key ingredients to achieve direct deep learning from the undersampled k-space data. Namely, a parallel framework has been developed by learning two branches of model-based networks unrolled with the conjugate gradient algorithm; Augmented undersampled k-space data randomly drawn from the obtained k-space data are used to help the parallel network to capture the detailed information. A specially designed co-training loss is designed to guide the two networks to capture the inherent features and representations of the-to-be-reconstruc ted MR image. The proposed method has been evaluated on in vivo datasets and compared to five state-of-the-art methods, whose results show PARCEL is able to learn useful representations for more accurate MR reconstructions without the reliance on the fully-sampled datasets.
翻訳日:2022-02-04 13:51:03 公開日:2022-02-03
# 産業用iotにおけるグループクライアント選択によるデータ不均質性ロバストフェデレーション学習

Data Heterogeneity-Robust Federated Learning via Group Client Selection in Industrial IoT ( http://arxiv.org/abs/2202.01512v1 )

ライセンス: Link先を確認
Zonghang Li, Yihong He, Hongfang Yu, Jiawen Kang, Xiaoping Li, Zenglin Xu, Dusit Niyato(参考訳) 今日では、産業用モノのインターネット(IIoT)は、産業用4.0において重要な役割を担い、産業用インテリジェンスのための大量のデータを生み出している。 これらのデータは、現代の工場の分散デバイス上に存在する。 産業データの機密性を保護するため、共用機械学習モデルを協調訓練するために連邦学習(FL)を導入した。 しかし, 異なる機器で収集したローカルデータは, クラス分布に偏り, 産業用fl性能を低下させる。 この課題はモバイルエッジで広く研究されているが、彼らは急速に変化するストリーミングデータと、ファクトリデバイスのクラスタ化の性質を無視しており、より真剣には、データセキュリティを脅かす可能性がある。 本稿では,非i.i.d.データにおける産業用fl性能を向上させるために,5gエンパワードインダストリアルのための階層型クラウドエッジ・エンドflフレームワークであるfedersを提案する。 自然にクラスタ化されたファクトリデバイスを活用して、FedGSは勾配ベースのバイナリ置換アルゴリズム(GBP-CS)を使用して、各ファクトリ内のデバイスのサブセットを選択し、FLトレーニングに参加する均一なスーパーノードを構築する。 そこで本研究では,これらのスーパーノード内のトレーニングプロセスを調整するための複合ステップ同期プロトコルを提案し,データの不均一性に対するロバスト性を示す。 提案手法は時間効率が高く,危険操作において機密産業データを公開せずに動的環境に適応することができる。 我々はFedGSがFedAvgよりもコンバージェンス性能が優れており、FedGSの方が通信効率が良いという緩和条件を与える。 大規模な実験により、FedGSは精度を3.5%改善し、トレーニングラウンドを平均で59%削減し、非i.d.データに対する優れた有効性と効率を確認した。

Nowadays, the industrial Internet of Things (IIoT) has played an integral role in Industry 4.0 and produced massive amounts of data for industrial intelligence. These data locate on decentralized devices in modern factories. To protect the confidentiality of industrial data, federated learning (FL) was introduced to collaboratively train shared machine learning models. However, the local data collected by different devices skew in class distribution and degrade industrial FL performance. This challenge has been widely studied at the mobile edge, but they ignored the rapidly changing streaming data and clustering nature of factory devices, and more seriously, they may threaten data security. In this paper, we propose FedGS, which is a hierarchical cloud-edge-end FL framework for 5G empowered industries, to improve industrial FL performance on non-i.i.d. data. Taking advantage of naturally clustered factory devices, FedGS uses a gradient-based binary permutation algorithm (GBP-CS) to select a subset of devices within each factory and build homogeneous super nodes participating in FL training. Then, we propose a compound-step synchronization protocol to coordinate the training process within and among these super nodes, which shows great robustness against data heterogeneity. The proposed methods are time-efficient and can adapt to dynamic environments, without exposing confidential industrial data in risky manipulation. We prove that FedGS has better convergence performance than FedAvg and give a relaxed condition under which FedGS is more communication-effici ent. Extensive experiments show that FedGS improves accuracy by 3.5% and reduces training rounds by 59% on average, confirming its superior effectiveness and efficiency on non-i.i.d. data.
翻訳日:2022-02-04 13:50:10 公開日:2022-02-03
# オフライン強化学習におけるラベルなしデータ活用法

How to Leverage Unlabeled Data in Offline Reinforcement Learning ( http://arxiv.org/abs/2202.01741v1 )

ライセンス: Link先を確認
Tianhe Yu, Aviral Kumar, Yevgen Chebotar, Karol Hausman, Chelsea Finn, Sergey Levine(参考訳) オフライン強化学習(RL)は静的データセットから制御ポリシを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。 多くの場合、大きなデータセットを報酬でラベリングするのはコストがかかり、特にその報酬が人間のラベラーによって提供されなければならない場合、多様なラベルのないデータを集めるのは比較的安価である。 このようなラベルのないデータをオフラインRLでどのように活用するか? 自然な解決策のひとつは、ラベル付きデータから報酬関数を学び、ラベル付きデータにラベル付けすることです。 本稿では,非ラベルデータに対する報酬をゼロにする手法が,理論上,実際上,報酬モデルをまったく学ばずに,効果的なデータ共有に繋がることを示す。 このアプローチは最初は奇妙に思えるかも知れません(そして間違っています)が、報奨バイアス、サンプル複雑性、分布シフトのトレードオフの方法を示す、広範な理論と経験的分析を提供しています。 この単純な戦略が有効である条件を特徴付けるとともに、簡単な再重み付けアプローチで拡張することで、不正な報酬ラベルによるバイアスをさらに軽減できることを示す。 実験により, ロボットの移動, ナビゲーション, 操作設定のシミュレーションを行った。

Offline reinforcement learning (RL) can learn control policies from static datasets but, like standard RL methods, it requires reward annotations for every transition. In many cases, labeling large datasets with rewards may be costly, especially if those rewards must be provided by human labelers, while collecting diverse unlabeled data might be comparatively inexpensive. How can we best leverage such unlabeled data in offline RL? One natural solution is to learn a reward function from the labeled data and use it to label the unlabeled data. In this paper, we find that, perhaps surprisingly, a much simpler method that simply applies zero rewards to unlabeled data leads to effective data sharing both in theory and in practice, without learning any reward model at all. While this approach might seem strange (and incorrect) at first, we provide extensive theoretical and empirical analysis that illustrates how it trades off reward bias, sample complexity and distributional shift, often leading to good results. We characterize conditions under which this simple strategy is effective, and further show that extending it with a simple reweighting approach can further alleviate the bias introduced by using incorrect reward labels. Our empirical evaluation confirms these findings in simulated robotic locomotion, navigation, and manipulation settings.
翻訳日:2022-02-04 13:48:35 公開日:2022-02-03
# 原子中心表現の統一理論とグラフ畳み込み機械学習スキーム

Unified theory of atom-centered representations and graph convolutional machine-learning schemes ( http://arxiv.org/abs/2202.01566v1 )

ライセンス: Link先を確認
Jigyasa Nigam, Guillaume Fraux, Michele Ceriotti(参考訳) 分子と結晶の構造とその微視的性質を関連付けるデータ駆動スキームは、原子構成物の配置を簡潔かつ効果的に記述する必要がある。 多くのモデルでは、原子中心の環境の記述に依存しており、それらは原子の性質や広範なマクロ量への原子の寄与と関連している。 このクラスのフレームワークは、原子中心密度相関(ACDC)という用語で理解することができ、これは、標的の体秩序、対称性に適応した拡張の基礎として使用される。 グラフ畳み込み(あるいはメッセージパッシング)の概念を用いて隣り合う原子間の関係を収集する他のいくつかのスキームは、単一の原子を中心とした相関に直接マッピングすることはできない。 我々は、adcdcフレームワークを多元的情報を含むように一般化し、原子座標の対称関数に完全線形基底を与える表現を生成し、原子中心およびグラフ畳み込み機械学習スキームの理解を体系化する基礎を形成する。

Data-driven schemes that associate molecular and crystal structures with their microscopic properties share the need for a concise, effective description of the arrangement of their atomic constituents. Many types of models rely on descriptions of atom-centered environments, that are associated with an atomic property or with an atomic contribution to an extensive macroscopic quantity. Frameworks in this class can be understood in terms of atom-centered density correlations (ACDC), that are used as a basis for a body-ordered, symmetry-adapted expansion of the targets. Several other schemes, that gather information on the relationship between neighboring atoms using graph-convolutional (or message-passing) ideas, cannot be directly mapped to correlations centered around a single atom. We generalize the ACDC framework to include multi-centered information, generating representations that provide a complete linear basis to regress symmetric functions of atomic coordinates, and form the basis to systematize our understanding of both atom-centered and graph-convolutional machine-learning schemes.
翻訳日:2022-02-04 13:47:39 公開日:2022-02-03
# マニフォールド仮説について:振動超球を用いた超曲面サブマニフォールド埋め込み

On Manifold Hypothesis: Hypersurface Submanifold Embedding Using Osculating Hyperspheres ( http://arxiv.org/abs/2202.01619v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Fakhri Karray, Mark Crowley(参考訳) ユークリッド空間 $\mathbb{R}^d$ における$n$のデータ点の集合を考える。 このセットは、機械学習とデータサイエンスのデータセットと呼ばれる。 マニフォールド仮説は、データセットが高い確率で低次元の部分多様体上にあることを述べる。 すべての次元還元と多様体学習法は多様体仮説の仮定を持つ。 本稿では,このデータセットが局所的に$(d-1)$-dimensionalの超曲面上に埋め込まれていることを示す。 したがって、多様体仮説は少なくとも埋め込み次元が $d-1$ であることを示す。 ピラミッド構造における帰納法を用いて、埋め込み次元をより低い埋め込み次元に拡張し、埋め込み次元が$\{1, 2, \dots, d-1\}$ となる多様体仮説の有効性を示す。 ハイパーサーフェスを埋め込むには、まずデータのための$d$ nearbys graphを構築します。 任意の点において、この超球面が仮説上の超曲面に浸透しているような近傍を用いて、超球面 $S^{d-1}$ に収まる。 そして, 手術理論を用いて, 卵胞状超球に手術を施し, $n$ のハイパーキャップを得る。 部分的なハイパーシリンダを用いてハイパーキャップを相互に接続する。 すべての部分の連結により、埋め込み超曲面はこれらの要素の不連結結合として得られる。 本研究では, 埋設超曲面の幾何学的特性, 境界, トポロジー, 滑らか性, 境界性, オリエンタビリティ, コンパクト性, インジェクティビティについて論じる。 データの線形性と構造についてもいくつかの議論がなされている。 本稿では,機械学習,微分幾何学,代数トポロジーなど,いくつかの科学分野の交わりについて述べる。

Consider a set of $n$ data points in the Euclidean space $\mathbb{R}^d$. This set is called dataset in machine learning and data science. Manifold hypothesis states that the dataset lies on a low-dimensional submanifold with high probability. All dimensionality reduction and manifold learning methods have the assumption of manifold hypothesis. In this paper, we show that the dataset lies on an embedded hypersurface submanifold which is locally $(d-1)$-dimensional. Hence, we show that the manifold hypothesis holds at least for the embedding dimensionality $d-1$. Using an induction in a pyramid structure, we also extend the embedding dimensionality to lower embedding dimensionalities to show the validity of manifold hypothesis for embedding dimensionalities $\{1, 2, \dots, d-1\}$. For embedding the hypersurface, we first construct the $d$ nearest neighbors graph for data. For every point, we fit an osculating hypersphere $S^{d-1}$ using its neighbors where this hypersphere is osculating to a hypothetical hypersurface. Then, using surgery theory, we apply surgery on the osculating hyperspheres to obtain $n$ hyper-caps. We connect the hyper-caps to one another using partial hyper-cylinders. By connecting all parts, the embedded hypersurface is obtained as the disjoint union of these elements. We discuss the geometrical characteristics of the embedded hypersurface, such as having boundary, its topology, smoothness, boundedness, orientability, compactness, and injectivity. Some discussion are also provided for the linearity and structure of data. This paper is the intersection of several fields of science including machine learning, differential geometry, and algebraic topology.
翻訳日:2022-02-04 13:47:19 公開日:2022-02-03
# パラメトリックノイズを含む線形非ガウス非巡回モデルに対する位相秩序の逐次学習

Sequential Learning of the Topological Ordering for the Linear Non-Gaussian Acyclic Model with Parametric Noise ( http://arxiv.org/abs/2202.01748v1 )

ライセンス: Link先を確認
Gabriel Ruiz, Oscar Hernan Madrid Padilla, Qing Zhou(参考訳) データマイニングシナリオにおける因果関係の学習である因果発見は、"何が原因なのか"を特定する出発点として、科学的、理論的に強い関心を集めてきた。 仮定に従えば、因果方向の曖昧さを与えるグラフのマルコフ同値クラスとは対照的に、正確な因果方向非巡回グラフ(dag)を特定することができる。 本稿では,非ガウス雑音を持つ線形構造方程式モデル,線形非ガウス非巡回モデル(LiNGAM)に着目した。 特定のパラメトリックノイズモデルが与えられた場合、DAGの因果順序を推定する新しい逐次的アプローチを開発する。 手順の各ステップにおいて、回帰残差に対して単純な確率比スコアのみを算出し、現在の部分順序付けに付加する次のノードを決定する。 軽度の仮定では,本手法の集団バージョンは根底にある因果DAGの真の順序を確実に特定する。 我々は,数千のノードを持つ場合に対して,シーケンシャルな手続きがスケーラブルであり,高次元データにも適していることを示すために,広範な数値的証拠を提供する。 また, 単細胞遺伝子発現データセットへの応用を行い, 推定手順を実証する。

Causal discovery, the learning of causality in a data mining scenario, has been of strong scientific and theoretical interest as a starting point to identify "what causes what?" Contingent on assumptions, it is sometimes possible to identify an exact causal Directed Acyclic Graph (DAG), as opposed to a Markov equivalence class of graphs that gives ambiguity of causal directions. The focus of this paper is on one such case: a linear structural equation model with non-Gaussian noise, a model known as the Linear Non-Gaussian Acyclic Model (LiNGAM). Given a specified parametric noise model, we develop a novel sequential approach to estimate the causal ordering of a DAG. At each step of the procedure, only simple likelihood ratio scores are calculated on regression residuals to decide the next node to append to the current partial ordering. Under mild assumptions, the population version of our procedure provably identifies a true ordering of the underlying causal DAG. We provide extensive numerical evidence to demonstrate that our sequential procedure is scalable to cases with possibly thousands of nodes and works well for high-dimensional data. We also conduct an application to a single-cell gene expression dataset to demonstrate our estimation procedure.
翻訳日:2022-02-04 13:46:53 公開日:2022-02-03
# (参考訳) JaQuAD: 機械読解のための日本語質問回答データセット [全文訳有]

JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension ( http://arxiv.org/abs/2202.01764v1 )

ライセンス: CC BY-SA 4.0
ByungHoon So, Kyuhong Byun, Kyungwon Kang, Seongjin Cho(参考訳) 質問回答(QA: Question Answering)は、機械が与えられた文書と質問を理解して答えを見つけるタスクである。 NLP領域の著しい進歩にもかかわらず、特に注釈付きデータセットがないため、QAは英語以外の言語では依然として難しい問題である。 本稿では,人間によって注釈付けされた日本語質問回答データセットJaQuADについて述べる。 JaQuADは日本語ウィキペディアの記事に39,696の質問対を抽出する。 F1スコアが78.92%、テストセットが63.38%となるベースラインモデルを微調整した。 データセットと実験はhttps://github.com/S kelterLabsInc/JaQuAD .comで公開されています。

Question Answering (QA) is a task in which a machine understands a given document and a question to find an answer. Despite impressive progress in the NLP area, QA is still a challenging problem, especially for non-English languages due to the lack of annotated datasets. In this paper, we present the Japanese Question Answering Dataset, JaQuAD, which is annotated by humans. JaQuAD consists of 39,696 extractive question-answer pairs on Japanese Wikipedia articles. We finetuned a baseline model which achieves 78.92% for F1 score and 63.38% for EM on test set. The dataset and our experiments are available at https://github.com/S kelterLabsInc/JaQuAD .
翻訳日:2022-02-04 13:44:56 公開日:2022-02-03
# 平等は平等ではない: 連帯学習における比例公平性

Equality Is Not Equity: Proportional Fairness in Federated Learning ( http://arxiv.org/abs/2202.01666v1 )

ライセンス: Link先を確認
Guojun Zhang, Saber Malekmohammadi, Xi Chen and Yaoliang Yu(参考訳) 機械学習(ML)アルゴリズムの公正性を保証することは、MLサービスプロバイダにとってますます重要なミッションになりつつある。 これは、多くの多様なクライアントが参加していることを考えると、フェデレートラーニング(FL)のシナリオにおいてさらに重要で挑戦的です。 クライアント間の平等を単純に管理すれば、多くの望ましくない結果につながり、パフォーマンスの高いクライアントを損なう可能性がある。 本研究は、平等よりもより良い平等を達成するために、ゲーム理論と深い関係を持つflにおける比例フェアネス(pf)を導入し、研究する。 FLを協調ゲームの観点から見ることにより、プレイヤー(クライアント)が協調して良いモデルを学習し、PFをナッシュバーゲインソリューションとして定式化する。 この概念に基づき,pf 解を効果的に探索するための新規かつ実装容易なアルゴリズム propfair を提案し,その収束性を証明する。 我々は、幅広いビジョンと言語データセットのための最先端のfair flアルゴリズムに対して、propfairが一貫して最悪のケースと全体的なパフォーマンスを改善し、より良いエクイティを達成する実験を通して示す。

Ensuring fairness of machine learning (ML) algorithms is becoming an increasingly important mission for ML service providers. This is even more critical and challenging in the federated learning (FL) scenario, given a large number of diverse participating clients. Simply mandating equality across clients could lead to many undesirable consequences, potentially discouraging high-performing clients and resulting in sub-optimal overall performance. In order to achieve better equity rather than equality, in this work, we introduce and study proportional fairness (PF) in FL, which has a deep connection with game theory. By viewing FL from a cooperative game perspective, where the players (clients) collaboratively learn a good model, we formulate PF as Nash bargaining solutions. Based on this concept, we propose PropFair, a novel and easy-to-implement algorithm for effectively finding PF solutions, and we prove its convergence properties. We illustrate through experiments that PropFair consistently improves the worst-case and the overall performances simultaneously over state-of-the-art fair FL algorithms for a wide array of vision and language datasets, thus achieving better equity.
翻訳日:2022-02-04 13:34:00 公開日:2022-02-03
# 不完全情報を用いた総合型ゲームの準最適学習

Near-Optimal Learning of Extensive-Form Games with Imperfect Information ( http://arxiv.org/abs/2202.01752v1 )

ライセンス: Link先を確認
Yu Bai, Chi Jin, Song Mei, Tiancheng Yu(参考訳) 本稿では,バンディットフィードバックから不完全な情報を広範に学習するための,最適に近いアルゴリズムを設計するという課題を解決する。 x,y$ は情報集合の数であり、$a,b$ は2人のプレイヤーのアクションの数である2人のゼロサムゲームにおいて$\varepsilon$-approx imate nash平衡を見つけるためにプレイのエピソードのうち、$\widetilde{\mathcal{o}}((xa+yb)/\varepsilon^2) だけを必要とするアルゴリズムの最初の行を示す。 これにより、$\widetilde{\mathcal{O}}((X^2A+Y^2B)/\varepsilon^2)$の係数が$\widetilde{\mathcal{O}}(\max\{X, Y\})$の最もよく知られたサンプル複雑性が改善され、情報理論の下限を対数因子に合わせる。 我々はこのサンプルの複雑さを2つの新しいアルゴリズム: Balanced Online Mirror Descent と Balanced Counterfactual Regret Minimization によって達成する。 どちらのアルゴリズムも、古典的手法に『emph{balanced exploration policies}』を統合する新しい手法に依存している。 また,マルチプレイヤー汎用ゲームにおける粗相関平衡学習にも適用した。

This paper resolves the open question of designing near-optimal algorithms for learning imperfect-informatio n extensive-form games from bandit feedback. We present the first line of algorithms that require only $\widetilde{\mathcal{O}}((XA+YB)/\varepsilon^2)$ episodes of play to find an $\varepsilon$-approx imate Nash equilibrium in two-player zero-sum games, where $X,Y$ are the number of information sets and $A,B$ are the number of actions for the two players. This improves upon the best known sample complexity of $\widetilde{\mathcal{O}}((X^2A+Y^2B)/\varepsilon^2)$ by a factor of $\widetilde{\mathcal{O}}(\max\{X, Y\})$, and matches the information-theoreti c lower bound up to logarithmic factors. We achieve this sample complexity by two new algorithms: Balanced Online Mirror Descent, and Balanced Counterfactual Regret Minimization. Both algorithms rely on novel approaches of integrating \emph{balanced exploration policies} into their classical counterparts. We also extend our results to learning Coarse Correlated Equilibria in multi-player general-sum games.
翻訳日:2022-02-04 13:33:37 公開日:2022-02-03
# 暗黙的バイアスの存在下での選択:交叉制約の利点

Selection in the Presence of Implicit Bias: The Advantage of Intersectional Constraints ( http://arxiv.org/abs/2202.01661v1 )

ライセンス: Link先を確認
Anay Mehrotra, Bary S. R. Pradelski, Nisheeth K. Vishnoi(参考訳) 採用、昇進、大学入学などの選択過程において、人種、性別、性的指向といった社会的に安定した属性に対する暗黙のバイアスは、永続的な不平等を生み出し、意思決定者の総合的有用性を減らすことが知られている。 ルーニー規則(英語版)やその一般化(英語版)のような介入は、各影響を受けるグループから少なくとも特定の数の個人を選択することを要求するが、選択における暗黙の偏見の悪影響を軽減するために提案されている。 近年の研究では、各個人が少なくとも1つの影響を受けるグループに属している場合、このような低い制約が集約ユーティリティの改善に非常に有効であることが確認されている。 しかし、いくつかの設定では、個人は複数の影響を受けるグループに属し、その結果、この交叉性のためにより極端に暗黙的な偏見に直面する。 我々は独立に描画されたユーティリティを考察し、上記の非断面積制約が暗黙のバイアスがなければ達成可能な全ユーティリティの一部を回復できることを示す。 一方,交差点上の下界制約を適切に含んでいる場合,暗黙バイアスがない場合に実現可能なユーティリティのほとんどをすべて回収できることが示されている。 したがって、交叉制約は、不等式を減らすための還元主義的な次元分割非断続的アプローチよりも大きな利点を与えることができる。

In selection processes such as hiring, promotion, and college admissions, implicit bias toward socially-salient attributes such as race, gender, or sexual orientation of candidates is known to produce persistent inequality and reduce aggregate utility for the decision maker. Interventions such as the Rooney Rule and its generalizations, which require the decision maker to select at least a specified number of individuals from each affected group, have been proposed to mitigate the adverse effects of implicit bias in selection. Recent works have established that such lower-bound constraints can be very effective in improving aggregate utility in the case when each individual belongs to at most one affected group. However, in several settings, individuals may belong to multiple affected groups and, consequently, face more extreme implicit bias due to this intersectionality. We consider independently drawn utilities and show that, in the intersectional case, the aforementioned non-intersectional constraints can only recover part of the total utility achievable in the absence of implicit bias. On the other hand, we show that if one includes appropriate lower-bound constraints on the intersections, almost all the utility achievable in the absence of implicit bias can be recovered. Thus, intersectional constraints can offer a significant advantage over a reductionist dimension-by-dimensi on non-intersectional approach to reducing inequality.
翻訳日:2022-02-04 13:33:07 公開日:2022-02-03
# 対話型意思決定のための事前学習言語モデル

Pre-Trained Language Models for Interactive Decision-Making ( http://arxiv.org/abs/2202.01771v1 )

ライセンス: Link先を確認
Shuang Li, Xavier Puig, Yilun Du, Clinton Wang, Ekin Akyurek, Antonio Torralba, Jacob Andreas, Igor Mordatch(参考訳) 言語モデル(lm)事前学習は、さまざまな言語処理タスクに有用であることが証明されているが、より一般的な機械学習の問題に活用できるのだろうか? 自律的意思決定における足場学習と一般化に対する言語モデリングの有効性について検討する。 本稿では,目標と観察を埋め込みのシーケンスとして表現し,事前学習されたトランスフォーマーlmで初期化したポリシネットワークを用いて行動に翻訳する模倣学習の枠組みについて述べる。 このフレームワークは,VirtualHomeやBabyAIなど,さまざまな環境における効率的な組合せ一般化を可能にする。 特に、新しいゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはVirtualHomeのタスク完了率を43.6%改善する。 我々は,lm-based policy initializationの有効性の3つの要因を仮定し,検討した。 逐次表現 (v. 固定次元特徴ベクトル) と lm 目的 (トランスフォーマーアーキテクチャだけでなく) はともに一般化に重要である。 しかし、驚くべきことに、ポリシー入力エンコーディングのフォーマット(例えば、自然言語文字列と任意のシーケンシャルエンコーディング)は、ほとんど影響しない。 これらの結果は、言語モデリングが言語だけでなく、目標や計画もモデル化するのに有用な表現を誘導することを示しており、これらの表現は言語処理の外部においても学習と一般化を支援することができる。

Language model (LM) pre-training has proven useful for a wide variety of language processing tasks, but can such pre-training be leveraged for more general machine learning problems? We investigate the effectiveness of language modeling to scaffold learning and generalization in autonomous decision-making. We describe a framework for imitation learning in which goals and observations are represented as a sequence of embeddings, and translated into actions using a policy network initialized with a pre-trained transformer LM. We demonstrate that this framework enables effective combinatorial generalization across different environments, such as VirtualHome and BabyAI. In particular, for test tasks involving novel goals or novel scenes, initializing policies with language models improves task completion rates by 43.6% in VirtualHome. We hypothesize and investigate three possible factors underlying the effectiveness of LM-based policy initialization. We find that sequential representations (vs. fixed-dimensional feature vectors) and the LM objective (not just the transformer architecture) are both important for generalization. Surprisingly, however, the format of the policy inputs encoding (e.g. as a natural language string vs. an arbitrary sequential encoding) has little influence. Together, these results suggest that language modeling induces representations that are useful for modeling not just language, but also goals and plans; these representations can aid learning and generalization even outside of language processing.
翻訳日:2022-02-04 13:31:11 公開日:2022-02-03
# 形式数学文のカリキュラム学習

Formal Mathematics Statement Curriculum Learning ( http://arxiv.org/abs/2202.01344v1 )

ライセンス: Link先を確認
Stanislas Polu, Jesse Michael Han, Kunhao Zheng, Mantas Baksys, Igor Babuschkin, Ilya Sutskever(参考訳) 形式数学に適用される言語モデリングの文脈において,専門家によるイテレーションの利用について検討する。 同じ計算予算、専門家の反復、つまり、学習にインターリーブされた証明検索が、証明検索のみを劇的に上回っていることを示す。 また, 十分な難易度を持つ形式文の収集に適用した場合, 専門家の反復は, 関連する基礎的真理証明を必要とせず, ますます困難な問題のカリキュラムを見つけ, 解決することができる。 最後に、このエキスパートイテレーションを手作業でキュレートされた問題ステートメントに適用することにより、miniF2Fベンチマークの最先端を達成し、高校のオリンピック選手が引き起こした複数の課題を自動的に解決する。

We explore the use of expert iteration in the context of language modeling applied to formal mathematics. We show that at same compute budget, expert iteration, by which we mean proof search interleaved with learning, dramatically outperforms proof search only. We also observe that when applied to a collection of formal statements of sufficiently varied difficulty, expert iteration is capable of finding and solving a curriculum of increasingly difficult problems, without the need for associated ground-truth proofs. Finally, by applying this expert iteration to a manually curated set of problem statements, we achieve state-of-the-art on the miniF2F benchmark, automatically solving multiple challenging problems drawn from high school olympiads.
翻訳日:2022-02-04 13:30:40 公開日:2022-02-03
# バンドの深い階層性

Deep Hierarchy in Bandits ( http://arxiv.org/abs/2202.01454v1 )

ライセンス: Link先を確認
Joey Hong, Branislav Kveton, Sumeet Katariya, Manzil Zaheer, and Mohammad Ghavamzadeh(参考訳) 行動の報酬は、しばしば相関する。 これらの相関の形式は、推奨製品とそのカテゴリに対するユーザの好みなど、前もって複雑で未知のものである可能性がある。 統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。 我々は、平均アクション報酬の相関が潜在変数を持つ階層的ベイズモデルによって表されるこの問題のバンディット変法を定式化する。 階層構造は複数の層を持つことができるので、それを深い層と呼ぶ。 本稿では,この問題に対する階層的トンプソンサンプリングアルゴリズム(hierts)を提案し,ガウス階層に対して効率的に実装する方法を示す。 効率的な実装は、それ自体が独立した関心を持つ後部の、新しい正確な階層的な表現のために可能である。 我々はこの正確な後部をガウスの盗賊のHierTSを後悔するベイズの分析に用いている。 本分析は,先行する幅で後悔が減少する問題の構造を反映し,また行動数における非定数要因による後悔が階層的に減少することを示す。 これらの理論的な発見を総合実験と実世界実験の両方で実証的に確認する。

Mean rewards of actions are often correlated. The form of these correlations may be complex and unknown a priori, such as the preferences of a user for recommended products and their categories. To maximize statistical efficiency, it is important to leverage these correlations when learning. We formulate a bandit variant of this problem where the correlations of mean action rewards are represented by a hierarchical Bayesian model with latent variables. Since the hierarchy can have multiple layers, we call it deep. We propose a hierarchical Thompson sampling algorithm (HierTS) for this problem, and show how to implement it efficiently for Gaussian hierarchies. The efficient implementation is possible due to a novel exact hierarchical representation of the posterior, which itself is of independent interest. We use this exact posterior to analyze the Bayes regret of HierTS in Gaussian bandits. Our analysis reflects the structure of the problem, that the regret decreases with the prior width, and also shows that hierarchies reduce the regret by non-constant factors in the number of actions. We confirm these theoretical findings empirically, in both synthetic and real-world experiments.
翻訳日:2022-02-04 13:27:53 公開日:2022-02-03
# 欠損値を持つ線形モデルの最小値整合率

Minimax rate of consistency for linear models with missing values ( http://arxiv.org/abs/2202.01463v1 )

ライセンス: Link先を確認
Alexis Ayme (LPSM (UMR\_8001)), Claire Boyer (LPSM (UMR\_8001), MOKAPLAN), Aymeric Dieuleveut (CMAP), Erwan Scornet (CMAP)(参考訳) 欠落した値は、多くの現実世界のデータセットにおいて、複数のソースと本質的に欠落した情報(センサ障害、サーベイにおける未解決の質問)の集約によって生じる。 実際、値の欠如という性質は、通常、標準的な学習アルゴリズムの実行を妨げます。 本稿では,広く研究されている線形モデルに焦点をあてるが,欠落する値が存在する場合,非常に難しい課題であることが判明した。 実際、ベイズ則は、各欠落パターンに対応する予測子の和として分解することができる。 最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。 まず,最小二乗型推定器を解析し,その次元で指数関数的に増加する過剰なリスクのバウンドを確立するための厳密な設定を提案する。 その結果,不足するデータ分布を利用して,ミニマックス最適となる適応的リスク境界を導出する新しいアルゴリズムを提案する。 数値実験では,値が不足する予測に使用される最先端アルゴリズムと比較して,この手法の利点を強調する。

Missing values arise in most real-world data sets due to the aggregation of multiple sources and intrinsically missing information (sensor failure, unanswered questions in surveys...). In fact, the very nature of missing values usually prevents us from running standard learning algorithms. In this paper, we focus on the extensively-studied linear models, but in presence of missing values, which turns out to be quite a challenging task. Indeed, the Bayes rule can be decomposed as a sum of predictors corresponding to each missing pattern. This eventually requires to solve a number of learning tasks, exponential in the number of input features, which makes predictions impossible for current real-world datasets. First, we propose a rigorous setting to analyze a least-square type estimator and establish a bound on the excess risk which increases exponentially in the dimension. Consequently, we leverage the missing data distribution to propose a new algorithm, andderive associated adaptive risk bounds that turn out to be minimax optimal. Numerical experiments highlight the benefits of our method compared to state-of-the-art algorithms used for predictions with missing values.
翻訳日:2022-02-04 13:27:36 公開日:2022-02-03
# カスケード行動モデルによるランク付け政策の二重ロバストなオフポリシー評価

Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model ( http://arxiv.org/abs/2202.01562v1 )

ライセンス: Link先を確認
Haruka Kiyohara, Yuta Saito, Tatsuya Matsuhiro, Yusuke Narita, Nobuyuki Shimizu, Yasuo Yamamoto(参考訳) 現実世界のレコメンダシステムや検索エンジンでは,関連する項目のランクリストを表示するためのランキング決定の最適化が重要である。 これにより、ログデータのみを使用して新しいランキングポリシーのパフォーマンス評価が可能になるため、ランキングポリシーのオフポリシー評価(ope)への関心が高まっている。 文脈的包帯におけるOPEは広範に研究されているが、そのランキング設定への素質的な適用は、巨大なアイテム空間のために重要な分散問題に直面している。 この問題に対処するため, 過去の研究では, 組み合わせ項目空間をトラクタブルにするために, ユーザ行動に関するいくつかの仮定を導入している。 しかし、非現実的な仮定は真剣なバイアスを引き起こす可能性がある。 したがって、合理的な仮定によってバイアス分散トレードオフを適切に制御することが、ランキングポリシーのOPEの成功の鍵となる。 そこで本研究では,ユーザがランキングの上位位置から順次アイテムと対話することを前提として,カスケード仮定に基づく2重ロバストな推定システムを提案する。 提案する推定器は,より強い仮定をする既存の推定器と比較して,多くのケースで偏りがないことを示す。 さらに、同じカスケード仮定に基づく以前の推定器と比較して、提案した推定器は、制御変数を利用して分散を低減する。 合成データと実世界のデータの両方に関する総合的な実験により、我々の推定器は様々な環境で既存の推定器よりも正確なOPEをもたらすことが示された。

In real-world recommender systems and search engines, optimizing ranking decisions to present a ranked list of relevant items is critical. Off-policy evaluation (OPE) for ranking policies is thus gaining a growing interest because it enables performance estimation of new ranking policies using only logged data. Although OPE in contextual bandits has been studied extensively, its naive application to the ranking setting faces a critical variance issue due to the huge item space. To tackle this problem, previous studies introduce some assumptions on user behavior to make the combinatorial item space tractable. However, an unrealistic assumption may, in turn, cause serious bias. Therefore, appropriately controlling the bias-variance tradeoff by imposing a reasonable assumption is the key for success in OPE of ranking policies. To achieve a well-balanced bias-variance tradeoff, we propose the Cascade Doubly Robust estimator building on the cascade assumption, which assumes that a user interacts with items sequentially from the top position in a ranking. We show that the proposed estimator is unbiased in more cases compared to existing estimators that make stronger assumptions. Furthermore, compared to a previous estimator based on the same cascade assumption, the proposed estimator reduces the variance by leveraging a control variate. Comprehensive experiments on both synthetic and real-world data demonstrate that our estimator leads to more accurate OPE than existing estimators in a variety of settings.
翻訳日:2022-02-04 13:27:20 公開日:2022-02-03
# 浅層ニューラルネットワークの非バス一般化境界

Non-Vacuous Generalisation Bounds for Shallow Neural Networks ( http://arxiv.org/abs/2202.01627v1 )

ライセンス: Link先を確認
Felix Biggs, Benjamin Guedj(参考訳) 我々は、単一の隠蔽層を持つ特定の浅いニューラルネットワーク、すなわち、$L_2$正規化データを持ち、Sigmoid型ガウス型エラー関数("erf")アクティベーションまたはガウス型エラー線形ユニット(GELU)アクティベーションを持つものに焦点を当てた。 これらのネットワークに対しては、pac-ベイズ理論を通じて新たな一般化境界を導出する。 MNIST と Fashion-MNIST にバニラ確率勾配勾配をトレーニングした場合,我々の限界は経験的でない。

We focus on a specific class of shallow neural networks with a single hidden layer, namely those with $L_2$-normalised data and either a sigmoid-shaped Gaussian error function ("erf") activation or a Gaussian Error Linear Unit (GELU) activation. For these networks, we derive new generalisation bounds through the PAC-Bayesian theory; unlike most existing such bounds they apply to neural networks with deterministic rather than randomised parameters. Our bounds are empirically non-vacuous when the network is trained with vanilla stochastic gradient descent on MNIST and Fashion-MNIST.
翻訳日:2022-02-04 13:26:57 公開日:2022-02-03
# 変分最寄りのガウス過程

Variational Nearest Neighbor Gaussian Processes ( http://arxiv.org/abs/2202.01694v1 )

ライセンス: Link先を確認
Luhuan Wu, Geoff Pleiss, John Cunningham(参考訳) ガウス過程(gps)への変分近似は、典型的には小さな誘導点の集合を用いて共分散行列の低ランク近似を形成する。 この研究では、代わりに精度行列のスパース近似を利用する。 我々は,K近傍の観測でのみ相関を保ち,スパース精度構造を誘導する先行する変分近傍ガウス過程(VNNGP)を提案する。 変分フレームワークを用いることで、VNNGPの目的は観測点と誘導点の両方で決定され、O($K^3$)の時間的複雑さを伴う確率的最適化が可能となる。 したがって、観測された全ての地点に誘導点を置く点まで、任意の方法で誘導点サイズをスケールすることができる。 様々な実験を通してvnngpと他のスケーラブルgpsを比較し,vnngp (1) が低ランク法を劇的に上回ることができ,(2) は他の隣接法に比べて過剰フィットしにくいことを示した。

Variational approximations to Gaussian processes (GPs) typically use a small set of inducing points to form a low-rank approximation to the covariance matrix. In this work, we instead exploit a sparse approximation of the precision matrix. We propose variational nearest neighbor Gaussian process (VNNGP), which introduces a prior that only retains correlations within K nearest-neighboring observations, thereby inducing sparse precision structure. Using the variational framework, VNNGP's objective can be factorized over both observations and inducing points, enabling stochastic optimization with a time complexity of O($K^3$). Hence, we can arbitrarily scale the inducing point size, even to the point of putting inducing points at every observed location. We compare VNNGP to other scalable GPs through various experiments, and demonstrate that VNNGP (1) can dramatically outperform low-rank methods, and (2) is less prone to overfitting than other nearest neighbor methods.
翻訳日:2022-02-04 13:26:42 公開日:2022-02-03
# マージンをもつマルチクラス学習:バイアス分散トレードオフのない指数速度

Multiclass learning with margin: exponential rates with no bias-variance trade-off ( http://arxiv.org/abs/2202.01773v1 )

ライセンス: Link先を確認
Stefano Vigogna, Giacomo Meanti, Ernesto De Vito, Lorenzo Rosasco(参考訳) 適切なマージン条件下でのマルチクラス分類における誤差境界の挙動について検討する。 様々な手法において, ハードマージン条件下での分類誤差は, バイアス分散トレードオフを伴わずに指数関数的に減少することを証明する。 異なる収束率は異なるマージンの仮定に対応して得られる。 自己完結型インストラクティブ解析により、バイナリからマルチクラス設定への既知の結果を一般化することができる。

We study the behavior of error bounds for multiclass classification under suitable margin conditions. For a wide variety of methods we prove that the classification error under a hard-margin condition decreases exponentially fast without any bias-variance trade-off. Different convergence rates can be obtained in correspondence of different margin assumptions. With a self-contained and instructive analysis we are able to generalize known results from the binary to the multiclass setting.
翻訳日:2022-02-04 13:26:25 公開日:2022-02-03
# (参考訳) TPC:ポイントクラウドモデルのための変換特異な平滑化

TPC: Transformation-Speci fic Smoothing for Point Cloud Models ( http://arxiv.org/abs/2201.12733v2 )

ライセンス: CC BY 4.0
Wenda Chu, Linyi Li, Bo Li(参考訳) ニューラルネットワークアーキテクチャを備えたポイントクラウドモデルは大きな成功を収め、自動運転車におけるライダーベースの認識システムなど、安全クリティカルなアプリケーションで広く利用されている。 しかし、このようなモデルは、回転やテーパリングなどのステルスな意味変換を誤誘導モデル予測に適用することを目的とした敵攻撃に対して脆弱である。 本稿では,意味変換攻撃に対するポイントクラウドモデルに対する厳密かつスケーラブルなロバスト性保証を提供する,トランスフォーメーション特有のスムーザリングフレームワークtpcを提案する。 まず、一般的な3D変換を3つのカテゴリに分類する: 加法(例えば、せん断)、構成可能(例えば、回転)、間接的に構成可能(例えば、テーパリング)。 次に、特定のセマンティック変換とその構成に対するユニークな認証プロトコルを指定する。 いくつかの一般的な3Dトランスフォーメーションに関する大規模な実験では、TPCは芸術の状態を著しく上回っている。 例えば、我々のフレームワークは、z軸に沿ったツイスト変換(20$^\circ$)に対する認定精度を20.3$\%$から83.8$\%$に向上させる。

Point cloud models with neural network architectures have achieved great success and have been widely used in safety-critical applications, such as Lidar-based recognition systems in autonomous vehicles. However, such models are shown vulnerable against adversarial attacks which aim to apply stealthy semantic transformations such as rotation and tapering to mislead model predictions. In this paper, we propose a transformation-speci fic smoothing framework TPC, which provides tight and scalable robustness guarantees for point cloud models against semantic transformation attacks. We first categorize common 3D transformations into three categories: additive (e.g., shearing), composable (e.g., rotation), and indirectly composable (e.g., tapering), and we present generic robustness certification strategies for all categories respectively. We then specify unique certification protocols for a range of specific semantic transformations and their compositions. Extensive experiments on several common 3D transformations show that TPC significantly outperforms the state of the art. For example, our framework boosts the certified accuracy against twisting transformation along z-axis (within 20$^\circ$) from 20.3$\%$ to 83.8$\%$.
翻訳日:2022-02-04 12:17:07 公開日:2022-02-03
# (参考訳) 強化されたビジネスプロセス管理システム:研究マニフェスト [全文訳有]

Augmented Business Process Management Systems: A Research Manifesto ( http://arxiv.org/abs/2201.12855v2 )

ライセンス: CC BY 4.0
Marlon Dumas, Fabiana Fournier, Lior Limonad, Andrea Marrella, Marco Montali, Jana-Rebecca Rehse, Rafael Accorsi, Diego Calvanese, Giuseppe De Giacomo, Dirk Fahland, Avigdor Gal, Marcello La Rosa, Hagen V\"olzer, and Ingo Weber(参考訳) ABPMS(Augmented Business Process Management Systems)は、信頼できるAI技術に基づく、プロセス対応情報システムの新興クラスである。 ABPMSは、これらのプロセスをより適応し、積極的に、説明し、文脈に敏感にすることを目的として、ビジネスプロセスの実行を強化します。 このマニフェストは、abpmssのビジョンを示し、このビジョンを実現するために必要な研究課題について論じている。 この目的のために、我々はABPMSの概念を定義し、ABPMS内のプロセスのライフサイクルを概説し、ABPMSのコア特性について議論し、これらの特徴を持つシステムを実現するための一連の課題を導出する。

Augmented Business Process Management Systems (ABPMSs) are an emerging class of process-aware information systems that draws upon trustworthy AI technology. An ABPMS enhances the execution of business processes with the aim of making these processes more adaptable, proactive, explainable, and context-sensitive. This manifesto presents a vision for ABPMSs and discusses research challenges that need to be surmounted to realize this vision. To this end, we define the concept of ABPMS, we outline the lifecycle of processes within an ABPMS, we discuss core characteristics of an ABPMS, and we derive a set of challenges to realize systems with these characteristics.
翻訳日:2022-02-04 12:16:07 公開日:2022-02-03
# (参考訳) 連続時間マルコフ連鎖からmttfを計算する別の方法 [全文訳有]

Just Another Method to Compute MTTF from Continuous Time Markov Chain ( http://arxiv.org/abs/2202.00674v2 )

ライセンス: CC BY 4.0
Eduardo M. Vasconcelos(参考訳) 平均失敗時間 (Meantime to Failure) は、システムが吸収状態に入るのにどれだけの時間を費やすかを決定する統計である。 この統計は、ほとんどの分野の知識で利用できる。 例えばエンジニアリングでは、機器の信頼性の尺度として、そしてビジネスでは、プロセスのパフォーマンスの尺度として使用することができる。 本研究は,連続時間マルコフ連鎖モデルから故障までの時間を取得する手法を提案する。 この手法は直感的であり、より実装が容易である。なぜなら、線形方程式の系を解いて構成されるからである。

The Meantime to Failure is a statistic used to determine how much time a system spends to enter one of its absorption states. This statistic can be used in most areas of knowledge. In engineering, for example, can be used as a measure of equipment reliability, and in business, as a measure of processes performance. This work presents a method to obtain the Meantime to Failure from a Continuous Time Markov Chain models. The method is intuitive and is simpler to be implemented, since, it consists of solving a system of linear equations.
翻訳日:2022-02-04 11:52:52 公開日:2022-02-03
# (参考訳) 半監督医用画像分割のための恥ずかしいほど単純な一貫性規則化法 [全文訳有]

An Embarrassingly Simple Consistency Regularization Method for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2202.00677v2 )

ライセンス: CC BY 4.0
Hritam Basak, Rajarshi Bhattacharya, Rukhshanda Hussain, Agniv Chatterjee(参考訳) 医用画像のセグメンテーションタスクでは,ピクセルレベルのアノテーションの不足が問題となっている。 本稿では,半教師付き医用画像分割のための補間に基づく混合を含む新しい正規化戦略を提案する。 提案手法は,2つのラベルなしデータの補間を分割し,それらのデータのセグメンテーションマップの補間と一致させる新しい一貫性正規化戦略である。 本手法は,ラベル付きデータの高信頼値における過度な適合を最小化するための,データ適応正規化パラダイムの一種である。 提案手法は,追加計算を必要とせず,逆モデルや生成モデルよりも有利である。 ACDCとMMWHSの2つの公開MRIデータセットを評価すると、既存の半教師付きモデルと比較して提案手法の優位性を示す実験結果が得られた。 コードは、https://github.com/h ritam-98/ICT-MedSegで入手できる。

The scarcity of pixel-level annotation is a prevalent problem in medical image segmentation tasks. In this paper, we introduce a novel regularization strategy involving interpolation-based mixing for semi-supervised medical image segmentation. The proposed method is a new consistency regularization strategy that encourages segmentation of interpolation of two unlabelled data to be consistent with the interpolation of segmentation maps of those data. This method represents a specific type of data-adaptive regularization paradigm which aids to minimize the overfitting of labelled data under high confidence values. The proposed method is advantageous over adversarial and generative models as it requires no additional computation. Upon evaluation on two publicly available MRI datasets: ACDC and MMWHS, experimental results demonstrate the superiority of the proposed method in comparison to existing semi-supervised models. Code is available at: https://github.com/h ritam-98/ICT-MedSeg
翻訳日:2022-02-04 11:49:54 公開日:2022-02-03
# 低ランクニューラルネットワークを効率的に学習するためのアルゴリズム

Algorithms for Efficiently Learning Low-Rank Neural Networks ( http://arxiv.org/abs/2202.00834v2 )

ライセンス: Link先を確認
Kiran Vodrahalli and Rakesh Shivanna and Maheswaran Sathiamoorthy and Sagar Jain and Ed H. Chi(参考訳) 2つの低ランク行列の積によって重みパラメータが再パラメータ化されるネットワークである低ランクニューラルネットワークの学習アルゴリズムについて検討する。 まず,単一階層reluネットワークに対する最適低ランク近似を,多項式時間とサンプルでガウス辺数を持つノイズのないサンプルへのアクセスを与えられた確率$\\ge 1 - \delta$で加法誤差$\epsilon$まで学習する。 そこで本研究では,基礎的真理が実現可能と仮定することなく,加算誤差までニューラルネットワークを効率的に学習できるアルゴリズムの最初の例を示す。 この問題を解決するために、ガウス空間上の非線形低ランク近似問題を解くための効率的なSVDベースの$\textit{Nonlinear Kernel Projection}$アルゴリズムを導入する。 このアルゴリズムの効率性に触発されて,低ランク$\textit{deep}$ネットワークをトレーニングするための新しい低ランク初期化フレームワークを提案し,reluネットワークにおいて,近似重みの所望のランクや入力の次元が増加するにつれて,提案手法と既存スキームのギャップが拡大することを示す。 最後に,imagenet 上で resnet と efficientnet モデルをトレーニングすることで,理論を検証する。

We study algorithms for learning low-rank neural networks -- networks where the weight parameters are re-parameterized by products of two low-rank matrices. First, we present a provably efficient algorithm which learns an optimal low-rank approximation to a single-hidden-layer ReLU network up to additive error $\epsilon$ with probability $\ge 1 - \delta$, given access to noiseless samples with Gaussian marginals in polynomial time and samples. Thus, we provide the first example of an algorithm which can efficiently learn a neural network up to additive error without assuming the ground truth is realizable. To solve this problem, we introduce an efficient SVD-based $\textit{Nonlinear Kernel Projection}$ algorithm for solving a nonlinear low-rank approximation problem over Gaussian space. Inspired by the efficiency of our algorithm, we propose a novel low-rank initialization framework for training low-rank $\textit{deep}$ networks, and prove that for ReLU networks, the gap between our method and existing schemes widens as the desired rank of the approximating weights decreases, or as the dimension of the inputs increases (the latter point holds when network width is superlinear in dimension). Finally, we validate our theory by training ResNet and EfficientNet models on ImageNet.
翻訳日:2022-02-04 11:41:02 公開日:2022-02-03
# 自動転送: 経路転送可能な表現への学習

Auto-Transfer: Learning to Route Transferrable Representations ( http://arxiv.org/abs/2202.01011v2 )

ライセンス: Link先を確認
Keerthiram Murugesan, Vijay Sadashivaiah, Ronny Luss, Karthikeyan Shanmugam, Pin-Yu Chen, Amit Dhurandhar(参考訳) 不均一なソースとターゲットネットワークとタスクの間の知識転送は、多くのアプリケーションで大量の品質ラベル付きデータを得るのが難しいため、近年多くの注目を集めている。 既存のアプローチでは、ターゲットのディープニューラルネットワーク(DNN)特徴表現を、制限可能なソースのDNN特徴表現に近いものに制限するのが一般的である。 本稿では,ターゲットモデルの作成に意味のある方法で組み合わされた,適切なターゲット表現へのソース表現の経路を自動学習する,新しい敵対的多腕バンディット手法を提案する。 ソースデータセットがImageNetであるCUB200、Stanford Dogs、MIT67、Stanford40の4つのベンチマーク(ターゲット)イメージデータセットに対して、最先端の知識伝達手法と比較して、5%以上の精度向上が見られる。 ターゲットネットワークが注目する重要な機能の個々の例を、(最も近い)競合相手と比較して異なるレイヤで示すことで、転送方式の良さを質的に分析する。 また、より小さなターゲットデータセットでは、他の方法よりも改善が進み、転送学習の恩恵を受ける小さなデータアプリケーションにとって効果的なツールとなることも観察しています。

Knowledge transfer between heterogeneous source and target networks and tasks has received a lot of attention in recent times as large amounts of quality labelled data can be difficult to obtain in many applications. Existing approaches typically constrain the target deep neural network (DNN) feature representations to be close to the source DNNs feature representations, which can be limiting. We, in this paper, propose a novel adversarial multi-armed bandit approach which automatically learns to route source representations to appropriate target representations following which they are combined in meaningful ways to produce accurate target models. We see upwards of 5% accuracy improvements compared with the state-of-the-art knowledge transfer methods on four benchmark (target) image datasets CUB200, Stanford Dogs, MIT67, and Stanford40 where the source dataset is ImageNet. We qualitatively analyze the goodness of our transfer scheme by showing individual examples of the important features our target network focuses on in different layers compared with the (closest) competitors. We also observe that our improvement over other methods is higher for smaller target datasets making it an effective tool for small data applications that may benefit from transfer learning.
翻訳日:2022-02-04 11:40:29 公開日:2022-02-03
# VOS:仮想アウトリア合成で知らないことを学ぶ

VOS: Learning What You Don't Know by Virtual Outlier Synthesis ( http://arxiv.org/abs/2202.01197v2 )

ライセンス: Link先を確認
Xuefeng Du, Zhaoning Wang, Mu Cai, Yixuan Li(参考訳) 分散(ood)検出は、ニューラルネットワークの安全な展開における重要性から、近年多くの注目を集めている。 重要な課題の1つは、モデルは未知のデータからの監視信号が欠如しており、その結果、OODデータに対する過信的な予測を生成することができることである。 以前のアプローチでは、モデル正規化のために実際の外れたデータセットに依存している。 本稿では,トレーニング中にモデルの判断境界を有意義に定式化できる仮想外れ値の適応的合成によるood検出のための新しいフレームワークvosを提案する。 具体的には、VOSは、特徴空間で推定されるクラス条件分布の低線状領域から仮想外周をサンプリングする。 また,idデータ間の不確実性空間を対比的に形成し,不確実性データを合成する,新しい未知認識学習目標を提案する。 VOSはオブジェクト検出モデルと画像分類モデルの両方で最先端の性能を達成し、FPR95を以前の最良の手法と比較して最大7.87%削減した。 コードはhttps://github.com/d eeplearning-wisc/vos で入手できる。

Out-of-distribution (OOD) detection has received much attention lately due to its importance in the safe deployment of neural networks. One of the key challenges is that models lack supervision signals from unknown data, and as a result, can produce overconfident predictions on OOD data. Previous approaches rely on real outlier datasets for model regularization, which can be costly and sometimes infeasible to obtain in practice. In this paper, we present VOS, a novel framework for OOD detection by adaptively synthesizing virtual outliers that can meaningfully regularize the model's decision boundary during training. Specifically, VOS samples virtual outliers from the low-likelihood region of the class-conditional distribution estimated in the feature space. Alongside, we introduce a novel unknown-aware training objective, which contrastively shapes the uncertainty space between the ID data and synthesized outlier data. VOS achieves state-of-the-art performance on both object detection and image classification models, reducing the FPR95 by up to 7.87% compared to the previous best method. Code is available at https://github.com/d eeplearning-wisc/vos .
翻訳日:2022-02-04 11:39:36 公開日:2022-02-03
# Sim2Real Object-Centric Keypoint Detection and Description

Sim2Real Object-Centric Keypoint Detection and Description ( http://arxiv.org/abs/2202.00448v2 )

ライセンス: Link先を確認
Chengliang Zhong, Chao Yang, Jinshan Qi, Fuchun Sun, Huaping Liu, Xiaodong Mu, Wenbing Huang(参考訳) キーポイント検出と説明はコンピュータビジョンにおいて中心的な役割を果たす。 既存のメソッドのほとんどは、異なるキーポイントのオブジェクトクラスを返すことなく、シーンレベルの予測の形式である。 本稿では,従来の設定を超えて,各関心点が属する対象をさらに識別するオブジェクト中心の定式化を提案する。 このような詳細な情報によって,クラスタ環境におけるオブジェクトレベルのマッチングやポーズ推定といった,より下流的なポテンシャルが実現されるのです。 実世界におけるラベル収集の難しさを回避するため,シミュレーションで訓練されたモデルを実世界アプリケーションに一般化できるsim2現実のコントラスト学習機構を開発した。 我々の訓練方法の目新しさは3つある。 (i)不確実性を学習フレームワークに統合し、例えば、テキストの少ないパッチや対称パッチなど、ハードケースの特徴記述を改善する。 (ii)オブジェクトディスクリプタを2つの出力ブランチに分離する(オブジェクト内サリアンスとオブジェクト間区別性)。 (iii)表現学習におけるロバスト性を高めるために、横断的意味的一貫性を強制する。 画像マッチングと6次元ポーズ推定に関する総合実験により,シミュレーションから現実に至るまでの手法の一般化能力を検証する。 特に6次元ポーズ推定では,本手法は一般的な教師なし/シミュリアルな手法よりも優れており,完全に教師付きされた手法とのギャップが深くなっている。 追加の結果とビデオはhttps://zhongcl-thu. github.io/rock/にある。

Keypoint detection and description play a central role in computer vision. Most existing methods are in the form of scene-level prediction, without returning the object classes of different keypoints. In this paper, we propose the object-centric formulation, which, beyond the conventional setting, requires further identifying which object each interest point belongs to. With such fine-grained information, our framework enables more downstream potentials, such as object-level matching and pose estimation in a clustered environment. To get around the difficulty of label collection in the real world, we develop a sim2real contrastive learning mechanism that can generalize the model trained in simulation to real-world applications. The novelties of our training method are three-fold: (i) we integrate the uncertainty into the learning framework to improve feature description of hard cases, e.g., less-textured or symmetric patches; (ii) we decouple the object descriptor into two output branches -- intra-object salience and inter-object distinctness, resulting in a better pixel-wise description; (iii) we enforce cross-view semantic consistency for enhanced robustness in representation learning. Comprehensive experiments on image matching and 6D pose estimation verify the encouraging generalization ability of our method from simulation to reality. Particularly for 6D pose estimation, our method significantly outperforms typical unsupervised/sim2rea l methods, achieving a closer gap with the fully supervised counterpart. Additional results and videos can be found at https://zhongcl-thu. github.io/rock/
翻訳日:2022-02-04 11:39:18 公開日:2022-02-03
# ksd集計適合性試験

KSD Aggregated Goodness-of-fit Test ( http://arxiv.org/abs/2202.00824v2 )

ライセンス: Link先を確認
Antonin Schrab and Benjamin Guedj and Arthur Gretton(参考訳) Kernel Stein Discrepancy (KSD) に基づく適合性試験の特性について検討した。 我々は、異なるカーネルで複数のテストを集約するKSDAggと呼ばれるテストを構築する戦略を導入する。 KSDAggは、データを分割してカーネル選択(テストパワーの損失につながる)することを避け、むしろカーネルのコレクション上でテストパワーを最大化する。 我々は、KSDAggのパワーに関する理論的保証を提供する: コレクションの最小の均一分離率を対数項まで達成することを示す。 ksdaggはパラメトリックブートストラップまたはワイルドブートストラップに依存して量子量とレベル補正を推定するため、実際に正確に計算することができる。 特に、固定カーネルの帯域幅を決定的に選択するためには、任意のヒューリスティック(中央値や標準偏差など)やデータの分割を避ける。 ksdaggが他の最先端アダプティブksdベースの適合性テスト手順よりも優れている合成データと実世界のデータの両方を見つけました。

We investigate properties of goodness-of-fit tests based on the Kernel Stein Discrepancy (KSD). We introduce a strategy to construct a test, called KSDAgg, which aggregates multiple tests with different kernels. KSDAgg avoids splitting the data to perform kernel selection (which leads to a loss in test power), and rather maximises the test power over a collection of kernels. We provide theoretical guarantees on the power of KSDAgg: we show it achieves the smallest uniform separation rate of the collection, up to a logarithmic term. KSDAgg can be computed exactly in practice as it relies either on a parametric bootstrap or on a wild bootstrap to estimate the quantiles and the level corrections. In particular, for the crucial choice of bandwidth of a fixed kernel, it avoids resorting to arbitrary heuristics (such as median or standard deviation) or to data splitting. We find on both synthetic and real-world data that KSDAgg outperforms other state-of-the-art adaptive KSD-based goodness-of-fit testing procedures.
翻訳日:2022-02-04 11:38:54 公開日:2022-02-03
# CTMSTOUが推進する市場:貿易政策における体制意識の模擬環境

CTMSTOU driven markets: simulated environment for regime-awareness in trading policies ( http://arxiv.org/abs/2202.00941v2 )

ライセンス: Link先を確認
Selim Amrouni, Aymeric Moulin, Tucker Balch(参考訳) 市場レジームは、どのように定義すべきかの詳細については合意が得られていないにもかかわらず、量的金融において一般的なトピックである。 金融市場の予測問題と金融市場の課題実行問題の両方に特徴として生じる。 本研究では,離散的イベントタイムマルチエージェント市場シミュレーションを用いて,レジームを明示的に切り換え,強制できる再現可能かつ理解可能な環境を自由に実験する。 我々は,市場参加者が知覚する基本的価値をモデル化する新しい確率的プロセス,すなわち,レジームスイッチング市場における貿易政策の研究を容易にする,連続時間マルコフスイッチングトレンド (ctmstou) を導入する。 取引業者の体制認識の概念も定義し、注文実行問題の文脈における異なる注文配置戦略の研究を通して、その重要性を説明する。

Market regimes is a popular topic in quantitative finance even though there is little consensus on the details of how they should be defined. They arise as a feature both in financial market prediction problems and financial market task performing problems. In this work we use discrete event time multi-agent market simulation to freely experiment in a reproducible and understandable environment where regimes can be explicitly switched and enforced. We introduce a novel stochastic process to model the fundamental value perceived by market participants: Continuous-Time Markov Switching Trending Ornstein-Uhlenbeck (CTMSTOU), which facilitates the study of trading policies in regime switching markets. We define the notion of regime-awareness for a trading agent as well and illustrate its importance through the study of different order placement strategies in the context of order execution problems.
翻訳日:2022-02-04 11:38:03 公開日:2022-02-03
# LocUNet:ラジオマップとディープラーニングを用いた高速都市位置決め

LocUNet: Fast Urban Positioning Using Radio Maps and Deep Learning ( http://arxiv.org/abs/2202.00738v2 )

ライセンス: Link先を確認
\c{C}a\u{g}kan Yapar, Ron Levie, Gitta Kutyniok, Giuseppe Caire(参考訳) 本稿では,密集した都市シナリオにおけるセルネットワークの局在の問題を扱う。 グローバル・ナビゲーション・サテライト・システム(gnss: global navigation satellite systems)は、視力が低くなる都市環境では性能が悪いため、適切な精度のために代替のローカライズ手法が求められている。 本稿では,基地局 (BS) から受信信号強度 (RSS) をベースとした局所化学習手法を提案する。これは,到着時刻や到着角に依存する手法とは異なり,デバイス標準操作に関して,ユーザデバイスにおける計算複雑性の増大を必要としない。 提案手法では,rssをbssから中央処理ユニット(cpu)にローカライズし,クラウドに配置する。 あるいは、ユーザに対してローカルにローカライズすることができる。 推定されたBSのパスロスラジオマップを用いて、LocUNetは最先端の精度でユーザをローカライズし、無線マップの不正確性に対して高い堅牢性を享受する。 提案手法は環境の事前サンプリングを必要とせず、ニューラルネットワークベースの無線マップ推定器であるRadioUNetのおかげでリアルタイムアプリケーションに適している。 また,現実都市環境におけるrssと到着時刻(toa)の数値比較が可能なデータセットを2つ導入した。

This paper deals with the problem of localization in a cellular network in a dense urban scenario. Global Navigation Satellite Systems (GNSS) typically perform poorly in urban environments, where the likelihood of line-of-sight conditions is low, and thus alternative localization methods are required for good accuracy. We present LocUNet: A deep learning method for localization, based merely on Received Signal Strength (RSS) from Base Stations (BSs), which does not require any increase in computation complexity at the user devices with respect to the device standard operations, unlike methods that rely on time of arrival or angle of arrival information. In the proposed method, the user to be localized reports the RSS from BSs to a Central Processing Unit (CPU), which may be located in the cloud. Alternatively, the localization can be performed locally at the user. Using estimated pathloss radio maps of the BSs, LocUNet can localize users with state-of-the-art accuracy and enjoys high robustness to inaccuracies in the radio maps. The proposed method does not require pre-sampling of the environment; and is suitable for real-time applications, thanks to the RadioUNet, a neural network-based radio map estimator. We also introduce two datasets that allow numerical comparisons of RSS and Time of Arrival (ToA) methods in realistic urban environments.
翻訳日:2022-02-04 11:37:50 公開日:2022-02-03
# 有限次元可換半単純代数上の一般化高次特異値分解による画像の近似

Approximation of Images via Generalized Higher Order Singular Value Decomposition over Finite-dimensional Commutative Semisimple Algebra ( http://arxiv.org/abs/2202.00450v2 )

ライセンス: Link先を確認
Liang Liao, Sen Lin, Lun Li, Xiuwei Zhang, Song Zhao, Yan Wang, Xinqiang Wang, Qi Gao, Jingyu Wang(参考訳) 特異値分解による画像の低ランク近似は、ビッグデータの時代においてよく認識される。 しかし、特異値分解(SVD)は2次データ(行列)に限られる。 高次入力をマトリックスに平らにするか、あるいは一連の2次スライスに分割することで、マルチスペクトル画像やsvdによるビデオといった高次データに取り組む必要がある。 高階特異値分解(HOSVD)はSVDを拡張し、少数のランク1成分の和を用いて高階データを近似することができる。 有限次元可換代数上でのHOSVDの一般化の問題を考える。 この代数はt-代数と呼ばれ、複素数の体を一般化する。 t-スカラーと呼ばれる代数の元は複素数の固定サイズの配列である。 t-スカラー上で行列やテンソルを一般化し、HOSVDを含む多くの標準行列やテンソルアルゴリズムを拡張して高性能版を得る。 HOSVDの一般化はTHOSVDと呼ばれる。 マルチウェイデータの近似性能は、交互アルゴリズムによりさらに向上することができる。 THOSVDはまた、幅広い主成分分析アルゴリズムを統一する。 画像の近似にt-スカラーを用いる一般化アルゴリズムの可能性を活用するために,画素近傍戦略を用いて各画素を「deeper-order」t-スカラーに変換する。 公開されている画像の実験では、THOSVDと呼ばれるt-スカラー上の一般化されたアルゴリズムが、標準のものと好意的に比較されている。

Low-rank approximation of images via singular value decomposition is well-received in the era of big data. However, singular value decomposition (SVD) is only for order-two data, i.e., matrices. It is necessary to flatten a higher order input into a matrix or break it into a series of order-two slices to tackle higher order data such as multispectral images and videos with the SVD. Higher order singular value decomposition (HOSVD) extends the SVD and can approximate higher order data using sums of a few rank-one components. We consider the problem of generalizing HOSVD over a finite dimensional commutative algebra. This algebra, referred to as a t-algebra, generalizes the field of complex numbers. The elements of the algebra, called t-scalars, are fix-sized arrays of complex numbers. One can generalize matrices and tensors over t-scalars and then extend many canonical matrix and tensor algorithms, including HOSVD, to obtain higher-performance versions. The generalization of HOSVD is called THOSVD. Its performance of approximating multi-way data can be further improved by an alternating algorithm. THOSVD also unifies a wide range of principal component analysis algorithms. To exploit the potential of generalized algorithms using t-scalars for approximating images, we use a pixel neighborhood strategy to convert each pixel to "deeper-order" t-scalar. Experiments on publicly available images show that the generalized algorithm over t-scalars, namely THOSVD, compares favorably with its canonical counterparts.
翻訳日:2022-02-04 11:37:25 公開日:2022-02-03