このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220206となっている論文です。

PDF登録状況(公開日: 20220206)

TitleAuthorsAbstract論文公表日・翻訳日
# 株式市場予測における機械学習モデル

Machine Learning Models in Stock Market Prediction ( http://arxiv.org/abs/2202.09359v1 )

ライセンス: Link先を確認
Gurjeet Singh(参考訳) 本論文は,8つの教師付き機械学習モデルを用いて,高級50指標の予測に焦点をあてた。 実験研究に使用されるテクニックは、Adaptive Boost (AdaBoost), k-Nearest Neighbors (kNN), Linear Regression (LR), Artificial Neural Network (ANN), Random Forest (RF), Stochastic Gradient Descent (SGD), Support Vector Machine (SVM), Decision Trees (DT)である。 実験は、1996年4月22日から2021年4月16日までのインド株式相場指数(50 index of india stock market)の過去データに基づいており、これは約25年の時系列データである。 この期間、非取引日を除く取引日数は6220日であった。 トレーディングデータセット全体は、データ全体の25%、データ全体の50%、データ全体の75%、データ全体の4つのサブセットに分割された。 各サブセットはさらに2つのパートトレーニングデータとテストデータに分割された。 トレーニングデータテスト,テストデータテスト,クロスバリデーションテストの3つのテストを適用した結果,使用済みモデルの予測性能を比較し,比較した結果,非常に興味深い結果が得られた。 評価の結果,データセットサイズの増加に伴い,適応的ブースト,k近傍,ランダムフォレスト,決定木が実行されていることが示唆された。 線形回帰とニューラルネットワークは、すべてのモデルでほぼ同様の予測結果を示したが、ニューラルネットワークはモデルのトレーニングと検証により多くの時間を費やした。 その後、Support Vector Machineは他のモデルよりも性能が良くなったが、データセットのサイズが大きくなるにつれて、Support Vector MachineよりもStochastic Gradient Descentの方がパフォーマンスが良かった。

The paper focuses on predicting the Nifty 50 Index by using 8 Supervised Machine Learning Models. The techniques used for empirical study are Adaptive Boost (AdaBoost), k-Nearest Neighbors (kNN), Linear Regression (LR), Artificial Neural Network (ANN), Random Forest (RF), Stochastic Gradient Descent (SGD), Support Vector Machine (SVM) and Decision Trees (DT). Experiments are based on historical data of Nifty 50 Index of Indian Stock Market from 22nd April, 1996 to 16th April, 2021, which is time series data of around 25 years. During the period there were 6220 trading days excluding all the non trading days. The entire trading dataset was divided into 4 subsets of different size-25% of entire data, 50% of entire data, 75% of entire data and entire data. Each subset was further divided into 2 parts-training data and testing data. After applying 3 tests- Test on Training Data, Test on Testing Data and Cross Validation Test on each subset, the prediction performance of the used models were compared and after comparison, very interesting results were found. The evaluation results indicate that Adaptive Boost, k- Nearest Neighbors, Random Forest and Decision Trees under performed with increase in the size of data set. Linear Regression and Artificial Neural Network shown almost similar prediction results among all the models but Artificial Neural Network took more time in training and validating the model. Thereafter Support Vector Machine performed better among rest of the models but with increase in the size of data set, Stochastic Gradient Descent performed better than Support Vector Machine.
翻訳日:2022-02-27 17:35:39 公開日:2022-02-06
# 逐次パターンマイニングのためのメモリ効率向上の試み

Memory Efficient Tries for Sequential Pattern Mining ( http://arxiv.org/abs/2202.06834v1 )

ライセンス: Link先を確認
Amin Hosseininasab, Willem-Jan van Hoeve, Andre A. Cire(参考訳) データの迅速かつ継続的な成長により、教師なし学習と知識発見におけるスケーラブルなマイニングアルゴリズムの必要性が高まっている。 本稿では、よく知られたメモリボトルネックに直面した知識発見の基本的なトピックであるシーケンスパターンマイニング(SPM)に焦点を当てる。 汎用データセットモデリング手法について検討し,spmアルゴリズムの時間とメモリ使用率の改善に利用できることを示す。 特に,trieベースのデータセットモデルと関連するマイニングアルゴリズムを開発し,そのアルゴリズムは,最先端と比較して,桁違いに大きなデータセットを効果的にマイニングすることができる。 実生活の大規模テストインスタンスにおける数値結果は、我々のアルゴリズムが実際より高速でメモリ効率が良いことを示している。

The rapid and continuous growth of data has increased the need for scalable mining algorithms in unsupervised learning and knowledge discovery. In this paper, we focus on Sequential Pattern Mining (SPM), a fundamental topic in knowledge discovery that faces a well-known memory bottleneck. We examine generic dataset modeling techniques and show how they can be used to improve SPM algorithms in time and memory usage. In particular, we develop trie-based dataset models and associated mining algorithms that can represent as well as effectively mine orders of magnitude larger datasets compared to the state of the art. Numerical results on real-life large-size test instances show that our algorithms are also faster and more memory efficient in practice.
翻訳日:2022-02-20 16:30:57 公開日:2022-02-06
# NIFTY50株の階層的リスクパリティと最小分散ポートフォリオ設計

Hierarchical Risk Parity and Minimum Variance Portfolio Design on NIFTY 50 Stocks ( http://arxiv.org/abs/2202.02728v1 )

ライセンス: Link先を確認
Jaydip Sen, Sidra Mehtab, Abhishek Dutta, Saikat Mondal(参考訳) ポートフォリオ設計と最適化は常に研究の領域であり、金融分野の研究者から多くの注目を集めてきた。 最適ポートフォリオの設計は、将来の株価リターンとリスクを正確に予測し、適切なトレードオフを行うため、複雑なタスクである。 本稿では,インド株式市場の8部門において,クリティカルラインアルゴリズムと階層的リスクパリティアルゴリズムという2つのアルゴリズムを用いたポートフォリオ設計手法を提案する。 ポートフォリオは2016年1月1日から2020年12月31日までの株価データを使用して設計されているが、テストは2021年1月1日から2021年8月26日まで行われた。 ポートフォリオのバックテスト結果は、CLAアルゴリズムがトレーニングデータよりも優れている一方で、HRPアルゴリズムはテストデータ上でCLAアルゴリズムより優れていることを示している。

Portfolio design and optimization have been always an area of research that has attracted a lot of attention from researchers from the finance domain. Designing an optimum portfolio is a complex task since it involves accurate forecasting of future stock returns and risks and making a suitable tradeoff between them. This paper proposes a systematic approach to designing portfolios using two algorithms, the critical line algorithm, and the hierarchical risk parity algorithm on eight sectors of the Indian stock market. While the portfolios are designed using the stock price data from Jan 1, 2016, to Dec 31, 2020, they are tested on the data from Jan 1, 2021, to Aug 26, 2021. The backtesting results of the portfolios indicate while the performance of the CLA algorithm is superior on the training data, the HRP algorithm has outperformed the CLA algorithm on the test data.
翻訳日:2022-02-20 16:30:42 公開日:2022-02-06
# SUMO:ニューラルネットワークを用いた睡眠時スピンドル同定

SUMO: Advanced sleep spindle identification with neural networks ( http://arxiv.org/abs/2202.05158v1 )

ライセンス: Link先を確認
Lars Kaulen, Justus T. C. Schwabedal, Jules Schneider, Philipp Ritter, Stephan Bialonski(参考訳) 睡眠スピンドル(Sleep spindles)は、記憶形成やその他の中枢神経系の機能と関連しているように見える神経生理学的現象であり、睡眠中の脳波記録(EEG)で観察できる。 脳波記録中のスピンドルアノテーションを手動で識別することは、たとえリサーが高度に訓練されたとしても、実質的なイントラとレート間変動に苦しむため、研究および診断ツールとしてのスピンドル測定の信頼性が低下する。 Massive Online Data Annotation (MODA)プロジェクトは、最近この問題に対処し、複数の評価専門家から合意を得て、品質が向上したスピンドルアノテーションのコーパスを提供する。 このデータセットに基づいて,睡眠スピンドルを自動的に検出するu-net型ディープニューラルネットワークモデルを提案する。 我々のモデルの性能は最先端の検出器とMODAデータセットのほとんどの専門家を上回る。 高齢者を含む全年齢被験者における検出精度の向上が観察され,特にスピンドル検出が困難であった。 超人的性能で繰り返し作業を行う自動化手法の可能性について検討した。

Sleep spindles are neurophysiological phenomena that appear to be linked to memory formation and other functions of the central nervous system, and that can be observed in electroencephalograp hic recordings (EEG) during sleep. Manually identified spindle annotations in EEG recordings suffer from substantial intra- and inter-rater variability, even if raters have been highly trained, which reduces the reliability of spindle measures as a research and diagnostic tool. The Massive Online Data Annotation (MODA) project has recently addressed this problem by forming a consensus from multiple such rating experts, thus providing a corpus of spindle annotations of enhanced quality. Based on this dataset, we present a U-Net-type deep neural network model to automatically detect sleep spindles. Our model's performance exceeds that of the state-of-the-art detector and of most experts in the MODA dataset. We observed improved detection accuracy in subjects of all ages, including older individuals whose spindles are particularly challenging to detect reliably. Our results underline the potential of automated methods to do repetitive cumbersome tasks with super-human performance.
翻訳日:2022-02-11 16:58:09 公開日:2022-02-06
# (参考訳) ベイジアンアクティブラーニングフレームワークにおけるLiDARデータセットの蒸留:データ強化の効果の理解 [全文訳有]

LiDAR dataset distillation within bayesian active learning framework: Understanding the effect of data augmentation ( http://arxiv.org/abs/2202.02661v1 )

ライセンス: CC BY 4.0
Ngoc Phuong Anh Duong and Alexandre Almin and L\'eo Lemari\'e and B Ravi Kiran(参考訳) 自動運転(ad)データセットは、ここ数年で徐々に大きくなり、より深い表現学習を可能にしている。 アクティブラーニング(al)は最近、アノテーションコストとデータセットのサイズを減らすために注目を集めている。 ALは、ADデータセット、特にLiDARのポイントクラウドデータに対して、比較的調査されていない。 本稿では,大規模semantic-kittiデータセットの (1/4) 上でのal系データセット蒸留の原理評価を行う。 さらに、ALループの異なるサブセット間で、データ拡張(DA)によるモデル性能の向上を示す。 また,daがアノテーションのための情報サンプルの選択をいかに改善するかを示す。 我々は、選択したデータセット構成からのサンプルの60%だけを用いて、データ拡張が完全なデータセット精度を達成することを観察した。 これにより、トレーニング時間が早くなり、アノテーションコストが増加する。

Autonomous driving (AD) datasets have progressively grown in size in the past few years to enable better deep representation learning. Active learning (AL) has re-gained attention recently to address reduction of annotation costs and dataset size. AL has remained relatively unexplored for AD datasets, especially on point cloud data from LiDARs. This paper performs a principled evaluation of AL based dataset distillation on (1/4th) of the large Semantic-KITTI dataset. Further on, the gains in model performance due to data augmentation (DA) are demonstrated across different subsets of the AL loop. We also demonstrate how DA improves the selection of informative samples to annotate. We observe that data augmentation achieves full dataset accuracy using only 60\% of samples from the selected dataset configuration. This provides faster training time and subsequent gains in annotation costs.
翻訳日:2022-02-10 10:02:00 公開日:2022-02-06
# (参考訳) 相関アライメントを伴う点雲上のオフライン3次元オブジェクトアノテーションのシミュレーションと現実領域適応 [全文訳有]

Simulation-to-Realit y domain adaptation for offline 3D object annotation on pointclouds with correlation alignment ( http://arxiv.org/abs/2202.02666v1 )

ライセンス: CC BY 4.0
Weishuang Zhang, B Ravi Kiran, Thomas Gauthier, Yanis Mazouz, Theo Steger(参考訳) LiDARポイントクラウドに3Dバウンディングボックスでオブジェクトをアノテートすることは、自律運転認識システムにおいて、コストのかかる人間駆動プロセスである。 本稿では,シミュレーションデータを用いて,配備車両が収集した実世界のポイントクラウドをセミオートマチックにアノテートする手法を提案する。 対象車両の現実のポイントクラウドと共同で,carlaのラベル付きシミュレーションデータに基づく3次元物体検出モデルをトレーニングする。 教師付きオブジェクト検出損失は、ラベル付きシミュレーションとラベルなしのリアルポイントクラウド特徴表現との間の距離を減らすために、サンゴ損失項で拡張される。 ここでの目標は、シミュレーション(ラベル付き)および実世界の(ラベルなし)ターゲットドメインに不変な表現を学ぶことである。 また、pointcloudsのドメイン適応メソッドに関する最新の調査も提供する。

Annotating objects with 3D bounding boxes in LiDAR pointclouds is a costly human driven process in an autonomous driving perception system. In this paper, we present a method to semi-automatically annotate real-world pointclouds collected by deployment vehicles using simulated data. We train a 3D object detector model on labeled simulated data from CARLA jointly with real world pointclouds from our target vehicle. The supervised object detection loss is augmented with a CORAL loss term to reduce the distance between labeled simulated and unlabeled real pointcloud feature representations. The goal here is to learn representations that are invariant to simulated (labeled) and real-world (unlabeled) target domains. We also provide an updated survey on domain adaptation methods for pointclouds.
翻訳日:2022-02-10 09:50:22 公開日:2022-02-06
# (参考訳) (ほとんど)不可分な混合マンナの自在, 比例的, 効率的配置 [全文訳有]

(Almost) Envy-Free, Proportional and Efficient Allocations of an Indivisible Mixed Manna ( http://arxiv.org/abs/2202.02672v1 )

ライセンス: CC BY 4.0
Vasilis Livanos, Ruta Mehta, Aniket Murhekar(参考訳) 本研究では,あるエージェントに対して,各アイテムが良い(肯定的に価値が高い)もの,他のエージェントにとって悪い(否定的に価値が高い)もの,すなわち混合マンナに公平かつ効率的な割り当てを求める問題について検討する。 公平性の概念として、あらゆる項目(efx と efx$_0$)までエンビーフリーであり、最大善または悪(propmx と propmx$_0$)に比例するエンビーフリー性と比例性の最も強い緩和性を考える。 効率性の概念はpareto-optimality(po )です。 私たちは2種類の例を研究します 一 商品セットを商品及び悪品に分割することができる分離可能 (i)制限混合商品(RMG)各項目の$j$に対して、各エージェントが$j$の非正の値を持つか、同じ$v_j>0$の値を$j$とする。 下記の多項式時間アルゴリズムを得る。 (i) 分離可能なインスタンス: propmx$_0$ 割り当て。 (ii) rmgインスタンス:pure badsをみんなが否定的に評価するアイテムの集合とする。 -一般的な純悪に対するpropMXアロケーション。 - EFX+PropMX 同一順序の純悪に対するアロケーション。 - EFX+PropMX+PO が同一の純悪を割り当てる。 最後に、RMGインスタンスが、すべての$v_j$sが同じバイナリ混合グッズにさらに制限されている場合、それぞれEFX$_0$とPropMX$_0$を保証するように結果を強化します。

We study the problem of finding fair and efficient allocations of a set of indivisible items to a set of agents, where each item may be a good (positively valued) for some agents and a bad (negatively valued) for others, i.e., a mixed manna. As fairness notions, we consider arguably the strongest possible relaxations of envy-freeness and proportionality, namely envy-free up to any item (EFX and EFX$_0$), and proportional up to the maximin good or any bad (PropMX and PropMX$_0$). Our efficiency notion is Pareto-optimality (PO). We study two types of instances: (i) Separable, where the item set can be partitioned into goods and bads, and (ii) Restricted mixed goods (RMG), where for each item $j$, every agent has either a non-positive value for $j$, or values $j$ at the same $v_j>0$. We obtain polynomial-time algorithms for the following: (i) Separable instances: PropMX$_0$ allocation. (ii) RMG instances: Let pure bads be the set of items that everyone values negatively. - PropMX allocation for general pure bads. - EFX+PropMX allocation for identically-ordered pure bads. - EFX+PropMX+PO allocation for identical pure bads. Finally, if the RMG instances are further restricted to binary mixed goods where all the $v_j$'s are the same, we strengthen the results to guarantee EFX$_0$ and PropMX$_0$ respectively.
翻訳日:2022-02-10 09:39:14 公開日:2022-02-06
# (参考訳) featherweight assisted vulnerability discovery [全文訳有]

Featherweight Assisted Vulnerability Discovery ( http://arxiv.org/abs/2202.02679v1 )

ライセンス: CC BY 4.0
David Binkley and Leon Moonen and Sibren Isaacman(参考訳) 脆弱なソースコードの予測は、より精査されなければならないコードの一部に注意を払うのに役立つ。 近年の研究では、関数の脆弱性の探索を支援するために、ディープニューラルネットワーク(DNN)によって学習可能なセマンティックキューとして関数名を使用することが提案されている。 各関数名をその構成語に分割する識別子分割と、新たな周波数ベースのアルゴリズムを組み合わせることで、関数名を構成する単語が潜在的に脆弱な関数を予測できる程度を探索する。 関数名のみを考慮するDNNの*lightweight*予測とは対照的に、DNNの使用を避けることは*featherweight*予測を提供する。 基本的な考え方は、特定の「危険な」単語を含む関数名は、脆弱な機能を伴う可能性が高いということである。 もちろん、これは周波数ベースのアルゴリズムが本当に危険な単語に集中するように適切に調整できると仮定する。 DNNよりも透明性が高いため、周波数に基づくアルゴリズムにより、DNNの内部動作を調べることができる。 もし成功すれば、DNNが何をし、学習しないかについての調査は、より効果的な将来のモデルをトレーニングするのに役立ちます。 弱ラベル付き73,000以上の関数と良値付き950000以上の関数を含む異種データセットに対するアプローチを実験的に評価した。 分析の結果,単語のみがdnnの分類能力のかなりの部分を占めていることがわかった。 また、単語は、より均質な語彙を持つデータセットにおいて最も価値が高いことも分かりました。 このように、語彙が必然的に均一なプロジェクトの範囲内で作業する場合、我々のアプローチは、ソースコードの脆弱性のハントを支援するために、より安く、潜在的に補完的な技術を提供します。 最後に、このアプローチはトレーニングデータを桁違いに減らすことで実現可能であるという利点があります。

Predicting vulnerable source code helps to focus attention on those parts of the code that need to be examined with more scrutiny. Recent work proposed the use of function names as semantic cues that can be learned by a deep neural network (DNN) to aid in the hunt for vulnerability of functions. Combining identifier splitting, which splits each function name into its constituent words, with a novel frequency-based algorithm, we explore the extent to which the words that make up a function's name can predict potentially vulnerable functions. In contrast to *lightweight* predictions by a DNN that considers only function names, avoiding the use of a DNN provides *featherweight* predictions. The underlying idea is that function names that contain certain "dangerous" words are more likely to accompany vulnerable functions. Of course, this assumes that the frequency-based algorithm can be properly tuned to focus on truly dangerous words. Because it is more transparent than a DNN, the frequency-based algorithm enables us to investigate the inner workings of the DNN. If successful, this investigation into what the DNN does and does not learn will help us train more effective future models. We empirically evaluate our approach on a heterogeneous dataset containing over 73000 functions labeled vulnerable, and over 950000 functions labeled benign. Our analysis shows that words alone account for a significant portion of the DNN's classification ability. We also find that words are of greatest value in the datasets with a more homogeneous vocabulary. Thus, when working within the scope of a given project, where the vocabulary is unavoidably homogeneous, our approach provides a cheaper, potentially complementary, technique to aid in the hunt for source-code vulnerabilities. Finally, this approach has the advantage that it is viable with orders of magnitude less training data.
翻訳日:2022-02-10 09:11:08 公開日:2022-02-06
# (参考訳) 医療用カーネルによるハイパーコンボリューション [全文訳有]

Hyper-Convolutions via Implicit Kernels for Medical Imaging ( http://arxiv.org/abs/2202.02701v1 )

ライセンス: CC BY 4.0
Tianyu Ma, Alan Q. Wang, Adrian V. Dalca, Mert R. Sabuncu(参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンタスクにおいて最もよく使われるアーキテクチャの1つである。 CNNのキービルディングブロックは畳み込みカーネルで、ピクセルの近傍から情報を集約し、すべてのピクセル間で重みを共有する。 標準的なCNNのキャパシティ、すなわち性能は、学習可能なカーネルウェイトの数に直接関係しており、チャネルの数とカーネルサイズ(サポート)によって決定される。 本稿では,空間座標を用いて畳み込み核を暗黙的に符号化する新しいビルディングブロックである \textit{hyper-convolution} を提案する。 ハイパーコンボリューションはカーネルサイズを学習可能なパラメータの総数から切り離し、より柔軟なアーキテクチャ設計を可能にする。 我々は,通常の畳み込みをハイパー畳み込みに置き換えることで,少ないパラメータで性能を向上し,雑音に対するロバスト性を高めることを実験で実証する。 emph{https://github.com/t ym002/hyper-convolut ion} コードはこちらで提供します。

The convolutional neural network (CNN) is one of the most commonly used architectures for computer vision tasks. The key building block of a CNN is the convolutional kernel that aggregates information from the pixel neighborhood and shares weights across all pixels. A standard CNN's capacity, and thus its performance, is directly related to the number of learnable kernel weights, which is determined by the number of channels and the kernel size (support). In this paper, we present the \textit{hyper-convolution}, a novel building block that implicitly encodes the convolutional kernel using spatial coordinates. Hyper-convolutions decouple kernel size from the total number of learnable parameters, enabling a more flexible architecture design. We demonstrate in our experiments that replacing regular convolutions with hyper-convolutions can improve performance with less parameters, and increase robustness against noise. We provide our code here: \emph{https://github.com/t ym002/Hyper-Convolut ion}
翻訳日:2022-02-10 08:51:49 公開日:2022-02-06
# (参考訳) 共生はどの程度有効か? Code-mix Sarcasm Detection の意義 [全文訳有]

How Effective is Incongruity? Implications for Code-mix Sarcasm Detection ( http://arxiv.org/abs/2202.02702v1 )

ライセンス: CC BY 4.0
Aditya Shah, Chandresh Kumar Maurya(参考訳) 会話システムやチャットボット、Facebook、Twitterなどのソーシャルメディアにおける皮肉の存在は、下流のNLPタスクにいくつかの課題をもたらす。 これは、sarcastic テキストの意図した意味が表現されたものとは逆であるという事実による。 さらに、皮肉を表現するためのコード混合言語の使用も日々増えている。 コードミックスデータに対する現在のNLP技術は、異なる語彙、構文、ラベル付きコーパスの不足により、限られた成功を収めている。 コードミキシングとサルカズム検出の連成問題を解決するために,fastTextで学習したサブワードレベルの埋め込みによって不整合を捕捉する手法を提案する。 実験結果から,提案モデルが事前学習した多言語モデルに匹敵するコードミックスHinglishデータセット上でF1スコアを達成し,学習速度が10倍速く,メモリフットプリントが低いことを示す。

The presence of sarcasm in conversational systems and social media like chatbots, Facebook, Twitter, etc. poses several challenges for downstream NLP tasks. This is attributed to the fact that the intended meaning of a sarcastic text is contrary to what is expressed. Further, the use of code-mix language to express sarcasm is increasing day by day. Current NLP techniques for code-mix data have limited success due to the use of different lexicon, syntax, and scarcity of labeled corpora. To solve the joint problem of code-mixing and sarcasm detection, we propose the idea of capturing incongruity through sub-word level embeddings learned via fastText. Empirical results shows that our proposed model achieves F1-score on code-mix Hinglish dataset comparable to pretrained multilingual models while training 10x faster and using a lower memory footprint
翻訳日:2022-02-10 08:34:40 公開日:2022-02-06
# データサイエンスとデータ分析における進化型・自然型アルゴリズムの応用

The application of Evolutionary and Nature Inspired Algorithms in Data Science and Data Analytics ( http://arxiv.org/abs/2202.03859v1 )

ライセンス: Link先を確認
Farid Ghareh Mohammadi, Farzan Shenavarmasouleh, Khaled Rasheed, Thiab Taha, M. Hadi Amini, and Hamid R. Arabnia(参考訳) 過去30年間、科学者は大規模な科学課題を解決するための解決策を発見し、理解し、モデル化するために、動物、昆虫、生物学を含む自然を探索してきた。 バイオニクスの研究により、自然界で見られる生物学的構造や機能がどのように現代の技術を改善したかが明らかになった。 本研究では,前処理,教師付きアルゴリズム,教師なしアルゴリズムの3つの主要なトピックにおいて,データサイエンスとデータ分析における進化的および自然に着想を得たアルゴリズムの発見について述べる。 本研究では,データサイエンスとアナリティクスにおいて,進化的および自然に触発されたアルゴリズムを用いて行った4つの最適化アルゴリズムについて検討する。 事前処理部の特徴選択最適化,ハイパーパラメータチューニング最適化,教師付きアルゴリズムにおける知識発見最適化,教師なしアルゴリズムにおけるクラスタリング最適化。

In the past 30 years, scientists have searched nature, including animals and insects, and biology in order to discover, understand, and model solutions for solving large-scale science challenges. The study of bionics reveals that how the biological structures, functions found in nature have improved our modern technologies. In this study, we present our discovery of evolutionary and nature-inspired algorithms applications in Data Science and Data Analytics in three main topics of pre-processing, supervised algorithms, and unsupervised algorithms. Among all applications, in this study, we aim to investigate four optimization algorithms that have been performed using the evolutionary and nature-inspired algorithms within data science and analytics. Feature selection optimization in pre-processing section, Hyper-parameter tuning optimization, and knowledge discovery optimization in supervised algorithms, and clustering optimization in the unsupervised algorithms.
翻訳日:2022-02-09 16:28:31 公開日:2022-02-06
# (参考訳) 自動車運転知覚のためのマルチモーダルセンサ融合:調査 [全文訳有]

Multi-modal Sensor Fusion for Auto Driving Perception: A Survey ( http://arxiv.org/abs/2202.02703v1 )

ライセンス: CC BY 4.0
Keli Huang, Botian Shi, Xiang Li, Xin Li, Siyuan Huang, Yikang Li(参考訳) マルチモーダル融合は、最近多くの研究者を惹きつけてきた自律運転システムの認識の基本的なタスクである。 しかし、ノイズの多い生データ、未利用情報、マルチモーダルセンサの誤調整などにより、かなり優れた性能を達成することは容易ではない。 本稿では,自律運転における知覚課題に対する既存のマルチモーダル方式の文献的考察を行う。 一般に,lidarやカメラなどの知覚センサを活用した50以上の論文を含む詳細な分析を行い,対象検出と意味セグメンテーションの課題を解決する。 融合モデルを分類する従来の融合手法とは違って、融合段階の観点からより合理的な分類法により、これらを2つの主要なクラスである4つのマイナークラスに分割する革新的な方法を提案する。 さらに, 現状の融合手法を深く掘り下げ, 残りの問題に焦点をあて, 今後の研究機会についてオープンな議論を行う。 結論として,本論文では,自律運転認識タスクのためのマルチモーダルフュージョン手法の新たな分類法を提案するとともに,将来的なフュージョンベース手法の考え方を提起する。

Multi-modal fusion is a fundamental task for the perception of an autonomous driving system, which has recently intrigued many researchers. However, achieving a rather good performance is not an easy task due to the noisy raw data, underutilized information, and the misalignment of multi-modal sensors. In this paper, we provide a literature review of the existing multi-modal-based methods for perception tasks in autonomous driving. Generally, we make a detailed analysis including over 50 papers leveraging perception sensors including LiDAR and camera trying to solve object detection and semantic segmentation tasks. Different from traditional fusion methodology for categorizing fusion models, we propose an innovative way that divides them into two major classes, four minor classes by a more reasonable taxonomy in the view of the fusion stage. Moreover, we dive deep into the current fusion methods, focusing on the remaining problems and open-up discussions on the potential research opportunities. In conclusion, what we expect to do in this paper is to present a new taxonomy of multi-modal fusion methods for the autonomous driving perception tasks and provoke thoughts of the fusion-based techniques in the future.
翻訳日:2022-02-09 11:46:28 公開日:2022-02-06
# (参考訳) 深層学習を用いたポートレートセグメンテーション [全文訳有]

Portrait Segmentation Using Deep Learning ( http://arxiv.org/abs/2202.02705v1 )

ライセンス: CC BY 4.0
Sumedh Vilas Datar and, Jesus Gonzales Bernal(参考訳) 肖像画とは、人物の絵、絵、写真、彫刻、特に顔、頭、肩のみを描いたもの。 デジタル世界では、人物を被写体とし、背景がぼやけているように人物の像を捉えて人物の肖像画を撮影する。 DSLRは一般的に、非常に近い関心領域に集中するために開口を小さくし、背景を自動的に曖昧にする。 そこで本稿では,デジタル一眼レフのポートレートモードをスマートフォンで再現し,高品質なポートレート画像を生成する新しい手法を考案した。

A portrait is a painting, drawing, photograph, or engraving of a person, especially one depicting only the face or head and shoulders. In the digital world the portrait of a person is captured by having the person as a subject in the image and capturing the image of the person such that the background is blurred. DSLRs generally do it by reducing the aperture to focus on very close regions of interest and automatically blur the background. In this paper I have come up with a novel approach to replicate the portrait mode from DSLR using any smartphone to generate high quality portrait images.
翻訳日:2022-02-09 11:24:57 公開日:2022-02-06
# (参考訳) 時系列データのロバスト異常検出 [全文訳有]

Robust Anomaly Detection for Time-series Data ( http://arxiv.org/abs/2202.02721v1 )

ライセンス: CC BY 4.0
Min Hu, Yi Wang, Xiaowei Feng, Shengchen Zhou, Zhaoyu Wu, Yuan Qin(参考訳) 時系列異常検出は複雑な動作状態を監視する上で重要な役割を果たす。 しかし,既存手法の検出精度は,パターン分布,複数の正規パターンの存在,動的特徴表現,パラメータ設定に大きく影響している。 本研究は、ロバスト性の向上と精度の確保を目的として、負の選択の強み、未保持の繰り返しプロット、および極端な学習機械オートエンコーダを組み合わせて、時系列データ(RADTD)のロバストな異常検出を提案し、時系列における動的特徴を自動的に学習し、ラベル依存性の低い異常を認識できるようにする。 Yahooベンチマークデータセットと3つのトンネル工学シミュレーション実験を用いてRADTDの性能を評価した。 実験の結果, RADTDのベンチマークデータセットは, 繰り返し精度解析と極端学習機械オートエンコーダよりも高い精度と堅牢性を有しており, RADTDはトンネル掘削事故の発生を正確に検出し, その精度と堅牢性において顕著な性能を示した。

Time-series anomaly detection plays a vital role in monitoring complex operation conditions. However, the detection accuracy of existing approaches is heavily influenced by pattern distribution, existence of multiple normal patterns, dynamical features representation, and parameter settings. For the purpose of improving the robustness and guaranteeing the accuracy, this research combined the strengths of negative selection, unthresholded recurrence plots, and an extreme learning machine autoencoder and then proposed robust anomaly detection for time-series data (RADTD), which can automatically learn dynamical features in time series and recognize anomalies with low label dependency and high robustness. Yahoo benchmark datasets and three tunneling engineering simulation experiments were used to evaluate the performance of RADTD. The experiments showed that in benchmark datasets RADTD possessed higher accuracy and robustness than recurrence qualification analysis and extreme learning machine autoencoder, respectively, and that RADTD accurately detected the occurrence of tunneling settlement accidents, indicating its remarkable performance in accuracy and robustness.
翻訳日:2022-02-09 11:21:48 公開日:2022-02-06
# (参考訳) 自動運転車:人工知能と法律の最先端を横断する [全文訳有]

The Self-Driving Car: Crossroads at the Bleeding Edge of Artificial Intelligence and Law ( http://arxiv.org/abs/2202.02734v1 )

ライセンス: CC BY 4.0
Scott McLachlan, Evangelia Kyrimi, Kudakwashe Dube, Norman Fenton and Burkhard Schafer(参考訳) 人工知能(AI)の機能は車に組み込まれ、自動運転車(SDC)の運用の中心となっている。 自動車におけるAIによる決定の広範な法的および規制的影響を理解し評価する努力は、ほとんど、あるいは全く行われていない。 既存の法と規制の適合性と限界を理解するために,sdcの持つ障壁,利益,促進要因を明らかにするため,包括的な文献レビューを行った。 1) 現行法及び提案法は主に,まだ投機的かつ未検証であるsdvの請求された利益に基づいており,(2)sdcが事故に関与している地域を非難し,誰が支払っているかを特定する問題として公に提示されているが,その障壁は,社会,法律,規制のほぼすべての領域と広く交わっており,(3)新しい法と規制がsdcを可能にする主要な要因として最も多く認識されている。 SDCにおけるAIの影響を評価する研究は、障壁、利益、そしてこの論文で特定された要因を包含するために、怠慢と責任を超えて拡張する必要がある。 本論文の成果は,既存の法律と規制がsdc技術の導入に与えた幅広い影響をより深く理解することの必要性を指摘し,それらの分野のみに法制上の注意を喚起することに焦点を当てている点において重要である。

Artificial intelligence (AI) features are increasingly being embedded in cars and are central to the operation of self-driving cars (SDC). There is little or no effort expended towards understanding and assessing the broad legal and regulatory impact of the decisions made by AI in cars. A comprehensive literature review was conducted to determine the perceived barriers, benefits and facilitating factors of SDC in order to help us understand the suitability and limitations of existing and proposed law and regulation. (1) existing and proposed laws are largely based on claimed benefits of SDV that are still mostly speculative and untested; (2) while publicly presented as issues of assigning blame and identifying who pays where the SDC is involved in an accident, the barriers broadly intersect with almost every area of society, laws and regulations; and (3) new law and regulation are most frequently identified as the primary factor for enabling SDC. Research on assessing the impact of AI in SDC needs to be broadened beyond negligence and liability to encompass barriers, benefits and facilitating factors identified in this paper. Results of this paper are significant in that they point to the need for deeper comprehension of the broad impact of all existing law and regulations on the introduction of SDC technology, with a focus on identifying only those areas truly requiring ongoing legislative attention.
翻訳日:2022-02-09 10:58:25 公開日:2022-02-06
# (参考訳) ファインマン経路の深い生成モデルによるユークリッド量子伝播子の推定 [全文訳有]

Estimating the Euclidean Quantum Propagator with Deep Generative Modelling of Feynman paths ( http://arxiv.org/abs/2202.02750v1 )

ライセンス: CC BY-SA 4.0
Yanming Che, Clemens Gneiting, Franco Nori(参考訳) ファインマン経路積分は、すべての可能な経路の巨大な多様体を和って、量子プロパゲータと量子力学に対してエレガントで古典的に着想を得た表現を提供する。 計算とシミュレーションの観点からは、経路多様体全体のエルゴード追跡は難しい問題である。 機械学習は、膨大なパス多様体のごく一部に存在する関連する部分空間と本質的な構造を特定するのに有効である。 本研究では,ユークリッド時空における経路の所望の密度を対象とし,(低次元)潜在空間から固定エンドポイントを持つファインマン経路を効率的に生成するファインマン経路生成器の概念を提案する。 このような経路生成器により、ユークリッドプロパゲータと基底状態波動関数は、一般的なポテンシャルエネルギーに対して効率的に推定できる。 我々の研究は量子プロパゲータの計算に新たなアプローチをもたらし、ファインマン経路の生成モデルへの道を開くとともに、深層学習による量子古典的対応を理解するための新しい視点を提供するかもしれない。

Feynman path integrals provide an elegant, classically-inspired representation for the quantum propagator and the quantum dynamics, through summing over a huge manifold of all possible paths. From computational and simulational perspectives, the ergodic tracking of the whole path manifold is a hard problem. Machine learning can help, in an efficient manner, to identify the relevant subspace and the intrinsic structure residing at a small fraction of the vast path manifold. In this work, we propose the concept of Feynman path generator, which efficiently generates Feynman paths with fixed endpoints from a (low-dimensional) latent space, by targeting a desired density of paths in the Euclidean space-time. With such path generators, the Euclidean propagator as well as the ground state wave function can be estimated efficiently for a generic potential energy. Our work leads to a fresh approach for calculating the quantum propagator, paves the way toward generative modelling of Feynman paths, and may also provide a future new perspective to understand the quantum-classical correspondence through deep learning.
翻訳日:2022-02-09 10:34:41 公開日:2022-02-06
# (参考訳) pipe overflow: 楽しさと利益のために音声認証を壊す [全文訳有]

Pipe Overflow: Smashing Voice Authentication for Fun and Profit ( http://arxiv.org/abs/2202.02751v1 )

ライセンス: CC BY 4.0
Shimaa Ahmed, Yash Wani, Ali Shahin Shamsabadi, Mohammad Yaghini, Ilia Shumailov, Nicolas Papernot, Kassem Fawaz(参考訳) 近年、機械学習を利用した音響対応パーソナルデバイスの人気が高まっている。 しかし、機械学習は敵の例に弱いことが証明されている。 現代のシステムの多くは、人為性を標的にすることで、敵の例を生成するための人間の関与の欠如を検出するメカニズムを配置することで、このような攻撃から身を守る。 しかし、これらの防御は、人間が有意義で標的を絞った敵の例を生産できないと暗黙的に仮定している。 本稿では,この仮定が間違っていることを示す。 特に、話者識別のようなタスクでは、人間が直接、コストと監督の少ないアナログの敵の例を生成できることを実証する: 単にチューブを通して話すことで、相手は話者識別のためのMLモデルの目で、他の話者を確実に特定することができる。 本研究は,携帯電話バンキングなどの実生活におけるセキュリティクリティカルな環境での利用に疑問を呈する,livenessなどの他の音響バイオメトリックタスクにも及んでいる。

Recent years have seen a surge of popularity of acoustics-enabled personal devices powered by machine learning. Yet, machine learning has proven to be vulnerable to adversarial examples. Large number of modern systems protect themselves against such attacks by targeting the artificiality, i.e., they deploy mechanisms to detect the lack of human involvement in generating the adversarial examples. However, these defenses implicitly assume that humans are incapable of producing meaningful and targeted adversarial examples. In this paper, we show that this base assumption is wrong. In particular, we demonstrate that for tasks like speaker identification, a human is capable of producing analog adversarial examples directly with little cost and supervision: by simply speaking through a tube, an adversary reliably impersonates other speakers in eyes of ML models for speaker identification. Our findings extend to a range of other acoustic-biometric tasks such as liveness, bringing into question their use in security-critical settings in real life, such as phone banking.
翻訳日:2022-02-09 10:18:23 公開日:2022-02-06
# (参考訳) リーマンスコアに基づく生成モデル

Riemannian Score-Based Generative Modeling ( http://arxiv.org/abs/2202.02763v1 )

ライセンス: CC0 1.0
Valentin De Bortoli, Emile Mathieu, Michael Hutchinson, James Thornton, Yee Whye Teh, Arnaud Doucet(参考訳) スコアベース生成モデル(SGM)は、顕著な経験的性能を示す新しい生成モデルのクラスである。 拡散を用いて、データに徐々にガウスノイズを加える一方、生成モデルは、この「ノイズ」拡散の時間反転を近似して得られる「減少」過程である。 しかし、現在のSGMは、そのデータが平坦な幾何学を持つユークリッド多様体上で支えられているという前提を定めている。 これにより、ロボット工学、ジオサイエンス、タンパク質モデリングにおけるこれらのモデルの使用が妨げられ、これはリーマン多様体上で定義される分布に依存する。 この問題を克服するために、現在のSGMをコンパクトリーマン多様体の設定に拡張するリーマンスコアベース生成モデル(RSGM)を導入する。 我々は,地球と気候科学のデータを用いて,多様体上のschr\"odinger bridge問題を解くことにより,rsgmsの高速化を図示する。

Score-based generative models (SGMs) are a novel class of generative models demonstrating remarkable empirical performance. One uses a diffusion to add progressively Gaussian noise to the data, while the generative model is a "denoising" process obtained by approximating the time-reversal of this "noising" diffusion. However, current SGMs make the underlying assumption that the data is supported on a Euclidean manifold with flat geometry. This prevents the use of these models for applications in robotics, geoscience or protein modeling which rely on distributions defined on Riemannian manifolds. To overcome this issue, we introduce Riemannian Score-based Generative Models (RSGMs) which extend current SGMs to the setting of compact Riemannian manifolds. We illustrate our approach with earth and climate science data and show how RSGMs can be accelerated by solving a Schr\"odinger bridge problem on manifolds.
翻訳日:2022-02-09 09:53:23 公開日:2022-02-06
# (参考訳) ポートフォリオと量子状態のオンライン学習のための効率-回帰パレートフロンティアの推進

Pushing the Efficiency-Regret Pareto Frontier for Online Learning of Portfolios and Quantum States ( http://arxiv.org/abs/2202.02765v1 )

ライセンス: CC BY 4.0
Julian Zimmert, Naman Agarwal, Satyen Kale(参考訳) 従来のオンラインポートフォリオ選択問題を再考する。 CoverのUniversal Portfoliosアルゴリズム、SOFT-BAYES、ADA-BARRONSが現在最先端のParetoフロンティアを構成しているため、計算複雑性と後悔のトレードオフは避けられないと広く考えられている。 本稿では,PartoフロンティアからADA-BARRONSを取り除き,その次元の多項式であるメモリとステップごとのランニング時間要件を記憶する,最初の効率的なアルゴリズムであるBISONSを提案する。 さらに、log-barrier正規化を持つある種の後続正規化リーダーアルゴリズムが、以前予想したよりも指数関数的に大きな次元依存性を被ることを示すことにより、colt 2020 open problemを解決した。 したがって、我々はこのアルゴリズムをパレートフロンティアの候補として除外する。 また、オンラインポートフォリオ選択よりも一般的な問題である、ログロスを伴う量子状態のオンライン学習にもアルゴリズムと解析を拡張しました。 このアルゴリズムはSCHROINGER'S BISONSと呼ばれ、このより一般的な問題に対する多元論的後悔を伴う最初の効率的なアルゴリズムである。

We revisit the classical online portfolio selection problem. It is widely assumed that a trade-off between computational complexity and regret is unavoidable, with Cover's Universal Portfolios algorithm, SOFT-BAYES and ADA-BARRONS currently constituting its state-of-the-art Pareto frontier. In this paper, we present the first efficient algorithm, BISONS, that obtains polylogarithmic regret with memory and per-step running time requirements that are polynomial in the dimension, displacing ADA-BARRONS from the Pareto frontier. Additionally, we resolve a COLT 2020 open problem by showing that a certain Follow-The-Regulariz ed-Leader algorithm with log-barrier regularization suffers an exponentially larger dependence on the dimension than previously conjectured. Thus, we rule out this algorithm as a candidate for the Pareto frontier. We also extend our algorithm and analysis to a more general problem than online portfolio selection, viz. online learning of quantum states with log loss. This algorithm, called SCHRODINGER'S BISONS, is the first efficient algorithm with polylogarithmic regret for this more general problem.
翻訳日:2022-02-09 09:52:28 公開日:2022-02-06
# (参考訳) aiシステムのための人権・民主主義・法保障枠組みの提案

Human rights, democracy, and the rule of law assurance framework for AI systems: A proposal ( http://arxiv.org/abs/2202.02776v1 )

ライセンス: CC BY 4.0
David Leslie, Christopher Burr, Mhairi Aitken, Michael Katell, Morgan Briggs, Cami Rincon(参考訳) 2020年12月のフィージビリティスタディの公表に続いて、欧州評議会の人工知能特別委員会(CAHAI)とそのサブグループは、人権、民主主義、法の支配に関する欧州評議会の基準に基づいて、人工知能に関する法的枠組みの可能な要素を定式化し、策定する取り組みを開始した。 この文書は最終的に2021年12月にcahai plenaryによって採択された。 この取り組みを支援するために、アランチューリング研究所は、信頼できるAIイノベーションのプラクティスの保証と人間の権利の厳密な統合を運用するために必要なガバナンスプロセスと実践的なツールを調査するプログラムを実行した。 この枠組みは完成し、2021年9月に欧州評議会に提出された。 これは、コンテキストベースのリスク分析と適切なステークホルダエンゲージメントと包括的な影響評価、透明性のあるリスク管理、影響緩和、イノベーション保証プラクティスを統合する、AIプロジェクトのライフサイクルの保証に対するエンドツーエンドのアプローチである。 これらの連動過程は、人権、民主主義、法保障枠組み(huderaf)を構成する。 HUDERAFは、原則に基づく人権義務の手続き的要件と、責任と信頼性のあるAIイノベーションプラクティスのための技術的および社会技術的ガードレールを確立するために必要なガバナンスメカニズムを組み合わせる。 その目的は、人権、民主主義、法の支配に関する欧州評議会の基準に基づいて、人工知能に関する法的枠組みの遵守を促進するためのアクセス可能でユーザフレンドリな一連のメカニズムを提供することであり、AIイノベーションプロジェクトが適切なレベルの公的説明責任、透明性、民主的ガバナンスによって実行されることを保証することである。

Following on from the publication of its Feasibility Study in December 2020, the Council of Europe's Ad Hoc Committee on Artificial Intelligence (CAHAI) and its subgroups initiated efforts to formulate and draft its Possible Elements of a Legal Framework on Artificial Intelligence, based on the Council of Europe's standards on human rights, democracy, and the rule of law. This document was ultimately adopted by the CAHAI plenary in December 2021. To support this effort, The Alan Turing Institute undertook a programme of research that explored the governance processes and practical tools needed to operationalise the integration of human right due diligence with the assurance of trustworthy AI innovation practices. The resulting framework was completed and submitted to the Council of Europe in September 2021. It presents an end-to-end approach to the assurance of AI project lifecycles that integrates context-based risk analysis and appropriate stakeholder engagement with comprehensive impact assessment, and transparent risk management, impact mitigation, and innovation assurance practices. Taken together, these interlocking processes constitute a Human Rights, Democracy and the Rule of Law Assurance Framework (HUDERAF). The HUDERAF combines the procedural requirements for principles-based human rights due diligence with the governance mechanisms needed to set up technical and socio-technical guardrails for responsible and trustworthy AI innovation practices. Its purpose is to provide an accessible and user-friendly set of mechanisms for facilitating compliance with a binding legal framework on artificial intelligence, based on the Council of Europe's standards on human rights, democracy, and the rule of law, and to ensure that AI innovation projects are carried out with appropriate levels of public accountability, transparency, and democratic governance.
翻訳日:2022-02-09 09:51:01 公開日:2022-02-06
# (参考訳) 出現適応畳み込みを用いた多領域教師なし画像変換 [全文訳有]

Multi-domain Unsupervised Image-to-Image Translation with Appearance Adaptive Convolution ( http://arxiv.org/abs/2202.02779v1 )

ライセンス: CC BY 4.0
Somi Jeong, Jiyoung Lee, Kwanghoon Sohn(参考訳) 近年,画像から画像への変換法(I2I)が提案されている。 印象的な結果にもかかわらず、彼らは主に2つのドメイン間のI2I翻訳に焦点を当てている。 そこで本研究では,分解されたコンテンツ特徴と外観適応畳み込みを利用して,与えられた幾何学的コンテンツを保存しつつ,画像を対象の外観に翻訳するマルチドメイン非教師付き画像対画像翻訳(mduit)フレームワークを提案する。 また, コントラスト学習の目的を活用し, 連接能力を向上させるとともに, 意味的に類似した画像を組み合わせることにより, 学習過程における多領域画像データを有効に活用する。 これにより、単一のフレームワークだけで複数のビジュアルドメイン間の多様なマッピングを学習できる。 提案手法は,最先端手法と比較して多領域で視覚的に多様かつ妥当な結果が得られることを示す。

Over the past few years, image-to-image (I2I) translation methods have been proposed to translate a given image into diverse outputs. Despite the impressive results, they mainly focus on the I2I translation between two domains, so the multi-domain I2I translation still remains a challenge. To address this problem, we propose a novel multi-domain unsupervised image-to-image translation (MDUIT) framework that leverages the decomposed content feature and appearance adaptive convolution to translate an image into a target appearance while preserving the given geometric content. We also exploit a contrast learning objective, which improves the disentanglement ability and effectively utilizes multi-domain image data in the training process by pairing the semantically similar images. This allows our method to learn the diverse mappings between multiple visual domains with only a single framework. We show that the proposed method produces visually diverse and plausible results in multiple domains compared to the state-of-the-art methods.
翻訳日:2022-02-09 09:49:15 公開日:2022-02-06
# (参考訳) 低精度ニューラルネットワークにおけるエネルギー認識 [全文訳有]

Energy awareness in low precision neural networks ( http://arxiv.org/abs/2202.02783v1 )

ライセンス: CC BY 4.0
Nurit Spingarn Eliezer, Ron Banner, Elad Hoffer, Hilla Ben-Yaakov and Tomer Michaeli(参考訳) 電力消費は、エンドデバイスにディープニューラルネットワーク(DNN)を配置する際の大きな障害である。 既存の消費電力削減のアプローチは、乗算操作の回避や重みとアクティベーションの積極的な定量化など、非常に一般的な原則に依存している。 しかし、これらの手法はネットワーク内の各モジュールが消費する正確な電力を考慮せず、したがって最適ではない。 本稿では, DNNにおける演算処理の正確な電力消費モデルについて, 様々な作業条件下で検討する。 これまで見過ごされてきたいくつかの重要な要因を明らかにします。 本分析に基づき,低消費電力固定精度変種を用いて全精度ネットワークを近似するための単純なアプローチであるPANN(Power-Aware Neural Network)を提案する。 本手法は,事前学習ネットワークに適用可能であり,訓練中にも性能向上を図ることができる。 従来の手法とは対照的に、PANNは2ビット量子化変量器のパワーバッジで作業する場合でも、ネットワークの完全精度バージョンであるW.r.t.の精度をわずかに低下させるだけである。 さらに,本方式では,特定のビット幅に制約された既存の量子化手法よりも大きな利点となる,電源精度トレードオフをシームレスにトラバースすることが可能である。

Power consumption is a major obstacle in the deployment of deep neural networks (DNNs) on end devices. Existing approaches for reducing power consumption rely on quite general principles, including avoidance of multiplication operations and aggressive quantization of weights and activations. However, these methods do not take into account the precise power consumed by each module in the network, and are therefore not optimal. In this paper we develop accurate power consumption models for all arithmetic operations in the DNN, under various working conditions. We reveal several important factors that have been overlooked to date. Based on our analysis, we present PANN (power-aware neural network), a simple approach for approximating any full-precision network by a low-power fixed-precision variant. Our method can be applied to a pre-trained network, and can also be used during training to achieve improved performance. In contrast to previous methods, PANN incurs only a minor degradation in accuracy w.r.t. the full-precision version of the network, even when working at the power-budget of a 2-bit quantized variant. In addition, our scheme enables to seamlessly traverse the power-accuracy trade-off at deployment time, which is a major advantage over existing quantization methods that are constrained to specific bit widths.
翻訳日:2022-02-09 09:38:17 公開日:2022-02-06
# (参考訳) 強化学習のための合成環境学習と報酬ネットワーク

Learning Synthetic Environments and Reward Networks for Reinforcement Learning ( http://arxiv.org/abs/2202.02790v1 )

ライセンス: CC BY 4.0
Fabio Ferreira and Thomas Nierhoff and Andreas Saelinger and Frank Hutter(参考訳) 本稿では,ニューラルネットワークに代表されるSynthetic Environments(SE)とReward Networks(RN)を,Reinforcement Learning(RL)エージェントを訓練するためのプロキシ環境モデルとして紹介する。 エージェントがSEのみに訓練された後、対応する実環境を解くことができることを示す。 SEは状態のダイナミクスと報酬を学ぶことによって、実際の環境に対する完全なプロキシとして機能する一方で、RNは報酬を拡大または置き換えることを学ぶ部分的なプロキシである。 内ループはRLエージェントを、外ループはSE/RNのパラメータを進化戦略を介して訓練する。 提案する新しい概念を,RLアルゴリズムと古典制御環境の幅広い範囲で評価する。 1対1の比較では、seプロキシの学習は、実際の環境のみのトレーニングエージェントよりも実際の環境とのインタラクションを必要とする。 しかし、一度そのようなSEが学習されると、新しいエージェントを訓練する実際の環境との相互作用は不要となる。 さらに、学習したSEプロキシにより、元のタスクパフォーマンスを維持しながら、より少ないインタラクションでエージェントをトレーニングすることができます。 実験の結果,SEはエージェントが関連する状態に偏りを示す情報表現を学習することで,この結果が得られることが示唆された。 さらに,これらのプロキシはハイパーパラメータ変動に対して頑健であり,未検出のエージェントにも移行できることがわかった。

We introduce Synthetic Environments (SEs) and Reward Networks (RNs), represented by neural networks, as proxy environment models for training Reinforcement Learning (RL) agents. We show that an agent, after being trained exclusively on the SE, is able to solve the corresponding real environment. While an SE acts as a full proxy to a real environment by learning about its state dynamics and rewards, an RN is a partial proxy that learns to augment or replace rewards. We use bi-level optimization to evolve SEs and RNs: the inner loop trains the RL agent, and the outer loop trains the parameters of the SE / RN via an evolution strategy. We evaluate our proposed new concept on a broad range of RL algorithms and classic control environments. In a one-to-one comparison, learning an SE proxy requires more interactions with the real environment than training agents only on the real environment. However, once such an SE has been learned, we do not need any interactions with the real environment to train new agents. Moreover, the learned SE proxies allow us to train agents with fewer interactions while maintaining the original task performance. Our empirical results suggest that SEs achieve this result by learning informed representations that bias the agents towards relevant states. Moreover, we find that these proxies are robust against hyperparameter variation and can also transfer to unseen agents.
翻訳日:2022-02-09 08:48:13 公開日:2022-02-06
# (参考訳) SFMGNet: 歩行者の軌道を予測する物理ベースのニューラルネットワーク [全文訳有]

SFMGNet: A Physics-based Neural Network To Predict Pedestrian Trajectories ( http://arxiv.org/abs/2202.02791v1 )

ライセンス: CC BY 4.0
Sakif Hossain, Fatema T. Johora, J\"org P. M\"uller, Sven Hartmann and Andreas Reinhardt(参考訳) 自律型ロボットと車両は、もうすぐ私たちの環境の不可欠な部分になるだろう。 既存の道路利用者との交流、混合交通分野のパフォーマンス、解釈可能な行動の欠如に関する不十分な問題は依然として重要な障害である。 そこで本研究では,群力(sfmg)と多層パーセプトロン(mlp)によって拡張された社会力モデルを組み合わせて,静的障害物,他の歩行者,歩行者との相互作用を考慮した歩行者軌跡予測を行う,物理ベースのニューラルネットワークを提案する。 我々は,現実的な予測,予測性能,および「解釈可能性」に関するモデルを定量的に定性的に評価する。 最初の結果は、合成データセットでのみ訓練されたモデルであっても、最先端の精度よりも現実的で解釈可能な軌道を予測できることを示唆している。

Autonomous robots and vehicles are expected to soon become an integral part of our environment. Unsatisfactory issues regarding interaction with existing road users, performance in mixed-traffic areas and lack of interpretable behavior remain key obstacles. To address these, we present a physics-based neural network, based on a hybrid approach combining a social force model extended by group force (SFMG) with Multi-Layer Perceptron (MLP) to predict pedestrian trajectories considering its interaction with static obstacles, other pedestrians and pedestrian groups. We quantitatively and qualitatively evaluate the model with respect to realistic prediction, prediction performance and prediction "interpretability&quo t;. Initial results suggest, the model even when solely trained on a synthetic dataset, can predict realistic and interpretable trajectories with better than state-of-the-art accuracy.
翻訳日:2022-02-09 08:46:59 公開日:2022-02-06
# (参考訳) 予算のアクティブラーニング - 高予算と低予算の逆戦略 [全文訳有]

Active Learning on a Budget: Opposite Strategies Suit High and Low Budgets ( http://arxiv.org/abs/2202.02794v1 )

ライセンス: CC BY 4.0
Guy Hacohen, Avihu Dekel, Daphna Weinshall(参考訳) 積極的学習を考察し,ラベル付きサンプルの数(予算規模)と適切なクエリ戦略との関係に着目した。 我々の理論的分析は、相転移を想起させる行動を示している:典型的な点は、予算が大きければ、非定型的(または不確実)な点が最善である。 理論的および実証的な研究から、同様の現象が単純な分類モデルで起こることが示されている。 そこで本研究では,低予算化に適した学習戦略であるtypiclustを提案する。 さまざまなアーキテクチャとイメージデータセットを用いた比較実証調査において,低予算のTypiClustは,他のすべてのアクティブな学習戦略よりも優れていることを報告した。 半教師付きフレームワークでTypiClustを使用することで、競争力のある半教師付き手法のパフォーマンスが大幅に向上し、最先端技術を上回っます。

Investigating active learning, we focus on the relation between the number of labeled examples (budget size), and suitable corresponding querying strategies. Our theoretical analysis shows a behavior reminiscent of phase transition: typical points should best be queried in the low budget regime, while atypical (or uncertain) points are best queried when the budget is large. Combined evidence from our theoretical and empirical studies shows that a similar phenomenon occurs in simple classification models. Accordingly, we propose TypiClust -- a deep active learning strategy suited for low budgets. In a comparative empirical investigation using a variety of architectures and image datasets, we report that in the low budget regime, TypiClust outperforms all other active learning strategies. Using TypiClust in a semi-supervised framework, the performance of competitive semi-supervised methods gets a significant boost, surpassing the state of the art.
翻訳日:2022-02-09 08:31:12 公開日:2022-02-06
# (参考訳) GLPanoDepth:グローバル・ローカル・パノラマ奥行き推定 [全文訳有]

GLPanoDepth: Global-to-Local Panoramic Depth Estimation ( http://arxiv.org/abs/2202.02796v1 )

ライセンス: CC BY 4.0
Jiayang Bai, Shuichang Lai, Haoyu Qin, Jie Guo and Yanwen Guo(参考訳) 本稿では,単眼全方位画像からシーンの濃密な深さ値を予測する学習ベース手法を提案する。 全方位画像は視野の完全な視野を持ち、視点画像よりもシーンの完全な記述を提供する。 しかし、現在のソリューションのほとんどが依存する完全畳み込みネットワークは、パノラマからリッチなグローバルコンテキストを捉えることができない。 この問題とパノラマにおける正方形射影の歪みに対処するために,長距離依存をモデル化し,パノラマから歪みのないグローバルな特徴を抽出できる新しいトランスフォーマアーキテクチャであるCubemap Vision Transformers (CViT)を提案する。 キューブマップの視覚変換器は全段に大域的な受容野を持ち,球面信号に対してグローバルにコヒーレントな予測を行うことができる。 重要なローカル機能を維持するため、パイプライン内の畳み込みベースのブランチ(glpanodepth)をさらに設計し、cubemap vision transformersからグローバル機能を複数のスケールで融合します。 このグローバル・ローカル戦略により、パノラマにおける有用なグローバル・ローカル機能を完全に活用し、パノラマ深度推定における最先端の性能を達成することができる。

In this paper, we propose a learning-based method for predicting dense depth values of a scene from a monocular omnidirectional image. An omnidirectional image has a full field-of-view, providing much more complete descriptions of the scene than perspective images. However, fully-convolutional networks that most current solutions rely on fail to capture rich global contexts from the panorama. To address this issue and also the distortion of equirectangular projection in the panorama, we propose Cubemap Vision Transformers (CViT), a new transformer-based architecture that can model long-range dependencies and extract distortion-free global features from the panorama. We show that cubemap vision transformers have a global receptive field at every stage and can provide globally coherent predictions for spherical signals. To preserve important local features, we further design a convolution-based branch in our pipeline (dubbed GLPanoDepth) and fuse global features from cubemap vision transformers at multiple scales. This global-to-local strategy allows us to fully exploit useful global and local features in the panorama, achieving state-of-the-art performance in panoramic depth estimation.
翻訳日:2022-02-09 07:52:22 公開日:2022-02-06
# (参考訳) BEAS: 非同期でセキュアなフェデレーション機械学習を可能にするブロックチェーン

BEAS: Blockchain Enabled Asynchronous & Secure Federated Machine Learning ( http://arxiv.org/abs/2202.02817v1 )

ライセンス: CC BY 4.0
Arup Mondal, Harpreet Virk, Debayan Gupta(参考訳) フェデレーション学習(fl)は、複数のパーティがプライベートデータセットを公開することなく、分散的にmlモデルをトレーニングできるようにする。 しかし、モデル更新を格納し集約する集中集約器を信頼すると仮定する。 これにより、悪意のあるアグリゲータによる改ざんとプライバシーの漏洩が難しくなる。 悪意ある当事者は、トレーニングデータやモデル勾配を悪用することで、ジョイントモデルにバックドアを導入することもできる。 これらの問題に対処するため、BEASはN-party FLのための最初のブロックチェーンベースのフレームワークであり、グラデーションプルーニング(既存のノイズやクリップベースのテクニックと比較して、差分プライバシが改善されている)を使用したトレーニングデータの厳格なプライバシ保証を提供する。 異常検出プロトコルは、データポジショニング攻撃のリスクを最小化するために、さらにモデルポジショニング攻撃の有効性を制限するために使用されるグラデーションプルーニングとともに使用される。 また、異種学習環境における早期収束を防止するための新しいプロトコルも定義する。 BEASは、データセット再構築攻撃によるプライバシー漏洩の防止に成功し、毒性攻撃の有効性を最小化します。 さらに、集中型フレームワークと同様の精度を実現し、その通信および計算オーバーヘッドは参加者数と線形にスケールする。

Federated Learning (FL) enables multiple parties to distributively train a ML model without revealing their private datasets. However, it assumes trust in the centralized aggregator which stores and aggregates model updates. This makes it prone to gradient tampering and privacy leakage by a malicious aggregator. Malicious parties can also introduce backdoors into the joint model by poisoning the training data or model gradients. To address these issues, we present BEAS, the first blockchain-based framework for N-party FL that provides strict privacy guarantees of training data using gradient pruning (showing improved differential privacy compared to existing noise and clipping based techniques). Anomaly detection protocols are used to minimize the risk of data-poisoning attacks, along with gradient pruning that is further used to limit the efficacy of model-poisoning attacks. We also define a novel protocol to prevent premature convergence in heterogeneous learning environments. We perform extensive experiments on multiple datasets with promising results: BEAS successfully prevents privacy leakage from dataset reconstruction attacks, and minimizes the efficacy of poisoning attacks. Moreover, it achieves an accuracy similar to centralized frameworks, and its communication and computation overheads scale linearly with the number of participants.
翻訳日:2022-02-09 07:36:41 公開日:2022-02-06
# (参考訳) ディープフェイク検出のためのブロックシャッフル学習 [全文訳有]

Block shuffling learning for Deepfake Detection ( http://arxiv.org/abs/2202.02819v1 )

ライセンス: CC BY 4.0
Sitong Liu, Zhichao Lian, Siqi Gu, Liang Xiao(参考訳) 畳み込みニューラルネットワークに基づくディープフェイク検出は良好な結果を得たが、検出結果は、入力画像が共通の変換(リサイズ、ぼかしなど)を行うと、明らかに性能劣化を示し、検出器の一般化能力が不十分であることを示している。 本稿では,この問題を解決するための新しいブロックシャッフル学習手法を提案する。 具体的には、画像をブロックに分割し、ランダムシャッフルをブロック内およびブロック間に導入する。 ブロック内シャッフリングは検出器のロバスト性を高めるとともに,シャッフリングによって生じる雑音によるオーバーフィッティング問題を克服する逆損失アルゴリズムを提案する。 さらに,ブロック間シャッフルによる局所的特徴の違いの発見に焦点を合わせ,ブロックの空間的レイアウトを再構築し,それら間の意味的関連をモデル化することを推奨する。 特に,本手法は様々なCNNモデルと容易に統合できる。 提案手法は,一般的な画像変換に対して良好な一般化能力を含む,偽造顔検出における最先端の性能を実現することを示す。

Although the deepfake detection based on convolutional neural network has achieved good results, the detection results show that these detectors show obvious performance degradation when the input images undergo some common transformations (like resizing, blurring), which indicates that the generalization ability of the detector is insufficient. In this paper, we propose a novel block shuffling learning method to solve this problem. Specifically, we divide the images into blocks and then introduce the random shuffling to intra-block and inter-block. Intra-block shuffling increases the robustness of the detector and we also propose an adversarial loss algorithm to overcome the over-fitting problem brought by the noise introduced by shuffling. Moreover, we encourage the detector to focus on finding differences among the local features through inter-block shuffling, and reconstruct the spatial layout of the blocks to model the semantic associations between them. Especially, our method can be easily integrated with various CNN models. Extensive experiments show that our proposed method achieves state-of-the-art performance in forgery face detection, including good generalization ability in the face of common image transformations.
翻訳日:2022-02-09 07:35:41 公開日:2022-02-06
# (参考訳) 概念活性化ベクトルを用いたレコメンダシステムにおけるソフト属性のパーソナライズされたセマンティクスの発見 [全文訳有]

Discovering Personalized Semantics for Soft Attributes in Recommender Systems using Concept Activation Vectors ( http://arxiv.org/abs/2202.02830v1 )

ライセンス: CC BY 4.0
Christina G\"opfert and Yinlam Chow and Chih-wei Hsu and Ivan Vendrov and Tyler Lu and Deepak Ramachandran and Craig Boutilier(参考訳) interactive recommender systems (rss) は、ユーザがインテント、好み、コンテキストをリッチな方法で表現できる。 このようなフィードバックを使用する上での課題のひとつは、アイテムを記述するために使用されるオープンな用語からユーザのセマンティックインテントを推測し、それをレコメンデーション結果の洗練に使用することだ。 概念アクティベーションベクトル (CAV) [21] を活用して, それらの属性のセマンティクスをキャプチャし, ユーザの好みや行動に結び付ける表現を学習するフレームワークを開発する。 このアプローチの新たな特徴は、目的属性と主観属性を区別し、異なる感覚を異なるユーザと関連付ける能力である。 合成データと実世界のデータを用いて,我々のcav表現がユーザの主観的意味を正しく解釈し,対話的評価を通じてレコメンデーションを改善できることを示す。

Interactive recommender systems (RSs) allow users to express intent, preferences and contexts in a rich fashion, often using natural language. One challenge in using such feedback is inferring a user's semantic intent from the open-ended terms used to describe an item, and using it to refine recommendation results. Leveraging concept activation vectors (CAVs) [21], we develop a framework to learn a representation that captures the semantics of such attributes and connects them to user preferences and behaviors in RSs. A novel feature of our approach is its ability to distinguish objective and subjective attributes and associate different senses with different users. Using synthetic and real-world datasets, we show that our CAV representation accurately interprets users' subjective semantics, and can improve recommendations via interactive critiquing
翻訳日:2022-02-09 07:23:11 公開日:2022-02-06
# (参考訳) 一般化のための反相関ノイズ注入 [全文訳有]

Anticorrelated Noise Injection for Improved Generalization ( http://arxiv.org/abs/2202.02831v1 )

ライセンス: CC BY 4.0
Antonio Orvieto, Hans Kersting, Frank Proske, Francis Bach, Aurelien Lucchi(参考訳) 勾配降下(gd)への人工雑音の注入は、機械学習モデルの性能を改善するために一般的に用いられる。 通常、非相関ノイズはこのような摂動勾配降下(PGD)法で用いられる。 しかし、これが最適かどうか、あるいは他の種類のノイズがより良い一般化性能を提供できるかどうかは不明である。 本稿では,連続したPGDステップの摂動を関連づける問題を拡大する。 我々は,抗相関性摂動(Anti-PGD)を持つGDが,GDと標準(非相関性)PGDよりもはるかに良く一般化することを示す,様々な目的関数を考察する。 これらの実験結果を支持するために,抗PGDがより広い最小値に移行し,GDとPGDは至適領域に留まり,あるいは分岐することを示す理論解析も導出した。 反相関ノイズと一般化の新たな結びつきは、機械学習モデルのトレーニングにノイズを利用する新しい方法へとフィールドを開放する。

Injecting artificial noise into gradient descent (GD) is commonly employed to improve the performance of machine learning models. Usually, uncorrelated noise is used in such perturbed gradient descent (PGD) methods. It is, however, not known if this is optimal or whether other types of noise could provide better generalization performance. In this paper, we zoom in on the problem of correlating the perturbations of consecutive PGD steps. We consider a variety of objective functions for which we find that GD with anticorrelated perturbations ("Anti-PGD") generalizes significantly better than GD and standard (uncorrelated) PGD. To support these experimental findings, we also derive a theoretical analysis that demonstrates that Anti-PGD moves to wider minima, while GD and PGD remain stuck in suboptimal regions or even diverge. This new connection between anticorrelated noise and generalization opens the field to novel ways to exploit noise for training machine learning models.
翻訳日:2022-02-09 06:58:55 公開日:2022-02-06
# (参考訳) インデックス変調を用いた深層学習支援空間多重化 [全文訳有]

Deep Learning-Aided Spatial Multiplexing with Index Modulation ( http://arxiv.org/abs/2202.02856v1 )

ライセンス: CC BY 4.0
Merve Turhan and Ersin Ozturk and Hakan Ali Cirpan(参考訳) 本稿では,空間多重化(SMX)マルチインプット多重出力(MIMO)伝送におけるインデックス変調(IM)を用いた深層学習(DL)支援データ検出手法を提案する。 深部SMX-IMはゼロフォース検出器(ZF)とDL技術を組み合わせて構築されている。 提案手法は,周波数領域と空間領域の伝送特性を学習するために,dl法の重要な利点を用いる。 さらに、IMによって提供されるサブブロックベースの検出により、Deep-SMX-IMは単純な方法であり、最終的には複雑さが減少する。 深部SMX-IMは、ZF検出器と比較して、異なるシステム構成の計算複雑性を増大させることなく、エラー性能が著しく向上することが示されている。

In this paper, deep learning (DL)-aided data detection of spatial multiplexing (SMX) multiple-input multiple-output (MIMO) transmission with index modulation (IM) (Deep-SMX-IM) has been proposed. Deep-SMX-IM has been constructed by combining a zero-forcing (ZF) detector and DL technique. The proposed method uses the significant advantages of DL techniques to learn transmission characteristics of the frequency and spatial domains. Furthermore, thanks to using subblockbased detection provided by IM, Deep-SMX-IM is a straightforward method, which eventually reveals reduced complexity. It has been shown that Deep-SMX-IM has significant error performance gains compared to ZF detector without increasing computational complexity for different system configurations.
翻訳日:2022-02-09 06:22:49 公開日:2022-02-06
# (参考訳) 持続可能都市(SDG11)に対するAI貢献の実証分析

An Empirical Analysis of AI Contributions to Sustainable Cities (SDG11) ( http://arxiv.org/abs/2202.02879v1 )

ライセンス: CC BY 4.0
Shivam Gupta, Auriol Degbelo(参考訳) 人工知能(AI)は、主要なグローバルな課題に対処し、大きな社会的・経済的影響を持つソリューションを提供するためのツールや技術を開発する機会を提供する。 aiの適用は、一般的に17の持続可能な開発目標(sdgs)、特に持続可能な都市開発に広く影響している。 しかし、既存のSDG 11向けのAIが提供する機会の理解と利用の試みはわずかに行われており、AIの実践的応用に関する実証的な証拠が不足している。 本章では,SDG11(持続可能な都市・コミュニティ)の進展を支援するためのAIの貢献を分析する。 我々は,AIxSDGデータベースとコミュニティリサーチ・開発情報サービス(CORDIS)データベースからAIシステム(N=29)を実証分析することにより,知識ギャップに対処する。 分析の結果、aiシステムは持続可能な都市の発展にいくつかの方法(廃棄物管理、大気質モニタリング、災害対応管理、交通管理など)で貢献してきたことが分かりました。 SDG11に対するAIの影響のスナップショットは、本質的に部分的であるが、より成熟したシステムに向けて、そして社会的善に対するAIシステムの影響の研究を進める上で、私たちの理解を促進するのに有用である。

Artificial Intelligence (AI) presents opportunities to develop tools and techniques for addressing some of the major global challenges and deliver solutions with significant social and economic impacts. The application of AI has far-reaching implications for the 17 Sustainable Development Goals (SDGs) in general, and sustainable urban development in particular. However, existing attempts to understand and use the opportunities offered by AI for SDG 11 have been explored sparsely, and the shortage of empirical evidence about the practical application of AI remains. In this chapter, we analyze the contribution of AI to support the progress of SDG 11 (Sustainable Cities and Communities). We address the knowledge gap by empirically analyzing the AI systems (N = 29) from the AIxSDG database and the Community Research and Development Information Service (CORDIS) database. Our analysis revealed that AI systems have indeed contributed to advancing sustainable cities in several ways (e.g., waste management, air quality monitoring, disaster response management, transportation management), but many projects are still working for citizens and not with them. This snapshot of AI's impact on SDG11 is inherently partial, yet useful to advance our understanding as we move towards more mature systems and research on the impact of AI systems for social good.
翻訳日:2022-02-09 06:15:03 公開日:2022-02-06
# 非有界領域問題を解くためのスペクトル適応物理形ニューラルネットワーク

Spectrally Adapted Physics-Informed Neural Networks for Solving Unbounded Domain Problems ( http://arxiv.org/abs/2202.02710v1 )

ライセンス: Link先を確認
Mingtao Xia, Lucas B\"ottcher, Tom Chou(参考訳) 非有界領域で定義される少なくとも1つの変数を含む解析的に難解な偏微分方程式 (pdes) を解くには、その変数に対するpdeの依存性を数桁以上の等級で正確に解く効率的な数値解法が必要である。 非有界領域問題(unbounded domain problem)は、様々な応用領域で発生し、その解決は、多スケール生物力学の理解、長期スケールと距離での物理過程の解解法、工学的問題におけるパラメータ推論の実行において重要である。 本研究では, 数値的手法の2つのクラスを組み合わせる。 (i)物理情報化ニューラルネットワーク(pinn)及び (ii)適応スペクトル法。 物理インフォームドニューラルネットワークによる高次数値スキームの実装により,PDEの解法を効率的に行うことができる。 次に,最近導入されたスペクトル手法の適応手法をPINNベースのPDEソルバに組み込んで,標準PINNで効率よく近似できない非有界領域問題の数値解を求める方法を示す。 いくつかの例を通して、近似関数の標準的なPINNに対するスペクトル適応型PINN(s-PINN)の利点、PDEの解法、および非有界領域における雑音観測からモデルパラメータを推定することの利点を示す。

Solving analytically intractable partial differential equations (PDEs) that involve at least one variable defined in an unbounded domain requires efficient numerical methods that accurately resolve the dependence of the PDE on that variable over several orders of magnitude. Unbounded domain problems arise in various application areas and solving such problems is important for understanding multi-scale biological dynamics, resolving physical processes at long time scales and distances, and performing parameter inference in engineering problems. In this work, we combine two classes of numerical methods: (i) physics-informed neural networks (PINNs) and (ii) adaptive spectral methods. The numerical methods that we develop take advantage of the ability of physics-informed neural networks to easily implement high-order numerical schemes to efficiently solve PDEs. We then show how recently introduced adaptive techniques for spectral methods can be integrated into PINN-based PDE solvers to obtain numerical solutions of unbounded domain problems that cannot be efficiently approximated by standard PINNs. Through a number of examples, we demonstrate the advantages of the proposed spectrally adapted PINNs (s-PINNs) over standard PINNs in approximating functions, solving PDEs, and estimating model parameters from noisy observations in unbounded domains.
翻訳日:2022-02-08 18:46:55 公開日:2022-02-06
# 分散確率変分不等式に対する最適アルゴリズム

Optimal Algorithms for Decentralized Stochastic Variational Inequalities ( http://arxiv.org/abs/2202.02771v1 )

ライセンス: Link先を確認
Dmitry Kovalev, Aleksandr Beznosikov, Abdurakhmon Sadiev, Michael Persiianov, Peter Richt\'arik, Alexander Gasnikov(参考訳) 変分不等式は、特別な場合としてゲーム、最小化、鞍点、平衡問題を含む形式論である。 したがって、変分不等式法は、機械学習問題を含む多くの応用タスクに対して普遍的なアプローチである。 この作業は、ますます重要になるが十分に理解されていない分散的な設定に集中する。 特に、固定および時間変化ネットワークに対する分散確率変動不等式(sum-type)を考える。 通信と局所的な繰り返しの両方に対してより低い複雑性境界を示し、これらの下位境界に一致する最適なアルゴリズムを構築する。 我々のアルゴリズムは、分散化確率論だけでなく、分散化決定論や非分散化確率論においても最も優れた文献である。 実験により,提案アルゴリズムの有効性が確認された。

Variational inequalities are a formalism that includes games, minimization, saddle point, and equilibrium problems as special cases. Methods for variational inequalities are therefore universal approaches for many applied tasks, including machine learning problems. This work concentrates on the decentralized setting, which is increasingly important but not well understood. In particular, we consider decentralized stochastic (sum-type) variational inequalities over fixed and time-varying networks. We present lower complexity bounds for both communication and local iterations and construct optimal algorithms that match these lower bounds. Our algorithms are the best among the available literature not only in the decentralized stochastic case, but also in the decentralized deterministic and non-distributed stochastic cases. Experimental results confirm the effectiveness of the presented algorithms.
翻訳日:2022-02-08 18:46:31 公開日:2022-02-06
# Lossy Gradient Compression: どれぐらいの精度で買うことができるのか?

Lossy Gradient Compression: How Much Accuracy Can One Bit Buy? ( http://arxiv.org/abs/2202.02812v1 )

ライセンス: Link先を確認
Sadaf Salehkalaibar and Stefano Rini(参考訳) フェデレートラーニング(FL)では、複数の遠隔学習者から得られたモデル更新を集約することにより、グローバルモデルがパラメータサーバ(PS)で訓練される。 重要なことは、リモートユーザとPS間の通信は送信可能な電力によって制限され、PSからリモートユーザへの通信は非バウンドとみなすことができる。 これにより、PSへのアップリンク送信における通信速度制約を満たすために、遠隔学習者からの更新を圧縮する必要がある分散学習シナリオが生まれる。 この問題に対して、モデルの更新を圧縮して、結果の精度の損失を最小限に抑えることが望まれる。 本稿では、ディープニューラルネットワーク(DNN)の分散トレーニングにおいて、この疑問に答えるために、レート歪みのアプローチをとる。 特に、圧縮性能の測定値である \emph{per-bit accuracy} を定義し、通信のビットが集中型モデルにもたらした究極のモデルの精度に対処する。 ビット当たりの精度を最大化するために,遠隔学習者の勾配更新を一般化正規分布としてモデル化する。 このモデル更新分布の仮定の下で,モデル更新の圧縮のための量子化器の設計のための歪み測度のクラスを提案する。 我々は、この歪み測定のファミリを「M$-magnitudeed $L_2$」ノルムと呼び、勾配圧縮機の選択における実践者の直感を捉えている。 提案手法を検証するための数値シミュレーションを行う。

In federated learning (FL), a global model is trained at a Parameter Server (PS) by aggregating model updates obtained from multiple remote learners. Critically, the communication between the remote users and the PS is limited by the available power for transmission, while the transmission from the PS to the remote users can be considered unbounded. This gives rise to the distributed learning scenario in which the updates from the remote learners have to be compressed so as to meet communication rate constraints in the uplink transmission toward the PS. For this problem, one would like to compress the model updates so as to minimize the resulting loss in accuracy. In this paper, we take a rate-distortion approach to answer this question for the distributed training of a deep neural network (DNN). In particular, we define a measure of the compression performance, the \emph{per-bit accuracy}, which addresses the ultimate model accuracy that a bit of communication brings to the centralized model. In order to maximize the per-bit accuracy, we consider modeling the gradient updates at remote learners as a generalized normal distribution. Under this assumption on the model update distribution, we propose a class of distortion measures for the design of quantizer for the compression of the model updates. We argue that this family of distortion measures, which we refer to as "$M$-magnitude weighted $L_2$" norm, capture the practitioner intuition in the choice of gradient compressor. Numerical simulations are provided to validate the proposed approach.
翻訳日:2022-02-08 18:46:20 公開日:2022-02-06
# ランダム化アフィン最大化オークションにおける微分経済学

Differentiable Economics for Randomized Affine Maximizer Auctions ( http://arxiv.org/abs/2202.02872v1 )

ライセンス: Link先を確認
Michael Curry, Tuomas Sandholm, John Dickerson(参考訳) 自動機構設計への最近のアプローチ、微分経済学は、リッチ関数近似器によるオークションを表現し、勾配降下による性能の最適化を行う。 差別化可能な経済のための理想的なオークションアーキテクチャは、完全な戦略的防御であり、複数の入札者とアイテムをサポートし、最適な(すなわち収益を最大化する)メカニズムを表現できるほど豊かである。 今のところ、そのようなアーキテクチャは存在しない。 シングルバイダアプローチ(MenuNet、RochetNet)は、常に戦略的であり、最適なメカニズムを表現できる。 RegretNetはマルチバイダであり、任意のメカニズムを近似することができるが、ほぼ防御的である。 提案手法は,複数の入札者をサポートし,完全な戦略的防御性を有するが,必ずしも最適機構を表現できないアーキテクチャである。 このアーキテクチャは、宝くじを提供するために改良された古典的なアフィン最大値オークション(AMA)である。 微分可能な経済の勾配に基づく最適化ツールを使用することで、私たちは宝くじのAMAを訓練し、収益の以前のアプローチと競合したり、上回ったりすることができる。

A recent approach to automated mechanism design, differentiable economics, represents auctions by rich function approximators and optimizes their performance by gradient descent. The ideal auction architecture for differentiable economics would be perfectly strategyproof, support multiple bidders and items, and be rich enough to represent the optimal (i.e. revenue-maximizing) mechanism. So far, such an architecture does not exist. There are single-bidder approaches (MenuNet, RochetNet) which are always strategyproof and can represent optimal mechanisms. RegretNet is multi-bidder and can approximate any mechanism, but is only approximately strategyproof. We present an architecture that supports multiple bidders and is perfectly strategyproof, but cannot necessarily represent the optimal mechanism. This architecture is the classic affine maximizer auction (AMA), modified to offer lotteries. By using the gradient-based optimization tools of differentiable economics, we can now train lottery AMAs, competing with or outperforming prior approaches in revenue.
翻訳日:2022-02-08 18:45:56 公開日:2022-02-06
# 変圧器を用いた音声分離について

On Using Transformers for Speech-Separation ( http://arxiv.org/abs/2202.02884v1 )

ライセンス: Link先を確認
Cem Subakan, Mirco Ravanelli, Samuele Cornell, Francois Grondin, Mirko Bronzi(参考訳) トランスフォーマーはディープラーニングに大きな改善をもたらした。 並列処理を活用しながら、多くのタスクで再帰モデルや畳み込みモデルを上回ることが多い。 近年,音声分離のためのwsj0-2/3ミックスデータセットの最先端結果を得るsepformerが提案されている。 本稿では,librimix や wham など,さらに多くのデータセットに関する結果を提供することで,これまでの作業を拡張する。 騒がしい、騒がしい、残響の多い条件を含む。 さらに,wham!とwhamr!データセット上で,音声強調の文脈において,デノイジング,デノイジング+デノイジンゲーション結果を提供する。 また,最近提案したSepFormerモデルに効率的な自己アテンション機構を導入し,効率的な自己アテンション機構を用いることで,WSJ0-2Mixデータセット上の一般的なconvtasnetモデルよりも優れた性能を保ちながら,メモリ要求を大幅に低減できることを示す。

Transformers have enabled major improvements in deep learning. They often outperform recurrent and convolutional models in many tasks while taking advantage of parallel processing. Recently, we have proposed SepFormer, which uses self-attention and obtains state-of-the art results on WSJ0-2/3 Mix datasets for speech separation. In this paper, we extend our previous work by providing results on more datasets including LibriMix, and WHAM!, WHAMR! which include noisy and noisy-reverberant conditions. Moreover we provide denoising, and denoising+dereverberation results in the context of speech enhancement, respectively on WHAM! and WHAMR! datasets. We also investigate incorporating recently proposed efficient self-attention mechanisms inside the SepFormer model, and show that by using efficient self-attention mechanisms it is possible to reduce the memory requirements significantly while performing better than the popular convtasnet model on WSJ0-2Mix dataset.
翻訳日:2022-02-08 18:45:40 公開日:2022-02-06
# LSTMモデルを用いたNIFTYテーマセクタ株のポートフォリオ最適化

Portfolio Optimization on NIFTY Thematic Sector Stocks Using an LSTM Model ( http://arxiv.org/abs/2202.02723v1 )

ライセンス: Link先を確認
Jaydip Sen, Saikat Mondal, Sidra Mehtab(参考訳) ポートフォリオの最適化は、量的および統計学的金融研究者や金融アナリストにとって、広範かつ激しい関心の領域であった。 リターンとリスクの最適化された価値に到達するために、株式ポートフォリオを設計するのは困難なタスクです。 本論文では,インドのNSEの5つのテーマセクターに対して,最適リスクと固有ポートフォリオを設計するためのアルゴリズム的アプローチを提案する。 株価は2016年1月1日から2020年12月31日までウェブから引き上げられた。 各セクターの最適リスクポートフォリオと固有ポートフォリオは、セクターの10の重要株式に基づいて設計されている。 LSTMモデルは将来の株価を予測するために設計されている。 ポートフォリオが形成された7ヶ月後の2021年8月3日、ポートフォリオの実際のリターンはLSTM予測リターンと比較される。 予測および実際のリターンは、LSTMモデルの非常に高いレベルの精度を示す。

Portfolio optimization has been a broad and intense area of interest for quantitative and statistical finance researchers and financial analysts. It is a challenging task to design a portfolio of stocks to arrive at the optimized values of the return and risk. This paper presents an algorithmic approach for designing optimum risk and eigen portfolios for five thematic sectors of the NSE of India. The prices of the stocks are extracted from the web from Jan 1, 2016, to Dec 31, 2020. Optimum risk and eigen portfolios for each sector are designed based on ten critical stocks from the sector. An LSTM model is designed for predicting future stock prices. Seven months after the portfolios were formed, on Aug 3, 2021, the actual returns of the portfolios are compared with the LSTM-predicted returns. The predicted and the actual returns indicate a very high-level accuracy of the LSTM model.
翻訳日:2022-02-08 18:21:14 公開日:2022-02-06
# 統計学者になるための学習: 個別値の数を学習した推定器

Learning to be a Statistician: Learned Estimator for Number of Distinct Values ( http://arxiv.org/abs/2202.02800v1 )

ライセンス: Link先を確認
Renzhi Wu, Bolin Ding, Xu Chu, Zhewei Wei, Xiening Dai, Tao Guan, Jingren Zhou(参考訳) 列内の異なる値の数(NDV)を推定することは、列ストア圧縮やデータプロファイリングといったデータベースシステムにおける多くのタスクに有用である。 本研究では,ランダム(オンライン/オフライン)サンプルから正確なndv推定を導出する方法に注目した。 このような効率的な推定は、データを一度でもスキャンすることが禁じられるタスクにとって重要である。 既存のサンプルベースの推定値は、通常ヒューリスティックや仮定に依存しており、データに対する仮定が容易に破られるため、異なるデータセット間での堅牢なパフォーマンスを持っていない。 一方,最大確率推定などの原理的定式化から推定器を導出することは,定式化の複雑な構造のために非常に困難である。 教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。 この目的のためには、いくつかの質問に答える必要があります。 一 学習したモデルワークロードを非依存にする方法 二 訓練データを取得する方法 三 模型訓練の実施方法 学習したモデルがワークロード非依存である学習フレームワークの条件を,モデル/推定器が合成生成したトレーニングデータを使ってトレーニングできるという意味で導出し,任意のデータウェアハウスに,例えばユーザ定義関数(udfs)としてデプロイすることで,効率的な(cpu上のマイクロ秒を要しない)処理と,見当たらないテーブルやワークロードの正確なndv推定を提供する。 実世界の9つのデータセット上の最先端のサンプルベース推定器と学習した推定器を比較し,その優れた推定精度を示す。 データ生成のトレーニング、モデルトレーニング、再現性のために学習した推定器をオンラインで公開します。

Estimating the number of distinct values (NDV) in a column is useful for many tasks in database systems, such as columnstore compression and data profiling. In this work, we focus on how to derive accurate NDV estimations from random (online/offline) samples. Such efficient estimation is critical for tasks where it is prohibitive to scan the data even once. Existing sample-based estimators typically rely on heuristics or assumptions and do not have robust performance across different datasets as the assumptions on data can easily break. On the other hand, deriving an estimator from a principled formulation such as maximum likelihood estimation is very challenging due to the complex structure of the formulation. We propose to formulate the NDV estimation task in a supervised learning framework, and aim to learn a model as the estimator. To this end, we need to answer several questions: i) how to make the learned model workload agnostic; ii) how to obtain training data; iii) how to perform model training. We derive conditions of the learning framework under which the learned model is workload agnostic, in the sense that the model/estimator can be trained with synthetically generated training data, and then deployed into any data warehouse simply as, e.g., user-defined functions (UDFs), to offer efficient (within microseconds on CPU) and accurate NDV estimations for unseen tables and workloads. We compare the learned estimator with the state-of-the-art sample-based estimators on nine real-world datasets to demonstrate its superior estimation accuracy. We publish our code for training data generation, model training, and the learned estimator online for reproducibility.
翻訳日:2022-02-08 18:21:02 公開日:2022-02-06
# ウェーブエンコードモデルに基づく深層学習による関節再建を伴う高加速イメージング

Wave-Encoded Model-based Deep Learning for Highly Accelerated Imaging with Joint Reconstruction ( http://arxiv.org/abs/2202.02814v1 )

ライセンス: Link先を確認
Jaejin Cho, Borjan Gagoski, Taehyung Kim, Qiyuan Tian, Stephen Robert Frost, Itthi Chatnuntawech, and Berkin Bilgic(参考訳) 目的: 高速な3次元イメージングと関節型マルチコントラスト画像再構成のためのウェーブエンコードモデルベースディープラーニング(Wave-MoDL)戦略を提案し, さらにこれを拡張して, T2準備パルス(3D-QALAS)を用いたインターリーブドルック・ロッカー取得シーケンスを用いた高速な定量的イメージングを実現する。 方法:最近導入されたMoDL技術は、畳み込みニューラルネットワーク(CNN)ベースの正規化器を、少数のネットワークパラメータを用いて物理ベースの並列画像再構成にうまく組み込む。 Wave-CAIPIは、位相・スライス符号化方向の正弦波勾配を利用して3次元コイル感度プロファイルの利点を生かし、撮像速度を高速化する並列イメージング手法である。 wave-modlでは、ウェーブエンコード戦略と未ロールネットワーク制約を組み合わせて、ウェーブエンコードデータ一貫性を強制しながら、取得速度を高速化する。 さらに、複数画像間の類似性を生かして再構成品質を向上させるために、マルチコントラストデータを並列イメージング(CAIPI)サンプリングパターンで再構成する。 結果: Wave-MoDLは1mm解像度の47秒MPRAGEを16倍の加速で取得できる。 定量的イメージングのために、Wave-MoDLはT1, T2の2分間の取得と12倍の加速で1mmの解像度でのプロトン密度マッピングを可能にし、コントラスト強調画像も合成できる。 結論: Wave-MoDL は MR の高速な取得と高忠実度画像再構成を可能にし,非ローリングニューラルネットワークを Wave-CAIPI 再構成に組み込むことで臨床および神経科学的応用を促進することができる。

Purpose: To propose a wave-encoded model-based deep learning (wave-MoDL) strategy for highly accelerated 3D imaging and joint multi-contrast image reconstruction, and further extend this to enable rapid quantitative imaging using an interleaved look-locker acquisition sequence with T2 preparation pulse (3D-QALAS). Method: Recently introduced MoDL technique successfully incorporates convolutional neural network (CNN)-based regularizers into physics-based parallel imaging reconstruction using a small number of network parameters. Wave-CAIPI is an emerging parallel imaging method that accelerates the imaging speed by employing sinusoidal gradients in the phase- and slice-encoding directions during the readout to take better advantage of 3D coil sensitivity profiles. In wave-MoDL, we propose to combine the wave-encoding strategy with unrolled network constraints to accelerate the acquisition speed while enforcing wave-encoded data consistency. We further extend wave-MoDL to reconstruct multi-contrast data with controlled aliasing in parallel imaging (CAIPI) sampling patterns to leverage similarity between multiple images to improve the reconstruction quality. Result: Wave-MoDL enables a 47-second MPRAGE acquisition at 1 mm resolution at 16-fold acceleration. For quantitative imaging, wave-MoDL permits a 2-minute acquisition for T1, T2, and proton density mapping at 1 mm resolution at 12-fold acceleration, from which contrast weighted images can be synthesized as well. Conclusion: Wave-MoDL allows rapid MR acquisition and high-fidelity image reconstruction and may facilitate clinical and neuroscientific applications by incorporating unrolled neural networks into wave-CAIPI reconstruction.
翻訳日:2022-02-08 18:20:33 公開日:2022-02-06
# 滑らかなノード信号の最小化によるスパースグラフの学習

Learning Sparse Graphs via Majorization-Minimiz ation for Smooth Node Signals ( http://arxiv.org/abs/2202.02815v1 )

ライセンス: Link先を確認
Ghania Fatima, Aakash Arora, Prabhu Babu, and Petre Stoica(参考訳) 本稿では,観測信号がグラフのノード上でスムーズに変化することを前提に,隣接行列を推定することにより,疎重み付きグラフを学習するアルゴリズムを提案する。 提案アルゴリズムは,まずグラフ学習目的のための厳密なサロゲート関数を求め,簡単な閉形式解を持つ結果のサロゲート問題を解く。 提案されたアルゴリズムはハイパーパラメータのチューニングを必要とせず、反復の過程で不活性変数を排除するという望ましい特徴を備えており、アルゴリズムの高速化に役立ちます。 合成および実世界(脳ネットワーク)データを用いて行った数値シミュレーションにより,提案したアルゴリズムは,本文献におけるいくつかの既存手法よりも平均的な反復回数でより高速に収束することを示した。

In this letter, we propose an algorithm for learning a sparse weighted graph by estimating its adjacency matrix under the assumption that the observed signals vary smoothly over the nodes of the graph. The proposed algorithm is based on the principle of majorization-minimiz ation (MM), wherein we first obtain a tight surrogate function for the graph learning objective and then solve the resultant surrogate problem which has a simple closed form solution. The proposed algorithm does not require tuning of any hyperparameter and it has the desirable feature of eliminating the inactive variables in the course of the iterations - which can help speeding up the algorithm. The numerical simulations conducted using both synthetic and real world (brain-network) data show that the proposed algorithm converges faster, in terms of the average number of iterations, than several existing methods in the literature.
翻訳日:2022-02-08 18:19:45 公開日:2022-02-06
# BDAアプリケーションの構成、デプロイ、実行のための新しいマイクロサービスベースのプラットフォーム

A Novel Micro-service Based Platform for Composition, Deployment and Execution of BDA Applications ( http://arxiv.org/abs/2202.02845v1 )

ライセンス: Link先を確認
Davide Profeta, Nicola Masi, Domenico Messina, Davide Dalle Carbonare, Susanna Bonura, Vito Morreale(参考訳) ビッグデータは指数的な速度で成長しており、価値を抽出するためには、それらを管理、処理、視覚化するツールや技術を使う必要がある。 本稿では,いくつかのドメインとシナリオにおけるビッグデータ分析(bda)アプリケーションワークフローの構成,デプロイ,実行を行うための,マイクロサービスベースのプラットフォームを提案する。 ALIDAは、EngineINEERINGによる以前の研究成果である。 BDAアプリケーション開発者とデータアナリストの両方がそれと対話できるように統一されたプラットフォームの実現を目指している。 開発者は、公開APIおよび/またはWebユーザインターフェイスを介して、新しいBDAアプリケーションを登録することができる。 データアナリストは、提供されたBDAアプリケーションを使用して、ダッシュボードのユーザインターフェースを通じてバッチ/ストリームワークフローを作成して、1つ以上のソースから結果を操作および視覚化することができる。 また、ビッグデータフレームワークのデプロイメントプロパティの自動チューニングをサポートし、分析アプリケーションのメトリクスを改善する。 alidaは適切に拡張され、avionic industriesから大量のデータを分析するためのソフトウェアソリューションに統合されている。 このコンテキスト内のユースケースが提示される。

Big Data are growing at an exponential rate and it becomes necessary the use of tools and technologies to manage, process and visualize them in order to extract value. In this paper a micro-service based platform is presented for the composition, deployment and execution of Big Data Analytics (BDA) application workflows in several domains and scenarios is presented. ALIDA is a result coming from previous research activities by ENGINEERING. It aims to achieve a unified platform that allows both BDA application developers and data analysts to interact with it. Developers will be able to register new BDA applications through the exposed API and/or through the web user interface. Data analysts will be able to use the BDA applications provided to create batch/stream workflows through a dashboard user interface to manipulate and subsequently visualize results from one or more sources. The platform also supports the auto-tuning of Big Data frameworks deployment properties to improve metrics for analytics application. ALIDA has been properly extended and integrated into a software solution for the analysis of large amounts of data from the avionic industries. A use case within this context is then presented.
翻訳日:2022-02-08 18:19:31 公開日:2022-02-06
# オフライン強化学習のための従属データを用いた確率的勾配降下

Stochastic Gradient Descent with Dependent Data for Offline Reinforcement Learning ( http://arxiv.org/abs/2202.02850v1 )

ライセンス: Link先を確認
Jing Dong and Xin T. Tong(参考訳) 強化学習(RL)では、オフライン学習はデータ収集から切り離された学習であり、探索と探索のトレードオフを扱うのに役立ち、多くのアプリケーションでデータ再利用を可能にする。 本研究では,政策評価と政策学習という2つのオフライン学習課題について検討する。 政策評価において、確率的最適化問題として定式化し、時間依存データを用いて近似確率勾配勾配(aSGD)を用いて解けることを示す。 損失関数が強く凸であり、そのレートが割引係数$\gamma$とは独立であるとき、aSGDが$\tilde O(1/t)$収束を達成することを示す。 この結果は、td(0) のようなほぼ収縮的な反復を行うアルゴリズムを含むように拡張できる。 次に、ポリシー評価アルゴリズムとポリシー反復アルゴリズムを組み合わせることで、最適なポリシーを学習する。 $\epsilon$の精度を達成するために、アルゴリズムの複雑さは$\tilde O(\epsilon^{-2}(1-\gamma)^{-5})$である。

In reinforcement learning (RL), offline learning decoupled learning from data collection and is useful in dealing with exploration-exploita tion tradeoff and enables data reuse in many applications. In this work, we study two offline learning tasks: policy evaluation and policy learning. For policy evaluation, we formulate it as a stochastic optimization problem and show that it can be solved using approximate stochastic gradient descent (aSGD) with time-dependent data. We show aSGD achieves $\tilde O(1/t)$ convergence when the loss function is strongly convex and the rate is independent of the discount factor $\gamma$. This result can be extended to include algorithms making approximately contractive iterations such as TD(0). The policy evaluation algorithm is then combined with the policy iteration algorithm to learn the optimal policy. To achieve an $\epsilon$ accuracy, the complexity of the algorithm is $\tilde O(\epsilon^{-2}(1-\gamma)^{-5})$, which matches the complexity bound for classic online RL algorithms such as Q-learning.
翻訳日:2022-02-08 18:19:17 公開日:2022-02-06
# 機械学習を用いた新興ネットワークの全体的ハンドオーバ最適化

Machine Learning Aided Holistic Handover Optimization for Emerging Networks ( http://arxiv.org/abs/2202.02851v1 )

ライセンス: Link先を確認
Muhammad Umar Bin Farooq, Marvin Manalastas, Syed Muhammad Asad Zaidi, Adnan Abu-Dayya, and Ali Imran(参考訳) 新興セルネットワークにおけるネットワーク密度化とマルチバンド運用の結果として,モビリティとハンドオーバ管理が大きなボトルネックとなっている。 この問題は、様々なタイプのハンドオーバ、すなわち周波数間ハンドオーバと周波数内ハンドオーバに対する全体論的モビリティ管理ソリューションが不足しているという事実によってさらに悪化している。 本稿では,周波数間関連a5パラメータと周波数内関連a3パラメータを同時に最適化する最初のモビリティ管理ソリューションを提案する。 A5-time to trigger (TTT), A5-threshold1, A5-threshold2, A3-TTT, A3-offsetの5つのパラメータを解析・最適化し、3つの重要なキーパフォーマンス指標(KPI)を共同で最大化する。 システムレベルの複雑さによるトラクタブル解析モデルがないため、機械学習を利用してKPIをモビリティパラメータの関数として定量化する。 XGBoost ベースのモデルはエッジ RSRP と HOSR に最適な性能を持ち、一方ランダムフォレストは負荷予測のために他のモデルより優れている。 移動度パラメータの分析はいくつかの洞察を与える。 1) A3 と A5 のパラメータの間には強い結合が存在する。 2) 各kpiに対して最適なパラメータセットが存在し、かつ 3) 最適パラメータはKPIによって異なる。 また、KPI間のパラメトリック衝突を解決するため、SHAPベースの感度も実施する。 最後に, 最大化問題を定式化し, 非凸性を示し, 模擬アニール (SA) を用いて解いた。 その結果, MLをベースとしたSA-aided Solutionは, 最適性がわずかに失われるブルート力アプローチよりも14倍以上高速であることが示唆された。

In the wake of network densification and multi-band operation in emerging cellular networks, mobility and handover management is becoming a major bottleneck. The problem is further aggravated by the fact that holistic mobility management solutions for different types of handovers, namely inter-frequency and intra-frequency handovers, remain scarce. This paper presents a first mobility management solution that concurrently optimizes inter-frequency related A5 parameters and intra-frequency related A3 parameters. We analyze and optimize five parameters namely A5-time to trigger (TTT), A5-threshold1, A5-threshold2, A3-TTT, and A3-offset to jointly maximize three critical key performance indicators (KPIs): edge user reference signal received power (RSRP), handover success rate (HOSR) and load between frequency bands. In the absence of tractable analytical models due to system level complexity, we leverage machine learning to quantify the KPIs as a function of the mobility parameters. An XGBoost based model has the best performance for edge RSRP and HOSR while random forest outperforms others for load prediction. An analysis of the mobility parameters provides several insights: 1) there exists a strong coupling between A3 and A5 parameters; 2) an optimal set of parameters exists for each KPI; and 3) the optimal parameters vary for different KPIs. We also perform a SHAP based sensitivity to help resolve the parametric conflict between the KPIs. Finally, we formulate a maximization problem, show it is non-convex, and solve it utilizing simulated annealing (SA). Results indicate that ML-based SA-aided solution is more than 14x faster than the brute force approach with a slight loss in optimality.
翻訳日:2022-02-08 18:18:03 公開日:2022-02-06
# 自己分解による変動生成の促進

Enhancing variational generation through self-decomposition ( http://arxiv.org/abs/2202.02738v1 )

ライセンス: Link先を確認
Andrea Asperti, Laura Bugo, Daniele Filippini(参考訳) 本稿では,分割変分オートエンコーダ(SVAE)の概念を紹介し,その出力$\hat{x}$は重み付き和$\sigma \odot \hat{x_1} + (1-\sigma) \odot \hat{x_2}$の2つの生成画像$\hat{x_1},\hat{x_2}$の和として得られ,$\sigma$は学習された合成写像である。 ネットワークは通常の変分オートエンコーダとして訓練されており、トレーニングと再構成画像の間に負の対数損失がある。 分解は非決定論的であるが、2つの主要なスキームに従っており、大まかには「シンタクティック」または「セマンティック」に分類される。 第1のケースでは、マップは隣接するピクセル間の強い相関を利用して、2つの相補的な高周波サブイメージにイメージを分割する傾向がある。 第2のケースでは、マップは通常、オブジェクトの輪郭に焦点を当て、より特徴的で特徴のある、興味深いコンテンツのバリエーションで画像を分割する。 この場合、Fr'echet Inception Distance (FID) of $\hat{x_1}$ と $\hat{x_2}$ は通常 $\hat{x}$ よりも低い (hence better)。 ある意味では、SVAEは変分オートエンコーダに選択を強制するが、その本質的な傾向とは対照的に、特定のサンプルに対する再構成損失を最小限に抑えるために、代替品間で平均化する傾向がある。 FIDメトリックスによると、Mnist、Cifar10、Celebaといった典型的なデータセットでテストされた我々の手法は、従来の純粋に変動するアーキテクチャ(正規化フローに依存しない)をすべて上回ります。

In this article we introduce the notion of Split Variational Autoencoder (SVAE), whose output $\hat{x}$ is obtained as a weighted sum $\sigma \odot \hat{x_1} + (1-\sigma) \odot \hat{x_2}$ of two generated images $\hat{x_1},\hat{x_2}$, and $\sigma$ is a learned compositional map. The network is trained as a usual Variational Autoencoder with a negative loglikelihood loss between training and reconstructed images. The decomposition is nondeterministic, but follows two main schemes, that we may roughly categorize as either "syntactic" or "semantic". In the first case, the map tends to exploit the strong correlation between adjacent pixels, splitting the image in two complementary high frequency sub-images. In the second case, the map typically focuses on the contours of objects, splitting the image in interesting variations of its content, with more marked and distinctive features. In this case, the Fr\'echet Inception Distance (FID) of $\hat{x_1}$ and $\hat{x_2}$ is usually lower (hence better) than that of $\hat{x}$, that clearly suffers from being the average of the formers. In a sense, a SVAE forces the Variational Autoencoder to {\em make choices}, in contrast with its intrinsic tendency to average between alternatives with the aim to minimize the reconstruction loss towards a specific sample. According to the FID metric, our technique, tested on typical datasets such as Mnist, Cifar10 and Celeba, allows us to outperform all previous purely variational architectures (not relying on normalization flows).
翻訳日:2022-02-08 17:27:49 公開日:2022-02-06
# 深層畳み込みニューラルネットワークの訓練のためのスマートアイズに基づく病理画像の注記について

On Smart Gaze based Annotation of Histopathology Images for Training of Deep Convolutional Neural Networks ( http://arxiv.org/abs/2202.02764v1 )

ライセンス: Link先を確認
Komal Mariam, Osama Mohammed Afzal, Wajahat Hussain, Muhammad Umar Javed, Amber Kiyani, Nasir Rajpoot, Syed Ali Khurram and Hassan Aqeel Khan(参考訳) 大規模なトレーニングデータセットの有効性は、病理学応用におけるディープラーニングの真の可能性を実現するために克服する必要があるボトルネックである。 スライド画像スキャナー全体によるスライドのデジタル化はデータ取得の速度を増大させているが、仮想スライドのラベル付けには病理学者によるかなりの時間的投資が必要である。 eye gazeアノテーションは、スライドラベリングプロセスをスピードアップする可能性がある。 本研究は、従来の手動ラベリングと比較して視線ラベリングの実用性とタイミングの比較を行った。 視線に基づくラベリングとその後のオブジェクト検出のための粗いデータアノテーションを洗練するための手法についても論じる。 その結果、視線追跡に基づくラベリングは、貴重な病理学者の時間を節約し、深部物体検出器の訓練に使用すると良好な性能を発揮することが示される。 口腔扁平上皮癌症例におけるケラチンパールの局所化の課題を用いて,手延べデータと視線標識データを用いて訓練した深部物体検出装置のパフォーマンスギャップを比較した。 平均して、"Bounding-box"ベースの手書きラベルと比較すると、Gear-labelingはレーベルごとの時間あたりの時間を57.6\%削減し、"Freehand"ラベルと比較すると、平均8,5\%より時間あたりの時間が少ない。

Unavailability of large training datasets is a bottleneck that needs to be overcome to realize the true potential of deep learning in histopathology applications. Although slide digitization via whole slide imaging scanners has increased the speed of data acquisition, labeling of virtual slides requires a substantial time investment from pathologists. Eye gaze annotations have the potential to speed up the slide labeling process. This work explores the viability and timing comparisons of eye gaze labeling compared to conventional manual labeling for training object detectors. Challenges associated with gaze based labeling and methods to refine the coarse data annotations for subsequent object detection are also discussed. Results demonstrate that gaze tracking based labeling can save valuable pathologist time and delivers good performance when employed for training a deep object detector. Using the task of localization of Keratin Pearls in cases of oral squamous cell carcinoma as a test case, we compare the performance gap between deep object detectors trained using hand-labelled and gaze-labelled data. On average, compared to `Bounding-box' based hand-labeling, gaze-labeling required $57.6\%$ less time per label and compared to `Freehand' labeling, gaze-labeling required on average $85\%$ less time per label.
翻訳日:2022-02-08 17:27:10 公開日:2022-02-06
# 圧縮ビデオ理解のための知覚コーディング:新しいフレームワークとベンチマーク

Perceptual Coding for Compressed Video Understanding: A New Framework and Benchmark ( http://arxiv.org/abs/2202.02813v1 )

ライセンス: Link先を確認
Yuan Tian, Guo Lu, Yichao Yan, Guangtao Zhai, Li Chen, Zhiyong Gao(参考訳) ほとんどのビデオ理解方法は高品質のビデオで学習される。 しかし、現実世界のほとんどのシナリオでは、ビデオは最初に輸送前に圧縮され、理解するために圧縮される。 圧縮されたビデオは知覚品質で劣化し、下流のタスクは劣化する可能性がある。 この問題に対処するために、ビデオ理解のための最初のコーディングフレームワークを提案し、別の学習可能な知覚ビットストリームを導入し、同時にビデオビットストリームで転送する。 高度に設計された最適化ターゲットとネットワークアーキテクチャにより、この新しいストリームはデコードされたビデオの知覚的品質を大幅に向上し、わずかなコストがかかる。 本フレームワークは,(1)産業用ビデオコーデックの高効率なコンテントコーディング,(2)ニューラルネットワーク(NN)のフレキシブルなパーセプチュアルコーディングという2つの世界の長所を享受することができる。 最後に、4つの異なる圧縮レベル、6つの大規模データセット、および2つの一般的なタスクに対する圧縮ビデオ理解のための厳密なベンチマークを構築した。 提案したDual-bitstream Perceptual Video CodingフレームワークであるDual-PVCは、同じビットレートレベルでベースラインコーデックよりも大幅にパフォーマンスが向上している。

Most video understanding methods are learned on high-quality videos. However, in most real-world scenarios, the videos are first compressed before the transportation and then decompressed for understanding. The decompressed videos are degraded in terms of perceptual quality, which may degenerate the downstream tasks. To address this issue, we propose the first coding framework for compressed video understanding, where another learnable perceptual bitstream is introduced and simultaneously transported with the video bitstream. With the sophisticatedly designed optimization target and network architectures, this new stream largely boosts the perceptual quality of the decoded videos yet with a small bit cost. Our framework can enjoy the best of both two worlds, (1) highly efficient content-coding of industrial video codec and (2) flexible perceptual-coding of neural networks (NNs). Finally, we build a rigorous benchmark for compressed video understanding over four different compression levels, six large-scale datasets, and two popular tasks. The proposed Dual-bitstream Perceptual Video Coding framework Dual-PVC consistently demonstrates significantly stronger performances than the baseline codec under the same bitrate level.
翻訳日:2022-02-08 17:26:45 公開日:2022-02-06
# 悪性黒色腫の検出 : 皮膚病変分類のための皮膚トーン検出と脱バイアス

Detecting Melanoma Fairly: Skin Tone Detection and Debiasing for Skin Lesion Classification ( http://arxiv.org/abs/2202.02832v1 )

ライセンス: Link先を確認
Peter J. Bevan and Amir Atapour-Abarghouei(参考訳) 畳み込みニューラルネットワークはメラノーマおよび他の皮膚病変の分類においてヒトレベルの性能を示したが、異なる皮膚のトーン間の明らかなパフォーマンス格差は、広く展開する前に対処すべきである。 本研究では,ベンチマークとして一般的に使用されるデータセットの皮膚のトーンバイアスを明らかにするために,修正された変分オートエンコーダを利用する。 本稿では,病変画像の皮膚トーンを自動的にラベリングする効率的かつ効果的なアルゴリズムを提案し,ベンチマークisicデータセットにアノテートする。 その後,2つの先導バイアスアンラーニング技術を用いて皮膚トーンバイアスを軽減した。 実験の結果,皮膚トーン検出アルゴリズムが既存のソリューションを上回っており,未学習の皮膚トーンが一般化を改善し,より軽い皮膚トーンと暗い皮膚トーンにおけるメラノーマ検出性能の差を低減できることが示された。

Convolutional Neural Networks have demonstrated human-level performance in the classification of melanoma and other skin lesions, but evident performance disparities between differing skin tones should be addressed before widespread deployment. In this work, we utilise a modified variational autoencoder to uncover skin tone bias in datasets commonly used as benchmarks. We propose an efficient yet effective algorithm for automatically labelling the skin tone of lesion images, and use this to annotate the benchmark ISIC dataset. We subsequently use two leading bias unlearning techniques to mitigate skin tone bias. Our experimental results provide evidence that our skin tone detection algorithm outperforms existing solutions and that unlearning skin tone improves generalisation and can reduce the performance disparity between melanoma detection in lighter and darker skin tones.
翻訳日:2022-02-08 17:26:29 公開日:2022-02-06
# 対話型注意アライメントによる人間の目とディープニューラルネットワークの協調

Aligning Eyes between Humans and Deep Neural Network through Interactive Attention Alignment ( http://arxiv.org/abs/2202.02838v1 )

ライセンス: Link先を確認
Yuyang Gao, Tong Sun, Liang Zhao, Sungsoo Hong(参考訳) Deep Neural Networks(DNN)は、その強力な自動化を通じて、ほぼすべての分野において、主要なイノベーションを導出していますが、自動化された人種差別、ジェンダーバイアス、敵対的バイアスといった、自動化の背後にある障害も見られます。 DNNの社会的影響が増大するにつれて、DNNの行動と人間の精神モデルとを整合させる効果的な方法を見つけることは、公平で説明可能なモデルを実現する上で欠かせないものとなっている。 本稿では,対話型アテンションアライメント(IAA,Interactive Attention Alignment)の新たなフレームワークを提案する。 IAAは、DNNモデル説明法を、人間が偏りのあるモデル注意の事例を明らかにし、注意を直接調整できるインタラクティブな媒体として活用する。 人為的に調整された注意力を用いてDNNを改善するために,注目品質と予測精度を両立させる新しい計算パイプラインであるGRADIAを導入する。 性別分類問題における学習1と学習2におけるIAAフレームワークの評価を行った。 IAAを適用した研究1は、人間の目からモデル注意の知覚的品質を著しく向上させる。 研究2では,(1)モデルアテンションの知覚的品質を著しく改善し,(2)トレーニングサンプルが限定された場合のモデルパフォーマンスを著しく改善できることがわかった。 本稿では,人間に適応可能なAIに向けた対話型ユーザインタフェースの設計について述べる。

While Deep Neural Networks (DNNs) are deriving the major innovations in nearly every field through their powerful automation, we are also witnessing the peril behind automation as a form of bias, such as automated racism, gender bias, and adversarial bias. As the societal impact of DNNs grows, finding an effective way to steer DNNs to align their behavior with the human mental model has become indispensable in realizing fair and accountable models. We propose a novel framework of Interactive Attention Alignment (IAA) that aims at realizing human-steerable Deep Neural Networks (DNNs). IAA leverages DNN model explanation method as an interactive medium that humans can use to unveil the cases of biased model attention and directly adjust the attention. In improving the DNN using human-generated adjusted attention, we introduce GRADIA, a novel computational pipeline that jointly maximizes attention quality and prediction accuracy. We evaluated IAA framework in Study 1 and GRADIA in Study 2 in a gender classification problem. Study 1 found applying IAA can significantly improve the perceived quality of model attention from human eyes. In Study 2, we found using GRADIA can (1) significantly improve the perceived quality of model attention and (2) significantly improve model performance in scenarios where the training samples are limited. We present implications for future interactive user interfaces design towards human-alignable AI.
翻訳日:2022-02-08 17:10:43 公開日:2022-02-06
# インデックス変調を用いた一般化周波数分割多重化のための深層畳み込み学習支援検出器

Deep Convolutional Learning-Aided Detector for Generalized Frequency Division Multiplexing with Index Modulation ( http://arxiv.org/abs/2202.02876v1 )

ライセンス: Link先を確認
Merve Turhan, Ersin \"Ozt\"urk, Hakan Ali \c{C}{\i}rpan(参考訳) 本稿では,インデクス変調(GFDM-IM)方式による一般化周波数分割多重化に対して,深部畳み込み型ニューラルネットワークを用いたシンボル検出と復調手法を提案する。 提案手法は,まず0-forcing(zf)検出器を用いて受信信号を前処理し,次に畳み込みニューラルネットワーク(cnn)と完全接続ニューラルネットワーク(fcnn)からなるニューラルネットワークを使用する。 FCNN部は2つの完全に接続された層しか使用せず、複雑さとBER(bit error rate)パフォーマンスのトレードオフをもたらすことができる。 この2段階のアプローチは、サドルポイントにおけるニューラルネットワークの立ち往生を防止し、独立してIMブロック処理を可能にする。 提案したディープ畳み込みニューラルネットワークに基づく検出・復調方式は,ZF検出器よりも高いBER性能を示し,複雑さが増大することを示した。 我々は、非直交波形とimスキームを組み合わせたディープラーニングは、将来の無線ネットワークにとって有望な物理層(phy)スキームであると結論する。

In this paper, a deep convolutional neural network-based symbol detection and demodulation is proposed for generalized frequency division multiplexing with index modulation (GFDM-IM) scheme in order to improve the error performance of the system. The proposed method first pre-processes the received signal by using a zero-forcing (ZF) detector and then uses a neural network consisting of a convolutional neural network (CNN) followed by a fully-connected neural network (FCNN). The FCNN part uses only two fully-connected layers, which can be adapted to yield a trade-off between complexity and bit error rate (BER) performance. This two-stage approach prevents the getting stuck of neural network in a saddle point and enables IM blocks processing independently. It has been demonstrated that the proposed deep convolutional neural network-based detection and demodulation scheme provides better BER performance compared to ZF detector with a reasonable complexity increase. We conclude that non-orthogonal waveforms combined with IM schemes with the help of deep learning is a promising physical layer (PHY) scheme for future wireless networks
翻訳日:2022-02-08 17:10:19 公開日:2022-02-06
# SIGMA: グラフマッチングアルゴリズムの構造的不整合低減

SIGMA: A Structural Inconsistency Reducing Graph Matching Algorithm ( http://arxiv.org/abs/2202.02797v1 )

ライセンス: Link先を確認
Weijie Liu, Chao Zhang, Nenggan Zheng, Hui Qian(参考訳) グラフマッチングは、2つの相関グラフ間のノードの対応を見つけ、多くのアプリケーションの中核にある。 グラフ側情報が得られない場合、ノード対応はネットワークトポロジのみに基づいて推定される。 本稿では,ネットワークトポロジカル構造に基づいて定義される,グラフマッチング精度,構造的不整合(si)を測定するための新しい基準を提案する。 具体的には、SIは、グラフのマルチホップ構造に対応するために熱拡散ウェーブレットを組み込む。 SIに基づく構造的不整合低減グラフマッチングアルゴリズム(SIGMA)を提案し,各イテレーションにおけるSI値の低いノードペアのアライメントスコアを改善する。 適切な仮定の下では、SIGMAは真対数のSI値を減らすことができる。 さらに,新しいk-hop構造に基づくマッチングコストを用いて,鏡面降下法を用いてgromov-wasserstein距離を解くことでシグマを導出できることを示す。 実験の結果,本手法は最先端の手法よりも優れていた。

Graph matching finds the correspondence of nodes across two correlated graphs and lies at the core of many applications. When graph side information is not available, the node correspondence is estimated on the sole basis of network topologies. In this paper, we propose a novel criterion to measure the graph matching accuracy, structural inconsistency (SI), which is defined based on the network topological structure. Specifically, SI incorporates the heat diffusion wavelet to accommodate the multi-hop structure of the graphs. Based on SI, we propose a Structural Inconsistency reducing Graph Matching Algorithm (SIGMA), which improves the alignment scores of node pairs that have low SI values in each iteration. Under suitable assumptions, SIGMA can reduce SI values of true counterparts. Furthermore, we demonstrate that SIGMA can be derived by using a mirror descent method to solve the Gromov-Wasserstein distance with a novel K-hop-structure-base d matching costs. Extensive experiments show that our method outperforms state-of-the-art methods.
翻訳日:2022-02-08 17:01:43 公開日:2022-02-06
# スキル多様性による強化学習のための近似記号モデルの導入

Leveraging Approximate Symbolic Models for Reinforcement Learning via Skill Diversity ( http://arxiv.org/abs/2202.02886v1 )

ライセンス: Link先を確認
Lin Guan, Sarath Sreedharan, Subbarao Kambhampati(参考訳) 人間からタスク固有の知識を受け入れて活用できる強化学習(rl)エージェントを作成することは、長期ホリゾン問題を解決するためのスケーラブルなアプローチを開発するための可能な戦略であると長い間認識されてきた。 以前の研究では、RLアプローチとともに記号モデルを使用する可能性を検討したが、ハイレベルなアクションモデルが低レベルで実行可能であり、フロートは全ての望ましいMDP状態を特徴付けることができると仮定する傾向がある。 この仮定は、シンボリックタスクの知識を組み込むことにおける中心的な技術的課題の1つ、すなわち、これらのシンボリックモデルが基礎となるタスクの不完全な表現になることを見逃している。 この目的のために、シンボルモデルガイド強化学習を導入し、シンボルモデルと基礎となるMDPの関係を形式化し、シンボルモデルの不完全性を捉える。 これらのモデルを用いて、タスクを分解するために使用されるハイレベルなランドマークを抽出し、低レベルにおいて、ランドマークによって特定される可能性のあるタスクサブゴールごとに、さまざまなポリシーのセットを学ぶ。 我々は,3つの異なるベンチマーク領域でテストを行い,不完全なシンボリックモデル情報を用いても,タスク構造を探索し,rlエージェントを目標に向けて効率的に誘導する手法を示す。

Creating reinforcement learning (RL) agents that are capable of accepting and leveraging task-specific knowledge from humans has been long identified as a possible strategy for developing scalable approaches for solving long-horizon problems. While previous works have looked at the possibility of using symbolic models along with RL approaches, they tend to assume that the high-level action models are executable at low level and the fluents can exclusively characterize all desirable MDP states. This need not be true and this assumption overlooks one of the central technical challenges of incorporating symbolic task knowledge, namely, that these symbolic models are going to be an incomplete representation of the underlying task. To this end, we introduce Symbolic-Model Guided Reinforcement Learning, wherein we will formalize the relationship between the symbolic model and the underlying MDP that will allow us to capture the incompleteness of the symbolic model. We will use these models to extract high-level landmarks that will be used to decompose the task, and at the low level, we learn a set of diverse policies for each possible task sub-goal identified by the landmark. We evaluate our system by testing on three different benchmark domains and we show how even with incomplete symbolic model information, our approach is able to discover the task structure and efficiently guide the RL agent towards the goal.
翻訳日:2022-02-08 16:44:51 公開日:2022-02-06
# SRPCN: 構造検索に基づくポイントコンプリートネットワーク

SRPCN: Structure Retrieval based Point Completion Network ( http://arxiv.org/abs/2202.02669v1 )

ライセンス: Link先を確認
Kaiyi Zhang, Ximing Yang, Yuan Wu, Cheng Jin(参考訳) 部分的なオブジェクトといくつかの完全なオブジェクトが参照として与えられると、ポイントクラウド補完は真の形状を回復することを目的としている。 しかし、既存の手法は一般的な形状にはほとんど注意を払わず、完成結果の信頼性は低い。 さらに、欠落したパターンは現実には多様であるが、既存の方法は固定されたパターンしか扱えない。 部分点クラウドが対応する完全分布のサブセットであることを考えると、これらを同じ分布の異なるサンプルとみなし、Structure Retrieval based Point Completion Network (SRPCN)を提案する。 最初はk平均クラスタリングを使用して構造点を抽出し分布に分散し、次いでKL分枝はデータベースの入力に最もよく一致する完全な構造点雲を見つけるための計量として使用される。 最後に、PCNライクなデコーダネットワークを採用し、得られた構造点雲に基づいて最終結果を生成する。 構造が物体の一般的な形状を記述する上で重要な役割を担い、提案手法は欠落パターンに対して頑健であるため、本手法はより正確な結果が得られ、より強力な一般化能力を有することを示す実験である。

Given partial objects and some complete ones as references, point cloud completion aims to recover authentic shapes. However, existing methods pay little attention to general shapes, which leads to the poor authenticity of completion results. Besides, the missing patterns are diverse in reality, but existing methods can only handle fixed ones, which means a poor generalization ability. Considering that a partial point cloud is a subset of the corresponding complete one, we regard them as different samples of the same distribution and propose Structure Retrieval based Point Completion Network (SRPCN). It first uses k-means clustering to extract structure points and disperses them into distributions, and then KL Divergence is used as a metric to find the complete structure point cloud that best matches the input in a database. Finally, a PCN-like decoder network is adopted to generate the final results based on the retrieved structure point clouds. As structure plays an important role in describing the general shape of an object and the proposed structure retrieval method is robust to missing patterns, experiments show that our method can generate more authentic results and has a stronger generalization ability.
翻訳日:2022-02-08 16:41:33 公開日:2022-02-06
# FEAT: 注意して顔編集

FEAT: Face Editing with Attention ( http://arxiv.org/abs/2202.02713v1 )

ライセンス: Link先を確認
Xianxu Hou, Linlin Shen, Or Patashnik, Daniel Cohen-Or, Hui Huang(参考訳) 予め訓練された発電機の潜伏空間を利用することは、GANベースの顔操作に有効な手段であることが最近示されている。 このアプローチの成功は、発電機の潜在空間軸の不連続性に大きく依存している。 しかし、顔操作は、しばしば局所的な領域のみに影響を及ぼそうとするが、共通のジェネレータは、必要な空間的絡み合いを持たない傾向がある。 本稿では,StyleGANジェネレータ上に構築し,学習された注意マップを組み込むことで,顔操作を意図した領域に集中させる手法を提案する。 編集された画像の生成中、アテンションマップは、元の特徴と修正された特徴とのブレンドをガイドするマスクとして機能する。 潜在空間編集のためのガイダンスは、最近テキスト駆動編集に有効であることが示されているCLIPを採用することで達成されている。 提案手法は,テキスト記述に基づくアンタングル・制御可能な顔操作を,関連領域にのみ参加して行うことができることを示す。 定性的および定量的な実験結果から,顔領域編集法が代替手法よりも優れていることが示された。

Employing the latent space of pretrained generators has recently been shown to be an effective means for GAN-based face manipulation. The success of this approach heavily relies on the innate disentanglement of the latent space axes of the generator. However, face manipulation often intends to affect local regions only, while common generators do not tend to have the necessary spatial disentanglement. In this paper, we build on the StyleGAN generator, and present a method that explicitly encourages face manipulation to focus on the intended regions by incorporating learned attention maps. During the generation of the edited image, the attention map serves as a mask that guides a blending between the original features and the modified ones. The guidance for the latent space edits is achieved by employing CLIP, which has recently been shown to be effective for text-driven edits. We perform extensive experiments and show that our method can perform disentangled and controllable face manipulations based on text descriptions by attending to the relevant regions only. Both qualitative and quantitative experimental results demonstrate the superiority of our method for facial region editing over alternative methods.
翻訳日:2022-02-08 16:41:12 公開日:2022-02-06
# クリックスルーレート予測のための三角形グラフ関心ネットワーク

Triangle Graph Interest Network for Click-through Rate Prediction ( http://arxiv.org/abs/2202.02698v1 )

ライセンス: Link先を確認
Wensen Jiang, Yizhu Jiao, Qingqin Wang, Chuanming Liang, Lijie Guo, Yao Zhang, Zhijun Sun, Yun Xiong, Yangyong Zhu(参考訳) クリックスルー率予測はオンライン広告において重要な課題である。 現在、多くの既存手法が歴史的クリック動作シーケンスからユーザ潜在的な関心を引き出そうとしている。 しかし,スパースなユーザ行動の処理や関心調査の拡大は困難である。 近年、アイテムイットム共起グラフを補助グラフとして組み込んでいる研究者もいる。 ユーザーの興味が浮かび上がっているため、これらの作業はユーザークリック行動の本当の動機を決定するのに失敗する。 さらに、これらの作品は人気商品や類似商品に偏っている。 多様性の制限を破る効果的なメカニズムが欠如している。 本稿では,三角内ホモフィリーと三角間ヘテロフィという,レコメンデーションシステムのためのアイテムイットグラフにおける三角形の特殊特性について述べる。 そこで本研究では,TGIN(Triangle Graph Interest Network)という,新しい効果的なフレームワークを提案する。 ユーザの動作シーケンスの各クリック項目に対して,アイテム-項目グラフ近傍の三角形を補足として紹介する。 TGINは、これらの三角形をユーザー興味の基本単位とみなし、ユーザーがアイテムをクリックする真の動機を捉える手がかりを提供する。 我々は,複数の興味要素の情報を集約することで,すべてのクリック動作を特徴付け,解き放たれる動機づけ問題を緩和する。 注意機構は、異なる関心単位に対するユーザの好みを決定する。 多様な三角形と相対三角形を選択することで、TGINは新規でセレンディピティーなアイテムを持ち込み、ユーザー興味の探索機会を広げる。 次に,CTR予測を改善するために,過去の行動系列の多段階的関心を集約する。 公的および産業的なデータセットに関する大規模な実験は、我々のフレームワークの有効性を明確に検証する。

Click-through rate prediction is a critical task in online advertising. Currently, many existing methods attempt to extract user potential interests from historical click behavior sequences. However, it is difficult to handle sparse user behaviors or broaden interest exploration. Recently, some researchers incorporate the item-item co-occurrence graph as an auxiliary. Due to the elusiveness of user interests, those works still fail to determine the real motivation of user click behaviors. Besides, those works are more biased towards popular or similar commodities. They lack an effective mechanism to break the diversity restrictions. In this paper, we point out two special properties of triangles in the item-item graphs for recommendation systems: Intra-triangle homophily and Inter-triangle heterophiy. Based on this, we propose a novel and effective framework named Triangle Graph Interest Network (TGIN). For each clicked item in user behavior sequences, we introduce the triangles in its neighborhood of the item-item graphs as a supplement. TGIN regards these triangles as the basic units of user interests, which provide the clues to capture the real motivation for a user clicking an item. We characterize every click behavior by aggregating the information of several interest units to alleviate the elusive motivation problem. The attention mechanism determines users' preference for different interest units. By selecting diverse and relative triangles, TGIN brings in novel and serendipitous items to expand exploration opportunities of user interests. Then, we aggregate the multi-level interests of historical behavior sequences to improve CTR prediction. Extensive experiments on both public and industrial datasets clearly verify the effectiveness of our framework.
翻訳日:2022-02-08 16:04:36 公開日:2022-02-06
# 共変量シフトの新しい類似度尺度と非パラメトリック回帰への応用

A new similarity measure for covariate shift with applications to nonparametric regression ( http://arxiv.org/abs/2202.02837v1 )

ライセンス: Link先を確認
Reese Pathak and Cong Ma and Martin J. Wainwright(参考訳) 非パラメトリック回帰の文脈における共変量シフトについて検討する。 本研究では, 球の半径における確率の積分比に基づいて, 音源分布と対象分布との分布ミスマッチの新たな尺度を提案する。 我々は、半径に関するこの尺度のスケーリングを用いて、共変量シフトの下でのH\"古い連続函数の族に対する推定の最小値速度を特徴づける。 最近提案された転送指数の概念と比較して、この測度はより鋭い収束率をもたらし、より細粒度である。 我々は、この鋭い差を示す共変量シフトの具体的例で理論に付随する。

We study covariate shift in the context of nonparametric regression. We introduce a new measure of distribution mismatch between the source and target distributions that is based on the integrated ratio of probabilities of balls at a given radius. We use the scaling of this measure with respect to the radius to characterize the minimax rate of estimation over a family of H\"older continuous functions under covariate shift. In comparison to the recently proposed notion of transfer exponent, this measure leads to a sharper rate of convergence and is more fine-grained. We accompany our theory with concrete instances of covariate shift that illustrate this sharp difference.
翻訳日:2022-02-08 15:38:50 公開日:2022-02-06
# HARFE:Hard-Ridgeのランダムな機能拡張

HARFE: Hard-Ridge Random Feature Expansion ( http://arxiv.org/abs/2202.02877v1 )

ライセンス: Link先を確認
Esha Saha, Hayden Schaeffer, Giang Tran(参考訳) 本稿では,HARFE (Hard-ridge random feature expansion method) と呼ばれる高次元スパース付加関数を近似するランダム特徴モデルを提案する。 本手法は,スパースリッジ回帰(srr)問題に適用し,ランダム特徴行列に対する係数を近似するハードスレッディング追従に基づくアルゴリズムを用いる。 SRRの定式化は、表現においてより少ない項を使用するスパースモデルと、ノイズや外れ値に対して頑丈なリッジベースの滑らか化の間のバランスをとる。 さらに,無作為な特徴行列におけるランダムなスパース接続パターンを用いて,加算関数の仮定を一致させる。 我々は,HARFE法が,スパースリッジ回帰モデルのノイズやパラメータに依存する誤差に収束することが保証されていることを証明した。 合成データと実際のデータセットの数値結果に基づいて、HARFEアプローチは、他の最先端アルゴリズムよりも低い(または同等)エラーを得る。

We propose a random feature model for approximating high-dimensional sparse additive functions called the hard-ridge random feature expansion method (HARFE). This method utilizes a hard-thresholding pursuit-based algorithm applied to the sparse ridge regression (SRR) problem to approximate the coefficients with respect to the random feature matrix. The SRR formulation balances between obtaining sparse models that use fewer terms in their representation and ridge-based smoothing that tend to be robust to noise and outliers. In addition, we use a random sparse connectivity pattern in the random feature matrix to match the additive function assumption. We prove that the HARFE method is guaranteed to converge with a given error bound depending on the noise and the parameters of the sparse ridge regression model. Based on numerical results on synthetic data as well as on real datasets, the HARFE approach obtains lower (or comparable) error than other state-of-the-art algorithms.
翻訳日:2022-02-08 15:38:39 公開日:2022-02-06
# CheXstray:医療画像AIにおけるドリフト検出のためのリアルタイムマルチモーダルデータ一致

CheXstray: Real-time Multi-Modal Data Concordance for Drift Detection in Medical Imaging AI ( http://arxiv.org/abs/2202.02833v1 )

ライセンス: Link先を確認
Arjun Soin, Jameson Merkow, Jin Long, Joesph Paul Cohen, Smitha Saligrama, Stephen Kaiser, Steven Borg, Ivan Tarapov and Matthew P Lungren(参考訳) 世界中で急速に拡大する臨床AIアプリケーションは、医療実践のあらゆる分野に影響を与える可能性がある。 医療画像アプリケーションは、承認された臨床AIアプリケーションの大部分を占めている。 医療システムはAIソリューションの採用を熱望しているが、根本的な疑問は残る。 私たちは、chexpertとpadchestの公開データセットを使用して、現在の根拠なくデータとモデルドリフトを追跡する医療イメージングaiドリフト監視ワークフローを構築し、テストしています。 複数の実験でドリフトをシミュレートし、DICOMメタデータを用いた新しいマルチモーダルドリフトメトリックとモデル性能を比較し、可変オートエンコーダ(VAE)による画像の外観表現とモデル出力確率を入力とする。 実験を通じて,関連メタデータの教師なし分布シフト,予測確率,VAE潜在表現を用いて,基底真理性能の強力なプロキシを示す。 主なコントリビューションは,(1)VAEとドメイン固有統計手法を用いた医用画像ドリフト検出の実証,(2)ドリフトメトリクスの測定と統一のためのマルチモーダル方法論(3)医療画像AIの監視の課題と解決への新たな洞察(4)オープンソースツールの作成により,他者が自身のワークフローやシナリオを容易に実行できるようにする。 この研究は、動的医療環境における継続的医療画像AIモデルモニタリングに関連する翻訳ギャップに対処するために重要な意味を持つ。

Rapidly expanding Clinical AI applications worldwide have the potential to impact to all areas of medical practice. Medical imaging applications constitute a vast majority of approved clinical AI applications. Though healthcare systems are eager to adopt AI solutions a fundamental question remains: \textit{what happens after the AI model goes into production?} We use the CheXpert and PadChest public datasets to build and test a medical imaging AI drift monitoring workflow that tracks data and model drift without contemporaneous ground truth. We simulate drift in multiple experiments to compare model performance with our novel multi-modal drift metric, which uses DICOM metadata, image appearance representation from a variational autoencoder (VAE), and model output probabilities as input. Through experimentation, we demonstrate a strong proxy for ground truth performance using unsupervised distributional shifts in relevant metadata, predicted probabilities, and VAE latent representation. Our key contributions include (1) proof-of-concept for medical imaging drift detection including use of VAE and domain specific statistical methods (2) a multi-modal methodology for measuring and unifying drift metrics (3) new insights into the challenges and solutions for observing deployed medical imaging AI (4) creation of open-source tools enabling others to easily run their own workflows or scenarios. This work has important implications for addressing the translation gap related to continuous medical imaging AI model monitoring in dynamic healthcare environments.
翻訳日:2022-02-08 15:33:08 公開日:2022-02-06
# パラメータフリー層による特徴学習

Learning Features with Parameter-Free Layers ( http://arxiv.org/abs/2202.02777v1 )

ライセンス: Link先を確認
Dongyoon Han, YoungJoon Yoo, Beomyoung Kim, Byeongho Heo(参考訳) 畳み込み構造ブロックのようなトレーニング可能なレイヤは、連続した空間操作を通じてグローバルコンテキストをキャプチャするパラメータを学習することで、標準的なネットワーク設計選択である。 効率的なネットワークを設計する場合、深さ方向畳み込みなどの学習可能な層は、パラメータやフロップ数における効率の源であるが、実際にはモデル速度にはほとんど改善がなかった。 本稿では,ネットワークアーキテクチャにおける空間的操作に代えて,効率的なトレーニング可能なレイヤの代替として,シンプルなパラメータフリー操作が望ましいと論じる。 建築ブロックの空間的操作をトレーニング可能な層に整理するステレオタイプを破ることを目的としている。 最大プールなどのパラメータフリー操作が機能するかどうかを調べるため,完全学習モデルを用いた層レベルの研究とニューラルアーキテクチャ探索に基づく大規模な実験分析を行った。 この研究は最終的に、パラメータフリー操作をモデル精度を犠牲にすることなくメインビルディングブロックとして多用するネットワークアーキテクチャを再設計する、シンプルで効果的なアイデアを与えてくれます。 ImageNetデータセットの実験結果から、パラメータフリーな演算を持つネットワークアーキテクチャは、モデル速度、パラメータ数、FLOPのさらなる効率性の利点を享受できることが示された。 コードとImageNet事前トレーニングされたモデルはhttps://github.com/n aver-ai/PfLayer.comで入手できる。

Trainable layers such as convolutional building blocks are the standard network design choices by learning parameters to capture the global context through successive spatial operations. When designing an efficient network, trainable layers such as the depthwise convolution is the source of efficiency in the number of parameters and FLOPs, but there was little improvement to the model speed in practice. This paper argues that simple built-in parameter-free operations can be a favorable alternative to the efficient trainable layers replacing spatial operations in a network architecture. We aim to break the stereotype of organizing the spatial operations of building blocks into trainable layers. Extensive experimental analyses based on layer-level studies with fully-trained models and neural architecture searches are provided to investigate whether parameter-free operations such as the max-pool are functional. The studies eventually give us a simple yet effective idea for redesigning network architectures, where the parameter-free operations are heavily used as the main building block without sacrificing the model accuracy as much. Experimental results on the ImageNet dataset demonstrate that the network architectures with parameter-free operations could enjoy the advantages of further efficiency in terms of model speed, the number of the parameters, and FLOPs. Code and ImageNet pretrained models are available at https://github.com/n aver-ai/PfLayer.
翻訳日:2022-02-08 15:13:49 公開日:2022-02-06
# ドメイン適応のための低信頼サンプル

Low-confidence Samples Matter for Domain Adaptation ( http://arxiv.org/abs/2202.02802v1 )

ライセンス: Link先を確認
Yixin Zhang, Junjie Li, Zilei Wang(参考訳) ドメイン適応(DA)は、知識をラベル豊富なソースドメインから関連するがラベルの少ないターゲットドメインに転送することを目的としている。 従来のDA戦略は2つのドメインの特徴分布を調整することである。 近年,対象領域のデータ構造を探索する自己学習や他の半教師付きアルゴリズムの研究が増えている。 しかし、その大部分は信頼できる擬似ラベルやプロトタイプ、クラスタセンターを構築するために、信頼性の高いサンプルに依存している。 このような方法で対象のデータ構造を表現すれば、巨大な低信頼のサンプルを見落とし、ソースドメインと同様のサンプルに対してバイアスを受けるような準最適転送性が得られる。 そこで本研究では,低信頼度サンプルを処理し,対象データ構造をインスタンス識別プロセスを通じて活用することを奨励する,新しいコントラスト学習手法を提案する。 具体的には、信頼度が低いサンプルのみを用いて正と負のペアを作成し、それを直接利用するのではなく、分類器重みで元の特徴を再表現し、タスク固有の意味情報をよりよくエンコードする。 さらに,提案するコントラスト損失を補うために,クロスドメインミックスアップを組み合わせる。 したがって、ドメイン間のギャップは、ドメイン間の中間表現の対比学習を通じてうまく橋渡しすることができる。 提案手法を教師なしと半教師付きの両方のDA設定で評価し,ベンチマークの結果から,提案手法が有効であり,最先端の性能を達成できることが判明した。 コードはhttps://github.com/z hyx12/mixlrcoにある。

Domain adaptation (DA) aims to transfer knowledge from a label-rich source domain to a related but label-scarce target domain. The conventional DA strategy is to align the feature distributions of the two domains. Recently, increasing researches have focused on self-training or other semi-supervised algorithms to explore the data structure of the target domain. However, the bulk of them depend largely on confident samples in order to build reliable pseudo labels, prototypes or cluster centers. Representing the target data structure in such a way would overlook the huge low-confidence samples, resulting in sub-optimal transferability that is biased towards the samples similar to the source domain. To overcome this issue, we propose a novel contrastive learning method by processing low-confidence samples, which encourages the model to make use of the target data structure through the instance discrimination process. To be specific, we create positive and negative pairs only using low-confidence samples, and then re-represent the original features with the classifier weights rather than directly utilizing them, which can better encode the task-specific semantic information. Furthermore, we combine cross-domain mixup to augment the proposed contrastive loss. Consequently, the domain gap can be well bridged through contrastive learning of intermediate representations across domains. We evaluate the proposed method in both unsupervised and semi-supervised DA settings, and extensive experimental results on benchmarks reveal that our method is effective and achieves state-of-the-art performance. The code can be found in https://github.com/z hyx12/MixLRCo.
翻訳日:2022-02-08 15:13:28 公開日:2022-02-06
# クラスタ型個人化フェデレーション学習のためのエネルギー対応エッジアソシエーション

Energy-Aware Edge Association for Cluster-based Personalized Federated Learning ( http://arxiv.org/abs/2202.02727v1 )

ライセンス: Link先を確認
Y. Li, X. Qin, H. Chen, K. Han and P. Zhang(参考訳) 無線ネットワーク上のフェデレーション学習(fl)は、プライバシ保存モデルトレーニングにネットワークエッジのユビキタスインテリジェンスを活用することで、データ意識型サービスを可能にする。 コンテキスト認識サービスの普及に伴い、個人嗜好の多様化はユーザデータ間の条件分布の不一致を引き起こし、推論性能が低下する。 この意味で、クラスタ化されたフェデレーション学習は、同様の好みのユーザデバイスをグループ化し、各クラスタにパーソナライズされたモデルを提供する。 これにより、ユーザクラスタリングとリソース管理の最適化を含むエッジアソシエーションにおける革新的な設計が求められます。 モデル精度,通信資源割当,エネルギー消費を共同で考慮し,精度・コストトレードオフ最適化問題を定式化する。 FLにおけるパラメータ暗号化手法に従うために,エッジアソシエーションのためのクラウドサーバにおける深層強化学習に基づくアプローチを用いた反復解法を提案する。 報酬関数は,各基地局におけるエネルギー消費の最小化と,利用者の平均モデル精度から構成される。 提案手法では,複数のエッジベースステーションを十分に活用し,モデルパラメータの事前知識を必要とせず,コスト効率のよい個人化連合学習を実現する。 シミュレーションの結果,提案手法は,低消費電力で正確な学習を実現するための既存の戦略よりも優れていることがわかった。

Federated Learning (FL) over wireless network enables data-conscious services by leveraging the ubiquitous intelligence at network edge for privacy-preserving model training. As the proliferation of context-aware services, the diversified personal preferences causes disagreeing conditional distributions among user data, which leads to poor inference performance. In this sense, clustered federated learning is proposed to group user devices with similar preference and provide each cluster with a personalized model. This calls for innovative design in edge association that involves user clustering and also resource management optimization. We formulate an accuracy-cost trade-off optimization problem by jointly considering model accuracy, communication resource allocation and energy consumption. To comply with parameter encryption techniques in FL, we propose an iterative solution procedure which employs deep reinforcement learning based approach at cloud server for edge association. The reward function consists of minimized energy consumption at each base station and the averaged model accuracy of all users. Under our proposed solution, multiple edge base station are fully exploited to realize cost efficient personalized federated learning without any prior knowledge on model parameters. Simulation results show that our proposed strategy outperforms existing strategies in achieving accurate learning at low energy cost.
翻訳日:2022-02-08 15:07:53 公開日:2022-02-06
# 医療とモノのインターネット(iot)における機械学習の応用 : 包括的レビュー

Applications of Machine Learning in Healthcare and Internet of Things (IOT): A Comprehensive Review ( http://arxiv.org/abs/2202.02868v1 )

ライセンス: Link先を確認
Farid Ghareh Mohammadi, Farzan Shenavarmasouleh, Hamid R. Arabnia(参考訳) 近年、スマートヘルスケアIoTデバイスはユビキタスになりつつあるが、ポリシーのため独立したネットワークで機能している。 これらのデバイスをネットワークに接続することで、医療分散データ分析を行うことができる。 しかしながら、テクノロジ、構造、ネットワークポリシといった面での多様なIoTデバイスの存在は、従来の集中学習アルゴリズムをIoTデバイスから収集された分散データに適用する上で、難しい問題となっている。 本稿では,最先端の機械学習アプリケーション,特にヘルスケア,iotの課題,それに対応する有望なソリューションについて広範なレビューを行う。 最後に、医療におけるIoTのオープンな課題を強調し、さらなる研究と研究を科学者に委ねる。

In recent years, smart healthcare IoT devices have become ubiquitous, but they work in isolated networks due to their policy. Having these devices connected in a network enables us to perform medical distributed data analysis. However, the presence of diverse IoT devices in terms of technology, structure, and network policy, makes it a challenging issue while applying traditional centralized learning algorithms on decentralized data collected from the IoT devices. In this study, we present an extensive review of the state-of-the-art machine learning applications particularly in healthcare, challenging issues in IoT, and corresponding promising solutions. Finally, we highlight some open-ended issues of IoT in healthcare that leaves further research studies and investigation for scientists.
翻訳日:2022-02-08 14:38:45 公開日:2022-02-06
# Bisimulation Metricsを用いた信頼された近似政策イテレーション

Trusted Approximate Policy Iteration with Bisimulation Metrics ( http://arxiv.org/abs/2202.02881v1 )

ライセンス: Link先を確認
Mete Kemertas, Allan Jepson(参考訳) シミュレーションメトリクスは、報酬シーケンスの比較に基づいてマルコフ決定プロセス(MDP)の状態間の距離測定を定義する。 この性質により、値関数近似の理論的な保証を提供する。 この研究において、まず、任意の$p$-ワッサーシュタイン計量を$p\geq 1$で定義できることを証明する。 次に、$\epsilon$-aggregati onを$\pi$-bisimulationで使用し、連続状態空間のパフォーマンス境界を証明する近似ポリシー反復(API)手順について述べる。 我々は、ポリシー自体の変化の観点から、$\pi$-bisimulation metricsの違いを制限した。 これらの理論的な結果に基づいて,api($\alpha$)プロシージャを設計し,保守的なポリシー更新を行い,naive apiアプローチよりも優れたパフォーマンスバウンダリを享受する。 さらに,制約付き最適化問題を明示的に解く必要を回避した,新たな信頼領域アプローチを提案する。 最後に,シミュレート連続制御における非保存的な代替品と比較して,安定性が向上する実験的証拠を提供する。

Bisimulation metrics define a distance measure between states of a Markov decision process (MDP) based on a comparison of reward sequences. Due to this property they provide theoretical guarantees in value function approximation. In this work we first prove that bisimulation metrics can be defined via any $p$-Wasserstein metric for $p\geq 1$. Then we describe an approximate policy iteration (API) procedure that uses $\epsilon$-aggregati on with $\pi$-bisimulation and prove performance bounds for continuous state spaces. We bound the difference between $\pi$-bisimulation metrics in terms of the change in the policies themselves. Based on these theoretical results, we design an API($\alpha$) procedure that employs conservative policy updates and enjoys better performance bounds than the naive API approach. In addition, we propose a novel trust region approach which circumvents the requirement to explicitly solve a constrained optimization problem. Finally, we provide experimental evidence of improved stability compared to non-conservative alternatives in simulated continuous control.
翻訳日:2022-02-08 14:38:33 公開日:2022-02-06
# tts-gan:transformerベースの時系列生成逆ネットワーク

TTS-GAN: A Transformer-based Time-Series Generative Adversarial Network ( http://arxiv.org/abs/2202.02691v1 )

ライセンス: Link先を確認
Xiaomin Li, Vangelis Metsis, Huangyingrui Wang, Anne Hee Hiong Ngu(参考訳) 時系列の形で現れる信号測定は、医学的機械学習のアプリケーションで使われる最も一般的なデータの1つである。 しかし、そのようなデータセットはしばしば小さく、ディープニューラルネットワークアーキテクチャのトレーニングを非効率にする。 時系列では、データセットのサイズを拡大するために使用できる一連のデータ拡張トリックは、信号の基本特性を維持する必要性によって制限されます。 generative adversarial network (gan) によって生成されたデータは、別のデータ拡張ツールとして利用できる。 RNNベースのGANは、不規則な時間的関係を持つデータポイントの長いシーケンスを効果的にモデル化できないという事実に悩まされる。 これらの問題に対処するために,変換器をベースとしたGANであるTS-GANを導入し,任意の長さのリアルな合成時系列データ列を生成する。 GANモデルのジェネレータと識別器ネットワークは、純粋なトランスフォーマーエンコーダアーキテクチャを用いて構築されている。 実時間と生成した時系列データの類似性を実証するために,可視化と次元削減技術を用いている。 また、生成されたデータの品質を、RNNベースの時系列GANである最良の代替手段と比較する。

Signal measurements appearing in the form of time series are one of the most common types of data used in medical machine learning applications. However, such datasets are often small, making the training of deep neural network architectures ineffective. For time-series, the suite of data augmentation tricks we can use to expand the size of the dataset is limited by the need to maintain the basic properties of the signal. Data generated by a Generative Adversarial Network (GAN) can be utilized as another data augmentation tool. RNN-based GANs suffer from the fact that they cannot effectively model long sequences of data points with irregular temporal relations. To tackle these problems, we introduce TTS-GAN, a transformer-based GAN which can successfully generate realistic synthetic time-series data sequences of arbitrary length, similar to the real ones. Both the generator and discriminator networks of the GAN model are built using a pure transformer encoder architecture. We use visualizations and dimensionality reduction techniques to demonstrate the similarity of real and generated time-series data. We also compare the quality of our generated data with the best existing alternative, which is an RNN-based time-series GAN.
翻訳日:2022-02-08 14:16:42 公開日:2022-02-06
# 分布強化学習のためのマルチサンプル目標値を用いた探索

Exploration with Multi-Sample Target Values for Distributional Reinforcement Learning ( http://arxiv.org/abs/2202.02693v1 )

ライセンス: Link先を確認
Michael Teng, Michiel van de Panne, Frank Wood(参考訳) 分散強化学習(Retributal reinforcement learning, RL)は、ある状態に対するリターンの完全な分布を予測するバリューネットワークを学習することを目的としている。 このアプローチは、連続制御のための共通RL手法にうまく統合され、分散ソフトアクター批判(DSAC)のようなアルゴリズムが生まれている。 本稿では,分散RLのマルチサンプル目標値(MTV)を,現在一般的に使われている単一サンプル目標値推定の原則的代替として導入する。 改良された分布推定は UCB ベースの探査にさらに寄与する。 これらの2つのアイデアを組み合わせることで、分布的RLアルゴリズムであるE2DC(Extra Exploration with Distributional Critics)が得られる。 我々は,様々な連続制御タスクに対するアプローチを評価し,ヒューマノイド制御などの困難なタスクにおける最先端のモデルフリーパフォーマンスを実証する。 本研究は,訓練中の学習分布とその進化を可視化し,解析することにより,その方法に関するさらなる知見を提供する。

Distributional reinforcement learning (RL) aims to learn a value-network that predicts the full distribution of the returns for a given state, often modeled via a quantile-based critic. This approach has been successfully integrated into common RL methods for continuous control, giving rise to algorithms such as Distributional Soft Actor-Critic (DSAC). In this paper, we introduce multi-sample target values (MTV) for distributional RL, as a principled replacement for single-sample target value estimation, as commonly employed in current practice. The improved distributional estimates further lend themselves to UCB-based exploration. These two ideas are combined to yield our distributional RL algorithm, E2DC (Extra Exploration with Distributional Critics). We evaluate our approach on a range of continuous control tasks and demonstrate state-of-the-art model-free performance on difficult tasks such as Humanoid control. We provide further insight into the method via visualization and analysis of the learned distributions and their evolution during training.
翻訳日:2022-02-08 14:16:24 公開日:2022-02-06
# パラメータ残らない:大規模変圧器モデルの訓練のための感度誘導型適応学習率

No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for Training Large Transformer Models ( http://arxiv.org/abs/2202.02664v1 )

ライセンス: Link先を確認
Chen Liang, Haoming Jiang, Simiao Zuo, Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, Tuo Zhao(参考訳) 近年の研究では、大型変圧器モデルにかなりの冗長性があることが示されている。 一般化性能を著しく犠牲にすることなく冗長パラメータをプルークすることができる。 しかし、適切に訓練された場合、冗長パラメータがより役立ったかどうかを問う。 そこで本研究では,すべてのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。 具体的には,モデル性能に対するパラメータの寄与を反映したロバストな勾配に基づく尺度である,各パラメータの学習率を,その感度に応じて適応的に調整する。 感度の低いパラメータは冗長であり、学習率を高めて適合性を向上させる。 対照的に、感度の高いパラメータはよく訓練され、学習率を下げてさらに過剰にフィットすることを防ぐ。 提案するスケジュールの有効性を示すために,自然言語理解,ニューラルマシン翻訳,画像分類に関する広範な実験を行った。 解析の結果,提案スケジュールにより冗長性が低下し,一般化性能が向上した。

Recent research has shown the existence of significant redundancy in large Transformer models. One can prune the redundant parameters without significantly sacrificing the generalization performance. However, we question whether the redundant parameters could have contributed more if they were properly trained. To answer this question, we propose a novel training strategy that encourages all parameters to be trained sufficiently. Specifically, we adaptively adjust the learning rate for each parameter according to its sensitivity, a robust gradient-based measure reflecting this parameter's contribution to the model performance. A parameter with low sensitivity is redundant, and we improve its fitting by increasing its learning rate. In contrast, a parameter with high sensitivity is well-trained, and we regularize it by decreasing its learning rate to prevent further overfitting. We conduct extensive experiments on natural language understanding, neural machine translation, and image classification to demonstrate the effectiveness of the proposed schedule. Analysis shows that the proposed schedule indeed reduces the redundancy and improves generalization performance.
翻訳日:2022-02-08 14:08:32 公開日:2022-02-06
# 訓練やテストデータへのアクセスを必要としない一般化メトリクスによる自然言語処理モデルの評価

Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data ( http://arxiv.org/abs/2202.02842v1 )

ライセンス: Link先を確認
Yaoqing Yang, Ryan Theisen, Liam Hodgkinson, Joseph E. Gonzalez, Kannan Ramchandran, Charles H. Martin, Michael W. Mahoney(参考訳) 有効で堅牢な一般化メトリクスの探索は、最近の理論および経験的研究の焦点となっている。 本稿では,自然言語処理(NLP)モデルの性能について考察し,既存および新規な一般化指標の評価を行う。 これまでの研究と比較すると (i)コンピュータビジョン(CV)の代わりにNLPに焦点を当てる。 (ii)一般化ギャップではなく、テストエラーを予測する一般化メトリクスに注目すること。 (iii)データへのアクセスを必要としない一般化指標に着目し、 (4) ディープニューラルネットワーク(NN)の研究において比較的あまり注目されていないヘビーテール(HT)現象に注目した。 我々は,電力法則(PL)の分布に着目した最近のHTに基づく研究を拡張し,重量行列の実験的スペクトル密度(ESD)に適合する指数(EXP)および指数的に歪んだ電力法則(E-TPL)について検討した。 我々の詳細な実証研究は (i) \emph{average}ランクとすべての実験の一般化性能との相関によって測定されるように、文献で一般的に研究されている \emph{scale metrics} よりも、esdの形状に適合して得られた指標は、一般化性能の予測に一様に優れている。 (二)本論文で検討した40の一般化指標のうち,重量行列の経験的固有値とランダムに初期化した重量行列との距離を測定する新しい形状計量であるranDDISTANCEは,様々な訓練条件下での一般化性能と最悪のランク相関を達成している。 3)本論文で検討した3つのHT分布のうち,ESDのE-TPLフィッティングが最も堅牢である。

The search for effective and robust generalization metrics has been the focus of recent theoretical and empirical work. In this paper, we discuss the performance of natural language processing (NLP) models, and we evaluate various existing and novel generalization metrics. Compared to prior studies, we (i) focus on NLP instead of computer vision (CV), (ii) focus on generalization metrics that predict test error instead of the generalization gap, (iii) focus on generalization metrics that do not need the access to data, and (iv) focus on the heavy-tail (HT) phenomenon that has received comparatively less attention in the study of deep neural networks (NNs). We extend recent HT-based work which focuses on power law (PL) distributions, and we study exponential (EXP) and exponentially truncated power law (E-TPL) fitting to the empirical spectral densities (ESDs) of weight matrices. Our detailed empirical studies show that (i) \emph{shape metrics}, or the metrics obtained from fitting the shape of the ESDs, perform uniformly better at predicting generalization performance than \emph{scale metrics} commonly studied in the literature, as measured by the \emph{average} rank correlations with the generalization performance for all of our experiments; (ii) among forty generalization metrics studied in our paper, the \RANDDISTANCE metric, a new shape metric invented in this paper that measures the distance between empirical eigenvalues of weight matrices and those of randomly initialized weight matrices, achieves the highest worst-case rank correlation with generalization performance under a variety of training settings; and (iii) among the three HT distributions considered in our paper, the E-TPL fitting of ESDs performs the most robustly.
翻訳日:2022-02-08 14:08:17 公開日:2022-02-06