このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220129となっている論文です。

PDF登録状況(公開日: 20220129)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) パッチ感応神経プロセスに関する研究 [全文訳有]

Research on Patch Attentive Neural Process ( http://arxiv.org/abs/2202.01884v1 )

ライセンス: CC BY 4.0
Xiaohan Yu and Shaochen Mao(参考訳) Attentive Neural Process (ANP) は、ニューラルネットワーク(NP)の適合性を向上し、その予測精度を向上させるが、より高い時間複雑さは入力シーケンスの長さに制限を与える。 視覚変換器 (ViT) や Masked Auto-Encoder (MAE) などのモデルにインスパイアされ, 画像パッチを入力とし, ANP に基づく決定論的経路の構造を改善し, より正確かつ効率的に画像特徴を抽出することを可能にするパッチ検出ニューラルプロセス (PANP) を提案する。

Attentive Neural Process (ANP) improves the fitting ability of Neural Process (NP) and improves its prediction accuracy, but the higher time complexity of the model imposes a limitation on the length of the input sequence. Inspired by models such as Vision Transformer (ViT) and Masked Auto-Encoder (MAE), we propose Patch Attentive Neural Process (PANP) using image patches as input and improve the structure of deterministic paths based on ANP, which allows the model to extract image features more accurately and efficiently reconstruction.
翻訳日:2022-02-14 01:04:24 公開日:2022-01-29
# (参考訳) 人工知能へのアプローチ:分析 [全文訳有]

Approaches to Artificial General Intelligence: An Analysis ( http://arxiv.org/abs/2202.03153v1 )

ライセンス: CC BY 4.0
Soumil Rathi(参考訳) 本稿では,人間の脳エミュレーション,AIXI,統合認知アーキテクチャなど,AGIを実現するための様々な手法について分析する。 まず,本論文で使用されるAGIの定義を定義し,その要件について述べる。 提案した各手法について,提案手法を要約し,その重要過程を詳述し,その機能を示す。 次に, 技術要件, 計算能力, 要件の妥当性など, 様々な要因を考慮に入れた各手法を分析した。 人間の脳エミュレーションや統合認知アーキテクチャなど、agiを実現するには様々な方法があるが、agiを実現する最も有望な方法は統合認知アーキテクチャである。 これは、ヒト脳エミュレーションが2030年代まで利用できないであろうスキャン技術を必要とすることが判明したためで、それ以前に作成される可能性は低い。 さらに、統合認知アーキテクチャは計算要求を減らし、汎用インテリジェンスに適した機能を提供しており、AGIを実現する最も可能性が高い。

This paper is an analysis of the different methods proposed to achieve AGI, including Human Brain Emulation, AIXI and Integrated Cognitive Architecture. First, the definition of AGI as used in this paper has been defined, and its requirements have been stated. For each proposed method mentioned, the method in question was summarized and its key processes were detailed, showcasing how it functioned. Then, each method listed was analyzed, taking various factors into consideration, such as technological requirements, computational ability, and adequacy to the requirements. It was concluded that while there are various methods to achieve AGI that could work, such as Human Brain Emulation and Integrated Cognitive Architectures, the most promising method to achieve AGI is Integrated Cognitive Architectures. This is because Human Brain Emulation was found to require scanning technologies that will most likely not be available until the 2030s, making it unlikely to be created before then. Moreover, Integrated Cognitive Architectures has reduced computational requirements and a suitable functionality for General Intelligence, making it the most likely way to achieve AGI.
翻訳日:2022-02-14 00:57:52 公開日:2022-01-29
# (参考訳) 対物軌道による強化学習政策の解説 [全文訳有]

Explaining Reinforcement Learning Policies through Counterfactual Trajectories ( http://arxiv.org/abs/2201.12462v1 )

ライセンス: CC BY 4.0
Julius Frost, Olivia Watkins, Eric Weiner, Pieter Abbeel, Trevor Darrell, Bryan Plummer, Kate Saenko(参考訳) 人間が実世界のタスクにRLエージェントを使う場所を確実に決定するためには、人間開発者は、そのエージェントがテスト時にうまく機能することを検証する必要がある。 いくつかのポリシー解釈方法は、一連のエージェントロールアウトでポリシーの決定をキャプチャすることでこれを促進します。 しかし、訓練時間行動の最も有益な軌跡でさえ、分布からエージェントの行動についての洞察をほとんど与えない可能性がある。 一方,本手法では, エージェントの挙動をより広い軌道分布にわたって示すことによって, エージェントの振舞いの仕方を示す。 我々は、エージェントをより多様な未確認状態に誘導し、エージェントの振る舞いを示すことによって、これらの軌道を生成する。 本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。

In order for humans to confidently decide where to employ RL agents for real-world tasks, a human developer must validate that the agent will perform well at test-time. Some policy interpretability methods facilitate this by capturing the policy's decision making in a set of agent rollouts. However, even the most informative trajectories of training time behavior may give little insight into the agent's behavior out of distribution. In contrast, our method conveys how the agent performs under distribution shifts by showing the agent's behavior across a wider trajectory distribution. We generate these trajectories by guiding the agent to more diverse unseen states and showing the agent's behavior there. In a user study, we demonstrate that our method enables users to score better than baseline methods on one of two agent validation tasks.
翻訳日:2022-02-04 09:38:10 公開日:2022-01-29
# (参考訳) ScaLA: 高速大バッチ逆数雑音による事前学習変圧器に基づく言語モデルの適応化 [全文訳有]

ScaLA: Accelerating Adaptation of Pre-Trained Transformer-Based Language Models via Efficient Large-Batch Adversarial Noise ( http://arxiv.org/abs/2201.12469v1 )

ライセンス: CC BY 4.0
Minjia Zhang, Niranjan Uma Naresh, Yuxiong He(参考訳) 近年、多くの自然言語理解タスクにおいて、事前訓練されたトランスフォーマーベースの言語モデルが劇的に改善されている。 これらのモデルをサイズを拡大してトレーニングするために、多くのニューラルネットワーク実践者は、複数のGPUを活用してトレーニング速度を向上させるために、バッチサイズを拡大しようと試みている。 しかし、バッチサイズを増やすことで最適化がより難しくなり、同じモデル品質を達成するのに、桁違いのトレーニング時間を要する収束の遅さや一般化の低さにつながる。 本稿では,事前学習したトランスフォーマーベース言語モデルをドメイン固有タスクに適用するための大規模バッチ最適化の損失景観の急激さについて検討し,下流タスクの一般化に課題を提起する。 この課題に対処するために,事前学習型トランスフォーマーネットワークの適応速度を高速化する,新規で効率的な手法であるScaLAを提案する。 従来の手法と異なり, モデル一般化を保ちながら適応速度を大幅に向上させる, 大規模バッチ最適化に軽量な対向雑音を加えることで, 逐次ゲーム理論のアプローチをとる。 実験の結果、ScaLA は BERT-base と RoBERTa-large のGLUE のベースライン上で2.7--9.8$\times$ の適応スピードアップを達成し、最先端の大規模バッチ最適化手法と同等かつ高い精度で達成した。 最後に, 対向雑音を用いた大規模バッチ最適化の理論的側面に対処し, 非凸サドル点問題の解析手法を用いて, ScaLAの収束率解析を行う。

In recent years, large pre-trained Transformer-based language models have led to dramatic improvements in many natural language understanding tasks. To train these models with increasing sizes, many neural network practitioners attempt to increase the batch sizes in order to leverage multiple GPUs to improve training speed. However, increasing the batch size often makes the optimization more difficult, leading to slow convergence or poor generalization that can require orders of magnitude more training time to achieve the same model quality. In this paper, we explore the steepness of the loss landscape of large-batch optimization for adapting pre-trained Transformer-based language models to domain-specific tasks and find that it tends to be highly complex and irregular, posing challenges to generalization on downstream tasks. To tackle this challenge, we propose ScaLA, a novel and efficient method to accelerate the adaptation speed of pre-trained transformer networks. Different from prior methods, we take a sequential game-theoretic approach by adding lightweight adversarial noise into large-batch optimization, which significantly improves adaptation speed while preserving model generalization. Experiment results show that ScaLA attains 2.7--9.8$\times$ adaptation speedups over the baseline for GLUE on BERT-base and RoBERTa-large, while achieving comparable and sometimes higher accuracy than the state-of-the-art large-batch optimization methods. Finally, we also address the theoretical aspect of large-batch optimization with adversarial noise and provide a theoretical convergence rate analysis for ScaLA using techniques for analyzing non-convex saddle-point problems.
翻訳日:2022-02-04 09:26:27 公開日:2022-01-29
# (参考訳) 流通曖昧性下での反事実計画 [全文訳有]

Counterfactual Plans under Distributional Ambiguity ( http://arxiv.org/abs/2201.12487v1 )

ライセンス: CC BY 4.0
Ngoc Bui, Duy Nguyen, Viet Anh Nguyen(参考訳) 相反的な説明は、一連の分野における機械学習モデルの応用が盛んであることから、大きな注目を集めている。 反事実プランは、モデルの予測が変更されるように、与えられたインスタンスを変更する複数の可能性からなる。 予測モデルは、新しいデータの将来的な到着によって更新されるため、モデルパラメータの将来的な値に関して、偽りの計画が効果的または実行不可能になる可能性がある。 本研究では,モデル不確実性の下では,第1モーメント情報と第2モーメント情報のみを用いてモデルパラメータの分布を部分的に規定する。 まず,不確実性定量化ツールを提案する。 次に,有効性向上のための対策計画を調整するための補正方法を提案する。 数値実験により,実世界の異なるデータセットにおける反事実計画のロバスト性が向上することを示す。

Counterfactual explanations are attracting significant attention due to the flourishing applications of machine learning models in consequential domains. A counterfactual plan consists of multiple possibilities to modify a given instance so that the model's prediction will be altered. As the predictive model can be updated subject to the future arrival of new data, a counterfactual plan may become ineffective or infeasible with respect to the future values of the model parameters. In this work, we study the counterfactual plans under model uncertainty, in which the distribution of the model parameters is partially prescribed using only the first- and second-moment information. First, we propose an uncertainty quantification tool to compute the lower and upper bounds of the probability of validity for any given counterfactual plan. We then provide corrective methods to adjust the counterfactual plan to improve the validity measure. The numerical experiments validate our bounds and demonstrate that our correction increases the robustness of the counterfactual plans in different real-world datasets.
翻訳日:2022-02-04 08:29:20 公開日:2022-01-29
# (参考訳) 新しい非線形集約関数を用いた効率的な分散機械学習の実現 [全文訳有]

Achieving Efficient Distributed Machine Learning Using a Novel Non-Linear Class of Aggregation Functions ( http://arxiv.org/abs/2201.12488v1 )

ライセンス: CC BY 4.0
Haizhou Du, Ryan Yang, Yijian Chen, Qiao Xiang, Andre Wibisono, Wei Huang(参考訳) 時間変動ネットワーク上の分散機械学習(dml)は、自動運転やドローンのフリーティングといった、新たな分散mlアプリケーションを実現する。 しかし、既存のDMLシステムでよく使われる重み付き算術平均モデル集約関数は、高モデル損失、低モデル精度、時間変化ネットワーク上での収束速度の低下をもたらす。 本稿では,時間変動ネットワーク上で効率的なDMLを実現するために,モデル集約関数の非線形クラスを提案する。 既存の研究と同様に,隣接モデルの線形集計を行う代わりに,p が正の奇数である重み付きパワーp平均 (wpm) を近傍の局所モデルの集計関数として用いる。 その後の最適化ステップは、最適性への収束を維持するブレグマン発散によって定義されるミラー降下を用いて行われる。 本稿では,WPMの特性を分析し,凝集機構の収束特性を厳密に証明する。 さらに, p > 1 の場合, 計算平均集約関数と比較して, モデル収束速度と DML の時間変化によるスケーラビリティを著しく改善し, 計算オーバーヘッドを26倍に抑えることができた。

Distributed machine learning (DML) over time-varying networks can be an enabler for emerging decentralized ML applications such as autonomous driving and drone fleeting. However, the commonly used weighted arithmetic mean model aggregation function in existing DML systems can result in high model loss, low model accuracy, and slow convergence speed over time-varying networks. To address this issue, in this paper, we propose a novel non-linear class of model aggregation functions to achieve efficient DML over time-varying networks. Instead of taking a linear aggregation of neighboring models as most existing studies do, our mechanism uses a nonlinear aggregation, a weighted power-p mean (WPM) where p is a positive odd integer, as the aggregation function of local models from neighbors. The subsequent optimizing steps are taken using mirror descent defined by a Bregman divergence that maintains convergence to optimality. In this paper, we analyze properties of the WPM and rigorously prove convergence properties of our aggregation mechanism. Additionally, through extensive experiments, we show that when p > 1, our design significantly improves the convergence speed of the model and the scalability of DML under time-varying networks compared with arithmetic mean aggregation functions, with little additional 26computation overhead.
翻訳日:2022-02-04 07:57:28 公開日:2022-01-29
# (参考訳) データ分類問題に対するGrey WolfOptimizerを用いた新しいスパースオートエンコーダベースフレームワーク [全文訳有]

A new Sparse Auto-encoder based Framework using Grey Wolf Optimizer for Data Classification Problem ( http://arxiv.org/abs/2201.12493v1 )

ライセンス: CC BY 4.0
Ahmad Mozaffer Karim(参考訳) ディープオートエンコーダ(DAE)の最も重要な特性の1つは、行データから高レベル特徴を抽出する能力である。 したがって、特に近年では、画像や音声認識、コンピュータセキュリティ、医療データ分析などの様々な分類問題において、オートエンコーダが好まれている。 その人気と高いパフォーマンスにもかかわらず、オートエンコーダのトレーニングフェーズは依然として困難な課題であり、モデルが最適な結果に近づくための最適なパラメータを選択することを含む。 異なるトレーニングアプローチがスパースオートエンコーダの訓練に適用される。 先行研究と予備実験により、これらのアプローチが同様の問題に対して顕著な結果をもたらすだけでなく、他の複雑な問題においても失望的な結果が得られることが明らかとなった。 過去20年間にメタヒューリスティックアルゴリズムが登場し、現代最適化技術の重要な部分となっている。 gray wolf optimization(gwo)は、これらのアルゴリズムの現在の1つであり、この研究のためにスパースオートエンコーダのトレーニングに適用される。 このモデルは、いくつかの人気のあるGene式データベースを使用して検証される。 結果は、同じデータセットで研究された以前の最先端技術手法と比較され、他の一般的なメタヒューリスティックアルゴリズム、すなわち遺伝的アルゴリズム(ga)、粒子群最適化(pso)、人工蜂コロニー(abc)と比較される。 その結果、GWOを用いた学習モデルの性能は、一般的なメタヒューリスティックアルゴリズムで訓練された従来のモデルとモデルの両方で優れていた。

One of the most important properties of deep auto-encoders (DAEs) is their capability to extract high level features from row data. Hence, especially recently, the autoencoders are preferred to be used in various classification problems such as image and voice recognition, computer security, medical data analysis, etc. Despite, its popularity and high performance, the training phase of autoencoders is still a challenging task, involving to select best parameters that let the model to approach optimal results. Different training approaches are applied to train sparse autoencoders. Previous studies and preliminary experiments reveal that those approaches may present remarkable results in same problems but also disappointing results can be obtained in other complex problems. Metaheuristic algorithms have emerged over the last two decades and are becoming an essential part of contemporary optimization techniques. Gray wolf optimization (GWO) is one of the current of those algorithms and is applied to train sparse auto-encoders for this study. This model is validated by employing several popular Gene expression databases. Results are compared with previous state-of-the art methods studied with the same data sets and also are compared with other popular metaheuristic algorithms, namely, Genetic Algorithms (GA), Particle Swarm Optimization (PSO) and Artificial Bee Colony (ABC). Results reveal that the performance of the trained model using GWO outperforms on both conventional models and models trained with most popular metaheuristic algorithms.
翻訳日:2022-02-04 07:41:07 公開日:2022-01-29
# (参考訳) コントラスト学習がラベルノイズに対するロバスト性に及ぼす影響の検討 [全文訳有]

Investigating Why Contrastive Learning Benefits Robustness Against Label Noise ( http://arxiv.org/abs/2201.12498v1 )

ライセンス: CC BY 4.0
Yihao Xue, Kyle Whitecross, Baharan Mirzasoleiman(参考訳) 近年、自己教師付きコントラスト学習は、ディープネットワークがノイズラベルを過度に適合させるのを防ぐのに非常に効果的であることが示されている。 実証的な成功にもかかわらず、対照的な学習が頑健性を高めることに対する効果の理論的理解は非常に限られている。 本研究では,コントラスト学習によって学習される表現行列が頑健性を高めることを厳密に証明する。 (i)データ内の各サブクラスに対応する1つの目立った特異値、かつ、著しく小さい特異値 (ii)各サブクラスの顕著な特異ベクトルとクリーンなラベルとの間の大きなアライメント。 上記の特性により、表現に基づいてトレーニングされた線形層は、クリーンなラベルを素早く学習し、多数のトレーニングイテレーションにおいてノイズ過多を防止することができる。 さらに, コントラスト学習で事前学習した深層ネットワークのヤコビアンの低ランク構造により, ノイズラベルを微調整した場合, まずは高い性能が得られることを示した。 最後に、コントラッシブラーニングによって提供される初期ロバスト性により、ロバストなトレーニング手法が、例えば、CIFAR-10およびCIFAR-100における平均27.18 %および15.58 %の精度、80 %の対称ノイズラベル、およびWebVisionにおける精度4.11 %の精度向上など、極端なノイズレベル下での最先端のトレーニングを実現することができることを示した。

Self-supervised contrastive learning has recently been shown to be very effective in preventing deep networks from overfitting noisy labels. Despite its empirical success, the theoretical understanding of the effect of contrastive learning on boosting robustness is very limited. In this work, we rigorously prove that the representation matrix learned by contrastive learning boosts robustness, by having: (i) one prominent singular value corresponding to every sub-class in the data, and remaining significantly smaller singular values; and (ii) a large alignment between the prominent singular vector and the clean labels of each sub-class. The above properties allow a linear layer trained on the representations to quickly learn the clean labels, and prevent it from overfitting the noise for a large number of training iterations. We further show that the low-rank structure of the Jacobian of deep networks pre-trained with contrastive learning allows them to achieve a superior performance initially, when fine-tuned on noisy labels. Finally, we demonstrate that the initial robustness provided by contrastive learning enables robust training methods to achieve state-of-the-art performance under extreme noise levels, e.g., an average of 27.18\% and 15.58\% increase in accuracy on CIFAR-10 and CIFAR-100 with 80\% symmetric noisy labels, and 4.11\% increase in accuracy on WebVision.
翻訳日:2022-02-04 07:18:25 公開日:2022-01-29
# (参考訳) 逐次データ同化のための代理観測演算子の構成 [全文訳有]

Composing a surrogate observation operator for sequential data assimilation ( http://arxiv.org/abs/2201.12514v1 )

ライセンス: CC BY 4.0
Kosuke Akita, Yuto Miyatake, Daisuke Furihata(参考訳) データ同化では、状態推定は観測演算子が不明な場合には簡単ではない。 本研究では,真の演算子に対する代理演算子を構成する方法を提案する。 代理モデルの観測結果と結果との差を減少させるために代理モデルが反復的に改善され、その過程でニューラルネットワークが採用される。 双対実験では、提案手法がデータ同化プロセスを通じて仮に与えられた特定の演算子を使用するアプローチよりも優れていることを示唆する。

In data assimilation, state estimation is not straightforward when the observation operator is unknown. This study proposes a method for composing a surrogate operator for a true operator. The surrogate model is improved iteratively to decrease the difference between the observations and the results of the surrogate model, and a neural network is adopted in the process. A twin experiment suggests that the proposed method outperforms approaches that use a specific operator that is given tentatively throughout the data assimilation process.
翻訳日:2022-02-04 06:46:36 公開日:2022-01-29
# (参考訳) 逐次勾配最適化による連続学習 [全文訳有]

Continual Learning with Recursive Gradient Optimization ( http://arxiv.org/abs/2201.12522v1 )

ライセンス: CC BY 4.0
Hao Liu, Huaping Liu(参考訳) 従来の知識を忘れずに複数のタスクを逐次学習するcontinual learning(cl)は、ニューラルネットワークにとって長年の課題である。 既存の手法の多くは、追加のネットワーク容量やデータ再生に依存している。 対照的に、我々はRecursive Gradient Optimization(RGO)と呼ばれる新しいアプローチを導入する。 RGOは、データ再生なしで忘れを最小化するために勾配を変更する反復的に更新されたオプティマイザと、タスク記述子のみを持つ異なる長期構造を表す仮想フィーチャーエンコーディングレイヤ(FEL)で構成されている。 実験の結果、RGOはベースラインと比較すると、一般的な連続分類ベンチマークで大幅に性能が向上し、20-split-CIFAR100(82 .22%)と20-split-miniImageNe t(72.63%)で新しい最先端のパフォーマンスを達成した。 STL(Single-Task Learning)よりも平均精度が高いため、勾配勾配に依存する学習モデルに対して、連続的な学習能力を柔軟かつ信頼性が高い。

Learning multiple tasks sequentially without forgetting previous knowledge, called Continual Learning(CL), remains a long-standing challenge for neural networks. Most existing methods rely on additional network capacity or data replay. In contrast, we introduce a novel approach which we refer to as Recursive Gradient Optimization(RGO). RGO is composed of an iteratively updated optimizer that modifies the gradient to minimize forgetting without data replay and a virtual Feature Encoding Layer(FEL) that represents different long-term structures with only task descriptors. Experiments demonstrate that RGO has significantly better performance on popular continual classification benchmarks when compared to the baselines and achieves new state-of-the-art performance on 20-split-CIFAR100(82 .22%) and 20-split-miniImageNe t(72.63%). With higher average accuracy than Single-Task Learning(STL), this method is flexible and reliable to provide continual learning capabilities for learning models that rely on gradient descent.
翻訳日:2022-02-04 06:39:01 公開日:2022-01-29
# (参考訳) 限定FoVフィードバックを用いた360度ビデオマルチキャストにおける球面畳み込みによるFoV予測 [全文訳有]

Spherical Convolution empowered FoV Prediction in 360-degree Video Multicast with Limited FoV Feedback ( http://arxiv.org/abs/2201.12525v1 )

ライセンス: CC BY 4.0
Jie Li, Ling Han, Cong Zhang, Qiyue Li, Zhi Liu(参考訳) 視野予測(fov)は、新興の仮想現実(vr)と拡張現実(ar)アプリケーションの主要なコンポーネントである360度ビデオマルチキャストにおいて極めて重要である。 精度検出とFoV情報を組み合わせた現在の予測手法の多くは、投影された360度ビデオの歪みが従来の畳み込みネットワークの重み付けを無効にすることや、予測性能を低下させる完全マルチユーザFoV情報を得る難しさを適切に考慮しない。 本稿では,360度ビデオから抽出した有意な特徴と限られたFoVフィードバック情報を組み合わせたマルチソース予測フレームワークである球面畳み込みを用いたFoV予測手法を提案する。 従来の2次元CNNの代わりに球面畳み込みニューラルネットワーク(CNN)を用いて、映像投影歪みに起因する重み共有障害の問題を解消する。 具体的には、球状畳み込みをベースとした塩分濃度検出モデルを用いて空間的空間的特徴を抽出し、その後、有限フィードバックFoV情報を球状畳み込み駆動ゲート再帰単位ネットワークに基づいて時系列モデルとして表現する。 最後に、抽出されたサルエントビデオ機能を組み合わせて、将来のユーザfovを予測する。 実験の結果,提案手法の性能は他の予測法よりも優れていることがわかった。

Field of view (FoV) prediction is critical in 360-degree video multicast, which is a key component of the emerging Virtual Reality (VR) and Augmented Reality (AR) applications. Most of the current prediction methods combining saliency detection and FoV information neither take into account that the distortion of projected 360-degree videos can invalidate the weight sharing of traditional convolutional networks, nor do they adequately consider the difficulty of obtaining complete multi-user FoV information, which degrades the prediction performance. This paper proposes a spherical convolution-empowere d FoV prediction method, which is a multi-source prediction framework combining salient features extracted from 360-degree video with limited FoV feedback information. A spherical convolution neural network (CNN) is used instead of a traditional two-dimensional CNN to eliminate the problem of weight sharing failure caused by video projection distortion. Specifically, salient spatial-temporal features are extracted through a spherical convolution-based saliency detection model, after which the limited feedback FoV information is represented as a time-series model based on a spherical convolution-empowere d gated recurrent unit network. Finally, the extracted salient video features are combined to predict future user FoVs. The experimental results show that the performance of the proposed method is better than other prediction methods.
翻訳日:2022-02-04 06:20:21 公開日:2022-01-29
# (参考訳) 対向防御の評価と強化のためのスケール不変の対向攻撃 [全文訳有]

Scale-Invariant Adversarial Attack for Evaluating and Enhancing Adversarial Defenses ( http://arxiv.org/abs/2201.12527v1 )

ライセンス: CC BY 4.0
Mengting Xu, Tao Zhang, Zhongnian Li, Daoqiang Zhang(参考訳) 効果的で効果的な攻撃は、防御の信頼性評価や堅牢なモデルの開発にも不可欠である。 プロジェクテッド・グラディエント・Descent (PGD) 攻撃は最も成功した敵攻撃の1つであることが示されている。 しかし、標準PGD攻撃の効果はロジットを再スケーリングすることで容易に弱められるが、全ての入力の元の決定は変更されない。 この問題を軽減するため,本論文では,垂直層の特徴とソフトマックス層の重みの角度を利用して,敵の生成を誘導するSI-PGD(Scale-Invaria nt Adversarial Attack)を提案する。 余弦角行列は角分化表現の学習に用いられ、ロジットの再スケーリングによって変化しないため、SI-PGD攻撃は安定かつ効果的である。 我々は,複数攻撃に対する攻撃を評価し,既存攻撃と比較して性能が向上した。 さらに,コサイン角行列をベースとしたスケール・不変(SI)対角防御機構を提案し,一般的な対角防御に組み込むことができる。 実験の結果,si機構を用いた防御手法は,多段階および単段階の防御において最先端の性能を実現することがわかった。

Efficient and effective attacks are crucial for reliable evaluation of defenses, and also for developing robust models. Projected Gradient Descent (PGD) attack has been demonstrated to be one of the most successful adversarial attacks. However, the effect of the standard PGD attack can be easily weakened by rescaling the logits, while the original decision of every input will not be changed. To mitigate this issue, in this paper, we propose Scale-Invariant Adversarial Attack (SI-PGD), which utilizes the angle between the features in the penultimate layer and the weights in the softmax layer to guide the generation of adversaries. The cosine angle matrix is used to learn angularly discriminative representation and will not be changed with the rescaling of logits, thus making SI-PGD attack to be stable and effective. We evaluate our attack against multiple defenses and show improved performance when compared with existing attacks. Further, we propose Scale-Invariant (SI) adversarial defense mechanism based on the cosine angle matrix, which can be embedded into the popular adversarial defenses. The experimental results show the defense method with our SI mechanism achieves state-of-the-art performance among multi-step and single-step defenses.
翻訳日:2022-02-04 05:53:45 公開日:2022-01-29
# (参考訳) セッションベースレコメンデーションにおける隣接依存関係の再考 [全文訳有]

Rethinking Adjacent Dependency in Session-based Recommendations ( http://arxiv.org/abs/2201.12532v1 )

ライセンス: CC BY 4.0
Qian Zhang, Shoujin Wang, Wenpeng Lu, Chong Feng, Xueping Peng and Qingxiang Wang(参考訳) セッションベースのレコメンデーション(SBR)は、セッション内のアイテム間の依存関係をモデル化することで、匿名ユーザに対して次のアイテムを推奨します。 複雑な依存関係を学習する際のグラフニューラルネットワーク(GNN)の優位性から、近年、GNNベースのSBRがSBRの主要なストリームとなっている。 ほとんどのGNNベースのSBRは、隣接する依存関係の強い仮定に基づいている。 しかし,我々の観察では,ユーザ行動の不確実性や複雑化のため,隣接性は必ずしも依存性を示すものではない。 したがって、上記の仮定は現実のケースでは必ずしも成り立たないため、(1) セッションに隣接しているが実際には依存していないアイテム間の偽の依存関係の導入、(2) 隣接していないが実際に依存しているアイテム間の真の依存関係の欠如という2つの欠点を生じさせる。 このような欠陥により、正確な依存関係学習が大幅に低下し、レコメンデーションパフォーマンスが低下する。 これらの欠陥に対処するために,項目のレビューから抽出したトピック情報を利用して項目間の依存関係を洗練する,新しいリフレッシュされたinter-item graph Neural Network (RI-GNN)を提案する。 2つの公開実世界のデータセットの実験は、RI-GNNが最先端の手法より優れていることを示した。

Session-based recommendations (SBRs) recommend the next item for an anonymous user by modeling the dependencies between items in a session. Benefiting from the superiority of graph neural networks (GNN) in learning complex dependencies, GNN-based SBRs have become the main stream of SBRs in recent years. Most GNN-based SBRs are based on a strong assumption of adjacent dependency, which means any two adjacent items in a session are necessarily dependent here. However, based on our observation, the adjacency does not necessarily indicate dependency due to the uncertainty and complexity of user behaviours. Therefore, the aforementioned assumption does not always hold in the real-world cases and thus easily leads to two deficiencies: (1) the introduction of false dependencies between items which are adjacent in a session but are not really dependent, and (2) the missing of true dependencies between items which are not adjacent but are actually dependent. Such deficiencies significantly downgrade accurate dependency learning and thus reduce the recommendation performance. Aiming to address these deficiencies, we propose a novel review-refined inter-item graph neural network (RI-GNN), which utilizes the topic information extracted from items' reviews to refine dependencies between items. Experiments on two public real-world datasets demonstrate that RI-GNN outperforms the state-of-the-art methods.
翻訳日:2022-02-04 05:34:26 公開日:2022-01-29
# (参考訳) 相対的なポーズ推定に基づく光場補正 [全文訳有]

Light field Rectification based on relative pose estimation ( http://arxiv.org/abs/2201.12533v1 )

ライセンス: CC BY 4.0
Xiao Huo, Dongyang Jin, Saiping Zhang and Fuzheng Yang(参考訳) ハンドヘルド光場(LF)カメラは3次元シーン再構成や深度推定などのコンピュータビジョンに特有の利点がある。 しかし、関連するアプリケーションは、例えば、非常に小さなベースラインによって制限され、再構成の深さが極端に低くなる。 この問題を解決するために,我々はLFを修正して大きなベースラインを得る方法を提案する。 具体的には、2つのハンドヘルドLFカメラで捉えた2つのLFをランダムな相対的なポーズで整列し、対応する行整列サブアパーチャ画像(SAI)を抽出し、大きなベースラインを持つLFを得る。 正確な補正のために,2つのLFカメラ間の相対回転と変換を推定するポーズ推定法も提案されている。 提案手法は,LF-point-LF-point対応モデルにおける自由度(DoF)を最小化し,このモデルを明確に線形に解く。 提案するポーズ推定は,精度向上のために精度の高い結果を提供することにより,最先端アルゴリズムよりも優れる。 3次元再構成における深度分解能の向上は,提案したLF補正の有効性を示す。

Hand-held light field (LF) cameras have unique advantages in computer vision such as 3D scene reconstruction and depth estimation. However, the related applications are limited by the ultra-small baseline, e.g., leading to the extremely low depth resolution in reconstruction. To solve this problem, we propose to rectify LF to obtain a large baseline. Specifically, the proposed method aligns two LFs captured by two hand-held LF cameras with a random relative pose, and extracts the corresponding row-aligned sub-aperture images (SAIs) to obtain an LF with a large baseline. For an accurate rectification, a method for pose estimation is also proposed, where the relative rotation and translation between the two LF cameras are estimated. The proposed pose estimation minimizes the degree of freedom (DoF) in the LF-point-LF-point correspondence model and explicitly solves this model in a linear way. The proposed pose estimation outperforms the state-of-the-art algorithms by providing more accurate results to support rectification. The significantly improved depth resolution in 3D reconstruction demonstrates the effectiveness of the proposed LF rectification.
翻訳日:2022-02-04 05:21:48 公開日:2022-01-29
# (参考訳) Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour Clustering Temporel de Textes [全文訳有]

Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour Clustering Temporel de Textes ( http://arxiv.org/abs/2201.12568v1 )

ライセンス: CC BY 4.0
Ga\"el Poux-M\'edard and Julien Velcin and Sabine Loudcher(参考訳) 文書のテキスト内容とその発行日は相互に交わされる。 例えば、トピックに関するニュース記事の発行は、背景となる時間的ダイナミクスに従って、同様の問題に関する以前の出版の影響を受けている。 しかし,テキスト情報が少ない場合には,意味のある情報を検索することは困難である。 さらに、文書のテキスト内容は、その時間的ダイナミクスと必ずしも相関しない。 本稿では,その内容と公開時間に応じてテキスト文書のクラスタを作成する手法であるPowered Dirichlet-Hawkes Process (PDHP)を開発した。 PDHPは、時間的情報やテキストの内容が弱い場合に、最先端のモデルよりもはるかに優れた結果をもたらす。 PDHPはまた、テキストの内容と時間力学が完全に相関しているという仮説を緩和する。 PDHP が DHP や UP などの先行研究を一般化することを実証する。 最後に、Redditの実際のデータセットを使って可能なアプリケーションを例示する。

The textual content of a document and its publication date are intertwined. For example, the publication of a news article on a topic is influenced by previous publications on similar issues, according to underlying temporal dynamics. However, it can be challenging to retrieve meaningful information when textual information conveys little. Furthermore, the textual content of a document is not always correlated to its temporal dynamics. We develop a method to create clusters of textual documents according to both their content and publication time, the Powered Dirichlet-Hawkes process (PDHP). PDHP yields significantly better results than state-of-the-art models when temporal information or textual content is weakly informative. PDHP also alleviates the hypothesis that textual content and temporal dynamics are perfectly correlated. We demonstrate that PDHP generalizes previous work --such as DHP and UP. Finally, we illustrate a possible application using a real-world dataset from Reddit.
翻訳日:2022-02-04 04:48:42 公開日:2022-01-29
# (参考訳) 単純錯体における畳み込みフィルタリング [全文訳有]

Convolutional Filtering in Simplicial Complexes ( http://arxiv.org/abs/2201.12584v1 )

ライセンス: CC BY 4.0
Elvin Isufi and Maosheng Yang(参考訳) 本稿では,構造を単純化コンプレックス(sc)でモデル化可能なデータに対する畳み込みフィルタリングを提案する。 SCはグラフとしてペア関係をキャプチャするだけでなく、高階ネットワーク構造も考慮する数学的ツールである。 これらのフィルタは畳み込み演算のシフト・アンド・サム原理に従って構築され、単純な信号のシフトにホッジ・ラプラシアンに依存する。 しかし、scsでは同時に単純な結合があるため、入射行列を用いて隣接した単純化で信号を転送し、異なるレベルの信号を共同でフィルタリングするフィルタバンクを構築します。 提案するフィルタバンクには,置換と配向の等式,SC次元で線形な計算複雑性,単純フーリエ変換を用いたスペクトル解釈など,いくつかの興味深い性質が示されている。 提案手法を数値実験により説明する。

This paper proposes convolutional filtering for data whose structure can be modeled by a simplicial complex (SC). SCs are mathematical tools that not only capture pairwise relationships as graphs but account also for higher-order network structures. These filters are built by following the shift-and-sum principle of the convolution operation and rely on the Hodge-Laplacians to shift the signal within the simplex. But since in SCs we have also inter-simplex coupling, we use the incidence matrices to transfer the signal in adjacent simplices and build a filter bank to jointly filter signals from different levels. We prove some interesting properties for the proposed filter bank, including permutation and orientation equivariance, a computational complexity that is linear in the SC dimension, and a spectral interpretation using the simplicial Fourier transform. We illustrate the proposed approach with numerical experiments.
翻訳日:2022-02-04 04:30:06 公開日:2022-01-29
# (参考訳) 言語交叉関節正書法・音韻複雑性測定としての発音の学習 [全文訳有]

Learning to pronounce as measuring cross lingual joint orthography-phonolog y complexity ( http://arxiv.org/abs/2202.00794v1 )

ライセンス: CC BY 4.0
Domenic Rosati(参考訳) 近年の研究では、機械学習モデルによって、各言語が特定のタスクで学習することの難しさを示すことによって、言語を比較することが可能であることが示されている。 本研究は,グラファイム対音素(g2p)翻訳のタスクをモデル化することにより,言語が「発音しにくい」理由について検討する。 このタスクにおいて,22言語にまたがる文字レベルのトランスフォーマーモデルをトレーニングし,その習熟度をグラフや音素の在庫と比較することにより,発音の学習においてより容易で難しい言語を区別する特性が現れることを示す。 すなわち、その正書法から発音される言語の複雑さは、そのグラフと音素のマッピングがいかに表現的か、あるいは単純かによる。 さらに議論は、より公平な言語間比較タスクを設計するために、将来の研究が言語ごとの相対データスパーシティをどのように考慮すべきかを説明している。

Recent work has demonstrated that machine learning models allow us to compare languages by showing how hard each language might be to learn under specific tasks. Following this line of investigation, we investigate what makes a language "hard to pronounce" by modelling the task of grapheme-to-phoneme (g2p) transliteration. By training a character-level transformer model on this task across 22 languages and measuring the model's proficiency against its grapheme and phoneme inventories, we show that certain characteristics emerge that separate easier and harder languages with respect to learning to pronounce. Namely that the complexity of a languages pronunciation from its orthography is due to how expressive or simple its grapheme-to-phoneme mapping is. Further discussion illustrates how future studies should consider relative data sparsity per language in order to design more fair cross lingual comparison tasks.
翻訳日:2022-02-04 04:16:05 公開日:2022-01-29
# (参考訳) AI技術による情報抽出:CONSOBのKIDユースケース [全文訳有]

Information Extraction through AI techniques: The KIDs use case at CONSOB ( http://arxiv.org/abs/2202.01178v1 )

ライセンス: CC BY 4.0
Domenico Lembo, Alessandra Limosani, Francesca Medda, Alessandra Monaco, Federico Maria Scafoglieri(参考訳) 本稿では,コンソブ大学とサピエンザ大学が共同で行った最初の活動について報告する。 金融商品を記載した文書からの情報抽出に焦点を当てる。 ルールベースおよび機械学習ベースの手法を用いて、このタスクを自動化する方法について論じ、最初の結果を提供する。

In this paper we report on the initial activities carried out within a collaboration between Consob and Sapienza University. We focus on Information Extraction from documents describing financial instruments. We discuss how we automate this task, via both rule-based and machine learning-based methods and provide our first results.
翻訳日:2022-02-04 04:05:15 公開日:2022-01-29
# (参考訳) ジョイント低階数と局所平滑度とスパース行列の完全分解 [全文訳有]

Exact Decomposition of Joint Low Rankness and Local Smoothness Plus Sparse Matrices ( http://arxiv.org/abs/2201.12592v1 )

ライセンス: CC0 1.0
Jiangjun Peng, Yao Wang, Hongying Zhang, Jianjun Wang, and Deyu Meng(参考訳) 低ランクおよびスパース行列の分解(略して\textbf{L+S})は、いくつかのロバストPCA技術によって達成できることが知られている。 低ランク性に加えて、局所滑らか性(\textbf{lss})は、ハイパースペクトル画像や監視ビデオなど、多くの実世界のマトリクスデータにとって極めて重要であり、このようなマトリクスは低ランク性と局所滑らか性を同時に持つ。 これは興味深い疑問を提起する: \textbf{l\&lss +s } の形で行列分解を正確にできるのか? 本稿では,3次元相関総変分正規化(略して3DCTV-RPCA)に基づく新しいRPCAモデルを提案する。 具体的には、ゴルフスキームの修正により、いくつかの軽微な仮定の下で、提案した3DCTV-RPCAモデルが両方の成分を正確に分解できることが証明される。 さらに,Fast Fourier Transform (FFT) を用いることで,結果の最適化問題を解決するためのコンバージェンス保証付き効率的なADMMアルゴリズムを提案する。 最後に,提案した3DCTV-RPCAモデルの一般的な妥当性を示すため,シミュレーションと実応用の2つの実験を行った。

It is known that the decomposition in low-rank and sparse matrices (\textbf{L+S} for short) can be achieved by several Robust PCA techniques. Besides the low rankness, the local smoothness (\textbf{LSS}) is a vitally essential prior for many real-world matrix data such as hyperspectral images and surveillance videos, which makes such matrices have low-rankness and local smoothness properties at the same time. This poses an interesting question: Can we make a matrix decomposition in terms of \textbf{L\&LSS +S } form exactly? To address this issue, we propose in this paper a new RPCA model based on three-dimensional correlated total variation regularization (3DCTV-RPCA for short) by fully exploiting and encoding the prior expression underlying such joint low-rank and local smoothness matrices. Specifically, using a modification of Golfing scheme, we prove that under some mild assumptions, the proposed 3DCTV-RPCA model can decompose both components exactly, which should be the first theoretical guarantee among all such related methods combining low rankness and local smoothness. In addition, by utilizing Fast Fourier Transform (FFT), we propose an efficient ADMM algorithm with a solid convergence guarantee for solving the resulting optimization problem. Finally, a series of experiments on both simulations and real applications are carried out to demonstrate the general validity of the proposed 3DCTV-RPCA model.
翻訳日:2022-02-03 12:05:29 公開日:2022-01-29
# (参考訳) セマンティック支援画像圧縮 [全文訳有]

Semantic-assisted image compression ( http://arxiv.org/abs/2201.12599v1 )

ライセンス: CC BY 4.0
Qizheng Sun (1), Caili Guo (1), Yang Yang (1), Jiujiu Chen (1), Xijun Xue (2) ((1) bupt.edu.cn, (2) chinatelecom.cn )(参考訳) 従来の画像圧縮手法は、ダウンストリームAIタスクのパフォーマンスを無視しながらピクセルレベルの一貫性を目標としており、この問題を解決するために、ダウンストリームAIタスクの高パフォーマンスを実現するために意味レベルの一貫性を維持するセマンティック支援画像圧縮法(SAIC)を提案する。 特に意味レベルの損失は、勾配に基づく意味重み付け機構(GSW)を用いて測定される。 GSWは、下流AIタスクの知覚結果を直接考慮する。 そこで本研究では,圧縮過程中に保持される意味情報の量を定量化する意味レベルの歪み評価指標を提案する。 実験の結果,提案手法は,従来の深層学習法と高度知覚法と比較して,より意味レベルの情報を保持し,下流AIタスクの性能を向上させることができることがわかった。

Conventional image compression methods typically aim at pixel-level consistency while ignoring the performance of downstream AI tasks.To solve this problem, this paper proposes a Semantic-Assisted Image Compression method (SAIC), which can maintain semantic-level consistency to enable high performance of downstream AI tasks.To this end, we train the compression network using semantic-level loss function. In particular, semantic-level loss is measured using gradient-based semantic weights mechanism (GSW). GSW directly consider downstream AI tasks' perceptual results. Then, this paper proposes a semantic-level distortion evaluation metric to quantify the amount of semantic information retained during the compression process. Experimental results show that the proposed SAIC method can retain more semantic-level information and achieve better performance of downstream AI tasks compared to the traditional deep learning-based method and the advanced perceptual method at the same compression ratio.
翻訳日:2022-02-03 11:33:08 公開日:2022-01-29
# (参考訳) 全ニューラルネットワークを用いたダンプ人物のハンドジェスチャ認識 [全文訳有]

Hand Gesture Recognition of Dumb Person Using one Against All Neural Network ( http://arxiv.org/abs/2201.12622v1 )

ライセンス: CC BY 4.0
Muhammad Asim Khan, Lan Hong, Sajjad Ahmed(参考訳) 本稿では,実環境における無作為な手振り認識のための新しい手法を提案する。 この技術では、ジェスチャーを含む手像を前処理し、RGB色画像をL.a.b色空間に収束させて手領域を分割する。 分割された画像を異なるクラスに分類するために使われる統計的な特徴はごくわずかである。 人工ニューラルネットワークは、すべてに対して連続的にトレーニングされる。 システムがトレーニングされると、各クラスを並列的に認識することが可能になる。 提案手法の結果は既存の手法よりもはるかに優れている。

We propose a new technique for recognition of dumb person hand gesture in real world environment. In this technique, the hand image containing the gesture is preprocessed and then hand region is segmented by convergent the RGB color image to L.a.b color space. Only few statistical features are used to classify the segmented image to different classes. Artificial Neural Network is trained in sequential manner using one against all. When the system gets trained, it becomes capable of recognition of each class in parallel manner. The result of proposed technique is much better than existing techniques.
翻訳日:2022-02-03 11:23:24 公開日:2022-01-29
# (参考訳) ADC-Net:光コヒーレンストモグラフィーにおける自動分散補償のためのオープンソースのディープラーニングネットワーク [全文訳有]

ADC-Net: An Open-Source Deep Learning Network for Automated Dispersion Compensation in Optical Coherence Tomography ( http://arxiv.org/abs/2201.12625v1 )

ライセンス: CC BY 4.0
Shaiban Ahmed (1), David Le (1), Taeyoon Son (1), Tobiloba Adejumo (1), and Xincheng Yao (1,2) (1) Department of Biomedical Engineering, University of Illinois at Chicago (2) Department of Ophthalmology and Visual Science, University of Illinois at Chicago(参考訳) クロマティック分散は、光コヒーレンストモグラフィー(OCT)におけるシステム分解能を低下させる一般的な問題である。 本研究は,OCTにおける分散自動補償(ADC-Net)のためのディープラーニングネットワークを開発することを目的とする。 ADC-Netは、エンコーダ-デコーダパイプラインを使用する再設計されたUNetアーキテクチャに基づいている。 入力部は、個別の網膜層を最適化した部分補償OCTBスキャンを含む。 対応する出力は全網膜層を最適化した完全に補償されたoct b-scanである。 マルチスケール(MS-SSIM)で計算されたピーク信号対雑音比(PSNR)と構造類似度指標(MS-SSIM)の2つの数値パラメータを用いて,ADC-Net性能の客観的評価を行った。 単チャンネル,3チャンネル,5チャンネル,7チャンネル,9チャンネルを含む訓練モデルの比較分析を行った。 OCTの堅牢な分散補償を実現するため、ADC-Netトレーニングの最適モードとして5入力チャネルの実装が観察された。

Chromatic dispersion is a common problem to degrade the system resolution in optical coherence tomography (OCT). This study is to develop a deep learning network for automated dispersion compensation (ADC-Net) in OCT. The ADC-Net is based on a redesigned UNet architecture which employs an encoder-decoder pipeline. The input section encompasses partially compensated OCT B-scans with individual retinal layers optimized. Corresponding output is a fully compensated OCT B-scans with all retinal layers optimized. Two numeric parameters, i.e., peak signal to noise ratio (PSNR) and structural similarity index metric computed at multiple scales (MS-SSIM), were used for objective assessment of the ADC-Net performance. Comparative analysis of training models, including single, three, five, seven and nine input channels were implemented. The five-input channels implementation was observed as the optimal mode for ADC-Net training to achieve robust dispersion compensation in OCT
翻訳日:2022-02-03 11:15:32 公開日:2022-01-29
# (参考訳) 歩行者交差予測器のクロスデータセット一般化の評価 [全文訳有]

Assessing Cross-dataset Generalization of Pedestrian Crossing Predictors ( http://arxiv.org/abs/2201.12626v1 )

ライセンス: CC BY 4.0
Joseph Gesnouin, Steve Pechberti, Bogdan Stanciulescu and Fabien Moutarde(参考訳) 横断歩道の予測は活発な研究のトピックであり、多くの新しいアルゴリズム的解決策を生み出した。 新たなベンチマークと標準化された評価手順により、これらのソリューションの全体的な進捗を経た測定は、ますます確立される傾向にあるが、既存の予測者が、見当たらないデータにどの程度反応するかは、未解決の問題のままである。 この評価は,誤予測による歩行者の安全を損なうことなく,様々なスセナリでの利用を想定すべきである。 そこで本研究では,直接クロスデータセット評価に基づく研究を行う。 本研究は, 直接トレーニング・テスト・セット評価設定時のロバスト性によらず, 横断データ評価において, 現状の歩行者行動予測器が不十分に一般化していることを示すものである。 我々は, 歩行者横断予測の将来について, 信頼性と一般化可能な実装は, モデル調整ではなく, 利用可能なデータで訓練し, 実生活における行動について推測する意思を持って, 古典的な列車試験シナリオでテストすべきである,と論じる。 ドメインシフトの下での不確実性の推定を考慮しながら、データセット間の設定でモデルを評価すること。

Pedestrian crossing prediction has been a topic of active research, resulting in many new algorithmic solutions. While measuring the overall progress of those solutions over time tends to be more and more established due to the new publicly available benchmark and standardized evaluation procedures, knowing how well existing predictors react to unseen data remains an unanswered question. This evaluation is imperative as serviceable crossing behavior predictors should be set to work in various scenarii without compromising pedestrian safety due to misprediction. To this end, we conduct a study based on direct cross-dataset evaluation. Our experiments show that current state-of-the-art pedestrian behavior predictors generalize poorly in cross-dataset evaluation scenarii, regardless of their robustness during a direct training-test set evaluation setting. In the light of what we observe, we argue that the future of pedestrian crossing prediction, e.g. reliable and generalizable implementations, should not be about tailoring models, trained with very little available data, and tested in a classical train-test scenario with the will to infer anything about their behavior in real life. It should be about evaluating models in a cross-dataset setting while considering their uncertainty estimates under domain shift.
翻訳日:2022-02-03 11:00:02 公開日:2022-01-29
# (参考訳) 手術サイクルganによるブラインド心電図の復元 [全文訳有]

Blind ECG Restoration by Operational Cycle-GANs ( http://arxiv.org/abs/2202.00589v1 )

ライセンス: CC BY 4.0
Serkan Kiranyaz, Ozer Can Devecioglu, Turker Ince, Junaid Malik, Muhammad Chowdhury, Tahir Hamid, Rashid Mazhar, Amith Khandakar, Anas Tahir, Tawsifur Rahman, and Moncef Gabbouj(参考訳) 心電図(ECG)信号の持続的長期モニタリングは不整脈などの心疾患の早期発見に不可欠である。 ホルターとウェアラブルECGセンサーが取得した非クリニカルECG記録は、ベースライン、信号カット、モーションアーティファクト、QRS振幅の変動、ノイズ、その他の干渉といった深刻なアーティファクトに悩まされることが多い。 通常、そのようなアーティファクトのセットは、重度と持続時間が異なる同じECG信号上で発生し、機械や医師による正確な診断は極めて困難である。 ECGのデノゲーションを試みてきた多くの研究にもかかわらず、単純なノイズモデルのためにそのような人工物で劣化した実際のECG信号の復元に自然に失敗している。 本研究では,信号のタイプや重症度に関わらず,信号の品質を臨床レベルECGに向上させることができるサイクル一貫性生成対向ネットワーク(Cycle-GAN)を用いた盲検心電図復元手法を提案する。 修復性能をさらに高めるため,生成ニューロンモデルを用いた1次元動作周期ganを提案する。 提案手法は中国生理信号チャレンジ (CPSC-2020) で100万回以上のビートを持つ最大ベンチマークECGデータセットを用いて広く評価されている。 定量的,質的な評価に加えて,心電図の精度と有用性,特に不整脈の正確な診断のために,心臓科医のグループが医療評価を行った。

Continuous long-term monitoring of electrocardiography (ECG) signals is crucial for the early detection of cardiac abnormalities such as arrhythmia. Non-clinical ECG recordings acquired by Holter and wearable ECG sensors often suffer from severe artifacts such as baseline wander, signal cuts, motion artifacts, variations on QRS amplitude, noise, and other interferences. Usually, a set of such artifacts occur on the same ECG signal with varying severity and duration, and this makes an accurate diagnosis by machines or medical doctors extremely difficult. Despite numerous studies that have attempted ECG denoising, they naturally fail to restore the actual ECG signal corrupted with such artifacts due to their simple and naive noise model. In this study, we propose a novel approach for blind ECG restoration using cycle-consistent generative adversarial networks (Cycle-GANs) where the quality of the signal can be improved to a clinical level ECG regardless of the type and severity of the artifacts corrupting the signal. To further boost the restoration performance, we propose 1D operational Cycle-GANs with the generative neuron model. The proposed approach has been evaluated extensively using one of the largest benchmark ECG datasets from the China Physiological Signal Challenge (CPSC-2020) with more than one million beats. Besides the quantitative and qualitative evaluations, a group of cardiologists performed medical evaluations to validate the quality and usability of the restored ECG, especially for an accurate arrhythmia diagnosis.
翻訳日:2022-02-03 10:42:14 公開日:2022-01-29
# (参考訳) 深層ニューラルネットワークを用いた振り子角位置推定のための転送学習 [全文訳有]

Transfer Learning for Estimation of Pendubot Angular Position Using Deep Neural Networks ( http://arxiv.org/abs/2201.12649v1 )

ライセンス: CC BY 4.0
Sina Khanagha(参考訳) 本稿では,その撮影画像から振り子角位置を推定する機械学習手法を提案する。 まず、従来の画像処理手法を用いて角度を推定するためにベースラインアルゴリズムを導入する。 ベースラインアルゴリズムは、pendubotが高速でない場合にうまく機能する。 しかし、自由落下によって素早く移動すると、pendubotは、ベースラインアルゴリズムが角度を推定できないように、キャプチャされた画像のぼやけたオブジェクトとして現れる。 その結果、この課題に対処するために、ディープニューラルネットワーク(DNN)ベースのアルゴリズムが導入された。 このアプローチは、非常に小さな微調整データセット上でDNNのトレーニングを可能にするために、転送学習の概念に依存している。 基本アルゴリズムは、微調整データセットの基底真理ラベルを作成するために使用される。 ホールドアウト評価セットにおける実験結果から,提案手法はシャープ画像とぼやけた画像に対して0.02度と0.06度という中央値の絶対誤差をそれぞれ達成できることがわかった。

In this paper, a machine learning based approach is introduced to estimate Pendubot angular position from its captured images. Initially, a baseline algorithm is introduced to estimate the angle using conventional image processing technique. The baseline algorithm performs well for the cases that the Pendubot is not moving fast. However, when moving quickly due to a free fall, the Pendubot appears as a blurred object in the captured image in a way that the baseline algorithm fails to estimate the angle. Consequently, a Deep Neural Network (DNN) based algorithm is introduced to cope with this challenge. The approach relies on the concept of transfer learning to allow the training of the DNN on a very small fine-tuning dataset. The base algorithm is used to create the ground truth labels of the fine-tuning dataset. Experimental results on the held-out evaluation set show that the proposed approach achieves a median absolute error of 0.02 and 0.06 degrees for the sharp and blurry images respectively.
翻訳日:2022-02-03 10:25:53 公開日:2022-01-29
# (参考訳) ソースおよびキャパシティ条件下におけるカーネル分類の誤り率 [全文訳有]

Error Rates for Kernel Classification under Source and Capacity Conditions ( http://arxiv.org/abs/2201.12655v1 )

ライセンス: CC BY 4.0
Hugo Cui, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 本稿では,ガウス型データ設計におけるカーネル分類の問題と,データセット上のソースとキャパシティの仮定について考察する。 予測誤差の減衰率は、カーネルリッジ回帰のより一般的な仮定の下で広範囲に研究されてきたが、分類問題の崩壊率の導出は、より困難な課題であると考えられている。 本研究では,汎用的損失関数を持つ線形分類の学習曲線に対する最近の解析結果を用いて,誤り分類(予測)誤差の減衰率とサンプルの複雑さ,すなわちマージン最大化サポートベクターマシン(svm)とリッジ分類の2つの標準分類設定を導出する。 数値的および解析的な引数を用いて、誤差率をソース係数とキャパシティ係数の関数として導出し、2つの手法を対比する。

In this manuscript, we consider the problem of kernel classification under the Gaussian data design, and under source and capacity assumptions on the dataset. While the decay rates of the prediction error have been extensively studied under much more generic assumptions for kernel ridge regression, deriving decay rates for the classification problem has been hitherto considered a much more challenging task. In this work we leverage recent analytical results for learning curves of linear classification with generic loss function to derive the rates of decay of the misclassification (prediction) error with the sample complexity for two standard classification settings, namely margin-maximizing Support Vector Machines (SVM) and ridge classification. Using numerical and analytical arguments, we derive the error rates as a function of the source and capacity coefficients, and contrast the two methods.
翻訳日:2022-02-03 10:20:11 公開日:2022-01-29
# (参考訳) 行動特徴を用いた人間との協調学習 [全文訳有]

Learning to Coordinate with Humans using Action Features ( http://arxiv.org/abs/2201.12658v1 )

ライセンス: CC BY 4.0
Mingwei Ma, Jizhou Liu, Samuel Sokota, Max Kleiman-Weiner, Jakob Foerster(参考訳) 人間とAIの協調における未適応の課題は、AIエージェントが行動の特徴と観察の特徴の間の意味的関係を活用できるようにすることである。 人間はこれらの関係を極めて直感的な方法で活用する。 例えば、共有言語がない場合、欲しいオブジェクトを指さしたり、どれだけのオブジェクトが欲しいかを示すために指を持ち上げたりします。 この課題に対処するために,これらの意味的関係を利用する学習アルゴリズムの妥当性に及ぼすネットワークアーキテクチャの影響を検討する。 手続き的に生成された協調作業全体において、観察と行動の卓越した表現を共同で処理する注意に基づくアーキテクチャは、ゼロショットコーディネーションにより良い帰納的バイアスをもたらす。 詳細な評価とシナリオ分析を通じて,結果の方針が人間に解釈可能であることを示す。 また、このようなエージェントは、人間のデータをトレーニングすることなく、人々と協調する。

An unaddressed challenge in human-AI coordination is to enable AI agents to exploit the semantic relationships between the features of actions and the features of observations. Humans take advantage of these relationships in highly intuitive ways. For instance, in the absence of a shared language, we might point to the object we desire or hold up our fingers to indicate how many objects we want. To address this challenge, we investigate the effect of network architecture on the propensity of learning algorithms to exploit these semantic relationships. Across a procedurally generated coordination task, we find that attention-based architectures that jointly process a featurized representation of observations and actions have a better inductive bias for zero-shot coordination. Through fine-grained evaluation and scenario analysis, we show that the resulting policies are human-interpretable. Moreover, such agents coordinate with people without training on any human data.
翻訳日:2022-02-03 09:38:19 公開日:2022-01-29
# (参考訳) fair ranking: 批判的レビュー、挑戦、今後の方向性

Fair ranking: a critical review, challenges, and future directions ( http://arxiv.org/abs/2201.12662v1 )

ライセンス: CC BY 4.0
Gourab K Patro, Lorenzo Porcaro, Laura Mitchell, Qiuyue Zhang, Meike Zehlike, and Nikhil Garg(参考訳) ランキング、レコメンデーション、検索システムは、eコマース、メディアストリーミング、入場、ギグプラットフォーム、雇用など、オンラインプラットフォームや他の社会システムで広く使われている。 近年では、これらのシステムを、ランク付けされている個人、提供者、あるいはコンテンツに対して公平にするために、大きな「公正なランキング」研究文献が開発されている。 この文献の多くは、単一の検索のインスタンスに対する公平性や、時間をかけて複数の検索のインスタンスに対する単純な付加的概念として定義している。 この本は、この文献の批判的な概要を提供し、そのようなアプローチが見逃している状況に特有の懸念を詳述している: 上位の配置と真の提供者ユーティリティの間のギャップ、時間経過によるこぼれと複合効果、戦略的インセンティブの誘導、統計の不確実性の影響である。 そして、他の分野からの方法論的な教訓や、データボトルネックを克服し、効果的な規制環境を設計する幅広いステークホルダーコミュニティの役割を含む、より包括的でインパクト指向の公正なランキング研究の課題を前進させる。

Ranking, recommendation, and retrieval systems are widely used in online platforms and other societal systems, including e-commerce, media-streaming, admissions, gig platforms, and hiring. In the recent past, a large "fair ranking" research literature has been developed around making these systems fair to the individuals, providers, or content that are being ranked. Most of this literature defines fairness for a single instance of retrieval, or as a simple additive notion for multiple instances of retrievals over time. This work provides a critical overview of this literature, detailing the often context-specific concerns that such an approach misses: the gap between high ranking placements and true provider utility, spillovers and compounding effects over time, induced strategic incentives, and the effect of statistical uncertainty. We then provide a path forward for a more holistic and impact-oriented fair ranking research agenda, including methodological lessons from other fields and the role of the broader stakeholder community in overcoming data bottlenecks and designing effective regulatory environments.
翻訳日:2022-02-03 09:19:41 公開日:2022-01-29
# (参考訳) SMGRL:スケーラブルなマルチ解像度グラフ表現学習フレームワーク [全文訳有]

SMGRL: A Scalable Multi-resolution Graph Representation Learning Framework ( http://arxiv.org/abs/2201.12670v1 )

ライセンス: CC BY 4.0
Reza Namazi, Elahe Ghalebi, Sinead Williamson, Hamidreza Mahyar(参考訳) グラフ畳み込みネットワーク(GCN)は、分類やリンク予測に役立つトポロジ的に認識されたノードの埋め込みを学習することができる。 しかし、構造上、位置認識が欠如しており、追加のレイヤーを追加することなく長距離依存関係をキャプチャできないため、過剰なスムーズと時間と空間の複雑さが増大する。 さらに、ノード間の複雑な依存関係は、ミニバッチを難しくし、大きなグラフに適用性を制限する。 本稿では,マルチレゾリューションノード埋め込みを効率的に学習できるスケーラブルなマルチレゾリューショングラフ表現学習(smgrl)フレームワークを提案する。 私たちのフレームワークはモデルに依存しており、既存のgcnモデルに適用できます。 元のグラフの次元の粗さだけをトレーニングすることで、トレーニングコストを劇的に削減し、その結果のアルゴリズムを複数の解像度で適用するために自己相似性を利用する。 これらの多重解像度埋め込みの推論は、計算とメモリの要求をさらに減らすために複数のマシンに分散することができる。 結果として得られるマルチレゾリューションの埋め込みは集約され、ノード間の長距離および短距離の依存関係をキャプチャする高品質なノード埋め込みが得られる。 実験の結果,高い計算コストを伴わずに分類精度が向上することがわかった。

Graph convolutional networks (GCNs) allow us to learn topologically-aware node embeddings, which can be useful for classification or link prediction. However, by construction, they lack positional awareness and are unable to capture long-range dependencies without adding additional layers -- which in turn leads to over-smoothing and increased time and space complexity. Further, the complex dependencies between nodes make mini-batching challenging, limiting their applicability to large graphs. This paper proposes a Scalable Multi-resolution Graph Representation Learning (SMGRL) framework that enables us to learn multi-resolution node embeddings efficiently. Our framework is model-agnostic and can be applied to any existing GCN model. We dramatically reduce training costs by training only on a reduced-dimension coarsening of the original graph, then exploit self-similarity to apply the resulting algorithm at multiple resolutions. Inference of these multi-resolution embeddings can be distributed across multiple machines to reduce computational and memory requirements further. The resulting multi-resolution embeddings can be aggregated to yield high-quality node embeddings that capture both long- and short-range dependencies between nodes. Our experiments show that this leads to improved classification accuracy, without incurring high computational costs.
翻訳日:2022-02-03 09:18:39 公開日:2022-01-29
# (参考訳) グラフニューラルネットワークのための位置エンコーディングによるリライト [全文訳有]

Rewiring with Positional Encodings for Graph Neural Networks ( http://arxiv.org/abs/2201.12674v1 )

ライセンス: CC BY 4.0
Rickard Br\"uel-Gabrielsson, Mikhail Yurochkin, Justin Solomon(参考訳) いくつかの最近の研究は、注意機構を備えたグラフニューラルネットワーク(GNN)層の受容場を拡張するために位置符号化を使用している。 しかしながら、これらの手法は受容場を完全なグラフに拡張し、かなりの計算コストをかけて従来のgnnの帰納バイアスの変化を危険にさらすか、複雑なアーキテクチャの調整を必要とする。 保存的な代替として、任意のrリングに受容場を広げるために位置符号化を用いる。 提案手法では,入力グラフにノード/エッジを追加し,ノードおよびエッジの特徴として位置エンコーディングを用いる。 したがって、既存の多くのGNNアーキテクチャと互換性がある。 また、非侵襲的な位置符号化の例として、原グラフと修正グラフの間に1対1の写像が存在する。 実験により、位置エンコーディングと仮想完全接続ノードによる受容場の拡張は、GNNの性能を大幅に改善し、小さなrを用いてオーバーカッシングを緩和することを示した。 我々は,最新のTransformerモデルよりも古いアーキテクチャを用いても,最先端の性能を示すことによって,モデル間の改善を実現する。

Several recent works use positional encodings to extend the receptive fields of graph neural network (GNN) layers equipped with attention mechanisms. These techniques, however, extend receptive fields to the complete graph, at substantial computational cost and risking a change in the inductive biases of conventional GNNs, or require complex architecture adjustments. As a conservative alternative, we use positional encodings to expand receptive fields to any r-ring. Our method augments the input graph with additional nodes/edges and uses positional encodings as node and/or edge features. Thus, it is compatible with many existing GNN architectures. We also provide examples of positional encodings that are non-invasive, i.e., there is a one-to-one map between the original and the modified graphs. Our experiments demonstrate that extending receptive fields via positional encodings and a virtual fully-connected node significantly improves GNN performance and alleviates over-squashing using small r. We obtain improvements across models, showing state-of-the-art performance even using older architectures than recent Transformer models adapted to graphs.
翻訳日:2022-02-03 09:01:13 公開日:2022-01-29
# (参考訳) ディセプティコン:言語モデルのフェデレーション学習でトランスフォーマーがプライバシーを侵害 [全文訳有]

Decepticons: Corrupted Transformers Breach Privacy in Federated Learning for Language Models ( http://arxiv.org/abs/2201.12675v1 )

ライセンス: CC BY 4.0
Liam Fowl, Jonas Geiping, Steven Reich, Yuxin Wen, Wojtek Czaja, Micah Goldblum, Tom Goldstein(参考訳) ユーザデータを集中化せずにモデルをトレーニングするフェデレートラーニング(FL)の中心的要素は、プライバシである。 しかし、FLで使用される勾配更新はユーザー情報を漏洩させる可能性がある。 FLの最も工業的な用途はテキストアプリケーション(例えばキーストローク予測)であるが、FLプライバシーに対する攻撃のほとんど全てが単純な画像分類器に焦点を当てている。 本稿では,悪質なパラメータベクトルを配置することでプライベートなユーザテキストを明らかにし,ミニバッチや複数ユーザ,長いシーケンスでも成功する新しい攻撃を提案する。 以前のfl攻撃とは異なり、この攻撃はトランスフォーマーアーキテクチャとトークン埋め込みの両方の特徴を利用して、トークンと位置埋め込みを分離して高忠実度テキストを取得する。 この研究は、これまでプライバシー攻撃に抵抗してきたテキストのflが、これまで考えられていたよりもはるかに脆弱であることを示唆している。

A central tenet of Federated learning (FL), which trains models without centralizing user data, is privacy. However, previous work has shown that the gradient updates used in FL can leak user information. While the most industrial uses of FL are for text applications (e.g. keystroke prediction), nearly all attacks on FL privacy have focused on simple image classifiers. We propose a novel attack that reveals private user text by deploying malicious parameter vectors, and which succeeds even with mini-batches, multiple users, and long sequences. Unlike previous attacks on FL, the attack exploits characteristics of both the Transformer architecture and the token embedding, separately extracting tokens and positional embeddings to retrieve high-fidelity text. This work suggests that FL on text, which has historically been resistant to privacy attacks, is far more vulnerable than previously thought.
翻訳日:2022-02-03 08:39:13 公開日:2022-01-29
# BREAK: geodesic transformation と sKeleton embedded による気管支再建術

BREAK: Bronchi Reconstruction by gEodesic transformation And sKeleton embedding ( http://arxiv.org/abs/2202.00002v1 )

ライセンス: Link先を確認
Weihao Yu, Hao Zheng, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Jie Yang(参考訳) エアウェイセグメンテーションは仮想気管支鏡およびコンピュータ支援肺疾患解析に重要である。 近年,コンボリューションニューラルネットワーク (CNN) は気管支木をデライン化するために広く用いられている。 しかしながら、cnnベースの方法のセグメンテーション結果は、通常、臨床使用において手作業による修復を必要とする多くの不連続な枝を含んでいる。 破損の主な理由は、気道壁の外観が肺疾患や血管の隣接性に影響されうることであり、一方、ネットワークはトレーニングセットのこれらの特別なパターンに過度に適合する傾向がある。 これらの領域のロバストな特徴を学ぶため,我々は,気道ルーメンと壁の強度変化を捉えるために,測地線距離変換を用いたマルチブランチフレームワークを設計した。 もう一つの原因はクラス内不均衡である。 周辺気管支の体積は入力パッチの大型枝よりもはるかに小さいため、共通分節損失は遠位枝間の破断に敏感ではない。 そこで本稿では,故障感応正規化項をデザインし,他の損失関数と容易に組み合わせることができる。 公開データセット上で大規模な実験が行われる。 最先端のメソッドと比較すると,競合セグメンテーション性能を維持しつつ,より多くのブランチを検出できる。

Airway segmentation is critical for virtual bronchoscopy and computer-aided pulmonary disease analysis. In recent years, convolutional neural networks (CNNs) have been widely used to delineate the bronchial tree. However, the segmentation results of the CNN-based methods usually include many discontinuous branches, which need manual repair in clinical use. A major reason for the breakages is that the appearance of the airway wall can be affected by the lung disease as well as the adjacency of the vessels, while the network tends to overfit to these special patterns in the training set. To learn robust features for these areas, we design a multi-branch framework that adopts the geodesic distance transform to capture the intensity changes between airway lumen and wall. Another reason for the breakages is the intra-class imbalance. Since the volume of the peripheral bronchi may be much smaller than the large branches in an input patch, the common segmentation loss is not sensitive to the breakages among the distal branches. Therefore, in this paper, a breakage-sensitive regularization term is designed and can be easily combined with other loss functions. Extensive experiments are conducted on publicly available datasets. Compared with state-of-the-art methods, our framework can detect more branches while maintaining competitive segmentation performance.
翻訳日:2022-02-02 15:42:21 公開日:2022-01-29
# 活性化関数の多項式近似について

On Polynomial Approximation of Activation Function ( http://arxiv.org/abs/2202.00004v1 )

ライセンス: Link先を確認
John Chiang(参考訳) 本研究では,前提となる低次多項式を用いて,ある領域上の活性化関数を近似する興味深い手法を提案する。 この手法の背景にある主な考え方は、最小二乗法の拡張と見なすことができ、最小化するために活性化関数のコスト関数への勾配を含む。

In this work, we propose an interesting method that aims to approximate an activation function over some domain by polynomials of the presupposing low degree. The main idea behind this method can be seen as an extension of the ordinary least square method and includes the gradient of activation function into the cost function to minimize.
翻訳日:2022-02-02 15:36:37 公開日:2022-01-29
# マルチドメインテキスト分類のための最大バッチフロベニウスノルム

Maximum Batch Frobenius Norm for Multi-Domain Text Classification ( http://arxiv.org/abs/2202.00537v1 )

ライセンス: Link先を確認
Yuan Wu, Diana Inkpen, Ahmed El-Roby(参考訳) マルチドメインテキスト分類(MDTC)は深層学習の出現によって顕著な成果を得た。 近年, ドメイン不変の特徴を抽出し, 最先端の成果を得るために, 敵対学習を適用する取り組みが盛んに行われている。 しかし、これらの方法は依然として1つの課題に直面している: 元の特徴をドメイン不変に変換することは、元の特徴の分布を歪曲し、学習した特徴の識別性を低下させる。 この問題に対処するために、まずバッチ分類出力行列の構造を調査し、学習した特徴の識別性がバッチ出力行列のフロベニウスノルムと正の相関を持つことを理論的に正当化する。 そこで本研究では,MDTCの特徴識別性を高めるために,最大バッチFrobenius norm (MBF)法を提案する。 2つのMDTCベンチマーク実験により、我々のMBFアプローチは最先端技術の性能を効果的に向上できることが示された。

Multi-domain text classification (MDTC) has obtained remarkable achievements due to the advent of deep learning. Recently, many endeavors are devoted to applying adversarial learning to extract domain-invariant features to yield state-of-the-art results. However, these methods still face one challenge: transforming original features to be domain-invariant distorts the distributions of the original features, degrading the discriminability of the learned features. To address this issue, we first investigate the structure of the batch classification output matrix and theoretically justify that the discriminability of the learned features has a positive correlation with the Frobenius norm of the batch output matrix. Based on this finding, we propose a maximum batch Frobenius norm (MBF) method to boost the feature discriminability for MDTC. Experiments on two MDTC benchmarks show that our MBF approach can effectively advance the performance of the state-of-the-art.
翻訳日:2022-02-02 13:30:12 公開日:2022-01-29
# (参考訳) 深層コントラスト学習はおそらく(ほぼ)主成分分析である [全文訳有]

Deep Contrastive Learning is Provably (almost) Principal Component Analysis ( http://arxiv.org/abs/2201.12680v1 )

ライセンス: CC BY 4.0
Yuandong Tian(参考訳) 損失関数の族(InfoNCEを含む)の下のContrastive Learning (CL) はゲーム理論の定式化を持ち、そこで \emph{max player} は対照的性を最大化するための表現を見つけ、 \emph{min player} は類似の表現を持つサンプルの対に重みを置く。 我々は,emph{representation learning} を行う最大プレイヤーが深い線形ネットワークの主成分分析に還元され,ほとんどすべての局所ミニマが大域的であり,最適PCAソリューションを回復することを示した。 実験により、この定式化は情報量を超えるとcifar10とstl-10のパフォーマンスに匹敵する(またはより優れている)ことが示され、新しい対照的な損失をもたらす。 さらに、理論解析を2層reluネットワークに拡張し、線形ネットワークとの違いを示し、強増強下での単一の支配的特徴の選択よりも特徴合成が好ましいことを証明した。

We show that Contrastive Learning (CL) under a family of loss functions (including InfoNCE) has a game-theoretical formulation, where the \emph{max player} finds representation to maximize contrastiveness, and the \emph{min player} puts weights on pairs of samples with similar representation. We show that the max player who does \emph{representation learning} reduces to Principal Component Analysis for deep linear network, and almost all local minima are global, recovering optimal PCA solutions. Experiments show that the formulation yields comparable (or better) performance on CIFAR10 and STL-10 when extending beyond InfoNCE, yielding novel contrastive losses. Furthermore, we extend our theoretical analysis to 2-layer ReLU networks, showing its difference from linear ones, and proving that feature composition is preferred over picking single dominant feature under strong augmentation.
翻訳日:2022-02-02 13:26:58 公開日:2022-01-29
# (参考訳) 地形と正確性 -ランダム森林の確率保存- [全文訳有]

Geometry- and Accuracy-Preserving Random Forest Proximities ( http://arxiv.org/abs/2201.12682v1 )

ライセンス: CC BY 4.0
Jake S. Rhodes, Adele Cutler, Kevin R. Moon(参考訳) ランダムフォレストは、比較的チューニングが少ない高いレベルの予測性能のため、最適の分類と回帰アルゴリズムの1つであると考えられている。 教師付きタスクに対するデータポイント間の類似度を測定する訓練されたランダムフォレストからペアワイズ確率を計算することができる。 ランダムフォレスト確率は、変数の重要性の識別、データ計算、外乱検出、データの可視化など、多くのアプリケーションで使われている。 しかし、既存の無作為林の定義は、無作為林が学習したデータ幾何学を正確に反映していない。 本稿では,ランダムフォレスト・ジオメトリー (Random Forest-Geometry- and Accuracy-Preserving Proximities,RF-GAP) と呼ばれる,ランダムな森林確率の新たな定義を提案する。 本研究では,RF-GAPを用いた近接重み付き和(回帰)や多数決(分類)が乱林予測と正確に一致していることを証明する。 この改良された幾何表現は、データインプテーションなどのタスクにおける従来のランダムフォレストプロキシよりも優れており、学習したデータジオメトリと整合した異常検出と可視化の結果を提供する。

Random forests are considered one of the best out-of-the-box classification and regression algorithms due to their high level of predictive performance with relatively little tuning. Pairwise proximities can be computed from a trained random forest which measure the similarity between data points relative to the supervised task. Random forest proximities have been used in many applications including the identification of variable importance, data imputation, outlier detection, and data visualization. However, existing definitions of random forest proximities do not accurately reflect the data geometry learned by the random forest. In this paper, we introduce a novel definition of random forest proximities called Random Forest-Geometry- and Accuracy-Preserving proximities (RF-GAP). We prove that the proximity-weighted sum (regression) or majority vote (classification) using RF-GAP exactly match the out-of-bag random forest prediction, thus capturing the data geometry learned by the random forest. We empirically show that this improved geometric representation outperforms traditional random forest proximities in tasks such as data imputation and provides outlier detection and visualization results consistent with the learned data geometry.
翻訳日:2022-02-02 12:50:03 公開日:2022-01-29
# セマンティクスソースの間接的レートゆがみ特性:一般モデルとガウス観測の場合

An Indirect Rate-Distortion Characterization for Semantic Sources: General Model and the Case of Gaussian Observation ( http://arxiv.org/abs/2201.12477v1 )

ライセンス: Link先を確認
Jiakun Liu, Shuo Shao, Wenyi Zhang, H. Vincent Poor(参考訳) 固有状態部分と外部観測部分からなる新たな情報源モデルを提案し,その情報理論的特徴,すなわち速度歪み関数を定義し,解析した。 このような情報源モデルは、情報の意味的側面に対する最近の関心の高まりによって動機付けられている:本質的な状態は、一般に観測不可能であるが、外生的な観察からのみ推測できるソースの意味的特徴に対応する。 内在状態と再生状態の間には2つの歪み測度があり、内在状態と再生状態の間には2つの歪み測度がある。 与えられた符号率の下では、これらの2つの歪み測度間のトレードオフは、間接的な速度歪み理論によって解決される速度歪み関数によって特徴づけられる。 一般モデルと解析の応用として,2次歪み構造下での内在状態と外因性観測との線形関係を仮定して,ガウス系外因性観測の場合について検討した。 セマンティックレート歪み関数は、誤差共分散行列に対する凸プログラミングの解であることが示され、モデルがさらに対角化条件を満たす場合に、逆水充填型の解が提供される。

A new source model, which consists of an intrinsic state part and an extrinsic observation part, is proposed and its information-theoreti c characterization, namely its rate-distortion function, is defined and analyzed. Such a source model is motivated by the recent surge of interest in the semantic aspect of information: the intrinsic state corresponds to the semantic feature of the source, which in general is not observable but can only be inferred from the extrinsic observation. There are two distortion measures, one between the intrinsic state and its reproduction, and the other between the extrinsic observation and its reproduction. Under a given code rate, the tradeoff between these two distortion measures is characterized by the rate-distortion function, which is solved via the indirect rate-distortion theory and is termed as the semantic rate-distortion function of the source. As an application of the general model and its analysis, the case of Gaussian extrinsic observation is studied, assuming a linear relationship between the intrinsic state and the extrinsic observation, under a quadratic distortion structure. The semantic rate-distortion function is shown to be the solution of a convex programming programming with respect to an error covariance matrix, and a reverse water-filling type of solution is provided when the model further satisfies a diagonalizability condition.
翻訳日:2022-02-01 20:01:42 公開日:2022-01-29
# 全Analogインメモリコンピューティングアーキテクチャにおける相互接続とパーティショニング

Interconnect Parasitics and Partitioning in Fully-Analog In-Memory Computing Architectures ( http://arxiv.org/abs/2201.12480v1 )

ライセンス: Link先を確認
Md Hasibul Amin, Mohammed Elbtity, Ramtin Zand(参考訳) 行列ベクトル乗算と非線形ベクトル演算の両方を同一メモリアレイ内に実装した完全アナログインメモリコンピューティング(IMC)アーキテクチャは、エネルギー空調信号変換ユニットの除去により従来のIMCシステムよりも有望な性能上の利点を示している。 しかし、ディープニューラルネットワーク(DNN)全体のアナログ領域での計算を維持するには、寄生虫の相互接続に対する潜在的な感受性が伴う。 そこで本研究では,完全アナログIMCアーキテクチャに実装したDNNモデルの精度に及ぼすワイヤ寄生抵抗と容量の影響について検討する。 さらに,大きな配列を複数のパーティションに分割することで,アナログ領域での計算を保ちながら寄生虫の影響を緩和するパーティショニング機構を提案する。 完全なアナログICC回路上に展開された400 X 120 X 84 X 10 DNNモデルのSPICE回路シミュレーションの結果、MNIST分類では16、8、8の水平分割、DNNの第1、第2、第3の層では8、第3の層では8、第1の層では8、第3の層では97%の精度で94.84%の精度が達成された。 その結果,パーティショニング処理に余分な回路が必要となるため,高消費電力のコストで精度の向上が期待できることがわかった。

Fully-analog in-memory computing (IMC) architectures that implement both matrix-vector multiplication and non-linear vector operations within the same memory array have shown promising performance benefits over conventional IMC systems due to the removal of energy-hungry signal conversion units. However, maintaining the computation in the analog domain for the entire deep neural network (DNN) comes with potential sensitivity to interconnect parasitics. Thus, in this paper, we investigate the effect of wire parasitic resistance and capacitance on the accuracy of DNN models deployed on fully-analog IMC architectures. Moreover, we propose a partitioning mechanism to alleviate the impact of the parasitic while keeping the computation in the analog domain through dividing large arrays into multiple partitions. The SPICE circuit simulation results for a 400 X 120 X 84 X 10 DNN model deployed on a fully-analog IMC circuit show that a 94.84% accuracy could be achieved for MNIST classification application with 16, 8, and 8 horizontal partitions, as well as 8, 8, and 1 vertical partitions for first, second, and third layers of the DNN, respectively, which is comparable to the ~97% accuracy realized by digital implementation on CPU. It is shown that accuracy benefits are achieved at the cost of higher power consumption due to the extra circuitry required for handling partitioning.
翻訳日:2022-02-01 20:01:19 公開日:2022-01-29
# コンテクスト統合型ニューラルネットワークによるオークション設計

A Context-Integrated Transformer-Based Neural Network for Auction Design ( http://arxiv.org/abs/2201.12489v1 )

ライセンス: Link先を確認
Zhijian Duan, Jingwu Tang, Yutong Yin, Zhe Feng, Xiang Yan, Manzil Zaheer, Xiaotie Deng(参考訳) オークションデザインにおける中心的な問題の1つは、競売人の期待収益を最大化するインセンティブ互換メカニズムを開発することである。 理論的アプローチは,複数項目のオークションにおいてボトルネックに直面しているが,近年はディープラーニングによる最適メカニズムの発見が進んでいる。 しかし、これらの作品は入札者とアイテムの固定セットにフォーカスするか、オークションを対称に制限するかのどちらかである。 本研究では,入札者やアイテムの文脈情報をオークション学習フレームワークに分解することで,このような制限を克服する。 提案する$\mathtt{CITransNet}$は、最適オークション設計のためのコンテキスト積分トランスフォーマーベースのニューラルネットワークであり、非対称な解を見つけながら入札やコンテキストに対する置換等価性を維持する。 より広範な実験により、$\mathtt{CITransNet}$は、シングルイット設定で既知の最適解を回復し、マルチイットオークションで強いベースラインを上回り、トレーニング中のもの以外のケースによく当てはまることを示す。

One of the central problems in auction design is developing an incentive-compatible mechanism that maximizes the auctioneer's expected revenue. While theoretical approaches have encountered bottlenecks in multi-item auctions, recently, there has been much progress on finding the optimal mechanism through deep learning. However, these works either focus on a fixed set of bidders and items, or restrict the auction to be symmetric. In this work, we overcome such limitations by factoring \emph{public} contextual information of bidders and items into the auction learning framework. We propose $\mathtt{CITransNet}$, a context-integrated transformer-based neural network for optimal auction design, which maintains permutation-equivari ance over bids and contexts while being able to find asymmetric solutions. We show by extensive experiments that $\mathtt{CITransNet}$ can recover the known optimal solutions in single-item settings, outperform strong baselines in multi-item auctions, and generalize well to cases other than those in training.
翻訳日:2022-02-01 20:00:51 公開日:2022-01-29
# Smooth Re-Weightingによるプライベートブースト決定木

Private Boosted Decision Trees via Smooth Re-Weighting ( http://arxiv.org/abs/2201.12648v1 )

ライセンス: Link先を確認
Vahid R. Asadi, Marco L. Carmosino, Mohammadmahdi Jahanara, Akbar Rafiey, Bahar Salamatian(参考訳) 機械学習アルゴリズムによってデータが使用される人々のプライバシーを保護することは重要である。 差分プライバシーは、プライバシの正式な保証のための適切な数学的フレームワークであり、強化された決定木は一般的な機械学習技術である。 そこで我々は,ディファレンシャルプライバシを保証する決定木を増加させる実用的なアルゴリズムを提案し,検証する。 プライバシは、我々のブースターがいかなる例にも重みを付けないことから強制される。これにより、個々のデータの"過剰"が単一の木に影響を与えないことが保証される。 実験により、このブースティングアルゴリズムは、他の微分的にプライベートなアンサンブル分類器よりも、モデルのスパーシティと精度を向上できることが示されている。

Protecting the privacy of people whose data is used by machine learning algorithms is important. Differential Privacy is the appropriate mathematical framework for formal guarantees of privacy, and boosted decision trees are a popular machine learning technique. So we propose and test a practical algorithm for boosting decision trees that guarantees differential privacy. Privacy is enforced because our booster never puts too much weight on any one example; this ensures that each individual's data never influences a single tree "too much." Experiments show that this boosting algorithm can produce better model sparsity and accuracy than other differentially private ensemble classifiers.
翻訳日:2022-02-01 20:00:32 公開日:2022-01-29
# クリック後変換予測のプライバシー保護への挑戦とアプローチ

Challenges and approaches to privacy preserving post-click conversion prediction ( http://arxiv.org/abs/2201.12666v1 )

ライセンス: Link先を確認
Conor O'Brien, Arvind Thiagarajan, Sourav Das, Rafael Barreto, Chetan Verma, Tim Hsu, James Neufield, Jonathan J Hunt(参考訳) オンライン広告は、通常、オフライン広告よりもパーソナライズされ、機械学習モデルと広告ターゲティングのためのリアルタイムオークションを用いている。 特定のタスクの1つは、ターゲティングと価格の両面で広告エコシステムにおいて、変換の可能性(すなわちユーザーが広告商品を購入する可能性)を予測することである。 現在、これらのモデルは個々のユーザーの行動を観察して訓練されることが多いが、規制や技術的な制約はプライバシー保護のアプローチを必要としている。 例えば、主要なプラットフォームは、複数のアプリケーションにわたる個々のユーザーイベントの追跡を制限するよう移行しており、世界中の政府は、個人データの使用を規制することに対する関心を着実に高めている。 個々のユーザーの行動に関するデータを受け取る代わりに、広告主はプライバシーを保ったフィードバックを受け取ることができる。 本稿では,オンライン広告エコシステムにおける最近のプライバシー関連の変化について,機械学習の観点から概説する。 この設定で変換モデルを学ぶ際の課題と制約について概観する。 本稿では,ポストグレード信号を利用したモデル学習手法を提案する。 実世界のデータ上でオフライン実験を用いることで、オプトインデータのみに依存するモデルよりも優れ、個々のラベルが利用できない場合のモデル劣化を著しく低減することを示す。 最後に、この発展分野における研究の今後の方向性について論じる。

Online advertising has typically been more personalized than offline advertising, through the use of machine learning models and real-time auctions for ad targeting. One specific task, predicting the likelihood of conversion (i.e.\ the probability a user will purchase the advertised product), is crucial to the advertising ecosystem for both targeting and pricing ads. Currently, these models are often trained by observing individual user behavior, but, increasingly, regulatory and technical constraints are requiring privacy-preserving approaches. For example, major platforms are moving to restrict tracking individual user events across multiple applications, and governments around the world have shown steadily more interest in regulating the use of personal data. Instead of receiving data about individual user behavior, advertisers may receive privacy-preserving feedback, such as the number of installs of an advertised app that resulted from a group of users. In this paper we outline the recent privacy-related changes in the online advertising ecosystem from a machine learning perspective. We provide an overview of the challenges and constraints when learning conversion models in this setting. We introduce a novel approach for training these models that makes use of post-ranking signals. We show using offline experiments on real world data that it outperforms a model relying on opt-in data alone, and significantly reduces model degradation when no individual labels are available. Finally, we discuss future directions for research in this evolving area.
翻訳日:2022-02-01 20:00:21 公開日:2022-01-29
# 非目標相互作用摂動に対するディープレコメンデーションシステムのロバスト性

Robustness of Deep Recommendation Systems to Untargeted Interaction Perturbations ( http://arxiv.org/abs/2201.12686v1 )

ライセンス: Link先を確認
Sejoon Oh, Srijan Kumar(参考訳) ディープラーニングベースのシーケンシャルレコメンデーションシステムは広く使われているが、対象外のトレーニングデータに対する感度は不明である。 目標外の摂動は、トレーニング中に不可避な入力摂動を挿入することで、テスト時にすべてのユーザに対してランク付けされたレコメンデーションリストを変更することを目的としている。 既存の摂動法は、ターゲットアイテムのランクを変えるために最適化されたターゲット攻撃であるが、ターゲット外シナリオには適していない。 本稿では,非意図的および非敵対的設定において,ユーザとテーマのトレーニングインタラクションを摂動させる新しい枠組みを提案する。 まず、4つのデータセットに関する包括的な実験を通して、4つの一般的な推奨モデルが1つのランダムな摂動に対して不安定であることを示す。 第2に,初期トレーニングインタラクションのマイナーな操作がモデルに大きな変化をもたらし,すべてのユーザに対してレコメンデーションが生成されるというカスケード効果を確立する。 この効果を利用して、最大カスケード効果を誘導する相互作用を同定し、摂動する対向摂動法CASPERを提案する。 CASPERは,いくつかのベースラインや最先端手法と比較して,推奨モデルの安定性を最も低くすることを示した。 最後に, データセットサイズと摂動数に応じて, CASPERスケールのランタイムと成功をほぼ直線的に示す。

While deep learning-based sequential recommender systems are widely used in practice, their sensitivity to untargeted training data perturbations is unknown. Untargeted perturbations aim to modify ranked recommendation lists for all users at test time, by inserting imperceptible input perturbations during training time. Existing perturbation methods are mostly targeted attacks optimized to change ranks of target items, but not suitable for untargeted scenarios. In this paper, we develop a novel framework in which user-item training interactions are perturbed in unintentional and adversarial settings. First, through comprehensive experiments on four datasets, we show that four popular recommender models are unstable against even one random perturbation. Second, we establish a cascading effect in which minor manipulations of early training interactions can cause extensive changes to the model and the generated recommendations for all users. Leveraging this effect, we propose an adversarial perturbation method CASPER which identifies and perturbs an interaction that induces the maximal cascading effect. Experimentally, we demonstrate that CASPER reduces the stability of recommendation models the most, compared to several baselines and state-of-the-art methods. Finally, we show the runtime and success of CASPER scale near-linearly with the dataset size and the number of perturbations, respectively.
翻訳日:2022-02-01 20:00:00 公開日:2022-01-29
# 制約変数を用いた確率グラフニューラルネットワークの学習

Learning Stochastic Graph Neural Networks with Constrained Variance ( http://arxiv.org/abs/2201.12611v1 )

ライセンス: Link先を確認
Zhan Gao and Elvin Isufi(参考訳) 確率グラフニューラルネットワーク(SGNN)は、ランダムグラフ上のデータから表現を学習する情報処理アーキテクチャである。 SGNNは、期待性能に関してトレーニングされており、最適な期待値に関する特定の出力実現の偏差に関する保証はない。 そこで本研究では,SGNNに対する分散制約付き最適化問題を提案し,予測性能と確率偏差のバランスをとる。 sgnnパラメータを勾配降下で更新し,2変数を勾配上昇で更新することにより,交互に予備学習を行う。 分散制約学習の明示的な効果を特徴付けるため,SGNN出力の分散に関する理論的解析を行い,確率的頑健性と識別力とのトレードオフを同定する。 さらに,分散制約最適化問題の双対性ギャップと,初等二元学習手順の収束挙動を解析した。 前者は双対変換によって誘導される最適性損失を示し、後者は反復アルゴリズムの制限誤差を特徴付け、どちらも分散制約学習の性能を保証する。 数値シミュレーションにより,理論的な結果の相関と,制御可能な標準偏差による期待性能の観測を行った。

Stochastic graph neural networks (SGNNs) are information processing architectures that learn representations from data over random graphs. SGNNs are trained with respect to the expected performance, which comes with no guarantee about deviations of particular output realizations around the optimal expectation. To overcome this issue, we propose a variance-constrained optimization problem for SGNNs, balancing the expected performance and the stochastic deviation. An alternating primal-dual learning procedure is undertaken that solves the problem by updating the SGNN parameters with gradient descent and the dual variable with gradient ascent. To characterize the explicit effect of the variance-constrained learning, we conduct a theoretical analysis on the variance of the SGNN output and identify a trade-off between the stochastic robustness and the discrimination power. We further analyze the duality gap of the variance-constrained optimization problem and the converging behavior of the primal-dual learning procedure. The former indicates the optimality loss induced by the dual transformation and the latter characterizes the limiting error of the iterative algorithm, both of which guarantee the performance of the variance-constrained learning. Through numerical simulations, we corroborate our theoretical findings and observe a strong expected performance with a controllable standard deviation.
翻訳日:2022-02-01 18:27:10 公開日:2022-01-29
# デバイスフリーフィンガープリント屋内定位のためのマイズショット転送学習

Few-Shot Transfer Learning for Device-Free Fingerprinting Indoor Localization ( http://arxiv.org/abs/2201.12656v1 )

ライセンス: Link先を確認
Bing-Jia Chen, Ronald Y. Chang(参考訳) デバイスフリーのワイヤレス屋内ローカライゼーションはモノのインターネット(IoT)にとって不可欠な技術であり、指紋ベースの手法が広く使われている。 指紋ベースの方法に対する一般的な課題は、データ収集とラベリングである。 本稿では,現在の環境から少量のラベル付きデータしか使用せず,過去に他の環境に収集した大量のラベル付きデータを再利用し,新たな環境毎にデータ収集とラベル付けコストを大幅に削減する,数ショット転送学習システムを提案する。 コアとなる手法はグラフニューラルネットワーク(GNN)をベースとした数ショット転送学習とその修正である。 実環境における実験結果から,提案システムは,40倍のラベル付きデータを持つ畳み込みニューラルネットワーク(CNN)モデルに匹敵する性能を発揮することが示された。

Device-free wireless indoor localization is an essential technology for the Internet of Things (IoT), and fingerprint-based methods are widely used. A common challenge to fingerprint-based methods is data collection and labeling. This paper proposes a few-shot transfer learning system that uses only a small amount of labeled data from the current environment and reuses a large amount of existing labeled data previously collected in other environments, thereby significantly reducing the data collection and labeling cost for localization in each new environment. The core method lies in graph neural network (GNN) based few-shot transfer learning and its modifications. Experimental results conducted on real-world environments show that the proposed system achieves comparable performance to a convolutional neural network (CNN) model, with 40 times fewer labeled data.
翻訳日:2022-02-01 18:26:52 公開日:2022-01-29
# 分散SLIDE: モデル並列性とスパーシリティによる低帯域および単純なCPUクラスタ上での大規模ニューラルネットワークのトレーニングの実現

Distributed SLIDE: Enabling Training Large Neural Networks on Low Bandwidth and Simple CPU-Clusters via Model Parallelism and Sparsity ( http://arxiv.org/abs/2201.12667v1 )

ライセンス: Link先を確認
Minghao Yan, Nicholas Meisburger, Tharun Medini, Anshumali Shrivastava(参考訳) クラウドコンピューティングの70%以上が有料だが、アイドル状態にある。 これらのアイドル計算の大部分は、あまり忙しくない時間に利用されない少ないコアを持つ安価なCPUである。 本稿では、これらのCPUサイクルが重み付きAIモデルのトレーニングを可能にすることを目的とする。 私たちのゴールは、分散ニューラルネットワークトレーニングにおける通信ボトルネックに対処するために、高価な超高帯域幅相互接続を活用することに焦点を当てた主流フレームワークに対するものです。 本稿では,インターネット帯域の少ない小さなCPUクラスタ上で大規模ニューラルネットワークをトレーニングする分散モデル並列トレーニングフレームワークを提案する。 SLIDEアルゴリズムによって導入された適応スパーストレーニングフレームワークを構築した。 分散ノード上にスパーシリティを慎重に配置することにより、ほとんどの商用ソフトウェアの主要なエンジンであるHorovodよりも、桁違いに高速なモデル並列トレーニングを実現する。 通信量の減少により、低帯域接続により接続される単純な4-16コアcpuノード上で10億近いパラメータモデルをトレーニングできることを示した。 さらに、トレーニング時間は、最高のハードウェアアクセラレータのいくつかと同等です。

More than 70% of cloud computing is paid for but sits idle. A large fraction of these idle compute are cheap CPUs with few cores that are not utilized during the less busy hours. This paper aims to enable those CPU cycles to train heavyweight AI models. Our goal is against mainstream frameworks, which focus on leveraging expensive specialized ultra-high bandwidth interconnect to address the communication bottleneck in distributed neural network training. This paper presents a distributed model-parallel training framework that enables training large neural networks on small CPU clusters with low Internet bandwidth. We build upon the adaptive sparse training framework introduced by the SLIDE algorithm. By carefully deploying sparsity over distributed nodes, we demonstrate several orders of magnitude faster model parallel training than Horovod, the main engine behind most commercial software. We show that with reduced communication, due to sparsity, we can train close to a billion parameter model on simple 4-16 core CPU nodes connected by basic low bandwidth interconnect. Moreover, the training time is at par with some of the best hardware accelerators.
翻訳日:2022-02-01 18:26:36 公開日:2022-01-29
# 点雲からの電力線復元

Reconstruction of Power Lines from Point Clouds ( http://arxiv.org/abs/2201.12499v1 )

ライセンス: Link先を確認
Alexander Gribov and Khalid Duri(参考訳) 本稿では,複数のカテナリー曲線を表す一連の点に存在する各カテナリー曲線をモデル化したライン特徴構築法を提案する。 このソリューションはライダー点雲から電力線を抽出し、デジタル双対地理空間モデルの作成や植生の侵入の評価など、下流のアプリケーションで使用することができる。 本研究は,オランダ・ユトレヒト市を対象にしたlidarデータに基づいて,送電線近傍の植生成長を評価するために,提案手法により得られた結果を活用した例を示す。

This paper proposes a novel solution for constructing line features modeling each catenary curve present within a series of points representing multiple catenary curves. The solution can be applied to extract power lines from lidar point clouds, which can then be used in downstream applications like creating digital twin geospatial models and evaluating the encroachment of vegetation. This paper offers an example of how the results obtained by the proposed solution could be used to assess vegetation growth near transmission power lines based on freely available lidar data for the City of Utrecht, Netherlands [1].
翻訳日:2022-02-01 18:03:28 公開日:2022-01-29
# プライバシー保護型ニューラルネットワークの新しいマトリックスエンコーディング法(推論)

A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference) ( http://arxiv.org/abs/2201.12577v1 )

ライセンス: Link先を確認
John Chiang(参考訳) 本稿では,プライバシ保存型ニューラルネットワークの予測に特に便利である,新しいマトリックスエンコーディング手法である$\texttt{volley revolver}$を提案し,手書き画像分類のためのcnnの実装に使用する。 この符号化法に基づき,暗号化されたデータ行列上でセキュアな行列乗算を実現するための演算を複数開発する。 2つの行列 $a$ と $b$ が乗算 $a \times b$ を実行する場合、主なアイデアは、単純なバージョンでは行列 $a$ を暗号化し、行列 $b$ を 2 つの暗号文に変換することである。 追加演算に加えて、同型行列乗算$A \times B$は、暗号化されたデータ行列上で効率的に計算できる。 CNNにおける畳み込み操作では、$\texttt{Volley Revolver}$エンコーディング法に基づいて、畳み込み操作を行うための実用的で効率的な評価戦略を開発する。 我々はCNNの各畳み込みカーネルを予め入力画像と同じ大きさの行列空間に分割し、複数の暗号文を生成する。 畳み込み動作のこれらすべての部分結果を蓄積し、最終的な畳み込み結果を得る。

In this work, we present $\texttt{Volley Revolver}$, a novel matrix-encoding method that is particularly convenient for privacy-preserving neural networks to make predictions, and use it to implement a CNN for handwritten image classification. Based on this encoding method, we develop several additional operations for putting into practice the secure matrix multiplication over encrypted data matrices. For two matrices $A$ and $B$ to perform multiplication $A \times B$, the main idea is, in a simple version, to encrypt matrix $A$ and the transposition of the matrix $B$ into two ciphertexts respectively. Along with the additional operations, the homomorphic matrix multiplication $A \times B$ can be calculated over encrypted data matrices efficiently. For the convolution operation in CNN, on the basis of the $\texttt{Volley Revolver}$ encoding method, we develop a feasible and efficient evaluation strategy for performing the convolution operation. We in advance span each convolution kernel of CNN to a matrix space of the same size as the input image so as to generate several ciphertexts, each of which is later used together with the input image for calculating some part of the final convolution result. We accumulate all these part results of convolution operation and thus obtain the final convolution result.
翻訳日:2022-02-01 18:03:19 公開日:2022-01-29
# FedMed-ATL:アフィン変換損失による不整形脳画像合成

FedMed-ATL: Misaligned Unpaired Brain Image Synthesis via Affine Transform Loss ( http://arxiv.org/abs/2201.12589v1 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Yawen Huang, Yefeng Zheng, Feng Zheng, Yaochu Jin(参考訳) 完全に整列した対のマルチモーダル神経画像データの存在は、脳疾患の診断においてその効果が証明されている。 しかしながら、適切なアラインメントとペアのデータの収集は、コストの高騰、長時間の取得、画像の破損、プライバシーの問題などを含むため、現実的あるいは豪華なものではありません。 従来、不整合神経画像データ(MUD)は一般にノイズラベルとして扱われていた。 しかし、このようなノイズのあるラベルに基づく手法は、例えば異なる回転角の歪みなど、不一致なデータが発生するとうまく機能しない。 本稿では,脳画像合成のための新しいフェデレーション型自己教師学習(FedMed)を提案する。 アフィン変換損失(ATL)は、病院のプライバシー法に違反することなく、ひどく歪んだ画像を使用するように構成された。 次に, 自己監視訓練のための新たなデータ拡張手順を導入し, 補助回転, 補助翻訳, 補助スケーリングヘッドの3つの補助ヘッドに導入した。 提案手法は, 極めて不整合かつ不整合なデータ設定下での合成結果の品質向上と, 他のGANアルゴリズムよりも優れた安定性を示す。 提案手法は,不整合データや不整合データの利用を奨励しつつ,変形可能な登録要求を低減させる。 実験の結果,我々の学習パラダイムの優れた能力が,他の最先端のアプローチと比較して検証された。 私たちのコードは、Webサイト(https://github.com/ FedMed-Meta/FedMed-A TL)で利用可能です。

The existence of completely aligned and paired multi-modal neuroimaging data has proved its effectiveness in the diagnosis of brain diseases. However, collecting the full set of well-aligned and paired data is impractical or even luxurious, since the practical difficulties may include high cost, long time acquisition, image corruption, and privacy issues. Previously, the misaligned unpaired neuroimaging data (termed as MUD) are generally treated as noisy label. However, such a noisy label-based method could not work very well when misaligned data occurs distortions severely, for example, different angles of rotation. In this paper, we propose a novel federated self-supervised learning (FedMed) for brain image synthesis. An affine transform loss (ATL) was formulated to make use of severely distorted images without violating privacy legislation for the hospital. We then introduce a new data augmentation procedure for self-supervised training and fed it into three auxiliary heads, namely auxiliary rotation, auxiliary translation, and auxiliary scaling heads. The proposed method demonstrates advanced performance in both the quality of synthesized results under a severely misaligned and unpaired data setting, and better stability than other GAN-based algorithms. The proposed method also reduces the demand for deformable registration while encouraging to realize the usage of those misaligned and unpaired data. Experimental results verify the outstanding ability of our learning paradigm compared to other state-of-the-art approaches. Our code is available on the website: https://github.com/F edMed-Meta/FedMed-AT L
翻訳日:2022-02-01 18:02:56 公開日:2022-01-29
# アンダーサンプルMRIにおける自己監督画像再構成法の妥当性と一般化性

Validation and Generalizability of Self-Supervised Image Reconstruction Methods for Undersampled MRI ( http://arxiv.org/abs/2201.12535v1 )

ライセンス: Link先を確認
Thomas Yu, Tom Hilbert, Gian Franco Piredda, Arun Joseph, Gabriele Bonanno, Salim Zenkhri, Patrick Omoumi, Meritxell Bach Cuadra, Erick Jorge Canales-Rodr\'iguez, Tobias Kober, Jean-Philippe Thiran(参考訳) 目的: 自己教師付きmr画像再構成アルゴリズムの妥当性の検証, 予測的再構成の定量的評価, 展望的再構成と振り返り的再構成の潜在的な相違, 一般的な定量的指標の適合性, 一般化可能性について検討する。 理論と手法: 自己教師付きデノイジングとニューラルネットワーク画像優先に基づく2つの自己教師付きアルゴリズムについて検討した。 これらの手法は、in-vivoデータとphantomデータを用いて、最小の四角形フィッティングと圧縮センシング再構成と比較される。 その一般化性は、訓練と異なる実験条件から、予測不足のデータを用いてテストされた。 結果: 先進的な再建は, 振り返りや地底の真実に対して, 顕著な歪みを示す可能性がある。 ピクセル単位の定量的指標は知覚的基準とは対照的に知覚的品質の差を正確に捉えることができない。 すべての手法は一般化の可能性を示し、一般化可能性は他の変化よりも解剖学やコントラストの変化に影響される。 非参照画像メトリクスは、一般化可能性を研究するための人間の画像品質の評価とよく一致する。 Compressed SensingとLearning Denoisingは、すべてのデータで同じように機能する。 結論: 自己監督法は, 臨床経過における画像再構成の促進に有望な結果を示す。 いずれにせよ,将来的な臨床応用のための再建アルゴリズムの標準化手法の検証には,さらなる研究が必要である。

Purpose: To investigate aspects of the validation of self-supervised algorithms for reconstruction of undersampled MR images: quantitative evaluation of prospective reconstructions, potential differences between prospective and retrospective reconstructions, suitability of commonly used quantitative metrics, and generalizability. Theory and Methods: Two self-supervised algorithms based on self-supervised denoising and neural network image priors were investigated. These methods are compared to a least squares fitting and a compressed sensing reconstruction using in-vivo and phantom data. Their generalizability was tested with prospectively under-sampled data from experimental conditions different to the training. Results: Prospective reconstructions can exhibit significant distortion relative to retrospective reconstructions/grou nd truth. Pixel-wise quantitative metrics may not capture differences in perceptual quality accurately, in contrast to a perceptual metric. All methods showed potential for generalization; generalizability is more affected by changes in anatomy/contrast than other changes. No-reference image metrics correspond well with human rating of image quality for studying generalizability. Compressed Sensing and learned denoising perform similarly well on all data. Conclusion: Self-supervised methods show promising results for accelerating image reconstruction in clinical routines. Nonetheless, more work is required to investigate standardized methods to validate reconstruction algorithms for future clinical use.
翻訳日:2022-02-01 17:58:47 公開日:2022-01-29
# retroformer: 解釈可能なエンドツーエンドのレトロトランスフォーメーショントランスフォーマの限界を押し上げる

Retroformer: Pushing the Limits of Interpretable End-to-end Retrosynthesis Transformer ( http://arxiv.org/abs/2201.12475v1 )

ライセンス: Link先を確認
Yue Wan, Benben Liao, Chang-Yu Hsieh, Shengyu Zhang(参考訳) 再合成予測は有機合成の基本的な課題の1つである。 タスクは、コア製品に与えられた反応物質を予測することです。 機械学習の進歩により、コンピュータ支援合成計画への関心が高まっている。 この問題を解決するために様々な手法が提案され、追加の化学知識に依存する。 本稿では,分子編集のための化学計算ツールを使わずに,レトロシンセシス予測のためのトランスフォーマーベースの新しいアーキテクチャであるRetroformerを提案する。 提案する局所注意ヘッドにより, 分子配列とグラフを共同でエンコードし, 局所反応性領域と大域的反応コンテキスト間の情報交換を効率的に行うことができる。 retroformerは、エンドツーエンドのテンプレートフリーなレトロシンセシスの新しい最先端精度に達し、より優れた分子と反応の有効性に関する多くの強力なベースラインを改善している。 さらに、その生成過程は高度に解釈可能で制御可能である。 全体として、Retroformerは、深い生成モデルの反応推論能力の限界を押し上げる。

Retrosynthesis prediction is one of the fundamental challenges in organic synthesis. The task is to predict the reactants given a core product. With the advancement of machine learning, computer-aided synthesis planning has gained increasing interest. Numerous methods were proposed to solve this problem with different levels of dependency on additional chemical knowledge. In this paper, we propose Retroformer, a novel Transformer-based architecture for retrosynthesis prediction without relying on any cheminformatics tools for molecule editing. Via the proposed local attention head, the model can jointly encode the molecular sequence and graph, and efficiently exchange information between the local reactive region and the global reaction context. Retroformer reaches the new state-of-the-art accuracy for the end-to-end template-free retrosynthesis, and improves over many strong baselines on better molecule and reaction validity. In addition, its generative procedure is highly interpretable and controllable. Overall, Retroformer pushes the limits of the reaction reasoning ability of deep generative models.
翻訳日:2022-02-01 17:56:27 公開日:2022-01-29
# 記憶に制限のある一般グラフにおける協調学習:学習可能性、複雑度、信頼性

Collaborative Learning in General Graphs with Limited Memorization: Learnability, Complexity and Reliability ( http://arxiv.org/abs/2201.12482v1 )

ライセンス: Link先を確認
Feng Li, Xuyang Yuan, Lina Wang, Huan Yang, Dongxiao Yu, Weifeng Lv, Xiuzhen Cheng(参考訳) エージェントが任意に接続され,それぞれが限られた記憶と通信帯域を有する一般グラフにおいて,K武装バンディット問題を考える。 目標は、各エージェントに最高の腕を学ばせることです。 近年の研究では,学習の有効性向上におけるエージェント間の協調の力を示しているが,これらの研究では,コミュニケーショングラフは完全あるいは適切に構造化されるべきであり,そのような仮定は実際には必ずしも有効ではないと考えられる。 さらに、記憶力や通信帯域の制限は、エージェントが経験や仲間が共有した知識から得られる知識が極めて少ないため、エージェントの協調性にも制限される。 さらに、エージェントは偽造された経験を共有するために腐敗し、リソース制限は学習プロセスの信頼性をかなり制限する可能性がある。 上記の課題に対処するために,三段階協調学習アルゴリズムを提案する。 各ステップでは、エージェントは一般的なグラフの軽量なランダムウォークを通じて互いに経験を共有し、ランダムに記憶された提案に従ってどのアームを引っ張るかを決定する。 エージェントは最終的に、アームプルの報奨フィードバックに基づいて、採用率(すなわち腕への選好)を更新する。 理論分析により,記憶力とコミュニケーション資源の制限を生かして,最終的にすべてのエージェントが最高のアームを高い確率で学習することが示された。 また,理論解析では,アルゴリズムが許容できる腐敗したエージェントの数が上限となることも明らかにしている。 提案する3段階協調学習アルゴリズムの有効性は,合成データと実データの両方について広範な実験により検証された。

We consider K-armed bandit problem in general graphs where agents are arbitrarily connected and each of them has limited memorization and communication bandwidth. The goal is to let each of the agents learn the best arm. Although recent studies show the power of collaboration among the agents in improving the efficacy of learning, it is assumed in these studies that the communication graphs should be complete or well-structured, whereas such an assumption is not always valid in practice. Furthermore, limited memorization and communication bandwidth also restrict the collaborations of the agents, since very few knowledge can be drawn by each agent from its experiences or the ones shared by its peers in this case. Additionally, the agents may be corrupted to share falsified experience, while the resource limit may considerably restrict the reliability of the learning process. To address the above issues, we propose a three-staged collaborative learning algorithm. In each step, the agents share their experience with each other through light-weight random walks in the general graphs, and then make decisions on which arms to pull according to the randomly memorized suggestions. The agents finally update their adoptions (i.e., preferences to the arms) based on the reward feedback of the arm pulling. Our theoretical analysis shows that, by exploiting the limited memorization and communication resources, all the agents eventually learn the best arm with high probability. We also reveal in our theoretical analysis the upper-bound on the number of corrupted agents our algorithm can tolerate. The efficacy of our proposed three-staged collaborative learning algorithm is finally verified by extensive experiments on both synthetic and real datasets.
翻訳日:2022-02-01 17:56:11 公開日:2022-01-29
# 音声キーワードスポッティングのための逐次学習

Progressive Continual Learning for Spoken Keyword Spotting ( http://arxiv.org/abs/2201.12546v1 )

ライセンス: Link先を確認
Yizheng Huang, Nana Hou, Nancy F. Chen(参考訳) 破滅的な忘れは、デプロイ後にキーワードスポッティング(KWS)モデルを更新する際の厄介な課題である。 このような課題に対処するため,我々は,PCL-KWS (Small-footprint spoken keyword spotting) のための逐次学習戦略を提案する。 特に,提案するPCL-KWSフレームワークでは,以前に学習したキーワードを記憶するためのタスク固有のサブネットワークを生成するネットワークインスタンスが導入された。 その結果、PCL-KWSアプローチは、事前知識を忘れることなく、新たなキーワードを漸進的に学習する。 さらに,PCL-KWSのキーワード対応ネットワークスケーリング機構は,高い性能を保ちながらモデルパラメータの増大を抑制する。 実験の結果,提案したPCL-KWSアプローチは,5つの新しいタスクを逐次学習した後で,Google Speech Commandデータセット上のタスクの平均精度92.8%を,他のベースラインと比較してアーカイブした。

Catastrophic forgetting is a thorny challenge when updating keyword spotting (KWS) models after deployment. To tackle such challenges, we propose a progressive continual learning strategy for small-footprint spoken keyword spotting (PCL-KWS). Specifically, the proposed PCL-KWS framework introduces a network instantiator to generate the task-specific sub-networks for remembering previously learned keywords. As a result, the PCL-KWS approach incrementally learns new keywords without forgetting prior knowledge. Besides, the keyword-aware network scaling mechanism of PCL-KWS constrains the growth of model parameters while achieving high performance. Experimental results show that after learning five new tasks sequentially, our proposed PCL-KWS approach archives the new state-of-the-art performance of 92.8% average accuracy for all the tasks on Google Speech Command dataset compared with other baselines.
翻訳日:2022-02-01 17:27:45 公開日:2022-01-29
# クラウドベースのIoTアプリケーションのための非IIDデータによる高速かつ正確なフェデレーション学習を目指して

Towards Fast and Accurate Federated Learning with non-IID Data for Cloud-Based IoT Applications ( http://arxiv.org/abs/2201.12515v1 )

ライセンス: Link先を確認
Tian Liu, Jiahao Ding, Ting Wang, Miao Pan, Mingsong Chen(参考訳) ユーザのプライバシを確保しながら、分散デバイスデータの中央モデルをトレーニングする有望な方法として、Federated Learning(FL)は、IoT(Internet of Things)設計で人気を博している。 しかし、IoTデバイスによって収集されたデータが非独立かつ同一に分散された(非IID)方法で高度に歪められている場合、バニラFL法の精度は保証できない。 FLのボトルネックに非IIDデータで対処しようとする様々なソリューションが存在するが、その多くは余分な通信オーバーヘッドとモデル精度の低下に悩まされている。 高速かつ高精度なFLを実現するために,非IIDデータのトレーニングにおいて,重み分散のデメリットを効果的に低減できる新しいデータベースデバイスグループ化手法を提案する。 しかし,本手法はIoTデバイスから抽出した特徴マップの類似性に基づくため,プライバシ暴露のリスクが増大する可能性がある。 そこで本稿では,LSH(Locality-Sensit ive Hashing)アルゴリズムを用いて,抽出した特徴マップを抽出することなく類似性情報を利用する改良版を提案する。 良く知られたベンチマークによる総合的な実験結果から,本手法は収束率を加速するだけでなく,非IIDデータを用いたFLの予測精度を向上させることができる。

As a promising method of central model training on decentralized device data while securing user privacy, Federated Learning (FL)is becoming popular in Internet of Things (IoT) design. However, when the data collected by IoT devices are highly skewed in a non-independent and identically distributed (non-IID) manner, the accuracy of vanilla FL method cannot be guaranteed. Although there exist various solutions that try to address the bottleneck of FL with non-IID data, most of them suffer from extra intolerable communication overhead and low model accuracy. To enable fast and accurate FL, this paper proposes a novel data-based device grouping approach that can effectively reduce the disadvantages of weight divergence during the training of non-IID data. However, since our grouping method is based on the similarity of extracted feature maps from IoT devices, it may incur additional risks of privacy exposure. To solve this problem, we propose an improved version by exploiting similarity information using the Locality-Sensitive Hashing (LSH) algorithm without exposing extracted feature maps. Comprehensive experimental results on well-known benchmarks show that our approach can not only accelerate the convergence rate, but also improve the prediction accuracy for FL with non-IID data.
翻訳日:2022-02-01 17:14:40 公開日:2022-01-29
# LBCF:大規模予算制約型因果林アルゴリズム

LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm ( http://arxiv.org/abs/2201.12585v1 )

ライセンス: Link先を確認
Meng Ai, Biao Li, Heyang Gong, Qingwei Yu, Shengjie Xue, Yuan Zhang, Yunzhou Zhang, Peng Jiang(参考訳) インセンティブ(amazonでのクーポン、uberでの割引、tiktokでのビデオボーナスなど)をユーザーに提供することは、オンラインプラットフォームがユーザーのエンゲージメントとプラットフォーム収益を高めるために使う一般的な戦略である。 効果が証明されているにもかかわらず、これらのマーケティングインセンティブは避けられないコストをもたらし、適切に使用しなければROI(Return on Investment)が低下する可能性がある。 一方、異なるユーザーはこれらのインセンティブに異なる反応をする。例えば、一部のユーザーはクーポンなしで特定の製品を買わない。 したがって、予算制約の下で各ユーザに対して適切なインセンティブ(すなわち治療)を選択する方法は、非常に実用的な意味を持つ重要な研究課題である。 本稿では,このような問題を予算制約治療選択問題(bts)と呼ぶ。 課題は、大規模データセットのBTS問題を効率的に解決し、既存のテクニックよりも改善された結果を実現する方法だ。 本研究では, 予算制約下での新規な木ベース処理選択手法であるlbcfアルゴリズムを提案し, 現代の分散コンピューティングシステムに適した効率的な処理選択アルゴリズムである。 ランダム化制御試験(RCT)データにおけるBTS問題に対するソリューションの性能評価における本質的な課題を克服するために,新しいオフライン評価手法を提案する。 私たちは、このアプローチを大規模なビデオプラットフォームに現実のシナリオで展開し、プラットフォームはユーザのキャンペーン参加期間を増やすためにボーナスを配ります。 シミュレーション解析,オフラインおよびオンライン実験により,本手法は様々な木質ベースラインを上回る性能を示した。 提案されたアプローチは現在、プラットフォーム上で数億人以上のユーザを提供しており、この数ヶ月でもっとも大きな改善の1つを実現している。

Offering incentives (e.g., coupons at Amazon, discounts at Uber and video bonuses at Tiktok) to user is a common strategy used by online platforms to increase user engagement and platform revenue. Despite its proven effectiveness, these marketing incentives incur an inevitable cost and might result in a low ROI (Return on Investment) if not used properly. On the other hand, different users respond differently to these incentives, for instance, some users never buy certain products without coupons, while others do anyway. Thus, how to select the right amount of incentives (i.e. treatment) to each user under budget constraints is an important research problem with great practical implications. In this paper, we call such problem as a budget-constrained treatment selection (BTS) problem. The challenge is how to efficiently solve BTS problem on a Large-Scale dataset and achieve improved results over the existing techniques. We propose a novel tree-based treatment selection technique under budget constraints, called Large-Scale Budget-Constrained Causal Forest (LBCF) algorithm, which is also an efficient treatment selection algorithm suitable for modern distributed computing systems. A novel offline evaluation method is also proposed to overcome an intrinsic challenge in assessing solutions' performance for BTS problem in randomized control trials (RCT) data. We deploy our approach in a real-world scenario on a large-scale video platform, where the platform gives away bonuses in order to increase users' campaign engagement duration. The simulation analysis, offline and online experiments all show that our method outperforms various tree-based state-of-the-art baselines. The proposed approach is currently serving over hundreds of millions of users on the platform and achieves one of the most tremendous improvements over these months.
翻訳日:2022-02-01 17:14:16 公開日:2022-01-29
# SupWMA:深層学習による表面白質の一貫性と効率的なトラクトグラフィ解析

SupWMA: Consistent and Efficient Tractography Parcellation of Superficial White Matter with Deep Learning ( http://arxiv.org/abs/2201.12528v1 )

ライセンス: Link先を確認
Tengfei Xue, Fan Zhang, Chaoyi Zhang, Yuqian Chen, Yang Song, Nikos Makris, Yogesh Rathi, Weidong Cai, Lauren J. O'Donnell(参考訳) ホワイトマターパーセレーションは、定量化と可視化を可能にするために、トラクトグラフィーをクラスタまたは解剖学的に意味のあるトラクトに分類する。 ほとんどのパーセレーション法は深白物質(DWM)に焦点を当てているが、その複雑さのため表面白物質(SWM)に対処する手法は少ない。 そこで本研究では,全脳道造影から198個のswtクラスターの効率的かつ一貫したパーセル化を行う,深層的ホワイトマター分析(superficial white matter analysis,supwma)という深層学習フレームワークを提案する。 SWMパーセレーションタスクのために、ポイントクラウドベースのネットワークが修正され、教師付きコントラスト学習により、可視なストリームラインとアウトリーチの間のより差別的な表現が可能になる。 我々は,地上の真実ラベルを用いた大規模トラクトグラフィーデータセットと,年齢や健康状態の個人から独立に取得した3つの試験データセットを用いて評価を行った。 いくつかの最先端手法と比較して、SupWMAは高度に一貫性があり正確なSWM解析結果を得る。 さらに、SupWMAの計算速度は他の手法よりもはるかに高速である。

White matter parcellation classifies tractography streamlines into clusters or anatomically meaningful tracts to enable quantification and visualization. Most parcellation methods focus on the deep white matter (DWM), while fewer methods address the superficial white matter (SWM) due to its complexity. We propose a deep-learning-based framework, Superficial White Matter Analysis (SupWMA), that performs an efficient and consistent parcellation of 198 SWM clusters from whole-brain tractography. A point-cloud-based network is modified for our SWM parcellation task, and supervised contrastive learning enables more discriminative representations between plausible streamlines and outliers. We perform evaluation on a large tractography dataset with ground truth labels and on three independently acquired testing datasets from individuals across ages and health conditions. Compared to several state-of-the-art methods, SupWMA obtains a highly consistent and accurate SWM parcellation result. In addition, the computational speed of SupWMA is much faster than other methods.
翻訳日:2022-02-01 17:05:22 公開日:2022-01-29
# スケール・アービタリーインバータブル画像ダウンスケーリング

Scale-arbitrary Invertible Image Downscaling ( http://arxiv.org/abs/2201.12576v1 )

ライセンス: Link先を確認
Jinbo Xing, Wenbo Hu, Tien-Tsin Wong(参考訳) ダウンスケーリングは、インターネット上に高解像度(HR)画像を分散して様々な解像度のディスプレイに適合させるのに必須であり、アップスケーリングは、ユーザが分散イメージの詳細を見たい場合にも必要である。 最近の非可逆画像ダウンスケーリング法は, これら2つの問題を共同でモデル化し, 大幅な改善を実現している。 しかし、現実の応用において様々な解像度の表示を便利に適合させる要求を満たすことができない固定整数スケール因子のみを考える。 本稿では,様々な目標解像度に合わせるために,任意のスケールのHR画像をネイティブにダウンスケールするために,AIDN(Scale-Arbitrar y Invertible Image Downscaling Network)を提案する。 一方,AIDN は LR 画像のみからオリジナルの HR 画像を復元できるように,低分解能の低分解能 (LR) 画像をほとんど認識不能な形で埋め込むことができる。 任意のスケールファクタをサポートする鍵は,スケールファクタとイメージコンテンツの両方において,ダウンスケーリング/スケールアップカーネルとサンプリングロケーションを条件とする条件付き再サンプリングモジュール(crm)である。 我々のAIDNは任意の整数因子と非整数スケール因子を併用した逆ダウンスケーリングの最高性能を実証した。

Downscaling is indispensable when distributing high-resolution (HR) images over the Internet to fit the displays of various resolutions, while upscaling is also necessary when users want to see details of the distributed images. Recent invertible image downscaling methods jointly model these two problems and achieve significant improvements. However, they only consider fixed integer scale factors that cannot meet the requirement of conveniently fitting the displays of various resolutions in real-world applications. In this paper, we propose a scale-Arbitrary Invertible image Downscaling Network (AIDN), to natively downscale HR images with arbitrary scale factors for fitting various target resolutions. Meanwhile, the HR information is embedded in the downscaled low-resolution (LR) counterparts in a nearly imperceptible form such that our AIDN can also restore the original HR images solely from the LR images. The key to supporting arbitrary scale factors is our proposed Conditional Resampling Module (CRM) that conditions the downscaling/upscalin g kernels and sampling locations on both scale factors and image content. Extensive experimental results demonstrate that our AIDN achieves top performance for invertible downscaling with both arbitrary integer and non-integer scale factors.
翻訳日:2022-02-01 17:05:01 公開日:2022-01-29
# AutoDistil: 大きな言語モデルを蒸留するためのタスク非依存ニューラルネットワーク検索

AutoDistil: Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models ( http://arxiv.org/abs/2201.12507v1 )

ライセンス: Link先を確認
Dongkuan Xu, Subhabrata Mukherjee, Xiaodong Liu, Debadeepta Dey, Wenhui Wang, Xiang Zhang, Ahmed Hassan Awadallah, Jianfeng Gao(参考訳) 知識蒸留法 (KD) は、手作業で設計された学生アーキテクチャを用いて、より小さな学生に大規模なモデルを圧縮する。 これは、実行可能な学生を見つけるためにいくつかの試行が必要であり、さらに各学生や計算予算の変更のプロセスを繰り返す必要がある。 ニューラルアーキテクチャサーチ(NAS)を用いて,大規模モデルから様々なコストで圧縮された学生を自動的に抽出する。 現在の作業では、数百万のサブネットワークからなる単一のSuperLMをトレーニングし、結果として異なるサイズのサブネットワーク間で干渉する。 当社のフレームワークであるAutoDistilは、以下のステップで上記の課題に対処しています。 (a)変圧器探索空間をKコンパクトな部分空間に分割するために帰納バイアスとヒューリスティックスを組み込む(基本、小、小の典型的な学生サイズのK=3) b) 学生の減量分担を伴うタスク非依存目的(例えば、セルフアテンション蒸留)を用いて、サブスペースごとに1つのスーパーlmを訓練すること。 (c) 再学習を行わずに最適な学生を探すこと。 完全にタスクに依存しないトレーニングと検索により、ダウンストリームタスクの微調整に学生を再利用することができる。 最新のKD法とNAS法に対するGLUEベンチマークの実験では、AutoDistilは計算コストの最大2.7倍の削減とタスク性能の無視的な損失を伴い、先行圧縮技術を上回る性能を示す。

Knowledge distillation (KD) methods compress large models into smaller students with manually-designed student architectures given pre-specified computational cost. This requires several trials to find a viable student, and further repeating the process for each student or computational budget change. We use Neural Architecture Search (NAS) to automatically distill several compressed students with variable cost from a large model. Current works train a single SuperLM consisting of millions of subnetworks with weight-sharing, resulting in interference between subnetworks of different sizes. Our framework AutoDistil addresses above challenges with the following steps: (a) Incorporates inductive bias and heuristics to partition Transformer search space into K compact sub-spaces (K=3 for typical student sizes of base, small and tiny); (b) Trains one SuperLM for each sub-space using task-agnostic objective (e.g., self-attention distillation) with weight-sharing of students; (c) Lightweight search for the optimal student without re-training. Fully task-agnostic training and search allow students to be reused for fine-tuning on any downstream task. Experiments on GLUE benchmark against state-of-the-art KD and NAS methods demonstrate AutoDistil to outperform leading compression techniques with upto 2.7x reduction in computational cost and negligible loss in task performance.
翻訳日:2022-02-01 16:28:21 公開日:2022-01-29
# unsupervised domain-adaptive aspect-based sentiment analysis に対する単純な情報ベースアプローチ

A Simple Information-Based Approach to Unsupervised Domain-Adaptive Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2201.12549v1 )

ライセンス: Link先を確認
Xiang Chen, Xiaojun Wan(参考訳) アスペクトベースの感情分析(ABSA)は、文からアスペクトを抽出し、対応する感情を特定することを目的とした、きめ細かい感情分析タスクである。 Aspect term extract (ATE) はABSAにとって重要なステップである。 アスペクト項の高価なアノテーションのため、微調整のためのラベル付きターゲットドメインデータはしばしば欠落します。 この問題に対処するために,近年,共通知識を教師なしの方法で転送する手法が提案されているが,そのような手法にはモジュールが多すぎるため,多段階前処理が必要となる。 本稿では,クロスドメイン absa と ate の任意のモデルを強化する追加コンポーネントとして機能する,相互情報最大化に基づく単純かつ効果的な手法を提案する。 さらに,このアプローチをある程度分析する。 実験の結果,提案手法は平均10以上のドメイン対において,クロスドメインABSAの最先端手法を4.32%のマイクロF1で上回ることがわかった。 それとは別に、このメソッドは名前付きエンティティ認識(ner)のような他のシーケンスラベリングタスクにも拡張できる。

Aspect-based sentiment analysis (ABSA) is a fine-grained sentiment analysis task which aims to extract the aspects from sentences and identify their corresponding sentiments. Aspect term extraction (ATE) is the crucial step for ABSA. Due to the expensive annotation for aspect terms, we often lack labeled target domain data for fine-tuning. To address this problem, many approaches have been proposed recently to transfer common knowledge in an unsupervised way, but such methods have too many modules and require expensive multi-stage preprocessing. In this paper, we propose a simple but effective technique based on mutual information maximization, which can serve as an additional component to enhance any kind of model for cross-domain ABSA and ATE. Furthermore, we provide some analysis of this approach. Experiment results show that our proposed method outperforms the state-of-the-art methods for cross-domain ABSA by 4.32% Micro-F1 on average over 10 different domain pairs. Apart from that, our method can be extended to other sequence labeling tasks, such as named entity recognition (NER).
翻訳日:2022-02-01 16:27:54 公開日:2022-01-29
# プライバシ非依存クラスタによるフェデレーション学習顔認識の改善

Improving Federated Learning Face Recognition via Privacy-Agnostic Clusters ( http://arxiv.org/abs/2201.12467v1 )

ライセンス: Link先を確認
Qiang Meng, Feng Zhou, Hainan Ren, Tianshu Feng, Guochao Liu, Yuanqing Lin(参考訳) 顔認識におけるデータのプライバシに関する公衆の懸念は、フェデレートラーニング(FL)パラダイムによって大きく対処できる。 しかし、従来のFL手法では、クライアント間のクラスセンターのブロードキャストは、認識性能には欠かせないが、プライバシーの漏洩につながる。 プライバシ利用のパラドックスを解決するため、本研究は、クライアント間で補助的およびプライバシー非依存の情報を伝えることによって、フェデレーション学習の顔認識を大幅に改善するフレームワークであるprivacyfaceを提案する。 プライバシFaceは主に2つのコンポーネントで構成されている。 まず、ローカルクラスセンターからナトリウム化クラスタを蒸留するために、実用的な分散ローカルクラスタリング(DPLC)メカニズムが提案されている。 第二に、コンセンサス対応の認識損失は、その後、クライアント間のグローバルなコンセンサスを促進する。 提案したフレームワークは数学的にプライベートであることが証明されており、軽量なオーバーヘッドを導入し、顕著な性能向上をもたらす(IJB-BとIJB-CでそれぞれTAR@FAR=1e-4で+9.63\%、+10.26\%)。 大規模データセットに対する大規模な実験とアブレーション研究により,本手法の有効性と実用性が確認された。

The growing public concerns on data privacy in face recognition can be greatly addressed by the federated learning (FL) paradigm. However, conventional FL methods perform poorly due to the uniqueness of the task: broadcasting class centers among clients is crucial for recognition performances but leads to privacy leakage. To resolve the privacy-utility paradox, this work proposes PrivacyFace, a framework largely improves the federated learning face recognition via communicating auxiliary and privacy-agnostic information among clients. PrivacyFace mainly consists of two components: First, a practical Differentially Private Local Clustering (DPLC) mechanism is proposed to distill sanitized clusters from local class centers. Second, a consensus-aware recognition loss subsequently encourages global consensuses among clients, which ergo results in more discriminative features. The proposed framework is mathematically proved to be differentially private, introducing a lightweight overhead as well as yielding prominent performance boosts (\textit{e.g.}, +9.63\% and +10.26\% for TAR@FAR=1e-4 on IJB-B and IJB-C respectively). Extensive experiments and ablation studies on a large-scale dataset have demonstrated the efficacy and practicability of our method.
翻訳日:2022-02-01 16:22:55 公開日:2022-01-29
# 埋め込みテンソル多様体正規化による2次元3次元表情認識

2D+3D facial expression recognition via embedded tensor manifold regularization ( http://arxiv.org/abs/2201.12506v1 )

ライセンス: Link先を確認
Yunfang Fu, Qiuqi Ruan, Ziyan Luo, Gaoyun An, Yi Jin, Jun Wan(参考訳) 本稿では,2次元3次元表情認識(FERETMR)のための組込みテンソル多様体正規化による新しい手法を提案する。 まず、構造情報と相関を保つために、2次元顔画像と3次元顔形状モデルから3次元テンソルを構築する。 次元減少中の低次元テンソル空間における3次元テンソル試料の局所構造(幾何情報)を維持するため、生成したテンソル上の低ランク切断タッカー分解により、コアテンソルの$\ell_0$ノルムとコアテンソルに埋め込まれたテンソル多様体正則化スキームを採用する。 その結果、得られた因子行列は表情の分類予測に使用される。 結果として得られるテンソル最適化をより魅力的にするために、$\ell_1$-norm を緩和するために $\ell_0$-norm を用い、その結果のテンソル最適化問題は、直交タッカー分解による $\ell_1$-norm と直交タッカー分解による直交制約による非滑らかな目的関数を持つ。 このテンソル最適化問題を効率的に解くため、定常点の観点から一階最適条件を確立し、収束解析と計算複雑性を考慮したブロック座標降下(BCD)アルゴリズムを設計する。 BU-3DFEデータベースとBosphorusデータベースの数値計算結果から,提案手法の有効性が示された。

In this paper, a novel approach via embedded tensor manifold regularization for 2D+3D facial expression recognition (FERETMR) is proposed. Firstly, 3D tensors are constructed from 2D face images and 3D face shape models to keep the structural information and correlations. To maintain the local structure (geometric information) of 3D tensor samples in the low-dimensional tensors space during the dimensionality reduction, the $\ell_0$-norm of the core tensors and a tensor manifold regularization scheme embedded on core tensors are adopted via a low-rank truncated Tucker decomposition on the generated tensors. As a result, the obtained factor matrices will be used for facial expression classification prediction. To make the resulting tensor optimization more tractable, $\ell_1$-norm surrogate is employed to relax $\ell_0$-norm and hence the resulting tensor optimization problem has a nonsmooth objective function due to the $\ell_1$-norm and orthogonal constraints from the orthogonal Tucker decomposition. To efficiently tackle this tensor optimization problem, we establish the first-order optimality condition in terms of stationary points, and then design a block coordinate descent (BCD) algorithm with convergence analysis and the computational complexity. Numerical results on BU-3DFE database and Bosphorus databases demonstrate the effectiveness of our proposed approach.
翻訳日:2022-02-01 16:22:30 公開日:2022-01-29
# ApolloRL: 自動運転のための強化学習プラットフォーム

ApolloRL: a Reinforcement Learning Platform for Autonomous Driving ( http://arxiv.org/abs/2201.12609v1 )

ライセンス: Link先を確認
Fei Gao, Peng Geng, Jiaqi Guo, Yuan Liu, Dingfeng Guo, Yabo Su, Jie Zhou, Xiao Wei, Jin Li, Xu Liu(参考訳) 自動運転のための強化学習研究のためのオープンプラットフォームであるapollorlを紹介する。 このプラットフォームは、トレーニング、シミュレーション、評価コンポーネントを備えた完全なクローズドループパイプラインを提供する。 運転シナリオやPPO(Proximal Policy Optimization)やSAC(Soft Actor-Critic)エージェントなどの一般的なベースラインでは,300時間のリアルタイムデータが提供されている。 本論文では,プラットフォームで定義されたアーキテクチャと環境について詳述する。 また,ApolloRL環境におけるベースラインエージェントの性能についても検討した。

We introduce ApolloRL, an open platform for research in reinforcement learning for autonomous driving. The platform provides a complete closed-loop pipeline with training, simulation, and evaluation components. It comes with 300 hours of real-world data in driving scenarios and popular baselines such as Proximal Policy Optimization (PPO) and Soft Actor-Critic (SAC) agents. We elaborate in this paper on the architecture and the environment defined in the platform. In addition, we discuss the performance of the baseline agents in the ApolloRL environment.
翻訳日:2022-02-01 16:17:36 公開日:2022-01-29
# 翻訳は多言語言語モデリングに役立つか?

Does Transliteration Help Multilingual Language Modeling? ( http://arxiv.org/abs/2201.12501v1 )

ライセンス: Link先を確認
Ibraheem Muhammad Moosa, Mahmud Elahi Akhter, Ashfia Binte Habib(参考訳) 多くの言語に代表コーパスが不足しているため、MLLM(Multilingual Language Models)が既存のコーパスを最大限に抽出することが重要である。 この点において、スクリプトの多様性は、近縁言語間の語彙重なりを減らしてMLLMに挑戦する。 したがって、異なるスクリプトを共通スクリプトに翻訳することで、MLLMの下流タスク性能を向上させることができる。 本稿では,2つのALBERTモデルを事前学習し,MLLMに対する音読効果を実証的に測定する。 特に、世界で最もスクリプトの多様性が高いインド・アーリア語族に焦点を当てています。 その後、IndicGLUEベンチマークを用いてモデルの評価を行った。 翻訳の効果が有意かどうかを厳密に検証するためにmann-whitney uテストを行う。 翻訳は、比較的高いリソース言語に悪影響を及ぼすことなく、低リソース言語に恩恵をもたらすことが分かりました。 また、FLORES-101データセットから8つの言語の並列文に対して、中心的カーネルアライメント(CKA)を用いてモデルの言語間表現類似度(CLRS)を測定する。 翻訳ベースモデルの隠れ表現はCLRSスコアがより高く安定していることが判明した。 私たちのコードはGithub(github.com/ib raheem-moosa/XLM-Ind ic)とHugging Face Hub(huggingface.co/i braheemmoosa/xlmindi c-base-multiscript)で利用可能です。

As there is a scarcity of large representative corpora for most languages, it is important for Multilingual Language Models (MLLM) to extract the most out of existing corpora. In this regard, script diversity presents a challenge to MLLMs by reducing lexical overlap among closely related languages. Therefore, transliterating closely related languages that use different writing scripts to a common script may improve the downstream task performance of MLLMs. In this paper, we pretrain two ALBERT models to empirically measure the effect of transliteration on MLLMs. We specifically focus on the Indo-Aryan language family, which has the highest script diversity in the world. Afterward, we evaluate our models on the IndicGLUE benchmark. We perform Mann-Whitney U test to rigorously verify whether the effect of transliteration is significant or not. We find that transliteration benefits the low-resource languages without negatively affecting the comparatively high-resource languages. We also measure the cross-lingual representation similarity (CLRS) of the models using centered kernel alignment (CKA) on parallel sentences of eight languages from the FLORES-101 dataset. We find that the hidden representations of the transliteration-base d model have higher and more stable CLRS scores. Our code is available at Github (github.com/ibraheem -moosa/XLM-Indic) and Hugging Face Hub (huggingface.co/ibra heemmoosa/xlmindic-b ase-multiscript and huggingface.co/ibrah eemmoosa/xlmindic-ba se-uniscript).
翻訳日:2022-02-01 16:10:28 公開日:2022-01-29
# 粒度をカスタマイズした教師なし要約

Unsupervised Summarization with Customized Granularities ( http://arxiv.org/abs/2201.12502v1 )

ライセンス: Link先を確認
Ming Zhong, Yang Liu, Suyu Ge, Yuning Mao, Yizhu Jiao, Xingxing Zhang, Yichong Xu, Chenguang Zhu, Michael Zeng, Jiawei Han(参考訳) テキスト要約はパーソナライズされ、カスタマイズされたタスクである。例えば、1つのドキュメントでは、ユーザーはサマリに対して異なる好みを持つことが多い。 要約におけるカスタマイズの重要な側面として、要約とソースドキュメント間のセマンティックカバレッジを測定するために粒度が用いられる。 粗粒の要約は原文で最も中心的な出来事のみを含むことができ、細粒の要約はより多くのサブイベントとそれに対応する詳細をカバーする。 しかし、以前の研究では、主に単一粒度シナリオでシステムを開発する。 そして、カスタマイズ可能なセマンティクスカバレッジでサマリーを生成するモデルはまだ未検討のトピックである。 本稿では,最初の教師なしマルチグラニュラリティ要約フレームワークであるGranuSumを提案する。 我々は、イベントをソース文書の基本的意味単位として捉え、これらのイベントをそれらのサリエンスによってランク付けすることを提案する。 また,入力文書に与えられたイベントをアンカーとヒントとして要約するモデルを開発した。 異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。 一方,マルチグラニュラリティ要約モデルを評価するために,文書クラスタ毎に異なる粒度の複数の要約を記述する新しいベンチマークgranuducをアノテートする。 複数のベースライン系上での多粒度要約におけるGranuSumの実質的な優越性を検証する実験結果が得られた。 さらに,従来の教師なし抽象要約タスクを実験することにより,イベント情報を活用することで,新たな最先端結果が得られ,強力なベースラインを上回ることを見出した。

Text summarization is a personalized and customized task, i.e., for one document, users often have different preferences for the summary. As a key aspect of customization in summarization, granularity is used to measure the semantic coverage between summary and source document. Coarse-grained summaries can only contain the most central event in the original text, while fine-grained summaries cover more sub-events and corresponding details. However, previous studies mostly develop systems in the single-granularity scenario. And models that can generate summaries with customizable semantic coverage still remain an under-explored topic. In this paper, we propose the first unsupervised multi-granularity summarization framework, GranuSum. We take events as the basic semantic units of the source documents and propose to rank these events by their salience. We also develop a model to summarize input documents with given events as anchors and hints. By inputting different numbers of events, GranuSum is capable of producing multi-granular summaries in an unsupervised manner. Meanwhile, to evaluate multi-granularity summarization models, we annotate a new benchmark GranuDUC, in which we write multiple summaries of different granularities for each document cluster. Experimental results confirm the substantial superiority of GranuSum on multi-granularity summarization over several baseline systems. Furthermore, by experimenting on conventional unsupervised abstractive summarization tasks, we find that GranuSum, by exploiting the event information, can also achieve new state-of-the-art results under this scenario, outperforming strong baselines.
翻訳日:2022-02-01 16:10:05 公開日:2022-01-29
# 高速微分可能行列平方根及び逆平方根

Fast Differentiable Matrix Square Root and Inverse Square Root ( http://arxiv.org/abs/2201.12543v1 )

ライセンス: Link先を確認
Yue Song, Nicu Sebe, Wei Wang(参考訳) 行列平方根とその逆を微分可能な方法で計算することは、様々なコンピュータビジョンタスクにおいて重要である。 以前の手法では、行列を明示的に分解するために特異値分解(svd)を採用するか、近似解を導出するためにニュートン・シュルツ反復(nsイテレーション)を用いる。 しかし、どちらの手法も前方通過または後方通過において十分に計算効率が良くない。 本稿では,微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。 前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad\'e Approximants (MPA) を使用する方法がある。 行列符号関数を用いて連続時間リアプノフ方程式を反復的に解いて逆勾配を求める。 一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。 さらに,非相関バッチ正規化,第2次視覚トランスフォーマ,大規模および細粒度認識のためのグローバル共分散プール,ビデオ認識のための注意共分散プール,ニューラルスタイル転送など,実世界のいくつかのアプリケーションにおいて,本手法の有効性を検証する。 実験結果から,本手法は競争力も向上し,性能も若干向上した。 Pytorchの実装は、 \href{https://github.com/K ingJamesSong/FastDif ferentiableMatSqrt}{https://github.com/K ingJamesSong/FastDif ferentiableMatSqrt}で利用可能である。

Computing the matrix square root and its inverse in a differentiable manner is important in a variety of computer vision tasks. Previous methods either adopt the Singular Value Decomposition (SVD) to explicitly factorize the matrix or use the Newton-Schulz iteration (NS iteration) to derive the approximate solution. However, both methods are not computationally efficient enough in either the forward pass or the backward pass. In this paper, we propose two more efficient variants to compute the differentiable matrix square root and the inverse square root. For the forward propagation, one method is to use Matrix Taylor Polynomial (MTP), and the other method is to use Matrix Pad\'e Approximants (MPA). The backward gradient is computed by iteratively solving the continuous-time Lyapunov equation using the matrix sign function. A series of numerical tests show that both methods yield considerable speed-up compared with the SVD or the NS iteration. Moreover, we validate the effectiveness of our methods in several real-world applications, including de-correlated batch normalization, second-order vision transformer, global covariance pooling for large-scale and fine-grained recognition, attentive covariance pooling for video recognition, and neural style transfer. The experimental results demonstrate that our methods can also achieve competitive and even slightly better performances. The Pytorch implementation is available at \href{https://github.com/K ingJamesSong/FastDif ferentiableMatSqrt}{https://github.com/K ingJamesSong/FastDif ferentiableMatSqrt}.
翻訳日:2022-02-01 15:44:36 公開日:2022-01-29
# 経験的クラスインクリメンタル学習のためのタスクベースバッチ正規化

Task-Balanced Batch Normalization for Exemplar-based Class-Incremental Learning ( http://arxiv.org/abs/2201.12559v1 )

ライセンス: Link先を確認
Sungmin Cha, Soonwon Hong, Moontae Lee, and Taesup Moon(参考訳) バッチ正規化(BN)は、様々なコンピュータビジョンタスクでニューラルネットワークモデルをトレーニングするための必須レイヤである。 これは、ほとんど議論することなく、継続的な学習シナリオで広く使われてきたが、bnは慎重に適用されるべきであり、特に、メモリベースクラスインクリメンタル学習(cil)の例である。 まず,BN層における正規化における経験的平均と分散が,現在の課題に対して高い偏りを呈することを示した。 トレーニングとテストフェーズにおいて重要な問題に対処するために,タスクベースバッチ正規化(TBBN)を提案する。 各ミニバッチが現在のタスクと前のタスクの間で不均衡になっていることを前提として、TBBNはまず、タスクバランスに近い平均と分散を計算し、バッチを繰り返す。 次に, BN のアフィン変換パラメータが, 形状変化した特徴写像から学習されると, 現在の課題に対してバイアスが小さくなることを示す。 cifar-100とimagenet-100データセットを用いた広範なcil実験に基づいて、当社のtbbnが既存のexemplarベースのcilアルゴリズムの多くに容易に適用可能であることを実証し、これまでのタスクの忘れ込みを低減し、パフォーマンスを改善した。

Batch Normalization (BN) is an essential layer for training neural network models in various computer vision tasks. It has been widely used in continual learning scenarios with little discussion, but we find that BN should be carefully applied, particularly for the exemplar memory based class incremental learning (CIL). We first analyze that the empirical mean and variance obtained for normalization in a BN layer become highly biased toward the current task. To tackle its significant problems in training and test phases, we propose Task-Balanced Batch Normalization (TBBN). Given each mini-batch imbalanced between the current and previous tasks, TBBN first reshapes and repeats the batch, calculating near task-balanced mean and variance. Second, we show that when the affine transformation parameters of BN are learned from a reshaped feature map, they become less-biased toward the current task. Based on our extensive CIL experiments with CIFAR-100 and ImageNet-100 datasets, we demonstrate that our TBBN is easily applicable to most of existing exemplar-based CIL algorithms, improving their performance by decreasing the forgetting on the previous tasks.
翻訳日:2022-02-01 15:44:04 公開日:2022-01-29
# グラフニューラルネットワークと多スケールウェーブレットスーパーピクセルを用いた画像分類

Image Classification using Graph Neural Network and Multiscale Wavelet Superpixels ( http://arxiv.org/abs/2201.12633v1 )

ライセンス: Link先を確認
Varun Vasudevan and Maxime Bassenne and Md Tauhidul Islam and Lei Xing(参考訳) 画像分類にグラフニューラルネットワーク(GNN)を用いた以前の研究は、通常のピクセル格子や類似サイズのスーパーピクセルから生成されるグラフに焦点を当てていた。 後者では、画像と本質的なマルチスケール構造の違いにかかわらず、データセット全体に対して1つのスーパーピクセルのターゲット数を定義する。 そこで本研究では,画像固有数のスーパーピクセルから生成したグラフを用いて画像分類を行う。 画像中のスーパーピクセルの数とサイズをその内容に基づいて体系的に計算する新しいウェーブレットベースの超画素アルゴリズムwavemeshを提案する。 WaveMeshスーパーピクセルグラフは、同様のサイズのスーパーピクセルグラフと構造的に異なる。 我々は、画像グラフ分類のための最先端ネットワークであるSplineCNNを使用して、WaveMeshと同様のサイズのスーパーピクセルを比較する。 SplineCNNを使用して、3つのローカルプール設定下で3つのベンチマークデータセットに対して広範な実験を行う。 1)プールなし。 2)gracluspool,および 3)WavePoolはWaveMeshのスーパーピクセルに合わせた空間的に不均一なプール方式である。 実験の結果,SplineCNNはマルチスケールのWaveMeshスーパーピクセルと類似サイズのスーパーピクセルから学習できることがわかった。 すべてのwavemesh実験において、gracluspoolはプールやウェーブプールよりも貧弱であり、プール選択の貧弱さは、マルチスケールのスーパーピクセルから学習しながら性能を低下させる可能性があることを示している。

Prior studies using graph neural networks (GNNs) for image classification have focused on graphs generated from a regular grid of pixels or similar-sized superpixels. In the latter, a single target number of superpixels is defined for an entire dataset irrespective of differences across images and their intrinsic multiscale structure. On the contrary, this study investigates image classification using graphs generated from an image-specific number of multiscale superpixels. We propose WaveMesh, a new wavelet-based superpixeling algorithm, where the number and sizes of superpixels in an image are systematically computed based on its content. WaveMesh superpixel graphs are structurally different from similar-sized superpixel graphs. We use SplineCNN, a state-of-the-art network for image graph classification, to compare WaveMesh and similar-sized superpixels. Using SplineCNN, we perform extensive experiments on three benchmark datasets under three local-pooling settings: 1) no pooling, 2) GraclusPool, and 3) WavePool, a novel spatially heterogeneous pooling scheme tailored to WaveMesh superpixels. Our experiments demonstrate that SplineCNN learns from multiscale WaveMesh superpixels on-par with similar-sized superpixels. In all WaveMesh experiments, GraclusPool performs poorer than no pooling / WavePool, indicating that poor choice of pooling can result in inferior performance while learning from multiscale superpixels.
翻訳日:2022-02-01 15:43:40 公開日:2022-01-29
# セマンティックセグメンテーションのための自己半教師型ニューラルネットワーク探索

Self Semi Supervised Neural Architecture Search for Semantic Segmentation ( http://arxiv.org/abs/2201.12646v1 )

ライセンス: Link先を確認
Lo\"ic Pauletto and Massih-Reza Amini and Nicolas Winckler(参考訳) 本稿では,セマンティックセグメンテーションタスクのための自己管理と半教師付き学習に基づくニューラルアーキテクチャ探索戦略を提案する。 提案手法は,未ラベル学習データ上で自己教師付き学習によって発見されたジグソー述語タスクを共同で解き,未ラベルデータの構造を半教師付き学習で活用することにより,このタスクに最適化されたニューラルネットワーク(NN)モデルを構築する。 NNモデルのアーキテクチャの探索は勾配降下アルゴリズムを用いて動的ルーティングによって行われる。 CityscapesとPASCAL VOC 2012データセットの実験では、発見されたニューラルネットワークは、浮動小数点演算の4倍少ない最先端の手作りNNモデルよりも効率的であることが示されている。

In this paper, we propose a Neural Architecture Search strategy based on self supervision and semi-supervised learning for the task of semantic segmentation. Our approach builds an optimized neural network (NN) model for this task by jointly solving a jigsaw pretext task discovered with self-supervised learning over unlabeled training data, and, exploiting the structure of the unlabeled data with semi-supervised learning. The search of the architecture of the NN model is performed by dynamic routing using a gradient descent algorithm. Experiments on the Cityscapes and PASCAL VOC 2012 datasets demonstrate that the discovered neural network is more efficient than a state-of-the-art hand-crafted NN model with four times less floating operations.
翻訳日:2022-02-01 15:43:19 公開日:2022-01-29
# ネットワーク補間のための確率的バンドル法

A Stochastic Bundle Method for Interpolating Networks ( http://arxiv.org/abs/2201.12678v1 )

ライセンス: Link先を確認
Alasdair Paren, Leonard Berrada, Rudra P. K. Poudel, M. Pawan Kumar(参考訳) 本稿では,経験的損失をゼロにする補間が可能な深層ニューラルネットワークの学習法を提案する。 各イテレーションにおいて,本手法は学習目標の確率近似を構成する。 近似は束( bundle)と呼ばれ、線型関数のポイントワイズ最大値である。 私たちのバンドルは、経験的損失を下げる定数関数を含む。 これにより、自動適応学習率の計算が可能となり、正確な解が得られる。 さらに、本バンドルは、現在の繰り返しで計算された線形近似と、他のDNNパラメータの線形推定を含む。 これらの追加近似を用いることで、我々の手法はハイパーパラメータに対して著しく堅牢になる。 その望ましい経験的特性に基づいて、ロバストかつ正確なトレーニング(borat)のためのメソッドバンドル最適化(method bundle optimization)を呼ぶ。 BORATを運用するために,各イテレーションで効率よくバンドル近似を最適化する新しいアルゴリズムを設計する。 ボラトの理論的収束を凸と非凸の両方の設定で確立する。 標準の公開データセットを用いて、BORATと他の単一パラメータ最適化アルゴリズムを徹底的に比較する。 我々の実験は、BORATがこれらの手法の最先端の一般化性能と一致し、最も堅牢であることを示した。

We propose a novel method for training deep neural networks that are capable of interpolation, that is, driving the empirical loss to zero. At each iteration, our method constructs a stochastic approximation of the learning objective. The approximation, known as a bundle, is a pointwise maximum of linear functions. Our bundle contains a constant function that lower bounds the empirical loss. This enables us to compute an automatic adaptive learning rate, thereby providing an accurate solution. In addition, our bundle includes linear approximations computed at the current iterate and other linear estimates of the DNN parameters. The use of these additional approximations makes our method significantly more robust to its hyperparameters. Based on its desirable empirical properties, we term our method Bundle Optimisation for Robust and Accurate Training (BORAT). In order to operationalise BORAT, we design a novel algorithm for optimising the bundle approximation efficiently at each iteration. We establish the theoretical convergence of BORAT in both convex and non-convex settings. Using standard publicly available data sets, we provide a thorough comparison of BORAT to other single hyperparameter optimisation algorithms. Our experiments demonstrate BORAT matches the state-of-the-art generalisation performance for these methods and is the most robust.
翻訳日:2022-02-01 15:43:05 公開日:2022-01-29
# mvp:マルチレベルセマンティクスアライメントによる多段階視覚言語事前学習

MVP: Multi-Stage Vision-Language Pre-Training via Multi-Level Semantic Alignment ( http://arxiv.org/abs/2201.12596v1 )

ライセンス: Link先を確認
Zejun Li, Zhihao Fan, Huaixiao Tou, Zhongyu Wei(参考訳) 本稿では,多段階のセマンティックアライメントを用いた多段階視覚言語事前学習(MVP)フレームワークを提案する。 言語と視覚のための2段階の意味表現を構築するために,両モードの概念を導入する。 マルチレベル入力に基づいて,クロスモダリティモデルを2段階,すなわちユニモダリティ学習とクロスモダリティ学習で学習する。 前者はモダリティ内相互作用を強制し、各モダリティの多レベルセマンティクスを学ぶ。 後者の段階は、粗粒と細粒のセマンティクスアライメントのタスクを通じて、モダリティ間のインタラクションを強制する。 画像テキストマッチングとマスキング言語モデリングは、事前学習モデルのさらなる最適化に使用される。 我々のモデルは、いくつかのビジョンと言語タスクに関する最先端の結果を生成する。

In this paper, we propose a Multi-stage Vision-language Pre-training (MVP) framework to learn cross-modality representation via multi-level semantic alignment. We introduce concepts in both modalities to construct two-level semantic representations for language and vision. Based on the multi-level input, we train the cross-modality model in two stages, namely, uni-modal learning and cross-modal learning. The former stage enforces within-modality interactions to learn multi-level semantics for each single modality. The latter stage enforces interactions across modalities via both coarse-grain and fine-grain semantic alignment tasks. Image-text matching and masked language modeling are then used to further optimize the pre-training model. Our model generates the-state-of-the-art results on several vision and language tasks.
翻訳日:2022-02-01 15:40:15 公開日:2022-01-29
# Flashlight: 機械学習ツールのイノベーションを促進する

Flashlight: Enabling Innovation in Tools for Machine Learning ( http://arxiv.org/abs/2201.12465v1 )

ライセンス: Link先を確認
Jacob Kahn, Vineel Pratap, Tatiana Likhomanenko, Qiantong Xu, Awni Hannun, Jeff Cai, Paden Tomasello, Ann Lee, Edouard Grave, Gilad Avidov, Benoit Steiner, Vitaliy Liptchinsky, Gabriel Synnaeve, Ronan Collobert(参考訳) 機械学習システムの計算要求と機械学習フレームワークのサイズと複雑さが増加するにつれ、本質的なフレームワークの革新は困難になりつつある。 計算の必要性が近年のコンパイラ、ネットワーク、ハードウェアの進歩を後押ししているが、機械学習ツールによるこれらの進歩の利用はペースが遅い。 これは、新しい計算パラダイムを既存のフレームワークでプロトタイピングする際の困難が原因である。 大きなフレームワークは、マシンラーニングの研究者と実践者をエンドユーザとして優先順位付けし、フレームワークを前進させることができるシステム研究者に比較的注意を払っています。 オープンでモジュール化されたカスタマイズ可能な内部と最先端のリサーチ可能なモデルと、さまざまなドメインにわたるトレーニングセットアップを優先することで、マシンラーニングツールやシステムのイノベーションを促進するために開発された、オープンソースのライブラリであるflashlightを紹介します。 Flashlightを使えば、システム研究者は機械学習計算における新しいアイデアのプロトタイプと実験を迅速に行うことができ、オーバヘッドが低く、他の一般的な機械学習フレームワークと競合し、しばしば優れている。 Flashlightは、広く使われているライブラリを下流で活用し、機械学習とシステム研究者をより近づけるためのツールだと考えています。

As the computational requirements for machine learning systems and the size and complexity of machine learning frameworks increases, essential framework innovation has become challenging. While computational needs have driven recent compiler, networking, and hardware advancements, utilization of those advancements by machine learning tools is occurring at a slower pace. This is in part due to the difficulties involved in prototyping new computational paradigms with existing frameworks. Large frameworks prioritize machine learning researchers and practitioners as end users and pay comparatively little attention to systems researchers who can push frameworks forward -- we argue that both are equally important stakeholders. We introduce Flashlight, an open-source library built to spur innovation in machine learning tools and systems by prioritizing open, modular, customizable internals and state-of-the-art, research-ready models and training setups across a variety of domains. Flashlight allows systems researchers to rapidly prototype and experiment with novel ideas in machine learning computation and has low overhead, competing with and often outperforming other popular machine learning frameworks. We see Flashlight as a tool enabling research that can benefit widely used libraries downstream and bring machine learning and systems researchers closer together.
翻訳日:2022-02-01 15:37:12 公開日:2022-01-29
# ゼロ階アクター臨界

Zeroth-Order Actor-Critic ( http://arxiv.org/abs/2201.12518v1 )

ライセンス: Link先を確認
Yuheng Lei, Jianyu Chen, Shengbo Eben Li, Sifa Zheng(参考訳) 0階次最適化法と政策勾配に基づく一階次法は相補的優位性を持つ強化学習(RL)問題を解くための有望な方法である。 任意の政策による以前の研究は、状態に依存して時間的に拡張された探索を推進し、堅牢性を求める性質を持っているが、サンプルの複雑さに悩まされている。 両手法の利点を維持するために,ZOAC(Zeroth-Order Actor-Critic Algorithm)を提案する。 ZOACは、パラメータ空間における時間的摂動、一階ポリシー評価(PEV)、ゼロ階ポリシー改善(PIM)を各イテレーションで交互に実施する。 提案手法は,ZOACが0次・1次ベースラインアルゴリズムより優れる,多種多様なポリシーを用いて,多種多様な連続制御ベンチマークを用いて評価する。

Zeroth-order optimization methods and policy gradient based first-order methods are two promising alternatives to solve reinforcement learning (RL) problems with complementary advantages. The former work with arbitrary policies, drive state-dependent and temporally-extended exploration, possess robustness-seeking property, but suffer from high sample complexity, while the latter are more sample efficient but restricted to differentiable policies and the learned policies are less robust. We propose Zeroth-Order Actor-Critic algorithm (ZOAC) that unifies these two methods into an on-policy actor-critic architecture to preserve the advantages from both. ZOAC conducts rollouts collection with timestep-wise perturbation in parameter space, first-order policy evaluation (PEV) and zeroth-order policy improvement (PIM) alternately in each iteration. We evaluate our proposed method on a range of challenging continuous control benchmarks using different types of policies, where ZOAC outperforms zeroth-order and first-order baseline algorithms.
翻訳日:2022-02-01 15:36:51 公開日:2022-01-29
# deeprng: ソフトウェアの深層強化学習支援生成テストに向けて

DeepRNG: Towards Deep Reinforcement Learning-Assisted Generative Testing of Software ( http://arxiv.org/abs/2201.12602v1 )

ライセンス: Link先を確認
Chuan-Yung Tsai, Graham W. Taylor(参考訳) 機械学習(ML)はさまざまなソフトウェアエンジニアリングニーズの自動化に成功しているが、ソフトウェアテストは依然として非常に難しいトピックである。 本稿では,テスト対象のソフトウェアを効率よく自動抽出可能な状態表現を用いて,RLエージェントを用いて乱数生成器(RNG)を直接増強することにより,ソフトウェアの生成テストを改善することを目的とする。 cosmos sdk をテストベッドとして使用することにより,提案する deeprng フレームワークが,35万行以上のコードを持つ高度に複雑なソフトウェアライブラリのテストに対して,統計的に有意な改善をもたらすことを示す。 DeepRNGフレームワークのソースコードはオンラインで公開されている。

Although machine learning (ML) has been successful in automating various software engineering needs, software testing still remains a highly challenging topic. In this paper, we aim to improve the generative testing of software by directly augmenting the random number generator (RNG) with a deep reinforcement learning (RL) agent using an efficient, automatically extractable state representation of the software under test. Using the Cosmos SDK as the testbed, we show that the proposed DeepRNG framework provides a statistically significant improvement to the testing of the highly complex software library with over 350,000 lines of code. The source code of the DeepRNG framework is publicly available online.
翻訳日:2022-02-01 15:36:31 公開日:2022-01-29
# 2つのスーダンアラビア感覚データセットに適用した新しいポーリング層を有する深層CNNアーキテクチャ

A Deep CNN Architecture with Novel Pooling Layer Applied to Two Sudanese Arabic Sentiment Datasets ( http://arxiv.org/abs/2201.12664v1 )

ライセンス: Link先を確認
Mustafa Mhamed, Richard Sutcliffe, Xia Sun, Jun Feng, Eiad Almekhlafi, Ephrem A. Retta(参考訳) アラビア語の感情分析は近年重要な研究分野となっている。 当初は最も広く使われている現代標準アラビア語(msa)に焦点を当てていた。 それ以来、エジプト語、レバンティン語、モロッコ語などいくつかの方言で研究が行われている。 さらに、そのような作業をサポートするために、多くのデータセットが作成されています。 しかし、これまでは2200万人の話者を持つ方言であるスーダンのアラビア語に関する作業は少なくなっていた。 本稿では,2-class Sudanese Sentiment Dataset (SudSenti2) と3-class Sudanese Sentiment Dataset (SudSenti3) という2つの新しいデータセットを紹介する。 さらに,5つのCNN層と新しいプール層であるMMAからなるCNNアーキテクチャ,SCMを提案する。 このSCM+MMAモデルは、92.75%と84.39%の精度でSudSenti2とSudSenti3に適用される。 次に、モデルは他のディープラーニング分類器と比較され、これらの新しいデータセットよりも優れていることを示す。 最後に、提案されたモデルは、既存のサウジセンティメントデータセットとMSAホテルアラビアレビューデータセットに85.55%、90.01%の精度で適用される。

Arabic sentiment analysis has become an important research field in recent years. Initially, work focused on Modern Standard Arabic (MSA), which is the most widely-used form. Since then, work has been carried out on several different dialects, including Egyptian, Levantine and Moroccan. Moreover, a number of datasets have been created to support such work. However, up until now, less work has been carried out on Sudanese Arabic, a dialect which has 32 million speakers. In this paper, two new publicly available datasets are introduced, the 2-Class Sudanese Sentiment Dataset (SudSenti2) and the 3-Class Sudanese Sentiment Dataset (SudSenti3). Furthermore, a CNN architecture, SCM, is proposed, comprising five CNN layers together with a novel pooling layer, MMA, to extract the best features. This SCM+MMA model is applied to SudSenti2 and SudSenti3 with accuracies of 92.75% and 84.39%. Next, the model is compared to other deep learning classifiers and shown to be superior on these new datasets. Finally, the proposed model is applied to the existing Saudi Sentiment Dataset and to the MSA Hotel Arabic Review Dataset with accuracies 85.55% and 90.01%.
翻訳日:2022-02-01 15:19:50 公開日:2022-01-29
# BellmanのHawkeys: 時間的ポイントプロセスによるモデルベース強化学習

Bellman Meets Hawkes: Model-Based Reinforcement Learning via Temporal Point Processes ( http://arxiv.org/abs/2201.12569v1 )

ライセンス: Link先を確認
Chao Qu, Xiaoyu Tan, Siqiao Xue, Xiaoming Shi, James Zhang, Hongyuan Mei(参考訳) エージェントが確率的離散事象を特徴とする環境に直面する逐次意思決定問題を検討し,その長期的な報酬を最大化する最適な介入政策を求める。 この問題はソーシャルメディア、ファイナンス、健康情報学において普遍的に存在しているが、従来の強化学習の研究で研究されることは稀である。 そこで本研究では,エージェントの動作と観察が連続的に発生する非同期確率的離散事象であるモデルに基づく強化学習の枠組みを提案する。 我々は,外部介入制御項を用いてホークス過程によって環境のダイナミクスをモデル化し,その過程をベルマン方程式に組み込むアルゴリズムを開発し,値勾配の方向を導く。 合成シミュレータと実世界のどちらにおいても,本手法の優位性を示す。

We consider a sequential decision making problem where the agent faces the environment characterized by the stochastic discrete events and seeks an optimal intervention policy such that its long-term reward is maximized. This problem exists ubiquitously in social media, finance and health informatics but is rarely investigated by the conventional research in reinforcement learning. To this end, we present a novel framework of the model-based reinforcement learning where the agent's actions and observations are asynchronous stochastic discrete events occurring in continuous-time. We model the dynamics of the environment by Hawkes process with external intervention control term and develop an algorithm to embed such process in the Bellman equation which guides the direction of the value gradient. We demonstrate the superiority of our method in both synthetic simulator and real-world problem.
翻訳日:2022-02-01 15:18:38 公開日:2022-01-29
# クエリ合成による回帰問題に対するハイパーパラメータフリー深層能動学習

Hyperparameter-free deep active learning for regression problems via query synthesis ( http://arxiv.org/abs/2201.12632v1 )

ライセンス: Link先を確認
Simiao Ren, Yang Deng, Willie J. Padilla and Jordan Malof(参考訳) 過去10年間、深層能動学習(DAL)は分類問題や、自然言語や画像のような「無効」なデータ多様体を持つ問題に重点を置いてきた。 その結果、既存のDAL法は、比較的非構造的な入力空間での回帰を含む様々な重要な問題(科学計算問題など)には適用できない。 本研究では,回帰問題に対する最初のDALクエリ合成手法を提案する。 クエリ合成を逆問題として,最近提案されているneural-adjoint(na)ソルバを用いて,qbc(query-by-commit tee)基準を最適化した連続入力領域の点を効率的に見つける。 重要なことに、NA-QBCアプローチは古典的なQBCアクティブラーニングアプローチの1つの敏感なハイパーパラメータを排除し、NA-QBCを効果的にハイパーパラメータにする"プールサイズ"を実現する。 これはDAL法が不正なハイパーパラメータを選択する場合、ランダムサンプリングと比較しても有害である可能性があるためである。 我々は2つの現代科学計算問題を含む4つの回帰問題に対してランダム,QBC,NA-QBCサンプリング戦略を評価する。 NA-QBCは各ベンチマーク問題に対するランダムサンプリングよりも平均性能が優れており,間違ったハイパーパラメータを選択するとQBCは有害となる。

In the past decade, deep active learning (DAL) has heavily focused upon classification problems, or problems that have some 'valid' data manifolds, such as natural languages or images. As a result, existing DAL methods are not applicable to a wide variety of important problems -- such as many scientific computing problems -- that involve regression on relatively unstructured input spaces. In this work we propose the first DAL query-synthesis approach for regression problems. We frame query synthesis as an inverse problem and use the recently-proposed neural-adjoint (NA) solver to efficiently find points in the continuous input domain that optimize the query-by-committee (QBC) criterion. Crucially, the resulting NA-QBC approach removes the one sensitive hyperparameter of the classical QBC active learning approach - the "pool size"- making NA-QBC effectively hyperparameter free. This is significant because DAL methods can be detrimental, even compared to random sampling, if the wrong hyperparameters are chosen. We evaluate Random, QBC and NA-QBC sampling strategies on four regression problems, including two contemporary scientific computing problems. We find that NA-QBC achieves better average performance than random sampling on every benchmark problem, while QBC can be detrimental if the wrong hyperparameters are chosen.
翻訳日:2022-02-01 15:17:08 公開日:2022-01-29
# ポリエチレンテレフタレート(PET)の水分解におけるテレフタリン酸(TPA)の収量予測

Prediction of terephthalic acid (TPA) yield in aqueous hydrolysis of polyethylene terephthalate (PET) ( http://arxiv.org/abs/2201.12657v1 )

ライセンス: Link先を確認
Hossein Abedsoltan, Zeinab Zoghi, Amir H. Mohammadi(参考訳) PETモノマーである高品質テレフタル酸(TPA)の生産により、ポリエチレンテレフタル酸(PET)を化学的にリサイクルするために、加水分解を用いる。 PET加水分解は、PETサイズ、触媒濃度、反応温度など様々な反応条件に依存する。 したがって、有効因子を考慮してPET加水分解をモデル化することで、材料科学者がこれらの反応を設計し実行する方法を特定するのに有用な情報を得ることができる。 加水分解条件を最適化することで、時間、エネルギー、材料を節約できる。 機械学習アルゴリズムは、結果を予測するモデルを設計することができる。 PETの加水分解をモデル化するために, 初めて381個の実験データを収集した。 PET加水分解反応における有効反応条件はTPA収率に関係していた。 反応条件のランク付けにロジスティック回帰を適用した。 ニューラルネットワーク多層パーセプトロン(ANN-MLP)と適応型ネットワークベースファジィ推論システム(ANFIS)の2つのアルゴリズムが提案された。 データセットは、それぞれモデルをトレーニングおよびテストするためのトレーニングセットとテストセットに分割された。 tpaを予測したモデルは、anfisモデルを上回っても十分に得られる。 R-squared (R2) と Root Mean Square Error (RMSE) の損失関数を用いてモデルの効率を測定し,その性能を評価する。

Aqueous hydrolysis is used to chemically recycle polyethylene terephthalate (PET) due to the production of high-quality terephthalic acid (TPA), the PET monomer. PET hydrolysis depends on various reaction conditions including PET size, catalyst concentration, reaction temperature, etc. So, modeling PET hydrolysis by considering the effective factors can provide useful information for material scientists to specify how to design and run these reactions. It will save time, energy, and materials by optimizing the hydrolysis conditions. Machine learning algorithms enable to design models to predict output results. For the first time, 381 experimental data were gathered to model the aqueous hydrolysis of PET. Effective reaction conditions on PET hydrolysis were connected to TPA yield. The logistic regression was applied to rank the reaction conditions. Two algorithms were proposed, artificial neural network multilayer perceptron (ANN-MLP) and adaptive network-based fuzzy inference system (ANFIS). The dataset was divided into training and testing sets to train and test the models, respectively. The models predicted TPA yield sufficiently where the ANFIS model outperformed. R-squared (R2) and Root Mean Square Error (RMSE) loss functions were employed to measure the efficiency of the models and evaluate their performance.
翻訳日:2022-02-01 15:16:45 公開日:2022-01-29
# 非線形力学系のスパース同定のための優先的記述法:比較研究

A Priori Denoising Strategies for Sparse Identification of Nonlinear Dynamical Systems: A Comparative Study ( http://arxiv.org/abs/2201.12683v1 )

ライセンス: Link先を確認
Alexandre Cortiella, Kwang-Chun Park, Alireza Doostan(参考訳) 近年,データからの非線形力学系の同定が盛んに行われている。 非線形ダイナミクスのスパース同定(英語版)(SINDy)のようなスパース回帰アプローチは、状態変数が先行変数であると仮定し、支配方程式が状態変数の(非線形)基底においてスパース線形展開に自給する新しい支配方程式同定アルゴリズムの開発を促進させた。 非線形力学系の制御方程式の同定の文脈では、状態測定がノイズによって損なわれるとき、モデルパラメータの識別可能性の問題に直面する。 測定ノイズは, 不正確な空間パターンを生じる回復過程の安定性と, 支配方程式の係数の不正確な推定に影響を及ぼす。 本研究では,複数の局所的および大域的平滑化手法の性能を,前述した状態測定値と比較し,状態時間導出法を数値的に推定し,制御方程式を回復するための疎回帰法であるsequencely thresholded least squares (stls) とweighted basis pursuit denoising (wbpdn) の2つのアルゴリズムの精度と頑健性を改善する。 実験により, 測定データセット全体を用いたグローバル手法が, 局所点周辺に隣接したデータサブセットを用いるローカル手法よりも優れていることを示す。 さらに、最適化されたクロスバリデーション(GCV)とパレート曲線の基準をモデル選択手法として比較し、最適チューニングパラメータの近くを自動推定し、パレート曲線がより良い結果をもたらすと結論付ける。 離散化戦略とスパース回帰法の性能は、非線形力学系のよく知られたベンチマーク問題を通じて実証的に評価される。

In recent years, identification of nonlinear dynamical systems from data has become increasingly popular. Sparse regression approaches, such as Sparse Identification of Nonlinear Dynamics (SINDy), fostered the development of novel governing equation identification algorithms assuming the state variables are known a priori and the governing equations lend themselves to sparse, linear expansions in a (nonlinear) basis of the state variables. In the context of the identification of governing equations of nonlinear dynamical systems, one faces the problem of identifiability of model parameters when state measurements are corrupted by noise. Measurement noise affects the stability of the recovery process yielding incorrect sparsity patterns and inaccurate estimation of coefficients of the governing equations. In this work, we investigate and compare the performance of several local and global smoothing techniques to a priori denoise the state measurements and numerically estimate the state time-derivatives to improve the accuracy and robustness of two sparse regression methods to recover governing equations: Sequentially Thresholded Least Squares (STLS) and Weighted Basis Pursuit Denoising (WBPDN) algorithms. We empirically show that, in general, global methods, which use the entire measurement data set, outperform local methods, which employ a neighboring data subset around a local point. We additionally compare Generalized Cross Validation (GCV) and Pareto curve criteria as model selection techniques to automatically estimate near optimal tuning parameters, and conclude that Pareto curves yield better results. The performance of the denoising strategies and sparse regression methods is empirically evaluated through well-known benchmark problems of nonlinear dynamical systems.
翻訳日:2022-02-01 15:13:27 公開日:2022-01-29
# 破壊デモから学ぶロバストな模倣

Robust Imitation Learning from Corrupted Demonstrations ( http://arxiv.org/abs/2201.12594v1 )

ライセンス: Link先を確認
Liu Liu, Ziyang Tang, Lanqing Li, Dijun Luo(参考訳) 一定の数のデータがノイズあるいは任意の外れ値となるような、破損したデモからオフラインのImitation Learningを考える。 行動クローンのような古典的なアプローチでは、デモはおそらく最適な専門家によって収集されるため、腐敗したデモから学ぶと劇的に失敗する可能性がある。 本稿では,一定数のオフレーラが存在する場合でも,ポリシーの正確な推定を保証できるMOM(Median-of-Means) 目標を最小化する,新しいロバストアルゴリズムを提案する。 我々の理論解析により, 破損した環境下でのロバストな手法は, 従来の行動クローンとほとんど同じ誤差のスケーリングと, サンプルの複雑さの保証を, 専門家の実証設定で楽しむことを示した。 連続制御ベンチマーク実験により,提案手法が予測されたロバスト性および有効性を示し,既存の模倣学習手法と比較して競合的な結果が得られることを確認した。

We consider offline Imitation Learning from corrupted demonstrations where a constant fraction of data can be noise or even arbitrary outliers. Classical approaches such as Behavior Cloning assumes that demonstrations are collected by an presumably optimal expert, hence may fail drastically when learning from corrupted demonstrations. We propose a novel robust algorithm by minimizing a Median-of-Means (MOM) objective which guarantees the accurate estimation of policy, even in the presence of constant fraction of outliers. Our theoretical analysis shows that our robust method in the corrupted setting enjoys nearly the same error scaling and sample complexity guarantees as the classical Behavior Cloning in the expert demonstration setting. Our experiments on continuous-control benchmarks validate that our method exhibits the predicted robustness and effectiveness, and achieves competitive results compared to existing imitation learning methods.
翻訳日:2022-02-01 14:42:23 公開日:2022-01-29
# 回転物体検出のためのKFIoU損失

The KFIoU Loss for Rotated Object Detection ( http://arxiv.org/abs/2201.12558v1 )

ライセンス: Link先を確認
Xue Yang, Yue Zhou, Gefan Zhang, Jitui Yang, Wentao Wang, Junchi Yan, Xiaopeng Zhang, Qi Tian(参考訳) コンピュータフレンドリーなIoUベースの損失が容易に採用され,検出基準に適合する,高度に発達した水平物体検出領域から逸脱する。 対照的に、回転検出器は勾配に基づく訓練に不都合なSkewIoUに基づくより複雑な損失を伴うことが多い。 本稿では,厳密な価値水準の同一性ではなく,スキューiouの損失とトレンドレベルの整合を実現できる近似的損失を考案する有効な方法の1つを論じる。 具体的には、対象をガウス分布としてモデル化し、カルマンフィルタを用いてSkewIoUのメカニズムを本質的に模倣し、トレンドレベルでSkewIoUとの整合を示す。 これは、最近のガウスモデルに基づく回転検出器、例えば、超パラメータチューニングを必要とする人間の特定分布距離メトリックを含むkldとは対照的である。 KFIoUと呼ばれる新たな損失は実装が簡単で、重複しないケースをフルに識別できるため、正確なSkewIoUよりもうまく動作する。 さらに,この手法を2次元検出と同じ問題に直面する3次元ケースにも拡張した。 2-d/3-d,air aerial/text/face image) とベース検出器の異なる各種公開データセットの詳細な結果は,本手法の有効性を示している。

Differing from the well-developed horizontal object detection area whereby the computing-friendly IoU based loss is readily adopted and well fits with the detection metrics. In contrast, rotation detectors often involve a more complicated loss based on SkewIoU which is unfriendly to gradient-based training. In this paper, we argue that one effective alternative is to devise an approximate loss who can achieve trend-level alignment with SkewIoU loss instead of the strict value-level identity. Specifically, we model the objects as Gaussian distribution and adopt Kalman filter to inherently mimic the mechanism of SkewIoU by its definition, and show its alignment with the SkewIoU at trend-level. This is in contrast to recent Gaussian modeling based rotation detectors e.g. GWD, KLD that involves a human-specified distribution distance metric which requires additional hyperparameter tuning. The resulting new loss called KFIoU is easier to implement and works better compared with exact SkewIoU, thanks to its full differentiability and ability to handle the non-overlapping cases. We further extend our technique to the 3-D case which also suffers from the same issues as 2-D detection. Extensive results on various public datasets (2-D/3-D, aerial/text/face images) with different base detectors show the effectiveness of our approach.
翻訳日:2022-02-01 14:40:15 公開日:2022-01-29
# 学習の速さ, 学習の遅さ: 相補的学習システムに基づく一般連続学習法

Learning Fast, Learning Slow: A General Continual Learning Method based on Complementary Learning System ( http://arxiv.org/abs/2201.12604v1 )

ライセンス: Link先を確認
Elahe Arani, Fahad Sarfraz, Bahram Zonooz(参考訳) 人間は絶え間なく変化する環境から継続的に学習するのに優れていますが、破滅的な忘れ物を示すディープニューラルネットワークでは依然として課題です。 補完学習システム(CLS)理論は、素早いインスタンスベース学習と脳内の遅い構造化学習との相互作用が知識の蓄積と保持に重要であることを示唆している。 本稿では, エピソードメモリと相互作用する短期的, 長期的セマンティックメモリを維持する新しいデュアルメモリエクスペリエンス・リプレイ(ER)法であるCRS-ERを提案する。 提案手法は,決定境界と意味記憶を整合させながら,新たな知識を取得する効果的なリプレイ機構を用いる。 CLS-ERは、タスク境界を利用していないか、データの分散についていかなる仮定もしないので、汎用的で「一般的な連続学習」に適している。 本手法は,標準ベンチマークによる最先端性能と,より現実的な汎用学習環境を実現する。

Humans excel at continually learning from an ever-changing environment whereas it remains a challenge for deep neural networks which exhibit catastrophic forgetting. The complementary learning system (CLS) theory suggests that the interplay between rapid instance-based learning and slow structured learning in the brain is crucial for accumulating and retaining knowledge. Here, we propose CLS-ER, a novel dual memory experience replay (ER) method which maintains short-term and long-term semantic memories that interact with the episodic memory. Our method employs an effective replay mechanism whereby new knowledge is acquired while aligning the decision boundaries with the semantic memories. CLS-ER does not utilize the task boundaries or make any assumption about the distribution of the data which makes it versatile and suited for "general continual learning". Our approach achieves state-of-the-art performance on standard benchmarks as well as more realistic general continual learning settings.
翻訳日:2022-02-01 14:39:54 公開日:2022-01-29
# AntBO: Combinatorによるベイズ最適化による実世界自動抗体設計を目指して

AntBO: Towards Real-World Automated Antibody Design with Combinatorial Bayesian Optimisation ( http://arxiv.org/abs/2201.12570v1 )

ライセンス: Link先を確認
Asif Khan, Alexander I. Cowen-Rivers, Derrick-Goh-Xin Deik, Antoine Grosnit, Kamil Dreczkowski, Philippe A. Robert, Victor Greiff, Rasul Tutunov, Dany Bou-Ammar, Jun Wang and Haitham Bou-Ammar(参考訳) 抗体は、非常に特異的な分子認識が可能なy型多量体タンパク質である。 抗体の可変鎖の先端に位置するCDRH3領域は抗原結合特異性を支配する。 したがって、有害病原体に対する治療抗体を開発するために、最適な抗原特異的CDRH3領域を設計することが優先される。 しかし、CDRH3シークエンス空間の組合せの性質は、最適結合配列の探索を、特に実験的ではなく、徹底的かつ効率的に行うことは不可能である。 本稿では,CDRH3領域のシリコ設計を効率的に行うための,Y Combinatorial Bayesian OptimisationフレームワークAntBOを提案する。 理想的には、抗体は標的抗原に結合し、有害な結果から解放されるべきである。 そこで本研究では,CDRH3トラスト領域を導入し,実現可能な開発可能性スコアを持つシーケンスへの探索を制限した。 AntBOをベンチマークするために、私たちはAbsolut!ソフトウェアスイートをブラックボックスのオラクルとして使用しています。 188抗原にまたがる結果は、様々な生物学的性質を持つCDRH3領域を設計する際のAntBOの利点を示している。 200未満のタンパク質設計において、アントボは690万個の実験的に得られたcdrh3と一般的な遺伝的アルゴリズムベースラインから得られた最良の結合配列よりも優れた抗体配列を提案できる。 さらに、AntBOはドメインの知識を必要とせず、38のタンパク質で非常に高い親和性CDRH3配列を見出した。 結論としてantboは、in vitro実験で実際に実行可能なものに、自動抗体設計手法を近づける。

Antibodies are canonically Y-shaped multimeric proteins capable of highly specific molecular recognition. The CDRH3 region located at the tip of variable chains of an antibody dominates antigen-binding specificity. Therefore, it is a priority to design optimal antigen-specific CDRH3 regions to develop therapeutic antibodies to combat harmful pathogens. However, the combinatorial nature of CDRH3 sequence space makes it impossible to search for an optimal binding sequence exhaustively and efficiently, especially not experimentally. Here, we present AntBO: a Combinatorial Bayesian Optimisation framework enabling efficient in silico design of the CDRH3 region. Ideally, antibodies should bind to their target antigen and be free from any harmful outcomes. Therefore, we introduce the CDRH3 trust region that restricts the search to sequences with feasible developability scores. To benchmark AntBO, we use the Absolut! software suite as a black-box oracle because it can score the target specificity and affinity of designed antibodies in silico in an unconstrained fashion. The results across 188 antigens demonstrate the benefit of AntBO in designing CDRH3 regions with diverse biophysical properties. In under 200 protein designs, AntBO can suggest antibody sequences that outperform the best binding sequence drawn from 6.9 million experimentally obtained CDRH3s and a commonly used genetic algorithm baseline. Additionally, AntBO finds very-high affinity CDRH3 sequences in only 38 protein designs whilst requiring no domain knowledge. We conclude AntBO brings automated antibody design methods closer to what is practically viable for in vitro experimentation.
翻訳日:2022-02-01 14:37:15 公開日:2022-01-29
# 不均一グラフネットワークによるコモンセンス知識の物語終末生成

Incorporating Commonsense Knowledge into Story Ending Generation via Heterogeneous Graph Networks ( http://arxiv.org/abs/2201.12538v1 )

ライセンス: Link先を確認
Jiaan Wang, Beiqi Zou, Zhixu Li, Jianfeng Qu, Pengpeng Zhao, An Liu and Lei Zhao(参考訳) ストーリーエンディング生成は、ストーリーコンテキストが与えられた一貫性と合理的なエンディングを生成することを目的として、興味深く挑戦的なタスクである。 このタスクの主な課題は、ストーリーのコンテキストを十分に理解し、ストーリーの手がかりの背後にある暗黙の知識を効果的に扱う方法にある。 本稿では,異なる粒度レベルでのストーリーコンテキストの情報と,それら間の多義的な相互関係を明示的にモデル化するストーリー異種グラフネットワーク(SHGN)を提案する。 具体的には,コモンセンス知識,単語,文を3種類のノードとして扱う。 非ローカル情報を集約するために、グローバルノードも導入される。 この異種グラフネットワークを考えると、ノード表現はグラフ伝搬を通じて更新され、コモンセンスの知識を十分に活用してストーリー理解を促進する。 さらに、感情傾向を暗黙的に捉えるための2つの補助的なタスクを設計し、重要なイベントをコンテキストに配置する。 補助タスクは、マルチタスク学習戦略において、ストーリーエンド生成タスクと共同で最適化される。 ROCStories Corpusの大規模な実験により、開発モデルが新しい最先端のパフォーマンスを実現することが示された。 人間の研究は、我々のモデルがより合理的な物語の結末を生成することを示す。

Story ending generation is an interesting and challenging task, which aims to generate a coherent and reasonable ending given a story context. The key challenges of the task lie in how to comprehend the story context sufficiently and handle the implicit knowledge behind story clues effectively, which are still under-explored by previous work. In this paper, we propose a Story Heterogeneous Graph Network (SHGN) to explicitly model both the information of story context at different granularity levels and the multi-grained interactive relations among them. In detail, we consider commonsense knowledge, words and sentences as three types of nodes. To aggregate non-local information, a global node is also introduced. Given this heterogeneous graph network, the node representations are updated through graph propagation, which adequately utilizes commonsense knowledge to facilitate story comprehension. Moreover, we design two auxiliary tasks to implicitly capture the sentiment trend and key events lie in the context. The auxiliary tasks are jointly optimized with the primary story ending generation task in a multi-task learning strategy. Extensive experiments on the ROCStories Corpus show that the developed model achieves new state-of-the-art performances. Human study further demonstrates that our model generates more reasonable story endings.
翻訳日:2022-02-01 14:36:28 公開日:2022-01-29
# imagenetアタックを超えて:ブラックボックスドメインの敵の例を作る

Beyond ImageNet Attack: Towards Crafting Adversarial Examples for Black-box Domains ( http://arxiv.org/abs/2201.11528v2 )

ライセンス: Link先を確認
Qilong Zhang, Xiaodan Li, Yuefeng Chen, Jingkuan Song, Lianli Gao, Yuan He and Hui Xue(参考訳) 敵対的な例は、転送可能な性質のため、ディープニューラルネットワークに深刻な脅威をもたらしている。 現在,様々な研究が,対象モデルと同じ領域で代替モデルが訓練されていることを前提として,クロスモデル転送可能性の向上に多大な努力を払っている。 しかし、実際には、デプロイされたモデルの関連する情報が漏洩する可能性は低い。 したがって、この制限を克服し、デプロイされたモデルの脆弱性を評価するために、より実用的なブラックボックス脅威モデルを構築することが不可欠である。 本稿では,ImageNetドメインの知識のみで,ブラックボックスドメインへの転送可能性(未知の分類タスク)を調べるために,Beyond ImageNet Attack (BIA)を提案する。 具体的には、生成モデルを利用して、入力画像の低レベル特徴をディスラプトする敵関数を学習する。 このフレームワークに基づき、データとモデルの観点からそれぞれソースドメインとターゲットドメインのギャップを狭める2つのバリエーションを提案する。 粗粒度および細粒度領域に関する広範な実験により,提案手法の有効性が示された。 特筆すべきは、我々の手法は、最先端のアプローチを平均で7.71\%(粗粒度ドメインへ)、25.91\%(細粒度ドメインへ)で上回っていることです。 私たちのコードは \url{https://github.com/q ilong-zhang/Beyond-I mageNet-Attack} で利用可能です。

Adversarial examples have posed a severe threat to deep neural networks due to their transferable nature. Currently, various works have paid great efforts to enhance the cross-model transferability, which mostly assume the substitute model is trained in the same domain as the target model. However, in reality, the relevant information of the deployed model is unlikely to leak. Hence, it is vital to build a more practical black-box threat model to overcome this limitation and evaluate the vulnerability of deployed models. In this paper, with only the knowledge of the ImageNet domain, we propose a Beyond ImageNet Attack (BIA) to investigate the transferability towards black-box domains (unknown classification tasks). Specifically, we leverage a generative model to learn the adversarial function for disrupting low-level features of input images. Based on this framework, we further propose two variants to narrow the gap between the source and target domains from the data and model perspectives, respectively. Extensive experiments on coarse-grained and fine-grained domains demonstrate the effectiveness of our proposed methods. Notably, our methods outperform state-of-the-art approaches by up to 7.71\% (towards coarse-grained domains) and 25.91\% (towards fine-grained domains) on average. Our code is available at \url{https://github.com/q ilong-zhang/Beyond-I mageNet-Attack}.
翻訳日:2022-02-01 12:39:22 公開日:2022-01-29