このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220224となっている論文です。

PDF登録状況(公開日: 20220224)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 分散アルゴリズム推定における問題困難度測定のためのウォルシュ係数に基づく新しいメトリクス [全文訳有]

Novel Metric based on Walsh Coefficients for measuring problem difficulty in Estimation of Distribution Algorithms ( http://arxiv.org/abs/2203.13195v1 )

ライセンス: CC0 1.0
Saeed Ghadiri, Amin Nikanjam(参考訳) 分布アルゴリズムの推定は、従来の遺伝演算子の代わりに集団から抽出された情報を用いて新しい解を生成する進化的アルゴリズムである。 この情報は確率モデルとして表現され、これらのアルゴリズムの有効性はこれらのモデルの品質に依存する。 しかし、いくつかの研究では、多変量EDAでさえいくつかの問題において適切なモデルを構築することができないことが示されている。 通常、これらの問題では、変数の間に固有の対独立性がある。 文献では,edasでは容易に解決できない問題の難易度や性質について調査する研究は少ない。 本稿では,EDAにおけるモデル構築機構の特性を検証し,問題の難易度を測定するための新しい指標を提案する。 この目的のために、依存変数と独立変数のウォルシュ係数を推定する。 提案手法は、EDAにおけるよく知られたベンチマーク問題の難しさを評価するために用いられる。 FDC(Fitness Distance correlation)のような異なる測定基準を用いて、提案した測定基準がEDAの難易度をどの程度よく比較するかを比較する。 その結果,提案手法は異なる問題におけるEDAの性能を正確に予測できることが示唆された。

Estimation of distribution algorithms are evolutionary algorithms that use extracted information from the population instead of traditional genetic operators to generate new solutions. This information is represented as a probabilistic model and the effectiveness of these algorithms is dependent on the quality of these models. However, some studies have shown that even multivariate EDAs fail to build a proper model in some problems. Usually, in these problems, there is intrinsic pairwise independence between variables. In the literature, there are few studies that investigate the difficulty and the nature of problems that can not be solved by EDAs easily. This paper proposes a new metric for measuring problem difficulty by examining the properties of model-building mechanisms in EDAs. For this purpose, we use the estimated Walsh coefficients of dependent and independent variables. The proposed metric is used to evaluate the difficulty of some well-known benchmark problems in EDAs. Different metrics like Fitness Distance Correlation (FDC) are used to compare how well the proposed metric measures problem difficulty for EDAs. Results indicate that the proposed metric can accurately predict the EDA's performance in different problems.
翻訳日:2022-03-27 13:30:23 公開日:2022-02-24
# (参考訳) マルチモーダル音声認識における一様自己監督学習の活用 [全文訳有]

Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition ( http://arxiv.org/abs/2203.07996v1 )

ライセンス: CC BY 4.0
Xichen Pan, Peiyu Chen, Yichen Gong, Helong Zhou, Xinbing Wang, Zhouhan Lin(参考訳) トランスフォーマーをベースとしたトレーニングモデルは大量のデータを必要とする一方で、並列アライメントとラベル付きデータをマルチモーダルで取得することは、特に音声視覚音声認識(AVSR)において、かなりコストがかかる。 したがって、ラベルなしのユニモーダルデータを使うのは理にかなっている。 一方、大規模自己教師型学習の有効性は、音声と視覚の両方において十分に確立されているものの、これらの事前学習されたモデルをマルチモーダルシナリオに統合する方法はまだ未定である。 本研究では,マルチモーダルAVSRを促進するために,一様自己教師学習をうまく活用する。 特に、我々はまず大規模なユニモーダルデータセット上でオーディオとビジュアルエンコーダを訓練し、その後、CTCとSeq2seqデコーディングの組み合わせにより、ペア化されたオーディオと視覚データを文字に認識することを学ぶ、より大規模なマルチモーダルフレームワークに統合する。 単調な自己教師付き学習から受け継いだ2つのコンポーネントが協調的に連携し,マルチモーダルフレームワークが微調整によって競争的な結果をもたらすことを示した。 我々のモデルは単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。 特に,外部言語モデルがなくても,提案モデルは広く受け入れられているリップ読み文2(lrs2)データセットの最先端のパフォーマンスを大きなマージンで向上させ,相対的に30%向上させた。

Training Transformer-based models demands a large amount of data, while obtaining parallel aligned and labelled data in multimodality is rather cost-demanding, especially for audio-visual speech recognition (AVSR). Thus it makes a lot of sense to make use of unlabelled uni-modal data. On the other side, although the effectiveness of large-scale self-supervised learning is well established in both audio and visual modalities, how to integrate those pre-trained models into a multimodal scenario remains underexplored. In this work, we successfully leverage uni-modal self-supervised learning to promote the multimodal AVSR. In particular, we first train audio and visual encoders on a large-scale uni-modal dataset, then we integrate components of both encoders into a larger multimodal framework which learns to recognize paired audio-visual data into characters through a combination of CTC and seq2seq decoding. We show that both components inherited from uni-modal self-supervised learning cooperate well, resulting in that the multimodal framework yields competitive results through fine-tuning. Our model is experimentally validated on both word-level and sentence-level AVSR tasks. Especially, even without an external language model, our proposed model raises the state-of-the-art performances on the widely accepted Lip Reading Sentences 2 (LRS2) dataset by a large margin, with a relative improvement of 30%.
翻訳日:2022-03-21 00:40:36 公開日:2022-02-24
# SUTD-PRCMデータセットとニューラルネットワークによる複雑な地表面設計

SUTD-PRCM Dataset and Neural Architecture Search Approach for Complex Metasurface Design ( http://arxiv.org/abs/2203.00002v1 )

ライセンス: Link先を確認
Tianning Zhang, Yee Sin Ang, Erping Li, Chun Yun Kee, L. K. Ang(参考訳) 地表面は近年、電磁波を操る多目的性のために多くの注目を集めている。 複数の目的を非線形制約で満たす高度な設計は、深層学習(DL)のような機械学習(ML)技術を用いてメタ曲面の設計を加速する研究者を動機付けている。 メタサーフェスでは、画像分類のような多くの分野でよく使われるが複雑なデータセットを持たずに、異なるMLモデル間で定量的に比較することは困難である。 多くの研究は、メタサーフェスの特定のパターンや形に限定された比較的制約のあるデータセットに向けられた。 本稿では,電磁シミュレーションから得られた複雑変成層の約260,000個のサンプルを含む複雑変成層(SUTD-PRCM)データセットのSUTD偏光反射について述べる。 メタサーフェスパターンは、異なるDLモデルを用いて比較できるパターンと電磁応答の関係を特定し、利用することを含む、異なる複雑さの度合いを促進するために、異なるクラスに分けられる。 このSUTD-PRCMデータセットのリリースにより、MLコミュニティで開発された既存または将来のDLモデルのベンチマークに役立ちたいと思っています。 また、より遭遇の少ない分類問題を提案し、DLモデルによる予測を改善するニューラルアーキテクチャへの潜在的な変更を予備的に理解するためにニューラルアーキテクチャ探索を適用した。 従来型の深層階層型ハイレベル機能よりも低レベルの機能が好まれているため、深層畳み込み型ニューラルネットワークベースのモデルがデータセットでうまく機能していない理由を説明している。

Metasurfaces have received a lot of attentions recently due to their versatile capability in manipulating electromagnetic wave. Advanced designs to satisfy multiple objectives with non-linear constraints have motivated researchers in using machine learning (ML) techniques like deep learning (DL) for accelerated design of metasurfaces. For metasurfaces, it is difficult to make quantitative comparisons between different ML models without having a common and yet complex dataset used in many disciplines like image classification. Many studies were directed to a relatively constrained datasets that are limited to specified patterns or shapes in metasurfaces. In this paper, we present our SUTD polarized reflection of complex metasurfaces (SUTD-PRCM) dataset, which contains approximately 260,000 samples of complex metasurfaces created from electromagnetic simulation, and it has been used to benchmark our DL models. The metasurface patterns are divided into different classes to facilitate different degree of complexity, which involves identifying and exploiting the relationship between the patterns and the electromagnetic responses that can be compared in using different DL models. With the release of this SUTD-PRCM dataset, we hope that it will be useful for benchmarking existing or future DL models developed in the ML community. We also propose a classification problem that is less encountered and apply neural architecture search to have a preliminary understanding of potential modification to the neural architecture that will improve the prediction by DL models. Our finding shows that convolution stacking is not the dominant element of the neural architecture anymore, which implies that low-level features are preferred over the traditional deep hierarchical high-level features thus explains why deep convolutional neural network based models are not performing well in our dataset.
翻訳日:2022-03-06 13:14:50 公開日:2022-02-24
# 話者認識のための複数のパラメータ化の比較研究

A comparative study of several parameterizations for speaker recognition ( http://arxiv.org/abs/2203.00513v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 本稿では,話者照合と識別タスクにおいて,複数のパラメータ化のロバスト性に関する徹底的な研究を行う。 我々は、異なる録音セッション、マイクロホン、異なる言語(バイリンガルの話者群から得られた)、いくつかのミスマッチ条件を研究した。 本研究では,複数のパラメータ化の組み合わせにより,タスクのロバスト性,識別性,検証性が向上することを示す。 さらに、ベクトル量子化と、算術的調和球性測度を持つ共分散行列の2つの異なる方法が評価されている。

This paper presents an exhaustive study about the robustness of several parameterizations, in speaker verification and identification tasks. We have studied several mismatch conditions: different recording sessions, microphones, and different languages (it has been obtained from a bilingual set of speakers). This study reveals that the combination of several parameterizations can improve the robustness in all the scenarios for both tasks, identification and verification. In addition, two different methods have been evaluated: vector quantization, and covariance matrices with an arithmetic-harmonic sphericity measure.
翻訳日:2022-03-06 13:14:22 公開日:2022-02-24
# 多レベルハイブリッドフィルタを用いた音声セグメンテーション

Speech segmentation using multilevel hybrid filters ( http://arxiv.org/abs/2203.01819v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Francesc Vallverdu-Bayes(参考訳) 多レベルハイブリッド(mean/min)フィルタ(mhf)に基づく音声セグメンテーションのための新しい手法を提案する。 雑音環境(ガウス音・衝動音)における良い性能 提案手法はスペクトル変化に基づいて,音声を均質な音響セグメントに分割することを目的としている。 このアルゴリズムは音声合成音声符号化に用いられており、成功している。

A novel approach for speech segmentation is proposed, based on Multilevel Hybrid (mean/min) Filters (MHF) with the following features: An accurate transition location. Good performance in noisy environments (gaussian and impulsive noise). The proposed method is based on spectral changes, with the goal of segmenting the voice into homogeneous acoustic segments. This algorithm is being used for phoneticallysegmente d speech coder, with successful results.
翻訳日:2022-03-06 13:14:01 公開日:2022-02-24
# (参考訳) MMRマーカーの予測による大腸癌における深層学習によるMSIの予測 [全文訳有]

Deep Learning based Prediction of MSI in Colorectal Cancer via Prediction of the Status of MMR Markers ( http://arxiv.org/abs/2203.00449v1 )

ライセンス: CC BY 4.0
Ruqayya Awan, Mohammed Nimir, Shan E Ahmed Raza, Johannes Lotz, David Snead, Andrew Robison, Nasir M. Rajpoot(参考訳) 腫瘍の正確な診断とプロファイリングは、がん患者の最適な治療選択に不可欠である。 がんの種類や攻撃性に加えて、分子多様性は治療選択において重要な役割を果たす。 MSIまたはMMR欠損は、分子的変化の点でよく研究されている収差の1つである。 mmr欠損の大腸癌患者は免疫療法によく反応するので、関連する分子マーカーの評価は臨床医の最適な治療選択を支援することができる。 免疫組織化学はこれらの分子変化を同定する方法の1つであり、腫瘍組織のさらなる部分を必要とする。 追加のセクションを必要とせずに、ターゲットイメージからmsiまたはmmrステータスを予測できる自動メソッドの導入は、それに関連するコストを大幅に削減することができる。 本研究では,CK818またはH\&Eで染色した単一ターゲットスライドを用いて,MSIの状態を2段階のプロセスで予測する作業について述べる。 まず,MMRタンパク質発現の予測に各頭部が関与する多頭部畳み込みニューラルネットワークモデルを訓練する。 そこで本研究では,mmrスライドのターゲットスライドへの登録を前処理ステップとして行う。 第2段階では、mmr予測マップから計算された統計的特徴が最終msi予測に使用される。 以上の結果から,msi/mssを用いた従来手法と比較して,細粒度mmrラベルを組み込むことでmsi分類が改善できることを示した。

An accurate diagnosis and profiling of tumour are critical to the best treatment choices for cancer patients. In addition to the cancer type and its aggressiveness, molecular heterogeneity also plays a vital role in treatment selection. MSI or MMR deficiency is one of the well-studied aberrations in terms of molecular changes. Colorectal cancer patients with MMR deficiency respond well to immunotherapy, hence assessment of the relevant molecular markers can assist clinicians in making optimal treatment selections for patients. Immunohistochemistry is one of the ways for identifying these molecular changes which requires additional sections of tumour tissue. Introduction of automated methods that can predict MSI or MMR status from a target image without the need for additional sections can substantially reduce the cost associated with it. In this work, we present our work on predicting MSI status in a two-stage process using a single target slide either stained with CK818 or H\&E. First, we train a multi-headed convolutional neural network model where each head is responsible for predicting one of the MMR protein expressions. To this end, we perform registration of MMR slides to the target slide as a pre-processing step. In the second stage, statistical features computed from the MMR prediction maps are used for the final MSI prediction. Our results demonstrate that MSI classification can be improved on incorporating fine-grained MMR labels in comparison to the previous approaches in which coarse labels (MSI/MSS) are utilised.
翻訳日:2022-03-06 13:06:05 公開日:2022-02-24
# 量子固有値問題に対する物理インフォームドニューラルネットワーク

Physics-Informed Neural Networks for Quantum Eigenvalue Problems ( http://arxiv.org/abs/2203.00451v1 )

ライセンス: Link先を確認
Henry Jin, Marios Mattheakis, Pavlos Protopapas(参考訳) 固有値問題は科学と工学のいくつかの分野において重要である。 微分固有値問題に対する固有関数と固有値の発見に教師なしニューラルネットワークを用いる方法を拡張した。 得られた解は、所望の境界条件を同一に満足する解析的かつ微分可能な形で与えられる。 ネットワーク最適化はデータフリーであり、ニューラルネットワークの予測にのみ依存する。 物理インフォームド損失関数を2つ導入する。 1つ目はオルソロスと呼ばれ、ネットワークがペアワイズ直交固有関数を発見する動機付けとなる。 ノルムロスと呼ばれる第二の損失項は正規化固有函数の発見を要求し、自明な解を避けるために用いられる。 ニューラルネットワークアーキテクチャへの均一あるいは奇対称性の埋め込みは、関連する問題の収束をさらに改善する。 最後に、固有関数解を自動的に認識するために忍耐条件を用いることができる。 この非教師なし学習法は、有限井戸、多重有限井戸、水素原子固有値量子問題を解くために用いられる。

Eigenvalue problems are critical to several fields of science and engineering. We expand on the method of using unsupervised neural networks for discovering eigenfunctions and eigenvalues for differential eigenvalue problems. The obtained solutions are given in an analytical and differentiable form that identically satisfies the desired boundary conditions. The network optimization is data-free and depends solely on the predictions of the neural network. We introduce two physics-informed loss functions. The first, called ortho-loss, motivates the network to discover pair-wise orthogonal eigenfunctions. The second loss term, called norm-loss, requests the discovery of normalized eigenfunctions and is used to avoid trivial solutions. We find that embedding even or odd symmetries to the neural network architecture further improves the convergence for relevant problems. Lastly, a patience condition can be used to automatically recognize eigenfunction solutions. This proposed unsupervised learning method is used to solve the finite well, multiple finite wells, and hydrogen atom eigenvalue quantum problems.
翻訳日:2022-03-06 12:46:57 公開日:2022-02-24
# adpcmと非線形予測

ADPCM with nonlinear prediction ( http://arxiv.org/abs/2203.01818v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Oscar Oliva-Suarez(参考訳) 多くの音声コーダは線形予測符号化(LPC)に基づいているが、LPCでは音声信号に存在する非線形性をモデル化することはできない。 このため、非線形手法への関心が高まっている。 本稿では,従来の手法よりもSEGSNRにおいて1-2.5dBの増加をもたらす非線形予測器を用いたADPCM方式について述べる。 本稿では,ブロック適応およびサンプル適応予測について論じる。

Many speech coders are based on linear prediction coding (LPC), nevertheless with LPC is not possible to model the nonlinearities present in the speech signal. Because of this there is a growing interest for nonlinear techniques. In this paper we discuss ADPCM schemes with a nonlinear predictor based on neural nets, which yields an increase of 1-2.5dB in the SEGSNR over classical methods. This paper will discuss the block-adaptive and sample-adaptive predictions.
翻訳日:2022-03-06 12:46:33 公開日:2022-02-24
# スペイン地形地図への多角並列処理の適用

Applying multi-angled parallelism to Spanish topographical maps ( http://arxiv.org/abs/2203.01169v1 )

ライセンス: Link先を確認
Josep-Maria Cusco, Marcos Faundez-Zanuy(参考訳) multi-angled parallelism (map) はバイナリ画像中の線を認識する手法である。 並列処理と画像処理のハードウェアで実装することが適している。 二値画像は方向平面に変換され、その上で浸食拡散の方向演算子を反復的に適用する。 基本作用素の集合から、より複雑な演算子を生成し、いくつかの種類の行を抽出する。 各タイプは異なる操作セットで抽出され、抽出された行が識別される。 本稿では,MAPの概要を述べるとともに,実例でテストし,それをカスタムアプリケーションに適用するプロセスを研究するという二重目的により,スペイン語地形図の行認識に適用する。

Multi-Angled Parallelism (MAP) is a method to recognize lines in binary images. It is suitable to be implemented in parallel processing and image processing hardware. The binary image is transformed into directional planes, upon which, directional operators of erosion-dilation are iteratively applyed. From a set of basic operators, more complex ones are created, which let to extract the several types of lines. Each type is extracted with a different set of operations and so the lines are identified when extracted. In this paper, an overview of MAP is made, and it is adapted to line recognition in Spanish topographical maps, with the double purpose of testing the method in a real case and studying the process of adapting it to a custom application.
翻訳日:2022-03-06 12:32:10 公開日:2022-02-24
# グラフネットワークを用いたソフトメカニカルメタマテリアルの非線形ダイナミクスの学習

Learning the nonlinear dynamics of soft mechanical metamaterials with graph networks ( http://arxiv.org/abs/2202.13775v1 )

ライセンス: Link先を確認
Tianju Xue, Sigrid Adriaenssens, Sheng Mao(参考訳) ソフトメカニカルメタマテリアルのダイナミクスは、多くのエキサイティングな工学的応用の機会を提供する。 以前の研究では、連続体メタマテリアルの非線形動的応答をモデル化するために、剛体要素と非線形スプリングからなる離散系を用いることが多い。 しかし、メタマテリアルの構成要素の幾何学に基づいたシステムを正確に構築することは、依然として課題である。 本研究では,この課題に対処するための機械学習手法を提案する。 メタマテリアルグラフネットワーク(MGN)は、ノイズの特徴が剛性要素の位置と向きを含み、エッジ更新関数が非線形バネの力学を記述する離散系を表現するために用いられる。 我々はガウス過程の回帰を代理モデルとして、非線形ばねの弾性エネルギーを連結された剛体の相対位置と配向の関数として特徴づける。 最適モデルは、連続体メタマテリアルの対応するビルディングブロック上で有限要素計算によって生成されたデータから"学習"することができる。 次に, 最適モデルをネットワークに展開し, 構造スケールにおけるメタマテリアルのダイナミクスを研究する。 いくつかの代表的な数値例に対して,機械学習手法の精度を検証する。 これらの例では, 直接数値シミュレーションと比較して計算コストを大幅に削減し, 精度を比較できることを示す。 また, ソフトメカニカルメタマテリアルの合理的設計に有用であり, 欠点と空間的不均一性を容易に組み込むことが可能である。

The dynamics of soft mechanical metamaterials provides opportunities for many exciting engineering applications. Previous studies often use discrete systems, composed of rigid elements and nonlinear springs, to model the nonlinear dynamic responses of the continuum metamaterials. Yet it remains a challenge to accurately construct such systems based on the geometry of the building blocks of the metamaterial. In this work, we propose a machine learning approach to address this challenge. A metamaterial graph network (MGN) is used to represent the discrete system, where the nodal features contain the positions and orientations the rigid elements, and the edge update functions describe the mechanics of the nonlinear springs. We use Gaussian process regression as the surrogate model to characterize the elastic energy of the nonlinear springs as a function of the relative positions and orientations of the connected rigid elements. The optimal model can be obtained by "learning" from the data generated via finite element calculation over the corresponding building block of the continuum metamaterial. Then, we deploy the optimal model to the network so that the dynamics of the metamaterial at the structural scale can be studied. We verify the accuracy of our machine learning approach against several representative numerical examples. In these examples, the proposed approach can significantly reduce the computational cost when compared to direct numerical simulation while reaching comparable accuracy. Moreover, defects and spatial inhomogeneities can be easily incorporated into our approach, which can be useful for the rational design of soft mechanical metamaterials.
翻訳日:2022-03-01 18:27:24 公開日:2022-02-24
# 話者識別のための帯域拡張の妥当性について

On the relevance of bandwidth extension for speaker identification ( http://arxiv.org/abs/2202.13865v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Mattias Nilsson, W. Bastiaan Kleijn(参考訳) 本稿では,話者識別タスクにおける帯域幅拡張の関連について論じる。 主に、拡張された音声を認識できるかどうかを研究したい。 この目的のために、電話帯域幅([300, 3400]hz)からフル帯域幅([100, 8000]hz)まで拡張された帯域幅を持つ2種類の音声信号データベース(マイクロフォニックおよびisdn)を作成した。 我々は異なるパラメータ化の評価を行い、MELCEPSTパラメータ化はいくつかの状況において帯域拡張アルゴリズムを活用できることを見出した。

In this paper we discuss the relevance of bandwidth extension for speaker identification tasks. Mainly we want to study if it is possible to recognize voices that have been bandwith extended. For this purpose, we created two different databases (microphonic and ISDN) of speech signals that were bandwidth extended from telephone bandwidth ([300, 3400] Hz) to full bandwidth ([100, 8000] Hz). We have evaluated different parameterizations, and we have found that the MELCEPST parameterization can take advantage of the bandwidth extension algorithms in several situations.
翻訳日:2022-03-01 18:21:26 公開日:2022-02-24
# BagPipe: 深層推奨モデルのトレーニングを加速する

BagPipe: Accelerating Deep Recommendation Model Training ( http://arxiv.org/abs/2202.12429v1 )

ライセンス: Link先を確認
Saurabh Agarwal, Ziyi Zhang, Shivaram Venkataraman(参考訳) ディープラーニングベースのレコメンデーションモデル(DLRM)は、いくつかのビジネスクリティカルなアプリケーションで広く使われている。 このようなレコメンデーションモデルを効率的にトレーニングすることは、主に数十億の組み込みベースのパラメータで構成されており、しばしばリモートで保存されるため、組み込みアクセスからかなりのオーバーヘッドが発生する。 既存のDLRMトレーニングをプロファイリングすることで、イテレーション時間のわずか8.5%が前方/後方通過に費やされ、残りの時間は埋め込みとモデル同期に費やされている。 この論文の重要な洞察は、埋め込みへのアクセスはトレーニングを加速するために使用できる特定の構造とパターンを持っていることです。 埋め込みアクセスの約1%は、全アクセスの92%以上を占めています。 さらに、トレーニング中に将来のバッチを見て、将来のイテレーションでどの埋め込みが必要なのかを正確に判断することもできます。 これらの知見に基づいて、キャッシュとプリフェッチを使用してリモート埋め込みアクセスと計算を重複させるディープレコメンデーションモデルをトレーニングするシステムであるBagpipeを提案する。 Oracle Cacherは、ルックアヘッドアルゴリズムを使用して最適なキャッシュ更新決定を生成し、強い一貫性を保証する新しいシステムコンポーネントです。 3つのデータセットと2つのモデルを用いて実験したところ、我々の手法は、アートベースラインの状態と比較して最大6.2倍の速度を提供する一方で、同期トレーニングと同じ収束と再現性保証を提供する。

Deep learning based recommendation models (DLRM) are widely used in several business critical applications. Training such recommendation models efficiently is challenging primarily because they consist of billions of embedding-based parameters which are often stored remotely leading to significant overheads from embedding access. By profiling existing DLRM training, we observe that only 8.5% of the iteration time is spent in forward/backward pass while the remaining time is spent on embedding and model synchronization. Our key insight in this paper is that access to embeddings have a specific structure and pattern which can be used to accelerate training. We observe that embedding accesses are heavily skewed, with almost 1% of embeddings represent more than 92% of total accesses. Further, we observe that during training we can lookahead at future batches to determine exactly which embeddings will be needed at what iteration in the future. Based on these insight, we propose Bagpipe, a system for training deep recommendation models that uses caching and prefetching to overlap remote embedding accesses with the computation. We designed an Oracle Cacher, a new system component which uses our lookahead algorithm to generate optimal cache update decisions and provide strong consistency guarantees. Our experiments using three datasets and two models shows that our approach provides a speed up of up to 6.2x compared to state of the art baselines, while providing the same convergence and reproducibility guarantees as synchronous training.
翻訳日:2022-03-01 17:25:27 公開日:2022-02-24
# MLPによるN次元非線形予測

N-dimensional nonlinear prediction with MLP ( http://arxiv.org/abs/2202.13866v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 本稿では,多層パーセプトロンに基づく音声符号化のための非線形予測ベクトル量子化器(pvq)を提案する。 この方式により,従来のadpcmコーダの性能を非線形予測により改善し,サンプルあたりのビットレートを最大1ビットに短縮した。

In this paper we propose a Non-Linear Predictive Vector quantizer (PVQ) for speech coding, based on Multi-Layer Perceptrons. With this scheme we have improved the results of our previous ADPCM coder with nonlinear prediction, and we have reduced the bit rate up to 1 bit per sample.
翻訳日:2022-03-01 17:19:42 公開日:2022-02-24
# ドメイン変換による教師なしドメイン適応に向けて

Towards Unsupervised Domain Adaptation via Domain-Transformer ( http://arxiv.org/abs/2202.13777v1 )

ライセンス: Link先を確認
Ren Chuan-Xian, Zhai Yi-Ming, Luo You-Wei, Li Meng-Xue(参考訳) パターン分析とマシンインテリジェンスにおいて重要な問題として、Unsupervised Domain Adaptation (UDA)は、効果的な特徴学習者をラベル付きソースドメインからラベル付きターゲットドメインに転送する方法を研究する。 畳み込みニューラルネットワーク(CNN)に基づく多くの手法が過去数十年で有望な成果を上げてきた。 トランスフォーマーの成功に触発されて、純粋なトランスフォーマーアーキテクチャを採用してUDA問題に取り組み、イメージパッチレベルでの長距離依存性戦略を適用してモデルを解釈する手法もある。 しかし、アルゴリズムの複雑さは高く、解釈性は弱く見える。 本稿では,新しい視点からcnnバックボーンとトランスフォーマのコアアテンション機構を統合したudaのdomain-transformer (dot)を提案する。 具体的には、ドメイン間のサンプル対応を学習するために、プラグアンドプレイのドメインレベルの注意機構を提案する。 これは、画像パッチ間の局所的な相互作用のみをキャプチャする既存の方法とは大きく異なる。 dotは、ドメインレベルの注意と多様体の正則化が検討されるドメイン間の局所的な意味的一貫性を達成することで、ドメインレベルまたはクラスレベルの分配の不一致を明示的にモデル化する代わりに、転送可能な特徴を学習する。 次に、DoTは擬似ラベルと明示的なドメイン不一致最適化を含まない。 理論的には、dotは最適輸送アルゴリズムと統計学習理論と結びついている。 この接続はトランスフォーマーのコアコンポーネントを理解するための新しい洞察を提供する。 いくつかのベンチマークデータセットに対する大規模な実験は、DoTの有効性を検証する。

As a vital problem in pattern analysis and machine intelligence, Unsupervised Domain Adaptation (UDA) studies how to transfer an effective feature learner from a labeled source domain to an unlabeled target domain. Plenty of methods based on Convolutional Neural Networks (CNNs) have achieved promising results in the past decades. Inspired by the success of Transformers, some methods attempt to tackle UDA problem by adopting pure transformer architectures, and interpret the models by applying the long-range dependency strategy at image patch-level. However, the algorithmic complexity is high and the interpretability seems weak. In this paper, we propose the Domain-Transformer (DoT) for UDA, which integrates the CNN-backbones and the core attention mechanism of Transformers from a new perspective. Specifically, a plug-and-play domain-level attention mechanism is proposed to learn the sample correspondence between domains. This is significantly different from existing methods which only capture the local interactions among image patches. Instead of explicitly modeling the distribution discrepancy from either domain-level or class-level, DoT learns transferable features by achieving the local semantic consistency across domains, where the domain-level attention and manifold regularization are explored. Then, DoT is free of pseudo-labels and explicit domain discrepancy optimization. Theoretically, DoT is connected with the optimal transportation algorithm and statistical learning theory. The connection provides a new insight to understand the core component of Transformers. Extensive experiments on several benchmark datasets validate the effectiveness of DoT.
翻訳日:2022-03-01 16:34:32 公開日:2022-02-24
# 可視・近赤外・熱スペクトルを同時に取得した新しい顔データベース

A new face database simultaneously acquired in visible, near infrared and thermal spectrum ( http://arxiv.org/abs/2202.13864v1 )

ライセンス: Link先を確認
Virginia Espinosa-Dur\'o, Marcos Faundez-Zanuy, Ji\v{r}\'i Mekyska(参考訳) 本稿では,3種類のセンサ(可視,近赤外,熱)を異なる照明条件下で取得した新しいデータベースを提案する。 このデータベースは、4つの異なる買収セッションで41人が獲得し、1セッションに5枚の画像と3つの異なる照明条件で構成されている。 総枚数は7.380枚。 実験結果は、単一センサー実験と異なる照明条件(自然、赤外線、人工照明)下での2つと3つのセンサーの組み合わせによって得られる。 研究した3つのスペクトルバンドは、結合系にほぼ等しい割合で寄与することがわかった。 実験の結果,単純な分類器と特徴抽出器を用いた場合においても,3つのスペクトルを組み合わせることで有意な改善が得られた。 検討した9つのシナリオのうち6つで、訓練された組み合わせルールを使用する場合の識別率は98%以上であり、固定ルールを使用する場合の9のケースは2つであった。

In this paper we present a new database acquired with three different sensors (visible, near infrared and thermal) under different illumination conditions. This database consists of 41 people acquired in four different acquisition sessions, five images per session and three different illumination conditions. The total amount of pictures is 7.380 pictures. Experimental results are obtained through single sensor experiments as well as the combination of two and three sensors under different illumination conditions (natural, infrared and artificial illumination). We have found that the three spectral bands studied contribute in a nearly equal proportion to a combined system. Experimental results show a significant improvement combining the three spectrums, even when using a simple classifier and feature extractor. In six of the nine scenarios studied we obtained identification rates higher or equal to 98%, when using a trained combination rule, and two cases of nine when using a fixed rule.
翻訳日:2022-03-01 14:49:17 公開日:2022-02-24
# ノイズロバストニューラルネットワークを用いた不規則タイミングデータに基づく血管運動モデリングのための集団AIS伝送挙動

Unfolding collective AIS transmission behavior for vessel movement modeling on irregular timing data using noise-robust neural networks ( http://arxiv.org/abs/2202.13867v1 )

ライセンス: Link先を確認
Gabriel Spadon, Martha D. Ferreira, Amilcar Soares, Stan Matwin(参考訳) 本稿では,ニューラルネットワークによる自動識別システム(ais)のメッセージ伝達挙動をモデル化し,メッセージの不規則なタイミングに直面する複数の容器に対するaisメッセージの内容の予測を行う。 本稿では,様々な長さの水平方向のタスクを予測するために,数十のアルゴリズムを用いた実験を行う。 深層学習モデルは、異なる容器の空間的認識を維持しながら、時間的不規則性を適切に捉えることを明らかにした。 本稿では,多方向・多層長期記憶ネットワークと畳み込み特徴抽出層が,そのタスクを最大20.01%改善することを示す。

This paper aims to model the Automatic Identification System (AIS) message transmission behavior through neural networks for forecasting the upcoming AIS messages' content for multiple vessels simultaneously in the face of messages' irregular timing. We present a set of experiments comprising tens of algorithms used for forecasting tasks with horizon sizes of varying lengths. Deep learning models revealed themselves to adequately capture the temporal irregularity while preserving the spatial awareness of different vessels. We show how a multi-directional and multi-layer long-short-term memory network and a convolution feature-extraction layer improve such a task by up to 20.01%.
翻訳日:2022-03-01 14:18:57 公開日:2022-02-24
# (参考訳) Ask2Mask: Masked Speech Modelingのためのガイド付きデータ選択 [全文訳有]

Ask2Mask: Guided Data Selection for Masked Speech Modeling ( http://arxiv.org/abs/2202.12719v1 )

ライセンス: CC BY 4.0
Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Yu Zhang and Pedro Moreno(参考訳) wav2vec2やw2v-BERTのようなマスケ音声モデリング(MSM)は、発話中にランダムにマスクされた音声フレーム上の表現を学習する。 これらの手法は自動音声認識(ASR)システムの性能を向上させるが、大きな限界がある。 教師なしのすべての音声サンプルを同等の重さで処理し、すべてのサンプルが意味のある表現を学ぶための関連情報を持っているわけではないため学習を妨げる。 この作業では、この制限に対処する。 本稿では,MSM事前トレーニング中に特定のサンプルに注目する新しいアプローチである ask2mask (ATM) を提案する。 ATM は外部の ASR モデルまたは \textit{scorer} を用いて、2つの異なる方法で教師なし入力サンプルを重み付けする。 1)得点者が選択した高信頼な入力フレームをマスキングして細かなデータ選択を行う。 これによりモデルが意味のある表現を学ぶことができる。 2) ATMは、最後のMSM損失を発話レベルの信頼度スコアで重み付けすることで、発話レベルに集中するようにさらに拡張される。 LibriSpeech(事前学習データに適合)とCommonvoice(TED-Lium ,AMI,CHiME-6(事前学習データに一致しない)の2つのコーパスで微調整実験を行った。 その結果, 未適合条件下での認識性能を著しく向上させるATMの有効性を実証し, 整合条件下では, 従来よりも最大11.6\%, 内部ベースラインより最大4.46\%向上した。

Masked speech modeling (MSM) methods such as wav2vec2 or w2v-BERT learn representations over speech frames which are randomly masked within an utterance. While these methods improve performance of Automatic Speech Recognition (ASR) systems, they have one major limitation. They treat all unsupervised speech samples with equal weight, which hinders learning as not all samples have relevant information to learn meaningful representations. In this work, we address this limitation. We propose ask2mask (ATM), a novel approach to focus on specific samples during MSM pre-training. ATM employs an external ASR model or \textit{scorer} to weight unsupervised input samples in two different ways: 1) A fine-grained data selection is performed by masking over the highly confident input frames as chosen by the scorer. This allows the model to learn meaningful representations. 2) ATM is further extended to focus at utterance-level by weighting the final MSM loss with the utterance-level confidence score. We conduct fine-tuning experiments on two well-benchmarked corpora: LibriSpeech (matching the pre-training data) and Commonvoice, TED-LIUM, AMI and CHiME-6 (not matching the pre-training data). The results substantiate the efficacy of ATM on significantly improving the recognition performance under mismatched conditions (up to 11.6\% relative over published results and upto 4.46\% relative over our internal baseline) while still yielding modest improvements under matched conditions.
翻訳日:2022-03-01 03:58:55 公開日:2022-02-24
# (参考訳) oolong: 制御された研究で言語間移行が難しい理由を調査 [全文訳有]

Oolong: Investigating What Makes Crosslingual Transfer Hard with Controlled Studies ( http://arxiv.org/abs/2202.12312v1 )

ライセンス: CC BY 4.0
Zhengxuan Wu and Isabel Papadimitriou and Alex Tamkin(参考訳) トークン化、形態素化、構文といった要素はすべて言語間で同時に変化するため、言語間の転送が難しい理由についてはほとんど知られていない。 そこで本研究では,これらの要因の影響を解消するために,GLUEタスクを系統的に変換し,異なる要因を一度に変化させ,事前学習したモデルのダウンストリーム性能の低下を計測する。 知識伝達に対する構文の影響を示唆する先行研究とは対照的に,構文シフト(3~6%低下)の影響は大きいが,モデルでは小さなデータセット上での継続的な事前トレーニングに迅速に適応する。 しかし、言語間移動の最も影響の大きい要因は、新しい埋め込みを既存のトランスフォーマー層(18%ドロップ)に合わせることであり、トークン化器を切り替えることによる効果は少ない(2%ドロップ)か、単語形態学(2%ドロップ)。 さらに、小さなデータセットでの継続的な事前トレーニングは、このギャップを閉じるのにはあまり効果的ではありません。

Little is known about what makes cross-lingual transfer hard, since factors like tokenization, morphology, and syntax all change at once between languages. To disentangle the impact of these factors, we propose a set of controlled transfer studies: we systematically transform GLUE tasks to alter different factors one at a time, then measure the resulting drops in a pretrained model's downstream performance. In contrast to prior work suggesting little effect from syntax on knowledge transfer, we find significant impacts from syntactic shifts (3-6% drop), though models quickly adapt with continued pretraining on a small dataset. However, we find that by far the most impactful factor for crosslingual transfer is the challenge of aligning the new embeddings with the existing transformer layers (18% drop), with little additional effect from switching tokenizers (<2% drop) or word morphologies (<2% drop). Moreover, continued pretraining with a small dataset is not very effective at closing this gap - suggesting that new directions are needed for solving this problem.
翻訳日:2022-03-01 03:41:40 公開日:2022-02-24
# (参考訳) DoCoGen: 低リソース領域適応のためのドメイン対実生成 [全文訳有]

DoCoGen: Domain Counterfactual Generation for Low Resource Domain Adaptation ( http://arxiv.org/abs/2202.12350v1 )

ライセンス: CC BY 4.0
Nitay Calderon and Eyal Ben-David and Amir Feder and Roi Reichart(参考訳) 自然言語処理(nlp)アルゴリズムは、非常に成功したが、分散の例に適用すると、依然として苦労している。 本稿では,このドメイン適応(DA)課題に対処するために,制御可能な生成手法を提案する。 入力テキストの例が与えられた場合、我々のDoCoGenアルゴリズムは、タスクラベルを含む全ての面において、元のものと類似したドメイン単位のテキストの例(D-con)を生成する。 重要な点として、DoCoGenは複数のドメインからラベルのない例のみを使用してトレーニングされている。 ソースドメインラベル付きデータが不足している20 DA セットアップにおいて,DoCoGen が生成した D-cons を用いて感情分類を行う。 本モデルは,最先端の教師なしDAアルゴリズムの精度を向上し,高いベースラインを向上する。

Natural language processing (NLP) algorithms have become very successful, but they still struggle when applied to out-of-distribution examples. In this paper we propose a controllable generation approach in order to deal with this domain adaptation (DA) challenge. Given an input text example, our DoCoGen algorithm generates a domain-counterfactua l textual example (D-con) - that is similar to the original in all aspects, including the task label, but its domain is changed to a desired one. Importantly, DoCoGen is trained using only unlabeled examples from multiple domains - no NLP task labels or parallel pairs of textual examples and their domain-counterfactua ls are required. We use the D-cons generated by DoCoGen to augment a sentiment classifier in 20 DA setups, where source-domain labeled data is scarce. Our model outperforms strong baselines and improves the accuracy of a state-of-the-art unsupervised DA algorithm.
翻訳日:2022-03-01 03:30:43 公開日:2022-02-24
# (参考訳) StyleCLIPDraw:テキスト間翻訳における内容とスタイルの結合 [全文訳有]

StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Translation ( http://arxiv.org/abs/2202.12362v1 )

ライセンス: CC BY 4.0
Peter Schaldenbrand, Zhixuan Liu, Jean Oh(参考訳) 機械学習を用いたテキスト記述に適合した画像の生成は、CLIP画像テキストエンコーダモデルのような技術のリリースによって大幅に改善されているが、現在の手法では生成する画像のスタイルの芸術的制御が欠如している。 本稿では,ユーザが所望の描画スタイルをサンプル画像を用いて指定できる所定のテキスト記述のためのスタイルドローイング生成手法を提案する。 創作過程において、スタイルと内容は一般に分離できないという芸術理論に着想を得て、スタイルと内容の同時最適化を行ない、シーケンス内でのコンテンツ作成後にスタイル転送を適用するのとは対照的に、図面と内容の同時最適化によって図面を生成する、StyleCLIPDrawと呼ばれる組み合わせのアプローチを提案する。 人間の評価に基づいて、StyleCLIPDrawによって生成される画像のスタイルは、シーケンシャルアプローチによって強く好まれる。 コンテンツ生成の質は、特定のスタイルで低下するが、全体としては、コンテンツ \textit{and} スタイルの両方を考慮すると、StyleCLIPDraw の方がずっと好まれており、スタイル、ルック、フィール、および描画プロセス自体にスタイルが結合されていることを示す。 私たちのコード(https://github.com/ pschaldenbrand/style clipdraw)、デモンストレーション(https://replicate.c om/pschaldenbrand/st yle-clip-draw)、スタイル評価データ(https://www.kaggle. com/pittsburghskeet/ drawings-with-style- evaluation-styleclip draw)が公開されている。

Generating images that fit a given text description using machine learning has improved greatly with the release of technologies such as the CLIP image-text encoder model; however, current methods lack artistic control of the style of image to be generated. We present an approach for generating styled drawings for a given text description where a user can specify a desired drawing style using a sample image. Inspired by a theory in art that style and content are generally inseparable during the creative process, we propose a coupled approach, known here as StyleCLIPDraw, whereby the drawing is generated by optimizing for style and content simultaneously throughout the process as opposed to applying style transfer after creating content in a sequence. Based on human evaluation, the styles of images generated by StyleCLIPDraw are strongly preferred to those by the sequential approach. Although the quality of content generation degrades for certain styles, overall considering both content \textit{and} style, StyleCLIPDraw is found far more preferred, indicating the importance of style, look, and feel of machine generated images to people as well as indicating that style is coupled in the drawing process itself. Our code (https://github.com/ pschaldenbrand/Style CLIPDraw), a demonstration (https://replicate.c om/pschaldenbrand/st yle-clip-draw), and style evaluation data (https://www.kaggle. com/pittsburghskeet/ drawings-with-style- evaluation-styleclip draw) are publicly available.
翻訳日:2022-03-01 03:03:25 公開日:2022-02-24
# (参考訳) 回帰分類手法を用いた単眼深度推定と不確かさ定量化について [全文訳有]

On Monocular Depth Estimation and Uncertainty Quantification using Classification Approaches for Regression ( http://arxiv.org/abs/2202.12369v1 )

ライセンス: CC BY 4.0
Xuanlong Yu, Gianni Franchi, Emanuel Aldea(参考訳) モノラル深度は、3D再構成や自律運転など、多くのタスクにおいて重要である。 ディープラーニングに基づくモデルは、この分野で最先端のパフォーマンスを達成する。 単分子深度を推定するための新しいアプローチのセットは、回帰タスクを分類タスクに変換することである。 しかしながら、コミュニティにおける回帰(car)の分類アプローチに関する詳細な説明と比較が欠如しており、不確実性推定の可能性について深く調査していない。 そこで本研究では,CARアプローチの分類と要約,CARのための新しい不確実性推定ソリューション,およびKITTIデータセット上のCARモデルに対する深度精度と不確実性定量化に関する一連の実験を紹介する。 実験は2つのバックボーン上の各種CAR法の可搬性の違いを反映している。 一方,新たに提案した不確実性推定法は,1つの前方伝播のみによるアンサンブル法より優れている。

Monocular depth is important in many tasks, such as 3D reconstruction and autonomous driving. Deep learning based models achieve state-of-the-art performance in this field. A set of novel approaches for estimating monocular depth consists of transforming the regression task into a classification one. However, there is a lack of detailed descriptions and comparisons for Classification Approaches for Regression (CAR) in the community and no in-depth exploration of their potential for uncertainty estimation. To this end, this paper will introduce a taxonomy and summary of CAR approaches, a new uncertainty estimation solution for CAR, and a set of experiments on depth accuracy and uncertainty quantification for CAR-based models on KITTI dataset. The experiments reflect the differences in the portability of various CAR methods on two backbones. Meanwhile, the newly proposed method for uncertainty estimation can outperform the ensembling method with only one forward propagation.
翻訳日:2022-03-01 02:51:35 公開日:2022-02-24
# (参考訳) 重球ニューラルオードを用いた複雑ダイナミクスの学習

Learning POD of Complex Dynamics Using Heavy-ball Neural ODEs ( http://arxiv.org/abs/2202.12373v1 )

ライセンス: CC0 1.0
Justin Baker and Elena Cherkaev and Akil Narayan and Bao Wang(参考訳) 適切な直交分解(POD)は、基礎となる力学系のモデリングにおいて高い精度を維持しながら、複雑な力学系の相当なレベルでの低次モデリングを可能にする。 機械学習アルゴリズムの進歩は、データからPODベースのダイナミクスを学習し、動的システムの正確かつ迅速な予測を可能にする。 本稿では,最近提案されたヘビーボールニューラルネットワーク(HBNODE) [Xia et al. NeurIPS, 2021] を用いて,PODコンテキストにおけるデータ駆動型リダクションオーダーモデル(ROM)の学習,特にPOD解析によって生成された時間変動係数の動的学習を,全順序モデルから生成された訓練スナップショット上で行う。 HBNODEは、理論的保証を含むPODベースのROMを学習する上で、いくつかの実用的な利点がある 1)HBNODEは、シーケンシャルな観察から長期間の依存関係を効果的に学習することができる。 2) HBNODEはトレーニングとテストの両方において計算効率が高い。 我々はHBNODEといくつかの複雑な力学系上の一般的なROMを比較し、例えばvon K\'{a}rm\'{a}n Street flow, Kurganov-Petrova-Pop ov equation, and the one-dimensional Euler equations for fluids modeling。

Proper orthogonal decomposition (POD) allows reduced-order modeling of complex dynamical systems at a substantial level, while maintaining a high degree of accuracy in modeling the underlying dynamical systems. Advances in machine learning algorithms enable learning POD-based dynamics from data and making accurate and fast predictions of dynamical systems. In this paper, we leverage the recently proposed heavy-ball neural ODEs (HBNODEs) [Xia et al. NeurIPS, 2021] for learning data-driven reduced-order models (ROMs) in the POD context, in particular, for learning dynamics of time-varying coefficients generated by the POD analysis on training snapshots generated from solving full order models. HBNODE enjoys several practical advantages for learning POD-based ROMs with theoretical guarantees, including 1) HBNODE can learn long-term dependencies effectively from sequential observations and 2) HBNODE is computationally efficient in both training and testing. We compare HBNODE with other popular ROMs on several complex dynamical systems, including the von K\'{a}rm\'{a}n Street flow, the Kurganov-Petrova-Pop ov equation, and the one-dimensional Euler equations for fluids modeling.
翻訳日:2022-03-01 02:42:22 公開日:2022-02-24
# (参考訳) HeRo 2.0:Swarm Robotics Researchのためのローコストロボット [全文訳有]

HeRo 2.0: A Low-Cost Robot for Swarm Robotics Research ( http://arxiv.org/abs/2202.12391v1 )

ライセンス: CC BY 4.0
Paulo Rezeck, Hector Azpurua, Mauricio FS Correa, Luiz Chaimowicz(参考訳) 電子部品の小型化の現状と、ハードウェアとソフトウェアの効率の高まりにより、小型でコンパクトなロボットシステムの開発が可能になる。 これらの小型でシンプルで有能なロボットを使うことの利便性は、研究コミュニティがswarm roboticsの実用的な応用に注意を向けている。 本稿では、市販の部品で組み立てが容易で、現在最も使われているロボティクスフレームワークであるROS(Robot Operating System)と深く統合された、安価なスウォームロボティクスアプリケーションのための新しいプラットフォームの設計について述べる。 ロボットプラットフォームは完全にオープンで、3Dプリントされたボディとオープンソースソフトウェアで構成されている。 我々は,そのアーキテクチャを説明し,その主な特徴を説明し,いくつかのロボットを用いて実験を行う機能を評価する。 提案する移動ロボットは小ささとコストの削減から非常に効果的であり,Swarm Roboticsの研究開発に適していることを示す。

The current state of electronic component miniaturization coupled with the increasing efficiency in hardware and software allow the development of smaller and compact robotic systems. The convenience of using these small, simple, yet capable robots has gathered the research community's attention towards practical applications of swarm robotics. This paper presents the design of a novel platform for swarm robotics applications that is low cost, easy to assemble using off-the-shelf components, and deeply integrated with the most used robotic framework available today: ROS (Robot Operating System). The robotic platform is entirely open, composed of a 3D printed body and open-source software. We describe its architecture, present its main features, and evaluate its functionalities executing experiments using a couple of robots. Results demonstrate that the proposed mobile robot is very effective given its small size and reduced cost, being suitable for swarm robotics research and education.
翻訳日:2022-03-01 02:41:11 公開日:2022-02-24
# (参考訳) 有限和合成確率最適化:理論と応用 [全文訳有]

Finite-Sum Compositional Stochastic Optimization: Theory and Applications ( http://arxiv.org/abs/2202.12396v1 )

ライセンス: CC BY 4.0
Bokun Wang and Tianbao Yang(参考訳) 本稿では,合成関数の和に対する確率的最適化について検討する。 この問題を有限サム結合合成最適化(FCCO)と呼ぶ。 平均精度 (ap), $p$-norm push, listwise ranking loss, neighborhood component analysis (nca), deep survival analysis, deep latent variable model, softmax function, model agnostic meta-learningなど,非凸あるいは凸構成尺度/目的を最適化するための機械学習の幅広い応用がある。 しかし、既存のアルゴリズムと分析は1つ以上の面で制限されている。 本稿では,非凸目的と凸目的の両方に対して,単純な確率的アルゴリズムの包括的解析を行う。 主な結果は、ミニバッチによる移動平均ベースの確率的推定器による、並列速度アップによるoracleの複雑さの改善である。 また,本理論解析では,外層と内層で等サイズのバッチをサンプリングすることにより,実用的な実装を改善するための新たな知見を示す。 ap最大化と$p$-normプッシュ最適化に関する数値実験は、理論のいくつかの側面を裏付ける。

This paper studies stochastic optimization for a sum of compositional functions, where the inner-level function of each summand is coupled with the corresponding summation index. We refer to this family of problems as finite-sum coupled compositional optimization (FCCO). It has broad applications in machine learning for optimizing non-convex or convex compositional measures/objectives such as average precision (AP), $p$-norm push, listwise ranking losses, neighborhood component analysis (NCA), deep survival analysis, deep latent variable models, softmax functions, and model agnostic meta-learning, which deserves finer analysis. Yet, existing algorithms and analysis are restricted in one or other aspects. The contribution of this paper is to provide a comprehensive analysis of a simple stochastic algorithm for both non-convex and convex objectives. The key results are {\bf improved oracle complexities with the parallel speed-up} by the moving-average based stochastic estimator with mini-batching. Our theoretical analysis also exhibits new insights for improving the practical implementation by sampling the batches of equal size for the outer and inner levels. Numerical experiments on AP maximization and $p$-norm push optimization corroborate some aspects of the theory.
翻訳日:2022-03-01 02:16:19 公開日:2022-02-24
# (参考訳) 宝くじヒーローの台頭:なぜゼロショットの刈り取りが難しいのか [全文訳有]

The rise of the lottery heroes: why zero-shot pruning is hard ( http://arxiv.org/abs/2202.12400v1 )

ライセンス: CC BY 4.0
Enzo Tartaglione(参考訳) ディープラーニング最適化の最近の進歩は、モデルのトレーニングを成功させるためにパラメータのサブセットが本当に必要であることを示している。 このような発見は理論から応用まで幅広い影響を与える可能性があるが、訓練可能なサブネットワークを見つけるのは通常コストのかかるプロセスであることが知られている。 ディープラーニングモデルにおける学習されたサブグラフ構造は、トレーニング時に見つけることができるか? この研究では、なぜ一般的なアプローチが最も興味深いシナリオで失敗するのかを観察し、モチベーションを与え、計算労力を削減したトレーニングを可能にするアプローチを提案します。 挑戦的なアーキテクチャとデータセットに関する実験は、そのような計算的ゲインに対するアルゴリズム的なアクセシビリティを示唆しており、特に、達成された精度とデプロイされた複雑性のトレードオフが出現する。

Recent advances in deep learning optimization showed that just a subset of parameters are really necessary to successfully train a model. Potentially, such a discovery has broad impact from the theory to application; however, it is known that finding these trainable sub-network is a typically costly process. This inhibits practical applications: can the learned sub-graph structures in deep learning models be found at training time? In this work we explore such a possibility, observing and motivating why common approaches typically fail in the extreme scenarios of interest, and proposing an approach which potentially enables training with reduced computational effort. The experiments on either challenging architectures and datasets suggest the algorithmic accessibility over such a computational gain, and in particular a trade-off between accuracy achieved and training complexity deployed emerges.
翻訳日:2022-03-01 01:03:31 公開日:2022-02-24
# (参考訳) 深部宣言型ネットワークにおける爆発的問題構造:2例 [全文訳有]

Exploiting Problem Structure in Deep Declarative Networks: Two Case Studies ( http://arxiv.org/abs/2202.12404v1 )

ライセンス: CC BY 4.0
Stephen Gould, Dylan Campbell, Itzik Ben-Shabat, Chamin Hewa Koneputugodage, Zhiwei Xu(参考訳) 深い宣言的ネットワークやその他の最近の研究は、(連続)パラメトリズド最適化問題の解写像を区別する方法を示し、エンドツーエンド学習可能なモデルに数学的最適化問題を埋め込む可能性を開く。 これらの微分可能性の結果は、後方通過時にフォワードパス最適化手順のステップを外すことなく微分を計算する式を提供することにより、大幅なメモリ節約につながる。 しかし、結果は一般に大きなヘッセン行列を逆転させることが要求される。 本研究では,2つのディープ宣言型ネットワーク(ロバストベクトルプーリングと最適トランスポート)の応用について検討し,問題構造を用いて時間とメモリの両方において,非常に効率的な後方通過計算を実現する方法を示す。 我々のアイデアは、他の新しい深層宣言型ノードの計算性能を改善するためのガイドとして使用できる。

Deep declarative networks and other recent related works have shown how to differentiate the solution map of a (continuous) parametrized optimization problem, opening up the possibility of embedding mathematical optimization problems into end-to-end learnable models. These differentiability results can lead to significant memory savings by providing an expression for computing the derivative without needing to unroll the steps of the forward-pass optimization procedure during the backward pass. However, the results typically require inverting a large Hessian matrix, which is computationally expensive when implemented naively. In this work we study two applications of deep declarative networks -- robust vector pooling and optimal transport -- and show how problem structure can be exploited to obtain very efficient backward pass computations in terms of both time and memory. Our ideas can be used as a guide for improving the computational performance of other novel deep declarative nodes.
翻訳日:2022-03-01 00:54:11 公開日:2022-02-24
# (参考訳) ニューラルネットワークに基づくバッテリー劣化モデルを考慮したマイクログリッドデイアヘッドスケジューリング [全文訳有]

Microgrid Day-Ahead Scheduling Considering Neural Network based Battery Degradation Model ( http://arxiv.org/abs/2202.12416v1 )

ライセンス: CC BY 4.0
Cunzhi Zhao, and Xingpeng Li(参考訳) バッテリエネルギー貯蔵システム(BESS)は、可変再生可能エネルギー発生の不確実性を効果的に軽減することができる。 リチウムイオン電池(lib)のような電池では劣化は避けられない。 LiB分解の主な原因は、Liイオンの損失、電解質の損失、およびモデル化や予測が難しい内部抵抗の増加である。 本稿では,所定の電池運用プロファイルに基づいて,バッテリ劣化を予測するためのデータ駆動方式を提案する。 特に,nnbd(neural net-work based battery degradation)モデルを提案する。 提案したNNBDモデルをマイクログリッドデイアヘッドスケジューリング(MDS)に組み込む場合、等価なバッテリー劣化コストを正確に考慮できるバッテリ劣化ベースMDS(BDMDS)モデルを作成することができる。 提案したNNBDモデルは非常に非線形かつ非凸であるため、BDMDSの解決は非常に困難である。 この問題に対処するために、ニューラルネットワークと最適化デカップリングヒューリスティック(NNODH)アルゴリズムを提案し、このニューラルネットワーク組み込み最適化問題を効果的に解決する。 シミュレーションの結果,nnodhアルゴリズムは,通常の運転コストや電池劣化コストなど,総コストが最小の最適解を抑止できることがわかった。

Battery energy storage system (BESS) can effectively mitigate the uncertainty of variable renewable generation. Degradation is un-preventable for batteries such as the most popular Lithium-ion battery (LiB). The main causes of LiB degradation are loss of Li-ions, loss of electrolyte, and increase of internal resistance which are hard to model and predict. In this paper, we propose a data driven method to predict the battery degradation per a given scheduled battery operational profile. Particularly, a neural net-work based battery degradation (NNBD) model is proposed to quantify the battery degradation with inputs of major battery degradation factors. When incorporating the proposed NNBD model into microgrid day-ahead scheduling (MDS), we can estab-lish a battery degradation based MDS (BDMDS) model that can consider the equivalent battery degradation cost precisely. Since the proposed NNBD model is highly non-linear and non-convex, BDMDS would be very hard to solve. To address this issue, a neural network and optimization decoupled heuristic (NNODH) algorithm is proposed in this paper to effectively solve this neural network embedded optimization problem. Simulation results demonstrate that the proposed NNODH algorithm is able to ob-tain the optimal solution with lowest total cost including normal operation cost and battery degradation cost.
翻訳日:2022-03-01 00:41:56 公開日:2022-02-24
# (参考訳) モーフィング攻撃検出における人間のオブザーバ能力の解析 --どこに立つのか?

Analyzing Human Observer Ability in Morphing Attack Detection -- Where Do We Stand? ( http://arxiv.org/abs/2202.12426v1 )

ライセンス: CC BY 4.0
Sankini Rancha Godage, Fr{\o}y L{\o}v{\aa}sda, Sushma Venkatesh, Kiran Raja, Raghavendra Ramachandra, Christoph Busch(参考訳) いくつかの研究が自動FRSの脆弱性を研究し、モーフィング攻撃検出(MAD)法を提案しているが、モーフィング攻撃を検出する人間の能力の研究はほとんどない。 受験者/オブザーバの顔形態検出能力は、その観察、ドメイン知識、経験、問題に慣れ親しんだことに基づいており、日常の職業生活の一部としてID文書をチェックする観察者による詳細な知見は報告されていない。 この研究は、48の被験者による現実的なモーフィング攻撃のベンチマークデータベースを作成し、ディファレンシャル・MAD(D-MAD)設定で観測者に提示された400のモーフィング画像に繋がる。 既存のデータベースとは異なり、新しく作成されたmorphed image databaseは年齢、性別、民族を慎重に考慮して作成され、リアルなmorph攻撃を生み出している。 さらに,前作と異なり,自動境界制御 (abc) ゲートからの10枚の画像も撮影し,国境横断シナリオにおいて400枚のプローブ画像を含む現実のd-mad設定を再現した。 新たに作成されたデータセットは、人間の観察者がモルヒド画像を検出する能力を研究するためにさらに使用される。 さらに、Single Image-MAD(S-MAD)設定の下でFRGCv2データセットを使用して、180個の画像の新しいデータセットを作成する。 さらに、形態を検出する人間の能力をベンチマークするために、S-MADおよびD-MAD分析を行うための新しい評価プラットフォームを作成する。 ベンチマーク調査では、D-MADには469人、S-MADには410人のオブザーバーが採用されている。 この分析は、専門家が不足している能力とかなりの量のモーフィング攻撃を検知できないことに対する興味深い洞察とポイントを提供する。 人間の観察者は、この研究で評価された自動MADアルゴリズムと比較して、変形した画像をより低い精度で検出する傾向がある。

While several works have studied the vulnerability of automated FRS and have proposed morphing attack detection (MAD) methods, very few have focused on studying the human ability to detect morphing attacks. The examiner/observer&#x 27;s face morph detection ability is based on their observation, domain knowledge, experience, and familiarity with the problem, and no works report the detailed findings from observers who check identity documents as a part of their everyday professional life. This work creates a new benchmark database of realistic morphing attacks from 48 unique subjects leading to 400 morphed images presented to the observers in a Differential-MAD (D-MAD) setting. Unlike the existing databases, the newly created morphed image database has been created with careful considerations to age, gender and ethnicity to create realistic morph attacks. Further, unlike the previous works, we also capture ten images from Automated Border Control (ABC) gates to mimic the realistic D-MAD setting leading to 400 probe images in border crossing scenarios. The newly created dataset is further used to study the ability of human observers' ability to detect morphed images. In addition, a new dataset of 180 morphed images is also created using the FRGCv2 dataset under the Single Image-MAD (S-MAD) setting. Further, to benchmark the human ability in detecting morphs, a new evaluation platform is created to conduct S-MAD and D-MAD analysis. The benchmark study employs 469 observers for D-MAD and 410 observers for S-MAD who are primarily governmental employees from more than 40 countries. The analysis provides interesting insights and points to expert observers' missing competence and failure to detect a considerable amount of morphing attacks. Human observers tend to detect morphed images to a lower accuracy as compared to the automated MAD algorithms evaluated in this work.
翻訳日:2022-03-01 00:25:58 公開日:2022-02-24
# スパイキングニューラルネットワークを用いた強化学習タスクの進化

Evolving-to-Learn Reinforcement Learning Tasks with Spiking Neural Networks ( http://arxiv.org/abs/2202.12322v1 )

ライセンス: Link先を確認
J. Lu, J. J. Hagenaars, G. C. H. E. de Croon(参考訳) 神経系に触発されたシナプス可塑性規則は、スパイクニューラルネットワークを局所的な情報で訓練するために適用され、ニューロモルフィックハードウェアのオンライン学習に適している。 しかし、新しいタスクを学習するためにこのようなルールが実装されると、通常タスク依存の微調整にかなりの作業が必要になる。 本稿では,手作業に適したシナプス可塑性規則を進化させる進化的アルゴリズムを用いることにより,このプロセスを容易にすることを目的とする。 より具体的には、様々な局所的信号のセット、数学的演算子のセット、大域的報酬信号を提供し、その後、デカルト的遺伝的プログラミングプロセスがこれらのコンポーネントから最適な学習規則を見つける。 この手法を用いて,xor と cart-pole の課題をうまく解くための学習ルールを見つけ,文献のベースラインルールを上回る新しい学習ルールを見つける。

Inspired by the natural nervous system, synaptic plasticity rules are applied to train spiking neural networks with local information, making them suitable for online learning on neuromorphic hardware. However, when such rules are implemented to learn different new tasks, they usually require a significant amount of work on task-dependent fine-tuning. This paper aims to make this process easier by employing an evolutionary algorithm that evolves suitable synaptic plasticity rules for the task at hand. More specifically, we provide a set of various local signals, a set of mathematical operators, and a global reward signal, after which a Cartesian genetic programming process finds an optimal learning rule from these components. Using this approach, we find learning rules that successfully solve an XOR and cart-pole task, and discover new learning rules that outperform the baseline rules from literature.
翻訳日:2022-02-28 16:18:17 公開日:2022-02-24
# 時間依存部分微分方程式に対する物理インフォームドRNN-DCTネットワーク

Physics Informed RNN-DCT Networks for Time-Dependent Partial Differential Equations ( http://arxiv.org/abs/2202.12358v1 )

ライセンス: Link先を確認
Benjamin Wu, Oliver Hennigh, Jan Kautz, Sanjay Choudhry, Wonmin Byeon(参考訳) 物理インフォームドニューラルネットワークは、一般的な非線形偏微分方程式によって記述された物理法則によってモデルを訓練することができる。 しかし、伝統的なアーキテクチャは、そのアーキテクチャの性質から、より難しい時間依存の問題を解決するのに苦労している。 本稿では,時間依存偏微分方程式を解くための新しい物理モデルを提案する。 微分方程式と問題初期条件と境界条件のみを用いて,問題の時空間ダイナミクスの潜在表現を生成する。 我々のモデルは離散コサイン変換を用いて空間周波数と繰り返しニューラルネットワークを符号化し、時間進化を処理する。 これは、物理インフォームドモデルの追加条件付けに使用される圧縮表現を効率的かつ柔軟に生成する。 本稿では,navier-stokes方程式に対するtaylor-green vortex解に関する実験結果を示す。 提案モデルは,他の物理モデルと比較してtaylor-green渦の最先端性能を実現する。

Physics-informed neural networks allow models to be trained by physical laws described by general nonlinear partial differential equations. However, traditional architectures struggle to solve more challenging time-dependent problems due to their architectural nature. In this work, we present a novel physics-informed framework for solving time-dependent partial differential equations. Using only the governing differential equations and problem initial and boundary conditions, we generate a latent representation of the problem's spatio-temporal dynamics. Our model utilizes discrete cosine transforms to encode spatial frequencies and recurrent neural networks to process the time evolution. This efficiently and flexibly produces a compressed representation which is used for additional conditioning of physics-informed models. We show experimental results on the Taylor-Green vortex solution to the Navier-Stokes equations. Our proposed model achieves state-of-the-art performance on the Taylor-Green vortex relative to other physics-informed baseline models.
翻訳日:2022-02-28 16:17:59 公開日:2022-02-24
# Depthwise Separable Convolution と Super resolution Generative Adversarial Network を用いた進行生成逆数ネットワークの時間効率トレーニング

Time Efficient Training of Progressive Generative Adversarial Network using Depthwise Separable Convolution and Super Resolution Generative Adversarial Network ( http://arxiv.org/abs/2202.12337v1 )

ライセンス: Link先を確認
Atharva Karwande, Pranesh Kulkarni, Tejas Kolhe, Akshay Joshi, Soham Kamble(参考訳) 生成逆数ネットワークは1024^2の高解像度拡張画像の生成に成功している。 生成された拡張画像は前例がないが、モデルのトレーニング時間は例外的に高い。 従来のGANでは、ディスクリミネーターとジェネレータの両方の訓練が必要である。 画像増倍のための現在最先端のGANであるProgressive GANでは、GANを一度に訓練する代わりに、ディスクリミネータとジェネレータを同時に成長させる新しい概念が提案された。 4x4や8x8のような下段の列車は比較的速いが、後段の列車はモデルの訓練を完了するのに数日を要する膨大な時間を消費する。 本稿では,プログレッシブGANと若干の修正とスーパーレゾリューションGANを組み合わせた新しいパイプラインを提案する。 スーパーレゾリューションGANは低解像度画像を高解像度画像にサンプリングし、トレーニング時間を指数関数的に短縮するのに有用な資源であることが証明できる。

Generative Adversarial Networks have been employed successfully to generate high-resolution augmented images of size 1024^2. Although the augmented images generated are unprecedented, the training time of the model is exceptionally high. Conventional GAN requires training of both Discriminator as well as the Generator. In Progressive GAN, which is the current state-of-the-art GAN for image augmentation, instead of training the GAN all at once, a new concept of progressing growing of Discriminator and Generator simultaneously, was proposed. Although the lower stages such as 4x4 and 8x8 train rather quickly, the later stages consume a tremendous amount of time which could take days to finish the model training. In our paper, we propose a novel pipeline that combines Progressive GAN with slight modifications and Super Resolution GAN. Super Resolution GAN up samples low-resolution images to high-resolution images which can prove to be a useful resource to reduce the training time exponentially.
翻訳日:2022-02-28 16:16:08 公開日:2022-02-24
# TwistSLAM: 動的環境における制約付きSLAM

TwistSLAM: Constrained SLAM in Dynamic Environment ( http://arxiv.org/abs/2202.12384v1 )

ライセンス: Link先を確認
Mathieu Gonzalez, Eric Marchand, Amine Kacete, J\'er\^ome Royan(参考訳) 動く物体は私たちの人生のほとんどの場面に存在します。 しかし、シーンが厳密であると仮定する古典的なSLAMアルゴリズムでは、非常に問題となる可能性がある。 この仮定は、多くのシナリオでカメラのポーズや世界構造を正確に推定できないため、これらのアルゴリズムの適用性を制限する。 いくつかのSLAMシステムは動的オブジェクトを検出し、隠蔽するために提案されており、静的なシーン仮定が妥当である。 しかし、この情報により、システムはシーン内のオブジェクトを追跡しながらカメラを追跡することができる。 本稿ではTwistSLAMについて,シーン内の動的オブジェクトをトラッキング可能な意味的,動的,ステレオSLAMシステムを提案する。 我々のアルゴリズムは意味クラスに応じて点の集合を生成する。 環境の静的な部分を使って、カメラをしっかりとローカライズし、残りのオブジェクトを追跡する。 本稿では,クラスタ間の機械関節の特性を考慮し,姿勢推定を制約し改善するためのトラッキングとバンドル調整の新しい定式化を提案する。 公開データセットから複数のシーケンスに対するアプローチを評価し,現状と比較してカメラとオブジェクトのトラッキングを改善したことを示す。

Moving objects are present in most scenes of our life. However they can be very problematic for classical SLAM algorithms that assume the scene to be rigid. This assumption limits the applicability of those algorithms as they are unable to accurately estimate the camera pose and world structure in many scenarios. Some SLAM systems have been proposed to detect and mask out dynamic objects, making the static scene assumption valid. However this information can allow the system to track objects within the scene, while tracking the camera, which can be crucial for some applications. In this paper we present TwistSLAM a semantic, dynamic, stereo SLAM system that can track dynamic objects in the scene. Our algorithm creates clusters of points according to their semantic class. It uses the static parts of the environment to robustly localize the camera and tracks the remaining objects. We propose a new formulation for the tracking and the bundle adjustment to take in account the characteristics of mechanical joints between clusters to constrain and improve their pose estimation. We evaluate our approach on several sequences from a public dataset and show that we improve camera and object tracking compared to state of the art.
翻訳日:2022-02-28 16:14:53 公開日:2022-02-24
# 手書きバイオメトリックス:e-Securityとe-Healthの応用と将来動向

Handwriting Biometrics: Applications and Future Trends in e-Security and e-Health ( http://arxiv.org/abs/2202.12760v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Julian Fierrez, Miguel A. Ferrer, Moises Diaz, Ruben Tolosana, R\'ejean Plamondon(参考訳) 背景-本稿は,e-securityとe-health分野を特に重視したオンラインハンドワイティング信号に基づく最新技術とアプリケーションについて概説する。 特に科学的コミュニティが対処すべき主な成果と課題に注目し,今後の研究のためのガイド資料を提供する。 結論 この記事で論じているすべてのポイントの中で、セキュリティ、健康、メタデータを共同視点で考えることの重要性について述べます。 これらの行動信号の二重利用の可能性のため、これは特に重要である。

Background- This paper summarizes the state-of-the-art and applications based on online handwritting signals with special emphasis on e-security and e-health fields. Methods- In particular, we focus on the main achievements and challenges that should be addressed by the scientific community, providing a guide document for future research. Conclusions- Among all the points discussed in this article, we remark the importance of considering security, health, and metadata from a joint perspective. This is especially critical due to the double use possibilities of these behavioral signals.
翻訳日:2022-02-28 16:07:23 公開日:2022-02-24
# 制限なし遅延によるトンプソンサンプリング

Thompson Sampling with Unrestricted Delays ( http://arxiv.org/abs/2202.12431v1 )

ライセンス: Link先を確認
Han Wu and Stefan Wager(参考訳) 確率的マルチアームバンディット問題におけるトンプソンサンプリングの特性を遅延フィードバックを用いて検討する。 i.d の遅延を伴う設定において、トンプソンサンプリングの最初の後悔境界を、有界な期待値を含む任意の遅延分布で証明する。 我々の境界は、アドホックアルゴリズムによって導かれる最良境界と質的に比較され、遅延分布の選択された分位数による遅延のみに依存する。 さらに,広範なシミュレーション実験において,トンプソンサンプリングは,フィードバックが遅れている設定用に特別に設計された手法を含む,多くの代替案よりも優れていることがわかった。

We investigate properties of Thompson Sampling in the stochastic multi-armed bandit problem with delayed feedback. In a setting with i.i.d delays, we establish to our knowledge the first regret bounds for Thompson Sampling with arbitrary delay distributions, including ones with unbounded expectation. Our bounds are qualitatively comparable to the best available bounds derived via ad-hoc algorithms, and only depend on delays via selected quantiles of the delay distributions. Furthermore, in extensive simulation experiments, we find that Thompson Sampling outperforms a number of alternative proposals, including methods specifically designed for settings with delayed feedback.
翻訳日:2022-02-28 16:05:42 公開日:2022-02-24
# AutoIP: ガウス過程に物理を統合するための統一フレームワーク

AutoIP: A United Framework to Integrate Physics into Gaussian Processes ( http://arxiv.org/abs/2202.12316v1 )

ライセンス: Link先を確認
Da Long, Zheng Wang, Aditi Krishnapriyan, Robert Kirby, Shandian Zhe, Michael Mahoney(参考訳) 物理モデリングは近代科学と工学の応用にとって重要である。 データサイエンスの観点では、物理知識(しばしば微分方程式として表される)は、データに非常に相補的であり、データの空間性、ノイズ、不正確性を克服するのに役立つ。 本研究では,全ての微分方程式をガウス過程(GP)に統合し,予測精度と不確かさの定量化を図る,シンプルかつ強力なフレームワークを提案する。 これらの方程式は、線形、非線形、時空、時間空間、完全、不完全、未知のソース項などである。 具体的には,核分化に基づいて,多変量ガウス分布から対象関数,方程式関連導関数,潜在元関数の値を共同でサンプリングする前にgpを構築する。 サンプル値は2つの確率に供給され、1つは観測に適合し、もう1つは方程式に適合する。 ホワイトニング手法を用いて,サンプル関数値とカーネルパラメータの強い依存性を回避し,確率的変分学習アルゴリズムを開発した。 本手法は,大まかな不完全方程式を用いても,シミュレーションおよび実世界の応用においてバニラGPの改善を示す。

Physics modeling is critical for modern science and engineering applications. From data science perspective, physics knowledge -- often expressed as differential equations -- is valuable in that it is highly complementary to data, and can potentially help overcome data sparsity, noise, inaccuracy, etc. In this work, we propose a simple yet powerful framework that can integrate all kinds of differential equations into Gaussian processes (GPs) to enhance prediction accuracy and uncertainty quantification. These equations can be linear, nonlinear, temporal, time-spatial, complete, incomplete with unknown source terms, etc. Specifically, based on kernel differentiation, we construct a GP prior to jointly sample the values of the target function, equation-related derivatives, and latent source functions from a multivariate Gaussian distribution. The sampled values are fed to two likelihoods -- one is to fit the observations and the other to conform to the equation. We use the whitening trick to evade the strong dependency between the sampled function values and kernel parameters, and develop a stochastic variational learning algorithm. Our method shows improvement upon vanilla GPs in both simulation and several real-world applications, even using rough, incomplete equations.
翻訳日:2022-02-28 15:23:12 公開日:2022-02-24
# 適応型polyakステップによるsgd用slackのカット

Cutting Some Slack for SGD with Adaptive Polyak Stepsizes ( http://arxiv.org/abs/2202.12328v1 )

ライセンス: Link先を確認
Robert M. Gower and Mathieu Blondel and Nidham Gazagnadou and Fabian Pedregosa(参考訳) 確率的勾配降下のステップサイズのチューニングは退屈で誤りやすい。 これにより、利用可能な情報を使ってステップサイズを自動的に適応する手法の開発が動機となった。 本稿では,SPS(Stochastic gradient with a Polyak Stepsize)適応手法のファミリについて考察する。 これらは、サンプル点における勾配と損失値を利用してステップサイズを適応的に調整する手法である。 まず, 非線形問題に適用したパッシブ・アグレッシブ法の拡張として, spsとその最近の変種を考察する。 我々はこの知見を用いて非線形モデルに適合するsps法の新しい変種を開発する。 新しい変種は補間方程式にslack変数を導入することに基づいている。 この単一のスラック変数は、繰り返しにわたって損失関数を追跡し、安定したステップサイズを設定するのに使用される。 我々は新しい手法と収束理論を支持する広範な数値結果を提供する。

Tuning the step size of stochastic gradient descent is tedious and error prone. This has motivated the development of methods that automatically adapt the step size using readily available information. In this paper, we consider the family of SPS (Stochastic gradient with a Polyak Stepsize) adaptive methods. These are methods that make use of gradient and loss value at the sampled points to adaptively adjust the step size. We first show that SPS and its recent variants can all be seen as extensions of the Passive-Aggressive methods applied to nonlinear problems. We use this insight to develop new variants of the SPS method that are better suited to nonlinear models. Our new variants are based on introducing a slack variable into the interpolation equations. This single slack variable tracks the loss function across iterations and is used in setting a stable step size. We provide extensive numerical results supporting our new methods and a convergence theory.
翻訳日:2022-02-28 15:22:51 公開日:2022-02-24
# オンライン手書き、署名、タッチダイナミクス: セキュリティと健康分野におけるタスクと潜在的な応用

Online handwriting, signature and touch dynamics: tasks and potential applications in the field of security and health ( http://arxiv.org/abs/2202.12693v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Jiri Mekyska, Donato Impedovo(参考訳) 背景: 行動的信号(例えば手書き)の利点は、虹彩、指紋、手形状などの形態的信号とは対照的に、ユーザに非常に多くの異なるタスクを依頼する可能性である。 方法:本論文は,セキュリティ・健康分野における手書き・引出し作業の最近の知見と応用を要約する。 より具体的には、オンライン手書きと手書きによるインタラクション、すなわちタスクの実現時にデジタル化デバイス(専用または汎用のタブレット/スマートフォン)を利用する信号に焦点を当てている。 このような装置は、時間内の動きだけでなく、表面上でのダイナミクスの獲得を可能にし、従来のペンや紙よりも複雑でリッチな情報を提供する。 結論: 科学文献では幅広い課題や応用が報告されているが, 本論文では, 競争的な結果(例えば, 差別力)を提供するもののみを要約し, この分野に大きな影響を与えている。

Background: An advantageous property of behavioural signals ,e.g. handwriting, in contrast to morphological ones, such as iris, fingerprint, hand geometry, etc., is the possibility to ask a user for a very rich amount of different tasks. Methods: This article summarises recent findings and applications of different handwriting and drawing tasks in the field of security and health. More specifically, it is focused on on-line handwriting and hand-based interaction, i.e. signals that utilise a digitizing device (specific devoted or general-purpose tablet/smartphone) during the realization of the tasks. Such devices permit the acquisition of on-surface dynamics as well as in-air movements in time, thus providing complex and richer information when compared to the conventional pen and paper method. Conclusions: Although the scientific literature reports a wide range of tasks and applications, in this paper, we summarize only those providing competitive results (e.g. in terms of discrimination power) and having a significant impact in the field.
翻訳日:2022-02-28 15:04:49 公開日:2022-02-24
# オンライン作家認識の性能に及ぼす疲労の影響

The effect of fatigue on the performance of online writer recognition ( http://arxiv.org/abs/2202.12694v1 )

ライセンス: Link先を確認
Enric Sesa-Nogueras, Marcos Faundez-Zanuy, Manuel-Vicente Garnacho-Casta\~no(参考訳) 背景:シグネチャやテキストベース認識など,被験者が行ったことに基づく生体情報モダリティのパフォーマンスは,被験者の状態に影響される可能性がある。 疲労は手書き作業の結果に大きな影響を与える条件の1つである。 近年の研究では、一般的な筆記作業や描画作業から抽出した特徴の物理的疲労が測定可能な相違をもたらすことが示されている。 身体的疲労が生体内変動にどの程度寄与するかを明らかにすることは重要であり、また、認識方法の性能が疲労によって影響を受けるかを知ることも重要である。 目標:本論文では,疲労がユーザ内変動性と,識別と検証の両方を含む署名ベースおよびテキストベースの文字認識手法の性能に与える影響を評価する。 方法: メタボリック・メカニカル・アセスメントおよび主観的知覚によって測定し, 異なるレベルの誘発疲労後に収集した試料に対して, シグネチャおよびテキスト認識法を検討し, 適用する。 認識方法は、署名のための動的時間ワープとマルチセクションベクトル量子化、大文字のテキストに対するアログラフテキスト依存認識である。 各疲労レベルについて、これらの方法の同定および検証性能を測定する。 結果: シグナチャは統計的にユーザ内影響は示さないが,テキストは有意である。 一方,署名に基づく認識手法の性能は疲労に負の影響を受け,テキストベースの認識では十分に長いシーケンスを考慮すればその影響は目立たない。

Background: The performance of biometric modalities based on things done by the subject, like signature and text-based recognition, may be affected by the subject state. Fatigue is one of the conditions that can significantly affect the outcome of handwriting tasks. Recent research has already shown that physical fatigue produces measurable differences in some features extracted from common writing and drawing tasks. It is important to establish to which extent physical fatigue contributes to the intra-person variability observed in these biometric modalities and also to know whether the performance of recognition methods is affected by fatigue. Goal: In this paper we assess the impact of fatigue on intra-user variability and on the performance of signature-based and text-based writer recognition approaches encompassing both identification and verification. Methods: Several signature and text recognition methods are considered and applied to samples gathered after different levels of induced fatigue, measured by metabolic and mechanical assessment and, also by subjective perception. The recognition methods are Dynamic Time Warping and Multi Section Vector Quantization, for signatures, and Allographic Text-Dependent Recognition for text in capital letters. For each fatigue level, the identification and verification performance of these methods is measured. Results: Signature shows no statistically significant intra-user impact, but text does. On the other hand, performance of signature-based recognition approaches is negatively impacted by fatigue whereas the impact is not noticeable in text-based recognition, provided long enough sequences are considered.
翻訳日:2022-02-28 15:04:19 公開日:2022-02-24
# 機械学習のプライバシリークのための物理ソリューション

Physics solutions for machine learning privacy leaks ( http://arxiv.org/abs/2202.12319v1 )

ライセンス: Link先を確認
Alejandro Pozas-Kerstjens, Senaida Hern\'andez-Santana, Jos\'e Ram\'on Pareja Monturiol, Marco Castrill\'on L\'opez, Giannicola Scarpa, Carlos E. Gonz\'alez-Guill\'en, David P\'erez-Garc\'ia(参考訳) 最先端の科学研究を含む複雑な分野では、機械学習システムがますます普及しつつある。 機械学習システムの内部動作をよりよく理解することへの関心は、その分析を異なる科学分野のレンズの下で動機付けている。 物理学は複雑な力学系を記述する能力のために特に成功している。 物理に基づく機械学習の現象の説明はますます多くなっているが、機械学習システムを改善するために物理学に類似した概念を直接適用する例は少ない。 本稿では,医療記録処理などのタスクにおいて特に重要となる,操作されたデータのプライバシを保護するアルゴリズムの開発において,このようなアプリケーションを提供する。 我々は、特定の種類のプライバシーリークに対する堅牢性を保証するための明確に定義された条件を開発し、そのような条件がテンソルネットワークアーキテクチャによって満たされていることを厳格に証明する。 これらは量子多体システムの効率的な表現にインスパイアされ、一部のケースでは従来の機械学習アーキテクチャに匹敵し、超えている。 テンソルネットワークアーキテクチャのトレーニングに関する専門知識の増大を考えると、これらの結果は、予測の正確さと処理される情報のプライバシーの確保を選択せざるを得ないことを示している。

Machine learning systems are becoming more and more ubiquitous in increasingly complex areas, including cutting-edge scientific research. The opposite is also true: the interest in better understanding the inner workings of machine learning systems motivates their analysis under the lens of different scientific disciplines. Physics is particularly successful in this, due to its ability to describe complex dynamical systems. While explanations of phenomena in machine learning based on physics are increasingly present, examples of direct application of notions akin to physics in order to improve machine learning systems are more scarce. Here we provide one such application in the problem of developing algorithms that preserve the privacy of the manipulated data, which is especially important in tasks such as the processing of medical records. We develop well-defined conditions to guarantee robustness to specific types of privacy leaks, and rigorously prove that such conditions are satisfied by tensor-network architectures. These are inspired by the efficient representation of quantum many-body systems, and have shown to compete and even surpass traditional machine learning architectures in certain cases. Given the growing expertise in training tensor-network architectures, these results imply that one may not have to be forced to make a choice between accuracy in prediction and ensuring the privacy of the information processed.
翻訳日:2022-02-28 15:03:36 公開日:2022-02-24
# トリムバート:RBTとのトレーディングを検討

TrimBERT: Tailoring BERT for Trade-offs ( http://arxiv.org/abs/2202.12411v1 )

ライセンス: Link先を確認
Sharath Nittur Sridhar, Anthony Sarah, Sairam Sundaresan(参考訳) BERTに基づくモデルは、様々な自然言語処理(NLP)タスクの解決に非常に成功した。 残念なことに、これらの大きなモデルの多くは、多くの計算資源と/またはより広範な適用性を制限する事前訓練と微調整の時間を必要とする。 自己注意層はよく研究されているが、それに続く中間層を含める強い正当性は文献に欠けている。 本研究では,BERT-Baseの中間層数を削減することで,下流タスクの微調整精度の低下を最小限に抑えつつ,モデルサイズやトレーニング時間を著しく削減できることを示す。 さらに,セルフアテンション層におけるsoftmax操作を,計算的に単純な代替手段に置き換え,すべてのレイヤノルム操作の半分を取り除いたことで,2つの重要なボトルネックを緩和した。 これにより、高レベルの微調整精度を維持しながらトレーニング時間を短縮する。

Models based on BERT have been extremely successful in solving a variety of natural language processing (NLP) tasks. Unfortunately, many of these large models require a great deal of computational resources and/or time for pre-training and fine-tuning which limits wider adoptability. While self-attention layers have been well-studied, a strong justification for inclusion of the intermediate layers which follow them remains missing in the literature. In this work, we show that reducing the number of intermediate layers in BERT-Base results in minimal fine-tuning accuracy loss of downstream tasks while significantly decreasing model size and training time. We further mitigate two key bottlenecks, by replacing all softmax operations in the self-attention layers with a computationally simpler alternative and removing half of all layernorm operations. This further decreases the training time while maintaining a high level of fine-tuning accuracy.
翻訳日:2022-02-28 15:03:15 公開日:2022-02-24
# RescueNet: 自然災害評価のための高分解能UAVセマンティックセマンティックセグメンテーションベンチマークデータセット

RescueNet: A High Resolution UAV Semantic Segmentation Benchmark Dataset for Natural Disaster Damage Assessment ( http://arxiv.org/abs/2202.12361v1 )

ライセンス: Link先を確認
Tashnim Chowdhury, Robin Murphy, Maryam Rahnemoonfar(参考訳) 気候変動のため、世界中の自然災害が最近急増しているのを観察できる。 これらの災害は自然と人間の生活に悲惨な影響を与えている。 ハリケーンにより経済的損失が増大している。 救助隊の迅速かつ迅速な対応は、人命救助と経済的コスト削減に不可欠である。 深層学習に基づくコンピュータビジョン技術は、現場の理解を助け、正確な損傷評価を行う助けとなる。 コンピュータビジョンにおける活発な研究領域であるセマンティックセグメンテーション(Semantic segmentation)は、画像の各ピクセルにラベルを付けることができ、ハリケーンの影響を減らすために貴重な武器となる。 残念なことに、自然災害被害評価のためのデータセットには、影響領域の詳細なアノテーションが欠けているため、全被害評価におけるディープラーニングモデルをサポートしない。 この目的のために,自然災害後の被害を評価するセマンティックセグメンテーションのための高分解能な災害データセットRescueNetを紹介した。 RescueNetはハリケーン・マイケル後の災害画像で構成されている。 データは、ハリケーンの影響を受けたいくつかの地域から無人航空機(UAV)を用いて収集される。 rescuenetの独特さは、このデータセットが高解像度のポストディスタスター画像と各画像の包括的なアノテーションを提供するという事実から来ている。 既存のデータセットのほとんどは、建物、道路、川など、シーンの一部のみのアノテーションを提供しているが、rescuenetは、ビルディング、ロード、プール、ツリー、デブリなど、すべてのクラスのピクセルレベルのアノテーションを提供する。 RescueNet上での最先端セグメンテーションモデルを実装することにより、データセットの有用性をさらに分析する。 実験により,既存の自然災害被害評価手法のさらなる改善に有用なデータセットが得られた。

Due to climate change, we can observe a recent surge of natural disasters all around the world. These disasters are causing disastrous impact on both nature and human lives. Economic losses are getting greater due to the hurricanes. Quick and prompt response of the rescue teams are crucial in saving human lives and reducing economic cost. Deep learning based computer vision techniques can help in scene understanding, and help rescue teams with precise damage assessment. Semantic segmentation, an active research area in computer vision, can put labels to each pixel of an image, and therefore can be a valuable arsenal in the effort of reducing the impacts of hurricanes. Unfortunately, available datasets for natural disaster damage assessment lack detailed annotation of the affected areas, and therefore do not support the deep learning models in total damage assessment. To this end, we introduce the RescueNet, a high resolution post disaster dataset, for semantic segmentation to assess damages after natural disasters. The RescueNet consists of post disaster images collected after Hurricane Michael. The data is collected using Unmanned Aerial Vehicles (UAVs) from several areas impacted by the hurricane. The uniqueness of the RescueNet comes from the fact that this dataset provides high resolution post-disaster images and comprehensive annotation of each image. While most of the existing dataset offer annotation of only part of the scene, like building, road, or river, RescueNet provides pixel level annotation of all the classes including building, road, pool, tree, debris, and so on. We further analyze the usefulness of the dataset by implementing state-of-the-art segmentation models on the RescueNet. The experiments demonstrate that our dataset can be valuable in further improvement of the existing methodologies for natural disaster damage assessment.
翻訳日:2022-02-28 14:59:01 公開日:2022-02-24
# ビデオトランスを用いた瞬時生理評価

Instantaneous Physiological Estimation using Video Transformers ( http://arxiv.org/abs/2202.12368v1 )

ライセンス: Link先を確認
Ambareesh Revanur, Ananyananda Dasari, Conrad S. Tucker, Laszlo A. Jeni(参考訳) 映像に基づく生理的信号の推定は、主に窓付き間隔でのエピソディックスコアの予測に制限されている。 これらの間欠的な値は有用であるが、患者の生理状態が不完全であり、臨界状態の検出が遅れる可能性がある。 顔映像から瞬時心拍数と呼吸率を推定するビデオトランスフォーマを提案する。 生理的信号は通常、時間と空間のアライメント誤差によって合成される。 これを克服するために周波数領域の損失を定式化した。 大規模なVision-for-Vitals(V4 V)ベンチマークで評価した。 浅層と深層の両方に基づく呼吸速度の推定方法よりも優れていた。 心拍数推定では13.0拍子/分という瞬時MAEを達成した。

Video-based physiological signal estimation has been limited primarily to predicting episodic scores in windowed intervals. While these intermittent values are useful, they provide an incomplete picture of patients' physiological status and may lead to late detection of critical conditions. We propose a video Transformer for estimating instantaneous heart rate and respiration rate from face videos. Physiological signals are typically confounded by alignment errors in space and time. To overcome this, we formulated the loss in the frequency domain. We evaluated the method on the large scale Vision-for-Vitals (V4V) benchmark. It outperformed both shallow and deep learning based methods for instantaneous respiration rate estimation. In the case of heart-rate estimation, it achieved an instantaneous-MAE of 13.0 beats-per-minute.
翻訳日:2022-02-28 14:58:32 公開日:2022-02-24
# フレーム単位の推論による効率的な映像分割モデル

Efficient Video Segmentation Models with Per-frame Inference ( http://arxiv.org/abs/2202.12427v1 )

ライセンス: Link先を確認
Yifan Liu, Chunhua Shen, Changqian Yu, Jingdong Wang(参考訳) 各フレームで独立にトレーニングされた既存の実時間深層モデルは、ビデオシーケンスでテストした場合、時間軸全体で一貫性のない結果を生み出す可能性がある。 いくつかの方法は、例えば、光学フローを用いて結果を隣のフレームに伝播したり、多フレーム情報を用いてフレーム表現を抽出することで、不正確な結果や不均衡な遅延につながる可能性がある。 本研究では,推論における計算オーバーヘッドを導入することなく,時間的整合性を改善することに注力する。 この目的のために、各フレームで推論を行う。 時間的一貫性は、トレーニングフェーズ中に追加制約のあるビデオフレームから学習することで達成される。 推論のために導入されました 本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。 提案手法は,セマンティックビデオセグメンテーションの課題,精度,時間的スムーズ性,効率の面で,Cityscapes,Camvid,3 00VW-Maskなどのデータセットに基づいて,キーフレームベースの手法と,各フレームで個別にトレーニングされたいくつかのベースライン手法より優れている。 さらに,本トレーニング手法をYouTubeVIS上のビデオインスタンスセグメンテーションに適用し,フレーム間の時間的一貫したインスタンスレベルのトリマップをセグメント化することで,動画シーケンスにおけるポートレートマッチングの応用を開発する。 実験は質的かつ定量的な結果を示す。 コードはhttps://git.io/vidse g.com/。

Most existing real-time deep models trained with each frame independently may produce inconsistent results across the temporal axis when tested on a video sequence. A few methods take the correlations in the video sequence into account,e.g., by propagating the results to the neighboring frames using optical flow or extracting frame representations using multi-frame information, which may lead to inaccurate results or unbalanced latency. In this work, we focus on improving the temporal consistency without introducing computation overhead in inference. To this end, we perform inference at each frame. Temporal consistency is achieved by learning from video frames with extra constraints during the training phase. introduced for inference. We propose several techniques to learn from the video sequence, including a temporal consistency loss and online/offline knowledge distillation methods. On the task of semantic video segmentation, weighing among accuracy, temporal smoothness, and efficiency, our proposed method outperforms keyframe-based methods and a few baseline methods that are trained with each frame independently, on datasets including Cityscapes, Camvid, and 300VW-Mask. We further apply our training method to video instance segmentation on YouTubeVISand develop an application of portrait matting in video sequences, by segmenting temporally consistent instance-level trimaps across frames. Experiments show superior qualitative and quantitative results. Code is available at: https://git.io/vidse g.
翻訳日:2022-02-28 14:58:23 公開日:2022-02-24
# 視覚位置認識のための高効率バイナリニューラルネットワーク

Highly-Efficient Binary Neural Networks for Visual Place Recognition ( http://arxiv.org/abs/2202.12375v1 )

ライセンス: Link先を確認
Bruno Ferrarini, Michael Milford, Klaus D. McDonald-Maier and Shoaib Ehsan(参考訳) vprは自律ナビゲーションの基本的なタスクであり、既知の場所が検出されたときにロボットがワークスペースに自分自身をローカライズできるようにする。 精度はVPR技術にとって必須の要件であるが、実世界のアプリケーションでは計算とエネルギー効率はそれほど重要ではない。 CNNベースの技術は最先端のVPR性能をアーカイブするが、計算集約的でエネルギー需要が高い。 バイナリニューラルネットワーク(BNN)は近年,VPRを効率的に扱うために提案されている。 典型的なbnnはcnnよりも桁違いに効率的であるが、処理時間とエネルギー使用量はさらに改善することができる。 典型的なbnnでは、最初の畳み込みは精度のために完全に双対化されるわけではない。 したがって、第1層は最も遅いネットワークステージであり、計算作業全体の大きなシェアを必要とする。 本稿では,第1畳み込み層を置き換え,計算効率とエネルギー効率を向上させるために,奥行き分離因子化と二元化を組み合わせたvpr用bnnのクラスを提案する。 我々の最良のモデルでは、非バイナリ畳み込みを第1段階として、BNNよりも画像を処理する時間とエネルギーをかなり少なくしながら、最先端のVPR性能を実現する。

VPR is a fundamental task for autonomous navigation as it enables a robot to localize itself in the workspace when a known location is detected. Although accuracy is an essential requirement for a VPR technique, computational and energy efficiency are not less important for real-world applications. CNN-based techniques archive state-of-the-art VPR performance but are computationally intensive and energy demanding. Binary neural networks (BNN) have been recently proposed to address VPR efficiently. Although a typical BNN is an order of magnitude more efficient than a CNN, its processing time and energy usage can be further improved. In a typical BNN, the first convolution is not completely binarized for the sake of accuracy. Consequently, the first layer is the slowest network stage, requiring a large share of the entire computational effort. This paper presents a class of BNNs for VPR that combines depthwise separable factorization and binarization to replace the first convolutional layer to improve computational and energy efficiency. Our best model achieves state-of-the-art VPR performance while spending considerably less time and energy to process an image than a BNN using a non-binary convolution as a first stage.
翻訳日:2022-02-28 14:37:24 公開日:2022-02-24
# ポリシー適応型クエリオブジェクトローカライゼーションのためのトランスファタブル・リワードの学習

Learning Transferable Reward for Query Object Localization with Policy Adaptation ( http://arxiv.org/abs/2202.12403v1 )

ライセンス: Link先を確認
Tingfeng Li, Shaobo Han, Martin Renqiang Min, Dimitris N. Metaxas(参考訳) そこで本研究では, エージェントが興味ある対象のローカライズを訓練する, 強化学習に基づく「emph{query object localization}」を提案する。 我々は、順序距離学習による模範集合を用いて、伝達可能な報酬信号を学習する。 提案手法では,報奨信号が得られない新しい環境へのテスト時ポリシー適応が可能であり,注釈付き画像のみに制限された微調整手法を上回っている。 さらに、転送可能な報酬は、訓練されたエージェントを特定のクラスから別のクラスに再設定することを可能にする。 破損したMNIST、CU-Birds、COCOデータセットの実験は、我々のアプローチの有効性を実証している。

We propose a reinforcement learning based approach to \emph{query object localization}, for which an agent is trained to localize objects of interest specified by a small exemplary set. We learn a transferable reward signal formulated using the exemplary set by ordinal metric learning. Our proposed method enables test-time policy adaptation to new environments where the reward signals are not readily available, and outperforms fine-tuning approaches that are limited to annotated images. In addition, the transferable reward allows repurposing the trained agent from one specific class to another class. Experiments on corrupted MNIST, CU-Birds, and COCO datasets demonstrate the effectiveness of our approach.
翻訳日:2022-02-28 14:37:05 公開日:2022-02-24
# フーリエによるロバスト性向上と不確かさ校正

Fourier-Based Augmentations for Improved Robustness and Uncertainty Calibration ( http://arxiv.org/abs/2202.12412v1 )

ライセンス: Link先を確認
Ryan Soklaski, Michael Yee, Theodoros Tsiligkaridis(参考訳) 多様なデータ拡張戦略は、予期せぬデータ分散シフトに対するコンピュータビジョンモデルの堅牢性を改善する自然なアプローチである。 しかし、汚職や攻撃の特定のクラスに対してモデルを接種する戦略を調整できる能力は、他の汚職のクラスに対する堅牢性を著しく損なうことなく、解明され続けている。 本研究では,CIFAR-10-CとCIFAR-100-Cの両方のデータセットに対して,AugMixの精度と校正結果を生成しながら,Fourierベースの攻撃に対するモデルの構築に成功した。 AugMix画像拡張フレームワークにフーリエ基底摂動を組み込むことでこれを実現できる。 したがって、AugMixフレームワークは、モデル全体の堅牢性を高めながら、特定の分散シフトを効果的にターゲットするように調整できることを示す。

Diverse data augmentation strategies are a natural approach to improving robustness in computer vision models against unforeseen shifts in data distribution. However, the ability to tailor such strategies to inoculate a model against specific classes of corruptions or attacks -- without incurring substantial losses in robustness against other classes of corruptions -- remains elusive. In this work, we successfully harden a model against Fourier-based attacks, while producing superior-to-AugMix accuracy and calibration results on both the CIFAR-10-C and CIFAR-100-C datasets; classification error is reduced by over ten percentage points for some high-severity noise and digital-type corruptions. We achieve this by incorporating Fourier-basis perturbations in the AugMix image-augmentation framework. Thus we demonstrate that the AugMix framework can be tailored to effectively target particular distribution shifts, while boosting overall model robustness.
翻訳日:2022-02-28 14:36:55 公開日:2022-02-24
# 離散QCQPを用いた最適チャネル選択

Optimal channel selection with discrete QCQP ( http://arxiv.org/abs/2202.12417v1 )

ライセンス: Link先を確認
Yeonwoo Jeong, Deokjae Lee, Gaon An, Changyong Son, Hyun Oh Song(参考訳) 大規模畳み込みニューラルネットワークの計算コストの低減は、リソース制約のある環境にネットワークをデプロイする場合に不可欠である。 まず,最近のチャネルプルーニング手法の欲張りなアプローチは,隣接層内のチャネル間の内在する二次結合を無視し,プルーニング手順中に不活性重みを安全に除去できないことを示した。 さらに、これらの不活性な重みのため、欲張りな手法は与えられた資源制約を満たし、真の目的を逸脱することを保証できない。 そこで本稿では, FLOP, メモリ使用量, ネットワークサイズの観点から, 不活性な重み付けを確実に防止し, 資源制約を満たすことを保証し, 離散QCQPを用いてチャネルを最適に選択するチャネル選択手法を提案する。 また,prunedネットワークの実際の推論時間を精度良く推定する二次モデルを提案し,資源制約オプションとして推論時間を適用できるようにした。 さらに,チャネルを超えて選択粒度を拡大し,非逐次接続を処理する手法を一般化する。 CIFAR-10 と ImageNet を用いた実験により,提案手法は様々なネットワークアーキテクチャ上で,他の固定インピーダンスチャネルプルーニング手法よりも優れていた。

Reducing the high computational cost of large convolutional neural networks is crucial when deploying the networks to resource-constrained environments. We first show the greedy approach of recent channel pruning methods ignores the inherent quadratic coupling between channels in the neighboring layers and cannot safely remove inactive weights during the pruning procedure. Furthermore, due to these inactive weights, the greedy methods cannot guarantee to satisfy the given resource constraints and deviate with the true objective. In this regard, we propose a novel channel selection method that optimally selects channels via discrete QCQP, which provably prevents any inactive weights and guarantees to meet the resource constraints tightly in terms of FLOPs, memory usage, and network size. We also propose a quadratic model that accurately estimates the actual inference time of the pruned network, which allows us to adopt inference time as a resource constraint option. Furthermore, we generalize our method to extend the selection granularity beyond channels and handle non-sequential connections. Our experiments on CIFAR-10 and ImageNet show our proposed pruning method outperforms other fixed-importance channel pruning methods on various network architectures.
翻訳日:2022-02-28 14:36:36 公開日:2022-02-24
# 幼児期音声認識におけるタスク拡張によるメタ初期化の促進

Towards Better Meta-Initialization with Task Augmentation for Kindergarten-aged Speech Recognition ( http://arxiv.org/abs/2202.12326v1 )

ライセンス: Link先を確認
Yunzheng Zhu, Ruchao Fan, Abeer Alwan(参考訳) 児童の自動音声認識(asr)は,特に幼稚園児におけるデータ不足の問題から,常に困難である。 データが不足している場合、モデルはトレーニングデータに過度に適合する可能性があるため、トレーニングのための優れた出発点が不可欠である。 近年,ASRタスクのモデル初期化(MI)を学習するメタラーニングが提案されている。 この手法は、モデルが未知の言語に適応した場合に優れた性能をもたらす。 しかし、miはトレーニングタスクのオーバーフィッティング(学習のオーバーフィッティング)に対して脆弱である。 MIが他の低リソースタスクに一般化するかどうかも不明である。 本稿では,子どものasrにおけるmiの有効性を検証し,学習者の過剰フィットの問題を軽減しようとする。 モデルに依存しないメタラーニング(MAML)を実現するため,各年齢における子どもの発話を異なる課題とみなす。 学習者の過度適合の観点から,周波数ワープ手法を用いて新しい年齢をシミュレートし,タスクレベル向上手法を提案する。 幼稚園音声におけるタスク強化が各年齢に与える影響について詳細な実験を行った。 その結果,提案手法は,拡張や初期化を伴わないベースラインシステムに対して,相対単語誤り率(WER)を51%向上させることができた。

Children's automatic speech recognition (ASR) is always difficult due to, in part, the data scarcity problem, especially for kindergarten-aged kids. When data are scarce, the model might overfit to the training data, and hence good starting points for training are essential. Recently, meta-learning was proposed to learn model initialization (MI) for ASR tasks of different languages. This method leads to good performance when the model is adapted to an unseen language. However, MI is vulnerable to overfitting on training tasks (learner overfitting). It is also unknown whether MI generalizes to other low-resource tasks. In this paper, we validate the effectiveness of MI in children's ASR and attempt to alleviate the problem of learner overfitting. To achieve model-agnostic meta-learning (MAML), we regard children's speech at each age as a different task. In terms of learner overfitting, we propose a task-level augmentation method by simulating new ages using frequency warping techniques. Detailed experiments are conducted to show the impact of task augmentation on each age for kindergarten-aged speech. As a result, our approach achieves a relative word error rate (WER) improvement of 51% over the baseline system with no augmentation or initialization.
翻訳日:2022-02-28 14:35:23 公開日:2022-02-24
# ラベルリファインメントを用いたソーシャルメディア談話からの大規模誤報ラベル付きデータセットの構築

Construction of Large-Scale Misinformation Labeled Datasets from Social Media Discourse using Label Refinement ( http://arxiv.org/abs/2202.12413v1 )

ライセンス: Link先を確認
Karishma Sharma, Emilio Ferrara, Yan Liu(参考訳) 誤報を広める悪意のあるアカウントは、特に新型コロナウイルス(COVID-19)のパンデミックの間、近年、嘘や誤解を招く物語を拡散させ、ソーシャルメディアプラットフォームはこれらのコンテンツを急速に排除しようと苦労している。 これは、新しいドメインへの適応には人間の集中的なファクトチェックが必要であり、スケールが遅くて難しいためである。 この課題に対処するために,ニュースソースの信頼度ラベルをソーシャルメディア投稿の弱いラベルとして活用し,新しいドメインにおける大規模で多様な誤情報ラベル付きデータセットを構築するために,ラベルのモデルガイドによる改良を提案する。 弱いラベルは、利用者のスタンスがニュースソースや記事の信頼性と一致しない記事やソーシャルメディアの投稿レベルで不正確である。 モデル予測におけるエントロピーに基づく不確実性サンプリングを用いて,初期弱ラベルを自己学習した検出モデルを用いて,不正確なラベルを識別し,自己スーパービジョンやrelabelingを用いて修正する手法を提案する。 このフレームワークは、最小限の人間の努力で大規模なデータセットを構築するための不正確なラベルを提示するために、関連するユーザーのコミュニティの観点から、投稿の社会的コンテキストを組み込む。 情報が重要な文脈や不正確な詳細を欠いているような誤解を招くような物語を区別するラベル付きデータセットを提供するため、提案されたフレームワークでは、少数のラベル付きサンプルをクラスプロトタイプとして使用して、信頼性の高いサンプルをfalse、unproven、mixed、most false、most true、true、debunkに分離する。 このアプローチは、covid-19ワクチンに関する大規模な誤った情報データセットを提供することで実証されている。

Malicious accounts spreading misinformation has led to widespread false and misleading narratives in recent times, especially during the COVID-19 pandemic, and social media platforms struggle to eliminate these contents rapidly. This is because adapting to new domains requires human intensive fact-checking that is slow and difficult to scale. To address this challenge, we propose to leverage news-source credibility labels as weak labels for social media posts and propose model-guided refinement of labels to construct large-scale, diverse misinformation labeled datasets in new domains. The weak labels can be inaccurate at the article or social media post level where the stance of the user does not align with the news source or article credibility. We propose a framework to use a detection model self-trained on the initial weak labels with uncertainty sampling based on entropy in predictions of the model to identify potentially inaccurate labels and correct for them using self-supervision or relabeling. The framework will incorporate social context of the post in terms of the community of its associated user for surfacing inaccurate labels towards building a large-scale dataset with minimum human effort. To provide labeled datasets with distinction of misleading narratives where information might be missing significant context or has inaccurate ancillary details, the proposed framework will use the few labeled samples as class prototypes to separate high confidence samples into false, unproven, mixture, mostly false, mostly true, true, and debunk information. The approach is demonstrated for providing a large-scale misinformation dataset on COVID-19 vaccines.
翻訳日:2022-02-28 14:35:06 公開日:2022-02-24
# 確率モデルにおける推論によるエントロピーと情報の推定

Estimators of Entropy and Information via Inference in Probabilistic Models ( http://arxiv.org/abs/2202.12363v1 )

ライセンス: Link先を確認
Feras A. Saad, Marco Cusumano-Towner, Vikash K. Mansinghka(参考訳) エントロピーや相互情報といった情報理論量の推定は統計学や機械学習における多くの問題の中心であるが、高次元では困難である。 本稿では,確率的生成モデルにおいて,任意の変数に対する情報量に対する上・下限を導出するエントロピー推定法(eevi)を提案する。 これらの推定器は、対象モデルに合わせて調整可能で、精度の高い真の情報値の絞り込みに使用できる、amortized variational inferenceとシーケンシャルモンテカルロを含む提案分布関数で重要サンプリングを使用する。 医療領域からの2つの問題に対して,eeviのいくつかの理論的特性を提示し,スケーラビリティと有効性を示す。 i) 肝疾患を診断する専門的システムにおいて, 症状のパターンや患者属性を考慮し, 潜伏病に関する情報に基づいて, 臨床検査をランク付けする。 (ii)糖代謝の微分方程式モデルでは、食事や薬のスケジュールを考えると、糖尿病患者のインスリン感受性に関する情報を最大化する血糖値測定を行うのに最適な時間を見出す。

Estimating information-theoreti c quantities such as entropy and mutual information is central to many problems in statistics and machine learning, but challenging in high dimensions. This paper presents estimators of entropy via inference (EEVI), which deliver upper and lower bounds on many information quantities for arbitrary variables in a probabilistic generative model. These estimators use importance sampling with proposal distribution families that include amortized variational inference and sequential Monte Carlo, which can be tailored to the target model and used to squeeze true information values with high accuracy. We present several theoretical properties of EEVI and demonstrate scalability and efficacy on two problems from the medical domain: (i) in an expert system for diagnosing liver disorders, we rank medical tests according to how informative they are about latent diseases, given a pattern of observed symptoms and patient attributes; and (ii) in a differential equation model of carbohydrate metabolism, we find optimal times to take blood glucose measurements that maximize information about a diabetic patient's insulin sensitivity, given their meal and medication schedule.
翻訳日:2022-02-28 14:32:08 公開日:2022-02-24
# グローバルコントラスト学習のための確率論的最適化:小さなバッチはパフォーマンスを損なわない

Provable Stochastic Optimization for Global Contrastive Learning: Small Batch Does Not Harm Performance ( http://arxiv.org/abs/2202.12387v1 )

ライセンス: Link先を確認
Zhuoning Yuan, Yuexin Wu, Zihao Qiu, Xianzhi Du, Lijun Zhang, Denny Zhou, Tianbao Yang(参考訳) 本稿では,バッチサイズや辞書サイズに依存する既存のコントラスト学習手法の根本的な問題を分析し,対処することを目的とした,最適化の観点からのコントラスト学習について検討する。 各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。 最適化の観点からは、SimCLRのような既存のメソッドが良好な結果を得るために大きなバッチサイズを必要とする理由を説明します。 このような要求を解消するために,SogCLR という表現のコントラスト学習のグローバルな目的を解決するためのメモリ効率の高い確率最適化アルゴリズムを提案する。 その最適化誤差は、十分な回数の反復の後に合理的な条件下では無視可能であるか、あるいはわずかに異なるグローバルコントラストの目的に対して減少していることを示す。 実験により,sogclrはバッチサイズ256のimagenetにおいて,最大バッチサイズ8,192のsimclr (69.3%) と同等のresnet-50を用いたtop-1線形評価精度で69.4%の性能を実現する。 また,提案手法が汎用的であり,双様コントラスト学習における2方向コントラスト損失など,他のコントラスト損失の解法にも適用可能であることを示す。

In this paper, we study contrastive learning from an optimization perspective, aiming to analyze and address a fundamental issue of existing contrastive learning methods that either rely on a large batch size or a large dictionary. We consider a global objective for contrastive learning, which contrasts each positive pair with all negative pairs for an anchor point. From the optimization perspective, we explain why existing methods such as SimCLR requires a large batch size in order to achieve a satisfactory result. In order to remove such requirement, we propose a memory-efficient Stochastic Optimization algorithm for solving the Global objective of Contrastive Learning of Representations, named SogCLR. We show that its optimization error is negligible under a reasonable condition after a sufficient number of iterations or is diminishing for a slightly different global contrastive objective. Empirically, we demonstrate that on ImageNet with a batch size 256, SogCLR achieves a performance of 69.4% for top-1 linear evaluation accuracy using ResNet-50, which is on par with SimCLR (69.3%) with a large batch size 8,192. We also attempt to show that the proposed optimization technique is generic and can be applied to solving other contrastive losses, e.g., two-way contrastive losses for bimodal contrastive learning.
翻訳日:2022-02-28 14:16:28 公開日:2022-02-24
# Retriever:Token-Leve l Bipartite Graphとしてのコンテンツスタイル表現の学習

Retriever: Learning Content-Style Representation as a Token-Level Bipartite Graph ( http://arxiv.org/abs/2202.12307v1 )

ライセンス: Link先を確認
Dacheng Yin, Xuanchi Ren, Chong Luo, Yuwang Wang, Zhiwei Xiong, Wenjun Zeng(参考訳) 本稿では,コンテンツ型分解表現の教師なし学習について述べる。 まずスタイルを定義し、次にコンテンツスタイルの表現をトークンレベルの二部グラフとしてモデル化します。 Retrieverという名前の教師なしフレームワークは、そのような表現を学ぶために提案されている。 まず、入力データからスタイルとして定義された置換不変情報(p.i.)を取得するためにクロスアテンションモジュールを用いる。 第二に、ベクトル量子化(VQ)モジュールが人間の制約とともに使われ、解釈可能なコンテンツトークンを生成する。 最後に、革新的なリンクアテンションモジュールは、リンクキーの助けを借りて、分解されたコンテンツとスタイルからデータを再構築するデコーダとして機能する。 モーダル非依存であるため、提案する検索器は音声領域と画像領域の両方で評価される。 最先端のゼロショット音声変換性能は、我々のフレームワークの切り離し能力を確認する。 トップパフォーマンスは、画像の部分発見タスクでも達成され、表現の解釈可能性を検証する。 さらに、鮮やかな部分ベースのスタイル転送品質は、さまざまな魅力的な生成タスクをサポートするレトリバーの可能性を示しています。 プロジェクトページ: https://ydcustc.gith ub.io/retriever-demo /

This paper addresses the unsupervised learning of content-style decomposed representation. We first give a definition of style and then model the content-style representation as a token-level bipartite graph. An unsupervised framework, named Retriever, is proposed to learn such representations. First, a cross-attention module is employed to retrieve permutation invariant (P.I.) information, defined as style, from the input data. Second, a vector quantization (VQ) module is used, together with man-induced constraints, to produce interpretable content tokens. Last, an innovative link attention module serves as the decoder to reconstruct data from the decomposed content and style, with the help of the linking keys. Being modal-agnostic, the proposed Retriever is evaluated in both speech and image domains. The state-of-the-art zero-shot voice conversion performance confirms the disentangling ability of our framework. Top performance is also achieved in the part discovery task for images, verifying the interpretability of our representation. In addition, the vivid part-based style transfer quality demonstrates the potential of Retriever to support various fascinating generative tasks. Project page at https://ydcustc.gith ub.io/retriever-demo /.
翻訳日:2022-02-28 14:16:05 公開日:2022-02-24
# ディープニューラルネットワークの標準偏差に基づく量子化

Standard Deviation-Based Quantization for Deep Neural Networks ( http://arxiv.org/abs/2202.12422v1 )

ライセンス: Link先を確認
Amir Ardakani, Arash Ardakani, Brett Meyer, James J. Clark, Warren J. Gross(参考訳) ディープニューラルネットワークの量子化は、推論コストを削減し、リソース制限されたデバイス上でディープネットワークの実行を可能にする、有望なアプローチである。 既存の手法に着想を得て,ネットワークの重みと活性化分布,すなわち標準偏差の知識を用いて,量子化間隔(離散値)を学習する新しいフレームワークを提案する。 さらに,重みを2つの離散値に量子化する新しい基底2対数量子化スキームを提案する。 提案手法により,資源不足の高精度乗算器を簡単なシフト加算演算で置き換えることができる。 評価の結果,提案手法はCIFAR10およびImageNetデータセットの既存の作業よりも優れており,全精度モデルと比較した場合の3ビット重みとアクティベーションの精度も向上することがわかった。 さらに,提案手法はネットワークのパラメータを同時にプルーニングし,量子化過程におけるプルーニング率を柔軟に調整する。

Quantization of deep neural networks is a promising approach that reduces the inference cost, making it feasible to run deep networks on resource-restricted devices. Inspired by existing methods, we propose a new framework to learn the quantization intervals (discrete values) using the knowledge of the network's weight and activation distributions, i.e., standard deviation. Furthermore, we propose a novel base-2 logarithmic quantization scheme to quantize weights to power-of-two discrete values. Our proposed scheme allows us to replace resource-hungry high-precision multipliers with simple shift-add operations. According to our evaluations, our method outperforms existing work on CIFAR10 and ImageNet datasets and even achieves better accuracy performance with 3-bit weights and activations when compared to the full-precision models. Moreover, our scheme simultaneously prunes the network's parameters and allows us to flexibly adjust the pruning ratio during the quantization process.
翻訳日:2022-02-28 14:13:54 公開日:2022-02-24
# グラフのためのベイズ深層学習

Bayesian Deep Learning for Graphs ( http://arxiv.org/abs/2202.12348v1 )

ライセンス: Link先を確認
Federico Errica(参考訳) 構造化データの適応処理は、構造化された入力から様々な性質の出力へのマッピングを自動的に学習する方法を研究する機械学習における長年の研究トピックである。 近年、グラフの適応処理への関心が高まっており、異なるニューラルネットワークベースの方法論の開発につながっている。 本論文では,異なる経路をとり,グラフ学習のためのベイズ的深層学習フレームワークを開発した。 この論文は、この分野のほとんどの方法が構築される原則のレビューから始まり、次にグラフ分類の再現性の問題についての研究から始まっている。 次に私たちは、グラフのディープラーニングの基本アイデアとベイズの世界との橋渡しを、インクリメンタルな方法で深層アーキテクチャを構築することによって進めます。 このフレームワークは、離散的かつ連続的なエッジ特徴を持つグラフを考慮し、いくつかの分類タスクで最先端に達するのに十分な教師なしの埋め込みを生成する。 私たちのアプローチは、ほぼすべてのモデルのハイパーパラメータの選択を自動化するベイズ非パラメトリック拡張にも適しています。 2つの実世界の応用がグラフの深層学習の有効性を示している。 第一は、教師付き神経モデルを用いた分子シミュレーションのための情報理論量予測に関するものである。 その後、当社のベイズモデルを利用して、プロシージャ内のコード難読化技術に頑健なマルウェア分類タスクを解決します。 我々はこの論文を、ニューラル世界とベイズ世界のベストを融合させようと試みて締めくくった。 得られたハイブリッドモデルは、入力グラフに条件付きマルチモーダル分布を予測でき、その結果、ほとんどの作業よりも確率性と不確実性をモデル化できる。 本研究の目的は,グラフの深層学習研究分野のベイズ的視点を提供することである。

The adaptive processing of structured data is a long-standing research topic in machine learning that investigates how to automatically learn a mapping from a structured input to outputs of various nature. Recently, there has been an increasing interest in the adaptive processing of graphs, which led to the development of different neural network-based methodologies. In this thesis, we take a different route and develop a Bayesian Deep Learning framework for graph learning. The dissertation begins with a review of the principles over which most of the methods in the field are built, followed by a study on graph classification reproducibility issues. We then proceed to bridge the basic ideas of deep learning for graphs with the Bayesian world, by building our deep architectures in an incremental fashion. This framework allows us to consider graphs with discrete and continuous edge features, producing unsupervised embeddings rich enough to reach the state of the art on several classification tasks. Our approach is also amenable to a Bayesian nonparametric extension that automatizes the choice of almost all model's hyper-parameters. Two real-world applications demonstrate the efficacy of deep learning for graphs. The first concerns the prediction of information-theoreti c quantities for molecular simulations with supervised neural models. After that, we exploit our Bayesian models to solve a malware-classificati on task while being robust to intra-procedural code obfuscation techniques. We conclude the dissertation with an attempt to blend the best of the neural and Bayesian worlds together. The resulting hybrid model is able to predict multimodal distributions conditioned on input graphs, with the consequent ability to model stochasticity and uncertainty better than most works. Overall, we aim to provide a Bayesian perspective into the articulated research field of deep learning for graphs.
翻訳日:2022-02-28 13:43:28 公開日:2022-02-24
# 量子機械学習モデルにおける特徴の重要性に関する研究

Study of Feature Importance for Quantum Machine Learning Models ( http://arxiv.org/abs/2202.11204v2 )

ライセンス: Link先を確認
Aaron Baughman, Kavitha Yogaraj, Raja Hebbar, Sudeep Ghosh, Rukhsan Ul Haq, Yoshika Chhabra(参考訳) 予測器の重要性は、古典的および量子機械学習(QML)におけるデータ前処理パイプラインの重要な部分である。 この研究は、QMLモデルの特徴的重要性を探求し、彼らの古典的機械学習(CML)と対比した最初の研究である。 我々はQMLモデルを訓練し、実世界のデータセット上で古典的アルゴリズムから特徴重要度を計算するハイブリッド量子古典アーキテクチャを開発した。 このアーキテクチャは、Qiskit状態ベクトルシミュレータとIBMQ MumbaiやIBMQ MontrealシステムのようなIBM量子ハードウェアを用いてESPN Fantasy Footballデータ上に実装されている。 ノイズの中間スケール量子(NISQ)時代にはありますが、物理量子コンピューティングの結果は有望です。 現在の量子スケールを容易にするため、我々はデータ階層化、モデル集約、新しい検証方法を開発した。 特に、量子モデルの特徴的重要性の程度は、古典的モデルと対照的に、はるかに高いばらつきを持っていた。 等価QMLモデルとCMLモデルは多様性の測定によって相補的であることを示すことができる。 QMLとCMLの多様性は、どちらのアプローチも異なる方法でソリューションに貢献できることを示している。 本稿では,量子支援ベクトル分類器(QSVC),変分量子回路(VQC),およびそれらの古典的手法に着目した。 ESPNとIBMのファンタジーフットボールのTrade Assistantは、高度な統計分析とWatson Discoveryの自然言語処理を組み合わせて、公正で取引を提案するパーソナライズされた貿易レコメンデーションを提供する。 ここでは、各プレイヤーのプレーヤー評価データが検討され、量子ボルツマンマシンのような他のQMLモデルの特徴的重要性を計算するためにこの作業を拡張することができる。

Predictor importance is a crucial part of data preprocessing pipelines in classical and quantum machine learning (QML). This work presents the first study of its kind in which feature importance for QML models has been explored and contrasted against their classical machine learning (CML) equivalents. We developed a hybrid quantum-classical architecture where QML models are trained and feature importance values are calculated from classical algorithms on a real-world dataset. This architecture has been implemented on ESPN Fantasy Football data using Qiskit statevector simulators and IBM quantum hardware such as the IBMQ Mumbai and IBMQ Montreal systems. Even though we are in the Noisy Intermediate-Scale Quantum (NISQ) era, the physical quantum computing results are promising. To facilitate current quantum scale, we created a data tiering, model aggregation, and novel validation methods. Notably, the feature importance magnitudes from the quantum models had a much higher variation when contrasted to classical models. We can show that equivalent QML and CML models are complementary through diversity measurements. The diversity between QML and CML demonstrates that both approaches can contribute to a solution in different ways. Within this paper we focus on Quantum Support Vector Classifiers (QSVC), Variational Quantum Circuit (VQC), and their classical counterparts. The ESPN and IBM fantasy footballs Trade Assistant combines advanced statistical analysis with the natural language processing of Watson Discovery to serve up personalized trade recommendations that are fair and proposes a trade. Here, player valuation data of each player has been considered and this work can be extended to calculate the feature importance of other QML models such as Quantum Boltzmann machines.
翻訳日:2022-02-27 17:39:54 公開日:2022-02-24
# (参考訳) ニューラルネットワークにおける説明パラダイム [全文訳有]

Explanatory Paradigms in Neural Networks ( http://arxiv.org/abs/2202.11838v1 )

ライセンス: CC BY 4.0
Ghassan AlRegib, Mohit Prabhushankar(参考訳) 本稿では,説明を抽象的推論に基づく質問への答えとして考慮し,ニューラルネットワークにおける説明可能性の研究を飛躍的に拡大する。 ニューラルネットワークからの予測として$P$を使用すると、これらの質問は、与えられたコントラスト予測$Q$に対して、‘Why P?’、‘What if not P?’、‘Why P, rather Q?’である。 これらの質問に対する回答は, それぞれ, 相関, 反事実, 対照的な説明である。 これらの説明は、帰納的推論スキームを構成する。 3つの説明体系を観察された説明パラダイムと呼ぶ。 この用語は、訓練されたニューラルネットワークが決定を下した後に、説明的手法が$P$を説明したとき、ホック後の説明可能性の特定のケースを指す。 帰納的推論に基づく質問のレンズを通して説明を見る主な利点は、説明を意思決定の理由として使用できることである。 以前は決定を正当化しただけであった、ポストホックな説明責任の分野は、意思決定プロセスに関与し、限定的だが関連性があり、文脈的な介入を提供することによって活発になる。 説明を推論パラダイムとして実現する (i$) 観察された説明とその完全性に関する確率論的定義を提供する (ii$) 説明の評価のための分類法を作成する (iii$) グラデーションに基づく完全な説明可能性の再現性と再現性を複数のアプリケーションとデータモダリティにまたがる位置付けする (iv$) コードリポジトリはhttps://github.com/o livesgatech/explanat ory-paradigmsで公開されている。

In this article, we present a leap-forward expansion to the study of explainability in neural networks by considering explanations as answers to abstract reasoning-based questions. With $P$ as the prediction from a neural network, these questions are `Why P?', `What if not P?', and `Why P, rather than Q?' for a given contrast prediction $Q$. The answers to these questions are observed correlations, observed counterfactuals, and observed contrastive explanations respectively. Together, these explanations constitute the abductive reasoning scheme. We term the three explanatory schemes as observed explanatory paradigms. The term observed refers to the specific case of post-hoc explainability, when an explanatory technique explains the decision $P$ after a trained neural network has made the decision $P$. The primary advantage of viewing explanations through the lens of abductive reasoning-based questions is that explanations can be used as reasons while making decisions. The post-hoc field of explainability, that previously only justified decisions, becomes active by being involved in the decision making process and providing limited, but relevant and contextual interventions. The contributions of this article are: ($i$) realizing explanations as reasoning paradigms, ($ii$) providing a probabilistic definition of observed explanations and their completeness, ($iii$) creating a taxonomy for evaluation of explanations, and ($iv$) positioning gradient-based complete explanainability 7;s replicability and reproducibility across multiple applications and data modalities, ($v$) code repositories, publicly available at https://github.com/o livesgatech/Explanat ory-Paradigms.
翻訳日:2022-02-26 06:14:42 公開日:2022-02-24
# (参考訳) 接続障害を伴うロバスト連合学習:協調中継を用いた半分散フレームワーク

Robust Federated Learning with Connectivity Failures: A Semi-Decentralized Framework with Collaborative Relaying ( http://arxiv.org/abs/2202.11850v1 )

ライセンス: CC BY 4.0
Michal Yemini, Rajarshi Saha, Emre Ozfatura, Deniz G\"und\"uz, Andrea J. Goldsmith(参考訳) 断続的なクライアント接続は、集中型エッジ学習フレームワークにおける大きな課題の1つです。 中央パラメータサーバ(PS)への断続的なアップリンクは、特にクライアント間のデータ分散が不均一性を示す場合、パフォーマンスの大幅な一般化ギャップを生じさせる。 本研究は,クライアントと中央ps間の通信障害を軽減するため,クライアントが相互に接続を断続的に失敗してクライアントの参加を促進するために,クライアント同士のローカル更新を中央パラメータサーバ(ps)に中継する,知識中継という概念を導入することを目的とする。 そこで我々は,各クライアント間の通信毎に,各クライアントからの更新のローカルコンセンサスを計算し,その更新の重み付け平均値と隣接クライアントの更新値をpsに送信する,協調型リレー型半分散型エッジ学習フレームワークを提案する。 これらの平均化重みを適切に最適化し、psにおけるグローバル更新のばらつきを低減し、グローバル更新の偏りをなくし、コンバージェンスレートを向上させる。 最後に、CIFAR-10データセットの実験を行い、クライアント間のデータ分散が非IDである場合、提案手法がフェデレーション平均化ベンチマークよりも優れていることを示す。

Intermittent client connectivity is one of the major challenges in centralized federated edge learning frameworks. Intermittently failing uplinks to the central parameter server (PS) can induce a large generalization gap in performance especially when the data distribution among the clients exhibits heterogeneity. In this work, to mitigate communication blockages between clients and the central PS, we introduce the concept of knowledge relaying wherein the successfully participating clients collaborate in relaying their neighbors' local updates to a central parameter server (PS) in order to boost the participation of clients with intermittently failing connectivity. We propose a collaborative relaying based semi-decentralized federated edge learning framework where at every communication round each client first computes a local consensus of the updates from its neighboring clients and eventually transmits a weighted average of its own update and those of its neighbors to the PS. We appropriately optimize these averaging weights to reduce the variance of the global update at the PS while ensuring that the global update is unbiased, consequently improving the convergence rate. Finally, by conducting experiments on CIFAR-10 dataset we validate our theoretical results and demonstrate that our proposed scheme is superior to Federated averaging benchmark especially when data distribution among clients is non-iid.
翻訳日:2022-02-26 05:55:10 公開日:2022-02-24
# (参考訳) 達成性と最適性:等化オッドの公正性の再考

Attainability and Optimality: The Equalized Odds Fairness Revisited ( http://arxiv.org/abs/2202.11853v1 )

ライセンス: CC BY 4.0
Zeyu Tang, Kun Zhang(参考訳) 機械学習アルゴリズムの公平性が注目されている。 予測における差別を抑圧または排除するために、公正を課すために様々な概念とアプローチが提案されている。 公平性の概念が与えられた場合、無限のデータ量であっても、それが常に達成できるかどうかが本質的な問題となる。 しかし、この問題はまだ解決されていない。 本稿では,等化オッドの公平性の概念に着目し,この基準の達成可能性,さらに,達成可能であれば,様々な条件下での予測性能の最適性について考察する。 特に、入力特徴の定式化関数によって実行される予測について、等化オッドが真であるような条件を与え、確率的予測が受け入れられるならば、軽度な仮定の下では、常に公平な予測が導出可能であることを示す。 分類において、後処理による公正化よりも、トレーニング中に利用可能なすべての機能を活用でき、公正なままで予測性能が向上する可能性があることを証明している。 さらに,確率的予測は理論的保証をもって等化オッドを達成できる一方で,その限界や潜在的な負の社会的影響についても議論する。

Fairness of machine learning algorithms has been of increasing interest. In order to suppress or eliminate discrimination in prediction, various notions as well as approaches have been proposed to impose fairness. Given a notion of fairness, an essential problem is then whether or not it can always be attained, even if with an unlimited amount of data. This issue is, however, not well addressed yet. In this paper, focusing on the Equalized Odds notion of fairness, we consider the attainability of this criterion and, furthermore, if it is attainable, the optimality of the prediction performance under various settings. In particular, for prediction performed by a deterministic function of input features, we give conditions under which Equalized Odds can hold true; if the stochastic prediction is acceptable, we show that under mild assumptions, fair predictors can always be derived. For classification, we further prove that compared to enforcing fairness by post-processing, one can always benefit from exploiting all available features during training and get potentially better prediction performance while remaining fair. Moreover, while stochastic prediction can attain Equalized Odds with theoretical guarantees, we also discuss its limitation and potential negative social impacts.
翻訳日:2022-02-26 05:53:28 公開日:2022-02-24
# (参考訳) 確率依存グラフの不整合としての損失: 損失関数ではなく、モデルを選択する [全文訳有]

Loss as the Inconsistency of a Probabilistic Dependency Graph: Choose Your Model, Not Your Loss Function ( http://arxiv.org/abs/2202.11862v1 )

ライセンス: CC BY-SA 4.0
Oliver E Richardson(参考訳) 損失関数の多様さに恵まれている世界では、それらの選択は味や実用性の問題ではなく、モデルの問題であると主張する。 確率的不均衡グラフ (PDGs) は「矛盾」の尺度を備えた確率論的モデルである。 多くの標準損失関数が適切なシナリオを記述した自然PDGの不整合として生じることを証明し、同じアプローチを用いて正規化器と先行器とのよく知られた接続を正当化する。 また,PDGの不整合性は,多種多様な統計的相違を捉えるとともに,それらの間の不等式を導出するための直感的な視覚言語を含む,このような考え方のメリットを詳細に示す。 変分推論において、ELBOは潜在変数モデルに対するやや不透明な目的であり、その変種は、対応する境界の単純なグラフィカルな証明と同様に、非論争的モデリング仮定から解放される。 最後に、pdgが因子グラフである設定において、不整合がログ分割関数(自由エネルギー)となることを観察する。

In a world blessed with a great diversity of loss functions, we argue that that choice between them is not a matter of taste or pragmatics, but of model. Probabilistic depencency graphs (PDGs) are probabilistic models that come equipped with a measure of "inconsistency". We prove that many standard loss functions arise as the inconsistency of a natural PDG describing the appropriate scenario, and use the same approach to justify a well-known connection between regularizers and priors. We also show that the PDG inconsistency captures a large class of statistical divergences, and detail benefits of thinking of them in this way, including an intuitive visual language for deriving inequalities between them. In variational inference, we find that the ELBO, a somewhat opaque objective for latent variable models, and variants of it arise for free out of uncontroversial modeling assumptions -- as do simple graphical proofs of their corresponding bounds. Finally, we observe that inconsistency becomes the log partition function (free energy) in the setting where PDGs are factor graphs.
翻訳日:2022-02-26 05:52:19 公開日:2022-02-24
# (参考訳) ovid's heroides と epistula sapphus に関する形態学的考察 [全文訳有]

Some Stylometric Remarks on Ovid's Heroides and the Epistula Sapphus ( http://arxiv.org/abs/2202.11864v1 )

ライセンス: CC BY 4.0
Ben Nagy(参考訳) 本稿は、オウィディウスのヘロディデスに関する古典ラテン語の文献学における2つのよく知られた議論に貢献することを目的としている。 1つ目は、ほぼ全ての編集者によって15番目に置かれた手紙の真正性(そして、より少ない程度では正しい位置)に関する質問である。 第二の疑問は、16-21の文字として受け入れられる「二重英雄」の真偽である。 私は、これらのエレギック詩の詩的特徴と語彙文法的特徴を、20行から546行の「ソーター」のコーパスの広い文脈で考察するために、計算スタイメトリーの領域から引き出された様々な手法を用いています。 様々な技法に基づき、あらゆる尺度はヘロデデスの詩的スタイルがオヴィディアンであるが特徴的であることをはっきりと示しており、オヴィディウスから正確に分離することができる。 シングルとダブル・ヒロイデスは2つの明確なグループに分かれ、esは1つの文字で一貫してグループ化された。 さらに、文字のスタイルをアモアの『アーリー』や『エクスポント』の後期作品の『アーリー』と比較することで、ESが正しく置かれていることを意味する逐次的な構成を支持し、さらに、二重文字は亡命時に著しく遅れて作曲されたという意見の高まりを支持している。

This article aims to contribute to two well-worn areas of debate in classical Latin philology, relating to Ovid's Heroides. The first is the question of the authenticity (and, to a lesser extent the correct position) of the letter placed fifteenth by almost every editor -- the so-called Epistula Sapphus (henceforth ES). The secondary question, although perhaps now less fervently debated, is the authenticity of the 'Double Heroides', placed by those who accept them as letters 16-21. I employ a variety of methods drawn from the domain of computational stylometry to consider the poetics and the lexico-grammatical features of these elegiac poems in the broader context of a corpus of 'shorter' (from 20 to 546 lines) elegiac works from five authors (266 poems in all) comprising more or less all of the non-fragmentary classical corpus. Based on a variety of techniques, every measure gives clear indication that the poetic style of the Heroides is Ovidian, but distinctive; they can be accurately isolated from Ovid more broadly. The Single and Double Heroides split into two clear groups, with the ES grouped consistently with the single letters. Furthermore, by comparing the style of the letters with the 'early' (although there are complications in this label) works of the Amores and the late works of the Ex Ponto, the evidence supports sequential composition -- meaning that the ES is correctly placed -- and, further, supports the growing consensus that the double letters were composed significantly later, in exile.
翻訳日:2022-02-26 05:08:24 公開日:2022-02-24
# (参考訳) 計算機イメージングのための機械学習手法に関する一考察 [全文訳有]

A Note on Machine Learning Approach for Computational Imaging ( http://arxiv.org/abs/2202.11883v1 )

ライセンス: CC BY 4.0
Bin Dong(参考訳) 計算イメージングは自然科学の発展において重要な役割を担っている。 感覚、情報、コンピュータ技術の進歩により、画像の影響範囲が拡大し、デジタル画像が私たちの日常生活の重要な要素となった。 過去30年間、我々は計算画像における数学的および機械学習手法の驚くべき発展を目撃してきた。 本稿では,数値イメージングのための機械学習手法の最近の展開を概観し,その相違点と数学的アプローチとの関係について考察する。 両アプローチの知恵をどのように組み合わせるかを実証し、そのような組み合わせのメリットと可能性について議論し、それがもたらす新しい計算的および理論的課題を提示する。

Computational imaging has been playing a vital role in the development of natural sciences. Advances in sensory, information, and computer technologies have further extended the scope of influence of imaging, making digital images an essential component of our daily lives. For the past three decades, we have witnessed phenomenal developments of mathematical and machine learning methods in computational imaging. In this note, we will review some of the recent developments of the machine learning approach for computational imaging and discuss its differences and relations to the mathematical approach. We will demonstrate how we may combine the wisdom from both approaches, discuss the merits and potentials of such a combination and present some of the new computational and theoretical challenges it brings about.
翻訳日:2022-02-26 04:44:12 公開日:2022-02-24
# (参考訳) ハイパースペクトル画像のスペクトル・空間融合異常検出法 [全文訳有]

A spectral-spatial fusion anomaly detection method for hyperspectral imagery ( http://arxiv.org/abs/2202.11889v1 )

ライセンス: CC BY 4.0
Zengfu Hou, Siyuan Cheng, Ting Hu(参考訳) ハイパースペクトルでは、高品質のスペクトル信号が微妙なスペクトル差を伝達し、類似した物質を識別する。 したがって、異種背景画素から異常画素の微細スペクトルを効果的に遮蔽することができる。 同一材料は空間的, スペクトル的特性が類似しているため, 空間的, スペクトル的情報との結合により検出性能を著しく向上させることができる。 本稿では,超スペクトル画像に対してスペクトル空間核融合異常検出(ssfad)法を提案する。 まず, スペクトル領域における初期検出マップを得るために, スペクトル領域におけるサリエンシ重と特徴強調戦略を実装した中央値と平均値からなる局所線形背景空間に, 元のスペクトル信号をマッピングする。 さらに,画素テスト周辺の局所背景の類似情報をフル活用するために,空間領域におけるパッチ画像の局所類似性空間特徴を抽出する新たな検出器を設計した。 最後に、スペクトル及び空間検出マップを適応的に組み合わせて異常を検出する。 実験の結果,提案手法は従来の手法よりも優れた検出性能を示した。

In hyperspectral, high-quality spectral signals convey subtle spectral differences to distinguish similar materials, thereby providing unique advantage for anomaly detection. Hence fine spectra of anomalous pixels can be effectively screened out from heterogeneous background pixels. Since the same materials have similar characteristics in spatial and spectral dimension, detection performance can be significantly enhanced by jointing spatial and spectral information. In this paper, a spectralspatial fusion anomaly detection (SSFAD) method is proposed for hyperspectral imagery. First, original spectral signals are mapped to a local linear background space composed of median and mean with high confidence, where saliency weight and feature enhancement strategies are implemented to obtain an initial detection map in spectral domain. Futhermore, to make full use of similarity information of local background around testing pixel, a new detector is designed to extract the local similarity spatial features of patch images in spatial domain. Finally, anomalies are detected by adaptively combining the spectral and spatial detection maps. The experimental results demonstrate that our proposed method has superior detection performance than traditional methods.
翻訳日:2022-02-26 04:30:42 公開日:2022-02-24
# (参考訳) 癌分類タスクのための量子svmに基づく効率的なバイナリharris hawks最適化 [全文訳有]

An Efficient Binary Harris Hawks Optimization based on Quantum SVM for Cancer Classification Tasks ( http://arxiv.org/abs/2202.11899v1 )

ライセンス: CC BY 4.0
Essam H. Houssein, Zainab Abohashima, Mohamed Elhoseny and Waleed M. Mohamed(参考訳) 遺伝子発現に基づく癌分類は早期診断と回復を促進するが、少数のサンプルを持つ高次元遺伝子は大きな課題である。 この研究は、量子シミュレーターを用いたがん分類のための新しいハイブリッド量子カーネルサポートベクターマシン(QKSVM)と、バイナリハリスホーク最適化(BHHO)に基づく遺伝子選択を組み合わせたものである。 本研究の目的は、BHHOによる情報的遺伝子に基づく量子カーネル推定により、マイクロアレイ癌予測性能を向上させることである。 機能選択は大規模機能において重要なステップであり、BHHOは重要な機能を選択するために使用される。 BHHOは自然界におけるハリスホークスの協調行動の振る舞いを模倣している。 主成分分析(PCA)は、選択された遺伝子を減らし、キュービット数に適合させる。 その後、量子コンピュータを用いて、還元された遺伝子のトレーニングデータを用いてカーネルを推定し、量子カーネルマトリックスを生成する。 さらに、古典コンピュータは、量子カーネル行列に基づいて支持ベクトルを描画するために使用される。 また、古典装置を用いて予測ステージを実行する。 最後に,提案手法を結腸および乳房のマイクロアレイデータセットに適用し,全遺伝子および選択遺伝子をbhhoにより評価した。 提案手法は,2つのデータセットで全体の性能を向上させる。 また、提案手法は、異なる量子特徴写像(カーネル)と古典的カーネル(RBF)を用いて評価される。

Cancer classification based on gene expression increases early diagnosis and recovery, but high-dimensional genes with a small number of samples are a major challenge. This work introduces a new hybrid quantum kernel support vector machine (QKSVM) combined with a Binary Harris hawk optimization (BHHO) based gene selection for cancer classification on a quantum simulator. This study aims to improve the microarray cancer prediction performance with the quantum kernel estimation based on the informative genes by BHHO. The feature selection is a critical step in large-dimensional features, and BHHO is used to select important features. The BHHO mimics the behavior of the cooperative action of Harris hawks in nature. The principal component analysis (PCA) is applied to reduce the selected genes to match the qubit numbers. After which, the quantum computer is used to estimate the kernel with the training data of the reduced genes and generate the quantum kernel matrix. Moreover, the classical computer is used to draw the support vectors based on the quantum kernel matrix. Also, the prediction stage is performed with the classical device. Finally, the proposed approach is applied to colon and breast microarray datasets and evaluated with all genes and the selected genes by BHHO. The proposed approach is found to enhance the overall performance with two datasets. Also, the proposed approach is evaluated with different quantum feature maps (kernels) and classical kernel (RBF).
翻訳日:2022-02-26 04:18:55 公開日:2022-02-24
# (参考訳) SLRNet:人間分解画像のための半スーパービジョンセマンティックセマンティックセグメンテーション [全文訳有]

SLRNet: Semi-Supervised Semantic Segmentation Via Label Reuse for Human Decomposition Images ( http://arxiv.org/abs/2202.11900v1 )

ライセンス: CC BY 4.0
Sara Mousavi, Zhenning Yang, Kelley Cross, Dawnie Steadman, and Audris Mockus(参考訳) セマンティックセグメンテーションは、大量のピクセルレベルの注釈付きデータを必要とするコンピュータビジョンタスクである。 このようなデータの作成は、特に医学や法人類学のような専門家の不足した領域において、時間と費用のかかるプロセスである。 限られたラベル付きデータと十分な量のラベル付きデータから最大限に活用するために、多くの半教師付きアプローチが開発されているが、ドメイン固有の実世界のデータセットはしばしば、既製の最先端の手法の有効性を減らし、これらの特徴を利用する新しい手法を作成する機会を提供する。 本稿では、既存の類似性を利用してデータセットのラベルなし画像のラベルを再利用する半教師付き手法を提案し、トレーニングプロセスにおける再利用ラベルの影響を動的に重み付けする。 本手法は,人間の分解画像の大規模なデータセット上で評価し,概念的には単純ではあるが,最先端の一貫性や疑似ラベルに基づくセグメンテーション手法よりも優れていることを見出した。 本論文は、人間の分解のグラフィック内容を含む。

Semantic segmentation is a challenging computer vision task demanding a significant amount of pixel-level annotated data. Producing such data is a time-consuming and costly process, especially for domains with a scarcity of experts, such as medicine or forensic anthropology. While numerous semi-supervised approaches have been developed to make the most from the limited labeled data and ample amount of unlabeled data, domain-specific real-world datasets often have characteristics that both reduce the effectiveness of off-the-shelf state-of-the-art methods and also provide opportunities to create new methods that exploit these characteristics. We propose and evaluate a semi-supervised method that reuses available labels for unlabeled images of a dataset by exploiting existing similarities, while dynamically weighting the impact of these reused labels in the training process. We evaluate our method on a large dataset of human decomposition images and find that our method, while conceptually simple, outperforms state-of-the-art consistency and pseudo-labeling-base d methods for the segmentation of this dataset. This paper includes graphic content of human decomposition.
翻訳日:2022-02-26 04:08:50 公開日:2022-02-24
# (参考訳) ロバスト確率的時系列予測 [全文訳有]

Robust Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2202.11910v1 )

ライセンス: CC BY 4.0
TaeHo Yoon, Youngsuk Park, Ernest K. Ryu, Yuyang Wang(参考訳) 確率的時系列予測は不確実性を定量化する能力のために意思決定プロセスにおいて重要な役割を果たす。 しかし、深い予測モデルは入力摂動を起こしやすい可能性があり、そのような摂動の概念と堅牢性の概念は、確率的予測の方法では、完全に確立されていない。 本研究では,ロバスト確率時系列予測のためのフレームワークを提案する。 まず, 逆入力摂動の概念を一般化し, 境界ワッサースタイン偏差の観点からロバスト性の概念を定式化する。 次に, 確率論的確率予測器を, 対向摂動のクラスに対して理論的頑健性証明で拡張する。 最後に,本手法は,加法的対向攻撃による予測品質の向上と雑音観測の補足による予測整合性向上に実証的に有効であることを示す。

Probabilistic time series forecasting has played critical role in decision-making processes due to its capability to quantify uncertainties. Deep forecasting models, however, could be prone to input perturbations, and the notion of such perturbations, together with that of robustness, has not even been completely established in the regime of probabilistic forecasting. In this work, we propose a framework for robust probabilistic time series forecasting. First, we generalize the concept of adversarial input perturbations, based on which we formulate the concept of robustness in terms of bounded Wasserstein deviation. Then we extend the randomized smoothing technique to attain robust probabilistic forecasters with theoretical robustness certificates against certain classes of adversarial perturbations. Lastly, extensive experiments demonstrate that our methods are empirically effective in enhancing the forecast quality under additive adversarial attacks and forecast consistency under supplement of noisy observations.
翻訳日:2022-02-26 03:51:24 公開日:2022-02-24
# (参考訳) トランスフォーマーとロボットグラスピング:効率的なグラフ検出のためのコンテキストの展開 [全文訳有]

When Transformer Meets Robotic Grasping: Exploits Context for Efficient Grasp Detection ( http://arxiv.org/abs/2202.11911v1 )

ライセンス: CC BY 4.0
Shaochen Wang, Zhangli Zhou, and Zhen Kan(参考訳) 本稿では,ロボット把持検出のためのトランスフォーマーアーキテクチャであるtf-graspを提案する。 開発したTF-Graspフレームワークには2つの精巧な設計があり、視覚的な把握作業に適している。 最初の重要な設計は、ローカルウィンドウの注意を取り入れて、ローカルなコンテキスト情報と、把握可能なオブジェクトの詳細な特徴を捉えることです。 次に,クロスウィンドウの注意を,遠方の画素間の長期的な依存関係をモデル化するために適用する。 その後の把握検出のために、オブジェクト知識、環境構成、異なる視覚エンティティ間の関係を集約する。 2つ目の重要な設計は、スキップ接続で階層的なエンコーダ-デコーダアーキテクチャを構築し、エンコーダからデコーダまでの浅い機能を、マルチスケールの機能融合を可能にすることです。 この強力な注意機構により、TF-Graspは局所情報(オブジェクトの輪郭)を同時に取得でき、クラッタ内の異なる視覚概念間の関係のような長期接続をモデル化することができる。 広範な計算実験により、tf-graspは最先端の把持畳み込みモデルよりも優れた結果を達成し、コーネルおよびジャカード把持データセットにおいて97.99%と94.6%の精度を達成した。 7DoFのFranka Emika Pandaロボットを用いた実世界の実験も、さまざまなシナリオで見えない物体をつかむ能力を実証している。 コードと事前訓練されたモデルはhttps://github.com/W angShaoSUN/grasp-tra nsformerで入手できる。

In this paper, we present a transformer-based architecture, namely TF-Grasp, for robotic grasp detection. The developed TF-Grasp framework has two elaborate designs making it well suitable for visual grasping tasks. The first key design is that we adopt the local window attention to capture local contextual information and detailed features of graspable objects. Then, we apply the cross window attention to model the long-term dependencies between distant pixels. Object knowledge, environmental configuration, and relationships between different visual entities are aggregated for subsequent grasp detection. The second key design is that we build a hierarchical encoder-decoder architecture with skip-connections, delivering shallow features from encoder to decoder to enable a multi-scale feature fusion. Due to the powerful attention mechanism, the TF-Grasp can simultaneously obtain the local information (i.e., the contours of objects), and model long-term connections such as the relationships between distinct visual concepts in clutter. Extensive computational experiments demonstrate that the TF-Grasp achieves superior results versus state-of-art grasping convolutional models and attain a higher accuracy of 97.99% and 94.6% on Cornell and Jacquard grasping datasets, respectively. Real-world experiments using a 7DoF Franka Emika Panda robot also demonstrate its capability of grasping unseen objects in a variety of scenarios. The code and pre-trained models will be available at https://github.com/W angShaoSUN/grasp-tra nsformer
翻訳日:2022-02-26 03:16:50 公開日:2022-02-24
# (参考訳) シャプリー説明のためのオン・オフ・マニフォールド値関数の針のスレッディング [全文訳有]

Threading the Needle of On and Off-Manifold Value Functions for Shapley Explanations ( http://arxiv.org/abs/2202.11919v1 )

ライセンス: CC BY 4.0
Chih-Kuan Yeh, Kuan-Yun Lee, Frederick Liu, Pradeep Ravikumar(参考訳) 与えられたモデルの機能の重要性を定量化する、一般的な説明可能なAI(XAI)アプローチは、Shapley値経由である。 これらのShapley値は協調ゲームで発生し、XAIコンテキストでそれらを計算するための重要な要素は、機能のサブセットの「値」を計算し、機械学習モデルを協調ゲームに接続するいわゆる値関数である。 そのような値関数には、オンマンフォールド関数とオフマンフォールド関数の2つのカテゴリに分類され、それぞれ観察的視点と介入的視点を取る。 しかし、これらのクラスにはそれぞれの欠点があり、on-manifold値関数はkey axiomaticプロパティに違反し、計算コストが高いが、オフ-manifold値関数はデータ多様体にあまり注意を払わず、トレーニングされていない領域でモデルを評価する。 したがって、どの値関数を使用するかについてのコンセンサスはない。 本稿では,これらの既存の問題に加えて,両方の値関数のクラスが,低密度領域の逆操作に起因していることを示す。 我々は、モデルとデータ多様体の両方を一組の公理で尊重し、オフ多様体上の摂動に頑健な値関数のデシデラタを定式化し、これらの公理を満たす一意的な値関数が存在し、これをジョイントベースライン値関数と呼び、結果として得られたシャプリー値がジョイントベースラインシャプリー(jbshap)となり、実験におけるjbshapの有効性を検証する。

A popular explainable AI (XAI) approach to quantify feature importance of a given model is via Shapley values. These Shapley values arose in cooperative games, and hence a critical ingredient to compute these in an XAI context is a so-called value function, that computes the "value" of a subset of features, and which connects machine learning models to cooperative games. There are many possible choices for such value functions, which broadly fall into two categories: on-manifold and off-manifold value functions, which take an observational and an interventional viewpoint respectively. Both these classes however have their respective flaws, where on-manifold value functions violate key axiomatic properties and are computationally expensive, while off-manifold value functions pay less heed to the data manifold and evaluate the model on regions for which it wasn't trained. Thus, there is no consensus on which class of value functions to use. In this paper, we show that in addition to these existing issues, both classes of value functions are prone to adversarial manipulations on low density regions. We formalize the desiderata of value functions that respect both the model and the data manifold in a set of axioms and are robust to perturbation on off-manifold regions, and show that there exists a unique value function that satisfies these axioms, which we term the Joint Baseline value function, and the resulting Shapley value the Joint Baseline Shapley (JBshap), and validate the effectiveness of JBshap in experiments.
翻訳日:2022-02-26 03:01:46 公開日:2022-02-24
# (参考訳) 現代代名詞の世界へようこそ: 性を超えたアイデンティティ・インクルーシブ自然言語処理 [全文訳有]

Welcome to the Modern World of Pronouns: Identity-Inclusive Natural Language Processing beyond Gender ( http://arxiv.org/abs/2202.11923v1 )

ライセンス: CC BY 4.0
Anne Lauscher, Archie Crowley, Dirk Hovy(参考訳) 代名詞の世界は変わりつつある。 少数のメンバーを持つ閉語のクラスから、アイデンティティを反映するよりオープンな用語のセットまで。 しかし、NLP(Natural Language Processing)はこの言語シフトをほとんど反映していない。 特に問題なのは、現在のモデル3人称代名詞であり、ネオプロ名詞のような様々な現象、すなわち(まだ)広く確立されていない新しい代名詞集合を無視している。 この欠落は、例えば非バイナリ個人のような、辺限化群と下限群の識別に寄与する。 しかし、現在のNLP技術では、性別以外の他のアイデンティティ表現現象も無視されている。 本稿では,NLPにおける3人称代名詞問題の概要について述べる。 我々の観察と倫理的考察に基づき、言語技術における代名詞のモデル化のための一連のデシデラタを定義した。 我々は,これらのデシデラタを定性的に評価し,確立したベンチマークデータに対する差別のないアプローチの影響を定量化する。

The world of pronouns is changing. From a closed class of words with few members to a much more open set of terms to reflect identities. However, Natural Language Processing (NLP) is barely reflecting this linguistic shift, even though recent work outlined the harms of gender-exclusive language technology. Particularly problematic is the current modeling 3rd person pronouns, as it largely ignores various phenomena like neopronouns, i.e., pronoun sets that are novel and not (yet) widely established. This omission contributes to the discrimination of marginalized and underrepresented groups, e.g., non-binary individuals. However, other identity-expression phenomena beyond gender are also ignored by current NLP technology. In this paper, we provide an overview of 3rd person pronoun issues for NLP. Based on our observations and ethical considerations, we define a series of desiderata for modeling pronouns in language technology. We evaluate existing and novel modeling approaches w.r.t. these desiderata qualitatively, and quantify the impact of a more discrimination-free approach on established benchmark data.
翻訳日:2022-02-26 02:25:22 公開日:2022-02-24
# (参考訳) カラー写真を用いた緑内障検診におけるコンピュータ支援診断とアウト・オブ・ディストリビューション検出 [全文訳有]

Computer Aided Diagnosis and Out-of-Distribution Detection in Glaucoma Screening Using Color Fundus Photography ( http://arxiv.org/abs/2202.11944v1 )

ライセンス: CC BY-SA 4.0
Satoshi Kondo, Satoshi Kasai, Kosuke Hirasawa(参考訳) RObust Glaucoma Screening (AIROGS) Challengeは、現実世界のシナリオに対して堅牢なカラーファンドス写真からの緑内障スクリーニングソリューションを開発するために開催される。 本報告では,airogsチャレンジに提案する手法について述べる。 本手法では畳み込みニューラルネットワークを用いて入力画像を「参照可能な緑内障」または「参照可能な緑内障なし」に分類する。 さらに,不規則な画像を特定するために,推定時アウトオブディストリビューション(OOD)検出手法を導入する。 ood検出は,活性化整流法を併用したエネルギーベース手法に基づく。

Artificial Intelligence for RObust Glaucoma Screening (AIROGS) Challenge is held for developing solutions for glaucoma screening from color fundus photography that are robust to real-world scenarios. This report describes our method submitted to the AIROGS challenge. Our method employs convolutional neural networks to classify input images to "referable glaucoma" or "no referable glaucoma". In addition, we introduce an inference-time out-of-distribution (OOD) detection method to identify ungradable images. Our OOD detection is based on an energy-based method combined with activation rectification.
翻訳日:2022-02-26 02:10:20 公開日:2022-02-24
# (参考訳) 知識グラフによる認知的意味コミュニケーションシステム [全文訳有]

Cognitive Semantic Communication Systems Driven by Knowledge Graph ( http://arxiv.org/abs/2202.11958v1 )

ライセンス: CC BY 4.0
Fuhui Zhou, Yihao Li, Xinyuan Zhang, Qihui Wu, Xianfu Lei and Rose Qingyang Hu(参考訳) 意味コミュニケーションはシャノン限界を突破する有望な技術として考えられている。 しかし、既存のセマンティックコミュニケーションフレームワークは推論やエラー訂正を含まないため、実現可能なパフォーマンスは制限される。 本稿では,この課題に対処するために,知識グラフを利用した認知意味コミュニケーションフレームワークを提案する。 さらに、三重項を意味記号として活用し、意味情報検出のための単純で汎用的で解釈可能な解法を開発した。 また、受信側がシンボルレベルで発生するエラーを訂正することもできる。 さらに、事前学習したモデルを微調整して意味情報を復元し、異なる長さの文を符号化するために固定ビット長符号を用いるという欠点を克服する。 公開WebNLGコーパスのシミュレーション結果から,提案システムはデータ圧縮率や通信の信頼性の観点から,他のベンチマークシステムよりも優れていることが示された。

Semantic communication is envisioned as a promising technique to break through the Shannon limit. However, the existing semantic communication frameworks do not involve inference and error correction, which limits the achievable performance. In this paper, in order to tackle this issue, a cognitive semantic communication framework is proposed by exploiting knowledge graph. Moreover, a simple, general and interpretable solution for semantic information detection is developed by exploiting triples as semantic symbols. It also allows the receiver to correct errors occurring at the symbolic level. Furthermore, the pre-trained model is fine-tuned to recover semantic information, which overcomes the drawback that a fixed bit length coding is used to encode sentences of different lengths. Simulation results on the public WebNLG corpus show that our proposed system is superior to other benchmark systems in terms of the data compression rate and the reliability of communication.
翻訳日:2022-02-26 02:06:50 公開日:2022-02-24
# (参考訳) 「真実ではないのか?」:スマートフォン調査によるバスの入出検知におけるユーザ検証の影響の分析 [全文訳有]

"Is not the truth the truth?": Analyzing the Impact of User Validations for Bus In/Out Detection in Smartphone-based Surveys ( http://arxiv.org/abs/2202.11961v1 )

ライセンス: CC BY 4.0
Valentino Servizi., Dan R. Persson, Francisco C. Pereira, Hannah Villadsen, Per B{\ae}kgaard, Inon Peled, Otto A. Nielsen(参考訳) 乗客の流れは、公共ネットワークを通してユーザーの行動の研究を可能にし、新しい施設やサービスの設計を支援する。 この流れは乗客とインフラの相互作用を通して観察される。 このタスクでは、bluetooth技術とスマートフォンが理想的なソリューションです。 後者のコンポーネントはユーザの識別、認証、請求を可能にし、一方前者はデバイス対デバイスという短い範囲の暗黙のインタラクションを許可する。 このようなユースケースの可能性を評価するためには、bluetooth signal and related machine learning (ml)分類器がリアルなコンテキストのノイズに対していかに堅牢であるかを検証する必要がある。 したがって、公共交通機関(BIBO)に対して二元式旅客状態をモデル化する。 biboラベルは、連続価値の乗客フローの基本構成要素を識別する。 本稿では,2つの経路を走行する2台の自律走行車,3つの停留所,18人のユーザ,および独自のスマートフォン・bluetoothセンシングプラットフォームを含む,半制御環境におけるヒューマン・コンピュータインタラクション実験的な設定について述べる。 得られたデータセットには、同じ事象を複数のセンサーが測定し、2つの地平線レベルが含まれており、1つは参加者による検証、2つ目は3台のビデオカメラによる監視バスとトラックである。 スマートフォン調査で知られているようなラベル付け過程におけるヒューマンエラーをエミュレートするためのラベルフリップのモンテカルロシミュレーションを行い、次に、このようなフリップラベルをML分類器の教師あり訓練に使用した。 モデルの性能バイアスに対するエラーの影響は大きい。 その結果、人間またはマシンエラーによるラベルフリップに対するML耐性が最大30%まで向上した。

Passenger flow allows the study of users' behavior through the public network and assists in designing new facilities and services. This flow is observed through interactions between passengers and infrastructure. For this task, Bluetooth technology and smartphones represent the ideal solution. The latter component allows users' identification, authentication, and billing, while the former allows short-range implicit interactions, device-to-device. To assess the potential of such a use case, we need to verify how robust Bluetooth signal and related machine learning (ML) classifiers are against the noise of realistic contexts. Therefore, we model binary passenger states with respect to a public vehicle, where one can either be-in or be-out (BIBO). The BIBO label identifies a fundamental building block of continuously-valued passenger flow. This paper describes the Human-Computer interaction experimental setting in a semi-controlled environment, which involves: two autonomous vehicles operating on two routes, serving three bus stops and eighteen users, as well as a proprietary smartphone-Bluetooth sensing platform. The resulting dataset includes multiple sensors' measurements of the same event and two ground-truth levels, the first being validation by participants, the second by three video-cameras surveilling buses and track. We performed a Monte-Carlo simulation of labels-flip to emulate human errors in the labeling process, as is known to happen in smartphone surveys; next we used such flipped labels for supervised training of ML classifiers. The impact of errors on model performance bias can be large. Results show ML tolerance to label flips caused by human or machine errors up to 30%.
翻訳日:2022-02-26 01:57:14 公開日:2022-02-24
# (参考訳) スマートフォン/バスによる大規模乗客検出と多感覚非教師型因果学習 [全文訳有]

Large Scale Passenger Detection with Smartphone/Bus Implicit Interaction and Multisensory Unsupervised Cause-effect Learning ( http://arxiv.org/abs/2202.11962v1 )

ライセンス: CC BY 4.0
Valentino Servizi, Dan R. Persson, Francisco C. Pereira, Hannah Villadsen, Per B{\ae}kgaard, Jeppe Rich, Otto A. Nielsen(参考訳) インテリジェント・トランスポーテーション・システム(its)は、モビリティ・アズ・ア・サービス(maas: mobility as a service)の概念を基礎としており、オペレーターの比例的な収益分配を可能にしつつ、複数の公共およびプライベート・トランスポーテーション・システム間での普遍的かつシームレスなユーザーアクセスを必要とする。 WIWO(Walk-in/Walk-ou t)やCICO(Check-in/Check- out)といった現在のユーザセンシング技術は、大規模デプロイメントのスケーラビリティに制限がある。 これらの制限は、ITSが分析、最適化、収益分配の計算、MaaSの快適さ、安全性、効率の制御をサポートすることを妨げている。 我々は、暗黙的なBe-in/Be-out(BIBO)スマートフォンセンシングと分類の概念に焦点を当てる。 このギャップを埋めてスマートフォンをMaaSに拡張するために,バスとスマートフォンの両方のBLEデバイスから,同時代のBluetooth Low Energy(BLE)信号を収集する独自のスマートフォンセンシングプラットフォームを開発した。 そこで本研究では,BLEの擬似ラベルに対するGPS特徴量に基づくモデルのトレーニングを実現するために,CEMWA(So caused-Effect Multitask Wasserstein Autoencoder)を提案する。 CEMWAは、Wassersteinオートエンコーダとニューラルネットワークに関するいくつかのフレームワークを組み合わせて拡張する。 次元削減ツールとして,CEMWAは,移動システム内のユーザのスマートフォンを記述した潜在空間の自動検証表現を求める。 この表現はDBSCANによるBIBOクラスタリングを可能にする。 我々はcemwaの代替アーキテクチャと最善の教師付き手法に対するベンチマークについてアブレーション研究を行う。 ラベル品質に対する性能の感度を分析する。 正確な基底真理の na\ な仮定の下で、XGBoost は CEMWA より優れている。 XGBoost と Random Forest はラベルノイズに耐性があることが証明されているが、CEMWA は設計によってラベルノイズに非依存であり、88 % F1 スコアで最高のパフォーマンスを提供する。

Intelligent Transportation Systems (ITS) underpin the concept of Mobility as a Service (MaaS), which requires universal and seamless users' access across multiple public and private transportation systems while allowing operators' proportional revenue sharing. Current user sensing technologies such as Walk-in/Walk-out (WIWO) and Check-in/Check-out (CICO) have limited scalability for large-scale deployments. These limitations prevent ITS from supporting analysis, optimization, calculation of revenue sharing, and control of MaaS comfort, safety, and efficiency. We focus on the concept of implicit Be-in/Be-out (BIBO) smartphone-sensing and classification. To close the gap and enhance smartphones towards MaaS, we developed a proprietary smartphone-sensing platform collecting contemporary Bluetooth Low Energy (BLE) signals from BLE devices installed on buses and Global Positioning System (GPS) locations of both buses and smartphones. To enable the training of a model based on GPS features against the BLE pseudo-label, we propose the Cause-Effect Multitask Wasserstein Autoencoder (CEMWA). CEMWA combines and extends several frameworks around Wasserstein autoencoders and neural networks. As a dimensionality reduction tool, CEMWA obtains an auto-validated representation of a latent space describing users' smartphones within the transport system. This representation allows BIBO clustering via DBSCAN. We perform an ablation study of CEMWA's alternative architectures and benchmark against the best available supervised methods. We analyze performance's sensitivity to label quality. Under the na\"ive assumption of accurate ground truth, XGBoost outperforms CEMWA. Although XGBoost and Random Forest prove to be tolerant to label noise, CEMWA is agnostic to label noise by design and provides the best performance with an 88\% F1 score.
翻訳日:2022-02-26 01:29:39 公開日:2022-02-24
# (参考訳) ネイブベイズ重み付き適応2次元核融合特性の一般フレームワーク

A general framework for adaptive two-index fusion attribute weighted naive Bayes ( http://arxiv.org/abs/2202.11963v1 )

ライセンス: CC BY 4.0
Xiaoliang Zhou, Dongyang Wu, Zitong You, Li Zhang, Ning Ye(参考訳) Naive Bayes(NB)はデータマイニングに不可欠なアルゴリズムの1つである。 しかし、属性が独立した仮定のため、現実には滅多に使われない。 研究者はこの仮定を緩和するために多くの改良されたNB法を提案した。 これらの方法のうち、高い効率と実装の容易さから、フィルタ属性重み付きnb法が注目されている。 しかし、シングルインデックスの表現能力の貧弱さと2つのインデックスの融合問題など、いくつかの課題がある。 以上の課題を克服するために,適応2次元核融合属性重み付きNB(ATFNB)の一般的なフレームワークを提案する。 データ記述カテゴリの2つのタイプは、クラスと属性の相関、それぞれ属性と属性の相関を表すために使用される。 ATFNBは各カテゴリから任意のインデックスを選択することができる。 次に、2つのインデックスを融合させるスイッチング係数 \{beta} を導入し、様々なデータセット上の2つのインデックスの最適な比率を適応的に調整する。 また, スイッチング係数{beta} の最適間隔を推定するために, 高速アルゴリズムを提案する。 最後に、各属性の重みを最適値 \{beta} を用いて算出し、NB分類器に統合して精度を向上させる。 50のベンチマークデータセットとFraviaデータセットの実験結果は、AFFNBが基本的NBと最先端のフィルタ重み付けNBモデルより優れていることを示している。 さらに、atfnbフレームワークは適応スイッチング係数 \{beta} を導入することで、既存の2インデックスnbモデルを改善することができる。 補助実験の結果,適応スイッチング係数 \{beta} を必要とせず,従来のモデルと比較して精度が大幅に向上した。

Naive Bayes(NB) is one of the essential algorithms in data mining. However, it is rarely used in reality because of the attribute independent assumption. Researchers have proposed many improved NB methods to alleviate this assumption. Among these methods, due to high efficiency and easy implementation, the filter attribute weighted NB methods receive great attentions. However, there still exists several challenges, such as the poor representation ability for single index and the fusion problem of two indexes. To overcome above challenges, we propose a general framework for Adaptive Two-index Fusion attribute weighted NB(ATFNB). Two types of data description category are used to represent the correlation between classes and attributes, intercorrelation between attributes and attributes, respectively. ATFNB can select any one index from each category. Then, we introduce a switching factor \{beta} to fuse two indexes, which can adaptively adjust the optimal ratio of the two index on various datasets. And a quick algorithm is proposed to infer the optimal interval of switching factor \{beta}. Finally, the weight of each attribute is calculated using the optimal value \{beta} and is integrated into NB classifier to improve the accuracy. The experimental results on 50 benchmark datasets and a Flavia dataset show that ATFNB outperforms the basic NB and state-of-the-art filter weighted NB models. In addition, the ATFNB framework can improve the existing two-index NB model by introducing the adaptive switching factor \{beta}. Auxiliary experimental results demonstrate the improved model significantly increases the accuracy compared to the original model without the adaptive switching factor \{beta}.
翻訳日:2022-02-26 01:09:57 公開日:2022-02-24
# (参考訳) N-QGN:クアドツリー生成ネットワークを用いた単眼カメラからのナビゲーションマップ [全文訳有]

N-QGN: Navigation Map from a Monocular Camera using Quadtree Generating Networks ( http://arxiv.org/abs/2202.11982v1 )

ライセンス: CC BY 4.0
Daniel Braun, Olivier Morel, Pascal Vasseur, C\'edric Demonceaux(参考訳) 特に自己教師付きネットワークは、教師付きおよびステレオ方式でギャップを橋渡しする良い結果をもたらしているため、ここ数年の間、単眼深度推定は一般的な研究分野であった。 しかし、これらのアプローチは、密集した3d再構成や、自律的なナビゲーションに余計な細部に注目している。 本稿では,クワッドツリー表現に基づくナビゲーションマップを推定することにより,この問題に対処することを提案する。 その目的は、障害物回避に不可欠な詳細だけを抽出する適応的深度マップ予測を作ることである。 ナビゲーション用の大きな空間を残した他の3D空間には、ほぼ近い距離が設けられる。 kittiデータセットの実験により,本手法は精度を損なうことなく,出力情報量を大幅に削減できることを示した。

Monocular depth estimation has been a popular area of research for several years, especially since self-supervised networks have shown increasingly good results in bridging the gap with supervised and stereo methods. However, these approaches focus their interest on dense 3D reconstruction and sometimes on tiny details that are superfluous for autonomous navigation. In this paper, we propose to address this issue by estimating the navigation map under a quadtree representation. The objective is to create an adaptive depth map prediction that only extract details that are essential for the obstacle avoidance. Other 3D space which leaves large room for navigation will be provided with approximate distance. Experiment on KITTI dataset shows that our method can significantly reduce the number of output information without major loss of accuracy.
翻訳日:2022-02-26 01:08:38 公開日:2022-02-24
# (参考訳) GIAOTracker: VisDrone 2021におけるグローバル情報と最適化戦略を備えたMCMOTの包括的なフレームワーク

GIAOTracker: A comprehensive framework for MCMOT with global information and optimizing strategies in VisDrone 2021 ( http://arxiv.org/abs/2202.11983v1 )

ライセンス: CC BY 4.0
Yunhao Du, Junfeng Wan, Yanyun Zhao, Binyu Zhang, Zhihang Tong, Junhao Dong(参考訳) 近年、複数のオブジェクト追跡タスクのためのアルゴリズムは、深いモデルとビデオ品質の大幅な進歩から恩恵を受けている。 しかし、ドローンビデオのような難しいシナリオでは、小さな物体やカメラの動き、ビューの変更といった問題に苦しんでいる。 本稿では,Global Information And some Optimizing Strategy, GIAOTracker を用いた新しいマルチオブジェクトトラッカーを提案する。 オンライン追跡、グローバルリンク、後処理の3段階で構成されている。 各フレームで検知されると、第1ステージはカメラの動き、物体の動き、物体の外観などの情報を用いて信頼できるトラックレットを生成する。 そして、グローバルな手がかりを利用して軌道に関連付けられ、4つの後処理手法によって洗練される。 3つのステージの有効性により、IAOTrackerはVisDrone MOTデータセット上で最先端のパフォーマンスを達成し、VisDrone2021 MOTチャレンジで3位を獲得した。

In recent years, algorithms for multiple object tracking tasks have benefited from great progresses in deep models and video quality. However, in challenging scenarios like drone videos, they still suffer from problems, such as small objects, camera movements and view changes. In this paper, we propose a new multiple object tracker, which employs Global Information And some Optimizing strategies, named GIAOTracker. It consists of three stages, i.e., online tracking, global link and post-processing. Given detections in every frame, the first stage generates reliable tracklets using information of camera motion, object motion and object appearance. Then they are associated into trajectories by exploiting global clues and refined through four post-processing methods. With the effectiveness of the three stages, GIAOTracker achieves state-of-the-art performance on the VisDrone MOT dataset and wins the 3rd place in the VisDrone2021 MOT Challenge.
翻訳日:2022-02-26 00:57:31 公開日:2022-02-24
# (参考訳) ディープニューラルネットワークはプロセスモデル構造を学習できるか? 評価の枠組みと分析 [全文訳有]

Can deep neural networks learn process model structure? An assessment framework and analysis ( http://arxiv.org/abs/2202.11985v1 )

ライセンス: CC BY 4.0
Jari Peeperkorn and Seppe vanden Broucke and Jochen De Weerdt(参考訳) 予測プロセスの監視は、(ビジネス)プロセスにおける進行中のケースの予測に自身を悩ます。 予測タスクは通常、残り時間、結果、次のイベント、または完全なケースサフィックス予測に焦点を当てます。 近年,機械学習とディープラーニングを用いた様々な手法が提案されている。 特に、長期記憶ネット(LSTM)のようなリカレントニューラルネットワーク(RNN)の人気が高まっている。 しかし、そのようなニューラルネットワークベースのモデルが基盤となるプロセスモデルの構造を真に学習できるかどうかについての研究は行われていない。 例えば、そのようなニューラルネットワークは並列動作やループを効果的に学習できますか? そこで本研究では,プロセスモデル構造を学習する深層学習モデルの能力の測定に特化して,新しい適合度,精度,一般化指標を補完する評価手法を提案する。 我々は,このフレームワークを制御-フローの単純な振る舞いを持つ複数のプロセスモデルに適用し,次のイベント予測のタスクに適用する。 以上の結果から, 単純なモデルであっても, プロセスモデル構造を学習するためには, オーバーフィッティング対策を慎重に調整する必要があることがわかった。

Predictive process monitoring concerns itself with the prediction of ongoing cases in (business) processes. Prediction tasks typically focus on remaining time, outcome, next event or full case suffix prediction. Various methods using machine and deep learning havebeen proposed for these tasks in recent years. Especially recurrent neural networks (RNNs) such as long short-term memory nets (LSTMs) have gained in popularity. However, no research focuses on whether such neural network-based models can truly learn the structure of underlying process models. For instance, can such neural networks effectively learn parallel behaviour or loops? Therefore, in this work, we propose an evaluation scheme complemented with new fitness, precision, and generalisation metrics, specifically tailored towards measuring the capacity of deep learning models to learn process model structure. We apply this framework to several process models with simple control-flow behaviour, on the task of next-event prediction. Our results show that, even for such simplistic models, careful tuning of overfitting countermeasures is required to allow these models to learn process model structure.
翻訳日:2022-02-26 00:56:35 公開日:2022-02-24
# (参考訳) アクター中心の効果的な人-物体相互作用検出 [全文訳有]

Effective Actor-centric Human-object Interaction Detection ( http://arxiv.org/abs/2202.11998v1 )

ライセンス: CC BY 4.0
Kunlun Xu and Zhimin Li and Zhijun Zhang and Leizhen Dong and Wenhui Xu and Luxin Yan and Sheng Zhong and Xu Zou(参考訳) 人間と物体の相互作用(HOI)の検出は近年大きな進歩を遂げていますが、複数の人間や画像に現れる物体との複雑な相互作用により、必然的に曖昧さを招きます。 既存の手法では、全ての対象と対象の対の候補を生成し、局所的な特徴を2段階に並べて推測するか、1段階の手続きで直接相互作用点を予測するかのどちらかである。 しかし、2段法や1段法の空間的構成や推論手順の欠如は、複雑な場面での性能を制限している。 この曖昧さを避けるため,我々は新しいアクタ中心の枠組みを提案する。 主な考え方は、相互作用を推測するとき: 1)アクター位置で案内された画像全体の非局所的特徴を求め、アクターとコンテキストの関係をモデル化する。 2) オブジェクト分岐を用いて, 相互作用領域が対象中心領域を表す画素単位の相互作用領域予測を生成する。 さらに,アクター分岐を用いてアクターのインタラクション予測を行い,中心点インデックスに基づく新しい構成戦略を提案し,最終的なHOI予測を生成する。 提案手法は,非局所的特徴の活用と人物体合成戦略の部分結合性により,複雑な画像に対してより正確にHOIを検出することができる。 実験結果から,本手法はV-COCOおよびHICO-DETベンチマークの最先端性を達成し,特に複数の人物やオブジェクトシーンにおいてより堅牢であることがわかった。

While Human-Object Interaction(HOI) Detection has achieved tremendous advances in recent, it still remains challenging due to complex interactions with multiple humans and objects occurring in images, which would inevitably lead to ambiguities. Most existing methods either generate all human-object pair candidates and infer their relationships by cropped local features successively in a two-stage manner, or directly predict interaction points in a one-stage procedure. However, the lack of spatial configurations or reasoning steps of two- or one- stage methods respectively limits their performance in such complex scenes. To avoid this ambiguity, we propose a novel actor-centric framework. The main ideas are that when inferring interactions: 1) the non-local features of the entire image guided by actor position are obtained to model the relationship between the actor and context, and then 2) we use an object branch to generate pixel-wise interaction area prediction, where the interaction area denotes the object central area. Moreover, we also use an actor branch to get interaction prediction of the actor and propose a novel composition strategy based on center-point indexing to generate the final HOI prediction. Thanks to the usage of the non-local features and the partly-coupled property of the human-objects composition strategy, our proposed framework can detect HOI more accurately especially for complex images. Extensive experimental results show that our method achieves the state-of-the-art on the challenging V-COCO and HICO-DET benchmarks and is more robust especially in multiple persons and/or objects scenes.
翻訳日:2022-02-26 00:45:16 公開日:2022-02-24
# (参考訳) 視覚トランスフォーマーにおけるトークンのマージを学ぶ [全文訳有]

Learning to Merge Tokens in Vision Transformers ( http://arxiv.org/abs/2202.12015v1 )

ライセンス: CC BY 4.0
Cedric Renggli, Andr\'e Susano Pinto, Neil Houlsby, Basil Mustafa, Joan Puigcerver, Carlos Riquelme(参考訳) トランスフォーマーは自然言語理解やコンピュータビジョンタスクの解決に広く応用されている。 これらのアーキテクチャのスケールアップによってパフォーマンスが向上する一方、計算コストがはるかに高くなることが少なくない。 大規模モデルが現実のシステムで実用化されるためには,計算オーバーヘッドを減らす必要がある。 この作業では、ネットワークが処理しなければならないパッチやトークンの数を2つの連続する中間層間でマージするシンプルなモジュールであるPatchMergerを紹介します。 PatchMergerは、様々なモデルサイズで大幅な高速化を実現し、微調整後、元の性能を上流と下流の両方に適合させることを示した。

Transformers are widely applied to solve natural language understanding and computer vision tasks. While scaling up these architectures leads to improved performance, it often comes at the expense of much higher computational costs. In order for large-scale models to remain practical in real-world systems, there is a need for reducing their computational overhead. In this work, we present the PatchMerger, a simple module that reduces the number of patches or tokens the network has to process by merging them between two consecutive intermediate layers. We show that the PatchMerger achieves a significant speedup across various model sizes while matching the original performance both upstream and downstream after fine-tuning.
翻訳日:2022-02-26 00:24:45 公開日:2022-02-24
# (参考訳) SVMを用いた新生児発作検出アルゴリズムの一般化性、非不妊症、臨床効果の検証 [全文訳有]

Validating an SVM-based neonatal seizure detection algorithm for generalizability, non-inferiority and clinical efficacy ( http://arxiv.org/abs/2202.12023v1 )

ライセンス: CC BY 4.0
Karoliina T. Tapani, P\"aivi Nevalainen, Sampsa Vanhatalo, Nathan J. Stevenson(参考訳) 新生児発作検出アルゴリズム(SDA)は、ヒトのエキスパートアノテーションのベンチマークに近づいている。 新生児SDA成績の全範囲を評価するためには,アルゴリズムの一般化可能性,非偽性,および臨床効果の測定が必要である。 新生児SDAを28人の新生児の独立したデータセットで検証した。 一般化性は、元のトレーニングセット(クロスバリデーション)のパフォーマンスと検証セットのパフォーマンスを比較して検証した。 非干渉性はsdaと2つの人間専門家のアノテーションの組み合わせによるオブザーバ間の合意を評価することによって検証された。 臨床効果は、SDAとヒトの専門家が発作の重荷を定量化し、脳波における発作活動の有意な期間を同定する方法を比較して検証した。 アルゴリズムの性能は, auc (p>0.05, n =28) では有意な悪化はみられなかった。 SDAの出力は人的専門家のアノテーションより劣ったが、データの多様性が増すにつれて再トレーニングの結果、非推論性能(\Delta\kappa$=0.077, 95% CI: -0.002-0.232, n=18)が得られた。 sdaによる発作負荷の評価は89-93%から87%の精度で臨床関心期間の特定が可能であった。 提案したSDAはヒト同値性に近づき,脳波の臨床的な解釈を提供する。

Neonatal seizure detection algorithms (SDA) are approaching the benchmark of human expert annotation. Measures of algorithm generalizability and non-inferiority as well as measures of clinical efficacy are needed to assess the full scope of neonatal SDA performance. We validated our neonatal SDA on an independent data set of 28 neonates. Generalizability was tested by comparing the performance of the original training set (cross-validation) to its performance on the validation set. Non-inferiority was tested by assessing inter-observer agreement between combinations of SDA and two human expert annotations. Clinical efficacy was tested by comparing how the SDA and human experts quantified seizure burden and identified clinically significant periods of seizure activity in the EEG. Algorithm performance was consistent between training and validation sets with no significant worsening in AUC (p>0.05, n =28). SDA output was inferior to the annotation of the human expert, however, re-training with an increased diversity of data resulted in non-inferior performance ($\Delta\kappa$=0.077, 95% CI: -0.002-0.232, n=18). The SDA assessment of seizure burden had an accuracy ranging from 89-93%, and 87% for identifying periods of clinical interest. The proposed SDA is approaching human equivalence and provides a clinically relevant interpretation of the EEG.
翻訳日:2022-02-26 00:13:11 公開日:2022-02-24
# (参考訳) NoisyTune: トレーニング済みの言語モデルを改善するための小さなノイズ [全文訳有]

NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better ( http://arxiv.org/abs/2202.12024v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang, Xing Xie(参考訳) 訓練済み言語モデル(PLM)を効果的に微調整することは、下流タスクの成功に不可欠である。 しかしながら、PLMは事前訓練の信号に過度に適合するリスクがあり、下流タスクと事前訓練タスクの間にはいくつかのギャップがある。 バニラ微調整法では、事前トレーニングと下流タスクの障壁を克服することが難しくなり、最適化性能が低下する可能性がある。 本稿では,plmのパラメータにノイズを加えることで,下流タスクにおけるplmの微調整を改善するための,非常に単純かつ効果的な手法を提案する。 より具体的には,各パラメータの標準偏差に応じて異なる一様ノイズを付加することにより,plmにおける異なるパラメータの異なる特性を考察できる行列回り摂動法を提案する。 GLUE EnglishベンチマークとXTREME Multilingualベンチマークの大規模な実験は、NoisyTuneが多くの下流タスクにおいて異なるPLMの性能を一貫して改善できることを示している。

Effectively finetuning pretrained language models (PLMs) is critical for their success in downstream tasks. However, PLMs may have risks in overfitting pretraining signals, and there are some gaps between downstream tasks and the pretraining tasks. It can be difficult for vanilla finetuning methods to overcome the barrier between pretraining and downstream tasks, which leads to suboptimal performance. In this paper, we propose a very simple yet effective method named NoisyTune which can help better finetune PLMs in downstream tasks by adding some noise to the parameters of PLMs before finetuning. More specifically, we propose a matrix-wise perturbing method by adding different uniform noises according to the standard deviations of different parameter matrices, which can consider the varied characteristics of different types of parameters in PLMs. Extensive experiments on the GLUE English benchmark and the XTREME multilingual benchmark show that NoisyTune can consistently improve the performance of different PLMs in many downstream tasks.
翻訳日:2022-02-26 00:00:04 公開日:2022-02-24
# (参考訳) 倫理的意思決定支援のためのメタ認知エージェント:概念モデルと研究ロードマップ [全文訳有]

Metacognitive Agents for Ethical Decision Support: Conceptual Model and Research Roadmap ( http://arxiv.org/abs/2202.12039v1 )

ライセンス: CC BY 4.0
Catriona M. Kennedy(参考訳) 倫理的価値-行動ギャップは、意図と行動の間に相違があるときに存在する。 この相違は、社会的および構造的障害と認知バイアスによって引き起こされる可能性がある。 認知と影響の計算モデルは、価値と行動のギャップとその低減方法に関する洞察を与えることができる。 特にメタ認知(思考について考える)は、これらのモデルの多くにおいて、自己統制と精神的な態度の推論のメカニズムとして重要な役割を果たす。 本稿では,認知影響モデルからアシスタントエージェントへの変換のロードマップを概説する。

An ethical value-action gap exists when there is a discrepancy between intentions and actions. This discrepancy may be caused by social and structural obstacles as well as cognitive biases. Computational models of cognition and affect can provide insights into the value-action gap and how it can be reduced. In particular, metacognition ("thinking about thinking") plays an important role in many of these models as a mechanism for self-regulation and reasoning about mental attitudes. This paper outlines a roadmap for translating cognitive-affective models into assistant agents to help make value-aligned decisions.
翻訳日:2022-02-25 23:52:02 公開日:2022-02-24
# (参考訳) DP-SGDアクロス設定の不公平性の探索 [全文訳有]

Exploring the Unfairness of DP-SGD Across Settings ( http://arxiv.org/abs/2202.12058v1 )

ライセンス: CC BY 4.0
Frederik Noe, Rasmus Herskind, Anders S{\o}gaard(参考訳) エンドユーザと規制当局には、プライベートで公正な人工知能モデルが必要だが、以前の研究によると、これらの目的が相反する可能性がある。 我々はCivilCommentsを使用して、いくつかの公正度指標を通して、プライバシー、DP-SGDへの標準アプローチの適用の影響を評価する。 DP-SGDの3つの実装として,次元還元(PCA),線形分類(ロジスティック回帰),頑健な深層学習(Group-DRO)を評価した。 線形分類と強固なディープラーニングでは,プライバシと公平性との間に負の対数相関関係が確立される。 DP-SGDはPCAの公平性に有意な影響を与えなかったが,検査では私的表現にも影響しなかった。

End users and regulators require private and fair artificial intelligence models, but previous work suggests these objectives may be at odds. We use the CivilComments to evaluate the impact of applying the {\em de facto} standard approach to privacy, DP-SGD, across several fairness metrics. We evaluate three implementations of DP-SGD: for dimensionality reduction (PCA), linear classification (logistic regression), and robust deep learning (Group-DRO). We establish a negative, logarithmic correlation between privacy and fairness in the case of linear classification and robust deep learning. DP-SGD had no significant impact on fairness for PCA, but upon inspection, also did not seem to lead to private representations.
翻訳日:2022-02-25 23:39:04 公開日:2022-02-24
# (参考訳) 決定木における干渉経路: deodata 予測系について [全文訳有]

Interfering Paths in Decision Trees: A Note on Deodata Predictors ( http://arxiv.org/abs/2202.12064v1 )

ライセンス: CC BY 4.0
Cristian Alb(参考訳) 決定木の予測精度を向上させる手法を提案する。 木の枝を複数の経路で並列に評価する。 この技術は、デオデータアルゴリズムの最も近い近傍変種によって生成される予測とより整合した予測を可能にする。 この手法は、決定木アルゴリズムと最も近い近傍変種とのハイブリダイゼーションを可能にする。

A technique for improving the prediction accuracy of decision trees is proposed. It consists in evaluating the tree's branches in parallel over multiple paths. The technique enables predictions that are more aligned with the ones generated by the nearest neighborhood variant of the deodata algorithms. The technique also enables the hybridization of the decision tree algorithm with the nearest neighborhood variant.
翻訳日:2022-02-25 23:30:25 公開日:2022-02-24
# (参考訳) 活性化関数:最適な活性化関数を作る [全文訳有]

Activation Functions: Dive into an optimal activation function ( http://arxiv.org/abs/2202.12065v1 )

ライセンス: CC0 1.0
Vipul Bansal(参考訳) 活性化関数はニューラルネットワークの重要な構成要素の1つである。 適切なアクティベーション関数の選択は、これらの手法の精度に影響を与える可能性がある。 本研究では,既存のアクティベーション関数の重み付け和として定義し,その重み付けをネットワークをトレーニングしながらさらに最適化することで,最適なアクティベーション関数を求める実験を行った。 この研究では、MNIST、FashionMNIST、KMNISTという3つの人気のある画像データセットに対して、ReLU、tanh、 sinという3つのアクティベーション関数を使用している。 reluアクティベーション関数は、他のアクティベーション関数を簡単に見過ごせることを観察する。 また,初期層はrelu型や leakyrelu型のアクティベーション関数を好むが,より深い層はより収束型のアクティベーション関数を好む傾向がある。

Activation functions have come up as one of the essential components of neural networks. The choice of adequate activation function can impact the accuracy of these methods. In this study, we experiment for finding an optimal activation function by defining it as a weighted sum of existing activation functions and then further optimizing these weights while training the network. The study uses three activation functions, ReLU, tanh, and sin, over three popular image datasets, MNIST, FashionMNIST, and KMNIST. We observe that the ReLU activation function can easily overlook other activation functions. Also, we see that initial layers prefer to have ReLU or LeakyReLU type of activation functions, but deeper layers tend to prefer more convergent activation functions.
翻訳日:2022-02-25 23:27:19 公開日:2022-02-24
# (参考訳) SQuadMDS: t-SNE や UMAP などの隣接する埋め込みにおけるグローバルな構造保存を改善するリーン確率四重項MDS [全文訳有]

SQuadMDS: a lean Stochastic Quartet MDS improving global structure preservation in neighbor embedding like t-SNE and UMAP ( http://arxiv.org/abs/2202.12087v1 )

ライセンス: CC BY 4.0
Pierre Lambert, Cyril de Bodt, Michel Verleysen, John Lee(参考訳) 多次元スケーリング(multidimensional scaling)は、高次元データを低次元空間に組み込むことを目的とした統計処理である。 一般的な多次元スケーリングアルゴリズムは計算複雑性が高く、大規模なデータセットでは適用できない。 この研究は、O(N) の時間と空間の複雑さと N 個のデータポイントを持つ多次元スケーリングに対する確率的で力によるアプローチを導入する。 この方法は、t-SNEのような近隣の埋め込みファミリーの強制的レイアウトと組み合わせて、データのグローバル構造とローカル構造の両方を保存する埋め込みを生成することができる。 実験では、スタンドアロンバージョンとそのハイブリッド拡張の質を定量的かつ質的に評価し、最先端のアプローチよりも優れた競争結果を示す。 コードはhttps://github.com/P ierreLambert3/SQuaD- MDS-and-FItSNE-hybri dで公開されている。

Multidimensional scaling is a statistical process that aims to embed high dimensional data into a lower-dimensional space; this process is often used for the purpose of data visualisation. Common multidimensional scaling algorithms tend to have high computational complexities, making them inapplicable on large data sets. This work introduces a stochastic, force directed approach to multidimensional scaling with a time and space complexity of O(N), with N data points. The method can be combined with force directed layouts of the family of neighbour embedding such as t-SNE, to produce embeddings that preserve both the global and the local structures of the data. Experiments assess the quality of the embeddings produced by the standalone version and its hybrid extension both quantitatively and qualitatively, showing competitive results outperforming state-of-the-art approaches. Codes are available at https://github.com/P ierreLambert3/SQuaD- MDS-and-FItSNE-hybri d.
翻訳日:2022-02-25 23:21:48 公開日:2022-02-24
# (参考訳) データ変異を考慮した医用画像セグメンテーション [全文訳有]

Data variation-aware medical image segmentation ( http://arxiv.org/abs/2202.12099v1 )

ライセンス: CC BY 4.0
Arkadiy Dushatskiy, Gerry Lowe, Peter A. N. Bosman, Tanja Alderliesten(参考訳) 深層学習アルゴリズムは、医療画像データのセグメンテーションの黄金の標準となっている。 ほとんどの研究において、実際の臨床データの変動性と多様性は依然として問題であると認識されている。 これを自動的に克服する1つの方法は、このバリエーションを明示的に捕捉し、活用することである。 本稿では,この領域におけるこれまでの研究を改善させるアプローチを提案し,(半)自動分節法の臨床受容をいかに改善できるかを説明する。 1つのセグメンテーションを生成する標準的なニューラルネットワークとは対照的に、データセットに存在するバリエーションに対応する複数のセグメンテーション変異を生成するマルチパスUnetネットワークを提案する。 ネットワークの異なるパスは、分離されたデータサブセットで訓練される。 事前にデータにどのようなバリエーションが存在するかは明らかでないため、サブセットは自動的に決定されるべきである。 これは進化的最適化アルゴリズムで最適なデータ分割を探索することで達成される。 各ネットワークパスは、より均質なデータサブセットでトレーニングすると、より専門化できるため、よりセグメンテーション品質が向上できる。 実用的には、様々な自動セグメンテーションを医療専門家に提示することができ、そこから好みのセグメンテーションを選択することができる。 前立腺分節によるCTスキャンの実際の臨床データセットを用いた実験では,全ネットワークパスがトレーニングデータに基づいてトレーニングされた場合と比較して,Diceおよび表面Dice係数のいくつかのパーセンテージが向上した。 明らかなことに、最も大きな改善は前立腺の上部で起こり、これはオブザーバー間のセグメンテーションの変動の最もやすいことが知られている。

Deep learning algorithms have become the golden standard for segmentation of medical imaging data. In most works, the variability and heterogeneity of real clinical data is acknowledged to still be a problem. One way to automatically overcome this is to capture and exploit this variation explicitly. Here, we propose an approach that improves on our previous work in this area and explain how it potentially can improve clinical acceptance of (semi-)automatic segmentation methods. In contrast to a standard neural network that produces one segmentation, we propose to use a multi-pathUnet network that produces multiple segmentation variants, presumably corresponding to the variations that reside in the dataset. Different paths of the network are trained on disjoint data subsets. Because a priori it may be unclear what variations exist in the data, the subsets should be automatically determined. This is achieved by searching for the best data partitioning with an evolutionary optimization algorithm. Because each network path can become more specialized when trained on a more homogeneous data subset, better segmentation quality can be achieved. In practical usage, various automatically produced segmentations can be presented to a medical expert, from which the preferred segmentation can be selected. In experiments with a real clinical dataset of CT scans with prostate segmentations, our approach provides an improvement of several percentage points in terms of Dice and surface Dice coefficients compared to when all network paths are trained on all training data. Noticeably, the largest improvement occurs in the upper part of the prostate that is known to be most prone to inter-observer segmentation variation.
翻訳日:2022-02-25 23:12:01 公開日:2022-02-24
# (参考訳) 変形可能な医用画像登録のためのトランスフォーマーベースネットワーク [全文訳有]

A Transformer-based Network for Deformable Medical Image Registration ( http://arxiv.org/abs/2202.12104v1 )

ライセンス: CC BY 4.0
Yibo Wang, Wen Qian and Xuming Zhang(参考訳) 変形可能な医療画像登録は臨床診断と治療において重要な役割を果たす。 近年,ディープラーニング(DL)に基づく画像登録手法が広く研究され,計算速度に優れた性能を示した。 しかし, 移動画像と固定画像のグローバルな特徴と局所的な特徴の両方を表現できないため, 十分な登録精度が得られない。 そこで本稿では,この問題を解決するため,トランスベース画像登録手法を提案する。 独特な変換器を用いて、登録された画像が教師なしの方法で生成される変形場を生成するための大域的および局所的な画像特徴を抽出する。 本手法は,自己照査機構とbiレベル情報フローにより,登録精度を効果的に向上できる。 LPBA40 や OASIS-1 などの脳MR画像データセットを用いた実験結果から,従来の DL ベース登録法と比較すると,ダイス値の登録精度が高いことがわかった。

Deformable medical image registration plays an important role in clinical diagnosis and treatment. Recently, the deep learning (DL) based image registration methods have been widely investigated and showed excellent performance in computational speed. However, these methods cannot provide enough registration accuracy because of insufficient ability in representing both the global and local features of the moving and fixed images. To address this issue, this paper has proposed the transformer based image registration method. This method uses the distinctive transformer to extract the global and local image features for generating the deformation fields, based on which the registered image is produced in an unsupervised way. Our method can improve the registration accuracy effectively by means of self-attention mechanism and bi-level information flow. Experimental results on such brain MR image datasets as LPBA40 and OASIS-1 demonstrate that compared with several traditional and DL based registration methods, our method provides higher registration accuracy in terms of dice values.
翻訳日:2022-02-25 23:02:47 公開日:2022-02-24
# (参考訳) 自然言語からシミュレーションへ:GPT-3コーデックスを応用してロジスティックスシステムの自動シミュレーションモデリング [全文訳有]

From Natural Language to Simulations: Applying GPT-3 Codex to Automate Simulation Modeling of Logistics Systems ( http://arxiv.org/abs/2202.12107v1 )

ライセンス: CC BY 4.0
Ilya Jackson and Maria Jesus Saenz(参考訳) 我々の研究は,ロジスティクスシステムのシミュレーションモデル開発を自動化すべく,自然言語処理を適用した最初の試みである。 我々は,細調整トランスドルマーに基づく言語モデル上に構築されたフレームワークが,言語記述からキューイングと在庫管理システムの機能的に有効なシミュレーションを作成できることを示した。 提案するフレームワークは,プログラミングの要点を排除し,問題と全体的思考の高レベルな考察に専門家が集中できる可能性を持っている。

Our work is the first attempt to apply Natural Language Processing to automate the development of simulation models of logistics systems. We demonstrated that the framework built on top of the fine-tuned Transdormer-based language model could produce functionally valid simulations of queuing and inventory control systems given the verbal description. The proposed framework has the potential to remove the tedium of programming and allow experts to focus on the high-level consideration of the problem and holistic thinking.
翻訳日:2022-02-25 22:53:48 公開日:2022-02-24
# (参考訳) 抽出のプロンプト? PAIE:イベント引数抽出のための引数相互作用のプロンプト [全文訳有]

Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction ( http://arxiv.org/abs/2202.12109v1 )

ライセンス: CC BY 4.0
Yubo Ma, Zehao Wang, Yixin Cao, Mukai Li, Meiqi Chen, Kun Wang, Jing Shao(参考訳) 本稿では,文レベルと文書レベルのイベント引数抽出(eae)の両方に対して有効かつ効率的なモデルpaieを提案する。 一方、PAIEは抽出目的の即時チューニングを利用して、事前学習言語モデル(PLM)の利点を最大限に活用する。 ロール毎に入力テキストの中から開始/終了トークンを選択するプロンプトに基づいて、2つのスパンセレクタを導入する。 一方,マルチロールプロンプトによる引数の相互作用を捕捉し,二部間マッチング損失による最適スパン代入による共同最適化を行う。 また、柔軟なプロンプト設計により、PAIEは従来のヒューリスティックしきい値チューニングの代わりに、同じ役割を持つ複数の引数を抽出することができる。 我々は文レベルと文書レベルのEAEを含む3つのベンチマークで広範な実験を行った。 その結果、PAIEから有望な改善が得られた(それぞれ1.1%、F1は3.8%)。 さらなる分析は、少数ショット設定への効率性、一般化、異なる抽出プロンプトチューニング戦略の有効性を示す。 私たちは受け入れ次第コードを公開します。

In this paper, we propose an effective yet efficient model PAIE for both sentence-level and document-level Event Argument Extraction (EAE), which also generalizes well when there is a lack of training data. On the one hand, PAIE utilizes prompt tuning for extractive objectives to take the best advantages of Pre-trained Language Models (PLMs). It introduces two span selectors based on prompt to select start/end tokens among input texts for each role. On the other hand, we capture argument interactions via multi-role prompts, and conduct joint optimization with optimal span assignments via a bipartite matching loss. Also, with flexible prompt design, PAIE can extract multiple arguments with the same role, instead of conventional heuristic threshold tuning. We have conducted extensive experiments on three benchmarks, including both sentence- and document-level EAE. The results present a promising improvements from PAIE (1.1% and 3.8% F1 gains on average in sentence-level and document-level respectively). Further analysis demonstrates the efficiency, generalization to few-shot settings and effectiveness of different extractive prompt tuning strategies. We will release our codes upon acceptance.
翻訳日:2022-02-25 22:44:40 公開日:2022-02-24
# (参考訳) スプリンク」は幸せで「フラウフ」は怖い:無意味な単語の感情インテンシティ分析 [全文訳有]

"splink" is happy and "phrouth" is scary: Emotion Intensity Analysis for Nonsense Words ( http://arxiv.org/abs/2202.12132v1 )

ライセンス: CC BY 4.0
Valentino Sabbatino, Enrica Troiano, Antje Schweitzer and Roman Klinger(参考訳) 人々は感情的な意味を言葉に関連付ける -- 「死」は怖く悲しく、一方「パーティー」は驚きと喜びで暗示される。 このことは、この協会が純粋に、意味的な意味に固有の学習された感情的輸入の産物であるのか、あるいは、形態学的および音韻学的パターンのような他の単語の特徴の影響であるのかという疑問を提起する。 非意味な単語を利用したアノテーションに基づく分析でこの問題にアプローチする。 具体的には, 参加者が喜び, 悲しみ, 怒り, 嫌悪, 恐怖, 驚きの強度スコアを, 272のナンセンスな単語に割り当て, 結果を過去の作品と比較し, 68実単語に割り当てる, クラウドソーシング・スタディを実施した。 この資源に基づき、文字レベルおよび音韻に基づく強度回帰器を開発し、実語およびナンセンス語、およびこれらカテゴリー(7493語のnrc感情強度レキシコンを用いて)で評価する。 データ分析の結果、いくつかの音声パターンは感情の強度の違いを明確に示していることがわかった。 例えば、最初の音素としてのsは喜びに寄与し、shは驚きに、pは怒りと恐怖よりも嫌悪に寄与する。 モデル実験では、NRC感情強度レキシコンから実単語を訓練した回帰器は、無意味な単語から感情の意味を純粋に学習することを目的とした回帰器よりも高い性能(r = 0.17)を示す。 人間は表層パターンに基づいて感情的な意味を持つだけでなく、既存の単語(「juy」から「joy」へ、「flike」から「like」へ)との類似性にも基づいていると結論づける。

People associate affective meanings to words -- "death" is scary and sad while "party" is connotated with surprise and joy. This raises the question if the association is purely a product of the learned affective imports inherent to semantic meanings, or is also an effect of other features of words, e.g., morphological and phonological patterns. We approach this question with an annotation-based analysis leveraging nonsense words. Specifically, we conduct a best-worst scaling crowdsourcing study in which participants assign intensity scores for joy, sadness, anger, disgust, fear, and surprise to 272 non-sense words and, for comparison of the results to previous work, to 68 real words. Based on this resource, we develop character-level and phonology-based intensity regressors and evaluate them on real and nonsense words, and across these categories (making use of the NRC emotion intensity lexicon of 7493 words). The data analysis reveals that some phonetic patterns show clear differences between emotion intensities. For instance, s as a first phoneme contributes to joy, sh to surprise, p as last phoneme more to disgust than to anger and fear. In the modelling experiments, a regressor trained on real words from the NRC emotion intensity lexicon shows a higher performance (r = 0.17) than regressors that aim at learning the emotion connotation purely from nonsense words. We conclude that humans do associate affective meaning to words based on surface patterns, but also based on similarities to existing words ("juy" to "joy", or "flike" to "like").
翻訳日:2022-02-25 22:24:22 公開日:2022-02-24
# (参考訳) リパラメトリゼーションのトリックが微分プライベートテキスト表現の傾きを破る方法 [全文訳有]

How reparametrization trick broke differentially-priva te text representation leaning ( http://arxiv.org/abs/2202.12138v1 )

ライセンス: CC BY-SA 4.0
Ivan Habernal(参考訳) NLPコミュニティのプライバシ向上に伴い、研究者はプライバシ保護手法にさまざまなアプローチを採用し始めている。 お気に入りのプライバシーフレームワークの1つ、差分プライバシー(DP)は、基本的な理論的保証のおかげでおそらく最も説得力がある。 差分プライバシーという一般的な概念の明らかな単純さにもかかわらず、NLPに適用する際、それを正しく行うのは簡単ではないように思える。 本稿では,dptext (beigi et al., 2019a,b, alnasser et al., 2021; beigi et al., 2021) を用いたテキスト表現学習を提案する最近のnlp論文を形式的に分析し,差分プライベートであるという虚偽の主張を明らかにする。 さらに、DP機構の実装がプライバシーの損失保証にほぼ確実に違反するかどうかを判定するために、単純な実証的な正当性チェックを示す。 私たちの主な目標は、意識を高め、テキスト表現学習に差分プライバシーを適用することの潜在的な落とし穴をコミュニティが理解できるようにすることです。

As privacy gains traction in the NLP community, researchers have started adopting various approaches to privacy-preserving methods. One of the favorite privacy frameworks, differential privacy (DP), is perhaps the most compelling thanks to its fundamental theoretical guarantees. Despite the apparent simplicity of the general concept of differential privacy, it seems non-trivial to get it right when applying it to NLP. In this short paper, we formally analyze several recent NLP papers proposing text representation learning using DPText (Beigi et al., 2019a,b; Alnasser et al., 2021; Beigi et al., 2021) and reveal their false claims of being differentially private. Furthermore, we also show a simple yet general empirical sanity check to determine whether a given implementation of a DP mechanism almost certainly violates the privacy loss guarantees. Our main goal is to raise awareness and help the community understand potential pitfalls of applying differential privacy to text representation learning.
翻訳日:2022-02-25 22:04:27 公開日:2022-02-24
# (参考訳) ディープラーニングモデルのテスト: 複数のテストテクニックに関する最初の比較研究 [全文訳有]

Testing Deep Learning Models: A First Comparative Study of Multiple Testing Techniques ( http://arxiv.org/abs/2202.12139v1 )

ライセンス: CC BY 4.0
Mohit Kumar Ahuja, Arnaud Gotlieb, Helge Spieker(参考訳) ディープラーニング(DL)は、自律運転、ロボット手術、インフラ監視、航空および海上交通制御などの重要な応用において、視覚ベースのシステム(VBS)の能力に革命をもたらした。 画像、音声、ビデオ、その他の複雑な信号を解析することにより、DLはこれらのシステムの状況意識を著しく高めている。 同時に、訓練されたdlモデルにますます依存する一方で、vbの信頼性と堅牢性が課題となり、これらのモデルを徹底的にテストして能力と潜在的なエラーを評価することが重要になっている。 DLモデルの欠陥を発見するため、既存のソフトウェアテスト手法が適応され、改良されている。 本稿では、これらのソフトウェアテスト手法の概要、すなわち、差動、変態、突然変異、組合せテスト、および対向摂動テストについて述べ、VBSで使用される知覚システムを強化するためのデプロイメントにおける課題についてレビューする。 また、VBSで使用される古典的ベンチマークに関する最初の実験的な比較研究を行い、その結果について論じる。

Deep Learning (DL) has revolutionized the capabilities of vision-based systems (VBS) in critical applications such as autonomous driving, robotic surgery, critical infrastructure surveillance, air and maritime traffic control, etc. By analyzing images, voice, videos, or any type of complex signals, DL has considerably increased the situation awareness of these systems. At the same time, while relying more and more on trained DL models, the reliability and robustness of VBS have been challenged and it has become crucial to test thoroughly these models to assess their capabilities and potential errors. To discover faults in DL models, existing software testing methods have been adapted and refined accordingly. In this article, we provide an overview of these software testing methods, namely differential, metamorphic, mutation, and combinatorial testing, as well as adversarial perturbation testing and review some challenges in their deployment for boosting perception systems used in VBS. We also provide a first experimental comparative study on a classical benchmark used in VBS and discuss its results.
翻訳日:2022-02-25 21:53:09 公開日:2022-02-24
# (参考訳) 入力フィルタリングによる効果的でロバストなニューラルトロイジャンディフェンスを目指して [全文訳有]

Towards Effective and Robust Neural Trojan Defenses via Input Filtering ( http://arxiv.org/abs/2202.12154v1 )

ライセンス: CC BY 4.0
Kien Do, Haripriya Harikumar, Hung Le, Dung Nguyen, Truyen Tran, Santu Rana, Dang Nguyen, Willy Susilo, Svetha Venkatesh(参考訳) ディープニューラルネットワークに対するトロイの木馬攻撃は、危険かつ過酷である。 過去数年間、Trojan攻撃は単純なトリガーのみを使用し、1つのクラスのみをターゲットとすることから、多くの高度なトリガーを使い、複数のクラスをターゲットにしている。 しかし、トロイアの防衛はこの発展に追いついていない。 ほとんどの防衛手法は現在でもトロイの木馬のトリガーや標的クラスに関する最新の仮定を定めているため、現代のトロイの木馬の攻撃によって容易に回避できる。 本稿では,様々なトロイの木馬攻撃に対して効果的かつ堅牢な一般的な防御を提唱し,これらの特徴を持つ2つの新しい「フィルタリング」防衛法を提案し,その特徴を逆入力フィルタリング(VIF)と逆入力フィルタリング(AIF)と呼ぶ。 VIF と AIF は、それぞれ変分推論と敵対的訓練を活用して、その数や形式を仮定することなく、実行時に入力中の全てのトロイの木馬トリガーを浄化する。 さらに、フィルタリングによるクリーンなデータに対する分類精度の低下を回避するため、新しい防御機構である「フィルタリング」を「フィルタリング」に拡張する。 以上の結果から,提案した防衛は,多くの強力な防衛を破る2つの最先端技術を含む5つの異なるトロイア攻撃を緩和する上で,よく知られた4つの防衛を著しく上回った。

Trojan attacks on deep neural networks are both dangerous and surreptitious. Over the past few years, Trojan attacks have advanced from using only a simple trigger and targeting only one class to using many sophisticated triggers and targeting multiple classes. However, Trojan defenses have not caught up with this development. Most defense methods still make out-of-date assumptions about Trojan triggers and target classes, thus, can be easily circumvented by modern Trojan attacks. In this paper, we advocate general defenses that are effective and robust against various Trojan attacks and propose two novel "filtering" defenses with these characteristics called Variational Input Filtering (VIF) and Adversarial Input Filtering (AIF). VIF and AIF leverage variational inference and adversarial training respectively to purify all potential Trojan triggers in the input at run time without making any assumption about their numbers and forms. We further extend "filtering" to "filtering-then-contr asting" - a new defense mechanism that helps avoid the drop in classification accuracy on clean data caused by filtering. Extensive experimental results show that our proposed defenses significantly outperform 4 well-known defenses in mitigating 5 different Trojan attacks including the two state-of-the-art which defeat many strong defenses.
翻訳日:2022-02-25 21:37:22 公開日:2022-02-24
# (参考訳) 医用画像解析におけるトランスフォーマー [全文訳有]

Transformers in Medical Image Analysis: A Review ( http://arxiv.org/abs/2202.12165v1 )

ライセンス: CC BY-SA 4.0
Kelei He, Chen Gan, Zhuoyuan Li, Islem Rekik, Zihao Yin, Wen Ji, Yang Gao, Qian Wang, Junfeng Zhang, and Dinggang Shen(参考訳) トランスフォーマーは自然言語処理の分野を支配しており、最近ではコンピュータビジョン分野にも影響を与えた。 画像解析の分野では、画像合成/再構成、登録、セグメンテーション、検出、診断を含むフルスタックの臨床応用にもトランスフォーマーが応用されている。 本稿では,医療画像解析分野におけるトランスフォーマーの意識と応用を促進するために,位置紙とプライマーの両方を提示する。 具体的には、まず、トランスフォーマーやその他の基本コンポーネントに組み込まれたアテンションメカニズムのコアコンセプトを概説する。 第2に,医療画像応用に適したトランスフォーマーアーキテクチャの新しい分類法を提案し,その限界について議論する。 本稿では,異なる学習パラダイムにおけるトランスフォーマーの利用,モデルの効率の向上,他の手法との結合に関する重要な課題について検討する。 このレビューは、医療画像分析の分野におけるトランスフォーマーの全体像を読者に提供することを願っている。

Transformers have dominated the field of natural language processing, and recently impacted the computer vision area. In the field of medical image analysis, Transformers have also been successfully applied to full-stack clinical applications, including image synthesis/reconstruc tion, registration, segmentation, detection, and diagnosis. Our paper presents both a position paper and a primer, promoting awareness and application of Transformers in the field of medical image analysis. Specifically, we first overview the core concepts of the attention mechanism built into Transformers and other basic components. Second, we give a new taxonomy of various Transformer architectures tailored for medical image applications and discuss their limitations. Within this review, we investigate key challenges revolving around the use of Transformers in different learning paradigms, improving the model efficiency, and their coupling with other techniques. We hope this review can give a comprehensive picture of Transformers to the readers in the field of medical image analysis.
翻訳日:2022-02-25 20:45:20 公開日:2022-02-24
# (参考訳) ロボットナビゲーションタスクのための量子深部強化学習 [全文訳有]

Quantum Deep Reinforcement Learning for Robot Navigation Tasks ( http://arxiv.org/abs/2202.12180v1 )

ライセンス: CC BY-SA 4.0
Dirk Heimann, Hans Hohenfeld, Felix Wiebe, Frank Kirchner(参考訳) 本研究では,複雑度を増大させる3つのシミュレーション環境において,簡単な車輪付きロボットのナビゲーションタスクを学習する手法として量子深部強化学習を利用する。 古典的ベースラインと比較して, 量子古典的ハイブリッド構成において, 十分に確立された深層強化学習技術で学習されたパラメータ化量子回路の類似性を示す。 我々の知る限り、これはロボット行動のための量子機械学習(QML)の最初の実演である。 そこで我々は、QMLアルゴリズムの研究分野としてロボティクスを確立し、量子コンピューティングと量子機械学習を、自律型ロボティクスの今後の進歩のための潜在的技術として活用する。 さらに,提案手法の現在の限界と,自律ロボットのための量子機械学習の分野における今後の研究方向について論じる。

In this work, we utilize Quantum Deep Reinforcement Learning as method to learn navigation tasks for a simple, wheeled robot in three simulated environments of increasing complexity. We show similar performance of a parameterized quantum circuit trained with well established deep reinforcement learning techniques in a hybrid quantum-classical setup compared to a classical baseline. To our knowledge this is the first demonstration of quantum machine learning (QML) for robotic behaviors. Thus, we establish robotics as a viable field of study for QML algorithms and henceforth quantum computing and quantum machine learning as potential techniques for future advancements in autonomous robotics. Beyond that, we discuss current limitations of the presented approach as well as future research directions in the field of quantum machine learning for autonomous robots.
翻訳日:2022-02-25 19:48:48 公開日:2022-02-24
# (参考訳) 非定常時系列における逐次資産ランキング [全文訳有]

Sequential Asset Ranking within Nonstationary Time Series ( http://arxiv.org/abs/2202.12186v1 )

ライセンス: CC BY 4.0
Gabriel Borrageiro, Nick Firoozye, Paolo Barucca(参考訳) 金融時系列は自己相関的かつ非定常的であり、ほとんどの回帰モデルと分類モデルの独立かつ同一に分散されたランダム変数の仮定に反するモデリング上の課題を提示する。 専門家のアドバイスフレームワークによる予測は、データ生成メカニズムに関する仮定をしていないが、すべてのシーケンスでうまく機能する予測を生成する。 s&p 250日単位のサンプルデータを用いて研究を行い,研究成果を横断的モーメント取引戦略に拡張した。 本稿では、ベイズ資産ランキング作成者である専門家助言フレームワークによる予測から、長期的・短期的なポートフォリオに保持する資産のサブセットを選択する新しいランキングアルゴリズムを導入する。 我々のアルゴリズムは、最高の総リターンとリスク調整されたリターン、取引コスト、そしてS&P 250の長期保持率を後見で上回ります。 さらに,本アルゴリズムは,レグレッシブ・テンランク断面運動量トレーダ,シーケンシャルに適合するカード,ホイ多変量回帰手順のプロキシよりも優れる。

Financial time series are both autocorrelated and nonstationary, presenting modelling challenges that violate the independent and identically distributed random variables assumption of most regression and classification models. The prediction with expert advice framework makes no assumptions on the data-generating mechanism yet generates predictions that work well for all sequences, with performance nearly as good as the best expert with hindsight. We conduct research using S&P 250 daily sampled data, extending the academic research into cross-sectional momentum trading strategies. We introduce a novel ranking algorithm from the prediction with expert advice framework, the naive Bayes asset ranker, to select subsets of assets to hold in either long-only or long/short portfolios. Our algorithm generates the best total returns and risk-adjusted returns, net of transaction costs, outperforming the long-only holding of the S&P 250 with hindsight. Furthermore, our ranking algorithm outperforms a proxy for the regress-then-rank cross-sectional momentum trader, a sequentially fitted curds and whey multivariate regression procedure.
翻訳日:2022-02-25 19:33:32 公開日:2022-02-24
# (参考訳) 最適個別線量間隔に対する政策学習 [全文訳有]

Policy Learning for Optimal Individualized Dose Intervals ( http://arxiv.org/abs/2202.12234v1 )

ライセンス: CC BY 4.0
Guanhua Chen, Xiaomao Li, Menggang Yu(参考訳) 本研究では,観察データを用いた個別化線量間隔の学習問題について検討する。 継続的治療による政策学習には、以前の研究がほとんどなく、いずれも最適な線量間隔ではなく最適な線量を推奨することに焦点を当てていた。 本稿では,そのような最適な線量間隔を推定する新しい手法である確率線量間隔(pdi)を提案する。 PDIの線量に対する潜在的な結果は、所定の確率(例えば50%)で予め指定された閾値よりも良いことが保証されている。 関連する非凸最適化問題は、差分凸関数(DC)アルゴリズムによって効率的に解ける。 我々は予測した政策が一貫していることを証明し、そのリスクはトップインクラスの政策とルートnレートで収束する。 数値シミュレーションにより,結果モデリングに基づくベンチマークよりも提案手法の利点が示された。 さらに,高齢者糖尿病患者に対するヘモグロビンa1c(hba1c)制御間隔の個別化について検討した。

We study the problem of learning individualized dose intervals using observational data. There are very few previous works for policy learning with continuous treatment, and all of them focused on recommending an optimal dose rather than an optimal dose interval. In this paper, we propose a new method to estimate such an optimal dose interval, named probability dose interval (PDI). The potential outcomes for doses in the PDI are guaranteed better than a pre-specified threshold with a given probability (e.g., 50%). The associated nonconvex optimization problem can be efficiently solved by the Difference-of-Convex functions (DC) algorithm. We prove that our estimated policy is consistent, and its risk converges to that of the best-in-class policy at a root-n rate. Numerical simulations show the advantage of the proposed method over outcome modeling based benchmarks. We further demonstrate the performance of our method in determining individualized Hemoglobin A1c (HbA1c) control intervals for elderly patients with diabetes.
翻訳日:2022-02-25 19:19:12 公開日:2022-02-24
# (参考訳) 自動音楽転写の再合成評価のための知覚的尺度 [全文訳有]

A Perceptual Measure for Evaluating the Resynthesis of Automatic Music Transcriptions ( http://arxiv.org/abs/2202.12257v1 )

ライセンス: CC BY 4.0
Federico Simonetta and Federico Avanzini and Stavros Ntalampiras(参考訳) 本研究では,室内音響や楽器などの環境要因が変化する際の演奏の知覚に焦点を当てた。 本稿では「演出」の概念と「芸術的意図」を表現する「解釈」の概念を区別することを提案する。 この特徴を評価するために、91名の被験者を招待して、AMT(Automatic Music Transcription)システムとセンサ付き音響ピアノを用いて得られたMIDIデータを合成し、様々な録音を聴く実験を行った。 再合成中、異なるコンテキストをシミュレートし、コンテキストが変化すると解釈がどの程度変化するかを評価するようリスナーに求めた。 その結果,(1)MIDI形式だけでは音楽演奏の芸術的意図を完全に把握できないこと,(2)MIDIデータに基づく通常の客観的評価は平均主観的評価と相関が低いこと,などが示唆された。 このギャップを埋めるために,テストの結果と有意義に相関する新しい尺度を提案する。 さらに,スコアインフォームドamt法を新たに提供し,マルチモーダル機械学習の検討を行い,$p$-dispersion問題に対する近似アルゴリズムを提案する。

This study focuses on the perception of music performances when contextual factors, such as room acoustics and instrument, change. We propose to distinguish the concept of "performance" from the one of "interpretation", which expresses the "artistic intention". Towards assessing this distinction, we carried out an experimental evaluation where 91 subjects were invited to listen to various audio recordings created by resynthesizing MIDI data obtained through Automatic Music Transcription (AMT) systems and a sensorized acoustic piano. During the resynthesis, we simulated different contexts and asked listeners to evaluate how much the interpretation changes when the context changes. Results show that: (1) MIDI format alone is not able to completely grasp the artistic intention of a music performance; (2) usual objective evaluation measures based on MIDI data present low correlations with the average subjective evaluation. To bridge this gap, we propose a novel measure which is meaningfully correlated with the outcome of the tests. In addition, we investigate multimodal machine learning by providing a new score-informed AMT method and propose an approximation algorithm for the $p$-dispersion problem.
翻訳日:2022-02-25 18:37:01 公開日:2022-02-24
# 深層畳み込みニューラルネットワークの最適学習速度:加算リッジ関数

Optimal Learning Rates of Deep Convolutional Neural Networks: Additive Ridge Functions ( http://arxiv.org/abs/2202.12119v1 )

ライセンス: Link先を確認
Zhiying Fang and Guang Cheng(参考訳) 畳み込みニューラルネットワークは多くのアプリケーションで異常な能力を示しており、特に分類タスクに関連している。 しかし, 回帰問題については, 畳み込み構造の能力は十分に理解されておらず, さらなる検討が必要である。 本稿では,深層畳み込みニューラルネットワークにおける平均二乗誤差解析について検討する。 付加的なリッジ関数に対しては、畳み込みニューラルネットワークとReLUアクティベーション関数を併用した1つの完全連結層が最適最小値(ログ係数まで)に達することが示される。 収束率は次元独立である。 本研究は畳み込みニューラルネットワークの統計的最適性を示し、畳み込みニューラルネットワークが高次元入力に対してうまく振る舞うことができる理由を明らかにする。

Convolutional neural networks have shown extraordinary abilities in many applications, especially those related to the classification tasks. However, for the regression problem, the abilities of convolutional structures have not been fully understood, and further investigation is needed. In this paper, we consider the mean squared error analysis for deep convolutional neural networks. We show that, for additive ridge functions, convolutional neural networks followed by one fully connected layer with ReLU activation functions can reach optimal mini-max rates (up to a log factor). The convergence rates are dimension independent. This work shows the statistical optimality of convolutional neural networks and may shed light on why convolutional neural networks are able to behave well for high dimensional input.
翻訳日:2022-02-25 18:17:39 公開日:2022-02-24
# 情報対策の凸性による一般化誤差境界の予測

Tighter Expected Generalization Error Bounds via Convexity of Information Measures ( http://arxiv.org/abs/2202.12150v1 )

ライセンス: Link先を確認
Gholamali Aminian, Yuheng Bu, Gregory Wornell, Miguel Rodrigues(参考訳) 一般化エラー境界は機械学習アルゴリズムを理解するのに不可欠である。 本稿では,出力仮説と各入力トレーニングサンプル間の平均結合分布に基づいて,新たな一般化誤差上限を提案する。 ワッサースタイン距離、全変動距離、kl発散、jensen-shannon発散など、異なる情報尺度に基づく多重一般化誤差上限が提供される。 情報尺度の凸性から,提案するwasserstein距離と全変動距離の境界は,文献中の個々のサンプルに基づいて,それぞれよりも厳密であることが示されている。 提案した一般化誤差境界の厳密性を示す例を示す。

Generalization error bounds are essential to understanding machine learning algorithms. This paper presents novel expected generalization error upper bounds based on the average joint distribution between the output hypothesis and each input training sample. Multiple generalization error upper bounds based on different information measures are provided, including Wasserstein distance, total variation distance, KL divergence, and Jensen-Shannon divergence. Due to the convexity of the information measures, the proposed bounds in terms of Wasserstein distance and total variation distance are shown to be tighter than their counterparts based on individual samples in the literature. An example is provided to demonstrate the tightness of the proposed generalization error bounds.
翻訳日:2022-02-25 18:17:28 公開日:2022-02-24
# ランダム化kaczmarzアルゴリズムのための最適スケジュール学習率

An optimal scheduled learning rate for a randomized Kaczmarz algorithm ( http://arxiv.org/abs/2202.12224v1 )

ライセンス: Link先を確認
Nicholas F. Marshall, Oscar Mickelin(参考訳) a x \approx b + \varepsilon$ を解くための緩和されたランダム化kaczmarzアルゴリズムの性能に学習速度が与える影響について検討し、ここでは $a x = b$ は一貫した線形系であり、$\varepsilon$ は独立平均無作為エントリを持つ。 標準的なランダム化Kaczmarzアルゴリズムの指数収束とは対照的に、最適化された境界は指数関数のランベルト-$W$関数の逆数を含む。

We study how the learning rate affects the performance of a relaxed randomized Kaczmarz algorithm for solving $A x \approx b + \varepsilon$, where $A x =b$ is a consistent linear system and $\varepsilon$ has independent mean zero random entries. We derive a scheduled learning rate which optimizes a bound on the expected error that is sharp in certain cases; in contrast to the exponential convergence of the standard randomized Kaczmarz algorithm, our optimized bound involves the reciprocal of the Lambert-$W$ function of an exponential.
翻訳日:2022-02-25 18:16:39 公開日:2022-02-24
# (参考訳) blackwell approachabilityによる最適化問題の解法

Solving optimization problems with Blackwell approachability ( http://arxiv.org/abs/2202.12277v1 )

ライセンス: CC BY 4.0
Julien Grand-Cl\'ement and Christian Kroer(参考訳) 一般凸集合に対する新しいパラメータとスケールフリーな後悔最小化器であるconic blackwellアルゴリズム$^+$ (cba$^+$) regret minimalrを導入する。 CBA$^+$はブラックウェルのアプローチ性に基づいており、$O(\sqrt{T})$ regretに達する。 CBA$^+$ を多くの決定集合に対して効率的にインスタンス化する方法を示し、例えば、simplix, $\ell_{p}$ norm balls, and ellipsoidal confidence region in the simplex。 CBA$^+$に基づいて、凸凹サドル点問題を解くための新しいパラメータフリーアルゴリズムSP-CBA$^+$を導入し、O(1/\sqrt{T})$ ergodic rate of convergenceを実現する。 シミュレーションでは,行列ゲーム,広範な形式ゲーム,分布的ロジスティック回帰,マルコフ決定過程など,いくつかの標準サドルポイント問題に対するsp-cba$^+$の適用性を示す。 それぞれの設定において、SP-CBA$^+$は最先端の数値性能を達成し、ステップサイズや他のアルゴリズムパラメータを選択せずに古典的な手法より優れている。

We introduce the Conic Blackwell Algorithm$^+$ (CBA$^+$) regret minimizer, a new parameter- and scale-free regret minimizer for general convex sets. CBA$^+$ is based on Blackwell approachability and attains $O(\sqrt{T})$ regret. We show how to efficiently instantiate CBA$^+$ for many decision sets of interest, including the simplex, $\ell_{p}$ norm balls, and ellipsoidal confidence regions in the simplex. Based on CBA$^+$, we introduce SP-CBA$^+$, a new parameter-free algorithm for solving convex-concave saddle-point problems, which achieves a $O(1/\sqrt{T})$ ergodic rate of convergence. In our simulations, we demonstrate the wide applicability of SP-CBA$^+$ on several standard saddle-point problems, including matrix games, extensive-form games, distributionally robust logistic regression, and Markov decision processes. In each setting, SP-CBA$^+$ achieves state-of-the-art numerical performance, and outperforms classical methods, without the need for any choice of step sizes or other algorithmic parameters.
翻訳日:2022-02-25 18:15:55 公開日:2022-02-24
# 動的プログラミングと自己監督型スコーリングを用いた発見電話機における単語セグメンテーション

Word Segmentation on Discovered Phone Units with Dynamic Programming and Self-Supervised Scoring ( http://arxiv.org/abs/2202.11929v1 )

ライセンス: Link先を確認
Herman Kamper(参考訳) 教師なし音声セグメンテーションに関する最近の研究は、電話セグメンテーションモジュールと共同で訓練された単語セグメンテーションモジュールを備えた自己教師型モデルを用いている。 本稿では,この共同手法と,まずボトムアップ電話のような単位探索を行い,その上(下層に影響を与えない)で記号的単語分割を行うという,従来の考え方と比較する。 特に,セグメントコストを与える自己教師付きスコアリングネットワークを変更することで,電話や単語のセグメンテーションに使用できる持続時間ペナライズド動的プログラミング (dpdp) 手順について述べる。 電話発見では、dpdpは対照的な予測符号化クラスタリングモデルで適用され、単語セグメンテーションでは自動エンコーディングリカレントニューラルネットワークで使用される。 2つのモデルは音声をセグメンテーションするために連鎖する。 このアプローチは、英語ベンチマーク上の最先端の自己教師付きモデルに匹敵する単語分割結果を与える。 フランス語とマンダリンのデータでは、ZeroSpeechベンチマークで以前のシステムより優れている。 解析の結果,連鎖したdpdpシステムは短いフィラーワードをうまく区切るが,長い単語は外部のトップダウン信号を必要とする可能性がある。

Recent work on unsupervised speech segmentation has used self-supervised models with a phone segmentation module and a word segmentation module that are trained jointly. This paper compares this joint methodology with an older idea: bottom-up phone-like unit discovery is performed first, and symbolic word segmentation is then performed on top of the discovered units (without influencing the lower level). I specifically describe a duration-penalized dynamic programming (DPDP) procedure that can be used for either phone or word segmentation by changing the self-supervised scoring network that gives segment costs. For phone discovery, DPDP is applied with a contrastive predictive coding clustering model, while for word segmentation it is used with an autoencoding recurrent neural network. The two models are chained in order to segment speech. This approach gives comparable word segmentation results to state-of-the-art joint self-supervised models on an English benchmark. On French and Mandarin data, it outperforms previous systems on the ZeroSpeech benchmarks. Analysis shows that the chained DPDP system segments shorter filler words well, but longer words might require an external top-down signal.
翻訳日:2022-02-25 18:13:43 公開日:2022-02-24
# 不確実性駆動による探査と航行のためのプランナー

Uncertainty-driven Planner for Exploration and Navigation ( http://arxiv.org/abs/2202.11907v1 )

ライセンス: Link先を確認
Georgios Georgakis, Bernadette Bucher, Anton Arapin, Karl Schmeckpeper, Nikolai Matni, Kostas Daniilidis(参考訳) 屋内シーンの空間的複雑さと部分観測可能性の複雑さがこれらの課題を困難にしている環境での探索とポイントゴールナビゲーションの問題点を考察する。 我々は、屋内地図上での占有率優先の学習は、これらの問題に対処する上で大きな利点をもたらすと論じている。 この目的のために,まずエージェントの視野を超えて占有マップを生成することを学び,次に生成された領域のモデル不確実性を活用して各タスクの経路選択方針を定式化する,新たな計画枠組みを提案する。 ポイントゴールナビゲーションでは、ポリシーは、効率的かつトラバース可能なパスに対する高い信頼境界ポリシーを持つパスを選択し、一方で、このポリシーは候補パスに対するモデルの不確実性を最大化する。 Habitatシミュレータを用いたMatterport3Dの視覚的現実的な環境で実験を行い、以下の結果を得た。 1)競争方法に対する探索・地図品質指標の精度向上、及び 2) ポイントゴールナビゲーションタスクに対する最先端DD-PPO法と組み合わせた場合の計画モジュールの有効性について検討した。

We consider the problems of exploration and point-goal navigation in previously unseen environments, where the spatial complexity of indoor scenes and partial observability constitute these tasks challenging. We argue that learning occupancy priors over indoor maps provides significant advantages towards addressing these problems. To this end, we present a novel planning framework that first learns to generate occupancy maps beyond the field-of-view of the agent, and second leverages the model uncertainty over the generated areas to formulate path selection policies for each task of interest. For point-goal navigation the policy chooses paths with an upper confidence bound policy for efficient and traversable paths, while for exploration the policy maximizes model uncertainty over candidate paths. We perform experiments in the visually realistic environments of Matterport3D using the Habitat simulator and demonstrate: 1) Improved results on exploration and map quality metrics over competitive methods, and 2) The effectiveness of our planning module when paired with the state-of-the-art DD-PPO method for the point-goal navigation task.
翻訳日:2022-02-25 18:13:23 公開日:2022-02-24
# Chamberlin-Courant Rule と Monroe Rule によるマルチウィンナー選挙のパラメータ化抽出性

Parameterized Intractability for Multi-Winner Election under the Chamberlin-Courant Rule and the Monroe Rule ( http://arxiv.org/abs/2202.12006v1 )

ライセンス: Link先を確認
Jiehua Chen and Sanjukta Roy(参考訳) Betzlerらによるオープンな質問に答える。 [betzler et al., jair'13] では,チャンバーリン・クーラント(略してcc)規則 [chamberlin and courant, apsr'83] とモンロー規則[monroe, apsr'95] という2つの有名な代表投票規則の下で,マルチウィンナー決定問題のパラメータ化された複雑性を解決する。 両方の規則の下では、問題は$\beta$の誤表現の和に関して w[1]-hard であることを示し、したがって任意の$f(\beta) \cdot |i|^{o(1)}$-timeアルゴリズムの存在を予測し、ここで$|i|$ は入力インスタンスのサイズを表す。

Answering an open question by Betzler et al. [Betzler et al., JAIR'13], we resolve the parameterized complexity of the multi-winner determination problem under two famous representation voting rules: the Chamberlin-Courant (in short CC) rule [Chamberlin and Courant, APSR'83] and the Monroe rule [Monroe, APSR'95]. We show that under both rules, the problem is W[1]-hard with respect to the sum $\beta$ of misrepresentations, thereby precluding the existence of any $f(\beta) \cdot |I|^{O(1)}$ -time algorithm, where $|I|$ denotes the size of the input instance.
翻訳日:2022-02-25 18:13:05 公開日:2022-02-24
# 共変量シフトによる半教師付き学習への情報理論的アプローチ

An Information-theoreti cal Approach to Semi-supervised Learning under Covariate-shift ( http://arxiv.org/abs/2202.12123v1 )

ライセンス: Link先を確認
Gholamali Aminian, Mahed Abroshan, Mohammad Mahdi Khalili, Laura Toni, Miguel R. D. Rodrigues(参考訳) 半教師付き学習における一般的な仮定は、ラベル付き、未ラベル、およびテストデータが同じ分布から引き出されることである。 しかし、この仮定は多くの応用において満たされない。 多くのシナリオでは、データは順次収集され(例えば医療)、データの分布は時間とともに変化し、いわゆる共変量シフトを示す。 本稿では,この問題に対処可能な半教師付き学習アルゴリズムのアプローチを提案する。 我々のフレームワークはエントロピーの最小化や擬似ラベリングなどの一般的な手法も復元する。 新たなフレームワークに触発された情報理論に基づく一般化誤差上限を提案する。 我々の境界は、一般的な半教師付き学習と共変シフトシナリオの両方に適用できる。 最後に,共変量シフトに基づく半教師あり学習において提案手法が従来の手法よりも優れていることを示す。

A common assumption in semi-supervised learning is that the labeled, unlabeled, and test data are drawn from the same distribution. However, this assumption is not satisfied in many applications. In many scenarios, the data is collected sequentially (e.g., healthcare) and the distribution of the data may change over time often exhibiting so-called covariate shifts. In this paper, we propose an approach for semi-supervised learning algorithms that is capable of addressing this issue. Our framework also recovers some popular methods, including entropy minimization and pseudo-labeling. We provide new information-theoreti cal based generalization error upper bounds inspired by our novel framework. Our bounds are applicable to both general semi-supervised learning and the covariate-shift scenario. Finally, we show numerically that our method outperforms previous approaches proposed for semi-supervised learning under the covariate shift.
翻訳日:2022-02-25 18:12:44 公開日:2022-02-24
# インダストリアル制御システムにおける侵入検出のための機械学習:応用,課題,推奨

Machine Learning for Intrusion Detection in Industrial Control Systems: Applications, Challenges, and Recommendations ( http://arxiv.org/abs/2202.11917v1 )

ライセンス: Link先を確認
Muhammad Azmi Umer, Khurum Nazir Junejo, Muhammad Taha Jilani, Aditya P. Mathur(参考訳) 機械学習の手法は、サイバー攻撃に耐性のある産業制御システムの設計に応用されている。 このような手法は,ネットワークパケットを通じて取得した情報を用いたネットワークレベルでの侵入検出と,システムの物理的挙動を表すデータを用いた物理プロセスレベルでの異常検出という2つの主要な領域に焦点をあてる。 本調査では,侵入や異常検出に用いる機械学習から,教師付き,半教師付き,教師なし,強化学習の4種類の手法に焦点を当てた。 パブリックドメインで利用可能な文献を慎重に選択し、分析し、7次元空間に配置し、比較しやすくした。 調査対象は研究者、学生、実践者である。 方法と研究ギャップの使用に関する課題を特定し,そのギャップを埋めるために推奨する。

Methods from machine learning are being applied to design Industrial Control Systems resilient to cyber-attacks. Such methods focus on two major areas: the detection of intrusions at the network-level using the information acquired through network packets, and detection of anomalies at the physical process level using data that represents the physical behavior of the system. This survey focuses on four types of methods from machine learning in use for intrusion and anomaly detection, namely, supervised, semi-supervised, unsupervised, and reinforcement learning. Literature available in the public domain was carefully selected, analyzed, and placed in a 7-dimensional space for ease of comparison. The survey is targeted at researchers, students, and practitioners. Challenges associated in using the methods and research gaps are identified and recommendations are made to fill the gaps.
翻訳日:2022-02-25 18:10:48 公開日:2022-02-24
# Reject Option を用いた細粒度TLSサービス分類

Fine-grained TLS Services Classification with Reject Option ( http://arxiv.org/abs/2202.11984v1 )

ライセンス: Link先を確認
Jan Luxemburk, Tom\'a\v{s} \v{C}ejka(参考訳) 最近の機械学習とディープラーニングの成功と普及は強力なツールを提供しており、暗号化されたトラフィック分析、分類、脅威検出にも利用されている。 これらの手法、特にニューラルネットワークは、しばしば複雑で、大量のトレーニングデータを必要とする。 そこで本稿では,200以上の細粒度サービスラベルと1億4000万のネットワークフローをパケットレベルのメタデータで拡張した,最新の大規模データセットの収集に注目する。 フローの数は、暗号化トラフィックの他の公開ラベル付きデータセットよりも3桁高い。 問題を困難かつ現実的なものにするために重要なサービスラベルの数は、ほとんどのクラスラベルを持つ公開データセットの4倍である。 公開されたデータセットは、暗号化トラフィック内のサービスを識別するためのベンチマークとして意図されている。 サービス識別は、未知のサービスを"リジェクト"するタスク、すなわちトレーニングフェーズで見られないトラフィックによってさらに拡張することができる。 ニューラルネットワークは、この問題に取り組む上で優れたパフォーマンスを提供する。 データセットの有用性を示すために、最先端のアプローチであるマルチモーダルアーキテクチャを備えたニューラルネットワークを実装し、97.04%の分類精度を達成し、未知サービスの91.94%を、5%の偽陽性率で検出した。

The recent success and proliferation of machine learning and deep learning have provided powerful tools, which are also utilized for encrypted traffic analysis, classification, and threat detection. These methods, neural networks in particular, are often complex and require a huge corpus of training data. Therefore, this paper focuses on collecting a large up-to-date dataset with almost 200 fine-grained service labels and 140 million network flows extended with packet-level metadata. The number of flows is three orders of magnitude higher than in other existing public labeled datasets of encrypted traffic. The number of service labels, which is important to make the problem hard and realistic, is four times higher than in the public dataset with the most class labels. The published dataset is intended as a benchmark for identifying services in encrypted traffic. Service identification can be further extended with the task of "rejecting" unknown services, i.e., the traffic not seen during the training phase. Neural networks offer superior performance for tackling this more challenging problem. To showcase the dataset's usefulness, we implemented a neural network with a multi-modal architecture, which is the state-of-the-art approach, and achieved 97.04% classification accuracy and detected 91.94% of unknown services with 5% false positive rate.
翻訳日:2022-02-25 18:10:33 公開日:2022-02-24
# UAV支援モバイルエッジコンピューティングにおける進化的多目的強化学習に基づく軌道制御とタスクオフロード

Evolutionary Multi-Objective Reinforcement Learning Based Trajectory Control and Task Offloading in UAV-Assisted Mobile Edge Computing ( http://arxiv.org/abs/2202.12028v1 )

ライセンス: Link先を確認
Fuhong Song, Huanlai Xing, Xinhan Wang, Shouxi Luo, Penglin Dai, Zhiwen Xiao, Bowen Zhao(参考訳) 本稿では,無人航空機(UAV)支援移動体エッジコンピューティングシステムにおけるトラジェクトリ制御とタスクオフロード(TCTO)問題について検討し,UAVが計画された軌道に沿って飛行し,スマートデバイス(SD)から計算タスクを収集する。 基地局(BS)とUAVが直接接続しないシナリオとして,MECサーバと無線中継という2つの役割がある。 UAVはタスクオフロード決定をオンラインで行い、収集したタスクをUAV上でローカルに実行したり、リモート処理のためにBSにオフロードしたりすることができる。 TCTOの問題は、タスク遅延とUAVのエネルギー消費を最小化し、UAVが収集したタスク数を同時に最大化することを目的として、多目的最適化を行う。 この問題は3つの目的が互いに衝突するため難しい。 既存の強化学習アルゴリズム(single-objective rlsまたはsingle-policy multi-objective rls)は、様々な好み(すなわち重み)に対して単一の実行で複数のポリシーを出力できないため、この問題にうまく対処できない。 本稿では,マルチポリシーなマルチ目的rlである進化的多目的rl(emorl)をtcto問題に適用する。 このアルゴリズムは、1つの実行で複数の最適なポリシーを出力でき、それぞれが特定の好みを最適化する。 シミュレーションの結果,提案手法は2つの進化型rlアルゴリズムと2つのマルチポリシーrlアルゴリズムと比較して,政策品質に関する3つの目標のバランスを取ることにより,より優れた非支配型ポリシーが得られることがわかった。

This paper studies the trajectory control and task offloading (TCTO) problem in an unmanned aerial vehicle (UAV)-assisted mobile edge computing system, where a UAV flies along a planned trajectory to collect computation tasks from smart devices (SDs). We consider a scenario that SDs are not directly connected by the base station (BS) and the UAV has two roles to play: MEC server or wireless relay. The UAV makes task offloading decisions online, in which the collected tasks can be executed locally on the UAV or offloaded to the BS for remote processing. The TCTO problem involves multi-objective optimization as its objectives are to minimize the task delay and the UAV's energy consumption, and maximize the number of tasks collected by the UAV, simultaneously. This problem is challenging because the three objectives conflict with each other. The existing reinforcement learning (RL) algorithms, either single-objective RLs or single-policy multi-objective RLs, cannot well address the problem since they cannot output multiple policies for various preferences (i.e. weights) across objectives in a single run. This paper adapts the evolutionary multi-objective RL (EMORL), a multi-policy multi-objective RL, to the TCTO problem. This algorithm can output multiple optimal policies in just one run, each optimizing a certain preference. The simulation results demonstrate that the proposed algorithm can obtain more excellent nondominated policies by striking a balance between the three objectives regarding policy quality, compared with two evolutionary and two multi-policy RL algorithms.
翻訳日:2022-02-25 18:10:13 公開日:2022-02-24
# 肺組織同定に基づく新しい非教師なし肺病変分画法

A novel unsupervised covid lung lesion segmentation based on the lung tissue identification ( http://arxiv.org/abs/2202.12148v1 )

ライセンス: Link先を確認
Faeze Gholamian Khah, Samaneh Mostafapour, Seyedjafar Shojaerazavi, Nouraddin Abdi-Goushbolagh, Hossein Arabi(参考訳) 本研究の目的は,Covid 病患者のCT 画像から自動感染検出のための非教師なし深層学習フレームワークの性能を評価することである。 最初のステップでは、2つの残存ネットワークを個別に訓練し、正常およびコビッド患者の肺組織を監督的に同定した。 これら2つのモデルはそれぞれdl-covidとdl-normと呼ばれ、肺組織同定のためのvoxel-wise確率マップを生成する。 コビッド病変を検出するために、コビッド患者のCT画像をDL-CovidモデルとDL-Normモデルで処理し、2つの肺確率マップを得る。 DL-Normモデルでは肺内のコビッド感染に慣れていないため、このモデルはDL-Covidよりも低い確率を病変に割り当てる。 したがって, DL-CovidモデルとDL-Normモデルから得られた2つの肺確率マップを抽出することにより, Covid感染の確率マップを生成することができた。 コビッド19のCT画像50枚を手指の病変分割法を用いて,教師なし病変分割法の精度を評価した。 dice係数は0.985, 0.978で, 正常者および新型コロナ患者の肺分画をそれぞれ測定した。 非教師なし法による感染分画の定量化の結果,dice係数は0.67,jaccard指数は0.60であった。 感染性病変セグメンテーションに対する非監督的アプローチの定量的評価は,比較的良好な結果を示した。 このフレームワークはアノテートデータセットを必要としないため、ノイズや弱いアノテートデータセットに特化した教師付き機械学習アルゴリズムのための非常に大規模なトレーニングサンプルを生成するために使用できる。

This study aimed to evaluate the performance of a novel unsupervised deep learning-based framework for automated infections lesion segmentation from CT images of Covid patients. In the first step, two residual networks were independently trained to identify the lung tissue for normal and Covid patients in a supervised manner. These two models, referred to as DL-Covid and DL-Norm for Covid-19 and normal patients, respectively, generate the voxel-wise probability maps for lung tissue identification. To detect Covid lesions, the CT image of the Covid patient is processed by the DL-Covid and DL-Norm models to obtain two lung probability maps. Since the DL-Norm model is not familiar with Covid infections within the lung, this model would assign lower probabilities to the lesions than the DL-Covid. Hence, the probability maps of the Covid infections could be generated through the subtraction of the two lung probability maps obtained from the DL-Covid and DL-Norm models. Manual lesion segmentation of 50 Covid-19 CT images was used to assess the accuracy of the unsupervised lesion segmentation approach. The Dice coefficients of 0.985 and 0.978 were achieved for the lung segmentation of normal and Covid patients in the external validation dataset, respectively. Quantitative results of infection segmentation by the proposed unsupervised method showed the Dice coefficient and Jaccard index of 0.67 and 0.60, respectively. Quantitative evaluation of the proposed unsupervised approach for Covid-19 infectious lesion segmentation showed relatively satisfactory results. Since this framework does not require any annotated dataset, it could be used to generate very large training samples for the supervised machine learning algorithms dedicated to noisy and/or weakly annotated datasets.
翻訳日:2022-02-25 18:06:58 公開日:2022-02-24
# ゲームにおける非回帰学習はチューリング完了

No-Regret Learning in Games is Turing Complete ( http://arxiv.org/abs/2202.11871v1 )

ライセンス: Link先を確認
Gabriel P. Andrade, Rafael Frongillo, Georgios Piliouras(参考訳) ゲームは、gans(generative adversarial networks)のようなマルチエージェント機械学習の設定のための自然なモデルである。 これらのゲームにおけるアルゴリズム的相互作用の望ましい結果は、例えばナッシュや粗い相関平衡といったゲーム理論平衡の概念として符号化される。 平衡を直接計算することは一般的に非現実的であるので、反復的に平衡に収束する学習アルゴリズムを設計することを目指すことが多い。 ネガティブな結果の増大は、非収束性からカオス的、さらには任意の行動に至るまで、この目標に疑問を呈する。 本稿では,このリストに対して強い否定的な結果を与える。ゲームにおける学習はチューリング完全である。 具体的には、最も単純な設定の1つであるマトリックスゲームにおけるレプリケータの動的チューリング完全性を証明する。 この結果から,ゲームにおける学習アルゴリズムにおける到達可能性問題の非効率性が示唆され,特に平衡収束が決定される。

Games are natural models for multi-agent machine learning settings, such as generative adversarial networks (GANs). The desirable outcomes from algorithmic interactions in these games are encoded as game theoretic equilibrium concepts, e.g. Nash and coarse correlated equilibria. As directly computing an equilibrium is typically impractical, one often aims to design learning algorithms that iteratively converge to equilibria. A growing body of negative results casts doubt on this goal, from non-convergence to chaotic and even arbitrary behaviour. In this paper we add a strong negative result to this list: learning in games is Turing complete. Specifically, we prove Turing completeness of the replicator dynamic on matrix games, one of the simplest possible settings. Our results imply the undecicability of reachability problems for learning algorithms in games, a special case of which is determining equilibrium convergence.
翻訳日:2022-02-25 18:06:11 公開日:2022-02-24
# (参考訳) 構造化屋内環境におけるロボットナビゲーションの状況グラフ [全文訳有]

Situational Graphs for Robot Navigation in Structured Indoor Environments ( http://arxiv.org/abs/2202.12197v1 )

ライセンス: CC BY 4.0
Hriday Bavle, Jose Luis Sanchez-Lopez, Muhammad Shaheer, Javier Civera, Holger Voos(参考訳) 自律型移動ロボットは、自然環境における意思決定とタスク実行を成功させるために、環境の総合的な理解と、その状態の推定を意識すべきである。 3次元シーングラフは、幾何学的・意味的・関係的・位相的次元からなるジョイントモデルにおいて、これらの状況を表現する大きな可能性を持つ、新たな研究分野である。 このために既に3dシーングラフが使われているが、モバイルロボットに効果的に配置するにはさらなる研究が必要である。 そこで本稿では,環境を表す1つのグラフからなるリアルタイムオンライン構築状況グラフ(S-Graphs)を,同時にロボットのポーズ推定を改善するとともに提示する。 提案手法では,3次元LiDARスキャンから抽出した計測値と平面面を用いて,ロボットのポーズを登録するロボット追跡層,平面壁などの特徴を持つメカニカル・セマンティック層,廊下や部屋などの高次特徴を制約する新しいトポロジ層などの3層Sグラフをリアルタイムで構築・最適化する。 我々の提案は、ロボットのポーズ推定の最先端結果を示すだけでなく、環境の計量-意味-トポロジーモデルにも貢献する。

Autonomous mobile robots should be aware of their situation, understood as a comprehensive understanding of the environment along with the estimation of its own state, to successfully make decisions and execute tasks in natural environments. 3D scene graphs are an emerging field of research with great potential to represent these situations in a joint model comprising geometric, semantic and relational/topologic al dimensions. Although 3D scene graphs have already been utilized for this, further research is still required to effectively deploy them on-board mobile robots. To this end, we present in this paper a real-time online built Situational Graphs (S-Graphs), composed of a single graph representing the environment, while simultaneously improving the robot pose estimation. Our method utilizes odometry readings and planar surfaces extracted from 3D LiDAR scans, to construct and optimize in real-time a three layered S-Graph that includes a robot tracking layer where the robot poses are registered, a metric-semantic layer with features such as planar walls and our novel topological layer constraining higher-level features such as corridors and rooms. Our proposal does not only demonstrate state-of-the-art results for pose estimation of the robot, but also contributes with a metric-semantic-topo logical model of the environment
翻訳日:2022-02-25 18:04:55 公開日:2022-02-24
# データ拡張一貫性規則化のサンプル効率

Sample Efficiency of Data Augmentation Consistency Regularization ( http://arxiv.org/abs/2202.12230v1 )

ライセンス: Link先を確認
Shuo Yang, Yijun Dong, Rachel Ward, Inderjit S. Dhillon, Sujay Sanghavi, Qi Lei(参考訳) データ拡張は、大規模なニューラルネットワークのトレーニングで人気があるが、現在、拡張データの使用方法に関する異なるアルゴリズムの選択の間に明確な理論的比較はない。 本稿では、まず、線形回帰のための単純で斬新な分析を行い、データ拡張整合性(DAC)が、拡張データ(DA-ERM)における経験的リスク最小化よりも本質的に効率的であることを実証する。 そこで我々は,DACを関数クラスの複雑性を低減する手段として再編成するDAC解析のための新しい理論フレームワークを提案する。 新しいフレームワークは、様々な非線形モデル(例えばニューラルネットワーク)に対するDACのサンプル効率を特徴付ける。 さらに, erm と cifar-100 と wideesnet を用いた一貫性正規化とを, 清潔で apples-to-apples 比較 (モデリングやデータ修正は不要) する実験を行った。

Data augmentation is popular in the training of large neural networks; currently, however, there is no clear theoretical comparison between different algorithmic choices on how to use augmented data. In this paper, we take a step in this direction - we first present a simple and novel analysis for linear regression, demonstrating that data augmentation consistency (DAC) is intrinsically more efficient than empirical risk minimization on augmented data (DA-ERM). We then propose a new theoretical framework for analyzing DAC, which reframes DAC as a way to reduce function class complexity. The new framework characterizes the sample efficiency of DAC for various non-linear models (e.g., neural networks). Further, we perform experiments that make a clean and apples-to-apples comparison (i.e., with no extra modeling or data tweaks) between ERM and consistency regularization using CIFAR-100 and WideResNet; these together demonstrate the superior efficacy of DAC.
翻訳日:2022-02-25 17:46:59 公開日:2022-02-24
# バウンディングメンバーシップ推論

Bounding Membership Inference ( http://arxiv.org/abs/2202.12232v1 )

ライセンス: Link先を確認
Anvith Thudi, Ilia Shumailov, Franziska Boenisch, Nicolas Papernot(参考訳) 差分プライバシー(DP)は、トレーニングアルゴリズムのプライバシー保証について推論するデファクトスタンダードである。 DPが既存のメンバーシップ推論(MI)攻撃に対するモデルの脆弱性を減少させるという実証的な観察にもかかわらず、なぜこのことが文献にほとんど見当たらないのかという理論的根拠がある。 実際には、モデルがdpでトレーニングされる必要があるため、精度が大幅に低下する。 本稿では、トレーニングアルゴリズムが$\epsilon$-dpを提供する場合、任意のmi敵の精度により厳密なバインドを提供する。 我々の限界は、トレーニング開始前のより大きなセットから効果的なトレーニングセットをサブサンプリングする、新しいプライバシアンプリフィケーション・アンプリフィケーション・スキームの設計を通知し、MI精度の限界を大幅に低減する。 その結果,提案方式では,MI 攻撃者の成功を制限するためにモデルをトレーニングする際に,よりゆるやかな DP 保証を採用することが可能となり,それによってモデルの精度がプライバシー保証の影響を受けにくくなった。 最後に,機械学習の分野におけるmiの影響について考察する。

Differential Privacy (DP) is the de facto standard for reasoning about the privacy guarantees of a training algorithm. Despite the empirical observation that DP reduces the vulnerability of models to existing membership inference (MI) attacks, a theoretical underpinning as to why this is the case is largely missing in the literature. In practice, this means that models need to be trained with DP guarantees that greatly decrease their accuracy. In this paper, we provide a tighter bound on the accuracy of any MI adversary when a training algorithm provides $\epsilon$-DP. Our bound informs the design of a novel privacy amplification scheme, where an effective training set is sub-sampled from a larger set prior to the beginning of training, to greatly reduce the bound on MI accuracy. As a result, our scheme enables $\epsilon$-DP users to employ looser DP guarantees when training their model to limit the success of any MI adversary; this ensures that the model's accuracy is less impacted by the privacy guarantee. Finally, we discuss implications of our MI bound on the field of machine unlearning.
翻訳日:2022-02-25 17:46:40 公開日:2022-02-24
# OEISのためのプログラム合成

Program Synthesis for the OEIS ( http://arxiv.org/abs/2202.11908v1 )

ライセンス: Link先を確認
Thibault Gauthier(参考訳) 本稿では,整数列のプログラム合成のための自己学習手法を提案する。 本手法は,学習方針に導かれる意味的商法を備えた木探索に依存する。 自己学習により、1週間で43516個のOEIS配列の最初の16個を生成できるプログラムを発見し、16番目の数に等しい配列を1回だけカウントする。

We present a self-learning approach to synthesize programs for integer sequences. Our method relies on a tree search equipped with a semantic quotient guided by a learned policy. Through self-learning, our implementation discovers in one week programs that generate the first 16 numbers of 43516 OEIS sequences with sequences identical up to the 16th number counted only once.
翻訳日:2022-02-25 17:46:22 公開日:2022-02-24
# 勾配再重み付けによるスパイクニューラルネットワークの時間効率トレーニング

Temporal Efficient Training of Spiking Neural Network via Gradient Re-weighting ( http://arxiv.org/abs/2202.11946v1 )

ライセンス: Link先を確認
Shikuang Deng, Yuhang Li, Shanghang Zhang, Shi Gu(参考訳) 近年、脳にインスパイアされたスパイクニューロンネットワーク(SNN)は、事象駆動型でエネルギー効率のよい特徴から、広く研究の関心を集めている。 それでも、アクティベーション関数の非微分性のため、従来のニューラルネットワーク(ANN)で一般的に使用される勾配勾配勾配アプローチを無効にするため、ディープSNNを効率的に訓練することは困難である。 surrogate gradient (sg) の採用は、公式には損失のバックプロパゲーションを可能にするが、離散的なスパイク機構は、実際にはsnsの損失景観と ann のそれとを区別し、ann と同等の精度を達成するためのsurrogategradient method に失敗している。 本稿では,現在の直接学習アプローチが一般化性に乏しいsnsに与える影響を最初に分析する。 次に, sgによる勾配降下時の運動量の損失を補償するために, 時間効率トレーニング (tet) 手法を導入する。 一方,titはsnnの時間的拡張性を改善し,アクセラレーションのための時間的継承可能なトレーニングを誘導する。 我々の手法は、CIFAR-10/100やImageNetなど、報告されたすべての主流データセットにおいて、SOTAを一貫して上回ります。 dvs-cifar10では83$-%$ top-1 の精度が得られ,既存の技術と比較して10$-%$の改善が得られた。 コードは \url{https://github.com/g us-lab/temporal_ efficient_training} で入手できる。

Recently, brain-inspired spiking neuron networks (SNNs) have attracted widespread research interest because of their event-driven and energy-efficient characteristics. Still, it is difficult to efficiently train deep SNNs due to the non-differentiabilit y of its activation function, which disables the typically used gradient descent approaches for traditional artificial neural networks (ANNs). Although the adoption of surrogate gradient (SG) formally allows for the back-propagation of losses, the discrete spiking mechanism actually differentiates the loss landscape of SNNs from that of ANNs, failing the surrogate gradient methods to achieve comparable accuracy as for ANNs. In this paper, we first analyze why the current direct training approach with surrogate gradient results in SNNs with poor generalizability. Then we introduce the temporal efficient training (TET) approach to compensate for the loss of momentum in the gradient descent with SG so that the training process can converge into flatter minima with better generalizability. Meanwhile, we demonstrate that TET improves the temporal scalability of SNN and induces a temporal inheritable training for acceleration. Our method consistently outperforms the SOTA on all reported mainstream datasets, including CIFAR-10/100 and ImageNet. Remarkably on DVS-CIFAR10, we obtained 83$\%$ top-1 accuracy, over 10$\%$ improvement compared to existing state of the art. Codes are available at \url{https://github.com/G us-Lab/temporal_effi cient_training}.
翻訳日:2022-02-25 17:46:18 公開日:2022-02-24
# 大規模会議における論文とレビュアーのマッチング

Matching Papers and Reviewers at Large Conferences ( http://arxiv.org/abs/2202.12273v1 )

ライセンス: Link先を確認
Kevin Leyton-Brown and Mausam and Yatin Nandwani and Hedayat Zarkoob and Chris Cameron and Neil Newman and Dinesh Raghu(参考訳) 本稿では,第35回AAAI AI Conference on Artificial Intelligence (AAAI 2021) に展開され,AAAI 2022 や ICML 2022 など他のカンファレンスにも採用されている,新たなレビュアーペーパーマッチング手法について検討する。 本手法は,(1)問題のあるマッチングを識別し,レビュア紙スコアを生成するための入力データの収集と処理,(2)優れたレビュア紙マッチングを見つけるための最適化問題の定式化と解決,(3)拒絶される可能性のある論文から決定境界に近い論文へリソースを移行させる新たな2段階レビュープロセスの導入,の3つの要素を有する。 本稿では,AAAI の以前の (2020) イテレーションで使用されるマッチングアルゴリズムとの比較を含む,実データに対する広範なポストホック解析に基づくこれらのイノベーションの評価を行い,これを追加の数値実験で補足する。

This paper studies a novel reviewer-paper matching approach that was recently deployed in the 35th AAAI Conference on Artificial Intelligence (AAAI 2021), and has since been adopted by other conferences including AAAI 2022 and ICML 2022. This approach has three main elements: (1) collecting and processing input data to identify problematic matches and generate reviewer-paper scores; (2) formulating and solving an optimization problem to find good reviewer-paper matchings; and (3) the introduction of a novel, two-phase reviewing process that shifted reviewing resources away from papers likely to be rejected and towards papers closer to the decision boundary. This paper also describes an evaluation of these innovations based on an extensive post-hoc analysis on real data -- including a comparison with the matching algorithm used in AAAI's previous (2020) iteration -- and supplements this with additional numerical experimentation.
翻訳日:2022-02-25 17:45:51 公開日:2022-02-24
# bitcoinアドレスの機能的分類

Functional Classification of Bitcoin Addresses ( http://arxiv.org/abs/2202.12019v1 )

ライセンス: Link先を確認
Manuel Febrero-Bande, Wenceslao Gonz\'alez-Manteiga, Brenda Prallon and Yuri F. Saporito(参考訳) 本稿では、そのバランスに基づいて、ビットコインアドレスのメインアクティビティを予測する分類モデルを提案する。 バランスは時間の関数であるため、関数データ解析の手法を適用し、より具体的には、提案した分類モデルの特徴がデータの機能的主成分である。 bitcoinのアドレスを分類することは、bitcoin市場の構成を理解することと、不正行為に使用されるアカウントを特定するという2つの主な理由から関連する問題である。 他のbitcoin分類器も提案されているが、主に曲線行動ではなくネットワーク分析に焦点を当てている。 一方,本手法では予測にネットワーク情報を必要としない。 さらに、機能機能は、エキスパートが構築した機能とは異なり、簡単に構築できるという利点がある。 その結果、機能的特徴とスカラ機能を組み合わせた場合、これらの特徴を別々に使用するモデルの類似の精度が改善され、ドメイン固有の知識が得られない場合、機能的モデルは優れた代替手段となることが示される。

This paper proposes a classification model for predicting the main activity of bitcoin addresses based on their balances. Since the balances are functions of time, we apply methods from functional data analysis; more specifically, the features of the proposed classification model are the functional principal components of the data. Classifying bitcoin addresses is a relevant problem for two main reasons: to understand the composition of the bitcoin market, and to identify accounts used for illicit activities. Although other bitcoin classifiers have been proposed, they focus primarily on network analysis rather than curve behavior. Our approach, on the other hand, does not require any network information for prediction. Furthermore, functional features have the advantage of being straightforward to build, unlike expert-built features. Results show improvement when combining functional features with scalar features, and similar accuracy for the models using those features separately, which points to the functional model being a good alternative when domain-specific knowledge is not available.
翻訳日:2022-02-25 17:45:32 公開日:2022-02-24
# (参考訳) 現代ebmのmcmcベーストレーニングの明確化 : 対比的発散と最大確率 [全文訳有]

Clarifying MCMC-based training of modern EBMs : Contrastive Divergence versus Maximum Likelihood ( http://arxiv.org/abs/2202.12176v1 )

ライセンス: CC BY 4.0
L\'eo Gagnon and Guillaume Lajoie(参考訳) エネルギーベースモデル(ebm)フレームワークは、非正規化スコアでのみ定義される確率分布を学習し活用しようとする、生成モデリングに対する非常に一般的なアプローチである。 近年,畳み込みニューラルネットワーク(CNN)による分布のパラメータ化による画像生成による印象的な結果により,人気が高まっている。 しかし、現代のESMの背後にあるモチベーションと理論的基盤は、近年の論文からしばしば欠落しており、混乱を招くことがある。 特に、人気のMCMCベースの学習アルゴリズムであるContrastive Divergence(CD)の理論的正当性はしばしば誇張され、近年の影響力のある論文(Du & Mordatch, 2019; Du et al., 2020)で理論的誤りにつながることが判明した。 MCMCベースのトレーニングの初歩的な導入を行った後、彼らが使用する学習アルゴリズムは実際にはCDとして記述されず、新しい解釈に照らしてそれらの手法を再解釈できると論じる。 最後に,新しい解釈の意義を議論し,いくつかの実証実験を行った。

The Energy-Based Model (EBM) framework is a very general approach to generative modeling that tries to learn and exploit probability distributions only defined though unnormalized scores. It has risen in popularity recently thanks to the impressive results obtained in image generation by parameterizing the distribution with Convolutional Neural Networks (CNN). However, the motivation and theoretical foundations behind modern EBMs are often absent from recent papers and this sometimes results in some confusion. In particular, the theoretical justifications behind the popular MCMC-based learning algorithm Contrastive Divergence (CD) are often glossed over and we find that this leads to theoretical errors in recent influential papers (Du & Mordatch, 2019; Du et al., 2020). After offering a first-principles introduction of MCMC-based training, we argue that the learning algorithm they use can in fact not be described as CD and reinterpret theirs methods in light of a new interpretation. Finally, we discuss the implications of our new interpretation and provide some illustrative experiments.
翻訳日:2022-02-25 17:43:08 公開日:2022-02-24
# DCとSA:マルチサブネットワーク深層学習モデルのロバストかつ効率的なハイパーパラメータ最適化

DC and SA: Robust and Efficient Hyperparameter Optimization of Multi-subnetwork Deep Learning Models ( http://arxiv.org/abs/2202.11841v1 )

ライセンス: Link先を確認
Alex H. Treacher and Albert Montillo(参考訳) 複数のサブネットで構成されたモジュールアーキテクチャを用いたディープラーニングモデルの最適化のための2つの新しいハイパーパラメータ最適化手法を提案する。 複数のサブネットワークを持つ複雑なネットワークが機械学習に頻繁に使われるようになると、ハイパーパラメータ最適化手法はハイパーパラメータを効率的に最適化するために必要となる。 既存のハイパーパラメータ検索は一般的であり、そのようなネットワークを最適化するために使用できるが、マルチサブネットワークアーキテクチャを利用することにより、これらの検索を実質的に高速化することができる。 提案手法はより高性能なファイナルモデルへの収束を高速化する。 これを示すために、これらの先行アルゴリズムを強化する2つの独立したアプローチを提案する。 1) 高パラメータ探索空間のより迅速なサンプリングを可能にするため,最高性能モデルの最適サブネットが組み合わさった分割対コンカレント手法を提案する。 2) 各サブネットワークの重要性に基づいて計算資源を分散し、よりインテリジェントなリソース割り当てを可能にするサブネットワーク適応アプローチ。 これらのアプローチは多くのハイパーパラメータ最適化アルゴリズムに柔軟に適用できる。 これを説明するために、我々のアプローチと一般的なベイズ最適化法を組み合わせる。 提案手法は,合成例と実例の両方に対して検証し,畳み込みニューラルネットワークや高密度フィードフォワードニューラルネットワークを含む複数のネットワークタイプに適用する。 提案手法では,最大23.62倍の最適化効率が向上し,最大3.5%の分類精度,4.4MSEの回帰精度が向上した。

We present two novel hyperparameter optimization strategies for optimization of deep learning models with a modular architecture constructed of multiple subnetworks. As complex networks with multiple subnetworks become more frequently applied in machine learning, hyperparameter optimization methods are required to efficiently optimize their hyperparameters. Existing hyperparameter searches are general, and can be used to optimize such networks, however, by exploiting the multi-subnetwork architecture, these searches can be sped up substantially. The proposed methods offer faster convergence to a better-performing final model. To demonstrate this, we propose 2 independent approaches to enhance these prior algorithms: 1) a divide-and-conquer approach, in which the best subnetworks of top-performing models are combined, allowing for more rapid sampling of the hyperparameter search space. 2) A subnetwork adaptive approach that distributes computational resources based on the importance of each subnetwork, allowing more intelligent resource allocation. These approaches can be flexibily applied to many hyperparameter optimization algorithms. To illustrate this, we combine our approaches with the commonly-used Bayesian optimization method. Our approaches are then tested against both synthetic examples and real-world examples and applied to multiple network types including convolutional neural networks and dense feed forward neural networks. Our approaches show an increased optimization efficiency of up to 23.62x, and a final performance boost of up to 3.5% accuracy for classification and 4.4 MSE for regression, when compared to comparable BO approach.
翻訳日:2022-02-25 17:28:52 公開日:2022-02-24
# オンラインディスプレイ広告におけるキャンペーンパフォーマンス予測のための統一フレームワーク

A Unified Framework for Campaign Performance Forecasting in Online Display Advertising ( http://arxiv.org/abs/2202.11877v1 )

ライセンス: Link先を確認
Jun Chen, Cheng Chen, Huayue Zhang, Qing Tan(参考訳) 広告主は通常、オンラインディスプレイ広告のキャンペーンを企画する際、ターゲットのオーディエンス、地理的領域、入札価格などの基準を選択できる柔軟性を享受するが、キャンペーンパフォーマンスの予測情報が不足し、事前に配達戦略を最適化する。 本稿では,新たなキャンペーンにおける重要なパフォーマンス指標を,一定の基準を満たして予測することを目的とする。 解釈可能で正確な結果により、広告主はキャンペーン基準を管理し最適化することができる。 このタスクにはいくつかの課題があります。 まず、プラットフォームは通常、広告キャンペーンを計画するときに広告主に様々な基準を提供するが、入札タイプ間で大きな差があるため、キャンペーンパフォーマンスを統一的に見積もることは困難である。 さらに、入札システムに適用される複雑な戦略は、キャンペーン性能に大きな変動をもたらし、推定精度を極めて難しい問題にする。 上記の課題に対処するため,我々は,まず,マッチやランクといった重要なオークション処理を再現し,予測結果の解釈可能性を確保する,様々な入札方式による履歴ログのキャンペーンパフォーマンスを再現する,新しいキャンペーンパフォーマンス予測フレームワークを提案する。 そこで,我々は,リプレイにおける難解な入札戦略による推定の偏差を校正するマルチタスク学習手法を革新的に導入した。 本手法は,予測指標間の混合校正パターンを捕捉し,推定結果を真の指標にマッピングし,精度と効率を著しく改善する。 Taobao.comのデータセットによる実験結果から,提案するフレームワークが他のベースラインを大幅に上回り,オンラインA/Bテストによって実世界での有効性が検証された。

Advertisers usually enjoy the flexibility to choose criteria like target audience, geographic area and bid price when planning an campaign for online display advertising, while they lack forecast information on campaign performance to optimize delivery strategies in advance, resulting in a waste of labour and budget for feedback adjustments. In this paper, we aim to forecast key performance indicators for new campaigns given any certain criteria. Interpretable and accurate results could enable advertisers to manage and optimize their campaign criteria. There are several challenges for this very task. First, platforms usually offer advertisers various criteria when they plan an advertising campaign, it is difficult to estimate campaign performance unifiedly because of the great difference among bidding types. Furthermore, complex strategies applied in bidding system bring great fluctuation on campaign performance, making estimation accuracy an extremely tough problem. To address above challenges, we propose a novel Campaign Performance Forecasting framework, which firstly reproduces campaign performance on historical logs under various bidding types with a unified replay algorithm, in which essential auction processes like match and rank are replayed, ensuring the interpretability on forecast results. Then, we innovatively introduce a multi-task learning method to calibrate the deviation of estimation brought by hard-to-reproduce bidding strategies in replay. The method captures mixture calibration patterns among related forecast indicators to map the estimated results to the true ones, improving both accuracy and efficiency significantly. Experiment results on a dataset from Taobao.com demonstrate that the proposed framework significantly outperforms other baselines by a large margin, and an online A/B test verifies its effectiveness in the real world.
翻訳日:2022-02-25 17:28:29 公開日:2022-02-24
# 統合的勾配法と内因性ニューロンへの拡張に関する厳密な研究

A Rigorous Study of Integrated Gradients Method and Extensions to Internal Neuron Attributions ( http://arxiv.org/abs/2202.11912v1 )

ライセンス: Link先を確認
Daniel Lundstrom, Tianjian Huang, Meisam Razaviyayn(参考訳) ディープラーニング(DL)の有効性が高まるにつれて、これらのブラックボックスモデルの透明性の欠如が懸念される。 アトリビューション手法は、モデル予測に対する入力特徴の重要性を定量化し、dlモデルの透明性を向上させることを目的としている。 統合勾配法(IG)は、他の方法が望ましい公理を満たすことができず、IGとそれのような方法がその公理を一意に満たさないと主張することによって、それ自体を分離する。 本稿では,IGの基本的側面とその応用・拡張について述べる。 1) DL-属性関数空間と,IGの一意性に関する従来の主張を問題視する文献の関数空間との間には,重要でない相違が認められる。 追加の公理である$\textit{non-decreasing positiveivity}$を導入することで、一意性主張が確立できることを示す。 2) 属性入力においてIGがリプシッツ連続でない関数空間を同定することにより, 入力感度の問題に対処する。 3) IGにおける単一ベースライン法に対する公理は, 入力サンプル空間上の確率分布となる手法に対して, 類似性を付与する。 4) 内部ニューロンの層に関してIGマップを分解すると同時に, 内部ニューロンの属性を同時に獲得する手段を導入する。 最後に、神経細胞の分解と内因性を検証する実験結果を示す。

As the efficacy of deep learning (DL) grows, so do concerns about the lack of transparency of these black-box models. Attribution methods aim to improve transparency of DL models by quantifying an input feature's importance to a model's prediction. The method of Integrated gradients (IG) sets itself apart by claiming other methods failed to satisfy desirable axioms, while IG and methods like it uniquely satisfied said axioms. This paper comments on fundamental aspects of IG and its applications/extensi ons: 1) We identify key unaddressed differences between DL-attribution function spaces and the supporting literature's function spaces which problematize previous claims of IG uniqueness. We show that with the introduction of an additional axiom, $\textit{non-decreasing positivity}$, the uniqueness claim can be established. 2) We address the question of input sensitivity by identifying function spaces where the IG is/is not Lipschitz continuous in the attributed input. 3) We show how axioms for single-baseline methods in IG impart analogous properties for methods where the baseline is a probability distribution over the input sample space. 4) We introduce a means of decomposing the IG map with respect to a layer of internal neurons while simultaneously gaining internal-neuron attributions. Finally, we present experimental results validating the decomposition and internal neuron attributions.
翻訳日:2022-02-25 17:27:57 公開日:2022-02-24
# autocl : モデル性能に基づくディープラーニング分類の自動推薦のためのビジュアルインタラクティブシステム

AutoCl : A Visual Interactive System for Automatic Deep Learning Classifier Recommendation Based on Models Performance ( http://arxiv.org/abs/2202.11928v1 )

ライセンス: Link先を確認
Fuad Ahmed (1), Rubayea Ferdows (2), Md Rafiqul Islam (3), Abu Raihan M. Kamal (1) ((1) Department of Computer Science & Engineering, Islamic University of Technology (IUT), Bangladesh, (2) Department of Computer Science & Engineering, International University of Business Agriculture and Technology (IUBAT), Bangladesh, (3) Department of Genetics, Genomics, and Informatics, The University of Tennessee Health Science Center (UTHSC), United States)(参考訳) 今日では、さまざまな分野にディープラーニング(DL)モデルがますます適用され、技術的専門知識のない人やドメイン知識のない人は、タスクに適したモデルを見つけるのに苦労しています。 本稿では,非専門家が適切なdl分類器を採用するのを支援するビジュアルインタラクティブレコメンダシステムautoclについて紹介する。 本システムでは,様々なハイパーパラメータでトレーニングされた複数の分類器の性能と動作を比較し,最適な分類器を適切なハイパーパラメータで自動的に推薦する。 我々はAutoClの特徴を最近のAutoMLシステムと比較し、非専門家がDL分類器を選択するのに役立つことを示す。 最後に,我々のシステムの性能を示すために,公開データセットを用いた画像分類のユースケースを示す。

Nowadays, deep learning (DL) models being increasingly applied to various fields, people without technical expertise and domain knowledge struggle to find an appropriate model for their task. In this paper, we introduce AutoCl a visual interactive recommender system aimed at helping non-experts to adopt an appropriate DL classifier. Our system enables users to compare the performance and behavior of multiple classifiers trained with various hyperparameter setups as well as automatically recommends a best classifier with appropriate hyperparameter. We compare features of AutoCl against several recent AutoML systems and show that it helps non-experts better in choosing DL classifier. Finally, we demonstrate use cases for image classification using publicly available dataset to show the capability of our system.
翻訳日:2022-02-25 17:27:35 公開日:2022-02-24
# 一般化エントロピーによる公正な経験的リスク最小化

A Fair Empirical Risk Minimization with Generalized Entropy ( http://arxiv.org/abs/2202.11966v1 )

ライセンス: Link先を確認
Youngmi Jin and Tae-Jin Lee(参考訳) 近年,アルゴリズム的公正度を定量化するためのパラメトリックなフェアネス尺度が,もともと経済学や福祉に用いられてきた一般化エントロピーに基づいて提案されている。 これらの指標には、個々のレベルとグループレベルの不公平さの定量化や、個々のフェアネスとグループレベルのフェアネスの間のトレードオフのようないくつかの利点があるため、アルゴリズム的フェアネス要件は、公平な分類問題に対する一般化エントロピーの観点で与えられることができる。 一般化エントロピーによって特定される公平性制約を伴う公正な経験的リスク最小化を考える。 理論的には、公正な経験的公正分類問題が学習可能かどうか、そしてその近似的最適分類器を見つける方法について検討する。

Recently a parametric family of fairness metrics to quantify algorithmic fairness has been proposed based on generalized entropy which have been originally used in economics and public welfare. Since these metrics have several advantages such as quantifying unfairness at the individual-level and group-level, and unfold trade-off between the individual fairness and group-level fairness, algorithmic fairness requirement may be given in terms of generalized entropy for a fair classification problem. We consider a fair empirical risk minimization with a fairness constraint specified by generalized entropy. We theoretically investigate if the fair empirical fair classification problem is learnable and how to find an approximate optimal classifier of it.
翻訳日:2022-02-25 17:27:23 公開日:2022-02-24
# 不確実性を考慮したニューラル微分方程式による時間的治療の影響予測

Predicting the impact of treatments over time with uncertainty aware neural differential equations ( http://arxiv.org/abs/2202.11987v1 )

ライセンス: Link先を確認
Edward De Brouwer, Javier Gonz\'alez Hern\'andez, Stephanie Hyland(参考訳) 観測データから治療の効果を予測することは,近年の時系列モデリングの進歩にもかかわらず,依然として大きな問題である。 処理の割り当ては、通常、応答の予測子と相関し、結果として、反現実的な予測に対するデータサポートが欠如し、したがって品質の予測が劣る。 因果推論(causal inference)の開発は、最小のオーバーラップレベルを必要とすることによって、この共起に対処するメソッドに繋がる。 しかし、overlapは評価が難しく、通常は満足できない。 本研究では,不確実性推定を備えたニューラル正規微分方程式を用いて,時間とともに治療の影響を連続的に予測する新しい手法であるCF-ODEを提案する。 これにより、どの治療結果が確実に予測できるかを具体的に評価することができる。 CF-ODEが従来よりも精度の高い予測と信頼性の高い不確実性推定を提供することを示す。

Predicting the impact of treatments from observational data only still represents a majorchallenge despite recent significant advances in time series modeling. Treatment assignments are usually correlated with the predictors of the response, resulting in a lack of data support for counterfactual predictions and therefore in poor quality estimates. Developments in causal inference have lead to methods addressing this confounding by requiring a minimum level of overlap. However,overlap is difficult to assess and usually notsatisfied in practice. In this work, we propose Counterfactual ODE (CF-ODE), a novel method to predict the impact of treatments continuously over time using Neural Ordinary Differential Equations equipped with uncertainty estimates. This allows to specifically assess which treatment outcomes can be reliably predicted. We demonstrate over several longitudinal data sets that CF-ODE provides more accurate predictions and more reliable uncertainty estimates than previously available methods.
翻訳日:2022-02-25 17:25:41 公開日:2022-02-24
# セルフトレーニング:調査

Self-Training: A Survey ( http://arxiv.org/abs/2202.12040v1 )

ライセンス: Link先を確認
Massih-Reza Amini, Vasilii Feofanov, Loic Pauletto, Emilie Devijver, Yury Maximov(参考訳) 近年、半教師付きアルゴリズムは学術と産業の両方に大きな関心を集めている。 既存の技術の中では、ここ数年で自己学習の手法に注目が集まっている。 これらのモデルは、データ分布に余分な仮定を加えることなく、低密度領域における決定境界を探索し、学習した分類器の符号なし出力スコアまたはそのマージンを信頼の指標として使用するように設計されている。 自己学習アルゴリズムの動作原理は、ある閾値より大きいラベル付きトレーニングサンプルの集合に擬似ラベルを割り当てることで、分類器を反復的に学習することである。 次に、擬似ラベル付きサンプルを使用してラベル付きトレーニングデータを強化し、ラベル付きトレーニングセットと合わせて新しい分類器をトレーニングする。 本稿では,近年ニューラルネットワークを用いて開発されたバイナリクラスとマルチクラス分類の自己学習手法と,その変種について述べる。 最後に,今後の自己学習研究の考え方について述べる。 私たちの知る限りでは、この問題に関する完全な調査はこれが初めてです。

In recent years, semi-supervised algorithms have received a lot of interest in both academia and industry. Among the existing techniques, self-training methods have arguably received more attention in the last few years. These models are designed to search the decision boundary on low density regions without making extra assumptions on the data distribution, and use the unsigned output score of a learned classifier, or its margin, as an indicator of confidence. The working principle of self-training algorithms is to learn a classifier iteratively by assigning pseudo-labels to the set of unlabeled training samples with a margin greater than a certain threshold. The pseudo-labeled examples are then used to enrich the labeled training data and train a new classifier in conjunction with the labeled training set. We present self-training methods for binary and multiclass classification and their variants which were recently developed using Neural Networks. Finally, we discuss our ideas for future research in self-training. To the best of our knowledge, this is the first thorough and complete survey on this subject.
翻訳日:2022-02-25 17:25:27 公開日:2022-02-24
# クローン成長予測のための時間畳み込みドメイン適応学習

Temporal Convolution Domain Adaptation Learning for Crops Growth Prediction ( http://arxiv.org/abs/2202.12120v1 )

ライセンス: Link先を確認
Shengzhe Wang, Ling Wang, Zhihao Lin, Xi Zheng(参考訳) 作物の成長予測に関する既存のDeep Neural Netsは、主に大量のデータの可用性に依存している。 実際、これらのディープラーニングモデルの潜在能力を最大限活用するには、十分な高品質なデータを集めることは困難である。 本稿では,利用可能な作物データに制限のある作物成長曲線を予測するために,ドメイン適応学習に基づく革新的なネットワークアーキテクチャを構築する。 このネットワークアーキテクチャは、開発された作物シミュレーションモデルから生成されたデータを取り込むことで、データ可用性の課題を克服する。 我々は、時間的畳み込みフィルタをバックボーンとして、ターゲットドメインの非常に限られたトレーニングデータを持つディープラーニング回帰モデルに適したドメイン適応ネットワークアーキテクチャを構築する最初の例である。 提案するアーキテクチャを,LSTMに基づく最近のドメイン適応ネットワークアーキテクチャを含む最先端の他の手法と比較し,ネットワークの性能を検証する実験を行った。 その結果,提案した時間的畳み込みに基づくネットワークアーキテクチャは,精度だけでなく,モデルサイズや収束率においても,すべてのベンチマークより優れていた。

Existing Deep Neural Nets on crops growth prediction mostly rely on availability of a large amount of data. In practice, it is difficult to collect enough high-quality data to utilize the full potential of these deep learning models. In this paper, we construct an innovative network architecture based on domain adaptation learning to predict crops growth curves with limited available crop data. This network architecture overcomes the challenge of data availability by incorporating generated data from the developed crops simulation model. We are the first to use the temporal convolution filters as the backbone to construct a domain adaptation network architecture which is suitable for deep learning regression models with very limited training data of the target domain. We conduct experiments to test the performance of the network and compare our proposed architecture with other state-of-the-art methods, including a recent LSTM-based domain adaptation network architecture. The results show that the proposed temporal convolution-based network architecture outperforms all benchmarks not only in accuracy but also in model size and convergence rate.
翻訳日:2022-02-25 17:25:10 公開日:2022-02-24
# Attentionはゼロ近似エラーを可能にする

Attention Enables Zero Approximation Error ( http://arxiv.org/abs/2202.12166v1 )

ライセンス: Link先を確認
Zhiying Fang, Yidong Ouyang, Ding-Xuan Zhou, Guang Cheng(参考訳) ディープラーニングモデルは日常生活の様々な側面に広く応用されている。 ディープラーニング構造に基づく多くの変種モデルは、さらに優れたパフォーマンスを実現している。 注意に基づくアーキテクチャは、ディープラーニング構造においてほとんどどこにでもある。 特に、トランスモデルは画像分類タスクにおける畳み込みニューラルネットワークを破り、最も広く使われているツールとなった。 しかし、注意に基づくモデルの理論的性質はほとんど考慮されない。 そこで本研究では,任意の数の変圧器エンコーダブロックと自由パラメータを持つ単頭自己着脱変圧器を用いて,入力の所望の多項式を誤りなく生成できることを示す。 変換器エンコーダブロックの数は、対象多項式の次数と同じである。 さらにエキサイティングなことに、このモデルのトランスフォーマーエンコーダブロックをトレーニングする必要はありません。 その結果,自由パラメータ数が増加するシングルヘッド自己注意変換器は普遍的であることがわかった。 これらの驚くべき理論結果はトランスフォーマーモデルの優れた性能を明確に説明し、実際の応用における将来の変更に光を当てる可能性がある。 また、理論的結果を検証するための実験も行っている。

Deep learning models have been widely applied in various aspects of daily life. Many variant models based on deep learning structures have achieved even better performances. Attention-based architectures have become almost ubiquitous in deep learning structures. Especially, the transformer model has now defeated the convolutional neural network in image classification tasks to become the most widely used tool. However, the theoretical properties of attention-based models are seldom considered. In this work, we show that with suitable adaptations, the single-head self-attention transformer with a fixed number of transformer encoder blocks and free parameters is able to generate any desired polynomial of the input with no error. The number of transformer encoder blocks is the same as the degree of the target polynomial. Even more exciting, we find that these transformer encoder blocks in this model do not need to be trained. As a direct consequence, we show that the single-head self-attention transformer with increasing numbers of free parameters is universal. These surprising theoretical results clearly explain the outstanding performances of the transformer model and may shed light on future modifications in real applications. We also provide some experiments to verify our theoretical result.
翻訳日:2022-02-25 17:24:55 公開日:2022-02-24
# 差別化プライバシのデバッグ:プライバシ監査のケーススタディ

Debugging Differential Privacy: A Case Study for Privacy Auditing ( http://arxiv.org/abs/2202.12219v1 )

ライセンス: Link先を確認
Florian Tramer, Andreas Terzis, Thomas Steinke, Shuang Song, Matthew Jagielski, Nicholas Carlini(参考訳) Differential Privacyは、機械学習でデータをトレーニングするための、証明可能なプライバシー保証を提供する。 しかし、証明の存在は誤りの存在を妨げない。 微分プライベートアルゴリズムにおける下限推定に用いられてきた近年の監査の進歩に触発されて、この監査は(おそらく)微分プライベートスキームにおける欠陥を見つけるためにも利用できることを示した。 このケーススタディでは、微分プライベートなディープラーニングアルゴリズムの最近のオープンソース実装を監査し、99.9999999999%の信頼を得て、この実装が要求される差分プライバシー保証を満たさないことを発見した。

Differential Privacy can provide provable privacy guarantees for training data in machine learning. However, the presence of proofs does not preclude the presence of errors. Inspired by recent advances in auditing which have been used for estimating lower bounds on differentially private algorithms, here we show that auditing can also be used to find flaws in (purportedly) differentially private schemes. In this case study, we audit a recent open source implementation of a differentially private deep learning algorithm and find, with 99.99999999% confidence, that the implementation does not satisfy the claimed differential privacy guarantee.
翻訳日:2022-02-25 17:24:38 公開日:2022-02-24
# (参考訳) 自蒸留式スタイルガン:インターネット写真から生成へ [全文訳有]

Self-Distilled StyleGAN: Towards Generation from Internet Photos ( http://arxiv.org/abs/2202.12211v1 )

ライセンス: CC BY 4.0
Ron Mokady, Michal Yarom, Omer Tov, Oran Lang, Daniel Cohen-Or, Tali Dekel, Michal Irani, Inbar Mosseri(参考訳) StyleGANは高忠実度画像を生成することで知られており、また前例のないセマンティック編集も提供している。 しかし、これらの魅力的な能力は限られたデータセットでのみ実証されており、通常は構造的に整列し、十分にキュレートされている。 本稿では,インターネットから収集した未処理画像に対して,StyleGANをどのように適応させるかを示す。 このような画像コレクションは、スタイルガンに2つの大きな課題を課す。 このような生画像コレクションのトレーニングスタイルGANは、劣化した画像合成品質をもたらす。 これらの課題を満たすために,我々は2つの主成分からなるスタイルガン型自己蒸留法を提案した。 (i)適切なトレーニングセットを生成するために、外れた画像を除去するためにデータセットを生成ベースで自己フィルタリングすること。 (ii)生成した画像の知覚的クラスタリングにより固有のデータモダリティが検出され、画像合成過程におけるstyleganの「侵入トリック」を改善するために使用される。 提案手法は,データの多様性の損失を最小限に抑えつつ,高品質な画像の生成を可能にする。 質的かつ定量的な評価を通じて,インターネットから収集した新しい挑戦的かつ多様なドメインに対する我々のアプローチの力を実証する。 新しいデータセットと事前学習されたモデルは、https://self-distill ed-stylegan.github.i o/で入手できる。

StyleGAN is known to produce high-fidelity images, while also offering unprecedented semantic editing. However, these fascinating abilities have been demonstrated only on a limited set of datasets, which are usually structurally aligned and well curated. In this paper, we show how StyleGAN can be adapted to work on raw uncurated images collected from the Internet. Such image collections impose two main challenges to StyleGAN: they contain many outlier images, and are characterized by a multi-modal distribution. Training StyleGAN on such raw image collections results in degraded image synthesis quality. To meet these challenges, we proposed a StyleGAN-based self-distillation approach, which consists of two main components: (i) A generative-based self-filtering of the dataset to eliminate outlier images, in order to generate an adequate training set, and (ii) Perceptual clustering of the generated images to detect the inherent data modalities, which are then employed to improve StyleGAN's "truncation trick" in the image synthesis process. The presented technique enables the generation of high-quality images, while minimizing the loss in diversity of the data. Through qualitative and quantitative evaluation, we demonstrate the power of our approach to new challenging and diverse domains collected from the Internet. New datasets and pre-trained models are available at https://self-distill ed-stylegan.github.i o/ .
翻訳日:2022-02-25 17:22:35 公開日:2022-02-24
# FreeSOLO: アノテーションなしでオブジェクトをセグメンテーションする方法

FreeSOLO: Learning to Segment Objects without Annotations ( http://arxiv.org/abs/2202.12181v1 )

ライセンス: Link先を確認
Xinlong Wang, Zhiding Yu, Shalini De Mello, Jan Kautz, Anima Anandkumar, Chunhua Shen, Jose M. Alvarez(参考訳) インスタンスセグメンテーションは、イメージ内の各オブジェクトを認識してセグメンテーションすることを目的とした、基本的なビジョンタスクである。 しかし、学習にはバウンディングボックスやセグメンテーションマスクなどの高価なアノテーションが必要である。 本研究では,アノテーションなしでクラス非依存のインスタンスセグメンテーションを学習する,教師なし学習手法を提案する。 我々は,単純なインスタンスセグメンテーションメソッドSOLO上に構築された自己教師型インスタンスセグメンテーションフレームワークであるFreeSOLOを紹介する。 提案手法では,複雑なシーンから教師なしでオブジェクトを発見できる,新しいローカライズ・アウェア事前学習フレームワークも提案する。 FreeSOLOは、挑戦的なCOCOデータセットで9.8%のAP_{50}を達成する。 教師なしのクラスに依存しないインスタンスセグメンテーションを初めて実証した。 FreeSOLOのボックスのローカライゼーションは、最先端の教師なしオブジェクト検出/発見手法よりも優れており、COCO APの相対的な改善は100%である。 FreeSOLOはさらに、5%のCOCOマスクしか持たない細調整のインスタンスセグメンテーションにおいて、最先端の自己教師付き事前訓練法を+9.8%APで上回り、強力な事前訓練法として優位性を示す。

Instance segmentation is a fundamental vision task that aims to recognize and segment each object in an image. However, it requires costly annotations such as bounding boxes and segmentation masks for learning. In this work, we propose a fully unsupervised learning method that learns class-agnostic instance segmentation without any annotations. We present FreeSOLO, a self-supervised instance segmentation framework built on top of the simple instance segmentation method SOLO. Our method also presents a novel localization-aware pre-training framework, where objects can be discovered from complicated scenes in an unsupervised manner. FreeSOLO achieves 9.8% AP_{50} on the challenging COCO dataset, which even outperforms several segmentation proposal methods that use manual annotations. For the first time, we demonstrate unsupervised class-agnostic instance segmentation successfully. FreeSOLO's box localization significantly outperforms state-of-the-art unsupervised object detection/discovery methods, with about 100% relative improvements in COCO AP. FreeSOLO further demonstrates superiority as a strong pre-training method, outperforming state-of-the-art self-supervised pre-training methods by +9.8% AP when fine-tuning instance segmentation with only 5% COCO masks.
翻訳日:2022-02-25 17:06:15 公開日:2022-02-24
# 病院ケアにおける意思決定効率向上のための電子健康記録における情報活用を促進するnlpソリューション

An NLP Solution to Foster the Use of Information in Electronic Health Records for Efficiency in Decision-Making in Hospital Care ( http://arxiv.org/abs/2202.12159v1 )

ライセンス: Link先を確認
Adelino Leite-Moreira, Afonso Mendes, Afonso Pedrosa, Am\^andio Rocha-Sousa, Ana Azevedo, Andr\'e Amaral-Gomes, Cl\'audia Pinto, Helena Figueira, Nuno Rocha Pereira, Pedro Mendes, Tiago Pimenta(参考訳) このプロジェクトは、ルールを定義し、ポルトガル語で書かれたフリーテキスト臨床記録の中で属性のセットを自動的に識別する技術ソリューションを開発することを目的としていた。 この基礎に基づいて開発・実施された最初の応用は、前回の診断・治療、通常の薬品、アレルギー、抗凝固療法など臨床決定に関連する特徴や条件を含む患者の臨床履歴の構造化された要約であった。 プロジェクトの目標は、臨床医、疫学者、計算言語学者、機械学習研究者、ソフトウェアエンジニアを含む多分野のチームによって達成され、公立病院、大学、民間部門の専門知識と視点が統合された。 患者と患者に対する関連する利益は、患者の歴史へのアクセスを促進することに関連しており、これは患者の臨床経過と時間的節約による効率の低下に繋がる。

The project aimed to define the rules and develop a technological solution to automatically identify a set of attributes within free-text clinical records written in Portuguese. The first application developed and implemented on this basis was a structured summary of a patient's clinical history, including previous diagnoses and procedures, usual medication, and relevant characteristics or conditions for clinical decisions, such as allergies, being under anticoagulant therapy, etc. The project's goal was achieved by a multidisciplinary team that included clinicians, epidemiologists, computational linguists, machine learning researchers and software engineers, bringing together the expertise and perspectives of a public hospital, the university and the private sector. Relevant benefits to users and patients are related with facilitated access to the patient's history, which translates into exhaustiveness in apprehending the patient's clinical past and efficiency due to time saving.
翻訳日:2022-02-25 17:05:35 公開日:2022-02-24
# (参考訳) CLEVRnessの測定:ビジュアル推論モデルのブラックボックステスト

Measuring CLEVRness: Blackbox testing of Visual Reasoning Models ( http://arxiv.org/abs/2202.12162v1 )

ライセンス: CC BY 4.0
Spyridon Mouselinos, Henryk Michalewski, Mateusz Malinowski(参考訳) インテリジェンスシステムの推論能力をどのように測定するか。 視覚的な質問応答は、シーンに関する質問を通じてモデルを問うことによって、モデルの能力をテストするための便利なフレームワークを提供する。 しかし、様々な視覚的なQAデータセットやアーキテクチャのスコアが超人的なパフォーマンスをもたらすこともあるにもかかわらず、これらのアーキテクチャが実際に理由付けできるかどうかという問題は議論の余地がある。 そこで本研究では,視覚質問応答フレームワークを拡張し,2人のプレイヤーによるゲーム形式で次の行動テストを提案する。 CLEVRのブラックボックスニューラルモデルを考える。 これらのモデルは、診断データセットのベンチマーク推論でトレーニングされる。 次に、CLEVRモデルを騙すためにシーンを再設定する敵プレイヤーを訓練する。 我々は、clevrモデルが人間レベルで動作可能でなければ、エージェントによって簡単に騙される可能性があることを示します。 我々の結果は、データ駆動アプローチがこれらのデータセットにしばしば存在する多くのバイアスを活用せずに推論できるかどうかを疑った。 最後に,そのようなモデルの学習と推論を行うための効率を測定する制御実験を提案する。

How can we measure the reasoning capabilities of intelligence systems? Visual question answering provides a convenient framework for testing the model's abilities by interrogating the model through questions about the scene. However, despite scores of various visual QA datasets and architectures, which sometimes yield even a super-human performance, the question of whether those architectures can actually reason remains open to debate. To answer this, we extend the visual question answering framework and propose the following behavioral test in the form of a two-player game. We consider black-box neural models of CLEVR. These models are trained on a diagnostic dataset benchmarking reasoning. Next, we train an adversarial player that re-configures the scene to fool the CLEVR model. We show that CLEVR models, which otherwise could perform at a human level, can easily be fooled by our agent. Our results put in doubt whether data-driven approaches can do reasoning without exploiting the numerous biases that are often present in those datasets. Finally, we also propose a controlled experiment measuring the efficiency of such models to learn and perform reasoning.
翻訳日:2022-02-25 17:03:13 公開日:2022-02-24
# 合成一般化には合成パーサが必要である

Compositional Generalization Requires Compositional Parsers ( http://arxiv.org/abs/2202.11937v1 )

ライセンス: Link先を確認
Pia Wei{\ss}enhorn, Yuekun Yao, Lucia Donatelli, Alexander Koller(参考訳) 構成一般化に関する研究機関は急速に成長し、意味解析器が訓練で見られる言語要素を非目的配列に動的に再結合する能力について研究している。 本稿では,最近のcogsコーパス(kim and linzen, 2020)における合成原理に基づくシーケンス列モデルとモデルの系統的比較を行った。 seq2seqモデルは語彙的タスクでうまく機能するが、新しい構文構造を必要とする構造一般化タスクでは、ほぼゼロの精度で動作し、意味論の代わりに構文を予測するように訓練された場合でも、これは正しい。 対照的に、構成モデルは構造一般化におけるほぼ完全な精度を達成し、AMパーサー(Groschwitz et al., 2021)からこれを確認した新しい結果を示す。 構造一般化は構成一般化の重要な尺度であり,複雑な構造を意識したモデルが必要である。

A rapidly growing body of research on compositional generalization investigates the ability of a semantic parser to dynamically recombine linguistic elements seen in training into unseen sequences. We present a systematic comparison of sequence-to-sequence models and models guided by compositional principles on the recent COGS corpus (Kim and Linzen, 2020). Though seq2seq models can perform well on lexical tasks, they perform with near-zero accuracy on structural generalization tasks that require novel syntactic structures; this holds true even when they are trained to predict syntax instead of semantics. In contrast, compositional models achieve near-perfect accuracy on structural generalization; we present new results confirming this from the AM parser (Groschwitz et al., 2021). Our findings show structural generalization is a key measure of compositional generalization and requires models that are aware of complex structure.
翻訳日:2022-02-25 17:01:41 公開日:2022-02-24
# ワードピースなしのプレトレーニング:何百万という単語の語彙について学ぶ

Pretraining without Wordpieces: Learning Over a Vocabulary of Millions of Words ( http://arxiv.org/abs/2202.12142v1 )

ライセンス: Link先を確認
Zhangyin Feng, Duyu Tang, Cong Zhou, Junwei Liao, Shuangzhi Wu, Xiaocheng Feng, Bing Qin, Yunbo Cao, Shuming Shi(参考訳) 標準のbertは、単語を2つ以上の単語に分解するサブワードベースのトークン化を採用している(例えば、"lossless" を "loss" と "less" に変換する)。 これにより、(1)複数のワードピースに分割された単語の文脈ベクトルを得る最善の方法は何か? 2)単語の数を事前に知ることなくクローゼテストで単語を予測する方法 本研究では,単語の代わりに単語の語彙を用いたBERT型事前学習モデルの開発の可能性を検討する。 我々は、WordBERTのようなワードレベルBERTモデルと呼ぶ。 異なる語彙サイズ、初期化設定、言語でモデルをトレーニングします。 その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。 POSタグ、チャンキング、NERなど、多くの自然言語理解タスクにおいて、WordBERTはBERTよりも一貫してパフォーマンスが良い。 モデル解析により,WordBERTのBERTに対する大きな利点は,低頻度単語や稀な単語に対する理解にあることが示された。 さらに、パイプラインは言語に依存しないため、中国語のwordbertをトレーニングし、5つの自然言語理解データセットで大きな成果を得る。 最後に、推論速度に関する分析は、WordBERTが自然言語理解タスクにおいてBERTに匹敵する時間コストを持つことを示している。

The standard BERT adopts subword-based tokenization, which may break a word into two or more wordpieces (e.g., converting "lossless" to "loss" and "less"). This will bring inconvenience in following situations: (1) what is the best way to obtain the contextual vector of a word that is divided into multiple wordpieces? (2) how to predict a word via cloze test without knowing the number of wordpieces in advance? In this work, we explore the possibility of developing BERT-style pretrained model over a vocabulary of words instead of wordpieces. We call such word-level BERT model as WordBERT. We train models with different vocabulary sizes, initialization configurations and languages. Results show that, compared to standard wordpiece-based BERT, WordBERT makes significant improvements on cloze test and machine reading comprehension. On many other natural language understanding tasks, including POS tagging, chunking and NER, WordBERT consistently performs better than BERT. Model analysis indicates that the major advantage of WordBERT over BERT lies in the understanding for low-frequency words and rare words. Furthermore, since the pipeline is language-independent , we train WordBERT for Chinese language and obtain significant gains on five natural language understanding datasets. Lastly, the analyse on inference speed illustrates WordBERT has comparable time cost to BERT in natural language understanding tasks.
翻訳日:2022-02-25 17:01:26 公開日:2022-02-24
# 不完全発話の書き直しに対する自己注意

Self-attention for incomplete utterance rewriting ( http://arxiv.org/abs/2202.12160v1 )

ライセンス: Link先を確認
Yong Zhang, Zhitao Li, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) incomplete utterance rewriting (iur) は近年,理解のための十分なコンテキスト情報を備えた不完全発話を補完する目的で,nlpにおいて不可欠なタスクとなっている。 本稿では,単語埋め込みの代わりに変圧器の自己注意重み行列からコア参照と省略関係を直接抽出し,その完全発話を生成するために原文を編集する手法を提案する。 本手法は,自己注意重み行列の豊富な情報から,公共IURデータセット上での競合結果を得た。

Incomplete utterance rewriting (IUR) has recently become an essential task in NLP, aiming to complement the incomplete utterance with sufficient context information for comprehension. In this paper, we propose a novel method by directly extracting the coreference and omission relationship from the self-attention weight matrix of the transformer instead of word embeddings and edit the original text accordingly to generate the complete utterance. Benefiting from the rich information in the self-attention weight matrix, our method achieved competitive results on public IUR datasets.
翻訳日:2022-02-25 17:01:01 公開日:2022-02-24
# シリアル再生鎖を用いたBERTの前駆体探索

Probing BERT's priors with serial reproduction chains ( http://arxiv.org/abs/2202.12226v1 )

ライセンス: Link先を確認
Takateru Yamakoshi, Robert D. Hawkins, Thomas L. Griffiths(参考訳) ターゲットとするベンチマークのパフォーマンスから学んだことから、言語モデルについて多くを学ぶことができます。 サンプリングは有望なボトムアップ手法であるが、bertのような成功したモデルからサンプルを生成することは依然として困難である。 認知科学における反復学習の理論からインスピレーションを得て,シリアル再生連鎖を用いて,BERTの先行を探索する。 マスキング言語モデリングの目的は, 一貫したジョイント分布を保証しないが, gsnサンプラーによって一意かつ一貫した接地分布推定器が得られ, 各ステップでどの単語をマスキングし, 再構築するかをランダムに選択する。 結果から得られた文の語彙的・統語的統計を,基礎構造コーパス分布のそれと比較し,自然性判断の大規模なサンプルを抽出し,そのモデルがどのように人間の話者から逸脱するかを正確に検討する。 以上の結果から,トップダウン評価手法を超えてボトムアップ探索を行い,言語について学んだことの完全な豊かさを捉える必要性が示唆された。

We can learn as much about language models from what they say as we learn from their performance on targeted benchmarks. Sampling is a promising bottom-up method for probing, but generating samples from successful models like BERT remains challenging. Taking inspiration from theories of iterated learning in cognitive science, we explore the use of serial reproduction chains to probe BERT's priors. Although the masked language modeling objective does not guarantee a consistent joint distribution, we observe that a unique and consistent estimator of the ground-truth joint distribution may be obtained by a GSN sampler, which randomly selects which word to mask and reconstruct on each step. We compare the lexical and syntactic statistics of sentences from the resulting prior distribution against those of the ground-truth corpus distribution and elicit a large empirical sample of naturalness judgments to investigate how, exactly, the model deviates from human speakers. Our findings suggest the need to move beyond top-down evaluation methods toward bottom-up probing to capture the full richness of what has been learned about language.
翻訳日:2022-02-25 17:00:51 公開日:2022-02-24
# 引数構造構成のニューラルリアリティ

Neural reality of argument structure constructions ( http://arxiv.org/abs/2202.12246v1 )

ライセンス: Link先を確認
Bai Li, Zining Zhu, Guillaume Thomas, Frank Rudzicz, Yang Xu(参考訳) 語彙論的言語理論では、議論構造は動詞の意味から予測可能であると仮定される。 結果として、動詞は節の意味の主要な決定要因となる。 対照的に、構成文法学者は、引数構造は動詞と異なる構成(あるいは形を表すペア)に符号化されていることを提案している。 精神言語学研究の数十年は、建設観に有利な実証的な証拠を生み出してきた。 ここでは、トランスフォーマーベース言語モデル(LM)における引数構造構築(ASC)の存在を調査するために、いくつかの心理言語学的研究を適用する。 まず,文のソート実験を用いて,同じ構造を持つ文が,同じ動詞を共有する文よりも埋め込み空間に近くなることを示す。 さらに、LMはより多くの入力データによる構築によるグループ化を好んでおり、非ネイティブ言語学習者の振る舞いを反映している。 第二に、"Jabberwocky"プライミングに基づく実験では、意味論的に非感覚的な文であっても、LMがASCと意味を関連付ける。 我々の研究は、ALCのLMにおける最初の証拠を提供し、精神言語学的研究に基づく新しい探索手法を考案する可能性を強調している。

In lexicalist linguistic theories, argument structure is assumed to be predictable from the meaning of verbs. As a result, the verb is the primary determinant of the meaning of a clause. In contrast, construction grammarians propose that argument structure is encoded in constructions (or form-meaning pairs) that are distinct from verbs. Decades of psycholinguistic research have produced substantial empirical evidence in favor of the construction view. Here we adapt several psycholinguistic studies to probe for the existence of argument structure constructions (ASCs) in Transformer-based language models (LMs). First, using a sentence sorting experiment, we find that sentences sharing the same construction are closer in embedding space than sentences sharing the same verb. Furthermore, LMs increasingly prefer grouping by construction with more input data, mirroring the behaviour of non-native language learners. Second, in a "Jabberwocky" priming-based experiment, we find that LMs associate ASCs with meaning, even in semantically nonsensical sentences. Our work offers the first evidence for ASCs in LMs and highlights the potential to devise novel probing methods grounded in psycholinguistic research.
翻訳日:2022-02-25 17:00:32 公開日:2022-02-24
# IBIA:Clique Tree上でのインクリメンタルビルド・インファー・アロキシメート操作によるベイズ推論

IBIA: Bayesian Inference via Incremental Build-Infer-Approxim ate operations on Clique Trees ( http://arxiv.org/abs/2202.12003v1 )

ライセンス: Link先を確認
Shivani Bathla and Vinita Vasudevan(参考訳) ベイズネットワークにおける厳密な推論は難解であり、対応する傾き木における最大の傾きの大きさに指数関数的に依存し、近似を必要とする。 近似推論の手法は通常、有界なクラスタサイズを持つグラフにおいて反復BPを使用する。 本稿では,インクリメンタルなビルド・インファー・アポキシマト(IBIA)パラダイムに基づく近似推論の代替手法を提案する。 このアプローチのビルド段階では,傾き木(CT)を漸進的に構築することにより,境界傾きサイズの分割が得られる。 サイズがユーザが指定したcliqueサイズの制約内である限り、ノードはCTに追加される。 クリプトサイズ制約に達すると、アルゴリズムの推論部と近似部は、新しいノードを追加することができるクリッドサイズが低い近似CTを見つける。 このステップは、CTを校正するための正確な推測と、近似の正確な辺縁化と近似の組合せを含む。 近似CTは、次の分割のためのCT構築の出発点となる。 アルゴリズムは、すべての分割に対応するキャリブレーションされた傾斜木の森を返す。 傾斜木をインクリメンタルに構築するアルゴリズムは,常に有効なCTを生成することを示し,近似手法は斜め内信念の整合性を自動的に維持する。 興味のあるクエリは、プリエントおよび後方シングルトン境界関数とパーティション関数である。 提案手法を500以上のベンチマークで検証した結果,他の近似手法と比較して誤差が大幅に減少した。

Exact inference in Bayesian networks is intractable and has an exponential dependence on the size of the largest clique in the corresponding clique tree, necessitating approximations. Techniques for approximate inference typically use iterative BP in graphs with bounded cluster sizes. We propose an alternative approach for approximate inference based on an incremental build-infer-approxim ate (IBIA) paradigm. In the build stage of this approach, bounded-clique size partitions are obtained by building the clique tree (CT) incrementally. Nodes are added to the CT as long as the sizes are within a user-specified clique size constraint. Once the clique size constraint is reached, the infer and approximate part of the algorithm finds an approximate CT with lower clique sizes to which new nodes can be added. This step involves exact inference to calibrate the CT and a combination of exact and approximate marginalization for approximation. The approximate CT serves as a starting point for the construction of CT for the next partition. The algorithm returns a forest of calibrated clique trees corresponding to all partitions. We show that our algorithm for incremental construction of clique trees always generates a valid CT and our approximation technique automatically maintains consistency of within-clique beliefs. The queries of interest are prior and posterior singleton marginals and the partition function. More than 500 benchmarks were used to test the method and the results show a significant reduction in error when compared to other approximate methods, with competitive runtimes.
翻訳日:2022-02-25 17:00:13 公開日:2022-02-24
# 強化学習とエージェントベースモデリングを用いた都市交通制御のマイクロレベル化

Self-organising Urban Traffic control on micro-level using Reinforcement Learning and Agent-based Modelling ( http://arxiv.org/abs/2202.12260v1 )

ライセンス: Link先を確認
Stefan Bosse(参考訳) ほとんどのトラフィックフロー制御アルゴリズムは、信号と照明の切り替えサイクル適応に対処する。 本研究は,都市環境における長距離ナビゲーションを行う行動選択のためのルールベースエージェントと強化学習を組み合わせた,自己組織型マイクロレベル制御による交通流の最適化に対処する。 エージェントによって代表される車両は、局所環境センサに基づく再ルーティングのために意思決定を適応させる。 エージェントに基づくモデリングとシミュレーションは、都市交通流の出現効果を研究するために用いられる。 統合エージェントプログラミングモデルは、追加のセンサデータベースとして使用される群衆センシングタスクを組み込んだシミュレーションと分散データ処理を可能にする。 エージェントによる人工都市域のシミュレーションの結果,局所環境センサに基づく個別の意思決定と再学習によるマイクロレベルの車両ナビゲーション制御の展開により,経路長や走行時間の面での移動性の向上が期待できることがわかった。

Most traffic flow control algorithms address switching cycle adaptation of traffic signals and lights. This work addresses traffic flow optimisation by self-organising micro-level control combining Reinforcement Learning and rule-based agents for action selection performing long-range navigation in urban environments. I.e., vehicles represented by agents adapt their decision making for re-routing based on local environmental sensors. Agent-based modelling and simulation is used to study emergence effects on urban city traffic flows. An unified agent programming model enables simulation and distributed data processing with possible incorporation of crowd sensing tasks used as an additional sensor data base. Results from an agent-based simulation of an artificial urban area show that the deployment of micro-level vehicle navigation control just by learned individual decision making and re-routing based on local environmental sensors can increase the efficiency of mobility in terms of path length and travelling time.
翻訳日:2022-02-25 16:58:32 公開日:2022-02-24
# CG-SSD:LiDAR点雲からの1段3次元物体検出

CG-SSD: Corner Guided Single Stage 3D Object Detection from LiDAR Point Cloud ( http://arxiv.org/abs/2202.11868v1 )

ライセンス: Link先を確認
Ruiqi Ma, Chi Chen, Bisheng Yang, Deren Li, Haiping Wang, Yangzi Cong, Zongtian Hu(参考訳) 現在、3dオブジェクト検出にlidar point cloudを使用するアンカーベースまたはアンカーフリーモデルは、センターアサイン戦略を使用して3dバウンディングボックスを推論している。 しかし、現実世界のシーンでは、LiDARは限られた物体表面点の雲しか取得できないが、物体の中心点は存在しない。 不完全な表面点雲を集約して物体を得ると、方向の精度と寸法の推定が失われる。 そこで本研究では,角誘導型アンカーフリー単段3次元物体検出モデル(CG-SSD)を提案する。 まず, 残留層とサブマニフォールド・スパース・コンボリューション層からなる3次元スパース・コンボリューション・バックボーン・ネットワークを用いて, U字型ネットワークによるより深い特徴抽出のための鳥の目視(BEV)機能を構築し, 次に, コーナー誘導補助モジュール(CGAM)をニューラルネットワークに組み込む。 最後に、バックボーンネットワークとCGAMモジュールの深い特徴を結合してヘッドモジュールに入力し、シーン内のオブジェクトの分類と3D境界ボックスを予測する。 実験では、CG-SSDは、62.77%mAPの単一フレームポイントクラウドデータを用いて、教師付き3Dオブジェクト検出のためのONCEベンチマークの最先端性能を実証した。 さらに、ONCEとWaymo Open Datasetの実験では、CGAMをほとんどのアンカーベースモデルに拡張することができ、BEV機能を使用して、プラグインとしてオブジェクトを検出し、+1.17%-+14.27%APの改善をもたらす。

At present, the anchor-based or anchor-free models that use LiDAR point clouds for 3D object detection use the center assigner strategy to infer the 3D bounding boxes. However, in a real world scene, the LiDAR can only acquire a limited object surface point clouds, but the center point of the object does not exist. Obtaining the object by aggregating the incomplete surface point clouds will bring a loss of accuracy in direction and dimension estimation. To address this problem, we propose a corner-guided anchor-free single-stage 3D object detection model (CG-SSD ).Firstly, 3D sparse convolution backbone network composed of residual layers and sub-manifold sparse convolutional layers are used to construct bird's eye view (BEV) features for further deeper feature mining by a lite U-shaped network; Secondly, a novel corner-guided auxiliary module (CGAM) is proposed to incorporate corner supervision signals into the neural network. CGAM is explicitly designed and trained to detect partially visible and invisible corners to obtains a more accurate object feature representation, especially for small or partial occluded objects; Finally, the deep features from both the backbone networks and CGAM module are concatenated and fed into the head module to predict the classification and 3D bounding boxes of the objects in the scene. The experiments demonstrate CG-SSD achieves the state-of-art performance on the ONCE benchmark for supervised 3D object detection using single frame point cloud data, with 62.77%mAP. Additionally, the experiments on ONCE and Waymo Open Dataset show that CGAM can be extended to most anchor-based models which use the BEV feature to detect objects, as a plug-in and bring +1.17%-+14.27%AP improvement.
翻訳日:2022-02-25 16:57:43 公開日:2022-02-24
# 家庭用ゴミ画像認識のための新しいベンチマーク

New Benchmark for Household Garbage Image Recognition ( http://arxiv.org/abs/2202.11878v1 )

ライセンス: Link先を確認
Zhize Wu, Huanyi Li, Xiaofeng Wang, Zijun Wu, Le Zou, Lixiang Xu, and Ming Tan(参考訳) ごみ画像は, 複雑な背景, 多様な照度, 多様な角度, 変化可能な形状に面しており, ゴミ画像の分類が困難である。 問題特有の特徴の発見能力により、ディープラーニングと特に畳み込みニューラルネットワーク(cnns)は、画像表現学習に成功し、広く利用されている。 しかし、利用可能な、安定した家庭用のガベージデータセットは不十分であり、研究やアプリケーションの開発を著しく制限している。 さらに、ゴミ画像分類の分野における技術の現状は、完全には明確ではない。 そこで本研究では, 異なる照明, 背景, 角度, 形状をシミュレートして, ごみ画像分類のための新しいオープンベンチマークデータセットを構築した。 このデータセットはHGI-30(30 Classes of Household Garbage Images)と名付けられ、30世帯のごみの18,000枚の画像を含んでいる。 公開されているHGI-30データセットにより、研究者は家庭用ごみ認識のための正確で堅牢な方法を開発することができる。 また,本ベンチマークのベースラインとなるhgi-30における最先端深層cnn法の実験と性能解析を行った。

Household garbage images are usually faced with complex backgrounds, variable illuminations, diverse angles, and changeable shapes, which bring a great difficulty in garbage image classification. Due to the ability to discover problem-specific features, deep learning and especially convolutional neural networks (CNNs) have been successfully and widely used for image representation learning. However, available and stable household garbage datasets are insufficient, which seriously limits the development of research and application. Besides, the state of the art in the field of garbage image classification is not entirely clear. To solve this problem, in this study, we built a new open benchmark dataset for household garbage image classification by simulating different lightings, backgrounds, angles, and shapes. This dataset is named 30 Classes of Household Garbage Images (HGI-30), which contains 18,000 images of 30 household garbage classes. The publicly available HGI-30 dataset allows researchers to develop accurate and robust methods for household garbage recognition. We also conducted experiments and performance analysis of the state-of-the-art deep CNN methods on HGI-30, which serves as baseline results on this benchmark.
翻訳日:2022-02-25 16:57:07 公開日:2022-02-24
# hmd-egopose:ヘッドマウントディスプレイを用いたエゴセントリックマーカーレスツールと手のポーズ推定による外科的指導

HMD-EgoPose: Head-Mounted Display-Based Egocentric Marker-Less Tool and Hand Pose Estimation for Augmented Surgical Guidance ( http://arxiv.org/abs/2202.11891v1 )

ライセンス: Link先を確認
Mitchell Doughty and Nilesh R. Ghugre(参考訳) 現代のコンピュータ支援外科手術の成功または失敗は、追跡された器具や組織の正確な6自由度位置と向き(目的)の推定に依存する。 本稿では,モノクロ赤青(RGB)6DoFマーカーレスハンドと手術器具レスポーズトラッキングのためのベンチマークデータセット上で,手と物体のポーズ推定のための単発学習ベースのアプローチであるHMD-EgoPoseを提案する。 さらに,6DoF近距離ポーズ推定のためのHMD-EgoPoseフレームワークの能力について,低遅延ストリーミング手法を用いて,市販の光シースルーヘッドマウントディスプレイ(OST-HMD)を用いて明らかにした。 本フレームワークでは,多機能抽出のための効率的な畳み込みニューラルネットワーク(CNN)のバックボーンと,手術器具の6DoFポーズ表現と使用者の手の握り方向を共同学習するサブネットワークのセットを併用した。 商用のOST-HMDであるMicrosoft HoloLens 2にアプローチをアクセスできるようにするため、我々は、最適化されたネットワーク推論が可能な高性能なコンピューティングワークステーションで低レイテンシのビデオとデータ通信のためのパイプラインを作成しました。 HMD-EgoPoseは、手術用ツールのベンチマークデータセットにおける最先端のアプローチよりも優れており、実際のデータ上で平均的な3D頂点誤差を11.0 mm達成し、臨床的に可能なマーカーレス追跡戦略への進歩を加速している。 低レイテンシストリーミングアプローチにより,OST-HMDと統合された場合の追従モデルのポーズ推定と可視化のために,202.5msのラウンドトリップレイテンシを達成した。 単発学習したアプローチは咬合や複雑な表面に対して頑健であり,マーカーレスツールや手のポーズ推定に対する最先端のアプローチを改善した。

The success or failure of modern computer-assisted surgery procedures hinges on the precise six-degree-of-freedo m (6DoF) position and orientation (pose) estimation of tracked instruments and tissue. In this paper, we present HMD-EgoPose, a single-shot learning-based approach to hand and object pose estimation and demonstrate state-of-the-art performance on a benchmark dataset for monocular red-green-blue (RGB) 6DoF marker-less hand and surgical instrument pose tracking. Further, we reveal the capacity of our HMD-EgoPose framework for 6DoF near real-time pose estimation on a commercially available optical see-through head-mounted display (OST-HMD) through a low-latency streaming approach. Our framework utilized an efficient convolutional neural network (CNN) backbone for multi-scale feature extraction and a set of subnetworks to jointly learn the 6DoF pose representation of the rigid surgical drill instrument and the grasping orientation of the hand of a user. To make our approach accessible to a commercially available OST-HMD, the Microsoft HoloLens 2, we created a pipeline for low-latency video and data communication with a high-performance computing workstation capable of optimized network inference. HMD-EgoPose outperformed current state-of-the-art approaches on a benchmark dataset for surgical tool pose estimation, achieving an average tool 3D vertex error of 11.0 mm on real data and furthering the progress towards a clinically viable marker-free tracking strategy. Through our low-latency streaming approach, we achieved a round trip latency of 202.5 ms for pose estimation and augmented visualization of the tracked model when integrated with the OST-HMD. Our single-shot learned approach was robust to occlusion and complex surfaces and improved on current state-of-the-art approaches to marker-less tool and hand pose estimation.
翻訳日:2022-02-25 16:56:48 公開日:2022-02-24
# 補間に基づく半教師付き学習のためのコントラスト学習

Interpolation-based Contrastive Learning for Few-Label Semi-Supervised Learning ( http://arxiv.org/abs/2202.11915v1 )

ライセンス: Link先を確認
Xihong Yang, Xiaochang Hu, Sihang Zhou, Xinwang Liu, En Zhu(参考訳) 半教師付き学習(SSL)は,限られたラベルを持つ強力なモデルを構築する上で,有効な手法であることが長年証明されてきた。 既存の文献では、摂動サンプルが元のサンプルと類似した予測を行うように強制する整合正則化に基づく手法が、有望な精度で注目されている。 しかし,これらの手法の性能は,ラベルが極端に制限された場合,例えば,各カテゴリの2~3ラベルなど,劇的に低下する。 我々の実証研究は、データ拡張の手順において意味情報の漂流が主な問題であることを示している。 十分な監視が提供されると、問題は緩和される。 しかし、ガイダンスがほとんど得られない場合、不正な正規化はネットワークを誤解させ、アルゴリズムの性能を損なうことになる。 この問題に対処するために,(1)より信頼性の高い正のサンプルペアを構築する補間法,(2)学習ネットワークの埋め込みを誘導する新たなコントラスト損失を設計し,サンプル間の線形変化を誘導し,マージン決定境界を大きくすることで,ネットワークの識別能力を向上させることを提案する。 破壊正則化は導入されないため,提案アルゴリズムの性能は大幅に改善されている。 具体的には、提案アルゴリズムは、CIFAR-10データセットの各クラスで2つのラベルしか利用できない場合に、88.73%の分類精度を達成し、第2のベストアルゴリズム(Comatch)を5.3%で上回っている。 さらに,提案手法の汎用性は,提案手法を用いて既存の最先端アルゴリズムの性能を著しく向上させることによって証明する。

Semi-supervised learning (SSL) has long been proved to be an effective technique to construct powerful models with limited labels. In the existing literature, consistency regularization-based methods, which force the perturbed samples to have similar predictions with the original ones have attracted much attention for their promising accuracy. However, we observe that, the performance of such methods decreases drastically when the labels get extremely limited, e.g., 2 or 3 labels for each category. Our empirical study finds that the main problem lies with the drifting of semantic information in the procedure of data augmentation. The problem can be alleviated when enough supervision is provided. However, when little guidance is available, the incorrect regularization would mislead the network and undermine the performance of the algorithm. To tackle the problem, we (1) propose an interpolation-based method to construct more reliable positive sample pairs; (2) design a novel contrastive loss to guide the embedding of the learned network to change linearly between samples so as to improve the discriminative capability of the network by enlarging the margin decision boundaries. Since no destructive regularization is introduced, the performance of our proposed algorithm is largely improved. Specifically, the proposed algorithm outperforms the second best algorithm (Comatch) with 5.3% by achieving 88.73% classification accuracy when only two labels are available for each class on the CIFAR-10 dataset. Moreover, we further prove the generality of the proposed method by improving the performance of the existing state-of-the-art algorithms considerably with our proposed strategy.
翻訳日:2022-02-25 16:56:08 公開日:2022-02-24
# ゼロショットスケッチに基づく3次元形状検索のための領域ディスタングル生成逆数ネットワーク

Domain Disentangled Generative Adversarial Network for Zero-Shot Sketch-Based 3D Shape Retrieval ( http://arxiv.org/abs/2202.11948v1 )

ライセンス: Link先を確認
Rui Xu, Zongyan Han, Le Hui, Jianjun Qian, Jin Xie(参考訳) スケッチに基づく3次元形状検索は,スケッチと3次元形状の領域差が大きいため,難しい課題である。 既存の手法は同じカテゴリで訓練・評価されているため、トレーニング中に使用されていないカテゴリを効果的に認識することはできない。 本稿では、ゼロショットスケッチに基づく3D検索のための新規なドメイン不整合生成対向ネットワーク(DD-GAN)を提案し、トレーニング中にアクセスできない未知のカテゴリを検索する。 具体的には、まず、スケッチと3次元形状の学習特徴を分離することにより、ドメイン不変の特徴とドメイン固有の特徴を生成し、ドメイン不変の特徴を対応する単語埋め込みと整合させる。 次に,出現するカテゴリのドメイン特有な特徴と整列したドメイン不変特徴を組み合わせた生成的逆ネットワークを開発し,対応する単語埋め込みを用いて未発見のカテゴリの合成サンプルを生成するサンプルを合成する。 最後に,未発見のカテゴリの合成サンプルと,見られたカテゴリの実際のサンプルを組み合わせることで,検索のためのネットワークのトレーニングを行い,未発見のカテゴリを認識できるようにする。 合成された領域と実領域の間の領域シフトを低減するため、合成された未確認カテゴリと実未確認カテゴリの分布間のギャップを低減するために、トランスダクティブ設定を採用する。 SHREC'13とSHREC'14データセットの大規模な実験により,本手法は未確認カテゴリの検索性能を著しく向上することが示された。

Sketch-based 3D shape retrieval is a challenging task due to the large domain discrepancy between sketches and 3D shapes. Since existing methods are trained and evaluated on the same categories, they cannot effectively recognize the categories that have not been used during training. In this paper, we propose a novel domain disentangled generative adversarial network (DD-GAN) for zero-shot sketch-based 3D retrieval, which can retrieve the unseen categories that are not accessed during training. Specifically, we first generate domain-invariant features and domain-specific features by disentangling the learned features of sketches and 3D shapes, where the domain-invariant features are used to align with the corresponding word embeddings. Then, we develop a generative adversarial network that combines the domainspecific features of the seen categories with the aligned domain-invariant features to synthesize samples, where the synthesized samples of the unseen categories are generated by using the corresponding word embeddings. Finally, we use the synthesized samples of the unseen categories combined with the real samples of the seen categories to train the network for retrieval, so that the unseen categories can be recognized. In order to reduce the domain shift between the synthesized domain and the real domain, we adopt the transductive setting to reduce the gap between the distributions of the synthesized unseen categories and real unseen categories. Extensive experiments on the SHREC'13 and SHREC'14 datasets show that our method significantly improves the retrieval performance of the unseen categories.
翻訳日:2022-02-25 16:54:57 公開日:2022-02-24
# smile: テキスト画像認識のための潜在エントロピー最小化によるシーケンスからシーケンスへの適応

SMILE: Sequence-to-Sequence Domain Adaption with Minimizing Latent Entropy for Text Image Recognition ( http://arxiv.org/abs/2202.11949v1 )

ライセンス: Link先を確認
Yen-Cheng Chang, Yi-Chang Chen, Yu-Chuan Chang, Yi-Ren Yeh(参考訳) 合成画像を用いた認識モデルの訓練は、テキスト認識において顕著な結果をもたらしている。 しかし,合成画像と実世界画像の領域シフトにより,実世界画像からのテキスト認識が課題となっている。 手動アノテーションなしでドメインの違いを取り除く戦略の1つは、unsupervised domain adaptation (uda)である。 シーケンシャルなラベリングタスクの特徴から、一般的なudaメソッドはテキスト認識に直接適用することはできない。 そこで本研究では,自己ペース学習のクラスバランスを考慮した逐次注意モデルにおける潜在エントロピーを最小化するuda法を提案する。 提案手法は,ほとんどのUDAテキスト認識ベンチマークにおいて,既存の手法よりも優れた認識結果が得られることを示す。 すべてのコードは公開されている。

Training recognition models with synthetic images have achieved remarkable results in text recognition. However, recognizing text from real-world images still faces challenges due to the domain shift between synthetic and real-world text images. One of the strategies to eliminate the domain difference without manual annotation is unsupervised domain adaptation (UDA). Due to the characteristic of sequential labeling tasks, most popular UDA methods cannot be directly applied to text recognition. To tackle this problem, we proposed a UDA method with minimizing latent entropy on sequence-to-sequence attention-based models with classbalanced self-paced learning. Our experiments show that our proposed framework achieves better recognition results than the existing methods on most UDA text recognition benchmarks. All codes are publicly available.
翻訳日:2022-02-25 16:54:31 公開日:2022-02-24
# セマンティックセグメンテーションのための完全自己教師付き学習

Fully Self-Supervised Learning for Semantic Segmentation ( http://arxiv.org/abs/2202.11981v1 )

ライセンス: Link先を確認
Yuan Wang, Wei Zhuo, Yucong Li, Zhi Wang, Qi Ju, Wenwu Zhu(参考訳) 本研究では,セマンティックセグメンテーション(FS^4)のための完全自己教師型フレームワークを提案する。 大量のアノテーションの労力を省くセマンティックセグメンテーションのための完全なブートストラップ戦略は、オープンワールドドメインのエンドツーエンドからカスタマイズされたモデルを構築するのに不可欠である。 このアプリケーションは現実的なシナリオでは熱心に必要です。 最近の自己教師付きセマンティクスセグメンテーション法は大きな進歩を遂げているが、これらの作業は完全な教師付き事前学習モデルに大きく依存しており、完全な自己教師付きパイプラインは不可能である。 この問題を解決するために,提案したPGG戦略とCAEモジュールを用いて,グローバルなセマンティック知識を自己スーパービジョンに活用したセマンティックセマンティックセマンティクスのためのブートストラップトレーニング手法を提案する。 特に,セグメンテーションの監督のために画素クラスタリングと割り当てを行う。 混ざり合うのを防ぐために 提案しました 1) ピラミッド画像・パッチレベルの擬似ラベルを用いて, 教師なし特徴をグループ化して学習を指導する。 安定なグローバルおよびピラミッドのセマンティックな擬似ラベルは、セグメンテーションが乱雑な領域を学習したり、1つのバックグラウンド領域に分解することを防ぐことができる。 2) 文脈認識埋め込み (cae) モジュールを提案し, 近接空間と非自明な方法での出現の両方を視野に, グローバルな特徴埋め込みを生成する。 大規模COCO-Stuffデータセットを用いて本手法の評価を行い,対象物と対象物の両方において7.19mIoUの改善を実現した。

In this work, we present a fully self-supervised framework for semantic segmentation(FS^4). A fully bootstrapped strategy for semantic segmentation, which saves efforts for the huge amount of annotation, is crucial for building customized models from end-to-end for open-world domains. This application is eagerly needed in realistic scenarios. Even though recent self-supervised semantic segmentation methods have gained great progress, these works however heavily depend on the fully-supervised pretrained model and make it impossible a fully self-supervised pipeline. To solve this problem, we proposed a bootstrapped training scheme for semantic segmentation, which fully leveraged the global semantic knowledge for self-supervision with our proposed PGG strategy and CAE module. In particular, we perform pixel clustering and assignments for segmentation supervision. Preventing it from clustering a mess, we proposed 1) a pyramid-global-guide d (PGG) training strategy to supervise the learning with pyramid image/patch-level pseudo labels, which are generated by grouping the unsupervised features. The stable global and pyramid semantic pseudo labels can prevent the segmentation from learning too many clutter regions or degrading to one background region; 2) in addition, we proposed context-aware embedding (CAE) module to generate global feature embedding in view of its neighbors close both in space and appearance in a non-trivial way. We evaluate our method on the large-scale COCO-Stuff dataset and achieved 7.19 mIoU improvements on both things and stuff objects
翻訳日:2022-02-25 16:54:17 公開日:2022-02-24
# AFFDEX 2.0: リアルタイム表情分析ツールキット

AFFDEX 2.0: A Real-Time Facial Expression Analysis Toolkit ( http://arxiv.org/abs/2202.12059v1 )

ライセンス: Link先を確認
Mina Bishay, Kenneth Preston, Matthew Strafuss, Graham Page, Jay Turcot and Mohammad Mavadati(参考訳) 本稿では,顔の表情を分析するためのツールキット affdex 2.0 について紹介する。 a) 3Dヘッドポーズを推定する b) 顔動作単位(aus)の検出 c)基本的な感情と2つの新たな感情状態(感覚と混乱)を認識し、 d) 点滅や注意などのハイレベルな表現指標を検出すること。 AFFDEX 2.0モデルは、主にディープラーニングに基づいており、異なる人口集団から数千人の参加者からなる大規模な自然主義データセットを使用して訓練されている。 AFFDEX 2.0は、我々の以前のツールキット[1]の強化版であり、より困難な状況下で効率よく顔を追跡し、より正確に表情を検出し、新しい感情状態(感覚と混乱)を認識することができる。 AFFDEX 2.0はリアルタイムで複数の顔を処理することができ、WindowsとLinuxプラットフォームで動作している。

In this paper we introduce AFFDEX 2.0 - a toolkit for analyzing facial expressions in the wild, that is, it is intended for users aiming to; a) estimate the 3D head pose, b) detect facial Action Units (AUs), c) recognize basic emotions and 2 new emotional states (sentimentality and confusion), and d) detect high-level expressive metrics like blink and attention. AFFDEX 2.0 models are mainly based on Deep Learning, and are trained using a large-scale naturalistic dataset consisting of thousands of participants from different demographic groups. AFFDEX 2.0 is an enhanced version of our previous toolkit [1], that is capable of tracking efficiently faces at more challenging conditions, detecting more accurately facial expressions, and recognizing new emotional states (sentimentality and confusion). AFFDEX 2.0 can process multiple faces in real time, and is working across the Windows and Linux platforms.
翻訳日:2022-02-25 16:53:49 公開日:2022-02-24
# DeepFusionMOT:ディープアソシエーションとカメラLiDAR融合に基づく3次元多目的追跡フレームワーク

DeepFusionMOT: A 3D Multi-Object Tracking Framework Based on Camera-LiDAR Fusion with Deep Association ( http://arxiv.org/abs/2202.12100v1 )

ライセンス: Link先を確認
Xiyang Wang, Chunyun Fu, Zhankun Li, Ying Lai, Jiawei He(参考訳) 近年の文献では、多くの3dマルチオブジェクトトラッキング(mot)が、より複雑なコスト関数と特徴抽出器を設計することで、精度の追跡と計算速度の無視に焦点を当てている。 一方,いくつかの手法では,追跡精度を犠牲にして計算速度に重きを置いている。 これらの課題を踏まえて,精度と速度のトレードオフを良好に達成する,堅牢で高速なLiDAR融合MOT法を提案する。 カメラとLiDARセンサの特性に基づき,提案したMOT法に効果的なディープアライメント機構を組み込んだ。 この機構は、被写体が遠くてカメラによってのみ検出された場合の2D領域における被写体追跡を実現し、被写体がLiDAR視野に現れたときに得られる3D情報により2D軌跡の更新を行い、2D及び3D軌跡のスムーズな融合を実現する。 KITTIデータセットに基づく大規模な実験により,提案手法は追跡精度と処理速度の両方の観点から,最先端MOT法に対して明らかな優位性を示すことが示された。 私たちのコードはコミュニティの利益のために公開されています

In the recent literature, on the one hand, many 3D multi-object tracking (MOT) works have focused on tracking accuracy and neglected computation speed, commonly by designing rather complex cost functions and feature extractors. On the other hand, some methods have focused too much on computation speed at the expense of tracking accuracy. In view of these issues, this paper proposes a robust and fast camera-LiDAR fusion-based MOT method that achieves a good trade-off between accuracy and speed. Relying on the characteristics of camera and LiDAR sensors, an effective deep association mechanism is designed and embedded in the proposed MOT method. This association mechanism realizes tracking of an object in a 2D domain when the object is far away and only detected by the camera, and updating of the 2D trajectory with 3D information obtained when the object appears in the LiDAR field of view to achieve a smooth fusion of 2D and 3D trajectories. Extensive experiments based on the KITTI dataset indicate that our proposed method presents obvious advantages over the state-of-the-art MOT methods in terms of both tracking accuracy and processing speed. Our code is made publicly available for the benefit of the community
翻訳日:2022-02-25 16:53:35 公開日:2022-02-24
# モノクロとカラーカメラ融合による屋外環境の光ロバスト単眼深度推定

Light Robust Monocular Depth Estimation For Outdoor Environment Via Monochrome And Color Camera Fusion ( http://arxiv.org/abs/2202.12108v1 )

ライセンス: Link先を確認
Hyeonsoo Jang, Yeongmin Ko, Younkwan Lee, and Moongu Jeon(参考訳) 深度推定はSLAM、オドメトリー、自律走行において重要な役割を果たす。 特に、単眼深度推定は、低コスト、メモリ、計算能力のため、利益の出る技術である。 しかし、カメラが光条件のためにクリーンな画像を得ることができない場合が多いため、十分な予測深度マップではない。 この問題を解決するために,様々なセンサ融合法が提案されている。 強力な方法ではあるが、センサー融合には高価なセンサー、追加のメモリ、高い計算性能が必要である。 本稿では,カラー画像とモノクロ画像のピクセルレベルの融合と,部分的に相関係数を最大化するステレオマッチングを提案する。 私たちのメソッドは、すべてのメトリクスで最先端の作業に勝るだけでなく、コスト、メモリ、計算の面でも効率的です。 また, アブレーション研究により, 設計の有効性を検証した。

Depth estimation plays a important role in SLAM, odometry, and autonomous driving. Especially, monocular depth estimation is profitable technology because of its low cost, memory, and computation. However, it is not a sufficiently predicting depth map due to a camera often failing to get a clean image because of light conditions. To solve this problem, various sensor fusion method has been proposed. Even though it is a powerful method, sensor fusion requires expensive sensors, additional memory, and high computational performance. In this paper, we present color image and monochrome image pixel-level fusion and stereo matching with partially enhanced correlation coefficient maximization. Our methods not only outperform the state-of-the-art works across all metrics but also efficient in terms of cost, memory, and computation. We also validate the effectiveness of our design with an ablation study.
翻訳日:2022-02-25 16:53:12 公開日:2022-02-24
# 映像ベース行動認識のためのスローファストビジュアルテンポ学習

Slow-Fast Visual Tempo Learning for Video-based Action Recognition ( http://arxiv.org/abs/2202.12116v1 )

ライセンス: Link先を確認
Yuanzhong Liu, Zhigang Tu, Hongyan Li, Chi Chen, Baoxin Li, Junsong Yuan(参考訳) アクションビジュアルテンポは、アクションのダイナミクスと時間スケールを特徴付けており、視覚のダイナミクスと外観に高い類似性を持つヒューマンアクションを区別するのに役立ちます。 従来の方法では、複数のレートで生ビデオのサンプリングを行うか、各レートを処理するためにコストのかかる多層ネットワークを必要とするか、階層的なバックボーン機能のサンプリングを行うかのいずれかによって、視覚的テンポをキャプチャする。 本研究では,プラグイン・アンド・プレイ方式で現在の動作認識バックボーンに容易に組み込むことができ,低レベルなバックボーン特徴から1層で動作視覚的テンポを抽出できる時間相関モジュール(TCM)を提案する。 具体的には,MTDM (Multi-scale Temporal Dynamics Module) とTAM (Temporal Attention Module) の2つのコンポーネントを含む。 MTDMは, 高速テンポとスローテンポの双方に対して, ピクセルワイド微粒時間ダイナミクスを学習するための相関演算を適用した。 tamは表現的特徴を適応的に強調し、様々なテンポのグローバル情報を分析することによって本質的特徴を抑制する。 いくつかのアクション認識ベンチマーク(例えば、Something V1 & V2, Kinetics-400, UCF-101, HMDB-51)において、提案したTCMが既存のビデオベースのアクション認識モデルの性能向上に有効であることを実証した。 ソースコードはhttps://github.com/z phyix/TCMで公開されている。

Action visual tempo characterizes the dynamics and the temporal scale of an action, which is helpful to distinguish human actions that share high similarities in visual dynamics and appearance. Previous methods capture the visual tempo either by sampling raw videos with multiple rates, which requires a costly multi-layer network to handle each rate, or by hierarchically sampling backbone features, which relies heavily on high-level features that miss fine-grained temporal dynamics. In this work, we propose a Temporal Correlation Module (TCM), which can be easily embedded into the current action recognition backbones in a plug-in-and-play manner, to extract action visual tempo from low-level backbone features at single-layer remarkably. Specifically, our TCM contains two main components: a Multi-scale Temporal Dynamics Module (MTDM) and a Temporal Attention Module (TAM). MTDM applies a correlation operation to learn pixel-wise fine-grained temporal dynamics for both fast-tempo and slow-tempo. TAM adaptively emphasizes expressive features and suppresses inessential ones via analyzing the global information across various tempos. Extensive experiments conducted on several action recognition benchmarks, e.g. Something-Something V1 & V2, Kinetics-400, UCF-101, and HMDB-51, have demonstrated that the proposed TCM is effective to promote the performance of the existing video-based action recognition models for a large margin. The source code is publicly released at https://github.com/z phyix/TCM.
翻訳日:2022-02-25 16:53:00 公開日:2022-02-24
# (参考訳) BERTVision -- 質問応答のためのパラメータ効率の良いアプローチ [全文訳有]

BERTVision -- A Parameter-Efficient Approach for Question Answering ( http://arxiv.org/abs/2202.12210v1 )

ライセンス: CC BY 4.0
Siduo Jiang, Cristopher Benge, William Casey King(参考訳) 我々は,拡張bert微調整の必要性を著しく低減した質問応答に対する高いパラメータ効率のアプローチを提案する。 提案手法では,各BERTトランス層の隠れ状態アクティベーションから得られる情報を用いて,典型的なBERT推論時に破棄される。 我々の最良のモデルは、トレーニング時間とGPUまたはTPU費用のごく一部で、最大BERT性能を達成する。 BERTの予測でモデルを組み立てることで、パフォーマンスがさらに向上します。 さらに,より少ないトレーニングデータを用いて,qaスパンアノテーションの最適性能をほぼ達成できることを見出した。 私たちの実験では、このアプローチは、スパンアノテーションだけでなく、分類に対してもうまく機能していることを示し、より幅広いタスクに拡張可能であることを示唆しています。

We present a highly parameter efficient approach for Question Answering that significantly reduces the need for extended BERT fine-tuning. Our method uses information from the hidden state activations of each BERT transformer layer, which is discarded during typical BERT inference. Our best model achieves maximal BERT performance at a fraction of the training time and GPU or TPU expense. Performance is further improved by ensembling our model with BERTs predictions. Furthermore, we find that near optimal performance can be achieved for QA span annotation using less training data. Our experiments show that this approach works well not only for span annotation, but also for classification, suggesting that it may be extensible to a wider range of tasks.
翻訳日:2022-02-25 16:51:04 公開日:2022-02-24
# XAutoML - 自動機械学習における信頼を確立するためのビジュアル分析ツール

XAutoML: A Visual Analytics Tool for Establishing Trust in Automated Machine Learning ( http://arxiv.org/abs/2202.11954v1 )

ライセンス: Link先を確認
Marc-Andr\'e Z\"oller, Waldemar Titov, Thomas Schlegel, Marco F. Huber(参考訳) 過去10年間で、ヒューマンインタラクションを最小限に抑えたエンドツーエンド機械学習(ML)パイプラインを構築するために、さまざまな自動機械学習(AutoML)システムが提案されている。 このような自動合成MLパイプラインは、競争力のあるパフォーマンスを達成することができるが、最近の研究では、AutoMLシステムの透明性の欠如と、構築されたMLパイプラインの説明の欠如により、AutoMLで構築されたモデルを信頼していないことが示されている。 26のドメインエキスパート、データサイエンティスト、およびさまざまな専門職のAutoML研究者による要件分析研究において、AutoMLの信頼性を確立するための詳細な情報の必要性を収集した。 我々は、任意のAutoML最適化手順とAutoMLで構築されたMLパイプラインを説明するインタラクティブなビジュアル分析ツールであるXAutoMLを提案する。 XAutoMLは、インタラクティブな視覚化と、説明可能な人工知能(XAI)の確立したテクニックを組み合わせて、完全なAutoML手順を透過的で説明可能なものにする。 XAutoMLとJupyterLabを統合することで、経験豊富なユーザは、XAutoMLから抽出した情報に基づいて、アドホックな視覚化による視覚分析を拡張することができる。 要件分析から,同じ多様なユーザグループを用いたユーザスタディにおけるアプローチを検証する。 すべての参加者は、XAutoMLから有用な情報を抽出することができ、AutoMLとAutoML最適化自体によって生成されたMLパイプラインに対する信頼性が大幅に向上した。

In the last ten years, various automated machine learning (AutoML) systems have been proposed to build end-to-end machine learning (ML) pipelines with minimal human interaction. Even though such automatically synthesized ML pipelines are able to achieve a competitive performance, recent studies have shown that users do not trust models constructed by AutoML due to missing transparency of AutoML systems and missing explanations for the constructed ML pipelines. In a requirements analysis study with 26 domain experts, data scientists, and AutoML researchers from different professions with vastly different expertise in ML, we collect detailed informational needs to establish trust in AutoML. We propose XAutoML, an interactive visual analytics tool for explaining arbitrary AutoML optimization procedures and ML pipelines constructed by AutoML. XAutoML combines interactive visualizations with established techniques from explainable artificial intelligence (XAI) to make the complete AutoML procedure transparent and explainable. By integrating XAutoML with JupyterLab, experienced users can extend the visual analytics with ad-hoc visualizations based on information extracted from XAutoML. We validate our approach in a user study with the same diverse user group from the requirements analysis. All participants were able to extract useful information from XAutoML, leading to a significantly increased trust in ML pipelines produced by AutoML and the AutoML optimization itself.
翻訳日:2022-02-25 16:37:36 公開日:2022-02-24
# ソフトウェア欠陥予測におけるワンクラス支援ベクトルマシンの利用の検討

Investigating the Use of One-Class Support Vector Machine for Software Defect Prediction ( http://arxiv.org/abs/2202.12074v1 )

ライセンス: Link先を確認
Rebecca Moussa, Danielle Azar and Federica Sarro(参考訳) 初期のソフトウェア欠陥の識別は、ソフトウェアの品質保証への重要なステップだと考えられている。 ソフトウェア欠陥予測は、ソフトウェアがエンドユーザに提供される前に障害を引き起こす可能性のあるソフトウェアコンポーネントを特定することを目的としている。 現在までに、このタスクは2クラス分類問題としてモデル化されているが、その性質は1クラス分類タスクとして定式化することもできる。 先行研究から得られた予備結果は,1クラスサポートベクトルマシン(OCSVM)が欠陥予測のために2クラス分類器より優れていることを示している。 もし確認できれば、これらの結果は研究者がこの分野で長年取り組んできたデータ不均衡問題を克服するだろう。 本稿では,15の実世界のソフトウェアプロジェクト,3つの検証シナリオ,8つの分類器,頑健な評価尺度,統計的意義試験を徹底的に実施することにより,1つのクラスからの学習が効果的な欠陥予測モデルを生成するのに十分かどうかをさらに検討する。 その結果,OCSVMはプロジェクト内欠陥予測よりもクロスバージョンやクロスプロジェクトに適していることがわかった。 ocsvmが最善の分類器(random forestはここでベスト)であると結論付けることはできないが、欠陥インスタンスの不足や使用不能時に正確な欠陥予測分類器を訓練するための研究の道を開く興味深い結果が得られた。

Early software defect identification is considered an important step towards software quality assurance. Software defect prediction aims at identifying software components that are likely to cause faults before a software is made available to the end-user. To date, this task has been modeled as a two-class classification problem, however its nature also allows it to be formulated as a one-class classification task. Preliminary results obtained in prior work show that One-Class Support Vector Machine (OCSVM) can outperform two-class classifiers for defect prediction. If confirmed, these results would overcome the data imbalance problem researchers have for long attempted to tackle in this field. In this paper, we further investigate whether learning from one class only is sufficient to produce effective defect prediction models by conducting a thorough large-scale empirical study investigating 15 real-world software projects, three validation scenarios, eight classifiers, robust evaluation measures and statistical significance tests. The results reveal that OCSVM is more suitable for cross-version and cross-project, rather than for within-project defect prediction, thus suggesting it performs better with heterogeneous data. While, we cannot conclude that OCSVM is the best classifier (Random Forest performs best herein), our results show interesting findings that open up further research avenues for training accurate defect prediction classifiers when defective instances are scarce or unavailable.
翻訳日:2022-02-25 16:37:13 公開日:2022-02-24
# 確率収束型ディープラーニングのためのNDCGサロゲートの大規模確率最適化

Large-scale Stochastic Optimization of NDCG Surrogates for Deep Learning with Provable Convergence ( http://arxiv.org/abs/2202.12183v1 )

ライセンス: Link先を確認
Zi-Hao Qiu, Quanqi Hu, Yongjian Zhong, Lijun Zhang, Tianbao Yang(参考訳) NDCG(英: Normalized Discounted Cumulative Gain)は、情報検索と機械学習において広く使われているランキング指標である。 しかし、NDCGの最大化のための効率的かつ証明可能な確率的手法は、特に深層モデルでは、まだ不足している。 本稿では,NDCGとそのトップ$K$の変種を最適化する原理的アプローチを提案する。 まず、NDCGサロゲートを最適化するための新しい構成最適化問題と、上位K$NDCGサロゲートを最適化するための新しい2レベル構成最適化問題を定式化する。 そこで我々は,非凸目的に対して,効率の良い収束保証付き確率的アルゴリズムを開発した。 既存の NDCG 最適化手法とは異なり,アルゴリズムの項目毎の複雑性は,総項目数ではなく,ミニバッチサイズでスケールする。 深層学習の有効性を向上させるために,初期ウォームアップと停止勾配演算子を用いた実践的戦略を提案する。 複数のデータセットに対する実験結果から,提案手法がNDCGの手法よりも優れていることが示された。 我々の知る限りでは、証明可能な収束保証でNDCGを最適化する確率的アルゴリズムが提案されたのはこれが初めてである。

NDCG, namely Normalized Discounted Cumulative Gain, is a widely used ranking metric in information retrieval and machine learning. However, efficient and provable stochastic methods for maximizing NDCG are still lacking, especially for deep models. In this paper, we propose a principled approach to optimize NDCG and its top-$K$ variant. First, we formulate a novel compositional optimization problem for optimizing the NDCG surrogate, and a novel bilevel compositional optimization problem for optimizing the top-$K$ NDCG surrogate. Then, we develop efficient stochastic algorithms with provable convergence guarantees for the non-convex objectives. Different from existing NDCG optimization methods, the per-iteration complexity of our algorithms scales with the mini-batch size instead of the number of total items. To improve the effectiveness for deep learning, we further propose practical strategies by using initial warm-up and stop gradient operator. Experimental results on multiple datasets demonstrate that our methods outperform prior ranking approaches in terms of NDCG. To the best of our knowledge, this is the first time that stochastic algorithms are proposed to optimize NDCG with a provable convergence guarantee.
翻訳日:2022-02-25 16:36:46 公開日:2022-02-24
# スパースパラメータを持つ混合モデルの学習について

On Learning Mixture Models with Sparse Parameters ( http://arxiv.org/abs/2202.11940v1 )

ライセンス: Link先を確認
Arya Mazumdar, Soumyabrata Pal(参考訳) 混合モデルは、複雑でマルチモーダルなデータセットに適合するために広く使われている。 本稿では, 高次元スパース潜時パラメータベクトルとの混合について検討し, それらのベクトルに対する支持回復の問題について考察する。 混合モデルにおけるパラメータ学習はよく研究されているが、スパーシティ制約は比較的未解明のままである。 パラメータベクトルの分散は様々な設定において自然な制約であり、パラメータ推定へのサポートリカバリは大きなステップである。 潜伏空間の次元に対数的サンプル複雑性が依存する回復支援のための効率的なアルゴリズムを提供する。 私たちのアルゴリズムは非常に一般的なもので 1) 均一性, ポアソン性, ラプラス性, ガウス性など多種多様な標準分布の混合物 2) 未知パラメータに対する異なる仮定の下で, 線形回帰とガウス共変量との混合化。 これらの設定のほとんどでは、結果が問題に関する最初の保証であり、残りの部分では、既存の作業の改善を提供します。

Mixture models are widely used to fit complex and multimodal datasets. In this paper we study mixtures with high dimensional sparse latent parameter vectors and consider the problem of support recovery of those vectors. While parameter learning in mixture models is well-studied, the sparsity constraint remains relatively unexplored. Sparsity of parameter vectors is a natural constraint in variety of settings, and support recovery is a major step towards parameter estimation. We provide efficient algorithms for support recovery that have a logarithmic sample complexity dependence on the dimensionality of the latent space. Our algorithms are quite general, namely they are applicable to 1) mixtures of many different canonical distributions including Uniform, Poisson, Laplace, Gaussians, etc. 2) Mixtures of linear regressions and linear classifiers with Gaussian covariates under different assumptions on the unknown parameters. In most of these settings, our results are the first guarantees on the problem while in the rest, our results provide improvements on existing works.
翻訳日:2022-02-25 16:36:09 公開日:2022-02-24
# シングルユーザとマルチユーザボイスフィルタのギャップを埋める

Closing the Gap between Single-User and Multi-User VoiceFilter-Lite ( http://arxiv.org/abs/2202.12169v1 )

ライセンス: Link先を確認
Rajeev Rikhye, Quan Wang, Qiao Liang, Yanzhang He, Ian McGraw(参考訳) voicefilter-liteは、非ターゲット話者からの重複音声認識を抑制し、音声認識と話者照合を改善する上で重要な役割を果たす話者条件音声分離モデルである。 しかしながら、VoiceFilter-Liteや他の話者条件音声モデルの1つの制限は、これらのモデルが通常、単一の話者に限られていることである。 多くのスマートホームデバイスが複数の登録ユーザーをサポートしているため、これは望ましくない。 複数のユーザがパーソナライゼーションのメリットを享受できるように,注意に基づく話者選択機構を開発し,それをvoicefilter-liteに適用した。 しかし、元々のマルチユーザー音声フィルタライトモデルは、シングルユーザーモデルに比べて大幅に性能が低下する。 本稿では,マルチユーザVoiceFilter-Liteモデルを改善する一連の実験を考案した。 二重学習率スケジュールを組み込んで,各話者の組込みモデルに特徴項線形変調(フィルム)を組み込むことにより,単話者評価においてマルチユーザと単ユーザ音声フィルタライトモデルの性能ギャップを解消することに成功した。 同時に、新しいモデルは、任意の数のユーザをサポートするために容易に拡張でき、マルチスピーカー評価において、以前公表したモデルよりも大幅に優れています。

VoiceFilter-Lite is a speaker-conditioned voice separation model that plays a crucial role in improving speech recognition and speaker verification by suppressing overlapping speech from non-target speakers. However, one limitation of VoiceFilter-Lite, and other speaker-conditioned speech models in general, is that these models are usually limited to a single target speaker. This is undesirable as most smart home devices now support multiple enrolled users. In order to extend the benefits of personalization to multiple users, we previously developed an attention-based speaker selection mechanism and applied it to VoiceFilter-Lite. However, the original multi-user VoiceFilter-Lite model suffers from significant performance degradation compared with single-user models. In this paper, we devised a series of experiments to improve the multi-user VoiceFilter-Lite model. By incorporating a dual learning rate schedule and by using feature-wise linear modulation (FiLM) to condition the model with the attended speaker embedding, we successfully closed the performance gap between multi-user and single-user VoiceFilter-Lite models on single-speaker evaluations. At the same time, the new model can also be easily extended to support any number of users, and significantly outperforms our previously published model on multi-speaker evaluations.
翻訳日:2022-02-25 16:35:56 公開日:2022-02-24
# 低精度浮動小数点計算による勾配降下法の収束性に及ぼすラウンドオフ誤差の影響

On the influence of roundoff errors on the convergence of the gradient descent method with low-precision floating-point computation ( http://arxiv.org/abs/2202.12276v1 )

ライセンス: Link先を確認
Lu Xia, Stefano Massei, Michiel Hochstenbach and Barry Koren(参考訳) 確率的ラウンドリングスキームの利用は、勾配降下法を低精度で実装する際の勾配効果の消失による収束の停滞を防ぐのに役立つ。 従来の確率的丸めは、相対的な大きさに比例する確率で小さな更新を保存することでゼロバイアスを達成する。 本研究では,ゼロバイアス特性をより大きい確率で交換し,小さな勾配を保存する新しい確率的丸めスキームを提案する。 提案手法は,各イテレーションにおいて降下方向にある一定の丸みバイアスを生じさせる。 凸問題に対しては,提案手法が勾配降下の収束率に有益であることを証明した。 本研究では,多項ロジスティック回帰モデルの最適化と8ビット浮動小数点形式を用いた単純なニューラルネットワークの学習において,様々な丸めスキームの性能を比較することにより,理論解析を検証する。

The employment of stochastic rounding schemes helps prevent stagnation of convergence, due to vanishing gradient effect when implementing the gradient descent method in low precision. Conventional stochastic rounding achieves zero bias by preserving small updates with probabilities proportional to their relative magnitudes. In this study, we propose a new stochastic rounding scheme that trades the zero bias property with a larger probability to preserve small gradients. Our method yields a constant rounding bias that, at each iteration, lies in a descent direction. For convex problems, we prove that the proposed rounding method has a beneficial effect on the convergence rate of gradient descent. We validate our theoretical analysis by comparing the performances of various rounding schemes when optimizing a multinomial logistic regression model and when training a simple neural network with 8-bit floating-point format.
翻訳日:2022-02-25 16:35:35 公開日:2022-02-24
# 合成ニューラルラミアンス場を用いたマルチオブジェクトダイナミクスの学習

Learning Multi-Object Dynamics with Compositional Neural Radiance Fields ( http://arxiv.org/abs/2202.11855v1 )

ライセンス: Link先を確認
Danny Driess, Zhiao Huang, Yunzhu Li, Russ Tedrake, Marc Toussaint(参考訳) 本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。 センサ観測から動的モデルを学習する際の中心的な疑問は、どの表現予測を行うべきかである。 NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。 しかし、ほとんどのnerfアプローチは単一のシーンで訓練され、全シーンをグローバルモデルで表現し、異なる数のオブジェクトを含む斬新なシーンに一般化し、挑戦する。 代わりに、シーンの複数のビューを各オブジェクトを表す潜在ベクトルの \emph{set} にマップする構成的、オブジェクト中心のオートエンコーダフレームワークを提案する。 潜在ベクトルは、シーンを再構成し、新しい視点からレンダリングできる個々のNeRFモデルをパラメータ化する。 我々は,潜在空間におけるグラフニューラルネットワークダイナミクスモデルを訓練し,動的予測のための合成性を実現する。 提案手法の重要な特徴は,NeRFモデルによるシーンの学習3次元情報により,動的モデルの学習における構造的先行情報を組み込むことで,長期的予測をより安定させることができることである。 このモデルは、個々のオブジェクトの観察から新しいシーンを合成するためにさらに使用できる。 提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。 実験では,多数のオブジェクトを含むプッシュタスクにおいて,モデルが複数のベースラインを上回っていることを示す。 ビデオ: https://dannydriess. github.io/compnerfdy n/

We present a method to learn compositional predictive models from image observations based on implicit object encoders, Neural Radiance Fields (NeRFs), and graph neural networks. A central question in learning dynamic models from sensor observations is on which representations predictions should be performed. NeRFs have become a popular choice for representing scenes due to their strong 3D prior. However, most NeRF approaches are trained on a single scene, representing the whole scene with a global model, making generalization to novel scenes, containing different numbers of objects, challenging. Instead, we present a compositional, object-centric auto-encoder framework that maps multiple views of the scene to a \emph{set} of latent vectors representing each object separately. The latent vectors parameterize individual NeRF models from which the scene can be reconstructed and rendered from novel viewpoints. We train a graph neural network dynamics model in the latent space to achieve compositionality for dynamics prediction. A key feature of our approach is that the learned 3D information of the scene through the NeRF model enables us to incorporate structural priors in learning the dynamics models, making long-term predictions more stable. The model can further be used to synthesize new scenes from individual object observations. For planning, we utilize RRTs in the learned latent space, where we can exploit our model and the implicit object encoder to make sampling the latent space informative and more efficient. In the experiments, we show that the model outperforms several baselines on a pushing task containing many objects. Video: https://dannydriess. github.io/compnerfdy n/
翻訳日:2022-02-25 16:35:19 公開日:2022-02-24
# factorizer: 医用画像分割のためのコンテキストモデリングへのスケーラブルな解釈可能なアプローチ

Factorizer: A Scalable Interpretable Approach to Context Modeling for Medical Image Segmentation ( http://arxiv.org/abs/2202.12295v1 )

ライセンス: Link先を確認
Pooya Ashtari, Diana Sima, Lieven De Lathauwer, Dominique Sappey-Marinierd, Frederik Maes, and Sabine Van Huffel(参考訳) U字型アーキテクチャを用いた畳み込みニューラルネットワーク(CNN)は,様々な臨床目的に欠かせない医療画像セグメンテーションを支配している。 しかし、畳み込みの固有の局所性により、cnnは脳病変のようないくつかの構造をよりよく認識するために必要となるグローバルコンテキストを完全に活用できない。 トランスフォーマーは最近、セマンティックセグメンテーションを含む視覚タスクにおける有望なパフォーマンスを証明した。 それでも、注意の二次的な複雑さにより、既存のTransformerベースのモデルは、画像解像度を何らかの方法で削減した後にのみ、自己注意層を使用する。 そこで本研究では,エンド・ツー・エンドのセグメンテーションモデルを構築するために,低ランク行列分解のパワーを活用したファクタライザと呼ばれるモデル群を導入する。 具体的には,非負行列分解(nmf)をu字型アーキテクチャに組み込んだ微分可能な層として定式化する,線形にスケーラブルなコンテキストモデリング手法を提案する。 シフトウインドウ技術はNMFと組み合わせてローカル情報を効果的に集約する。 因子化剤は、正確性、拡張性、解釈性の観点からcnnやトランスフォーマーと有利に競合し、脳腫瘍セグメンテーションのためのbratsデータセットで最新結果を達成し、それぞれ79.33%、83.14%、および90.16%のdiceスコアで腫瘍、腫瘍コア、および全腫瘍を増強する。 非常に有意義なNMFコンポーネントは、CNNやTransformerよりもFactizerにさらなる解釈可能性の優位性を与える。 さらに, アブレーション研究により, 追加のステップを要せず, 精度を犠牲にすることなく, 訓練された因子化器の推論を大幅に高速化できる因子化器の特徴が明らかになった。

Convolutional Neural Networks (CNNs) with U-shaped architectures have dominated medical image segmentation, which is crucial for various clinical purposes. However, the inherent locality of convolution makes CNNs fail to fully exploit global context, essential for better recognition of some structures, e.g., brain lesions. Transformers have recently proved promising performance on vision tasks, including semantic segmentation, mainly due to their capability of modeling long-range dependencies. Nevertheless, the quadratic complexity of attention makes existing Transformer-based models use self-attention layers only after somehow reducing the image resolution, which limits the ability to capture global contexts present at higher resolutions. Therefore, this work introduces a family of models, dubbed Factorizer, which leverages the power of low-rank matrix factorization for constructing an end-to-end segmentation model. Specifically, we propose a linearly scalable approach to context modeling, formulating Nonnegative Matrix Factorization (NMF) as a differentiable layer integrated into a U-shaped architecture. The shifted window technique is also utilized in combination with NMF to effectively aggregate local information. Factorizers compete favorably with CNNs and Transformers in terms of accuracy, scalability, and interpretability, achieving state-of-the-art results on the BraTS dataset for brain tumor segmentation, with Dice scores of 79.33%, 83.14%, and 90.16% for enhancing tumor, tumor core, and whole tumor, respectively. Highly meaningful NMF components give an additional interpretability advantage to Factorizers over CNNs and Transformers. Moreover, our ablation studies reveal a distinctive feature of Factorizers that enables a significant speed-up in inference for a trained Factorizer without any extra steps and without sacrificing much accuracy.
翻訳日:2022-02-25 16:33:30 公開日:2022-02-24
# 統計インフォームドニューラルネットワークを用いた確率力学の学習

Learning Stochastic Dynamics with Statistics-Informed Neural Network ( http://arxiv.org/abs/2202.12278v1 )

ライセンス: Link先を確認
Yuanran Zhu, Yu-Hang Tang, Changho Kim(参考訳) データから確率力学を学習するための統計情報ニューラルネットワーク(SINN)という機械学習フレームワークを導入する。 この新アーキテクチャは、理論上は確率系に対する普遍近似定理と確率モデリングのための射影的形式理論に着想を得たものである。 対象の確率過程の正しい \emph{statistical} 挙動を再現するために、ニューラルネットワークモデルをトレーニングするためのメカニズムを考案する。 数値シミュレーションの結果、よく訓練されたSINNはマルコフ力学と非マルコフ確率力学の両方を確実に近似できることを示した。 我々は,sinのモデル遷移ダイナミクスへの適用性を示す。 さらに,得られた還元次モデルが時間的粗粒データに基づいて訓練可能であることを示し,レアイベントシミュレーションに適することを示す。

We introduce a machine-learning framework named statistics-informed neural network (SINN) for learning stochastic dynamics from data. This new architecture was theoretically inspired by a universal approximation theorem for stochastic systems introduced in this paper and the projection-operator formalism for stochastic modeling. We devise mechanisms for training the neural network model to reproduce the correct \emph{statistical} behavior of a target stochastic process. Numerical simulation results demonstrate that a well-trained SINN can reliably approximate both Markovian and non-Markovian stochastic dynamics. We demonstrate the applicability of SINN to model transition dynamics. Furthermore, we show that the obtained reduced-order model can be trained on temporally coarse-grained data and hence is well suited for rare-event simulations.
翻訳日:2022-02-25 16:32:53 公開日:2022-02-24
# 機械読解における校正器による堅牢性向上

Using calibrator to improve robustness in Machine Reading Comprehension ( http://arxiv.org/abs/2202.11865v1 )

ライセンス: Link先を確認
Jing Jin and Houfeng Wang(参考訳) 機械読解包括(MRC)はBERTなどの強力なモデルが提案されているため、顕著な成果を上げている。 しかし、これらのモデルは十分に堅牢ではなく、敵の入力摂動や一般化の例に弱い。 データ分散のシフトによってモデルのソフトマックス確率に基づく解のランク付けが信頼できないため、トレーニングデータに関連する例を追加して、特定のタイプのデータのパフォーマンスを改善する試みもいくつかある。 本稿では,xgboostモデルに基づいて実装したポストホックリランカとしてキャリブレータを用いることで,ロバスト性を向上させる手法を提案する。 キャリブレータは手動の特徴と表現学習機能を組み合わせて候補結果を再現する。 逆行データセットにおける実験結果から,本モデルの性能改善は10\%以上達成でき,また,オリジナルおよび一般化データセットも改善できることがわかった。

Machine Reading Comprehension(MRC) has achieved a remarkable result since some powerful models, such as BERT, are proposed. However, these models are not robust enough and vulnerable to adversarial input perturbation and generalization examples. Some works tried to improve the performance on specific types of data by adding some related examples into training data while it leads to degradation on the original dataset, because the shift of data distribution makes the answer ranking based on the softmax probability of model unreliable. In this paper, we propose a method to improve the robustness by using a calibrator as the post-hoc reranker, which is implemented based on XGBoost model. The calibrator combines both manual features and representation learning features to rerank candidate results. Experimental results on adversarial datasets show that our model can achieve performance improvement by more than 10\% and also make improvement on the original and generalization datasets.
翻訳日:2022-02-25 16:32:20 公開日:2022-02-24
# (参考訳) 分割変分推論:確率的フェデレーション学習のためのフレームワーク

Partitioned Variational Inference: A framework for probabilistic federated learning ( http://arxiv.org/abs/2202.12275v1 )

ライセンス: CC BY 4.0
Matthew Ashman, Thang D. Bui, Cuong V. Nguyen, Efstratios Markou, Adrian Weller, Siddharth Swaroop and Richard E. Turner(参考訳) コンピューティングデバイスの普及は、これまでアクセスできないデータを使用して、新しい問題領域に機械学習モデルをデプロイする機会をもたらした。 このようなモデルをトレーニングする従来のアルゴリズムでは、単一のノードで計算を行う単一のマシンにデータを保存する必要があり、複数のデバイスで分散化されたトレーニングには適さない。 この欠陥は、複数のデータ所有者が協力してトレーニングし、ローカルデータをプライベートにしながら共有モデルを使用することのできる、フェデレーション付き学習アルゴリズムの開発を動機付けている。 しかし、これらのアルゴリズムの多くは、モデルの不確かさを捉えることができる確率的推定よりも、モデルパラメータの点推定の獲得に重点を置いている。 変分推論 (VI) は多くの現代の確率モデルに適合させる方法として選択されている。 本稿では,フェデレーション環境でviを実行する汎用フレームワークであるpartitioned variational inference (pvi)を提案する。 我々は, PVI の新たなサポート理論を開発し, 実践者にとって魅力的な選択となる多くの特性を示し, PVI を用いて断片化された, 関連のある文献を統一し, 様々なフェデレーション環境での PVI の有効性を示す実験結果を提供する。

The proliferation of computing devices has brought about an opportunity to deploy machine learning models on new problem domains using previously inaccessible data. Traditional algorithms for training such models often require data to be stored on a single machine with compute performed by a single node, making them unsuitable for decentralised training on multiple devices. This deficiency has motivated the development of federated learning algorithms, which allow multiple data owners to train collaboratively and use a shared model whilst keeping local data private. However, many of these algorithms focus on obtaining point estimates of model parameters, rather than probabilistic estimates capable of capturing model uncertainty, which is essential in many applications. Variational inference (VI) has become the method of choice for fitting many modern probabilistic models. In this paper we introduce partitioned variational inference (PVI), a general framework for performing VI in the federated setting. We develop new supporting theory for PVI, demonstrating a number of properties that make it an attractive choice for practitioners; use PVI to unify a wealth of fragmented, yet related literature; and provide empirical results that showcase the effectiveness of PVI in a variety of federated settings.
翻訳日:2022-02-25 16:30:46 公開日:2022-02-24
# CAISE:画像検索と編集のための会話エージェント

CAISE: Conversational Agent for Image Search and Editing ( http://arxiv.org/abs/2202.11847v1 )

ライセンス: Link先を確認
Hyounghun Kim, Doo Soon Kim, Seunghyun Yoon, Franck Dernoncourt, Trung Bui, Mohit Bansal(参考訳) ユーザの表現欲求が高まるにつれて、画像編集の需要も増大している。 しかし、ほとんどのユーザーにとって画像編集ツールは、写真効果の専門知識と複雑なインターフェースを必要とするため、使いやすくない。 そのため、ユーザーは画像の編集を手伝う人が必要だが、すべてのユーザーのために個人専用のヒューマンアシスタントを持つことは不可能だ。 そのため、画像編集のための自動アシスタントシステムが望ましい。 さらに、ユーザーは多様な画像編集作業のためにより多くの画像ソースを欲しがっており、画像検索機能を編集ツールに統合することは、この要求に対する潜在的な修正である。 そこで我々は,画像検索と編集のための自動会話エージェント(CAISE)のデータセットを提案する。 私たちの知る限り、これは会話的な画像検索と編集アノテーションを提供する最初のデータセットであり、エージェントはユーザーと接地した会話を保持し、リクエストに応じて画像の検索と編集を支援する。 このようなシステムを構築するために,まず画像検索とアノテータ間の会話の編集を行う。 アシスタントアノテータは、ユーザーアノテータからの要求に対応するカスタマイズされた画像検索および編集ツールを備えている。 アシスタントアノテータがツールで実行する機能は実行可能なコマンドとして記録され、トレーニングされたシステムは実世界のアプリケーション実行に役立ちます。 また,実行コマンドに対して,次のトークン(語彙から,あるいはテキスト/視覚コンテキストから)のソースを適応的に選択できる,ジェネレータ・エキストラクタベースラインモデルも導入する。 これは、将来の有用な作業のために、大きな人間と機械のパフォーマンスギャップを残しながら、強力な出発点となる。 私たちのコードとデータセットは、https://github.com/h younghk/CAISEで公開されています。

Demand for image editing has been increasing as users' desire for expression is also increasing. However, for most users, image editing tools are not easy to use since the tools require certain expertise in photo effects and have complex interfaces. Hence, users might need someone to help edit their images, but having a personal dedicated human assistant for every user is impossible to scale. For that reason, an automated assistant system for image editing is desirable. Additionally, users want more image sources for diverse image editing works, and integrating an image search functionality into the editing tool is a potential remedy for this demand. Thus, we propose a dataset of an automated Conversational Agent for Image Search and Editing (CAISE). To our knowledge, this is the first dataset that provides conversational image search and editing annotations, where the agent holds a grounded conversation with users and helps them to search and edit images according to their requests. To build such a system, we first collect image search and editing conversations between pairs of annotators. The assistant-annotators are equipped with a customized image search and editing tool to address the requests from the user-annotators. The functions that the assistant-annotators conduct with the tool are recorded as executable commands, allowing the trained system to be useful for real-world application execution. We also introduce a generator-extractor baseline model for this task, which can adaptively select the source of the next token (i.e., from the vocabulary or from textual/visual contexts) for the executable command. This serves as a strong starting point while still leaving a large human-machine performance gap for useful future work. Our code and dataset are publicly available at: https://github.com/h younghk/CAISE
翻訳日:2022-02-25 16:28:58 公開日:2022-02-24
# ニューロシンボリックAIは自然言語処理における約束を達成しているか? 構造的レビュー

Is Neuro-Symbolic AI Meeting its Promise in Natural Language Processing? A Structured Review ( http://arxiv.org/abs/2202.12205v1 )

ライセンス: Link先を確認
Kyle Hamilton, Aparna Nayak, Bojan Bo\v{z}i\'c, Luca Longo(参考訳) Neuro-Symbolic AI (NeSy)の支持者は、ディープラーニングと象徴的推論を組み合わせることで、どちらのパラダイムよりも強いAIにつながると主張している。 ディープラーニングが成功しているように、私たちの最善のディープラーニングシステムでさえ、抽象的推論が得意ではないと一般的に認められています。 推論は言語と密接に関連しているため、自然言語処理(NLP)がNeSyにとって特に適した候補となることは直感的に理解できる。 我々はNLPのためのNeSyを実装した研究の構造化されたレビューを行い、NeSyが実際にその約束を達成しているかどうか、すなわち、推論、アウト・オブ・ディストリビューションの一般化、解釈可能性、小さなデータからの学習と推論、新しいドメインへの転送可能性、という質問に答える。 本稿では,ルールや意味ネットワーク,言語構造や関係構造といった知識表現の影響と,暗黙的あるいは明示的な推論が高い期待値に寄与するかどうかについて検討する。 関係構造と明示的な推論に符号化された知識は、より多くのNeSy目標を満たす傾向にある。 我々はまた、推論の理論の応用に対するより体系的なアプローチを提唱し、AIの象徴派と準象徴派の間の摩擦の一部を減らしたいと考えています。

Advocates for Neuro-Symbolic AI (NeSy) assert that combining deep learning with symbolic reasoning will lead to stronger AI than either paradigm on its own. As successful as deep learning has been, it is generally accepted that even our best deep learning systems are not very good at abstract reasoning. And since reasoning is inextricably linked to language, it makes intuitive sense that Natural Language Processing (NLP), would be a particularly well-suited candidate for NeSy. We conduct a structured review of studies implementing NeSy for NLP, challenges and future directions, and aim to answer the question of whether NeSy is indeed meeting its promises: reasoning, out-of-distribution generalization, interpretability, learning and reasoning from small data, and transferability to new domains. We examine the impact of knowledge representation, such as rules and semantic networks, language structure and relational structure, and whether implicit or explicit reasoning contributes to higher promise scores. We find that knowledge encoded in relational structures and explicit reasoning tend to lead to more NeSy goals being satisfied. We also advocate for a more methodical approach to the application of theories of reasoning, which we hope can reduce some of the friction between the symbolic and sub-symbolic schools of AI.
翻訳日:2022-02-25 16:28:30 公開日:2022-02-24
# 認知バイアスによる大規模言語モデルの故障の把握

Capturing Failures of Large Language Models via Human Cognitive Biases ( http://arxiv.org/abs/2202.12299v1 )

ライセンス: Link先を確認
Erik Jones, Jacob Steinhardt(参考訳) 大きな言語モデルは複雑なオープンエンドの出力を生成する。単一のクラスを出力する代わりに、要約を書き、対話を生成し、動作するコードを生成することができる。 これらのオープンエンドシステムの信頼性を調べるためには、いつ失敗したかだけでなく、どのように失敗したかを理解する必要がある。 これに取り組むには、人間の認知バイアスからインスピレーションを受けます -- 合理的判断から逸脱する体系的なパターンです。 具体的には認知バイアスを使って (i)モデルがオンになりそうな入力を識別し、 (ii)これらの入力の誤りを定性的に特徴付けるテストを開発する。 ケーススタディとしてコード生成を使用することで、OpenAIのCodex errsが、入力プロンプトのフレーム化方法に基づいて予測可能であり、出力をアンカーに調整し、頻繁なトレーニング例を模倣する出力に偏っていることが分かりました。 次に、我々のフレームワークを使用して、ファイルの不正削除などの影響の大きいエラーを明らかにする。 我々の実験は、認知科学が現代の機械学習システムがどのように振る舞うかをよりよく理解するために有用な跳躍点になり得ることを示唆している。

Large language models generate complex, open-ended outputs: instead of outputting a single class, they can write summaries, generate dialogue, and produce working code. In order to study the reliability of these open-ended systems, we must understand not just when they fail, but also how they fail. To approach this, we draw inspiration from human cognitive biases -- systematic patterns of deviation from rational judgement. Specifically, we use cognitive biases to (i) identify inputs that models are likely to err on, and (ii) develop tests to qualitatively characterize their errors on these inputs. Using code generation as a case study, we find that OpenAI's Codex errs predictably based on how the input prompt is framed, adjusts outputs towards anchors, and is biased towards outputs that mimic frequent training examples. We then use our framework to uncover high-impact errors such as incorrectly deleting files. Our experiments suggest that cognitive science can be a useful jumping-off point to better understand how contemporary machine learning systems behave.
翻訳日:2022-02-25 16:28:06 公開日:2022-02-24
# 長文音声におけるコンフォーメータ型ストリーミング言語識別のための注意時間プール

Attentive Temporal Pooling for Conformer-based Streaming Language Identification in Long-form Speech ( http://arxiv.org/abs/2202.12163v1 )

ライセンス: Link先を確認
Quan Wang, Yang Yu, Jason Pelecanos, Yiling Huang, Ignacio Lopez Moreno(参考訳) 本稿では,適合層に基づく新しい言語識別システムを提案する。 本稿では,モデルがリカレント形式を介して長音の情報を伝達し,推論をストリーミング形式で行えるようにするための,注意深い時間的プーリング機構を提案する。 さらに、従来の言語分布が異なる新しいドメインに既存の言語識別モデルを適用するためのシンプルなドメイン適応機構も導入されている。 モデルサイズの異なる制約下で異なるモデルトポロジの比較研究を行い、コンホメータベースモデルの方がLSTMやトランスフォーマーベースモデルより優れていることを示す。 また,本実験により,注意時間プーリングと領域適応がモデル精度を著しく向上することを示した。

In this paper, we introduce a novel language identification system based on conformer layers. We propose an attentive temporal pooling mechanism to allow the model to carry information in long-form audio via a recurrent form, such that the inference can be performed in a streaming fashion. Additionally, a simple domain adaptation mechanism is introduced to allow adapting an existing language identification model to a new domain where the prior language distribution is different. We perform a comparative study of different model topologies under different constraints of model size, and find that conformer-base models outperform LSTM and transformer based models. Our experiments also show that attentive temporal pooling and domain adaptation significantly improve the model accuracy.
翻訳日:2022-02-25 16:27:48 公開日:2022-02-24
# Rare Gems: 初期化時にロッキーなチケットを見つける

Rare Gems: Finding Lottery Tickets at Initialization ( http://arxiv.org/abs/2202.12002v1 )

ライセンス: Link先を確認
Kartik Sreenivasan, Jy-yong Sohn, Liu Yang, Matthew Grinde, Alliot Nagle, Hongyi Wang, Kangwook Lee, Dimitris Papailiopoulos(参考訳) 大規模なニューラルネットワークは、通常、時間を要する"トレイン、プルー、再トレーニング"アプローチに従えば、元のサイズのごく一部にプルーニングできるが、精度の低下はほとんどないことが広く観測されている。 Frankle & Carbin (2018) は、宝くじを訓練することでこれを回避できる、すなわち、初期化時に見つかった特別なスパース部分ネットを高精度に訓練できると推測した。 しかし、その後の一連の研究は、トレーニング可能なネットワークを初期化時に発見するための現在のアルゴリズムが、例えばランダムスパースサブネットワークのトレーニングに対する単純なベースライン比較に失敗するという具体的な証拠を示している。 単純なベースラインよりも正確性を追求する宝くじを見つけることは、未解決の問題である。 本研究では,このオープンな問題を,トレーニング前にもある程度の精度で初期化できるサブネットワークで発見することで部分的に解決する。 これらの希少な宝石を「微調整によって」精製すると、現在の基準線を破り、精度を競い合うか、マグニチュードプルーニング法より優れている。

It has been widely observed that large neural networks can be pruned to a small fraction of their original size, with little loss in accuracy, by typically following a time-consuming "train, prune, re-train" approach. Frankle & Carbin (2018) conjecture that we can avoid this by training lottery tickets, i.e., special sparse subnetworks found at initialization, that can be trained to high accuracy. However, a subsequent line of work presents concrete evidence that current algorithms for finding trainable networks at initialization, fail simple baseline comparisons, e.g., against training random sparse subnetworks. Finding lottery tickets that train to better accuracy compared to simple baselines remains an open problem. In this work, we partially resolve this open problem by discovering rare gems: subnetworks at initialization that attain considerable accuracy, even before training. Refining these rare gems - "by means of fine-tuning" - beats current baselines and leads to accuracy competitive or better than magnitude pruning methods.
翻訳日:2022-02-25 16:27:16 公開日:2022-02-24
# コンピュータビジョンチャレンジによる深層学習型ポリープ検出法とセグメンテーション法の汎用性評価

Assessing generalisability of deep learning-based polyp detection and segmentation methods through a computer vision challenge ( http://arxiv.org/abs/2202.12031v1 )

ライセンス: Link先を確認
Sharib Ali, Noha Ghatwary, Debesh Jha, Ece Isik-Polat, Gorkem Polat, Chen Yang, Wuyang Li, Adrian Galdran, Miguel-\'Angel Gonz\'alez Ballester, Vajira Thambawita, Steven Hicks, Sahadev Poudel, Sang-Woong Lee, Ziyi Jin, Tianyuan Gan, ChengHui Yu, JiangPeng Yan, Doyeob Yeo, Hyunseok Lee, Nikhil Kumar Tomar, Mahmood Haithmi, Amr Ahmed, Michael A. Riegler, Christian Daul, P{\aa}l Halvorsen, Jens Rittscher, Osama E. Salem, Dominique Lamarque, Renato Cannizzaro, Stefano Realdon, Thomas de Lange, and James E. East(参考訳) ポリープは大腸内視鏡で同定されたよく知られたがん前駆体である。 しかし、その大きさ、位置、表面の変化は、識別、局所化、特徴化に大きく影響する。 さらに,ポリープの大腸内視鏡的観察と除去(ポリープ切除)は,操作性が高い。 大腸ポリープの異常,再発率の低下,大腸の解剖学的特徴から,検出率の低下,大腸ポリープの除去が不十分であった。 機械学習を用いたポリプの検出とセグメンテーションのための自動化手法の実現には、いくつかの進展がある。 しかしながら、これらの手法の大きな欠点は、異なるセンタ、モダリティ、および取得システムから来る、サンプル外の未知のデータセットに一般化する能力である。 この仮説を厳密に検証するために,複数の大腸内視鏡システムから取得した多心多集団データセットを収集し,機械学習の専門家からなる課題チームに対して,クラウドソーシング内視鏡コンピュータビジョンチャレンジ(endocv)2021の一部として,堅牢な自動検出とセグメント化手法の開発を行った。 本稿では,4つのトップチーム(計7チーム)の検出結果と5つのトップチーム(計16チーム)のセグメンテーション結果を分析する。 分析の結果,臨床応用に要するリアルタイムパフォーマンスよりも,上位のチームが精度(つまり,Diceのスコア全体の80%以上)に集中していることが判明した。 さらに,マルチセンタデータセットに存在する多様性に取り組むための汎用性の向上の必要性を明らかにする実験ベースの仮説を提案する。

Polyps are well-known cancer precursors identified by colonoscopy. However, variability in their size, location, and surface largely affect identification, localisation, and characterisation. Moreover, colonoscopic surveillance and removal of polyps (referred to as polypectomy ) are highly operator-dependent procedures. There exist a high missed detection rate and incomplete removal of colonic polyps due to their variable nature, the difficulties to delineate the abnormality, the high recurrence rates, and the anatomical topography of the colon. There have been several developments in realising automated methods for both detection and segmentation of these polyps using machine learning. However, the major drawback in most of these methods is their ability to generalise to out-of-sample unseen datasets that come from different centres, modalities and acquisition systems. To test this hypothesis rigorously we curated a multi-centre and multi-population dataset acquired from multiple colonoscopy systems and challenged teams comprising machine learning experts to develop robust automated detection and segmentation methods as part of our crowd-sourcing Endoscopic computer vision challenge (EndoCV) 2021. In this paper, we analyse the detection results of the four top (among seven) teams and the segmentation results of the five top teams (among 16). Our analyses demonstrate that the top-ranking teams concentrated on accuracy (i.e., accuracy > 80% on overall Dice score on different validation sets) over real-time performance required for clinical applicability. We further dissect the methods and provide an experiment-based hypothesis that reveals the need for improved generalisability to tackle diversity present in multi-centre datasets.
翻訳日:2022-02-25 16:26:55 公開日:2022-02-24
# 敵対的学習による公正価格モデル

A fair pricing model via adversarial learning ( http://arxiv.org/abs/2202.12008v1 )

ライセンス: Link先を確認
Grari Vincent, Charpentier Arthur, Lamprier Sylvain, Detyniecki Marcin(参考訳) 保険事業の核心はリスクのある保険と非リスクのない保険の分類であり、リスクのある保険はリスクのない保険よりも多く貢献し、高いプレミアムを支払うべきである。 したがって、アクチュアリは、econometricまたはmachine learning技術を使用して分類するが、公正なアクチュアリル分類と「差別」の区別は微妙である。 このため、リンドホルム、リッチマン、ツァナカス、ウートリッチ(2022年)といった地域社会では公平さと差別への関心が高まっている。 非感受性の特徴は、保護された属性の代替またはプロキシとして機能すると考えられる。 例えば、自動車の色とモデルと運転者の職業の組み合わせは、自動車保険価格の予測において望ましくないジェンダーバイアスをもたらす可能性がある。 意外なことに,予測器のみの偏りは,正確な精度を維持するには不十分であることを示す(1)。 実際、従来の価格モデルは現在、2段階構造で構築されており、車や地理的リスクといった潜在的なコンポーネントの多くを考慮しています。 この伝統的な構造が公平性を達成する上で大きな限界があることを示します。 そこで我々は,新しい価格モデルアプローチを開発した。 近年、Blier-Wong、Cossette、Lamontagne、Marceau(2021年)、WuthrichとMerz(2021年)が価格におけるオートエンコーダの価値を示している。 本稿では,(2)複数の価格要因(地理的,カータイプ)に一般化できることを示す。(3)公平な文脈に完全に適合する(価格要素のセットを損なうことができるため)。我々は,この主概念を,所望のメートル法に従って不要なバイアスを緩和しつつ,純粋なプレミアムを予測するために必要な地理的およびカー価格要素を生成して,単一の価格モデル全体をトレーニングする一般的なフレームワークに拡張する。

At the core of insurance business lies classification between risky and non-risky insureds, actuarial fairness meaning that risky insureds should contribute more and pay a higher premium than non-risky or less-risky ones. Actuaries, therefore, use econometric or machine learning techniques to classify, but the distinction between a fair actuarial classification and "discrimination" is subtle. For this reason, there is a growing interest about fairness and discrimination in the actuarial community Lindholm, Richman, Tsanakas, and Wuthrich (2022). Presumably, non-sensitive characteristics can serve as substitutes or proxies for protected attributes. For example, the color and model of a car, combined with the driver's occupation, may lead to an undesirable gender bias in the prediction of car insurance prices. Surprisingly, we will show that debiasing the predictor alone may be insufficient to maintain adequate accuracy (1). Indeed, the traditional pricing model is currently built in a two-stage structure that considers many potentially biased components such as car or geographic risks. We will show that this traditional structure has significant limitations in achieving fairness. For this reason, we have developed a novel pricing model approach. Recently some approaches have Blier-Wong, Cossette, Lamontagne, and Marceau (2021); Wuthrich and Merz (2021) shown the value of autoencoders in pricing. In this paper, we will show that (2) this can be generalized to multiple pricing factors (geographic, car type), (3) it perfectly adapted for a fairness context (since it allows to debias the set of pricing components): We extend this main idea to a general framework in which a single whole pricing model is trained by generating the geographic and car pricing components needed to predict the pure premium while mitigating the unwanted bias according to the desired metric.
翻訳日:2022-02-25 16:26:26 公開日:2022-02-24
# KESA: 感覚分析のための知識強化アプローチ

KESA: A Knowledge Enhanced Approach For Sentiment Analysis ( http://arxiv.org/abs/2202.12093v1 )

ライセンス: Link先を確認
Qinghua Zhao, Shuai Ma, Shuo Ren(参考訳) 最近の研究では、事前訓練された言語モデルに感情知識を注入することに焦点を当てているが、彼らは通常、トレーニング後の段階でマスクや再構築タスクを設計する。 本稿では,より軽い方法で感情知識の恩恵を受けることを目的とする。 この目的を達成するため,文レベルの感情分析を行い,感情単語クローゼと条件付き感情予測という2つの感情認識補助タスクを提案する。 最初のタスクは、前の知識として全体の感情極性を考えると、入力内で正しい感情語を選択することを学ぶ。 逆に、第2のタスクは、単語の感情極性が事前の知識として考慮された全体的な感情極性を予測する。 さらに,各タスクにおける複数のラベルを統一する2種類のラベル組み合わせ手法について検討した。 より深いセマンティック表現を学ぶために、より多くの情報がモデルを促進することができると我々は主張する。 この仮説を検証するための簡単な方法で実装する。 実験の結果,本手法は事前学習モデルより一貫して優れており,既存の知識強化後モデルに付加的であることが示された。 コードとデータはhttps://github.com/l showway/kesaで公開される。

Though some recent works focus on injecting sentiment knowledge into pre-trained language models, they usually design mask and reconstruction tasks in the post-training phase. In this paper, we aim to benefit from sentiment knowledge in a lighter way. To achieve this goal, we study sentence-level sentiment analysis and, correspondingly, propose two sentiment-aware auxiliary tasks named sentiment word cloze and conditional sentiment prediction. The first task learns to select the correct sentiment words within the input, given the overall sentiment polarity as prior knowledge. On the contrary, the second task predicts the overall sentiment polarity given the sentiment polarity of the word as prior knowledge. In addition, two kinds of label combination methods are investigated to unify multiple types of labels in each task. We argue that more information can promote the models to learn more profound semantic representation. We implement it in a straightforward way to verify this hypothesis. The experimental results demonstrate that our approach consistently outperforms pre-trained models and is additive to existing knowledge-enhanced post-trained models. The code and data are released at https://github.com/l showway/KESA.
翻訳日:2022-02-25 16:24:59 公開日:2022-02-24
# 低リソース言語のためのより意味のあるリソースを目指して

Toward More Meaningful Resources for Lower-resourced Languages ( http://arxiv.org/abs/2202.12288v1 )

ライセンス: Link先を確認
Constantine Lignos, Nolan Holley, Chester Palen-Michel, Jonne S\"alev\"a(参考訳) 本稿では,低リソース言語に対する有意義なリソースが,これらの言語話者とどのように結びついて開発されるべきかについて述べる。 まず,2つの多言語リソースについて詳細に検討する。 Wikidataに格納されているいくつかの低リソース言語の名前の内容を調べ、それらの多くは実際に彼らが主張する言語にはないこと、そして修正するためには自明な努力を要することを発見した。 WikiAnnにある品質問題について議論し、手書きのアノテートデータに有用なサプリメントかどうかを評価する。 次に、開発プロセスの一部として言語の話者を含む、思慮深く倫理的な方法で、低リソース言語のためのアノテーションを作成することの重要性について論じる。 我々は資源開発のための推奨ガイドラインで締めくくる。

In this position paper, we describe our perspective on how meaningful resources for lower-resourced languages should be developed in connection with the speakers of those languages. We first examine two massively multilingual resources in detail. We explore the contents of the names stored in Wikidata for a few lower-resourced languages and find that many of them are not in fact in the languages they claim to be and require non-trivial effort to correct. We discuss quality issues present in WikiAnn and evaluate whether it is a useful supplement to hand annotated data. We then discuss the importance of creating annotation for lower-resourced languages in a thoughtful and ethical way that includes the languages' speakers as part of the development process. We conclude with recommended guidelines for resource development.
翻訳日:2022-02-25 16:24:42 公開日:2022-02-24
# 要素幅活性化スケーリングによる畳み込みニューラルネットワークのロバスト性向上

Improving Robustness of Convolutional Neural Networks Using Element-Wise Activation Scaling ( http://arxiv.org/abs/2202.11898v1 )

ライセンス: Link先を確認
Zhi-Yuan Zhang and Di Liu(参考訳) 近年の研究では, 対角運動の中間活性化がCNNモデルの対向ロバスト性を向上させることが示されている。 state of the arts [baiet al., 2021]と[yanet al., 2021]はこの機能をチャネルレベルで探索する。 本稿では,より微細なレベルでの中間活性化操作について検討する。 アクティベーションを均一にスケーリングする代わりに、各要素をアクティベーション内で個別に調整し、EWASと呼ばれる要素ワイズアクティベーションスケーリングを提案し、CNNの対向ロバスト性を改善する。 CIFAR10とSVHNによるResNet-18とWideResNetの実験結果から、EWASはロバストネスの精度を大幅に向上することが示された。 特にCIFAR10上のResNet18では、EWASはC&W攻撃に対して敵の精度を37.65%から82.35%向上させる。 EWASは単純だが、堅牢性の改善の観点からは非常に効果的である。 コードはhttps://anonymous.4o pen.science/r/EWAS-D D64で公開されている。

Recent works reveal that re-calibrating the intermediate activation of adversarial examples can improve the adversarial robustness of a CNN model. The state of the arts [Baiet al., 2021] and [Yanet al., 2021] explores this feature at the channel level, i.e. the activation of a channel is uniformly scaled by a factor. In this paper, we investigate the intermediate activation manipulation at a more fine-grained level. Instead of uniformly scaling the activation, we individually adjust each element within an activation and thus propose Element-Wise Activation Scaling, dubbed EWAS, to improve CNNs' adversarial robustness. Experimental results on ResNet-18 and WideResNet with CIFAR10 and SVHN show that EWAS significantly improves the robustness accuracy. Especially for ResNet18 on CIFAR10, EWAS increases the adversarial accuracy by 37.65% to 82.35% against C&W attack. EWAS is simple yet very effective in terms of improving robustness. The codes are anonymously available at https://anonymous.4o pen.science/r/EWAS-D D64.
翻訳日:2022-02-25 16:23:38 公開日:2022-02-24
# 周期的バイラテラル相互作用によるフレーズベースアフォーダンス検出

Phrase-Based Affordance Detection via Cyclic Bilateral Interaction ( http://arxiv.org/abs/2202.12076v1 )

ライセンス: Link先を確認
Liangsheng Lu, Wei Zhai, Hongchen Luo, Yu Kang and Yang Cao(参考訳) Affordance Detectionは、画像中の潜在的なアクション可能性を持つオブジェクトを知覚することを指すもので、現実のアプリケーションシナリオにおける人の目的に依存するため、困難なタスクである。 既存の作業は主に、動的に変化する価格特性に対応するために、画像/ビデオから固有の人間オブジェクトの依存関係を抽出する。 本稿では,視覚言語の観点からアフォーアンスを知覚し,行動目的を記述した一連のフレーズが与えられた場合,同じアフォーアンスを持つシーン内のすべての対象領域を検出すべきという,難しいフレーズに基づくアフォーアンス検出問題を検討する。 そこで本稿では,言語と視覚の特徴を段階的に整合させる巡回的二元整合性強化ネットワーク(CBCE-Net)を提案する。 具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。 さらに,短いフレーズでアフォーマンスカテゴリをアノテートすることにより,一般の目的駆動型アフォーアンスデータセット(pad)を拡張する。 比較実験の結果, 客観的指標と視覚品質の両面において, 4つの分野から9つの典型的な方法よりも優れた方法が得られた。 関連するコードとデータセットは \url{https://github.com/l ulsheng/CBCE-Net} でリリースされる。

Affordance detection, which refers to perceiving objects with potential action possibilities in images, is a challenging task since the possible affordance depends on the person's purpose in real-world application scenarios. The existing works mainly extract the inherent human-object dependencies from image/video to accommodate affordance properties that change dynamically. In this paper, we explore to perceive affordance from a vision-language perspective and consider the challenging phrase-based affordance detection problem,i.e., given a set of phrases describing the action purposes, all the object regions in a scene with the same affordance should be detected. To this end, we propose a cyclic bilateral consistency enhancement network (CBCE-Net) to align language and vision features progressively. Specifically, the presented CBCE-Net consists of a mutual guided vision-language module that updates the common features of vision and language in a progressive manner, and a cyclic interaction module (CIM) that facilitates the perception of possible interaction with objects in a cyclic manner. In addition, we extend the public Purpose-driven Affordance Dataset (PAD) by annotating affordance categories with short phrases. The contrastive experimental results demonstrate the superiority of our method over nine typical methods from four relevant fields in terms of both objective metrics and visual quality. The related code and dataset will be released at \url{https://github.com/l ulsheng/CBCE-Net}.
翻訳日:2022-02-25 16:23:19 公開日:2022-02-24
# 自尊心の理論的限界を克服する

Overcoming a Theoretical Limitation of Self-Attention ( http://arxiv.org/abs/2202.12172v1 )

ライセンス: Link先を確認
David Chiang and Peter Cholak(参考訳) トランスフォーマーは多くのタスクに非常に有効であるが、彼らが苦労している驚くほど簡単な正規言語もある。 ハーンによれば、単一の入力シンボルに依存する言語では、入力文字列が長くなるにつれて、トランスフォーマーの分類決定が自信を減らし(つまり、クロスエントロピーが1ビットに近づく)、より長くなる。 この制限を2つの言語、パリティ(parity)、奇数 1 のビット文字列(bit string)、および 1 から始まるビット文字列(bit string)の言語を用いて検討する。 ハーンの補題が示唆する制限を克服する3つの方法を示す。 まず、完全精度でPARITYを認識する変換器を構築し、同様にFIRSTについても解決する。 第二に, 層正規化を用いて, 両モデルの交叉エントロピーを任意に0に近づける。 第3に、変換器がFIRSTのように単一の位置に集中する必要がある場合、より長い文字列に一般化できないことが判明する。

Although transformers are remarkably effective for many tasks, there are some surprisingly easy-looking regular languages that they struggle with. Hahn shows that for languages where acceptance depends on a single input symbol, a transformer's classification decisions become less and less confident (that is, with cross-entropy approaching 1 bit per string) as input strings get longer and longer. We examine this limitation using two languages: PARITY, the language of bit strings with an odd number of 1s, and FIRST, the language of bit strings starting with a 1. We demonstrate three ways of overcoming the limitation suggested by Hahn's lemma. First, we settle an open question by constructing a transformer that recognizes PARITY with perfect accuracy, and similarly for FIRST. Second, we use layer normalization to bring the cross-entropy of both models arbitrarily close to zero. Third, when transformers need to focus on a single position, as for FIRST, we find that they can fail to generalize to longer strings; we offer a simple remedy to this problem that also improves length generalization in machine translation.
翻訳日:2022-02-25 16:21:45 公開日:2022-02-24
# 位相連続性:音声強調のための位相スペクトルの学習

Phase Continuity: Learning Derivatives of Phase Spectrum for Speech Enhancement ( http://arxiv.org/abs/2202.11918v1 )

ライセンス: Link先を確認
Doyeon Kim, Hyewon Han, Hyeon-Kyeong Shin, Soo-Whan Chung, and Hong-Goo Kang(参考訳) 現代のニューラルスピーチエンハンスメントモデルは、通常、トレーニング損失項に、明示的または暗黙的に、様々な形態の位相情報を含む。 しかしながら、これらの損失項は典型的には特定の周波数における位相スペクトル値の歪みを低減するために設計されており、拡張された音声の品質に大きく影響しない。 本稿では,雑音環境下で動作可能な音声強調のための効果的な位相再構成戦略を提案する。 具体的には、時間と周波数軸の相対位相変化を考慮した位相連続損失を導入する。 この位相連続性損失を再構成損失と数桁のスペクトル損失で訓練した最先端のニューラル音声強調システムに組み込むことにより,提案手法により,特に大きなスペクトル損失を併用した訓練において,ベースライン上の拡張音声信号の品質がさらに向上することを示す。

Modern neural speech enhancement models usually include various forms of phase information in their training loss terms, either explicitly or implicitly. However, these loss terms are typically designed to reduce the distortion of phase spectrum values at specific frequencies, which ensures they do not significantly affect the quality of the enhanced speech. In this paper, we propose an effective phase reconstruction strategy for neural speech enhancement that can operate in noisy environments. Specifically, we introduce a phase continuity loss that considers relative phase variations across the time and frequency axes. By including this phase continuity loss in a state-of-the-art neural speech enhancement system trained with reconstruction loss and a number of magnitude spectral losses, we show that our proposed method further improves the quality of enhanced speech signals over the baseline, especially when training is done jointly with a magnitude spectrum loss.
翻訳日:2022-02-25 16:21:24 公開日:2022-02-24
# 学習を監督することだけ: 模倣学習から、逆さまのrlでメタrlまで

All You Need Is Supervised Learning: From Imitation Learning to Meta-RL With Upside Down RL ( http://arxiv.org/abs/2202.11960v1 )

ライセンス: Link先を確認
Kai Arulkumaran, Dylan R. Ashley, J\"urgen Schmidhuber, Rupesh K. Srivastava(参考訳) アップサイドダウン強化学習(UDRL)は、リターンを入力として、予測アクションとして、リターンをRLの目的関数のリターンを逆転させる。 UDRLは純粋に教師付き学習に基づいており、ブートストラップ、オフポリシー修正、割引係数といった、RLの大きな問題を回避している。 UDRLによる以前の研究は、従来のオンラインRL設定で実証されていたが、ここでは、この単一のアルゴリズムが模倣学習やオフラインRL設定でも機能し、ゴール条件付きRL設定やメタRL設定まで拡張可能であることを示す。 汎用エージェントアーキテクチャでは、単一のUDRLエージェントがすべてのパラダイムにわたって学習することができる。

Upside down reinforcement learning (UDRL) flips the conventional use of the return in the objective function in RL upside down, by taking returns as input and predicting actions. UDRL is based purely on supervised learning, and bypasses some prominent issues in RL: bootstrapping, off-policy corrections, and discount factors. While previous work with UDRL demonstrated it in a traditional online RL setting, here we show that this single algorithm can also work in the imitation learning and offline RL settings, be extended to the goal-conditioned RL setting, and even the meta-RL setting. With a general agent architecture, a single UDRL agent can learn across all paradigms.
翻訳日:2022-02-25 16:20:52 公開日:2022-02-24
# 予測的ビジネスプロセスモニタリングのための反事実的説明

Counterfactual Explanations for Predictive Business Process Monitoring ( http://arxiv.org/abs/2202.12018v1 )

ライセンス: Link先を確認
Tsung-Hao Huang, Andreas Metzger, Klaus Pohl(参考訳) 予測的ビジネスプロセス監視は、高度な予測モデルを活用する傾向にある。 洗練されたモデルは単純なモデルよりも一貫して高い予測精度を達成するが、大きな欠点は解釈可能性の欠如である。 そこで我々は,予測モデルの解釈可能性を高めることを目的とした,説明可能な予測可能なビジネスプロセス監視への関心が高まっている。 既存のソリューションは、事実の説明に重点を置いている。事実の説明は役に立つが、人間は通常、なぜ特定の予測が行われたのかを問わない。 説明可能なAIの研究は、カウンターファクトな説明を生成するためにいくつかの有望なテクニックを生み出したが、予測プロセス監視に直接適用することで、基礎となるプロセス制約を無視しているため、非現実的な説明をもたらす可能性がある。 本稿では、予測プロセス監視のための対実的説明手法であるLORELEYを提案し、最近の説明可能なAI技術であるLOREを拡張した。 説明生成プロセスに制御フロー制約を課し,現実的な反事実的説明を確実にする。 さらに,多クラス分類モデルを説明するためにloreを拡張した。 実際の公開データセットを用いた実験結果は、LORELEYが予測モデルを97.69\%の平均忠実度に近似し、現実的な反事実的説明を生成することを示唆している。

Predictive business process monitoring increasingly leverages sophisticated prediction models. Although sophisticated models achieve consistently higher prediction accuracy than simple models, one major drawback is their lack of interpretability, which limits their adoption in practice. We thus see growing interest in explainable predictive business process monitoring, which aims to increase the interpretability of prediction models. Existing solutions focus on giving factual explanations.While factual explanations can be helpful, humans typically do not ask why a particular prediction was made, but rather why it was made instead of another prediction, i.e., humans are interested in counterfactual explanations. While research in explainable AI produced several promising techniques to generate counterfactual explanations, directly applying them to predictive process monitoring may deliver unrealistic explanations, because they ignore the underlying process constraints. We propose LORELEY, a counterfactual explanation technique for predictive process monitoring, which extends LORE, a recent explainable AI technique. We impose control flow constraints to the explanation generation process to ensure realistic counterfactual explanations. Moreover, we extend LORE to enable explaining multi-class classification models. Experimental results using a real, public dataset indicate that LORELEY can approximate the prediction models with an average fidelity of 97.69\% and generate realistic counterfactual explanations.
翻訳日:2022-02-25 16:20:38 公開日:2022-02-24
# スパース報酬環境における異種強化学習エージェントの協調学習:共有すべき時とは何だろうか?

Collaborative Training of Heterogeneous Reinforcement Learning Agents in Environments with Sparse Rewards: What and When to Share? ( http://arxiv.org/abs/2202.12174v1 )

ライセンス: Link先を確認
Alain Andres, Esther Villar-Rodriguez and Javier Del Ser(参考訳) 人間の人生の初期段階では、赤ちゃんは、環境からの過度の報酬ではなく、固有の満足度によって動機づけられた異なるシナリオを探求することで、スキルを発達させる。 この行動は本質的動機と呼ばれ、少ない報酬で強化学習環境に由来する探索課題に対処する一つの解決策として浮上した。 均質なエージェントを用いた単一および複数エージェント問題に対する学習プロセスを加速するための多様な探索手法が提案されている。 しかし、同じ環境にデプロイされた異種エージェント間の協調学習フレームワークに関する研究は少ないが、事前の知識なしに後者の異なるインスタンスと相互作用している。 異質性以外にも、各エージェントの特徴は全状態空間のサブセットにのみアクセスを許し、異なる探索戦略や最適解を隠蔽する可能性がある。 この作業では、本質的な動機づけと転校学習のアイデアを組み合わせる。 具体的には,アクタークリティカルモデルアーキテクチャにおけるパラメータの共有と,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を両立することに焦点を当てる。 我々は、VizDooMのMy Way Homeシナリオを改良して実施した実験を通じて、我々の戦略をテストする。 その結果,計算コストの少ない協調フレームワークが,知識共有を伴わない独立した学習プロセスに勝る方法が明らかとなった。 さらに,意図しないエージェントの行動を避けるために,内在的な報酬と内在的な報酬の関係を正しく調整する必要があることを述べる。

In the early stages of human life, babies develop their skills by exploring different scenarios motivated by their inherent satisfaction rather than by extrinsic rewards from the environment. This behavior, referred to as intrinsic motivation, has emerged as one solution to address the exploration challenge derived from reinforcement learning environments with sparse rewards. Diverse exploration approaches have been proposed to accelerate the learning process over single- and multi-agent problems with homogeneous agents. However, scarce studies have elaborated on collaborative learning frameworks between heterogeneous agents deployed into the same environment, but interacting with different instances of the latter without any prior knowledge. Beyond the heterogeneity, each agent's characteristics grant access only to a subset of the full state space, which may hide different exploration strategies and optimal solutions. In this work we combine ideas from intrinsic motivation and transfer learning. Specifically, we focus on sharing parameters in actor-critic model architectures and on combining information obtained through intrinsic motivation with the aim of having a more efficient exploration and faster learning. We test our strategies through experiments performed over a modified ViZDooM's My Way Home scenario, which is more challenging than its original version and allows evaluating the heterogeneity between agents. Our results reveal different ways in which a collaborative framework with little additional computational cost can outperform an independent learning process without knowledge sharing. Additionally, we depict the need for modulating correctly the importance between the extrinsic and intrinsic rewards to avoid undesired agent behaviors.
翻訳日:2022-02-25 16:20:15 公開日:2022-02-24
# 埋め込みアンサンブル:無限の幅制限とオペレーティングレジーム

Embedded Ensembles: Infinite Width Limit and Operating Regimes ( http://arxiv.org/abs/2202.12297v1 )

ライセンス: Link先を確認
Maksim Velikanov, Roman Kail, Ivan Anokhin, Roman Vashurin, Maxim Panov, Alexey Zaytsev, Dmitry Yarotsky(参考訳) ニューラルネットワークをセンシングするためのメモリ効率の良いアプローチは、単一の参照ネットワークによってアンサンブルされたモデル間でほとんどの重みを共有することである。 私たちはこの戦略をEmbedded Ensembling (EE)と呼び、特にBatchEnsemblesとMonte-Carloのドロップアウトアンサンブルを例に挙げる。 本稿では,モデル数が異なる組込みアンサンブルの系統的理論的および経験的解析を行う。 理論的には、勾配降下ダイナミクスの広いネットワーク限界を導出するために、ニューラルネットワークに基づくアプローチを用いる。 この制限では、アンサンブルモデルのアーキテクチャと初期化戦略に依存しない2つのアンサンブル体制を同定する。 独立系では組込みアンサンブルが独立モデルのアンサンブルとして振る舞うことが証明される。 有限ネットワークを用いた幅広い実験で理論予測を検証し,2つのレジーム間の遷移,ネットワーク幅とモデル数によるアンサンブル性能のスケーリング,多数のアーキテクチャとハイパーパラメータの選択による性能の依存性など,経験則的に様々な効果を検証した。

A memory efficient approach to ensembling neural networks is to share most weights among the ensembled models by means of a single reference network. We refer to this strategy as Embedded Ensembling (EE); its particular examples are BatchEnsembles and Monte-Carlo dropout ensembles. In this paper we perform a systematic theoretical and empirical analysis of embedded ensembles with different number of models. Theoretically, we use a Neural-Tangent-Kerne l-based approach to derive the wide network limit of the gradient descent dynamics. In this limit, we identify two ensemble regimes - independent and collective - depending on the architecture and initialization strategy of ensemble models. We prove that in the independent regime the embedded ensemble behaves as an ensemble of independent models. We confirm our theoretical prediction with a wide range of experiments with finite networks, and further study empirically various effects such as transition between the two regimes, scaling of ensemble performance with the network width and number of models, and dependence of performance on a number of architecture and hyperparameter choices.
翻訳日:2022-02-25 16:18:08 公開日:2022-02-24
# 顔画像の記憶性制御

Controlling Memorability of Face Images ( http://arxiv.org/abs/2202.11896v1 )

ライセンス: Link先を確認
Mohammad Younesi, Yalda Mohsenzadeh(参考訳) 毎日、ソーシャルメディアでもテレビでもスマートフォンでも、顔の写真がたくさん撮られています。 進化的観点では、顔は、主に生存と個人の関連性のために記憶されることを意図している。 しかし、これらすべての顔は、私たちの心に同じ機会を持っていません。 記憶性は画像の本質的な特徴であることが示されたが、どの属性が画像をより記憶しやすくしているかは明らかになっていない。 本研究では,顔画像の記憶可能性の修正と制御を高速に行う手法を提案することで,この問題に対処することを目的とした。 提案手法では,StyleGANの潜伏空間に高精細画像と低精細画像の分離を行う超平面を初めて発見した。 次に、この超平面ノルマルベクトルの正あるいは負の方向に移動することにより、画像記憶性(アイデンティティや年齢、感情などの顔の特徴を維持しながら)を変化させた。 さらに,StyleGAN拡張潜伏空間の異なる層が顔の記憶にどう寄与するかを解析した。 これらの分析は、個々の顔属性が画像をどのように記憶可能かを示した。 また,提案手法を実画像と合成画像の両方に対して評価した。 提案手法は,人間の顔の記憶力や非現実的な合成顔の記憶力の修正と制御に成功している。 提案手法は,ソーシャルメディア,学習支援,広告目的での写真編集アプリケーションに適用することができる。

Everyday, we are bombarded with many photographs of faces, whether on social media, television, or smartphones. From an evolutionary perspective, faces are intended to be remembered, mainly due to survival and personal relevance. However, all these faces do not have the equal opportunity to stick in our minds. It has been shown that memorability is an intrinsic feature of an image but yet, it is largely unknown what attributes make an image more memorable. In this work, we aimed to address this question by proposing a fast approach to modify and control the memorability of face images. In our proposed method, we first found a hyperplane in the latent space of StyleGAN to separate high and low memorable images. We then modified the image memorability (while maintaining the identity and other facial features such as age, emotion, etc.) by moving in the positive or negative direction of this hyperplane normal vector. We further analyzed how different layers of the StyleGAN augmented latent space contribute to face memorability. These analyses showed how each individual face attribute makes an image more or less memorable. Most importantly, we evaluated our proposed method for both real and synthesized face images. The proposed method successfully modifies and controls the memorability of real human faces as well as unreal synthesized faces. Our proposed method can be employed in photograph editing applications for social media, learning aids, or advertisement purposes.
翻訳日:2022-02-25 16:17:28 公開日:2022-02-24
# トレーニング不要の自動スケーリングビジョントランス

Auto-scaling Vision Transformers without Training ( http://arxiv.org/abs/2202.11921v1 )

ライセンス: Link先を確認
Wuyang Chen, Wei Huang, Xianzhi Du, Xiaodan Song, Zhangyang Wang, Denny Zhou(参考訳) この作業は視覚変換器(ViT)の自動設計とスケーリングを目標としている。 動機は2つの痛点から来ています 1)vitの設計及びスケーリングのための効率的かつ原則的な方法の欠如 2) 畳み込みよりもはるかに重いViTを訓練する際の膨大な計算コスト。 これらの課題に対処するために、トレーニングなしでViTを自動スケーリングするフレームワークAs-ViTを提案する。 具体的には,トレーニングフリーな検索プロセスを用いて"シード"vitトポロジを設計した。 この極めて高速な探索は、ViTのネットワーク複雑性の包括的研究によって達成され、Kendall-Tau の強い相関と接地トラストの精度をもたらす。 次に、"シード"トポロジから、さまざまなViT層に幅/深さを拡大することで、ViTのスケーリングルールを自動化する。 これにより、単一の実行で異なるパラメータ数を持つ一連のアーキテクチャが実現される。 最後に,ViTsが早期トレーニングにおいて粗いトークン化を許容できるという観察に基づいて,ViTsを迅速かつ安価にトレーニングするためのプログレッシブトークン化戦略を提案する。 統一されたフレームワークとして、As-ViTは分類(ImageNet-1kで83.5%)と検出(COCOで52.7% mAP)において、VTアーキテクチャのマニュアル作成やスケーリングを行わず、強力なパフォーマンスを実現している。 私たちのコードはhttps://github.com/V ITA-Group/AsViT.comで利用可能です。

This work targets automated designing and scaling of Vision Transformers (ViTs). The motivation comes from two pain spots: 1) the lack of efficient and principled methods for designing and scaling ViTs; 2) the tremendous computational cost of training ViT that is much heavier than its convolution counterpart. To tackle these issues, we propose As-ViT, an auto-scaling framework for ViTs without training, which automatically discovers and scales up ViTs in an efficient and principled manner. Specifically, we first design a "seed" ViT topology by leveraging a training-free search process. This extremely fast search is fulfilled by a comprehensive study of ViT's network complexity, yielding a strong Kendall-tau correlation with ground-truth accuracies. Second, starting from the "seed" topology, we automate the scaling rule for ViTs by growing widths/depths to different ViT layers. This results in a series of architectures with different numbers of parameters in a single run. Finally, based on the observation that ViTs can tolerate coarse tokenization in early training stages, we propose a progressive tokenization strategy to train ViTs faster and cheaper. As a unified framework, As-ViT achieves strong performance on classification (83.5% top1 on ImageNet-1k) and detection (52.7% mAP on COCO) without any manual crafting nor scaling of ViT architectures: the end-to-end model design and scaling process cost only 12 hours on one V100 GPU. Our code is available at https://github.com/V ITA-Group/AsViT.
翻訳日:2022-02-25 16:14:58 公開日:2022-02-24
# M2I:因子的辺縁軌道予測から対話的予測へ

M2I: From Factored Marginal Trajectory Prediction to Interactive Prediction ( http://arxiv.org/abs/2202.11884v1 )

ライセンス: Link先を確認
Qiao Sun, Xin Huang, Junru Gu, Brian C. Williams, Hang Zhao(参考訳) 道路参加者の将来の動きを予測することは都市部における自律運転の重要な課題である。 既存のモデルは単一エージェントの限界軌道を予測するのに優れているが、複数のエージェントに対してシーン準拠の軌道を共同で予測することは未解決の問題である。 この課題は、エージェント数の関数としての予測空間が指数関数的に増加するためである。 本研究では,対話エージェント間の基礎となる関係を利用して,共同予測問題を限界予測問題に分解する。 提案手法であるm2iは,まず相互作用剤をインフルエンサーとリアクターのペアとして分類し,次に限界予測モデルと条件予測モデルを用いてインフルエンサーとリアクターの軌道予測を行う。 相互作用剤からの予測は結合可能性に応じて組み合わせて選択される。 実験の結果,waymo open motion dataset interactive prediction benchmarkにおいて,最先端のパフォーマンスを実現することができた。

Predicting future motions of road participants is an important task for driving autonomously in urban scenes. Existing models excel at predicting marginal trajectories for single agents, yet it remains an open question to jointly predict scene compliant trajectories over multiple agents. The challenge is due to exponentially increasing prediction space as a function of the number of agents. In this work, we exploit the underlying relations between interacting agents and decouple the joint prediction problem into marginal prediction problems. Our proposed approach M2I first classifies interacting agents as pairs of influencers and reactors, and then leverages a marginal prediction model and a conditional prediction model to predict trajectories for the influencers and reactors, respectively. The predictions from interacting agents are combined and selected according to their joint likelihoods. Experiments show that our simple but effective approach achieves state-of-the-art performance on the Waymo Open Motion Dataset interactive prediction benchmark.
翻訳日:2022-02-25 16:13:36 公開日:2022-02-24
# 第一に、トレーニングデータの影響は前より大きい

First is Better Than Last for Training Data Influence ( http://arxiv.org/abs/2202.11844v1 )

ライセンス: Link先を確認
Chih-Kuan Yeh, Ankur Taly, Mukund Sundararajan, Frederick Liu, Pradeep Ravikumar(参考訳) 影響力のあるトレーニング例を識別することで、トレーニングデータのデバッグとモデルの振る舞い説明が可能になります。 既存の手法はモデルパラメータによる影響の流れに基づいている。 NLPアプリケーションにおける大規模モデルの場合、このフローを全てのモデルパラメータを通して研究することは、しばしば計算不可能である。 最初の観察では、分類問題に対して最終層は簡約であり、十分な入力レベル情報をエンコードしていない。 この尺度によれば、影響のある例を削除することは、通常、モデルの振る舞いをあまり変えない。 そこで我々は,最後の層ではなく単語埋め込み層上で動作させるTracIn-WEという手法を提案する。 これは、ワード埋め込み層が十分な高レベル情報をエンコードしていないという、反対の懸念を持つ可能性がある。 しかし、勾配(埋め込みとは異なり)は、おそらくより高い層をチェーンするので、この問題に苦しむことはない。 3つの言語分類タスクにおけるケース削除評価において,tracin-weは最終層に適用される他のデータへの影響手法を4~10倍大きく上回っている。 さらに、tracin-weは、トレーニングデータレベルだけでなく、ワードトレーニングデータレベルでスコアを作成でき、デバッグをさらに支援します。

The ability to identify influential training examples enables us to debug training data and explain model behavior. Existing techniques are based on the flow of influence through the model parameters. For large models in NLP applications, it is often computationally infeasible to study this flow through all model parameters, therefore techniques usually pick the last layer of weights. Our first observation is that for classification problems, the last layer is reductive and does not encode sufficient input level information. Deleting influential examples, according to this measure, typically does not change the model's behavior much. We propose a technique called TracIn-WE that modifies a method called TracIn to operate on the word embedding layer instead of the last layer. This could potentially have the opposite concern, that the word embedding layer does not encode sufficient high level information. However, we find that gradients (unlike embeddings) do not suffer from this, possibly because they chain through higher layers. We show that TracIn-WE significantly outperforms other data influence methods applied on the last layer by 4-10 times on the case deletion evaluation on three language classification tasks. In addition, TracIn-WE can produce scores not just at the training data level, but at the word training data level, a further aid in debugging.
翻訳日:2022-02-25 16:13:18 公開日:2022-02-24
# スカイコンピューティング: フェデレートラーニングにおけるジオ分散コンピューティングの加速

Sky Computing: Accelerating Geo-distributed Computing in Federated Learning ( http://arxiv.org/abs/2202.11836v1 )

ライセンス: Link先を確認
Jie Zhu and Shenggui Li and Yang You(参考訳) フェデレーション学習は、ユーザーのデバイス上でローカルにトレーニングモデルを通じてデータのプライバシを保護するためにGoogleによって提案されている。 しかし、より優れた結果を得るために、ディープラーニングモデルのサイズが大きくなるにつれて、1つのデバイスでモデル全体を適合させることがますます困難になる。 したがって、モデル並列性はモデル重みを複数のデバイスに分割するために使われる。 この論理により、現在のアプローチはデバイス間で均等に重みを割り当てる。 しかし、実際には、異なるユーザのデバイスの異なる計算能力によって計算ボトルネックが発生する可能性がある。 この問題に対処するためには、装置の計算能力に基づいてモデルの重みを割り当てるロードバランシングが必要である。 本稿では,重みをデバイスに適応的に割り当てるロードバランスモデル並列化フレームワークであるSky Computingを提案する。 スカイコンピューティングは、64ノードの160層bertをトレーニングするときのトレーニング時間のベースラインメソッドを55%上回っている。 ソースコードはhttps://github.com/h pcaitech/skycomputin gにある。

Federated learning is proposed by Google to safeguard data privacy through training models locally on users' devices. However, with deep learning models growing in size to achieve better results, it becomes increasingly difficult to accommodate the whole model on one single device. Thus, model parallelism is then used to divide the model weights among several devices. With this logic, the approach currently used evenly allocates weights among devices. However, in reality, a computation bottleneck may occur resulting from variant computing power of different users' devices. To address this problem, load balancing is needed to allocate the model weights based on the computational capability of the device. In this paper, we proposed Sky Computing, a load-balanced model parallelism framework to adaptively allocate the weights to devices. Sky Computing outperforms the baseline method by 55% in training time when training 160-layer BERT with 64 nodes. The source code can be found at https://github.com/h pcaitech/SkyComputin g.
翻訳日:2022-02-25 16:12:58 公開日:2022-02-24
# (参考訳) DeepShovel:AI支援による地球科学文学におけるデータ抽出のためのオンラインコラボレーションプラットフォーム [全文訳有]

DeepShovel: An Online Collaborative Platform for Data Extraction in Geoscience Literature with AI Assistance ( http://arxiv.org/abs/2202.10163v2 )

ライセンス: CC BY 4.0
Shao Zhang, Yuting Jia, Hui Xu, Ying Wen, Dakuo Wang, Xinbing Wang(参考訳) 地科学者や多くの分野の研究者は、関連する結果やデータを検索、抽出、集約し、将来の研究を可能にするか、科学データベースを構築するために膨大な文献を読む必要があるが、このユースケースをうまくサポートする既存のシステムは存在していない。 本稿では,地質学者が文献を共同で注釈付けし,データを抽出・集約する方法に関する形式的研究の結果に基づき,そのニーズに対応するAI支援データ抽出システムであるDeepShovelを提案する。 DeepShovelは最先端のニューラルネットワークモデルを活用し、研究者(PDF形式で)が簡単に正確に論文を注釈付けし、人間とAIのコラボレーションで表や図、地図などからデータを抽出する。 14人の研究者によるフォローアップユーザ評価では、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善し、チームはより大きな規模でより密結合されたコラボレーションを構築するように促した。

Geoscientists, as well as researchers in many fields, need to read a huge amount of literature to locate, extract, and aggregate relevant results and data to enable future research or to build a scientific database, but there is no existing system to support this use case well. In this paper, based on the findings of a formative study about how geoscientists collaboratively annotate literature and extract and aggregate data, we proposed DeepShovel, a publicly-available AI-assisted data extraction system to support their needs. DeepShovel leverages the state-of-the-art neural network models to support researcher(s) easily and accurately annotate papers (in the PDF format) and extract data from tables, figures, maps, etc. in a human-AI collaboration manner. A follow-up user evaluation with 14 researchers suggested DeepShovel improved users' efficiency of data extraction for building scientific databases, and encouraged teams to form a larger scale but more tightly-coupled collaboration.
翻訳日:2022-02-25 13:14:11 公開日:2022-02-24
# (参考訳) インクリメンタル・インクリメンタルな分類のためのマルチ教師の知識蒸留 [全文訳有]

Multi-Teacher Knowledge Distillation for Incremental Implicitly-Refined Classification ( http://arxiv.org/abs/2202.11384v2 )

ライセンス: CC BY 4.0
Longhui Yu, Zhenyu Weng, Yuqing Wang, Yuesheng Zhu(参考訳) インクリメンタルラーニング手法は、最終モデル(教師モデル)から現在のモデル(生徒モデル)への知識を逐次学習プロセスで蒸留することにより、新しいクラスを継続的に学習することができる。 しかし、これらの手法はインクリメンタルな暗黙的洗練分類(iirc)では機能しない。これはインクリメンタルな学習拡張であり、入ってくるクラスは2つの粒度レベル(スーパークラスラベルとサブクラスラベル)を持つことができる。 これは、事前学習されたスーパークラス知識が順次学習されたサブクラス知識によって占有される可能性があるためである。 そこで本研究では,MTKD(Multi-Teacher Knowledge Distillation)戦略を提案する。 サブクラス知識を保存するために,教師としての最後のモデルを用いて,学生モデルの知識を蒸留する。 超クラス知識を保存するため、初期モデルが豊富な超クラス知識を含んでいるため、スーパークラス知識を蒸留するためにスーパークラス教師として初期モデルを使用する。 しかし、2つの教師モデルから知識を蒸留すると、生徒モデルが冗長な予測をする可能性がある。 さらに,冗長予測を減らすため,top-k予測制限と呼ばれる後処理機構を提案する。 irc-imagenet120 と iirc-cifar100 の実験結果から,本手法は既存の手法と比較して精度が向上した。

Incremental learning methods can learn new classes continually by distilling knowledge from the last model (as a teacher model) to the current model (as a student model) in the sequentially learning process. However, these methods cannot work for Incremental Implicitly-Refined Classification (IIRC), an incremental learning extension where the incoming classes could have two granularity levels, a superclass label and a subclass label. This is because the previously learned superclass knowledge may be occupied by the subclass knowledge learned sequentially. To solve this problem, we propose a novel Multi-Teacher Knowledge Distillation (MTKD) strategy. To preserve the subclass knowledge, we use the last model as a general teacher to distill the previous knowledge for the student model. To preserve the superclass knowledge, we use the initial model as a superclass teacher to distill the superclass knowledge as the initial model contains abundant superclass knowledge. However, distilling knowledge from two teacher models could result in the student model making some redundant predictions. We further propose a post-processing mechanism, called as Top-k prediction restriction to reduce the redundant predictions. Our experimental results on IIRC-ImageNet120 and IIRC-CIFAR100 show that the proposed method can achieve better classification accuracy compared with existing state-of-the-art methods.
翻訳日:2022-02-25 12:48:17 公開日:2022-02-24
# 空間的制約を考慮したLiDAR誘導ステレオマッチング

LiDAR-guided Stereo Matching with a Spatial Consistency Constraint ( http://arxiv.org/abs/2202.09953v2 )

ライセンス: Link先を確認
Yongjun Zhang, Siyuan Zou, Xinyi Liu, Xu Huang, Yi Wan, and Yongxiang Yao(参考訳) 光検出と測位(lidar)データと画像データの相補的な融合は、高精度かつ高密度な点雲を生成するための有望だが挑戦的なタスクである。 本研究では,画像の同種領域における連続的な不均一性や深さ変化に代表される空間的一貫性を考慮し,LiDAR誘導ステレオマッチング(LGSM)と呼ばれる革新的なLiDAR誘導ステレオマッチング手法を提案する。 LGSMはまず、その色や強度の類似性に基づいて、各LiDAR投影点の均一画素を検出する。 次に,LiDARプロジェクションポイントとその均一画素のコスト容積を最適化し,整合性を向上させるための河床拡張関数を提案する。 提案方式では,画像情報の誘導により,スパースライダー投影点の制約範囲を拡大し,画素のコスト体積を可能な限り最適化する。 シミュレーションデータと実データの両方に対して,lgsmをセミグローバルマッチングとアドコンサスに適用した。 シミュレーションデータセット中のLiDAR点の割合が0.16%であった場合,本手法のマッチング精度はサブピクセルレベルに達し,元のステレオマッチングアルゴリズムは3.4ピクセルであった。 実験の結果,LGSMは屋内,街路,航空,衛星画像のデータセットに適しており,半球体マッチングとAD-Census間での転送性が良好であることがわかった。 さらに, 定性的・定量的評価により, LGSMは2つの最先端最適化コストボリューム法よりも優れており, 特に難解なマッチング領域におけるミスマッチの低減とオブジェクトの境界の精細化に有効であることが示された。

The complementary fusion of light detection and ranging (LiDAR) data and image data is a promising but challenging task for generating high-precision and high-density point clouds. This study proposes an innovative LiDAR-guided stereo matching approach called LiDAR-guided stereo matching (LGSM), which considers the spatial consistency represented by continuous disparity or depth changes in the homogeneous region of an image. The LGSM first detects the homogeneous pixels of each LiDAR projection point based on their color or intensity similarity. Next, we propose a riverbed enhancement function to optimize the cost volume of the LiDAR projection points and their homogeneous pixels to improve the matching robustness. Our formulation expands the constraint scopes of sparse LiDAR projection points with the guidance of image information to optimize the cost volume of pixels as much as possible. We applied LGSM to semi-global matching and AD-Census on both simulated and real datasets. When the percentage of LiDAR points in the simulated datasets was 0.16%, the matching accuracy of our method achieved a subpixel level, while that of the original stereo matching algorithm was 3.4 pixels. The experimental results show that LGSM is suitable for indoor, street, aerial, and satellite image datasets and provides good transferability across semi-global matching and AD-Census. Furthermore, the qualitative and quantitative evaluations demonstrate that LGSM is superior to two state-of-the-art optimizing cost volume methods, especially in reducing mismatches in difficult matching areas and refining the boundaries of objects.
翻訳日:2022-02-25 12:34:43 公開日:2022-02-24
# リガンドフォーマー:ロバスト解釈による複合特性予測のためのグラフニューラルネットワーク

Ligandformer: A Graph Neural Network for Predicting Compound Property with Robust Interpretation ( http://arxiv.org/abs/2202.10873v3 )

ライセンス: Link先を確認
Jinjiang Guo, Qi Liu, Han Guo, Xi Lu(参考訳) QSAR法のロバストで効率的な解釈は、主観的意見(化学または生物学の専門知識)によるAI予測の合理性を検証し、洗練された化学または生物学的プロセス機構を理解し、医薬品産業における構造最適化のためのヒューリスティックなアイデアを提供するのに非常に有用である。 この目的のために,多層自己アテンションに基づくグラフニューラルネットワークフレームワーク,すなわちLigandformerを構築し,解釈による複合特性の予測を行う。 Ligandformerは、異なるネットワークブロックからの複合構造に対する注意マップを統合する。 統合注意マップは、複合構造に対する機械の局所的関心を反映し、予測された複合特性とその構造との関係を示す。 この研究は主に3つの側面に貢献する。 1. リガンドフォーマーは, 深層学習法のブラックボックスを直接開き, 化学構造に関する局所的予測的根拠を提供する。 2)Ligandformerは様々な実験ラウンドで頑健な予測を行い,ディープラーニング手法のユビキタスな予測不安定性を克服する。 3. リガンドフォーマは、高い性能で異なる化学的、生物学的性質を予測するために一般化することができる。 さらに、Ligandformerは特定の特性スコアと可視的注意マップを同時に出力することができ、研究者が化学的または生物学的性質を調査し、構造を効率的に最適化するのを支援することができる。 本フレームワークは, 精度, 堅牢性, 一般化の点で性能が優れており, 複雑なシステム研究に応用できる。

Robust and efficient interpretation of QSAR methods is quite useful to validate AI prediction rationales with subjective opinion (chemist or biologist expertise), understand sophisticated chemical or biological process mechanisms, and provide heuristic ideas for structure optimization in pharmaceutical industry. For this purpose, we construct a multi-layer self-attention based Graph Neural Network framework, namely Ligandformer, for predicting compound property with interpretation. Ligandformer integrates attention maps on compound structure from different network blocks. The integrated attention map reflects the machine's local interest on compound structure, and indicates the relationship between predicted compound property and its structure. This work mainly contributes to three aspects: 1. Ligandformer directly opens the black-box of deep learning methods, providing local prediction rationales on chemical structures. 2. Ligandformer gives robust prediction in different experimental rounds, overcoming the ubiquitous prediction instability of deep learning methods. 3. Ligandformer can be generalized to predict different chemical or biological properties with high performance. Furthermore, Ligandformer can simultaneously output specific property score and visible attention map on structure, which can support researchers to investigate chemical or biological property and optimize structure efficiently. Our framework outperforms over counterparts in terms of accuracy, robustness and generalization, and can be applied in complex system study.
翻訳日:2022-02-25 12:32:55 公開日:2022-02-24