このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220122となっている論文です。

PDF登録状況(公開日: 20220122)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) レベルセット法による2次元曲率計算のための誤差補正ニューラルネットワーク [全文訳有]

Error-Correcting Neural Networks for Two-Dimensional Curvature Computation in the Level-Set Method ( http://arxiv.org/abs/2201.12342v1 )

ライセンス: CC BY 4.0
Luis \'Angel Larios-C\'ardenas and Fr\'ed\'eric Gibou(参考訳) レベルセット法において2次元曲率を近似するための誤差ニューラルモデルに基づく戦略を提案する。 我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッドソルバ (Larios-C\'{a}rdenas and Gibou (2021)[1]) である。 特に,本手法では,曲率対称性の不変性を利用して精度と安定性を2倍に予測する。 [1] と同様に、この解法のコアは円形および正弦波界面サンプルで訓練された多層パーセプトロンである。 その役割は、数値曲率近似における誤差の定量化と、自由境界に沿った選択格子頂点に対する補正された推定を出力することである。 これらの補正は、事前処理されたコンテキストレベルセット、曲率、勾配データに対応する。 ニューラルキャパシティを促進するために,サンプルの負曲率正規化,再向き付け,リフレクションに基づく強化を行った。 同様に、我々のシステムは、アウトライジング効果を最小限に抑えるために、次元減少、バランスよく、正規化を取り入れている。 私たちのトレーニングアプローチも、メッシュサイズにわたってスケーラブルです。 この目的のために,データ生産中に無次元パラメトリゼーションと確率的サブサンプリングを導入した。 これらの要素は共に、未解決領域の曲率計算の精度と効率を改善した。 多くの実験において、我々の戦略は数値ベースラインの2倍の段数で性能を向上し、コストのごく一部しか必要としていない。

We present an error-neural-modelin g-based strategy for approximating two-dimensional curvature in the level-set method. Our main contribution is a redesigned hybrid solver (Larios-C\'{a}rdenas and Gibou (2021)[1]) that relies on numerical schemes to enable machine-learning operations on demand. In particular, our routine features double predicting to harness curvature symmetry invariance in favor of precision and stability. As in [1], the core of this solver is a multilayer perceptron trained on circular- and sinusoidal-interface samples. Its role is to quantify the error in numerical curvature approximations and emit corrected estimates for select grid vertices along the free boundary. These corrections arise in response to preprocessed context level-set, curvature, and gradient data. To promote neural capacity, we have adopted sample negative-curvature normalization, reorientation, and reflection-based augmentation. In the same manner, our system incorporates dimensionality reduction, well-balancedness, and regularization to minimize outlying effects. Our training approach is likewise scalable across mesh sizes. For this purpose, we have introduced dimensionless parametrization and probabilistic subsampling during data production. Together, all these elements have improved the accuracy and efficiency of curvature calculations around under-resolved regions. In most experiments, our strategy has outperformed the numerical baseline at twice the number of redistancing steps while requiring only a fraction of the cost.
翻訳日:2022-02-06 10:42:36 公開日:2022-01-22
# 多孔質シリコンアレイを用いた捕捉剤フリーバイオセンシングと機械学習

Capture Agent Free Biosensing using Porous Silicon Arrays and Machine Learning ( http://arxiv.org/abs/2201.11671v1 )

ライセンス: Link先を確認
Simon J. Ward, Tengfei Cao, Xiang Zhou, Catie Chang, Sharon M. Weiss(参考訳) バイオセンサーは医療診断、環境モニタリング、食品安全に不可欠なツールである。 通常、バイオセンサーは適切な捕捉剤で機能化することで特定の分析物質を検出するように設計されている。 しかし、捕捉剤の使用は同時に検出できる分析物の数を制限し、バイオセンサーの堅牢性を低下させる。 本研究では,多孔質シリコン(psi)薄膜の配列に基づいて,ナノスケール多孔質媒体の物理的・化学的特性に基づいて,多種多様なアナライトをロバストに検出する可能性を持つ多彩な多孔質シリコン(psi)薄膜を用いた多孔質捕捉剤フリーバイオセンサープラットフォームについて報告する。 このシステムが3つのタンパク質を再現的に分類、定量化、識別する能力は、孔径とバッファpHのユニークな組み合わせでPSi配列要素を用いて少なくとも0.02g/L(300nMと450nMの間)まで濃度を下げ、次元減少のために線形判別分析を行い、支持ベクトルマシンを分類器として用いることにより示される。 このアプローチは、低コストでシンプルで堅牢なバイオセンサープラットフォームへの大きな一歩であり、幅広い生体分子を検出することができる。

Biosensors are an essential tool for medical diagnostics, environmental monitoring and food safety. Typically, biosensors are designed to detect specific analytes through functionalization with the appropriate capture agents. However, the use of capture agents limits the number of analytes that can be simultaneously detected and reduces the robustness of the biosensor. In this work, we report a versatile, capture agent free biosensor platform based on an array of porous silicon (PSi) thin films, which has the potential to robustly detect a wide variety of analytes based on their physical and chemical properties in the nanoscale porous media. The ability of this system to reproducibly classify, quantify, and discriminate three proteins is demonstrated to concentrations down to at least 0.02g/L (between 300nM and 450nM) by utilizing PSi array elements with a unique combination of pore size and buffer pH, employing linear discriminant analysis for dimensionality reduction, and using support vector machines as a classifier. This approach represents a significant step towards a low cost, simple and robust biosensor platform that is able to detect a vast range of biomolecules.
翻訳日:2022-01-30 11:24:48 公開日:2022-01-22
# (参考訳) マルチスケールカプセルネットワークを用いたSAR画像変化検出 [全文訳有]

SAR Image Change Detection Based on Multiscale Capsule Network ( http://arxiv.org/abs/2201.08935v1 )

ライセンス: CC BY 4.0
Yunhao Gao, Feng Gao, Junyu Dong, Heng-Chao Li(参考訳) 畳み込みニューラルネットワーク(cnns)に基づく従来の合成開口レーダ画像変化検出手法はスペックルノイズや変形感度の課題に直面している。 これらの問題を緩和するため,我々は,変更画素と変更画素間の識別情報を抽出するマルチスケールカプセルネットワーク (ms-capsnet) を提案する。 一方,多スケールカプセルモジュールは,特徴の空間的関係を利用したものである。 したがって、同変特性は異なる位置から特徴を集約することで達成できる。 一方,提案するMs-CapsNetに対して,アダプティブ・フュージョン・コンボリューション(AFC)モジュールを設計する。 プライマリカプセルでは、より高い意味的特徴をキャプチャできる。 afcモジュールによって抽出された機能はスペックルノイズに対するロバスト性を大幅に改善する。 提案したMs-CapsNetの有効性は、3つの実SARデータセットで検証される。 4つの最先端手法との比較実験により,提案手法の有効性が示された。 私たちのコードはhttps://github.com/s ummitgao/SAR_CD_MS_C apsNetで利用可能です。

Traditional synthetic aperture radar image change detection methods based on convolutional neural networks (CNNs) face the challenges of speckle noise and deformation sensitivity. To mitigate these issues, we proposed a Multiscale Capsule Network (Ms-CapsNet) to extract the discriminative information between the changed and unchanged pixels. On the one hand, the multiscale capsule module is employed to exploit the spatial relationship of features. Therefore, equivariant properties can be achieved by aggregating the features from different positions. On the other hand, an adaptive fusion convolution (AFC) module is designed for the proposed Ms-CapsNet. Higher semantic features can be captured for the primary capsules. Feature extracted by the AFC module significantly improves the robustness to speckle noise. The effectiveness of the proposed Ms-CapsNet is verified on three real SAR datasets. The comparison experiments with four state-of-the-art methods demonstrate the efficiency of the proposed method. Our codes are available at https://github.com/s ummitgao/SAR_CD_MS_C apsNet .
翻訳日:2022-01-29 08:30:53 公開日:2022-01-22
# (参考訳) ハイパースペクトル画像分類のための適応型DropBlock拡張生成ネットワーク [全文訳有]

Adaptive DropBlock Enhanced Generative Adversarial Networks for Hyperspectral Image Classification ( http://arxiv.org/abs/2201.08938v1 )

ライセンス: CC BY 4.0
Junjie Wang, Feng Gao, Junyu Dong, Qian Du(参考訳) 近年,GAN(Generative Adversarial Network)に基づくハイパースペクトル画像(HSI)の分類は大きな進歩を遂げている。 GANに基づく分類法は、限られたトレーニングサンプルジレンマをある程度軽減することができる。 しかし、いくつかの研究は、既存のganベースのhsi分類法は、不均衡なトレーニングデータ問題の影響を強く受けていると指摘している。 ganの判別器は常に矛盾し、偽のラベルをマイノリティクラスのサンプルに関連付けようとするため、分類性能を損なう。 もうひとつの重要な問題は、GANベースのメソッドのモード崩壊である。 このジェネレータは、データ空間の狭い範囲でサンプルを生成できるだけであり、GANベースのHSI分類法の進歩を著しく妨げている。 本稿では,HSI分類のためのAdaptive DropBlock-enhanced Generative Adversarial Networks (ADGAN)を提案する。 まず、不均衡なトレーニングデータ問題を解決するために、識別器を単一分類器に調整し、それ自身は矛盾しない。 次に, 適応型DropBlock (AdapDrop) をジェネレータと識別器の正規化手法として提案し, モード崩壊問題を緩和する。 AdapDropは、固定サイズの領域の代わりに適応的な形状のドロップマスクを生成し、様々な形状のグラウンドオブジェクトを扱う際のDropBlockの制限を軽減する。 3つのHSIデータセットによる実験結果から,ADGANは最先端のGAN法よりも優れた性能を示した。 私たちのコードはhttps://github.com/s ummitgao/HC_ADGANで利用可能です。

In recent years, hyperspectral image (HSI) classification based on generative adversarial networks (GAN) has achieved great progress. GAN-based classification methods can mitigate the limited training sample dilemma to some extent. However, several studies have pointed out that existing GAN-based HSI classification methods are heavily affected by the imbalanced training data problem. The discriminator in GAN always contradicts itself and tries to associate fake labels to the minority-class samples, and thus impair the classification performance. Another critical issue is the mode collapse in GAN-based methods. The generator is only capable of producing samples within a narrow scope of the data space, which severely hinders the advancement of GAN-based HSI classification methods. In this paper, we proposed an Adaptive DropBlock-enhanced Generative Adversarial Networks (ADGAN) for HSI classification. First, to solve the imbalanced training data problem, we adjust the discriminator to be a single classifier, and it will not contradict itself. Second, an adaptive DropBlock (AdapDrop) is proposed as a regularization method employed in the generator and discriminator to alleviate the mode collapse issue. The AdapDrop generated drop masks with adaptive shapes instead of a fixed size region, and it alleviates the limitations of DropBlock in dealing with ground objects with various shapes. Experimental results on three HSI datasets demonstrated that the proposed ADGAN achieved superior performance over state-of-the-art GAN-based methods. Our codes are available at https://github.com/s ummitgao/HC_ADGAN
翻訳日:2022-01-29 08:22:47 公開日:2022-01-22
# (参考訳) 適応的RGBT追跡のための時間的集約 [全文訳有]

Temporal Aggregation for Adaptive RGBT Tracking ( http://arxiv.org/abs/2201.08949v1 )

ライセンス: CC BY 4.0
Zhangyong Tang, Tianyang Xu, and Xiao-Jun Wu(参考訳) RGBと熱赤外(TIR)スペクトルが利用可能で、RGBTトラッキングで短縮されているビジュアルオブジェクトトラッキングは、近年注目を集めている、新しくて挑戦的な研究トピックである。 本稿では,ロバストな出現モデル学習を考慮した時空間的手がかりを考慮したrgbtトラッカを提案し,同時にクロスモーダルインタラクションのための適応型融合サブネットワークを構築する。 空間情報のみを含むオブジェクト追跡タスクを実装する既存のrgbtトラッカと異なり、この手法では時間情報も考慮される。 Specifically, different from traditional Siamese trackers, which only obtain one search image during the process of picking up template-search image pairs, an extra search sample adjacent to the original one is selected to predict the temporal transformation, resulting in improved robustness of tracking performance.As for multi-modal tracking, constrained to the limited RGBT datasets, the adaptive fusion sub-network is appended to our method at the decision level to reflect the complementary characteristics contained in two modalities. 熱赤外補助RGBトラッカーの設計には、RGBモダリティからの残差接続前に、TIRモダリティからの分類ヘッドの出力を考慮する。 VOT-RGBT2019, GTOT, RGBT210という3つの挑戦的データセットの大規模な実験結果から, 本手法の有効性が検証された。 コードは \textcolor{blue}{\emph{https://github.com/Z hangyong-Tang/TAAT}} で共有される。

Visual object tracking with RGB and thermal infrared (TIR) spectra available, shorted in RGBT tracking, is a novel and challenging research topic which draws increasing attention nowadays. In this paper, we propose an RGBT tracker which takes spatio-temporal clues into account for robust appearance model learning, and simultaneously, constructs an adaptive fusion sub-network for cross-modal interactions. Unlike most existing RGBT trackers that implement object tracking tasks with only spatial information included, temporal information is further considered in this method. Specifically, different from traditional Siamese trackers, which only obtain one search image during the process of picking up template-search image pairs, an extra search sample adjacent to the original one is selected to predict the temporal transformation, resulting in improved robustness of tracking performance.As for multi-modal tracking, constrained to the limited RGBT datasets, the adaptive fusion sub-network is appended to our method at the decision level to reflect the complementary characteristics contained in two modalities. To design a thermal infrared assisted RGB tracker, the outputs of the classification head from the TIR modality are taken into consideration before the residual connection from the RGB modality. Extensive experimental results on three challenging datasets, i.e. VOT-RGBT2019, GTOT and RGBT210, verify the effectiveness of our method. Code will be shared at \textcolor{blue}{\emph{https://github.com/Z hangyong-Tang/TAAT}}.
翻訳日:2022-01-29 07:42:16 公開日:2022-01-22
# (参考訳) オープンワールドにおける物理推論 [全文訳有]

Physical Reasoning in an Open World ( http://arxiv.org/abs/2201.08950v1 )

ライセンス: CC BY-SA 4.0
Zhuoran Zeng and Ernest Davis(参考訳) 人工知能と認知科学の両方において、身体的推論に関するほとんどの研究は、クローズドワールド推論に焦点を当てており、問題仕様は関連するすべてのオブジェクトと物質、初期状況におけるそれらの関係、および全ての外因性事象を規定していると仮定されている。 しかし、多くの場合、オープンワールドの推論、すなわち、非常に不完全な情報から妥当な結論を出すことが重要である。 私たちはPrologで、コンテナのロード、アンロード、シール、アンシール、輸送、廃棄が可能な、おもちゃのマイクロワールドのオープンワールド理化器を実装しました。

Most work on physical reasoning, both in artificial intelligence and in cognitive science, has focused on closed-world reasoning, in which it is assumed that the problem specification specifies all relevant objects and substance, all their relations in an initial situation, and all exogenous events. However, in many situations, it is important to do open-world reasoning; that is, making valid conclusions from very incomplete information. We have implemented in Prolog an open-world reasoner for a toy microworld of containers that can be loaded, unloaded, sealed, unsealed, carried, and dumped.
翻訳日:2022-01-28 11:41:47 公開日:2022-01-22
# (参考訳) 低ラベル高データレジームのための自己監視型視覚表現学習 [全文訳有]

Visual Representation Learning with Self-Supervised Attention for Low-Label High-data Regime ( http://arxiv.org/abs/2201.08951v1 )

ライセンス: CC BY 4.0
Prarthana Bhattacharyya, Chenge Li, Xiaonan Zhao, Istv\'an Feh\'erv\'ari and Jason Sun(参考訳) 自己スーパービジョンは自然言語処理、最近では画像認識において優れた結果を示している。 同時に、ビジョントランスフォーマーとその変種は、様々なコンピュータビジョンタスクの畳み込みに代わる有望でスケーラブルな代替品として登場した。 本稿では,少ショット画像分類とゼロショット画像検索の2つの重要なコンピュータビジョンタスクに対して,自己監督型ビジョントランスフォーマー(SSL-ViT)を適用できるかどうかを疑問視する。 その動機は、視覚的な埋め込みの訓練に必要な手動アノテーションの数を減らし、一般化可能で意味があり、堅牢な埋め込みを生成することである。 数ショットのイメージ分類では、SSL-ViTを外部データに監視せずにトレーニングし、このトレーニング済み埋め込みを使用して、ラベル数が限られている新しいクラスに迅速に適応します。 ゼロショット画像検索では、ラベルのない大きなデータセットで事前トレーニングされたssl-vitsを使用して、いくつかのメトリック学習目的を微調整する。 私たちの自己監督型アテンション表現は、両方のタスクに対するいくつかの公開ベンチマーク、例えば、スクリーンショット画像分類のための miniImageNet と CUB200 、ゼロショット画像検索のための Stanford Online Products, Cars196 と CUB200 を 4%-11% 上回っている。 コードは \url{https://github.com/a utovision-cloud/ssl- vit-lowlabel-highdat a} で入手できる。

Self-supervision has shown outstanding results for natural language processing, and more recently, for image recognition. Simultaneously, vision transformers and its variants have emerged as a promising and scalable alternative to convolutions on various computer vision tasks. In this paper, we are the first to question if self-supervised vision transformers (SSL-ViTs) can be adapted to two important computer vision tasks in the low-label, high-data regime: few-shot image classification and zero-shot image retrieval. The motivation is to reduce the number of manual annotations required to train a visual embedder, and to produce generalizable, semantically meaningful and robust embeddings. For few-shot image classification we train SSL-ViTs without any supervision, on external data, and use this trained embedder to adapt quickly to novel classes with limited number of labels. For zero-shot image retrieval, we use SSL-ViTs pre-trained on a large dataset without any labels and fine-tune them with several metric learning objectives. Our self-supervised attention representations outperforms the state-of-the-art on several public benchmarks for both tasks, namely miniImageNet and CUB200 for few-shot image classification by up-to 6%-10%, and Stanford Online Products, Cars196 and CUB200 for zero-shot image retrieval by up-to 4%-11%. Code is available at \url{https://github.com/A utoVision-cloud/SSL- ViT-lowlabel-highdat a}.
翻訳日:2022-01-28 11:29:07 公開日:2022-01-22
# (参考訳) グラフベース知識補充ネットワークを用いた合成開口レーダ画像からの変化検出 [全文訳有]

Change Detection from Synthetic Aperture Radar Images via Graph-Based Knowledge Supplement Network ( http://arxiv.org/abs/2201.08954v1 )

ライセンス: CC BY 4.0
Junjie Wang, Feng Gao, Junyu Dong, Shan Zhang, Qian Du(参考訳) 合成開口レーダ(SAR)画像変化検出はリモートセンシング画像解析の分野では不可欠だが困難な課題である。 これまでのほとんどの作品では、疑似ラベルサンプルを使用してその後のトレーニングとテストのガイドを行うセルフ教師付きメソッドが採用されている。 しかし、ディープネットワークはパラメータ最適化のために多くの高品質なサンプルを必要とする。 擬似ラベルのノイズは、最終変更検出性能に必然的に影響を及ぼす。 そこで我々は,グラフベースの知識補足ネットワーク(GKSNet)を提案する。 より具体的には、既存のラベル付きデータセットから識別情報を追加知識として抽出し、ノイズサンプルの悪影響をある程度抑制する。 その後,ラベル付きデータセットから対象データセットへのコンテキスト情報を注意深く抽出するグラフ転送モジュールを設計し,データセット間の特徴相関を橋渡しする。 提案手法の有効性を検証するため,提案手法は4つのSARデータセットに対して広範な実験を行った。 私たちのコードはhttps://github.com/s ummitgao/sar_cd_gksn etで利用可能です。

Synthetic aperture radar (SAR) image change detection is a vital yet challenging task in the field of remote sensing image analysis. Most previous works adopt a self-supervised method which uses pseudo-labeled samples to guide subsequent training and testing. However, deep networks commonly require many high-quality samples for parameter optimization. The noise in pseudo-labels inevitably affects the final change detection performance. To solve the problem, we propose a Graph-based Knowledge Supplement Network (GKSNet). To be more specific, we extract discriminative information from the existing labeled dataset as additional knowledge, to suppress the adverse effects of noisy samples to some extent. Afterwards, we design a graph transfer module to distill contextual information attentively from the labeled dataset to the target dataset, which bridges feature correlation between datasets. To validate the proposed method, we conducted extensive experiments on four SAR datasets, which demonstrated the superiority of the proposed GKSNet as compared to several state-of-the-art baselines. Our codes are available at https://github.com/s ummitgao/SAR_CD_GKSN et.
翻訳日:2022-01-28 11:15:30 公開日:2022-01-22
# (参考訳) モダリティバンク:医療データを共有せずにデータセンター間でマルチモダリティ画像を学ぶ [全文訳有]

Modality Bank: Learn multi-modality images across data centers without sharing medical data ( http://arxiv.org/abs/2201.08955v1 )

ライセンス: CC BY 4.0
Qi Chang, Hui Qu, Zhennan Yan, Yunhe Gao, Lohendran Baskaran and Dimitris Metaxas(参考訳) マルチモダリティ画像は広く使われており、医用画像分析に包括的な情報を提供している。 しかし, 臨床現場では, 全施設間のモダリティの獲得は費用がかかり, しばしば不可能となる。 本稿では,より包括的なマルチモダリティ情報を活用するために,プライバシ保護型分散マルチモダリティ適応学習アーキテクチャmodalitybankを提案する。 提案手法は,共通のドメインに依存しないネットワークに挿入された効果的なドメイン固有変調パラメータの集合を学習できる。 異なる構成のセットを切り替えることで、特定のモードで高品質な画像を出力できることを示した。 また,本手法は,全データセンタの欠落したモーダリティを補完するので,モーダリティ補完に使用できる。 合成したマルチモダリティサンプルからトレーニングしたダウンストリームタスクは、1つのデータセンターから学習するよりも高いパフォーマンスを達成でき、実際のすべての画像と比較できる。

Multi-modality images have been widely used and provide comprehensive information for medical image analysis. However, acquiring all modalities among all institutes is costly and often impossible in clinical settings. To leverage more comprehensive multi-modality information, we propose a privacy secured decentralized multi-modality adaptive learning architecture named ModalityBank. Our method could learn a set of effective domain-specific modulation parameters plugged into a common domain-agnostic network. We demonstrate by switching different sets of configurations, the generator could output high-quality images for a specific modality. Our method could also complete the missing modalities across all data centers, thus could be used for modality completion purposes. The downstream task trained from the synthesized multi-modality samples could achieve higher performance than learning from one real data center and achieve close-to-real performance compare with all real images.
翻訳日:2022-01-28 10:51:58 公開日:2022-01-22
# (参考訳) SPD行列の協調表現と画像セット分類への応用 [全文訳有]

Collaborative Representation for SPD Matrices with Application to Image-Set Classification ( http://arxiv.org/abs/2201.08962v1 )

ライセンス: CC BY 4.0
Li Chu, Rui Wang, and Xiao-Jun Wu(参考訳) 協調表現に基づく分類(CRC)は、その閉形式解析解によりここ数年で顕著に進歩している。 しかし,既存のCRC法では非線形変動情報を直接処理できない。 近年,これらの非線形変動情報を効果的にモデル化し,不変表現を学習する方法が,コンピュータビジョンとパターン認識のコミュニティにおいてオープンな課題であることを示すため,この問題に対処するための新しいアルゴリズムの設計を試みる。 まず、第2次統計、すなわち共分散行列を用いて元の画像集合をモデル化する。 非特異共分散行列の集合によって形成される空間はよく知られた対称正定値(SPD)多様体であるため、SPD多様体へのユークリッド共役表現を一般化するのは容易な作業ではない。 そして、この問題に対処する2つの戦略を考案する。 spd多様体値データ表現を行列対数写像を介して関連する接空間に埋め込もうとする試みがある。 もうひとつは、リーマン核関数を利用して、それらを再生ケルネルヒルベルト空間(RKHS)に埋め込むことである。 これら2つの処理の後、CRCはSPD多様体値の特徴に適用できる。 4つのバンチマークデータセットの評価は、その効果を正当化する。

Collaborative representation-based classification (CRC) has demonstrated remarkable progress in the past few years because of its closed-form analytical solutions. However, the existing CRC methods are incapable of processing the nonlinear variational information directly. Recent advances illustrate that how to effectively model these nonlinear variational information and learn invariant representations is an open challenge in the community of computer vision and pattern recognition To this end, we try to design a new algorithm to handle this problem. Firstly, the second-order statistic, i.e., covariance matrix is applied to model the original image sets. Due to the space formed by a set of nonsingular covariance matrices is a well-known Symmetric Positive Definite (SPD) manifold, generalising the Euclidean collaborative representation to the SPD manifold is not an easy task. Then, we devise two strategies to cope with this issue. One attempts to embed the SPD manifold-valued data representations into an associated tangent space via the matrix logarithm map. Another is to embed them into a Reproducing Kernel Hilbert Space (RKHS) by utilizing the Riemannian kernel function. After these two treatments, CRC is applicable to the SPD manifold-valued features. The evaluations on four banchmarking datasets justify its effectiveness.
翻訳日:2022-01-28 10:39:19 公開日:2022-01-22
# (参考訳) 逆手続き Fa\c{c}ade モデリングのための修正ウィンドウ構造の半教師付き逆数認識 [全文訳有]

Semi-Supervised Adversarial Recognition of Refined Window Structures for Inverse Procedural Fa\c{c}ade Modeling ( http://arxiv.org/abs/2201.08977v1 )

ライセンス: CC BY 4.0
Han Hu, Xinrong Liang, Yulin Ding, Qisen Shang, Bo Xu, Xuming Ge, Min Chen, Ruofei Zhong, Qing Zhu(参考訳) 深層学習法は、大量のラベル付きサンプルを必要とするデータ不足で有名である。 残念なことに、多くのインタラクティブなサンプルラベリングは、深層学習法、特に異種サンプルを必要とする3次元モデリングタスクの適用を劇的に妨げている。 本稿では,fa\c{c}adesの学習3次元モデリングにおけるデータアノテーションの作業を軽減するために,逆手続きモデルに組み込んだ半教師付き対角認識戦略を提案する。 テクスチャ化されたLOD-2(Level-of-Detai ls)モデルから始めると、従来の畳み込みニューラルネットワークを用いて型を認識し、画像パッチからウィンドウのパラメータを推定する。 ウィンドウタイプとパラメータは、手続き文法に組み立てられる。 既存の3dモデリングソフトウェアの中に単純なプロシージャエンジンが組み込まれ、きめ細かいウィンドウジオメトリを生成する。 いくつかのラベル付きサンプルから有用なモデルを得るため、生成型逆ネットワークを利用して半教師付きで特徴抽出器を訓練する。 敵のトレーニング戦略は、ラベルのないデータを利用してトレーニングフェーズをより安定させることもできる。 公開されているfa\c{c}ade画像データセットを用いた実験により,同一ネットワーク構造下での分類精度が約10%向上し,パラメータ推定が50%向上することが判明した。 さらに、異なるfa\c{c}adeスタイルの未確認データに対するテストでは、パフォーマンスの向上がより顕著になる。

Deep learning methods are notoriously data-hungry, which requires a large number of labeled samples. Unfortunately, the large amount of interactive sample labeling efforts has dramatically hindered the application of deep learning methods, especially for 3D modeling tasks, which require heterogeneous samples. To alleviate the work of data annotation for learned 3D modeling of fa\c{c}ades, this paper proposed a semi-supervised adversarial recognition strategy embedded in inverse procedural modeling. Beginning with textured LOD-2 (Level-of-Details) models, we use the classical convolutional neural networks to recognize the types and estimate the parameters of windows from image patches. The window types and parameters are then assembled into procedural grammar. A simple procedural engine is built inside an existing 3D modeling software, producing fine-grained window geometries. To obtain a useful model from a few labeled samples, we leverage the generative adversarial network to train the feature extractor in a semi-supervised manner. The adversarial training strategy can also exploit unlabeled data to make the training phase more stable. Experiments using publicly available fa\c{c}ade image datasets reveal that the proposed training strategy can obtain about 10% improvement in classification accuracy and 50% improvement in parameter estimation under the same network structure. In addition, performance gains are more pronounced when testing against unseen data featuring different fa\c{c}ade styles.
翻訳日:2022-01-28 10:25:01 公開日:2022-01-22
# (参考訳) bba-net: 群衆カウントのためのバイブランチアテンションネットワーク [全文訳有]

BBA-net: A bi-branch attention network for crowd counting ( http://arxiv.org/abs/2201.08983v1 )

ライセンス: CC BY 4.0
Yi Hou, Chengyang Li, Fan Yang, Cong Ma, Liping Zhu, Yuan Li, Huizhu Jia, Xiaodong Xie(参考訳) 群衆カウントの分野では、現在の主流のcnnベースの回帰手法は、歩行者の密度情報を個々の人物の位置を見出すことなく抽出する。 これにより、ネットワークの出力は誤った応答を含むことがしばしば見出され、これはアルゴリズムの解釈に反し、誤って総数を推定する可能性がある。 そこで本研究では,3つのイノベーションポイントを持つ群衆カウントのためのバイブランチアテンションネットワーク(bba-net)を提案する。 一 密度情報及び位置情報を別々に推定するために二分岐アーキテクチャを用いる。 二 注意機構は、誤応答を低減できる特徴抽出を容易にするために用いられる。 三 幾何学的適応とボロノイ分割を組み合わせた新しい密度写像生成法を導入すること。 本手法は,歩行者の頭部と身体の情報を統合し,密度マップの特徴表現能力を向上させる。 2つの公開データセットで行った大規模な実験により,本手法は,他の最先端手法と比較して,群集カウント誤差が低いことを示す。

In the field of crowd counting, the current mainstream CNN-based regression methods simply extract the density information of pedestrians without finding the position of each person. This makes the output of the network often found to contain incorrect responses, which may erroneously estimate the total number and not conducive to the interpretation of the algorithm. To this end, we propose a Bi-Branch Attention Network (BBA-NET) for crowd counting, which has three innovation points. i) A two-branch architecture is used to estimate the density information and location information separately. ii) Attention mechanism is used to facilitate feature extraction, which can reduce false responses. iii) A new density map generation method combining geometric adaptation and Voronoi split is introduced. Our method can integrate the pedestrian's head and body information to enhance the feature expression ability of the density map. Extensive experiments performed on two public datasets show that our method achieves a lower crowd counting error compared to other state-of-the-art methods.
翻訳日:2022-01-28 09:53:03 公開日:2022-01-22
# (参考訳) 合成データによる群衆数の増加と分別 [全文訳有]

Enhancing and Dissecting Crowd Counting By Synthetic Data ( http://arxiv.org/abs/2201.08992v1 )

ライセンス: CC BY 4.0
Yi Hou, Chengyang Li, Yuheng Lu, Liping Zhu, Yuan Li, Huizhu Jia, Xiaodong Xie(参考訳) 本稿では,大規模かつ高精度なラベリング,パラメータ化実現,高忠実度を有する群集計数データセット crowdx を提案する。 このデータセットをデータエンハンスメントとして使用する実験結果から,提案手法を合理化し,効率的なベンチマークネットワークであるesa-netの性能を8.4\%向上できることがわかった。 他の2つの古典的ヘテロジニアスアーキテクチャ MCNN と CSRNet が CrowdX で事前訓練された。 多くの影響要因を考慮して、背景、カメラアングル、人間密度、解像度などの性能を決定する。 これらの要因は重要であるが、群衆数にどのように影響するかに関する研究が不足している。 リッチなアノテーション情報を持つcrowdxデータセットのおかげで,これらの要因を分析するために,データ駆動比較実験を多数実施する。 本研究は,群集計数問題のより深い理解のためのリファレンスを提供し,アルゴリズムの実際の展開において有用な提案を提示する。

In this article, we propose a simulated crowd counting dataset CrowdX, which has a large scale, accurate labeling, parameterized realization, and high fidelity. The experimental results of using this dataset as data enhancement show that the performance of the proposed streamlined and efficient benchmark network ESA-Net can be improved by 8.4\%. The other two classic heterogeneous architectures MCNN and CSRNet pre-trained on CrowdX also show significant performance improvements. Considering many influencing factors determine performance, such as background, camera angle, human density, and resolution. Although these factors are important, there is still a lack of research on how they affect crowd counting. Thanks to the CrowdX dataset with rich annotation information, we conduct a large number of data-driven comparative experiments to analyze these factors. Our research provides a reference for a deeper understanding of the crowd counting problem and puts forward some useful suggestions in the actual deployment of the algorithm.
翻訳日:2022-01-28 09:43:49 公開日:2022-01-22
# (参考訳) 低照度画像強調のためのリニアアレイネットワーク [全文訳有]

Linear Array Network for Low-light Image Enhancement ( http://arxiv.org/abs/2201.08996v1 )

ライセンス: CC BY 4.0
Keqi Wang and Ziteng Cui and Ge Wu and Yin Zhuang and Yuhua Qian(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく手法は、その優れた性能のために低照度画像強調タスクを支配している。 しかし、畳み込み操作は、機能マップの長距離依存性を構築するのが難しい局所的なスライディングウィンドウ機構に基づいている。 一方,自己認識に基づくグローバルな関係集約手法はコンピュータビジョンにおいて広く用いられているが,計算複雑性が高いため,高解像度画像の処理は困難である。 そこで本研究では,2次元特徴符号化のみを用いて3次元大域重みを合成し,畳み込み層によって生成された特徴写像を改良するLinear Array Self-attention (LASA)機構を提案する。 LASAをベースとしたLinear Array Network(LAN)は,RGBおよびRAWをベースとした低照度化タスクにおいて,既存のSOTA法よりも優れた手法である。 コードは \url{https://github.com/c uiziteng/LASA_enhanc ement} でリリースされる。

Convolution neural networks (CNNs) based methods have dominated the low-light image enhancement tasks due to their outstanding performance. However, the convolution operation is based on a local sliding window mechanism, which is difficult to construct the long-range dependencies of the feature maps. Meanwhile, the self-attention based global relationship aggregation methods have been widely used in computer vision, but these methods are difficult to handle high-resolution images because of the high computational complexity. To solve this problem, this paper proposes a Linear Array Self-attention (LASA) mechanism, which uses only two 2-D feature encodings to construct 3-D global weights and then refines feature maps generated by convolution layers. Based on LASA, Linear Array Network (LAN) is proposed, which is superior to the existing state-of-the-art (SOTA) methods in both RGB and RAW based low-light enhancement tasks with a smaller amount of parameters. The code is released in \url{https://github.com/c uiziteng/LASA_enhanc ement}.
翻訳日:2022-01-28 09:33:54 公開日:2022-01-22
# (参考訳) leaf: マルチチョイス質問生成 [全文訳有]

Leaf: Multiple-Choice Question Generation ( http://arxiv.org/abs/2201.09012v1 )

ライセンス: CC BY 4.0
Kristiyan Vachev, Momchil Hardalov, Georgi Karadzhov, Georgi Georgiev, Ivan Koychev, Preslav Nakov(参考訳) クイズ問題を用いたテストは、教育プロセスの評価と改善に有効な方法であることが証明されている。 しかし、手動でクイズを作るのは面倒で時間がかかる。 この課題に対処するために,実テキストから複数の質問を生成するシステムであるLeafを提案する。 教室に非常に適していることに加えて、Leafは工業的にも利用でき、例えば、オンボーディングや知識共有を容易にしたり、チャットボット、質問応答システム、MOOC(Massive Open Online Courses)などのコンポーネントとして利用することができる。 コードとデモはhttps://github.com/K ristiyanVachev/Leaf- Question-Generationで公開されている。

Testing with quiz questions has proven to be an effective way to assess and improve the educational process. However, manually creating quizzes is tedious and time-consuming. To address this challenge, we present Leaf, a system for generating multiple-choice questions from factual text. In addition to being very well suited for the classroom, Leaf could also be used in an industrial setting, e.g., to facilitate onboarding and knowledge sharing, or as a component of chatbots, question answering systems, or Massive Open Online Courses (MOOCs). The code and the demo are available on https://github.com/K ristiyanVachev/Leaf- Question-Generation.
翻訳日:2022-01-28 09:22:32 公開日:2022-01-22
# (参考訳) ビュー合成のためのコンテンツアウェアワーピング [全文訳有]

Content-aware Warping for View Synthesis ( http://arxiv.org/abs/2201.09023v1 )

ライセンス: CC BY 4.0
Mantang Guo, Jing Jin, Hui Liu, Junhui Hou, Huanqiang Zeng, Jiwen Lu(参考訳) 既存の画像ベースのレンダリング手法は通常、新しいビューを合成するために深度ベースの画像ワープ操作を採用する。 本稿では, 従来の整流操作の限界を, 距離に基づく補間重みのみで, 限定的な近傍と推定する。 そこで本研究では,比較的大きな近傍の画素の補間重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。 この学習可能なワープモジュールに基づいて、2つの入力元ビューからの新しいビュー合成のための新しいエンドツーエンドの学習ベースフレームワークを提案する。これは、信頼に基づくブレンディングと特徴的空間改善という2つの追加モジュールを自然に提案し、その閉塞問題に対処し、合成されたビューの画素間の空間的相関をキャプチャする。 また,ネットワークを正規化するための減量損失項も提案する。 広いベースラインと非構造化マルチビューデータセットを持つ構造化光フィールドデータセットの実験結果は、提案手法が定量的および視覚的に最先端の手法を大幅に上回っていることを示している。 ソースコードはhttps://github.com/M antangGuo/CW4VSで公開されている。

Existing image-based rendering methods usually adopt depth-based image warping operation to synthesize novel views. In this paper, we reason the essential limitations of the traditional warping operation to be the limited neighborhood and only distance-based interpolation weights. To this end, we propose content-aware warping, which adaptively learns the interpolation weights for pixels of a relatively large neighborhood from their contextual information via a lightweight neural network. Based on this learnable warping module, we propose a new end-to-end learning-based framework for novel view synthesis from two input source views, in which two additional modules, namely confidence-based blending and feature-assistant spatial refinement, are naturally proposed to handle the occlusion issue and capture the spatial correlation among pixels of the synthesized view, respectively. Besides, we also propose a weight-smoothness loss term to regularize the network. Experimental results on structured light field datasets with wide baselines and unstructured multi-view datasets show that the proposed method significantly outperforms state-of-the-art methods both quantitatively and visually. The source code will be publicly available at https://github.com/M antangGuo/CW4VS.
翻訳日:2022-01-28 09:13:39 公開日:2022-01-22
# (参考訳) 低ランクガウス混合系の最適推定と計算限界

Optimal Estimation and Computational Limit of Low-rank Gaussian Mixtures ( http://arxiv.org/abs/2201.09040v1 )

ライセンス: CC BY 4.0
Zhongyuan Lyu and Dong Xia(参考訳) 構造行列-変量観測は、多層ネットワーク分析や脳画像クラスタリングといった様々な分野で頻繁に発生する。 このタイプのデータは実りある結果がもたらされる形で広範囲に調査されてきたが、統計的最適性や計算限界といった基本的な問題はほとんど未検討である。 本稿では,各行列値観測が低ランク構造を有することを前提として,低ランクガウス混合モデル(LrMM)を提案する。 下位の低ランク行列を推定するための最小限の下位境界が確立され、サンプルサイズと信号強度の全範囲が可能である。 情報理論的な極限や統計的極限と呼ばれる信号強度の最小条件の下では、一般に計算不可能である最大確率推定器の最小最適性が証明される。 信号が一定のしきい値(計算限界)よりも強い場合、スペクトル集約に基づく計算速度の速い推定器を設計し、そのミニマックス最適性を示す。 さらに, 信号強度が計算限界より小さい場合, 多項式時間アルゴリズムが基礎となる低次行列を一貫して復元できないことを示すために, 低次確率比フレームワークに基づくエビデンスを提供する。 その結果,minimaxエラー率と統計-計算間ギャップに複数の位相遷移が認められた。 数値実験により理論的な結果が確認された。 さらに,世界の食品取引データセットにおけるスペクトル集約法の有用性について述べる。

Structural matrix-variate observations routinely arise in diverse fields such as multi-layer network analysis and brain image clustering. While data of this type have been extensively investigated with fruitful outcomes being delivered, the fundamental questions like its statistical optimality and computational limit are largely under-explored. In this paper, we propose a low-rank Gaussian mixture model (LrMM) assuming each matrix-valued observation has a planted low-rank structure. Minimax lower bounds for estimating the underlying low-rank matrix are established allowing a whole range of sample sizes and signal strength. Under a minimal condition on signal strength, referred to as the information-theoreti cal limit or statistical limit, we prove the minimax optimality of a maximum likelihood estimator which, in general, is computationally infeasible. If the signal is stronger than a certain threshold, called the computational limit, we design a computationally fast estimator based on spectral aggregation and demonstrate its minimax optimality. Moreover, when the signal strength is smaller than the computational limit, we provide evidences based on the low-degree likelihood ratio framework to claim that no polynomial-time algorithm can consistently recover the underlying low-rank matrix. Our results reveal multiple phase transitions in the minimax error rates and the statistical-to-compu tational gap. Numerical experiments confirm our theoretical findings. We further showcase the merit of our spectral aggregation method on the worldwide food trading dataset.
翻訳日:2022-01-28 08:47:33 公開日:2022-01-22
# (参考訳) 病理組織像におけるsemantic domain adversarial [全文訳有]

Inter-Semantic Domain Adversarial in Histopathological Images ( http://arxiv.org/abs/2201.09041v1 )

ライセンス: CC BY 4.0
Nicolas Dumas, Valentin Derang\`ere, Laurent Arnould, Sylvain Ladoire, Louis-Oscar Morel, Nathan Vin\c{c}on(参考訳) コンピュータビジョンでは、データシフトは安全で堅牢なディープラーニングアプリケーションにとって大きな障壁であることが証明されている。 医学的応用では、病理組織像はしばしばデータシフトと関連付けられ、ほとんど利用できない。 すべての利用可能なデータを使用して、モデルがデータシフトに対して堅牢にできる範囲を理解することが重要です。 ここでは, ドメイン逆法が誤用された場合, 極めて有害であることを示す。 次に、異なるセマンティクスを持つデータセットから別のデータセットへのデータシフト不変性を転送するドメイン逆法を用いて、ドメイン逆法が、セマンティカル内のドメイン逆法と同等の性能を持つ効率的な相互意味論的手法であることを示す。

In computer vision, data shift has proven to be a major barrier for safe and robust deep learning applications. In medical applications, histopathological images are often associated with data shift and they are hardly available. It is important to understand to what extent a model can be made robust against data shift using all available data. Here, we first show that domain adversarial methods can be very deleterious if they are wrongly used. We then use domain adversarial methods to transfer data shift invariance from one dataset to another dataset with different semantics and show that domain adversarial methods are efficient inter-semantically with similar performance than intra-semantical domain adversarial methods.
翻訳日:2022-01-28 08:46:05 公開日:2022-01-22
# (参考訳) ミニマックス問題に対する微分プライベートSGDA

Differentially Private SGDA for Minimax Problems ( http://arxiv.org/abs/2201.09046v1 )

ライセンス: CC BY 4.0
Zhenhuan Yang, Shu Hu, Yunwen Lei, Kush R. Varshney, Siwei Lyu, Yiming Ying(参考訳) 確率勾配勾配勾配上昇(SGDA)とその変種は、ミニマックス問題を解くための作業場である。 しかし、差分プライバシー(DP)制約を伴う確率勾配勾配勾配(SGD)とは対照的に、DP制約によるSGDAの一般化(ユーティリティ)を理解することはほとんどない。 本稿では,DP-SGDAの一般化(有効性)を異なる設定で確立するために,アルゴリズム安定性アプローチを用いる。 特にコンベックス・コンケーブにおいて, DP-SGDAはスムーズかつ非スムーズなケースにおいて, 原始二重集団の弱いリスクの観点から, 最適効用率が得られることを示す。 我々の知る限り、これは非滑らかな場合におけるDP-SGDAにとって初めての既知の結果である。 さらに,本研究は,非凸強凹構成において,初等個体群リスクの観点から初めて知られている有用性解析を提供する。 この非凸設定の収束と一般化結果は、非私的設定においても新しい。 最後に, DP-SGDAの凸面および非凸面における有効性を示す数値実験を行った。

Stochastic gradient descent ascent (SGDA) and its variants have been the workhorse for solving minimax problems. However, in contrast to the well-studied stochastic gradient descent (SGD) with differential privacy (DP) constraints, there is little work on understanding the generalization (utility) of SGDA with DP constraints. In this paper, we use the algorithmic stability approach to establish the generalization (utility) of DP-SGDA in different settings. In particular, for the convex-concave setting, we prove that the DP-SGDA can achieve an optimal utility rate in terms of the weak primal-dual population risk in both smooth and non-smooth cases. To our best knowledge, this is the first-ever-known result for DP-SGDA in the non-smooth case. We further provide its utility analysis in the nonconvex-strongly-c oncave setting which is the first-ever-known result in terms of the primal population risk. The convergence and generalization results for this nonconvex setting are new even in the non-private setting. Finally, numerical experiments are conducted to demonstrate the effectiveness of DP-SGDA for both convex and nonconvex cases.
翻訳日:2022-01-28 08:36:58 公開日:2022-01-22
# (参考訳) LTC-SUM:2D CNNを用いた軽量クライアント駆動パーソナライズビデオ要約フレームワーク [全文訳有]

LTC-SUM: Lightweight Client-driven Personalized Video Summarization Framework Using 2D CNN ( http://arxiv.org/abs/2201.09049v1 )

ライセンス: CC BY 4.0
Ghulam Mujtaba, Adeel Malik, and Eun-Seok Ryu(参考訳) 本稿では,フル長ビデオのための軽量サムネイルコンテナベース要約(LTC-SUM)フレームワークを提案する。 このフレームワークは、エンドユーザーデバイスの計算資源を用いて、同時ユーザ向けにパーソナライズされたキーショット要約を生成する。 ビデオデータ全体を取得して処理し、ビデオ要約を生成する最先端の手法は、非常に計算集約的である。 この点に関して,提案手法は軽量サムネイルを用いて事象を検出する複雑なプロセスを処理する。 これは計算の複雑さを大幅に削減し、リソース制約のあるエンドユーザデバイスにおける計算とプライバシのボトルネックを解決することにより、通信とストレージの効率を向上させる。 これらの改善は、サムネイルから機能を抽出するために軽量な2d cnnモデルを設計することで達成された。 フル18機能長ビデオ(約32.9時間)の大規模な定量的実験により,提案手法は,同じエンドユーザーデバイス構成の最先端手法よりも計算効率が高いことがわかった。 56名の被験者による共同定性評価の結果,提案手法を用いて作成したサマリーに高い評価が得られた。 私たちの知る限りでは、これは、長編ビデオにサムネイルコンテナを使用した、クライアント主導のパーソナライズされたkeyshotビデオ要約フレームワークを設計する最初の試みです。

This paper proposes a novel lightweight thumbnail container-based summarization (LTC-SUM) framework for full feature-length videos. This framework generates a personalized keyshot summary for concurrent users by using the computational resource of the end-user device. State-of-the-art methods that acquire and process entire video data to generate video summaries are highly computationally intensive. In this regard, the proposed LTC-SUM method uses lightweight thumbnails to handle the complex process of detecting events. This significantly reduces computational complexity and improves communication and storage efficiency by resolving computational and privacy bottlenecks in resource-constrained end-user devices. These improvements were achieved by designing a lightweight 2D CNN model to extract features from thumbnails, which helped select and retrieve only a handful of specific segments. Extensive quantitative experiments on a set of full 18 feature-length videos (approximately 32.9 h in duration) showed that the proposed method is significantly computationally efficient than state-of-the-art methods on the same end-user device configurations. Joint qualitative assessments of the results of 56 participants showed that participants gave higher ratings to the summaries generated using the proposed method. To the best of our knowledge, this is the first attempt in designing a fully client-driven personalized keyshot video summarization framework using thumbnail containers for feature-length videos.
翻訳日:2022-01-28 08:35:23 公開日:2022-01-22
# (参考訳) 線形方程式の軌道有限系の可解性 [全文訳有]

Solvability of orbit-finite systems of linear equations ( http://arxiv.org/abs/2201.09060v1 )

ライセンス: CC BY 4.0
Arka Ghosh, Piotr Hofman, S{\l}awomir Lasota(参考訳) 線形方程式の軌道有限系を、原子を持つ集合の設定で研究する。 我々の主な貢献は、そのようなシステムの可解性の決定手順である。 この手順は、任意の体(および可換環)に対して穏やかな効果の仮定の下で機能し、与えられた軌道有限系を、一般に指数関数的に多くの有限系に還元するが、入力系の原子次元が固定されたときに多項式的に多くする。 手順を得るためには、軌道有限集合によって生成されるベクトル空間の理論をさらに推し進め、そのようなベクトル空間が軌道有限基底を持つことを示す。 この基本的な特性は、私たちの開発において重要なツールですが、もっと幅広い関心を持つべきです。

We study orbit-finite systems of linear equations, in the setting of sets with atoms. Our principal contribution is a decision procedure for solvability of such systems. The procedure works for every field (and even commutative ring) under mild effectiveness assumptions, and reduces a given orbit-finite system to a number of finite ones: exponentially many in general, but polynomially many when atom dimension of input systems is fixed. Towards obtaining the procedure we push further the theory of vector spaces generated by orbit-finite sets, and show that each such vector space admits an orbit-finite basis. This fundamental property is a key tool in our development, but should be also of wider interest.
翻訳日:2022-01-28 08:11:17 公開日:2022-01-22
# (参考訳) ワイヤレスフィンガープリンティング定位のための持続的深層学習に向けて [全文訳有]

Towards Sustainable Deep Learning for Wireless Fingerprinting Localization ( http://arxiv.org/abs/2201.09071v1 )

ライセンス: CC BY 4.0
An\v{z}e Pirnat, Bla\v{z} Bertalani\v{c}, Gregor Cerar, Mihael Mohor\v{c}i\v{c}, Marko Me\v{z}a and Carolina Fortuna(参考訳) すでにエンドユーザに人気がある位置情報ベースのサービスは、必然的に新しいワイヤレスインフラストラクチャと新たなビジネスプロセスの一部になりつつある。 ますます普及しているディープラーニング(dl)人工知能手法は、広範囲な屋内無線計測データに基づく無線フィンガープリンティングのローカライズにおいて非常によく機能する。 しかし、複雑さが増すにつれて、これらの手法は計算量が非常に集中し、訓練とその後の操作の両方のためにエネルギーを消費するようになる。 2025年末までに7.4ビリオンを超えると見積もられたモバイルユーザのみを考えると、これらのユーザに提供するネットワークは平均して1時間あたり1つのローカライゼーションしか行わなければならず、計算に使用される機械学習モデルは年間65*10^12の予測を実行する必要がある。 この方程式に加え、より頻繁な位置更新に大きく依存する数十億の他の接続デバイスやアプリケーションも加わり、よりエネルギー効率の良いモデルが開発され使用されない限り、局所化が二酸化炭素排出量に大きく貢献することが明らかとなった。 このことは、最近の最先端技術と比較してエネルギー効率が良い新しいDLベースの屋内ローカライゼーションアーキテクチャの研究を動機付けつつ、性能の限界しか示さなかった。 詳細な性能評価の結果,提案モデルでは炭素フットプリントの58パーセントしか生成せず,全体の性能の98.7%を維持していることがわかった。 さらに,dlモデルの複雑さを計算し,その訓練と運用におけるco2の足跡を推定する手法について詳述した。

Location based services, already popular with end users, are now inevitably becoming part of new wireless infrastructures and emerging business processes. The increasingly popular Deep Learning (DL) artificial intelligence methods perform very well in wireless fingerprinting localization based on extensive indoor radio measurement data. However, with the increasing complexity these methods become computationally very intensive and energy hungry, both for their training and subsequent operation. Considering only mobile users, estimated to exceed 7.4billion by the end of 2025, and assuming that the networks serving these users will need to perform only one localization per user per hour on average, the machine learning models used for the calculation would need to perform 65*10^12 predictions per year. Add to this equation tens of billions of other connected devices and applications that rely heavily on more frequent location updates, and it becomes apparent that localization will contribute significantly to carbon emissions unless more energy-efficient models are developed and used. This motivated our work on a new DL-based architecture for indoor localization that is more energy efficient compared to related state-of-the-art approaches while showing only marginal performance degradation. A detailed performance evaluation shows that the proposed model producesonly 58 % of the carbon footprint while maintaining 98.7 % of the overall performance compared to state of the art model external to our group. Additionally, we elaborate on a methodology to calculate the complexity of the DL model and thus the CO2 footprint during its training and operation.
翻訳日:2022-01-28 07:08:59 公開日:2022-01-22
# (参考訳) LTC-GIF:長編スポーツビデオのクリック数を増やす [全文訳有]

LTC-GIF: Attracting More Clicks on Feature-length Sports Videos ( http://arxiv.org/abs/2201.09077v1 )

ライセンス: CC BY 4.0
Ghulam Mujtaba, Jaehyuk Choi, and Eun-Seok Ryu(参考訳) 本稿では,静的サムネイルやアニメーションGIFなどのパーソナライズされた芸術的メディアを提示することで,ユーザを惹きつける軽量な手法を提案する。 本手法では,クライアントデバイスの計算リソースを用いて軽量サムネイルコンテナ(ltc)を分析し,スポーツビデオからパーソナライズされたイベントを識別する。 さらに、ビデオ全体を処理するのではなく、小さなビデオセグメントを処理して芸術的なメディアを生成する。 これにより,提案手法は,映像全体を用いて芸術的メディアを作成するベースラインアプローチと比較して,計算効率が向上する。 提案手法は,サムネイル容器と映像セグメントを検索・利用することにより,必要な伝送帯域幅と,芸術メディア生成時の局所記憶データの量を削減する。 Nvidia Jetson TX2で広範囲に実験を行ったところ、提案手法の計算複雑性はSoA法よりも3.57倍低かった。 定性評価では,提案手法を用いて生成したGIFは,SoA法に比べて1.02高い評価を受けた。 我々の知る限りでは、資源制約のあるデバイスでも軽量で高性能なサービスを提供しながら、LCCを使って芸術的メディアを生成する最初の技術である。

This paper proposes a lightweight method to attract users and increase views of the video by presenting personalized artistic media -- i.e, static thumbnails and animated GIFs. This method analyzes lightweight thumbnail containers (LTC) using computational resources of the client device to recognize personalized events from full-length sports videos. In addition, instead of processing the entire video, small video segments are processed to generate artistic media. This makes the proposed approach more computationally efficient compared to the baseline approaches that create artistic media using the entire video. The proposed method retrieves and uses thumbnail containers and video segments, which reduces the required transmission bandwidth as well as the amount of locally stored data used during artistic media generation. When extensive experiments were conducted on the Nvidia Jetson TX2, the computational complexity of the proposed method was 3.57 times lower than that of the SoA method. In the qualitative assessment, GIFs generated using the proposed method received 1.02 higher overall ratings compared to the SoA method. To the best of our knowledge, this is the first technique that uses LTC to generate artistic media while providing lightweight and high-performance services even on resource-constrained devices.
翻訳日:2022-01-28 06:56:05 公開日:2022-01-22
# (参考訳) 未知の余次元部分空間の確率的ロバスト回復を与える射影下降法の入射バイアス [全文訳有]

Implicit Bias of Projected Subgradient Method Gives Provable Robust Recovery of Subspaces of Unknown Codimension ( http://arxiv.org/abs/2201.09079v1 )

ライセンス: CC BY 4.0
Paris V. Giampouras, Benjamin D. Haeffele and Ren\'e Vidal(参考訳) robust subspace recovery (rsr) はロバスト表現学習における根本的な問題である。 本稿では,部分空間の直交補空間の基底を復元し,高相対次元の部分空間を扱うことを目的とした,最近提案された RSR 手法である Dual principal Component Pursuit (DPCP) アプローチに着目する。 以前の研究により、DPCPは、部分空間の真の次元が知られている限り、外れ値の存在下で正しい部分空間を確実に復元できることを示した。 DPCP は、従来の DPCP の定式化で採用されていた直交性制約が緩和され、スペクトル式の代わりにランダム初期化が用いられる限り、 {\displaystyle {\it unknown} の部分空間次元状態における RSR 問題を確実に解くことができることを示す。 具体的には,部分空間のヌル空間に1つのベクトルを求める問題インスタンスに対して,psgm (projected sub-gradient descent method) の複数のインスタンスを実行することに基づく,非常に単純なアルゴリズムを提案する。 理論的には、穏やかな条件下では、このアプローチは高い確率で成功する。 特に私たちが示すのは 1)問題のすべてのインスタンスは、部分空間のヌル空間内のベクトルに収束し、そして、 2) 問題インスタンスの解のアンサンブルは、部分空間のヌル空間を完全に超えるのに十分多様なため、真の未知の余次元も明らかにされる。 提案手法は,PSGMアルゴリズムにおいて,部分空間次元を意識せずにRSRを実行することのできる顕著な暗黙的ランク正規化挙動を実証する実験結果を提供する。

Robust subspace recovery (RSR) is a fundamental problem in robust representation learning. Here we focus on a recently proposed RSR method termed Dual Principal Component Pursuit (DPCP) approach, which aims to recover a basis of the orthogonal complement of the subspace and is amenable to handling subspaces of high relative dimension. Prior work has shown that DPCP can provably recover the correct subspace in the presence of outliers, as long as the true dimension of the subspace is known. We show that DPCP can provably solve RSR problems in the {\it unknown} subspace dimension regime, as long as orthogonality constraints -- adopted in previous DPCP formulations -- are relaxed and random initialization is used instead of spectral one. Namely, we propose a very simple algorithm based on running multiple instances of a projected sub-gradient descent method (PSGM), with each problem instance seeking to find one vector in the null space of the subspace. We theoretically prove that under mild conditions this approach will succeed with high probability. In particular, we show that 1) all of the problem instances will converge to a vector in the nullspace of the subspace and 2) the ensemble of problem instance solutions will be sufficiently diverse to fully span the nullspace of the subspace thus also revealing its true unknown codimension. We provide empirical results that corroborate our theoretical results and showcase the remarkable implicit rank regularization behavior of PSGM algorithm that allows us to perform RSR without being aware of the subspace dimension.
翻訳日:2022-01-28 06:39:10 公開日:2022-01-22
# (参考訳) 顔マスク咬合下の咬合不変顔認識に関する包括的研究 [全文訳有]

A Comprehensive Study on Occlusion Invariant Face Recognition under Face Mask Occlusion ( http://arxiv.org/abs/2201.09089v1 )

ライセンス: CC BY 4.0
Susith Hemathilaka, and Achala Aponso(参考訳) フェイスマスクは、パンデミック期に成長する日常生活において必須の衛生器具であり、現在の顔認識システムにとって大きな脅威である。 マスクは、顔の広い範囲で多くの詳細を破壊し、人間にとっても認識しづらい。 評価報告では,マスク顔の認識が困難であることを示す。 近年のディープラーニングの急速な発展とブレークスルーは、顔認識アルゴリズムによる最も有望な成果を目撃している。 しかし、照明条件の変化、解像度の低さ、表情、ポーズの変化、オクルージョンといった課題では、制約のない環境では満足できるレベルには遠く及ばない。 顔面閉塞は最も難解な問題の一つと考えられている。 特にオクルージョンが顔の広い領域を占めるのは、多くの公式な特徴を破壊するためである。

The face mask is an essential sanitaryware in daily lives growing during the pandemic period and is a big threat to current face recognition systems. The masks destroy a lot of details in a large area of face, and it makes it difficult to recognize them even for humans. The evaluation report shows the difficulty well when recognizing masked faces. Rapid development and breakthrough of deep learning in the recent past have witnessed most promising results from face recognition algorithms. But they fail to perform far from satisfactory levels in the unconstrained environment during the challenges such as varying lighting conditions, low resolution, facial expressions, pose variation and occlusions. Facial occlusions are considered one of the most intractable problems. Especially when the occlusion occupies a large region of the face because it destroys lots of official features.
翻訳日:2022-01-28 06:08:37 公開日:2022-01-22
# (参考訳) HiSTGNN: 天気予報のための階層型時空間グラフニューラルネットワーク [全文訳有]

HiSTGNN: Hierarchical Spatio-temporal Graph Neural Networks for Weather Forecasting ( http://arxiv.org/abs/2201.09101v1 )

ライセンス: CC BY 4.0
Minbo Ma, Peng Xie, Fei Teng, Tianrui Li, Bin Wang, Shenggong Ji, Junbo Zhang(参考訳) 天気予報は、人間の生活や大気運動の複雑さに影響を及ぼすため、魅力的な課題である。 大量の過去の観測時系列データによってサポートされ、このタスクはデータ駆動アプローチ、特にディープニューラルネットワークに適している。 近年,グラフニューラルネットワーク(gnns)に基づく手法が時空間予測に優れた性能を達成している。 しかし、標準gnnsに基づく手法は、局毎の気象変数のローカルグラフや駅全体のグローバルグラフのみを個別にモデル化し、異なる局における気象変数間の情報相互作用を欠いている。 本稿では,複数の観測局における気象変数間の時空間相関をモデル化する階層的時空間グラフニューラルネットワーク(histgnn)を提案する。 適応グラフ学習層と空間グラフ畳み込みを用いて、自己学習グラフを構築し、可変レベルグラフとステーションレベルグラフのノード間の隠れた依存関係を研究する。 テンポラリパターンを捉えるために、ゲートテンポラリ畳み込みのバックボーンとして拡張されたインセプションは、長く様々な気象学的傾向をモデル化するように設計されている。 さらに,階層グラフにおける双方向情報伝達を構築するために,動的インタラクション学習を提案する。 3つの実世界の気象データセットにおける実験結果は、7つのベースラインよりもヒストグニンの優れた性能を示し、特に最先端の天気予報法と比較して誤差を4.2%から11.6%削減した。

Weather Forecasting is an attractive challengeable task due to its influence on human life and complexity in atmospheric motion. Supported by massive historical observed time series data, the task is suitable for data-driven approaches, especially deep neural networks. Recently, the Graph Neural Networks (GNNs) based methods have achieved excellent performance for spatio-temporal forecasting. However, the canonical GNNs-based methods only individually model the local graph of meteorological variables per station or the global graph of whole stations, lacking information interaction between meteorological variables in different stations. In this paper, we propose a novel Hierarchical Spatio-Temporal Graph Neural Network (HiSTGNN) to model cross-regional spatio-temporal correlations among meteorological variables in multiple stations. An adaptive graph learning layer and spatial graph convolution are employed to construct self-learning graph and study hidden dependency among nodes of variable-level and station-level graph. For capturing temporal pattern, the dilated inception as the backbone of gate temporal convolution is designed to model long and various meteorological trends. Moreover, a dynamic interaction learning is proposed to build bidirectional information passing in hierarchical graph. Experimental results on three real-world meteorological datasets demonstrate the superior performance of HiSTGNN beyond 7 baselines and it reduces the errors by 4.2% to 11.6% especially compared to state-of-the-art weather forecasting method.
翻訳日:2022-01-28 05:59:11 公開日:2022-01-22
# (参考訳) 自然政策グラディエント強化学習のためのトリックの袋 [全文訳有]

Bag of Tricks for Natural Policy Gradient Reinforcement Learning ( http://arxiv.org/abs/2201.09104v1 )

ライセンス: CC BY 4.0
Brennan Gebotys, Alexander Wong, David A. Clausi(参考訳) 自然政策勾配法は、フィッシャー情報行列の逆行列で勾配を前処理することで、政策勾配法の安定性を向上させる一般的な強化学習法である。 しかし、多くの実装の詳細を最適性能を達成するために設定する必要があるため、自然ポリシー勾配法を最適に活用することは非常に困難である。 著者の知識を最大限に活用するため,包括的かつ体系的にハイパフォーマンスを達成するために,これらの詳細を自然政策勾配法に設定するための戦略を検討する研究は行われていない。 これに対処するために,我々は5つの異なる2次近似による自然政策勾配強化学習の性能に影響を与える戦略を実装し,比較した。 これには、バッチサイズの変更や、自然勾配を用いた批評家ネットワークの最適化が含まれる。 さらに、パフォーマンス(安定性、サンプル効率、計算時間)を最適化する際の基本的なトレードオフに関する洞察も生成した。 実験結果から,提案した性能最適化戦略の収集は,MuJuCo制御ベンチマークで86%から181%向上し,TENGraDはテストされた近似の中で最高の近似性能を示した。 本研究のコードはhttps://github.com/g ebob19/natural-polic y-gradient-reinforce ment-learningで利用可能である。

Natural policy gradient methods are popular reinforcement learning methods that improve the stability of policy gradient methods by preconditioning the gradient with the inverse of the Fisher-information matrix. However, leveraging natural policy gradient methods in an optimal manner can be very challenging as many implementation details must be set to achieve optimal performance. To the best of the authors' knowledge, there has not been a study that has investigated strategies for setting these details for natural policy gradient methods to achieve high performance in a comprehensive and systematic manner. To address this, we have implemented and compared strategies that impact performance in natural policy gradient reinforcement learning across five different second-order approximations. These include varying batch sizes and optimizing the critic network using the natural gradient. Furthermore, insights about the fundamental trade-offs when optimizing for performance (stability, sample efficiency, and computation time) were generated. Experimental results indicate that the proposed collection of strategies for performance optimization can improve results by 86% to 181% across the MuJuCo control benchmark, with TENGraD exhibiting the best approximation performance amongst the tested approximations. Code in this study is available at https://github.com/g ebob19/natural-polic y-gradient-reinforce ment-learning.
翻訳日:2022-01-28 05:37:59 公開日:2022-01-22
# (参考訳) ロバストな単一画像による顔の超解像 [全文訳有]

Robust Unpaired Single Image Super-Resolution of Faces ( http://arxiv.org/abs/2201.09109v1 )

ライセンス: CC BY 4.0
Saurabh Goswami, Rajagopalan A. N(参考訳) 本稿では,顔のクラス固有のSingle Image Super-Resolution(SIS R)手法に対する逆攻撃を提案する。 高速勾配符号法 (fgsm) や投影勾配降下法 (pgd) のような既存の攻撃は、高速でも効果的でも効果的でもないが、これらのネットワークでは制限的に遅い。 このようなネットワークのトレーニングに使用されるMSE損失の表面を精査することにより,そのパラメータ化可能な特性を同定することができた。 この特性を利用して,複数の勾配上昇ステップ(高速)を必要とせずに,最適な劣化(効果的)を探索できる平均攻撃を提案する。 提案手法は,FGSM や PGD のような最先端の対人攻撃よりも,未対面顔のタスクやクラス固有のSISR に対して,より高速かつ効果的なトレードオフを実現することができることを示す。

We propose an adversarial attack for facial class-specific Single Image Super-Resolution (SISR) methods. Existing attacks, such as the Fast Gradient Sign Method (FGSM) or the Projected Gradient Descent (PGD) method, are either fast but ineffective, or effective but prohibitively slow on these networks. By closely inspecting the surface that the MSE loss, used to train such networks, traces under varying degradations, we were able to identify its parameterizable property. We leverage this property to propose an adverasrial attack that is able to locate the optimum degradation (effective) without needing multiple gradient-ascent steps (fast). Our experiments show that the proposed method is able to achieve a better speed vs effectiveness trade-off than the state-of-theart adversarial attacks, such as FGSM and PGD, for the task of unpaired facial as well as class-specific SISR.
翻訳日:2022-01-28 05:26:23 公開日:2022-01-22
# (参考訳) 時間的注意を伴うメッシュ縮小空間における物理予測 [全文訳有]

Predicting Physics in Mesh-reduced Space with Temporal Attention ( http://arxiv.org/abs/2201.09113v1 )

ライセンス: CC BY 4.0
Xu Han and Han Gao and Tobias Pffaf and Jian-Xun Wang and Li-Ping Liu(参考訳) グラフベースの次ステップ予測モデルは、最近不規則メッシュ上の複雑な高次元物理システムをモデル化することに成功した。 しかし、時間的注意が短いため、これらのモデルはエラーの蓄積と漂流に苦しむ。 本稿では,変圧器型時間的注意モデルを用いて長期的依存を捉える手法を提案する。 本稿では,特徴を要約し,システム状態のコンパクトメッシュ表現を作成するエンコーダ・デコーダ構造を導入し,時間モデルが低次元メッシュ表現をメモリ効率良く操作できるようにする。 本手法は, 超音波ショックから血管血流まで, 複雑な流体力学予測タスクにおいて, 競合するgnnベースラインを上回っている。 トレーニングノイズを必要とせずに安定したロールアウトを示し,非常に長いシーケンスでも完全に位相安定な予測を示す。 より広範に、我々のアプローチは、高次元複雑な物理課題の解決に注意に基づくシーケンスモデルの利点をもたらす道を開くと信じている。

Graph-based next-step prediction models have recently been very successful in modeling complex high-dimensional physical systems on irregular meshes. However, due to their short temporal attention span, these models suffer from error accumulation and drift. In this paper, we propose a new method that captures long-term dependencies through a transformer-style temporal attention model. We introduce an encoder-decoder structure to summarize features and create a compact mesh representation of the system state, to allow the temporal model to operate on a low-dimensional mesh representations in a memory efficient manner. Our method outperforms a competitive GNN baseline on several complex fluid dynamics prediction tasks, from sonic shocks to vascular flow. We demonstrate stable rollouts without the need for training noise and show perfectly phase-stable predictions even for very long sequences. More broadly, we believe our approach paves the way to bringing the benefits of attention-based sequence models to solving high-dimensional complex physics tasks.
翻訳日:2022-01-28 05:14:19 公開日:2022-01-22
# (参考訳) 制御可能なテキスト生成のための因果レンズ [全文訳有]

A Causal Lens for Controllable Text Generation ( http://arxiv.org/abs/2201.09119v1 )

ライセンス: CC BY 4.0
Zhiting Hu, Li Erran Li(参考訳) コントロール可能なテキスト生成は、与えられた属性(すなわち属性条件生成)のテキストを生成することと、所望の属性(すなわちテキスト属性転送)を保持するために既存のテキストを最小限に編集することである。 広範な先行研究は、主に2つの問題を別々に研究し、異なる条件モデルを開発したが、バイアス付きテキスト(例えば、様々なジェンダーステレオタイプ)を生成する傾向にある。 本稿では,2つのタスクを統一的なフレームワークでモデル化する原理的因果的観点から,制御可能なテキスト生成を定式化する。 因果的定式化の直接的な利点は、生成バイアスを緩和し、制御を改善するためにリッチ因果性ツールを使用することである。 この2つのタスクを,構造因果モデルに基づく介入因果推論と反事実因果推論として扱う。 そして,この枠組みを,少数のデータでのみ観測可能な共起因子(突発的相関を誘導する)が成立する,困難な実践環境に適用する。 実験では, 制御精度の向上とバイアス低減のために, 先行条件モデルよりも因果的アプローチが有意な優位を示した。

Controllable text generation concerns two fundamental tasks of wide applications, namely generating text of given attributes (i.e., attribute-conditiona l generation), and minimally editing existing text to possess desired attributes (i.e., text attribute transfer). Extensive prior work has largely studied the two problems separately, and developed different conditional models which, however, are prone to producing biased text (e.g., various gender stereotypes). This paper proposes to formulate controllable text generation from a principled causal perspective which models the two tasks with a unified framework. A direct advantage of the causal formulation is the use of rich causality tools to mitigate generation biases and improve control. We treat the two tasks as interventional and counterfactual causal inference based on a structural causal model, respectively. We then apply the framework to the challenging practical setting where confounding factors (that induce spurious correlations) are observable only on a small fraction of data. Experiments show significant superiority of the causal approach over previous conditional models for improved control accuracy and reduced bias.
翻訳日:2022-01-28 04:48:59 公開日:2022-01-22
# (参考訳) 量子情報科学におけるデータ中心機械学習 [全文訳有]

Data-Centric Machine Learning in Quantum Information Science ( http://arxiv.org/abs/2201.09134v1 )

ライセンス: CC BY 4.0
Sanjaya Lohani, Joseph M. Lukens, Ryan T. Glasser, Thomas A. Searles, Brian T. Kirby(参考訳) 量子情報科学における問題に適用した場合,機械学習システムの性能向上のための一連のデータ中心ヒューリスティックスを提案する。 特に,トレーニングセットの系統的設計は,基礎となるアーキテクチャを変更することなく,量子状態再構成に使用される事前学習ニューラルネットワークの精度を著しく向上させる。 目標シナリオの予測分布に正確に一致するようにトレーニングセットを設計することが常に最適であるわけではなく、その代わりに、トレーニングセットをターゲットよりもわずかに混合することにより、パフォーマンスをさらに向上することができる。 これは、異なる純度の状態を記述するのに必要な自由変数の数の不均一性のためであり、結果として、固定サイズのトレーニングセットが最小の制約付き自由変数を持つ状態に焦点を合わせると、ネットワーク全体の精度が向上する。 より明確にするために、トレーニングに使用する合成データセットを不注意に入力できるスプリアス相関の「トイモデル」、これらの相関でトレーニングされたシステムのパフォーマンスが劇的に低下する可能性、そして、比較的少ない反例を含むことで、そのような問題を効果的に解決できる方法のデモンストレーションも含んでいる。

We propose a series of data-centric heuristics for improving the performance of machine learning systems when applied to problems in quantum information science. In particular, we consider how systematic engineering of training sets can significantly enhance the accuracy of pre-trained neural networks used for quantum state reconstruction without altering the underlying architecture. We find that it is not always optimal to engineer training sets to exactly match the expected distribution of a target scenario, and instead, performance can be further improved by biasing the training set to be slightly more mixed than the target. This is due to the heterogeneity in the number of free variables required to describe states of different purity, and as a result, overall accuracy of the network improves when training sets of a fixed size focus on states with the least constrained free variables. For further clarity, we also include a "toy model" demonstration of how spurious correlations can inadvertently enter synthetic data sets used for training, how the performance of systems trained with these correlations can degrade dramatically, and how the inclusion of even relatively few counterexamples can effectively remedy such problems.
翻訳日:2022-01-28 04:28:44 公開日:2022-01-22
# (参考訳) 排他的攻撃による長期データ共有 [全文訳有]

Long-term Data Sharing under Exclusivity Attacks ( http://arxiv.org/abs/2201.09137v1 )

ライセンス: CC BY 4.0
Yotam Gafni, Moshe Tennenholtz(参考訳) 学習の質は、データの規模と多様性によって一般的に改善される。 したがって、企業や機関は共有データよりもモデルを構築することの恩恵を受けることができる。 多くのクラウドおよびブロックチェーンプラットフォームと政府のイニシアチブは、この種のサービスの提供に興味を持っている。 これらの協力的努力は「排他的攻撃」と呼ばれる課題に直面している。 ある企業は歪んだデータを共有でき、最適なモデルを学ぶことができるが、他人を誤解させることもできる。 本稿では,これらの攻撃に対する長期的なインタラクションプロトコルとその脆弱性,特に回帰およびクラスタリングタスクについて検討する。 我々は、プロトコルの選択と、攻撃者が制御できるSybilのIDの数が脆弱性となると結論付けている。

The quality of learning generally improves with the scale and diversity of data. Companies and institutions can therefore benefit from building models over shared data. Many cloud and blockchain platforms, as well as government initiatives, are interested in providing this type of service. These cooperative efforts face a challenge, which we call ``exclusivity attacks''. A firm can share distorted data, so that it learns the best model fit, but is also able to mislead others. We study protocols for long-term interactions and their vulnerability to these attacks, in particular for regression and clustering tasks. We conclude that the choice of protocol, as well as the number of Sybil identities an attacker may control, is material to vulnerability.
翻訳日:2022-01-28 04:04:17 公開日:2022-01-22
# (参考訳) CNNにおけるデータ効率向上とバイアス低減による赤外画像の背景不変分類 [全文訳有]

Background Invariant Classification on Infrared Imagery by Data Efficient Training and Reducing Bias in CNNs ( http://arxiv.org/abs/2201.09144v1 )

ライセンス: CC BY 4.0
Maliha Arif, Calvin Yong, Abhijit Mahalanobis(参考訳) 畳み込みニューラルネットワークは、画像中のオブジェクトを非常に正確に分類することができるが、ネットワークの注意が常にシーンのセマンティックな重要な領域にあるとは限らないことはよく知られている。 ネットワークはしばしば、関心の対象とは無関係な背景テクスチャを学習することが観察されている。 これにより、ネットワークはバックグラウンドのバリエーションや変化に影響を受けやすくなり、パフォーマンスに悪影響を及ぼす。 Infrared image と RGB data の CNN におけるこのバイアスを低減するために,新しい2段階のトレーニング手法である \textit{split training} を提案する。 我々の分断訓練手順には2つのステップがある: まず、背景のない画像を用いて同じネットワークのアクティベーションに合うように、背景を持つ画像上のネットワークの層をトレーニングし、次にこれらの層を凍結して、残りの層をクロスエントロピーロスでトレーニングしてオブジェクトを分類する。 我々のトレーニング方法は、単純なCNNアーキテクチャと、多くのハードウェアリソースを使用するVGGやDensenetのようなディープCNNの両方で従来のトレーニング手順より優れており、より高精度な背景よりも形状や構造に重点を置いた人間の視覚を模倣することを学ぶ。

Even though convolutional neural networks can classify objects in images very accurately, it is well known that the attention of the network may not always be on the semantically important regions of the scene. It has been observed that networks often learn background textures which are not relevant to the object of interest. In turn this makes the networks susceptible to variations and changes in the background which negatively affect their performance. We propose a new two-step training procedure called \textit{split training} to reduce this bias in CNNs on both Infrared imagery and RGB data. Our split training procedure has two steps: using MSE loss first train the layers of the network on images with background to match the activations of the same network when it is trained using images without background; then with these layers frozen, train the rest of the network with cross-entropy loss to classify the objects. Our training method outperforms the traditional training procedure in both a simple CNN architecture, and deep CNNs like VGG and Densenet which use lots of hardware resources, and learns to mimic human vision which focuses more on shape and structure than background with higher accuracy.
翻訳日:2022-01-28 03:33:27 公開日:2022-01-22
# (参考訳) マルチチャネル通信におけるマルチエージェント攻撃 [全文訳有]

Multi-Agent Adversarial Attacks for Multi-Channel Communications ( http://arxiv.org/abs/2201.09149v1 )

ライセンス: CC BY 4.0
Juncheng Dong, Suya Wu, Mohammadreza Sultani, Vahid Tarokh(参考訳) 近年,無線通信ネットワークにおける対人対策として強化学習(RL)が適用されている。 しかし、敵の視点からのRLに基づくアプローチの研究はほとんど注目されていない。 さらに、対向的あるいは対向的なパラダイムにおけるRLベースのアプローチは、主にシングルチャネル通信(チャンネル選択またはシングルチャネル電力制御)を考察するが、実際はマルチチャネル通信の方が一般的である。 本稿では,現実的なコミュニケーションシナリオ下での報酬関数の設計を慎重に行うことで,無線通信シナリオにおける敵のモデリングと解析を行うマルチエージェント・敵システム(MAAS)を提案する。 特に, 敵を学習エージェントとしてモデル化することにより, 提案するmaasは送信側戦略を事前に知ることなく, 送信側チャネル(s) と各割り当て側パワー(s) を適切に選択できることを示す。 単エージェント対向(SAA)と比較して、MAASのマルチエージェントは同じ電力制約と部分可観測性の下で信号対雑音比(SINR)を大幅に低減し、安定性とより効率的な学習プロセスを提供する。 さらに,実証実験により,シミュレーションの結果が現実のコミュニケーションに近く,シミュレーションで評価されたエージェントの性能の妥当性に重要な結論が得られた。

Recently Reinforcement Learning (RL) has been applied as an anti-adversarial remedy in wireless communication networks. However, studying the RL-based approaches from the adversary's perspective has received little attention. Additionally, RL-based approaches in an anti-adversary or adversarial paradigm mostly consider single-channel communication (either channel selection or single channel power control), while multi-channel communication is more common in practice. In this paper, we propose a multi-agent adversary system (MAAS) for modeling and analyzing adversaries in a wireless communication scenario by careful design of the reward function under realistic communication scenarios. In particular, by modeling the adversaries as learning agents, we show that the proposed MAAS is able to successfully choose the transmitted channel(s) and their respective allocated power(s) without any prior knowledge of the sender strategy. Compared to the single-agent adversary (SAA), multi-agents in MAAS can achieve significant reduction in signal-to-noise ratio (SINR) under the same power constraints and partial observability, while providing improved stability and a more efficient learning process. Moreover, through empirical studies we show that the results in simulation are close to the ones in communication in reality, a conclusion that is pivotal to the validity of performance of agents evaluated in simulations.
翻訳日:2022-01-28 03:18:44 公開日:2022-01-22
# フィルタプルーニングと知識伝達によるエッジデバイスでのディープラーニングの実現

Enabling Deep Learning on Edge Devices through Filter Pruning and Knowledge Transfer ( http://arxiv.org/abs/2201.10947v1 )

ライセンス: Link先を確認
Kaiqi Zhao, Yitao Chen, Ming Zhao(参考訳) ディープラーニングモデルは、画像分類、音声認識、拡張現実など、エッジデバイスにさまざまなインテリジェントなアプリケーションを導入している。 パーソナライズされ、応答性があり、プライベートな学習を提供するために、デバイス上でそのようなモデルをトレーニングする必要がある。 このニーズに対処するために,資源制約されたデバイス上で最先端モデルをデプロイし,訓練するための新しいソリューションを提案する。 まず,クラウドでトレーニングされた大規模モデルから軽量なモデルを作成するために,精度を損なうことなく,フィルタプルーニングに基づくモデル圧縮手法を提案する。 第二に、デバイス上のモデルが、新しいデータに対する漸進的な学習を用いて、リアルタイムでまたはほぼリアルタイムでインクリメンタルに更新できるようにし、クラウド内のモデルの助けを借りて、デバイス上のモデルが見えないカテゴリを学習できるようにする新しい知識伝達手法を提案する。 その結果は 1) モデル圧縮法では, 最大99.36% の WRN-28-10 パラメータを除去し, CIFAR-10 でトップ-1 の精度を90% 以上保持できる。 2) 知識伝達方式により, 圧縮モデルではCIFAR-10で90%以上の精度を達成でき, 古いカテゴリでは良好な精度を維持することができる。 3) 逐次学習タスクにおいて,圧縮されたモデルをエッジ上でリアルタイム(3~6分)に収束させることができる。 4) トレーニングされていないデータの未確認カテゴリ(Top-1精度78.92%)を分類することができる。

Deep learning models have introduced various intelligent applications to edge devices, such as image classification, speech recognition, and augmented reality. There is an increasing need of training such models on the devices in order to deliver personalized, responsive, and private learning. To address this need, this paper presents a new solution for deploying and training state-of-the-art models on the resource-constrained devices. First, the paper proposes a novel filter-pruning-based model compression method to create lightweight trainable models from large models trained in the cloud, without much loss of accuracy. Second, it proposes a novel knowledge transfer method to enable the on-device model to update incrementally in real time or near real time using incremental learning on new data and enable the on-device model to learn the unseen categories with the help of the in-cloud model in an unsupervised fashion. The results show that 1) our model compression method can remove up to 99.36% parameters of WRN-28-10, while preserving a Top-1 accuracy of over 90% on CIFAR-10; 2) our knowledge transfer method enables the compressed models to achieve more than 90% accuracy on CIFAR-10 and retain good accuracy on old categories; 3) it allows the compressed models to converge within real time (three to six minutes) on the edge for incremental learning tasks; 4) it enables the model to classify unseen categories of data (78.92% Top-1 accuracy) that it is never trained with.
翻訳日:2022-01-27 13:36:08 公開日:2022-01-22
# 深層学習に基づく画像超解像技術の検討

A Review of Deep Learning Based Image Super-resolution Techniques ( http://arxiv.org/abs/2201.10521v1 )

ライセンス: Link先を確認
Fangyuan Zhu(参考訳) 画像超解像技術は、1つ以上の低解像度画像から高解像度画像を取得する過程である。 深層学習の発展に伴い,深層学習に基づく画像超解像技術が出現している。 本稿では,画像超解法分野における深度学習法の応用研究の進展を概観し,いくつかの側面からこのような超解法を紹介し,画像超解法分野における深度学習法のさらなる適用を楽しみにしている。 超解像領域における深度学習の適用に関する文献を収集・集計することにより、画像超解像領域における深度学習法の応用結果を予め要約し、深度学習法に基づく画像超解像技術の最新の進歩を報告する。

Image super-resolution technology is the process of obtaining high-resolution images from one or more low-resolution images. With the development of deep learning, image super-resolution technology based on deep learning method is emerging. This paper reviews the research progress of the application of depth learning method in the field of image super-resolution, introduces this kind of super-resolution work from several aspects, and looks forward to the further application of depth learning method in the field of image super-resolution. By collecting and counting the relevant literature on the application of depth learning in the field of image super-resolution, we preliminarily summarizes the application results of depth learning method in the field of image super-resolution, and reports the latest progress of image super-resolution technology based on depth learning method.
翻訳日:2022-01-26 15:35:39 公開日:2022-01-22
# Blind Image Deblurringレビュー

Blind Image Deblurring: a Review ( http://arxiv.org/abs/2201.10522v1 )

ライセンス: Link先を確認
Zhengrong Xue(参考訳) これはブラインドイメージの劣化に関するレビューです。 まず、ブラインド画像の劣化問題を定式化し、それがなぜ難しいのかを説明する。 次に、人間の視覚システムが崩壊する方法に関する心理学的、認知的な研究を行う。 次に,これまでのいくつかのレビューに依拠して,メトリクスとデータセットの話題について論じる。 最後に,最適化手法と学習手法を紹介する。

This is a review on blind image deblurring. First, we formulate the blind image deblurring problem and explain why it is challenging. Next, we bring some psychological and cognitive studies on the way our human vision system deblurs. Then, relying on several previous reviews, we discuss the topic of metrics and datasets, which is non-trivial to blind deblurring. Finally, we introduce some typical optimization-based methods and learning-based methods.
翻訳日:2022-01-26 15:35:22 公開日:2022-01-22
# 繰り返し活性化に基づく構造化プルーニング

Iterative Activation-based Structured Pruning ( http://arxiv.org/abs/2201.09881v1 )

ライセンス: Link先を確認
Kaiqi Zhao, Animesh Jain, Ming Zhao(参考訳) エッジデバイスのリソース予算が限られているのに対して、エッジデバイスに複雑なディープラーニングモデルをデプロイするのは、相当な計算とメモリリソースの要求があるため、難しい。 この問題を解決するため、ネットワーク圧縮のための広範囲なプルーニング技術が提案されている。 Lottery Ticket hypothesis (LTH)に基づく最近の進歩は、反復的モデルプルーニングがより小さくより正確なモデルを生成する傾向があることを示している。 しかし、LTH研究はハードウェア非効率でハードウェアプラットフォーム上での高速化が難しい非構造化プルーニングに焦点を当てている。 本稿では,構造的プルーニングモデルがコモディティハードウェアによくマッピングするため,構造的プルーニングの文脈における反復プルーニングについて検討する。 繰り返しL1-norm based pruning (ILP) と呼ばれる構造的重み付きプルーニング法を直接適用しても正確なプルーニングモデルは得られない。 そこで本研究では、IAP(Iterative Activation-based Pruning)とAIAP(Adaptive Iterative Activation-based Pruning)という2つのアクティベーションベースのプルーニング手法を提案する。 IAPとAIAPはLeNet-5では7.75Xと15.88$X、ResNet-50では1.25Xと1.71X、ICPでは4.77Xと1.13Xである。

Deploying complex deep learning models on edge devices is challenging because they have substantial compute and memory resource requirements, whereas edge devices' resource budget is limited. To solve this problem, extensive pruning techniques have been proposed for compressing networks. Recent advances based on the Lottery Ticket Hypothesis (LTH) show that iterative model pruning tends to produce smaller and more accurate models. However, LTH research focuses on unstructured pruning, which is hardware-inefficient and difficult to accelerate on hardware platforms. In this paper, we investigate iterative pruning in the context of structured pruning because structurally pruned models map well on commodity hardware. We find that directly applying a structured weight-based pruning technique iteratively, called iterative L1-norm based pruning (ILP), does not produce accurate pruned models. To solve this problem, we propose two activation-based pruning methods, Iterative Activation-based Pruning (IAP) and Adaptive Iterative Activation-based Pruning (AIAP). We observe that, with only 1% accuracy loss, IAP and AIAP achieve 7.75X and 15.88$X compression on LeNet-5, and 1.25X and 1.71X compression on ResNet-50, whereas ILP achieves 4.77X and 1.13X, respectively.
翻訳日:2022-01-26 14:33:20 公開日:2022-01-22
# BiasedWalk: バイアスサンプリングによるグローバルなノード埋め込み学習

BiasedWalk: Learning Global-aware Node Embeddings via Biased Sampling ( http://arxiv.org/abs/2201.09882v1 )

ライセンス: Link先を確認
Zhengrong Xue, Ziao Guo, Yiwei Guo(参考訳) deepwalkのような人気のあるノード埋め込みメソッドは、グラフ上でランダムウォークを実行するというパラダイムに従い、各ノードにそれと共に現れるノードに近しいように要求する。 様々なタスクで成功したことが証明されたが、このパラダイムはトポロジを持つグラフを連続した文の集合に還元し、グローバルな情報を省略する。 グローバルなノードの埋め込みを生成するために,同様の意味を持つノードに有利なランダムウォーク戦略であるBiasedWalkを提案する。 BiasedWalkは一般的に、生成された埋め込みに対するグローバルな認識を高めることができる。

Popular node embedding methods such as DeepWalk follow the paradigm of performing random walks on the graph, and then requiring each node to be proximate to those appearing along with it. Though proved to be successful in various tasks, this paradigm reduces a graph with topology to a set of sequential sentences, thus omitting global information. To produce global-aware node embeddings, we propose BiasedWalk, a biased random walk strategy that favors nodes with similar semantics. Empirical evidence suggests BiasedWalk can generally enhance global awareness of the generated embeddings.
翻訳日:2022-01-26 14:32:54 公開日:2022-01-22
# 癌予後予測のためのマルチタスク相関学習に基づくマルチモーダル融合フレームワーク

A Multi-modal Fusion Framework Based on Multi-task Correlation Learning for Cancer Prognosis Prediction ( http://arxiv.org/abs/2201.10353v1 )

ライセンス: Link先を確認
Kaiwen Tan, Weixian Huang, Xiaofeng Liu, Jinlong Hu, Shoubin Dong(参考訳) 病理組織像およびゲノムデータからの分子プロファイルによる形態的特徴は、診断、予後、がん治療を駆動する重要な情報である。 これらの異質であるが相補的なデータを統合することで、がんの複雑なメカニズムを研究するために多くのマルチモーダル法が提案され、その多くは以前の単一モーダル法と同等あるいはより良い結果が得られる。 しかし、これらのマルチモーダル手法は単一のタスク(例えば、生存分析やグレード分類)に限定されており、異なるタスク間の相関を無視する。 本研究では,マルチタスク相関学習(multi-task correlation learning:multicofusi on)に基づくマルチモーダル融合フレームワークを提案する。 具体的には、予め訓練されたResNet-152とスパースグラフ畳み込みネットワーク(SGCN)を用いて、それぞれ病理像とmRNA発現データの表現を学習する。 次に、これらの表現は、マルチタスク共有ネットワークである完全接続ニューラルネットワーク(FCNN)によって融合される。 最後に、生存率分析とがん分類の結果を同時に出力する。 フレームワークは代替スキームによってトレーニングされる。 The Cancer Genome Atlas (TCGA)のグリオーマデータセットを用いて,我々の枠組みを体系的に評価した。 その結果,マルチコフュージョンは従来の特徴抽出法よりも優れた表現を学習できることがわかった。 マルチタスク交互学習の助けを借りて、単純なマルチモーダル結合でさえ、他のディープラーニングや従来の手法よりも優れたパフォーマンスを達成することができる。 マルチタスク学習は一つのタスクだけでなく複数のタスクのパフォーマンスを向上させることができ、シングルモーダルデータとマルチモーダルデータの両方に有効である。

Morphological attributes from histopathological images and molecular profiles from genomic data are important information to drive diagnosis, prognosis, and therapy of cancers. By integrating these heterogeneous but complementary data, many multi-modal methods are proposed to study the complex mechanisms of cancers, and most of them achieve comparable or better results from previous single-modal methods. However, these multi-modal methods are restricted to a single task (e.g., survival analysis or grade classification), and thus neglect the correlation between different tasks. In this study, we present a multi-modal fusion framework based on multi-task correlation learning (MultiCoFusion) for survival analysis and cancer grade classification, which combines the power of multiple modalities and multiple tasks. Specifically, a pre-trained ResNet-152 and a sparse graph convolutional network (SGCN) are used to learn the representations of histopathological images and mRNA expression data respectively. Then these representations are fused by a fully connected neural network (FCNN), which is also a multi-task shared network. Finally, the results of survival analysis and cancer grade classification output simultaneously. The framework is trained by an alternate scheme. We systematically evaluate our framework using glioma datasets from The Cancer Genome Atlas (TCGA). Results demonstrate that MultiCoFusion learns better representations than traditional feature extraction methods. With the help of multi-task alternating learning, even simple multi-modal concatenation can achieve better performance than other deep learning and traditional methods. Multi-task learning can improve the performance of multiple tasks not just one of them, and it is effective in both single-modal and multi-modal data.
翻訳日:2022-01-26 14:06:34 公開日:2022-01-22
# DCNGAN:圧縮ビデオの知覚品質向上のためのQP適応による変形可能な畳み込み型GAN

DCNGAN: A Deformable Convolutional-Based GAN with QP Adaptation for Perceptual Quality Enhancement of Compressed Video ( http://arxiv.org/abs/2201.08944v1 )

ライセンス: Link先を確認
Saiping Zhang, Luis Herranz, Marta Mrak, Marc Gorriz Blanch, Shuai Wan and Fuzheng Yang(参考訳) 本稿では,圧縮ビデオの知覚的品質向上のための変形可能な畳み込み型生成対向ネットワーク(DCNGAN)を提案する。 DCNGANは量子化パラメータ(QP)にも適応する。 光流に比べ、変形可能な畳み込みはフレームを整列するのに効果的で効率的である。 変形可能な畳み込みは複数のフレームで動作し、より時間的情報を活用することで圧縮ビデオの知覚品質を向上させることができる。 フレームをペアで並べる代わりに、変形可能な畳み込みは複数のフレームを同時に処理することができ、計算の複雑さが低下する。 実験の結果,dcnganは他の圧縮映像品質向上アルゴリズムよりも優れていた。

In this paper, we propose a deformable convolution-based generative adversarial network (DCNGAN) for perceptual quality enhancement of compressed videos. DCNGAN is also adaptive to the quantization parameters (QPs). Compared with optical flows, deformable convolutions are more effective and efficient to align frames. Deformable convolutions can operate on multiple frames, thus leveraging more temporal information, which is beneficial for enhancing the perceptual quality of compressed videos. Instead of aligning frames in a pairwise manner, the deformable convolution can process multiple frames simultaneously, which leads to lower computational complexity. Experimental results demonstrate that the proposed DCNGAN outperforms other state-of-the-art compressed video quality enhancement algorithms.
翻訳日:2022-01-25 17:52:09 公開日:2022-01-22
# 拡散型全光学計算による定量的位相イメージング

Diffractive all-optical computing for quantitative phase imaging ( http://arxiv.org/abs/2201.08964v1 )

ライセンス: Link先を確認
Deniz Mengu and Aydogan Ozcan(参考訳) quantitative phase imaging (qpi) は、標本の光学的経路長情報を提供するラベルフリーな計算イメージング技術である。 現代の実装では、オブジェクトの定量的位相像は、しばしば反復アルゴリズムを用いて、コンピュータ内で実行される数値的手法によってデジタル的に再構成される。 本稿では,シーンの入力位相情報を出力面の強度変動に変換することで,物体の定量的位相像を合成できる拡散型qpiネットワークを示す。 微分QPIネットワーク(diffractive QPI network)は、深層学習と画像データを用いて空間的に設計された受動微分曲面による定量的位相-強度変換を実現するために設計された、特殊な全光学プロセッサである。 波長の約200-300倍の波長で軸方向に伸びるコンパクトな全光学ネットワークを形成することにより、従来のQPIシステムと関連するデジタル計算負荷を受動透過層に置き換えることができる。 全光回折QPIネットワークは、例えばオンチップ顕微鏡やセンシングなど、様々な用途に有用な電力効率が高く、フレームレートが高く、コンパクトな位相イメージングシステムを実現することができる。

Quantitative phase imaging (QPI) is a label-free computational imaging technique that provides optical path length information of specimens. In modern implementations, the quantitative phase image of an object is reconstructed digitally through numerical methods running in a computer, often using iterative algorithms. Here, we demonstrate a diffractive QPI network that can synthesize the quantitative phase image of an object by converting the input phase information of a scene into intensity variations at the output plane. A diffractive QPI network is a specialized all-optical processor designed to perform a quantitative phase-to-intensity transformation through passive diffractive surfaces that are spatially engineered using deep learning and image data. Forming a compact, all-optical network that axially extends only ~200-300 times the illumination wavelength, this framework can replace traditional QPI systems and related digital computational burden with a set of passive transmissive layers. All-optical diffractive QPI networks can potentially enable power-efficient, high frame-rate and compact phase imaging systems that might be useful for various applications, including, e.g., on-chip microscopy and sensing.
翻訳日:2022-01-25 17:51:57 公開日:2022-01-22
# NAS-VAD:音声活動検出のためのニューラルネットワーク探索

NAS-VAD: Neural Architecture Search for Voice Activity Detection ( http://arxiv.org/abs/2201.09032v1 )

ライセンス: Link先を確認
Daniel Rho, Jinhyeok Park, and Jong Hwan Ko(参考訳) ディープニューラルネットワークの自動設計の必要性は、手動設計モデルよりも優れたモデルを生成するニューラルネットワークサーチ(NAS)の出現につながった。 しかし、既存のNASフレームワークのほとんどは画像処理タスク用に設計されており、音声活動検出(VAD)タスクに有効な構造や操作が欠けている。 自動設計により改良されたVADモデルを発見するために,VADタスクに最適化されたNASフレームワークを提案する。 提案するNAS-VADフレームワークは, より少ないセルにコンパクトなマクロ構造を組み込んで, 既存の検索空間をアテンション機構で拡張する。 実験の結果,NAS-VADによって発見されたモデルは,様々な合成および実世界のデータセットにおいて,既存の手動設計のVADモデルよりも優れていた。 私たちのコードとモデルはhttps://github.com/d aniel03c1/nas_vadで利用可能です。

The need for automatic design of deep neural networks has led to the emergence of neural architecture search (NAS), which has generated models outperforming manually-designed models. However, most existing NAS frameworks are designed for image processing tasks, and lack structures and operations effective for voice activity detection (VAD) tasks. To discover improved VAD models through automatic design, we present the first work that proposes a NAS framework optimized for the VAD task. The proposed NAS-VAD framework expands the existing search space with the attention mechanism while incorporating the compact macro-architecture with fewer cells. The experimental results show that the models discovered by NAS-VAD outperform the existing manually-designed VAD models in various synthetic and real-world datasets. Our code and models are available at https://github.com/d aniel03c1/NAS_VAD.
翻訳日:2022-01-25 17:49:09 公開日:2022-01-22
# 優れた分類方法とそれらをどのように見つけるか

Good Classification Measures and How to Find Them ( http://arxiv.org/abs/2201.09044v1 )

ライセンス: Link先を確認
Martijn G\"osgens, Anton Zhiyanov, Alexey Tikhonov, Liudmila Prokhorenkova(参考訳) 分類結果の評価には、精度、F測定など、いくつかのパフォーマンス指標を用いることができる。 それらのいくつかは他のものよりも優れている、あるいは理想的には、すべての状況において最良の1つの尺度を選ぶことができるだろうか? 我々は望ましい特性のリストを形式的に定義し、どの指標がどの特性を満足しているかを理論的に分析する。 また、いくつかの望ましい性質を同時に満たすことができないという不合理性定理も証明する。 最後に,これら以外のすべての望ましい性質を満たす新しい尺度群を提案する。 この族はマシューズ相関係数と、以前は分類文献で用いられていなかったいわゆる対称平衡精度を含む。 当社の体系的アプローチは,分類結果を適切に評価する上で,実践者にとって重要なツールであると信じています。

Several performance measures can be used for evaluating classification results: accuracy, F-measure, and many others. Can we say that some of them are better than others, or, ideally, choose one measure that is best in all situations? To answer this question, we conduct a systematic analysis of classification performance measures: we formally define a list of desirable properties and theoretically analyze which measures satisfy which properties. We also prove an impossibility theorem: some desirable properties cannot be simultaneously satisfied. Finally, we propose a new family of measures satisfying all desirable properties except one. This family includes the Matthews Correlation Coefficient and a so-called Symmetric Balanced Accuracy that was not previously used in classification literature. We believe that our systematic approach gives an important tool to practitioners for adequately evaluating classification results.
翻訳日:2022-01-25 17:48:56 公開日:2022-01-22
# CNNによるCT画像再構成の正規化

CNN-based regularisation for CT image reconstructions ( http://arxiv.org/abs/2201.09132v1 )

ライセンス: Link先を確認
Attila Juhos(参考訳) X線CTインフラ(X-ray Computed Tomography Infrastructures)は、被検物体を横断する光の取得に頼り、その強度低下を計測する医療画像モダリティである。 物理測定は数式再構成アルゴリズムによって後処理され、計算された体積場に対してより弱いか最上位の整合性を保証する。 低ノイズ測定が供給されていることを考慮し、優れた結果が得られる。 それでも、このような走査過程は、被検体を望ましくないほど大きな強度と長い電離放射線に曝し、深刻な健康リスクをもたらす。 この研究の主な目的の1つは、品質性能を安定させながら投射数を減らすことである。 このアンダーサンプリングのため、光子-電子相互作用によって発生するノイズは、現在再構成されたアーティファクトによって補われている。 近年, 深層学習, 特に完全畳み込みネットワークが広く研究され, 偏差のフィルタリングに有効であることが証明されている。 本報告では,疑わしいボリュームの低品質再構築のスライスを入力として,理想的と考えられる再構築にマッピングすることを目的としたアルゴリズムを提示する。 その上、最初のシステムは2つの追加要素から構成される: 第一に、測定されたシングラムとの整合性を確保し、第二に、古典的な圧縮サンプリング理論で提案された制約に固執する。 第二の方法は、復元の逆問題を解決する古典的な方法にインスパイアされたものであり、正しい結果の方向に仮説を正則化する反復的なアプローチをとる。

X-ray computed tomographic infrastructures are medical imaging modalities that rely on the acquisition of rays crossing examined objects while measuring their intensity decrease. Physical measurements are post-processed by mathematical reconstruction algorithms that may offer weaker or top-notch consistency guarantees on the computed volumetric field. Superior results are provided on the account of an abundance of low-noise measurements being supplied. Nonetheless, such a scanning process would expose the examined body to an undesirably large-intensity and long-lasting ionising radiation, imposing severe health risks. One main objective of the ongoing research is the reduction of the number of projections while keeping the quality performance stable. Due to the under-sampling, the noise occurring inherently because of photon-electron interactions is now supplemented by reconstruction artifacts. Recently, deep learning methods, especially fully convolutional networks have been extensively investigated and proven to be efficient in filtering such deviations. In this report algorithms are presented that take as input a slice of a low-quality reconstruction of the volume in question and aim to map it to the reconstruction that is considered ideal, the ground truth. Above that, the first system comprises two additional elements: firstly, it ensures the consistency with the measured sinogram, secondly it adheres to constraints proposed in classical compressive sampling theory. The second one, inspired by classical ways of solving the inverse problem of reconstruction, takes an iterative approach to regularise the hypothesis in the direction of the correct result.
翻訳日:2022-01-25 17:48:44 公開日:2022-01-22
# 位相SLAM:位相に基づく移動構造照明システムの同時局在とマッピング

Phase-SLAM: Phase Based Simultaneous Localization and Mapping for Mobile Structured Light Illumination Systems ( http://arxiv.org/abs/2201.09048v1 )

ライセンス: Link先を確認
Xi Zheng, Rui Ma, Rui Gao, and Qi Hao(参考訳) SLI(Structured Light Illumination)システムは、位相三角測量による高密度屋内3次元走査に利用されている。 しかし、360度3次元再構成のためのモバイルSLIシステムは、高い計算複雑性を含む3Dポイントクラウドの登録を要求する。 本稿では,高速かつ高精度なSLIセンサのポーズ推定と3次元オブジェクト再構成のための位相ベース同時局在マッピング(Phase-SLAM)フレームワークを提案する。 本研究の目新しさは,(1)3次元点から2次元位相データへの再投影モデルの開発,(2)6自由度変数に対するヤコビ行列を用いたsliセンサポーズ推定(オドメトリ)を実現する局所最適化器の開発,(3)高効率ループクロージャ検出のための圧縮位相比較法の開発,の3つである。 フェーズ-SLAMパイプライン全体は、既存のグローバルポーズグラフ最適化技術を用いて利用される。 提案手法を検証するために,非現実的なシミュレーションプラットフォームとロボットアームベースのSLIシステムの両方からデータセットを構築した。 実験の結果,提案手法はポーズ推定と3次元再構成の効率と精度で他の最先端手法よりも優れていた。 オープンソースコードはhttps://github.com/z hengxi-git/phase-sla mで入手できる。

Structured Light Illumination (SLI) systems have been used for reliable indoor dense 3D scanning via phase triangulation. However, mobile SLI systems for 360 degree 3D reconstruction demand 3D point cloud registration, involving high computational complexity. In this paper, we propose a phase based Simultaneous Localization and Mapping (Phase-SLAM) framework for fast and accurate SLI sensor pose estimation and 3D object reconstruction. The novelty of this work is threefold: (1) developing a reprojection model from 3D points to 2D phase data towards phase registration with low computational complexity; (2) developing a local optimizer to achieve SLI sensor pose estimation (odometry) using the derived Jacobian matrix for the 6 DoF variables; (3) developing a compressive phase comparison method to achieve high-efficiency loop closure detection. The whole Phase-SLAM pipeline is then exploited using existing global pose graph optimization techniques. We build datasets from both the unreal simulation platform and a robotic arm based SLI system in real-world to verify the proposed approach. The experiment results demonstrate that the proposed Phase-SLAM outperforms other state-of-the-art methods in terms of the efficiency and accuracy of pose estimation and 3D reconstruction. The open-source code is available at https://github.com/Z HENGXi-git/Phase-SLA M.
翻訳日:2022-01-25 17:22:25 公開日:2022-01-22
# 低データレジームにおける画像分類のための補助分類GANの可能性の検討

Investigating the Potential of Auxiliary-Classifier GANs for Image Classification in Low Data Regimes ( http://arxiv.org/abs/2201.09120v1 )

ライセンス: Link先を確認
Amil Dravid, Florian Schiffers, Yunan Wu, Oliver Cossairt, Aggelos K. Katsaggelos(参考訳) GAN(Generative Adversarial Networks)は、データセットの強化と、画像分類タスクにおける畳み込みニューラルネットワーク(CNN)のパフォーマンス向上を約束している。 しかし、チューニングのためのハイパーパラメータや、cnnの補足的なトレーニングに余分な時間と計算能力が必要になる。 本研究では, 画像分類における「ワンストップショップ」アーキテクチャとして, 特に低データ構造において, Auxiliary-Classifier GANs (AC-GANs) の可能性を検討する。 さらに,一般的なac-ganフレームワークの改良や,ジェネレータの潜在空間サンプリング方式の変更,画像合成と分類の同時学習を安定化するために勾配ペナルティ付きwasserstein損失を用いた。 解像度や複雑さの異なる画像に対する実験を通じて、ac-gansは画像分類において有望性を示し、標準cnnと競合する性能を達成することを実証する。 これらの方法は、大量のトレーニングデータがない場合に、特定のユーティリティを持つ'オールインワン'フレームワークとして使用できる。

Generative Adversarial Networks (GANs) have shown promise in augmenting datasets and boosting convolutional neural networks' (CNN) performance on image classification tasks. But they introduce more hyperparameters to tune as well as the need for additional time and computational power to train supplementary to the CNN. In this work, we examine the potential for Auxiliary-Classifier GANs (AC-GANs) as a 'one-stop-shop' architecture for image classification, particularly in low data regimes. Additionally, we explore modifications to the typical AC-GAN framework, changing the generator's latent space sampling scheme and employing a Wasserstein loss with gradient penalty to stabilize the simultaneous training of image synthesis and classification. Through experiments on images of varying resolutions and complexity, we demonstrate that AC-GANs show promise in image classification, achieving competitive performance with standard CNNs. These methods can be employed as an 'all-in-one' framework with particular utility in the absence of large amounts of training data.
翻訳日:2022-01-25 17:22:01 公開日:2022-01-22
# 新しい「吸引」ツールを用いた棚の機械的探索

Mechanical Search on Shelves using a Novel "Bluction" Tool ( http://arxiv.org/abs/2201.08968v1 )

ライセンス: Link先を確認
Huang Huang, Michael Danielczuk, Chung Min Kim, Letian Fu, Zachary Tam, Jeffrey Ichnowski, Anelia Angelova, Brian Ichter, and Ken Goldberg(参考訳) 棚はその貯蔵効率のため、家、倉庫、商業施設で一般的である。 しかし、この効率性は可視性とアクセシビリティを低下させるコストがかかる。 棚の側面(側面)から見ると、ほとんどの物体は完全に閉塞され、制約された横方向アクセスの機械的探索問題が発生する。 この問題に対処するために,(1)薄い押出刃と吸引カップグッパーを組み合わせた新しい吹出しツール,(2)改良されたLAX-RAYシミュレーションパイプラインと2Dミンコフスキー和を併用して目標占有率分布を効率的に生成する知覚モデル,(3)この吹出しツールを用いて対象物分布支援領域を最適に削減するSLAX-RAY検索ポリシーを提案する。 2000年のシミュレートされた棚の試行と18回の試行の結果から、吸入把握動作を用いた場合、シミュレーションでは26%、物理環境では67%の精度でプッシュオンリーのポリシーを達成できたことが示唆された。

Shelves are common in homes, warehouses, and commercial settings due to their storage efficiency. However, this efficiency comes at the cost of reduced visibility and accessibility. When looking from a side (lateral) view of a shelf, most objects will be fully occluded, resulting in a constrained lateral-access mechanical search problem. To address this problem, we introduce: (1) a novel bluction tool, which combines a thin pushing blade and suction cup gripper, (2) an improved LAX-RAY simulation pipeline and perception model that combines ray-casting with 2D Minkowski sums to efficiently generate target occupancy distributions, and (3) a novel SLAX-RAY search policy, which optimally reduces target object distribution support area using the bluction tool. Experimental data from 2000 simulated shelf trials and 18 trials with a physical Fetch robot equipped with the bluction tool suggest that using suction grasping actions improves the success rate over the highest performing push-only policy by 26% in simulation and 67% in physical environments.
翻訳日:2022-01-25 17:14:33 公開日:2022-01-22
# bi-clkt:複グラフコントラスト学習に基づく知識トレース

Bi-CLKT: Bi-Graph Contrastive Learning based Knowledge Tracing ( http://arxiv.org/abs/2201.09020v1 )

ライセンス: Link先を確認
Xiangyu Song, Jianxin Li, Qi Lei, Wei Zhao, Yunliang Chen, Ajmal Mian(参考訳) 知識追跡(KT)の目的は、学生が関連する演習の歴史的学習に基づいて、いかにして概念を習得したかを推定することである。 知識追跡の利点は、学生の学習計画をより組織化し、調整し、必要に応じて介入することができることである。 近年のディープラーニングの台頭に伴い、Deep Knowledge Tracing(DKT)は、リカレントニューラルネットワーク(RNN)を使用して、このタスクをある程度の成功に導いた。 他の研究では、グラフニューラルネットワーク(GNN)を導入して、大幅な改善を実現するためにタスクを再定義しようと試みている。 しかし、これらの努力は下記の欠点の少なくとも1つに苦しむ。 1) 彼らは,高レベルの意味情報よりも,ノードの詳細に注意を払っている。 2)ノードの空間的関連や複雑な構造を効果的に確立するのに苦労する。 3)それらを統合することなく、概念または運動のみを表現する。 近年の自己教師型学習の進歩に触発されて,これらの制約に対処するためのBi-Graph Contrastive Learning based Knowledge Tracing (Bi-CLKT)を提案する。 具体的には,"exercise-to-exercise "(e2e)関係部分グラフに基づく2層コントラスト学習スキームを設計する。 これには、演習の識別的表現を得るために、グラフのノードレベルのコントラスト学習と、概念の識別的表現を得るためにグラフレベルのコントラスト学習が含まれる。 さらに,良好な表現と予測性能を得るために,協調的なコントラスト損失を設計した。 また、RNNとメモリ拡張ニューラルネットワークをそれぞれ比較し、エクササイズと概念の表現性を改善するための予測層として用いた2つの異なる変種についても検討した。 4つの実世界のデータセットに対する大規模な実験は、提案されたBi-CLKTとその変種が他のベースラインモデルより優れていることを示している。

The goal of Knowledge Tracing (KT) is to estimate how well students have mastered a concept based on their historical learning of related exercises. The benefit of knowledge tracing is that students' learning plans can be better organised and adjusted, and interventions can be made when necessary. With the recent rise of deep learning, Deep Knowledge Tracing (DKT) has utilised Recurrent Neural Networks (RNNs) to accomplish this task with some success. Other works have attempted to introduce Graph Neural Networks (GNNs) and redefine the task accordingly to achieve significant improvements. However, these efforts suffer from at least one of the following drawbacks: 1) they pay too much attention to details of the nodes rather than to high-level semantic information; 2) they struggle to effectively establish spatial associations and complex structures of the nodes; and 3) they represent either concepts or exercises only, without integrating them. Inspired by recent advances in self-supervised learning, we propose a Bi-Graph Contrastive Learning based Knowledge Tracing (Bi-CLKT) to address these limitations. Specifically, we design a two-layer contrastive learning scheme based on an "exercise-to-exercise " (E2E) relational subgraph. It involves node-level contrastive learning of subgraphs to obtain discriminative representations of exercises, and graph-level contrastive learning to obtain discriminative representations of concepts. Moreover, we designed a joint contrastive loss to obtain better representations and hence better prediction performance. Also, we explored two different variants, using RNN and memory-augmented neural networks as the prediction layer for comparison to obtain better representations of exercises and concepts respectively. Extensive experiments on four real-world datasets show that the proposed Bi-CLKT and its variants outperform other baseline models.
翻訳日:2022-01-25 17:14:12 公開日:2022-01-22
# トポロジカルデータ解析とクラスタリング

Topological data analysis and clustering ( http://arxiv.org/abs/2201.09054v1 )

ライセンス: Link先を確認
Dimitrios Panagopoulos(参考訳) クラスタリングは機械学習の最も一般的なタスクの1つです。 本稿では,トポロジからのアイデアをクラスタリング技術の改善に利用する方法について検討する。

Clustering is one of the most common tasks of Machine Learning. In this paper we examine how ideas from topology can be used to improve clustering techniques.
翻訳日:2022-01-25 17:13:39 公開日:2022-01-22
# 階層型コミュニティ構造の合同学習とノード表現:教師なしアプローチ

Joint Learning of Hierarchical Community Structure and Node Representations: An Unsupervised Approach ( http://arxiv.org/abs/2201.09086v1 )

ライセンス: Link先を確認
Ancy Sarah Tom, Nesreen K. Ahmed, and George Karypis(参考訳) グラフ表現学習は、リンク予測やさまざまなドメインにわたるノード分類といったタスクのパフォーマンス向上を実証した。 研究により、多くの自然グラフが階層的なコミュニティで組織化可能であることが示され、これらのコミュニティを使ってノード表現の質を向上させるアプローチが導かれる。 しかし,これらの手法は,発見コミュニティの品質向上や,表現学習とコミュニティ発見の反復的,共同的な最適化を確立するために,学習表現を活用しない。 本研究では,階層的なコミュニティ構造とグラフのノード表現を教師なしで共同で学習するアルゴリズムであるMaziを紹介する。 ノード表現の構造を説明するために、Maziは階層の各レベルでノード表現を生成し、それらを元のグラフのノード表現に影響を与えるために利用する。 さらに、モジュラリティ計量を最大化し、ノードとそのコミュニティの表現間の距離を最小化することにより、各レベルのコミュニティが発見される。 マルチラベルノード分類とリンク予測タスクを用いて,様々な合成および実世界のグラフ上での手法の評価を行い,Maziが他の階層的および非階層的手法より優れていることを示す。

Graph representation learning has demonstrated improved performance in tasks such as link prediction and node classification across a range of domains. Research has shown that many natural graphs can be organized in hierarchical communities, leading to approaches that use these communities to improve the quality of node representations. However, these approaches do not take advantage of the learned representations to also improve the quality of the discovered communities and establish an iterative and joint optimization of representation learning and community discovery. In this work, we present Mazi, an algorithm that jointly learns the hierarchical community structure and the node representations of the graph in an unsupervised fashion. To account for the structure in the node representations, Mazi generates node representations at each level of the hierarchy, and utilizes them to influence the node representations of the original graph. Further, the communities at each level are discovered by simultaneously maximizing the modularity metric and minimizing the distance between the representations of a node and its community. Using multi-label node classification and link prediction tasks, we evaluate our method on a variety of synthetic and real-world graphs and demonstrate that Mazi outperforms other hierarchical and non-hierarchical methods.
翻訳日:2022-01-25 17:12:52 公開日:2022-01-22
# glassoformer: 電力グリッド後電圧予測のためのクエリスパース変換器

glassoformer: a query-sparse transformer for post-fault power grid voltage prediction ( http://arxiv.org/abs/2201.09145v1 )

ライセンス: Link先を確認
Yunling Zheng, Carson Hu, Guang Lin, Meng Yue, Bao Wang, Jack Xin(参考訳) 本研究では,グループラッソ正則化を応用し,標準自己着脱機構のクエリ数を削減する,新規で効率的な変圧器アーキテクチャであるglassoformerを提案する。 クエリが分散しているため、GLassoformerは標準変換器よりも計算効率が良い。 GLassoformerは、電源グリッド後電圧予測タスクにおいて、精度と安定性の観点から、既存の多くのベンチマークアルゴリズムよりも驚くほど優れた予測結果を示す。

We propose GLassoformer, a novel and efficient transformer architecture leveraging group Lasso regularization to reduce the number of queries of the standard self-attention mechanism. Due to the sparsified queries, GLassoformer is more computationally efficient than the standard transformers. On the power grid post-fault voltage prediction task, GLassoformer shows remarkably better prediction than many existing benchmark algorithms in terms of accuracy and stability.
翻訳日:2022-01-25 17:12:33 公開日:2022-01-22
# pico:部分的ラベル学習のための対比ラベル曖昧化

PiCO: Contrastive Label Disambiguation for Partial Label Learning ( http://arxiv.org/abs/2201.08984v1 )

ライセンス: Link先を確認
Haobo Wang, Ruixuan Xiao, Yixuan Li, Lei Feng, Gang Niu, Gang Chen, Junbo Zhao(参考訳) 部分ラベル学習(Partial label learning, PLL)は、各トレーニング例を粗い候補セットでラベル付けできる重要な問題である。 約束にもかかわらず、PLLのパフォーマンスは、しばしば監督対象よりも遅れている。 本研究では,PLLにおける2つの重要な研究課題 – 表現学習とラベル曖昧化 – を,一貫したフレームワークで解決することで,ギャップを埋める。 特に,提案フレームワークであるpicoは,新しいクラスプロトタイプに基づくラベル曖昧化アルゴリズムとともに,コントラスト学習モジュールで構成されている。 PiCOは、同じクラスからサンプルに対して密に整列した表現を生成し、ラベルの曖昧さを促進する。 理論的には、これら2つの成分は相互に有益であり、期待最大化(em)アルゴリズムの観点から厳密に正当化できることを示す。 大規模な実験により、PiCOはPLLにおける最先端のアプローチを著しく上回り、完全に教師付き学習と同等の結果を得ることを示した。 コードとデータは、https://github.com/h bzju/PiCO。

Partial label learning (PLL) is an important problem that allows each training example to be labeled with a coarse candidate set, which well suits many real-world data annotation scenarios with label ambiguity. Despite the promise, the performance of PLL often lags behind the supervised counterpart. In this work, we bridge the gap by addressing two key research challenges in PLL -- representation learning and label disambiguation -- in one coherent framework. Specifically, our proposed framework PiCO consists of a contrastive learning module along with a novel class prototype-based label disambiguation algorithm. PiCO produces closely aligned representations for examples from the same classes and facilitates label disambiguation. Theoretically, we show that these two components are mutually beneficial, and can be rigorously justified from an expectation-maximiza tion (EM) algorithm perspective. Extensive experiments demonstrate that PiCO significantly outperforms the current state-of-the-art approaches in PLL and even achieves comparable results to fully supervised learning. Code and data available: https://github.com/h bzju/PiCO.
翻訳日:2022-01-25 16:15:57 公開日:2022-01-22
# chi-squared test と hyper-parameter optimization による異なる機械学習分類器を用いた造血幹細胞移植後の生存予測 : ふりかえり解析

Survival Prediction of Children Undergoing Hematopoietic Stem Cell Transplantation Using Different Machine Learning Classifiers by Performing Chi-squared Test and Hyper-parameter Optimization: A Retrospective Analysis ( http://arxiv.org/abs/2201.08987v1 )

ライセンス: Link先を確認
Ishrak Jahan Ratul, Ummay Habiba Wani, Mirza Muntasir Nishat, Abdullah Al-Monsur, Abrar Mohammad Ar-Rafi, Fahim Faisal, and Mohammad Ridwan Kabir(参考訳) 骨髄移植は、骨髄から発生する広範囲の障害に対する段階的救助であり、効果的な外科治療である。 移植後疾患、新しい悪性腫瘍、臓器損傷などいくつかの危険因子は、長期生存を損なう可能性がある。 したがって、機械学習のような技術は、BMT受信機の生存予測とレジリエンスを制限する影響を調査するためにデプロイされる。 本研究では,次元問題に対処するためのchi-squared特徴選択法と,精度を高めるためにhpo(hyper parameter optimization)を組み込んだ,効率的な生存分類モデルを提案する。 欠落した値を入力し、ダミー変数符号化を用いてデータを変換し、チ二乗特徴選択を用いて59個の特徴から11個の最も相関した特徴へデータセットを圧縮して合成データセットを生成する。 データセットは80:20の比率で列車とテストセットに分割され、ハイパーパラメータはグリッドサーチクロスバリデーションを使用して最適化された。 この点に関しては、Decision Tree、Random Forest、Logistic Regression、K-Nearest Neighbors、Gradient Boosting Classifier、Ada Boost、XG Boostなどの教師付きMLメソッドがトレーニングされた。 シミュレーションは、オリジナルの合成データセットと縮小された合成データセットを使用して、デフォルトと最適化されたハイパーパラメータの両方で実行される。 Chi-squaredテストを用いて機能をランク付けした後、HPOの上位11の機能はデフォルトパラメータを持つデータセット全体と同じ精度(94.73%)で予測された。 さらに,BMTを施行した子どもの生存率を予測するには,時間と資源の削減が必要である。 したがって,提案手法は,医療データを利用したコンピュータ支援診断システムの開発に有効であり,計算時間も最小限である。

Bone Marrow Transplant, a gradational rescue for a wide range of disorders emanating from the bone marrow, is an efficacious surgical treatment. Several risk factors, such as post-transplant illnesses, new malignancies, and even organ damage, can impair long-term survival. Therefore, technologies like Machine Learning are deployed for investigating the survival prediction of BMT receivers along with the influences that limit their resilience. In this study, an efficient survival classification model is presented in a comprehensive manner, incorporating the Chi-squared feature selection method to address the dimensionality problem and Hyper Parameter Optimization (HPO) to increase accuracy. A synthetic dataset is generated by imputing the missing values, transforming the data using dummy variable encoding, and compressing the dataset from 59 features to the 11 most correlated features using Chi-squared feature selection. The dataset was split into train and test sets at a ratio of 80:20, and the hyperparameters were optimized using Grid Search Cross-Validation. Several supervised ML methods were trained in this regard, like Decision Tree, Random Forest, Logistic Regression, K-Nearest Neighbors, Gradient Boosting Classifier, Ada Boost, and XG Boost. The simulations have been performed for both the default and optimized hyperparameters by using the original and reduced synthetic dataset. After ranking the features using the Chi-squared test, it was observed that the top 11 features with HPO, resulted in the same accuracy of prediction (94.73%) as the entire dataset with default parameters. Moreover, this approach requires less time and resources for predicting the survivability of children undergoing BMT. Hence, the proposed approach may aid in the development of a computer-aided diagnostic system with satisfactory accuracy and minimal computation time by utilizing medical data records.
翻訳日:2022-01-25 16:15:38 公開日:2022-01-22
# 逆摂動に対する対実的説明のロバスト性について

On the Robustness of Counterfactual Explanations to Adverse Perturbations ( http://arxiv.org/abs/2201.09051v1 )

ライセンス: Link先を確認
Marco Virgolin and Saverio Fracaros(参考訳) 対実的説明(CE)は、アルゴリズムによる決定をどのように変更するかを理解するための強力な手段である。 研究者たちは、cesが実際に有効になるためには最小限の努力が必要、因果モデルに従うなど、いくつかのデシデラータを提案している。 我々は、CEのユーザビリティを改善するための更なる側面として、不運な状況によって自然に起こる有害な摂動に対する堅牢性を考える。 一般的にcesは、ばらばらな形式の介入(つまり、機能のサブセットのみを変更するべきだ)を規定しているため、私たちは、それぞれ、変更すべき機能と、その状態を維持するための2つの堅牢性の定義を提供する。 これらの定義は、CEの発見に使用される損失関数のペナルティ項として組み込むことが可能である。 提案したロバスト性の定義を実験するために、5つのデータセット(通常、公正で説明可能な機械学習の分野で使用される)が有意義な摂動をサンプリングするのに使える機能固有のアノテーションで濃縮されたコードを作成し、リリースする。 我々の実験は、CEがしばしば堅牢ではないことを示し、もし有害な摂動が発生した場合、彼らが要求する介入は予想よりもはるかにコストがかかるか、あるいは不可能になるかもしれないことを示している。 しかし,検索プロセスにおけるロバスト性の説明は比較的容易であり,体系的にロバストCEを発見できる。 ロバストCEは有害な摂動に対して耐性があり、コントラストな摂動に対する追加の介入は、非破壊CEよりもはるかにコストがかかる。 私たちのコードは、https://github.com/m arcovirgolin/robust- counterfactualsで利用可能です。

Counterfactual explanations (CEs) are a powerful means for understanding how decisions made by algorithms can be changed. Researchers have proposed a number of desiderata that CEs should meet to be practically useful, such as requiring minimal effort to enact, or complying with causal models. We consider a further aspect to improve the usability of CEs: robustness to adverse perturbations, which may naturally happen due to unfortunate circumstances. Since CEs typically prescribe a sparse form of intervention (i.e., only a subset of the features should be changed), we provide two definitions of robustness, which concern, respectively, the features to change and to keep as they are. These definitions are workable in that they can be incorporated as penalty terms in the loss functions that are used for discovering CEs. To experiment with the proposed definitions of robustness, we create and release code where five data sets (commonly used in the field of fair and explainable machine learning) have been enriched with feature-specific annotations that can be used to sample meaningful perturbations. Our experiments show that CEs are often not robust and, if adverse perturbations take place, the intervention they prescribe may require a much larger cost than anticipated, or even become impossible. However, accounting for robustness in the search process, which can be done rather easily, allows discovering robust CEs systematically. Robust CEs are resilient to adverse perturbations: additional intervention to contrast perturbations is much less costly than for non-robust CEs. Our code is available at: https://github.com/m arcovirgolin/robust- counterfactuals
翻訳日:2022-01-25 16:15:03 公開日:2022-01-22
# 神経相関:ニューラルネットワークにおける中心概念

Neuronal Correlation: a Central Concept in Neural Network ( http://arxiv.org/abs/2201.09069v1 )

ライセンス: Link先を確認
Gaojie Jin, Xinping Yi, Xiaowei Huang(参考訳) 本稿では,ニューラルネットワークをニューラルネットワークの相関関係の統計的尺度である神経相関を用いて研究することを提案する。 神経相関は, 重み行列を用いて効率的に推定でき, 層構造を通して効果的に実施でき, ネットワークの一般化能力の強い指標であることを示す。 さらに,高次元隠れ空間におけるエントロピー推定の精度にニューロン相関が大きな影響を与えていることを示す。 従来の推定手法は,神経細胞の独立性に対する暗黙の仮定により,重大な不正確性にさらされる可能性があるが,神経相関を考慮し,エントロピーの効率的かつ真正な計算を行う新しい計算手法を提案する。 そこで我々は,ニューラルネットワークの中枢概念としてニューラル相関を導入する。

This paper proposes to study neural networks through neuronal correlation, a statistical measure of correlated neuronal activity on the penultimate layer. We show that neuronal correlation can be efficiently estimated via weight matrix, can be effectively enforced through layer structure, and is a strong indicator of generalisation ability of the network. More importantly, we show that neuronal correlation significantly impacts on the accuracy of entropy estimation in high-dimensional hidden spaces. While previous estimation methods may be subject to significant inaccuracy due to implicit assumption on neuronal independence, we present a novel computational method to have an efficient and authentic computation of entropy, by taking into consideration the neuronal correlation. In doing so, we install neuronal correlation as a central concept of neural network.
翻訳日:2022-01-25 16:14:33 公開日:2022-01-22
# 予算制約付き水平フェデレーション学習のためのオンラインオークションに基づくインセンティブ機構設計

Online Auction-Based Incentive Mechanism Design for Horizontal Federated Learning with Budget Constraint ( http://arxiv.org/abs/2201.09047v1 )

ライセンス: Link先を確認
Jingwen Zhang, Yuezhou Wu, Rong Pan(参考訳) フェデレーション学習は、プライバシー保護を満足しながら、データ分離を持つすべての関係者が協力的かつ効率的にモデルをトレーニングできるようにする。 高品質なモデルを得るには、データと計算能力を持つより高品質な労働者を動機づけるインセンティブ機構が必要である。 既存のインセンティブメカニズムはオフラインのシナリオで適用され、タスクパブリッシャはすべての入札を集め、タスクの前にワーカーを選択する。 しかし、作業の前後で異なる作業員が異なる順序でオンラインで到着することは現実的である。 そこで本稿では,予算制約を伴う水平連合学習のための逆オークションに基づくオンラインインセンティブ機構を提案する。 労働者はオンラインに着くと入札を提出します。 予算が限られているタスクパブリッシャは、到着した労働者の情報を活用して、新しい労働者を選ぶかどうかを決定する。 理論的分析により、我々のメカニズムは十分な予算で予算の実現可能性、計算効率、個人の合理性、消費者主権、時間真理性、コスト真理性を満たすことが証明された。 実験の結果,我々のオンラインメカニズムは効率的であり,高品質なモデルが得られることがわかった。

Federated learning makes it possible for all parties with data isolation to train the model collaboratively and efficiently while satisfying privacy protection. To obtain a high-quality model, an incentive mechanism is necessary to motivate more high-quality workers with data and computing power. The existing incentive mechanisms are applied in offline scenarios, where the task publisher collects all bids and selects workers before the task. However, it is practical that different workers arrive online in different orders before or during the task. Therefore, we propose a reverse auction-based online incentive mechanism for horizontal federated learning with budget constraint. Workers submit bids when they arrive online. The task publisher with a limited budget leverages the information of the arrived workers to decide on whether to select the new worker. Theoretical analysis proves that our mechanism satisfies budget feasibility, computational efficiency, individual rationality, consumer sovereignty, time truthfulness, and cost truthfulness with a sufficient budget. The experimental results show that our online mechanism is efficient and can obtain high-quality models.
翻訳日:2022-01-25 16:12:12 公開日:2022-01-22
# 敵対的リスクの多面性

The Many Faces of Adversarial Risk ( http://arxiv.org/abs/2201.08956v1 )

ライセンス: Link先を確認
Muni Sreenivas Pydi, Varun Jog(参考訳) 敵対的リスクは、敵対的摂動データにおける分類器の性能を定量化する。 数学的に厳密で、詳細で微妙に異なる、敵対的リスクの多くの定義が文献に現れている。 本稿では、これらの定義を再検討し、厳密にし、それらの類似点と相違点を批判的に検証する。 我々の技術ツールは、最適輸送、ロバスト統計、機能解析、ゲーム理論に由来する。 Our contributions include the following: generalizing Strassen's theorem to the unbalanced optimal transport setting with applications to adversarial classification with unequal priors; showing an equivalence between adversarial robustness and robust hypothesis testing with $\infty$-Wasserstein uncertainty sets; proving the existence of a pure Nash equilibrium in the two-player game between the adversary and the algorithm; and characterizing adversarial risk by the minimum Bayes error between a pair of distributions belonging to the $\infty$-Wasserstein uncertainty sets. その結果,近年,最適移動と対向ロバスト性の関係が一般化され,コケ容量とゲーム理論との新たなつながりが明らかになった。

Adversarial risk quantifies the performance of classifiers on adversarially perturbed data. Numerous definitions of adversarial risk -- not all mathematically rigorous and differing subtly in the details -- have appeared in the literature. In this paper, we revisit these definitions, make them rigorous, and critically examine their similarities and differences. Our technical tools derive from optimal transport, robust statistics, functional analysis, and game theory. Our contributions include the following: generalizing Strassen's theorem to the unbalanced optimal transport setting with applications to adversarial classification with unequal priors; showing an equivalence between adversarial robustness and robust hypothesis testing with $\infty$-Wasserstein uncertainty sets; proving the existence of a pure Nash equilibrium in the two-player game between the adversary and the algorithm; and characterizing adversarial risk by the minimum Bayes error between a pair of distributions belonging to the $\infty$-Wasserstein uncertainty sets. Our results generalize and deepen recently discovered connections between optimal transport and adversarial robustness and reveal new connections to Choquet capacities and game theory.
翻訳日:2022-01-25 15:28:33 公開日:2022-01-22
# 表情を探索する: 補助分類器生成逆ネットワークを用いた表情生成

Explore the Expression: Facial Expression Generation using Auxiliary Classifier Generative Adversarial Network ( http://arxiv.org/abs/2201.09061v1 )

ライセンス: Link先を確認
J. Rafid Siddiqui(参考訳) 表情は、人間が意味のある情報伝達のためにシームレスに行う非言語コミュニケーションの一形態である。 ほとんどの文献は表情認識の側面を扱っているが、生成モデルが出現すると、表現の集合の単なる分類に加えて、影響空間を探索することができるようになった。 本稿では,複数文字の表情の集合を頑健に生成する生成モデルアーキテクチャを提案する。

Facial expressions are a form of non-verbal communication that humans perform seamlessly for meaningful transfer of information. Most of the literature addresses the facial expression recognition aspect however, with the advent of Generative Models, it has become possible to explore the affect space in addition to mere classification of a set of expressions. In this article, we propose a generative model architecture which robustly generates a set of facial expressions for multiple character identities and explores the possibilities of generating complex expressions by combining the simple ones.
翻訳日:2022-01-25 15:28:05 公開日:2022-01-22
# MIDAS:自然眼球運動パターンによる人間の行動意図の深層学習

MIDAS: Deep learning human action intention prediction from natural eye movement patterns ( http://arxiv.org/abs/2201.09135v1 )

ライセンス: Link先を確認
Paul Festor, Ali Shafti, Alex Harston, Michey Li, Pavel Orlov, A. Aldo Faisal(参考訳) 眼球運動は、長い間、人間の脳の注意機構の窓として研究され、新しいスタイルのヒューマンマシンインタフェースとしてアクセスできるようになった。 しかし、私たちが見ているものすべてが、対話したいものではありません。これは、視線インターフェイスのmidas touch問題として知られています。 Midas Touchの問題を克服するために、現在のインターフェイスは自然の視線に頼らず、居住時間や視線ジェスチャーを使う。 本稿では,自然視の手がかりのみに基づいたオブジェクト操作タスクに対して,人間の意図をデコードするデータ駆動アプローチを提案する。 データ収集実験を行い、16人の参加者が目の前のテーブル上のさまざまなオブジェクトに対して操作や検査のタスクを施されます。 被験者の眼球運動はウェアラブルアイトラッカーを用いて記録され、参加者は自由に頭を動かしてシーンを見渡すことができる。 私たちはセマンティックなfovea、畳み込みニューラルネットワークモデルを使用して、シーン内のオブジェクトと、各フレームの視線トレースとの関係を取得します。 次に、データを評価し、意図予測のための分類タスクをモデル化する方法をいくつか検討する。 評価の結果,意図予測はデータのナイーブな結果ではなく,視線の非線形時間処理に依存していることがわかった。 タスクを時系列分類問題としてモデル化し、双方向長短メモリ(LSTM)ネットワークアーキテクチャを設計して意図をデコードする。 以上の結果から,自然な視線と相対位置から純粋に人間の動きの意図を911.9\%の精度で復号できることが示唆された。 本研究は,人間と機械のインタラクションのためのゼロuiインターフェースとして,自然視が実現可能であることを示す。つまり,ユーザは自然に行動するだけでよいし,インターフェース自体とのインタラクションや,自然な眼球運動パターンから逸脱する必要はない。

Eye movements have long been studied as a window into the attentional mechanisms of the human brain and made accessible as novelty style human-machine interfaces. However, not everything that we gaze upon, is something we want to interact with; this is known as the Midas Touch problem for gaze interfaces. To overcome the Midas Touch problem, present interfaces tend not to rely on natural gaze cues, but rather use dwell time or gaze gestures. Here we present an entirely data-driven approach to decode human intention for object manipulation tasks based solely on natural gaze cues. We run data collection experiments where 16 participants are given manipulation and inspection tasks to be performed on various objects on a table in front of them. The subjects' eye movements are recorded using wearable eye-trackers allowing the participants to freely move their head and gaze upon the scene. We use our Semantic Fovea, a convolutional neural network model to obtain the objects in the scene and their relation to gaze traces at every frame. We then evaluate the data and examine several ways to model the classification task for intention prediction. Our evaluation shows that intention prediction is not a naive result of the data, but rather relies on non-linear temporal processing of gaze cues. We model the task as a time series classification problem and design a bidirectional Long-Short-Term-Memo ry (LSTM) network architecture to decode intentions. Our results show that we can decode human intention of motion purely from natural gaze cues and object relative position, with $91.9\%$ accuracy. Our work demonstrates the feasibility of natural gaze as a Zero-UI interface for human-machine interaction, i.e., users will only need to act naturally, and do not need to interact with the interface itself or deviate from their natural eye movement patterns.
翻訳日:2022-01-25 15:26:14 公開日:2022-01-22
# 異種グラフニューラルネットワークを用いた中国語単語分割

Chinese Word Segmentation with Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2201.08975v1 )

ライセンス: Link先を確認
Xuemei Tang, Jun Wang, Qi Su(参考訳) 近年,中国語単語セグメンテーション(CWS)タスクにおいて,ディープラーニングが大きな成功を収めている。 これらの手法の多くは、単語、サブワード、構文などの外部情報を活用することにより、CWSの性能を向上させる。 しかし,既存の手法では,多水準言語情報を効果的に統合することはできず,外部情報の構造的特徴も無視する。 そこで本稿では,HGNSegというCWSを改善するためのフレームワークを提案する。 事前学習された言語モデルとヘテロジニアスグラフニューラルネットワークで、多レベル外部情報を十分に活用する。 6つのベンチマークデータセット(例えば、Bakeoff 2005, Bakeoff 2008)の実験結果は、我々のアプローチが中国語の単語セグメンテーションの性能を効果的に改善できることを示す。 重要なことは、ドメイン横断シナリオにおいて、我々の手法はOoV(out-of-vocabular y)問題を緩和する強力な能力を示す。

In recent years, deep learning has achieved significant success in the Chinese word segmentation (CWS) task. Most of these methods improve the performance of CWS by leveraging external information, e.g., words, sub-words, syntax. However, existing approaches fail to effectively integrate the multi-level linguistic information and also ignore the structural feature of the external information. Therefore, in this paper, we proposed a framework to improve CWS, named HGNSeg. It exploits multi-level external information sufficiently with the pre-trained language model and heterogeneous graph neural network. The experimental results on six benchmark datasets (e.g., Bakeoff 2005, Bakeoff 2008) validate that our approach can effectively improve the performance of Chinese word segmentation. Importantly, in cross-domain scenarios, our method also shows a strong ability to alleviate the out-of-vocabulary (OOV) problem.
翻訳日:2022-01-25 15:22:29 公開日:2022-01-22
# 大規模SAR画像を用いた物体検出のための学習効率の向上

Learning Efficient Representations for Enhanced Object Detection on Large-scene SAR Images ( http://arxiv.org/abs/2201.08958v1 )

ライセンス: Link先を確認
Siyan Li, Yue Xiao, Yuhang Zhang, Lei Chu, and Robert C. Qiu(参考訳) 複雑な大型合成開口レーダ(sar)画像のターゲットの検出と認識は難しい課題である。 近年開発されたディープラーニングアルゴリズムは,SAR画像の本質的な特徴を自動的に学習することができるが,限られたデータしか持たない大規模SAR画像を改善する余地は大きい。 本稿では,SAR画像の学習表現とマルチスケール特徴に基づいて,効率的かつ堅牢なディープラーニングに基づくターゲット検出手法を提案する。 特に, 対象データの分布に明示的に影響を及ぼす対向オートエンコーダ(AAE)の有効性を活用することにより, 生SARデータセットを多量・多種多様な拡張バージョンに拡張する。 また,ラベリング効率を向上させるために,自動ラベリング方式を提案する。 最後に,小型のターゲットチップと大規模画像の共同トレーニングにより,高解像度画像の複数ターゲット検出を実現するために,サブイメージに対する非最大抑圧を組み合わせたYOLOネットワークを利用する。 mstarデータセットの数値実験結果から,本手法は大規模画像のターゲット検出と認識を高精度かつ効率的に行えることを示す。 優れた反雑音性能も実験によって確認される。

It is a challenging problem to detect and recognize targets on complex large-scene Synthetic Aperture Radar (SAR) images. Recently developed deep learning algorithms can automatically learn the intrinsic features of SAR images, but still have much room for improvement on large-scene SAR images with limited data. In this paper, based on learning representations and multi-scale features of SAR images, we propose an efficient and robust deep learning based target detection method. Especially, by leveraging the effectiveness of adversarial autoencoder (AAE) which influences the distribution of the investigated data explicitly, the raw SAR dataset is augmented into an enhanced version with a large quantity and diversity. Besides, an auto-labeling scheme is proposed to improve labeling efficiency. Finally, with jointly training small target chips and large-scene images, an integrated YOLO network combining non-maximum suppression on sub-images is used to realize multiple targets detection of high resolution images. The numerical experimental results on the MSTAR dataset show that our method can realize target detection and recognition on large-scene images accurately and efficiently. The superior anti-noise performance is also confirmed by experiments.
翻訳日:2022-01-25 15:19:58 公開日:2022-01-22
# ファウショットカウントのための反復相関に基づく特徴量補正

Iterative Correlation-based Feature Refinement for Few-shot Counting ( http://arxiv.org/abs/2201.08959v1 )

ライセンス: Link先を確認
Zhiyuan You, Kai Yang, Wenhan Luo, Xin Lu, Lei Cui, Xinyi Le(参考訳) 少数ショットカウントは、同一クラスのいくつかの例しか与えていない画像内の任意のクラスのオブジェクトをカウントすることを目的としている。 既存の相関ベースの少数ショットカウントアプローチは、相関の粗さと低セマンティクスレベルに苦しむ。 これらの問題を解決するために,画像と例の相関関係に基づいて,経験的特徴を段階的に洗練する反復的枠組みを提案する。 そして、最終改良された特徴写像から密度マップを予測する。 反復型フレームワークは相関蒸留モジュールと機能改良モジュールを含む。 イテレーションの間、模範的特徴は徐々に洗練され、模範的でない特徴は抑制され、模範的特徴がより重要となるいくつかのショットカウントの恩恵を受ける。 提案手法は,数えるベンチマークFSC-147において,全基準値を大きく上回っている。 驚いたことに、一般的なクラス別カウントのために設計されているが、当社のアプローチは、CARPKとPUCPR+、および群衆カウントベンチマークUCSDとMalに対する最先端のパフォーマンスを実現している。 また,クラウドカウントベンチマークであるShanghaiTechの競争性能も達成した。 コードはまもなくリリースされる。

Few-shot counting aims to count objects of any class in an image given only a few exemplars of the same class. Existing correlation-based few-shot counting approaches suffer from the coarseness and low semantic level of the correlation. To solve these problems, we propose an iterative framework to progressively refine the exemplar-related features based on the correlation between the image and exemplars. Then the density map is predicted from the final refined feature map. The iterative framework includes a Correlation Distillation module and a Feature Refinement module. During the iterations, the exemplar-related features are gradually refined, while the exemplar-unrelated features are suppressed, benefiting few-shot counting where the exemplar-related features are more important. Our approach surpasses all baselines significantly on few-shot counting benchmark FSC-147. Surprisingly, though designed for general class-agnostic counting, our approach still achieves state-of-the-art performance on car counting benchmarks CARPK and PUCPR+, and crowd counting benchmarks UCSD and Mall. We also achieve competitive performance on crowd counting benchmark ShanghaiTech. The code will be released soon.
翻訳日:2022-01-25 15:19:38 公開日:2022-01-22
# parallel rectangle flip attack: オブジェクト検出に対するクエリベースのブラックボックス攻撃

Parallel Rectangle Flip Attack: A Query-based Black-box Attack against Object Detection ( http://arxiv.org/abs/2201.08970v1 )

ライセンス: Link先を確認
Siyuan Liang, Baoyuan Wu, Yanbo Fan, Xingxing Wei, Xiaochun Cao(参考訳) オブジェクト検出は、自動運転など、多くの安全クリティカルなタスクで広く使われている。 しかし、敵の例に対する脆弱性は十分に研究されていない。特にブラックボックス攻撃の実践シナリオでは、攻撃者は予測されたバウンディングボックスと攻撃モデルによって返されるトップ1スコアのクエリフィードバックにしかアクセスできない。 ブラックボックス攻撃とイメージ分類を比較すると、ブラックボックス攻撃とイメージ分類の主な課題は2つある。 まず、1つのバウンディングボックスが攻撃に成功しても、攻撃されたバウンディングボックスの近くで別のサブ最適バウンディングボックスを検出することができる。 第二に、複数のバウンディングボックスがあり、攻撃コストが非常に高い。 これらの課題に対処するために,ランダム探索による並列矩形フリップ攻撃(PRFA)を提案する。 本手法と他の攻撃方法の違いをfigで解説する。 ~\ref{fig1}。 具体的には,各矩形パッチに摂動を生成し,攻撃領域近傍の準最適検出を回避する。 また, 物体の輪郭や臨界点の周囲に主眼を置き, 白箱攻撃下での対向的摂動の観測により, 攻撃長方形の探索空間が小さくなり, 攻撃効率が向上する。 さらに,複数の矩形を同時に攻撃する並列機構を開発し,攻撃プロセスをさらに加速する。 本手法は, アンカーベースやアンカーフリーを含む, 様々な人気物体検出装置を効果的かつ効率的に攻撃し, 転送可能な対向例を生成する。

Object detection has been widely used in many safety-critical tasks, such as autonomous driving. However, its vulnerability to adversarial examples has not been sufficiently studied, especially under the practical scenario of black-box attacks, where the attacker can only access the query feedback of predicted bounding-boxes and top-1 scores returned by the attacked model. Compared with black-box attack to image classification, there are two main challenges in black-box attack to detection. Firstly, even if one bounding-box is successfully attacked, another sub-optimal bounding-box may be detected near the attacked bounding-box. Secondly, there are multiple bounding-boxes, leading to very high attack cost. To address these challenges, we propose a Parallel Rectangle Flip Attack (PRFA) via random search. We explain the difference between our method with other attacks in Fig.~\ref{fig1}. Specifically, we generate perturbations in each rectangle patch to avoid sub-optimal detection near the attacked region. Besides, utilizing the observation that adversarial perturbations mainly locate around objects' contours and critical points under white-box attacks, the search space of attacked rectangles is reduced to improve the attack efficiency. Moreover, we develop a parallel mechanism of attacking multiple rectangles simultaneously to further accelerate the attack process. Extensive experiments demonstrate that our method can effectively and efficiently attack various popular object detectors, including anchor-based and anchor-free, and generate transferable adversarial examples.
翻訳日:2022-01-25 15:19:18 公開日:2022-01-22
# 質問の書き直し? 対話型質問応答の重要性の評価

Question rewriting? Assessing its importance for conversational question answering ( http://arxiv.org/abs/2201.09146v1 )

ライセンス: Link先を確認
Gon\c{c}alo Raposo, Rui Ribeiro, Bruno Martins, and Lu\'isa Coheur(参考訳) 対話型質問応答では、システムは相互接続された相互作用を正しく解釈し、知識のある回答を生成する必要がある。 この問題に対する最近のアプローチは、モジュールの観点から異なる代替案を考えることができるが、ニューラルネットワークモデルを活用する。 (a) ユーザの質問を文脈で表現する (b)関連する背景情報を取得すること、 (c) 答えを生成する。 本研究では,検索指向会話AI(SCAI)共有タスクに特化して設計された対話型質問応答システムと,その質問書き換えモジュールの詳細な解析について報告する。 特に,その後のコンポーネントへの影響を評価するために,質問書き換えモジュールの異なるバリエーションを検討し,最適なシステム構成で得られた結果を慎重に分析した。 我々のシステムは共有タスクにおいて最高の性能を達成し、システム全体の性能に対する会話コンテキスト表現の重要性を強調した。

In conversational question answering, systems must correctly interpret the interconnected interactions and generate knowledgeable answers, which may require the retrieval of relevant information from a background repository. Recent approaches to this problem leverage neural language models, although different alternatives can be considered in terms of modules for (a) representing user questions in context, (b) retrieving the relevant background information, and (c) generating the answer. This work presents a conversational question answering system designed specifically for the Search-Oriented Conversational AI (SCAI) shared task, and reports on a detailed analysis of its question rewriting module. In particular, we considered different variations of the question rewriting module to evaluate the influence on the subsequent components, and performed a careful analysis of the results obtained with the best system configuration. Our system achieved the best performance in the shared task and our analysis emphasizes the importance of the conversation context representation for the overall system performance.
翻訳日:2022-01-25 14:42:12 公開日:2022-01-22
# オンライン注意型カーネルベース時間差学習

Online Attentive Kernel-Based Temporal Difference Learning ( http://arxiv.org/abs/2201.09065v1 )

ライセンス: Link先を確認
Guang Yang, Xingguo Chen, Shangdong Yang, Huihui Wang, Shaokang Dong, Yang Gao(参考訳) 現実世界の不確実性が高まっている中、オンライン強化学習(RL)はその高速学習能力とデータ効率の向上により注目を集めている。 しかし、オンラインrlは複雑な値関数近似(vfa)と破滅的な干渉に苦しむことが多く、ディープニューラルネットワークがオンラインrlアルゴリズムに完全にオンライン環境で適用されることは困難である。 したがって、カーネルモデルを用いて値関数を評価するため、より単純で適応的なアプローチが導入された。 スパース表現は干渉処理に優れており、現在のスパース表現法と比較した場合、競合スパース表現は学習可能、非優先度、非トランケート、明示的であることが示されている。 さらに、スパース表現の学習において、注意機構を用いてスペース化の程度を表現し、カーネルベースのVFAにスムーズな注意関数を導入する。 本稿では,2時間スケール最適化を用いたオンラインカーネルに基づく時間差分法(OAKTD)アルゴリズムを提案し,提案アルゴリズムの収束解析を行う。 実験により、OAKTDは、Tile Codingを用いたTD学習アルゴリズムに加えて、オンラインカーネルベースの時間差(OKTD)学習アルゴリズムと、パブリックマウンテンカー、Acrobot、CartPole、Puddle Worldタスクを比較検討した。

With rising uncertainty in the real world, online Reinforcement Learning (RL) has been receiving increasing attention due to its fast learning capability and improving data efficiency. However, online RL often suffers from complex Value Function Approximation (VFA) and catastrophic interference, creating difficulty for the deep neural network to be applied to an online RL algorithm in a fully online setting. Therefore, a simpler and more adaptive approach is introduced to evaluate value function with the kernel-based model. Sparse representations are superior at handling interference, indicating that competitive sparse representations should be learnable, non-prior, non-truncated and explicit when compared with current sparse representation methods. Moreover, in learning sparse representations, attention mechanisms are utilized to represent the degree of sparsification, and a smooth attentive function is introduced into the kernel-based VFA. In this paper, we propose an Online Attentive Kernel-Based Temporal Difference (OAKTD) algorithm using two-timescale optimization and provide convergence analysis of our proposed algorithm. Experimental evaluations showed that OAKTD outperformed several Online Kernel-based Temporal Difference (OKTD) learning algorithms in addition to the Temporal Difference (TD) learning algorithm with Tile Coding on public Mountain Car, Acrobot, CartPole and Puddle World tasks.
翻訳日:2022-01-25 14:41:18 公開日:2022-01-22
# ハイブリッド散乱ネットワークによるグラフ畳み込みネットワークの超越性克服

Overcoming Oversmoothness in Graph Convolutional Networks via Hybrid Scattering Networks ( http://arxiv.org/abs/2201.08932v1 )

ライセンス: Link先を確認
Frederik Wenkel, Yimeng Min, Matthew Hirn, Michael Perlmutter, Guy Wolf(参考訳) Geometric Deep Learning (GDL)は、従来のドメインからグラフのような非ユークリッドニューラルネットワークアーキテクチャの設計を一般化するための大きな一歩を踏み出した。 これにより、ソーシャルネットワーク、生化学、物質科学などのグラフ構造化データセットに適用可能なグラフニューラルネットワーク(GNN)モデルが生まれました。 グラフ畳み込みネットワーク(graph convolutional networks, gcns)は、特にユークリッド系に触発され、構造認識特徴を抽出することでグラフデータの処理に成功している。 しかし、現在のGNNモデル(特にGCN)は、表現力とより複雑なグラフデータセットに一般化する能力を制限する様々な現象によって制約されていることが知られている。 ほとんどのモデルは、基本的に、局所平均演算によるグラフ信号のローパスフィルタリングに依存しているため、過剰な喫煙に繋がる。 本稿では,従来のGCNフィルタと幾何散乱変換を用いた帯域通過フィルタを組み合わせたハイブリッドGNNフレームワークを提案する。 さらに,ノードレベルの異なるGNNフィルタからの複合情報に対して,モデルが局所的に参加可能なアテンションフレームワークを導入する。 実験では, 分散フィルタの補足的な効果をグラフ構造情報に与えるとともに, 様々な学習タスクにおける提案手法の利点を示す。

Geometric deep learning (GDL) has made great strides towards generalizing the design of structure-aware neural network architectures from traditional domains to non-Euclidean ones, such as graphs. This gave rise to graph neural network (GNN) models that can be applied to graph-structured datasets arising, for example, in social networks, biochemistry, and material science. Graph convolutional networks (GCNs) in particular, inspired by their Euclidean counterparts, have been successful in processing graph data by extracting structure-aware features. However, current GNN models (and GCNs in particular) are known to be constrained by various phenomena that limit their expressive power and ability to generalize to more complex graph datasets. Most models essentially rely on low-pass filtering of graph signals via local averaging operations, thus leading to oversmoothing. Here, we propose a hybrid GNN framework that combines traditional GCN filters with band-pass filters defined via the geometric scattering transform. We further introduce an attention framework that allows the model to locally attend over the combined information from different GNN filters at the node level. Our theoretical results establish the complementary benefits of the scattering filters to leverage structural information from the graph, while our experiments show the benefits of our method on various learning tasks.
翻訳日:2022-01-25 14:37:13 公開日:2022-01-22
# 頑健な糖尿病網膜症分類のための不確実性認識深層学習法

Uncertainty-aware deep learning methods for robust diabetic retinopathy classification ( http://arxiv.org/abs/2201.09042v1 )

ライセンス: Link先を確認
Joel Jaskari, Jaakko Sahlsten, Theodoros Damoulas, Jeremias Knoblauch, Simo S\"arkk\"a, Leo K\"arkk\"ainen, Kustaa Hietala, Kimmo Kaski(参考訳) 網膜画像からの糖尿病網膜症の自動分類は深層ニューラルネットワークを用いて広く研究されている。 しかし、現代のニューラルネットワークの欠点である分類の不確実性の推定には臨床的な必要性がある。 近年,近似ベイズ深層学習法が提案されているが,ベンチマークデータセットに適用した2値参照型/非参照型糖尿病網膜症分類のみが検討されている。 本稿では,ベンチマークデータセットと2値分類スキームに加えて,臨床データセットと臨床関連5クラス分類スキームを体系的に検討し,新しい結果を提示する。 さらに,不確実性尺度と分類リスクとの関係を導出し,新たな不確実性尺度を考案する。 先程提案したエントロピーに基づく不確実性尺度は,2次分類法では臨床データセットに一般化するが,5級分類では一般化しない。

Automatic classification of diabetic retinopathy from retinal images has been widely studied using deep neural networks with impressive results. However, there is a clinical need for estimation of the uncertainty in the classifications, a shortcoming of modern neural networks. Recently, approximate Bayesian deep learning methods have been proposed for the task but the studies have only considered the binary referable/non-refera ble diabetic retinopathy classification applied to benchmark datasets. We present novel results by systematically investigating a clinical dataset and a clinically relevant 5-class classification scheme, in addition to benchmark datasets and the binary classification scheme. Moreover, we derive a connection between uncertainty measures and classifier risk, from which we develop a new uncertainty measure. We observe that the previously proposed entropy-based uncertainty measure generalizes to the clinical dataset on the binary classification scheme but not on the 5-class scheme, whereas our new uncertainty measure generalizes to the latter case.
翻訳日:2022-01-25 14:35:04 公開日:2022-01-22
# セマンティクスセグメンテーションのための分割行および列クエリによるデュアルフラットトランス

Dual-Flattening Transformers through Decomposed Row and Column Queries for Semantic Segmentation ( http://arxiv.org/abs/2201.09139v1 )

ライセンス: Link先を確認
Ying Wang, Chiuman Ho, Wenju Xu, Ziwei Xuan, Xudong Liu and Guo-Jun Qi(参考訳) セマンティクスセグメンテーションのような密集した予測タスクでは,長距離依存性を持つ高分解能特徴を得ることが重要である。 h\times w$(hw\ll hw$)の大きさの低分解能特徴マップからh\times w$の高分解能出力を生成するために、ナイーブ密閉変換器は$\mathcal{o}(hwhw)$の難解な複雑さを生じさせ、高分解能密集予測への応用を制限する。 本研究では, 複雑度を$\mathcal{o}(hw(h+w))$ に下げることで高分解能出力を実現するdflatformer(dflatfor mer)を提案する。 分割されたクエリを行と列の注意を分離した変換器で抽出し、その出力を結合して高解像度の高密度特徴写像を形成する。 この目的のために、エンコーダから供給された入力シーケンスを行単位でフラット化し、行と列構造をそれぞれ保存して分解クエリと整合させる。 ロウと列変換器は相互の注意を列と列の間の空間的交差で捉えるために相互に相互作用する。 また,効率的なグループ化とプール化により,モデルの複雑さをさらに低減する手法を提案する。 ADE20KおよびCityscapesデータセットの大規模な実験は、より高いmIoUを持つ2重平坦トランスアーキテクチャの優位性を実証している。

It is critical to obtain high resolution features with long range dependency for dense prediction tasks such as semantic segmentation. To generate high-resolution output of size $H\times W$ from a low-resolution feature map of size $h\times w$ ($hw\ll HW$), a naive dense transformer incurs an intractable complexity of $\mathcal{O}(hwHW)$, limiting its application on high-resolution dense prediction. We propose a Dual-Flattening Transformer (DFlatFormer) to enable high-resolution output by reducing complexity to $\mathcal{O}(hw(H+W))$ that is multiple orders of magnitude smaller than the naive dense transformer. Decomposed queries are presented to retrieve row and column attentions tractably through separate transformers, and their outputs are combined to form a dense feature map at high resolution. To this end, the input sequence fed from an encoder is row-wise and column-wise flattened to align with decomposed queries by preserving their row and column structures, respectively. Row and column transformers also interact with each other to capture their mutual attentions with the spatial crossings between rows and columns. We also propose to perform attentions through efficient grouping and pooling to further reduce the model complexity. Extensive experiments on ADE20K and Cityscapes datasets demonstrate the superiority of the proposed dual-flattening transformer architecture with higher mIoUs.
翻訳日:2022-01-25 14:34:47 公開日:2022-01-22
# 視覚情報案内ゼロショットパラフレーズ生成

Visual Information Guided Zero-Shot Paraphrase Generation ( http://arxiv.org/abs/2201.09107v1 )

ライセンス: Link先を確認
Zhe Lin and Xiaojun Wan(参考訳) 大規模な高品質パラフレーズコーパスが限定されているため、ゼロショットパラフレーズ生成が注目されている。 逆変換(英: back-translation)またはピボット法(英: pivot-based method)は、この目的に典型的である。 いくつかの作品では、言語や意味表現など、異なる情報を "pivot" として活用している。 本稿では,画像などの視覚情報をバックトランスレーションの「パボット」として利用する。 パイプラインバックトランスレーション法と異なり,ペアイメージキャプチャデータのみに基づいてvipg(visual information guided zero-shot paraphrase generation)を提案する。 画像キャプションモデルとパラフレーズモデルとを共同で訓練し、画像キャプションモデルを利用してパラフレーズモデルのトレーニングを指導する。 自動評価と人的評価の両方は、我々のモデルが良好な関連性、流布度、多様性を持つパラフレーズを生成できることを示し、画像はゼロショットパラフレーズ生成に有望なピボットである。

Zero-shot paraphrase generation has drawn much attention as the large-scale high-quality paraphrase corpus is limited. Back-translation, also known as the pivot-based method, is typical to this end. Several works leverage different information as "pivot" such as language, semantic representation and so on. In this paper, we explore using visual information such as image as the "pivot" of back-translation. Different with the pipeline back-translation method, we propose visual information guided zero-shot paraphrase generation (ViPG) based only on paired image-caption data. It jointly trains an image captioning model and a paraphrasing model and leverage the image captioning model to guide the training of the paraphrasing model. Both automatic evaluation and human evaluation show our model can generate paraphrase with good relevancy, fluency and diversity, and image is a promising kind of pivot for zero-shot paraphrase generation.
翻訳日:2022-01-25 14:03:37 公開日:2022-01-22
# FedMed-GAN:Federated Multi-Modal Unsupervised Brain Image Synthesis

FedMed-GAN: Federated Multi-Modal Unsupervised Brain Image Synthesis ( http://arxiv.org/abs/2201.08953v1 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Yawen Huang, Yefeng Zheng, Feng Zheng, Jingkuang Song, Yaochu Jin(参考訳) 対のマルチモーダルニューロイメージングデータを利用することで、人間の認知活動や特定の病態を解明できることが証明されている。 しかし, 高い検査コスト, 取得時間, 画像の破損といったいくつかの制約に直面するため, 一対のニューロイメージングデータの完全集合を集中的に得ることは実用的ではない。 さらに、ペアの神経画像データのほとんどは、異なる医療機関に分散しており、プライバシー問題を考慮した集中トレーニングのためにグループ化することはできない。 この状況下では、連合学習を起動し、異なる病院やデータ所有者からの他の非ペアデータの統合を促進することは明らかである。 本稿では,フェデレート学習と医学的GANのギャップを埋めるため,フェデレートされたマルチモーダル脳画像合成(FedMed-GAN)のための新しいベンチマークを構築した。 さらに,マルチモーダルニューロイメージングデータ間のエッジ情報の類似性に基づいて,feedmed-ganの生成モード崩壊問題を解決し,差分プライバシーによる性能低下を緩和する新たなエッジ損失を提案する。 構築したベンチマークで示した最先端手法と比較すると,新しいエッジ損失は,異なる非ペアデータ分散環境での性能を犠牲にすることなく,ジェネレータの収束率を大幅に向上させることができる。

Utilizing the paired multi-modal neuroimaging data has been proved to be effective to investigate human cognitive activities and certain pathologies. However, it is not practical to obtain the full set of paired neuroimaging data centrally since the collection faces several constraints, e.g., high examination costs, long acquisition time, and even image corruption. In addition, most of the paired neuroimaging data are dispersed into different medical institutions and cannot group together for centralized training considering the privacy issues. Under the circumstance, there is a clear need to launch federated learning and facilitate the integration of other unpaired data from different hospitals or data owners. In this paper, we build up a new benchmark for federated multi-modal unsupervised brain image synthesis (termed as FedMed-GAN) to bridge the gap between federated learning and medical GAN. Moreover, based on the similarity of edge information across multi-modal neuroimaging data, we propose a novel edge loss to solve the generative mode collapse issue of FedMed-GAN and mitigate the performance drop resulting from differential privacy. Compared with the state-of-the-art method shown in our built benchmark, our novel edge loss could significantly speed up the generator convergence rate without sacrificing performance under different unpaired data distribution settings.
翻訳日:2022-01-25 14:00:26 公開日:2022-01-22
# 聴覚クイズを用いた自殺評価のための人工知能

Artificial Intelligence for Suicide Assessment using Audiovisual Cues: A Review ( http://arxiv.org/abs/2201.09130v1 )

ライセンス: Link先を確認
Sahraoui Dhelim, Liming Chen, Huansheng Ning and Chris Nugent(参考訳) 自殺による死亡は世界有数の死因の7番目である。 人工知能(AI)の最近の進歩、特に画像と音声処理におけるAI応用は、自殺リスク評価に革命をもたらす有望な機会を生み出した。 続いて,精神疾患評価のための聴覚的非言語的手がかり抽出にaiを応用した,急成長する研究の文献を目撃した。 しかし、最近の作品の大半はうつ病に焦点を当てており、うつ病の徴候と非言語的手がかりによる自殺行動の明らかな違いがある。 本稿では,音声特徴分析,主に音声・音声特徴分析と自殺視覚手がかりを用いて,自殺イデオロギーと自殺行動を検出する最近の研究について概説する。

Death by suicide is the seventh of the leading death cause worldwide. The recent advancement in Artificial Intelligence (AI), specifically AI application in image and voice processing, has created a promising opportunity to revolutionize suicide risk assessment. Subsequently, we have witnessed fast-growing literature of researches that applies AI to extract audiovisual non-verbal cues for mental illness assessment. However, the majority of the recent works focus on depression, despite the evident difference between depression signs and suicidal behavior non-verbal cues. In this paper, we review the recent works that study suicide ideation and suicide behavior detection through audiovisual feature analysis, mainly suicidal voice/speech acoustic features analysis and suicidal visual cues.
翻訳日:2022-01-25 13:35:52 公開日:2022-01-22
# コントラストロスバックプロパゲーションによる教師なしグラフ中毒攻撃

Unsupervised Graph Poisoning Attack via Contrastive Loss Back-propagation ( http://arxiv.org/abs/2201.07986v2 )

ライセンス: Link先を確認
Sixiao Zhang, Hongxu Chen, Xiangguo Sun, Yicong Li, Guandong Xu(参考訳) グラフ対照的学習は最先端の教師なしグラフ表現学習フレームワークであり、教師付きアプローチと同等のパフォーマンスを示している。 しかし、グラフのコントラスト学習が敵の攻撃に対して堅牢であるかどうかの評価は、既存のグラフのコントラスト学習を特定のシナリオで評価するためにのみ使用できるラベルに大きく依存する、教師付きモデルであるので、まだ未解決の問題である。 グラフコントラスト学習のような教師なしグラフ表現法では,実世界のシナリオにおいてラベルの取得が困難であり,従来の教師付きグラフ攻撃法の適用が困難である。 本稿では,グラフコントラスト学習のためのラベルに依存しない,教師なし勾配に基づく逆攻撃を提案する。 2つのビューの隣接行列の勾配を計算し、エッジを勾配上昇で反転させ、対照的な損失を最大化する。 このようにして、グラフの対照的な学習モデルによって生成された複数のビューをフルに利用し、ラベルを知らずに最も情報に富んだエッジを選択することができる。 広範な実験により,ノード分類やリンク予測など,複数のダウンストリームタスクにおける教師付き攻撃と同等の性能を持つ,教師付きベースライン攻撃よりも優れた攻撃性能を示すことができた。 さらに、我々の攻撃は他のグラフ表現モデルにも転送可能であることを示す。

Graph contrastive learning is the state-of-the-art unsupervised graph representation learning framework and has shown comparable performance with supervised approaches. However, evaluating whether the graph contrastive learning is robust to adversarial attacks is still an open problem because most existing graph adversarial attacks are supervised models, which means they heavily rely on labels and can only be used to evaluate the graph contrastive learning in a specific scenario. For unsupervised graph representation methods such as graph contrastive learning, it is difficult to acquire labels in real-world scenarios, making traditional supervised graph attack methods difficult to be applied to test their robustness. In this paper, we propose a novel unsupervised gradient-based adversarial attack that does not rely on labels for graph contrastive learning. We compute the gradients of the adjacency matrices of the two views and flip the edges with gradient ascent to maximize the contrastive loss. In this way, we can fully use multiple views generated by the graph contrastive learning models and pick the most informative edges without knowing their labels, and therefore can promisingly support our model adapted to more kinds of downstream tasks. Extensive experiments show that our attack outperforms unsupervised baseline attacks and has comparable performance with supervised attacks in multiple downstream tasks including node classification and link prediction. We further show that our attack can be transferred to other graph representation models as well.
翻訳日:2022-01-25 11:55:41 公開日:2022-01-22