このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211204となっている論文です。

PDF登録状況(公開日: 20211204)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 多レベル抽象化による特徴からの知識抽出 [全文訳有]

Extracting knowledge from features with multilevel abstraction ( http://arxiv.org/abs/2112.13642v1 )

ライセンス: CC BY 4.0
Jinhong Lin, Zhaoyang Li(参考訳) 知識蒸留は, 大規模教員モデルから小学生モデルへの知識伝達を目標とし, 学生モデルの性能向上を図っている。 そのため,学生ネットワークは,より高い性能,低いパラメータ数,短い推論時間のため,低リソースデバイスに配置する教師ネットワークを置き換えることができる。 自己知識蒸留(SKD)は、近年学生モデル自体が知識を蒸留する教師モデルであることに大きな注目を集めている。 我々の知識を最大限に活用するために、自己知識の蒸留は2つの主要なストリームに分けることができる。 本稿では,新しいskd法を,メインストリーム法とは異なる方法で目的とする。 本手法は多レベル抽象特徴から知識を抽出する。 実験とアブレーション研究は、様々な種類のモデル構造を持つ様々なタスクにおいて、その大きな効果と一般化を示す。 私たちのコードはGitHubでリリースされています。

Knowledge distillation aims at transferring the knowledge from a large teacher model to a small student model with great improvements of the performance of the student model. Therefore, the student network can replace the teacher network to deploy on low-resource devices since the higher performance, lower number of parameters and shorter inference time. Self-knowledge distillation (SKD) attracts a great attention recently that a student model itself is a teacher model distilling knowledge from. To the best of our knowledge, self knowledge distillation can be divided into two main streams: data augmentation and refined knowledge auxiliary. In this paper, we purpose a novel SKD method in a different way from the main stream methods. Our method distills knowledge from multilevel abstraction features. Experiments and ablation studies show its great effectiveness and generalization on various kinds of tasks with various kinds of model structures. Our codes have been released on GitHub.
翻訳日:2022-01-02 10:23:11 公開日:2021-12-04
# (参考訳) 機械学習による新しい密度関数の探索 [全文訳有]

Using Machine Learning to Find New Density Functionals ( http://arxiv.org/abs/2112.05554v1 )

ライセンス: CC BY 4.0
Bhupalee Kalita and Kieron Burke(参考訳) 機械学習は今や、研究とイノベーションの不可欠な部分になっている。 機械学習密度汎関数論の分野は、何年にもわたって、目立った進歩を遂げてきた。 この分野の現状を簡潔に議論し、現在および今後の課題を指摘している。 私たちはまた、最先端の科学技術ツールがこれらの課題を克服するのにどう役立つかについても語っています。 このドラフトは、Electronic Structure (EST)に掲載される"Roadmap on Machine Learning in Electronic Structure"の一部である。

Machine learning has now become an integral part of research and innovation. The field of machine learning density functional theory has continuously expanded over the years while making several noticeable advances. We briefly discuss the status of this field and point out some current and future challenges. We also talk about how state-of-the-art science and technology tools can help overcome these challenges. This draft is a part of the "Roadmap on Machine Learning in Electronic Structure" to be published in Electronic Structure (EST).
翻訳日:2021-12-19 15:18:57 公開日:2021-12-04
# (参考訳) twitter上での社会認識と移民に対する行動の解明 [全文訳有]

Unraveling Social Perceptions & Behaviors towards Migrants on Twitter ( http://arxiv.org/abs/2112.06642v1 )

ライセンス: CC BY 4.0
Aparup Khatua, Wolfgang Nejdl(参考訳) 我々は、社会心理学の文献から、移民に関するtwitterの議論、すなわち移民に関する認識と移民に対する行動の2つの側面を識別する洞察を引き出す。 我々の理論的アンカーは、ソーシャルメディア利用者の移民に対する2つの一般的な認識(共感と反感)と2つの支配的な行動(連帯と敵意)を特定するのに役立った。 我々は、これらの知覚と行動を特定するために、スーパービジョンと教師なしのアプローチを採用してきた。 応用NLPの分野では、移民関係のTwitter脱リベレーションの微妙な理解を推定する。 提案する変換器ベースモデルであるBERT + CNNは、F1スコアが0.76で、他のモデルよりも優れていた。 さらに, 反感や嫌悪感を併発するツイートは, 移民に対するヘイトスピーチと見なすことができるが, 同一ではない。 そこで本研究では,ヘイトスピーチの知覚的側面と行動的側面の微妙な違いを強調することで,ヘイトスピーチ検出タスクを微調整した。

We draw insights from the social psychology literature to identify two facets of Twitter deliberations about migrants, i.e., perceptions about migrants and behaviors towards mi-grants. Our theoretical anchoring helped us in identifying two prevailing perceptions (i.e., sympathy and antipathy) and two dominant behaviors (i.e., solidarity and animosity) of social media users towards migrants. We have employed unsuper-vised and supervised approaches to identify these perceptions and behaviors. In the domain of applied NLP, our study of-fers a nuanced understanding of migrant-related Twitter de-liberations. Our proposed transformer-based model, i.e., BERT + CNN, has reported an F1-score of 0.76 and outper-formed other models. Additionally, we argue that tweets con-veying antipathy or animosity can be broadly considered hate speech towards migrants, but they are not the same. Thus, our approach has fine-tuned the binary hate speech detection task by highlighting the granular differences between perceptual and behavioral aspects of hate speeches.
翻訳日:2021-12-19 15:14:50 公開日:2021-12-04
# 談話相互情報最大化を用いた会話データの表現学習

Representation Learning for Conversational Data using Discourse Mutual Information Maximization ( http://arxiv.org/abs/2112.05787v1 )

ライセンス: Link先を確認
Bishal Santra, Sumegh Roychowdhury, Aishik Mandal, Vasu Gurram, Atharva Naik, Manish Gupta, Pawan Goyal(参考訳) 多くの事前訓練されたモデルはテキストや画像に対して存在するが、対話理解のために表現を訓練する試みは比較的少ない。 先行作品は通常、bertやgpt-2のような一般的なテキスト表現モデルに基づいた微調整された表現に依存する。 しかし、既存の事前学習目的は、テキストの構造情報を考慮に入れない。 生成ダイアログモデルも構造的特徴を学習できるが、構造を意識しない単語・バイ・ワード生成は効果的な会話モデリングには適さない。 このような表現が様々な対話理解タスクで一貫して動作しないことを実証的に示す。 そこで本研究では,対話表現モデルの学習のための構造認識型相互情報に基づく損失関数DMI(Discourse Mutual Information)を提案する。 9つの多様なダイアログモデリングタスクの網羅的評価から,提案したDMIベースモデルは,小規模な事前学習においても,大きなマージンで優れたベースラインを達成できた。 本モデルでは,対話評価タスクであるDailyDialog++において,ランダムシナリオと逆シナリオの両方において,最も有望な性能を示す。

Although many pretrained models exist for text or images, there have been relatively fewer attempts to train representations specifically for dialog understanding. Prior works usually relied on finetuned representations based on generic text representation models like BERT or GPT-2. But, existing pretraining objectives do not take the structural information of text into consideration. Although generative dialog models can learn structural features too, we argue that the structure-unaware word-by-word generation is not suitable for effective conversation modeling. We empirically demonstrate that such representations do not perform consistently across various dialog understanding tasks. Hence, we propose a structure-aware Mutual Information based loss-function DMI (Discourse Mutual Information) for training dialog-representatio n models, that additionally captures the inherent uncertainty in response prediction. Extensive evaluation on nine diverse dialog modeling tasks shows that our proposed DMI-based models outperform strong baselines by significant margins, even with small-scale pretraining. Our models show the most promising performance on the dialog evaluation task DailyDialog++, in both random and adversarial negative scenarios.
翻訳日:2021-12-19 12:57:36 公開日:2021-12-04
# (参考訳) カーテンの後ろ:3次元物体検出のための付加形状学習 [全文訳有]

Behind the Curtain: Learning Occluded Shapes for 3D Object Detection ( http://arxiv.org/abs/2112.02205v1 )

ライセンス: CC0 1.0
Qiangeng Xu, Yiqi Zhong, Ulrich Neumann(参考訳) LiDARセンサーの進歩は、3Dシーン理解をサポートするリッチな3Dデータを提供する。 しかし、オクルージョンと信号ミスのため、LiDAR点雲は実際には2.5Dであり、部分的な基礎的な形状しかカバーしていない。 そこで本研究では,物体の形状を事前に学習し,ポイント・クラウドで部分的に遮蔽(測定)された完全な物体形状を推定するカーテン・ディテクター(btcdet)と呼ばれる,ライダーを用いた新しい3次元物体検出モデルを提案する。 BtcDetは、最初に閉塞と信号ミスによって影響を受ける領域を特定する。 これらの領域では,領域が対象形状を含むかどうかを示す占有確率が予測される。 この確率マップと統合して、BtcDetは高品質な3D提案を生成することができる。 最後に、占有確率も提案改良モジュールに統合され、最終境界ボックスを生成する。 KITTIデータセットとWaymo Open Datasetに関する大規模な実験は、BtcDetの有効性を実証している。 特に、KITTIベンチマークで車とサイクリストの両方を3Dで検出するために、BtcDetは、公開された最先端の手法を驚くほど上回っている。 コードはリリースされている(https://github.com/ Xharlie/BtcDet}{https://github.com/X harlie/BtcDet)。

Advances in LiDAR sensors provide rich 3D data that supports 3D scene understanding. However, due to occlusion and signal miss, LiDAR point clouds are in practice 2.5D as they cover only partial underlying shapes, which poses a fundamental challenge to 3D perception. To tackle the challenge, we present a novel LiDAR-based 3D object detection model, dubbed Behind the Curtain Detector (BtcDet), which learns the object shape priors and estimates the complete object shapes that are partially occluded (curtained) in point clouds. BtcDet first identifies the regions that are affected by occlusion and signal miss. In these regions, our model predicts the probability of occupancy that indicates if a region contains object shapes. Integrated with this probability map, BtcDet can generate high-quality 3D proposals. Finally, the probability of occupancy is also integrated into a proposal refinement module to generate the final bounding boxes. Extensive experiments on the KITTI Dataset and the Waymo Open Dataset demonstrate the effectiveness of BtcDet. Particularly, for the 3D detection of both cars and cyclists on the KITTI benchmark, BtcDet surpasses all of the published state-of-the-art methods by remarkable margins. Code is released (https://github.com/ Xharlie/BtcDet}{https://github.com/X harlie/BtcDet).
翻訳日:2021-12-11 05:59:20 公開日:2021-12-04
# (参考訳) 潜在地図ガウス過程を用いたデータ融合

Data Fusion with Latent Map Gaussian Processes ( http://arxiv.org/abs/2112.02206v1 )

ライセンス: CC BY 4.0
Nicholas Oune, Jonathan Tammer Eweis-Labolle, Ramin Bostanabad(参考訳) マルチフィデリティモデリングとキャリブレーションは、エンジニアリング設計においてユビキタスに発生するデータ融合タスクである。 本稿では,遅延マップガウス過程(LMGP)に基づく,効率的かつ正確なデータ融合を実現する新しい手法を提案する。 本研究では,データ融合を,異なるデータソース間の関係を自動的に学習する潜在空間学習問題に変換する。 この変換は、精度の向上、コスト削減、任意のデータソースを共同で融合する柔軟性、データソース間の相関を可視化する能力など、私たちのアプローチに魅力的な利点をもたらす。 この視覚化により、ユーザがモデルフォームエラーを検出したり、LMGPをよく関連のあるデータソースのサブセットにのみ適合させることで、高忠実エミュレーションのための最適な戦略を決定することができる。 また,lmgpsが確率的マルチ忠実度サロゲートを構築するだけでなく,高精度かつ一貫性のあるキャリブレーションパラメータを推定できる新しいカーネル関数を開発した。 提案手法の実装と利用は,既存の技術に比べて比較的シンプルであり,数値的な問題が少ない。 本研究では,LMGPに基づくデータ融合の利点を,その性能と競合する手法を比較して示す。

Multi-fidelity modeling and calibration are data fusion tasks that ubiquitously arise in engineering design. In this paper, we introduce a novel approach based on latent-map Gaussian processes (LMGPs) that enables efficient and accurate data fusion. In our approach, we convert data fusion into a latent space learning problem where the relations among different data sources are automatically learned. This conversion endows our approach with attractive advantages such as increased accuracy, reduced costs, flexibility to jointly fuse any number of data sources, and ability to visualize correlations between data sources. This visualization allows the user to detect model form errors or determine the optimum strategy for high-fidelity emulation by fitting LMGP only to the subset of the data sources that are well-correlated. We also develop a new kernel function that enables LMGPs to not only build a probabilistic multi-fidelity surrogate but also estimate calibration parameters with high accuracy and consistency. The implementation and use of our approach are considerably simpler and less prone to numerical issues compared to existing technologies. We demonstrate the benefits of LMGP-based data fusion by comparing its performance against competing methods on a wide range of examples.
翻訳日:2021-12-11 05:39:21 公開日:2021-12-04
# (参考訳) 意味解析のための階層型ニューラルネットワーク合成 [全文訳有]

Hierarchical Neural Data Synthesis for Semantic Parsing ( http://arxiv.org/abs/2112.02212v1 )

ライセンス: CC BY 4.0
Wei Yang, Peng Xu, Yanshuai Cao(参考訳) セマンティクス解析データセットは収集にコストがかかる。 さらに、セマンティクス解析システムの入力である所定の領域に関連する質問でさえ、特にクロスドメインセマンティクスにおいて、容易には利用できないかもしれない。 これにより、データ拡張がさらに困難になる。 新しいデータを合成する既存の方法は手作りまたは誘導されたルールを使用しており、スケーラビリティを制限した優れたカバレッジと精度を達成するためには、相当な技術的努力と専門知識が必要である。 本研究では,意味解析の精度を高めつつ,文法工学の必要性を完全に排除する,意味解析のためのデータ拡張の純粋ニューラルネットワーク手法を提案する。 さらに,提案手法はゼロショット設定で合成可能であり,新たなドメインの入出力例を使わずに新たなドメインスキーマのみ利用可能である。 Spiderのクロスドメインテキスト-SQLセマンティック解析ベンチマークでは、ゼロショット拡張を用いて開発セット(77.2%の精度)における最先端のパフォーマンスを達成する。

Semantic parsing datasets are expensive to collect. Moreover, even the questions pertinent to a given domain, which are the input of a semantic parsing system, might not be readily available, especially in cross-domain semantic parsing. This makes data augmentation even more challenging. Existing methods to synthesize new data use hand-crafted or induced rules, requiring substantial engineering effort and linguistic expertise to achieve good coverage and precision, which limits the scalability. In this work, we propose a purely neural approach of data augmentation for semantic parsing that completely removes the need for grammar engineering while achieving higher semantic parsing accuracy. Furthermore, our method can synthesize in the zero-shot setting, where only a new domain schema is available without any input-output examples of the new domain. On the Spider cross-domain text-to-SQL semantic parsing benchmark, we achieve the state-of-the-art performance on the development set (77.2% accuracy) using our zero-shot augmentation.
翻訳日:2021-12-11 05:38:16 公開日:2021-12-04
# (参考訳) Hyper-GAN: HyperNetworksによる条件付きGANへの無条件転送 [全文訳有]

Hyper-GAN: Transferring Unconditional to Conditional GANs with HyperNetworks ( http://arxiv.org/abs/2112.02219v1 )

ライセンス: CC0 1.0
H\'ector Laria, Yaxing Wang, Joost van de Weijer, Bogdan Raducanu(参考訳) 条件付きGANは近年成熟しており、高品質な現実画像を生成することができる。 しかし、高品質なGANの訓練に必要な計算資源と訓練データは非常に大きいため、これらのモデルの伝達学習の研究は緊急の課題である。 本稿では,高品質な未条件GANから条件GANへの移行について検討する。 そこで我々は,ハイパーネットワークに基づく適応重み変調を提案する。 さらに,ハイパーネットワークパラメータを初期化する実データを必要としない自己初期化手順を導入する。 さらに, 知識伝達のサンプル効率を向上させるために, 自己教師付き(矛盾)損失を用いたgan判別器の改良を提案する。 本研究では,ハイパーネットの効率性,自己初期化,知識伝達のコントラスト損失について,いくつかの標準ベンチマークで検証した。

Conditional GANs have matured in recent years and are able to generate high-quality realistic images. However, the computational resources and the training data required for the training of high-quality GANs are enormous, and the study of transfer learning of these models is therefore an urgent topic. In this paper, we explore the transfer from high-quality pre-trained unconditional GANs to conditional GANs. To this end, we propose hypernetwork-based adaptive weight modulation. In addition, we introduce a self-initialization procedure that does not require any real data to initialize the hypernetwork parameters. To further improve the sample efficiency of the knowledge transfer, we propose to use a self-supervised (contrastive) loss to improve the GAN discriminator. In extensive experiments, we validate the efficiency of the hypernetworks, self-initialization and contrastive loss for knowledge transfer on several standard benchmarks.
翻訳日:2021-12-11 05:24:50 公開日:2021-12-04
# (参考訳) AIによるボットネット攻撃防御のためのゲーム理論的アプローチ [全文訳有]

A Game-Theoretic Approach for AI-based Botnet Attack Defence ( http://arxiv.org/abs/2112.02223v1 )

ライセンス: CC BY 4.0
Hooman Alavizadeh and Julian Jang-Jaccard and Tansu Alpcan and Seyit A. Camtepe(参考訳) 新しい世代のボットネットは、AI(Artificial Intelligent)技術を活用して、ボットマスターのアイデンティティと、検出を避けるための攻撃意図を隠蔽する。 残念ながら、この種のAIベースのボットネット攻撃に対する既存の防衛戦略の有効性を評価することができる既存のアセスメントツールが存在しない。 本稿では,ボットネット攻撃者やディフェンダーがNash Equilibrium (NE) に到達するための潜在的戦略の詳細を分析することができる逐次ゲーム理論モデルを提案する。 実用機能は、攻撃者が最小の攻撃コストで最大数のDDoS攻撃を起動するのに対して、ディフェンダーは最小の防御コストで最大数の防衛戦略を利用すると仮定して計算される。 我々は、異なる(シミュレーションされた)雲帯サイズに関する様々な防衛戦略に基づいて、異なる攻撃成功率値に関する数値解析を行う。 実験の結果,防衛の成功は攻撃率の慎重に評価した防衛戦略の数に大きく依存していることが確認された。

The new generation of botnets leverages Artificial Intelligent (AI) techniques to conceal the identity of botmasters and the attack intention to avoid detection. Unfortunately, there has not been an existing assessment tool capable of evaluating the effectiveness of existing defense strategies against this kind of AI-based botnet attack. In this paper, we propose a sequential game theory model that is capable to analyse the details of the potential strategies botnet attackers and defenders could use to reach Nash Equilibrium (NE). The utility function is computed under the assumption when the attacker launches the maximum number of DDoS attacks with the minimum attack cost while the defender utilises the maximum number of defense strategies with the minimum defense cost. We conduct a numerical analysis based on a various number of defense strategies involved on different (simulated) cloud-band sizes in relation to different attack success rate values. Our experimental results confirm that the success of defense highly depends on the number of defense strategies used according to careful evaluation of attack rates.
翻訳日:2021-12-11 05:06:13 公開日:2021-12-04
# (参考訳) HHF:深部ハッシュ検索のためのハッシュ誘導ヒンジ関数 [全文訳有]

HHF: Hashing-guided Hinge Function for Deep Hashing Retrieval ( http://arxiv.org/abs/2112.02225v1 )

ライセンス: CC BY 4.0
Chengyin Xu, Zhengzhuo Xu, Zenghao Chai, Hongjia Li, Qiruyi Zuo, Lingyu Yang and Chun Yuan(参考訳) ディープハッシュは大規模画像検索において有望な性能を示した。 しかし、dNN (textbf{D}eep \textbf{N}eural \textbf{N}etwork) によって抽出された潜時符号は、二項化処理中に必然的に意味情報をなくし、検索効率を損なう。 多くの既存手法は量子化誤差を軽減するために正規化を行うが、計量と量子化損失の間には相容れない矛盾が生じる。 メトリック損失はクラス間距離をペナルティ化し、異なるクラスが制約を受けずに遠くへ押し出す。 さらに悪いことに、潜在コードは理想的なバイナリ化ポイントから逸脱し、バイナリ化プロセスで深刻なあいまいさを生み出す傾向がある。 二進線型符号の最小距離に基づいて、そのような衝突を避けるために、 \textbf{H}ashing-guided \textbf{H}inge \textbf{F}unction (HHF)を提案する。 本稿では,パラメータ学習と量子化学習のバランスをとるために,ハッシュビット長とカテゴリ数に依存する特定の屈折点を慎重に設計する。 このような修正は、ディープハッシュにおいてネットワークが局所的メトリック最適ミニマに陥ることを防ぐ。 CIFAR-10、CIFAR-100、ImageNet、MS-COCOの大規模な実験は、HHFが既存の技術より一貫して優れており、他の方法への移植にも柔軟であることを示している。

Deep hashing has shown promising performance in large-scale image retrieval. However, latent codes extracted by \textbf{D}eep \textbf{N}eural \textbf{N}etwork (DNN) will inevitably lose semantic information during the binarization process, which damages the retrieval efficiency and make it challenging. Although many existing approaches perform regularization to alleviate quantization errors, we figure out an incompatible conflict between the metric and quantization losses. The metric loss penalizes the inter-class distances to push different classes unconstrained far away. Worse still, it tends to map the latent code deviate from ideal binarization point and generate severe ambiguity in the binarization process. Based on the minimum distance of the binary linear code, \textbf{H}ashing-guided \textbf{H}inge \textbf{F}unction (HHF) is proposed to avoid such conflict. In detail, we carefully design a specific inflection point, which relies on the hash bit length and category numbers to balance metric learning and quantization learning. Such a modification prevents the network from falling into local metric optimal minima in deep hashing. Extensive experiments in CIFAR-10, CIFAR-100, ImageNet, and MS-COCO show that HHF consistently outperforms existing techniques, and is robust and flexible to transplant into other methods.
翻訳日:2021-12-10 12:51:16 公開日:2021-12-04
# (参考訳) PhishMatch: フィッシングURLを効果的に検出するための階層的アプローチ [全文訳有]

PhishMatch: A Layered Approach for Effective Detection of Phishing URLs ( http://arxiv.org/abs/2112.02226v1 )

ライセンス: CC BY 4.0
Harshal Tupsamudre, Sparsh Jain, Sachin Lodha(参考訳) フィッシング攻撃はインターネット上でも大きな脅威であり続けている。 以前の研究では、urlをもっと慎重に分析することで、ウェブサイトがフィッシングしているかどうかを判断できることを示している。 URLベースのアプローチの大きな利点は、Webページがブラウザでレンダリングされる前にもフィッシングウェブサイトを識別できることだ。 しかし、従来のURLベースのアプローチには制限がある。 ブラックリストベースのアプローチは、ゼロ時間フィッシング攻撃、高度な機械学習ベースのアプローチ、およびユーザーのプライバシーを侵害するリモートサーバーにurlを送信する他のアプローチの可能性が高い。 本稿では,フィッシング防止層であるPhishMatchについて述べる。 本研究では,文字列マッチングのための時空間効率の良いAho-Corasickアルゴリズムと近似文字列マッチングのためのn-gramベースのインデックス手法を設計し,フィッシングURLの様々なサイバースクワット手法を検出する。 偽陽性を減らすために、グローバルホワイトリストとパーソナライズされたユーザーホワイトリストを使用します。 また、URLを訪問するコンテキストを決定し、その情報を用いて入力URLをより正確に分類する。 PhishMatchの最後のコンポーネントは、機械学習モデルと、URLを分類するための制御された検索エンジンクエリである。 Chromeブラウザ用に開発されたPhishMatchのプロトタイププラグインは、高速で軽量であることが判明した。 評価の結果,PhishMatchは効率的かつ効果的であることがわかった。

Phishing attacks continue to be a significant threat on the Internet. Prior studies show that it is possible to determine whether a website is phishing or not just by analyzing its URL more carefully. A major advantage of the URL based approach is that it can identify a phishing website even before the web page is rendered in the browser, thus avoiding other potential problems such as cryptojacking and drive-by downloads. However, traditional URL based approaches have their limitations. Blacklist based approaches are prone to zero-hour phishing attacks, advanced machine learning based approaches consume high resources, and other approaches send the URL to a remote server which compromises user's privacy. In this paper, we present a layered anti-phishing defense, PhishMatch, which is robust, accurate, inexpensive, and client-side. We design a space-time efficient Aho-Corasick algorithm for exact string matching and n-gram based indexing technique for approximate string matching to detect various cybersquatting techniques in the phishing URL. To reduce false positives, we use a global whitelist and personalized user whitelists. We also determine the context in which the URL is visited and use that information to classify the input URL more accurately. The last component of PhishMatch involves a machine learning model and controlled search engine queries to classify the URL. A prototype plugin of PhishMatch, developed for the Chrome browser, was found to be fast and lightweight. Our evaluation shows that PhishMatch is both efficient and effective.
翻訳日:2021-12-10 10:35:24 公開日:2021-12-04
# (参考訳) SemanticStyleGAN: 制御可能な画像合成と編集のための構成生成優先学習 [全文訳有]

SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing ( http://arxiv.org/abs/2112.02236v1 )

ライセンス: CC BY 4.0
Yichun Shi, Xiao Yang, Yangyue Wan, Xiaohui Shen(参考訳) 近年の研究では、StyleGANは画像合成と編集の下流タスクに有望な事前モデルを提供することが示された。 しかし,スタイルガンの潜在符号はグローバルスタイルを制御するために設計されているため,合成画像に対するきめ細かい制御は困難である。 本稿では,ジェネレータが局所的な意味部分を個別にモデル化し,構成的に画像を合成するように訓練されるSemanticStyleGANを提案する。 異なる局所部分の構造とテクスチャは対応する潜在コードによって制御される。 実験の結果, 異なる空間領域間の強い絡み合いが得られた。 StyleGAN用に設計された編集方法と組み合わせることで、合成画像や実画像のよりきめ細かい編集が可能となる。 モデルは転送学習を通じて他のドメインに拡張することもできる。 したがって、ビルトインのアンタングルを組み込んだ一般的な事前モデルとして、GANベースのアプリケーション開発を促進し、より潜在的な下流タスクを可能にすることができる。

Recent studies have shown that StyleGANs provide promising prior models for downstream tasks on image synthesis and editing. However, since the latent codes of StyleGANs are designed to control global styles, it is hard to achieve a fine-grained control over synthesized images. We present SemanticStyleGAN, where a generator is trained to model local semantic parts separately and synthesizes images in a compositional way. The structure and texture of different local parts are controlled by corresponding latent codes. Experimental results demonstrate that our model provides a strong disentanglement between different spatial areas. When combined with editing methods designed for StyleGANs, it can achieve a more fine-grained control to edit synthesized or real images. The model can also be extended to other domains via transfer learning. Thus, as a generic prior model with built-in disentanglement, it could facilitate the development of GAN-based applications and enable more potential downstream tasks.
翻訳日:2021-12-10 09:25:55 公開日:2021-12-04
# (参考訳) パンクロマチックシャーニングのための3重畳み込みニューラルネットワーク [全文訳有]

A Triple-Double Convolutional Neural Network for Panchromatic Sharpening ( http://arxiv.org/abs/2112.02237v1 )

ライセンス: CC BY 4.0
Tian-Jing Zhang, Liang-Jian Deng, Ting-Zhu Huang, Jocelyn Chanussot, Gemine Vivone(参考訳) パンシャープ化とは、高空間解像度のパンクロマティック画像と低空間解像度のマルチスペクトル画像との融合であり、高空間解像度のマルチスペクトル画像を得ることを目的としている。 本稿では,3重二重ネットワーク(TDNet)と呼ばれる2重レベル,2重ブランチ,2重方向の2重タイプ構造を考慮し,パンシャーピングのためのレベルドメインに基づく損失関数を持つ新しいディープニューラルネットワークアーキテクチャを提案する。 TDNetの構造を用いることで、パンクロマチック画像の空間的詳細をフル活用し、低空間分解能マルチスペクトル画像に徐々に注入することにより、高空間分解能出力が得られる。 特定のネットワーク設計は、従来のマルチレゾリューション分析(mra)法の物理式によって動機づけられている。 したがって、効果的なMRA融合モジュールもTDNetに統合される。 さらに,いくつかのresnetブロックとマルチスケール畳み込みカーネルを採用し,ネットワークの深層化と拡張を行い,提案するtdnetの機能抽出とロバスト性が効果的に向上した。 WorldView-3、QuickBird、GaoFen-2センサーが取得した縮小およびフル解像度データセットに関する大規模な実験は、最近の最先端のパンシャーピングアプローチと比較して提案されたTDNetの優位性を示している。 アブレーション研究も提案手法の有効性を裏付けている。

Pansharpening refers to the fusion of a panchromatic image with a high spatial resolution and a multispectral image with a low spatial resolution, aiming to obtain a high spatial resolution multispectral image. In this paper, we propose a novel deep neural network architecture with level-domain based loss function for pansharpening by taking into account the following double-type structures, \emph{i.e.,} double-level, double-branch, and double-direction, called as triple-double network (TDNet). By using the structure of TDNet, the spatial details of the panchromatic image can be fully exploited and utilized to progressively inject into the low spatial resolution multispectral image, thus yielding the high spatial resolution output. The specific network design is motivated by the physical formula of the traditional multi-resolution analysis (MRA) methods. Hence, an effective MRA fusion module is also integrated into the TDNet. Besides, we adopt a few ResNet blocks and some multi-scale convolution kernels to deepen and widen the network to effectively enhance the feature extraction and the robustness of the proposed TDNet. Extensive experiments on reduced- and full-resolution datasets acquired by WorldView-3, QuickBird, and GaoFen-2 sensors demonstrate the superiority of the proposed TDNet compared with some recent state-of-the-art pansharpening approaches. An ablation study has also corroborated the effectiveness of the proposed approach.
翻訳日:2021-12-10 09:09:49 公開日:2021-12-04
# (参考訳) one learning algorithm hypothesisに向けて:システム理論的アプローチ [全文訳有]

Towards the One Learning Algorithm Hypothesis: A System-theoretic Approach ( http://arxiv.org/abs/2112.02256v1 )

ライセンス: CC BY 4.0
Christos Mavridis, John Baras(参考訳) 人間の認知における普遍的な学習アーキテクチャの存在は、神経科学の実験的な発見によって支持される広範囲にわたる推測である。 低レベルの実装はまだ特定できないが、人間の知覚と学習の抽象的な概要は以下の3つの基本的特性を含んでいると考えられている。 (a)階層的な注意と処理 (b)記憶に基づく知識表現、及び (c) 進歩的学習と知識のコンパクト化。 システム理論的な視点からこのような学習アーキテクチャの設計にアプローチし、3つの主成分を持つ閉ループシステムを開発する。 i)多分解能解析前処理装置 (ii)群不変特徴抽出器、及び (iii)進歩的知識に基づく学習モジュール。 マルチレゾリューションフィードバックループは、学習、すなわちシステムパラメータをオンライン観察に適応させるために使用される。 デザインする (i)および (ii)ウェーブレットに基づくマルチレゾリューション解析の確立した理論と群畳み込み作用素の性質に基づいている。 周辺 (iii) 複数の解像度で徐々に成長する知識表現を構成する新しい学習アルゴリズムを提案する。 提案アルゴリズムはアニーリング最適化に基づくオンライン決定論的アニーリング(ODA)アルゴリズムの拡張であり、勾配のない確率近似を用いて解く。 オダは本質的に堅牢性と正規化の性質を持ち、学習モデルの複雑さ、すなわち必要に応じてニューロンの数を増やす手段を直感的な分岐現象を通じて提供する。 提案したマルチレゾリューションアプローチは階層的で、進歩的で、知識ベースで、解釈可能である。 本稿では,最先端学習アルゴリズムとディープラーニング手法の文脈において,提案アーキテクチャの特性を説明する。

The existence of a universal learning architecture in human cognition is a widely spread conjecture supported by experimental findings from neuroscience. While no low-level implementation can be specified yet, an abstract outline of human perception and learning is believed to entail three basic properties: (a) hierarchical attention and processing, (b) memory-based knowledge representation, and (c) progressive learning and knowledge compaction. We approach the design of such a learning architecture from a system-theoretic viewpoint, developing a closed-loop system with three main components: (i) a multi-resolution analysis pre-processor, (ii) a group-invariant feature extractor, and (iii) a progressive knowledge-based learning module. Multi-resolution feedback loops are used for learning, i.e., for adapting the system parameters to online observations. To design (i) and (ii), we build upon the established theory of wavelet-based multi-resolution analysis and the properties of group convolution operators. Regarding (iii), we introduce a novel learning algorithm that constructs progressively growing knowledge representations in multiple resolutions. The proposed algorithm is an extension of the Online Deterministic Annealing (ODA) algorithm based on annealing optimization, solved using gradient-free stochastic approximation. ODA has inherent robustness and regularization properties and provides a means to progressively increase the complexity of the learning model i.e. the number of the neurons, as needed, through an intuitive bifurcation phenomenon. The proposed multi-resolution approach is hierarchical, progressive, knowledge-based, and interpretable. We illustrate the properties of the proposed architecture in the context of the state-of-the-art learning algorithms and deep learning methods.
翻訳日:2021-12-10 08:50:23 公開日:2021-12-04
# (参考訳) ソースコード理解のための事前学習モデルと下流タスクのブリッジ [全文訳有]

Bridging Pre-trained Models and Downstream Tasks for Source Code Understanding ( http://arxiv.org/abs/2112.02268v1 )

ライセンス: CC BY 4.0
Deze Wang, Zhouyang Jia, Shanshan Li, Yue Yu, Yun Xiong, Wei Dong, Xiangke Liao(参考訳) 事前訓練モデルの成功により、ソースコード理解のための下流タスクにおいて、プレトレイン-then-finetuneパラダイムが広く採用されている。 しかし、スクラッチから大規模モデルをコスト的に訓練するのに対し、事前訓練されたモデルを新しいタスクに効果的に適応する方法は、まだ完全には検討されていない。 本稿では,事前学習モデルとコード関連タスクを橋渡しする手法を提案する。 セマンティクス保存変換を利用して下流データ多様性を豊かにし、これらのセマンティクスに等価な変換に不変なセマンティクス特徴を事前学習したモデルを支援する。 さらに,既存の事前学習モデルの微調整を容易かつ困難に行うために,カリキュラム学習を導入する。 我々は本手法を様々な事前学習モデルに適用し,アルゴリズム分類やコードクローン検出,コード検索など,ソースコード理解タスクにおける最先端モデルを大幅に上回っている。 私たちの実験では、コードデータに十分な事前トレーニングがなければ、自然言語事前トレーニングモデルrobertaが、既存のコード事前トレーニングモデル、例えばcodebertやgraphcodebertよりも優れています。 この発見は、コード事前訓練モデルの改善の余地がまだたくさんあることを示唆している。

With the great success of pre-trained models, the pretrain-then-finetu ne paradigm has been widely adopted on downstream tasks for source code understanding. However, compared to costly training a large-scale model from scratch, how to effectively adapt pre-trained models to a new task has not been fully explored. In this paper, we propose an approach to bridge pre-trained models and code-related tasks. We exploit semantic-preserving transformation to enrich downstream data diversity, and help pre-trained models learn semantic features invariant to these semantically equivalent transformations. Further, we introduce curriculum learning to organize the transformed data in an easy-to-hard manner to fine-tune existing pre-trained models. We apply our approach to a range of pre-trained models, and they significantly outperform the state-of-the-art models on tasks for source code understanding, such as algorithm classification, code clone detection, and code search. Our experiments even show that without heavy pre-training on code data, natural language pre-trained model RoBERTa fine-tuned with our lightweight approach could outperform or rival existing code pre-trained models fine-tuned on the above tasks, such as CodeBERT and GraphCodeBERT. This finding suggests that there is still much room for improvement in code pre-trained models.
翻訳日:2021-12-10 08:22:08 公開日:2021-12-04
# (参考訳) グループ推薦のための自己教師付きグラフ学習 [全文訳有]

Self-supervised Graph Learning for Occasional Group Recommendation ( http://arxiv.org/abs/2112.02274v1 )

ライセンス: CC BY 4.0
Bowen Hao, Hongzhi Yin, Jing Zhang, Cuiping Li, and Hong Chen(参考訳) 本研究は, 時折グループ(コールドスタートグループ)にアイテムを推薦する問題であり, 時折グループをアドホックに形成し, 歴史的に相互作用したアイテムがほとんどないし全く存在しない問題である。 アイテムに対するグループとのインタラクションの極端なスパーシティの問題から,これらのグループに対して高品質な埋め込みを学ぶことは困難である。 グラフニューラルネットワーク(GNN)の最近の進歩は、この問題を軽減するために高次協調信号を組み込んでいるが、GNNのグラフ畳み込みにおいて、高次コールドスタート隣人は明示的に考慮されていない。 本稿では,メタラーニング環境下でグループ/ユーザ/イテムの埋め込みを再構築するために,バックボーンGNNモデルを協調的に訓練し,組込み品質を向上し,新たなグループに容易に適応できる自己教師付きグラフ学習パラダイムを提案する。 さらに,コールドスタート近傍の影響を低減すべく,自己アグリゲータを用いたメタアグリゲータを組み込んで,各グラフ畳み込みステップのアグリゲーション能力を高める。 さらに,グループメンバと非グループメンバの相関を明示的に検討するために,コントラスト学習(cl)アダプタも追加した。 3つのパブリックレコメンデーションデータセットの実験結果から,提案手法の最先端グループレコメンデーション手法に対する優位性を示した。

We study the problem of recommending items to occasional groups (a.k.a. cold-start groups), where the occasional groups are formed ad-hoc and have few or no historical interacted items. Due to the extreme sparsity issue of the occasional groups' interactions with items, it is difficult to learn high-quality embeddings for these occasional groups. Despite the recent advances on Graph Neural Networks (GNNs) incorporate high-order collaborative signals to alleviate the problem, the high-order cold-start neighbors are not explicitly considered during the graph convolution in GNNs. This paper proposes a self-supervised graph learning paradigm, which jointly trains the backbone GNN model to reconstruct the group/user/item embeddings under the meta-learning setting, such that it can directly improve the embedding quality and can be easily adapted to the new occasional groups. To further reduce the impact from the cold-start neighbors, we incorporate a self-attention-based meta aggregator to enhance the aggregation ability of each graph convolution step. Besides, we add a contrastive learning (CL) adapter to explicitly consider the correlations between the group and non-group members. Experimental results on three public recommendation datasets show the superiority of our proposed model against the state-of-the-art group recommendation methods.
翻訳日:2021-12-10 07:58:36 公開日:2021-12-04
# (参考訳) コールドスタート推薦のためのマルチストラテジーベース事前学習法 [全文訳有]

A Multi-Strategy based Pre-Training Method for Cold-Start Recommendation ( http://arxiv.org/abs/2112.02275v1 )

ライセンス: CC BY 4.0
Bowen Hao, Hongzhi Yin, Jing Zhang, Cuiping Li, and Hong Chen(参考訳) コールドスタート問題はレコメンデーションタスクの根本的な課題である。 グラフニューラルネットワーク(GNN)モデル上の最近の自己教師型学習(SSL)であるPT-GNNは、コールドスタートの埋め込みを再構築するためにGNNモデルを事前訓練し、コールドスタートの推奨に大きな可能性を示している。 しかし, PT-GNNは, 過度にスムースな問題のため, 最大3次関係しか取得できないため, 対象のコールドスタートユーザやアイテムを描写するのに有用な補助情報を提供できない。 さらに、埋め込み再構築タスクは、ユーザとアイテムのサブグラフ内の相関のみを考慮し、異なるサブグラフ間の相関を無視する。 以上の課題を解決するために, PT-GNNをモデルアーキテクチャやプレテキストタスクの観点から拡張し, コールドスタートレコメンデーション性能を向上させる, マルチストラテジーに基づくMPT事前学習手法を提案する。 具体的には,モデルアーキテクチャの観点から,gnnエンコーダでキャプチャされたユーザとアイテムの短距離依存性に加えて,長距離依存関係をキャプチャするトランスフォーマエンコーダを導入する。 プリテキストタスクでは,ユーザとアイテムの相関関係を組込み再構成タスクによって考慮することに加えて,ユーザとアイテムの相関関係を捉えるために,埋め込み型コントラスト学習タスクを追加する。 GNNとTransformerエンコーダをメタラーニング設定下でトレーニングし、実際のコールドスタートシナリオをシミュレートし、新しいコールドスタートユーザやアイテムに容易に迅速に適応できるようにします。 3つのパブリックレコメンデーションデータセットの実験では,提案したMPTモデルのバニラGNNモデルに対する優位性,ユーザ/イテム埋め込み推論における事前学習GNNモデル,レコメンデーションタスクが示されている。

Cold-start problem is a fundamental challenge for recommendation tasks. The recent self-supervised learning (SSL) on Graph Neural Networks (GNNs) model, PT-GNN, pre-trains the GNN model to reconstruct the cold-start embeddings and has shown great potential for cold-start recommendation. However, due to the over-smoothing problem, PT-GNN can only capture up to 3-order relation, which can not provide much useful auxiliary information to depict the target cold-start user or item. Besides, the embedding reconstruction task only considers the intra-correlations within the subgraph of users and items, while ignoring the inter-correlations across different subgraphs. To solve the above challenges, we propose a multi-strategy based pre-training method for cold-start recommendation (MPT), which extends PT-GNN from the perspective of model architecture and pretext tasks to improve the cold-start recommendation performance. Specifically, in terms of the model architecture, in addition to the short-range dependencies of users and items captured by the GNN encoder, we introduce a Transformer encoder to capture long-range dependencies. In terms of the pretext task, in addition to considering the intra-correlations of users and items by the embedding reconstruction task, we add embedding contrastive learning task to capture inter-correlations of users and items. We train the GNN and Transformer encoders on these pretext tasks under the meta-learning setting to simulate the real cold-start scenario, making the model easily and rapidly being adapted to new cold-start users and items. Experiments on three public recommendation datasets show the superiority of the proposed MPT model against the vanilla GNN models, the pre-training GNN model on user/item embedding inference and the recommendation task.
翻訳日:2021-12-10 07:36:38 公開日:2021-12-04
# (参考訳) interactive disentanglement: プロトタイプ表現とのインタラクションによる概念学習 [全文訳有]

Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations ( http://arxiv.org/abs/2112.02290v1 )

ライセンス: CC BY 4.0
Wolfgang Stammer, Marius Memmel, Patrick Schramowski and Kristian Kersting(参考訳) 強力な監督なしに生画像から視覚概念を学ぶことは難しい課題である。 本研究では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。 この目的のために、弱い監督と暗黙のプロトタイプ表現を通して概念基底表現を学習する新しいフレームワークである対話型概念スワッピングネットワーク(iCSN)を導入する。 iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。 この意味論的基盤と離散的な潜伏空間は、人間の理解と人間と機械の相互作用を促進する。 我々は,新しいデータセット「要素概念推論(ecr)」の実験を行い,幾何学的対象が共有する視覚概念に着目して,この主張を支持する。

Learning visual concepts from raw images without strong supervision is a challenging task. In this work, we show the advantages of prototype representations for understanding and revising the latent space of neural concept learners. For this purpose, we introduce interactive Concept Swapping Networks (iCSNs), a novel framework for learning concept-grounded representations via weak supervision and implicit prototype representations. iCSNs learn to bind conceptual information to specific prototype slots by swapping the latent representations of paired images. This semantically grounded and discrete latent space facilitates human understanding and human-machine interaction. We support this claim by conducting experiments on our novel data set "Elementary Concept Reasoning" (ECR), focusing on visual concepts shared by geometric objects.
翻訳日:2021-12-10 07:12:21 公開日:2021-12-04
# (参考訳) kdctime:時系列分類のためのインセプション時間校正付き知識蒸留 [全文訳有]

KDCTime: Knowledge Distillation with Calibration on InceptionTime for Time-series Classification ( http://arxiv.org/abs/2112.02291v1 )

ライセンス: CC BY 4.0
Xueyuan Gong, Yain-Whar Si, Yongqi Tian, Cong Lin, Xinyuan Zhang, and Xiaoxiang Liu(参考訳) ディープニューラルネットワークに基づく時系列分類アプローチは、これらのデータセットの少数ショット問題に起因する、UCRデータセットに過度に適合することが容易である。 そこで本研究では,より精度を向上させるために過剰フィッティング現象を緩和するために,ソフトラベルの情報をハードラベルに置き換えたインセプションタイム(lstime)のラベル平滑化を提案する。 次に、LSTimeでソフトラベルを手動で調整する代わりに、教師モデルでソフトラベルを自動的に生成するために、インセプションタイムのための知識蒸留(KDTime)を提案する。 最後に,教師モデルから誤った予測ソフトラベルを修正するために,KDCTime (Knowledge Distillation with Calibration for InceptionTime) を提案し,KDC by Translating (KDCT) とKDC by Reordering (KDCR) の2つのオプション校正戦略を含む。 実験の結果,KDCTimeの精度は期待できるが,推定時間はROCKETよりも2桁高速であり,トレーニング時間オーバーヘッドも許容できることがわかった。

Time-series classification approaches based on deep neural networks are easy to be overfitting on UCR datasets, which is caused by the few-shot problem of those datasets. Therefore, in order to alleviate the overfitting phenomenon for further improving the accuracy, we first propose Label Smoothing for InceptionTime (LSTime), which adopts the information of soft labels compared to just hard labels. Next, instead of manually adjusting soft labels by LSTime, Knowledge Distillation for InceptionTime (KDTime) is proposed in order to automatically generate soft labels by the teacher model. At last, in order to rectify the incorrect predicted soft labels from the teacher model, Knowledge Distillation with Calibration for InceptionTime (KDCTime) is proposed, where it contains two optional calibrating strategies, i.e. KDC by Translating (KDCT) and KDC by Reordering (KDCR). The experimental results show that the accuracy of KDCTime is promising, while its inference time is two orders of magnitude faster than ROCKET with an acceptable training time overhead.
翻訳日:2021-12-10 06:52:29 公開日:2021-12-04
# (参考訳) 効率的な関節ノイズ除去とマルチ露光融合 [全文訳有]

Efficient joint noise removal and multi exposure fusion ( http://arxiv.org/abs/2112.03701v1 )

ライセンス: CC BY 4.0
A. Buades, J.L Lisani, O. Martorell(参考訳) マルチ露光融合(Multi-Exposure fusion、MEF)は、異なる露光設定で取得した同一シーンの異なる画像を単一の画像に合成する技術である。 提案されたMEFアルゴリズムはすべて、画像の集合を組み合わせ、それぞれからより良い露出で選択する。 ノイズ除去を考慮した新しいマルチ露光画像融合チェーンを提案する。 本手法はDCT処理とMEF問題のマルチイメージ特性を利用する。 本研究では,時空間パッチ選択と協調的3次元しきい値設定を活用し,融合・分極戦略を提案する。 全体的な戦略では、各露光画像の復元を必要とせずに、画像の集合を復調して融合することができ、非常に効率的な手順をもたらす。

Multi-exposure fusion (MEF) is a technique for combining different images of the same scene acquired with different exposure settings into a single image. All the proposed MEF algorithms combine the set of images, somehow choosing from each one the part with better exposure. We propose a novel multi-exposure image fusion chain taking into account noise removal. The novel method takes advantage of DCT processing and the multi-image nature of the MEF problem. We propose a joint fusion and denoising strategy taking advantage of spatio-temporal patch selection and collaborative 3D thresholding. The overall strategy permits to denoise and fuse the set of images without the need of recovering each denoised exposure image, leading to a very efficient procedure.
翻訳日:2021-12-10 06:29:11 公開日:2021-12-04
# (参考訳) PreGAN: アクティブなフォールトトレラントエッジコンピューティングのためのプリエンプティブマイグレーション予測ネットワーク [全文訳有]

PreGAN: Preemptive Migration Prediction Network for Proactive Fault-Tolerant Edge Computing ( http://arxiv.org/abs/2112.02292v1 )

ライセンス: CC BY 4.0
Shreshth Tuli, Giuliano Casale, Nicholas R. Jennings(参考訳) ノードオーバーロードや障害に迅速に対応可能なフォールトトレラントエッジシステムの構築は、エッジデバイスの信頼性の欠如と、現代的なアプリケーションの厳格なサービス期限のため、難しい。 さらに、不要なタスクマイグレーションはシステムネットワークを圧迫し、賢く控えめな障害復旧スキームの必要性を生じさせる可能性がある。 以前のアプローチは、しばしば高度に揮発性のあるワークロードに適応しなかったり、最適な修復のために障害を正確に検出し、診断する。 したがって、サービスレベルの目的を満たすための堅牢で積極的なフォールトトレランスメカニズムが必要です。 本稿では,コンテナ化されたエッジデプロイメントにおける積極的なフォールトトレランスのためのプリエンプティブマイグレーション決定を予測するために,gan(generative adversarial network)を用いた複合aiモデルpreganを提案する。 PreGANは、GANと共同シミュレーションを使用して、数ショットの異常分類器を学習し、信頼できるコンピューティングのためのマイグレーション決定を積極的に予測する。 Raspberry-Piベースのエッジ環境における大規模な実験により、PreGANはフォールト検出、診断、分類において最先端のベースライン手法より優れ、高いサービス品質を実現することができることが示された。 PreGANは5.1%の正確な故障検出、高い診断スコア、23.8%のオーバーヘッドでこれを達成している。

Building a fault-tolerant edge system that can quickly react to node overloads or failures is challenging due to the unreliability of edge devices and the strict service deadlines of modern applications. Moreover, unnecessary task migrations can stress the system network, giving rise to the need for a smart and parsimonious failure recovery scheme. Prior approaches often fail to adapt to highly volatile workloads or accurately detect and diagnose faults for optimal remediation. There is thus a need for a robust and proactive fault-tolerance mechanism to meet service level objectives. In this work, we propose PreGAN, a composite AI model using a Generative Adversarial Network (GAN) to predict preemptive migration decisions for proactive fault-tolerance in containerized edge deployments. PreGAN uses co-simulations in tandem with a GAN to learn a few-shot anomaly classifier and proactively predict migration decisions for reliable computing. Extensive experiments on a Raspberry-Pi based edge environment show that PreGAN can outperform state-of-the-art baseline methods in fault-detection, diagnosis and classification, thus achieving high quality of service. PreGAN accomplishes this by 5.1% more accurate fault detection, higher diagnosis scores and 23.8% lower overheads compared to the best method among the considered baselines.
翻訳日:2021-12-10 06:17:08 公開日:2021-12-04
# (参考訳) 画像分類のための自己教師付き学習のアブレーション研究 [全文訳有]

Ablation study of self-supervised learning for image classification ( http://arxiv.org/abs/2112.02297v1 )

ライセンス: CC BY 4.0
Ilias Papastratis(参考訳) このプロジェクトは、画像認識のタスクのための畳み込みニューラルネットワーク(CNN)とトランスフォーマーネットワークの自己教師型トレーニングに焦点を当てている。 同じソース画像からの2つの拡張変換画像の類似性を最大化するために、異なるバックボーンを持つ単純なシアムネットワークを使用する。 このようにして、バックボーンは、監督なしで視覚情報を学ぶことができる。 最後に,この手法を3つの画像認識データセットで評価する。

This project focuses on the self-supervised training of convolutional neural networks (CNNs) and transformer networks for the task of image recognition. A simple siamese network with different backbones is used in order to maximize the similarity of two augmented transformed images from the same source image. In this way, the backbone is able to learn visual information without supervision. Finally, the method is evaluated on three image recognition datasets.
翻訳日:2021-12-10 05:57:20 公開日:2021-12-04
# (参考訳) ビデオ記憶可能性計算のためのアノテーション付きビデオデータセット [全文訳有]

An Annotated Video Dataset for Computing Video Memorability ( http://arxiv.org/abs/2112.02303v1 )

ライセンス: CC BY 4.0
Rukiye Savran Kiziltepe and Lorin Sweeney and Mihai Gabriel Constantin and Faiyaz Doctor and Alba Garcia Seco de Herrera and Claire-Helene Demarty and Graham Healy and Bogdan Ionescu and Alan F. Smeaton(参考訳) 平均6秒間の短いビデオクリップの公開リンクのコレクションを使って、1,275人のユーザーが手動でビデオに複数回注釈を付け、ビデオの長期記憶力と短期記憶力の両方を示す。 アノテーションはオンラインメモリゲームの一部として収集され、ビデオのコレクションを見せたときにビデオを見たことを思い出す参加者の能力を測定した。 認識タスクは、過去数分以内に見たビデオで短期記憶力、24時間から72時間以内に長期記憶力で実行された。 データには、各ビデオの認識ごとに反応時間が含まれている。 各ビデオにはテキスト記述(キャプチャ)と、各ビデオ(開始、中、終了)から抽出された3つのフレームに適用される画像レベルの特徴の集合が含まれている。 ビデオレベルの機能も備えている。 このデータセットは、2020年のMediaEvalベンチマークの一部として、Video Memorabilityタスクで使用された。

Using a collection of publicly available links to short form video clips of an average of 6 seconds duration each, 1,275 users manually annotated each video multiple times to indicate both long-term and short-term memorability of the videos. The annotations were gathered as part of an online memory game and measured a participant's ability to recall having seen the video previously when shown a collection of videos. The recognition tasks were performed on videos seen within the previous few minutes for short-term memorability and within the previous 24 to 72 hours for long-term memorability. Data includes the reaction times for each recognition of each video. Associated with each video are text descriptions (captions) as well as a collection of image-level features applied to 3 frames extracted from each video (start, middle and end). Video-level features are also provided. The dataset was used in the Video Memorability task as part of the MediaEval benchmark in 2020.
翻訳日:2021-12-10 05:53:53 公開日:2021-12-04
# (参考訳) 原子核物理学における人工知能と機械学習

Artificial Intelligence and Machine Learning in Nuclear Physics ( http://arxiv.org/abs/2112.02309v1 )

ライセンス: CC BY 4.0
Amber Boehnlein, Markus Diefenthaler, Cristiano Fanelli, Morten Hjorth-Jensen, Tanja Horn, Michelle P. Kuchera, Dean Lee, Witold Nazarewicz, Kostas Orginos, Peter Ostroumov, Long-Gang Pang, Alan Poon, Nobuo Sato, Malachi Schram, Alexander Scheinker, Michael S. Smith, Xin-Nian Wang, Veronique Ziegler(参考訳) 人工知能/機械学習法の進歩は、科学研究に広く適用可能なツールを提供する。 これらの技術は、核物理学研究の様々な分野に応用され、科学的な発見や社会的な応用を促進する進歩に繋がる。 このレビューは、人工知能と機械学習技術によって変換された核物理学の研究のスナップショットを提供する。

Advances in artificial intelligence/machine learning methods provide tools that have broad applicability in scientific research. These techniques are being applied across the diversity of nuclear physics research topics, leading to advances that will facilitate scientific discoveries and societal applications. This Review gives a snapshot of nuclear physics research which has been transformed by artificial intelligence and machine learning techniques.
翻訳日:2021-12-10 05:45:10 公開日:2021-12-04
# (参考訳) LoNLI: NLIのさまざまな論理推論機能をテストする拡張可能なフレームワーク [全文訳有]

LoNLI: An Extensible Framework for Testing Diverse Logical Reasoning Capabilities for NLI ( http://arxiv.org/abs/2112.02333v1 )

ライセンス: CC BY 4.0
Ishan Tarunesh, Somak Aditya, Monojit Choudhury(参考訳) 自然言語推論(NLI)は、自然言語理解(NLU)をテストするための代表的なタスクと考えられている。 本研究では,NLIに必要な多種多様な論理的推論能力(および拡張NLU)を総合的に検証する拡張可能なフレームワークを提案する。 振る舞いテストによって動機づけられた私たちは、半合成の大きなテストベンチ(363テンプレート、363k例)と、以下のユーティリティを提供する関連するフレームワークを作成します。 1)17の推論次元(実用的推論を含む)に沿って個別に推論能力をテスト・分析する。 2 クロス能力情報の内容(持ち出し又は持ち帰り)を研究するための設計実験及び 3) 人工的な性質により, 人工物やバイアスを制御できる。 自由形式の自然言語テンプレート(CheckListを使用)からの自動テストケースインスタンス化の継承力と、明確に定義された機能分類により、自然言語の複雑さを変化させながら、より難しいテストケースに拡張することができます。 最先端のNLIシステムの解析を通じて、我々のベンチマークは確かに困難である(そして、追加のリソースのトレーニングにおいても)。 能力によっては難易度が増す。 さらなる詳細な分析と微調整実験によって、これらの能力とモデルに関するさらなる洞察が明らかになりました。 最終的には,他のモデルと比較して,行動情報の一般化に活用できるかどうかを検討するために,ユーザスタディも実施する。

Natural Language Inference (NLI) is considered a representative task to test natural language understanding (NLU). In this work, we propose an extensible framework to collectively yet categorically test diverse Logical reasoning capabilities required for NLI (and by extension, NLU). Motivated by behavioral testing, we create a semi-synthetic large test-bench (363 templates, 363k examples) and an associated framework that offers following utilities: 1) individually test and analyze reasoning capabilities along 17 reasoning dimensions (including pragmatic reasoning), 2) design experiments to study cross-capability information content (leave one out or bring one in); and 3) the synthetic nature enable us to control for artifacts and biases. The inherited power of automated test case instantiation from free-form natural language templates (using CheckList), and a well-defined taxonomy of capabilities enable us to extend to (cognitively) harder test cases while varying the complexity of natural language. Through our analysis of state-of-the-art NLI systems, we observe that our benchmark is indeed hard (and non-trivial even with training on additional resources). Some capabilities stand out as harder. Further fine-grained analysis and fine-tuning experiments reveal more insights about these capabilities and the models -- supporting and extending previous observations. Towards the end we also perform an user-study, to investigate whether behavioral information can be utilised to generalize much better for some models compared to others.
翻訳日:2021-12-10 05:40:56 公開日:2021-12-04
# 混合会員分配フリーモデル

Mixed Membership Distribution-Free model ( http://arxiv.org/abs/2112.04389v1 )

ライセンス: Link先を確認
Huan Qing(参考訳) 本稿では,ノード間を接続するエッジが有限個の実数となる混成メンバシップ重み付きネットワークの潜在コミュニティ情報を検出する問題について考察する。 本稿では,この問題に対する混合会員分布自由モデルを提案する。 このモデルはエッジの分布制約を持たないが、期待値のみを持ち、以前のモデルの一般化と見なすことができる。 このモデルでは,効率的なスペクトルアルゴリズムを用いてコミュニティメンバシップを推定する。 また,このモデルに基づくアルゴリズムの収束率を,精巧なスペクトル解析を用いて導出する。 エッジが異なる分布に従う場合のシミュレーションネットワークの小型化に適用可能な混合メンバーシップフリーモデルの利点を実証する。

We consider the problem of detecting latent community information of mixed membership weighted network in which nodes have mixed memberships and edges connecting between nodes can be finite real numbers. We propose a general mixed membership distribution-free model for this problem. The model has no distribution constraints of edges but only the expected values, and can be viewed as generalizations of some previous models. We use an efficient spectral algorithm to estimate community memberships under the model. We also derive the convergence rate of the proposed algorithm under the model using delicate spectral analysis. We demonstrate the advantages of mixed membership distribution-free model with applications to a small scale of simulated networks when edges follow different distributions.
翻訳日:2021-12-09 14:29:08 公開日:2021-12-04
# (参考訳) サイクルメモリネットワークによるアンテログレードフォーティングの克服 [全文訳有]

Overcome Anterograde Forgetting with Cycled Memory Networks ( http://arxiv.org/abs/2112.02342v1 )

ライセンス: CC BY 4.0
Jian Peng, Dingqi Ye, Bo Tang, Yinjie Lei, Yu Liu, Haifeng Li(参考訳) 生涯の一連のタスクから学ぶことは、人工知能に対するエージェントにとって不可欠である。 これはエージェントが干渉することなく新しい知識を継続的に学習し記憶することを必要とする。 本稿では,ニューラルネットワークを用いた生涯学習において,記憶の保存と伝達が新たな知識の学習を阻害する可能性があることを示す。 これは、ニューラルネットワークの学習能力が歴史的知識を記憶し続けるにつれて減少するという事実と、関連する古い知識を現在のタスクに移す際に、概念的混乱が発生するという事実に起因する。 本研究は,生涯学習のためのニューラルネットワークにおけるアンテログラード・フォーティングに対処するために,cycled memory networks (cmn) という汎用フレームワークを提案する。 CMNは2つの個別メモリネットワークから構成され、短期記憶と長期記憶を保存し、容量の縮小を回避する。 転送セルは、これらの2つのメモリネットワークを接続し、長期記憶ネットワークから短期記憶ネットワークへの知識伝達を可能にして、概念的混乱を緩和し、短期記憶を知識蓄積のための長期記憶ネットワークに統合するメモリ統合機構を開発する。 実験結果から,CMN はタスク関連,タスク対応,クラス増分,クロスドメインのベンチマークにおいて,アンテログラウンドの忘れを効果的に解決できることが示された。

Learning from a sequence of tasks for a lifetime is essential for an agent towards artificial general intelligence. This requires the agent to continuously learn and memorize new knowledge without interference. This paper first demonstrates a fundamental issue of lifelong learning using neural networks, named anterograde forgetting, i.e., preserving and transferring memory may inhibit the learning of new knowledge. This is attributed to the fact that the learning capacity of a neural network will be reduced as it keeps memorizing historical knowledge, and the fact that conceptual confusion may occur as it transfers irrelevant old knowledge to the current task. This work proposes a general framework named Cycled Memory Networks (CMN) to address the anterograde forgetting in neural networks for lifelong learning. The CMN consists of two individual memory networks to store short-term and long-term memories to avoid capacity shrinkage. A transfer cell is designed to connect these two memory networks, enabling knowledge transfer from the long-term memory network to the short-term memory network to mitigate the conceptual confusion, and a memory consolidation mechanism is developed to integrate short-term knowledge into the long-term memory network for knowledge accumulation. Experimental results demonstrate that the CMN can effectively address the anterograde forgetting on several task-related, task-conflict, class-incremental and cross-domain benchmarks.
翻訳日:2021-12-09 13:43:02 公開日:2021-12-04
# (参考訳) SITA:シングルイメージテストタイム適応 [全文訳有]

SITA: Single Image Test-time Adaptation ( http://arxiv.org/abs/2112.02355v1 )

ライセンス: CC BY 4.0
Ansh Khurana, Sujoy Paul, Piyush Rai, Soma Biswas, Gaurav Aggarwal(参考訳) テスト時間適応(TTA)では、あるソースデータに基づいてトレーニングされたモデルを考えると、異なるディストリビューションからテストインスタンスに対してより良い予測を行うように適応することが目標である。 重要なことは、TTAはソースデータへのアクセスを前提とせず、ターゲットのディストリビューションからラベル付き/ラベルなしのサンプルも使用せず、ソースモデルを微調整する。 本稿では,TTAをSITA(Single Image Test-time Adaptation)と呼ぶ,より実用的な設定で考える。 ここでは、各予測を行う際には、典型的には文献で考慮されるような、インスタンスの \emph{batch} ではなく、与えられた \emph{single} テストインスタンスのみにアクセスすることができる。 これは、要求の"バッチ化"に遅れたり、バッチ処理のスコープがないエッジデバイス(携帯電話など)で推論が行われることのない、オンデマンドで推論が必要な現実的なシナリオによって動機付けられている。 SITAの適応プロセスは、推論時に起こるように非常に高速であるべきです。 そこで本研究では,前進伝播のみを必要とするSITA設定のための新しいアプローチAugBNを提案する。 このアプローチは、分類とセグメンテーションタスクの両方の個々のテストインスタンスに、トレーニング済みの任意のモデルを適用することができる。 augbnはラベル保存変換のある1つのフォワードパスのみを使用して、与えられたテスト画像から未検出のテスト分布の正規化統計を推定する。 AugBNはバックプロパゲーションを一切含まないため、最近の手法に比べてはるかに高速である。 私たちの知る限りでは、これは単一のテストイメージのみを使用して、このハード適応問題に対処する最初の仕事です。 非常に単純であるにもかかわらず、我々のフレームワークは、広範な実験やアブレーション研究に反映されているように、ターゲットインスタンスにソースモデルを直接適用することに比べて、大幅なパフォーマンス向上を達成できます。

In Test-time Adaptation (TTA), given a model trained on some source data, the goal is to adapt it to make better predictions for test instances from a different distribution. Crucially, TTA assumes no access to the source data or even any additional labeled/unlabeled samples from the target distribution to finetune the source model. In this work, we consider TTA in a more pragmatic setting which we refer to as SITA (Single Image Test-time Adaptation). Here, when making each prediction, the model has access only to the given \emph{single} test instance, rather than a \emph{batch} of instances, as has typically been considered in the literature. This is motivated by the realistic scenarios where inference is needed in an on-demand fashion that may not be delayed to "batch-ify" incoming requests or the inference is happening on an edge device (like mobile phone) where there is no scope for batching. The entire adaptation process in SITA should be extremely fast as it happens at inference time. To address this, we propose a novel approach AugBN for the SITA setting that requires only forward propagation. The approach can adapt any off-the-shelf trained model to individual test instances for both classification and segmentation tasks. AugBN estimates normalisation statistics of the unseen test distribution from the given test image using only one forward pass with label-preserving transformations. Since AugBN does not involve any back-propagation, it is significantly faster compared to other recent methods. To the best of our knowledge, this is the first work that addresses this hard adaptation problem using only a single test image. Despite being very simple, our framework is able to achieve significant performance gains compared to directly applying the source model on the target instances, as reflected in our extensive experiments and ablation studies.
翻訳日:2021-12-09 13:08:13 公開日:2021-12-04
# (参考訳) ソースデータのない意味セグメンテーションモデルの教師なし適応 [全文訳有]

Unsupervised Adaptation of Semantic Segmentation Models without Source Data ( http://arxiv.org/abs/2112.02359v1 )

ライセンス: CC BY 4.0
Sujoy Paul, Ansh Khurana, Gaurav Aggarwal(参考訳) セマンティクスセグメンテーションのためのソースデータにアクセスせずに、ソースモデルの教師なしドメイン適応の新たな問題を考える。 教師なしドメイン適応は、ラベル付きソースデータに基づいて学習したモデルを、新しいラベル付きターゲットデータセットに適応することを目的としている。 既存の方法は、ソースデータが適応中にターゲットデータと共に利用可能であると仮定する。 しかし、実際のシナリオでは、プライバシやストレージなどの理由から、ソースモデルとラベルなしのターゲットデータのみにアクセスできますが、ラベル付きソースはアクセスできません。 本研究では,情報源モデルから知識を抽出するための自己学習手法を提案する。 ソースからターゲットへの分散シフトを補償するために、まず、未ラベルのターゲットデータでネットワークの正規化パラメータのみを更新する。 そして、信頼フィルター付き擬似ラベリングを採用し、特定の変換に対してコンピテンシーを強制します。 非常に単純で直感的なフレームワークですが、広範な実験やアブレーション研究に反映されているように、ターゲットデータにソースモデルを直接適用するよりも、大幅なパフォーマンス向上を実現しています。 実際、パフォーマンスは、適応にソースデータを使用する最近の最先端のメソッドからほんの数ポイントしか離れていません。 さらに,本手法の汎用性を実証し,対象とするトレーニングデータを必要とせず,テスト時間のみに適応できる完全テスト時間適応設定法を提案する。

We consider the novel problem of unsupervised domain adaptation of source models, without access to the source data for semantic segmentation. Unsupervised domain adaptation aims to adapt a model learned on the labeled source data, to a new unlabeled target dataset. Existing methods assume that the source data is available along with the target data during adaptation. However, in practical scenarios, we may only have access to the source model and the unlabeled target data, but not the labeled source, due to reasons such as privacy, storage, etc. In this work, we propose a self-training approach to extract the knowledge from the source model. To compensate for the distribution shift from source to target, we first update only the normalization parameters of the network with the unlabeled target data. Then we employ confidence-filtered pseudo labeling and enforce consistencies against certain transformations. Despite being very simple and intuitive, our framework is able to achieve significant performance gains compared to directly applying the source model on the target data as reflected in our extensive experiments and ablation studies. In fact, the performance is just a few points away from the recent state-of-the-art methods which use source data for adaptation. We further demonstrate the generalisability of the proposed approach for fully test-time adaptation setting, where we do not need any target training data and adapt only during test-time.
翻訳日:2021-12-09 12:49:37 公開日:2021-12-04
# (参考訳) マルチパーティコンセンサスプロトコルの自動検証に向けて [全文訳有]

Towards automated verification of multi-party consensus protocols ( http://arxiv.org/abs/2112.02397v1 )

ライセンス: CC BY 4.0
Ivan Fedotov, Anton Khritankov, Artem Barger(参考訳) ブロックチェーン技術と関連するフレームワークは、最近広く注目を集めている。 ブロックチェーンシステムは、トランザクションの合意に達するためにマルチパーティコンセンサスプロトコルを使用する。 Hyperledger Fabricフレームワークは、承認ポリシープロトコルに基づくマルチパーティのコンセンサスを公開して、トランザクションに関するコンセンサスに到達する。 本稿では,確率特性を用いたブロックチェーンの多人数合意の検証問題を定義する。 さらに,統計的モデル検査と仮説検証を用いた支持政策の検証手法を提案する。 我々は、組織に重みを割り当てる能力や組織の拒否可能性など、政策のいくつかの側面を分析した。 実験では, 検証手法の成果と, 実験結果を用いて, モデルが仕様を満足できるようにする方法を実証する。 私たちの技術を使って、Hyperledger Fabricフレームワークを使ってエンタープライズアプリケーションを設計できます。

Blockchain technology and related frameworks have recently received extensive attention. Blockchain systems use multi-party consensus protocols to reach agreements on transactions. Hyperledger Fabric framework exposes a multi-party consensus, based on endorsement policy protocol, to reach a consensus on a transaction. In this paper, we define a problem of verification of a blockchain multi-party consensus with probabilistic properties. Further, we propose a verification technique of endorsement policies using statistical model checking and hypothesis testing. We analyze several aspects of the policies, including the ability to assign weights to organizations and the refusal probabilities of organizations. We demonstrate on experiments the work of our verification technique and how one can use experimental results to make the model satisfiable the specification. One can use our technique to design enterprise applications with the Hyperledger Fabric framework.
翻訳日:2021-12-09 12:30:44 公開日:2021-12-04
# (参考訳) VT-CLIP:視覚誘導テキストによる視覚言語モデルの実現 [全文訳有]

VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts ( http://arxiv.org/abs/2112.02399v1 )

ライセンス: CC BY 4.0
Renrui Zhang, Longtian Qiu, Wei Zhang, Ziyao Zeng(参考訳) コントラストヴィジュアル言語事前学習(clip)は、移入可能な視覚表現学習で近年注目を集めている。 大規模な画像テキストペアによって監督されるCLIPは、ペア画像とテキストをアライメントすることで、オープン語彙シナリオでゼロショット認識を行うことができる。 しかし、特定のアプリケーションと一般的に訓練済みの知識の間には意味的なギャップがあり、下流のタスクで一致するサブ最適となる。 本稿では,視覚誘導テキストを用いた視覚言語モデリングのためのVT-CLIPを提案する。 具体的には,画像上の情報領域を適応的に探索し,視覚的特徴をクロスアテンション・マカニズムによって集約する。 このように、視覚誘導されたテキストは画像と意味的に相関しやすくなり、マッチングプロセスに大きな恩恵をもたらす。 筆者らは,11のよく知られた分類データセットを用いてVT-CLIPを評価し,VT-CLIPの有効性を実証するために広範囲にわたるアブレーション実験を行った。 コードはまもなくリリースされる。

Contrastive Vision-Language Pre-training (CLIP) has drown increasing attention recently for its transferable visual representation learning. Supervised by large-scale image-text pairs, CLIP is able to align paired images and texts and thus conduct zero-shot recognition in open-vocabulary scenarios. However, there exists semantic gap between the specific application and generally pre-trained knowledge, which makes the matching sub-optimal on downstream tasks. In this paper, we propose VT-CLIP to enhance vision-language modeling via visual-guided texts. Specifically, we guide the text feature to adaptively explore informative regions on the image and aggregate the visual feature by cross-attention machanism. In this way, the visual-guided text become more semantically correlated with the image, which greatly benefits the matching process. In few-shot settings, we evaluate our VT-CLIP on 11 well-known classification datasets and experiment extensive ablation studies to demonstrate the effectiveness of VT-CLIP. The code will be released soon.
翻訳日:2021-12-09 12:21:55 公開日:2021-12-04
# (参考訳) ガウス法による最適輸送距離の非パラメトリック混合mles [全文訳有]

Nonparametric mixture MLEs under Gaussian-smoothed optimal transport distance ( http://arxiv.org/abs/2112.02421v1 )

ライセンス: CC BY 4.0
Fang Han, Zhen Miao, and Yandi Shen(参考訳) gaussian-smoothed optimal transport (got) フレームワークはgoldfeld et al. (2020)で先駆的であり、その後一連の論文が続くが、統計学、機械学習、情報理論、関連分野の研究者の間で急速に注目を集めている。 そこで得られた重要な観察の1つは、GOTフレームワークを非平滑なフレームワークに適合させることで、実データ生成分布を近似するために経験的測度を使用するための次元性の呪いを解くことができることである。 本論文は、離散指数族モデルにおける非パラメトリック混合分布の推定に関連性のある観測を適用し、GOTコストの下では、非パラメトリックMLEの推定精度を多項式速度に加速できることを示した。 これは、情報理論の観点からは改善できない非平滑なメトリクスに基づく古典的なサブポリノミカルレートとは対照的である。 解析における重要なステップは、ガウス型畳み込みリプシッツ関数の新しいジャクソン型近似境界の確立である。 この洞察は、非パラメトリックMLEと新しいGOTフレームワークを分析する既存のテクニックを橋渡しする。

The Gaussian-smoothed optimal transport (GOT) framework, pioneered in Goldfeld et al. (2020) and followed up by a series of subsequent papers, has quickly caught attention among researchers in statistics, machine learning, information theory, and related fields. One key observation made therein is that, by adapting to the GOT framework instead of its unsmoothed counterpart, the curse of dimensionality for using the empirical measure to approximate the true data generating distribution can be lifted. The current paper shows that a related observation applies to the estimation of nonparametric mixing distributions in discrete exponential family models, where under the GOT cost the estimation accuracy of the nonparametric MLE can be accelerated to a polynomial rate. This is in sharp contrast to the classical sub-polynomial rates based on unsmoothed metrics, which cannot be improved from an information-theoreti cal perspective. A key step in our analysis is the establishment of a new Jackson-type approximation bound of Gaussian-convoluted Lipschitz functions. This insight bridges existing techniques of analyzing the nonparametric MLEs and the new GOT framework.
翻訳日:2021-12-09 11:52:50 公開日:2021-12-04
# (参考訳) 翌日のWildfireスプレッド:リモートセンシングデータからWildfireスプレッドを予測する機械学習データセット [全文訳有]

Next Day Wildfire Spread: A Machine Learning Data Set to Predict Wildfire Spreading from Remote-Sensing Data ( http://arxiv.org/abs/2112.02447v1 )

ライセンス: CC BY 4.0
Fantine Huot, R. Lily Hu, Nita Goyal, Tharun Sankar, Matthias Ihme, Yi-Fan Chen(参考訳) 森林火災の広がりを予測することは、土地管理と災害対策にとって重要である。 この目的のために、米国全体で10年近くにわたってリモートセンシングされたデータを集約した、大規模で多変量の歴史的山火事データセットである「Next Day Wildfire Spread」を提示する。 地球観測衛星に基づく既存の火災データセットとは対照的に、2dの火災データと複数の説明変数(地形、植生、天候、干ばつ指数、人口密度など)を組み合わせて、2dの領域に配置し、機械学習のための特徴豊富なデータセットを提供する。 このデータセットの有用性を示すために,このデータの空間情報を活用した畳み込みオートエンコーダを実装し,野火の拡散を予測する。 ニューラルネットワークの性能を、ロジスティック回帰やランダムフォレストといった他の機械学習モデルと比較する。 このデータセットは、1日のリードタイムでリモートセンシングデータに基づいたワイルドファイア伝播モデルを開発するためのベンチマークとして使用できる。

Predicting wildfire spread is critical for land management and disaster preparedness. To this end, we present `Next Day Wildfire Spread,' a curated, large-scale, multivariate data set of historical wildfires aggregating nearly a decade of remote-sensing data across the United States. In contrast to existing fire data sets based on Earth observation satellites, our data set combines 2D fire data with multiple explanatory variables (e.g., topography, vegetation, weather, drought index, population density) aligned over 2D regions, providing a feature-rich data set for machine learning. To demonstrate the usefulness of this data set, we implement a convolutional autoencoder that takes advantage of the spatial information of this data to predict wildfire spread. We compare the performance of the neural network with other machine learning models: logistic regression and random forest. This data set can be used as a benchmark for developing wildfire propagation models based on remote sensing data for a lead time of one day.
翻訳日:2021-12-09 11:20:53 公開日:2021-12-04
# (参考訳) emojich -- ロシア語によるゼロショット絵文字生成 - テクニカルレポート [全文訳有]

Emojich -- zero-shot emoji generation using Russian language: a technical report ( http://arxiv.org/abs/2112.02448v1 )

ライセンス: CC BY 4.0
Alex Shonenkov (1 and 2), Daria Bakshandaeva (1), Denis Dimitrov (1), Aleksandr Nikolich (1) ((1) Sber AI, (2) MIPT)(参考訳) 本報告では,ロシア語の字幕を条件として絵文字を生成する,テキスト対画像ニューラルネットワーク"emojich"を提案する。 我々は,事前訓練された大型モデルruDALL-E Malevich(XL) 1.3Bパラメータの微調整段階における一般化能力を保ちつつ,生成した画像に特別なスタイルを与える。 ここでは、いくつかのエンジニアリング手法、コードの実現、結果の再現のためのすべてのハイパーパラメータ、そして全員が独自のステッカーセットを作成できるTelegramボットを紹介します。 また,「エモジッチ」モデルによって新たに作成された絵文字についても紹介する。

This technical report presents a text-to-image neural network "Emojich" that generates emojis using captions in Russian language as a condition. We aim to keep the generalization ability of a pretrained big model ruDALL-E Malevich (XL) 1.3B parameters at the fine-tuning stage, while giving special style to the images generated. Here are presented some engineering methods, code realization, all hyper-parameters for reproducing results and a Telegram bot where everyone can create their own customized sets of stickers. Also, some newly generated emojis obtained by "Emojich" model are demonstrated.
翻訳日:2021-12-09 11:02:49 公開日:2021-12-04
# (参考訳) 多様な低ショット画像生成のための特徴補間を用いた暗黙データ拡張 [全文訳有]

Implicit Data Augmentation Using Feature Interpolation for Diversified Low-Shot Image Generation ( http://arxiv.org/abs/2112.02450v1 )

ライセンス: CC BY 4.0
Mengyu Dai, Haibin Hang and Xiaoyang Guo(参考訳) 生成モデルのトレーニング,特に生成共役ネットワークは,低データ設定で容易に分岐できる。 この問題を軽減するために,安定したトレーニングと多様なサンプルの合成を容易にする新しい暗黙的データ拡張手法を提案する。 具体的には、判別器を実データ多様体の計量埋め込みとみなし、実データ点間の適切な距離を提供する。 次に,特徴空間の情報を活用し,データ駆動拡張手法を開発した。 さらに, 合成試料の多様性を評価するための簡易な指標を提示する。 少数ショット生成タスクによる実験では,現在の手法と比較してfidと結果の多様性が向上し,100以下のトレーニングサンプルで高品質で多彩な画像を生成することが可能となった。

Training of generative models especially Generative Adversarial Networks can easily diverge in low-data setting. To mitigate this issue, we propose a novel implicit data augmentation approach which facilitates stable training and synthesize diverse samples. Specifically, we view the discriminator as a metric embedding of the real data manifold, which offers proper distances between real data points. We then utilize information in the feature space to develop a data-driven augmentation method. We further bring up a simple metric to evaluate the diversity of synthesized samples. Experiments on few-shot generation tasks show our method improves FID and diversity of results compared to current methods, and allows generating high-quality and diverse images with less than 100 training samples.
翻訳日:2021-12-09 10:55:12 公開日:2021-12-04
# 深層学習モデルを用いたcfdシミュレーションによる二重動脈血流特性のモデル化と予測

Modeling and Predicting Blood Flow Characteristics through Double Stenosed Artery from CFD simulation using Deep Learning Models ( http://arxiv.org/abs/2112.03698v1 )

ライセンス: Link先を確認
Ishat Raihan Jamil and Mayeesha Humaira(参考訳) 二重狭窄動脈モデルの計算流体力学(CFD)のための患者固有の有限要素解析(FEA)モデルを確立するには、時間と労力がかかり、医師の時間クリティカルな医療応用における迅速な対応能力が制限される。 このような問題は、異なる構成の単純化された二重狭窄動脈モデルのCFDシミュレーションによって生成されたデータセットを用いて、深層学習(DL)モデルを学習し、血流特性を予測することで解決される。 IVUS画像から得られた実際の二重狭窄動脈モデルを用いて血流パターンを比較すると,従来の研究で広く用いられている狭窄頸部形状の正弦波近似は,真の収縮の効果を効果的に表現できないことが明らかとなった。 その結果、一般化された単純化されたモデルの観点から、制約付き首の新たな幾何学的表現が提案される。 血管長に伴う動脈腔径および血流パラメータの経時的変化は,LSTMおよびGRU DLモデルの使用機会を示唆した。 しかし, 2重拘束型動脈の短いデータ集合では, ニューラルネットワークモデルは, フロー特性のほとんどにおいて, 特殊なrnnを上回っている。 一方,LSTMは血管長の異なる血圧など,大きな変動を伴う流動特性の予測に優れる。 データセット内の容器のすべての特性をトレーニングし、テストする上で、総合的な精度は高いが、gruモデルは、すべてのケースにおいて個々の容器フロー予測に劣る。 また、各プロパティに対して個別に最適化されたハイパーパラメータが必要であり、単一のハイパーパラメータセットで、すべてのアウトプットにまたがる全体的な優れたパフォーマンスを達成することを目指している。

Establishing patient-specific finite element analysis (FEA) models for computational fluid dynamics (CFD) of double stenosed artery models involves time and effort, restricting physicians' ability to respond quickly in time-critical medical applications. Such issues might be addressed by training deep learning (DL) models to learn and predict blood flow characteristics using a dataset generated by CFD simulations of simplified double stenosed artery models with different configurations. When blood flow patterns are compared through an actual double stenosed artery model, derived from IVUS imaging, it is revealed that the sinusoidal approximation of stenosed neck geometry, which has been widely used in previous research works, fails to effectively represent the effects of a real constriction. As a result, a novel geometric representation of the constricted neck is proposed which, in terms of a generalized simplified model, outperforms the former assumption. The sequential change in artery lumen diameter and flow parameters along the length of the vessel presented opportunities for the use of LSTM and GRU DL models. However, with the small dataset of short lengths of doubly constricted blood arteries, the basic neural network model outperforms the specialized RNNs for most flow properties. LSTM, on the other hand, performs better for predicting flow properties with large fluctuations, such as varying blood pressure over the length of the vessels. Despite having good overall accuracies in training and testing across all the properties for the vessels in the dataset, the GRU model underperforms for an individual vessel flow prediction in all cases. The results also point to the need of individually optimized hyperparameters for each property in any model rather than aiming to achieve overall good performance across all outputs with a single set of hyperparameters.
翻訳日:2021-12-08 16:02:38 公開日:2021-12-04
# 自己注意型マルチスケールグラフ畳み込みネットワーク

Multi-scale Graph Convolutional Networks with Self-Attention ( http://arxiv.org/abs/2112.03262v1 )

ライセンス: Link先を確認
Zhilong Xiong, Jia Cai(参考訳) グラフ畳み込みネットワーク(GCN)は,近年,様々なグラフ構造データを扱うための優れた学習能力を実現している。 一般に、ディープGCNは従来のGCNのグラフ畳み込みはラプラシア平滑化の特別な形式であり、異なるノードの表現が区別できないため、うまく機能しない。 文献では、GCNの表現力を高めるために、GCNにマルチスケール情報を用いた。 しかし,GCNsの重要な問題である過平滑化現象は未解決であり,検討が続けられている。 本稿では,GCNの設計に自己認識機構とマルチスケール情報を取り入れた2つの新しいマルチスケールGCNフレームワークを提案する。 提案手法はGCNsモデルの計算効率と予測精度を大幅に向上させる。 ノード分類とグラフ分類の両方に関する大規模な実験は、いくつかの最先端GCNに対する効果を示す。 特に,提案した2つのアーキテクチャはGCNの過度にスムースな問題を効果的に軽減し,モデル層を64ドルまで高めることができる。

Graph convolutional networks (GCNs) have achieved remarkable learning ability for dealing with various graph structural data recently. In general, deep GCNs do not work well since graph convolution in conventional GCNs is a special form of Laplacian smoothing, which makes the representation of different nodes indistinguishable. In the literature, multi-scale information was employed in GCNs to enhance the expressive power of GCNs. However, over-smoothing phenomenon as a crucial issue of GCNs remains to be solved and investigated. In this paper, we propose two novel multi-scale GCN frameworks by incorporating self-attention mechanism and multi-scale information into the design of GCNs. Our methods greatly improve the computational efficiency and prediction accuracy of the GCNs model. Extensive experiments on both node classification and graph classification demonstrate the effectiveness over several state-of-the-art GCNs. Notably, the proposed two architectures can efficiently mitigate the over-smoothing problem of GCNs, and the layer of our model can even be increased to $64$.
翻訳日:2021-12-08 15:01:26 公開日:2021-12-04
# 原発性腫瘍生検標本の深層学習による早期乳癌の扁平上皮リンパ節転移の予測

Predicting Axillary Lymph Node Metastasis in Early Breast Cancer Using Deep Learning on Primary Tumor Biopsy Slides ( http://arxiv.org/abs/2112.02222v1 )

ライセンス: Link先を確認
Feng Xu, Chuang Zhu, Wenqi Tang, Ying Wang, Yu Zhang, Jie Li, Hongchuan Jiang, Zhongyue Shi, Jun Liu, Mulan Jin(参考訳) 目的: 早期乳癌(ebc)の臨床陰性aln患者において,alnリンパ節転移を術前に予測するために, 深部学習(dl)に基づく原発性腫瘍生検信号を開発し, 検証すること。 方法:2010年5月から2020年8月までにALNと診断されたEBC患者1,058例を登録した。 2人の病理医が注釈を付した乳腺CNB検体におけるDigitalized whole-slide image(WSIs)の癌領域から抽出したDL特徴を用いてALN状態を予測するために,DL-needle biopsy (DL-CNB)モデルを構築した。 精度, 感度, 特異性, 受信動作特性 (ROC) 曲線, ROC曲線 (AUC) 下の領域を解析し, 本モデルについて検討した。 結果: VGG16_BNを特徴抽出器としたDL-CNBモデルでは, 独立試験コホートにおけるALN転移の予測において, 0.816(95%信頼区間: 0.758, 0.865)のAUCが得られた。 さらに, dl-cnb+cとよばれる臨床データを組み込んだモデルでは, 50歳未満 (0.918, 95%ci: 0.825, 0.971) に対して, 0.831 (95%ci: 0.775, 0.878) の精度が得られた。 dl-cnbモデルの解釈により、aln転移の最も予測されるトップシグネチャは、密度(p$ = 0.015)、円周(p$ = 0.009)、円度(p$ = 0.010)、方位(p$ = 0.012)を含む核の特徴によって特徴づけられた。 結論:本研究は原発性腫瘍CNBスライドに新しいDLベースのバイオマーカーを付与し,EBC患者に対して術前にALNの転移状態を予測する。

Objectives: To develop and validate a deep learning (DL)-based primary tumor biopsy signature for predicting axillary lymph node (ALN) metastasis preoperatively in early breast cancer (EBC) patients with clinically negative ALN. Methods: A total of 1,058 EBC patients with pathologically confirmed ALN status were enrolled from May 2010 to August 2020. A DL core-needle biopsy (DL-CNB) model was built on the attention-based multiple instance-learning (AMIL) framework to predict ALN status utilizing the DL features, which were extracted from the cancer areas of digitized whole-slide images (WSIs) of breast CNB specimens annotated by two pathologists. Accuracy, sensitivity, specificity, receiver operating characteristic (ROC) curves, and areas under the ROC curve (AUCs) were analyzed to evaluate our model. Results: The best-performing DL-CNB model with VGG16_BN as the feature extractor achieved an AUC of 0.816 (95% confidence interval (CI): 0.758, 0.865) in predicting positive ALN metastasis in the independent test cohort. Furthermore, our model incorporating the clinical data, which was called DL-CNB+C, yielded the best accuracy of 0.831 (95%CI: 0.775, 0.878), especially for patients younger than 50 years (AUC: 0.918, 95%CI: 0.825, 0.971). The interpretation of DL-CNB model showed that the top signatures most predictive of ALN metastasis were characterized by the nucleus features including density ($p$ = 0.015), circumference ($p$ = 0.009), circularity ($p$ = 0.010), and orientation ($p$ = 0.012). Conclusion: Our study provides a novel DL-based biomarker on primary tumor CNB slides to predict the metastatic status of ALN preoperatively for patients with EBC.
翻訳日:2021-12-07 18:28:54 公開日:2021-12-04
# BenchML:大規模材料および分子の表現をベンチマークするための拡張可能なパイプライニングフレームワーク

BenchML: an extensible pipelining framework for benchmarking representations of materials and molecules at scale ( http://arxiv.org/abs/2112.02287v1 )

ライセンス: Link先を確認
Carl Poelking, Felix A. Faber, Bingqing Cheng(参考訳) 材料や分子のデータセットに対する化学システムの多種多様な表現の高スループットベンチマークのための機械学習(ml)フレームワークを提案する。 ベンチマーク手法の根底にある原則は、モデル複雑性を単純な回帰スキームに制限し、最高のMLプラクティスを適用し、バイアスのないハイパーパラメータ最適化を可能にし、一連の同期列車-テスト分割に沿って学習曲線による学習進捗を評価することで、生の記述子のパフォーマンスを評価することである。 得られたモデルは、与えられたデータセットがどれだけ簡単に学習できるかを示すために、将来のメソッド開発を知らせるベースラインとして意図されています。 様々な物理化学的,位相的,幾何学的表現のトレーニング結果の比較分析を通じて,これらの表現の相対的メリットと相互関係性について考察する。

We introduce a machine-learning (ML) framework for high-throughput benchmarking of diverse representations of chemical systems against datasets of materials and molecules. The guiding principle underlying the benchmarking approach is to evaluate raw descriptor performance by limiting model complexity to simple regression schemes while enforcing best ML practices, allowing for unbiased hyperparameter optimization, and assessing learning progress through learning curves along series of synchronized train-test splits. The resulting models are intended as baselines that can inform future method development, next to indicating how easily a given dataset can be learnt. Through a comparative analysis of the training outcome across a diverse set of physicochemical, topological and geometric representations, we glean insight into the relative merits of these representations as well as their interrelatedness.
翻訳日:2021-12-07 18:27:32 公開日:2021-12-04
# my(o) armbandがパスワードをリーク:emgとimuベースのキーログサイドチャネル攻撃

My(o) Armband Leaks Passwords: An EMG and IMU Based Keylogging Side-Channel Attack ( http://arxiv.org/abs/2112.02382v1 )

ライセンス: Link先を確認
Matthias Gazzari, Annemarie Mattmann, Max Maass, Matthias Hollick(参考訳) ユーザーの様々なセンサーデータを常時収集するウェアラブルは、物理的キーボードに入力されたパスワードのような意図しない、機密性の高い情報の推測の機会を増加させる。 最近、キーログのサイドチャネル攻撃のために、拡張現実(ar)のためのウェアラブルの文脈で注目を集めているセンサーモダリティであるemg(electromyographi c)データの利用の可能性について、徹底的に検討する。 我々のアプローチは、Myo Armbandを使ってセンサーデータを収集する現実的なシナリオにおいて、物体間攻撃のためのニューラルネットワークに基づいている。 本手法では加速度計やジャイロスコープと比較して,EMGデータが最も顕著な情報源であることが証明され,キーストローク検出性能が向上した。 原データに対するエンド・ツー・エンドのアプローチでは,キーストローク検出では平均平衡精度が約76 %,キーストローク検出では平均top-3 キー精度が約32 %,強度の異なるパスワードでは鍵識別が約32 %であった。 我々は37人のボランティアから記録された310万以上のキーストロークを含む広範なデータセットを作成しました。

Wearables that constantly collect various sensor data of their users increase the chances for inferences of unintentional and sensitive information such as passwords typed on a physical keyboard. We take a thorough look at the potential of using electromyographic (EMG) data, a sensor modality which is new to the market but has lately gained attention in the context of wearables for augmented reality (AR), for a keylogging side-channel attack. Our approach is based on neural networks for a between-subject attack in a realistic scenario using the Myo Armband to collect the sensor data. In our approach, the EMG data has proven to be the most prominent source of information compared to the accelerometer and gyroscope, increasing the keystroke detection performance. For our end-to-end approach on raw data, we report a mean balanced accuracy of about 76 % for the keystroke detection and a mean top-3 key accuracy of about 32 % on 52 classes for the key identification on passwords of varying strengths. We have created an extensive dataset including more than 310 000 keystrokes recorded from 37 volunteers, which is available as open access along with the source code used to create the given results.
翻訳日:2021-12-07 18:26:16 公開日:2021-12-04
# 超高解像度画像のための特徴ベース認識フレームワーク

Feature-based Recognition Framework for Super-resolution Images ( http://arxiv.org/abs/2112.02270v1 )

ライセンス: Link先を確認
Jing Hu, Meiqi Zhang, Rui Zhang (School of Artificial Intelligence and Automation.HUST)(参考訳) 実例では,超高解像度画像に適用した場合,認識ネットワークの性能は低下する。 本稿では,GAN(FGAN)と組み合わせた特徴量認識ネットワークを提案する。 我々のネットワークは、SR画像からより多くの特徴を抽出し、認識精度を向上させる。 実験では,3種類の超解像アルゴリズムを用いて3つのデータセットを構築し,認識精度をReaNet50やDenseNet121と比較して6%以上向上させた。

In practical application, the performance of recognition network usually decreases when being applied on super-resolution images. In this paper, we propose a feature-based recognition network combined with GAN (FGAN). Our network improves the recognition accuracy by extracting more features that benefit recognition from SR images. In the experiment, we build three datasets using three different super-resolution algorithm, and our network increases the recognition accuracy by more than 6% comparing with ReaNet50 and DenseNet121.
翻訳日:2021-12-07 18:05:53 公開日:2021-12-04
# MoFaNeRF:形態可能な顔面神経放射場

MoFaNeRF: Morphable Facial Neural Radiance Field ( http://arxiv.org/abs/2112.02308v1 )

ライセンス: Link先を確認
Yiyu Zhuang, Hao Zhu, Xusen Sun, Xun Cao(参考訳) 本稿では,自由視点画像から符号化された顔の形状,表情,外観のベクトル空間,すなわちMorphable Facial NeRFを用いてパラメトリックモデルを提案する。 特に、MoFaNeRFは、MLPへの入力として、空間座標及びビュー方向と共に符号化された顔形状、表情、外観を取り込み、光リアル画像合成のための空間点の放射率を出力する。 従来の3Dフォーマブルモデル(3DMM)と比較して、MoFaNeRFは、目、口、ひげでも直接リアルな顔の詳細を合成する上で優れている。 また、入力形状、表現及び外観符号を補間することにより、連続顔形態形成を容易に実現できる。 同一性特異的変調とテクスチャエンコーダを導入することで, 正確な測光細部を合成し, 強い表現能力を示す。 本モデルは,画像ベースフィッティング,ランダム生成,顔リギング,顔編集,新しいビュー合成など,複数のアプリケーションにおいて強力な能力を示す。 実験により,本手法は従来のパラメトリックモデルよりも高い表現能力を示し,いくつかのアプリケーションにおいて競合性能を実現する。 我々の知る限りでは、私たちの研究は、適応、生成、操作に使用できる神経放射場上に構築された最初の顔パラメトリックモデルである。 私たちのコードとモデルはhttps://github.com/z huhao-nju/mofanerfでリリースされています。

We propose a parametric model that maps free-view images into a vector space of coded facial shape, expression and appearance using a neural radiance field, namely Morphable Facial NeRF. Specifically, MoFaNeRF takes the coded facial shape, expression and appearance along with space coordinate and view direction as input to an MLP, and outputs the radiance of the space point for photo-realistic image synthesis. Compared with conventional 3D morphable models (3DMM), MoFaNeRF shows superiority in directly synthesizing photo-realistic facial details even for eyes, mouths, and beards. Also, continuous face morphing can be easily achieved by interpolating the input shape, expression and appearance codes. By introducing identity-specific modulation and texture encoder, our model synthesizes accurate photometric details and shows strong representation ability. Our model shows strong ability on multiple applications including image-based fitting, random generation, face rigging, face editing, and novel view synthesis. Experiments show that our method achieves higher representation ability than previous parametric models, and achieves competitive performance in several applications. To the best of our knowledge, our work is the first facial parametric model built upon a neural radiance field that can be used in fitting, generation and manipulation. Our code and model are released in https://github.com/z huhao-nju/mofanerf.
翻訳日:2021-12-07 18:05:45 公開日:2021-12-04
# 情報可視化におけるスカンパス予測

Scanpath Prediction on Information Visualisations ( http://arxiv.org/abs/2112.02340v1 )

ライセンス: Link先を確認
Yao Wang, Mihai B\^ace, and Andreas Bulling(参考訳) そこで本研究では,情報視覚化において視覚的サリエンシーとスカンパス(すなわち視線固定のシーケンス)を予測するモデルとして,サリエンシーとスカンパスの統合モデルを提案する。 スキャンパスは、視覚探索過程における異なる視覚要素の重要性に関する豊富な情報を提供するが、以前の研究は、視覚塩分など、集約された注意統計を予測することに限定されている。 一般的なMASSVISデータセット上で異なる情報可視化要素(例えば、Title, Label, Data)に対する視線行動の詳細な分析を行う。 全体として、視線パターンは視覚や視聴者の間で驚くほど一致しているが、異なる要素に対する視線ダイナミクスには構造的な違いがある。 UMSSはまずマルチデューレーション要素レベルのサリエンシマップを予測し,スキャンパスを確率的にサンプリングする。 MASSVISの広汎な実験により,本手法は複数のスキャンパスおよびサリエンシ評価指標に対して,常に最先端の手法より優れていることが示された。 本手法は,スキャンパス予測で11.5%のシーケンススコアを相対的に改善し,塩分予測で最大23.6%のピアソン相関係数を相対的に改善する。 これらの結果は,視線追跡装置を必要とせず,よりリッチなユーザモデルや視認性に対する視覚的注意のシミュレーションに資する。

We propose Unified Model of Saliency and Scanpaths (UMSS) -- a model that learns to predict visual saliency and scanpaths (i.e. sequences of eye fixations) on information visualisations. Although scanpaths provide rich information about the importance of different visualisation elements during the visual exploration process, prior work has been limited to predicting aggregated attention statistics, such as visual saliency. We present in-depth analyses of gaze behaviour for different information visualisation elements (e.g. Title, Label, Data) on the popular MASSVIS dataset. We show that while, overall, gaze patterns are surprisingly consistent across visualisations and viewers, there are also structural differences in gaze dynamics for different elements. Informed by our analyses, UMSS first predicts multi-duration element-level saliency maps, then probabilistically samples scanpaths from them. Extensive experiments on MASSVIS show that our method consistently outperforms state-of-the-art methods with respect to several, widely used scanpath and saliency evaluation metrics. Our method achieves a relative improvement in sequence score of 11.5% for scanpath prediction, and a relative improvement in Pearson correlation coefficient of up to 23.6% for saliency prediction. These results are auspicious and point towards richer user models and simulations of visual attention on visualisations without the need for any eye tracking equipment.
翻訳日:2021-12-07 18:05:23 公開日:2021-12-04
# shapr: 機械学習のための効率的で汎用的な会員プライバシリスクメトリクス

SHAPr: An Efficient and Versatile Membership Privacy Risk Metric for Machine Learning ( http://arxiv.org/abs/2112.02230v1 )

ライセンス: Link先を確認
Vasisht Duddu, Sebastian Szyller, N. Asokan(参考訳) 機械学習(ML)モデルのトレーニングに使用されるデータは、センシティブである。 メンバーシップ推論攻撃(MIA)は、特定のデータレコードがMLモデルのトレーニングに使用されたかどうかを判断し、メンバーシップのプライバシを侵害するリスクを負う。 MLモデルビルダーは、プライバシリスクの定量化を可能にするメトリクスの原則定義を必要とする。 (a)個別のトレーニングデータ記録 (b)特定のMIAとは独立して (c)効率が良い。 メンバーシップのプライバシーリスクメトリクスに関する以前の作業は、これらすべての基準を同時に満たしていない。 そこで本研究では,shapley値を用いてモデルの実用性への影響を計測し,個々のトレーニングデータ記録の記憶を定量化する指標であるshaprを提案する。 この記憶は、MIAが成功する可能性の尺度である。 10のベンチマークデータセットを使用して、SHAPrが有効である(精度: 0.94$\pm 0.06$、リコール: 0.88$\pm 0.06$)ことを示し、MIAのトレーニングデータレコードの感受性を推定し、効率的である(より小さなデータセットでは数分以内、最大データセットでは約90分)。 SHAPrは、フェアネスの評価やデータセットのサブセットのバリュエーションの割り当てなど、他の目的にも使用することができる。 例えば、SHAPrがMIAに対して異なるサブグループの不均等な脆弱性を正しく捉えていることを示す。 SHAPrを用いて、高いリスクトレーニングデータレコードを削除することにより、データセットのメンバシッププライバシリスクが必ずしも改善されないことを示し、これにより、前の作業から大幅に拡張された設定(10データセットで最大50%のデータを削除)で観察することを確認する。

Data used to train machine learning (ML) models can be sensitive. Membership inference attacks (MIAs), attempting to determine whether a particular data record was used to train an ML model, risk violating membership privacy. ML model builders need a principled definition of a metric that enables them to quantify the privacy risk of (a) individual training data records, (b) independently of specific MIAs, (c) efficiently. None of the prior work on membership privacy risk metrics simultaneously meets all of these criteria. We propose such a metric, SHAPr, which uses Shapley values to quantify a model's memorization of an individual training data record by measuring its influence on the model's utility. This memorization is a measure of the likelihood of a successful MIA. Using ten benchmark datasets, we show that SHAPr is effective (precision: 0.94$\pm 0.06$, recall: 0.88$\pm 0.06$) in estimating susceptibility of a training data record for MIAs, and is efficient (computable within minutes for smaller datasets and in ~90 minutes for the largest dataset). SHAPr is also versatile in that it can be used for other purposes like assessing fairness or assigning valuation for subsets of a dataset. For example, we show that SHAPr correctly captures the disproportionate vulnerability of different subgroups to MIAs. Using SHAPr, we show that the membership privacy risk of a dataset is not necessarily improved by removing high risk training data records, thereby confirming an observation from prior work in a significantly extended setting (in ten datasets, removing up to 50% of data).
翻訳日:2021-12-07 17:59:20 公開日:2021-12-04
# Logic Shrinkage: ニューラルネットワークの効率的な推論のためのFPGAネットリストスポーラリティの学習

Logic Shrinkage: Learned FPGA Netlist Sparsity for Efficient Neural Network Inference ( http://arxiv.org/abs/2112.02346v1 )

ライセンス: Link先を確認
Erwei Wang, James J. Davis, Georgios-Ilias Stavrou, Peter Y. K. Cheung, George A. Constantinides, Mohamed Abdelfattah(参考訳) LUTを独立にトレーニング可能な推論演算子として使用するFPGA固有のDNNアーキテクチャは、好適な領域精度とエネルギー精度のトレードオフを実現することが示されている。 この分野での最初の成果であるLUTNetは、標準的なDNNベンチマークの最先端のパフォーマンスを示した。 本稿では,LUTに基づくトポロジの学習的最適化を提案する。これにより,既製のハンドデザインネットワークを直接利用するよりも,効率の高い設計が可能となる。 適切なKを選択することは困難であり、層ごとに高い粒度で行うことは、FPGAの空間的柔軟性を過小評価する時間を要する、エラーを起こしやすいプロセスである。 さらに、以前の研究ではLUT入力をランダムに接続しており、ネットワークトポロジの適切な選択は保証されていない。 そこで本研究では,fpgaを対象とするニューラルネットワークにおいて,lut毎にkを自動学習できる細粒度ネットリストプルーニング手法であるlogic shrinkageを提案する。 重要度が低いと判定されたLUT入力を除去することにより,得られたアクセラレータの効率を向上する。 LUT入力削除のためのGPUフレンドリなソリューションは、無視できないスローダウンでトレーニング中に大きなトポロジを処理できる。 CIFAR-10 を 1.54x と 1.31x に分類する CNV ネットワークの最適性能 LUTNet 実装の面積とエネルギー効率を精度良く向上させる。 この実装は、同じ精度で非常に刈り取られたbnnの面積効率の2.71倍にも達する。 バイリアルネットアーキテクチャを使ったImageNetでは、ロジックの縮小が2.67xとLUTNetの合成後の領域を縮小させる結果となり、今日の最大のFPGAでは実装が不可能になった。

FPGA-specific DNN architectures using the native LUTs as independently trainable inference operators have been shown to achieve favorable area-accuracy and energy-accuracy tradeoffs. The first work in this area, LUTNet, exhibited state-of-the-art performance for standard DNN benchmarks. In this paper, we propose the learned optimization of such LUT-based topologies, resulting in higher-efficiency designs than via the direct use of off-the-shelf, hand-designed networks. Existing implementations of this class of architecture require the manual specification of the number of inputs per LUT, K. Choosing appropriate K a priori is challenging, and doing so at even high granularity, e.g. per layer, is a time-consuming and error-prone process that leaves FPGAs' spatial flexibility underexploited. Furthermore, prior works see LUT inputs connected randomly, which does not guarantee a good choice of network topology. To address these issues, we propose logic shrinkage, a fine-grained netlist pruning methodology enabling K to be automatically learned for every LUT in a neural network targeted for FPGA inference. By removing LUT inputs determined to be of low importance, our method increases the efficiency of the resultant accelerators. Our GPU-friendly solution to LUT input removal is capable of processing large topologies during their training with negligible slowdown. With logic shrinkage, we better the area and energy efficiency of the best-performing LUTNet implementation of the CNV network classifying CIFAR-10 by 1.54x and 1.31x, respectively, while matching its accuracy. This implementation also reaches 2.71x the area efficiency of an equally accurate, heavily pruned BNN. On ImageNet with the Bi-Real Net architecture, employment of logic shrinkage results in a post-synthesis area reduction of 2.67x vs LUTNet, allowing for implementation that was previously impossible on today's largest FPGAs.
翻訳日:2021-12-07 17:58:50 公開日:2021-12-04
# TransBoost:ファイナンシャルインクルージョン改善のためのブースティングトレーカーネルトランスファー学習アルゴリズム

TransBoost: A Boosting-Tree Kernel Transfer Learning Algorithm for Improving Financial Inclusion ( http://arxiv.org/abs/2112.02365v1 )

ライセンス: Link先を確認
Yiheng Sun, Tian Lu, Cong Wang, Yuan Li, Huaiyu Fu, Jingran Dong, Yunjie Xu(参考訳) モバイルと金融技術の繁栄は、様々な種類の金融商品を、より広い範囲の人々に育成し、拡大し、金融包摂を提唱している。 経済的不平等を減少させる非自明な社会的利益がある。 しかし、個別の財務リスク評価における技術的課題は、新規利用者の特色や信用履歴の制限によるものであり、また、複雑なデータ処理や正確なラベル取得における新規参入企業の経験不足は、金融包摂のさらなる促進を妨げている。 これらの課題に対処するため,木系モデルとカーネル手法の利点を組み合わせたトランスミッション学習アルゴリズム(TransBoost)を開発した。 TransBoostは並列木構造と効率的な重み更新機構を理論的に保証し、高次元の特徴を持つ実世界のデータをO(n)$時間複雑さで扱えるように設計されている。 Tencent Mobile Paymentの2つの公開データセットと、ユニークな大規模データセットに関する広範な実験を行います。 その結果、transboostは他の最先端ベンチマーク転送学習アルゴリズムを優れた効率で予測精度で上回り、データスパーシティに対する強固さを示し、有意義なモデル解釈を提供する。 さらに、金融リスクレベルでは、transboostによって、金融サービスプロバイダは、他のアルゴリズムによって除外されるユーザーを含む、最も多くのユーザーをサービスできるようになる。 つまり、transboostは財務的包括性を改善する。

The prosperity of mobile and financial technologies has bred and expanded various kinds of financial products to a broader scope of people, which contributes to advocating financial inclusion. It has non-trivial social benefits of diminishing financial inequality. However, the technical challenges in individual financial risk evaluation caused by the distinct characteristic distribution and limited credit history of new users, as well as the inexperience of newly-entered companies in handling complex data and obtaining accurate labels, impede further promoting financial inclusion. To tackle these challenges, this paper develops a novel transfer learning algorithm (i.e., TransBoost) that combines the merits of tree-based models and kernel methods. The TransBoost is designed with a parallel tree structure and efficient weights updating mechanism with theoretical guarantee, which enables it to excel in tackling real-world data with high dimensional features and sparsity in $O(n)$ time complexity. We conduct extensive experiments on two public datasets and a unique large-scale dataset from Tencent Mobile Payment. The results show that the TransBoost outperforms other state-of-the-art benchmark transfer learning algorithms in terms of prediction accuracy with superior efficiency, shows stronger robustness to data sparsity, and provides meaningful model interpretation. Besides, given a financial risk level, the TransBoost enables financial service providers to serve the largest number of users including those who would otherwise be excluded by other algorithms. That is, the TransBoost improves financial inclusion.
翻訳日:2021-12-07 17:58:14 公開日:2021-12-04
# あいまいさを求めて:クラウドワーカーのアノテーションガイドラインを明確にするための3段階ワークフローデザイン

In Search of Ambiguity: A Three-Stage Workflow Design to Clarify Annotation Guidelines for Crowd Workers ( http://arxiv.org/abs/2112.02255v1 )

ライセンス: Link先を確認
Vivek Krishna Pradhan, Mike Schaekermann, Matthew Lease(参考訳) 本稿では,タスク命令のあいまいさを低減し,アノテーション品質を向上させるために,クラウドソースアノテーションのための3段階のfind-resolve-labelワークフローを提案する。 ステージ1(検索)は、タスク指示によって正しいラベルがあいまいに見える例を群衆に求める。 労働者はまた、見つけた特定のインスタンスによって具現化された曖昧な概念を記述する短いタグを提供するように求められます。 このステージのコラボレーションデザインと非コラボレーションデザインを比較します。 ステージ2(RESOLVE)では、要求者はこれらの曖昧な例の1つ以上をラベル(曖昧さの解消)に選択する。 新しいラベルは、明確性を改善するためにタスク命令に自動的に注入される。 最後に、第3段階(LABEL)において、労働者は実例を明確にした修正ガイドラインを用いて実際のアノテーションを実行する。 これらの例を使うための3つの設計を比較します。例のみ、タグのみ、または両方です。 amazonのmechanical turkを用いた6つのタスク設計に関する画像ラベリング実験を報告する。 その結果,クラウドソース型アノテーションタスクにおいて,アノテーションの精度の向上と効果的な設計に関するさらなる知見が得られた。

We propose a novel three-stage FIND-RESOLVE-LABEL workflow for crowdsourced annotation to reduce ambiguity in task instructions and thus improve annotation quality. Stage 1 (FIND) asks the crowd to find examples whose correct label seems ambiguous given task instructions. Workers are also asked to provide a short tag which describes the ambiguous concept embodied by the specific instance found. We compare collaborative vs. non-collaborative designs for this stage. In Stage 2 (RESOLVE), the requester selects one or more of these ambiguous examples to label (resolving ambiguity). The new label(s) are automatically injected back into task instructions in order to improve clarity. Finally, in Stage 3 (LABEL), workers perform the actual annotation using the revised guidelines with clarifying examples. We compare three designs for using these examples: examples only, tags only, or both. We report image labeling experiments over six task designs using Amazon's Mechanical Turk. Results show improved annotation accuracy and further insights regarding effective design for crowdsourced annotation tasks.
翻訳日:2021-12-07 17:37:44 公開日:2021-12-04
# stage conscious attention network (scan) : 数発模倣のための実演条件付きポリシー

Stage Conscious Attention Network (SCAN) : A Demonstration-Condit ioned Policy for Few-Shot Imitation ( http://arxiv.org/abs/2112.02278v1 )

ライセンス: Link先を確認
Jia-Fong Yeh, Chi-Ming Chung, Hung-Ting Su, Yi-Ting Chen, Winston H. Hsu(参考訳) 数発の模倣学習(FSIL)では、行動クローニング(BC)を使用して、専門家によるデモンストレーションがほとんどない未確認タスクを解決することが、一般的な研究方向となっている。 1) 複数の段階を含む複合タスクにおける作業。 2) わずかな長さ変化と誤用による知識の獲得。 (3)別の専門家から学ぶ。 以前の仕事は、同時にこれらの能力を達成することはできない。 本研究は, FSIL問題に対して, 実演の少ない段階意識型注意ネットワーク(SCAN)を導入し, 同時に知識を抽出する手法を提案する。 SCANは注目モジュールを使用して、長さ可変のデモで各ステージを識別する。 さらに、専門家とエージェントの関係を学習する実証条件付きポリシーの下で設計されている。 実験の結果,複雑な複合作業のベースラインを微調整することなく,異なる専門家からスキャニングを学べることがわかった。

In few-shot imitation learning (FSIL), using behavioral cloning (BC) to solve unseen tasks with few expert demonstrations becomes a popular research direction. The following capabilities are essential in robotics applications: (1) Behaving in compound tasks that contain multiple stages. (2) Retrieving knowledge from few length-variant and misalignment demonstrations. (3) Learning from a different expert. No previous work can achieve these abilities at the same time. In this work, we conduct FSIL problem under the union of above settings and introduce a novel stage conscious attention network (SCAN) to retrieve knowledge from few demonstrations simultaneously. SCAN uses an attention module to identify each stage in length-variant demonstrations. Moreover, it is designed under demonstration-condit ioned policy that learns the relationship between experts and agents. Experiment results show that SCAN can learn from different experts without fine-tuning and outperform baselines in complicated compound tasks with explainable visualization.
翻訳日:2021-12-07 17:35:47 公開日:2021-12-04
# 機械学習を用いたネットワークリンクの帯域利用予測

Predicting Bandwidth Utilization on Network Links Using Machine Learning ( http://arxiv.org/abs/2112.02417v1 )

ライセンス: Link先を確認
Maxime Labonne, Charalampos Chatzinakis, Alexis Olivereau(参考訳) ネットワークリンクにおける帯域幅利用の予測は、発生前にそれらを修正するために混雑を検出するのに極めて有用である。 本稿では,異なるネットワークリンク間の帯域利用率を非常に高精度に予測する手法を提案する。 シミュレーションネットワークは、各インタフェース上のネットワークリンクのパフォーマンスに関するデータを収集するために作成される。 これらのデータは、トレーニングセットを作成するために、機能エンジニアリングによって処理および拡張されます。 本研究では,将来的な帯域消費を予測するために,有馬(autoregressive integrated moving average),mlp(multi layer perceptron),lstm(lon g short-term memory)の3種類の機械学習アルゴリズムを評価し,比較した。 LSTM は ARIMA と MLP を非常に正確な予測で上回り、3 % の誤差(ARIMA では 40 % 、MLP では 20 % )を超えることは稀である。 次に、提案したソリューションが、SDN(Software-Defined Networking)プラットフォームによって管理される反応でリアルタイムで利用できることを示す。

Predicting the bandwidth utilization on network links can be extremely useful for detecting congestion in order to correct them before they occur. In this paper, we present a solution to predict the bandwidth utilization between different network links with a very high accuracy. A simulated network is created to collect data related to the performance of the network links on every interface. These data are processed and expanded with feature engineering in order to create a training set. We evaluate and compare three types of machine learning algorithms, namely ARIMA (AutoRegressive Integrated Moving Average), MLP (Multi Layer Perceptron) and LSTM (Long Short-Term Memory), in order to predict the future bandwidth consumption. The LSTM outperforms ARIMA and MLP with very accurate predictions, rarely exceeding a 3\% error (40\% for ARIMA and 20\% for the MLP). We then show that the proposed solution can be used in real time with a reaction managed by a Software-Defined Networking (SDN) platform.
翻訳日:2021-12-07 17:35:31 公開日:2021-12-04
# 未知問題を解くための知識グラフからの関数型タスクツリー生成

Functional Task Tree Generation from a Knowledge Graph to Solve Unseen Problems ( http://arxiv.org/abs/2112.02433v1 )

ライセンス: Link先を確認
Md. Sadman Sakib, David Paulius, and Yu Sun(参考訳) インテリジェントで自律的なロボットを開発するための主要なコンポーネントは、ロボットが行動や世界に関する知識を得るのに適した知識表現である。 しかし、人間とは異なり、ロボットは知識や環境が厳格に定義されているため、新しいシナリオに創造的に適応することはできない。 タスクツリーと呼ばれる新規で柔軟なタスクプラン作成の問題に対処するために,ロボットの知識ベースにない概念でプランを導出する方法を検討する。 知識グラフの形で既存の知識が参照の基盤として使われ、新しいオブジェクトや状態の組み合わせで修正されたタスクツリーを生成する。 提案手法の柔軟性を示すため,Recipe1M+データセットからランダムにレシピを選択し,タスクツリーを生成する。 次にタスクツリーを視覚化ツールで徹底的にチェックし、各成分がそれぞれのアクションでどのように変化するかを示し、所望の食事を生成する。 提案手法は, これまでにない組み合わせでも高い精度でタスクプランを作成できることを示す。

A major component for developing intelligent and autonomous robots is a suitable knowledge representation, from which a robot can acquire knowledge about its actions or world. However, unlike humans, robots cannot creatively adapt to novel scenarios, as their knowledge and environment are rigidly defined. To address the problem of producing novel and flexible task plans called task trees, we explore how we can derive plans with concepts not originally in the robot's knowledge base. Existing knowledge in the form of a knowledge graph is used as a base of reference to create task trees that are modified with new object or state combinations. To demonstrate the flexibility of our method, we randomly selected recipes from the Recipe1M+ dataset and generated their task trees. The task trees were then thoroughly checked with a visualization tool that portrays how each ingredient changes with each action to produce the desired meal. Our results indicate that the proposed method can produce task plans with high accuracy even for never-before-seen ingredient combinations.
翻訳日:2021-12-07 17:35:12 公開日:2021-12-04
# 確率型AC OPFのためのDNNベースのポリシー

DNN-based Policies for Stochastic AC OPF ( http://arxiv.org/abs/2112.02441v1 )

ライセンス: Link先を確認
Sarthak Gupta, Sidhant Misra, Deepjyoti Deka, Vassilis Kekatos(参考訳) 近代電力網の安全かつ最適運用に対する顕著な課題は、負荷や再生可能エネルギーの不確実性の増加によるものである。 確率最適電力フロー(SOPF)の定式化は、不確実性の下で実現可能性を維持するためのディスパッチ決定と制御ポリシーを計算することによって、これらの不確実性を処理するメカニズムを提供する。 ほとんどのsopf定式化は、数学的に単純で、現在の手法で使われる多くのポリシーに類似したアフィンポリシーのような単純な制御ポリシーを考える。 機械学習(ML)アルゴリズムの有効性とコストと制約執行に対する一般的な制御ポリシの潜在的なメリットに触発されて、我々は、不確実性に応じてジェネレータのディスパッチ決定をリアルタイムで予測するディープニューラルネットワーク(DNN)ベースのポリシーを提案しました。 DNNの重みは、前世代のトレーニングラベルを必要とせずにSOPFを解く確率的原始双対更新を用いて学習され、SOPFにおける実現可能性の制約を明示的に説明することができる。 簡易なポリシーに対するdnnポリシーの利点と、安全限界の実施と、至近の最適解の生成における効果は、多くのテストケースで確率制約のある定式化の文脈で実証されている。

A prominent challenge to the safe and optimal operation of the modern power grid arises due to growing uncertainties in loads and renewables. Stochastic optimal power flow (SOPF) formulations provide a mechanism to handle these uncertainties by computing dispatch decisions and control policies that maintain feasibility under uncertainty. Most SOPF formulations consider simple control policies such as affine policies that are mathematically simple and resemble many policies used in current practice. Motivated by the efficacy of machine learning (ML) algorithms and the potential benefits of general control policies for cost and constraint enforcement, we put forth a deep neural network (DNN)-based policy that predicts the generator dispatch decisions in real time in response to uncertainty. The weights of the DNN are learnt using stochastic primal-dual updates that solve the SOPF without the need for prior generation of training labels and can explicitly account for the feasibility constraints in the SOPF. The advantages of the DNN policy over simpler policies and their efficacy in enforcing safety limits and producing near optimal solutions are demonstrated in the context of a chance constrained formulation on a number of test cases.
翻訳日:2021-12-07 17:32:38 公開日:2021-12-04
# yourtts: ゼロショットマルチスピーカーttsとゼロショット音声変換に向けて

YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone ( http://arxiv.org/abs/2112.02418v1 )

ライセンス: Link先を確認
Edresson Casanova, Julian Weber, Christopher Shulby, Arnaldo Candido Junior, Eren G\"olge and Moacir Antonelli Ponti(参考訳) YourTTSは、ゼロショットマルチスピーカーTSのタスクに多言語アプローチのパワーをもたらす。 提案手法は,VITSモデルに基づいて,ゼロショットマルチスピーカと多言語学習のための改良を加えた。 我々は、VCTKデータセット上のゼロショット音声変換において、ゼロショットマルチスピーカTSとSOTAに匹敵する結果を得た。 さらに,単一話者データセットを持つ対象言語で有望な結果を得ることができ,低リソース言語におけるゼロショットマルチ話者ttsやゼロショット音声変換システムの可能性も開ける。 最後に、1分未満の音声で yourtts モデルを微調整し、最先端の成果を音声の類似性と妥当な品質で達成することができる。 これは、訓練中に見られるものとは全く異なる声や録音特性を持つ話者に対して合成できることが重要である。

YourTTS brings the power of a multilingual approach to the task of zero-shot multi-speaker TTS. Our method builds upon the VITS model and adds several novel modifications for zero-shot multi-speaker and multilingual training. We achieved state-of-the-art (SOTA) results in zero-shot multi-speaker TTS and results comparable to SOTA in zero-shot voice conversion on the VCTK dataset. Additionally, our approach achieves promising results in a target language with a single-speaker dataset, opening possibilities for zero-shot multi-speaker TTS and zero-shot voice conversion systems in low-resource languages. Finally, it is possible to fine-tune the YourTTS model with less than 1 minute of speech and achieve state-of-the-art results in voice similarity and with reasonable quality. This is important to allow synthesis for speakers with a very different voice or recording characteristics from those seen during training.
翻訳日:2021-12-07 17:32:19 公開日:2021-12-04
# 表現型音声駆動3次元顔アニメーションのための音声テキスト統合モデル

Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation ( http://arxiv.org/abs/2112.02214v1 )

ライセンス: Link先を確認
Yingruo Fan, Zhaojiang Lin, Jun Saito, Wenping Wang, Taku Komura(参考訳) 正確な唇同期による音声駆動型3次元顔アニメーションが広く研究されている。 しかし、発話中の顔全体のリアルな動きの合成は、ほとんど研究されていない。 本稿では,表現力のある3次元顔アニメーションの文脈情報を取り込むための音声テキスト統合モデルを提案する。 既存のデータセットは、文の代わりにできるだけ多くの異なる音素をカバーするために収集されるため、より多様な文脈を学習するオーディオベースモデルの能力は制限される。 そこで本研究では,大規模テキストデータから豊富な文脈表現を学習した強力な事前学習言語モデルから抽出した文脈テキスト埋め込みの活用を提案する。 私たちの仮説は、テキスト機能は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものです。 テキストから音素レベル特徴を学習する先行手法とは対照的に,音声駆動3次元顔アニメーションにおける高レベル文脈テキスト特徴について検討する。 音声と音声の同期を保ちながら現実的な表情を合成できることを示す。 我々は,定量的,質的な評価と知覚的ユーザスタディを実施している。 その結果,既存の最先端手法と比較して,モデルの性能が優れていることが示された。

Speech-driven 3D facial animation with accurate lip synchronization has been widely studied. However, synthesizing realistic motions for the entire face during speech has rarely been explored. In this work, we present a joint audio-text model to capture the contextual information for expressive speech-driven 3D facial animation. The existing datasets are collected to cover as many different phonemes as possible instead of sentences, thus limiting the capability of the audio-based model to learn more diverse contexts. To address this, we propose to leverage the contextual text embeddings extracted from the powerful pre-trained language model that has learned rich contextual representations from large-scale text data. Our hypothesis is that the text features can disambiguate the variations in upper face expressions, which are not strongly correlated with the audio. In contrast to prior approaches which learn phoneme-level features from the text, we investigate the high-level contextual text features for speech-driven 3D facial animation. We show that the combined acoustic and textual modalities can synthesize realistic facial expressions while maintaining audio-lip synchronization. We conduct the quantitative and qualitative evaluations as well as the perceptual user study. The results demonstrate the superior performance of our model against existing state-of-the-art approaches.
翻訳日:2021-12-07 17:30:56 公開日:2021-12-04
# Stop Asian Hate!」 : 新型コロナウイルスパンデミック時の反アジアヘイトスピーチの精製検出

"Stop Asian Hate!" : Refining Detection of Anti-Asian Hate Speech During the COVID-19 Pandemic ( http://arxiv.org/abs/2112.02265v1 )

ライセンス: Link先を確認
Huy Nghiem, Fred Morstatter(参考訳) ※内容警告:明示的で強烈に攻撃的な言語の例を示す。 新型コロナウイルス(COVID-19)のパンデミックにより、アジア諸国のキセノフォビアや偏見が急増している。 多くの人は、こうした否定的な感情をソーシャルメディアで表現し、この過小評価された人口層に対するヘイトスピーチを検出するための信頼できるシステムの開発を必要としている。 本稿では,2つの実験的なアプローチを用いて,Twitterツイートのコーパスを作成し,より細かい粒度で反アジア人虐待とヘイトスピーチを探索する。 バイアスの少ないアノテーションを持つデータセットを用いて、複数のモデルをデプロイし、これらのマルチタスク分類を達成するために他の関連するコーパスの適用性を検討する。 有望な結果を示すことに加えて、異なる人口層に対するヘイトスピーチの注釈付けにおける文化的・論理的要因のニュアンスに関する知見を提供する。 分析の目的は,ヘイトスピーチ検出の分野,特に低リソースグループに対する理解を深めることである。

*Content warning: This work displays examples of explicit and strongly offensive language. The COVID-19 pandemic has fueled a surge in anti-Asian xenophobia and prejudice. Many have taken to social media to express these negative sentiments, necessitating the development of reliable systems to detect hate speech against this often under-represented demographic. In this paper, we create and annotate a corpus of Twitter tweets using 2 experimental approaches to explore anti-Asian abusive and hate speech at finer granularity. Using the dataset with less biased annotation, we deploy multiple models and also examine the applicability of other relevant corpora to accomplish these multi-task classifications. In addition to demonstrating promising results, our experiments offer insights into the nuances of cultural and logistical factors in annotating hate speech for different demographics. Our analyses together aim to contribute to the understanding of the area of hate speech detection, particularly towards low-resource groups.
翻訳日:2021-12-07 17:08:43 公開日:2021-12-04
# stjla: トラヒック予測のための多文脈対応時空間協調型リニアアテンションネットワーク

STJLA: A Multi-Context Aware Spatio-Temporal Joint Linear Attention Network for Traffic Forecasting ( http://arxiv.org/abs/2112.02262v1 )

ライセンス: Link先を確認
Yuchen Fang, Yanjun Qin, Haiyong Luo, Fang Zhao, Chenxing Wang(参考訳) 交通ビッグデータの増加により、交通予測は次第に研究者の注意を引き付けている。 したがって、交通データにおける複雑な時空間相関をマイニングしてより正確な交通状況を予測することは難しい問題となる。 従来の研究は、グラフ畳み込みネットワーク(GCN)と自己保持機構をディープ時系列モデル(例えば、リカレントニューラルネットワーク)と組み合わせて、時空間間の関係を無視した時空間相関を別々に捉えた。 さらに、GCNは過度に滑らかな問題によって制限され、自己アテンションは二次的な問題によって制限され、結果としてGCNはグローバルな表現能力が欠如し、自己アテンションはグローバルな空間依存を非効率に捕捉する。 本稿では、全時空間ノード間のグローバル依存を効率的に捉えるために、時空間ジョイントグラフに線形注意を適用するマルチコンテキスト認識時空間ジョイントリニアアテンションアテンション(stjla)という、交通予測のための新しいディープラーニングモデルを提案する。 より具体的には、STJLAは静的構造コンテキストと動的意味コンテキストを使用してモデル性能を改善する。 node2vecとone-hotエンコーディングに基づく静的構造コンテキストは、時空間位置情報を豊かにする。 さらに、マルチヘッド拡散畳み込みネットワークに基づく動的空間コンテキストは局所的空間知覚能力を高め、GRUに基づく動的時間コンテキストは、線形注意のシーケンス位置情報をそれぞれ安定化させる。 実世界の2つのトラフィックデータセットであるイングランドとPMSD7の実験により、我々のSTJLAは最先端のベースラインよりも9.83%と3.08%の精度でMAE測定を達成できることを示した。

Traffic prediction has gradually attracted the attention of researchers because of the increase in traffic big data. Therefore, how to mine the complex spatio-temporal correlations in traffic data to predict traffic conditions more accurately become a difficult problem. Previous works combined graph convolution networks (GCNs) and self-attention mechanism with deep time series models (e.g. recurrent neural networks) to capture the spatio-temporal correlations separately, ignoring the relationships across time and space. Besides, GCNs are limited by over-smoothing issue and self-attention is limited by quadratic problem, result in GCNs lack global representation capabilities, and self-attention inefficiently capture the global spatial dependence. In this paper, we propose a novel deep learning model for traffic forecasting, named Multi-Context Aware Spatio-Temporal Joint Linear Attention (STJLA), which applies linear attention to the spatio-temporal joint graph to capture global dependence between all spatio-temporal nodes efficiently. More specifically, STJLA utilizes static structural context and dynamic semantic context to improve model performance. The static structure context based on node2vec and one-hot encoding enriches the spatio-temporal position information. Furthermore, the multi-head diffusion convolution network based dynamic spatial context enhances the local spatial perception ability, and the GRU based dynamic temporal context stabilizes sequence position information of the linear attention, respectively. Experiments on two real-world traffic datasets, England and PEMSD7, demonstrate that our STJLA can achieve up to 9.83% and 3.08% accuracy improvement in MAE measure over state-of-the-art baselines.
翻訳日:2021-12-07 17:07:01 公開日:2021-12-04
# DMGCRN:トラフィック予測のための動的マルチグラフ畳み込みリカレントネットワーク

DMGCRN: Dynamic Multi-Graph Convolution Recurrent Network for Traffic Forecasting ( http://arxiv.org/abs/2112.02264v1 )

ライセンス: Link先を確認
Yanjun Qin, Yuchen Fang, Haiyong Luo, Fang Zhao, Chenxing Wang(参考訳) 交通予測は知的交通システム(ITS)の問題であり、個人や公共機関にとって重要である。 そのため,交通システムの複雑な時空間依存性を正確に予測するための研究が注目されている。 しかし、課題は2つある。 1)ほとんどの交通予報研究は、主に近隣のセンサの相関のモデル化と、同様の時空間パターンのビジネス地区等のリモートセンサの相関を無視している。 2) グラフ畳み込みネットワーク (gcns) における静的隣接行列を用いた先行手法では, 交通システムの動的空間依存性を反映するには不十分である。 さらに,全センサの動的相関をモデル化するために自己注意を用いた細粒度手法では,道路網の階層情報を無視し,二次計算複雑性を有する。 本稿では, 距離の空間的相関, 構造の空間的相関, 時間的相関を同時にモデル化できる新しい動的多重グラフ畳み込み再帰ネットワーク(DMGCRN)を提案する。 我々は、距離に基づくグラフを用いて、距離が近いノードから空間情報をキャプチャするだけでなく、道路間の構造相関を符号化し、ノードから空間情報をキャプチャする新しい潜在グラフを構築し、構造的に類似している。 さらに,各センサの近傍を粗粒度領域に分割し,各領域に異なる重みを動的に割り当てる。 一方,動的多重グラフ畳み込みネットワークをゲートリカレントユニット(GRU)に統合し,時間依存性を捉える。 実世界の3つのトラヒックデータセットに関する広範囲な実験により,提案手法が最先端のベースラインを上回ることを示した。

Traffic forecasting is a problem of intelligent transportation systems (ITS) and crucial for individuals and public agencies. Therefore, researches pay great attention to deal with the complex spatio-temporal dependencies of traffic system for accurate forecasting. However, there are two challenges: 1) Most traffic forecasting studies mainly focus on modeling correlations of neighboring sensors and ignore correlations of remote sensors, e.g., business districts with similar spatio-temporal patterns; 2) Prior methods which use static adjacency matrix in graph convolutional networks (GCNs) are not enough to reflect the dynamic spatial dependence in traffic system. Moreover, fine-grained methods which use self-attention to model dynamic correlations of all sensors ignore hierarchical information in road networks and have quadratic computational complexity. In this paper, we propose a novel dynamic multi-graph convolution recurrent network (DMGCRN) to tackle above issues, which can model the spatial correlations of distance, the spatial correlations of structure, and the temporal correlations simultaneously. We not only use the distance-based graph to capture spatial information from nodes are close in distance but also construct a novel latent graph which encoded the structure correlations among roads to capture spatial information from nodes are similar in structure. Furthermore, we divide the neighbors of each sensor into coarse-grained regions, and dynamically assign different weights to each region at different times. Meanwhile, we integrate the dynamic multi-graph convolution network into the gated recurrent unit (GRU) to capture temporal dependence. Extensive experiments on three real-world traffic datasets demonstrate that our proposed algorithm outperforms state-of-the-art baselines.
翻訳日:2021-12-07 17:06:20 公開日:2021-12-04
# オンライン多ラベル分類のための適応ラベル閾値法

Adaptive label thresholding methods for online multi-label classification ( http://arxiv.org/abs/2112.02301v1 )

ライセンス: Link先を確認
Tingting Zhai, Hongcheng Tang, Hao Wang(参考訳) 既存のオンラインマルチラベル分類作業は、オンラインラベル閾値問題にうまく対処できず、オンラインアルゴリズムに対する後悔の分析も欠如している。 本稿では,既存の手法の欠点を克服すべく,オンラインマルチラベル分類のための適応ラベルしきい値アルゴリズムの新たな枠組みを提案する。 私たちのフレームワークの重要な特徴は、スコアリングモデルとしきい値モデルの両方が、オンラインマルチラベル分類器の重要なコンポーネントとして含まれ、一つのオンライン最適化問題に組み込まれていることです。 さらに、スコアモデルとしきい値モデルの関係を確立するために、マルチラベル分類器が、受信したインスタンスに対して、関連するラベルと無関係なラベルとをどの程度区別できるかを測定する、新しいマルチラベル分類損失関数が導出される。 この新しいフレームワークと損失関数に基づいて,二階線形アルゴリズムと二階線形アルゴリズムを提案し,どちらもクローズドフォーム更新を享受するが,マルチラベル分類器の更新には異なる手法を用いる。 どちらのアルゴリズムも、サブ線形後悔を実現することが証明されている。 マーサーカーネルを用いて,非線形多ラベル予測タスクに対処するために,1次アルゴリズムを拡張した。 実験では,様々なマルチラベル性能指標を用いて線形および非線形アルゴリズムの利点を示す。

Existing online multi-label classification works cannot well handle the online label thresholding problem and lack the regret analysis for their online algorithms. This paper proposes a novel framework of adaptive label thresholding algorithms for online multi-label classification, with the aim to overcome the drawbacks of existing methods. The key feature of our framework is that both scoring and thresholding models are included as important components of the online multi-label classifier and are incorporated into one online optimization problem. Further, in order to establish the relationship between scoring and thresholding models, a novel multi-label classification loss function is derived, which measures to what an extent the multi-label classifier can distinguish between relevant labels and irrelevant ones for an incoming instance. Based on this new framework and loss function, we present a first-order linear algorithm and a second-order one, which both enjoy closed form update, but rely on different techniques for updating the multi-label classifier. Both algorithms are proved to achieve a sub-linear regret. Using Mercer kernels, our first-order algorithm has been extended to deal with nonlinear multi-label prediction tasks. Experiments show the advantage of our linear and nonlinear algorithms, in terms of various multi-label performance metrics.
翻訳日:2021-12-07 17:05:25 公開日:2021-12-04
# 最適化に基づくニューラルネットワークの分離

Optimization-Based Separations for Neural Networks ( http://arxiv.org/abs/2112.02393v1 )

ライセンス: Link先を確認
Itay Safran, Jason D. Lee(参考訳) 深さ分離の結果は、より浅いアーキテクチャに対するディープニューラルネットワークの利点を理論的に説明し、前者が優れた近似能力を持っていることを示す。 しかし、より深いアーキテクチャがこの利点を証明可能な最適化保証に活用する既知の結果はない。 軽度な仮定を満たす放射対称分布によってデータが生成される場合、勾配降下は2つのシグモイド活性化層を有する深さ2ニューラルネットワークを用いてボール指示関数を効率的に学習することができ、トレーニング中、隠れた層が固定されていることが証明される。 1つの非線形層を持つ深さ2のネットワークを使用する場合(safran and shamir, 2017)、ボールインジケータは特定の重み付き分布に対して近似することが難しいことが知られているので、これは我々の知識の最良のものを確立する最初の最適化に基づく分離結果である。 我々の証明手法は、単一のニューロンで学習する際の問題を軽減し、データの分布が重くなったら勾配降下の収束を示すために新しいツールが必要であるというランダムな特徴アプローチに依存している。

Depth separation results propose a possible theoretical explanation for the benefits of deep neural networks over shallower architectures, establishing that the former possess superior approximation capabilities. However, there are no known results in which the deeper architecture leverages this advantage into a provable optimization guarantee. We prove that when the data are generated by a distribution with radial symmetry which satisfies some mild assumptions, gradient descent can efficiently learn ball indicator functions using a depth 2 neural network with two layers of sigmoidal activations, and where the hidden layer is held fixed throughout training. Since it is known that ball indicators are hard to approximate with respect to a certain heavy-tailed distribution when using depth 2 networks with a single layer of non-linearities (Safran and Shamir, 2017), this establishes what is to the best of our knowledge, the first optimization-based separation result where the approximation benefits of the stronger architecture provably manifest in practice. Our proof technique relies on a random features approach which reduces the problem to learning with a single neuron, where new tools are required to show the convergence of gradient descent when the distribution of the data is heavy-tailed.
翻訳日:2021-12-07 17:05:04 公開日:2021-12-04
# 変分ワッサースタイン勾配流

Variational Wasserstein gradient flow ( http://arxiv.org/abs/2112.02424v1 )

ライセンス: Link先を確認
Jiaojiao Fan, Amirhossein Taghvaei, Yongxin Chen(参考訳) ワッサースタイン計量に対する確率密度の空間上の関数の勾配流れは、しばしば良い性質を示し、いくつかの機械学習アプリケーションで利用されている。 ワッサーシュタイン勾配流を計算する標準的なアプローチは、グリッド上の基礎空間を離散化し、拡張性がない有限差分である。 本研究では,ワッサースタイン勾配流のためのスケーラブルな近位勾配型アルゴリズムを提案する。 本手法の鍵となるのは目的関数の変分定式化であり,JKO近位写像を原始双対最適化により実現することができる。 この原始双対問題は、内ループと外ループのパラメータを更新することで効率よく解ける。 この枠組みは熱方程式や多孔質媒質方程式を含む古典的なワッサーシュタイン勾配流を網羅する。 本アルゴリズムの性能とスケーラビリティをいくつかの数値例で示す。

The gradient flow of a function over the space of probability densities with respect to the Wasserstein metric often exhibits nice properties and has been utilized in several machine learning applications. The standard approach to compute the Wasserstein gradient flow is the finite difference which discretizes the underlying space over a grid, and is not scalable. In this work, we propose a scalable proximal gradient type algorithm for Wasserstein gradient flow. The key of our method is a variational formulation of the objective function, which makes it possible to realize the JKO proximal map through a primal-dual optimization. This primal-dual problem can be efficiently solved by alternatively updating the parameters in the inner and outer loops. Our framework covers all the classical Wasserstein gradient flows including the heat equation and the porous medium equation. We demonstrate the performance and scalability of our algorithm with several numerical examples.
翻訳日:2021-12-07 17:04:40 公開日:2021-12-04
# Kronecker Sketchingによる高速グラフニューラルタンジェントカーネル

Fast Graph Neural Tangent Kernel via Kronecker Sketching ( http://arxiv.org/abs/2112.02446v1 )

ライセンス: Link先を確認
Shunhua Jiang, Yunze Man, Zhao Song, Zheng Yu, Danyang Zhuo(参考訳) 多くのディープラーニングタスクは、グラフ(例えば、タンパク質構造、ソーシャルネットワーク、ソースコード抽象構文木)を扱う必要がある。 これらのタスクの重要性から、人々はグラフ学習の事実上の方法としてグラフニューラルネットワーク(GNN)に目を向けた。 GNNは説得力のある性能のために広く採用されている。 残念なことに、GNNを使用する上で大きな障壁のひとつは、トレーニングにかなりの時間とリソースを必要とすることだ。 近年,グラフデータを用いた新しい学習法としてgraph neural tangent kernel (gntk) [du, hou, salakhutdinov, poczos, wang, xu 19] が提案されている。 GNTKはグラフデータに対するNural Tangent Kernel (NTK) [Jacot, Gabriel and Hongler 18] (カーネル法)の応用であり、NTK回帰の解法は勾配勾配を用いて無限大のニューラルネットワークを訓練するのと等価である。 GNTKを使用する主な利点は、任意のカーネルメソッドと同様に、GNTKのパラメータを1ステップで直接解決できることである。 これにより、時間を要する勾配降下を回避できる。 一方、スケッチはカーネルレグレッションの解決を含む様々な最適化問題のスピードアップにますます使われてきた。 n$グラフのカーネル行列が与えられると、カーネルレグレッションを解くのにスケッチを使うと、実行時間は$o(n^3)$になる。 しかし残念なことに、そのような手法は通常、事前にカーネル行列に関する広範な知識を必要とするが、GNTKの場合、各グラフが$N$ノードを持つと仮定すると、カーネル行列の構成は既に$O(n^2N^4)$である。 カーネル行列の構成時間は、グラフのサイズが$N$増加すると大きなパフォーマンスボトルネックとなる。 自然な質問は、gntkレグレッションのエンドツーエンド実行時間を改善するためにカーネルマトリックス構築をスピードアップできるかどうかである。 本稿では,カーネル行列を$o(n^2N^3)$実行時間で構築するアルゴリズムを提案する。

Many deep learning tasks have to deal with graphs (e.g., protein structures, social networks, source code abstract syntax trees). Due to the importance of these tasks, people turned to Graph Neural Networks (GNNs) as the de facto method for learning on graphs. GNNs have become widely applied due to their convincing performance. Unfortunately, one major barrier to using GNNs is that GNNs require substantial time and resources to train. Recently, a new method for learning on graph data is Graph Neural Tangent Kernel (GNTK) [Du, Hou, Salakhutdinov, Poczos, Wang and Xu 19]. GNTK is an application of Neural Tangent Kernel (NTK) [Jacot, Gabriel and Hongler 18] (a kernel method) on graph data, and solving NTK regression is equivalent to using gradient descent to train an infinite-wide neural network. The key benefit of using GNTK is that, similar to any kernel method, GNTK's parameters can be solved directly in a single step. This can avoid time-consuming gradient descent. Meanwhile, sketching has become increasingly used in speeding up various optimization problems, including solving kernel regression. Given a kernel matrix of $n$ graphs, using sketching in solving kernel regression can reduce the running time to $o(n^3)$. But unfortunately such methods usually require extensive knowledge about the kernel matrix beforehand, while in the case of GNTK we find that the construction of the kernel matrix is already $O(n^2N^4)$, assuming each graph has $N$ nodes. The kernel matrix construction time can be a major performance bottleneck when the size of graphs $N$ increases. A natural question to ask is thus whether we can speed up the kernel matrix construction to improve GNTK regression's end-to-end running time. This paper provides the first algorithm to construct the kernel matrix in $o(n^2N^3)$ running time.
翻訳日:2021-12-07 17:04:28 公開日:2021-12-04
# 視覚データにおける武器検出を意識したオリエンテーション : ベンチマークデータセット

Orientation Aware Weapons Detection In Visual Data : A Benchmark Dataset ( http://arxiv.org/abs/2112.02221v1 )

ライセンス: Link先を確認
Nazeef Ul Haq and Muhammad Moazam Fraz and Tufail Sajjad Shah Hashmi and Muhammad Shahzad(参考訳) 武器の自動検出は、個人の安全と健康を改善する上で重要であるが、武器のサイズ、形状、外観が多種多様であるため、難しい作業である。 ビューポイントの変化とオクルージョンは、このタスクをより難しくする理由でもある。 さらに、現在の物体検出アルゴリズムは矩形領域を処理するが、細く長いライフルは実際に面積のほんの一部をカバーし、残りは不要な詳細を含む可能性がある。 そこで本研究では,兵器検出性能の向上を図り,指向性認識兵器検出のためのCNNアーキテクチャを提案する。 提案モデルは,角度を分類問題として用いるだけでなく,角度を8つのクラスに分割し,角度を回帰問題として用いる。 武器検出モデルのトレーニングには、ウェブから合計6400個の武器画像からなる新しいデータセットを収集し、手動で位置指向境界ボックスを付加する。 私たちのデータセットは、真理として向き付けられたバウンディングボックスだけでなく、水平バウンディングボックスも提供します。 また、この領域のさらなる研究のために、現代のオブジェクト検出器の複数のフォーマットでデータセットを提供しています。 本データを用いて提案モデルを評価し, 既設物体検出器との比較分析により, 標準評価手法で測定した提案モデルの性能が向上した。 データセットとモデルの実装はこのリンクで公開されています。

Automatic detection of weapons is significant for improving security and well being of individuals, nonetheless, it is a difficult task due to large variety of size, shape and appearance of weapons. View point variations and occlusion also are reasons which makes this task more difficult. Further, the current object detection algorithms process rectangular areas, however a slender and long rifle may really cover just a little portion of area and the rest may contain unessential details. To overcome these problem, we propose a CNN architecture for Orientation Aware Weapons Detection, which provides oriented bounding box with improved weapons detection performance. The proposed model provides orientation not only using angle as classification problem by dividing angle into eight classes but also angle as regression problem. For training our model for weapon detection a new dataset comprising of total 6400 weapons images is gathered from the web and then manually annotated with position oriented bounding boxes. Our dataset provides not only oriented bounding box as ground truth but also horizontal bounding box. We also provide our dataset in multiple formats of modern object detectors for further research in this area. The proposed model is evaluated on this dataset, and the comparative analysis with off-the shelf object detectors yields superior performance of proposed model, measured with standard evaluation strategies. The dataset and the model implementation are made publicly available at this link: https://bit.ly/2TyZI CF.
翻訳日:2021-12-07 16:43:54 公開日:2021-12-04
# 球面モデル:超球面多様体潜在空間を持つ3次元形状モデル

Sphere Face Model:A 3D Morphable Model with Hypersphere Manifold Latent Space ( http://arxiv.org/abs/2112.02238v1 )

ライセンス: Link先を確認
Diqiong Jiang, Yiwei Jin, Fanglue Zhang, Zhe Zhu, Yun Zhang, Ruofeng Tong, Min Tang(参考訳) 3D Morphable Models (3DMM) は顔の形と外観の生成モデルである。 しかし、従来の3dmmの形状パラメータは多変量ガウス分布を満たし、同一性埋め込みは超球面分布を満たしている。 この問題に対処するために,単眼顔再構成のための新しい3次元MMであるSphere Face Model(SFM)を提案する。 SFMのコアは3次元顔形状の再構成に使用できるベースマトリックスであり、第1段と第2段に3次元と2次元のトレーニングデータをそれぞれ使用する2段階のトレーニングアプローチを採用することで基礎マトリックスを学習する。 分布ミスマッチを解消するために,形状パラメータに超球面潜在空間を持たせるための新しい損失をデザインする。 広範な実験により、sfmは高い表現能力と形状パラメータ空間のクラスタリング性能を示す。 さらに, 顔形状の忠実度が向上し, モノクラー顔再構成における課題条件に整合する。

3D Morphable Models (3DMMs) are generative models for face shape and appearance. However, the shape parameters of traditional 3DMMs satisfy the multivariate Gaussian distribution while the identity embeddings satisfy the hypersphere distribution, and this conflict makes it challenging for face reconstruction models to preserve the faithfulness and the shape consistency simultaneously. To address this issue, we propose the Sphere Face Model(SFM), a novel 3DMM for monocular face reconstruction, which can preserve both shape fidelity and identity consistency. The core of our SFM is the basis matrix which can be used to reconstruct 3D face shapes, and the basic matrix is learned by adopting a two-stage training approach where 3D and 2D training data are used in the first and second stages, respectively. To resolve the distribution mismatch, we design a novel loss to make the shape parameters have a hyperspherical latent space. Extensive experiments show that SFM has high representation ability and shape parameter space's clustering performance. Moreover, it produces fidelity face shapes, and the shapes are consistent in challenging conditions in monocular face reconstruction.
翻訳日:2021-12-07 16:41:47 公開日:2021-12-04
# LAVT:画像セグメント参照のための言語対応視覚変換器

LAVT: Language-Aware Vision Transformer for Referring Image Segmentation ( http://arxiv.org/abs/2112.02244v1 )

ライセンス: Link先を確認
Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao, Philip H.S. Torr(参考訳) 画像セグメント化の参照は、画像から自然言語表現によって参照されるオブジェクトを分割することを目的とした基本的な視覚言語タスクである。 このタスクの鍵となる課題の1つは、画像内の関連する位置を強調するために参照式を活用することである。 この問題に取り組むためのパラダイムは、視覚エンコーダと言語エンコーダから独立に抽出された特徴を融合するために強力な視覚言語デコーダ(クロスモーダル)を活用することである。 近年の手法では、トランスフォーマーをクロスモーダルデコーダとして活用し、他の視覚言語タスクにおけるトランスフォーマーの圧倒的な成功と並行して、このパラダイムにおいて顕著な進歩を遂げている。 本研究では,視覚トランスコーダネットワークの中間層における言語的特徴と視覚的特徴の早期融合により,より優れたクロスモーダルアライメントを実現することができることを示す。 視覚特徴エンコード段階でクロスモーダル特徴融合を行うことにより,トランスコーダの十分な相関モデリング能力を利用して,有用なマルチモーダルコンテキストを抽出できる。 これにより、軽量マスク予測器で正確なセグメンテーション結果を容易に得ることができる。 RefCOCO, RefCOCO+, G-Refではベルとホイッスルがなければ, 従来の最先端手法をはるかに上回っている。

Referring image segmentation is a fundamental vision-language task that aims to segment out an object referred to by a natural language expression from an image. One of the key challenges behind this task is leveraging the referring expression for highlighting relevant positions in the image. A paradigm for tackling this problem is to leverage a powerful vision-language ("cross-modal") decoder to fuse features independently extracted from a vision encoder and a language encoder. Recent methods have made remarkable advancements in this paradigm by exploiting Transformers as cross-modal decoders, concurrent to the Transformer's overwhelming success in many other vision-language tasks. Adopting a different approach in this work, we show that significantly better cross-modal alignments can be achieved through the early fusion of linguistic and visual features in intermediate layers of a vision Transformer encoder network. By conducting cross-modal feature fusion in the visual feature encoding stage, we can leverage the well-proven correlation modeling power of a Transformer encoder for excavating helpful multi-modal context. This way, accurate segmentation results are readily harvested with a light-weight mask predictor. Without bells and whistles, our method surpasses the previous state-of-the-art methods on RefCOCO, RefCOCO+, and G-Ref by large margins.
翻訳日:2021-12-07 16:41:27 公開日:2021-12-04
# 領域制約のある変形可能な画像登録のためのデュアルフロー変換ネットワーク

Dual-Flow Transformation Network for Deformable Image Registration with Region Consistency Constraint ( http://arxiv.org/abs/2112.02249v1 )

ライセンス: Link先を確認
Xinke Ma, Yibo Yang, Yong Xia, Dacheng Tao(参考訳) 変形可能な画像登録は、一対の画像間の高速かつ正確なアライメントを実現することができ、多くの医用画像研究において重要な役割を果たす。 現在のディープラーニング(DL)ベースの画像登録アプローチは、畳み込みニューラルネットワークを活用して、ある画像から別の画像への空間的変換を直接学習する。 しかしながら、これらの手法は、画像内の領域(ROI)の類似性を無視した一対のイメージの類似性を評価するために、グローバルな類似性エネルギー関数のみを使用する。 さらに、DLベースの手法は画像のグローバル空間変換を直接推定することが多く、画像内のROIの領域空間変換には注意を払わない。 本稿では,一対のイメージ内のROIの類似性を最大化し,大域的空間変換と地域的空間変換を同時に推定する領域整合性制約を持つ新しいデュアルフロー変換ネットワークを提案する。 4つの公開3次元MRIデータセットによる実験により,提案手法は,他の最先端手法と比較して,精度と一般化において最高の登録性能を達成できることが示された。

Deformable image registration is able to achieve fast and accurate alignment between a pair of images and thus plays an important role in many medical image studies. The current deep learning (DL)-based image registration approaches directly learn the spatial transformation from one image to another by leveraging a convolutional neural network, requiring ground truth or similarity metric. Nevertheless, these methods only use a global similarity energy function to evaluate the similarity of a pair of images, which ignores the similarity of regions of interest (ROIs) within images. Moreover, DL-based methods often estimate global spatial transformations of image directly, which never pays attention to region spatial transformations of ROIs within images. In this paper, we present a novel dual-flow transformation network with region consistency constraint which maximizes the similarity of ROIs within a pair of images and estimates both global and region spatial transformations simultaneously. Experiments on four public 3D MRI datasets show that the proposed method achieves the best registration performance in accuracy and generalization compared with other state-of-the-art methods.
翻訳日:2021-12-07 16:41:03 公開日:2021-12-04
# マルチモーダル・マルチタスク画像予測のためのチャネル交換ネットワーク

Channel Exchanging Networks for Multimodal and Multitask Dense Image Prediction ( http://arxiv.org/abs/2112.02252v1 )

ライセンス: Link先を確認
Yikai Wang, Wenbing Huang, Fuchun Sun, Fengxiang He, Dacheng Tao(参考訳) マルチモーダル融合とマルチタスク学習は、機械学習において2つの重要なトピックである。 実りある進歩にもかかわらず、両方の問題に対する既存の方法は依然として同じ課題に対して脆弱であり、各モダリティ(タスクの参照)の特定のパターンを保存する一方で、モダリティ(タスクの参照)にまたがる共通情報を統合することは、依然として厳密である。 また、実際には互いに密接な関係にあるが、マルチモーダル融合とマルチタスク学習は、以前と同じ方法論の枠組みで研究されることはめったにない。 本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。 コアでは、CENは異なるモードのサブネットワーク間でチャネルを動的に交換する。 具体的には、チャネル交換プロセスは、トレーニング中のBatch-Normalization( BN)スケーリングファクタの大きさによって測定される個々のチャネル重要度によって自己誘導される。 高密度画像予測の応用において,cenの有効性は,マルチモーダル融合,サイクルマルチモーダル融合,マルチタスク学習,マルチモーダルマルチタスク学習の4つのシナリオで検証される。 RGB-Dデータによるセマンティックセグメンテーションとマルチドメイン入力による画像翻訳の広範な実験は、現在の最先端手法と比較してCENの有効性を検証する。 詳細なアブレーション研究も行われており,提案する各成分の利点を裏付けるものである。

Multimodal fusion and multitask learning are two vital topics in machine learning. Despite the fruitful progress, existing methods for both problems are still brittle to the same challenge -- it remains dilemmatic to integrate the common information across modalities (resp. tasks) meanwhile preserving the specific patterns of each modality (resp. task). Besides, while they are actually closely related to each other, multimodal fusion and multitask learning are rarely explored within the same methodological framework before. In this paper, we propose Channel-Exchanging-N etwork (CEN) which is self-adaptive, parameter-free, and more importantly, applicable for both multimodal fusion and multitask learning. At its core, CEN dynamically exchanges channels between subnetworks of different modalities. Specifically, the channel exchanging process is self-guided by individual channel importance that is measured by the magnitude of Batch-Normalization (BN) scaling factor during training. For the application of dense image prediction, the validity of CEN is tested by four different scenarios: multimodal fusion, cycle multimodal fusion, multitask learning, and multimodal multitask learning. Extensive experiments on semantic segmentation via RGB-D data and image translation through multi-domain input verify the effectiveness of our CEN compared to current state-of-the-art methods. Detailed ablation studies have also been carried out, which provably affirm the advantage of each component we propose.
翻訳日:2021-12-07 16:40:45 公開日:2021-12-04
# 2段ハードサンプル発生による構成インフォーマティブトリプレット

Construct Informative Triplet with Two-stage Hard-sample Generation ( http://arxiv.org/abs/2112.02259v1 )

ライセンス: Link先を確認
Chuang Zhu, Zheng Hu, Huihui Dong, Gang He, Zekuan Yu, Shangshang Zhang(参考訳) 本稿では,有益トリプレットを構成するためのロバストなサンプル生成手法を提案する。 提案するハードサンプル生成は2段階の合成フレームワークであり, 有効正負のサンプル生成器を2段階に分けてハードサンプルを生成する。 第1段は、アンカー正対を分割線形操作で伸長し、条件付き生成副ネットワークを巧みに設計して生成サンプルの品質を高め、モード崩壊のリスクを低減させる。 第2段階は適応逆メトリック制約を利用して最終ハードサンプルを生成する。 いくつかのベンチマークデータセットに対する大規模な実験により,本手法が既存のハードサンプル生成アルゴリズムよりも優れた性能を発揮することを確認した。 さらに,既存のトリプルトマイニング戦略を組み合わせたハードサンプル生成手法により,深層メトリック学習性能がさらに向上する可能性が示唆された。

In this paper, we propose a robust sample generation scheme to construct informative triplets. The proposed hard sample generation is a two-stage synthesis framework that produces hard samples through effective positive and negative sample generators in two stages, respectively. The first stage stretches the anchor-positive pairs with piecewise linear manipulation and enhances the quality of generated samples by skillfully designing a conditional generative adversarial network to lower the risk of mode collapse. The second stage utilizes an adaptive reverse metric constraint to generate the final hard samples. Extensive experiments on several benchmark datasets verify that our method achieves superior performance than the existing hard-sample generation algorithms. Besides, we also find that our proposed hard sample generation method combining the existing triplet mining strategies can further boost the deep metric learning performance.
翻訳日:2021-12-07 16:40:20 公開日:2021-12-04
# BAANet:マルチスペクトル歩行者検出のための双方向適応アテンションゲートの学習

BAANet: Learning Bi-directional Adaptive Attention Gates for Multispectral Pedestrian Detection ( http://arxiv.org/abs/2112.02277v1 )

ライセンス: Link先を確認
Xiaoxiao Yang, Yeqian Qiang, Huijie Zhu, Chunxiang Wang, Ming Yang(参考訳) 熱赤外(TIR)画像は、多スペクトル歩行者検出のためのRGB特徴に温度手がかりを提供することの有効性が証明されている。 既存のほとんどの手法は、RGBベースのフレームワークに直接TIRモダリティを注入するか、2つのモダリティの結果を単純にアンサンブルする。 しかし、これはRGBとTIRの特徴が一般的にモダリティ固有のノイズを持つため、ネットワークの伝搬とともに特徴が悪化する可能性があるため、検出性能が低下する可能性がある。 そこで本研究では,双方向適応注意ゲート (baa-gate) と呼ばれる効率的なクロスモダリティ融合モジュールを提案する。 注意機構に基づき、情報的特徴を蒸留し、漸近的に表現を再調整するためにbaaゲートが考案される。 具体的には、双方向多段核融合戦略を採用し、2つの様相の特徴を漸進的に最適化し、伝播中にそれらの特異性を保持する。 さらに、照明に基づく重み付け戦略により、BAAゲートの緩和および凝集強度を適応的に調整し、照明変化に対するロバスト性を高めるため、BAAゲートの適応的相互作用を導入する。 挑戦的なKAISTデータセットに関する検討実験により,本手法の優れた性能を良好な速度で実証した。

Thermal infrared (TIR) image has proven effectiveness in providing temperature cues to the RGB features for multispectral pedestrian detection. Most existing methods directly inject the TIR modality into the RGB-based framework or simply ensemble the results of two modalities. This, however, could lead to inferior detection performance, as the RGB and TIR features generally have modality-specific noise, which might worsen the features along with the propagation of the network. Therefore, this work proposes an effective and efficient cross-modality fusion module called Bi-directional Adaptive Attention Gate (BAA-Gate). Based on the attention mechanism, the BAA-Gate is devised to distill the informative features and recalibrate the representations asymptotically. Concretely, a bi-direction multi-stage fusion strategy is adopted to progressively optimize features of two modalities and retain their specificity during the propagation. Moreover, an adaptive interaction of BAA-Gate is introduced by the illumination-based weighting strategy to adaptively adjust the recalibrating and aggregating strength in the BAA-Gate and enhance the robustness towards illumination changes. Considerable experiments on the challenging KAIST dataset demonstrate the superior performance of our method with satisfactory speed.
翻訳日:2021-12-07 16:40:06 公開日:2021-12-04
# U2-Former:画像復元用のネスト型U字型トランス

U2-Former: A Nested U-shaped Transformer for Image Restoration ( http://arxiv.org/abs/2112.02279v1 )

ライセンス: Link先を確認
Haobo Ji, Xin Feng, Wenjie Pei, Jinxing Li, Guangming Lu(参考訳) Transformerは様々なハイレベルな視覚タスクにおいて顕著なパフォーマンスを実現しているが、画像復元におけるTransformerの潜在能力を最大限活用することは依然として困難である。 このクルックスは、イメージ復元のための典型的なエンコーダデコーダフレームワークにTransformerを適用するという限られた深さにある。 本稿では,トランスフォーマーをコア操作として利用し,深層符号化・復号化空間で画像復元を行うことのできる,深層かつ効率的なトランスフォーマーベースネットワークであるU2-Formerを提案する。 具体的には、ネストしたU字型構造を利用して、異なるサイズの特徴写像を持つ異なる層間の相互作用を促進する。 さらに,トークン表現を圧縮する特徴フィルタリング機構を導入することにより,基本トランスフォーマーブロックの計算効率を最適化する。 画像復元のための典型的な監督方法とは別に、u2-formerは複数の側面でコントラスト学習を行い、ノイズ成分を背景画像からさらに分離する。 反射除去, 雨ストレーク除去, デハジングなど, 様々な画像復元作業に関する広範囲な実験により, 提案するu2-formerの有効性が示された。

While Transformer has achieved remarkable performance in various high-level vision tasks, it is still challenging to exploit the full potential of Transformer in image restoration. The crux lies in the limited depth of applying Transformer in the typical encoder-decoder framework for image restoration, resulting from heavy self-attention computation load and inefficient communications across different depth (scales) of layers. In this paper, we present a deep and effective Transformer-based network for image restoration, termed as U2-Former, which is able to employ Transformer as the core operation to perform image restoration in a deep encoding and decoding space. Specifically, it leverages the nested U-shaped structure to facilitate the interactions across different layers with different scales of feature maps. Furthermore, we optimize the computational efficiency for the basic Transformer block by introducing a feature-filtering mechanism to compress the token representation. Apart from the typical supervision ways for image restoration, our U2-Former also performs contrastive learning in multiple aspects to further decouple the noise component from the background image. Extensive experiments on various image restoration tasks, including reflection removal, rain streak removal and dehazing respectively, demonstrate the effectiveness of the proposed U2-Former.
翻訳日:2021-12-07 16:39:45 公開日:2021-12-04
# ドメイン間のブリッジ学習による教師なしドメイン一般化

Unsupervised Domain Generalization by Learning a Bridge Across Domains ( http://arxiv.org/abs/2112.02300v1 )

ライセンス: Link先を確認
Sivan Harary, Eli Schwartz, Assaf Arbelle, Peter Staar, Shady Abu-Hussein, Elad Amrani, Roei Herzig, Amit Alfassy, Raja Giryes, Hilde Kuehne, Dina Katabi, Kate Saenko, Rogerio Feris, Leonid Karlinsky(参考訳) 実際の写真、クリップアート、絵画、スケッチなど、異なる視覚領域で学習された表現を一般化する能力は、人間の視覚システムの基本能力である。 本稿では、いくつかのソースドメイン管理を利用する多くのクロスドメインワークと異なり、ソースドメインとターゲットドメインの両方でトレーニングの監督を行わない比較的新しい、非常に実用的なUnsupervised Domain Generalization(UDG)にアプローチする。 本手法は,各トレーニング領域からBrADへの視覚的(イメージ間)マッピングを保存したセマンティクスのセットを伴って,補助的なブリッジドメインであるBrAD(Bridge Across Domains)の自己教師型学習に基づいている。 bradとそれへのマッピングは、それぞれのドメインをbrad-射影に意味的に整列させ、したがって暗黙的にすべてのドメイン(seenまたはunseen)を互いに意味的に整列させる、対照的な自己教師付き表現モデルと共に(エンドツーエンドで)学習される。 本稿では、エッジ正規化bradのアプローチが、udg、少数ショットuda、マルチドメインデータセット(未認識のドメインやクラスへの一般化を含む)にまたがる教師なし一般化など、複数のベンチマークとタスクにわたって大きな向上を達成する方法を示す。

The ability to generalize learned representations across significantly different visual domains, such as between real photos, clipart, paintings, and sketches, is a fundamental capacity of the human visual system. In this paper, different from most cross-domain works that utilize some (or full) source domain supervision, we approach a relatively new and very practical Unsupervised Domain Generalization (UDG) setup of having no training supervision in neither source nor target domains. Our approach is based on self-supervised learning of a Bridge Across Domains (BrAD) - an auxiliary bridge domain accompanied by a set of semantics preserving visual (image-to-image) mappings to BrAD from each of the training domains. The BrAD and mappings to it are learned jointly (end-to-end) with a contrastive self-supervised representation model that semantically aligns each of the domains to its BrAD-projection, and hence implicitly drives all the domains (seen or unseen) to semantically align to each other. In this work, we show how using an edge-regularized BrAD our approach achieves significant gains across multiple benchmarks and a range of tasks, including UDG, Few-shot UDA, and unsupervised generalization across multi-domain datasets (including generalization to unseen domains and classes).
翻訳日:2021-12-07 16:39:21 公開日:2021-12-04
# 単分子室内深度推定の実用化に向けて

Toward Practical Self-Supervised Monocular Indoor Depth Estimation ( http://arxiv.org/abs/2112.02306v1 )

ライセンス: Link先を確認
Cho-Ying Wu, Jialiang Wang, Michael Hall, Ulrich Neumann, Shuochen Su(参考訳) 自己監督型単眼深度推定法の大半は、運転シナリオに焦点を当てている。 このような手法は,物体が近くで散らばり,任意に配置される複雑な室内シーンの一般化が困難であることを示す。 さらにロバスト性を高めるため,本研究では,その内装混合データセットトレーニングにより,構造的だがメートル法に依存しない深度を生成する事前訓練された深度推定器からクナックを学習するための構造蒸留手法を提案する。 左右の整合性からメトリクスを学習する自己教師分枝と蒸留を組み合わせることで、一般的な屋内シーンの構造化とメートル法深度をリアルタイムで推定する。 学習と評価を容易にするために,数千の環境をシミュレーションしたデータセットであるSimSINと,一般的な屋内環境の500個の実スキャンシーケンスを含むデータセットであるUniSINを収集した。 sim-to-real と real-to-real の両方で実験を行い,奥行きマップを用いた下流アプリケーションにおいても,質的および定量的に改善を示す。 この研究は、メソッド、データ、アプリケーションに関する完全な研究を提供する。 我々は,本研究が自己超越による屋内深度推定の実践的基礎となると考えている。

The majority of self-supervised monocular depth estimation methods focus on driving scenarios. We show that such methods generalize poorly to unseen complex indoor scenes, where objects are cluttered and arbitrarily arranged in the near field. To obtain more robustness, we propose a structure distillation approach to learn knacks from a pretrained depth estimator that produces structured but metric-agnostic depth due to its in-the-wild mixed-dataset training. By combining distillation with the self-supervised branch that learns metrics from left-right consistency, we attain structured and metric depth for generic indoor scenes and make inferences in real-time. To facilitate learning and evaluation, we collect SimSIN, a dataset from simulation with thousands of environments, and UniSIN, a dataset that contains about 500 real scan sequences of generic indoor environments. We experiment in both sim-to-real and real-to-real settings, and show improvements both qualitatively and quantitatively, as well as in downstream applications using our depth maps. This work provides a full study, covering methods, data, and applications. We believe the work lays a solid basis for practical indoor depth estimation via self-supervision.
翻訳日:2021-12-07 16:38:57 公開日:2021-12-04
# 高効率マルチビューステレオのための一般化二分探索ネットワーク

Generalized Binary Search Network for Highly-Efficient Multi-View Stereo ( http://arxiv.org/abs/2112.02338v1 )

ライセンス: Link先を確認
Zhenxing Mi, Di Chang, Dan Xu(参考訳) カメラパラメータが既知のマルチビューステレオ(MVS)は、基本的に有効な深度範囲内の1次元探索問題である。 最近の深層学習に基づくMVS法は、一般的に深度範囲の深度仮説を密にサンプリングし、深度予測のためにメモリを消費する3Dコストボリュームを構築する。 粗大なサンプリング戦略は、このオーバーヘッド問題をある程度緩和するが、MVSの効率は依然として未解決の課題である。 本研究では,メモリフットプリントを著しく低減する一方で,最先端の奥行き予測性能を明らかに向上させる高効率mvs手法を提案する。 効率と有効性の両方を考慮して, MVS にとって検索戦略が合理的に最適かを検討する。 まず,二項探索問題としてmvsを定式化し,mvsに対する一般化二項探索ネットワークを提案する。 具体的には、各ステップで深さ範囲を2つのビンに分割し、両側に1つのエラー許容ビンを追加する。 真深度を含むビンを特定するために分類を行う。 また,分類誤りの処理,外乱サンプルの処理,トレーニングメモリの低減という3つのメカニズムを設計する。 新たな定式化により,各ステップで非常に少数の深度仮説をサンプリングするのみとなり,メモリ効率が向上し,高速なトレーニング収束が容易となった。 競合ベンチマーク実験により,本手法はメモリの少ない最先端の精度を実現する。 特に,本手法は,DTUデータセットにおける0.289点の総合スコアを取得し,各学習手法のうち,タンクとテンプルの先進的データセットに挑戦する第一位となる。 トレーニングされたモデルとコードはhttps://github.com/M iZhenxing/GBi-Netでリリースされる。

Multi-view Stereo (MVS) with known camera parameters is essentially a 1D search problem within a valid depth range. Recent deep learning-based MVS methods typically densely sample depth hypotheses in the depth range, and then construct prohibitively memory-consuming 3D cost volumes for depth prediction. Although coarse-to-fine sampling strategies alleviate this overhead issue to a certain extent, the efficiency of MVS is still an open challenge. In this work, we propose a novel method for highly efficient MVS that remarkably decreases the memory footprint, meanwhile clearly advancing state-of-the-art depth prediction performance. We investigate what a search strategy can be reasonably optimal for MVS taking into account of both efficiency and effectiveness. We first formulate MVS as a binary search problem, and accordingly propose a generalized binary search network for MVS. Specifically, in each step, the depth range is split into 2 bins with extra 1 error tolerance bin on both sides. A classification is performed to identify which bin contains the true depth. We also design three mechanisms to respectively handle classification errors, deal with out-of-range samples and decrease the training memory. The new formulation makes our method only sample a very small number of depth hypotheses in each step, which is highly memory efficient, and also greatly facilitates quick training convergence. Experiments on competitive benchmarks show that our method achieves state-of-the-art accuracy with much less memory. Particularly, our method obtains an overall score of 0.289 on DTU dataset and tops the first place on challenging Tanks and Temples advanced dataset among all the learning-based methods. The trained models and code will be released at https://github.com/M iZhenxing/GBi-Net.
翻訳日:2021-12-07 16:38:31 公開日:2021-12-04
# TransCMD: RGB-D Salient Object Detection のための Transformer を備えたクロスモードデコーダ

TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D Salient Object Detection ( http://arxiv.org/abs/2112.02363v1 )

ライセンス: Link先を確認
Youwei Pang, Xiaoqi Zhao, Lihe Zhang, and Huchuan Lu(参考訳) 既存のRGB-Dの有向物体検出手法の多くは、畳み込み演算を利用し、複雑な層間融合構造を構築し、クロスモーダル情報の統合を実現する。 畳み込み操作の固有の局所接続は、畳み込みベースのメソッドのパフォーマンスを天井に制限する。 本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。 具体的には,Top-down transformer-based information propagation path (TIPP)を構築するために,複数のクロスモーダル統合ユニットをカスケードする。 TransCMDは、トランスフォーマー上に構築されたシーケンス・ツー・シーケンスのコンテキスト伝搬と更新プロセスとして、マルチスケールとマルチモーダルの機能統合を扱う。 さらに,入力トークン数の2次複雑性を考慮すると,適用可能な計算コストでパッチワイドトークン再埋め込み戦略(PTRE)を設計する。 7つのRGB-D SODベンチマークデータセットによる実験結果から、TIPPを搭載した場合、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。

Most of the existing RGB-D salient object detection methods utilize the convolution operation and construct complex interweave fusion structures to achieve cross-modal information integration. The inherent local connectivity of convolution operation constrains the performance of the convolution-based methods to a ceiling. In this work, we rethink this task from the perspective of global information alignment and transformation. Specifically, the proposed method (TransCMD) cascades several cross-modal integration units to construct a top-down transformer-based information propagation path (TIPP). TransCMD treats the multi-scale and multi-modal feature integration as a sequence-to-sequence context propagation and update process built on the transformer. Besides, considering the quadratic complexity w.r.t. the number of input tokens, we design a patch-wise token re-embedding strategy (PTRE) with acceptable computational cost. Experimental results on seven RGB-D SOD benchmark datasets demonstrate that a simple two-stream encoder-decoder framework can surpass the state-of-the-art purely CNN-based methods when it is equipped with the TIPP.
翻訳日:2021-12-07 16:38:04 公開日:2021-12-04
# 3位:FacebookのAI画像類似性問題に対するグローバルでローカルな二重検索ソリューション

3rd Place: A Global and Local Dual Retrieval Solution to Facebook AI Image Similarity Challenge ( http://arxiv.org/abs/2112.02373v1 )

ライセンス: Link先を確認
Xinlong Sun, Yangyang Qin, Xuyuan Xu, Guoping Gong, Yang Fang, Yexin Wang(参考訳) コンピュータビジョンの基本課題として,画像類似性検索は大規模データと画像コピー攻撃の課題に直面している。 本稿では,facebook aiが主催するisc(matching track of image similarity challenge)2021に対する3位ソリューションを提案する。 本稿では,グローバルな記述子とローカルな記述子を組み合わせたマルチブランチ検索手法を提案する。 具体的には,大量のデータ拡張,単一トランスフォーマーモデルによる自己教師付き学習,オーバーレイ検出前処理など,グローバルディスクリプタを最適化するための多くの戦略を試みる。 さらに,グローバル検索の欠点を補うために,局所検索のためのロバストSIFT機能とGPUファイスを導入する。 最後に、KNNマッチングアルゴリズムを用いて一致を判定し、スコアをマージする。 本手法のアブレーション実験を行い,大域的特徴と局所的特徴の相補的アドバンテージを明らかにする。

As a basic task of computer vision, image similarity retrieval is facing the challenge of large-scale data and image copy attacks. This paper presents our 3rd place solution to the matching track of Image Similarity Challenge (ISC) 2021 organized by Facebook AI. We propose a multi-branch retrieval method of combining global descriptors and local descriptors to cover all attack cases. Specifically, we attempt many strategies to optimize global descriptors, including abundant data augmentations, self-supervised learning with a single Transformer model, overlay detection preprocessing. Moreover, we introduce the robust SIFT feature and GPU Faiss for local retrieval which makes up for the shortcomings of the global retrieval. Finally, KNN-matching algorithm is used to judge the match and merge scores. We show some ablation experiments of our method, which reveals the complementary advantages of global and local features.
翻訳日:2021-12-07 16:37:45 公開日:2021-12-04
# LTT-GAN: GANの反転による乱流観測

LTT-GAN: Looking Through Turbulence by Inverting GANs ( http://arxiv.org/abs/2112.02379v1 )

ライセンス: Link先を確認
Kangfu Mei and Vishal M. Patel(参考訳) 長距離撮影の多くの応用において、キャプチャー画像に現れる人が大気の乱流によってしばしば劣化するシナリオに直面している。 しかし,このような劣化画像の復元は,劣化によって幾何学的に歪んでぼやけてしまうため困難である。 乱流効果を緩和するため,本稿では,よく訓練されたganでカプセル化された視覚前駆体を用いた最初の乱流緩和法を提案する。 視覚前兆に基づいて,空間的周期的文脈距離で復元された画像の同一性を保つことを学ぶ。 このような距離は、ネットワーク学習における同一性の違いを考慮して、復元された画像のリアリズムをGANから保持することができる。 さらに,アイデンティティ変更を伴わずに外観のばらつきを増大させることにより,アイデンティティ保存学習を容易にするために,階層的な擬似接続を提案する。 広汎な実験により, 回復した結果の視覚的品質と顔認証精度において, 先行技術よりも有意に優れていた。

In many applications of long-range imaging, we are faced with a scenario where a person appearing in the captured imagery is often degraded by atmospheric turbulence. However, restoring such degraded images for face verification is difficult since the degradation causes images to be geometrically distorted and blurry. To mitigate the turbulence effect, in this paper, we propose the first turbulence mitigation method that makes use of visual priors encapsulated by a well-trained GAN. Based on the visual priors, we propose to learn to preserve the identity of restored images on a spatial periodic contextual distance. Such a distance can keep the realism of restored images from the GAN while considering the identity difference at the network learning. In addition, hierarchical pseudo connections are proposed for facilitating the identity-preserving learning by introducing more appearance variance without identity changing. Extensive experiments show that our method significantly outperforms prior art in both the visual quality and face verification accuracy of restored results.
翻訳日:2021-12-07 16:37:31 公開日:2021-12-04
# Gated2Gated:Gated画像からの自己監督深度推定

Gated2Gated: Self-Supervised Depth Estimation from Gated Images ( http://arxiv.org/abs/2112.02416v1 )

ライセンス: Link先を確認
Amanpreet Walia, Stefanie Walz, Mario Bijelic, Fahim Mannan, Frank Julca-Aguilar, Michael Langer, Werner Ritter, Felix Heide(参考訳) ゲーテッドカメラは、霧や雪、雨の後方散乱に頑丈な高解像度の3D深度でLiDARセンサーをスキャンする代替手段として期待されている。 パルスLiDARセンサーのように、シーンをシーケンシャルにスキャンし、光子の時間を通して深度を直接記録する代わりに、ゲート画像は、メガピクセルの解像度でキャプチャされた少数のゲートスライスの相対強度をエンコードする。 既存の手法では、これらの測定値から高解像度の深さをデコードできることが示されているが、これらの手法では、ゲート付き深さデコーダを監督するためにlidarの同期とキャリブレーションが必要となる。 本研究では,このギャップを埋め,ゲート強度プロファイルと時間的一貫性をトレーニング信号として利用する完全自己教師付き深度推定法を提案する。 提案されたモデルは、ゲートされたビデオシーケンスからエンドツーエンドに訓練され、lidarやrgbのデータを必要としない。 我々はゲートスライスを入力とし、シーンアルベド、深さ、周囲光の推定をアンタングルし、循環的損失によって入力スライスを再構築する学習に使用する。 影や反射のある領域の深さを推定するために、与えられたフレームと隣接するゲートスライスの間の時間的一貫性に依存する。 提案手法は,モノクロRGBおよびステレオ画像に基づいて,既存の教師付きおよび自己教師付き深度推定法,およびゲート画像に基づく教師付き手法より優れていることを示す。

Gated cameras hold promise as an alternative to scanning LiDAR sensors with high-resolution 3D depth that is robust to back-scatter in fog, snow, and rain. Instead of sequentially scanning a scene and directly recording depth via the photon time-of-flight, as in pulsed LiDAR sensors, gated imagers encode depth in the relative intensity of a handful of gated slices, captured at megapixel resolution. Although existing methods have shown that it is possible to decode high-resolution depth from such measurements, these methods require synchronized and calibrated LiDAR to supervise the gated depth decoder -- prohibiting fast adoption across geographies, training on large unpaired datasets, and exploring alternative applications outside of automotive use cases. In this work, we fill this gap and propose an entirely self-supervised depth estimation method that uses gated intensity profiles and temporal consistency as a training signal. The proposed model is trained end-to-end from gated video sequences, does not require LiDAR or RGB data, and learns to estimate absolute depth values. We take gated slices as input and disentangle the estimation of the scene albedo, depth, and ambient light, which are then used to learn to reconstruct the input slices through a cyclic loss. We rely on temporal consistency between a given frame and neighboring gated slices to estimate depth in regions with shadows and reflections. We experimentally validate that the proposed approach outperforms existing supervised and self-supervised depth estimation methods based on monocular RGB and stereo images, as well as supervised methods based on gated images.
翻訳日:2021-12-07 16:37:14 公開日:2021-12-04
# マルチケロン在庫管理のための数学プログラミングに基づく強化学習

Math Programming based Reinforcement Learning for Multi-Echelon Inventory Management ( http://arxiv.org/abs/2112.02215v1 )

ライセンス: Link先を確認
Pavithra Harsha, Ashish Jagmohan, Jayant R. Kalagnanam, Brian Quanz, Divya Singhvi(参考訳) 強化学習は、ロボティクスやゲームなど、さまざまな分野でかなりのブレークスルーをもたらしています。 しかし、複雑な実世界の意思決定問題に対するrlの適用は、まだ限られている。 運用管理における多くの問題(例えば発明や収益管理)は、大きな行動空間と確率的システムダイナミクスによって特徴づけられる。 これらの特徴は、ステップアクションの問題を解決するために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。 これらの問題を解決するために,整数計画法とサンプル平均近似を用いたポリシー反復法であるPARL(Programmable Actor Reinforcement Learning)を開発した。 解析的に、与えられた批評家に対して、各反復における学習されたポリシーは、不確実性の基本的なサンプルが無限に進むにつれて、最適ポリシーに収束することを示す。 実際に,不確実性分布の適切に選択された離散化が,不確実性からのサンプルが極めて少ない場合でも,最適なアクターポリシーに近づきうることを示す。 次に,複雑なサプライチェーン構造を持つ実世界の在庫管理問題に適用し,PARLが現状のRLおよび在庫最適化手法より優れていることを示す。 異なるサプライチェーン環境において、parlはベースストックヒューリスティックを44.7%、最もパフォーマンスの高いrl法を平均で12.1%上回っている。

Reinforcement learning has lead to considerable break-throughs in diverse areas such as robotics, games and many others. But the application to RL in complex real-world decision making problems remains limited. Many problems in operations management (inventory and revenue management, for example) are characterized by large action spaces and stochastic system dynamics. These characteristics make the problem considerably harder to solve for existing RL methods that rely on enumeration techniques to solve per step action problems. To resolve these issues, we develop Programmable Actor Reinforcement Learning (PARL), a policy iteration method that uses techniques from integer programming and sample average approximation. Analytically, we show that the for a given critic, the learned policy in each iteration converges to the optimal policy as the underlying samples of the uncertainty go to infinity. Practically, we show that a properly selected discretization of the underlying uncertain distribution can yield near optimal actor policy even with very few samples from the underlying uncertainty. We then apply our algorithm to real-world inventory management problems with complex supply chain structures and show that PARL outperforms state-of-the-art RL and inventory optimization methods in these settings. We find that PARL outperforms commonly used base stock heuristic by 44.7% and the best performing RL method by up to 12.1% on average across different supply chain environments.
翻訳日:2021-12-07 15:40:40 公開日:2021-12-04
# 補助ユースケースに対する制御可能な応答生成

Controllable Response Generation for Assistive Use-cases ( http://arxiv.org/abs/2112.02246v1 )

ライセンス: Link先を確認
Shachi H Kumar, Hsuan Su, Ramesh Manuvinakurike, Saurav Sahay, Lama Nachman(参考訳) 会話エージェントは、単純なタスク対応の状況において、一般市民の不可欠な部分となっている。 しかし、これらのシステムは、例えばALSのような神経疾患を持つ人々や、言語、言語、社会コミュニケーション障害を持つ人々など、多様な少数民族に社会的な影響を与えていない。 言語モデル技術は、ユーザーが日々のコミュニケーションや社会的交流を行うのを助けるために大きな役割を果たす。 この集団を実現するために,ユーザによってクエスやキーワードを使って制御できるダイアログシステムを構築した。 我々は,応答生成の制御や通信の高速化に使用される対話応答コンテキストにおいて,関連する手がかりを提案できるモデルを構築した。 また、モデル出力を語彙的に制約するキーワード損失を導入する。 我々は,モデルが応答の質を劣化させることなく,キーワードを効果的にモデル応答に誘導できることを定性的かつ定量的に示す。 発達障害のある人に対するこのようなシステムの使用の文脈において,本研究は,手がかりやキーワードの予測と制御可能な対話システムの人間による評価を行い,制御のないモデルと比較して,モデルの性能が著しく向上することを示す。 本研究は、エンドツーエンドの応答生成モデルにおけるキーワード制御が強力であり、変性疾患を持つ利用者が日々のコミュニケーションを行うことができることを示す。

Conversational agents have become an integral part of the general population for simple task enabling situations. However, these systems are yet to have any social impact on the diverse and minority population, for example, helping people with neurological disorders, for example ALS, and people with speech, language and social communication disorders. Language model technology can play a huge role to help these users carry out daily communication and social interactions. To enable this population, we build a dialog system that can be controlled by users using cues or keywords. We build models that can suggest relevant cues in the dialog response context which is used to control response generation and can speed up communication. We also introduce a keyword loss to lexically constrain the model output. We show both qualitatively and quantitatively that our models can effectively induce the keyword into the model response without degrading the quality of response. In the context of usage of such systems for people with degenerative disorders, we present human evaluation of our cue or keyword predictor and the controllable dialog system and show that our models perform significantly better than models without control. Our study shows that keyword control on end to end response generation models is powerful and can enable and empower users with degenerative disorders to carry out their day to day communication.
翻訳日:2021-12-07 15:29:32 公開日:2021-12-04
# ロシアン・ジュパーディ! 質問応答システムのためのデータセット

A Russian Jeopardy! Data Set for Question-Answering Systems ( http://arxiv.org/abs/2112.02325v1 )

ライセンス: Link先を確認
Elena Mikhalkova(参考訳) 質問応答(QA)は、名前付きエンティティ認識、事実抽出、意味探索、その他の分野に関連する最も一般的なNLPタスクの1つである。 業界では、チャットボットや企業情報システムで広く評価されている。 クイズ番組『jeopardy! この記事では、Jeopardyについて説明する。 ロシアの公式クイズデータベースChgk(che geka)から収集したロシアのQAデータセットのように。 データセットには379,284のクイズのような質問が含まれている。 原題は「Own Game」。 言語学的特徴と関連するQAタスクを観察する。 我々は,このデータベースから収集したデータセットに基づいて,QAコンペティションの観点を結論付ける。

Question answering (QA) is one of the most common NLP tasks that relates to named entity recognition, fact extraction, semantic search and some other fields. In industry, it is much appreciated in chatbots and corporate information systems. It is also a challenging task that attracted the attention of a very general audience at the quiz show Jeopardy! In this article we describe a Jeopardy!-like Russian QA data set collected from the official Russian quiz database Chgk (che ge ka). The data set includes 379,284 quiz-like questions with 29,375 from the Russian analogue of Jeopardy! - "Own Game". We observe its linguistic features and the related QA-task. We conclude about perspectives of a QA competition based on the data set collected from this database.
翻訳日:2021-12-07 15:29:11 公開日:2021-12-04
# 効率的な圧力:信号交差点の効率向上

Efficient Pressure: Improving efficiency for signalized intersections ( http://arxiv.org/abs/2112.02336v1 )

ライセンス: Link先を確認
Qiang Wu, Liang Zhang, Jun Shen, Linyuan L\"u, Bo Du, Jianqing Wu(参考訳) 従来の手法では動的な交通条件に適応できなかったため、信号制御(TSC)問題を解決するために強化学習(RL)が注目されている。 しかし、既存のRLベースの手法は、コンピューティングリソースの面でコスト効率が良くなく、従来のアプローチよりも堅牢でないことを考えると、ほとんどデプロイされない。 To address this question, in this paper, we (1) innovatively specify the traffic movement representation as a simple but efficient pressure of vehicle queues in a traffic network, namely efficient pressure (EP); (2) build a traffic signal settings protocol, including phase duration, signal phase number and EP for TSC; (3) design a TSC approach based on the traditional max pressure (MP) approach, namely efficient max pressure (Efficient-MP) using the EP to capture the traffic state; and (4) develop a general RL-based TSC algorithm template: efficient Xlight (Efficient-XLight) under EP. tscのためのトラヒック信号設定プロトコルにおける複数の実世界のデータセットに関する包括的な実験を通じて、より優れたtscメソッドを設計するために、従来のrlベースのモデリングを補完する効率のよいプレッシャーを実証する。 私たちのコードはgithubでリリースされています。

Since conventional approaches could not adapt to dynamic traffic conditions, reinforcement learning (RL) has attracted more attention to help solve the traffic signal control (TSC) problem. However, existing RL-based methods are rarely deployed considering that they are neither cost-effective in terms of computing resources nor more robust than traditional approaches, which raises a critical research question: how to construct an adaptive controller for TSC with less training and reduced complexity based on RL-based approach? To address this question, in this paper, we (1) innovatively specify the traffic movement representation as a simple but efficient pressure of vehicle queues in a traffic network, namely efficient pressure (EP); (2) build a traffic signal settings protocol, including phase duration, signal phase number and EP for TSC; (3) design a TSC approach based on the traditional max pressure (MP) approach, namely efficient max pressure (Efficient-MP) using the EP to capture the traffic state; and (4) develop a general RL-based TSC algorithm template: efficient Xlight (Efficient-XLight) under EP. Through comprehensive experiments on multiple real-world datasets in our traffic signal settings' protocol for TSC, we demonstrate that efficient pressure is complementary to traditional and RL-based modeling to design better TSC methods. Our code is released on Github.
翻訳日:2021-12-07 15:09:03 公開日:2021-12-04
# 道路交通速度予測のための長期記憶における動的時空間の理解

Understanding Dynamic Spatio-Temporal Contexts in Long Short-Term Memory for Road Traffic Speed Prediction ( http://arxiv.org/abs/2112.02409v1 )

ライセンス: Link先を確認
Won Kyung Lee, Deuk Sin Kwon, So Young Sohn(参考訳) インテリジェント交通システム構築には信頼性の高い交通流予測が不可欠である。 多くのビッグデータに基づく予測手法が開発されているが、時間と位置を考慮した道路間の複雑な動的相互作用を反映していない。 本研究では,道路間の空間的および時間的依存を考慮した動的局所長短期記憶(LSTM)モデルを提案する。 そのため、局所化された動的空間重み行列とその動的変動を用いる。 さらに、LSTMモデルは、長い依存性を持つシーケンシャルデータと複雑な非線形機能を扱うことができる。 実験の結果,提案モデルの予測性能は2つの異なるベースライン法と比較して良好であった。

Reliable traffic flow prediction is crucial to creating intelligent transportation systems. Many big-data-based prediction approaches have been developed but they do not reflect complicated dynamic interactions between roads considering time and location. In this study, we propose a dynamically localised long short-term memory (LSTM) model that involves both spatial and temporal dependence between roads. To do so, we use a localised dynamic spatial weight matrix along with its dynamic variation. Moreover, the LSTM model can deal with sequential data with long dependency as well as complex non-linear features. Empirical results indicated superior prediction performances of the proposed model compared to two different baseline methods.
翻訳日:2021-12-07 15:08:43 公開日:2021-12-04
# 逆ロバスト仮説検定のための一般比検定法

Generalized Likelihood Ratio Test for Adversarially Robust Hypothesis Testing ( http://arxiv.org/abs/2112.02209v1 )

ライセンス: Link先を確認
Bhagyashree Puranik, Upamanyu Madhow, Ramtin Pedarsani(参考訳) 機械学習モデルは、小さいがよく設計された摂動を導入することで誤分類を引き起こす、逆境攻撃の影響を受けやすいことが知られている。 本稿では,このような逆摂動に対する防御に関する基礎的洞察を育むために,古典的仮説検証問題を考える。 敵意摂動をニュアサンスパラメータとして解釈し、その結果の複合仮説検定問題に一般化度比テスト(glrt)を適用することに基づく防御を提案し、興味のクラスと敵意摂動を共同で推定する。 GLRT法は一般のマルチクラス仮説テストに適用できるが,まず,最低ケース攻撃を最適化した既知のミニマックスディフェンスがベンチマークを提供する,標準有界逆摂動の下での白色ガウス雑音下での2値仮説テストについて評価する。 我々は,GLRT防衛における最悪の攻撃を導出し,その漸近的性能(データの次元が大きくなるにつれて)がミニマックス防御に近づくことを示す。 非漸近的な体制では、GLRT防衛は最悪の場合の攻撃下でのミニマックスアプローチと競合し、弱い攻撃下ではより堅牢で正確なトレードオフをもたらすことをシミュレーションを通して示している。 また,高snr環境において最適なノイズ認識攻撃を探索する手法と,高レベルsnr環境において最適なノイズ非依存攻撃を探索するヒューリスティクスを提供することにより,その性能を評価することにより,ミニマックス戦略が知られていないマルチクラス仮説テスト問題に対するglrtアプローチを示す。

Machine learning models are known to be susceptible to adversarial attacks which can cause misclassification by introducing small but well designed perturbations. In this paper, we consider a classical hypothesis testing problem in order to develop fundamental insight into defending against such adversarial perturbations. We interpret an adversarial perturbation as a nuisance parameter, and propose a defense based on applying the generalized likelihood ratio test (GLRT) to the resulting composite hypothesis testing problem, jointly estimating the class of interest and the adversarial perturbation. While the GLRT approach is applicable to general multi-class hypothesis testing, we first evaluate it for binary hypothesis testing in white Gaussian noise under $\ell_{\infty}$ norm-bounded adversarial perturbations, for which a known minimax defense optimizing for the worst-case attack provides a benchmark. We derive the worst-case attack for the GLRT defense, and show that its asymptotic performance (as the dimension of the data increases) approaches that of the minimax defense. For non-asymptotic regimes, we show via simulations that the GLRT defense is competitive with the minimax approach under the worst-case attack, while yielding a better robustness-accuracy tradeoff under weaker attacks. We also illustrate the GLRT approach for a multi-class hypothesis testing problem, for which a minimax strategy is not known, evaluating its performance under both noise-agnostic and noise-aware adversarial settings, by providing a method to find optimal noise-aware attacks, and heuristics to find noise-agnostic attacks that are close to optimal in the high SNR regime.
翻訳日:2021-12-07 15:04:33 公開日:2021-12-04
# エッジ検出のための高密度極端インセプションネットワーク

Dense Extreme Inception Network for Edge Detection ( http://arxiv.org/abs/2112.02250v1 )

ライセンス: Link先を確認
Xavier Soria Poma, Angel Sappa, Patricio Humanante, Arash Arbarinia(参考訳) エッジ検出は、多くのコンピュータビジョンアプリケーションの基礎である。 State of the Artは主にディープラーニングに依存しており、コンテンツデータセットとネットワークアーキテクチャの2つの決定的な要素がある。 公開されているデータセットのほとんどは、エッジ検出タスクのためにキュレーションされていない。 ここでは、この制約に対する解決策を提供する。 まず、エッジ、輪郭、バウンダリは、重複しているにもかかわらず、別々のベンチマークデータセットを必要とする3つの視覚的特徴であると主張する。 この目的のために,新たなエッジデータセットを提案する。 第2に,事前学習された重みを伴わずにスクラッチからトレーニング可能な,エッジ検出のための高密度極端インセプションネットワーク(dexined)と呼ばれる新しいアーキテクチャを提案する。 DexiNedは、提示されたデータセットで他のアルゴリズムより優れている。 また、微調整なしで他のデータセットにうまく一般化する。 DexiNedのより高い品質は、出力するよりシャープで細いエッジのおかげで、知覚的に明らかである。

Edge detection is the basis of many computer vision applications. State of the art predominantly relies on deep learning with two decisive factors: dataset content and network's architecture. Most of the publicly available datasets are not curated for edge detection tasks. Here, we offer a solution to this constraint. First, we argue that edges, contours and boundaries, despite their overlaps, are three distinct visual features requiring separate benchmark datasets. To this end, we present a new dataset of edges. Second, we propose a novel architecture, termed Dense Extreme Inception Network for Edge Detection (DexiNed), that can be trained from scratch without any pre-trained weights. DexiNed outperforms other algorithms in the presented dataset. It also generalizes well to other datasets without any fine-tuning. The higher quality of DexiNed is also perceptually evident thanks to the sharper and finer edges it outputs.
翻訳日:2021-12-07 15:02:01 公開日:2021-12-04
# Label Hierarchy transition: クラス階層のモデル化と深層分類器の強化

Label Hierarchy Transition: Modeling Class Hierarchies to Enhance Deep Classifiers ( http://arxiv.org/abs/2112.02353v1 )

ライセンス: Link先を確認
Renzhen Wang, De cai, Kaiwen Xiao, Xixi Jia, Xiao Han, Deyu Meng(参考訳) 階層分類は、オブジェクトをカテゴリの階層に分類することを目的としている。 例えば、鳥は秩序、家族、種の3段階の階層によって分類することができる。 既存の手法では、階層分類を複数の階層分類タスクに分割して扱うのが一般的である。 しかし、このようなマルチタスク学習戦略は、階層の異なる様々なカテゴリ間の相関を十分に活用できない。 本稿では,ディープラーニングに基づく統一確率的フレームワークであるラベル階層遷移を提案し,階層的分類に対処する。 具体的には、列ベクトルが隣接する2つの階層間のクラスの条件付きラベル分布を表すラベル階層遷移行列を明示的に学習し、クラス階層に埋め込まれた相関を符号化することができる。 さらに,分類ネットワークが学習中に異なるラベル階層間の相関を学習することを奨励する混乱損失を提案する。 提案するフレームワークは、小さな変更だけで既存のディープネットワークに適応できる。 我々は,様々な階層構造を持つ3つの公開ベンチマークデータセットを用いて実験を行い,先行技術以上のアプローチの優位性を示す。 ソースコードは公開される予定だ。

Hierarchical classification aims to sort the object into a hierarchy of categories. For example, a bird can be categorized according to a three-level hierarchy of order, family, and species. Existing methods commonly address hierarchical classification by decoupling it into several multi-class classification tasks. However, such a multi-task learning strategy fails to fully exploit the correlation among various categories across different hierarchies. In this paper, we propose Label Hierarchy Transition, a unified probabilistic framework based on deep learning, to address hierarchical classification. Specifically, we explicitly learn the label hierarchy transition matrices, whose column vectors represent the conditional label distributions of classes between two adjacent hierarchies and could be capable of encoding the correlation embedded in class hierarchies. We further propose a confusion loss, which encourages the classification network to learn the correlation across different label hierarchies during training. The proposed framework can be adapted to any existing deep network with only minor modifications. We experiment with three public benchmark datasets with various class hierarchies, and the results demonstrate the superiority of our approach beyond the prior arts. Source code will be made publicly available.
翻訳日:2021-12-07 15:01:48 公開日:2021-12-04
# PointCLIP: CLIPによるポイントクラウド理解

PointCLIP: Point Cloud Understanding by CLIP ( http://arxiv.org/abs/2112.02413v1 )

ライセンス: Link先を確認
Renrui Zhang, Ziyu Guo, Wei Zhang, Kunchang Li, Xupeng Miao, Bin Cui, Yu Qiao, Peng Gao, Hongsheng Li(参考訳) 近年,コントラストヴィジョン言語事前学習(clip)によるゼロショットとマイショット学習は,オープンボキャブラリー設定で画像と対応するテキストとのマッチングを学習する2次元視覚認識において,着想的なパフォーマンスを示している。 しかし,2次元の大規模画像テキストペアによって事前訓練されたCLIPが,3次元認識に一般化できるかどうかについては,まだ検討されていない。 本稿では,CLIP符号化点雲と3Dカテゴリテキストのアライメントを行うPointCLIPを提案することにより,そのような設定が実現可能であることを示す。 具体的には、レンダリングせずに多視点深度マップに投影してポイントクラウドを符号化し、2Dから3Dへの知識伝達を実現するために、ビューワイズゼロショット予測を集約する。 さらに,3Dから学んだ少数の知識を2Dで事前学習したCLIPに適応的に融合させる,ビュー間アダプタを設計する。 数ショット設定で軽量アダプタを微調整するだけで、PointCLIPのパフォーマンスが大幅に向上する可能性がある。 さらに、PointCLIPと古典的な3D教師ネットワーク間の補完特性を観察する。 単純なアンサンブルにより、PointCLIPはベースラインのパフォーマンスを向上し、最先端モデルを超えます。 したがって、PointCLIPはリソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための有望な代替手段である。 我々は、広く採用されているModelNet10、ModelNet40、そしてPointCLIPの有効性を実証するために、ScanObjectNNの徹底的な実験を行う。 コードはhttps://github.com/z rrskywalker/pointcli pでリリースされる。

Recently, zero-shot and few-shot learning via Contrastive Vision-Language Pre-training (CLIP) have shown inspirational performance on 2D visual recognition, which learns to match images with their corresponding texts in open-vocabulary settings. However, it remains under explored that whether CLIP, pre-trained by large-scale image-text pairs in 2D, can be generalized to 3D recognition. In this paper, we identify such a setting is feasible by proposing PointCLIP, which conducts alignment between CLIP-encoded point cloud and 3D category texts. Specifically, we encode a point cloud by projecting it into multi-view depth maps without rendering, and aggregate the view-wise zero-shot prediction to achieve knowledge transfer from 2D to 3D. On top of that, we design an inter-view adapter to better extract the global feature and adaptively fuse the few-shot knowledge learned from 3D into CLIP pre-trained in 2D. By just fine-tuning the lightweight adapter in the few-shot settings, the performance of PointCLIP could be largely improved. In addition, we observe the complementary property between PointCLIP and classical 3D-supervised networks. By simple ensembling, PointCLIP boosts baseline's performance and even surpasses state-of-the-art models. Therefore, PointCLIP is a promising alternative for effective 3D point cloud understanding via CLIP under low resource cost and data regime. We conduct thorough experiments on widely-adopted ModelNet10, ModelNet40 and the challenging ScanObjectNN to demonstrate the effectiveness of PointCLIP. The code is released at https://github.com/Z rrSkywalker/PointCLI P.
翻訳日:2021-12-07 14:58:13 公開日:2021-12-04
# NeurSF:イメージ調和のためのニューラルシェーディングフィールド

NeurSF: Neural Shading Field for Image Harmonization ( http://arxiv.org/abs/2112.01314v2 )

ライセンス: Link先を確認
Zhongyun Hu, Ntumba Elie Nsampi, Xue Wang and Qing Wang(参考訳) 画像調和は、背景との互換性を高めるために前景の外観を調整することを目的としている。 背景照明方向の理解が不十分なため、既存の作品では現実的な前景の陰影を生成できない。 本稿では,画像の調和を2つの部分問題に分解する。 1)背景画像と照明推定 2)フォアグラウンドオブジェクトのレンダリング。 これら2つのサブ問題を解く前に,まず,方向認識型照明ディスクリプタをニューラルネットワークフレームワークで学習し,そのキーはシェーディングフィールドを深度情報を得た複数のシェーディングコンポーネントに分解するシェーディングモジュールである。 そして,背景からの方向対応照明記述子を抽出する背景照明推定モジュールを設計する。 最後に、この照明ディスクリプタをニューラルネットワークレンダリングフレームワークと併用して、新しい調和したシェーディングを含む調和した前景画像を生成する。 さらに,画像ベース照明による多数のシェーディング変動を含むフォトリアリスティック合成画像調和データセットを構築した。 本データセットの大規模な実験により,提案手法の有効性が示された。 私たちのデータセットとコードは公開される予定だ。

Image harmonization aims at adjusting the appearance of the foreground to make it more compatible with the background. Due to a lack of understanding of the background illumination direction, existing works are incapable of generating a realistic foreground shading. In this paper, we decompose the image harmonization into two sub-problems: 1) illumination estimation of background images and 2) rendering of foreground objects. Before solving these two sub-problems, we first learn a direction-aware illumination descriptor via a neural rendering framework, of which the key is a Shading Module that decomposes the shading field into multiple shading components given depth information. Then we design a Background Illumination Estimation Module to extract the direction-aware illumination descriptor from the background. Finally, the illumination descriptor is used in conjunction with the neural rendering framework to generate the harmonized foreground image containing a novel harmonized shading. Moreover, we construct a photo-realistic synthetic image harmonization dataset that contains numerous shading variations by image-based lighting. Extensive experiments on this dataset demonstrate the effectiveness of the proposed method. Our dataset and code will be made publicly available.
翻訳日:2021-12-07 12:06:12 公開日:2021-12-04