このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211125となっている論文です。

PDF登録状況(公開日: 20211125)

TitleAuthorsAbstract論文公表日・翻訳日
# 建築制御における強化学習の課題

Real-world challenges for reinforcement learning in building control ( http://arxiv.org/abs/2112.06127v1 )

ライセンス: Link先を確認
Zoltan Nagy and Kingsley Nweye(参考訳) 建築制御研究のための環境標準化の必要性を強調し,近年導入された実生活強化学習制御のベンチマークから着想を得た先行研究に基づいて,強化学習構築制御のための9つの実世界課題を提案する。 我々は、このフレームワークで制御研究を構築することに加えて、再現性のための標準化された環境を提供することを論じる。 モデル予測制御や強化学習制御のような高度なコントローラは、現実世界の建物に実装できない利点とデメリットの両方を持っている。 両者の比較はめったになく、しばしば偏りがある。 ベンチマーク問題や課題に焦点をあてることで,様々な状況下でのコントローラの性能を調査し,公正な比較を行うことができる。 最後に、我々は、現実世界の課題に対処し、高度なビルディングコントローラの可能性を解き放つために、研究コミュニティのより学際的な取り組みを求めます。

Building upon prior research that highlighted the need for standardizing environments for building control research, and inspired by recently introduced benchmarks for real life reinforcement learning control, here we propose a non-exhaustive nine real world challenges for reinforcement learning building controller. We argue that building control research should be expressed in this framework in addition to providing a standardized environment for repeatability. Advanced controllers such as model predictive control and reinforcement learning control have both advantages and disadvantages that prevent them from being implemented in real world buildings. Comparisons between the two are seldom, and often biased. By focusing on the benchmark problems and challenges, we can investigate the performance of the controllers under a variety of situations and generate a fair comparison. Lastly, we call for a more interdisciplinary effort of the research community to address the real world challenges, and unlock the potentials of advanced building controllers.
翻訳日:2021-12-19 12:56:25 公開日:2021-11-25
# マルチスレッショルドを用いた超低レイテンシスパイクニューラルネットワークのバックプロパゲーションによる直接トレーニング

Direct Training via Backpropagation for Ultra-low Latency Spiking Neural Networks with Multi-threshold ( http://arxiv.org/abs/2112.07426v1 )

ライセンス: Link先を確認
Changqing Xu, Yi Liu, and Yintang Yang(参考訳) スパイキングニューラルネットワーク(SNN)は時空間情報を利用することができ、ディープニューラルネットワーク(DNN)の優れた代替品であるエネルギー効率の性質を持つ。 イベント駆動の情報処理により、SNNはDNNの高価な計算を削減し、多くのエネルギー消費を節約できる。 しかし、高いトレーニングと推論レイテンシは、より深いSNNの開発の限界である。 SNNは通常、トレーニングと推論プロセス中に数十ないし数百のタイムステップを必要とし、遅延の増加だけでなく、エネルギー消費の無駄も生じる。 そこで我々は,超低レイテンシ(1-2時間ステップ)SNNにおけるバックプロパゲーション(BP)に基づく新しいトレーニング手法を提案する。 各スパイクの情報容量を増やすために,マルチスレッドのLeaky Integrate and Fired(LIF)モデルを導入する。 提案手法では, BPに基づくSNNの直接訓練に困難をもたらす非微分不可能な問題を解くために, スパイク活動の3つの近似導関数を提案した。 実験の結果, 提案手法は, mnist, fashionmnist, cifar10において, 平均99.56%, 93.08%, 87.90%の精度をそれぞれ2つの時間ステップで達成できることがわかった。 CIFAR10データセットに対して,提案手法は従来報告した直接訓練SNNよりも1.12%の精度向上を実現した。

Spiking neural networks (SNNs) can utilize spatio-temporal information and have a nature of energy efficiency which is a good alternative to deep neural networks(DNNs). The event-driven information processing makes SNNs can reduce the expensive computation of DNNs and save a lot of energy consumption. However, high training and inference latency is a limitation of the development of deeper SNNs. SNNs usually need tens or even hundreds of time steps during the training and inference process which causes not only the increase of latency but also the waste of energy consumption. To overcome this problem, we proposed a novel training method based on backpropagation (BP) for ultra-low latency(1-2 time steps) SNN with multi-threshold. In order to increase the information capacity of each spike, we introduce the multi-threshold Leaky Integrate and Fired (LIF) model. In our proposed training method, we proposed three approximated derivative for spike activity to solve the problem of the non-differentiable issue which cause difficulties for direct training SNNs based on BP. The experimental results show that our proposed method achieves an average accuracy of 99.56%, 93.08%, and 87.90% on MNIST, FashionMNIST, and CIFAR10, respectively with only 2 time steps. For the CIFAR10 dataset, our proposed method achieve 1.12% accuracy improvement over the previously reported direct trained SNNs with fewer time steps.
翻訳日:2021-12-19 12:54:24 公開日:2021-11-25
# (参考訳) トランスフォーマーに基づく韓国事前訓練言語モデル:3年間の進歩に関する調査 [全文訳有]

Transformer-based Korean Pretrained Language Models: A Survey on Three Years of Progress ( http://arxiv.org/abs/2112.03014v1 )

ライセンス: CC BY-SA 4.0
Kichang Yang(参考訳) 2017年に翻訳モデルで使用されたトランスフォーマーが登場し、注意に基づくアーキテクチャが注目を集め始めた。 さらに、トランスフォーマーの一部であるNLU固有のエンコーダ部を強化したBERTや、NLG固有のデコーダ部を強化したGPTアーキテクチャが出現すると、事前訓練された言語モデルを学ぶための様々な方法論、データ、モデルが出現し始めた。 さらに、過去3年間で、朝鮮語に特化した様々な事前訓練言語モデルが登場した。 本稿では,韓国の様々なPLMを一般向けに公開し,数値的,質的に比較・分析する。

With the advent of Transformer, which was used in translation models in 2017, attention-based architectures began to attract attention. Furthermore, after the emergence of BERT, which strengthened the NLU-specific encoder part, which is a part of the Transformer, and the GPT architecture, which strengthened the NLG-specific decoder part, various methodologies, data, and models for learning the Pretrained Language Model began to appear. Furthermore, in the past three years, various Pretrained Language Models specialized for Korean have appeared. In this paper, we intend to numerically and qualitatively compare and analyze various Korean PLMs released to the public.
翻訳日:2021-12-12 17:50:24 公開日:2021-11-25
# 関係抽出のための領域固有の事前学習BERTモデルを強化するか?

Does constituency analysis enhance domain-specific pre-trained BERT models for relation extraction? ( http://arxiv.org/abs/2112.02955v1 )

ライセンス: Link先を確認
Anfu Tang (LISN), Louise Del\'eger, Robert Bossy, Pierre Zweigenbaum (LISN), Claire N\'edellec(参考訳) 近年,関係抽出に関する研究が盛んに行われている。 BioCreative VIIのドラッグプロットトラックは、化学物質と遺伝子間の相互作用を研究する関係抽出システムの開発と評価を目的として、手動で注釈付けされたコーパスを提供する。 本稿では,提案提案に使用したアンサンブルシステムについて述べる。このシステムでは,細調整されたbioBERT,sciBERT,cons t-bioBERTモデルを多数決で予測する。 BERTとの相関抽出における構文情報の寄与を特に検証した。 bertに構成的構文情報を加えることで精度は向上したが,列車ではほとんど見られなかった関係が,構文情報が混入したbertモデルによって予測される可能性が低かったため,リコールは減少した。 私たちのコードはオンラインで入手できます [https://github.com/M aple177/drugprot-rel ation-extraction]。

Recently many studies have been conducted on the topic of relation extraction. The DrugProt track at BioCreative VII provides a manually-annotated corpus for the purpose of the development and evaluation of relation extraction systems, in which interactions between chemicals and genes are studied. We describe the ensemble system that we used for our submission, which combines predictions of fine-tuned bioBERT, sciBERT and const-bioBERT models by majority voting. We specifically tested the contribution of syntactic information to relation extraction with BERT. We observed that adding constituentbased syntactic information to BERT improved precision, but decreased recall, since relations rarely seen in the train set were less likely to be predicted by BERT models in which the syntactic information is infused. Our code is available online [https://github.com/M aple177/drugprot-rel ation-extraction].
翻訳日:2021-12-12 15:19:29 公開日:2021-11-25
# 微生物学における関係抽出のためのグローバルアライメント

Global alignment for relation extraction in Microbiology ( http://arxiv.org/abs/2112.02097v1 )

ライセンス: Link先を確認
Anfu Tang (LISN), Claire N\'edellec, Pierre Zweigenbaum (LISN), Louise Del\'eger, Robert Bossy(参考訳) グローバルアライメントと構文情報に基づいてテキストから関係を抽出する手法について検討した。 SVMと組み合わせることで、この手法は2つのREタスクにおけるLSTMに匹敵する、あるいはそれ以上の性能を持つことを示す。

We investigate a method to extract relations from texts based on global alignment and syntactic information. Combined with SVM, this method is shown to have a performance comparable or even better than LSTM on two RE tasks.
翻訳日:2021-12-12 15:17:57 公開日:2021-11-25
# (参考訳) 画像スタイル転送とコンテンツスタイルの絡み合い [全文訳有]

Image Style Transfer and Content-Style Disentanglement ( http://arxiv.org/abs/2111.15624v1 )

ライセンス: CC BY-SA 4.0
Sailun Xu, Jiazhi Zhang, Jiamei Liu(参考訳) 画像の絡み合ったコンテンツスタイルの表現を学習する方法を提案し、任意のスタイルにイメージを外挿したり、任意のスタイル間で補間したりできる。 教師付き設定でデータセットを増設し、三重項損失を与えることにより、コンテンツとスタイル表現によって符号化された情報の分離を確保する。 また,その表現によって画像が忠実に再構成できることを保証するために,サイクルコンシスタンスロスを利用する。

We propose a way of learning disentangled content-style representation of image, allowing us to extrapolate images to any style as well as interpolate between any pair of styles. By augmenting data set in a supervised setting and imposing triplet loss, we ensure the separation of information encoded by content and style representation. We also make use of cycle-consistency loss to guarantee that images could be reconstructed faithfully by their representation.
翻訳日:2021-12-06 01:34:12 公開日:2021-11-25
# aiシステムに対する有意義な人間制御 - 話すことを超えて

Meaningful human control over AI systems: beyond talking the talk ( http://arxiv.org/abs/2112.01298v1 )

ライセンス: Link先を確認
Luciano Cavalcante Siebert, Maria Luce Lupetti, Evgeni Aizenberg, Niek Beckers, Arkady Zgonnikov, Herman Veluwenkamp, David Abbink, Elisa Giaccardi, Geert-Jan Houben, Catholijn M. Jonker, Jeroen van den Hoven, Deborah Forster, Reginald L. Lagendijk(参考訳) 人間の責任の適切な帰属を可能にする条件(例えば、ユーザ、デザイナー、開発者、製造業者、立法者)を確立することによって、責任ギャップに対処し、それらを軽減するために有意義な人間制御の概念が提案されている。 しかしながら、有意義な人的制御に関する議論は、研究者、デザイナー、エンジニアの明確な要求を導いていない。 その結果、設計されたAIシステムが有意義な人間の制御下にあるかどうかを評価する方法に合意が得られず、有意義な人間の制御下にあるAIベースのシステムの実践的な開発が困難になる。 本稿では,AIに基づくシステムが有意義な人的制御を受ける必要がある4つの行動可能な特性を同定することにより,哲学理論と工学的実践のギャップを解消する。 第一に、人間とAIアルゴリズムが相互作用するシステムは、システムが動作すべき道徳的に負荷のかかる状況の明確に定義されたドメインを持つべきである。 第2に、システム内の人間とAIエージェントは、適切かつ相互に互換性のある表現を持つべきである。 第三に、人間に帰属する責任は、その人のシステムを支配する能力と権限に相応すべきである。 第4に、AIエージェントの行動と、その道徳的責任を認識している人間の行動との間には明確なつながりがあるべきである。 これらの4つの特性は、有意義な人間制御下でのAIシステムに必要なものであり、それらを実践に組み込むための可能な方向を提供する。 これらの特性を、自動車両とAIベースの雇用という2つのユースケースで説明します。 これらの4つの特性は、有意義な人間のコントロールと責任を促進するAIシステムの設計とエンジニアリングに向けて具体的なステップを踏み出すために、実践的な専門家を支援するだろう。

The concept of meaningful human control has been proposed to address responsibility gaps and mitigate them by establishing conditions that enable a proper attribution of responsibility for humans (e.g., users, designers and developers, manufacturers, legislators). However, the relevant discussions around meaningful human control have so far not resulted in clear requirements for researchers, designers, and engineers. As a result, there is no consensus on how to assess whether a designed AI system is under meaningful human control, making the practical development of AI-based systems that remain under meaningful human control challenging. In this paper, we address the gap between philosophical theory and engineering practice by identifying four actionable properties which AI-based systems must have to be under meaningful human control. First, a system in which humans and AI algorithms interact should have an explicitly defined domain of morally loaded situations within which the system ought to operate. Second, humans and AI agents within the system should have appropriate and mutually compatible representations. Third, responsibility attributed to a human should be commensurate with that human's ability and authority to control the system. Fourth, there should be explicit links between the actions of the AI agents and actions of humans who are aware of their moral responsibility. We argue these four properties are necessary for AI systems under meaningful human control, and provide possible directions to incorporate them into practice. We illustrate these properties with two use cases, automated vehicle and AI-based hiring. We believe these four properties will support practically-minded professionals to take concrete steps toward designing and engineering for AI systems that facilitate meaningful human control and responsibility.
翻訳日:2021-12-06 01:24:42 公開日:2021-11-25
# 強化学習を用いた動的ソーシャルネットワークにおけるコミュニティ検出へのモジュール性最適化

Towards Modularity Optimization Using Reinforcement Learning to Community Detection in Dynamic Social Networks ( http://arxiv.org/abs/2111.15623v1 )

ライセンス: Link先を確認
Aur\'elio Ribeiro Costa(参考訳) ソーシャルネットワークにおけるコミュニティ構造の同定は,ネットワーク分析の文献において重要な課題である。 静的なシナリオを使ってこの問題に多くの解決策が存在する。動的なシナリオに直面すると、いくつかのソリューションが適応するかもしれないが、他のソリューションは単純には適合しない。 そこで,本稿では,動的ネットワークにおけるコミュニティ検出問題に対するアプローチとして,変更したエンティティのモジュラリティスコアの局所最適化を用いた大規模ネットワークの変化に対応する強化学習戦略を提案する。 合成および実世界の動的ネットワークデータを用いた実験は、静的シナリオに匹敵する結果を示す。

The identification of community structure in a social network is an important problem tackled in the literature of network analysis. There are many solutions to this problem using a static scenario, when facing a dynamic scenario some solutions may be adapted but others simply do not fit, moreover when considering the demand to analyze constantly growing networks. In this context, we propose an approach to the problem of community detection in dynamic networks based on a reinforcement learning strategy to deal with changes on big networks using a local optimization on the modularity score of the changed entities. An experiment using synthetic and real-world dynamic network data shows results comparable to static scenarios.
翻訳日:2021-12-06 01:23:33 公開日:2021-11-25
# (参考訳) cnn分類器の潜在特徴の最適分布に基づくソフトマックスフリー損失関数 [全文訳有]

A Softmax-free Loss Function Based on Predefined Optimal-distribution of Latent Features for CNN Classifier ( http://arxiv.org/abs/2111.15449v1 )

ライセンス: CC BY 4.0
Qiuyu Zhu, Xuewen Zu(参考訳) パターン分類の分野では、畳み込みニューラルネットワーク分類器の訓練は主にエンドツーエンドの学習であり、損失関数はネットワークの最終出力(後続確率)の制約であるので、Softmaxの存在は不可欠である。 エンド・ツー・エンド・ラーニングの場合、学習を制限するために中間層の特徴に完全に依存する効果的な損失関数は存在しないため、サンプル潜在特徴の分布が最適ではないため、分類精度の改善の余地は依然として残っている。 本稿では,PEDCC (Predefined Evenly-Distributed Class Centroids) の概念に基づいて,潜在特徴の最適分布に基づくソフトマックスフリー損失関数 (POD Loss) を提案する。 損失関数は、サンプルの潜時特徴ベクトルと予め定義された等分散クラスの中心との間の余弦距離と、サンプルの潜時特徴との相関を含む、サンプルの潜時特徴のみを制限する。 最後に、コサイン距離を分類に使用する。 一般的に使用されているSoftmax Lossや、一般的なSoftmax関連AM-Softmax Loss、COT-Loss、PEDCC-Lossと比較すると、典型的なネットワーク上のいくつかの一般的なデータセットの実験は、POD Lossの分類性能が常により良く、収束しやすいことを示している。 コードはhttps://github.com/T ianYuZu/POD-Lossで入手できる。

In the field of pattern classification, the training of convolutional neural network classifiers is mostly end-to-end learning, and the loss function is the constraint on the final output (posterior probability) of the network, so the existence of Softmax is essential. In the case of end-to-end learning, there is usually no effective loss function that completely relies on the features of the middle layer to restrict learning, resulting in the distribution of sample latent features is not optimal, so there is still room for improvement in classification accuracy. Based on the concept of Predefined Evenly-Distributed Class Centroids (PEDCC), this article proposes a Softmax-free loss function (POD Loss) based on predefined optimal-distribution of latent features. The loss function only restricts the latent features of the samples, including the cosine distance between the latent feature vector of the sample and the center of the predefined evenly-distributed class, and the correlation between the latent features of the samples. Finally, cosine distance is used for classification. Compared with the commonly used Softmax Loss and the typical Softmax related AM-Softmax Loss, COT-Loss and PEDCC-Loss, experiments on several commonly used datasets on a typical network show that the classification performance of POD Loss is always better and easier to converge. Code is available in https://github.com/T ianYuZu/POD-Loss.
翻訳日:2021-12-06 01:19:14 公開日:2021-11-25
# 勾配反転攻撃:二者分割学習におけるプライベートラベルの漏洩

Gradient Inversion Attack: Leaking Private Labels in Two-Party Split Learning ( http://arxiv.org/abs/2112.01299v1 )

ライセンス: Link先を確認
Sanjay Kariyappa, Moinuddin K Qureshi(参考訳) スプリット・ラーニング(Split Learning)は、垂直的フェデレート・ラーニング(英語版)を実行するために使われる一般的なテクニックであり、その目標は、プライベート・インプットのモデルと、2つのパーティが保持するラベルデータを共同でトレーニングすることである。 入力とラベルデータのプライバシを保護するために、このテクニックは分割モデルを使用し、学習プロセス中に、入力の中間表現(ir)と2つの当事者間のirの勾配の交換のみを必要とする。 本稿では,学習中に得られる勾配情報を利用して,相手の入力所有者がラベル所有者のプライベートラベルを学習できるラベル漏洩攻撃であるgradient inversion attack(gia)を提案する。 GIAは、ラベル漏洩攻撃を教師付き学習問題として、データセットとモデルの特定のキー特性を用いた新しい損失関数を開発する。 我々の攻撃は、複数のマルチクラス画像分類問題に関するプライベートラベルデータと、ほぼ完全な精度(97.01% - 99.96%)のバイナリ変換予測タスクを明らかにすることができる。 さらに,GIA対策のための勾配雑音の評価を行った。 この手法は単純なデータセットに有効であるが、入力次元がより高くなるデータセットの実用性を著しく低下させる。 今回の調査結果は,垂直分割データに対するプライバシ保存トレーニング技術の向上の必要性を浮き彫りにしている。

Split learning is a popular technique used to perform vertical federated learning, where the goal is to jointly train a model on the private input and label data held by two parties. To preserve privacy of the input and label data, this technique uses a split model and only requires the exchange of intermediate representations (IR) of the inputs and gradients of the IR between the two parties during the learning process. In this paper, we propose Gradient Inversion Attack (GIA), a label leakage attack that allows an adversarial input owner to learn the label owner's private labels by exploiting the gradient information obtained during split learning. GIA frames the label leakage attack as a supervised learning problem by developing a novel loss function using certain key properties of the dataset and models. Our attack can uncover the private label data on several multi-class image classification problems and a binary conversion prediction task with near-perfect accuracy (97.01% - 99.96%), demonstrating that split learning provides negligible privacy benefits to the label owner. Furthermore, we evaluate the use of gradient noise to defend against GIA. While this technique is effective for simpler datasets, it significantly degrades utility for datasets with higher input dimensionality. Our findings underscore the need for better privacy-preserving training techniques for vertically split data.
翻訳日:2021-12-06 01:03:29 公開日:2021-11-25
# 長文要約への新しいアプローチ: 変圧器モデルにおけるフーリエ変換に基づく注意

New Approaches to Long Document Summarization: Fourier Transform Based Attention in a Transformer Model ( http://arxiv.org/abs/2111.15473v1 )

ライセンス: Link先を確認
Andrew Kiruluta, Andreas Lemos and Eric Lundy(参考訳) 本研究では,フーリエ変換 (fnet) を用いたトークン混合法を広範囲に再設計し, 長文要約タスク (> 512トークン) による完全トランスフォーマー実装において, 計算コストの高い自己照応機構を置き換えた。 ベースラインとして,8000以上のトークンを処理可能なLongformerやBig Bird Transformerモデルなどの確立した手法を用いて,長い文書要約を行った。 オリジナルのFNET論文では、これをエンコーダのみのアーキテクチャで実装し、抽象的な要約ではエンコーダとデコーダの両方を必要とする。 このような事前訓練されたトランスフォーマーモデルがパブリックドメインに存在しないため、コーパス内の個々の単語に対するGlove埋め込みから学習したエンコーダ/デコーダアーキテクチャにおいて、このフーリエトークン混合アプローチに基づいてフルトランスフォーマーを実装することにした。 我々は、元のFNETアーキテクチャの様々な拡張を調査し、それらを要約タスクでルージュF1スコアのパフォーマンスで評価した。 すべての変更は、トランスアーキテクチャで元のFNETエンコーダを使用する場合よりも、要約タスクのパフォーマンスが向上した。

In this work, we extensively redesign the newly introduced method of token mixing using Fourier Transforms (FNET) to replace the computationally expensive self-attention mechanism in a full transformer implementation on a long document summarization task (> 512 tokens). As a baseline, we also carried out long document summarization using established methods such as Longformer and Big Bird transformer models that are capable of processing over 8000 tokens and are currently the state of the art methods for these type of problems. The original FNET paper implemented this in an encoder only architecture while abstractive summarization requires both an encoder and a decoder. Since such a pretrained transformer model does not currently exist in the public domain, we decided to implement a full transformer based on this Fourier token mixing approach in an encoder/decoder architecture which we trained starting with Glove embeddings for the individual words in the corpus. We investigated a number of different extensions to the original FNET architecture and evaluated them on their Rouge F1-score performance on a summarization task. All modifications showed better performance on the summarization task than when using the original FNET encoder in a transformer architecture.
翻訳日:2021-12-06 00:45:17 公開日:2021-11-25
# DiPD:Twitterのディスラプティブイベント予測データセット

DiPD: Disruptive event Prediction Dataset from Twitter ( http://arxiv.org/abs/2111.15629v1 )

ライセンス: Link先を確認
Sanskar Soni, Dev Mehta, Vinush Vishwanath, Aditi Seetha and Satyendra Singh Chouhan(参考訳) 暴動や抗議は、もし制御不能になったら、ある国で大混乱を引き起こす可能性がある。 我々は、blm運動、気候ストライキ、caa運動など、多くの例を見てきたが、これは大きな混乱を引き起こした。 このデータセットを作成する動機は、機械学習システムを開発することで、ユーザが現在起きているトレンドイベントについて洞察し、国内の混乱につながる可能性のあるイベントについて警告することです。 何らかのイベントが制御不能になり始めると、事態がエスカレートする前に監視することで処理と緩和が可能である。 このデータセットは、過去のまたは進行中のイベントのツイートを収集し、これらのツイートを1.1にラベル付けする。 また、不都合と思われるツイートを収集し、それらを0としてラベル付けすることで、分類システムのトレーニングにも使用できる。 データセットには、94855のユニークなイベントの記録と168706のユニークな非イベントの記録が含まれている。 我々は、ツイートの影響と到達度を理解するために、ユーザのフォロワー数やユーザの位置情報など、ツイートから複数の特徴を抽出する。 このデータセットは、イベント分類やイベント認識など、さまざまなイベント関連機械学習問題に有用かもしれない。

Riots and protests, if gone out of control, can cause havoc in a country. We have seen examples of this, such as the BLM movement, climate strikes, CAA Movement, and many more, which caused disruption to a large extent. Our motive behind creating this dataset was to use it to develop machine learning systems that can give its users insight into the trending events going on and alert them about the events that could lead to disruption in the nation. If any event starts going out of control, it can be handled and mitigated by monitoring it before the matter escalates. This dataset collects tweets of past or ongoing events known to have caused disruption and labels these tweets as 1. We also collect tweets that are considered non-eventful and label them as 0 so that they can also be used to train a classification system. The dataset contains 94855 records of unique events and 168706 records of unique non-events, thus giving the total dataset 263561 records. We extract multiple features from the tweets, such as the user's follower count and the user's location, to understand the impact and reach of the tweets. This dataset might be useful in various event related machine learning problems such as event classification, event recognition, and so on.
翻訳日:2021-12-06 00:44:07 公開日:2021-11-25
# (参考訳) Amortized Prompt: ドメイン一般化におけるCLIPの軽量ファインチューニング [全文訳有]

Amortized Prompt: Lightweight Fine-Tuning for CLIP in Domain Generalization ( http://arxiv.org/abs/2111.12853v1 )

ライセンス: CC BY 4.0
Xin Zhang, Yusuke Iwasawa, Yutaka Matsuo, Shixiang Shane Gu(参考訳) ドメイン一般化 (Domain Generalization, DG) は、一般化可能なモデルを未知の領域に学習することを目的とした、難しい伝達学習問題である。 最近のCLIPやGPT-3のような大規模事前学習モデル、すなわち基礎モデル(FM)は、多くの分散シフトに対して堅牢であることが示されており、そのため、DGは大幅に改善される。 本研究では,画像分類においてCLIPをDG問題に適用するための汎用的な手法について検討し,ゼロショット学習とフルDG学習設定の評価を行った。 後者については、プロンプト生成という形でのドメイン推論の新しいアプローチとしてap(amortized prompt)を提案する。 PACS、VLCS、OfficeHome、TerraIncognitaといったドメイン一般化ベンチマークの標準データセットを使用して、CLIPはパラメータを微調整することなく同等のパフォーマンスを提供し、DGにおけるFMの適用性と重要性を示唆している。 さらに、ドメインプロンプト推論とCLIPを組み合わせることで、APは強いベースラインと単純CLIPベースラインを大きなマージンで上回り、71.3\%から79.3\%に精度を上げることができることを示す。 このアプローチの単純さと成功が、ドメイン一般化の分野における基礎モデルのより広範な採用と分析を促進することを願っている。

Domain generalization (DG) is a difficult transfer learning problem aiming to learn a generalizable model to unseen domains. Recent massive pre-trained models such as CLIP and GPT-3, i.e. foundation models (FMs), have been shown to be robust to many distribution shifts and therefore should lead to substantial improvements in DG. In this work, we study generic ways to adopt CLIP for DG problems in image classification, where we evaluate on naive zero-shot learning and full DG learning settings. For the latter, we propose AP (Amortized Prompt), as a novel approach for domain inference in the form of prompt generation. Using several standard datasets on domain generalization benchmark, namely PACS, VLCS, OfficeHome, and TerraIncognita, CLIP provides comparable performance without fine-tuning any parameters, suggesting the applicability and importance of FM in DG. In addition, we show that combining domain prompt inference with CLIP enables AP to outperform strong baselines and the naive CLIP baselines by a large margin, raising accuracy from 71.3\% to 79.3\%. We hope the simplicity and success of our approach emphasizes the importance of and leads to wider more adoption and analysis of foundation models in the field of domain generalization.
翻訳日:2021-12-05 02:56:21 公開日:2021-11-25
# (参考訳) グラフ表現学習のための多相安定性 [全文訳有]

Multi-fidelity Stability for Graph Representation Learning ( http://arxiv.org/abs/2111.12865v1 )

ライセンス: CC BY 4.0
Yihan He, Joan Bruna(参考訳) グラフ表現学習(GRL)を用いた構造化予測問題において、アルゴリズムによって返される仮説は、対象頂点の \emph{receptive field} における特徴の集合をそのラベルにマッピングする。 これらのアルゴリズムの学習可能性を理解するために、emph{multi-fidelity stability}と呼ばれる一様安定性の弱い形式を導入し、弱依存グラフの学習保証を与える。 我々は ~\citet{london2016stability} の GRL に対する単一サンプルの一般化に関する主張は、受容場がスパースであるときに成り立つことを証明している。 さらに, 2つの一般的なアルゴリズムについて, 凸および非凸環境下での確率的勾配降下の安定性について検討した。 この例では、アルゴリズムによって構築された受容体のスパース性に大きく依存する非漸近境界を提供する。 1-層線型同値 gnn 上の制約付き回帰問題 \textbf{(2)} 。 この例では、多重忠実性設計を正当化した2種類の安定性の差に対する下限を示す。

In the problem of structured prediction with graph representation learning (GRL for short), the hypothesis returned by the algorithm maps the set of features in the \emph{receptive field} of the targeted vertex to its label. To understand the learnability of those algorithms, we introduce a weaker form of uniform stability termed \emph{multi-fidelity stability} and give learning guarantees for weakly dependent graphs. We testify that ~\citet{london2016stability}'s claim on the generalization of a single sample holds for GRL when the receptive field is sparse. In addition, we study the stability induced bound for two popular algorithms: \textbf{(1)} Stochastic gradient descent under convex and non-convex landscape. In this example, we provide non-asymptotic bounds that highly depend on the sparsity of the receptive field constructed by the algorithm. \textbf{(2)} The constrained regression problem on a 1-layer linear equivariant GNN. In this example, we present lower bounds for the discrepancy between the two types of stability, which justified the multi-fidelity design.
翻訳日:2021-12-05 02:44:08 公開日:2021-11-25
# (参考訳) 未知物体検出のための不確実性認識提案セグメンテーション [全文訳有]

Uncertainty Aware Proposal Segmentation for Unknown Object Detection ( http://arxiv.org/abs/2111.12866v1 )

ライセンス: CC BY 4.0
Yimeng Li, Jana Kosecka(参考訳) 自動運転のような現実世界のアプリケーションでオブジェクト検出のためにディープニューラルネットワークをデプロイする最近の取り組みでは、トレーニング中に関連するすべてのオブジェクトクラスが観察されたと仮定している。 トレーニングセットにテストデータが表現されていない場合、これらのモデルのパフォーマンスを定量化することは、主に意味セグメンテーションのために訓練されたモデルのピクセルレベルの不確実性推定技術に焦点を当てている。 本稿では,意味的セグメンテーションモデルのさらなる予測を活用し,その信頼性を定量化し,続いて分布対象から未知の物体仮説を分類することを提案する。 我々は,領域提案ネットワーク (rpn) が生成するオブジェクトの提案を用いて,クラス非依存なオブジェクトマスク予測のためのラジアル基底関数ネットワーク (rbfn) を用いた意味セグメンテーションの距離認識の不確実性推定を行う。 拡張オブジェクトの提案は、未知のオブジェクトカテゴリと未知のオブジェクトカテゴリの分類器をトレーニングするために使用される。 実験の結果,提案手法は未知の物体検出のための art 手法の並列性能を実現し,物体検出者の偽陽性率の低減にも有効であることがわかった。 本手法は,意味セグメンテーションによって得られた非対象背景カテゴリの予測が信頼できるアプリケーションに適している。

Recent efforts in deploying Deep Neural Networks for object detection in real world applications, such as autonomous driving, assume that all relevant object classes have been observed during training. Quantifying the performance of these models in settings when the test data is not represented in the training set has mostly focused on pixel-level uncertainty estimation techniques of models trained for semantic segmentation. This paper proposes to exploit additional predictions of semantic segmentation models and quantifying its confidences, followed by classification of object hypotheses as known vs. unknown, out of distribution objects. We use object proposals generated by Region Proposal Network (RPN) and adapt distance aware uncertainty estimation of semantic segmentation using Radial Basis Functions Networks (RBFN) for class agnostic object mask prediction. The augmented object proposals are then used to train a classifier for known vs. unknown objects categories. Experimental results demonstrate that the proposed method achieves parallel performance to state of the art methods for unknown object detection and can also be used effectively for reducing object detectors' false positive rate. Our method is well suited for applications where prediction of non-object background categories obtained by semantic segmentation is reliable.
翻訳日:2021-12-05 01:56:12 公開日:2021-11-25
# (参考訳) 模倣学習のための現実に戻り [全文訳有]

Back to Reality for Imitation Learning ( http://arxiv.org/abs/2111.12867v1 )

ライセンス: CC BY 4.0
Edward Johns(参考訳) 模倣学習と一般のロボット学習は、ロボット工学のブレークスルーではなく、機械学習のブレークスルーによって生まれた。 そのため、ロボット学習の評価基準は機械学習に深く根ざしており、主にデータ効率に重点を置いている。 私たちは、現実世界のロボット学習のためのより良い測定基準は、時間効率であると信じています。 これは、現実のロボット工学の長期的な目標に合わせて、私たちの評価指標を開発するために、ロボット学習コミュニティに武器を要求するものだ。

Imitation learning, and robot learning in general, emerged due to breakthroughs in machine learning, rather than breakthroughs in robotics. As such, evaluation metrics for robot learning are deeply rooted in those for machine learning, and focus primarily on data efficiency. We believe that a better metric for real-world robot learning is time efficiency, which better models the true cost to humans. This is a call to arms to the robot learning community to develop our own evaluation metrics, tailored towards the long-term goals of real-world robotics.
翻訳日:2021-12-05 01:42:03 公開日:2021-11-25
# (参考訳) less is more: ランドマークからグラウンドドナビゲーション命令を生成する [全文訳有]

Less is More: Generating Grounded Navigation Instructions from Landmarks ( http://arxiv.org/abs/2111.12872v1 )

ライセンス: CC BY 4.0
Su Wang, Ceslee Montgomery, Jordi Orbay, Vighnesh Birodkar, Aleksandra Faust, Izzeddin Gur, Natasha Jaques, Austin Waters, Jason Baldridge, Peter Anderson(参考訳) 屋内経路で撮影した360度画像からナビゲーション指示の自動生成について検討した。 既存のジェネレータは視覚的な接地が悪く、言語に先立って依存し、オブジェクトを幻覚させる。 我々のMARKY-MT5システムは、視覚的ランドマークに焦点を当ててこの問題に対処し、第1ステージランドマーク検出器と第2ステージジェネレータ - マルチモーダル、マルチ言語、マルチタスクエンコーダ-デコーダ - を備える。 トレーニングのために、Room-across-Room(RxR )データセット上にランドマークアノテーションを根拠にしています。 テキストパーサ,rxrのポーズトレースからの弱い監督,1.8b画像で訓練された多言語画像テキストエンコーダを用いて,英語,ヒンディー語,テルグ語のランドマーク記述1.1mを同定し,パノラマの特定の領域に配置した。 Room-to-Roomでは、MARKY-MT5の指示に従って、人間のウェイファインダーが71%の成功率(SR)を得る。 RxRの長い様々な経路の評価では、3つの言語で61-64%のSRが得られる。 このような高品質なナビゲーション命令を新しい環境で生成することは、対話型ナビゲーションツールへの一歩であり、命令追従エージェントの大規模トレーニングを容易にする。

We study the automatic generation of navigation instructions from 360-degree images captured on indoor routes. Existing generators suffer from poor visual grounding, causing them to rely on language priors and hallucinate objects. Our MARKY-MT5 system addresses this by focusing on visual landmarks; it comprises a first stage landmark detector and a second stage generator -- a multimodal, multilingual, multitask encoder-decoder. To train it, we bootstrap grounded landmark annotations on top of the Room-across-Room (RxR) dataset. Using text parsers, weak supervision from RxR's pose traces, and a multilingual image-text encoder trained on 1.8b images, we identify 1.1m English, Hindi and Telugu landmark descriptions and ground them to specific regions in panoramas. On Room-to-Room, human wayfinders obtain success rates (SR) of 71% following MARKY-MT5's instructions, just shy of their 75% SR following human instructions -- and well above SRs with other generators. Evaluations on RxR's longer, diverse paths obtain 61-64% SRs on three languages. Generating such high-quality navigation instructions in novel environments is a step towards conversational navigation tools and could facilitate larger-scale training of instruction-followin g agents.
翻訳日:2021-12-05 01:12:40 公開日:2021-11-25
# (参考訳) 学習関数型マップ同期によるマルチウェイ非剛点クラウド登録 [全文訳有]

Multiway Non-rigid Point Cloud Registration via Learned Functional Map Synchronization ( http://arxiv.org/abs/2111.12878v1 )

ライセンス: CC BY 4.0
Jiahui Huang, Tolga Birdal, Zan Gojcic, Leonidas J. Guibas, Shi-Min Hu(参考訳) 我々は、点雲上に定義された学習関数に関する地図を同期させることにより、複数の非剛体形状を共同登録する新しい方法であるSyNoRiMを提案する。 非剛体形状を処理する能力は、コンピュータアニメーションから3Dデジタル化まで、様々な応用において重要であるが、本書には、隠蔽下で観察される本物のノイズの多いスキャンの集合をマッチングし整列する、堅牢で柔軟な枠組みが欠けている。 このような点雲の集合が与えられた場合、関数写像によってパラメータ化されたペアワイズ対応をまず計算する。 また, 咬合をエレガントに処理しながら, 変形を効果的に正則化するために, 潜在的に非直交基底関数を学習する。 推定された対向変形場が提供する多方向情報から最大に利益を得るため,本発明および原理最適化定式化により,対向汎関数写像をサイクル一貫性全体へ同期する。 提案手法は,非剛体ケースと多体ケースの両方を統一されたフレームワークで処理し,基本関数マップを用いてポイントワイドな置換よりもコストのかかる最適化を回避しながら,登録精度を向上し,柔軟性と効率性を両立できることを示す。

We present SyNoRiM, a novel way to jointly register multiple non-rigid shapes by synchronizing the maps relating learned functions defined on the point clouds. Even though the ability to process non-rigid shapes is critical in various applications ranging from computer animation to 3D digitization, the literature still lacks a robust and flexible framework to match and align a collection of real, noisy scans observed under occlusions. Given a set of such point clouds, our method first computes the pairwise correspondences parameterized via functional maps. We simultaneously learn potentially non-orthogonal basis functions to effectively regularize the deformations, while handling the occlusions in an elegant way. To maximally benefit from the multi-way information provided by the inferred pairwise deformation fields, we synchronize the pairwise functional maps into a cycle-consistent whole thanks to our novel and principled optimization formulation. We demonstrate via extensive experiments that our method achieves a state-of-the-art performance in registration accuracy, while being flexible and efficient as we handle both non-rigid and multi-body cases in a unified framework and avoid the costly optimization over point-wise permutations by the use of basis function maps.
翻訳日:2021-12-05 00:48:48 公開日:2021-11-25
# (参考訳) ImageNet Scaleにおけるアクティブラーニング [全文訳有]

Active Learning at the ImageNet Scale ( http://arxiv.org/abs/2111.12880v1 )

ライセンス: CC BY-SA 4.0
Zeyad Ali Sami Emam, Hong-Min Chu, Ping-Yeh Chiang, Wojciech Czaja, Richard Leapman, Micah Goldblum, Tom Goldstein(参考訳) アクティブラーニング(AL)アルゴリズムは、アノテーションのためのデータの最適なサブセットを特定することを目的としており、ディープニューラルネットワーク(DNN)はこのラベル付きサブセットでトレーニングされた時により良いパフォーマンスを達成することができる。 ALは特に、データラベリングコストが高く、実践者はモデルパフォーマンスを改善するためにすべてのツールを使用する産業規模の設定に影響を与えます。 最近のssp(self-supervised pretraining)の成功は、豊富なラベルのないデータをモデルパフォーマンス向上に活用することの重要性を浮き彫りにしている。 ALとSSPを組み合わせることで、ラベルのないデータを同時にラベル付けし、特に有意なサンプルのトレーニングを行うことができる。 本研究では,imagenetにおけるalとsspの組み合わせについて検討する。 文献の典型的なベンチマーク設定である小さなおもちゃのデータセットのパフォーマンスは、アクティブ学習者が選択したクラス不均衡なサンプルのため、ImageNetのパフォーマンスを表すものではない。 テストしている既存のベースラインのうち、さまざまな小規模および大規模設定で人気のあるalアルゴリズムは、ランダムサンプリングを上回ってはいない。 クラス不均衡問題を改善するために,従来の手法よりもバランスの取れたアノテーションのサンプルを選択することで,ランダムサンプリングを一貫したアルゴリズムであるBa balanced Selection (BASE)を提案する。 私たちのコードは、https://github.com/z eyademam/active_lear ningで利用可能です。

Active learning (AL) algorithms aim to identify an optimal subset of data for annotation, such that deep neural networks (DNN) can achieve better performance when trained on this labeled subset. AL is especially impactful in industrial scale settings where data labeling costs are high and practitioners use every tool at their disposal to improve model performance. The recent success of self-supervised pretraining (SSP) highlights the importance of harnessing abundant unlabeled data to boost model performance. By combining AL with SSP, we can make use of unlabeled data while simultaneously labeling and training on particularly informative samples. In this work, we study a combination of AL and SSP on ImageNet. We find that performance on small toy datasets -- the typical benchmark setting in the literature -- is not representative of performance on ImageNet due to the class imbalanced samples selected by an active learner. Among the existing baselines we test, popular AL algorithms across a variety of small and large scale settings fail to outperform random sampling. To remedy the class-imbalance problem, we propose Balanced Selection (BASE), a simple, scalable AL algorithm that outperforms random sampling consistently by selecting more balanced samples for annotation than existing methods. Our code is available at: https://github.com/z eyademam/active_lear ning .
翻訳日:2021-12-05 00:18:30 公開日:2021-11-25
# (参考訳) sla$^2$p: 逆摂動を伴う自己教師付き異常検出

SLA$^2$P: Self-supervised Anomaly Detection with Adversarial Perturbation ( http://arxiv.org/abs/2111.12896v1 )

ライセンス: CC BY 4.0
Yizhou Wang, Can Qin, Rongzhe Wei, Yi Xu, Yue Bai and Yun Fu(参考訳) 異常検出は、ラベル情報の欠如による機械学習の基本的な問題であるが、難しい問題である。 本研究では,教師なし異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。 生データから代表埋め込みを抽出した後、特徴にランダムな射影を適用し、異なる射影によって変換された特徴を異なる擬似クラスに属すると見なす。 次に、これらの変換された機能で分類器ネットワークを訓練し、自己教師付き学習を行う。 次に、変換された特徴に逆摂動を加え、予測されたラベルのソフトマックススコアを減少させ、これらの摂動特徴の分類器の予測的不確実性に基づいて異常スコアを設計する。 私たちのモチベーションは、比較的少ない数と異常の分散モードのためです。 1) 擬似ラベル分類器の訓練は,異常データではなく,正規データの意味情報を学ぶことに集中する。 2)正規データの変換された特徴は,異常値よりも摂動に対して頑健である。 その結果、異常の摂動変化の特徴は適切に分類されず、その結果、通常のサンプルよりも低い異常スコアが得られた。 画像, テキスト, 本質的に表形式のベンチマークデータセットに対する大規模な実験により, SLA$2$Pが非教師付き異常検出タスクにおける最先端の結果を一貫して達成することを示す。

Anomaly detection is a fundamental yet challenging problem in machine learning due to the lack of label information. In this work, we propose a novel and powerful framework, dubbed as SLA$^2$P, for unsupervised anomaly detection. After extracting representative embeddings from raw data, we apply random projections to the features and regard features transformed by different projections as belonging to distinct pseudo classes. We then train a classifier network on these transformed features to perform self-supervised learning. Next we add adversarial perturbation to the transformed features to decrease their softmax scores of the predicted labels and design anomaly scores based on the predictive uncertainties of the classifier on these perturbed features. Our motivation is that because of the relatively small number and the decentralized modes of anomalies, 1) the pseudo label classifier's training concentrates more on learning the semantic information of normal data rather than anomalous data; 2) the transformed features of the normal data are more robust to the perturbations than those of the anomalies. Consequently, the perturbed transformed features of anomalies fail to be classified well and accordingly have lower anomaly scores than those of the normal samples. Extensive experiments on image, text and inherently tabular benchmark datasets back up our findings and indicate that SLA$^2$P achieves state-of-the-art results on unsupervised anomaly detection tasks consistently.
翻訳日:2021-12-04 23:59:54 公開日:2021-11-25
# (参考訳) コンテンツ依存モデリングと多重正三重項による写本の複数正の引用を推奨する [全文訳有]

Recommending Multiple Positive Citations for Manuscript via Content-Dependent Modeling and Multi-Positive Triplet ( http://arxiv.org/abs/2111.12899v1 )

ライセンス: CC BY 4.0
Yang Zhang and Qiang Ma(参考訳) 学術論文の急速な増加を考えると、適切な参考文献の検索と引用は、論文の配線において非裁判的課題となっている。 出版前に一握りの候補論文を原稿に推薦することは、著者の負担を軽減し、レビュアーが引用したリソースの完全性を確認するのに役立つ。 引用レコメンデーションに関する従来のアプローチでは、入力原稿からのクエリコンテキストに対して1つの基底的引用を推奨することが一般的だが、共引用レコメンデーションには考慮されていない。 しかし、文脈の一部はしばしば2つ以上の共励対によって支持される必要がある。 そこで本稿では,複数の肯定的三重項をクエリコンテキストに対して推薦するために,複数の肯定的三重項目的を補完するマルチポジティブbertモデル(mp-bert4cr)を提案する。 提案手法には次のような利点がある: まず、提案された多陽性目的は複数の正の候補を推薦するのに効果的である。 第2に,過去の共励周波数に基づいて構築した雑音分布を採用することで,mp-bert4crは高頻度共励ペアの推薦に有効であるだけでなく,低頻度の共励ペアの検索における性能も大幅に向上する。 第3に,原稿の意図を引用した‘macro-scoped’を抽出し,引用埋め込みをコンテンツ依存にすることで,アルゴリズムによる性能向上を実現する動的コンテキストサンプリング戦略を提案する。 MP-BERT4CRが大幅に改善したことを、単体および複数回の肯定的な推奨実験が証明した。 加えて、MP-BERT4CRは、過去のものと比べ歴史的に低い頻度の共引用ペアの完全なリストを取得するのにも有効である。

Considering the rapidly increasing number of academic papers, searching for and citing appropriate references has become a non-trial task during the wiring of papers. Recommending a handful of candidate papers to a manuscript before publication could ease the burden of the authors, and help the reviewers to check the completeness of the cited resources. Conventional approaches on citation recommendation generally consider recommending one ground-truth citation for a query context from an input manuscript, but lack of consideration on co-citation recommendations. However, a piece of context often needs to be supported by two or more co-citation pairs. Here, we propose a novel scientific paper modeling for citation recommendations, namely Multi-Positive BERT Model for Citation Recommendation (MP-BERT4CR), complied with a series of Multi-Positive Triplet objectives to recommend multiple positive citations for a query context. The proposed approach has the following advantages: First, the proposed multi-positive objectives are effective to recommend multiple positive candidates. Second, we adopt noise distributions which are built based on the historical co-citation frequencies, so that MP-BERT4CR is not only effective on recommending high-frequent co-citation pairs; but also the performances on retrieving the low-frequent ones are significantly improved. Third, we propose a dynamic context sampling strategy which captures the ``macro-scoped'' citing intents from a manuscript and empowers the citation embeddings to be content-dependent, which allow the algorithm to further improve the performances. Single and multiple positive recommendation experiments testified that MP-BERT4CR delivered significant improvements. In addition, MP-BERT4CR are also effective in retrieving the full list of co-citations, and historically low-frequent co-citation pairs compared with the prior works.
翻訳日:2021-12-04 23:58:46 公開日:2021-11-25
# (参考訳) CIRCLE : 大規模屋内シーンにおける畳み込み再建と完成 [全文訳有]

CIRCLE: Convolutional Implicit Reconstruction and Completion for Large-scale Indoor Scene ( http://arxiv.org/abs/2111.12905v1 )

ライセンス: CC BY 4.0
Haoxiang Chen, Jiahui Huang, Tai-Jiang Mu, Shi-Min Hu(参考訳) 本稿では,局所的な暗黙符号距離関数に基づく大規模シーン補完と幾何学的洗練のためのフレームワークCIRCLEを提案する。 それは、ローカルな幾何学的詳細とグローバルなシーンの構造的コンテキストを共同でモデル化し、従来の3Dシーンデータによくある欠落した領域を復元しながら、きめ細かいオブジェクトの詳細を保存できる、エンドツーエンドのスパース畳み込みネットワークであるCircNetに基づいている。 新たな差別化可能なレンダリングモジュールにより、テスト時間の改善により、再構築品質が向上する。 実世界のデータセットと合成データセットの両方に関する広範囲な実験により、我々の簡潔なフレームワークは効率的かつ効果的であり、最も近い競合相手よりも優れたコンストラクション品質を達成でき、しかも10-50倍高速であることが示された。

We present CIRCLE, a framework for large-scale scene completion and geometric refinement based on local implicit signed distance functions. It is based on an end-to-end sparse convolutional network, CircNet, that jointly models local geometric details and global scene structural contexts, allowing it to preserve fine-grained object detail while recovering missing regions commonly arising in traditional 3D scene data. A novel differentiable rendering module enables test-time refinement for better reconstruction quality. Extensive experiments on both real-world and synthetic datasets show that our concise framework is efficient and effective, achieving better reconstruction quality than the closest competitor while being 10-50x faster.
翻訳日:2021-12-04 23:46:13 公開日:2021-11-25
# (参考訳) 高汎化能と合成アクセシビリティを有するフラグメントに基づく分子生成モデル [全文訳有]

Fragment-based molecular generative model with high generalization ability and synthetic accessibility ( http://arxiv.org/abs/2111.12907v1 )

ライセンス: CC BY 4.0
Seonghwan Seo, Jaechang Lim, and Woo Youn Kim(参考訳) 深層生成モデルは望ましい性質を持つ分子設計に多大な注目を集めている。 既存のモデルの多くは、原子を順次追加することで分子を生成する。 これはしばしば、ターゲット特性との相関が少なく、合成アクセシビリティが低い分子をレンダリングする。 官能基などの分子断片は、原子よりも分子の性質や合成アクセシビリティに密接に関連している。 本稿では,任意の開始分子に分子フラグメントを逐次付加することにより,ターゲット特性を持つ新規分子を設計するフラグメントベース分子生成モデルを提案する。 我々のモデルの重要な特徴は、プロパティ制御とフラグメントタイプの観点からの高度な一般化能力である。 前者は、個々のフラグメントの目標プロパティへの寄与を自己回帰的に学習することで可能となる。 後者については,入力として2分子の埋め込みベクトルから2分子の結合確率を予測するディープニューラルネットワークを用いた。 BRICS分解法を用いてフラグメントライブラリを作成する際に、生成分子の高い合成アクセシビリティを暗黙的に考慮する。 モデルでは,複数のターゲット特性を同時に制御した分子を高い成功率で生成できることを示す。 また、トレーニングデータが稀なプロパティ範囲であっても、目に見えないフラグメントと同等に機能し、高い一般化能力を検証する。 そこで本研究では,SARS-COV-2の3CLプロテアーゼに対する高い結合親和性を有する阻害剤をドッキングスコアで生成できることを実証した。

Deep generative models are attracting great attention for molecular design with desired properties. Most existing models generate molecules by sequentially adding atoms. This often renders generated molecules with less correlation with target properties and low synthetic accessibility. Molecular fragments such as functional groups are more closely related to molecular properties and synthetic accessibility than atoms. Here, we propose a fragment-based molecular generative model which designs new molecules with target properties by sequentially adding molecular fragments to any given starting molecule. A key feature of our model is a high generalization ability in terms of property control and fragment types. The former becomes possible by learning the contribution of individual fragments to the target properties in an auto-regressive manner. For the latter, we used a deep neural network that predicts the bonding probability of two molecules from the embedding vectors of the two molecules as input. The high synthetic accessibility of the generated molecules is implicitly considered while preparing the fragment library with the BRICS decomposition method. We show that the model can generate molecules with the simultaneous control of multiple target properties at a high success rate. It also works equally well with unseen fragments even in the property range where the training data is rare, verifying the high generalization ability. As a practical application, we demonstrated that the model can generate potential inhibitors with high binding affinities against the 3CL protease of SARS-COV-2 in terms of docking score.
翻訳日:2021-12-04 23:31:25 公開日:2021-11-25
# (参考訳) Pseudo-blurシンセサイザーを用いた人間とシーンの動作劣化 [全文訳有]

Human and Scene Motion Deblurring using Pseudo-blur Synthesizer ( http://arxiv.org/abs/2111.12911v1 )

ライセンス: CC BY 4.0
Jonathan Samuel Lumentut, In Kyu Park(参考訳) 現在のディープラーニングに基づくモーションデブロワー法は, 合成ボケと鋭いデータのペアを用いて, 特定のフレームワークを回帰する。 このタスクは、ぼやけた画像入力を復元されたバージョンに出力として直接翻訳するように設計されている。 上記のアプローチは、トレーニング段階でのみ利用可能な合成ぼやけデータの品質に大きく依存している。 大量のデータを提供することでこの問題に対処することは、一般的な使用にはコストがかかる。 トレーニングやテストの段階で実行可能な,オンザフライでぼやけたデータアグリゲータを提供することで,この問題に対処する。 これを十分に活用するために,ボケデブラル・レブラル・デブラルステップのシーケンスを用いたデブラリングフレームワークの非ノースドックススキームを組み込んだ。 リブラルステップは、その鋭くまたはデブラルされたバージョン(pseudo-blur)を提供するリブラルリングモジュール(synthesizer)によって支援される。 提案モジュールは、最先端の人体統計モデルを用いて手作りの事前抽出を行う。 この先行は、対人学習中に人間と非人間領域をマッピングし、人文・シーン動作のぼかしの特徴を完全に知覚するために用いられる。 このアプローチを取り入れることで,我々のデブロアリングモジュールは適応的になり,最近の最先端デブロアリングアルゴリズムと比較して優れた結果が得られる。

Present-day deep learning-based motion deblurring methods utilize the pair of synthetic blur and sharp data to regress any particular framework. This task is designed for directly translating a blurry image input into its restored version as output. The aforementioned approach relies heavily on the quality of the synthetic blurry data, which are only available before the training stage. Handling this issue by providing a large amount of data is expensive for common usage. We answer this challenge by providing an on-the-fly blurry data augmenter that can be run during training and test stages. To fully utilize it, we incorporate an unorthodox scheme of deblurring framework that employs the sequence of blur-deblur-reblur-d eblur steps. The reblur step is assisted by a reblurring module (synthesizer) that provides the reblurred version (pseudo-blur) of its sharp or deblurred counterpart. The proposed module is also equipped with hand-crafted prior extracted using the state-of-the-art human body statistical model. This prior is employed to map human and non-human regions during adversarial learning to fully perceive the characteristics of human-articulated and scene motion blurs. By engaging this approach, our deblurring module becomes adaptive and achieves superior outcomes compared to recent state-of-the-art deblurring algorithms.
翻訳日:2021-12-04 23:13:16 公開日:2021-11-25
# (参考訳) 顔偽造と顔面鑑定の二重ベンチマーク研究 [全文訳有]

A dual benchmarking study of facial forgery and facial forensics ( http://arxiv.org/abs/2111.12912v1 )

ライセンス: CC BY 4.0
Minh Tam Pham and Thanh Trung Huynh and Van Vinh Tong and Thanh Tam Nguyen and Thanh Thi Nguyen and Hongzhi Yin and Quoc Viet Hung Nguyen(参考訳) 近年、視覚偽造は、人間が不正を識別できないほど洗練され、情報セキュリティにとって重大な脅威となっている。 偽ニュース、有名人の名誉剥奪、脅迫、政治戦における政治家の偽装、視聴者を惹きつける噂の拡散など、幅広い悪質なアプリケーションが登場している。 その結果、この危険な傾向を止めるために、豊富な視覚法医学的手法が提案されている。 本稿では,包括的および経験的アプローチを用いて,視覚偽造と視覚鑑識に関する詳細な洞察を提供するベンチマークを提案する。 より具体的には、最先端の偽造発電機と検出器を統合する独立したフレームワークを開発し、様々な基準を用いてこれらの技術の性能を測定する。 また、ベンチマーク結果の徹底的な分析を行い、この絶え間なく続く対策と対策の間の戦争において比較基準となる手法の特性を決定する。

In recent years, visual forgery has reached a level of sophistication that humans cannot identify fraud, which poses a significant threat to information security. A wide range of malicious applications have emerged, such as fake news, defamation or blackmailing of celebrities, impersonation of politicians in political warfare, and the spreading of rumours to attract views. As a result, a rich body of visual forensic techniques has been proposed in an attempt to stop this dangerous trend. In this paper, we present a benchmark that provides in-depth insights into visual forgery and visual forensics, using a comprehensive and empirical approach. More specifically, we develop an independent framework that integrates state-of-the-arts counterfeit generators and detectors, and measure the performance of these techniques using various criteria. We also perform an exhaustive analysis of the benchmarking results, to determine the characteristics of the methods that serve as a comparative reference in this never-ending war between measures and countermeasures.
翻訳日:2021-12-04 22:51:44 公開日:2021-11-25
# (参考訳) acpl : 医用画像分類のための疑似ラベリング対策 [全文訳有]

ACPL: Anti-curriculum Pseudo-labelling forSemi-supervised Medical Image Classification ( http://arxiv.org/abs/2111.12918v1 )

ライセンス: CC BY 4.0
Fengbei Liu, Yu Tian, Yuanhong Chen, Yuyuan Liu, Vasileios Belagiannis, Gustavo Carneiro(参考訳) 医療即時分析(MIA)における効果的な半教師付き学習(SSL)は2つの課題に対処する必要がある。 1)マルチクラス(例えば、病変分類)とマルチラベル(例えば、マルチディセーゼ診断)の問題の両方に効果的に取り組むこと、及び 2)不均衡な学習(疾患の有病率のばらつき)を扱う。 SSL MIAを探索する1つの戦略は、擬似ラベリング戦略に基づいているが、いくつかの欠点がある。 Pseudo-labellingは、一貫性学習よりも一般的に低い精度を持ち、マルチクラスとマルチラベルの両問題に対して、スペシフィカリー設計ではない。 本稿では,疑似ラベルをしきい値で選択する従来の手法とは違って,情報化されていないサンプルを抽出し,トレーニングバランスを改善し,マルチラベルとマルチクラスの問題に対処し,識別器の正確なアンサンブル(擬似ラベル精度の向上)によって擬似ラベルを推定する新たな手法である,反キュリキュラム擬似ラベル法(ACPL)を提案する。 胸部X-Ray14 (胸部X-Ray14) と皮膚病変多型分類ISIC2018 (皮膚病変多型分類ISIC2018) の2つの医用画像分類ベンチマークでACPLを評価するための広範な実験を行った。 本手法は, 従来のSOTA SSL方式よりも優れていた。

Effective semi-supervised learning (SSL) in medical im-age analysis (MIA) must address two challenges: 1) workeffectively on both multi-class (e.g., lesion classification)and multi-label (e.g., multiple-disease diagnosis) problems,and 2) handle imbalanced learning (because of the highvariance in disease prevalence). One strategy to explorein SSL MIA is based on the pseudo labelling strategy, butit has a few shortcomings. Pseudo-labelling has in generallower accuracy than consistency learning, it is not specifi-cally design for both multi-class and multi-label problems,and it can be challenged by imbalanced learning. In this paper, unlike traditional methods that select confident pseudo label by threshold, we propose a new SSL algorithm, called anti-curriculum pseudo-labelling (ACPL), which introduces novel techniques to select informative unlabelled samples, improving training balance and allowing the model to work for both multi-label and multi-class problems, and to estimate pseudo labels by an accurate ensemble of classifiers(improvin g pseudo label accuracy). We run extensive experiments to evaluate ACPL on two public medical image classification benchmarks: Chest X-Ray14 for thorax disease multi-label classification and ISIC2018 for skin lesion multi-class classification. Our method outperforms previous SOTA SSL methods on both datasets.
翻訳日:2021-12-04 22:28:09 公開日:2021-11-25
# (参考訳) ステレオ3次元物体検出と暗黙的表面再構成 [全文訳有]

Joint stereo 3D object detection and implicit surface reconstruction ( http://arxiv.org/abs/2111.12924v1 )

ライセンス: CC BY 4.0
Shichao Li and Kwang-Ting Cheng(参考訳) 本稿では,野生のステレオrgb画像に基づくカテゴリーレベルの3次元物体検出と暗黙的形状推定のための最初の学習ベースフレームワークを提案する。 従来のステレオ3Dオブジェクト検出手法では、検出された物体を3D境界ボックスでのみ記述し、その全表面形状を推測できないため、現実的な屋外没入体験を作るのが困難である。 対照的に,検出対象に対する完全かつ解像度に依存しない形状記述を提供するとともに,高精度なローカライズが可能な新しいモデルS-3D-RCNNを提案する。 まず、グローバルな局所的なフレームワークを用いて、形状再構成からオブジェクト座標系の推定を分離する。 次に,ステレオ領域からポイントベース表現を抽出し,予測された完全表面形状を持つ暗黙的形状符号を推定することにより,未知表面幻覚問題に対処する新しいインスタンスレベルネットワークを提案する。 kittiベンチマークで既存のメトリクスと新しいメトリクスを使用して、我々のアプローチの優れたパフォーマンスを検証する広範な実験。 コードと事前トレーニングされたモデルは、このhttps URLで利用できる。

We present the first learning-based framework for category-level 3D object detection and implicit shape estimation based on a pair of stereo RGB images in the wild. Traditional stereo 3D object detection approaches describe the detected objects only with 3D bounding boxes and cannot infer their full surface geometry, which makes creating a realistic outdoor immersive experience difficult. In contrast, we propose a new model S-3D-RCNN that can perform precise localization as well as provide a complete and resolution-agnostic shape description for the detected objects. We first decouple the estimation of object coordinate systems from shape reconstruction using a global-local framework. We then propose a new instance-level network that addresses the unseen surface hallucination problem by extracting point-based representations from stereo region-of-interests, and infers implicit shape codes with predicted complete surface geometry. Extensive experiments validate our approach's superior performance using existing and new metrics on the KITTI benchmark. Code and pre-trained models will be available at this https URL.
翻訳日:2021-12-04 22:10:15 公開日:2021-11-25
# (参考訳) 深部画像カメラキャリブレーションのためのジェネリックカメラモデルの再考 : 回転と魚眼歪みの復元 [全文訳有]

Rethinking Generic Camera Models for Deep Single Image Camera Calibration to Recover Rotation and Fisheye Distortion ( http://arxiv.org/abs/2111.12927v1 )

ライセンス: CC BY 4.0
Nobuhiko Wakai, Satoshi Sato, Yasunori Ishii, Takayoshi Yamashita(参考訳) 近年の学習に基づくキャリブレーション手法では, 一つの画像から外生・内生カメラパラメータを推定できるが, 魚眼画像では精度が低下する。 この劣化は、実際の投影と期待投影のミスマッチによって引き起こされる。 この問題に対処するために,様々な種類の歪みに対処可能な汎用カメラモデルを提案する。 汎用カメラモデルは, カメラプロジェクションのクローズドフォーム数値計算により, 学習に基づく手法に活用する。 回転と魚眼の歪みを同時に回復するために,カメラモデルを用いた学習に基づくキャリブレーション手法を提案する。 さらに,外因性カメラパラメータと内因性カメラパラメータの誤差の大きさの偏りを緩和する損失関数を提案する。 大規模実験により,本手法は2つの大規模データセットと市販魚眼カメラで撮影された画像の従来の手法を上回った。 また,本研究では,市販カメラの様々な投影方式を用いて学習法の性能を初めて解析した。

Although recent learning-based calibration methods can predict extrinsic and intrinsic camera parameters from a single image, the accuracy of these methods is degraded in fisheye images. This degradation is caused by mismatching between the actual projection and expected projection. To address this problem, we propose a generic camera model that has the potential to address various types of distortion. Our generic camera model is utilized for learning-based methods through a closed-form numerical calculation of the camera projection. Simultaneously to recover rotation and fisheye distortion, we propose a learning-based calibration method that uses the camera model. Furthermore, we propose a loss function that alleviates the bias of the magnitude of errors for four extrinsic and intrinsic camera parameters. Extensive experiments demonstrated that our proposed method outperformed conventional methods on two largescale datasets and images captured by off-the-shelf fisheye cameras. Moreover, we are the first researchers to analyze the performance of learning-based methods using various types of projection for off-the-shelf cameras.
翻訳日:2021-12-04 21:44:35 公開日:2021-11-25
# (参考訳) MLデコーダ:スケーラブルでVersatileな分類ヘッド [全文訳有]

ML-Decoder: Scalable and Versatile Classification Head ( http://arxiv.org/abs/2111.12933v1 )

ライセンス: CC BY 4.0
Tal Ridnik, Gilad Sharir, Avi Ben-Cohen, Emanuel Ben-Baruch, Asaf Noy(参考訳) 本稿では,新しいアテンションベース分類ヘッドであるML-Decoderを紹介する。 ml-decoderはクエリを通じてクラスラベルの存在を予測し、グローバル平均プーリングと比較して空間データの有効利用を可能にする。 デコーダアーキテクチャを再設計し、新しいグループデコーダスキームを使用することで、ML-Decoderは非常に効率的で、数千のクラスにスケールすることができる。 より大きなバックボーンを使用する場合と比較して、ML-Decoderは一貫して、より高速なトレードオフを提供する。 ML-Decoderは、様々な分類ヘッドのドロップイン代替として使用でき、ワードクエリで操作すると、見えないクラスに一般化できる。 新しいクエリ拡張により、その一般化能力はさらに向上する。 ML-Decoderを用いて、MS-COCOマルチラベルでは91.4% mAP、NUS-WIDEゼロショットでは31.1% ZSL mAP、ImageNetシングルラベルではバニラResNet50バックボーンで80.7%の新しいトップスコアを得る。 public code is available at https://github.com/A libaba-MIIL/ML_Decod er

In this paper, we introduce ML-Decoder, a new attention-based classification head. ML-Decoder predicts the existence of class labels via queries, and enables better utilization of spatial data compared to global average pooling. By redesigning the decoder architecture, and using a novel group-decoding scheme, ML-Decoder is highly efficient, and can scale well to thousands of classes. Compared to using a larger backbone, ML-Decoder consistently provides a better speed-accuracy trade-off. ML-Decoder is also versatile - it can be used as a drop-in replacement for various classification heads, and generalize to unseen classes when operated with word queries. Novel query augmentations further improve its generalization ability. Using ML-Decoder, we achieve state-of-the-art results on several classification tasks: on MS-COCO multi-label, we reach 91.4% mAP; on NUS-WIDE zero-shot, we reach 31.1% ZSL mAP; and on ImageNet single-label, we reach with vanilla ResNet50 backbone a new top score of 80.7%, without extra data or distillation. Public code is available at: https://github.com/A libaba-MIIL/ML_Decod er
翻訳日:2021-12-04 21:31:21 公開日:2021-11-25
# (参考訳) Ktrain-BERTを用いた確率的インパクトスコア生成によるHate単語の識別 [全文訳有]

Probabilistic Impact Score Generation using Ktrain-BERT to Identify Hate Words from Twitter Discussions ( http://arxiv.org/abs/2111.12939v1 )

ライセンス: CC BY 4.0
Sourav Das, Prasanta Mandal, Sanjay Chatterji(参考訳) ソーシャルメディアは近年、ヘイトスピーチの急増を懸念している。 サイバーいじめ、ジェンダー差別、人種差別のいくつかの異なるカテゴリーに分けて、このような軽蔑的内容の複合ラベルは一般に有害な内容に分類される。 本稿では, 文中のヘイトフルな単語を抽出するために, ヘイトスピーチを識別し, 確率的影響スコアを予測できるケラス包み軽量bertモデルの実験を行った。 このタスクで使用されるデータセットは、英語のFIRE 2021からのHate Speech and Offensive Content Detection (HASOC 2021)データである。 検証精度は82.60%で,f1-scoreの最大値が82.68%であった。 その結果,ツイートプールからのヘイトフルな単語だけでなく,ヘイトツイートの識別に成功するためのインパクトスコアの生成に,予測事例は極めて良好であった。

Social media has seen a worrying rise in hate speech in recent times. Branching to several distinct categories of cyberbullying, gender discrimination, or racism, the combined label for such derogatory content can be classified as toxic content in general. This paper presents experimentation with a Keras wrapped lightweight BERT model to successfully identify hate speech and predict probabilistic impact score for the same to extract the hateful words within sentences. The dataset used for this task is the Hate Speech and Offensive Content Detection (HASOC 2021) data from FIRE 2021 in English. Our system obtained a validation accuracy of 82.60%, with a maximum F1-Score of 82.68%. Subsequently, our predictive cases performed significantly well in generating impact scores for successful identification of the hate tweets as well as the hateful words from tweet pools.
翻訳日:2021-12-04 21:13:43 公開日:2021-11-25
# (参考訳) 変分ベイズによるラプラス法の補正 [全文訳有]

Correcting the Laplace Method with Variational Bayes ( http://arxiv.org/abs/2111.12945v1 )

ライセンス: CC BY 4.0
Janet van Niekerk, Haavard Rue(参考訳) ラプラス法、ラプラス法、変分法などの近似推論手法は、モデルの複雑さやデータの豊富さのために正確な推論が不可能な場合によく用いられる手法である。 本稿では,ラプラス法と後平均の変分ベイズ補正を用いた,低位変分ベイズ補正(vbc)というハイブリッド近似法を提案する。 コストは本質的にlaplaceメソッドのそれであり、メソッドのスケーラビリティを保証する。 本手法とその利点をシミュレーションおよび実データを用いて,小規模かつ大規模に解説する。

Approximate inference methods like the Laplace method, Laplace approximations and variational methods, amongst others, are popular methods when exact inference is not feasible due to the complexity of the model or the abundance of data. In this paper we propose a hybrid approximate method namely Low-Rank Variational Bayes correction (VBC), that uses the Laplace method and subsequently a Variational Bayes correction to the posterior mean. The cost is essentially that of the Laplace method which ensures scalability of the method. We illustrate the method and its advantages with simulated and real data, on small and large scale.
翻訳日:2021-12-04 21:03:59 公開日:2021-11-25
# (参考訳) 情報ボトルネック原理に基づくマイナショット深部表現学習 [全文訳有]

Few-shot Deep Representation Learning based on Information Bottleneck Principle ( http://arxiv.org/abs/2111.12950v1 )

ライセンス: CC BY 4.0
Shin Ando(参考訳) 標準異常検出問題において、サンプルが1つの正規データソースから生成されたと仮定して、検出モデルを教師なし設定で訓練する。 しかし実際には、通常のデータは複数のクラスから構成されることが多い。 このような環境では、大規模なラベル付きデータなしで通常のインスタンスと通常のクラス間の差異を区別する学習が大きな課題となっている。 本研究では,本課題を克服するために,各正規クラスから少数の例を用意し,過大なコストは発生しない。 上記の設定は、異常検出に有用な表現を学ぶことを目的として、複数の通常のクラスに対する数ショットの学習として記述することもできる。 学習におけるラベル付き例を限定的に活用するために,深部特徴空間におけるラベル付き例間のクラス間距離をMAP損失に統合する。 我々はそれらの関係を情報理論の原理から導出する。 実験により,提案モデルが,異常クラスの例の同定に寄与する深層特徴空間における正規クラスのセグメンテーションを改善することを示した。

In a standard anomaly detection problem, a detection model is trained in an unsupervised setting, under an assumption that the samples were generated from a single source of normal data. In practice, however, normal data often consist of multiple classes. In such settings, learning to differentiate between normal instances and anomalies among discrepancies between normal classes without large-scale labeled data presents a significant challenge. In this work, we attempt to overcome this challenge by preparing few examples from each normal class, which is not excessively costly. The above setting can also be described as a few-shot learning for multiple, normal classes, with the goal of learning a useful representation for anomaly detection. In order to utilize the limited labeled examples in training, we integrate the inter-class distances among the labeled examples in the deep feature space into the MAP loss. We derive their relations from an information-theoreti c principle. Our empirical study shows that the proposed model improves the segmentation of normal classes in the deep feature space which contributes to identifying the anomaly class examples.
翻訳日:2021-12-04 20:45:52 公開日:2021-11-25
# (参考訳) 分散シフト下における薬物発見のための信頼性グラフニューラルネットワーク [全文訳有]

Reliable Graph Neural Networks for Drug Discovery Under Distributional Shift ( http://arxiv.org/abs/2111.12951v1 )

ライセンス: CC BY 4.0
Kehang Han, Balaji Lakshminarayanan, Jeremiah Liu(参考訳) 分布シフト下での過度な誤った予測に対する懸念は、薬物発見において重要なタスクに使用されるグラフニューラルネットワークの広範な信頼性調査を必要とする。 ここではまず,薬物の心毒性に関する現実世界のベンチマークであるcarditoxを紹介する。 我々の探索的研究は、過度に自信過剰な予測がトレーニングデータから遠ざかっていることを示している。 これにより、距離対応のGNN: GNN-SNGPが開発される。 CardioToxと3つの確立されたベンチマークを用いて、GNN-SNGPによる距離認識の向上、過信ミス予測の低減、精度を犠牲にすることなく精度の高い校正予測を行う。 また, GNN-SNGP が学習した表現により, 基本構造上の距離保存が向上し, 改善の要因の一つとなった。

The concern of overconfident mis-predictions under distributional shift demands extensive reliability research on Graph Neural Networks used in critical tasks in drug discovery. Here we first introduce CardioTox, a real-world benchmark on drug cardio-toxicity to facilitate such efforts. Our exploratory study shows overconfident mis-predictions are often distant from training data. That leads us to develop distance-aware GNNs: GNN-SNGP. Through evaluation on CardioTox and three established benchmarks, we demonstrate GNN-SNGP's effectiveness in increasing distance-awareness, reducing overconfident mis-predictions and making better calibrated predictions without sacrificing accuracy performance. Our ablation study further reveals the representation learned by GNN-SNGP improves distance-preservatio n over its base architecture and is one major factor for improvements.
翻訳日:2021-12-04 20:37:28 公開日:2021-11-25
# 医療データ分析の現状と新型コロナウイルスパンデミックへの応用

An Overview of Healthcare Data Analytics With Applications to the COVID-19 Pandemic ( http://arxiv.org/abs/2111.14623v1 )

ライセンス: Link先を確認
Zhe Fei, Yevgen Ryeznik, Oleksandr Sverdlov, Chee Wei Tan and Weng Kee Wong(参考訳) ビッグデータの時代において、標準分析ツールは推論に不適であり、大規模で複雑なデータを収集、処理、分析、解釈するためのより効率的で革新的な方法の必要性が高まっている。 ビッグデータ問題における課題を概観し、現在のパンデミックに焦点をあてて、革新的な分析手法、機械学習ツール、メタヒューリスティックスがどのようにして一般的な医療問題に対処できるかを説明する。 特に,最新のデジタル技術,統計手法,データプラットフォーム,データ統合システムの応用により,臨床研究における疾患の診断と治療を改善するとともに,感染症の流行拡大における患者ゼロの発見など,感染症源問題に取り組むための新たな疫学ツールを提供する。 ビッグデータの分析と解釈は、より効果的な方法論と、インフォームド意思決定を可能にする知識にデータ情報を転送するための強力なツールを継続的に作成するために、多分野の努力を必要とする非常に困難なタスクである。

In the era of big data, standard analysis tools may be inadequate for making inference and there is a growing need for more efficient and innovative ways to collect, process, analyze and interpret the massive and complex data. We provide an overview of challenges in big data problems and describe how innovative analytical methods, machine learning tools and metaheuristics can tackle general healthcare problems with a focus on the current pandemic. In particular, we give applications of modern digital technology, statistical methods, data platforms and data integration systems to improve diagnosis and treatment of diseases in clinical research and novel epidemiologic tools to tackle infection source problems, such as finding Patient Zero in the spread of epidemics. We make the case that analyzing and interpreting big data is a very challenging task that requires a multi-disciplinary effort to continuously create more effective methodologies and powerful tools to transfer data information into knowledge that enables informed decision making.
翻訳日:2021-11-30 19:01:16 公開日:2021-11-25
# 交通予測のための時空間ジョイントグラフ畳み込みネットワーク

Spatio-Temporal Joint Graph Convolutional Networks for Traffic Forecasting ( http://arxiv.org/abs/2111.13684v1 )

ライセンス: Link先を確認
Chuanpan Zheng, Xiaoliang Fan, Shirui Pan, Zonghan Wu, Cheng Wang, Philip S. Yu(参考訳) 最近の研究は、時空間グラフモデリング問題として交通予測を定式化することに焦点を当てている。 彼らは通常、各時間ステップで静的な空間グラフを構築し、各ノードと隣接する時間ステップの間を接続して時空間グラフを構築する。 このようなグラフでは、異なる時間ステップにおける異なるノード間の相関は明示的に反映されず、グラフニューラルネットワークの学習能力を制限する可能性がある。 一方、これらのモデルは異なる時間ステップで同じ隣接行列を使用するため、ノード間の動的時空間相関を無視する。 これらの制約を克服するため,道路網における交通予測のための時空間共同グラフ畳み込みネットワーク(STJGCN)を提案する。 具体的には,包括的および動的時空間相関を表す2つの時間ステップ間の事前定義と適応時空間ジョイントグラフ(stjgs)を構築した。 さらに,STJG上に拡張した因果時空間グラフ畳み込み層を設計し,複数の範囲の異なる視点から時空間依存性を捉える。 異なる範囲の情報を集約するマルチレンジアテンション機構を提案する。 4つのパブリックトラフィックデータセットの実験により、STJGCNは計算効率が良く、11の最先端のベースライン法より優れていることが示された。

Recent studies focus on formulating the traffic forecasting as a spatio-temporal graph modeling problem. They typically construct a static spatial graph at each time step and then connect each node with itself between adjacent time steps to construct the spatio-temporal graph. In such a graph, the correlations between different nodes at different time steps are not explicitly reflected, which may restrict the learning ability of graph neural networks. Meanwhile, those models ignore the dynamic spatio-temporal correlations among nodes as they use the same adjacency matrix at different time steps. To overcome these limitations, we propose a Spatio-Temporal Joint Graph Convolutional Networks (STJGCN) for traffic forecasting over several time steps ahead on a road network. Specifically, we construct both pre-defined and adaptive spatio-temporal joint graphs (STJGs) between any two time steps, which represent comprehensive and dynamic spatio-temporal correlations. We further design dilated causal spatio-temporal joint graph convolution layers on STJG to capture the spatio-temporal dependencies from distinct perspectives with multiple ranges. A multi-range attention mechanism is proposed to aggregate the information of different ranges. Experiments on four public traffic datasets demonstrate that STJGCN is computationally efficient and outperforms 11 state-of-the-art baseline methods.
翻訳日:2021-11-30 15:19:45 公開日:2021-11-25
# (参考訳) AutoHEnsGNN: KDDカップ2020でAutoGraphチャレンジに勝利 [全文訳有]

AutoHEnsGNN: Winning Solution to AutoGraph Challenge for KDD Cup 2020 ( http://arxiv.org/abs/2111.12952v1 )

ライセンス: CC BY 4.0
Jin Xu, Mingjian Chen, Jianqiang Huang, Xingyuan Tang, Ke Hu, Jian Li, Jia Cheng, Jun Lei(参考訳) グラフニューラルネットワーク(gnns)はますます普及し、多くのグラフベースのアプリケーションで印象的な成果を上げている。 しかし、効果的なアーキテクチャの設計には広範な手作業とドメイン知識が必要であり、GNNモデルの結果は、既存のGNNモデルの適用を制限する異なるトレーニング設定と高いばらつきを持つ。 本稿では,人間の介入なしにグラフタスクの効率的かつ堅牢なモデルを構築するためのフレームワークであるAutoHEnsGNNを提案する。 AutoHEnsGNNはKDDカップ2020のAutoGraph Challengeで優勝し、最終フェーズで5つの実生活データセットの最高順位を獲得した。 タスクが与えられた後、AutoHEnsGNNはまず高速なプロキシ評価を適用して、有望なGNNモデルのプールを自動的に選択する。 そして、階層的なアンサンブルフレームワークを構築します。 1) 重量初期化のばらつきを低減し, 地域・グローバル地域の情報を効率的に活用するグラフ自己組織化(GSE)を提案する。 2) GSEに基づいて,GNNモデルの重み付けアンサンブルを用いて,より識別的なノード表現を効果的に学習する。 アーキテクチャとアンサンブルの重みを効率的に探索するために、アーキテクチャとアンサンブルの重みをアーキテクチャパラメータとして扱うautohensgnn$_{\text{gradient}}$を提案し、最適な構成を得るために勾配ベースのアーキテクチャ探索と、モデル精度に基づいてアンサンブルの重みを適応的に調整できるautohensgnn$_{\text{adaptive}}$を提案する。 ノード分類、グラフ分類、エッジ予測、kdd cupチャレンジに関する広範な実験がautohensgnnの有効性と汎用性を示している

Graph Neural Networks (GNNs) have become increasingly popular and achieved impressive results in many graph-based applications. However, extensive manual work and domain knowledge are required to design effective architectures, and the results of GNN models have high variance with different training setups, which limits the application of existing GNN models. In this paper, we present AutoHEnsGNN, a framework to build effective and robust models for graph tasks without any human intervention. AutoHEnsGNN won first place in the AutoGraph Challenge for KDD Cup 2020, and achieved the best rank score of five real-life datasets in the final phase. Given a task, AutoHEnsGNN first applies a fast proxy evaluation to automatically select a pool of promising GNN models. Then it builds a hierarchical ensemble framework: 1) We propose graph self-ensemble (GSE), which can reduce the variance of weight initialization and efficiently exploit the information of local and global neighborhoods; 2) Based on GSE, a weighted ensemble of different types of GNN models is used to effectively learn more discriminative node representations. To efficiently search the architectures and ensemble weights, we propose AutoHEnsGNN$_{\text{Gradient}}$, which treats the architectures and ensemble weights as architecture parameters and uses gradient-based architecture search to obtain optimal configurations, and AutoHEnsGNN$_{\text{Adaptive}}$, which can adaptively adjust the ensemble weight based on the model accuracy. Extensive experiments on node classification, graph classification, edge prediction and KDD Cup challenge demonstrate the effectiveness and generality of AutoHEnsGNN
翻訳日:2021-11-30 14:50:53 公開日:2021-11-25
# (参考訳) 衛星ビデオにおける小型・高密度移動物体の検出と追跡:ベンチマーク [全文訳有]

Detecting and Tracking Small and Dense Moving Objects in Satellite Videos: A Benchmark ( http://arxiv.org/abs/2111.12960v1 )

ライセンス: CC BY 4.0
Qian Yin, Qingyong Hu, Hao Liu, Feng Zhang, Yingqian Wang, Zaiping Lin, Wei An, Yulan Guo(参考訳) 衛星ビデオカメラは、多くのリモートセンシングアプリケーションで重要な大規模領域に対して連続的な観測を提供することができる。 しかし,衛星映像における移動物体検出と追跡の実現は,物体の出現情報不足や高品質なデータセットの欠如により課題となっている。 本稿では,オブジェクトの検出と追跡を行うためのリッチアノテーションを備えた大規模衛星ビデオデータセットを最初に構築する。 このデータセットはjilin-1衛星コンステレーションによって収集され、47の高品質ビデオと1,646,038のオブジェクト検出および3,711のオブジェクト追跡のためのトラジェクタで構成されている。 次に,アキュマティブなマルチフレーム差分とロバストな行列補完に基づいて,検出率の向上と誤報を低減するための動作モデリングベースラインを導入する。 最後に,衛星映像における物体検出と追跡を行うための最初の公開ベンチマークを確立し,データセット上でのいくつかの代表的なアプローチの性能を広範囲に評価した。 総合的な実験分析と洞察に富んだ結論も提供される。 データセットはhttps://github.com/q ingyonghu/visoで入手できる。

Satellite video cameras can provide continuous observation for a large-scale area, which is important for many remote sensing applications. However, achieving moving object detection and tracking in satellite videos remains challenging due to the insufficient appearance information of objects and lack of high-quality datasets. In this paper, we first build a large-scale satellite video dataset with rich annotations for the task of moving object detection and tracking. This dataset is collected by the Jilin-1 satellite constellation and composed of 47 high-quality videos with 1,646,038 instances of interest for object detection and 3,711 trajectories for object tracking. We then introduce a motion modeling baseline to improve the detection rate and reduce false alarms based on accumulative multi-frame differencing and robust matrix completion. Finally, we establish the first public benchmark for moving object detection and tracking in satellite videos, and extensively evaluate the performance of several representative approaches on our dataset. Comprehensive experimental analyses and insightful conclusions are also provided. The dataset is available at https://github.com/Q ingyongHu/VISO.
翻訳日:2021-11-30 12:55:12 公開日:2021-11-25
# (参考訳) 多エージェント強化学習における分散ポリシの分散化 [全文訳有]

Distributed Policy Gradient with Variance Reduction in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2111.12961v1 )

ライセンス: CC BY 4.0
Xiaoxiao Zhao, Jinlong Lei, Li Li(参考訳) 本稿では、協調型マルチエージェント強化学習(MARL)における分散ポリシー勾配について検討し、コミュニケーションネットワーク上のエージェントが、すべてのエージェントのローカルリターンの平均を最大化するための最適なポリシーを見つけることを目的とする。 ポリシー勾配の非コンケーブ性能関数のため、既存の凸問題に対する分散確率最適化法は、marlのポリシー勾配に直接使用することはできない。 本稿では,政策勾配の高分散に対処するために分散低減と勾配追従を伴う分散ポリシー勾配を提案し,サンプリング過程における非定常問題を解決するために重要度重みを用いる。 次に、平均二乗定常ギャップの上限を与え、イテレーション数、ミニバッチサイズ、エポックサイズ、問題パラメータ、ネットワークトポロジーに依存する。 さらにサンプルと通信の複雑さを確立して、$\epsilon$-approxima te stationary pointを得る。 MARLにおける制御問題に関する数値実験を行い,提案アルゴリズムの有効性を検証した。

This paper studies a distributed policy gradient in collaborative multi-agent reinforcement learning (MARL), where agents over a communication network aim to find the optimal policy to maximize the average of all agents' local returns. Due to the non-concave performance function of policy gradient, the existing distributed stochastic optimization methods for convex problems cannot be directly used for policy gradient in MARL. This paper proposes a distributed policy gradient with variance reduction and gradient tracking to address the high variances of policy gradient, and utilizes importance weight to solve the non-stationary problem in the sampling process. We then provide an upper bound on the mean-squared stationary gap, which depends on the number of iterations, the mini-batch size, the epoch size, the problem parameters, and the network topology. We further establish the sample and communication complexity to obtain an $\epsilon$-approxima te stationary point. Numerical experiments on the control problem in MARL are performed to validate the effectiveness of the proposed algorithm.
翻訳日:2021-11-30 12:17:57 公開日:2021-11-25
# (参考訳) ディープニューラルネットワークの実践的展開ステージバックドア攻撃に向けて [全文訳有]

Towards Practical Deployment-Stage Backdoor Attack on Deep Neural Networks ( http://arxiv.org/abs/2111.12965v1 )

ライセンス: CC BY 4.0
Xiangyu Qi, Tinghao Xie, Ruizhe Pan, Jifeng Zhu, Yong Yang, Kai Bu(参考訳) AIセキュリティコミュニティの大きな目標のひとつは、現実世界のアプリケーションのためのディープラーニングモデルを安全かつ確実に生成し、デプロイすることだ。 この目的のために、プロダクションステージ(あるいはトレーニングステージ)におけるディープニューラルネットワーク(dnn)に対するデータ中毒ベースのバックドア攻撃や、それに対応する防御策が近年広く検討されている。 皮肉なことに、デプロイ段階でのバックドア攻撃は、プロでないユーザのデバイスで頻繁に起こり、現実世界のシナリオではるかに脅威になっているため、コミュニティの注意をはるかに少なくする。 この警戒の不均衡は、既存の展開段階のバックドア攻撃アルゴリズムの弱い実用性と、実世界の攻撃デモの不十分さに起因する。 そこで本研究では,DNNに対するデプロイステージバックドア攻撃の現実的な脅威について検討する。 私たちは、一般的なデプロイメントステージ攻撃パラダイムである、敵の重み攻撃(adversarial weight attack)に基づいて、敵がデプロイされたdnnにバックドアを埋め込むためにモデル重みを選択的に変更します。 そこで本研究では, 被害者モデルのアーキテクチャ情報のみを必要とせず, 実世界の物理的トリガをサポートするサブネット置換アタック (sra) というバックドアインジェクションのための, 初のグレイボックスと物理的に実現可能な重み付けアタックアルゴリズムを提案する。 大規模実験シミュレーションとシステムレベルの実世界攻撃実証を行う。 本研究は,攻撃アルゴリズムの有効性と実用性を示唆するだけでなく,ユーザデバイスのDNNモデルにバックドアを密かに注入する新たなタイプのコンピュータウイルスの実用的リスクを明らかにする。 本稿では,デプロイメントステージにおけるDNNの脆弱性について,より注意を払っている。

One major goal of the AI security community is to securely and reliably produce and deploy deep learning models for real-world applications. To this end, data poisoning based backdoor attacks on deep neural networks (DNNs) in the production stage (or training stage) and corresponding defenses are extensively explored in recent years. Ironically, backdoor attacks in the deployment stage, which can often happen in unprofessional users' devices and are thus arguably far more threatening in real-world scenarios, draw much less attention of the community. We attribute this imbalance of vigilance to the weak practicality of existing deployment-stage backdoor attack algorithms and the insufficiency of real-world attack demonstrations. To fill the blank, in this work, we study the realistic threat of deployment-stage backdoor attacks on DNNs. We base our study on a commonly used deployment-stage attack paradigm -- adversarial weight attack, where adversaries selectively modify model weights to embed backdoor into deployed DNNs. To approach realistic practicality, we propose the first gray-box and physically realizable weights attack algorithm for backdoor injection, namely subnet replacement attack (SRA), which only requires architecture information of the victim model and can support physical triggers in the real world. Extensive experimental simulations and system-level real-world attack demonstrations are conducted. Our results not only suggest the effectiveness and practicality of the proposed attack algorithm, but also reveal the practical risk of a novel type of computer virus that may widely spread and stealthily inject backdoor into DNN models in user devices. By our study, we call for more attention to the vulnerability of DNNs in the deployment stage.
翻訳日:2021-11-30 10:02:56 公開日:2021-11-25
# (参考訳) A-Muze-Net:生成メロディに基づくハーモニーの構成による音楽生成 [全文訳有]

A-Muze-Net: Music Generation by Composing the Harmony based on the Generated Melody ( http://arxiv.org/abs/2111.12986v1 )

ライセンス: CC BY 4.0
Or Goren, Eliya Nachmani, Lior Wolf(参考訳) ピアノ音楽のmidiファイルを生成する方法を提案する。 この方法は、左手を右手に固定した2つのネットワークを用いて、左右の手をモデル化する。 このように、和声の前にメロディが生成される。 midiは音階に不変な方法で表現され、メロディは和音を調律するために、和音として見なされる各バーの内容によって表現される。 最後に、生成した音声を豊かにするために、このコード表現に基づいて音符をランダムに追加する。 本実験は,これらのデータセットをトレーニングするための技術の現状を大幅に改善し,各新規成分の寄与を実証した。

We present a method for the generation of Midi files of piano music. The method models the right and left hands using two networks, where the left hand is conditioned on the right hand. This way, the melody is generated before the harmony. The Midi is represented in a way that is invariant to the musical scale, and the melody is represented, for the purpose of conditioning the harmony, by the content of each bar, viewed as a chord. Finally, notes are added randomly, based on this chord representation, in order to enrich the generated audio. Our experiments show a significant improvement over the state of the art for training on such datasets, and demonstrate the contribution of each of the novel components.
翻訳日:2021-11-30 09:35:34 公開日:2021-11-25
# (参考訳) 深層学習を用いた高忠実度非線形ダイナミクスの低次元準数値埋め込み学習 [全文訳有]

Learning Low-Dimensional Quadratic-Embeddings of High-Fidelity Nonlinear Dynamics using Deep Learning ( http://arxiv.org/abs/2111.12995v1 )

ライセンス: CC BY 4.0
Pawan Goyal and Peter Benner(参考訳) データから動的モデルを学ぶことは、エンジニアリング設計、最適化、予測において重要な役割を果たす。 経験的知識や最初の原則を用いた複雑なプロセスのダイナミクス(例えば、気象力学やリアクティブフロー)を記述するモデルの構築は、単発的あるいは実現不可能である。 さらに、これらのモデルは高次元であるが空間的に相関している。 しかし、高忠実度モデルの力学は低次元多様体においてしばしば進化する。 さらに、非線形力学を定義する十分滑らかなベクトル場に対して、二次モデルは適切な座標系で正確に記述することができ、非凸最適化におけるマッコーミック緩和のアイデアを参照することができる。 ここでは、高忠実度力学データの低次元埋め込みを見つけ、そのダイナミクスを説明するための単純な二次モデルを確実にする。 この目的のために、この研究はディープラーニングを活用して、高忠実度力学系に対する低次元二次埋め込みを特定する。 正確には、埋め込みの望ましい特性を持つためにオートエンコーダを使用してデータの埋め込みを識別する。 また、時間微分計算を避けるためにRunge-Kutta法を組み込むことも困難である。 流れの動力学と振動型管状反応器モデルを記述する際に生じるいくつかの例によって、このアプローチの能力を説明する。

Learning dynamical models from data plays a vital role in engineering design, optimization, and predictions. Building models describing dynamics of complex processes (e.g., weather dynamics, or reactive flows) using empirical knowledge or first principles are onerous or infeasible. Moreover, these models are high-dimensional but spatially correlated. It is, however, observed that the dynamics of high-fidelity models often evolve in low-dimensional manifolds. Furthermore, it is also known that for sufficiently smooth vector fields defining the nonlinear dynamics, a quadratic model can describe it accurately in an appropriate coordinate system, conferring to the McCormick relaxation idea in nonconvex optimization. Here, we aim at finding a low-dimensional embedding of high-fidelity dynamical data, ensuring a simple quadratic model to explain its dynamics. To that aim, this work leverages deep learning to identify low-dimensional quadratic embeddings for high-fidelity dynamical systems. Precisely, we identify the embedding of data using an autoencoder to have the desired property of the embedding. We also embed a Runge-Kutta method to avoid the time-derivative computations, which is often a challenge. We illustrate the ability of the approach by a couple of examples, arising in describing flow dynamics and the oscillatory tubular reactor model.
翻訳日:2021-11-30 09:26:26 公開日:2021-11-25
# (参考訳) きめ細かい画像操作のためのスタイルGANの属性固有制御系 [全文訳有]

Attribute-specific Control Units in StyleGAN for Fine-grained Image Manipulation ( http://arxiv.org/abs/2111.13010v1 )

ライセンス: CC BY 4.0
Rui Wang, Jian Chen, Gang Yu, Li Sun, Changqian Yu, Changxin Gao, Nong Sang(参考訳) Image manipulation with StyleGAN has been an increasing concern in recent years.Recent works have achieved tremendous success in analyzing several semantic latent spaces to edit the attributes of the generated images.However, due to the limited semantic and spatial manipulation precision in these latent spaces, the existing endeavors are defeated in fine-grained StyleGAN image manipulation, i.e., local attribute translation.To address this issue, we discover attribute-specific control units, which consist of multiple channels of feature maps and modulation styles. 具体的には、制御ユニット内の変調スタイルのチャネルと特徴マップを個別ではなく協調的に操作し、意味的および空間的不整合制御を得る。 さらに,属性固有の制御ユニットを簡易かつ効果的に検出する手法を提案する。 我々は、変調スタイルを特定のスパース方向ベクトルに沿って移動させ、これらの制御ユニットを操作するために特徴マップを計算するために使用されるフィルタワイズスタイルを置き換える。 種々の顔属性操作タスクにおける提案手法の評価を行った。 その結果,提案手法は最先端の手法に対して有効であることがわかった。 実画像の操作結果はさらに,本手法の有効性を示す。

Image manipulation with StyleGAN has been an increasing concern in recent years.Recent works have achieved tremendous success in analyzing several semantic latent spaces to edit the attributes of the generated images.However, due to the limited semantic and spatial manipulation precision in these latent spaces, the existing endeavors are defeated in fine-grained StyleGAN image manipulation, i.e., local attribute translation.To address this issue, we discover attribute-specific control units, which consist of multiple channels of feature maps and modulation styles. Specifically, we collaboratively manipulate the modulation style channels and feature maps in control units rather than individual ones to obtain the semantic and spatial disentangled controls. Furthermore, we propose a simple yet effective method to detect the attribute-specific control units. We move the modulation style along a specific sparse direction vector and replace the filter-wise styles used to compute the feature maps to manipulate these control units. We evaluate our proposed method in various face attribute manipulation tasks. Extensive qualitative and quantitative results demonstrate that our proposed method performs favorably against the state-of-the-art methods. The manipulation results of real images further show the effectiveness of our method.
翻訳日:2021-11-30 09:11:03 公開日:2021-11-25
# (参考訳) 単一rgb画像からの回転同変3次元ハンドメッシュ生成 [全文訳有]

Rotation Equivariant 3D Hand Mesh Generation from a Single RGB Image ( http://arxiv.org/abs/2111.13023v1 )

ライセンス: CC BY 4.0
Joshua Mitton, Chaitanya Kaul, Roderick Murray-Smith(参考訳) 2次元RGB画像から3次元手メッシュを生成する回転同変モデルを開発した。 これにより、手入力画像が回転されると、生成されたメッシュは対応する回転を行う。 さらに、これは回転平衡のない方法でしばしば生じるメッシュの望ましくない変形を除去する。 回転同変モデルを構築することにより,問題の対称性を考慮し,メッシュ再構成を達成するために,非常に大きなデータセットのトレーニングの必要性を低減できる。 encoder は $\mathbb{Z}^{2}$ で定義された画像を取得し、これらを群 $C_{8}$ で定義された潜在関数にマッピングする。 我々は、$c_{8}$ で定義される関数を、群 $\mathrm{so}(2)$ で定義される潜点クラウド空間にマッピングするために、新しいベクトル写像関数を導入する。 さらに、$\mathrm{SO}(2)$ latent 空間から3次元関数を学習する3次元射影関数を導入する。 最後に、回転同値性を保証するために$\mathrm{so}(3)$同変デコーダを用いる。 回転同変モデルは,実世界のデータセットにおける最先端の手法よりも優れており,入力手の回転下で生成されたメッシュの形状とポーズを正確に把握できることを実証する。

We develop a rotation equivariant model for generating 3D hand meshes from 2D RGB images. This guarantees that as the input image of a hand is rotated the generated mesh undergoes a corresponding rotation. Furthermore, this removes undesirable deformations in the meshes often generated by methods without rotation equivariance. By building a rotation equivariant model, through considering symmetries in the problem, we reduce the need for training on very large datasets to achieve good mesh reconstruction. The encoder takes images defined on $\mathbb{Z}^{2}$ and maps these to latent functions defined on the group $C_{8}$. We introduce a novel vector mapping function to map the function defined on $C_{8}$ to a latent point cloud space defined on the group $\mathrm{SO}(2)$. Further, we introduce a 3D projection function that learns a 3D function from the $\mathrm{SO}(2)$ latent space. Finally, we use an $\mathrm{SO}(3)$ equivariant decoder to ensure rotation equivariance. Our rotation equivariant model outperforms state-of-the-art methods on a real-world dataset and we demonstrate that it accurately captures the shape and pose in the generated meshes under rotation of the input hand.
翻訳日:2021-11-30 08:59:22 公開日:2021-11-25
# (参考訳) 認知ロボティクスの慣用的枠組みに向けて [全文訳有]

Toward an Idiomatic Framework for Cognitive Robotics ( http://arxiv.org/abs/2111.13027v1 )

ライセンス: CC BY 4.0
Malte R. Damgaard, Rasmus Pedersen and Thomas Bak(参考訳) https://doi.org/10.1 515/jagi-2016-0001で示された"cognitive hour-glass"モデルに触発されて、認知ロボティクスを対象とした認知アーキテクチャを開発するための新しいフレームワークを提案する。 提案フレームワークの目的は,既存の成果の協調や軽減,再利用を奨励し,認知アーキテクチャの開発を容易にすることである。 これは認知アーキテクチャの開発を、部分的に分離して考えられる一連のレイヤに分割し、その一部は他の研究分野に直接関係するフレームワークを提案することによって行われる。 最後に,提案フレームワークに不可欠なトピックについて紹介し,レビューする。

Inspired by the "Cognitive Hour-glass" model presented in https://doi.org/10.1 515/jagi-2016-0001, we propose a new framework for developing cognitive architectures aimed at cognitive robotics. The purpose of the proposed framework is foremost to ease the development of cognitive architectures by encouraging and mitigating cooperation and re-use of existing results. This is done by proposing a framework dividing the development of cognitive architectures into a series of layers that can be considered partly in isolation, and some of which directly relate to other research fields. Finally, we give introductions to and review some topics essential to the proposed framework.
翻訳日:2021-11-30 08:46:03 公開日:2021-11-25
# (参考訳) データから動的システムを学ぶ:単純なクロスバリデーションの観点から(その3):不規則にサンプリングされた時系列 [全文訳有]

Learning dynamical systems from data: A simple cross-validation perspective, part III: Irregularly-Sampled Time Series ( http://arxiv.org/abs/2111.13037v1 )

ライセンス: CC BY 4.0
Jonghyeon Lee, Edward De Brouwer, Boumediene Hamzi, Houman Owhadi(参考訳) データから動的システムを学ぶためのシンプルで解釈可能な方法は、ベクトル場とカーネルを補間することである。 特にこの戦略は、カーネルが Kernel Flows (KF)~\cite{Owhadi19} を用いてデータ適応されている場合(精度と複雑さの両面で)非常に効率的である。 前回の成功にもかかわらず、この戦略(力学系を駆動するベクトル場を補間することに基づく)は、観測された時系列が定期的にサンプリングされないと崩壊する。 本研究では,KFデータ適応カーネルにおける観測時間差を組み込むことで,動的システムのベクトル場を直接近似することにより,この問題に対処することを提案する。 提案手法を,異なるベンチマーク力学系に対する古典的手法と比較し,単純で高速で頑健なままで予測精度を大幅に向上させることを示した。

A simple and interpretable way to learn a dynamical system from data is to interpolate its vector-field with a kernel. In particular, this strategy is highly efficient (both in terms of accuracy and complexity) when the kernel is data-adapted using Kernel Flows (KF)~\cite{Owhadi19} (which uses gradient-based optimization to learn a kernel based on the premise that a kernel is good if there is no significant loss in accuracy if half of the data is used for interpolation). Despite its previous successes, this strategy (based on interpolating the vector field driving the dynamical system) breaks down when the observed time series is not regularly sampled in time. In this work, we propose to address this problem by directly approximating the vector field of the dynamical system by incorporating time differences between observations in the (KF) data-adapted kernels. We compare our approach with the classical one over different benchmark dynamical systems and show that it significantly improves the forecasting accuracy while remaining simple, fast, and robust.
翻訳日:2021-11-30 08:11:33 公開日:2021-11-25
# (参考訳) DeepJSCC-Q:チャネル入力に制約のあるディープジョイントソースチャネル符号化 [全文訳有]

DeepJSCC-Q: Channel Input Constrained Deep Joint Source-Channel Coding ( http://arxiv.org/abs/2111.13042v1 )

ライセンス: CC BY 4.0
Tze-Yang Tung, David Burth Kurka, Mikolaj Jankowski, Deniz G\"und\"uz(参考訳) 近年の研究では、機械学習技術を用いて画像の無線伝送のタスクを学習できることが示されている。 ソースとチャネルの符号化分離を利用した一般的なディジタルスキームよりも優れた、エンドツーエンドの画像品質の極めて有望な結果が、オートエンコーダのトレーニングを通じて実証されている。 しかしながら、これらの手法は、任意の複雑な値をチャネル越しに送信できると仮定し、ハードウェアやプロトコルがデジタルコンステレーションの使用のような特定のチャネル入力のみを許容できるシナリオにおけるアルゴリズムの適用を防止することができる。 本稿では、固定チャネル入力アルファベットで動作可能な無線画像伝送のためのエンドツーエンドのジョイントソースチャネル符号化方式であるDeepJSCC-Qを提案する。 本稿では,DeepJSCC-Qが連続評価チャネル入力を用いたモデルと同等の性能が得られることを示す。 重要なことは、チャネル条件が悪化する前の作業で観察された画質の優雅な劣化を保ち、DeepJSCC-Qが実用的なシステムに展開するのにずっと魅力的である。

Recent works have shown that the task of wireless transmission of images can be learned with the use of machine learning techniques. Very promising results in end-to-end image quality, superior to popular digital schemes that utilize source and channel coding separation, have been demonstrated through the training of an autoencoder, with a non-trainable channel layer in the middle. However, these methods assume that any complex value can be transmitted over the channel, which can prevent the application of the algorithm in scenarios where the hardware or protocol can only admit certain sets of channel inputs, such as the use of a digital constellation. Herein, we propose DeepJSCC-Q, an end-to-end optimized joint source-channel coding scheme for wireless image transmission, which is able to operate with a fixed channel input alphabet. We show that DeepJSCC-Q can achieve similar performance to models that use continuous-valued channel input. Importantly, it preserves the graceful degradation of image quality observed in prior work when channel conditions worsen, making DeepJSCC-Q much more attractive for deployment in practical systems.
翻訳日:2021-11-30 07:57:01 公開日:2021-11-25
# (参考訳) MegLoc:ロバストで正確なビジュアルローカライゼーションパイプライン [全文訳有]

MegLoc: A Robust and Accurate Visual Localization Pipeline ( http://arxiv.org/abs/2111.13063v1 )

ライセンス: CC BY 4.0
Shuxue Peng, Zihang He, Haotian Zhang, Ran Yan, Chuting Wang, Qingtian Zhu, Xiao Liu(参考訳) 本稿では,屋内と屋外のシーン,1日ごとの異なる時間,1年ごとの異なる季節,さらには数年にわたるさまざまなシナリオにおいて,ロバストで正確な6-DoFポーズ推定を行うための視覚的ローカライゼーションパイプラインMegLocを提案する。 MegLocは、ICCV 2021の屋外および屋内視覚的ローカライゼーションチャレンジ、変化条件下での長期的な視覚的ローカライゼーションに関するワークショップ、ICCV 2021の地図ベースのローカライゼーションワークショップにおけるICCV 2021の自律運転のための再ローカライゼーションチャレンジなど、さまざまな挑戦的なデータセットに関する最先端の結果を達成している。

In this paper, we present a visual localization pipeline, namely MegLoc, for robust and accurate 6-DoF pose estimation under varying scenarios, including indoor and outdoor scenes, different time across a day, different seasons across a year, and even across years. MegLoc achieves state-of-the-art results on a range of challenging datasets, including winning the Outdoor and Indoor Visual Localization Challenge of ICCV 2021 Workshop on Long-term Visual Localization under Changing Conditions, as well as the Re-localization Challenge for Autonomous Driving of ICCV 2021 Workshop on Map-based Localization for Autonomous Driving.
翻訳日:2021-11-30 07:44:09 公開日:2021-11-25
# (参考訳) DAI(Dataset-Architec ture-Initialization) におけるグラディエントDescentの成功予測 [全文訳有]

Predicting the success of Gradient Descent for a particular Dataset-Architecture -Initialization (DAI) ( http://arxiv.org/abs/2111.13075v1 )

ライセンス: CC BY 4.0
Umangi Jain, Harish G. Ramaswamy(参考訳) その大きな成功にもかかわらず、成功したディープニューラルネットワークのトレーニングは、アーキテクチャ、ハイパーパラメータ、初期化、トレーニングメカニズムを実験的に選択することに大きく依存している。 本研究では,特定のデータセット,アーキテクチャ,初期化(dai)の組み合わせでディープニューラルネットワークをトレーニングするための,標準的な勾配降下法の成功について検討する。 DNNの隠れ層から得られる行列の特異値の進化は、教師付き学習パラダイムに検証ラベルがない場合でも、DAIを訓練するための勾配降下法の成功を決定するのに有効であることを示す。 この現象は、トレーニングプロセスの早い段階で、うまく一般化しないと予測されるニューラルネットワークのトレーニングを停止することで、早期の学習を促進することができる。 複数のデータセット、アーキテクチャ、初期化をまたいだ実験により、提案したスコアは、判断を下すために、より早い時期の検証精度に頼るよりも、DAIの成功を正確に予測できることがわかった。

Despite their massive success, training successful deep neural networks still largely relies on experimentally choosing an architecture, hyper-parameters, initialization, and training mechanism. In this work, we focus on determining the success of standard gradient descent method for training deep neural networks on a specified dataset, architecture, and initialization (DAI) combination. Through extensive systematic experiments, we show that the evolution of singular values of the matrix obtained from the hidden layers of a DNN can aid in determining the success of gradient descent technique to train a DAI, even in the absence of validation labels in the supervised learning paradigm. This phenomenon can facilitate early give-up, stopping the training of neural networks which are predicted to not generalize well, early in the training process. Our experimentation across multiple datasets, architectures, and initializations reveals that the proposed scores can more accurately predict the success of a DAI than simply relying on the validation accuracy at earlier epochs to make a judgment.
翻訳日:2021-11-30 07:36:21 公開日:2021-11-25
# (参考訳) BoxeR:2Dおよび3Dトランスのためのボックスアテンション [全文訳有]

BoxeR: Box-Attention for 2D and 3D Transformers ( http://arxiv.org/abs/2111.13087v1 )

ライセンス: CC BY 4.0
Duy-Kien Nguyen, Jihong Ju, Olaf Booji, Martin R. Oswald, Cees G. M. Snoek(参考訳) 本稿では,Box-Attentionと呼ばれるシンプルな注意機構を提案する。 興味のある箱からサンプリングされたグリッド機能間の空間的相互作用を可能にし、複数の視覚タスクにおけるトランスフォーマーの学習能力を向上させる。 具体的には,入力特徴マップ上の参照ウィンドウからの変換を予測して,ボックスセットに随伴するbox transformerの短縮形boxerを提案する。 BoxeRは、これらのボックスの重みをグリッド構造を考慮して計算する。 特にBoxeR-2Dはそのアテンションモジュール内のボックス情報を自然に理由付けており、エンドツーエンドのインスタンス検出とセグメンテーションタスクに適している。 BoxeR-3Dは、ボックスアテンションモジュールの回転に対する不変性を学習することにより、鳥眼面から識別情報を生成し、3次元のエンドツーエンド物体検出を行う。 実験により,提案したBoxeR-2DはCOCO検出の精度が向上し,COCOインスタンスセグメンテーション上でのMask R-CNNと同等の性能を示した。 BoxeR-3Dは、クラス固有の最適化なしに、Waymo Openの車両カテゴリーで魅力的な性能をすでに取得している。 コードはリリースされます。

In this paper, we propose a simple attention mechanism, we call Box-Attention. It enables spatial interaction between grid features, as sampled from boxes of interest, and improves the learning capability of transformers for several vision tasks. Specifically, we present BoxeR, short for Box Transformer, which attends to a set of boxes by predicting their transformation from a reference window on an input feature map. The BoxeR computes attention weights on these boxes by considering its grid structure. Notably, BoxeR-2D naturally reasons about box information within its attention module, making it suitable for end-to-end instance detection and segmentation tasks. By learning invariance to rotation in the box-attention module, BoxeR-3D is capable of generating discriminative information from a bird-eye-view plane for 3D end-to-end object detection. Our experiments demonstrate that the proposed BoxeR-2D achieves better results on COCO detection, and reaches comparable performance with well-established and highly-optimized Mask R-CNN on COCO instance segmentation. BoxeR-3D already obtains a compelling performance for the vehicle category of Waymo Open, without any class-specific optimization. The code will be released.
翻訳日:2021-11-30 07:23:22 公開日:2021-11-25
# (参考訳) 幾何学的文脈を用いたシーングラフ生成 [全文訳有]

Scene Graph Generation with Geometric Context ( http://arxiv.org/abs/2111.13131v1 )

ライセンス: CC BY 4.0
Vishal Kumar, Albert Mundu, Satish Kumar Singh(参考訳) Scene Graph Generationは、視覚的な質問応答、画像キャプション、自動運転車、群衆の行動分析、アクティビティ認識など、画像理解プロジェクトへの需要が高まり、コンピュータビジョン研究で注目を集めている。 画像の視覚的に接地されたグラフィカルな構造であるシーングラフは、画像理解タスクを単純化するのに非常に役立ちます。 本研究では,視覚シーンをより幾何学的に理解するために,Geometric Contextというポストプロセッシングアルゴリズムを導入した。 この後処理アルゴリズムを用いて,対象対間の幾何学的関係を先行モデルに追加・洗練する。 このコンテキストを利用して、オブジェクトペア間の方向と距離を計算する。 私たちはベースラインモデルとしてknowledge embedded routing network(kern)を使用し、アルゴリズムで作業を拡張し、最新の最先端アルゴリズムで比較結果を示します。

Scene Graph Generation has gained much attention in computer vision research with the growing demand in image understanding projects like visual question answering, image captioning, self-driving cars, crowd behavior analysis, activity recognition, and more. Scene graph, a visually grounded graphical structure of an image, immensely helps to simplify the image understanding tasks. In this work, we introduced a post-processing algorithm called Geometric Context to understand the visual scenes better geometrically. We use this post-processing algorithm to add and refine the geometric relationships between object pairs to a prior model. We exploit this context by calculating the direction and distance between object pairs. We use Knowledge Embedded Routing Network (KERN) as our baseline model, extend the work with our algorithm, and show comparable results on the recent state-of-the-art algorithms.
翻訳日:2021-11-30 07:03:09 公開日:2021-11-25
# (参考訳) 競合管理によるハイブリッドプロセス仕様の監視:オートマタ理論的アプローチ [全文訳有]

Monitoring Hybrid Process Specifications with Conflict Management: The Automata-theoretic Approach ( http://arxiv.org/abs/2111.13136v1 )

ライセンス: CC BY 4.0
Anti Alman, Fabrizio Maria Maggi, Marco Montali, Fabio Patrizi, and Andrey Rivkin(参考訳) ビジネスプロセスモニタリングのアプローチは、これまでは主に単一のプロセスモデルに関してプロセスの実行を監視することに重点を置いてきた。 しかし、場合によっては複数のプロセス仕様を同時に検討する必要がある。 さらに、これらの仕様は手続き的、宣言的、あるいは両方の組み合わせでもよい。 例えば、医学領域において、特定の疾患の治療を記述した臨床ガイドラインは、特定の患者と共存できる全てのコファクターを考慮できないため、追加の制約を考慮する必要がある。 場合によっては、これらの制約は臨床ガイドラインと相容れない場合があるため、ガイドラインまたは制約に違反する必要がある。 本稿では,ペトリネットと時間論理規則の組み合わせとして表現されたハイブリッドプロセス仕様の相互作用を監視するためのソリューションを提案する。 プロセス実行中、これらの仕様が互いに矛盾している場合、それらの一部に違反する可能性がある。 監視システムは、違反を回避するか、違反の合計コストを最小にするかのどちらかの方法で、システムが次の行動経路を推奨できる違反コストモデルを備えている。

Business process monitoring approaches have thus far mainly focused on monitoring the execution of a process with respect to a single process model. However, in some cases it is necessary to consider multiple process specifications simultaneously. In addition, these specifications can be procedural, declarative, or a combination of both. For example, in the medical domain, a clinical guideline describing the treatment of a specific disease cannot account for all possible co-factors that can coexist for a specific patient and therefore additional constraints may need to be considered. In some cases, these constraints may be incompatible with clinical guidelines, therefore requiring the violation of either the guidelines or the constraints. In this paper, we propose a solution for monitoring the interplay of hybrid process specifications expressed as a combination of (data-aware) Petri nets and temporal logic rules. During the process execution, if these specifications are in conflict with each other, it is possible to violate some of them. The monitoring system is equipped with a violation cost model according to which the system can recommend the next course of actions in a way that would either avoid possible violations or minimize the total cost of violations.
翻訳日:2021-11-30 06:55:13 公開日:2021-11-25
# (参考訳) TunBERT:チュニジア方言のための事前制約付き文脈化テキスト表現 [全文訳有]

TunBERT: Pretrained Contextualized Text Representation for Tunisian Dialect ( http://arxiv.org/abs/2111.13138v1 )

ライセンス: CC0 1.0
Abir Messaoudi and Ahmed Cheikhrouhou and Hatem Haddad and Nourchene Ferchichi and Moez BenHajhmida and Abir Korched and Malek Naski and Faten Ghriss and Amine Kerkeni(参考訳) 事前訓練された文脈化テキスト表現モデルは、自然言語の効果的な表現を学び、機械で理解できるようにする。 注目機構の突破後、トランスフォーマーの導入以来、優れた性能を達成するために、新しい世代の事前訓練モデルが提案されている。 変換器(BERT)からの双方向エンコーダ表現は言語理解の最先端モデルとなっている。 その成功にもかかわらず、利用可能なモデルのほとんどはインド・ヨーロッパ語族の言語で訓練されているが、低表現言語や方言に関する同様の研究はいまだに乏しい。 本稿では,チュニジア方言に特化しつつ,表現度の低い言語に対する単言語トランスフォーマーに基づく言語モデルの学習の可能性について検討する。 感情分析タスク,方言識別タスク,読解質問応答タスクにおいて言語モデルを評価する。 このような非標準化言語では,構造化データ(wikipedia, articlesなど)ではなく,ノイズの多い web クローラーデータの利用がより便利であることを示す。 さらに, 比較的小さなWebクローリングデータセットが, より大きなデータセットを用いて得られたデータセットと同等の性能を示すことを示す。 最後に、我々の最高のパフォーマンスTunBERTモデルは、3つの下流タスクすべてで最先端のタスクに到達または改善します。 我々はTunBERT事前訓練モデルと微調整に用いるデータセットをリリースする。

Pretrained contextualized text representation models learn an effective representation of a natural language to make it machine understandable. After the breakthrough of the attention mechanism, a new generation of pretrained models have been proposed achieving good performances since the introduction of the Transformer. Bidirectional Encoder Representations from Transformers (BERT) has become the state-of-the-art model for language understanding. Despite their success, most of the available models have been trained on Indo-European languages however similar research for under-represented languages and dialects remains sparse. In this paper, we investigate the feasibility of training monolingual Transformer-based language models for under represented languages, with a specific focus on the Tunisian dialect. We evaluate our language model on sentiment analysis task, dialect identification task and reading comprehension question-answering task. We show that the use of noisy web crawled data instead of structured data (Wikipedia, articles, etc.) is more convenient for such non-standardized language. Moreover, results indicate that a relatively small web crawled dataset leads to performances that are as good as those obtained using larger datasets. Finally, our best performing TunBERT model reaches or improves the state-of-the-art in all three downstream tasks. We release the TunBERT pretrained model and the datasets used for fine-tuning.
翻訳日:2021-11-30 06:34:15 公開日:2021-11-25
# (参考訳) オントロジーに基づくフレキシブル生産システムのためのスキル記述学習 [全文訳有]

Ontology-Based Skill Description Learning for Flexible Production Systems ( http://arxiv.org/abs/2111.13142v1 )

ライセンス: CC BY 4.0
Anna Himmelhuber, Stephan Grimm, Thomas Runkler, Sonja Zillner(参考訳) 資源効率の高い生産の重要性が増すにつれ、製造業者は柔軟な製造機械やプロセスを備えたよりダイナミックな生産環境を構築する必要がある。 自動生産計画による動的生産の可能性を完全に活用するには, 機械の形式的技能記述が不可欠である。 しかし、これらのスキル記述を手作業で作成することは労働集約的であり、広範なドメイン知識を必要とする。 本稿では,インダクティブ論理プログラミングを通じて生産ログと産業オントロジーを利用するオントロジベースの半自動的スキル記述システムを導入し,提案手法の利点と欠点を評価する。

The increasing importance of resource-efficient production entails that manufacturing companies have to create a more dynamic production environment, with flexible manufacturing machines and processes. To fully utilize this potential of dynamic manufacturing through automatic production planning, formal skill descriptions of the machines are essential. However, generating those skill descriptions in a manual fashion is labor-intensive and requires extensive domain-knowledge. In this contribution an ontology-based semi-automatic skill description system that utilizes production logs and industrial ontologies through inductive logic programming is introduced and benefits and drawbacks of the proposed solution are evaluated.
翻訳日:2021-11-30 06:23:01 公開日:2021-11-25
# (参考訳) ストリームを用いたタスクおよびモーションプランニングにおける探索学習 [全文訳有]

Learning to Search in Task and Motion Planning with Streams ( http://arxiv.org/abs/2111.13144v1 )

ライセンス: CC BY 4.0
Mohamed Khodeir and Ben Agro and Florian Shkurti(参考訳) ロボット工学におけるタスク計画と動作計画の問題は通常、離散的なタスク変数のシンボリック計画と連続状態とアクション変数の動作最適化を組み合わせたもので、タスク変数に課される論理的な制約を満たす軌道となる。 シンボリックプランニングはタスク変数の数とともに指数関数的にスケールできるため、PDDLStreamのような最近の研究は、実現可能な軌道が見つかるまで、徐々に成長するオブジェクトや事実の集合による楽観的な計画に焦点を当ててきた。 しかし、この集合は、目の前の問題の幾何学的構造によらず、徹底的に一様に拡張され、多くの物体が不当に時間を要するような長い水平推論を行う。 この問題に対処するために,従来の探索計算から学習したグラフニューラルネットワークに基づくスコアに基づいて,オブジェクトと事実の集合を最優先的に拡張する幾何学的に情報を得た記号プランナを提案する。 我々は,様々な問題に対するアプローチを評価し,大規模あるいは難解なシナリオにおける計画能力の向上を実証する。 また,いくつかのブロックスタッキング操作タスクにおいて,このアルゴリズムを7DOFロボットアームに適用する。

Task and motion planning problems in robotics typically combine symbolic planning over discrete task variables with motion optimization over continuous state and action variables, resulting in trajectories that satisfy the logical constraints imposed on the task variables. Symbolic planning can scale exponentially with the number of task variables, so recent works such as PDDLStream have focused on optimistic planning with an incrementally growing set of objects and facts until a feasible trajectory is found. However, this set is exhaustively and uniformly expanded in a breadth-first manner, regardless of the geometric structure of the problem at hand, which makes long-horizon reasoning with large numbers of objects prohibitively time-consuming. To address this issue, we propose a geometrically informed symbolic planner that expands the set of objects and facts in a best-first manner, prioritized by a Graph Neural Network based score that is learned from prior search computations. We evaluate our approach on a diverse set of problems and demonstrate an improved ability to plan in large or difficult scenarios. We also apply our algorithm on a 7DOF robotic arm in several block-stacking manipulation tasks.
翻訳日:2021-11-30 06:14:34 公開日:2021-11-25
# (参考訳) IoT侵入検知のための機械学習技術の比較分析 [全文訳有]

A Comparative Analysis of Machine Learning Techniques for IoT Intrusion Detection ( http://arxiv.org/abs/2111.13149v1 )

ライセンス: CC BY 4.0
Jo\~ao Vitorino, Rui Andrade, Isabel Pra\c{c}a, Orlando Sousa, Eva Maia(参考訳) デジタルトランスフォーメーションは、大きなセキュリティ上の課題に直面します。 特に、モノのインターネット(IoT)システムをターゲットにするサイバー攻撃の増加は、悪意のあるネットワークアクティビティを確実に検出する必要性を和らげている。 本稿では,iot-23データセットの9つのマルウェアキャプチャに関する教師あり,教師なし,強化学習手法の比較分析を行う。 開発したモデルはサポートベクターマシン(svm)、極端な勾配ブースティング(xgboost)、光勾配ブースティングマシン(lightgbm)、孤立森林(iforest)、局所的外れ因子(lof)、および二重ディープq-ネットワーク(ddqn)に基づく深層強化学習(drl)モデルである。 最高のパフォーマンスはLightGBMで達成され、それにSVMが続いた。 それでもiforestは未知の攻撃に対して良好な結果を示し、drlモデルはこの手法を継続的に検出を改善することの利点を実証した。 以上の結果から,解析手法はIoT侵入検出に適していることが示唆された。

The digital transformation faces tremendous security challenges. In particular, the growing number of cyber-attacks targeting Internet of Things (IoT) systems restates the need for a reliable detection of malicious network activity. This paper presents a comparative analysis of supervised, unsupervised and reinforcement learning techniques on nine malware captures of the IoT-23 dataset, considering both binary and multi-class classification scenarios. The developed models consisted of Support Vector Machine (SVM), Extreme Gradient Boosting (XGBoost), Light Gradient Boosting Machine (LightGBM), Isolation Forest (iForest), Local Outlier Factor (LOF) and a Deep Reinforcement Learning (DRL) model based on a Double Deep Q-Network (DDQN), adapted to the intrusion detection context. The best performance was achieved by LightGBM, closely followed by SVM. Nonetheless, iForest displayed good results against unknown attacks and the DRL model demonstrated the possible benefits of employing this methodology to continuously improve the detection. Overall, the obtained results indicate that the analyzed techniques are well suited for IoT intrusion detection.
翻訳日:2021-11-30 05:59:45 公開日:2021-11-25
# (参考訳) ランダム化確率勾配降下上昇 [全文訳有]

Randomized Stochastic Gradient Descent Ascent ( http://arxiv.org/abs/2111.13162v1 )

ライセンス: CC BY 4.0
Othmane Sebbouh and Marco Cuturi and Gabriel Peyr\'e(参考訳) 既存のアルゴリズムの堅牢性や逆数のような機械学習問題の増加は、それ自体が最大として定義される損失関数を最小化する必要がある。 内)最大化問題における確率勾配上昇(SGA)のループと、(外)最小化に関するSGDステップは、Epoch Stochastic Gradient \textit{Descent Ascent} (ESGDA)として知られている。 実際に成功したが、ESGDAの理論解析は依然として困難であり、内ループサイズの選択や内ステップサイズと外ステップサイズの間の相互作用について明確なガイダンスはない。 より単純な理論的解析により,確率ループサイズのESGDAの変種であるRSGDA(Randomized SGDA)を提案する。 rsgdaには最初の(sgdaアルゴリズムを使った)コンバージェンスレートがほぼ確実に設定されている。 RSGDAは最適ループサイズを用いてパラメータ化することができ、SGDAが持つ最良の収束速度を保証する。 テストベッドとして最適輸送を用いた分散ロバスト最適化と単セルデータマッチングを用いて,おもちゃおよび大規模問題に対してRSGDAを検証した。

An increasing number of machine learning problems, such as robust or adversarial variants of existing algorithms, require minimizing a loss function that is itself defined as a maximum. Carrying a loop of stochastic gradient ascent (SGA) steps on the (inner) maximization problem, followed by an SGD step on the (outer) minimization, is known as Epoch Stochastic Gradient \textit{Descent Ascent} (ESGDA). While successful in practice, the theoretical analysis of ESGDA remains challenging, with no clear guidance on choices for the inner loop size nor on the interplay between inner/outer step sizes. We propose RSGDA (Randomized SGDA), a variant of ESGDA with stochastic loop size with a simpler theoretical analysis. RSGDA comes with the first (among SGDA algorithms) almost sure convergence rates when used on nonconvex min/strongly-concave max settings. RSGDA can be parameterized using optimal loop sizes that guarantee the best convergence rates known to hold for SGDA. We test RSGDA on toy and larger scale problems, using distributionally robust optimization and single-cell data matching using optimal transport as a testbed.
翻訳日:2021-11-30 05:47:00 公開日:2021-11-25
# (参考訳) L''evyノイズによる確率微分方程式の組込みによる時系列予測 [全文訳有]

Time Series Forecasting with Ensembled Stochastic Differential Equations Driven by L\'evy Noise ( http://arxiv.org/abs/2111.13164v1 )

ライセンス: CC BY 4.0
Luxuan Yang, Ting Gao, Yubin Lu, Jinqiao Duan and Tao Liu(参考訳) 現代のディープラーニング技術の急速な発展により、動的システムとニューラルネットワークの研究は多くの異なる方法で互いに恩恵を受けている。 不確実性は現実世界の観測でしばしば発生するので、sdes(stochastic differential equation)は重要な役割を果たす。 より具体的には、ニューラルネットワークを備えたSDEの集合を用いて、大きなジャンプ特性と高い確率分布シフトを持つノイズのある時系列の長期的傾向を予測する。 まず,位相空間再構成法を用いて時系列データの固有次元を抽出し,予測モデルの入力構造を決定する。 第二に、$\alpha$-stable L\'evyの動作によって駆動されるSDEを探索し、時系列データをモデル化し、ニューラルネットワーク近似を用いて問題を解く。 第3に,マルチタイムステップ予測を実現するための注意機構を構築する。 最後に,本手法を株式マーケティング時系列予測に適用し,いくつかのベースラインディープラーニングモデルに勝る結果を示す。

With the fast development of modern deep learning techniques, the study of dynamic systems and neural networks is increasingly benefiting each other in a lot of different ways. Since uncertainties often arise in real world observations, SDEs (stochastic differential equations) come to play an important role. To be more specific, in this paper, we use a collection of SDEs equipped with neural networks to predict long-term trend of noisy time series which has big jump properties and high probability distribution shift. Our contributions are, first, we use the phase space reconstruction method to extract intrinsic dimension of the time series data so as to determine the input structure for our forecasting model. Second, we explore SDEs driven by $\alpha$-stable L\'evy motion to model the time series data and solve the problem through neural network approximation. Third, we construct the attention mechanism to achieve multi-time step prediction. Finally, we illustrate our method by applying it to stock marketing time series prediction and show the results outperform several baseline deep learning models.
翻訳日:2021-11-30 05:08:43 公開日:2021-11-25
# (参考訳) 不完全データからの統計的モデル推定のための変分ギブス推定

Variational Gibbs inference for statistical model estimation from incomplete data ( http://arxiv.org/abs/2111.13180v1 )

ライセンス: CC BY 4.0
Vaidotas Simkus, Benjamin Rhodes, Michael U. Gutmann(参考訳) 統計モデルは、ダウンストリームタスクの幅広い適用性を備えた機械学習の中心である。 モデルは通常、最大形推定によってデータから推定される自由パラメータによって制御される。 しかし、現実のデータセットに直面すると、多くのモデルが重大な問題に直面する。それらは完全な観測データの観点から定式化されているのに対して、実際にはデータセットは欠落データに悩まされている。 不完全データからの統計モデル推定の理論は、変分推論(VI)のような強力なツールが存在する潜在変数モデルの推定と概念的に類似している。 しかし、標準の潜在変数モデルとは対照的に、不完全データを用いたパラメータ推定は、しばしば欠落変数の指数関数的に多くの条件分布を推定する必要がある。 不完全データから統計モデルのパラメータを推定する新しい汎用手法である変分ギブス推論(VGI)を導入することで、このギャップに対処する。 不完全なデータから重要な機械学習モデル、VAE、正規化フローを推定し、VGIを合成的および実世界の一連の推定タスクで検証する。 提案手法は汎用的ではあるが,既存のモデル固有推定法よりも競争力や性能が向上する。

Statistical models are central to machine learning with broad applicability across a range of downstream tasks. The models are typically controlled by free parameters that are estimated from data by maximum-likelihood estimation. However, when faced with real-world datasets many of the models run into a critical issue: they are formulated in terms of fully-observed data, whereas in practice the datasets are plagued with missing data. The theory of statistical model estimation from incomplete data is conceptually similar to the estimation of latent-variable models, where powerful tools such as variational inference (VI) exist. However, in contrast to standard latent-variable models, parameter estimation with incomplete data often requires estimating exponentially-many conditional distributions of the missing variables, hence making standard VI methods intractable. We address this gap by introducing variational Gibbs inference (VGI), a new general-purpose method to estimate the parameters of statistical models from incomplete data. We validate VGI on a set of synthetic and real-world estimation tasks, estimating important machine learning models, VAEs and normalising flows, from incomplete data. The proposed method, whilst general-purpose, achieves competitive or better performance than existing model-specific estimation methods.
翻訳日:2021-11-30 04:51:50 公開日:2021-11-25
# (参考訳) MCMC MRF Particle Filter を用いた対話型マルチターゲット追跡 [全文訳有]

Multiple target tracking with interaction using an MCMC MRF Particle Filter ( http://arxiv.org/abs/2111.13184v1 )

ライセンス: CC BY 4.0
Helder F. S. Campos and Nuno Paulino(参考訳) 本稿では,マルチターゲットトラッキング手法の実装について述べる。この手法は,ターゲットとのインタラクションを処理し,ハイジャックによるトラッカ障害を防止できる。 参照されたアプローチでは、マルコフ連鎖モンテカルロサンプリングステップを用いてフィルタを評価し、新しいサンプルを生成する効率的な提案密度を構築する。 この密度は、時間ステップ毎に生成されるマルコフランダム場(MRF)に基づくターゲット相互作用項を統合する。 MRFはターゲット間の相互作用をモデル化し、複数のターゲットを追跡する際に典型的な粒子フィルタが直面するあいまいさを減らす。 拘束空間に20個の相互作用するアリを含む662個のグレースケールフレームの試験シーケンスを用いて,提案手法と重要サンプリングに基づく独立粒子フィルタのセットを試験し,性能比較を行った。 MRFを用いたターゲット相互作用のモデル化手法は,独立性や相互作用を意識しない粒子フィルタによる追従誤差の多くを精度良く補正する。

This paper presents and discusses an implementation of a multiple target tracking method, which is able to deal with target interactions and prevent tracker failures due to hijacking. The referenced approach uses a Markov Chain Monte Carlo (MCMC) sampling step to evaluate the filter and constructs an efficient proposal density to generate new samples. This density integrates target interaction terms based on Markov Random Fields (MRFs) generated per time step. The MRFs model the interactions between targets in an attempt to reduce tracking ambiguity that typical particle filters suffer from when tracking multiple targets. A test sequence of 662 grayscale frames containing 20 interacting ants in a confined space was used to test both the proposed approach and a set of importance sampling based independent particle filters, to establish a performance comparison. It is shown that the implemented approach of modeling target interactions using MRF successfully corrects many of the tracking errors made by the independent, interaction unaware, particle filters.
翻訳日:2021-11-30 04:50:25 公開日:2021-11-25
# (参考訳) 脳波感情認識における深層学習アルゴリズムの解釈可能性の評価--自閉症を事例として [全文訳有]

Evaluation of Interpretability for Deep Learning algorithms in EEG Emotion Recognition: A case study in Autism ( http://arxiv.org/abs/2111.13208v1 )

ライセンス: CC BY 4.0
Juan Manuel Mayor-Torres, Sara Medina-DeVilliers, Tessa Clarkson, Matthew D. Lerner and Giuseppe Riccardi(参考訳) 説明可能な人工知能(XAI)の現在のモデルでは、深い分類器の訓練のために統計的に絡み合った特徴が提案されるとき、特徴関連性を測定するための信頼性が明らかに、定量化されている。 自閉症スペクトラム障害(asd)のような神経発達障害の早期診断を予測するために、臨床試験におけるディープラーニングの応用が増加している。 しかし、神経活動特徴を用いた信頼性が高く解釈可能な指標を得るためのより信頼性の高いサリエンシマップの導入は、診断や臨床試験の実践的応用にはまだ不十分である。 さらに、asd研究では、顔の表情を予測するために神経指標を使用する深層分類器は、比較的探索されていない。 そこで本研究では,脳波をベースとした表情認識デコードのための畳み込みニューラルネットワーク(CNN)の評価を,新しいRemOve-And-Retrain(R OAR)手法を用いて行った。 具体的には,レイヤ指向性伝播(lrp),パターンネット,パターン帰属,スムースグレード二乗など,よく知られた関連性マップを比較した。 本研究は,脳波に基づく顔の感情認識を成功させるための,より透過的な特徴関連計算を,典型的には発達したASD個人における内物体訓練CNNを用いて統合した最初のものである。

Current models on Explainable Artificial Intelligence (XAI) have shown an evident and quantified lack of reliability for measuring feature-relevance when statistically entangled features are proposed for training deep classifiers. There has been an increase in the application of Deep Learning in clinical trials to predict early diagnosis of neuro-developmental disorders, such as Autism Spectrum Disorder (ASD). However, the inclusion of more reliable saliency-maps to obtain more trustworthy and interpretable metrics using neural activity features is still insufficiently mature for practical applications in diagnostics or clinical trials. Moreover, in ASD research the inclusion of deep classifiers that use neural measures to predict viewed facial emotions is relatively unexplored. Therefore, in this study we propose the evaluation of a Convolutional Neural Network (CNN) for electroencephalograp hy (EEG)-based facial emotion recognition decoding complemented with a novel RemOve-And-Retrain (ROAR) methodology to recover highly relevant features used in the classifier. Specifically, we compare well-known relevance maps such as Layer-Wise Relevance Propagation (LRP), PatternNet, Pattern Attribution, and Smooth-Grad Squared. This study is the first to consolidate a more transparent feature-relevance calculation for a successful EEG-based facial emotion recognition using a within-subject-train ed CNN in typically-developed and ASD individuals.
翻訳日:2021-11-30 04:41:12 公開日:2021-11-25
# (参考訳) 変分量子アルゴリズム学習における雑音誘起勾配の除去 [全文訳有]

Mitigating Noise-Induced Gradient Vanishing in Variational Quantum Algorithm Training ( http://arxiv.org/abs/2111.13209v1 )

ライセンス: CC BY 4.0
Anbang Wu, Gushu Li, Yufei Ding, Yuan Xie(参考訳) 変分量子アルゴリズムは、短期雑音量子コンピュータにおける量子コンピューティングの利点を実証することが期待される。 しかし、そのような変分量子アルゴリズムの訓練は、アルゴリズムのサイズが大きくなるにつれて勾配が消える。 従来の作業では、現実的な量子ハードウェアにおける避けられないノイズ効果によって引き起こされる勾配の消失には対処できない。 本稿では,このような騒音による勾配の解消を緩和する新しい学習手法を提案する。 まず,縮小部分空間にトレースレスオブザーバブルを用いることにより,勾配が著しく向上する新しいコスト関数を導入する。 次に、新しいコスト関数からの勾配で原コスト関数を最適化することにより、同じ最小値に到達できることを証明する。 実験により,本手法は各種タスクの変動量子アルゴリズムに極めて有効であることが示された。

Variational quantum algorithms are expected to demonstrate the advantage of quantum computing on near-term noisy quantum computers. However, training such variational quantum algorithms suffers from gradient vanishing as the size of the algorithm increases. Previous work cannot handle the gradient vanishing induced by the inevitable noise effects on realistic quantum hardware. In this paper, we propose a novel training scheme to mitigate such noise-induced gradient vanishing. We first introduce a new cost function of which the gradients are significantly augmented by employing traceless observables in truncated subspace. We then prove that the same minimum can be reached by optimizing the original cost function with the gradients from the new cost function. Experiments show that our new training scheme is highly effective for major variational quantum algorithms of various tasks.
翻訳日:2021-11-30 04:11:58 公開日:2021-11-25
# (参考訳) 騒音コントラスト型バックドア調整による因果関係のカーネルテスト

A Kernel Test for Causal Association via Noise Contrastive Backdoor Adjustment ( http://arxiv.org/abs/2111.13226v1 )

ライセンス: CC BY 4.0
Robert Hu, Dino Sejdinovic and Robin J. Evans(参考訳) 共同ファウンダーの数が増加するにつれて、因果推論はますます複雑化する。 X$, 共同設立者$Z$, 結果$Y$を条件に, 一般の代替案に対して, <textit{do-null} 仮説 $H_0:\; p(y|\text{\it do}(X=x))=p(y)$ をテストする非パラメトリックな方法を開発する。 限界独立試験のためのヒルベルト・シュミット独立基準(HSIC)に基づいて、バックドアHSIC(bd-HSIC)を提案し、それが校正され、多くの共同設立者の下でバイナリと継続的な治療を行う力を持っていることを実証する。 さらに、bd-HSICで用いられる共分散作用素の推定子の収束特性を確立する。 パラメトリックテストに対するbd-hsicのアドバンテージとデメリットと,境界独立性テストや条件独立性テストとは対照的にdo-nullテストを使うことの重要性について検討した。 完全な実装は \hyperlink{https://github.com/M rHuff/kgformula}{\textt{https://github.com/M rHuff/kgformula}} で見ることができる。

Causal inference grows increasingly complex as the number of confounders increases. Given treatments $X$, confounders $Z$ and outcomes $Y$, we develop a non-parametric method to test the \textit{do-null} hypothesis $H_0:\; p(y|\text{\it do}(X=x))=p(y)$ against the general alternative. Building on the Hilbert Schmidt Independence Criterion (HSIC) for marginal independence testing, we propose backdoor-HSIC (bd-HSIC) and demonstrate that it is calibrated and has power for both binary and continuous treatments under a large number of confounders. Additionally, we establish convergence properties of the estimators of covariance operators used in bd-HSIC. We investigate the advantages and disadvantages of bd-HSIC against parametric tests as well as the importance of using the do-null testing in contrast to marginal independence testing or conditional independence testing. A complete implementation can be found at \hyperlink{https://github.com/M rHuff/kgformula}{\texttt{https://github.com/M rHuff/kgformula}}.
翻訳日:2021-11-30 03:45:22 公開日:2021-11-25
# (参考訳) 平衡ネットワークにおける結合推論と入力最適化 [全文訳有]

Joint inference and input optimization in equilibrium networks ( http://arxiv.org/abs/2111.13236v1 )

ライセンス: CC BY 4.0
Swaminathan Gurumurthy, Shaojie Bai, Zachary Manchester, J. Zico Kolter(参考訳) ディープラーニングにおける多くのタスクは、いくつかの目的を最小化または最大化するためにネットワークへの \emph{inputs} の最適化を伴う。 しかし、このような最適化を行うのは非常にコストがかかり、各グラデーションステップでネットワークを完全前方と後方に通過する。 これは従来のネットワークの深さを予測し、代わりに1つの非線形層の固定点を見つけることによってネットワークの出力を計算するモデルである。 本稿では,この2つの設定の間に自然なシナジーが存在することを示す。 これらの最適化問題に対するdeqsの使用は高価であるが(勾配ステップごとに不動点を計算するのに必要な時間を与える)、勾配に基づく最適化を不動点反復としてキャストできるという事実を活用し、全体的な速度を大幅に改善することができる。 すなわち、ネットワーク入力に対するDECの固定点 \emph{and} の最適化はいずれも、元のネットワークと最適化プロセスの両方を共同でエンコードする単一の ``augmented'' DEQ モデル内で解決される。 実際、手順は十分高速なので、従来の ``inner'' 最適化ループに依存するタスクに対して、効率良く \emph{train} deqモデルを可能にする。 提案手法は,潜在コード上で最適化しながら生成モデルを訓練する,デノイジングやインペインティングなどの逆問題に対するトレーニングモデル,逆トレーニング,勾配に基づくメタラーニングなど,様々なタスクで実証する。

Many tasks in deep learning involve optimizing over the \emph{inputs} to a network to minimize or maximize some objective; examples include optimization over latent spaces in a generative model to match a target image, or adversarially perturbing an input to worsen classifier performance. Performing such optimization, however, is traditionally quite costly, as it involves a complete forward and backward pass through the network for each gradient step. In a separate line of work, a recent thread of research has developed the deep equilibrium (DEQ) model, a class of models that foregoes traditional network depth and instead computes the output of a network by finding the fixed point of a single nonlinear layer. In this paper, we show that there is a natural synergy between these two settings. Although, naively using DEQs for these optimization problems is expensive (owing to the time needed to compute a fixed point for each gradient step), we can leverage the fact that gradient-based optimization can \emph{itself} be cast as a fixed point iteration to substantially improve the overall speed. That is, we \emph{simultaneously} both solve for the DEQ fixed point \emph{and} optimize over network inputs, all within a single ``augmented'' DEQ model that jointly encodes both the original network and the optimization process. Indeed, the procedure is fast enough that it allows us to efficiently \emph{train} DEQ models for tasks traditionally relying on an ``inner'' optimization loop. We demonstrate this strategy on various tasks such as training generative models while optimizing over latent codes, training models for inverse problems like denoising and inpainting, adversarial training and gradient based meta-learning.
翻訳日:2021-11-30 03:44:01 公開日:2021-11-25
# (参考訳) 感覚分析および毒性検出モデルにおける障害者に対するバイアスの同定 [全文訳有]

Identification of Bias Against People with Disabilities in Sentiment Analysis and Toxicity Detection Models ( http://arxiv.org/abs/2111.13259v1 )

ライセンス: CC BY 4.0
Pranav Narayanan Venkit, Shomir Wilson(参考訳) 社会デモグラフィバイアスは自然言語処理において一般的な問題であり、その応用の公平性と整合性に影響を及ぼす。 感情分析では、これらの偏見は、人間の読者が中立とみなす個人的属性に言及するテキストに対する感情予測を損なう可能性がある。 このような差別は、公共部門と民間部門の両方で感情分析の応用に大きな影響を及ぼす可能性がある。 例えば、オンラインの虐待やソーシャルメディアプラットフォームにおける意見分析などのアプリケーションにおける誤った推論は、不正な検閲などの望ましくない問題を引き起こす可能性がある。 本稿では,感情分析と毒性分類モデルを用いて,障害者に対するpwdの差別について述べる。 我々は, pwdの判別方法について詳細に理解するために, 感情分析モデルと毒性分析モデルの検討を行った。 本稿では,障害のバイアスに対する感情分析モデルを探索するための1,126文のコーパスであるBITS(Bias Identification Test in Sentiments)を提案する。 このコーパスを用いて、広く使われている4つの感情分析ツール(TextBlob、VADER、Google Cloud Natural Language API、DistilBERT)と、Jigsawの課題に対する有害なコメントを予測するために訓練された2つの毒性分析モデル(Toxicコメント分類とToxicコメントにおける意図しないバイアス)において、統計的に重要なバイアスを示す。 その結果, いずれも障害に言及した文に強い負のバイアスが認められた。 我々はBITS Corpusを公開して、あらゆる感情分析ツールの障害に対する潜在的なバイアスを特定するとともに、他の社会デマグラフィー変数の試験にも使用されるコーパスを更新する。

Sociodemographic biases are a common problem for natural language processing, affecting the fairness and integrity of its applications. Within sentiment analysis, these biases may undermine sentiment predictions for texts that mention personal attributes that unbiased human readers would consider neutral. Such discrimination can have great consequences in the applications of sentiment analysis both in the public and private sectors. For example, incorrect inferences in applications like online abuse and opinion analysis in social media platforms can lead to unwanted ramifications, such as wrongful censoring, towards certain populations. In this paper, we address the discrimination against people with disabilities, PWD, done by sentiment analysis and toxicity classification models. We provide an examination of sentiment and toxicity analysis models to understand in detail how they discriminate PWD. We present the Bias Identification Test in Sentiments (BITS), a corpus of 1,126 sentences designed to probe sentiment analysis models for biases in disability. We use this corpus to demonstrate statistically significant biases in four widely used sentiment analysis tools (TextBlob, VADER, Google Cloud Natural Language API and DistilBERT) and two toxicity analysis models trained to predict toxic comments on Jigsaw challenges (Toxic comment classification and Unintended Bias in Toxic comments). The results show that all exhibit strong negative biases on sentences that mention disability. We publicly release BITS Corpus for others to identify potential biases against disability in any sentiment analysis tools and also to update the corpus to be used as a test for other sociodemographic variables as well.
翻訳日:2021-11-30 03:17:46 公開日:2021-11-25
# (参考訳) NeSF:3次元シーンの汎用セマンティックセマンティックセグメンテーションのためのニューラルセマンティックフィールド [全文訳有]

NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of 3D Scenes ( http://arxiv.org/abs/2111.13260v1 )

ライセンス: CC BY 4.0
Suhani Vora and Noha Radwan and Klaus Greff and Henning Meyer and Kyle Genova and Mehdi S. M. Sajjadi and Etienne Pot and Andrea Tagliasacchi and Daniel Duckworth(参考訳) 提案するNeSFは,RGB画像のみから3Dセマンティックフィールドを生成する手法である。 従来の3D表現の代わりに、3D構造をポイントワイズ関数で捉えた暗黙のニューラルシーン表現の最近の研究に基づいている。 この手法を用いて3次元密度場を復元し,ポーズ付き2次元意味マップを用いて3次元意味セグメンテーションモデルを学習する。 2D信号だけで訓練されているにもかかわらず、新しいカメラのポーズから3D一貫性のあるセマンティックマップを生成することができ、任意の3Dポイントでクエリできる。 特に、NeSFは密度場を生成する方法と互換性があり、密度場の品質が向上するにつれて精度が向上する。 実験結果から,複雑でリアルに表現された合成シーンにおいて,競合する2次元および3次元意味セグメンテーションベースラインと同等の品質を示す。 本手法は,真に高密度な3dシーンセグメンテーションを提供する最初の方法であり,新たなシーンにおける推論のための意味的入力は不要である。 私たちは読者にプロジェクトのウェブサイトを訪れるよう勧めます。

We present NeSF, a method for producing 3D semantic fields from posed RGB images alone. In place of classical 3D representations, our method builds on recent work in implicit neural scene representations wherein 3D structure is captured by point-wise functions. We leverage this methodology to recover 3D density fields upon which we then train a 3D semantic segmentation model supervised by posed 2D semantic maps. Despite being trained on 2D signals alone, our method is able to generate 3D-consistent semantic maps from novel camera poses and can be queried at arbitrary 3D points. Notably, NeSF is compatible with any method producing a density field, and its accuracy improves as the quality of the density field improves. Our empirical analysis demonstrates comparable quality to competitive 2D and 3D semantic segmentation baselines on complex, realistically rendered synthetic scenes. Our method is the first to offer truly dense 3D scene segmentations requiring only 2D supervision for training, and does not require any semantic input for inference on novel scenes. We encourage the readers to visit the project website.
翻訳日:2021-11-30 03:04:09 公開日:2021-11-25
# (参考訳) 属性ネットワークによる教師なし機能ランキング [全文訳有]

Unsupervised Feature Ranking via Attribute Networks ( http://arxiv.org/abs/2111.13273v1 )

ライセンス: CC BY 4.0
Urh Primo\v{z}i\v{c}, Bla\v{z} \v{S}krlj, Sa\v{s}o D\v{z}eroski and Matej Petkovi\'c(参考訳) ラベルのないデータから学習する必要性は、現代の機械学習で高まっている。 このようなデータ中の最も重要な特徴を識別する教師なし特徴ランキングの手法が注目されているため、高スループット生物実験やレコメンダシステムのためのユーザベースの研究への応用も注目されている。 frane(feature ranking via attribute networks)を提案する。教師なしのアルゴリズムで、与えられたラベルなしデータセットで重要な特徴を見つけることができる。 FRANeはネットワーク再構成とネットワーク解析のアイデアに基づいている。 FRANeは、多数のベンチマークで実証的に示すように、最先端の競合製品よりもパフォーマンスがよい。 さらに,franeのスケーラビリティをさらに実証する時間的複雑性分析も提供する。 最後に、FRANeは機能の重要性を導き出すために使われる解釈可能な関係構造を提供する。

The need for learning from unlabeled data is increasing in contemporary machine learning. Methods for unsupervised feature ranking, which identify the most important features in such data are thus gaining attention, and so are their applications in studying high throughput biological experiments or user bases for recommender systems. We propose FRANe (Feature Ranking via Attribute Networks), an unsupervised algorithm capable of finding key features in given unlabeled data set. FRANe is based on ideas from network reconstruction and network analysis. FRANe performs better than state-of-the-art competitors, as we empirically demonstrate on a large collection of benchmarks. Moreover, we provide the time complexity analysis of FRANe further demonstrating its scalability. Finally, FRANe offers as the result the interpretable relational structures used to derive the feature importances.
翻訳日:2021-11-30 02:10:57 公開日:2021-11-25
# サイクル一貫性対向ネットワークを用いた神経学習解析

Neuronal Learning Analysis using Cycle-Consistent Adversarial Networks ( http://arxiv.org/abs/2111.13073v1 )

ライセンス: Link先を確認
Bryan M. Li, Theoklitos Amvrosiadis, Nathalie Rochefort, Arno Onken(参考訳) タスク学習後に神経回路がどう変化するかを理解することで、学習の基本的なメカニズムを明らかにすることができる。 ニューラルイメージング技術の最近の進歩により、数百のニューロンから、数日から数週間にわたって高品質な記録が得られている。 しかし、人口応答の複雑さと寸法は分析に重大な課題をもたらす。 既存の神経適応と学習の研究方法は、しばしばデータやモデルに強い仮定を課し、一般化しないバイアスのある記述をもたらす。 本研究では,学習前の神経活動と学習後の神経活動の未知のマッピングを学習するために,-cyclegan と呼ばれる深層生成モデルを用いた。 本研究では,カルシウム蛍光信号を前処理し,訓練し,評価するためのエンド・ツー・エンドのパイプラインを開発した。 本手法の有効性を評価するために,我々はまず,既知の基底変換を持つ合成データセット上での枠組みをテストした。 その後,本手法をマウスの一次視覚野から記録された神経活動に応用し,視覚ベースのバーチャルリアリティ実験において,マウスは初頭から専門家レベルのパフォーマンスに移行した。 生成したカルシウム信号とその推定スパイク列車のモデル性能を評価する。 性能を最大化するために、畳み込み型ネットワークが神経活動に存在する空間情報を活用できるように、プリソートニューロンに対する新しいアプローチを導出する。 さらに,作業の解釈性を向上させるために視覚的な説明手法を導入し,細胞活動に現れる学習プロセスへの洞察を得る。 この結果から,データ駆動型深層学習手法による神経学習プロセスの解析が,偏りのない方法で変化を起こす可能性を示唆している。

Understanding how activity in neural circuits reshapes following task learning could reveal fundamental mechanisms of learning. Thanks to the recent advances in neural imaging technologies, high-quality recordings can be obtained from hundreds of neurons over multiple days or even weeks. However, the complexity and dimensionality of population responses pose significant challenges for analysis. Existing methods of studying neuronal adaptation and learning often impose strong assumptions on the data or model, resulting in biased descriptions that do not generalize. In this work, we use a variant of deep generative models called - CycleGAN, to learn the unknown mapping between pre- and post-learning neural activities recorded $\textit{in vivo}$. We develop an end-to-end pipeline to preprocess, train and evaluate calcium fluorescence signals, and a procedure to interpret the resulting deep learning models. To assess the validity of our method, we first test our framework on a synthetic dataset with known ground-truth transformation. Subsequently, we applied our method to neural activities recorded from the primary visual cortex of behaving mice, where the mice transition from novice to expert-level performance in a visual-based virtual reality experiment. We evaluate model performance on generated calcium signals and their inferred spike trains. To maximize performance, we derive a novel approach to pre-sort neurons such that convolutional-based networks can take advantage of the spatial information that exists in neural activities. In addition, we incorporate visual explanation methods to improve the interpretability of our work and gain insights into the learning process as manifested in the cellular activities. Together, our results demonstrate that analyzing neuronal learning processes with data-driven deep unsupervised methods holds the potential to unravel changes in an unbiased way.
翻訳日:2021-11-29 18:24:27 公開日:2021-11-25
# Robust Equivariant Imaging:ノイズと部分的測定から画像を学ぶための完全に教師なしのフレームワーク

Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurements ( http://arxiv.org/abs/2111.12855v1 )

ライセンス: Link先を確認
Dongdong Chen, Juli\'an Tachella, Mike E. Davies(参考訳) 深層ネットワークは、医用画像から計算写真まで、複数の逆解析問題において最先端のパフォーマンスを提供する。 しかし、既存のネットワークの多くは、しばしば入手が困難または不可能なクリーンな信号で訓練されている。 EI(Equivariant Imaging)は、信号分布に存在する群不変性を利用して、部分的測定データのみから再構成関数を学習する、近年の自己教師型学習フレームワークである。 eiの結果は印象的だが、ノイズが増えると性能が低下する。 本稿では,雑音による部分的計測だけで画像化を学べるロバスト同変イメージング(REI)フレームワークを提案する。 提案手法は,stein の unbiased risk estimator (sure) を用いて,雑音に対して頑健な教師なし学習損失を得る。 線形および非線形の逆問題に対してREIがかなりの性能向上をもたらすことを示し、それによってディープネットワークを用いた頑健な教師なしイメージングの道を開いた。 コードは、https://github.com/e dongdongchen/REI.com から入手できる。

Deep networks provide state-of-the-art performance in multiple imaging inverse problems ranging from medical imaging to computational photography. However, most existing networks are trained with clean signals which are often hard or impossible to obtain. Equivariant imaging (EI) is a recent self-supervised learning framework that exploits the group invariance present in signal distributions to learn a reconstruction function from partial measurement data alone. While EI results are impressive, its performance degrades with increasing noise. In this paper, we propose a Robust Equivariant Imaging (REI) framework which can learn to image from noisy partial measurements alone. The proposed method uses Stein's Unbiased Risk Estimator (SURE) to obtain a fully unsupervised training loss that is robust to noise. We show that REI leads to considerable performance gains on linear and nonlinear inverse problems, thereby paving the way for robust unsupervised imaging with deep networks. Code will be available at: https://github.com/e dongdongchen/REI.
翻訳日:2021-11-29 18:20:58 公開日:2021-11-25
# V2C: ビジュアル音声クローン

V2C: Visual Voice Cloning ( http://arxiv.org/abs/2111.12890v1 )

ライセンス: Link先を確認
Qi Chen, Yuanqing Li, Yuankai Qi, Jiaqiu Zhou, Mingkui Tan, Qi Wu(参考訳) 既存のVoice Cloning(VC)タスクは、参照音声によって指定された所望の音声で段落テキストを音声に変換することを目的としている。 これにより、人工音声アプリケーションの開発が大幅に促進された。 しかし、これらのvcのタスクによく反映できないシナリオも数多く存在し、例えば映画ダビングは、映画のプロットと一致した感情を持ってスピーチをする必要がある。 このギャップを埋めるために,本稿では,参照音声によって特定される所望の音声と参照ビデオによって特定される所望の感情の両方を用いて,テキストの段落を音声に変換するVisual Voice Cloning (V2C) というタスクを提案する。 この分野での研究を容易にするために、V2Cアニメーションというデータセットを構築し、既存の最先端VC技術に基づく強力なベースラインを提案する。 私たちのデータセットには、さまざまなジャンル(コメディ、ファンタジーなど)と感情(幸せ、悲しみなど)をカバーする10,217のアニメーション映画クリップが含まれています。 さらに,MCD-DTW-SLという評価指標を設計し,音声と合成音声との類似性を評価する。 実験結果から,SoTAVC手法でさえ,V2Cタスクの満足度の高い音声を生成できないことがわかった。 提案する課題は,構築したデータセットと評価指標と合わせて,音声クローン研究とより広範な視覚言語コミュニティの促進を期待する。

Existing Voice Cloning (VC) tasks aim to convert a paragraph text to a speech with desired voice specified by a reference audio. This has significantly boosted the development of artificial speech applications. However, there also exist many scenarios that cannot be well reflected by these VC tasks, such as movie dubbing, which requires the speech to be with emotions consistent with the movie plots. To fill this gap, in this work we propose a new task named Visual Voice Cloning (V2C), which seeks to convert a paragraph of text to a speech with both desired voice specified by a reference audio and desired emotion specified by a reference video. To facilitate research in this field, we construct a dataset, V2C-Animation, and propose a strong baseline based on existing state-of-the-art (SoTA) VC techniques. Our dataset contains 10,217 animated movie clips covering a large variety of genres (e.g., Comedy, Fantasy) and emotions (e.g., happy, sad). We further design a set of evaluation metrics, named MCD-DTW-SL, which help evaluate the similarity between ground-truth speeches and the synthesised ones. Extensive experimental results show that even SoTA VC methods cannot generate satisfying speeches for our V2C task. We hope the proposed new task together with the constructed dataset and evaluation metric will facilitate the research in the field of voice cloning and the broader vision-and-language community.
翻訳日:2021-11-29 18:20:40 公開日:2021-11-25
# 正方形指数機構による純粋微分プライバシーを用いた効率的な平均推定

Efficient Mean Estimation with Pure Differential Privacy via a Sum-of-Squares Exponential Mechanism ( http://arxiv.org/abs/2111.12981v1 )

ライセンス: Link先を確認
Samuel B. Hopkins, Gautam Kamath, Mahbod Majid(参考訳) 純粋微分プライバシーの対象となる$\tilde{o}(d)$独立サンプルから有界共分散を持つ$d$-変量確率分布の平均を推定する最初の多項式時間アルゴリズムを与える。 この問題の以前のアルゴリズムは指数関数的な実行時間、$\Omega(d^{1.5})$サンプルを必要とするか、より弱い集中あるいは近似的な差分プライバシー条件のみを満たす。 特に、全ての事前多項式時間アルゴリズムは「暗号的に」高い確率で小さなプライバシー損失を保証するために$d^{1+\Omega(1)}$サンプルを必要とするが、我々のアルゴリズムは、この厳密な設定でも$\tilde{O}(d)$サンプル複雑性を保持する。 我々の主な手法は、強力なSum of Squares法(SoS)を用いて微分プライベートアルゴリズムを設計する新しいアプローチである。 アルゴリズムに対するsosの証明は、最近の多くの高次元アルゴリズム統計学における重要なテーマである -- 指数関数的な実行時間を必要とするように見えるが、正方形証明の低次和によって解析されるような推定器は、同じ証明可能な保証で自動的に多項式時間アルゴリズムに変換できる。 指数関数時間を必要とするが、低次sos証明で解析できるワークホース指数関数機構の例を多項式時間微分プライベートアルゴリズムに自動的に変換することができる。 この現象を捉えたメタ理論を証明し、プライベートなアルゴリズム設計において広く使われることを期待する。 我々の手法は、高次元における微分プライベート統計学とロバスト統計学の新たな関係も引き起こす。 特に,アルゴリズムロバスト統計学における最近の研究から得られたいくつかのsos証明は,我々の微分的平均推定アルゴリズムの重要なコンポーネントを直接生み出すものである。

We give the first polynomial-time algorithm to estimate the mean of a $d$-variate probability distribution with bounded covariance from $\tilde{O}(d)$ independent samples subject to pure differential privacy. Prior algorithms for this problem either incur exponential running time, require $\Omega(d^{1.5})$ samples, or satisfy only the weaker concentrated or approximate differential privacy conditions. In particular, all prior polynomial-time algorithms require $d^{1+\Omega(1)}$ samples to guarantee small privacy loss with "cryptographically&qu ot; high probability, $1-2^{-d^{\Omega(1)}}$, while our algorithm retains $\tilde{O}(d)$ sample complexity even in this stringent setting. Our main technique is a new approach to use the powerful Sum of Squares method (SoS) to design differentially private algorithms. SoS proofs to algorithms is a key theme in numerous recent works in high-dimensional algorithmic statistics -- estimators which apparently require exponential running time but whose analysis can be captured by low-degree Sum of Squares proofs can be automatically turned into polynomial-time algorithms with the same provable guarantees. We demonstrate a similar proofs to private algorithms phenomenon: instances of the workhorse exponential mechanism which apparently require exponential time but which can be analyzed with low-degree SoS proofs can be automatically turned into polynomial-time differentially private algorithms. We prove a meta-theorem capturing this phenomenon, which we expect to be of broad use in private algorithm design. Our techniques also draw new connections between differentially private and robust statistics in high dimensions. In particular, viewed through our proofs-to-private-al gorithms lens, several well-studied SoS proofs from recent works in algorithmic robust statistics directly yield key components of our differentially private mean estimation algorithm.
翻訳日:2021-11-29 18:19:51 公開日:2021-11-25
# フローエンベディングによる軌道の異常検出

Outlier Detection for Trajectories via Flow-embeddings ( http://arxiv.org/abs/2111.13235v1 )

ライセンス: Link先を確認
Florian Frantzen and Jean-Baptiste Seby and Michael T. Schaub(参考訳) 単純複体によってモデル化された離散的あるいは離散化された多様体上の実験的に観測された軌道の外れ値を検出する手法を提案する。 我々のアプローチは拡散写像やラプラシア固有写像のようなスペクトル埋め込みと似ており、低固有値に関連するグラフラプラシアンの固有ベクトルから頂点埋め込みを構成する。 ここでは、軌跡をグラフの高階一般化である単体複体上で定義される辺フローベクトルとみなし、これらの辺フローの埋め込みを導出するために、単体複体のホッジ 1-ラプラシアンを用いる。 小さな固有値に関連するホッジ 1-ラプラシアンの固有空間に軌跡ベクトルを射影することにより、基礎空間の穴に対応する複素体のホモロジーに対する軌跡の挙動を特徴づけることができる。 これにより、単純な解釈可能な低次元統計に基づいて軌道を分類することができる。 本手法は, 一般的な軌跡と(位相的に)異なる挙動の軌跡を抽出し, 合成データと経験データの両方を用いて, アプローチの性能を示す。

We propose a method to detect outliers in empirically observed trajectories on a discrete or discretized manifold modeled by a simplicial complex. Our approach is similar to spectral embeddings such as diffusion-maps and Laplacian eigenmaps, that construct vertex embeddings from the eigenvectors of the graph Laplacian associated with low eigenvalues. Here we consider trajectories as edge-flow vectors defined on a simplicial complex, a higher-order generalization of graphs, and use the Hodge 1-Laplacian of the simplicial complex to derive embeddings of these edge-flows. By projecting trajectory vectors onto the eigenspace of the Hodge 1-Laplacian associated to small eigenvalues, we can characterize the behavior of the trajectories relative to the homology of the complex, which corresponds to holes in the underlying space. This enables us to classify trajectories based on simply interpretable, low-dimensional statistics. We show how this technique can single out trajectories that behave (topologically) different compared to typical trajectories, and illustrate the performance of our approach with both synthetic and empirical data.
翻訳日:2021-11-29 18:19:17 公開日:2021-11-25
# 勾配学習によるパラメータ内非線形ニューラルネットワークの収束性

A Letter on Convergence of In-Parameter-Linear Nonlinear Neural Architectures with Gradient Learnings ( http://arxiv.org/abs/2111.12877v1 )

ライセンス: Link先を確認
Ivo Bukovsky, Gejza Dohnal, Peter M. Benes, Kei Ichiji, Noriyasu Homma(参考訳) このレターは、一般に漸進的勾配学習アルゴリズムの広いファミリーに適用されるように、多種多様な非線形非線形ニューラルネットワークアーキテクチャの重み収束に対する有界入力有界状態(bibs)安定性の概念を要約し、証明するものである。 実効的なBIBS収束条件は、個々の学習ポイントやリアルタイムアプリケーションのバッチ毎に導出された証明から得られる。

This letter summarizes and proves the concept of bounded-input bounded-state (BIBS) stability for weight convergence of a broad family of in-parameter-linear nonlinear neural architectures as it generally applies to a broad family of incremental gradient learning algorithms. A practical BIBS convergence condition results from the derived proofs for every individual learning point or batches for real-time applications.
翻訳日:2021-11-29 18:17:45 公開日:2021-11-25
# DeepWiVe:ディープラーニング支援のワイヤレスビデオ伝送

DeepWiVe: Deep-Learning-Aided Wireless Video Transmission ( http://arxiv.org/abs/2111.13034v1 )

ライセンス: Link先を確認
Tze-Yang Tung and Deniz G\"und\"uz(参考訳) DeepWiVeは、ディープニューラルネットワーク(DNN)のパワーを利用して、ビデオ信号を直接チャネルシンボルにマッピングし、ビデオ圧縮、チャネル符号化、変調ステップを単一のニューラルトランスフォーメーションに組み込む、初のエンドツーエンドのジョイントソースチャネル符号化(JSCC)ビデオ伝送方式である。 我々のDNNデコーダは歪みフィードバックなしで残差を予測し、閉塞・非閉塞とカメラの動きを考慮して画質を向上させる。 フレーム毎に異なる帯域割り当てネットワークを同時に訓練し,可変帯域幅伝送を可能にする。 次に,ビデオフレーム間の制限されたチャネル帯域幅の割り当てを最適化し,全体の視覚品質を最大化する強化学習(rl)を用いて帯域割り当てネットワークを訓練する。 以上の結果から,従来の分離型ディジタル通信方式で一般的であるクリフ効果を克服し,推定チャネル品質と実際のチャネル品質のミスマッチによる優雅な劣化を実現することができた。 deepwiveはh.264ビデオ圧縮を上回り、続いて低密度パリティチェック(ldpc)符号を、マルチスケール構造類似度指標(ms-ssim)で平均0.0462まで上回り、h.265 + ldpcを平均0.00058まで上回った。 また, jsccビデオ伝送における帯域割り当ての最適化の重要性を, 最適な帯域割り当てポリシーがna\"iveの一様割り当てよりも優れていることを示す。 これは、現在の分離設計よりも優れたJSCC無線ビデオ伝送システムの実現に向けた重要なステップであると考えています。

We present DeepWiVe, the first-ever end-to-end joint source-channel coding (JSCC) video transmission scheme that leverages the power of deep neural networks (DNNs) to directly map video signals to channel symbols, combining video compression, channel coding, and modulation steps into a single neural transform. Our DNN decoder predicts residuals without distortion feedback, which improves video quality by accounting for occlusion/disocclusi on and camera movements. We simultaneously train different bandwidth allocation networks for the frames to allow variable bandwidth transmission. Then, we train a bandwidth allocation network using reinforcement learning (RL) that optimizes the allocation of limited available channel bandwidth among video frames to maximize overall visual quality. Our results show that DeepWiVe can overcome the cliff-effect, which is prevalent in conventional separation-based digital communication schemes, and achieve graceful degradation with the mismatch between the estimated and actual channel qualities. DeepWiVe outperforms H.264 video compression followed by low-density parity check (LDPC) codes in all channel conditions by up to 0.0462 on average in terms of the multi-scale structural similarity index measure (MS-SSIM), while beating H.265 + LDPC by up to 0.0058 on average. We also illustrate the importance of optimizing bandwidth allocation in JSCC video transmission by showing that our optimal bandwidth allocation policy is superior to the na\"ive uniform allocation. We believe this is an important step towards fulfilling the potential of an end-to-end optimized JSCC wireless video transmission system that is superior to the current separation-based designs.
翻訳日:2021-11-29 18:17:37 公開日:2021-11-25
# 正常組織合併症確率モデルの解釈可能な深層学習のための相対的シリアリティ形式の拡張

Extending the Relative Seriality Formalism for Interpretable Deep Learning of Normal Tissue Complication Probability Models ( http://arxiv.org/abs/2111.12854v1 )

ライセンス: Link先を確認
Tahir I. Yusufaly(参考訳) 我々は、Kallmanらの相対直列モデルが、単純な畳み込みニューラルネットワークに正確にマッピングできることを正式に証明した。 このアプローチは, 畳み込み層と積み重ねた中間プール層におけるフィードフォワード結合を, それぞれバイスタンダー効果と階層組織組織の観点から自然に解釈する。 これらの結果は、大規模イメージングと線量計データセットを用いて、放射線生物学的に解釈可能な正常組織複雑確率の深層学習の基礎となる。

We formally demonstrate that the relative seriality model of Kallman, et al. maps exactly onto a simple type of convolutional neural network. This approach leads to a natural interpretation of feedforward connections in the convolutional layer and stacked intermediate pooling layers in terms of bystander effects and hierarchical tissue organization, respectively. These results serve as proof-of-principle for radiobiologically interpretable deep learning of normal tissue complication probability using large-scale imaging and dosimetry datasets.
翻訳日:2021-11-29 18:14:14 公開日:2021-11-25
# Recommender システムにおける非バイアスなペアワイズ学習

Unbiased Pairwise Learning to Rank in Recommender Systems ( http://arxiv.org/abs/2111.12929v1 )

ライセンス: Link先を確認
Yi Ren, Hongyan Tang and Siwen Zhu(参考訳) 現在、レコメンデーションシステムは、ほとんどすべての人々の生活に影響を与える。 パーソナライズされた高品質なレコメンデーション結果を提供するため、従来のシステムは、通常、ポイントワイドローダを訓練し、目標の絶対値を予測し、異なる浅い塔を利用して位置バイアスの影響を推定し緩和する。 しかし、このような訓練パラダイムでは、最適化対象は各項目の予測精度よりも上位項目の相対的な順序を評価するランキング指標とは大きく異なる。 さらに,既存システムでは,より高い位置で関連項目を推薦する傾向にあるため,利用者のフィードバックが位置や関連性に与える影響を正確に評価することは困難である。 したがって、前述の課題を何とか解決できれば、パフォーマンスが向上するエキサイティングな機会があります。 雑音フィードバックに基づいて相対関係を正確にモデル化するために検証されたアルゴリズムをランク付けするためのバイアスのない学習は、候補をアピールし、ユーザクリック信号のような単一のカテゴリラベルを持つ多くのアプリケーションで既に適用されている。 それでも、既存の非バイアス付きLTR法は、カテゴリーラベルと連続ラベルの両方を組み込んだ複数のフィードバックを適切に扱えない。 そこで我々は,ペアワイズ方式で位置バイアスを革新的にモデル化し,ペアワイズ信頼バイアスを導入し,位置バイアス,信頼バイアス,ユーザの妥当性を明示的に分離する,新たな非バイアスltrアルゴリズムを設計した。 パブリックベンチマークデータセットと内部ライブトラフィックの実験結果から,分類ラベルと連続ラベルの両方に対して提案手法の優れた結果が得られた。

Nowadays, recommender systems already impact almost every facet of peoples lives. To provide personalized high quality recommendation results, conventional systems usually train pointwise rankers to predict the absolute value of objectives and leverage a distinct shallow tower to estimate and alleviate the impact of position bias. However, with such a training paradigm, the optimization target differs a lot from the ranking metrics valuing the relative order of top ranked items rather than the prediction precision of each item. Moreover, as the existing system tends to recommend more relevant items at higher positions, it is difficult for the shallow tower based methods to precisely attribute the user feedback to the impact of position or relevance. Therefore, there exists an exciting opportunity for us to get enhanced performance if we manage to solve the aforementioned issues. Unbiased learning to rank algorithms, which are verified to model the relative relevance accurately based on noisy feedback, are appealing candidates and have already been applied in many applications with single categorical labels, such as user click signals. Nevertheless, the existing unbiased LTR methods cannot properly handle multiple feedback incorporating both categorical and continuous labels. Accordingly, we design a novel unbiased LTR algorithm to tackle the challenges, which innovatively models position bias in the pairwise fashion and introduces the pairwise trust bias to separate the position bias, trust bias, and user relevance explicitly. Experiment results on public benchmark datasets and internal live traffic show the superior results of the proposed method for both categorical and continuous labels.
翻訳日:2021-11-29 17:56:38 公開日:2021-11-25
# 介入を観察する:実験を考えるための論理

Observing Interventions: A logic for thinking about experiments ( http://arxiv.org/abs/2111.12978v1 )

ライセンス: Link先を確認
Fausto Barbero, Katrin Schulz, Fernando R. Vel\'azquez-Quesada, Kaibo Xie(参考訳) 本稿では,実験から学ぶ論理への第一歩を示す。 そこで本研究では,因果関係の相互作用をモデル化するための公式な枠組みについて検討する。 我々のアプローチにとって重要なことは、介入の概念が(現実的または仮説的な)実験の形式的表現として使用できるという考えである。 最初のステップでは、エージェントのてんかん状態の単純なヒンティッカスタイルの表現でよく知られた因果モデルを拡張する。 その結果、変数の価値と介入がどのように影響するかについてのエージェントの知識だけでなく、知識の更新についても話すことができる。 結果の論理は思考実験に関する推論をモデル化することができる。 しかし,実験からの学習を考慮できないことは,介入の学習原理を検証できないという事実から明らかである。 したがって、第2のステップでは、実験を行う際にエージェントが特定の変数を観測(測定)することを可能にする、より複雑な知識概念を実装する。 この拡張システムは実験から学ぶことができる。 提案された全ての論理システムに対して、健全で完全な公理化を提供する。

This paper makes a first step towards a logic of learning from experiments. For this, we investigate formal frameworks for modeling the interaction of causal and (qualitative) epistemic reasoning. Crucial for our approach is the idea that the notion of an intervention can be used as a formal expression of a (real or hypothetical) experiment. In a first step we extend the well-known causal models with a simple Hintikka-style representation of the epistemic state of an agent. In the resulting setting, one can talk not only about the knowledge of an agent about the values of variables and how interventions affect them, but also about knowledge update. The resulting logic can model reasoning about thought experiments. However, it is unable to account for learning from experiments, which is clearly brought out by the fact that it validates the no learning principle for interventions. Therefore, in a second step, we implement a more complex notion of knowledge that allows an agent to observe (measure) certain variables when an experiment is carried out. This extended system does allow for learning from experiments. For all the proposed logical systems, we provide a sound and complete axiomatization.
翻訳日:2021-11-29 17:56:13 公開日:2021-11-25
# 異例の多官級代表団

Unravelling multi-agent ranked delegations ( http://arxiv.org/abs/2111.13145v1 )

ライセンス: Link先を確認
Rachael Colley, Umberto Grandi and Arianna Novaro(参考訳) 本稿では,マルチエージェント方式による投票モデルを提案する。 このモデルは、液体民主主義を2つの側面に一般化する: まず、エージェントの代議員は、他のエージェントの票を使って自分自身を決定することができる。例えば、エージェントの投票は、信頼されたエージェントのグループの投票の過半数の結果に対応できる。 この論文の主な焦点は、エージェントから受け取った代議員の投票を直接投票のプロファイルに変換し、それに基づいて標準の投票規則を用いて勝利の代替案を決定する、未開拓の手続きの研究である。 提案手法は6つの方法,2つは最適化法,4つは欲望法である。 我々は,アルゴリズム的および公理的性質と,エージェントが提出できる投票の種類に異なる制限を課す手続きの計算複雑性問題の両方について検討した。

We introduce a voting model with multi-agent ranked delegations. This model generalises liquid democracy in two aspects: first, an agent's delegation can use the votes of multiple other agents to determine their own -- for instance, an agent's vote may correspond to the majority outcome of the votes of a trusted group of agents; second, agents can submit a ranking over multiple delegations, so that a backup delegation can be used when their preferred delegations are involved in cycles. The main focus of this paper is the study of unravelling procedures that transform the delegation ballots received from the agents into a profile of direct votes, from which a winning alternative can then be determined by using a standard voting rule. We propose and study six such unravelling procedures, two based on optimisation and four using a greedy approach. We study both algorithmic and axiomatic properties, as well as related computational complexity problems of our unravelling procedures for different restrictions on the types of ballots that the agents can submit.
翻訳日:2021-11-29 17:55:58 公開日:2021-11-25
# レンズレス画像改善のための符号化照明

Coded Illumination for Improved Lensless Imaging ( http://arxiv.org/abs/2111.12862v1 )

ライセンス: Link先を確認
Yucheng Zheng and M. Salman Asif(参考訳) マスクベースのレンズレスカメラは、平坦で薄くて軽量であり、大きな表面積と任意の形状を持つ計算イメージングシステムの新しい設計に適している。 近年のレンズレスカメラの進歩にもかかわらず、レンズレスカメラから回収された画像の品質は、基礎となる測定システムの悪条件のため、しばしば劣っている。 本稿では,レンズレスカメラで再構成した画像の品質向上のために,符号化照明を用いることを提案する。 画像モデルでは、レンズレスカメラがセンサを計測する際、シーン/オブジェクトは複数の符号化照明パターンで照らされる。 多数の照明パターンを設計、テストし、ドット(および関連する直交)パターンが全体的なパフォーマンスを最高のものにするのを観察しました。 本稿では,システムの分離性とブロック対角構造を利用した高速かつ低複雑さな回復アルゴリズムを提案する。 シミュレーション結果とハードウェア実験結果を示し,提案手法が復元品質を著しく向上できることを実証する。

Mask-based lensless cameras can be flat, thin and light-weight, which makes them suitable for novel designs of computational imaging systems with large surface areas and arbitrary shapes. Despite recent progress in lensless cameras, the quality of images recovered from the lensless cameras is often poor due to the ill-conditioning of the underlying measurement system. In this paper, we propose to use coded illumination to improve the quality of images reconstructed with lensless cameras. In our imaging model, the scene/object is illuminated by multiple coded illumination patterns as the lensless camera records sensor measurements. We designed and tested a number of illumination patterns and observed that shifting dots (and related orthogonal) patterns provide the best overall performance. We propose a fast and low-complexity recovery algorithm that exploits the separability and block-diagonal structure in our system. We present simulation results and hardware experiment results to demonstrate that our proposed method can significantly improve the reconstruction quality.
翻訳日:2021-11-29 17:53:30 公開日:2021-11-25
# 多方向知覚GANによるアルツハイマー病の形態的特徴の可視化

Morphological feature visualization of Alzheimer's disease via Multidirectional Perception GAN ( http://arxiv.org/abs/2111.12886v1 )

ライセンス: Link先を確認
Wen Yu, Baiying Lei, Yanyan Shen, Shuqiang Wang, Yong Liu, Zhiguang Feng, Yong Hu, Michael K. Ng(参考訳) アルツハイマー病 (AD) の早期診断は, 経時的治療に必要であり, さらなる悪化を遅らせる。 ADの初期段階における形態学的特徴の可視化は臨床的に非常に有用である。 本研究では,異なる段階の患者に対するADの重症度を示す形態的特徴を可視化するために,MP-GAN(Multidirecti onal Perception Generative Adversarial Network)を提案する。 具体的には、モデルに新しい多方向マッピング機構を導入することで、提案したMP-GANはより効率的なグローバルな特徴を捉えることができる。 したがって、生成元からのクラス識別マップを利用することで、ソース領域と予め定義されたターゲット領域の間のMR画像変換により、微妙な病変を明確化することができる。 さらに,MP-GANの1つの生成器は,対向的損失,分類的損失,サイクル整合性損失,および<emph{L}1ペナルティを統合することで,複数のクラスに対するクラス識別マップを学習することができる。 アルツハイマー病神経画像イニシアチブ(ADNI)データセットの大規模な実験結果から,MP-GANは既存の方法と比較して優れた性能を発揮することが示された。 mp-ganで可視化された病変も臨床医の観察と一致している。

The diagnosis of early stages of Alzheimer's disease (AD) is essential for timely treatment to slow further deterioration. Visualizing the morphological features for the early stages of AD is of great clinical value. In this work, a novel Multidirectional Perception Generative Adversarial Network (MP-GAN) is proposed to visualize the morphological features indicating the severity of AD for patients of different stages. Specifically, by introducing a novel multidirectional mapping mechanism into the model, the proposed MP-GAN can capture the salient global features efficiently. Thus, by utilizing the class-discriminative map from the generator, the proposed model can clearly delineate the subtle lesions via MR image transformations between the source domain and the pre-defined target domain. Besides, by integrating the adversarial loss, classification loss, cycle consistency loss and \emph{L}1 penalty, a single generator in MP-GAN can learn the class-discriminative maps for multiple-classes. Extensive experimental results on Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset demonstrate that MP-GAN achieves superior performance compared with the existing methods. The lesions visualized by MP-GAN are also consistent with what clinicians observe.
翻訳日:2021-11-29 17:53:16 公開日:2021-11-25
# CDNetは必要なものすべて:Cascade DCNベースの水中物体検出RCNN

CDNet is all you need: Cascade DCN based underwater object detection RCNN ( http://arxiv.org/abs/2111.12982v1 )

ライセンス: Link先を確認
Di Chang(参考訳) 物体検出はコンピュータビジョンの分野における重要な基礎研究の方向であり、コンピュータビジョンの分野における他の高度なタスクの基本的な方法である。 物体追跡、ビデオ行動認識、水中ロボットビジョンなどの実用的な用途で広く使われている。 Cascade-RCNNとDeformable Convolution Networkはどちらも古典的かつ優れたオブジェクト検出アルゴリズムである。 本報告では,水中光学画像と音響画像データセットを用いたカスケードdcnに基づく手法を,異なる工学的手法と重み付けを用いて評価する。

Object detection is a very important basic research direction in the field of computer vision and a basic method for other advanced tasks in the field of computer vision. It has been widely used in practical applications such as object tracking, video behavior recognition and underwater robotics vision. The Cascade-RCNN and Deformable Convolution Network are both classical and excellent object detection algorithms. In this report, we evaluate our Cascade-DCN based method on underwater optical image and acoustics image datasets with different engineering tricks and augumentation.
翻訳日:2021-11-29 17:52:53 公開日:2021-11-25
# 深層学習型ct金属アーティファクト低減法における領域ギャップ問題の検討

Investigation of domain gap problem in several deep-learning-based CT metal artefact reduction methods ( http://arxiv.org/abs/2111.12983v1 )

ライセンス: Link先を確認
Muge Du, Kaichao Liang, Yinong Liu, Yuxiang Xing(参考訳) ct画像中の金属アーティファクトは、画像品質を乱し、診断を妨げる可能性がある。 近年, 深層学習に基づくCT金属アーチファクト削減法が多数提案されている。 現在の深層MAR法は、シミュレーションデータで訓練された手法が実用的なデータではうまく動作しない領域ギャップ問題に悩まされる可能性がある。 本研究では,2つの画像領域監督法,2つの二重領域監督法,および2つの画像領域監督法を歯科用データセットと胴体用データセット上で実験的に検討し,領域ギャップ問題が存在するか克服されているかを検討した。 我々は, i-dl-mar と dudonet がtorsoデータセットの実用データに有効であることを見出し, 領域ギャップ問題を解く。 しかし, いずれの方法も歯科用データセットの実用データに満足して機能しない。 実験結果に基づき,既存手法の改善や新手法の設計に有用と思われる各手法とデータセットに対するドメインギャップ問題の原因をさらに分析する。 その結果,深部MAR法における領域ギャップ問題は未解決であることが示唆された。

Metal artefacts in CT images may disrupt image quality and interfere with diagnosis. Recently many deep-learning-based CT metal artefact reduction (MAR) methods have been proposed. Current deep MAR methods may be troubled with domain gap problem, where methods trained on simulated data cannot perform well on practical data. In this work, we experimentally investigate two image-domain supervised methods, two dual-domain supervised methods and two image-domain unsupervised methods on a dental dataset and a torso dataset, to explore whether domain gap problem exists or is overcome. We find that I-DL-MAR and DudoNet are effective for practical data of the torso dataset, indicating the domain gap problem is solved. However, none of the investigated methods perform satisfactorily on practical data of the dental dataset. Based on the experimental results, we further analyze the causes of domain gap problem for each method and dataset, which may be beneficial for improving existing methods or designing new ones. The findings suggest that the domain gap problem in deep MAR methods remains to be addressed.
翻訳日:2021-11-29 17:52:45 公開日:2021-11-25
# 歪み-相関誘導伝達学習による少数実画像復元

Few-Shot Real Image Restoration via Distortion-Relation Guided Transfer Learning ( http://arxiv.org/abs/2111.13078v1 )

ライセンス: Link先を確認
Xin Li, Xin Jin, Jun Fu, Xiaoyuan Yu, Bei Tong, Zhibo Chen(参考訳) 実世界で大規模なクリーンな歪んだトレーニングイメージペアを収集するのは簡単ではなく、これらの教師付き学習ベース画像復元(IR)手法の実践的応用を著しく制限する。 以前の研究では、教師なしの学習技術を活用して、ペアトレーニングサンプルの依存関係を軽減することで、この問題に対処しようと試みている。 しかし、これらの方法は通常、クリーンな画像監督が欠如しているため、不満足なテクスチャ合成に苦しむ。 純粋に教師なしのソリューションと比較して、Few-Shotクリーンイメージ(FS-IR)による未探索のスキームは、この挑戦的な実際のイメージ復元タスクに取り組むためにより実現可能である。 本稿では,数発の実画像復元を初めて検討し,DRTL(Distortion-Rel ation Guided Transfer Learning)フレームワークを提案する。 DRTLは、補助タスク(合成歪み)と目標タスク(画像が少ない実歪み)の歪み関係を捉えるための知識グラフを割り当て、次に、補助タスクから目標タスクへの知識伝達を誘導するための勾配重み付け戦略を採用する。 このようにして、drtlは、ターゲットの歪みに対する以前の歪みから、最も関連する知識を迅速に学習することができる。 本稿では,事前学習パイプラインとメタラーニングパイプラインを統合したDRTLを具体化して,歪み関係を考慮したFS-IRを実現する。 複数のベンチマークによる大規模な実験は、DRTLが実像復元に有効であることを実証している。

Collecting large clean-distorted training image pairs in real world is non-trivial, which seriously limits the practical applications of these supervised learning based image restoration (IR) methods. Previous works attempt to address this problem by leveraging unsupervised learning technologies to alleviate the dependency for paired training samples. However, these methods typically suffer from unsatisfactory textures synthesis due to the lack of clean image supervision. Compared with purely unsupervised solution, the under-explored scheme with Few-Shot clean images (FS-IR) is more feasible to tackle this challenging real Image Restoration task. In this paper, we are the first to investigate the few-shot real image restoration and propose a Distortion-Relation guided Transfer Learning (termed as DRTL) framework. DRTL assigns a knowledge graph to capture the distortion relation between auxiliary tasks (i.e., synthetic distortions) and target tasks (i.e., real distortions with few images), and then adopt a gradient weighting strategy to guide the knowledge transfer from auxiliary task to target task. In this way, DRTL could quickly learn the most relevant knowledge from the prior distortions for target distortion. We instantiate DRTL integrated with pre-training and meta-learning pipelines as an embodiment to realize a distortion-relation aware FS-IR. Extensive experiments on multiple benchmarks demonstrate the effectiveness of DRTL on few-shot real image restoration.
翻訳日:2021-11-29 17:52:26 公開日:2021-11-25
# 比方向混合モデルを用いた経路案内

Path Guiding Using Spatio-Directional Mixture Models ( http://arxiv.org/abs/2111.13094v1 )

ライセンス: Link先を確認
Ana Dodik, Marios Papas, Cengiz \"Oztireli, Thomas M\"uller(参考訳) 本研究では,空間指向型ガウス混合モデル (sdmms) を用いた経路追跡アルゴリズムにおける光路構築のための学習に基づく手法を提案する。 特に、インシデントラディアンスを、オンラインで訓練された5ドルの混合品として近似し、$k$D-treeで加速する。 同じフレームワークを使って、プリトレーニングされた$n$d混合物としてbsdfsを近似し、$n$はbsdfパラメータの数である。 このようなアプローチは、パスガイドモデルにおける2つの大きな課題に対処する。 まず、5ドルの放射率表現は自然に空間次元と方向次元の相関を捉える。 そのような相関は例えば、\parallax と caustics に存在している。 第2に,ガウスの接空間パラメータ化を用いることで,任意の方向のbsdfsを用いて近似積サンプリングを行うことができる。 既存のモデルは、混合成分の異方性を先導するか、局所的な(正規に整列した)座標で放射場を表現することでのみ可能であり、どちらも放射場を学習しにくくする。 接空間のパラメータ化のさらなる利点は、個々のガウスが質量の中心付近の歪みの低い固体球面に写像されることである。 提案手法は, 入射放射率の高比方向相関を誘導する, 局所発光素子の小型シーンで特によく機能する。

We propose a learning-based method for light-path construction in path tracing algorithms, which iteratively optimizes and samples from what we refer to as spatio-directional Gaussian mixture models (SDMMs). In particular, we approximate incident radiance as an online-trained $5$D mixture that is accelerated by a $k$D-tree. Using the same framework, we approximate BSDFs as pre-trained $n$D mixtures, where $n$ is the number of BSDF parameters. Such an approach addresses two major challenges in path-guiding models. First, the $5$D radiance representation naturally captures correlation between the spatial and directional dimensions. Such correlations are present in e.g.\ parallax and caustics. Second, by using a tangent-space parameterization of Gaussians, our spatio-directional mixtures can perform approximate product sampling with arbitrarily oriented BSDFs. Existing models are only able to do this by either foregoing anisotropy of the mixture components or by representing the radiance field in local (normal aligned) coordinates, which both make the radiance field more difficult to learn. An additional benefit of the tangent-space parameterization is that each individual Gaussian is mapped to the solid sphere with low distortion near its center of mass. Our method performs especially well on scenes with small, localized luminaires that induce high spatio-directional correlation in the incident radiance.
翻訳日:2021-11-29 17:52:05 公開日:2021-11-25
# 画像間翻訳と画像圧縮のための新しいフレームワーク

A Novel Framework for Image-to-image Translation and Image Compression ( http://arxiv.org/abs/2111.13105v1 )

ライセンス: Link先を確認
Fei Yang, Yaxing Wang, Luis Herranz, Yongmei Cheng, Mikhail Mozerov(参考訳) 画像処理と通信において、機械学習を使用したデータ駆動パラダイムがユビキタスになりつつある。 特に、イメージ・トゥ・イメージ(I2I)変換は、画像合成、スタイル転送、画像復元といった画像処理問題に対して、汎用的で広く用いられているアプローチである。 同時に、ニューラルイメージ圧縮は、視覚コミュニケーションにおける従来のコーディングアプローチに代わるデータ駆動型として登場した。 本稿では,これら2つのパラダイムを統合i2i圧縮変換フレームワークに組み合わせ,多領域画像合成に焦点をあてた。 まず、量子化とエントロピー符号化をI2I翻訳フレームワーク(I2Icodec)に統合して分散I2I翻訳を提案する。 実際には、イメージ圧縮機能(オートエンコーディング)も望まれており、通常のイメージコーデックとI2Icodecを併用してデプロイする必要がある。 そこで我々は,単一コーデックにおいて翻訳機能と自動エンコーディング機能の両方を可能にする統一フレームワークを提案する。 翻訳/圧縮モードで条件付けられた適応残差ブロックは、所望の機能に柔軟に適応する。 実験の結果,単一のモデルを用いたI2I翻訳と画像圧縮に有望な結果が得られた。

Data-driven paradigms using machine learning are becoming ubiquitous in image processing and communications. In particular, image-to-image (I2I) translation is a generic and widely used approach to image processing problems, such as image synthesis, style transfer, and image restoration. At the same time, neural image compression has emerged as a data-driven alternative to traditional coding approaches in visual communications. In this paper, we study the combination of these two paradigms into a joint I2I compression and translation framework, focusing on multi-domain image synthesis. We first propose distributed I2I translation by integrating quantization and entropy coding into an I2I translation framework (i.e. I2Icodec). In practice, the image compression functionality (i.e. autoencoding) is also desirable, requiring to deploy alongside I2Icodec a regular image codec. Thus, we further propose a unified framework that allows both translation and autoencoding capabilities in a single codec. Adaptive residual blocks conditioned on the translation/compress ion mode provide flexible adaptation to the desired functionality. The experiments show promising results in both I2I translation and image compression using a single model.
翻訳日:2021-11-29 17:51:44 公開日:2021-11-25
# 隣接極小経路間の暗黙的発散制約を用いた表面セグメンテーション

Surface Segmentation Using Implicit Divergence Constraint Between Adjacent Minimal Paths ( http://arxiv.org/abs/2111.13111v1 )

ライセンス: Link先を確認
Jozsef Molnar, Peter Horvath(参考訳) 修正された最小経路アイコン方程式を用いて3次元画像からオブジェクトセグメンテーションを行う手法を提案する。 提案手法は,非均一な最小経路Eeikonalに対する2次補正である暗黙の制約を利用して,隣接する最小経路軌跡が制御不能に分岐することを防止している。 提案手法は, 近似曲面のパラメータ線として計算された最小経路を用いて, 最小経路で発見される表面積を大幅に低減する。 また、導出される真の最小曲面のアイコン方程式と緩い関係を持つ。

We introduce a novel approach for object segmentation from 3D images using modified minimal path Eikonal equation. The proposed method utilizes an implicit constraint - a second order correction to the inhomogeneous minimal path Eikonal - preventing the adjacent minimal path trajectories to diverge uncontrollably. The proposed modification greatly reduces the surface area uncovered by minimal paths allowing the use of the calculated minimal path set as parameter lines of an approximate surface. It also has a loose connection with the true minimal surface Eikonal equations that are also deduced.
翻訳日:2021-11-29 17:51:26 公開日:2021-11-25
# Going Grayscale: 未知の例を理解し改善するための道

Going Grayscale: The Road to Understanding and Improving Unlearnable Examples ( http://arxiv.org/abs/2111.13244v1 )

ライセンス: Link先を確認
Zhuoran Liu, Zhengyu Zhao, Alex Kolmus, Tijn Berns, Twan van Laarhoven, Tom Heskes, Martha Larson(参考訳) 近年の研究では、知覚不能な摂動が、学習中に分類器を改善するのに使用できない画像(ULE)の製作に応用できることが示されている。 本稿では,ULEの理解とULEの改良のために研究者が従うべき道を明らかにする。 論文には4つの貢献がある。 まず, ウレオスは色彩を利用しており, その効果は, 逆の訓練を使わずに, 単純な灰色スケールのプリフィルタによって軽減できることを示した。 第2に,ULEO(ULEO-GrayAugs) の拡張を提案する。この拡張は,最適化時にグレースケールの知識とデータ拡張を利用することで,生成したULEをチャネルワイドな色摂動から遠ざける。 第3に,多層パーセプトロン(MLP)を用いて生成されたULEOは,複雑な畳み込みニューラルネットワーク(CNN)分類器の場合に有効であることを示す。 第4に,ULEOで分類器を訓練すると,クリーン画像と逆画像の両方で測定された精度の低下を防止できることを示した。 私たちの貢献は、学習不可能な例の最先端技術であると同時に、さらなる改善を達成するためには、より理解しなくてはならない行動の重要な特徴も明らかにしている。

Recent work has shown that imperceptible perturbations can be applied to craft unlearnable examples (ULEs), i.e. images whose content cannot be used to improve a classifier during training. In this paper, we reveal the road that researchers should follow for understanding ULEs and improving ULEs as they were originally formulated (ULEOs). The paper makes four contributions. First, we show that ULEOs exploit color and, consequently, their effects can be mitigated by simple grayscale pre-filtering, without resorting to adversarial training. Second, we propose an extension to ULEOs, which is called ULEO-GrayAugs, that forces the generated ULEs away from channel-wise color perturbations by making use of grayscale knowledge and data augmentations during optimization. Third, we show that ULEOs generated using Multi-Layer Perceptrons (MLPs) are effective in the case of complex Convolutional Neural Network (CNN) classifiers, suggesting that CNNs suffer specific vulnerability to ULEs. Fourth, we demonstrate that when a classifier is trained on ULEOs, adversarial training will prevent a drop in accuracy measured both on clean images and on adversarial images. Taken together, our contributions represent a substantial advance in the state of art of unlearnable examples, but also reveal important characteristics of their behavior that must be better understood in order to achieve further improvements.
翻訳日:2021-11-29 17:50:28 公開日:2021-11-25
# 測地座標における長距離船舶追尾用アンセントカルマンフィルタ

Unscented Kalman Filter for Long-Distance Vessel Tracking in Geodetic Coordinates ( http://arxiv.org/abs/2111.13254v1 )

ライセンス: Link先を確認
Blake Cole and Gabriel Schamberg(参考訳) 本稿では,自動表面車両(ASV)の衝突回避システムに主に使用される新しいトラッキングフィルタについて述べる。 提案手法は,自動情報システム(ais)メッセージングプロトコルを介してリアルタイムのキネマティック情報ブロードキャストを活用し,近傍の協調的目標の位置,速度,方向を推定する。 各ターゲットの状態は、コサインの球面法則から導かれるキネマティック方程式を持つ無セントカルマンフィルタ(UKF)を用いて測地座標で再帰的に推定される。 これは、拡張カルマンフィルタ(英語版) (EKF) を用いる以前のアプローチを改善し、したがって状態キネマティクスを容易に微分可能な形で記述するためには、局所平面座標フレームの仕様を必要とする。 提案された測地学UKFは、この局所的な飛行機の必要性を排除している。 この機能は、線形化誤差を減少させるために新しい局所平面を定期的に再定義しなければならない長距離asvにとって特に有利である。 現実の運用では、繰り返し繰り返される再定義はエラーをもたらし、ミッション計画が複雑になる可能性がある。 シミュレーションとフィールドテストの両方を通して、提案された測地的UKFは、推定誤差と安定性の両面において、従来の平面カルテシアンEKFよりも優れているか、あるいは優れていることが示されている。

This paper describes a novel tracking filter, designed primarily for use in collision avoidance systems on autonomous surface vehicles (ASVs). The proposed methodology leverages real-time kinematic information broadcast via the Automatic Information System (AIS) messaging protocol, in order to estimate the position, speed, and heading of nearby cooperative targets. The state of each target is recursively estimated in geodetic coordinates using an unscented Kalman filter (UKF) with kinematic equations derived from the spherical law of cosines. This improves upon previous approaches, many of which employ the extended Kalman filter (EKF), and thus require the specification of a local planar coordinate frame, in order to describe the state kinematics in an easily differentiable form. The proposed geodetic UKF obviates the need for this local plane. This feature is particularly advantageous for long-range ASVs, which must otherwise periodically redefine a new local plane to curtail linearization error. In real-world operations, this recurring redefinition can introduce error and complicate mission planning. It is shown through both simulation and field testing that the proposed geodetic UKF performs as well as, or better than, the traditional plane-Cartesian EKF, both in terms of estimation error and stability.
翻訳日:2021-11-29 17:49:20 公開日:2021-11-25
# 線形化)逆ロバストモデルのクラスタリング効果

Clustering Effect of (Linearized) Adversarial Robust Models ( http://arxiv.org/abs/2111.12922v1 )

ライセンス: Link先を確認
Yang Bai, Xin Yan, Yong Jiang, Shu-Tao Xia, Yisen Wang(参考訳) 敵意の強固さは、敵意の例の研究とともに注目を集めている。 これまでの研究は、ロバストモデルが様々な敵攻撃に対して堅牢性を得るだけでなく、下流タスクのパフォーマンスも向上していることを示している。 しかし、敵対的堅牢性の基盤メカニズムはまだ明らかではない。 本稿では,線形成分の観点から対向的ロバスト性を解釈し,包括的ロバストモデルにいくつかの統計的性質が存在することを示す。 特にロバストモデルは、すべての非線形コンポーネント(バッチ正規化、最大プール、アクティベーション層など)を削除または置き換える際に、線形化サブネットワークに明らかな階層的クラスタリング効果を示す。 これらの観測に基づいて、敵の強靭性に対する新たな理解を提案し、ドメイン適応や強靭性向上といったタスクに応用する。 提案するクラスタリング戦略の合理性と優位性を実験的に評価した。

Adversarial robustness has received increasing attention along with the study of adversarial examples. So far, existing works show that robust models not only obtain robustness against various adversarial attacks but also boost the performance in some downstream tasks. However, the underlying mechanism of adversarial robustness is still not clear. In this paper, we interpret adversarial robustness from the perspective of linear components, and find that there exist some statistical properties for comprehensively robust models. Specifically, robust models show obvious hierarchical clustering effect on their linearized sub-networks, when removing or replacing all non-linear components (e.g., batch normalization, maximum pooling, or activation layers). Based on these observations, we propose a novel understanding of adversarial robustness and apply it on more tasks including domain adaption and robustness boosting. Experimental evaluations demonstrate the rationality and superiority of our proposed clustering strategy.
翻訳日:2021-11-29 17:20:53 公開日:2021-11-25
# グラフニューラルネットワークの非神秘化

Demystifying Graph Neural Network Explanations ( http://arxiv.org/abs/2111.12984v1 )

ライセンス: Link先を確認
Anna Himmelhuber, Mitchell Joblin, Martin Ringsquandl and Thomas Runkler(参考訳) グラフニューラルネットワーク(GNN)は、いくつかのドメインにわたるグラフ構造化データの学習において、急速に標準的なアプローチになりつつある。 GNNの意思決定プロセスに関する洞察を提供するために、摂動に基づくいくつかのアプローチが開発されている。 初期の研究領域であるため、生成された説明を評価するために使用される方法やデータは成熟していない。 これらの既存のアプローチを検討し,(1)合成データ生成プロセス,(2)評価指標,(3)説明の最終的な提示という3つの主な分野における共通の落とし穴を明らかにする。 この目的のために,これらの落とし穴と意図しない結果について実証的な研究を行い,その影響を緩和するための治療を提案する。

Graph neural networks (GNNs) are quickly becoming the standard approach for learning on graph structured data across several domains, but they lack transparency in their decision-making. Several perturbation-based approaches have been developed to provide insights into the decision making process of GNNs. As this is an early research area, the methods and data used to evaluate the generated explanations lack maturity. We explore these existing approaches and identify common pitfalls in three main areas: (1) synthetic data generation process, (2) evaluation metrics, and (3) the final presentation of the explanation. For this purpose, we perform an empirical study to explore these pitfalls along with their unintended consequences and propose remedies to mitigate their effects.
翻訳日:2021-11-29 17:20:38 公開日:2021-11-25
# 動的勾配アライメントとバイアス圧縮サンプルマイニングによるバイアスモデル学習

Learning Debiased Models with Dynamic Gradient Alignment and Bias-conflicting Sample Mining ( http://arxiv.org/abs/2111.13108v1 )

ライセンス: Link先を確認
Bowen Zhao, Chen Chen, Qi Ju, Shutao Xia(参考訳) ディープニューラルネットワークは、モデルロバスト性、一般化、公平性を損なうデータセットバイアスに苦しむことで悪名高い。 本研究では,難解な未知のバイアスに対処する2段階のデバイアス手法を提案する。 まず,バイアスモデルの存在要因を分析することから,バイアスのみに頼るだけでは到達できない新しい学習目標を考案する。 具体的には、トレーニングプロセス全体を通してバイアスアライメントおよびバイアスコンプライシングサンプルの寄与を動的にバランスさせる勾配アライメント(ga)によってデバイアスモデルが達成され、内在的な手がかりを利用して公平な意思決定を行うためのモデルが強制される。 現実のシナリオでは、潜在的なバイアスを見つけるのは極めて困難で、手動でラベル付けするのは極めて高価です。 さらに,偏見情報の事前知識のないピアピッキングとトレーニングアンサンブルによる自動偏見強調サンプリング手法を提案する。 複数のデータセットを用いた実験により,提案手法の有効性と頑健性が実証され,未知のバイアスの影響を軽減し,最先端の性能を実現することができた。

Deep neural networks notoriously suffer from dataset biases which are detrimental to model robustness, generalization and fairness. In this work, we propose a two-stage debiasing scheme to combat against the intractable unknown biases. Starting by analyzing the factors of the presence of biased models, we design a novel learning objective which cannot be reached by relying on biases alone. Specifically, debiased models are achieved with the proposed Gradient Alignment (GA) which dynamically balances the contributions of bias-aligned and bias-conflicting samples (refer to samples with/without bias cues respectively) throughout the whole training process, enforcing models to exploit intrinsic cues to make fair decisions. While in real-world scenarios, the potential biases are extremely hard to discover and prohibitively expensive to label manually. We further propose an automatic bias-conflicting sample mining method by peer-picking and training ensemble without prior knowledge of bias information. Experiments conducted on multiple datasets in various settings demonstrate the effectiveness and robustness of our proposed scheme, which successfully alleviates the negative impact of unknown biases and achieves state-of-the-art performance.
翻訳日:2021-11-29 17:20:25 公開日:2021-11-25
# 興味ある対象, キュリオシティエージェント: タスク非依存探索の学習

Interesting Object, Curious Agent: Learning Task-Agnostic Exploration ( http://arxiv.org/abs/2111.13119v1 )

ライセンス: Link先を確認
Simone Parisi, Victoria Dean, Deepak Pathak, Abhinav Gupta(参考訳) タスクに依存しない探索のための一般的なアプローチは、タブラ・ラサを学習する。 しかし、現実の世界では、エージェントは多くの環境で学び、新しい環境を探索するときに常に経験を積む。 探索は生涯のプロセスです。 本稿では,タスク非依存探索の定式化と評価におけるパラダイム変化を提案する。 この設定でエージェントは、タスクに依存しない方法で、外部の目標なしで多くの環境を探索することを学びます。 その後、エージェントは学習した探索ポリシーを効果的に転送し、タスクの解決時に新しい環境をよりよく探索する。 この文脈では,いくつかのベースライン探索戦略を評価し,タスクに依存しない探索政策の学習にシンプルかつ効果的なアプローチを提案する。 我々は,(1)エージェントの信念に基づく環境の見えない部分の探索を促進するエージェント中心のコンポーネント,(2)本質的に興味深い物体の探索を促進する環境中心のコンポーネントの2つを探索の鍵とする。 我々の定式化は効果的であり、複数のトレーニングテスト環境ペアをまたいだ最も一貫した探索を提供する。 また,タスクに依存しない探索戦略を評価するためのベンチマークやメトリクスも導入する。 ソースコードはhttps://github.com/s parisi/cbet/で入手できる。

Common approaches for task-agnostic exploration learn tabula-rasa --the agent assumes isolated environments and no prior knowledge or experience. However, in the real world, agents learn in many environments and always come with prior experiences as they explore new ones. Exploration is a lifelong process. In this paper, we propose a paradigm change in the formulation and evaluation of task-agnostic exploration. In this setup, the agent first learns to explore across many environments without any extrinsic goal in a task-agnostic manner. Later on, the agent effectively transfers the learned exploration policy to better explore new environments when solving tasks. In this context, we evaluate several baseline exploration strategies and present a simple yet effective approach to learning task-agnostic exploration policies. Our key idea is that there are two components of exploration: (1) an agent-centric component encouraging exploration of unseen parts of the environment based on an agent's belief; (2) an environment-centric component encouraging exploration of inherently interesting objects. We show that our formulation is effective and provides the most consistent exploration across several training-testing environment pairs. We also introduce benchmarks and metrics for evaluating task-agnostic exploration strategies. The source code is available at https://github.com/s parisi/cbet/.
翻訳日:2021-11-29 17:20:03 公開日:2021-11-25
# フェデレーションデータサイエンスがサイロを崩壊させる[ビジョン]

Federated Data Science to Break Down Silos [Vision] ( http://arxiv.org/abs/2111.13186v1 )

ライセンス: Link先を確認
Essam Mansour, Kavitha Srinivas, Katja Hose(参考訳) Open Dataイニシアチブと同様に、コミュニティとしてのデータサイエンスは、データだけでなく、パイプライン全体、デリバティブ、アーティファクトなどを共有するイニシアチブ(Open Data Science)を立ち上げた。 しかし、いくつかの取り組みは、共有、変換等を容易にする方法について技術的な部分に焦点を当てている。 オープンフェデレーションデータサイエンスプラットフォームであるkekは、データサイエンスパイプラインとその(メタ)データを共有するだけでなく、効率的な検索方法を提供し、理想的な場合には、プラットフォーム間でパイプラインを結合し、定義することもできる。 そうすることでKEKは、意味的に関連があり、ある目標を達成するために組み合わせられるアーティファクトを実際に見つけるという、これまで無視された課題に対処する。

Similar to Open Data initiatives, data science as a community has launched initiatives for sharing not only data but entire pipelines, derivatives, artifacts, etc. (Open Data Science). However, the few efforts that exist focus on the technical part on how to facilitate sharing, conversion, etc. This vision paper goes a step further and proposes KEK, an open federated data science platform that does not only allow for sharing data science pipelines and their (meta)data but also provides methods for efficient search and, in the ideal case, even allows for combining and defining pipelines across platforms in a federated manner. In doing so, KEK addresses the so far neglected challenge of actually finding artifacts that are semantically related and that can be combined to achieve a certain goal.
翻訳日:2021-11-29 17:19:45 公開日:2021-11-25
# BaLeNAS:ベイズ学習規則による微分可能なアーキテクチャ検索

BaLeNAS: Differentiable Architecture Search via the Bayesian Learning Rule ( http://arxiv.org/abs/2111.13204v1 )

ライセンス: Link先を確認
Miao Zhang, Jilin Hu, Steven Su, Shirui Pan, Xiaojun Chang, Bin Yang, Gholamreza Haffari(参考訳) 微分可能なアーキテクチャサーチ (DARTS) は近年注目されており、主に重量共有と連続緩和によって計算コストを大幅に削減している。 しかし、近年の研究では、既存の差別化可能なNAS技術は、探索が進むにつれて劣化するアーキテクチャを生み出す、ナイーブベースラインを上回ることに苦慮している。 アーキテクチャパラメータを直接最適化するのではなく、アーキテクチャ重みをガウス分布に緩和することで、ニューラルネットワーク探索を分布学習問題として定式化する。 NGVI(Natural-gradien t variational Inference)を利用することで、アーキテクチャの分布を既存のコードベースに基づいて容易に最適化できる。 ベイズ主義の原理から異なるNASがいかに恩恵を受け、探索を強化し、安定性を向上するかを実証する。 NAS-Bench-201とNAS-Bench-1shot1ベンチマークデータセットの実験結果は、提案フレームワークが実現可能な大幅な改善を確認した。 さらに、argmaxを学習パラメータに適用する代わりに、NASの最近提案したトレーニングフリープロキシを活用し、最適化分布から引き出されたグループアーキテクチャから最適なアーキテクチャを選択し、NAS-Bench-201およびNAS-Bench-1shot1ベンチマークで最先端の結果を得る。 DARTS検索分野で最高のアーキテクチャは、それぞれCIFAR-10、CIFAR-100、ImageNetデータセット上で2.37\%、15.72\%、24.2\%の競合テストエラーも得る。

Differentiable Architecture Search (DARTS) has received massive attention in recent years, mainly because it significantly reduces the computational cost through weight sharing and continuous relaxation. However, more recent works find that existing differentiable NAS techniques struggle to outperform naive baselines, yielding deteriorative architectures as the search proceeds. Rather than directly optimizing the architecture parameters, this paper formulates the neural architecture search as a distribution learning problem through relaxing the architecture weights into Gaussian distributions. By leveraging the natural-gradient variational inference (NGVI), the architecture distribution can be easily optimized based on existing codebases without incurring more memory and computational consumption. We demonstrate how the differentiable NAS benefits from Bayesian principles, enhancing exploration and improving stability. The experimental results on NAS-Bench-201 and NAS-Bench-1shot1 benchmark datasets confirm the significant improvements the proposed framework can make. In addition, instead of simply applying the argmax on the learned parameters, we further leverage the recently-proposed training-free proxies in NAS to select the optimal architecture from a group architectures drawn from the optimized distribution, where we achieve state-of-the-art results on the NAS-Bench-201 and NAS-Bench-1shot1 benchmarks. Our best architecture in the DARTS search space also obtains competitive test errors with 2.37\%, 15.72\%, and 24.2\% on CIFAR-10, CIFAR-100, and ImageNet datasets, respectively.
翻訳日:2021-11-29 17:19:29 公開日:2021-11-25
# 特徴的神経常微分方程式

Characteristic Neural Ordinary Differential Equations ( http://arxiv.org/abs/2111.13207v1 )

ライセンス: Link先を確認
Xingzi Xu, Ali Hasan, Khalil Elkhalil, Jie Ding, Vahid Tarokh(参考訳) そこで我々は,C-NODE(Platform Neural Ordinary Differential Equations)という,C-NODE(Platform Neural Ordinary Differential Equations)を提案する。 NODEは潜在状態の進化をODEの解としてモデル化するが、提案されたC-NODEは、PDEがODEに還元される曲線として定義される1次準線形偏微分方程式の族(PDE)の解として潜状態の進化をモデル化する。 この削減により、PDE設定にODEを解決するための標準フレームワークを適用できるようになる。 さらに、提案フレームワークは既存のNODEアーキテクチャの拡張としてキャストすることができ、既存のブラックボックスODEソルバを使用できる。 C-NODEフレームワークは,C-NODEでは表現できないがC-NODEでは表現できない関数を示すことによって,古典的NODEを拡張していることを示す。 さらに、C-NODEフレームワークの有効性について、多くの合成および実データシナリオでその性能を示す。 CIFAR-10, SVHN, MNISTデータセットに対して, 既存のNODE手法と同様の計算予算で提案した手法により得られた改善を実証した。

We propose Characteristic Neural Ordinary Differential Equations (C-NODEs), a framework for extending Neural Ordinary Differential Equations (NODEs) beyond ODEs. While NODEs model the evolution of the latent state as the solution to an ODE, the proposed C-NODE models the evolution of the latent state as the solution of a family of first-order quasi-linear partial differential equations (PDE) on their characteristics, defined as curves along which the PDEs reduce to ODEs. The reduction, in turn, allows the application of the standard frameworks for solving ODEs to PDE settings. Additionally, the proposed framework can be cast as an extension of existing NODE architectures, thereby allowing the use of existing black-box ODE solvers. We prove that the C-NODE framework extends the classical NODE by exhibiting functions that cannot be represented by NODEs but are representable by C-NODEs. We further investigate the efficacy of the C-NODE framework by demonstrating its performance in many synthetic and real data scenarios. Empirical results demonstrate the improvements provided by the proposed method for CIFAR-10, SVHN, and MNIST datasets under a similar computational budget as the existing NODE methods.
翻訳日:2021-11-29 17:19:04 公開日:2021-11-25
# あなたが誰であるか: キーポイント検出とインスタンス認識関連のための自己注意の監督

Attend to Who You Are: Supervising Self-Attention for Keypoint Detection and Instance-Aware Association ( http://arxiv.org/abs/2111.12892v1 )

ライセンス: Link先を確認
Sen Yang, Zhicheng Wang, Ze Chen, Yanjie Li, Shoukui Zhang, Zhibin Quan, Shu-Tao Xia, Yiping Bao, Erjin Zhou, Wankou Yang(参考訳) 本稿では,Transformer を用いたキーポイント検出とインスタンス関連の解法を提案する。 ボトムアップマルチパーソンポーズ推定モデルでは、キーポイントを検出して、キーポイント間の連想情報を学ぶ必要がある。 これらの問題はトランスフォーマーによって完全に解決できると主張する。 具体的には、Transformerの自己アテンションは、任意の位置間の依存関係を測定し、キーポイントのグルーピングに関する関連情報を提供する。 しかし、ナイーブな注意パターンは依然として主観的に制御されていないため、キーポイントが属するインスタンスに常に従う保証はない。 そこで本研究では,マルチパーソンキーポイント検出とケースアソシエーションのための自己注意の監視手法を提案する。 インスタンスマスクを用いて、検出されたキーポイントを、予め定義されたオフセットベクトルフィールドやCNNベースのボトムアップモデルのように埋め込むことなく、ペアの注意スコアに基づいて、対応するインスタンスに割り当てることができる。 この手法のさらなる利点は、任意の数の人物のインスタンスセグメンテーション結果を教師付き注目行列から直接得ることができ、ピクセル割り当てパイプラインを簡素化できることである。 cocoマルチパーソンキーポイント検出課題とパーソンインスタンスセグメンテーション課題の実験により,提案手法の有効性と単純性が実証され,特定の目的のために自己着脱行動を制御する有望な方法が示された。

This paper presents a new method to solve keypoint detection and instance association by using Transformer. For bottom-up multi-person pose estimation models, they need to detect keypoints and learn associative information between keypoints. We argue that these problems can be entirely solved by Transformer. Specifically, the self-attention in Transformer measures dependencies between any pair of locations, which can provide association information for keypoints grouping. However, the naive attention patterns are still not subjectively controlled, so there is no guarantee that the keypoints will always attend to the instances to which they belong. To address it we propose a novel approach of supervising self-attention for multi-person keypoint detection and instance association. By using instance masks to supervise self-attention to be instance-aware, we can assign the detected keypoints to their corresponding instances based on the pairwise attention scores, without using pre-defined offset vector fields or embedding like CNN-based bottom-up models. An additional benefit of our method is that the instance segmentation results of any number of people can be directly obtained from the supervised attention matrix, thereby simplifying the pixel assignment pipeline. The experiments on the COCO multi-person keypoint detection challenge and person instance segmentation task demonstrate the effectiveness and simplicity of the proposed method and show a promising way to control self-attention behavior for specific purposes.
翻訳日:2021-11-29 16:51:13 公開日:2021-11-25
# 半教師型セマンティックセグメンテーションのための摂動的・厳密な平均教師

Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2111.12903v1 )

ライセンス: Link先を確認
Yuyuan Liu and Yu Tian and Yuanhong Chen and Fengbei Liu and Vasileios Belagiannis and Gustavo Carneiro(参考訳) 入力画像,特徴,ネットワーク摂動を用いた一貫性学習は,半教師付きセマンティックセマンティックセグメンテーションにおいて顕著な結果を示したが,この手法は未学習のトレーニング画像の不正確な予測に大きく影響する可能性がある。 これらの不正確な予測には2つの結果があります 1)「制限」クロスエントロピー(CE)損失に基づくトレーニングは、予測ミスに容易に適合し、確証バイアスにつながる。 2) 不正確な予測に適用される摂動は,トレーニング信号として誤予測を用い,一貫性学習を低下させる。 本稿では,新しい補助教師を含む平均教師(MT)モデルの新たな拡張と,より厳密な信頼度重み付きクロスエントロピー(Conf-CE)損失による平均二乗誤差(MSE)の置き換えによる一貫性学習手法の予測精度の問題に対処する。 このモデルによる正確な予測により、ネットワーク、入力データ、特徴摂動の困難な組み合わせを用いて、特徴摂動が新しい対角摂動から成り立つ一貫性学習の一般化を改善することができる。 その結果,本手法は従来のSOTA法よりも大幅に改善されていることがわかった。

Consistency learning using input image, feature, or network perturbations has shown remarkable results in semi-supervised semantic segmentation, but this approach can be seriously affected by inaccurate predictions of unlabelled training images. There are two consequences of these inaccurate predictions: 1) the training based on the ``strict'' cross-entropy (CE) loss can easily overfit prediction mistakes, leading to confirmation bias; and 2) the perturbations applied to these inaccurate predictions will use potentially erroneous predictions as training signals, degrading consistency learning. In this paper, we address the prediction accuracy problem of consistency learning methods with novel extensions of the mean-teacher (MT) model, which include a new auxiliary teacher, and the replacement of MT's mean square error (MSE) by a stricter confidence-weighted cross-entropy (Conf-CE) loss. The accurate prediction by this model allows us to use a challenging combination of network, input data and feature perturbations to improve the consistency learning generalisation, where the feature perturbations consist of a new adversarial perturbation. Results on public benchmarks show that our approach achieves remarkable improvements over the previous SOTA methods in the field.
翻訳日:2021-11-29 16:50:47 公開日:2021-11-25
# デュアルカメラを用いた顔深度と正常推定

Facial Depth and Normal Estimation using Single Dual-Pixel Camera ( http://arxiv.org/abs/2111.12928v1 )

ライセンス: Link先を確認
Minjun Kang, Jaesung Choe, Hyowon Ha, Hae-Gon Jeon, Sunghoon Im, In So Kweon(参考訳) 多くのモバイルメーカーは最近、より高速なオートフォーカスと美的イメージキャプチャのために、フラッグシップモデルにDual-Pixel(DP)センサーを採用した。 これらの利点にもかかわらず、DP画像のパララックスを利用するデータセットやアルゴリズム設計の欠如により、3D顔認証に使用される研究は限られている。 これは、サブ開口画像の基線が非常に狭く、デフォーカスぼけ領域に視差が存在するためである。 本稿では3次元顔形状を再構成するDP指向のDepth/Normalネットワークを提案する。 この目的のために,マルチカメラ構造光システムで捉えた101人の顔画像135K以上のDP顔データを収集した。 メートル法スケールでの深度マップや表面正規性を含む、対応する接地型3dモデルを含んでいる。 提案したマッチングネットワークを3次元顔深度/正規分布推定のために一般化する。 提案するネットワークは,dp画像のデフォーカスボケ処理に特化した適応サンプリングモジュールと適応正規モジュールの2つの新規モジュールから構成される。 最後に,提案手法は最近のDP-based depth/normal estimation法に対して最先端の性能を実現する。 また,顔のスプーフィングとリライトに対する深さ/正常推定の適用性を示す。

Many mobile manufacturers recently have adopted Dual-Pixel (DP) sensors in their flagship models for faster auto-focus and aesthetic image captures. Despite their advantages, research on their usage for 3D facial understanding has been limited due to the lack of datasets and algorithmic designs that exploit parallax in DP images. This is because the baseline of sub-aperture images is extremely narrow and parallax exists in the defocus blur region. In this paper, we introduce a DP-oriented Depth/Normal network that reconstructs the 3D facial geometry. For this purpose, we collect a DP facial data with more than 135K images for 101 persons captured with our multi-camera structured light systems. It contains the corresponding ground-truth 3D models including depth map and surface normal in metric scale. Our dataset allows the proposed matching network to be generalized for 3D facial depth/normal estimation. The proposed network consists of two novel modules: Adaptive Sampling Module and Adaptive Normal Module, which are specialized in handling the defocus blur in DP images. Finally, the proposed method achieves state-of-the-art performances over recent DP-based depth/normal estimation methods. We also demonstrate the applicability of the estimated depth/normal to face spoofing and relighting.
翻訳日:2021-11-29 16:50:24 公開日:2021-11-25
# 教師なし領域適応のためのwin-win変換器によるドメイン固有および不変知識の活用

Exploiting Both Domain-specific and Invariant Knowledge via a Win-win Transformer for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2111.12941v1 )

ライセンス: Link先を確認
Wenxuan Ma and Jinming Zhang and Shuang Li and Chi Harold Liu and Yulin Wang and Wei Li(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的としている。 既存のUDAアプローチのほとんどは、ドメイン不変表現を学習し、2つのドメインにまたがる1つの分類器を共有することで知識伝達を可能にする。 しかし、タスクに関連するドメイン固有の情報を無視し、統一分類器を両方のドメインに適合させると、各ドメインの特徴表現性が制限される。 本稿では,CNNと同等のパラメータを持つTransformerアーキテクチャが,CNNよりも伝達可能な表現を生成可能であることを観察し,各ドメインのドメイン固有の知識を別々に探索し,ドメイン間の知識を交換するWin-Win TRansformerフレームワーク(WinTR)を提案する。 具体的には、Transformerで2つの個別分類トークンを用いて2つの異なるマッピングを学習し、それぞれにドメイン固有の分類器を設計する。 ドメイン間の知識は、ソースガイド付きラベルリファインメントと、ソースまたはターゲットに対するシングルサイドの機能アライメントを通じて転送され、ドメイン固有の情報の整合性を維持する。 3つのベンチマークデータセットの大規模な実験により、我々の手法は最先端のUDA法よりも優れており、ドメイン固有性と不変性の両方を活用する効果が検証されている。

Unsupervised Domain Adaptation (UDA) aims to transfer knowledge from a labeled source domain to an unlabeled target domain. Most existing UDA approaches enable knowledge transfer via learning domain-invariant representation and sharing one classifier across two domains. However, ignoring the domain-specific information that are related to the task, and forcing a unified classifier to fit both domains will limit the feature expressiveness in each domain. In this paper, by observing that the Transformer architecture with comparable parameters can generate more transferable representations than CNN counterparts, we propose a Win-Win TRansformer framework (WinTR) that separately explores the domain-specific knowledge for each domain and meanwhile interchanges cross-domain knowledge. Specifically, we learn two different mappings using two individual classification tokens in the Transformer, and design for each one a domain-specific classifier. The cross-domain knowledge is transferred via source guided label refinement and single-sided feature alignment with respect to source or target, which keeps the integrity of domain-specific information. Extensive experiments on three benchmark datasets show that our method outperforms the state-of-the-art UDA methods, validating the effectiveness of exploiting both domain-specific and invariant
翻訳日:2021-11-29 16:47:48 公開日:2021-11-25
# 自己蒸留自己教師形表現学習

Self-Distilled Self-Supervised Representation Learning ( http://arxiv.org/abs/2111.12958v1 )

ライセンス: Link先を確認
Jiho Jang, Seonhoon Kim, Kiyoon Yoo, Jangho Kim, Nojun Kwak(参考訳) 自己教師付き学習における最先端フレームワークは、トランスフォーマーベースのモデルを完全に活用することで、従来のCNNモデルと比較してパフォーマンスが向上することを示した。 画像の2つのビューの相互情報を最大化するために、既存の作品は最終表現に対照的な損失を与える。 また,本研究では,中間表現を最終層から学習させることにより,元の目標の上限と2層間の相互情報を最大化するコントラスト的損失を生かして,さらに活用する。 我々の手法であるSDSSL(Self-Distilled Self-Supervised Learning)は,様々なタスクやデータセット上でのViTを用いた競争ベースライン(SimCLR, BYOL, MoCo v3)より優れています。 線形評価およびk-NNプロトコルでは、SDSSLは最終層において優れたパフォーマンスをもたらすだけでなく、ほとんどの下位層でも性能が向上する。 さらに、表現をより効果的に形成する方法を説明するために、正と負のアライメントが用いられる。 コードは利用可能だ。

State-of-the-art frameworks in self-supervised learning have recently shown that fully utilizing transformer-based models can lead to performance boost compared to conventional CNN models. Thriving to maximize the mutual information of two views of an image, existing works apply a contrastive loss to the final representations. In our work, we further exploit this by allowing the intermediate representations to learn from the final layers via the contrastive loss, which is maximizing the upper bound of the original goal and the mutual information between two layers. Our method, Self-Distilled Self-Supervised Learning (SDSSL), outperforms competitive baselines (SimCLR, BYOL and MoCo v3) using ViT on various tasks and datasets. In the linear evaluation and k-NN protocol, SDSSL not only leads to superior performance in the final layers, but also in most of the lower layers. Furthermore, positive and negative alignments are used to explain how representations are formed more effectively. Code will be available.
翻訳日:2021-11-29 16:47:24 公開日:2021-11-25
# AdvBokeh: ブルを反対に定義することを学ぶ

AdvBokeh: Learning to Adversarially Defocus Blur ( http://arxiv.org/abs/2111.12971v1 )

ライセンス: Link先を確認
Yihao Huang, Felix Juefei-Xu, Qing Guo, Weikai Miao, Yang Liu, Geguang Pu(参考訳) ボケ効果(bokeh effect)は、被写界深度の浅い自然現象である。 美的に喜ぶ写真の追求では、ボケ効果を写真の不可欠な部分と見なすのが普通である。 その自然な利点と普遍性、また、多くの視覚認識タスクが既に「自然なボケ」現象の悪影響を受けているという事実から、本研究では、ボケ世代に計算された偽情報を埋め込むことを目的とする新しい角度、すなわち逆ボケアタック(advbokeh)からボケ効果を体系的に研究し、人間の目に見えるノイズアーティファクトを含まない自然敵の例を作成する。 そこで我々はまず,画像のボケを柔軟に合成し,再フォーカスし,調整できるDepth-guided Bokeh Synthesis Network (DebsNet)を提案する。 DebsNetは、ボケ生成プロセスにタップして、その後の視覚的タスクに基づいて現実的なボケ(すなわち、デプスマップを逆向きに調整する)を生成するために必要なデプスマップを攻撃することができる。 直交ボケの現実性をさらに向上するため, 勾配調整のための奥行き誘導勾配に基づく攻撃法を提案し, 提案手法をNeurIPS-2017 DEV(NeurIPS-2017 DEV)で検証し, 提案手法が4つの最先端画像分類網(ResNet50, VGG, DenseNet, MobileNetV2)を高い成功率で浸透させることができることを示す。 AdvBokehによって得られた逆の例は、ブラックボックス設定下で高いレベルの転送可能性を示す。 さらに、逆発生したAdvBokehからのデフォーカスぼけ画像は、実際に大文字化することができ、SOTAデフォーカスデブロアリングシステム、すなわちIFANの性能を向上させることができる。

Bokeh effect is a natural shallow depth-of-field phenomenon that blurs the out-of-focus part in photography. In pursuit of aesthetically pleasing photos, people usually regard the bokeh effect as an indispensable part of the photo. Due to its natural advantage and universality, as well as the fact that many visual recognition tasks can already be negatively affected by the `natural bokeh' phenomenon, in this work, we systematically study the bokeh effect from a new angle, i.e., adversarial bokeh attack (AdvBokeh) that aims to embed calculated deceptive information into the bokeh generation and produce a natural adversarial example without any human-noticeable noise artifacts. To this end, we first propose a Depth-guided Bokeh Synthesis Network (DebsNet) that is able to flexibly synthesis, refocus, and adjust the level of bokeh of the image, with a one-stage training procedure. The DebsNet allows us to tap into the bokeh generation process and attack the depth map that is needed for generating realistic bokeh (i.e., adversarially tuning the depth map) based on subsequent visual tasks. To further improve the realisticity of the adversarial bokeh, we propose depth-guided gradient-based attack to regularize the gradient.We validate the proposed method on a popular adversarial image classification dataset, i.e., NeurIPS-2017 DEV, and show that the proposed method can penetrate four state-of-the-art (SOTA) image classification networks i.e., ResNet50, VGG, DenseNet, and MobileNetV2 with a high success rate as well as high image quality. The adversarial examples obtained by AdvBokeh also exhibit high level of transferability under black-box settings. Moreover, the adversarially generated defocus blur images from the AdvBokeh can actually be capitalized to enhance the performance of SOTA defocus deblurring system, i.e., IFAN.
翻訳日:2021-11-29 16:47:04 公開日:2021-11-25
# NomMer:視覚認識のための視覚変換器における相乗的コンテキスト

NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition ( http://arxiv.org/abs/2111.12994v1 )

ライセンス: Link先を確認
Hao Liu, Xinghua Jiang, Xin Li, Zhimin Bao, Deqiang Jiang, Bo Ren(参考訳) 近年,視覚トランスフォーマー (vit) は,自意識 (sa) をデファクト成分としており,コンピュータビジョンコミュニティにおいて大きな可能性を秘めている。 効率性と性能のトレードオフのためには、一群の作品がローカルパッチ内でSA操作のみを行うのに対し、グローバルな文脈情報は放棄され、視覚認識タスクには不可欠である。 この問題を解決するため、その後のグローバルローカルvitsは、モデルにおいて、ローカルsaとグローバルsaの結婚を並列または代替的に行う。 それでも、局所的・グローバル的に組み合わせたコンテキストは、様々な視覚データに冗長性があり、各層内の受容野は固定されている。 あるいは、より優雅な方法は、グローバルなコンテキストとローカルなコンテキストがそれぞれに適応して、異なる視覚データに対応できることです。 この目的を達成するために,我々は,視覚トランスフォーマーにおける相乗的グローバルなコンテキストを動的に決定できる,NomMerと呼ばれる新しいViTアーキテクチャを提案する。 提案するnommerの動作パターンを調査することで,コンテキスト情報が注目されているものをさらに探究する。 この「ダイナミックな指名」メカニズムの利点は、ベルやホイッスルがなければ、NomMerはイメージネット上で73Mパラメータだけで84.5%のTop-1分類精度を達成できるだけでなく、オブジェクト検出やセマンティックセグメンテーションといった高密度な予測タスクでも有望な性能を示すことができる。 コードとモデルは、~\url{https://github.com/N omMer1125/NomMerで公開される。

Recently, Vision Transformers (ViT), with the self-attention (SA) as the de facto ingredients, have demonstrated great potential in the computer vision community. For the sake of trade-off between efficiency and performance, a group of works merely perform SA operation within local patches, whereas the global contextual information is abandoned, which would be indispensable for visual recognition tasks. To solve the issue, the subsequent global-local ViTs take a stab at marrying local SA with global one in parallel or alternative way in the model. Nevertheless, the exhaustively combined local and global context may exist redundancy for various visual data, and the receptive field within each layer is fixed. Alternatively, a more graceful way is that global and local context can adaptively contribute per se to accommodate different visual data. To achieve this goal, we in this paper propose a novel ViT architecture, termed NomMer, which can dynamically Nominate the synergistic global-local context in vision transforMer. By investigating the working pattern of our proposed NomMer, we further explore what context information is focused. Beneficial from this "dynamic nomination" mechanism, without bells and whistles, the NomMer can not only achieve 84.5% Top-1 classification accuracy on ImageNet with only 73M parameters, but also show promising performance on dense prediction tasks, i.e., object detection and semantic segmentation. The code and models will be made publicly available at~\url{https://github.com/N omMer1125/NomMer.
翻訳日:2021-11-29 16:46:25 公開日:2021-11-25
# ソースモデルアンサンブル選択のための転送可能性メトリクス

Transferability Metrics for Selecting Source Model Ensembles ( http://arxiv.org/abs/2111.13011v1 )

ライセンス: Link先を確認
Andrea Agostinelli, Jasper Uijlings, Thomas Mensink, Vittorio Ferrari(参考訳) 我々は、転送学習におけるアンサンブル選択の問題に対処する: 大量のソースモデルに対して、ターゲットのトレーニングセットを微調整した後、ターゲットのテストセット上で最高のパフォーマンスが得られるようなモデルのアンサンブルを選択したい。 可能なすべてのアンサンブルの微調整は計算が禁じられているため,計算効率のよい転送性指標を用いて,対象データセットの性能を予測することを目指している。 このタスク用に設計された新しいトランスファービリティメトリクスを提案し、セマンティックセグメンテーションのための挑戦的で現実的なトランスファーラーニング設定で評価する: 多様な画像領域と2つの異なるアーキテクチャ、および2つの事前学習スキームをカバーする17のソースデータセットを考慮し、大規模で多様なソースモデルのプールを作成する。 このプールが与えられたら、サブセットを自動的に選択して、所定のターゲットデータセット上でうまく動作するアンサンブルを形成する。 我々は,本手法で選択したアンサンブルを,(1)同一のプールから,(2)大容量のソースモデルを含むプールから,それぞれがアンサンブルと同等の容量を持つ1つのソースモデルを選択する2つのベースラインと比較する。 対象とするデータセットの平均は17で、ベースラインはそれぞれ6.0%、相対平均IoUは2.5%を上回った。

We address the problem of ensemble selection in transfer learning: Given a large pool of source models we want to select an ensemble of models which, after fine-tuning on the target training set, yields the best performance on the target test set. Since fine-tuning all possible ensembles is computationally prohibitive, we aim at predicting performance on the target dataset using a computationally efficient transferability metric. We propose several new transferability metrics designed for this task and evaluate them in a challenging and realistic transfer learning setup for semantic segmentation: we create a large and diverse pool of source models by considering 17 source datasets covering a wide variety of image domain, two different architectures, and two pre-training schemes. Given this pool, we then automatically select a subset to form an ensemble performing well on a given target dataset. We compare the ensemble selected by our method to two baselines which select a single source model, either (1) from the same pool as our method; or (2) from a pool containing large source models, each with similar capacity as an ensemble. Averaged over 17 target datasets, we outperform these baselines by 6.0% and 2.5% relative mean IoU, respectively.
翻訳日:2021-11-29 16:45:56 公開日:2021-11-25
# 多出力マルチ出力高速R-CNNによるロバスト物体検出

Robust Object Detection with Multi-input Multi-output Faster R-CNN ( http://arxiv.org/abs/2111.13065v1 )

ライセンス: Link先を確認
Sebastian Cygert, Andrzej Czyzewski(参考訳) 近年、多くのベンチマークで視覚認識が著しく進歩しているが、配布外設定での現実世界への一般化は大きな課題である。 堅牢な視覚認識のための最先端の手法はモデルアンサンブルである。 しかし、近年、MIMO(Multi-Input Multi-output Architecture)を用いることで、同様の競合的な結果が得られることが示されている。 本研究では,MIMO手法の一般化を汎用的なFaster R-CNNモデルを用いたオブジェクト検出のタスクに適用する。 MIMOフレームワークを使うことで、強力な特徴表現を構築することができ、入力/出力ペアを2つだけ使う場合、非常に競争力のある精度が得られる。 さらに、0.5\%の追加モデルパラメータを追加し、標準のFaster R-CNNと比較して推論時間を15.9\%増加させる。 また、モデル精度、分布外セッティングに対する堅牢性、同じ数の予測が使用される場合の不確実性キャリブレーションの観点から、Deep Ensembleアプローチに比較して、あるいは性能を向上する。 この研究は、意味的セグメンテーションや深さ推定といった他のハイレベルなタスクにMIMOアプローチを適用するための道を開く。

Recent years have seen impressive progress in visual recognition on many benchmarks, however, generalization to the real-world in out-of-distribution setting remains a significant challenge. A state-of-the-art method for robust visual recognition is model ensembling. however, recently it was shown that similarly competitive results could be achieved with a much smaller cost, by using multi-input multi-output architecture (MIMO). In this work, a generalization of the MIMO approach is applied to the task of object detection using the general-purpose Faster R-CNN model. It was shown that using the MIMO framework allows building strong feature representation and obtains very competitive accuracy when using just two input/output pairs. Furthermore, it adds just 0.5\% additional model parameters and increases the inference time by 15.9\% when compared to the standard Faster R-CNN. It also works comparably to, or outperforms the Deep Ensemble approach in terms of model accuracy, robustness to out-of-distribution setting, and uncertainty calibration when the same number of predictions is used. This work opens up avenues for applying the MIMO approach in other high-level tasks such as semantic segmentation and depth estimation.
翻訳日:2021-11-29 16:45:31 公開日:2021-11-25
# 動作周波数誘導による人間の動作に先立つ弾力性探索

Exploring Versatile Prior for Human Motion via Motion Frequency Guidance ( http://arxiv.org/abs/2111.13074v1 )

ライセンス: Link先を確認
Jiachen Xu, Min Wang, Jingyu Gong, Wentao Liu, Chen Qian, Yuan Xie, Lizhuang Ma(参考訳) プリエントは人間の動きにもっともらしい制約を与える上で重要な役割を担っている。 以前の作品では、異なる状況下で様々なパラダイムに従って動きを優先的に設計しており、汎用性の欠如に繋がる。 本稿では,まず,動作の必要不可欠な特性をまず要約し,人間の動作の固有確率分布をモデル化した多目的動作を学習するための枠組みを設計する。 具体的には,従来の動きデータ空間における冗長な環境情報を除去するためのグローバルオリエンテーション正規化を提案する。 また、符号化ステージに2レベル、シーケンスベース、セグメントベース、周波数ガイダンスを導入する。 次に,環境情報を入力動作データから学習可能な方法で切り離し,一貫性のある識別可能な表現を生成するための分別学習方式を採用する。 動作を3つの異なるタスクに一般的なバックボーンに組み込むことで、広範囲な実験を行い、定量的および質的結果から、動作の汎用性と有効性を示す。 私たちのモデルとコードはhttps://github.com/j chenxu/human-motion- priorで利用可能です。

Prior plays an important role in providing the plausible constraint on human motion. Previous works design motion priors following a variety of paradigms under different circumstances, leading to the lack of versatility. In this paper, we first summarize the indispensable properties of the motion prior, and accordingly, design a framework to learn the versatile motion prior, which models the inherent probability distribution of human motions. Specifically, for efficient prior representation learning, we propose a global orientation normalization to remove redundant environment information in the original motion data space. Also, a two-level, sequence-based and segment-based, frequency guidance is introduced into the encoding stage. Then, we adopt a denoising training scheme to disentangle the environment information from input motion data in a learnable way, so as to generate consistent and distinguishable representation. Embedding our motion prior into prevailing backbones on three different tasks, we conduct extensive experiments, and both quantitative and qualitative results demonstrate the versatility and effectiveness of our motion prior. Our model and code are available at https://github.com/J chenXu/human-motion- prior.
翻訳日:2021-11-29 16:45:10 公開日:2021-11-25
# VaxNeRF:Voxel-Accele rated Neural Radiance Fieldのクラシックを再考

VaxNeRF: Revisiting the Classic for Voxel-Accelerated Neural Radiance Field ( http://arxiv.org/abs/2111.13112v1 )

ライセンス: Link先を確認
Naruya Kondo, Yuya Ikeda, Andrea Tagliasacchi, Yutaka Matsuo, Yoichi Ochiai, Shixiang Shane Gu(参考訳) NeRF(Neural Radiance Field)は、データ駆動型3次元再構成において一般的な手法である。 単純で高品質なレンダリングのため、多くのNeRFアプリケーションが開発されている。 しかし、NeRFの大きな制限は速度が遅いことである。 複雑なコードレベルの最適化とキャッシュ、高度なデータ構造の使用、マルチタスクとメタ学習による償却など、NeRFトレーニングと推論の高速化が試みられている。 本研究では、NeRF以前の古典的技法のレンズを通して、NeRFの基本構造ブロックを再考する。 本稿では,Voxel-Accelearated NeRF (VaxNeRF) を用いて,2次元背景画素ラベルのみを必要とする古典的な3次元再構成技術であるNeRFを視覚的包絡と統合する手法を提案する。 約10秒で最適化できるビジュアル船体は、NeRFにおけるかなりの量のネットワーク評価を省くために、粗いインアウトフィールド分離を提供することができる。 我々は、人気の高いJaxNeRFコードベース上で、約30行のコード変更とモジュール化された視覚的なサブルーチンで構成され、高いパフォーマンスのJaxNeRFベースライン上で、レンダリング品質の劣化をなくすことなく、約2~8倍の高速な学習を実現する、完全にピトニックなJAXベースのクリーンな実装を提供する。 十分な計算量があれば、完全なNeRFトレーニングを数時間から30分に短縮できる。 VaxNeRF – 古典的なテクニックとディープメソッド(おそらく置き換えられる)を慎重に組み合わせることで,新たなNeRF拡張とアプリケーションの強化と高速化が可能になり,そのシンプルさ,ポータビリティ,信頼性の高いパフォーマンス向上を期待しています。 コードはhttps://github.com/n aruya/vaxnerfで入手できる。

Neural Radiance Field (NeRF) is a popular method in data-driven 3D reconstruction. Given its simplicity and high quality rendering, many NeRF applications are being developed. However, NeRF's big limitation is its slow speed. Many attempts are made to speeding up NeRF training and inference, including intricate code-level optimization and caching, use of sophisticated data structures, and amortization through multi-task and meta learning. In this work, we revisit the basic building blocks of NeRF through the lens of classic techniques before NeRF. We propose Voxel-Accelearated NeRF (VaxNeRF), integrating NeRF with visual hull, a classic 3D reconstruction technique only requiring binary foreground-backgroun d pixel labels per image. Visual hull, which can be optimized in about 10 seconds, can provide coarse in-out field separation to omit substantial amounts of network evaluations in NeRF. We provide a clean fully-pythonic, JAX-based implementation on the popular JaxNeRF codebase, consisting of only about 30 lines of code changes and a modular visual hull subroutine, and achieve about 2-8x faster learning on top of the highly-performative JaxNeRF baseline with zero degradation in rendering quality. With sufficient compute, this effectively brings down full NeRF training from hours to 30 minutes. We hope VaxNeRF -- a careful combination of a classic technique with a deep method (that arguably replaced it) -- can empower and accelerate new NeRF extensions and applications, with its simplicity, portability, and reliable performance gains. Codes are available at https://github.com/n aruya/VaxNeRF .
翻訳日:2021-11-29 16:44:03 公開日:2021-11-25
# スーパートークンを用いた視覚トランスフォーマのグローバルインタラクションモデリング

Global Interaction Modelling in Vision Transformer via Super Tokens ( http://arxiv.org/abs/2111.13156v1 )

ライセンス: Link先を確認
Ammarah Farooq, Muhammad Awais, Sara Ahmed, Josef Kittler(参考訳) コンピュータビジョンにおけるトランスフォーマーアーキテクチャの人気により、研究の焦点は計算効率の高い設計へとシフトした。 ウィンドウベースのローカルな注意は、最近の作品で採用されている主要なテクニックの1つである。 これらの手法は、非常に小さなパッチサイズと小さな埋め込み次元から始まり、特徴地図のサイズを小さくし、埋め込み寸法を増やすために強化された畳み込み(パッチマージ)を行い、ピラミッド型畳み込みニューラルネットワーク(cnn)のような設計を形成する。 本研究では,変圧器における局所的およびグローバルな情報モデリングについて,ローカルウィンドウとスーパートークンと呼ばれる特別なトークンを自己注意に利用する新しい等方的アーキテクチャを提案する。 具体的には、1つのSuperトークンが各イメージウィンドウに割り当てられ、そのウィンドウのリッチなローカル詳細をキャプチャする。 これらのトークンは、クロスウィンドウ通信とグローバル表現学習に使用される。 したがって、学習の大部分は、上位層におけるイメージパッチ $(n)$ から独立しており、クラス埋め込みは、$m^2$ がウィンドウサイズであるようなスーパートークン $(n/m^2)$ に基づいてのみ学習される。 Imagenet-1Kの標準画像分類では、提案したSuper tokens based transformer (STT-S25) は、パラメータの約半分(49M)でSwin Transformer (Swin-B) に相当する83.5\%の精度を実現し、推論時間スループットを2倍にする。 提案されているSuper token transformerは、視覚認識タスクのための軽量で有望なバックボーンを提供する。

With the popularity of Transformer architectures in computer vision, the research focus has shifted towards developing computationally efficient designs. Window-based local attention is one of the major techniques being adopted in recent works. These methods begin with very small patch size and small embedding dimensions and then perform strided convolution (patch merging) in order to reduce the feature map size and increase embedding dimensions, hence, forming a pyramidal Convolutional Neural Network (CNN) like design. In this work, we investigate local and global information modelling in transformers by presenting a novel isotropic architecture that adopts local windows and special tokens, called Super tokens, for self-attention. Specifically, a single Super token is assigned to each image window which captures the rich local details for that window. These tokens are then employed for cross-window communication and global representation learning. Hence, most of the learning is independent of the image patches $(N)$ in the higher layers, and the class embedding is learned solely based on the Super tokens $(N/M^2)$ where $M^2$ is the window size. In standard image classification on Imagenet-1K, the proposed Super tokens based transformer (STT-S25) achieves 83.5\% accuracy which is equivalent to Swin transformer (Swin-B) with circa half the number of parameters (49M) and double the inference time throughput. The proposed Super token transformer offers a lightweight and promising backbone for visual recognition tasks.
翻訳日:2021-11-29 16:43:34 公開日:2021-11-25
# 自己監督型視覚表現学習のための意味認識生成

Semantic-Aware Generation for Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2111.13163v1 )

ライセンス: Link先を確認
Yunjie Tian, Lingxi Xie, Xiaopeng Zhang, Jiemin Fang, Haohang Xu, Wei Huang, Jianbin Jiao, Qi Tian, Qixiang Ye(参考訳) 本稿では,生成的プロキシと識別的プロキシの両方が関与する自己教師型視覚表現学習手法を提案する。 原画像と生成画像のピクセルレベルでの類似性を重視した先行研究とは異なり、我々は、生成画像に保存する詳細よりも、よりリッチなセマンティクスを促進するための意味認識生成(sage)を提唱する。 SaGeを実装する基本的な考え方は、ラベルなしで事前トレーニングされたディープネットワークである評価器を使用して、セマンティック・アウェアな特徴を抽出することだ。 sageはターゲットネットワークをビュー特有の特徴で補完し、集中的なデータ拡張によってもたらされる意味的劣化を軽減する。 我々は、ImageNet-1K上でSaGeを実行し、隣り合うテスト、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。

In this paper, we propose a self-supervised visual representation learning approach which involves both generative and discriminative proxies, where we focus on the former part by requiring the target network to recover the original image based on the mid-level features. Different from prior work that mostly focuses on pixel-level similarity between the original and generated images, we advocate for Semantic-aware Generation (SaGe) to facilitate richer semantics rather than details to be preserved in the generated image. The core idea of implementing SaGe is to use an evaluator, a deep network that is pre-trained without labels, for extracting semantic-aware features. SaGe complements the target network with view-specific features and thus alleviates the semantic degradation brought by intensive data augmentations. We execute SaGe on ImageNet-1K and evaluate the pre-trained models on five downstream tasks including nearest neighbor test, linear classification, and fine-scaled image recognition, demonstrating its ability to learn stronger visual representations.
翻訳日:2021-11-29 16:43:05 公開日:2021-11-25
# 相関特徴に基づく均一低分解能顔認識法

Homogeneous Low-Resolution Face Recognition Method based Correlation Features ( http://arxiv.org/abs/2111.13175v1 )

ライセンス: Link先を確認
Xuan Zhao(参考訳) 顔認識技術は、人間識別、入場制御、モバイルデバイスへのアクセスなど、多くのミッションクリティカルなシナリオで広く採用されている。 セキュリティ監視は顔認識技術の典型的なシナリオである。 監視映像と画像の低解像度化により、高解像度の顔認識アルゴリズムが効果的な特徴情報を抽出することが困難になるため、高解像度の顔認識に適用するアルゴリズムは、低解像度の状況に直接移行することが困難である。 密集都市化の時代には、セキュリティ監視における顔認証がますます重要になるため、低解像度監視カメラが生み出す映像フレームの処理に十分な性能を提供できるアルゴリズムを開発することが不可欠である。 本稿では,均質な低解像度監視ビデオを用いた相関特徴に基づく顔認識(coffar)法について,理論,実験の詳細,実験結果について詳述する。 実験により, 監視セキュリティシナリオにおける均一顔認証の精度を向上させる相関特徴法の有効性を検証した。

Face recognition technology has been widely adopted in many mission-critical scenarios like means of human identification, controlled admission, and mobile device access, etc. Security surveillance is a typical scenario of face recognition technology. Because the low-resolution feature of surveillance video and images makes it difficult for high-resolution face recognition algorithms to extract effective feature information, Algorithms applied to high-resolution face recognition are difficult to migrate directly to low-resolution situations. As face recognition in security surveillance becomes more important in the era of dense urbanization, it is essential to develop algorithms that are able to provide satisfactory performance in processing the video frames generated by low-resolution surveillance cameras. This paper study on the Correlation Features-based Face Recognition (CoFFaR) method which using for homogeneous low-resolution surveillance videos, the theory, experimental details, and experimental results are elaborated in detail. The experimental results validate the effectiveness of the correlation features method that improves the accuracy of homogeneous face recognition in surveillance security scenarios.
翻訳日:2021-11-29 16:42:46 公開日:2021-11-25
# SwinBERT:ビデオキャプションのためのスペアアテンション付きエンドツーエンドトランス

SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning ( http://arxiv.org/abs/2111.13196v1 )

ライセンス: Link先を確認
Kevin Lin, Linjie Li, Chung-Ching Lin, Faisal Ahmed, Zhe Gan, Zicheng Liu, Yumao Lu, Lijuan Wang(参考訳) ビデオキャプションの標準的アプローチは、オフライン抽出された高密度ビデオ特徴から学ぶためにキャプション生成モデルを規定する。 これらの特徴抽出器は通常、固定フレームレートでサンプリングされたビデオフレーム上で動作し、ビデオキャプションデータに適応することなく、しばしば画像/ビデオ理解タスクで訓練される。 本研究では,ビデオキャプションのエンドツーエンド変換モデルであるSwinBERTを紹介し,映像フレームのパッチを直接入力として取り出し,自然言語記述を出力する。 複数の2d/3d特徴抽出器を利用する代わりに、ビデオトランスフォーマを用いて、フレームレートの異なるビデオ入力の可変長に適応可能な空間-時間表現を符号化する。 このモデルアーキテクチャに基づき、ビデオ字幕化は、ビデオ・言語理解タスク(例えば、ビデオ質問応答)のための疎サンプル化ビデオフレームによる以前の成功とは対照的に、より高密度なサンプル化ビデオフレームから大きな恩恵を受けることができることを示す。 さらに,連続する映像フレームに固有の冗長性を避けるため,分散アテンションマスクを適応的に学習し,長距離映像シーケンスモデリングの改善によるタスク固有の性能向上のために最適化する。 5つのビデオキャプションデータセットに関する広範な実験を通して、SwinBERTは従来の手法よりも性能が向上し、多くの場合大きなマージンが生じることを示した。 学習されたスパークアテンションマスクは、芸術の新たな状態に制限を押し付け、異なるビデオの長さと異なるデータセットの間で転送することができる。

The canonical approach to video captioning dictates a caption generation model to learn from offline-extracted dense video features. These feature extractors usually operate on video frames sampled at a fixed frame rate and are often trained on image/video understanding tasks, without adaption to video captioning data. In this work, we present SwinBERT, an end-to-end transformer-based model for video captioning, which takes video frame patches directly as inputs, and outputs a natural language description. Instead of leveraging multiple 2D/3D feature extractors, our method adopts a video transformer to encode spatial-temporal representations that can adapt to variable lengths of video input without dedicated design for different frame rates. Based on this model architecture, we show that video captioning can benefit significantly from more densely sampled video frames as opposed to previous successes with sparsely sampled video frames for video-and-language understanding tasks (e.g., video question answering). Moreover, to avoid the inherent redundancy in consecutive video frames, we propose adaptively learning a sparse attention mask and optimizing it for task-specific performance improvement through better long-range video sequence modeling. Through extensive experiments on 5 video captioning datasets, we show that SwinBERT achieves across-the-board performance improvements over previous methods, often by a large margin. The learned sparse attention masks in addition push the limit to new state of the arts, and can be transferred between different video lengths and between different datasets.
翻訳日:2021-11-29 16:42:28 公開日:2021-11-25
# Adaptive Self-Trainingによるクロスドメインオブジェクト検出

Cross-Domain Object Detection via Adaptive Self-Training ( http://arxiv.org/abs/2111.13216v1 )

ライセンス: Link先を確認
Yu-Jhe Li, Xiaoliang Dai, Chih-Yao Ma, Yen-Cheng Liu, Kan Chen, Bichen Wu, Zijian He, Kris Kitani, Peter Vadja(参考訳) 我々は、オブジェクト検出におけるドメイン適応の問題に取り組み、ソース(監督のあるドメイン)とターゲットドメイン(監督のない関心のあるドメイン)の間に大きなドメインシフトがある。 広く採用されているドメイン適応手法として,自己学習型教師学習フレームワーク(教師モデルから生成した擬似ラベルから学習する学生モデル)が,対象領域において有意な精度向上をもたらした。 しかし、ソースドメインへのバイアスにより教師が生成した低品質な擬似ラベル(例えば偽陽性)の多さに悩まされている。 この問題に対処するため,ドメインシフトに対処するために,相互学習中の対人学習と弱強データ増大を利用した自己学習フレームワークであるAdaptive Unbiased Teacher (AUT)を提案する。 具体的には,学生モデルに特徴レベルの対角訓練を取り入れ,ソースとターゲットドメインから抽出した特徴が同様の統計値を共有することを保証する。 これにより、学生モデルはドメイン不変の特徴をキャプチャできる。 さらに,対象ドメイン上の教師モデルと,両ドメインにおける生徒モデルとの相互学習と弱強弱化を適用した。 これにより、教師モデルは、ドメインシフトに悩まされることなく、徐々に学生モデルの恩恵を受けることができる。 AUTは既存のアプローチやOracle(完全に監督された)モデルよりも大きなマージンで優れていることを示す。 例えば、フォギー・シティスケープ(clipart1k)で50.9% (49.3%) のマップを達成し、これは9.2% (5.2%) と8.2% (11.0%) で、それぞれ以前のstate-of-the-artとoracleよりも高い。

We tackle the problem of domain adaptation in object detection, where there is a significant domain shift between a source (a domain with supervision) and a target domain (a domain of interest without supervision). As a widely adopted domain adaptation method, the self-training teacher-student framework (a student model learns from pseudo labels generated from a teacher model) has yielded remarkable accuracy gain on the target domain. However, it still suffers from the large amount of low-quality pseudo labels (e.g., false positives) generated from the teacher due to its bias toward the source domain. To address this issue, we propose a self-training framework called Adaptive Unbiased Teacher (AUT) leveraging adversarial learning and weak-strong data augmentation during mutual learning to address domain shift. Specifically, we employ feature-level adversarial training in the student model, ensuring features extracted from the source and target domains share similar statistics. This enables the student model to capture domain-invariant features. Furthermore, we apply weak-strong augmentation and mutual learning between the teacher model on the target domain and the student model on both domains. This enables the teacher model to gradually benefit from the student model without suffering domain shift. We show that AUT demonstrates superiority over all existing approaches and even Oracle (fully supervised) models by a large margin. For example, we achieve 50.9% (49.3%) mAP on Foggy Cityscape (Clipart1K), which is 9.2% (5.2%) and 8.2% (11.0%) higher than previous state-of-the-art and Oracle, respectively
翻訳日:2021-11-29 16:42:01 公開日:2021-11-25
# 半教師あり行動認識のための時間勾配からの学習

Learning from Temporal Gradient for Semi-supervised Action Recognition ( http://arxiv.org/abs/2111.13241v1 )

ライセンス: Link先を確認
Junfei Xiao, Longlong Jing, Lin Zhang, Ju He, Qi She, Zongwei Zhou, Alan Yuille, Yingwei Li(参考訳) 半教師付きビデオアクション認識は、非常に限定されたラベル付きデータでもディープニューラルネットワークが驚くべきパフォーマンスを達成できる傾向がある。 しかし、既存のメソッドは主に現在のイメージベースのメソッド(例えばfixmatch)から転送される。 時間的ダイナミクスと固有のマルチモーダル属性を特に活用しなければ、それらの結果は最適ではない。 本稿では,ビデオ中の時間情報をよりよく活用するために,より注意深い特徴抽出のための追加のモダリティとして時間勾配を導入する。 具体的には、時間勾配(TG)から微細な運動表現を明示的に蒸留し、異なるモード(RGBとTG)で整合性を付与する。 半教師付き動作認識の性能は、推論中に計算やパラメータを追加することなく大幅に向上する。 提案手法は,3つのビデオ行動認識ベンチマーク(Kinetics-400, UCF-101, HMDB-51)において,一般的な半教師付き設定(ラベル付きデータの異なる比率)下での最先端性能を実現する。

Semi-supervised video action recognition tends to enable deep neural networks to achieve remarkable performance even with very limited labeled data. However, existing methods are mainly transferred from current image-based methods (e.g., FixMatch). Without specifically utilizing the temporal dynamics and inherent multimodal attributes, their results could be suboptimal. To better leverage the encoded temporal information in videos, we introduce temporal gradient as an additional modality for more attentive feature extraction in this paper. To be specific, our method explicitly distills the fine-grained motion representations from temporal gradient (TG) and imposes consistency across different modalities (i.e., RGB and TG). The performance of semi-supervised action recognition is significantly improved without additional computation or parameters during inference. Our method achieves the state-of-the-art performance on three video action recognition benchmarks (i.e., Kinetics-400, UCF-101, and HMDB-51) under several typical semi-supervised settings (i.e., different ratios of labeled data).
翻訳日:2021-11-29 16:41:32 公開日:2021-11-25
# GPR1200: 汎用コンテンツベース画像検索のためのベンチマーク

GPR1200: A Benchmark for General-Purpose Content-Based Image Retrieval ( http://arxiv.org/abs/2111.13122v1 )

ライセンス: Link先を確認
Konstantin Schall, Kai Uwe Barthel, Nico Hezel, Klaus Jung(参考訳) ディープニューラルネットワークの検索特有のトレーニングは、近接する画像検索品質に有益であることが広く示されているが、これらのモデルのほとんどは、ランドマーク画像の領域でトレーニングされ、テストされている。 しかし、いくつかのアプリケーションは様々なドメインの画像を使用し、そのため汎用CBIRモデルである優れた一般化特性を持つネットワークが必要である。 我々の知る限り、一般的な画像検索の品質に関して、ベンチマークモデルにテストプロトコルは導入されていない。 人気のある画像検索テストセットを分析した後、私たちはGPR1200を手作業でキュレートすることにしました。 このベンチマークはその後、様々なアーキテクチャの事前訓練されたモデルとその一般化特性を評価するために使用される。 大規模事前学習は検索性能を著しく向上させ,適切な微調整によりこれらの特性をさらに向上させる実験を行った。 これらの有望な成果により、汎用CBIRの研究分野への関心を高めたい。

Even though it has extensively been shown that retrieval specific training of deep neural networks is beneficial for nearest neighbor image search quality, most of these models are trained and tested in the domain of landmarks images. However, some applications use images from various other domains and therefore need a network with good generalization properties - a general-purpose CBIR model. To the best of our knowledge, no testing protocol has so far been introduced to benchmark models with respect to general image retrieval quality. After analyzing popular image retrieval test sets we decided to manually curate GPR1200, an easy to use and accessible but challenging benchmark dataset with a broad range of image categories. This benchmark is subsequently used to evaluate various pretrained models of different architectures on their generalization qualities. We show that large-scale pretraining significantly improves retrieval performance and present experiments on how to further increase these properties by appropriate fine-tuning. With these promising results, we hope to increase interest in the research topic of general-purpose CBIR.
翻訳日:2021-11-29 16:15:51 公開日:2021-11-25
# 電気自動車の微視的品質を考慮したマクロエネルギー消費予測のための深層学習手法

A Deep Learning Approach for Macroscopic Energy Consumption Prediction with Microscopic Quality for Electric Vehicles ( http://arxiv.org/abs/2111.12861v1 )

ライセンス: Link先を確認
Ayman Moawad, Krishna Murthy Gurumurthy, Omer Verbas, Zhijian Li, Ehsan Islam, Vincent Freyermuth, Aymeric Rousseau(参考訳) 本稿では,電気自動車の電気消費をマクロレベルでモデル化する機械学習手法,すなわち速度プロファイルを欠くことなく,微視的精度を保ちながらモデル化する。 本研究では,シカゴ大都市圏で発生したトリップを様々なシナリオでモデル化する高性能エージェントベースの輸送ツールと,高忠実度エネルギー消費値を提供する物理モデルとシミュレーションツールを活用した。 生成した結果は、車両と経路設定の変動を捉え、車両速度ダイナミクスの高精度な時系列をマスキングする、車両-ルートエネルギー結果の非常に大きなデータセットを構成する。 エネルギー消費に影響を与えるすべての内部ダイナミクスは隠蔽されているが、集約レベルのエネルギー消費値をかなり正確に深層学習アプローチで学習することが可能である。 大規模なデータが利用可能で、注意深く機能工学を調整すれば、よく設計されたモデルは潜在情報を克服し、取得することができる。 このモデルはPOLARISトランスポーテーション・システム・シミュレーション・ツールに実装され、個別の充電決定および電気自動車の再走行のためのリアルタイムの行動輸送モデルをサポートする。

This paper presents a machine learning approach to model the electric consumption of electric vehicles at macroscopic level, i.e., in the absence of a speed profile, while preserving microscopic level accuracy. For this work, we leveraged a high-performance, agent-based transportation tool to model trips that occur in the Greater Chicago region under various scenario changes, along with physics-based modeling and simulation tools to provide high-fidelity energy consumption values. The generated results constitute a very large dataset of vehicle-route energy outcomes that capture variability in vehicle and routing setting, and in which high-fidelity time series of vehicle speed dynamics is masked. We show that although all internal dynamics that affect energy consumption are masked, it is possible to learn aggregate-level energy consumption values quite accurately with a deep learning approach. When large-scale data is available, and with carefully tailored feature engineering, a well-designed model can overcome and retrieve latent information. This model has been deployed and integrated within POLARIS Transportation System Simulation Tool to support real-time behavioral transportation models for individual charging decision-making, and rerouting of electric vehicles.
翻訳日:2021-11-29 16:15:31 公開日:2021-11-25
# インクリメンタルディシパティティを用いたニューラルネットワークの敵攻撃に対するロバスト性

Robustness against Adversarial Attacks in Neural Networks using Incremental Dissipativity ( http://arxiv.org/abs/2111.12906v1 )

ライセンス: Link先を確認
Bernardo Aquino, Arash Rahnama, Peter Seiler, Lizhen Lin, Vijay Gupta(参考訳) 逆例はニューラルネットワークの分類性能を低下させるのが容易である。 このような例に対するロバスト性を促進する実証的な方法が提案されているが、しばしば分析的洞察と形式的保証の両方を欠いている。 近年,システム理論的概念に基づく堅牢性証明が文献に登場している。 本稿では,各層に対する線形行列不等式という形で,ニューラルネットワークのための漸進的分散性に基づくロバストネス証明を提案する。 また、複数の層を持つニューラルネットワークに対してスケーラブルな、この証明書に対する等価なスペクトルノルムを提案する。 mnistでトレーニングされたフィードフォワードニューラルネットワークとcifar-10でトレーニングされたアレクサネットの敵の攻撃に対する性能改善を実証する。

Adversarial examples can easily degrade the classification performance in neural networks. Empirical methods for promoting robustness to such examples have been proposed, but often lack both analytical insights and formal guarantees. Recently, some robustness certificates have appeared in the literature based on system theoretic notions. This work proposes an incremental dissipativity-based robustness certificate for neural networks in the form of a linear matrix inequality for each layer. We also propose an equivalent spectral norm bound for this certificate which is scalable to neural networks with multiple layers. We demonstrate the improved performance against adversarial attacks on a feed-forward neural network trained on MNIST and an Alexnet trained using CIFAR-10.
翻訳日:2021-11-29 16:15:12 公開日:2021-11-25
# qnnverifier:smtベースのモデルチェックを用いたニューラルネットワークの検証ツール

QNNVerifier: A Tool for Verifying Neural Networks using SMT-Based Model Checking ( http://arxiv.org/abs/2111.13110v1 )

ライセンス: Link先を確認
Xidan Song, Edoardo Manino, Luiz Sena, Erickson Alves, Eddie de Lima Filho, Iury Bessa, Mikel Lujan, Lucas Cordeiro(参考訳) QNNVerifierは、演算子の有限ワード長(量子化)を考慮してニューラルネットワークの実装を検証する最初のオープンソースツールである。 量子化のための新しいサポートは、最先端ソフトウェアモデル検査(SMC)技術を用いて達成される。 ニューラルネットワークの実装を、満足度変調理論(SMT)に基づく一階述語論理の決定可能な断片に変換する。 固定点演算と浮動小数点演算の効果は、ハードウェア決定精度の直接実装によって表される。 さらに、QNNVerifierは、異常な安全性特性を特定し、異なる検証戦略(インクリメンタルおよびk-インダクション)とSMTソルバで結果モデルを検証することができる。 最後に、QNNVerifierは、インターバル解析と非線形アクティベーション関数の離散化による不変推論を組み合わせて、ニューラルネットワークの検証を桁違いに高速化する最初のツールである。 QNNVerifierのビデオプレゼンテーションはhttps://youtu.be/7jM gOL41zTYで公開されている。

QNNVerifier is the first open-source tool for verifying implementations of neural networks that takes into account the finite word-length (i.e. quantization) of their operands. The novel support for quantization is achieved by employing state-of-the-art software model checking (SMC) techniques. It translates the implementation of neural networks to a decidable fragment of first-order logic based on satisfiability modulo theories (SMT). The effects of fixed- and floating-point operations are represented through direct implementations given a hardware-determined precision. Furthermore, QNNVerifier allows to specify bespoke safety properties and verify the resulting model with different verification strategies (incremental and k-induction) and SMT solvers. Finally, QNNVerifier is the first tool that combines invariant inference via interval analysis and discretization of non-linear activation functions to speed up the verification of neural networks by orders of magnitude. A video presentation of QNNVerifier is available at https://youtu.be/7jM gOL41zTY
翻訳日:2021-11-29 16:15:01 公開日:2021-11-25
# 非凸設定におけるSGLDの時間非依存一般化境界

Time-independent Generalization Bounds for SGLD in Non-convex Settings ( http://arxiv.org/abs/2111.12876v1 )

ライセンス: Link先を確認
Tyler Farghly, Patrick Rebeschini(参考訳) 本研究では, 確率勾配ランゲヴィン力学(SGLD)の一般化誤差境界を, 分散性と滑らか性の仮定の下で一定学習率で確立し, サンプリング/最適化の文献で注目を集めている。 非凸設定におけるSGLDの既存の境界とは異なり、サンプルサイズが大きくなるにつれて、我々の境界は時間に依存しずゼロに崩壊する。 一様安定性の枠組みを用いて、ランジュバン拡散のワッサーシュタイン収縮特性を利用して時間独立な境界を確立することにより、リプシッツのような仮定を用いた境界勾配の必要性を回避できる。 また,異なる離散化法,ユークリッド投影法,非等方性雑音を用いたsgldの変種もサポートする。

We establish generalization error bounds for stochastic gradient Langevin dynamics (SGLD) with constant learning rate under the assumptions of dissipativity and smoothness, a setting that has received increased attention in the sampling/optimizatio n literature. Unlike existing bounds for SGLD in non-convex settings, ours are time-independent and decay to zero as the sample size increases. Using the framework of uniform stability, we establish time-independent bounds by exploiting the Wasserstein contraction property of the Langevin diffusion, which also allows us to circumvent the need to bound gradients using Lipschitz-like assumptions. Our analysis also supports variants of SGLD that use different discretization methods, incorporate Euclidean projections, or use non-isotropic noise.
翻訳日:2021-11-29 16:12:34 公開日:2021-11-25
# 群同変神経後部推定

Group equivariant neural posterior estimation ( http://arxiv.org/abs/2111.13139v1 )

ライセンス: Link先を確認
Maximilian Dax, Stephen R. Green, Jonathan Gair, Michael Deistler, Bernhard Sch\"olkopf, Jakob H. Macke(参考訳) 条件付きニューラル密度推定器を用いたシミュレーションに基づく推論は、科学における逆問題に対する強力なアプローチである。 しかし、これらの方法は通常、下位のフォワードモデルをブラックボックスとして扱うが、等分散のような幾何学的性質を活用できない。 等価性は科学モデルでは一般的であるが、直接表現的推論ネットワーク(正規化フローなど)に統合することは簡単ではない。 本稿では,パラメータとデータの連成変換に同値を組み込む方法について述べる。 我々の手法は、群同変神経後部推定(GNPE)と呼ばれ、パラメーターを推定しながらデータの「目的」を自己整合的に標準化することに基づいている。 アーキテクチャ非依存であり、正確な等式と近似等式の両方に適用される。 実世界の応用として,重力波観測による天体物理ブラックホール系の漸近推定にgnpeを用いる。 我々は,GNPEが3桁の精度で推論時間を短縮し,最先端の精度を実現することを示す。

Simulation-based inference with conditional neural density estimators is a powerful approach to solving inverse problems in science. However, these methods typically treat the underlying forward model as a black box, with no way to exploit geometric properties such as equivariances. Equivariances are common in scientific models, however integrating them directly into expressive inference networks (such as normalizing flows) is not straightforward. We here describe an alternative method to incorporate equivariances under joint transformations of parameters and data. Our method -- called group equivariant neural posterior estimation (GNPE) -- is based on self-consistently standardizing the "pose" of the data while estimating the posterior over parameters. It is architecture-indepen dent, and applies both to exact and approximate equivariances. As a real-world application, we use GNPE for amortized inference of astrophysical binary black hole systems from gravitational-wave observations. We show that GNPE achieves state-of-the-art accuracy while reducing inference times by three orders of magnitude.
翻訳日:2021-11-29 16:12:18 公開日:2021-11-25
# Convex Hulls を用いた一般臨床試験

Generalizing Clinical Trials with Convex Hulls ( http://arxiv.org/abs/2111.13229v1 )

ライセンス: Link先を確認
Eric V. Strobl, Thomas A. Lasko(参考訳) ランダム化された臨床試験は合併を排除するが、人口のサブセットに採用を制限する厳格な排他的基準を課す。 観測データセットはより包括的ではあるが、しばしば実際的な治療効果の過度に楽観的な見積もりを提供する、混乱に苦しむ。 したがって, 真の処理効果は, 治療効果と観察的推定の中間か, 凸包のどこかにあると仮定する。 この仮定は, 最適凸包 (och) と呼ばれるアルゴリズムを用いて観測データと試行データを同時に解析することにより, 排他的試行結果からより広い人口への推定を可能にする。 och は条件付き期待の凸包や条件付き密度の凸包(混合体としても知られる)のどちらかで処理効果を表す。 このアルゴリズムは、まず観測データを用いて成分の期待や密度を学習し、次に実際の処理効果を近似するために試行データを用いて線形混合係数を学習する。 OCHは、芸術的精度の状態を期待と密度の両方の観点から、治療効果を推定する。

Randomized clinical trials eliminate confounding but impose strict exclusion criteria that limit recruitment to a subset of the population. Observational datasets are more inclusive but suffer from confounding -- often providing overly optimistic estimates of treatment effect in practice. We therefore assume that the true treatment effect lies somewhere in between no treatment effect and the observational estimate, or in their convex hull. This assumption allows us to extrapolate results from exclusive trials to the broader population by analyzing observational and trial data simultaneously using an algorithm called Optimal Convex Hulls (OCH). OCH represents the treatment effect either in terms of convex hulls of conditional expectations or convex hulls (also known as mixtures) of conditional densities. The algorithm first learns the component expectations or densities using the observational data and then learns the linear mixing coefficients using trial data in order to approximate the true treatment effect; theory importantly explains why this linear combination should hold. OCH estimates the treatment effect in terms both expectations and densities with state of the art accuracy.
翻訳日:2021-11-29 16:12:02 公開日:2021-11-25
# 非パラメトリックデータ拡張による深層学習型脳腫瘍分離の改善

Non Parametric Data Augmentations Improve Deep-Learning based Brain Tumor Segmentation ( http://arxiv.org/abs/2111.12991v1 )

ライセンス: Link先を確認
Hadas Ben-Atya, Ori Rajchert, Liran Goshen, Moti Freiman(参考訳) 磁気共鳴画像(MRI)データからの自動脳腫瘍セグメンテーションは、治療とパーソナライズされた治療層形成に対する腫瘍反応を評価する上で重要な役割を果たし、手動セグメンテーションは退屈で主観的である。脳腫瘍セグメンテーションのためのディープラーニングベースのアルゴリズムは、客観的かつ高速な腫瘍セグメンテーションを提供する可能性を秘めている。しかし、そのようなアルゴリズムの訓練には、常に利用可能な大規模なデータセットが必要である。 データ拡張技術は大きなデータセットの必要性を減らす可能性があるが、現在のアプローチはほとんどパラメトリックであり、最適以下のパフォーマンスをもたらす可能性がある。我々は、脳腫瘍の分節化のための2つの非パラメトリックなデータ拡張方法、MMSRとシャッフルピクセルノイズ(SPN)を導入する。 We evaluated the added value of the MSR and SPN augmentation on the brain tumor segmentation (BraTS) 2018 challenge dataset with the encoder-decoder nnU-Net architecture as the segmentation algorithm.Both MSR and SPN improve the nnU-Net segmentation accuracy compared to parametric Gaussian noise augmentation.Mean dice score increased from 80% to 82% and p-values=0.0022, 0.0028 when comparing MSR to non-parametric augmentation for the tumor core and whole tumor experiments respectively.The proposed MSR and SPN augmentations have the potential to improve neural-networks performance in other tasks as well.

Automatic brain tumor segmentation from Magnetic Resonance Imaging (MRI) data plays an important role in assessing tumor response to therapy and personalized treatment stratification.Manua l segmentation is tedious and subjective.Deep-lear ning-based algorithms for brain tumor segmentation have the potential to provide objective and fast tumor segmentation.However , the training of such algorithms requires large datasets which are not always available. Data augmentation techniques may reduce the need for large datasets.However current approaches are mostly parametric and may result in suboptimal performance.We introduce two non-parametric methods of data augmentation for brain tumor segmentation: the mixed structure regularization (MSR) and shuffle pixels noise (SPN).We evaluated the added value of the MSR and SPN augmentation on the brain tumor segmentation (BraTS) 2018 challenge dataset with the encoder-decoder nnU-Net architecture as the segmentation algorithm.Both MSR and SPN improve the nnU-Net segmentation accuracy compared to parametric Gaussian noise augmentation.Mean dice score increased from 80% to 82% and p-values=0.0022, 0.0028 when comparing MSR to non-parametric augmentation for the tumor core and whole tumor experiments respectively.The proposed MSR and SPN augmentations have the potential to improve neural-networks performance in other tasks as well.
翻訳日:2021-11-29 16:09:42 公開日:2021-11-25
# ソフトアクタ-クリティックガウス混合モデルによるロボットスキル適応

Robot Skill Adaptation via Soft Actor-Critic Gaussian Mixture Models ( http://arxiv.org/abs/2111.13129v1 )

ライセンス: Link先を確認
Iman Nematollahi, Erick Rosete-Beas, Adrian R\"ofer, Tim Welschehold, Abhinav Valada, Wolfram Burgard(参考訳) 現実の世界で行動する自律的エージェントにとっての中核的な課題は、その騒々しい知覚とダイナミクスに対処するためにスキルのレパートリーを適用することである。 ロングホライズンタスクにスキルの学習を拡大するためには、ロボットは各ステップで瞬間的な決定を行うのではなく、軌跡を通じて、そのスキルを学習し、後に構造化された方法で洗練することができるべきである。 そこで本研究では,動的システムを通じてロボットのスキルを学習し,環境との相互作用を通じて学習スキルを自身の軌道分布空間に適応させるハイブリッド手法であるSoft Actor-Critic Gaussian Mixture Model (SAC-GMM)を提案する。 本手法は,実演から学習する古典的なロボット技術と深層強化学習フレームワークを組み合わせることで,その相補的性質を活用できる。 本手法は,事前学習したスキルの実行時にのみ利用可能なセンサを用いて,より高速な技術向上につながる関連特徴を抽出する。 シミュレーション環境と実環境の両方における広範囲な評価は,身体的インタラクション,高次元感覚データ,スパースタスク完了報酬を活用し,ロボットスキルの洗練に効果があることを実証する。 ビデオ、コード、事前訓練されたモデルは \url{http://sac-gmm.cs.un i-freiburg.de} で入手できる。

A core challenge for an autonomous agent acting in the real world is to adapt its repertoire of skills to cope with its noisy perception and dynamics. To scale learning of skills to long-horizon tasks, robots should be able to learn and later refine their skills in a structured manner through trajectories rather than making instantaneous decisions individually at each time step. To this end, we propose the Soft Actor-Critic Gaussian Mixture Model (SAC-GMM), a novel hybrid approach that learns robot skills through a dynamical system and adapts the learned skills in their own trajectory distribution space through interactions with the environment. Our approach combines classical robotics techniques of learning from demonstration with the deep reinforcement learning framework and exploits their complementary nature. We show that our method utilizes sensors solely available during the execution of preliminarily learned skills to extract relevant features that lead to faster skill refinement. Extensive evaluations in both simulation and real-world environments demonstrate the effectiveness of our method in refining robot skills by leveraging physical interactions, high-dimensional sensory data, and sparse task completion rewards. Videos, code, and pre-trained models are available at \url{http://sac-gmm.cs.un i-freiburg.de}.
翻訳日:2021-11-29 16:09:16 公開日:2021-11-25
# ベイズ深層学習による光・SAR衛星画像からの森林構造の全国的検索

Country-wide Retrieval of Forest Structure From Optical and SAR Satellite Imagery With Bayesian Deep Learning ( http://arxiv.org/abs/2111.13154v1 )

ライセンス: Link先を確認
Alexander Becker, Stefania Russo, Stefano Puliti, Nico Lang, Konrad Schindler, Jan Dirk Wegner(参考訳) 地球上の森林をインフォームドで監視し管理することは、生物多様性の喪失や気候変動といった課題に対処する上で重要な要件である。 森林評価のための伝統的なin situや空中キャンペーンは、地域レベルでの正確な分析データを提供するが、それらを高時間分解能で全国に拡大することは不可能である。 本研究では,10mの解像度で森林構造変数を高精度に推定するベイズ型深層学習手法を提案する。 提案手法は,Sentinel-2光画像とSentinel-1合成開口レーダ画像とを5つの異なる森林構造変数(高さパーセンタイル,平均高さ,密度,ギニ係数,分数被覆)のマップに変換する。 ノルウェーの41の空中レーザースキャンミッションから得られた参照データに基づいてモデルを訓練し, 実験領域を一般化し, 変数によっては11%から15%の平均絶対誤差を正規化できることを実証した。 我々の研究は、よく校正された不確実性推定で森林構造変数を予測するためのベイズ深層学習手法を初めて提案した。 これにより、モデルの信頼性が向上し、インフォームド意思決定のような信頼できる信頼度見積を必要とする下流タスクに適合する。 予測地図の精度と予測された不確実性の品質を検証するための広範囲な実験結果を示す。 拡張性を示すために,5つの森林構造変数に対してノルウェー全土の地図を提供する。

Monitoring and managing Earth's forests in an informed manner is an important requirement for addressing challenges like biodiversity loss and climate change. While traditional in situ or aerial campaigns for forest assessments provide accurate data for analysis at regional level, scaling them to entire countries and beyond with high temporal resolution is hardly possible. In this work, we propose a Bayesian deep learning approach to densely estimate forest structure variables at country-scale with 10-meter resolution, using freely available satellite imagery as input. Our method jointly transforms Sentinel-2 optical images and Sentinel-1 synthetic aperture radar images into maps of five different forest structure variables: 95th height percentile, mean height, density, Gini coefficient, and fractional cover. We train and test our model on reference data from 41 airborne laser scanning missions across Norway and demonstrate that it is able to generalize to unseen test regions, achieving normalized mean absolute errors between 11% and 15%, depending on the variable. Our work is also the first to propose a Bayesian deep learning approach so as to predict forest structure variables with well-calibrated uncertainty estimates. These increase the trustworthiness of the model and its suitability for downstream tasks that require reliable confidence estimates, such as informed decision making. We present an extensive set of experiments to validate the accuracy of the predicted maps as well as the quality of the predicted uncertainties. To demonstrate scalability, we provide Norway-wide maps for the five forest structure variables.
翻訳日:2021-11-29 16:08:52 公開日:2021-11-25
# OTB-morph:顔テンプレートへのモルフィングによるワンタイムバイオメトリックス

OTB-morph: One-Time Biometrics via Morphing applied to Face Templates ( http://arxiv.org/abs/2111.13213v1 )

ライセンス: Link先を確認
Mahdi Ghafourian, Julian Fierrez, Ruben Vera-Rodriguez, Ignacio Serna, Aythami Morales(参考訳) Cancelable Biometricsは、バイオメトリック入力が、処理や記憶の前にキーを使って意図的に変換される一連の技術を指す。 この変換は、その後のバイオメトリックの比較を可能にする。 本稿では,任意の生体認証システムに適用可能な,潜在的攻撃に対するテンプレートの保護を目的とした,キャンセル可能なバイオメトリックスの新しいスキームを提案する。 提案手法は, ランダムな生体情報の変化から得られる時間変化キーに基づく。 提案手法の実験的実装が顔バイオメトリックスに対して提供される。 その結果,提案手法は認識性能を改善しつつ,漏洩攻撃に耐えることができることを確認した。

Cancelable biometrics refers to a group of techniques in which the biometric inputs are transformed intentionally using a key before processing or storage. This transformation is repeatable enabling subsequent biometric comparisons. This paper introduces a new scheme for cancelable biometrics aimed at protecting the templates against potential attacks, applicable to any biometric-based recognition system. Our proposed scheme is based on time-varying keys obtained from morphing random biometric information. An experimental implementation of the proposed scheme is given for face biometrics. The results confirm that the proposed approach is able to withstand against leakage attacks while improving the recognition performance.
翻訳日:2021-11-29 16:08:27 公開日:2021-11-25
# モデルフリー制約強化学習におけるゼロコンストラクション違反政策の学習

Learn Zero-Constraint-Viol ation Policy in Model-Free Constrained Reinforcement Learning ( http://arxiv.org/abs/2111.12953v1 )

ライセンス: Link先を確認
Haitong Ma, Changliu Liu, Shengbo Eben Li, Sifa Zheng, Wenchao Sun, Jianyu Chen(参考訳) 強化学習(rl)の試行錯誤メカニズムでは、安全ポリシーを学ぶことを期待すると、悪名高い矛盾が生じます。 現行の方法は、ほとんどが危険に晒されるまでペナルティを課さない危険な行動のために後方ペナルティを使用する。 この事実は、エージェントが収束後もゼロ違反ポリシーを学習できない原因である。 そうでなければ、いかなる罰も受けず、危険に関する知識を失うことになる。 本稿では,安全指向エネルギー関数や安全指標を用いたポリシー更新を限定したsafe set actor-critic (ssac)アルゴリズムを提案する。 安全指数は、潜在的に危険なアクションに対して急速に増加するように設計されており、アクション空間の安全なセットや制御の安全なセットを見つけることができる。 したがって, それらを取る前に危険行動を特定することができ, さらに収束後の制約違反政策を得ることができ, 値関数の学習と同様のモデルフリーな方法でエネルギー関数を学習できると主張している。 エネルギー関数遷移を制約目的として使用することにより、制約付きRL問題を定式化する。 ラグランジアンに基づく我々の解は、学習されたポリシーがいくつかの仮定の下で制約された最適値に収束することを証明している。 提案アルゴリズムは, 複雑なシミュレーション環境と, ハードウェア・イン・ループ(HIL)実験の両方において, 自律走行車からの実際の制御器を用いて評価する。 実験結果から,すべての環境における収束ポリシは制約違反をゼロとし,モデルベースベースラインに匹敵する性能を実現することが示唆された。

In the trial-and-error mechanism of reinforcement learning (RL), a notorious contradiction arises when we expect to learn a safe policy: how to learn a safe policy without enough data and prior model about the dangerous region? Existing methods mostly use the posterior penalty for dangerous actions, which means that the agent is not penalized until experiencing danger. This fact causes that the agent cannot learn a zero-violation policy even after convergence. Otherwise, it would not receive any penalty and lose the knowledge about danger. In this paper, we propose the safe set actor-critic (SSAC) algorithm, which confines the policy update using safety-oriented energy functions, or the safety indexes. The safety index is designed to increase rapidly for potentially dangerous actions, which allows us to locate the safe set on the action space, or the control safe set. Therefore, we can identify the dangerous actions prior to taking them, and further obtain a zero constraint-violation policy after convergence.We claim that we can learn the energy function in a model-free manner similar to learning a value function. By using the energy function transition as the constraint objective, we formulate a constrained RL problem. We prove that our Lagrangian-based solutions make sure that the learned policy will converge to the constrained optimum under some assumptions. The proposed algorithm is evaluated on both the complex simulation environments and a hardware-in-loop (HIL) experiment with a real controller from the autonomous vehicle. Experimental results suggest that the converged policy in all environments achieves zero constraint violation and comparable performance with model-based baselines.
翻訳日:2021-11-29 16:06:06 公開日:2021-11-25
# WordNetの助けを借りた近ゼロショット提案マイニング

Near-Zero-Shot Suggestion Mining with a Little Help from WordNet ( http://arxiv.org/abs/2111.12956v1 )

ライセンス: Link先を確認
Anton Alekseev, Elena Tutubalina, Sejeong Kwon, Sergey Nikolenko(参考訳) 本研究では,オンラインレビューの構成的側面について検討する。アドバイス,コツ,リクエスト,およびユーザが商品,会場,サービス,その他の関心事項について提示する提案である。 特定のラベルセットの分類器を構築するのに必要なトレーニングコストとアノテーションの労力を削減するため,ラベルに見当たらない方法で分類を推奨するための包括的ゼロショットアプローチをいくつか提示し,評価する。 特に,対象のクラスラベルをユーザの意図で英語の文に割り当てる手法を導入することにより,予測品質が大幅に向上する。 提案手法は, 定量的および定性的に評価した総合的な実験により評価された。

In this work, we explore the constructive side of online reviews: advice, tips, requests, and suggestions that users provide about goods, venues, services, and other items of interest. To reduce training costs and annotation efforts needed to build a classifier for a specific label set, we present and evaluate several entailment-based zero-shot approaches to suggestion classification in a label-fully-unseen fashion. In particular, we introduce the strategy of assigning target class labels to sentences in English language with user intentions, which significantly improves prediction quality. The proposed strategies are evaluated with a comprehensive experimental study that validated our results both quantitatively and qualitatively.
翻訳日:2021-11-29 16:04:40 公開日:2021-11-25
# 航空分野における信頼できるデータブローカーフレームワークの設計

Designing a Trusted Data Brokerage Framework in the Aviation Domain ( http://arxiv.org/abs/2111.13271v1 )

ライセンス: Link先を確認
Evmorfia Biliri, Minas Pertselakis, Marios Phinikettos, Marios Zacharias, Fenareti Lampathaki, Dimitrios Alexandrou(参考訳) 近年、欧州の航空産業は、拡張されたドメインインテリジェンスにマルチソースデータ融合を利用する方法への関心が高まっている。 しかし、プライバシ、法的、組織的なポリシーは、技術的な制限とともに、データの共有を妨げる。 本稿では,icarus data policy and asset brokerage frameworkについて述べる。 (a)ライセンス、ipr、感度のキャラクタリゼーション及びプライバシーリスクを含む、航空データ資産の取得後の共有及び処理方法に影響するデータ属性及び品質を定式化すること。 (b)航空産業における機械処理可能なデータ契約の作成を可能にする。 これには、データ取引契約に関する契約条件を機械処理可能な言語に表現し、ethereumプラットフォームに基づいた信頼できる堅牢なシステムを通じて、航空データ共有シナリオにおける利害関係者間の多様なインタラクションをサポートすることが含まれる。

In recent years, there is growing interest in the ways the European aviation industry can leverage the multi-source data fusion towards augmented domain intelligence. However, privacy, legal and organisational policies together with technical limitations, hinder data sharing and, thus, its benefits. The current paper presents the ICARUS data policy and assets brokerage framework, which aims to (a) formalise the data attributes and qualities that affect how aviation data assets can be shared and handled subsequently to their acquisition, including licenses, IPR, characterisation of sensitivity and privacy risks, and (b) enable the creation of machine-processable data contracts for the aviation industry. This involves expressing contractual terms pertaining to data trading agreements into a machine-processable language and supporting the diverse interactions among stakeholders in aviation data sharing scenarios through a trusted and robust system based on the Ethereum platform.
翻訳日:2021-11-29 16:02:24 公開日:2021-11-25
# ここを見て : 微妙な鍵領域に接する監督の活用

Look at here : Utilizing supervision to attend subtle key regions ( http://arxiv.org/abs/2111.13233v1 )

ライセンス: Link先を確認
Changhwan Lee, Yeesuk Kim, Bong Gun Lee, Doosup Kim, Jongseong Jang(参考訳) コンピュータビジョンにおけるディープラーニングの成功にもかかわらず、微妙で小さな物体(または領域)を認識するアルゴリズムはまだ難しい。 例えば、X線画像における野球やフリスビーの現場での認識や骨骨折は、膨大なトレーニングデータが得られない限り、容易に過度に適合する。 この問題を緩和するためには、限られたトレーニングデータの中で微妙な領域をモデルに特定させる方法が必要である。 本稿では, cut\&remain と呼ばれる単純かつ効率的な教師付き拡張法を提案する。 様々な医用画像領域(外部ソースと公開データセット)と自然画像領域(MS-COCO$_s$)で、他の教師付き拡張や明示的なガイダンス手法よりも優れたパフォーマンスを実現した。 さらに、クラスアクティベーションマップを用いて、cut\&remainメソッドがモデルを動かして、関連する微妙な領域と小さな領域に効率的に集中することを発見した。 また,Cut\&Remain比に沿って単調に性能が向上し,Cut\&Remainの限られた量しか適用されないモデルでも改善できることが示され,改良のための監督(注釈)コストの低減が図られた。

Despite the success of deep learning in computer vision, algorithms to recognize subtle and small objects (or regions) is still challenging. For example, recognizing a baseball or a frisbee on a ground scene or a bone fracture in an X-ray image can easily result in overfitting, unless a huge amount of training data is available. To mitigate this problem, we need a way to force a model should identify subtle regions in limited training data. In this paper, we propose a simple but efficient supervised augmentation method called Cut\&Remain. It achieved better performance on various medical image domain (internally sourced- and public dataset) and a natural image domain (MS-COCO$_s$) than other supervised augmentation and the explicit guidance methods. In addition, using the class activation map, we identified that the Cut\&Remain methods drive a model to focus on relevant subtle and small regions efficiently. We also show that the performance monotonically increased along the Cut\&Remain ratio, indicating that a model can be improved even though only limited amount of Cut\&Remain is applied for, so that it allows low supervising (annotation) cost for improvement.
翻訳日:2021-11-29 15:36:00 公開日:2021-11-25
# GeomNet:3次元スケルトンに基づく対話認識のためのSPD行列空間とコレスキー空間のリーマン測度に基づくニューラルネットワーク

GeomNet: A Neural Network Based on Riemannian Geometries of SPD Matrix Space and Cholesky Space for 3D Skeleton-Based Interaction Recognition ( http://arxiv.org/abs/2111.13089v1 )

ライセンス: Link先を確認
Xuan Son Nguyen(参考訳) 本稿では,3次元スケルトン配列から2人インタラクションの表現と分類を行う新しい手法を提案する。 このアプローチの重要な考え方は、ガウス分布を用いて r n 上の統計と対称正定値行列(spd) の空間上の統計を捉えることである。 主な課題は、これらの分散をパラメータ化する方法です。 この目的に向けて、リー群とリーマン対称空間の理論に基づく行列群へのガウス分布の埋め込み法を開発した。 本手法は、基底多様体のリーマン幾何学に依存し、3次元ジョイント位置から高次統計を符号化する利点を持つ。 提案手法は,3つの指標を用いた2人間インタラクション認識において,3次元人間行動理解のための競合結果が得られることを示す。

In this paper, we propose a novel method for representation and classification of two-person interactions from 3D skeleton sequences. The key idea of our approach is to use Gaussian distributions to capture statistics on R n and those on the space of symmetric positive definite (SPD) matrices. The main challenge is how to parametrize those distributions. Towards this end, we develop methods for embedding Gaussian distributions in matrix groups based on the theory of Lie groups and Riemannian symmetric spaces. Our method relies on the Riemannian geometry of the underlying manifolds and has the advantage of encoding high-order statistics from 3D joint positions. We show that the proposed method achieves competitive results in two-person interaction recognition on three benchmarks for 3D human activity understanding.
翻訳日:2021-11-29 15:35:06 公開日:2021-11-25
# ContourletNet:多方向階層表現を用いた一般化雨除去アーキテクチャ

ContourletNet: A Generalized Rain Removal Architecture Using Multi-Direction Hierarchical Representation ( http://arxiv.org/abs/2111.12925v1 )

ライセンス: Link先を確認
Wei-Ting Chen, Cheng-Che Tsai, Hao-Yu Fang, I-Hsiang Chen, Jian-Jiun Ding, Sy-Yen Kuo(参考訳) 雨のシーンから取得した画像は、通常視界が悪く、コンピュータビジョンアプリケーションの性能を損なう可能性がある。 降雨シナリオは、適度な雨と豪雨の2つのクラスに分類できる。 降雨シーンは主に雨害から成り、豪雨シーンは雨害と換気効果(ヘイズに似ている)の両方を含んでいる。 既存の手法はこれらの2つのケースでそれぞれに優れた性能を発揮しているが、大雨と適度な降雨シナリオの両方に効果的に対処する一般的なアーキテクチャはいまだに欠けている。 本稿では,降雨シナリオと豪雨シナリオの両方に対処するために,contourlet transform (ct) を用いて階層型多方向表現ネットワークを構築する。 CTは画像を多方向サブバンド(MS)と意味サブバンド(SS)に分割する。 まず、CTのマルチオリエンテーション特性に基づいて、雨のストリーク情報をMSに検索する。 第2に,損傷した意味情報やSSの換気効果を含む背景情報を再構築する階層的アーキテクチャを提案する。 最後に,フィードバックエラーマップを用いたマルチレベルサブバンド判別器を提案する。 このモジュールにより、すべてのサブバンドは十分に最適化できる。 この2つのシナリオを効果的に対処できる最初のアーキテクチャです。 コードはhttps://github.com/c ctakaet/ContourletNe t-BMVC2021で公開されている。

Images acquired from rainy scenes usually suffer from bad visibility which may damage the performance of computer vision applications. The rainy scenarios can be categorized into two classes: moderate rain and heavy rain scenes. Moderate rain scene mainly consists of rain streaks while heavy rain scene contains both rain streaks and the veiling effect (similar to haze). Although existing methods have achieved excellent performance on these two cases individually, it still lacks a general architecture to address both heavy rain and moderate rain scenarios effectively. In this paper, we construct a hierarchical multi-direction representation network by using the contourlet transform (CT) to address both moderate rain and heavy rain scenarios. The CT divides the image into the multi-direction subbands (MS) and the semantic subband (SS). First, the rain streak information is retrieved to the MS based on the multi-orientation property of the CT. Second, a hierarchical architecture is proposed to reconstruct the background information including damaged semantic information and the veiling effect in the SS. Last, the multi-level subband discriminator with the feedback error map is proposed. By this module, all subbands can be well optimized. This is the first architecture that can address both of the two scenarios effectively. The code is available in https://github.com/c ctakaet/ContourletNe t-BMVC2021.
翻訳日:2021-11-29 15:33:14 公開日:2021-11-25
# シーン表現変換:集合相対的シーン表現によるジオメトリフリー新規ビュー合成

Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations ( http://arxiv.org/abs/2111.13152v1 )

ライセンス: Link先を確認
Mehdi S. M. Sajjadi and Henning Meyer and Etienne Pot and Urs Bergmann and Klaus Greff and Noha Radwan and Suhani Vora and Mario Lucic and Daniel Duckworth and Alexey Dosovitskiy and Jakob Uszkoreit and Tom Funkhouser and Andrea Tagliasacchi(参考訳) コンピュータビジョンにおける古典的な問題は、インタラクティブなレートで新しいビューを描画するのに使用できる少数の画像から3Dシーン表現を推論することである。 以前の研究では、テクスチャメッシュのような事前定義された3d表現や、ラミアンスフィールドのような暗黙的な表現を再構築することに焦点を当てており、多くの場合、新しいシーンごとに正確なカメラポーズと長い処理時間を持つ入力画像を必要とする。 本研究では,SRT(Scene Representation Transformer)を提案する。SRT(Scene Representation Transformer)は,新しい領域のRGB画像のポーズやアンポーズを処理し,"セットラテントなシーン表現"を推論し,新しいビューを合成する。 シーン表現を計算するため,視覚変換器を画像集合に一般化し,グローバルな情報統合を実現し,従って3次元推論を行う。 効率的なデコーダトランスフォーマは、シーン表現に参加して光フィールドをパラメータ化し、新しいビューを描画する。 学習は、新しいビュー再構成誤差を最小限に抑えて、エンドツーエンドで教師される。 この手法は,psnrと合成データセットの速度の点で,最近のベースラインよりも優れており,論文用に作成された新しいデータセットも含まれている。 さらに,srtがストリートビュー画像を用いた実世界の屋外環境のインタラクティブな可視化と意味セグメンテーションをサポートすることを実証する。

A classical problem in computer vision is to infer a 3D scene representation from few images that can be used to render novel views at interactive rates. Previous work focuses on reconstructing pre-defined 3D representations, e.g. textured meshes, or implicit representations, e.g. radiance fields, and often requires input images with precise camera poses and long processing times for each novel scene. In this work, we propose the Scene Representation Transformer (SRT), a method which processes posed or unposed RGB images of a new area, infers a "set-latent scene representation", and synthesises novel views, all in a single feed-forward pass. To calculate the scene representation, we propose a generalization of the Vision Transformer to sets of images, enabling global information integration, and hence 3D reasoning. An efficient decoder transformer parameterizes the light field by attending into the scene representation to render novel views. Learning is supervised end-to-end by minimizing a novel-view reconstruction error. We show that this method outperforms recent baselines in terms of PSNR and speed on synthetic datasets, including a new dataset created for the paper. Further, we demonstrate that SRT scales to support interactive visualization and semantic segmentation of real-world outdoor environments using Street View imagery.
翻訳日:2021-11-29 15:32:53 公開日:2021-11-25
# マスク着用率推定における検出ベースおよび回帰型アプローチの有効性

Effectiveness of Detection-based and Regression-based Approaches for Estimating Mask-Wearing Ratio ( http://arxiv.org/abs/2111.12888v1 )

ライセンス: Link先を確認
Khanh-Duy Nguyen, Huy H. Nguyen, Trung-Nghia Le, Junichi Yamagishi, Isao Echizen(参考訳) 公衆の場でマスク着用率を推定することは、保健当局が迅速に政策の分析と実施を可能にするため重要である。 マスク着用率を画像解析に基づいて推定する方法が報告されている。 しかしながら、方法論とデータセットの両方に関する包括的な研究は、まだ不足している。 最近の報告では,従来の対象検出法と分類法を用いて,その比率を推定することを提案する。 マスクを着用している人の数を推定するために回帰に基づくアプローチを用いることが可能であるが、特に小型で隠蔽された顔を持つ密集した場面ではよく研究されていない。 大規模で十分な注釈付きデータセットはまだ需要がある。 本稿では,検出に基づく手法と回帰に基づく手法を併用した2つの比推定手法を提案する。 検出に基づくアプローチでは,その比率を推定するために,最先端の顔検出器であるRetinaFaceを改良した。 回帰に基づくアプローチでは,マスクやマスクのない顔の密度マップを推定するために,ベースラインネットワークであるCSRNetを微調整した。 また、17のストリートビュービデオで18,088フレームから抽出された581,108の顔アノテーションを含む,最初の大規模データセットである `NFM dataset' も提示する。 実験により, RetinaFace法は様々な状況下で高い精度を示し, CSRNet法は小型化により動作時間が短縮された。

Estimating the mask-wearing ratio in public places is important as it enables health authorities to promptly analyze and implement policies. Methods for estimating the mask-wearing ratio on the basis of image analysis have been reported. However, there is still a lack of comprehensive research on both methodologies and datasets. Most recent reports straightforwardly propose estimating the ratio by applying conventional object detection and classification methods. It is feasible to use regression-based approaches to estimate the number of people wearing masks, especially for congested scenes with tiny and occluded faces, but this has not been well studied. A large-scale and well-annotated dataset is still in demand. In this paper, we present two methods for ratio estimation that leverage either a detection-based or regression-based approach. For the detection-based approach, we improved the state-of-the-art face detector, RetinaFace, used to estimate the ratio. For the regression-based approach, we fine-tuned the baseline network, CSRNet, used to estimate the density maps for masked and unmasked faces. We also present the first large-scale dataset, the ``NFM dataset,'' which contains 581,108 face annotations extracted from 18,088 video frames in 17 street-view videos. Experiments demonstrated that the RetinaFace-based method has higher accuracy under various situations and that the CSRNet-based method has a shorter operation time thanks to its compactness.
翻訳日:2021-11-29 15:30:18 公開日:2021-11-25
# da$^{\textbf{2}}$-net : 多様な適応的注意畳み込みニューラルネットワーク

DA$^{\textbf{2}}$-Net : Diverse & Adaptive Attention Convolutional Neural Network ( http://arxiv.org/abs/2111.13157v1 )

ライセンス: Link先を確認
Abenezer Girma, Abdollah Homaifar, M Nabil Mahmoud, Xuyang Yan and Mrinmoy Sarkar(参考訳) 標準畳み込みニューラルネットワーク(cnn)の設計は、ネットワークの性能を向上させるために、様々な特徴を明示的に捉えることの重要性にほとんど焦点を合わせない。 その代わり、既存の手法の多くは、ネットワークの深さと幅を増加または調整する間接的アプローチに従い、多くの場合、計算コストを大幅に増加させる。 生体視覚システムに触発されて,任意のフィードフォワード型cnnが明示的に多様な特徴を捕捉し,最も有用な特徴を適応的に選択・強調することにより,ネットワークの性能を効率的に向上させることができる,多様で適応的な注意畳み込みネットワーク(da$^{2}$-net)を提案する。 da$^{2}$-netは計算オーバーヘッドを負い、任意のcnnアーキテクチャと容易に統合できるように設計されている。 CIFAR100,SVHN,ImageN etなど,ベンチマークデータセット上でDA$^{2}$-NetをさまざまなCNNアーキテクチャで広範囲に評価した。 実験の結果,DA$^{2}$-Netは計算オーバーヘッドを極小に抑え,大幅な性能向上を実現している。

Standard Convolutional Neural Network (CNN) designs rarely focus on the importance of explicitly capturing diverse features to enhance the network's performance. Instead, most existing methods follow an indirect approach of increasing or tuning the networks' depth and width, which in many cases significantly increases the computational cost. Inspired by a biological visual system, we propose a Diverse and Adaptive Attention Convolutional Network (DA$^{2}$-Net), which enables any feed-forward CNNs to explicitly capture diverse features and adaptively select and emphasize the most informative features to efficiently boost the network's performance. DA$^{2}$-Net incurs negligible computational overhead and it is designed to be easily integrated with any CNN architecture. We extensively evaluated DA$^{2}$-Net on benchmark datasets, including CIFAR100, SVHN, and ImageNet, with various CNN architectures. The experimental results show DA$^{2}$-Net provides a significant performance improvement with very minimal computational overhead.
翻訳日:2021-11-29 15:29:53 公開日:2021-11-25
# FedDropoutAvg: 病理画像分類のための一般化可能なフェデレーション学習

FedDropoutAvg: Generalizable federated learning for histopathology image classification ( http://arxiv.org/abs/2111.13230v1 )

ライセンス: Link先を確認
Gozde N. Gunesli, Mohsin Bilal, Shan E Ahmed Raza, and Nasir M. Rajpoot(参考訳) federated learning(fl)は、参加サイトのデータを共有することなく、ディープラーニングモデルの協調学習を可能にする。 医療画像解析タスクのFLは比較的新しく、拡張のためにオープンである。 本研究では,一般化モデル学習のための新しいフェデレーション学習手法であるfeeddropoutavgを提案する。 提案手法は,クライアント選択とフェデレート平均化プロセスの両方においてランダム性を利用する。 本研究ではfeddropoutavgを,実世界の多地点組織病理画像分類タスクにおけるflシナリオにおける複数のアルゴリズムと比較した。 FedDropoutAvgでは、最終モデルは他のFLアプローチよりもパフォーマンスが良く、すべてのデータを集中的なトレーニングのために共有する必要がある古典的なディープラーニングモデルに近いことが示される。 21の異なるセンターから120万のイメージタイルからなる大きなデータセットで、トレーニングされたモデルをテストします。 提案手法の一般化能力を評価するために,flでのデータが使用されたセンターと,フェデレーショントレーニングでデータを使用しない他の独立センターから取得したデータに対するホールドアウトテストセットを用いた。 提案手法は他の最先端のフェデレーショントレーニング手法よりも一般化可能であることを示す。 我々の知る限りでは、医療画像解析タスクにおいて、ランダム化クライアントと局所モデルパラメータ選択手順をフェデレートした環境で使用するための最初の研究である。

Federated learning (FL) enables collaborative learning of a deep learning model without sharing the data of participating sites. FL in medical image analysis tasks is relatively new and open for enhancements. In this study, we propose FedDropoutAvg, a new federated learning approach for training a generalizable model. The proposed method takes advantage of randomness, both in client selection and also in federated averaging process. We compare FedDropoutAvg to several algorithms in an FL scenario for real-world multi-site histopathology image classification task. We show that with FedDropoutAvg, the final model can achieve performance better than other FL approaches and closer to a classical deep learning model that requires all data to be shared for centralized training. We test the trained models on a large dataset consisting of 1.2 million image tiles from 21 different centers. To evaluate the generalization ability of the proposed approach, we use held-out test sets from centers whose data was used in the FL and for unseen data from other independent centers whose data was not used in the federated training. We show that the proposed approach is more generalizable than other state-of-the-art federated training approaches. To the best of our knowledge, ours is the first study to use a randomized client and local model parameter selection procedure in a federated setting for a medical image analysis task.
翻訳日:2021-11-29 15:29:28 公開日:2021-11-25
# 一般化心電図デライン化:合成データ拡張による畳み込みニューラルネットワークの訓練

Generalizing electrocardiogram delineation: training convolutional neural networks with synthetic data augmentation ( http://arxiv.org/abs/2111.12996v1 )

ライセンス: Link先を確認
Guillermo Jimenez-Perez, Juan Acosta, Alejandro Alcaine, Oscar Camara(参考訳) 心臓心電図(ECG)の解析において、心拍ごとの情報を取得することが重要な課題であり、多くの下流診断タスクは心電図に基づく測定に依存している。 しかし、これらの測定は、特に長期間にわたって変化する記録において、生産にコストがかかる。 しかし、ECGデライン化のための既存の注釈付きデータベースは小さく、サイズが不十分であり、それらが表す病的条件の配列である。 この記事には2つの主な貢献がある。 まず、元のデータベースから取得した基本セグメントのプールを与えられたECGトレースを確率的に合成し、その整合性のある合成トレースに配置するための一連の規則を定式化した擬似合成データ生成アルゴリズムを開発した。 生成したトレースに専門家の知識を付与することにより、モデルトレーニングの入力変動性を高めることにより、条件の生成を制御する。 第二に, 個別構造の正確な数を予測し, サンプル数の削減に焦点を合わせることにより, より近い分割境界を生成することを目的とした, 新たなセグメンテーションに基づく損失関数が2つ開発されている。 ベストパフォーマンスモデルは、99.38\%の$f_1$-scoreと2.19 \pm 17.73$msと4.45 \pm 18.32$msの2.45 \pm 18.32$msの3つの異なる自由に利用可能なデータベースに対して、p、qrs、twaveの平均値を得た。 その結果,リード構成 (holter, 12-lead) ,サンプリング周波数 (250$,500$,2,000$ hz) ,病理生理学 (不整脈の種類, 洞内リズム, 構造的心疾患など) の異種性にも拘わらず, 一般化能力を示唆し, 最先端のデライン化アプローチよりも優れていた。

Obtaining per-beat information is a key task in the analysis of cardiac electrocardiograms (ECG), as many downstream diagnosis tasks are dependent on ECG-based measurements. Those measurements, however, are costly to produce, especially in recordings that change throughout long periods of time. However, existing annotated databases for ECG delineation are small, being insufficient in size and in the array of pathological conditions they represent. This article delves has two main contributions. First, a pseudo-synthetic data generation algorithm was developed, based in probabilistically composing ECG traces given "pools" of fundamental segments, as cropped from the original databases, and a set of rules for their arrangement into coherent synthetic traces. The generation of conditions is controlled by imposing expert knowledge on the generated trace, which increases the input variability for training the model. Second, two novel segmentation-based loss functions have been developed, which attempt at enforcing the prediction of an exact number of independent structures and at producing closer segmentation boundaries by focusing on a reduced number of samples. The best performing model obtained an $F_1$-score of 99.38\% and a delineation error of $2.19 \pm 17.73$ ms and $4.45 \pm 18.32$ ms for all wave's fiducials (onsets and offsets, respectively), as averaged across the P, QRS and T waves for three distinct freely available databases. The excellent results were obtained despite the heterogeneous characteristics of the tested databases, in terms of lead configurations (Holter, 12-lead), sampling frequencies ($250$, $500$ and $2,000$ Hz) and represented pathophysiologies (e.g., different types of arrhythmias, sinus rhythm with structural heart disease), hinting at its generalization capabilities, while outperforming current state-of-the-art delineation approaches.
翻訳日:2021-11-29 15:26:17 公開日:2021-11-25
# 深部ReLUニューラルネットワークを用いた行列ベクトル積近似の誤差境界

Error Bounds for a Matrix-Vector Product Approximation with Deep ReLU Neural Networks ( http://arxiv.org/abs/2111.12963v1 )

ライセンス: Link先を確認
Tilahun M. Getu(参考訳) 人工知能(AI)や機械学習(ML)のいくつかのパラダイムの中で、非常に成功したパラダイムはディープラーニングである。 深層学習の成功は、深層学習の理論に関する基礎研究を通じて解釈されることが期待されている。 そのため、深層学習の応用研究は、深層学習指向の深さと発達の幅の理論を刺激した。 深部修正線形単位(ReLU)フィードフォワードニューラルネットワーク(FNN)を用いて任意の行列ベクトル積を正確に近似できるだろうか? もしそうなら、結果の近似誤差を制限できるだろうか? これらの問題に照らして、我々は発展する深い近似理論を構成するルベーグおよびソボレフノルムの誤差境界を導出する。 この理論で導かれた実験結果が我々の発達理論を正当化する深部ReLU FNNの訓練に成功した。 発達した理論は、無線通信や信号処理におけるAIやML問題、ネットワーク科学、グラフ信号処理、ネットワーク神経科学、脳物理学において不可欠な、教師が学習するAIやMLパラダイムの観点から、教師の深いReLU FNNのトレーニングの指導と緩和にも適用できる。

Among the several paradigms of artificial intelligence (AI) or machine learning (ML), a remarkably successful paradigm is deep learning. Deep learning's phenomenal success has been hoped to be interpreted via fundamental research on the theory of deep learning. Accordingly, applied research on deep learning has spurred the theory of deep learning-oriented depth and breadth of developments. Inspired by such developments, we pose these fundamental questions: can we accurately approximate an arbitrary matrix-vector product using deep rectified linear unit (ReLU) feedforward neural networks (FNNs)? If so, can we bound the resulting approximation error? In light of these questions, we derive error bounds in Lebesgue and Sobolev norms that comprise our developed deep approximation theory. Guided by this theory, we have successfully trained deep ReLU FNNs whose test results justify our developed theory. The developed theory is also applicable for guiding and easing the training of teacher deep ReLU FNNs in view of the emerging teacher-student AI or ML paradigms that are essential for solving several AI or ML problems in wireless communications and signal processing; network science and graph signal processing; and network neuroscience and brain physics.
翻訳日:2021-11-29 15:23:39 公開日:2021-11-25
# 忠実度報酬を伴う帯域問題

Bandit problems with fidelity rewards ( http://arxiv.org/abs/2111.13026v1 )

ライセンス: Link先を確認
G\'abor Lugosi, Ciara Pike-Burke, Pierre-Andr\'e Savalle(参考訳) フィデリティ・バンディッツ問題(英: fidelity bandits problem)は、各腕の報酬を、プレイヤーが過去にその腕にいかに「忠実」であったかに応じて追加の報酬を与えるフィデリティ・報酬によって増やす、k$-armed bandit問題(英語版)の変種である。 忠実度に関する2つのモデルを提案する。 忠誠ポイントモデルでは、余分な報酬の量は、これまで腕が演奏された回数に依存する。 サブスクリプションモデルでは、追加の報酬はarmの連続したドローの現在の数に依存する。 我々は確率的問題と敵対的問題の両方を考える。 単一武装戦略は確率的問題において必ずしも最適ではないため、敵意設定における後悔の概念は注意深く調整する必要がある。 我々は後悔の概念を3つ紹介し,それを調べる。 我々は、増加、減少、クーポン(腕の$m$のプレイごとにプレイヤーが追加報酬を受け取る)のロイヤリティ報酬の特別ケースを詳細に研究する。 サブリニアな後悔を必ずしも享受しないモデルに対しては、最悪のケースの下限を提供する。 サブ線形後悔を示すモデルに対しては、アルゴリズムを提供し、彼らの後悔を束縛する。

The fidelity bandits problem is a variant of the $K$-armed bandit problem in which the reward of each arm is augmented by a fidelity reward that provides the player with an additional payoff depending on how 'loyal' the player has been to that arm in the past. We propose two models for fidelity. In the loyalty-points model the amount of extra reward depends on the number of times the arm has previously been played. In the subscription model the additional reward depends on the current number of consecutive draws of the arm. We consider both stochastic and adversarial problems. Since single-arm strategies are not always optimal in stochastic problems, the notion of regret in the adversarial setting needs careful adjustment. We introduce three possible notions of regret and investigate which can be bounded sublinearly. We study in detail the special cases of increasing, decreasing and coupon (where the player gets an additional reward after every $m$ plays of an arm) fidelity rewards. For the models which do not necessarily enjoy sublinear regret, we provide a worst case lower bound. For those models which exhibit sublinear regret, we provide algorithms and bound their regret.
翻訳日:2021-11-29 15:23:16 公開日:2021-11-25
# サイクル一貫性による条件不変性学習

Learning Conditional Invariance through Cycle Consistency ( http://arxiv.org/abs/2111.13185v1 )

ライセンス: Link先を確認
Maxim Samarin, Vitali Nesterov, Mario Wieser, Aleksander Wieczorek, Sonali Parbhoo, and Volker Roth(参考訳) データセット内の変動の有意義で独立した要因を特定することは、深い潜在変数モデルによって頻繁に対処される困難な学習タスクである。 このタスクは、潜在次元に沿って選択された性質の値を保持する学習対称性変換と見なすことができる。 しかし、既存のアプローチは、潜在空間における不変性を強制する際の深刻な欠点を示す。 我々はこれらの欠点をサイクル一貫性に対する新しいアプローチで解決する。 提案手法は,それぞれ対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。 潜伏空間における分散性や疎結合性を強制するために、プロパティ側情報に依存するサイクル整合性制約を用いて意味知識を組み込む。 提案手法は情報ボトルネックに基づいており、他の手法とは対照的に、連続目標プロパティの使用が可能であり、固有モデル選択機能を提供する。 本研究では, 合成および分子データを用いて, より有意義な因子を同定し, 分散性が向上したスパーザーモデルと解釈可能なモデルに導くことを実証する。

Identifying meaningful and independent factors of variation in a dataset is a challenging learning task frequently addressed by means of deep latent variable models. This task can be viewed as learning symmetry transformations preserving the value of a chosen property along latent dimensions. However, existing approaches exhibit severe drawbacks in enforcing the invariance property in the latent space. We address these shortcomings with a novel approach to cycle consistency. Our method involves two separate latent subspaces for the target property and the remaining input information, respectively. In order to enforce invariance as well as sparsity in the latent space, we incorporate semantic knowledge by using cycle consistency constraints relying on property side information. The proposed method is based on the deep information bottleneck and, in contrast to other approaches, allows using continuous target properties and provides inherent model selection capabilities. We demonstrate on synthetic and molecular data that our approach identifies more meaningful factors which lead to sparser and more interpretable models with improved invariance properties.
翻訳日:2021-11-29 15:22:56 公開日:2021-11-25
# DP-SEP! 微分的にプライベートな確率的期待伝播

DP-SEP! Differentially Private Stochastic Expectation Propagation ( http://arxiv.org/abs/2111.13219v1 )

ライセンス: Link先を確認
Margarita Vinaroz and Mijung Park(参考訳) 我々は、期待伝搬(EP)と呼ばれる近似後部推論アルゴリズムの民営化に興味がある。 EPは局所確率に対する近似を反復的に精製することによって後部を近似し、変分推論(VI)によりそれよりも後部不確実性を与えることが知られている。 しかし、大規模なデータセットにEPを使用することは、メモリ内の各局所的な近似を維持する必要があるため、メモリ要求の観点からは困難である。 この問題を解決するために、確率予測伝播(SEP)が提案され、これは各確率項の後方への平均効果を捉えてEPに類似した方法で洗練するユニークな局所因子である。 プライバシの面では、SEPはEPよりもトラクタブルである。要因の精製の各ステップでは、残りの要素が同じ値に固定され、EPのような他のデータポイントに依存しないため、感度分析がトラクタブルになるからだ。 差動的確率的期待伝達(dp-sep)下での後方推定におけるプライバシ-正確性トレードオフの理論解析を行う。 さらに,プライバシの保証レベルが異なる後方推定の品質の観点から,合成データと実世界データの両方で評価したdp-sepアルゴリズムの性能を示す。

We are interested in privatizing an approximate posterior inference algorithm called Expectation Propagation (EP). EP approximates the posterior by iteratively refining approximations to the local likelihoods, and is known to provide better posterior uncertainties than those by variational inference (VI). However, using EP for large-scale datasets imposes a challenge in terms of memory requirements as it needs to maintain each of the local approximates in memory. To overcome this problem, stochastic expectation propagation (SEP) was proposed, which only considers a unique local factor that captures the average effect of each likelihood term to the posterior and refines it in a way analogous to EP. In terms of privacy, SEP is more tractable than EP because at each refining step of a factor, the remaining factors are fixed to the same value and do not depend on other datapoints as in EP, which makes the sensitivity analysis tractable. We provide a theoretical analysis of the privacy-accuracy trade-off in the posterior estimates under differentially private stochastic expectation propagation (DP-SEP). Furthermore, we demonstrate the performance of our DP-SEP algorithm evaluated on both synthetic and real-world datasets in terms of the quality of posterior estimates at different levels of guaranteed privacy.
翻訳日:2021-11-29 15:22:40 公開日:2021-11-25
# 領域不純物による積極的学習と領域適応セマンティックセマンティックセグメンテーションの予測不確かさ

Towards Fewer Annotations: Active Learning via Region Impurity and Prediction Uncertainty for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2111.12940v1 )

ライセンス: Link先を確認
Binhui Xie, Longhui Yuan, Shuang Li, Chi Harold Liu and Xinjing Cheng(参考訳) 自己学習はドメイン適応セマンティックセグメンテーションを大幅に促進し、ターゲットドメイン上の擬似ラベルを反復的に生成し、ネットワークを再訓練する。 しかし、現実的なセグメンテーションデータセットは高度に不均衡であるため、ターゲットの擬似ラベルは一般的に多数派クラスに偏り、基本的にノイズが多く、エラーが発生しやすいサブオプティマイズモデルとなる。 そこで本研究では,ドメインシフトの下でのセマンティックセマンティックセマンティクスのための領域ベースアクティブラーニング手法を提案し,セマンティクス性能を最大化しつつラベル付けする画像領域の小さな分割を自動的にクエリする。 本アルゴリズムは,領域不純物と予測の不確実性(al-ripu)を用いたアクティブラーニングを行い,画像領域の空間隣接性と予測信頼度を特徴付ける新しい獲得戦略を導入する。 提案する領域ベース選択戦略は,画像ベースや点ベースよりも,限られた予算を効果的に活用できることを示す。 一方,画像上では画素と近接する近傍の局所的な予測一貫性を強制する。 さらに、対象領域における識別表現学習を強化するために、負の学習損失を発生させる。 大規模な実験では、教師付きパフォーマンスにほぼ到達するためにはほとんどアノテーションを必要とせず、最先端の手法を大幅に上回っている。

Self-training has greatly facilitated domain adaptive semantic segmentation, which iteratively generates pseudo labels on the target domain and retrains the network. However, since the realistic segmentation datasets are highly imbalanced, target pseudo labels are typically biased to the majority classes and basically noisy, leading to an error-prone and sub-optimal model. To address this issue, we propose a region-based active learning approach for semantic segmentation under a domain shift, aiming to automatically query a small partition of image regions to be labeled while maximizing segmentation performance. Our algorithm, Active Learning via Region Impurity and Prediction Uncertainty (AL-RIPU), introduces a novel acquisition strategy characterizing the spatial adjacency of image regions along with the prediction confidence. We show that the proposed region-based selection strategy makes more efficient use of a limited budget than image-based or point-based counterparts. Meanwhile, we enforce local prediction consistency between a pixel and its nearest neighbor on a source image. Further, we develop a negative learning loss to enhance the discriminative representation learning on the target domain. Extensive experiments demonstrate that our method only requires very few annotations to almost reach the supervised performance and substantially outperforms state-of-the-art methods.
翻訳日:2021-11-29 15:20:39 公開日:2021-11-25
# PolyViT:画像、ビデオ、オーディオで視覚変換器を訓練

PolyViT: Co-training Vision Transformers on Images, Videos and Audio ( http://arxiv.org/abs/2111.12993v1 )

ライセンス: Link先を確認
Valerii Likhosherstov, Anurag Arnab, Krzysztof Choromanski, Mario Lucic, Yi Tay, Adrian Weller, Mostafa Dehghani(参考訳) 学習可能なパラメータをほぼすべて共有しながら、複数のモダリティとデータセットを処理できる単一のトランスフォーマーモデルをトレーニングできるだろうか? この疑問に答えるPolyViTは、画像、オーディオ、ビデオに基づいて訓練されたモデルである。 単一のモダリティで異なるタスクを共同トレーニングすることで、個々のタスクの精度を改善し、5つの標準ビデオおよびオーディオ分類データセットの最先端結果を達成することができる。 複数のモダリティとタスクでpolyvitを共訓練すると、さらにパラメータ効率のよいモデルとなり、複数のドメインにまたがる表現を学ぶ。 さらに、データセットの組み合わせごとにハイパーパラメータをチューニングする必要はなく、標準のシングルタスクトレーニングからそれを単純に適用できるため、コトレーニングはシンプルかつ実用的な実装であることを示す。

Can we train a single transformer model capable of processing multiple modalities and datasets, whilst sharing almost all of its learnable parameters? We present PolyViT, a model trained on image, audio and video which answers this question. By co-training different tasks on a single modality, we are able to improve the accuracy of each individual task and achieve state-of-the-art results on 5 standard video- and audio-classification datasets. Co-training PolyViT on multiple modalities and tasks leads to a model that is even more parameter-efficient, and learns representations that generalize across multiple domains. Moreover, we show that co-training is simple and practical to implement, as we do not need to tune hyperparameters for each combination of datasets, but can simply adapt those from standard, single-task training.
翻訳日:2021-11-29 15:20:15 公開日:2021-11-25
# コンピュータビジョン利用者のエンティティ行動分析

Computer Vision User Entity Behavior Analytics ( http://arxiv.org/abs/2111.13176v1 )

ライセンス: Link先を確認
Sameer Khanna(参考訳) 内部の脅威はコストが高く、検出が困難で、残念ながら発生頻度は上昇している。 このような脅威の検出を改善するために,我々は強力な特徴を抽出し,高品質な画像エンコーディングを生成し,攻撃ベクトルを増強して分類能力を高める新しい手法を開発した。 それらを組み合わせてComputer Vision UserとEntity Behavior Analyticsは、産業界における高度なモデルの使用を防ぐために、学業の進歩を改善するためにゼロから設計された検出システムだ。 提案システムは,学界や産業界で使用されている最先端の手法に勝っている。

Insider threats are costly, hard to detect, and unfortunately rising in occurrence. Seeking to improve detection of such threats, we develop novel techniques to enable us to extract powerful features, generate high quality image encodings, and augment attack vectors for greater classification power. Combined, they form Computer Vision User and Entity Behavior Analytics, a detection system designed from the ground up to improve upon advancements in academia and mitigate the issues that prevent the usage of advanced models in industry. The proposed system beats state-of-art methods used in academia and as well as in industry.
翻訳日:2021-11-29 15:20:00 公開日:2021-11-25
# ニューラルネットワークにおける固有次元, 永続ホモロジー, 一般化

Intrinsic Dimension, Persistent Homology and Generalization in Neural Networks ( http://arxiv.org/abs/2111.13171v1 )

ライセンス: Link先を確認
Tolga Birdal, Aaron Lou, Leonidas Guibas, Umut \c{S}im\c{s}ekli(参考訳) 統計学習理論の古典的な知恵に反し、現代のディープニューラルネットワークは、通常数百万のパラメータを含むにもかかわらず、よく一般化される。 近年、反復最適化アルゴリズムの軌道はフラクタル構造を持ち、それらの一般化誤差はそのようなフラクタルの複雑さと公式に結びつくことが示されている。 この複雑さはフラクタルの固有次元によって測定され、ネットワーク内のパラメータの数よりもはるかに小さい量である。 この観点は、過度にパラメータ化されたネットワークが過度に適合しない理由を説明するものであるが、本質的な次元(例えば、訓練中の一般化を監視すること)の計算は、通常、中程度の環境次元でも既存の手法が失敗する、非常に難しいタスクである。 本研究では,この問題を位相データ解析(tda)のレンズから考察し,厳密な数学的基礎に基づく汎用計算ツールを開発した。 学習理論とTDAの新たな結びつきによって、一般化誤差は「永続ホモロジー次元(Peristent homology dimension)」(PHD)という概念によって等価に境界づけられることを示した。 そして、最近確立された理論結果とTDAツールを利用して、現代の深層ニューラルネットワークの規模でPHDを推定する効率的なアルゴリズムを開発し、さらにディープラーニングの一般化を理解するための可視化ツールを提供する。 提案手法は,ネットワークの固有次元を様々な設定で効率的に計算し,一般化誤差を予測できることを示す。

Disobeying the classical wisdom of statistical learning theory, modern deep neural networks generalize well even though they typically contain millions of parameters. Recently, it has been shown that the trajectories of iterative optimization algorithms can possess fractal structures, and their generalization error can be formally linked to the complexity of such fractals. This complexity is measured by the fractal's intrinsic dimension, a quantity usually much smaller than the number of parameters in the network. Even though this perspective provides an explanation for why overparametrized networks would not overfit, computing the intrinsic dimension (e.g., for monitoring generalization during training) is a notoriously difficult task, where existing methods typically fail even in moderate ambient dimensions. In this study, we consider this problem from the lens of topological data analysis (TDA) and develop a generic computational tool that is built on rigorous mathematical foundations. By making a novel connection between learning theory and TDA, we first illustrate that the generalization error can be equivalently bounded in terms of a notion called the 'persistent homology dimension' (PHD), where, compared with prior work, our approach does not require any additional geometrical or statistical assumptions on the training dynamics. Then, by utilizing recently established theoretical results and TDA tools, we develop an efficient algorithm to estimate PHD in the scale of modern deep neural networks and further provide visualization tools to help understand generalization in deep learning. Our experiments show that the proposed approach can efficiently compute a network's intrinsic dimension in a variety of settings, which is predictive of the generalization error.
翻訳日:2021-11-29 14:23:19 公開日:2021-11-25
# 量子トランスフォーミングオートエンコーダ:ディープネットワークにおける任意変換の等価性を実現する

Quantised Transforming Auto-Encoders: Achieving Equivariance to Arbitrary Transformations in Deep Networks ( http://arxiv.org/abs/2111.12873v1 )

ライセンス: Link先を確認
Jianbo Jiao and Jo\~ao F. Henriques(参考訳) 本研究では,これらの変換のモデルを与えることなく,データから入力変換の等価性を実現する方法について検討する。 例えば畳み込みニューラルネットワーク(convolutional neural network, cnns)は、画像変換と等価である。 平面外回転のような他の変換は、単純な解析モデルを認めない。 本稿では, 翻訳, 回転, 色変化など, 任意の等分散関係の組を同時に満たす自動エンコーダアーキテクチャを提案する。 これは、入力画像を取得し、これまで観測されなかった量(例えば、同じオブジェクトの異なる視点、色の変化)で変換されたバージョンを生成することができることを意味する。 多くの(幾何学的でない)変換にも拡張するが、このモデルは翻訳等価性(translation-equivar iance)の特別な場合、正確にcnnに還元される。 等価性はディープ・ネットワークの解釈可能性やロバスト性において重要であり,複数の合成および実データに対する入力画像の変換版の再レンダリングおよびオブジェクトのポーズ推定の結果を示す。

In this work we investigate how to achieve equivariance to input transformations in deep networks, purely from data, without being given a model of those transformations. Convolutional Neural Networks (CNNs), for example, are equivariant to image translation, a transformation that can be easily modelled (by shifting the pixels vertically or horizontally). Other transformations, such as out-of-plane rotations, do not admit a simple analytic model. We propose an auto-encoder architecture whose embedding obeys an arbitrary set of equivariance relations simultaneously, such as translation, rotation, colour changes, and many others. This means that it can take an input image, and produce versions transformed by a given amount that were not observed before (e.g. a different point of view of the same object, or a colour variation). Despite extending to many (even non-geometric) transformations, our model reduces exactly to a CNN in the special case of translation-equivari ance. Equivariances are important for the interpretability and robustness of deep networks, and we demonstrate results of successful re-rendering of transformed versions of input images on several synthetic and real datasets, as well as results on object pose estimation.
翻訳日:2021-11-29 14:21:15 公開日:2021-11-25
# 抽象推論における体系的一般化のための代数表現の学習

Learning Algebraic Representation for Systematic Generalization in Abstract Reasoning ( http://arxiv.org/abs/2111.12990v1 )

ライセンス: Link先を確認
Chi Zhang, Sirui Xie, Baoxiong Jia, Ying Nian Wu, Song-Chun Zhu, Yixin Zhu(参考訳) インテリジェンスはコネクティビストか古典主義者か? コネクショニストのアプローチは超人的性能を達成したが、そのようなタスク固有の優越性は体系的な一般化において特に脆弱であることを示す証拠が増えている。 この観察はコネクショニストと古典主義者の中心的な議論であり、コネクショニストは認知アーキテクチャにおける代数的扱いを継続的に提唱している。 本稿では,古典主義の呼びかけに従い,推論の体系的一般化を改善するためのハイブリッドアプローチを提案する。 具体的には,raven's progressive matrixs (rpm) の抽象的空間-時間的推論タスクのための代数的表現を持つプロトタイプを示し,alans学習者について述べる。 ALANS学習者は抽象代数と表現論によって動機付けられている。 フロントエンドはオブジェクトベースの表現から視覚情報を要約し、バックエンドはそれを代数構造に変換し、ハエに隠れた演算子を誘導する。 誘導演算子は後に解の表現を予測するために実行され、予測に最も近い選択が解として選択される。 広範な実験により、代数的処理を組み込むことにより、アランス学習者は体系的な一般化を必要とする領域において様々な純粋接続主義モデルを上回ることが示されている。 さらに,学習した代数表現は同型によって復号化され,回答が得られることを示した。

Is intelligence realized by connectionist or classicist? While connectionist approaches have achieved superhuman performance, there has been growing evidence that such task-specific superiority is particularly fragile in systematic generalization. This observation lies in the central debate between connectionist and classicist, wherein the latter continually advocates an algebraic treatment in cognitive architectures. In this work, we follow the classicist's call and propose a hybrid approach to improve systematic generalization in reasoning. Specifically, we showcase a prototype with algebraic representation for the abstract spatial-temporal reasoning task of Raven's Progressive Matrices (RPM) and present the ALgebra-Aware Neuro-Semi-Symbolic (ALANS) learner. The ALANS learner is motivated by abstract algebra and the representation theory. It consists of a neural visual perception frontend and an algebraic abstract reasoning backend: the frontend summarizes the visual information from object-based representation, while the backend transforms it into an algebraic structure and induces the hidden operator on the fly. The induced operator is later executed to predict the answer's representation, and the choice most similar to the prediction is selected as the solution. Extensive experiments show that by incorporating an algebraic treatment, the ALANS learner outperforms various pure connectionist models in domains requiring systematic generalization. We further show that the algebraic representation learned can be decoded by isomorphism to generate an answer.
翻訳日:2021-11-29 14:20:54 公開日:2021-11-25
# 限定ラベリング資源のための擬似ドメインを用いた連続能動学習と獲得特性の変化

Continual Active Learning Using Pseudo-Domains for Limited Labelling Resources and Changing Acquisition Characteristics ( http://arxiv.org/abs/2111.13069v1 )

ライセンス: Link先を確認
Matthias Perkonigg, Johannes Hofmanninger, Christian Herold, Helmut Prosch, Georg Langs(参考訳) 臨床ルーチン中の医療画像における機械学習は、スキャナプロトコルやハードウェア、あるいはポリシの変化によって、異種な一連の取得設定によって障害を負う。 初期静的トレーニングセットでディープラーニングモデルをトレーニングする場合、モデルのパフォーマンスと信頼性は、データとターゲットが一貫性を欠く可能性があるため、獲得特性の変化に苦しむ。 継続的学習は、連続したデータストリームでトレーニングすることで、変化する環境にモデルを適用するのに役立つ。 しかし、医用画像の連続的手技によるラベル付けにはかなりの努力が必要である。 したがって、この戦略を実現するためには、ラベルリソースを適切に選択された新しい例のサブセットで効率的に利用する方法が必要である。 本稿では,医用画像のストリーム上で動作する連続的な能動学習をマルチスキャナで行う手法を提案する。 このアプローチは、画像取得特性(新しいドメイン)のシフトを自動的に認識し、ラベリングの最適な例を選択し、それに応じてトレーニングを適用する。 ラベリングは、典型的な現実世界のシナリオに似た、限られた予算の対象となる。 汎用性を示すため,心分画,肺結節検出,脳年齢推定の3つの課題において,本手法の有効性を評価した。 その結果,提案手法は他のアクティブラーニング手法よりも優れており,その一方で破滅的な忘れ方にも効果的に対応していることがわかった。

Machine learning in medical imaging during clinical routine is impaired by changes in scanner protocols, hardware, or policies resulting in a heterogeneous set of acquisition settings. When training a deep learning model on an initial static training set, model performance and reliability suffer from changes of acquisition characteristics as data and targets may become inconsistent. Continual learning can help to adapt models to the changing environment by training on a continuous data stream. However, continual manual expert labelling of medical imaging requires substantial effort. Thus, ways to use labelling resources efficiently on a well chosen sub-set of new examples is necessary to render this strategy feasible. Here, we propose a method for continual active learning operating on a stream of medical images in a multi-scanner setting. The approach automatically recognizes shifts in image acquisition characteristics - new domains -, selects optimal examples for labelling and adapts training accordingly. Labelling is subject to a limited budget, resembling typical real world scenarios. To demonstrate generalizability, we evaluate the effectiveness of our method on three tasks: cardiac segmentation, lung nodule detection and brain age estimation. Results show that the proposed approach outperforms other active learning methods, while effectively counteracting catastrophic forgetting.
翻訳日:2021-11-29 14:20:24 公開日:2021-11-25
# (参考訳) 身体と顔のミニバッチ特徴スワップによる3次元形状可変オートエンコーダ潜入乱れ [全文訳有]

3D Shape Variational Autoencoder Latent Disentanglement via Mini-Batch Feature Swapping for Bodies and Faces ( http://arxiv.org/abs/2111.12448v2 )

ライセンス: CC BY 4.0
Simone Foti, Bongjin Koo, Danail Stoyanov, Matthew J. Clarkson(参考訳) 顔と体の3次元生成モデルにおける不連続、解釈、構造化された潜在表現の学習は、いまだに未解決の問題である。 アイデンティティ機能をコントロールする必要がある場合、問題は特に深刻である。 本稿では,3次元形状変化型オートエンコーダ(VAE)を訓練する直感的かつ効果的な自己教師型手法を提案する。 任意の特徴を異なる形状に置き換えることでミニバッチ生成を計算することで、潜在表現の既知の相違と類似性を利用した損失関数を定義することができる。 3dメッシュを用いた実験の結果,潜伏性乱れに対する最先端手法では顔と身体の同一性特徴を分離できないことがわかった。 提案手法は,優れた表現能力と復元能力を維持しつつ,これらの特徴を適切に分離する。

Learning a disentangled, interpretable, and structured latent representation in 3D generative models of faces and bodies is still an open problem. The problem is particularly acute when control over identity features is required. In this paper, we propose an intuitive yet effective self-supervised approach to train a 3D shape variational autoencoder (VAE) which encourages a disentangled latent representation of identity features. Curating the mini-batch generation by swapping arbitrary features across different shapes allows to define a loss function leveraging known differences and similarities in the latent representations. Experimental results conducted on 3D meshes show that state-of-the-art methods for latent disentanglement are not able to disentangle identity features of faces and bodies. Our proposed method properly decouples the generation of such features while maintaining good representation and reconstruction capabilities.
翻訳日:2021-11-29 12:51:31 公開日:2021-11-25
# keplerからnewtonへ - 科学発見のためのaiベースのパラダイム

From Kepler to Newton: Explainable AI-based Paradigm for Science Discovery ( http://arxiv.org/abs/2111.12210v2 )

ライセンス: Link先を確認
Zelong Li and Jianchao Ji and Yongfeng Zhang(参考訳) 観察-仮説-予測-実験ループの研究パラダイムは、長年にわたって研究者によって科学的発見に向けて実践されてきた。 しかし、大規模な科学研究とミリスケールの科学研究の両方でデータ爆発が起こると、データを手動で分析し、科学的発見のサイクルを駆動する新たな仮説を提案するのは非常に困難である。 本稿では,科学発見のための説明可能なAIベースのパラダイムを提案する。 鍵となるのは、データやモデル解釈、科学発見の導出を支援するために、説明可能なAI(XAI)を使用することである。 実験と理論の方法論とともに、計算とデータ集約の方法論が科学研究にシームレスに統合できることを示す。 AIに基づく科学発見のプロセスを実証し、人類史上最大の精神の一部に敬意を払っていくために、16世紀から17世紀の科学革命を導いたティコ・ブラーエの天体観測データに基づく(説明可能な)AIによって、ケプラーの惑星運動法則とニュートンの普遍重力法則がどのように再発見されるかを示す。 この研究は、科学発見における説明可能なAI(Blackbox AIと比較して)の重要な役割を強調し、人間が将来起こりうる技術的特異点の予防またはより良い準備を支援する。

The research paradigm of the Observation--Hypothe sis--Prediction--Exp erimentation loop has been practiced by researchers for years towards scientific discovery. However, with the data explosion in both mega-scale and milli-scale scientific research, it has been sometimes very difficult to manually analyze the data and propose new hypothesis to drive the cycle for scientific discovery. In this paper, we introduce an Explainable AI-based paradigm for science discovery. The key is to use Explainable AI (XAI) to help derive data or model interpretations and science discoveries. We show how computational and data-intensive methodology -- together with experimental and theoretical methodology -- can be seamlessly integrated for scientific research. To demonstrate the AI-based science discovery process, and to pay our respect to some of the greatest minds in human history, we show how Kepler's laws of planetary motion and the Newton's law of universal gravitation can be rediscovered by (Explainable) AI based on Tycho Brahe's astronomical observation data, whose works were leading the scientific revolution in the 16-17th century. This work also highlights the important role of Explainable AI (as compared to Blackbox AI) in science discovery to help humans prevent or better prepare for the possible technological singularity which may happen in the future.
翻訳日:2021-11-29 12:44:15 公開日:2021-11-25
# イメージパッチは波です:位相認識ビジョンmlp

An Image Patch is a Wave: Phase-Aware Vision MLP ( http://arxiv.org/abs/2111.12294v2 )

ライセンス: Link先を確認
Yehui Tang, Kai Han, Jianyuan Guo, Chang Xu, Yanxi Li, Chao Xu, Yunhe Wang(参考訳) 従来の畳み込みニューラルネットワーク(CNN)や視覚変換器とは異なり、多層パーセプトロン(MLP)は、完全に接続された層でのみ積み重ねられる非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。 視覚MLPの入力画像は、通常複数のトークン(パッチ)に分割されるが、既存のMLPモデルはそれらを固定重量で直接集約し、異なる画像からのトークンの様々な意味情報を無視する。 トークンを動的に集約するために,各トークンを振幅と位相の2つの部分からなる波動関数として表現する。 振幅は元の特徴であり、位相項は入力画像の意味的内容に応じて変化する複素値である。 位相項の導入は、MLPにおけるトークンと固定重みの関係を動的に変調することができる。 wave-likeトークン表現に基づいて、視覚タスクのための新しいwave-mlpアーキテクチャを確立する。 画像分類やオブジェクト検出,セマンティックセグメンテーションといった様々なビジョンタスクにおいて,提案するWave-MLPは最先端のMLPアーキテクチャよりも優れていることを示す。

Different from traditional convolutional neural network (CNN) and vision transformer, the multilayer perceptron (MLP) is a new kind of vision model with extremely simple architecture that only stacked by fully-connected layers. An input image of vision MLP is usually split into multiple tokens (patches), while the existing MLP models directly aggregate them with fixed weights, neglecting the varying semantic information of tokens from different images. To dynamically aggregate tokens, we propose to represent each token as a wave function with two parts, amplitude and phase. Amplitude is the original feature and the phase term is a complex value changing according to the semantic contents of input images. Introducing the phase term can dynamically modulate the relationship between tokens and fixed weights in MLP. Based on the wave-like token representation, we establish a novel Wave-MLP architecture for vision tasks. Extensive experiments demonstrate that the proposed Wave-MLP is superior to the state-of-the-art MLP architectures on various vision tasks such as image classification, object detection and semantic segmentation.
翻訳日:2021-11-29 12:43:53 公開日:2021-11-25
# Deep Face Anti-Spoofingのための一貫性規則化

Consistency Regularization for Deep Face Anti-Spoofing ( http://arxiv.org/abs/2111.12320v2 )

ライセンス: Link先を確認
Zezheng Wang, Zitong Yu, Xun Wang, Yunxiao Qin, Jiahong Li, Chenxu Zhao, Zhen Lei, Xin Liu, Size Li, Zhongyuan Wang(参考訳) face anti-spoofing (fas) は顔認識システムのセキュリティにおいて重要な役割を担っている。 経験上、画像が与えられた場合、この画像の異なるビューでより一貫した出力を持つモデルは、図1に示すように、通常よりよく機能する。 このエキサイティングな観察によって、異なる視点の特徴整合性を促進することがFASモデルを促進するための有望な方法かもしれないと推測する。 本稿では,fasにおける埋め込みレベルと予測レベル一貫性規則化(epcr)の両立により,この手法を徹底的に検討する。 具体的には、埋め込みレベルでは、2つの中間特徴マップのすべての位置間の類似性を自己教師ありの方法で最大化するために、密な類似度損失を設計するが、予測レベルでは、2つのビューの予測間の平均平方誤差を最適化する。 特に,EPCRにはアノテーションがなく,半教師付き学習方式に直接組み込むことができる。 異なるアプリケーションシナリオを考慮して、半教師付きFAS技術を測定するための5つの多様な半教師付きプロトコルを更に設計する。 我々は、ベンチマークデータセット上で、EPCRが教師付きおよび半教師付きタスクの性能を大幅に改善できることを示す広範な実験を行った。 コードとプロトコルはhttps://github.com/c lks-wzz/EPCRで公開される。

Face anti-spoofing (FAS) plays a crucial role in securing face recognition systems. Empirically, given an image, a model with more consistent output on different views of this image usually performs better, as shown in Fig.1. Motivated by this exciting observation, we conjecture that encouraging feature consistency of different views may be a promising way to boost FAS models. In this paper, we explore this way thoroughly by enhancing both Embedding-level and Prediction-level Consistency Regularization (EPCR) in FAS. Specifically, at the embedding-level, we design a dense similarity loss to maximize the similarities between all positions of two intermediate feature maps in a self-supervised fashion; while at the prediction-level, we optimize the mean square error between the predictions of two views. Notably, our EPCR is free of annotations and can directly integrate into semi-supervised learning schemes. Considering different application scenarios, we further design five diverse semi-supervised protocols to measure semi-supervised FAS techniques. We conduct extensive experiments to show that EPCR can significantly improve the performance of several supervised and semi-supervised tasks on benchmark datasets. The codes and protocols will be released at https://github.com/c lks-wzz/EPCR.
翻訳日:2021-11-29 12:43:35 公開日:2021-11-25
# ビデオキャプションのための階層型モジュールネットワーク

Hierarchical Modular Network for Video Captioning ( http://arxiv.org/abs/2111.12476v2 )

ライセンス: Link先を確認
Hanhua Ye, Guorong Li, Yuankai Qi, Shuhui Wang, Qingming Huang, Ming-Hsuan Yang(参考訳) ビデオキャプションは、表現学習が重要な役割を果たすコンテンツに応じて自然言語記述を生成することを目的としている。 既存の手法は主に、言語意味論を十分に活用することなく、生成した字幕と接頭辞の単語による比較を通して教師付き学習フレームワーク内で開発されている。 本研究では,映像表現と言語意味論を3段階から橋渡しし,キャプションを生成する階層型モジュールネットワークを提案する。 特に、階層構造は以下のように構成されている: (i) エンティティレベルは、キャプションで言及される可能性が高いオブジェクトを強調する。 (II) 述語レベル - ハイライトされたオブジェクトに条件付けされたアクションを学習し、述語がキャプションで指示する。 (III) 文レベルは、グローバル意味表現を学習し、キャプション全体によって監督される。 各レベルは1つのモジュールによって実装される。 その結果,提案手法は,MSVD 104.0%とMSR-VTT 51.5%のCIDErスコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作することがわかった。

Video captioning aims to generate natural language descriptions according to the content, where representation learning plays a crucial role. Existing methods are mainly developed within the supervised learning framework via word-by-word comparison of the generated caption against the ground-truth text without fully exploiting linguistic semantics. In this work, we propose a hierarchical modular network to bridge video representations and linguistic semantics from three levels before generating captions. In particular, the hierarchy is composed of: (I) Entity level, which highlights objects that are most likely to be mentioned in captions. (II) Predicate level, which learns the actions conditioned on highlighted objects and is supervised by the predicate in captions. (III) Sentence level, which learns the global semantic representation and is supervised by the whole caption. Each level is implemented by one module. Extensive experimental results show that the proposed method performs favorably against the state-of-the-art models on the two widely-used benchmarks: MSVD 104.0% and MSR-VTT 51.5% in CIDEr score.
翻訳日:2021-11-29 12:43:17 公開日:2021-11-25
# EAD:ディープニューラルネットワークの隠れた特徴から敵のサンプルを検出するアンサンブルアプローチ

EAD: an ensemble approach to detect adversarial examples from the hidden features of deep neural networks ( http://arxiv.org/abs/2111.12631v2 )

ライセンス: Link先を確認
Francesco Craighero, Fabrizio Angaroni, Fabio Stella, Chiara Damiani, Marco Antoniotti, Alex Graudenzi(参考訳) ディープラーニングにおける重要な課題の1つは、敵の例を検出する効果的な戦略の定義である。 そこで本研究では,標準的なマルチクラス分類シナリオにおいて,敵のサンプルを識別する新しい手法であるEnsemble Adversarial Detector (EAD)を提案する。 EADは、事前訓練されたディープニューラルネットワーク(DNN)の内部表現において入力インスタンスの異なる特性を利用する複数の検出器を組み合わせる。 具体的には、マハラノビス距離と局所固有次元(LID)に基づく最先端検出器と、ワンクラスサポートベクトルマシン(OSVM)に基づく新しい手法を統合する。 すべての構成法は、正しく分類されたトレーニングインスタンスの集合からテストインスタンスの距離が大きいほど、逆の例になる確率が高いと仮定しているが、それらの距離の計算方法が異なる。 データ分布の異なる特性を抽出し、一般化とオーバーフィッティングのトレードオフに効果的に取り組むために、EDAは独立なハイパーパラメータ最適化の後、ロジスティック回帰分類器の特徴として検出器特異的距離スコアを用いる。 本研究では,異なるデータセット (CIFAR-10, CIFAR-100, SVHN) とモデル (ResNet, DenseNet) に対するEDAアプローチと,FGSM, BIM, DeepFool, CW) と競合するアプローチとの比較を行った。 全体として、eadは設定の大部分で最高のaurocとauprを達成し、他の部分で同等のパフォーマンスを実現しています。 最先端よりも改善され、EDDを任意の検出器の集合を含むように容易に拡張できる可能性があり、幅広い敵のサンプル検出分野におけるアンサンブルアプローチの普及への道を開く。

One of the key challenges in Deep Learning is the definition of effective strategies for the detection of adversarial examples. To this end, we propose a novel approach named Ensemble Adversarial Detector (EAD) for the identification of adversarial examples, in a standard multiclass classification scenario. EAD combines multiple detectors that exploit distinct properties of the input instances in the internal representation of a pre-trained Deep Neural Network (DNN). Specifically, EAD integrates the state-of-the-art detectors based on Mahalanobis distance and on Local Intrinsic Dimensionality (LID) with a newly introduced method based on One-class Support Vector Machines (OSVMs). Although all constituting methods assume that the greater the distance of a test instance from the set of correctly classified training instances, the higher its probability to be an adversarial example, they differ in the way such distance is computed. In order to exploit the effectiveness of the different methods in capturing distinct properties of data distributions and, accordingly, efficiently tackle the trade-off between generalization and overfitting, EAD employs detector-specific distance scores as features of a logistic regression classifier, after independent hyperparameters optimization. We evaluated the EAD approach on distinct datasets (CIFAR-10, CIFAR-100 and SVHN) and models (ResNet and DenseNet) and with regard to four adversarial attacks (FGSM, BIM, DeepFool and CW), also by comparing with competing approaches. Overall, we show that EAD achieves the best AUROC and AUPR in the large majority of the settings and comparable performance in the others. The improvement over the state-of-the-art, and the possibility to easily extend EAD to include any arbitrary set of detectors, pave the way to a widespread adoption of ensemble approaches in the broad field of adversarial example detection.
翻訳日:2021-11-29 12:42:27 公開日:2021-11-25