このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211022となっている論文です。

PDF登録状況(公開日: 20211022)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ランダム化線形計画法による平均逆マルチエージェント強化学習の収束率 [全文訳有]

Convergence Rates of Average-Reward Multi-agent Reinforcement Learning via Randomized Linear Programming ( http://arxiv.org/abs/2110.12929v1 )

ライセンス: CC0 1.0
Alec Koppel, Amrit Singh Bedi, Bhargav Ganguly, Vaneet Aggarwal(参考訳) 平均コスト基準を持つ表型マルチエージェント強化学習では、エージェントのチームが環境とシーケンシャルに相互作用し、局所的なインセンティブを観察します。 我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。 これまでのところ、この単純な設定であっても大域的最適性を保証することはほとんどなく、ほとんどの結果は、大かつ可能性的に連続な空間におけるパラメータ化されたポリシーに対する定常性に収束する。 marlの基礎を固めるために,線形計画法 (lp) を基礎とし, 確率的原始双対法が一元的な場合において emph{optimal sample complexity} を達成するためのモデルフリーなアプローチを導出する。 我々は,エージェントが局所的なサドルポイント問題を解き,局所的な重み付け平均化を行うマルチエージェント拡張を開発した。 準グローバル最適解を得るためのサンプル複雑性は、状態と作用空間の濃度の密接な依存性と一致し、マルチエージェント最適化に従ってネットワークに関する古典的スケーリングを示す。 実験は実際にこれらの結果を裏付ける。

In tabular multi-agent reinforcement learning with average-cost criterion, a team of agents sequentially interacts with the environment and observes local incentives. We focus on the case that the global reward is a sum of local rewards, the joint policy factorizes into agents' marginals, and full state observability. To date, few global optimality guarantees exist even for this simple setting, as most results yield convergence to stationarity for parameterized policies in large/possibly continuous spaces. To solidify the foundations of MARL, we build upon linear programming (LP) reformulations, for which stochastic primal-dual methods yields a model-free approach to achieve \emph{optimal sample complexity} in the centralized case. We develop multi-agent extensions, whereby agents solve their local saddle point problems and then perform local weighted averaging. We establish that the sample complexity to obtain near-globally optimal solutions matches tight dependencies on the cardinality of the state and action spaces, and exhibits classical scalings with respect to the network in accordance with multi-agent optimization. Experiments corroborate these results in practice.
翻訳日:2021-11-01 05:10:49 公開日:2021-10-22
# (参考訳) PCAとLDAを用いたSVMとANNによるEMG信号の分類 [全文訳有]

SVM and ANN based Classification of EMG signals by using PCA and LDA ( http://arxiv.org/abs/2110.15279v1 )

ライセンス: CC BY 4.0
Hritam Basak, Alik Roy, Jeet Bandhu Lahiri, Sayantan Bose, Soumyadeep Patra(参考訳) 近年,ヒト-コンピュータインタフェース(hci)における医療的コミュニケーションに生体医学的信号が用いられており,その例としては筋電信号(mes)が一次元パターンとして人体の筋肉で生成される。 このため、信号のパターン認識のために開発された手法やアルゴリズムは、これらの信号がサンプリングされて筋電図(EMG)信号に変換されると、解析に応用できる。 さらに、近年、多くの研究者がEMG信号分類を利用した補綴制御の研究に取り組み、すなわち、MESのセットを適切な周波数範囲でロギングして対応するEMG信号の分類を行っている。 特徴分類は、時間領域または周波数領域(スペクトル領域とも呼ばれる)、時間スケール、時間周波数といった他の領域を用いて行うことができる。 筋電信号におけるパターン認識の主要な方法の1つは、n次元超平面を識別して入力特徴点の集合を異なるクラスに分離するサポートベクターマシン(svm)技術である。 この手法は複雑なパターンを認識する可能性を秘めており、ニューラルネットワーク(ANN)、線形判別分析(LDA)、主成分分析(PCA)といった他の分類器と比較すると、その価値が証明されている。 SVMの根底にある重要な概念は (a)超平面分離機 b) カーネル関数 c) 最適分離超平面,及び (d)ソフトマージン(超飛行機の耐久性)

In recent decades, biomedical signals have been used for communication in Human-Computer Interfaces (HCI) for medical applications; an instance of these signals are the myoelectric signals (MES), which are generated in the muscles of the human body as unidimensional patterns. Because of this, the methods and algorithms developed for pattern recognition in signals can be applied for their analyses once these signals have been sampled and turned into electromyographic (EMG) signals. Additionally, in recent years, many researchers have dedicated their efforts to studying prosthetic control utilizing EMG signal classification, that is, by logging a set of MES in a proper range of frequencies to classify the corresponding EMG signals. The feature classification can be carried out on the time domain or by using other domains such as the frequency domain (also known as the spectral domain), time scale, and time-frequency, amongst others. One of the main methods used for pattern recognition in myoelectric signals is the Support Vector Machines (SVM) technique whose primary function is to identify an n-dimensional hyperplane to separate a set of input feature points into different classes. This technique has the potential to recognize complex patterns and on several occasions, it has proven its worth when compared to other classifiers such as Artificial Neural Network (ANN), Linear Discriminant Analysis (LDA), and Principal Component Analysis(PCA). The key concepts underlying the SVM are (a) the hyperplane separator; (b) the kernel function; (c) the optimal separation hyperplane; and (d) a soft margin (hyperplane tolerance).
翻訳日:2021-11-01 04:17:48 公開日:2021-10-22
# (参考訳) 精密エンタシアストのための生成ネットワーク [全文訳有]

Generative Networks for Precision Enthusiasts ( http://arxiv.org/abs/2110.13632v1 )

ライセンス: CC BY 4.0
Anja Butter, Theo Heimel, Sander Hummerich, Tobias Krebs, Tilman Plehn, Armand Rousselot, Sophia Vent(参考訳) 生成ネットワークはLHCの高速イベント生成に新たな道を開く。 生成フローネットワークが運動分布のパーセンテージレベルの精度に到達する方法、判別器と共同で学習する方法、そしてこの判別器が生成をいかに改善するかを示す。 我々の共同訓練は、nash平衡を必要としない2つのネットワークの新しい結合に依存している。 次に,ベイズネットワークのセットアップと条件付きデータ拡張により生成の不確実性を推定し,識別器はトレーニングデータに比較して系統的不整合がないことを保証する。

Generative networks are opening new avenues in fast event generation for the LHC. We show how generative flow networks can reach percent-level precision for kinematic distributions, how they can be trained jointly with a discriminator, and how this discriminator improves the generation. Our joint training relies on a novel coupling of the two networks which does not require a Nash equilibrium. We then estimate the generation uncertainties through a Bayesian network setup and through conditional data augmentation, while the discriminator ensures that there are no systematic inconsistencies compared to the training data.
翻訳日:2021-11-01 04:07:44 公開日:2021-10-22
# (参考訳) Pruneはいつ? 初期構造プランニングへの取り組み [全文訳有]

When to Prune? A Policy towards Early Structural Pruning ( http://arxiv.org/abs/2110.12007v1 )

ライセンス: CC BY 4.0
Maying Shen, Pavlo Molchanov, Hongxu Yin, Jose M. Alvarez(参考訳) プルーニングにより、ネットワークメモリのフットプリントと時間の複雑さが大幅に削減される。 従来のトレーニング後のプルーニング技術は、トレーニングのための重い計算を見下ろしながら、効率的な推論に傾いている。 初期化におけるプレトレーニングプルーニングの最近の調査は、プルーニングによるトレーニングコスト削減を示唆しているが、顕著な性能劣化に悩まされている。 両方向のメリットを組み合わせて,パフォーマンスを損なうことなく,トレーニング中に可能な限り早期に実施する方針を提案する。 初期化をpruningする代わりに,初期集中トレーニングを少数のエポックで活用し,アーキテクチャを素早く導くと同時に,ニューロン重要度ランキングを通じて支配的サブネットワークを常に評価する。 これにより、構造が安定する支配的なサブネットワークが出現し、従来の刈り取りがトレーニングに早く押し込まれるようになる。 これを早期に行うために、サブネットワークアーキテクチャの類似性に依存し、サブネットワークのアーキテクチャが安定すると即座にプルーニングをトリガーするEarly Pruning Indicator (EPI)を導入する。 ImageNet上での広範な実験を通じて、EPIはプルーニングに適した早期トレーニングのエポックを素早く追跡し、エポックをスキャンし、桁違いの計算を必要とする 'oracle' グリッド検索と同じ効果を提供することを示した。 我々の方法は、最先端のプルーニングに比べて1.4\%の精度で1.4\%向上し、GPUのトレーニングコストを2.4\times$に削減し、トレーニング中のネットワークプルーニングのための新たな効率-精度境界を提供する。

Pruning enables appealing reductions in network memory footprint and time complexity. Conventional post-training pruning techniques lean towards efficient inference while overlooking the heavy computation for training. Recent exploration of pre-training pruning at initialization hints on training cost reduction via pruning, but suffers noticeable performance degradation. We attempt to combine the benefits of both directions and propose a policy that prunes as early as possible during training without hurting performance. Instead of pruning at initialization, our method exploits initial dense training for few epochs to quickly guide the architecture, while constantly evaluating dominant sub-networks via neuron importance ranking. This unveils dominant sub-networks whose structures turn stable, allowing conventional pruning to be pushed earlier into the training. To do this early, we further introduce an Early Pruning Indicator (EPI) that relies on sub-network architectural similarity and quickly triggers pruning when the sub-network's architecture stabilizes. Through extensive experiments on ImageNet, we show that EPI empowers a quick tracking of early training epochs suitable for pruning, offering same efficacy as an otherwise ``oracle'' grid-search that scans through epochs and requires orders of magnitude more compute. Our method yields $1.4\%$ top-1 accuracy boost over state-of-the-art pruning counterparts, cuts down training cost on GPU by $2.4\times$, hence offers a new efficiency-accuracy boundary for network pruning during training.
翻訳日:2021-11-01 03:44:39 公開日:2021-10-22
# (参考訳) ClimateBert: 気候関連テキストのための事前訓練された言語モデル [全文訳有]

ClimateBert: A Pretrained Language Model for Climate-Related Text ( http://arxiv.org/abs/2110.12010v1 )

ライセンス: CC BY 4.0
Nicolas Webersinke, Mathias Kraus, Julia Anna Bingler, Markus Leippold(参考訳) 近年,大規模な事前学習型言語モデル (LM) が自然言語処理 (NLP) の分野に革命をもたらした。 しかしながら、一般言語での事前学習は共通言語に非常に適していることが示されているが、ニッチ言語が問題を引き起こすことが観察されている。 特に、気候に関するテキストには、共通するLMが正確に表現できない特定の言語が含まれている。 我々は、今日のLMのこの欠点は、気候関連テキストの幅広いテキスト処理分野への現代のNLPの適用性を制限していると論じる。 そこで,我々は,共通ニュースや研究記事,企業の気候報告などさまざまな情報源から収集された,160万段落以上の気候関連テキストに基づいて,さらに事前学習されたトランスフォーマティブ言語モデルであるclimatebertを提案する。 我々は、ClimateBertleadsが、テキスト分類、感情分析、ファクトチェックといった様々な気候関連下流タスクにおいて、マスク付き言語モデルの目標に対して46%の改善を達成し、エラー率を3.57%から35.71%に下げることを発見した。

Over the recent years, large pretrained language models (LM) have revolutionized the field of natural language processing (NLP). However, while pretraining on general language has been shown to work very well for common language, it has been observed that niche language poses problems. In particular, climate-related texts include specific language that common LMs can not represent accurately. We argue that this shortcoming of today's LMs limits the applicability of modern NLP to the broad field of text processing of climate-related texts. As a remedy, we propose ClimateBert, a transformer-based language model that is further pretrained on over 1.6 million paragraphs of climate-related texts, crawled from various sources such as common news, research articles, and climate reporting of companies. We find that ClimateBertleads to a 46% improvement on a masked language model objective which, in turn, leads to lowering error rates by 3.57% to 35.71% for various climate-related downstream tasks like text classification, sentiment analysis, and fact-checking.
翻訳日:2021-11-01 03:26:17 公開日:2021-10-22
# (参考訳) ビデオre-idにおける局所的グローバルアソシエーションフレームアセンブラ [全文訳有]

Local-Global Associative Frame Assemble in Video Re-ID ( http://arxiv.org/abs/2110.12018v1 )

ライセンス: CC BY 4.0
Qilei Li, Jiabo Huang, Shaogang Gong(参考訳) ビデオシーケンスから自動生成されたオブジェクトバウンディングボックス内のノイズおよび非表現フレームは、ビデオ再識別(re-id)における識別表現の学習において重要な課題となる。 既存の手法のほとんどは、ビデオフレームの局所的なアライメントやグローバルな外観相関を別々に評価することでこの問題に対処している。 しかし、キャプチャーされたビデオデータに通常共存する多様で未知のノイズ源を考えると、既存の手法は有効ではない。 本研究では,ビデオトラクレット内のすべてのフレームにおいて,相補的な識別的Re-ID情報をよりよく組み立てるために,相互の促進・強化を考慮し,局所的アライメントと大域的相関を共同で検討する。 具体的には、局所的なアライメントに基づいて各フレームの品質を識別するローカルアライメント品質(LAQ)モジュールと、グローバルな外観相関を推定するグローバル相関品質(GCQ)モジュールを同時に最適化する。 局所的に組立てたグローバルな外観プロトタイプの助けを借りて、LAQとGCQを関連付け、それらの相互補完を利用する。 拡張実験では,MARS, Duke-Video, Duke-SI, iLIDS-VID, PRID2011を含む5つのRe-IDベンチマークにおいて, 最先端手法に対するモデルの有効性が示された。

Noisy and unrepresentative frames in automatically generated object bounding boxes from video sequences cause significant challenges in learning discriminative representations in video re-identification (Re-ID). Most existing methods tackle this problem by assessing the importance of video frames according to either their local part alignments or global appearance correlations separately. However, given the diverse and unknown sources of noise which usually co-exist in captured video data, existing methods have not been effective satisfactorily. In this work, we explore jointly both local alignments and global correlations with further consideration of their mutual promotion/reinforcem ent so to better assemble complementary discriminative Re-ID information within all the relevant frames in video tracklets. Specifically, we concurrently optimise a local aligned quality (LAQ) module that distinguishes the quality of each frame based on local alignments, and a global correlated quality (GCQ) module that estimates global appearance correlations. With the help of a local-assembled global appearance prototype, we associate LAQ and GCQ to exploit their mutual complement. Extensive experiments demonstrate the superiority of the proposed model against state-of-the-art methods on five Re-ID benchmarks, including MARS, Duke-Video, Duke-SI, iLIDS-VID, and PRID2011.
翻訳日:2021-11-01 03:11:30 公開日:2021-10-22
# (参考訳) 6GにおけるAI支援操作制御ループの相互作用と競合管理 [全文訳有]

Interaction and Conflict Management in AI-assisted Operational Control Loops in 6G ( http://arxiv.org/abs/2110.12025v1 )

ライセンス: CC BY 4.0
Saeedeh Parsaeefard, Pooyan Habibi, and Alberto Leon Garcia(参考訳) 本稿では,マルチエージェント環境における次世代無線ネットワークにおける自律型およびAI支援制御ループ(ACL)について検討する。 これらのループ間の多様な相互作用と紛争管理について検討する。 我々は,これらのACL間の一貫性,一貫性,相互作用を実現するために,ICMモジュールを提案する。 我々は,ACLのサイズ,協調的かつ競争的な行動,データセットとモデルの共有に基づくACLの3つのカテゴリを紹介する。 これらのカテゴリは、ICMのコンフリクト解決とインタラクション管理メカニズムの導入に役立つ。 Kubernetesを使用して、ネットワーク内の異なるACLに対するPodのスケジューリングと再スケジュールにおける競合を取り除くためのICMの実装を提案する。

This paper studies autonomous and AI-assisted control loops (ACLs) in the next generation of wireless networks in the lens of multi-agent environments. We will study the diverse interactions and conflict management among these loops. We propose "interaction and conflict management" (ICM) modules to achieve coherent, consistent and interactions among these ACLs. We introduce three categories of ACLs based on their sizes, their cooperative and competitive behaviors, and their sharing of datasets and models. These categories help to introduce conflict resolution and interaction management mechanisms for ICM. Using Kubernetes, we present an implementation of ICM to remove the conflicts in the scheduling and rescheduling of Pods for different ACLs in networks.
翻訳日:2021-11-01 02:55:06 公開日:2021-10-22
# (参考訳) 低予算アクティブラーニングのための簡易ベースライン [全文訳有]

A Simple Baseline for Low-Budget Active Learning ( http://arxiv.org/abs/2110.12033v1 )

ライセンス: CC BY 4.0
Kossar Pourahmadi, Parsa Nooralinejad, Hamed Pirsiavash(参考訳) アクティブラーニングはラベルのないデータのサブセットを選択することに焦点を当てている。 しかし、そのような手法の多くは、データの大きなサブセットを注釈を付けることができると仮定している。 私たちは、小さなサブセット(例えば、ImageNetの0.2%)にアノテートできるような、低予算のアクティブラーニングに興味を持っています。 初期プールに与えられたラベルなしデータのバッチを反復的にサンプリングする新しいクエリ戦略を提案する代わりに、既製の自己教師付き学習手法でリッチな特徴を学習し、さまざまなデータセットとImageNetデータセットに低予算で与えられた異なるサンプリング戦略の有効性について検討する。 データラベリングの膨大な予算を考えると、最先端のアクティブラーニング手法はうまく機能するが、単純なk平均クラスタリングアルゴリズムはそれらを低予算で上回ることができる。 本手法は,画像分類における低予算能動学習のための単純なベースラインとして利用できると考えている。 コードは、https://github.com/U CDvision/low-budget- alで入手できる。

Active learning focuses on choosing a subset of unlabeled data to be labeled. However, most such methods assume that a large subset of the data can be annotated. We are interested in low-budget active learning where only a small subset (e.g., 0.2% of ImageNet) can be annotated. Instead of proposing a new query strategy to iteratively sample batches of unlabeled data given an initial pool, we learn rich features by an off-the-shelf self-supervised learning method only once and then study the effectiveness of different sampling strategies given a low budget on a variety of datasets as well as ImageNet dataset. We show that although the state-of-the-art active learning methods work well given a large budget of data labeling, a simple k-means clustering algorithm can outperform them on low budgets. We believe this method can be used as a simple baseline for low-budget active learning on image classification. Code is available at: https://github.com/U CDvision/low-budget- al
翻訳日:2021-11-01 02:44:44 公開日:2021-10-22
# (参考訳) Goal-directed Predicate Answer Set Programmingにおける動的一貫性チェックに向けて [全文訳有]

Towards Dynamic Consistency Checking in Goal-directed Predicate Answer Set Programming ( http://arxiv.org/abs/2110.12053v1 )

ライセンス: CC BY 4.0
Joaqu\'in Arias, Manuel Carro, Gopal Gupta(参考訳) Answer Set Programsの目標指向評価は、使用する評価メカニズムによって、説明と正当化を生成することができるAIシステムを作成する能力のおかげで、勢いを増している。 s(CASP)はこれらのシステムの1つで、すでにいくつかの分野で推論システムを記述するのに使われています。 制約、データ構造、および非バウンド変数をネイティブに使用できるため、他のASPシステムに拡張された表現性を提供する。 しかし、既存のs(CASP)実装のパフォーマンスは他のASPシステムと同等ではない。 本稿では,モデル生成と一貫性チェックをインターリーブする動的一貫性チェックと呼ばれる,トップダウン評価戦略のバリエーションを提案する。 これにより、リテラルがプログラムのグローバルな制約に関連する否定と互換性がないかどうかを判断し、現在の実行ブランチをプルークし、別の選択肢を選択することができる。 この戦略は特に(しかし、排他的ではない)高組合せ成分の問題に関係している。 我々は、標準バージョンのs(CASP)の最大90倍のスピードアップを実験的に観察した。

Goal-directed evaluation of Answer Set Programs is gaining traction thanks to its amenability to create AI systems that can, due to the evaluation mechanism used, generate explanations and justifications. s(CASP) is one of these systems and has been already used to write reasoning systems in several fields. It provides enhanced expressiveness w.r.t. other ASP systems due to its ability to use constraints, data structures, and unbound variables natively. However, the performance of existing s(CASP) implementations is not on par with other ASP systems: model consistency is checked once models have been generated, in keeping with the generate-and-test paradigm. In this work, we present a variation of the top-down evaluation strategy, termed Dynamic Consistency Checking, which interleaves model generation and consistency checking. This makes it possible to determine when a literal is not compatible with the denials associated to the global constraints in the program, prune the current execution branch, and choose a different alternative. This strategy is specially (but not exclusively) relevant in problems with a high combinatorial component. We have experimentally observed speedups of up to 90x w.r.t. the standard versions of s(CASP).
翻訳日:2021-11-01 02:30:48 公開日:2021-10-22
# (参考訳) DeepAg:農業生産と政策における外部イベントの効果測定のためのディープラーニングアプローチ [全文訳有]

DeepAg: Deep Learning Approach for Measuring the Effects of Outlier Events on Agricultural Production and Policy ( http://arxiv.org/abs/2110.12062v1 )

ライセンス: CC BY 4.0
Sai Gurrapu, Feras A. Batarseh, Pei Wang, Md Nazmul Kabir Sikder, Nitish Gorentala, Gopinath Munisamy(参考訳) 世界経済の均衡を計測する定量的指標は、農業サプライチェーンや国際貿易フローと強く相互依存関係にある。 貿易戦争、パンデミック、天候などの不況によって引き起こされたこれらのプロセスの急激なショックは、世界経済に複雑な影響を及ぼす可能性がある。 本稿では,DeepAgという新しいフレームワークを提案する。DeepAgは,Deep Learning(DL)を用いて,一般的な金融指標(DowJonesなど)と農業商品(CheeseやMilkなど)の生産価値の関係を判定するために,econometricsを使用し,外部イベント検出の効果を測定する。 我々は,Long Short-Term Memory(LSTM)ネットワークと呼ばれるDL技術を用いて,商品生産を高精度に予測し,また,外来イベントの効果を測定するためのベースラインとして5つの人気モデル(回帰とブースティング)を提示した。 以上の結果から,(孤立林を用いた)アウトリーチを考慮したDeepAgはベースラインモデルよりも優れており,アウトリーチ検出を行なわないモデルも優れていることが示唆された。 アウトリーチイベントは、金融指標に関して商品生産を予測する際に大きな影響を与える。 さらに,公共政策に対するDeepAgの影響,政策立案者や農家への洞察,農業生態系における経営決定について述べる。 データは収集され、モデルが開発され、結果が記録され、提示される。

Quantitative metrics that measure the global economy's equilibrium have strong and interdependent relationships with the agricultural supply chain and international trade flows. Sudden shocks in these processes caused by outlier events such as trade wars, pandemics, or weather can have complex effects on the global economy. In this paper, we propose a novel framework, namely: DeepAg, that employs econometrics and measures the effects of outlier events detection using Deep Learning (DL) to determine relationships between commonplace financial indices (such as the DowJones), and the production values of agricultural commodities (such as Cheese and Milk). We employed a DL technique called Long Short-Term Memory (LSTM) networks successfully to predict commodity production with high accuracy and also present five popular models (regression and boosting) as baselines to measure the effects of outlier events. The results indicate that DeepAg with outliers' considerations (using Isolation Forests) outperforms baseline models, as well as the same model without outliers detection. Outlier events make a considerable impact when predicting commodity production with respect to financial indices. Moreover, we present the implications of DeepAg on public policy, provide insights for policymakers and farmers, and for operational decisions in the agricultural ecosystem. Data are collected, models developed, and the results are recorded and presented.
翻訳日:2021-11-01 02:00:39 公開日:2021-10-22
# (参考訳) 電力反復の乗算回避と応用 [全文訳有]

Multiplication-Avoid ing Variant of Power Iteration with Applications ( http://arxiv.org/abs/2110.12065v1 )

ライセンス: CC BY 4.0
Hongyi Pan, Diaa Badawi, Runxuan Miao, Erdem Koyuncu and Ahmet Enis Cetin(参考訳) パワーイテレーションはデータ分析の基本的なアルゴリズムである。 与えられた行列の最大固有値に対応する固有ベクトルを抽出する。 アプリケーションには、ランキングアルゴリズム、レコメンデーションシステム、主成分分析(PCA)などが含まれている。 本稿では、正規電力繰り返し(RPI)に現れる標準の$\ell_2$-innerを、$\ell_1$ノルムに関連するマーサー型カーネル操作である乗算自由ベクトル積に置き換える乗算回避パワーイテレーション(MAPI)を導入する。 正確には、$n\times n$行列の場合、MAPIは$n$乗算を必要とし、RPIはイテレーション毎に$n^2$乗算を必要とする。 したがって、MAPIは、エネルギー消費の面でコストがかかることが知られている乗算演算数を著しく削減する。 我々はMAPIをPCAベースの画像再構成やグラフベースのランキングアルゴリズムに適用する。 RPIと比較すると、MAPIは通常、より高速に収束するだけでなく、優れたパフォーマンスを提供する。

Power iteration is a fundamental algorithm in data analysis. It extracts the eigenvector corresponding to the largest eigenvalue of a given matrix. Applications include ranking algorithms, recommendation systems, principal component analysis (PCA), among many others. In this paper, We introduce multiplication-avoid ing power iteration (MAPI), which replaces the standard $\ell_2$-inner products that appear at the regular power iteration (RPI) with multiplication-free vector products which are Mercer-type kernel operations related with the $\ell_1$ norm. Precisely, for an $n\times n$ matrix, MAPI requires $n$ multiplications, while RPI needs $n^2$ multiplications per iteration. Therefore, MAPI provides a significant reduction of the number of multiplication operations, which are known to be costly in terms of energy consumption. We provide applications of MAPI to PCA-based image reconstruction as well as to graph-based ranking algorithms. When compared to RPI, MAPI not only typically converges much faster, but also provides superior performance.
翻訳日:2021-11-01 01:50:26 公開日:2021-10-22
# (参考訳) C-Planning:ゴール学習のための自動カリキュラム [全文訳有]

C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks ( http://arxiv.org/abs/2110.12080v1 )

ライセンス: CC BY 4.0
Tianjun Zhang, Benjamin Eysenbach, Ruslan Salakhutdinov, Sergey Levine, Joseph E. Gonzalez(参考訳) 目標条件強化学習(RL)は、ナビゲーションや操作を含む幅広い領域のタスクを解くことができるが、遠方の目標に到達するための学習は、この分野における重要な課題である。 このような目標を達成するための学習は、オフラインデータ、専門家によるデモンストレーション、報酬形成なしでは特に難しい。 本稿では,中間状態のカリキュラムを自動生成する学習時間における探索を用いて,遠隔目標獲得課題を解決するアルゴリズムを提案する。 本アルゴリズムは,目標条件付ポリシーの学習を期待最大化として構成する: e-stepはグラフ検索を用いた最適経路系列の計画に対応し,m-stepは目標条件付ポリシーの学習を目標とする。 目標条件付きRLとグラフ検索を組み合わせた従来の手法とは異なり、我々の手法はトレーニング中のみ検索を行い、テストは行わず、学習したポリシーをデプロイする際の計算コストを大幅に削減する。 実験により,本手法は従来の手法よりもサンプル効率が良いことを示す。 さらに,従来の目標条件付き手法やグラフ探索に基づく手法では解けない,非常に長い地平線操作やナビゲーションタスクを解くことができる。

Goal-conditioned reinforcement learning (RL) can solve tasks in a wide range of domains, including navigation and manipulation, but learning to reach distant goals remains a central challenge to the field. Learning to reach such goals is particularly hard without any offline data, expert demonstrations, and reward shaping. In this paper, we propose an algorithm to solve the distant goal-reaching task by using search at training time to automatically generate a curriculum of intermediate states. Our algorithm, Classifier-Planning (C-Planning), frames the learning of the goal-conditioned policies as expectation maximization: the E-step corresponds to planning an optimal sequence of waypoints using graph search, while the M-step aims to learn a goal-conditioned policy to reach those waypoints. Unlike prior methods that combine goal-conditioned RL with graph search, ours performs search only during training and not testing, significantly decreasing the compute costs of deploying the learned policy. Empirically, we demonstrate that our method is more sample efficient than prior methods. Moreover, it is able to solve very long horizons manipulation and navigation tasks, tasks that prior goal-conditioned methods and methods based on graph search fail to solve.
翻訳日:2021-11-01 01:39:53 公開日:2021-10-22
# (参考訳) 最適探索と分布補正によるオフポリティクス強化学習 [全文訳有]

Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction ( http://arxiv.org/abs/2110.12081v1 )

ライセンス: CC BY 4.0
Jiachen Li, Shuo Cheng, Zhenyu Liao, Huayan Wang, William Yang Wang, Qinxun Bai(参考訳) 強化学習アルゴリズムのサンプル効率の向上には効果的な探索が必要である。 不確実性に直面して、$\textit{optimism in the face of uncertainty}$という原則に従って、我々は、オフポリティカルなアクター-批判の枠組みで批評家の概ね高い信頼度を最大化するために、別の探索政策を訓練します。 しかし、これは、定常状態-アクション分布の観点から、リプレイバッファとターゲットポリシーの間に追加的な違いをもたらす。 最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。 特に,政策と批判の両方のトレーニング分布を補正する。 実験では,提案手法をいくつかの難解な連続制御タスクで評価し,最先端手法と比較して優れた性能を示す。 また,提案手法の有効性と合理性を示すため,広範なアブレーション研究を行った。

Improving sample efficiency of reinforcement learning algorithms requires effective exploration. Following the principle of $\textit{optimism in the face of uncertainty}$, we train a separate exploration policy to maximize an approximate upper confidence bound of the critics in an off-policy actor-critic framework. However, this introduces extra differences between the replay buffer and the target policy in terms of their stationary state-action distributions. To mitigate the off-policy-ness, we adapt the recently introduced DICE framework to learn a distribution correction ratio for off-policy actor-critic training. In particular, we correct the training distribution for both policies and critics. Empirically, we evaluate our proposed method in several challenging continuous control tasks and show superior performance compared to state-of-the-art methods. We also conduct extensive ablation studies to demonstrate the effectiveness and the rationality of the proposed method.
翻訳日:2021-11-01 01:21:36 公開日:2021-10-22
# (参考訳) 近似的上下境界を用いたガウス過程サンプリングと最適化 [全文訳有]

Gaussian Process Sampling and Optimization with Approximate Upper and Lower Bounds ( http://arxiv.org/abs/2110.12087v1 )

ライセンス: CC BY 4.0
Vu Nguyen, Marc Peter Deisenroth, Michael A. Osborne(参考訳) 多くの関数はおおむね上界と下界が知られており、そのような関数のモデリングを支援する可能性がある。 本稿では,そのような境界が(ほぼ)知られている関数に対するガウス過程モデルを提案する。 具体的には,ガウス過程 (GP) の後方サンプリングとベイズ最適化 (BO) を改善するために,そのような境界を初めて利用することを提案する。 すなわち、与えられた境界を満たすGPモデルを変換し、その後からサンプル関数と重み関数を導出する。 これらの境界をboの設定でさらに活用するために, 出力制約を満たしながら, gpサンプルから推定される基本関数に関する情報を最も多く得る点を選択するための境界エントロピー探索(bes)を提案する。 サンプル分散境界を特徴付け、BESによる決定が説明可能であることを示す。 提案手法は概念的に単純であり,既存のGP後方サンプリング法やベイズ最適化法への拡張として利用できる。

Many functions have approximately-known upper and/or lower bounds, potentially aiding the modeling of such functions. In this paper, we introduce Gaussian process models for functions where such bounds are (approximately) known. More specifically, we propose the first use of such bounds to improve Gaussian process (GP) posterior sampling and Bayesian optimization (BO). That is, we transform a GP model satisfying the given bounds, and then sample and weight functions from its posterior. To further exploit these bounds in BO settings, we present bounded entropy search (BES) to select the point gaining the most information about the underlying function, estimated by the GP samples, while satisfying the output constraints. We characterize the sample variance bounds and show that the decision made by BES is explainable. Our proposed approach is conceptually straightforward and can be used as a plug in extension to existing methods for GP posterior sampling and Bayesian optimization.
翻訳日:2021-11-01 00:55:55 公開日:2021-10-22
# ベイズ最適化と深部学習によるハンドル角度予測

Bayesian Optimization and Deep Learning forsteering wheel angle prediction ( http://arxiv.org/abs/2110.13629v1 )

ライセンス: Link先を確認
Alessandro Riboni, Nicol\`o Ghioldi, Antonio Candelieri, Matteo Borrotti(参考訳) 自動運転システム(ADS)はここ数年で大幅に改善されている。 広告や、より正確な自動運転車技術は、ユーザー体験、モード選択、ビジネスモデルの観点から、交通システムの世界を知覚し、知る方法を変えるだろう。 ディープラーニング(DL)の新たな分野は、革新的なADSソリューションの開発に成功している。 しかし、最高のディープニューラルネットワークアーキテクチャを選抜し、ハイパーパラメータをチューニングしようとする試みは、時間と計算資源の両面で、すべて高価なプロセスである。 本研究では,時空間長短期記憶(st-lstm)ネットワークのハイパーパラメータを最適化するためにベイズ最適化(bo)を用いて,広告のステアリング角度の予測のための正確なモデルを得る。 BOは限られた試行数で、BOST-LSTMと呼ばれるモデルを特定し、その結果、従来のエンドツーエンド駆動モデルと比較して最も正確なパブリックデータセットが得られた。

Automated driving systems (ADS) have undergone a significant improvement in the last years. ADS and more precisely self-driving cars technologies will change the way we perceive and know the world of transportation systems in terms of user experience, mode choices and business models. The emerging field of Deep Learning (DL) has been successfully applied for the development of innovative ADS solutions. However, the attempt to single out the best deep neural network architecture and tuning its hyperparameters are all expensive processes, both in terms of time and computational resources. In this work, Bayesian Optimization (BO) is used to optimize the hyperparameters of a Spatiotemporal-Long Short Term Memory (ST-LSTM) network with the aim to obtain an accurate model for the prediction of the steering angle in a ADS. BO was able to identify, within a limited number of trials, a model -- namely BOST-LSTM -- which resulted, on a public dataset, the most accurate when compared to classical end-to-end driving models.
翻訳日:2021-10-27 13:21:21 公開日:2021-10-22
# 分散最適化のためのパラメータ選択のための強化学習手法

A Reinforcement Learning Approach to Parameter Selection for Distributed Optimization in Power Systems ( http://arxiv.org/abs/2110.11991v1 )

ライセンス: Link先を確認
Sihan Zeng, Alyssa Kody, Youngdae Kim, Kibaek Kim, Daniel K. Molzahn(参考訳) 分散エネルギー資源の普及に伴い、分散最適化アルゴリズムは、単一障害点に対する優れたスケーラビリティ、プライバシー、堅牢性の可能性から、電力システムアプリケーションに大きな注目を集めている。 Alternating Direction Method of Multipliers (ADMM) は、一般的な分散最適化アルゴリズムであるが、その収束性能は、通常ヒューリスティックに選択されるペナルティパラメータの選択に大きく依存している。 本研究では,ac最適潮流(acopf)問題に対する適応的ペナルティパラメータ選択ポリシをadmmを用いて開発し,収束までのイテレーション数を最小化することを目的として強化学習(rl)を行った。 深層Q-ラーニングを用いてRLポリシーを訓練し、このポリシーが収束を著しく加速することを示す(既存の曲率インフォームドペナルティパラメータ選択法と比較して、反復回数を最大59%削減できる)。 さらに,我々のrlポリシーが汎用性への期待を実証し,未認識のロードスキームや線やジェネレータの無意識な損失(最大50%のイテレーション削減)下での動作を実証することを示した。 この研究は、パワーシステムアプリケーションのためのADMMにおけるパラメータ選択にRLを使用するための概念実証を提供する。

With the increasing penetration of distributed energy resources, distributed optimization algorithms have attracted significant attention for power systems applications due to their potential for superior scalability, privacy, and robustness to a single point-of-failure. The Alternating Direction Method of Multipliers (ADMM) is a popular distributed optimization algorithm; however, its convergence performance is highly dependent on the selection of penalty parameters, which are usually chosen heuristically. In this work, we use reinforcement learning (RL) to develop an adaptive penalty parameter selection policy for the AC optimal power flow (ACOPF) problem solved via ADMM with the goal of minimizing the number of iterations until convergence. We train our RL policy using deep Q-learning, and show that this policy can result in significantly accelerated convergence (up to a 59% reduction in the number of iterations compared to existing, curvature-informed penalty parameter selection methods). Furthermore, we show that our RL policy demonstrates promise for generalizability, performing well under unseen loading schemes as well as under unseen losses of lines and generators (up to a 50% reduction in iterations). This work thus provides a proof-of-concept for using RL for parameter selection in ADMM for power systems applications.
翻訳日:2021-10-26 18:20:57 公開日:2021-10-22
# RDD-Eclat: Spark RDDフレームワーク上でのEclatアルゴリズムの並列化(拡張バージョン)

RDD-Eclat: Approaches to Parallelize Eclat Algorithm on Spark RDD Framework (Extended Version) ( http://arxiv.org/abs/2110.12012v1 )

ライセンス: Link先を確認
Pankaj Singh, Sudhakar Singh, P K Mishra, Rakhi Garg(参考訳) 頻繁なアイテムセットマイニング(FIM)は計算量とデータ集約アルゴリズムである。 したがって、並列分散FIMアルゴリズムは、大量のデータを少ない時間で処理するように設計されている。 最近、分散ビッグデータ処理フレームワークであるHadoop MapReduce上で、多くのFIMアルゴリズムが設計されている。 しかし、重いディスクI/Oのため、MapReduceは高度に反復的なFIMアルゴリズムでは非効率であることがわかった。 そのため、より効率的な分散データ処理フレームワークであるSparkは、反復アルゴリズムをサポートするために、インメモリ計算とレジリエントな分散データセット(RDD)機能を備えた。 このフレームワークでは、AprioriとFP-GrowthベースのFIMアルゴリズムがSpark RDDフレームワーク上で設計されているが、Eclatベースのアルゴリズムはまだ検討されていない。 本稿では,Spark RDDフレームワーク上の並列EclatアルゴリズムであるRDD-Eclatについて,その5つの変種を用いて提案する。 提案手法は,様々なベンチマークデータセット上で評価され,rdd-eclatはsparkベースのaprioriよりも何度も優れていた。 また,実験結果から,提案アルゴリズムのスケーラビリティが,データセットのコア数やサイズを増大させることを示す。

Frequent itemset mining (FIM) is a highly computational and data intensive algorithm. Therefore, parallel and distributed FIM algorithms have been designed to process large volume of data in a reduced time. Recently, a number of FIM algorithms have been designed on Hadoop MapReduce, a distributed big data processing framework. But, due to heavy disk I/O, MapReduce is found to be inefficient for the highly iterative FIM algorithms. Therefore, Spark, a more efficient distributed data processing framework, has been developed with in-memory computation and resilient distributed dataset (RDD) features to support the iterative algorithms. On this framework, Apriori and FP-Growth based FIM algorithms have been designed on the Spark RDD framework, but Eclat-based algorithm has not been explored yet. In this paper, RDD-Eclat, a parallel Eclat algorithm on the Spark RDD framework is proposed with its five variants. The proposed algorithms are evaluated on the various benchmark datasets, and the experimental results show that RDD-Eclat outperforms the Spark-based Apriori by many times. Also, the experimental results show the scalability of the proposed algorithms on increasing the number of cores and size of the dataset.
翻訳日:2021-10-26 18:19:56 公開日:2021-10-22
# チャネル獲得とハイブリッドプリコーディングのための2段階エンドツーエンド学習

Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid Precoding ( http://arxiv.org/abs/2110.12059v1 )

ライセンス: Link先を確認
Qiyu Hu, Yunlong Cai, Kai Kang, Guanding Yu, Jakob Hoydis, Yonina C. Eldar(参考訳) 本稿では,deep neural network (dnn) 支援パイロットトレーニング,チャネルフィードバック,ハイブリッドアナログデジタル(had)プリコーディングからなるミリ波多入力多重出力(mimo)システムのための,エンドツーエンドのディープラーニングに基づく統合トランシーバ設計アルゴリズムを提案する。 具体的には、受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発する。 送信遅延に起因する信号処理オーバーヘッドとチャネル状態情報(CSI)ミスマッチを低減するため、長期DNNと短期DNNからなる2時間DNNを開発する。 アナログプリコーダは、CSI統計に基づいて長期DNNによって設計され、複数のタイムスロットからなるフレームで一度更新される。 一方、ディジタルプリコーダは、推定された低次元等価csi行列に基づいて、各タイムスロットにおける短期dnnにより最適化される。 また,二層構造を持つDNNに対して2段階の訓練手法を開発した。 次に,提案したDNNアルゴリズムの一般化能力とシグナリングオーバーヘッドを解析する。 シミュレーションの結果,提案手法は,信号のオーバーヘッドを低減し,パイロットシーケンスの短いビット誤り率性能において,従来の手法よりも大幅に優れていた。

In this paper, we propose an end-to-end deep learning-based joint transceiver design algorithm for millimeter wave (mmWave) massive multiple-input multiple-output (MIMO) systems, which consists of deep neural network (DNN)-aided pilot training, channel feedback, and hybrid analog-digital (HAD) precoding. Specifically, we develop a DNN architecture that maps the received pilots into feedback bits at the receiver, and then further maps the feedback bits into the hybrid precoder at the transmitter. To reduce the signaling overhead and channel state information (CSI) mismatch caused by the transmission delay, a two-timescale DNN composed of a long-term DNN and a short-term DNN is developed. The analog precoders are designed by the long-term DNN based on the CSI statistics and updated once in a frame consisting of a number of time slots. In contrast, the digital precoders are optimized by the short-term DNN at each time slot based on the estimated low-dimensional equivalent CSI matrices. A two-timescale training method is also developed for the proposed DNN with a binary layer. We then analyze the generalization ability and signaling overhead for the proposed DNN based algorithm. Simulation results show that our proposed technique significantly outperforms conventional schemes in terms of bit-error rate performance with reduced signaling overhead and shorter pilot sequences.
翻訳日:2021-10-26 18:19:34 公開日:2021-10-22
# 摂動潜在表現からの逆文字列を用いたマルウェア分類器のロバスト性向上

Improving Robustness of Malware Classifiers using Adversarial Strings Generated from Perturbed Latent Representations ( http://arxiv.org/abs/2110.11987v1 )

ライセンス: Link先を確認
Marek Galovic, Branislav Bosansky, Viliam Lisy(参考訳) マルウェアの行動分析では、アクセスされたファイルのリストは、検査されたファイルが悪意があるかどうかを示すことが多い。 しかし、マルウェアの作者は、ランダムなファイル名を生成したり、新しいバージョンのマルウェアで使用されるファイル名を変更したりすることで、検出を避けようとしている。 これらの変化は現実世界の敵の例を表している。 この研究の目的は、現実的な敵の例を生成し、これらの攻撃に対する分類器の堅牢性を改善することである。 提案手法は教師なし方式で入力文字列の潜時表現を学習し、潜時領域における勾配に基づく逆攻撃法を用いて入力領域における逆攻撃例を生成する。 これらの例を用いて,生成した文字列の逆行集合をトレーニングすることにより,分類器のロバスト性を改善する。 摂動ベクトルでのみ訓練された分類器と比較して, 標準精度に大きなトレードオフを伴わずに, はるかに堅牢な分類器を生成する。

In malware behavioral analysis, the list of accessed and created files very often indicates whether the examined file is malicious or benign. However, malware authors are trying to avoid detection by generating random filenames and/or modifying used filenames with new versions of the malware. These changes represent real-world adversarial examples. The goal of this work is to generate realistic adversarial examples and improve the classifier's robustness against these attacks. Our approach learns latent representations of input strings in an unsupervised fashion and uses gradient-based adversarial attack methods in the latent domain to generate adversarial examples in the input domain. We use these examples to improve the classifier's robustness by training on the generated adversarial set of strings. Compared to classifiers trained only on perturbed latent vectors, our approach produces classifiers that are significantly more robust without a large trade-off in standard accuracy.
翻訳日:2021-10-26 17:39:46 公開日:2021-10-22
# SNS加速器における異常ビームパルス予測のための不確かさ認識異常検出

Uncertainty aware anomaly detection to predict errant beam pulses in the SNS accelerator ( http://arxiv.org/abs/2110.12006v1 )

ライセンス: Link先を確認
Willem Blokland, Pradeep Ramuhalli, Charles Peters, Yigit Yucesan, Alexander Zhukov, Malachi Schram, Kishansingh Rajput, and Torri Jeske(参考訳) 高出力粒子加速器は、技術の最先端で頻繁に動作する何千もの機器を備えた複雑な機械である。 日々の運用を改善し、科学のデリバリを最大化するために、異常検出、分類、予後予測のための新しい分析技術が研究されている。 そこで本研究では,不確実性を認識した機械学習手法であるシームズニューラルネットワークモデルを用いて,単一監視装置のデータを用いた異常ビームパルスの予測を行う。 接近する故障を予測することで、損傷が起こる前に加速器を止めることができる。 本稿では,アクセル操作,関連する機械学習研究,動作維持中にビームを中止するために必要な予測性能,監視装置とそのデータ,シアム法とその結果について述べる。 これらの結果から, 加速操作の改善に本手法を応用できることが示唆された。

High-power particle accelerators are complex machines with thousands of pieces of equipmentthat are frequently running at the cutting edge of technology. In order to improve the day-to-dayoperations and maximize the delivery of the science, new analytical techniques are being exploredfor anomaly detection, classification, and prognostications. As such, we describe the applicationof an uncertainty aware Machine Learning method, the Siamese neural network model, to predictupcoming errant beam pulses using the data from a single monitoring device. By predicting theupcoming failure, we can stop the accelerator before damage occurs. We describe the acceleratoroperation , related Machine Learning research, the prediction performance required to abort beamwhile maintaining operations, the monitoring device and its data, and the Siamese method andits results. These results show that the researched method can be applied to improve acceleratoroperation s.
翻訳日:2021-10-26 17:39:30 公開日:2021-10-22
# クラスタリングアルゴリズムに対する逆攻撃の公平性低下

Fairness Degrading Adversarial Attacks Against Clustering Algorithms ( http://arxiv.org/abs/2110.12020v1 )

ライセンス: Link先を確認
Anshuman Chhabra, Adish Singla, Prasant Mohapatra(参考訳) クラスタリングアルゴリズムは現代のデータサイエンスパイプラインにおいてユビキタスであり、生物学から施設の場所まで様々な分野で利用されている。 特に社会資源配分問題において広く利用されているため、最近の研究はクラスタリングアルゴリズムを公平にすることを目的としており、大きな成功を収めている。 さらに、他の機械学習アルゴリズムと同様、クラスタリングアルゴリズムは、悪意のあるエンティティが学習アルゴリズムのパフォーマンスを反転させようとする敵攻撃の影響を受けやすいことも示されている。 しかし、これらの既知の脆弱性にもかかわらず、クラスタリングに対する敵攻撃の公平性を調査する研究は行われていない。 我々は,centroidベースのクラスタリングアルゴリズムの集団レベルの公平性を悪化させることを目的とした汎用攻撃最適化問題を定式化することで,このギャップを埋めることを目指す。 最初のステップとして、クラスタリングアルゴリズム、フェアネスの概念、入力データセットが敵に知られているホワイトボックス脅威モデルの下で動作するk中間クラスタリングのためのフェアネス劣化攻撃アルゴリズムを提案する。 簡単な攻撃アルゴリズムに対して実験結果と理論的解析を行い, 生成した対数サンプルの追加により, フェアネス値が著しく低下することを発見した。 このようにして、フェアクラスタリングにおける今後の研究の方向性として、敵攻撃の公正性低下を動機づける。

Clustering algorithms are ubiquitous in modern data science pipelines, and are utilized in numerous fields ranging from biology to facility location. Due to their widespread use, especially in societal resource allocation problems, recent research has aimed at making clustering algorithms fair, with great success. Furthermore, it has also been shown that clustering algorithms, much like other machine learning algorithms, are susceptible to adversarial attacks where a malicious entity seeks to subvert the performance of the learning algorithm. However, despite these known vulnerabilities, there has been no research undertaken that investigates fairness degrading adversarial attacks for clustering. We seek to bridge this gap by formulating a generalized attack optimization problem aimed at worsening the group-level fairness of centroid-based clustering algorithms. As a first step, we propose a fairness degrading attack algorithm for k-median clustering that operates under a whitebox threat model -- where the clustering algorithm, fairness notion, and the input dataset are known to the adversary. We provide empirical results as well as theoretical analysis for our simple attack algorithm, and find that the addition of the generated adversarial samples can lead to significantly lower fairness values. In this manner, we aim to motivate fairness degrading adversarial attacks as a direction for future research in fair clustering.
翻訳日:2021-10-26 17:38:23 公開日:2021-10-22
# ノード不均衡分類における距離ワイドプロトタイプグラフニューラルネットワーク

Distance-wise Prototypical Graph Neural Network in Node Imbalance Classification ( http://arxiv.org/abs/2110.12035v1 )

ライセンス: Link先を確認
Yu Wang, Charu Aggarwal, Tyler Derr(参考訳) 近年、グラフニューラルネットワーク(GNN)を分類のための効果的なノード表現の学習に応用することに成功した。 しかし、現在のgnnは主にバランスのとれたデータ分割の下で構築されており、トレーニングノード数がクラス間で非常に不均衡になる多くの実世界のネットワークと矛盾している。 したがって、現在のGNNを直接不均衡なデータに利用することで、少数クラスのノードの粗い表現を生成し、最終的に分類性能を損なうことになる。 これにより、不均衡なグラフデータの処理に有効なGNNを開発することが重要である。 本研究では,多人数クラスとマイノリティクラス間のトレーニング損失のバランスをとるためのクラスプロトタイプ駆動トレーニングを提案し,その上で距離メトリック学習を活用して表現の異なる次元のコントリビューションを識別し,各ノードの相対位置を各クラスプロトタイプに完全にエンコードする,分散型プロトタイプグラフニューラルネットワーク(DPGNN)を提案する。 さらに,ラベルのないノードから余分な監視を導出し,クラス間プロトタイプを分離しながら隣接ノードの円滑な表現に自己教師あり学習を用いる,新しい不均衡ラベル伝播機構の設計を行った。 複数のネットワーク上での包括的ノード分類実験とパラメータ解析を行い,提案するdpgnnは,他の全てのベースラインをほぼ常に上回っており,不均衡ノード分類の有効性を示す。 DPGNNの実装は \url{https://github.com/Y uWVandy/DPGNN} で公開されている。

Recent years have witnessed the significant success of applying graph neural networks (GNNs) in learning effective node representations for classification. However, current GNNs are mostly built under the balanced data-splitting, which is inconsistent with many real-world networks where the number of training nodes can be extremely imbalanced among the classes. Thus, directly utilizing current GNNs on imbalanced data would generate coarse representations of nodes in minority classes and ultimately compromise the classification performance. This therefore portends the importance of developing effective GNNs for handling imbalanced graph data. In this work, we propose a novel Distance-wise Prototypical Graph Neural Network (DPGNN), which proposes a class prototype-driven training to balance the training loss between majority and minority classes and then leverages distance metric learning to differentiate the contributions of different dimensions of representations and fully encode the relative position of each node to each class prototype. Moreover, we design a new imbalanced label propagation mechanism to derive extra supervision from unlabeled nodes and employ self-supervised learning to smooth representations of adjacent nodes while separating inter-class prototypes. Comprehensive node classification experiments and parameter analysis on multiple networks are conducted and the proposed DPGNN almost always significantly outperforms all other baselines, which demonstrates its effectiveness in imbalanced node classification. The implementation of DPGNN is available at \url{https://github.com/Y uWVandy/DPGNN}.
翻訳日:2021-10-26 17:38:04 公開日:2021-10-22
# 医用知識グラフ上のグラフ埋め込みを用いた薬物類似性とリンク予測

Drug Similarity and Link Prediction Using Graph Embeddings on Medical Knowledge Graphs ( http://arxiv.org/abs/2110.13047v1 )

ライセンス: Link先を確認
Prakhar Gurawa and Matthias Nickles(参考訳) 本稿では,大規模バイオメディカルデータベースのエンティティに生成されたグラフ埋め込みを用いてリンク予測を行い,異なるエンティティ間の様々な新しい関係を捉える。 グラフ埋め込みとリンク予測スコアを利用して、医療専門家が元の薬物の副作用を避けるために代替薬を推奨できる様々な薬物の類似度スコアを求める新しいノード類似度尺度が提案されている。 ナレッジグラフ上の機械学習を利用して薬物の類似性と推奨を行うことは、コストのかかる医療機器や専門家に依存することによる従来の生体医学的手法に比べて、コストとスケーラビリティの面での時間の消費が少なくなる。

The paper utilizes the graph embeddings generated for entities of a large biomedical database to perform link prediction to capture various new relationships among different entities. A novel node similarity measure is proposed that utilizes the graph embeddings and link prediction scores to find similarity scores among various drugs which can be used by the medical experts to recommend alternative drugs to avoid side effects from original one. Utilizing machine learning on knowledge graph for drug similarity and recommendation will be less costly and less time consuming with higher scalability as compare to traditional biomedical methods due to the dependency on costly medical equipment and experts by the later ones.
翻訳日:2021-10-26 17:18:52 公開日:2021-10-22
# PhotoWCT$^2$:高周波数残差のブロックワイドトレーニングとスキップ接続によるフォトリアリスティックスタイル転送のためのコンパクトオートエンコーダ

PhotoWCT$^2$: Compact Autoencoder for Photorealistic Style Transfer Resulting from Blockwise Training and Skip Connections of High-Frequency Residuals ( http://arxiv.org/abs/2110.11995v1 )

ライセンス: Link先を確認
Tai-Yin Chiu, Danna Gurari(参考訳) photorealistic style transfer(フォトリアリスティックスタイル転送)は、画像を他の画像のスタイルにマッチさせるように修正し、その結果を本物の写真のように見せることを目的とした画像編集タスクである。 既存のモデルの制限は、多くのパラメータを持つため、画像の解像度が大きくなるのを防ぎ、実行時間が遅くなることである。 photowct$^2$と呼ばれるよりコンパクトなモデルの設計を可能にする2つのメカニズムを導入し、最先端のスタイライゼーションとフォトリアリズムを保ちます。 まず,PhotoWCTで使用する4つのオートエンコーダの非効率カスケードに代えて,単一のオートエンコーダにおける最先端のスタイル化強度を実現するために,粗大な特徴変換を行うブロックワイズトレーニングを導入する。 第2に,連続的な粗視から細かな特徴変換を適用する場合の画質を維持するため,高周波残差のスキップ接続を導入する。 photowct$^2$モデルは、より解像度の高い画像(例えば4k)をサポートし、既存のモデルよりも高速なスタイライゼーションを実現しながら、より少ないパラメータ(例えば、30.3\%以下)を必要とする。

Photorealistic style transfer is an image editing task with the goal to modify an image to match the style of another image while ensuring the result looks like a real photograph. A limitation of existing models is that they have many parameters, which in turn prevents their use for larger image resolutions and leads to slower run-times. We introduce two mechanisms that enable our design of a more compact model that we call PhotoWCT$^2$, which preserves state-of-art stylization strength and photorealism. First, we introduce blockwise training to perform coarse-to-fine feature transformations that enable state-of-art stylization strength in a single autoencoder in place of the inefficient cascade of four autoencoders used in PhotoWCT. Second, we introduce skip connections of high-frequency residuals in order to preserve image quality when applying the sequential coarse-to-fine feature transformations. Our PhotoWCT$^2$ model requires fewer parameters (e.g., 30.3\% fewer) while supporting higher resolution images (e.g., 4K) and achieving faster stylization than existing models.
翻訳日:2021-10-26 17:16:16 公開日:2021-10-22
# 漏洩摂動を用いた容器画像の半教師付き意味セグメンテーション

Semi-Supervised Semantic Segmentation of Vessel Images using Leaking Perturbations ( http://arxiv.org/abs/2110.11998v1 )

ライセンス: Link先を確認
Jinyong Hou, Xuejie Ding, Jeremiah D. Deng(参考訳) 深層学習法に基づく意味セグメンテーションは、大量の注釈付きサンプルから魅力的な精度を得ることができる。 しかし、限られたラベル付きデータしか利用できない場合、特に医用画像では、これは難しい課題である。 本稿では,網膜血管セマンティックセグメンテーションのためのGANに基づく半教師付きアーキテクチャであるLeaking GANを提案する。 私たちの重要なアイデアは、ジェネレータから情報を漏らして判別器を汚染することです。 これにより、より穏健な世代がGANのトレーニングに役立ちます。 その結果, 判別器の学習を促進するために, 非競合例をより有効に利用でき, 結果として分類性能が向上する。 また、医用画像のバリエーションを克服するために、平均教師機構を判別器の補助正規化として利用する。 さらに、平均教師正規化器の整合性目的として焦点損失を変更する。 大規模な実験により、Leaking GANフレームワークは、DRIVE、STARE、CHASE\_DB1などのベンチマークデータセットで、半教師付き設定で最大8つのラベル付きイメージを使用して評価した場合、最先端の手法と比較して、競争力を発揮することが示された。 また、クロスドメインセグメンテーションタスクで既存のアルゴリズムを上回る。

Semantic segmentation based on deep learning methods can attain appealing accuracy provided large amounts of annotated samples. However, it remains a challenging task when only limited labelled data are available, which is especially common in medical imaging. In this paper, we propose to use Leaking GAN, a GAN-based semi-supervised architecture for retina vessel semantic segmentation. Our key idea is to pollute the discriminator by leaking information from the generator. This leads to more moderate generations that benefit the training of GAN. As a result, the unlabelled examples can be better utilized to boost the learning of the discriminator, which eventually leads to stronger classification performance. In addition, to overcome the variations in medical images, the mean-teacher mechanism is utilized as an auxiliary regularization of the discriminator. Further, we modify the focal loss to fit it as the consistency objective for mean-teacher regularizer. Extensive experiments demonstrate that the Leaking GAN framework achieves competitive performance compared to the state-of-the-art methods when evaluated on benchmark datasets including DRIVE, STARE and CHASE\_DB1, using as few as 8 labelled images in the semi-supervised setting. It also outperforms existing algorithms on cross-domain segmentation tasks.
翻訳日:2021-10-26 17:15:55 公開日:2021-10-22
# 古いGPUハードウェアにおける非レイトグローバル照明のための生成逆ネットワーク

Generative Adversarial Networks for Non-Raytraced Global Illumination on Older GPU Hardware ( http://arxiv.org/abs/2110.12039v1 )

ライセンス: Link先を確認
Jared Harris-Dewey, Richard Klein(参考訳) 本稿では,異なるレンダリング手法の概要を述べるとともに,GAN(Generative Adversarial Networks)をグローバルイルミネーション(Global Illumination, GI)に適用することにより,ラスタライズ画像よりも優れた画質のレンダリング画像が得られることを示す。 我々はpix2pixアーキテクチャを利用し、入力特徴のセットから光線追跡画像を模倣するために使用されるハイパーパラメータと方法論を指定する。 また,gans品質は光線追跡画像の品質に匹敵するものの,短時間で画像を生成することが可能であることを実証した。

We give an overview of the different rendering methods and we demonstrate that the use of a Generative Adversarial Networks (GAN) for Global Illumination (GI) gives a superior quality rendered image to that of a rasterisations image. We utilise the Pix2Pix architecture and specify the hyper-parameters and methodology used to mimic ray-traced images from a set of input features. We also demonstrate that the GANs quality is comparable to the quality of the ray-traced images, but is able to produce the image, at a fraction of the time.
翻訳日:2021-10-26 17:15:31 公開日:2021-10-22
# 画質評価を用いた手画像のスプーフィング検出

Spoofing Detection on Hand Images Using Quality Assessment ( http://arxiv.org/abs/2110.12923v1 )

ライセンス: Link先を確認
Asish Bera, Ratnadeep Dey, Debotosh Bhattacharjee, Mita Nasipuri, and Hubert P. H. Shum(参考訳) バイオメトリックスに関する最近の研究は、高い認証成功率を達成し、様々なスプーフィング攻撃の懸念に対処することに焦点を当てている。 ハンドジオメトリ認識は不正アクセスに対して十分なセキュリティを提供するが、プレゼンテーション攻撃の影響を受けやすい。 本稿では,ハンドバイオメトリックスに対するアンチスプーフィング法を提案する。 実画像と偽画像の視覚品質を評価することにより、提示攻撃検出アプローチに取り組む。 実ハンドサンプルとスプーフハンドサンプルを判別するために,閾値に基づく勾配等級類似度指標を提案する。 ボガジッチ大学ハンドデータベースから得られた255名の被験者の視覚イメージを原型とする。 実際のサンプルから,キヤノンのEOS 700Dカメラを用いて偽造画像を取得する。 このような自然な劣化を伴う偽の手画像は、スプーフィング攻撃検出に基づく電子画面表示において考慮される。 さらに、原画像にガウスのぼかし、塩と唐辛子、スペックルノイズを追加することで、人工的な劣化を伴う別の偽手データセットを作成する。 原画像と偽手画像の分類のために,各サンプルから10種類の品質指標を測定した。 分類実験は、k-nearest近傍、ランダムフォレスト、サポートベクターマシン分類器、ディープ畳み込みニューラルネットワークを用いて行われる。 提案した勾配類似度に基づく品質指標は,k-アネレスト近傍とランダム森林分類器を用いて平均分類率1.5%を達成する。 mobilenetv2 deep networkによるベースライン評価を用いて平均2.5%の分類誤差を求め、オリジナルと異なる種類の偽の手のサンプルを識別する。

Recent research on biometrics focuses on achieving a high success rate of authentication and addressing the concern of various spoofing attacks. Although hand geometry recognition provides adequate security over unauthorized access, it is susceptible to presentation attack. This paper presents an anti-spoofing method toward hand biometrics. A presentation attack detection approach is addressed by assessing the visual quality of genuine and fake hand images. A threshold-based gradient magnitude similarity quality metric is proposed to discriminate between the real and spoofed hand samples. The visual hand images of 255 subjects from the Bogazici University hand database are considered as original samples. Correspondingly, from each genuine sample, we acquire a forged image using a Canon EOS 700D camera. Such fake hand images with natural degradation are considered for electronic screen display based spoofing attack detection. Furthermore, we create another fake hand dataset with artificial degradation by introducing additional Gaussian blur, salt and pepper, and speckle noises to original images. Ten quality metrics are measured from each sample for classification between original and fake hand image. The classification experiments are performed using the k-nearest neighbors, random forest, and support vector machine classifiers, as well as deep convolutional neural networks. The proposed gradient similarity-based quality metric achieves 1.5% average classification er ror using the k-nearest neighbors and random forest classifiers. An average classification error of 2.5% is obtained using the baseline evaluation with the MobileNetV2 deep network for discriminating original and different types of fake hand samples.
翻訳日:2021-10-26 16:39:23 公開日:2021-10-22
# 潜在変数と選択バイアスの存在下での帰納的因果構造学習

Recursive Causal Structure Learning in the Presence of Latent Variables and Selection Bias ( http://arxiv.org/abs/2110.12036v1 )

ライセンス: Link先を確認
Sina Akbari, Ehsan Mokhtarian, AmirEmad Ghassami, Negar Kiyavash(参考訳) 本稿では,潜伏変数と選択バイアスの存在下での観測データからシステムの因果MAGを学習する問題を考察する。 制約に基づく手法はこの問題を解決する主要な手法の1つであるが、既存の手法は大きなグラフを扱う場合や完全性保証の欠如において計算的に非現実的である。 本稿では,新しい計算効率の高い再帰的制約ベース手法を提案する。 このアプローチのキーとなる考え方は、各イテレーションで特定のタイプの変数が識別され、削除されます。 これにより、要求条件独立性テスト(CI)の数と条件セットのサイズの両方を削減できるため、構造を効率的かつ再帰的に学習することができる。 前者は計算複雑性を大幅に減らし、後者はより信頼性の高いCIテストをもたらす。 最悪の場合に必要なciテストの数を上限として提供します。 私たちの知る限りでは、これは文学で最も厳密な境界である。 さらに,制約ベースのメソッドで要求されるciテスト数について,より低いバウンダリを提供する。 提案手法の上限値と下限値の上限値は,最悪の場合の変数数に等しい因子によって大きく異なる。 提案手法を合成と実世界の両方の構造における最先端技術と比較する実験結果を提供する。

We consider the problem of learning the causal MAG of a system from observational data in the presence of latent variables and selection bias. Constraint-based methods are one of the main approaches for solving this problem, but the existing methods are either computationally impractical when dealing with large graphs or lacking completeness guarantees. We propose a novel computationally efficient recursive constraint-based method that is sound and complete. The key idea of our approach is that at each iteration a specific type of variable is identified and removed. This allows us to learn the structure efficiently and recursively, as this technique reduces both the number of required conditional independence (CI) tests and the size of the conditioning sets. The former substantially reduces the computational complexity, while the latter results in more reliable CI tests. We provide an upper bound on the number of required CI tests in the worst case. To the best of our knowledge, this is the tightest bound in the literature. We further provide a lower bound on the number of CI tests required by any constraint-based method. The upper bound of our proposed approach and the lower bound at most differ by a factor equal to the number of variables in the worst case. We provide experimental results to compare the proposed approach with the state of the art on both synthetic and real-world structures.
翻訳日:2021-10-26 16:35:57 公開日:2021-10-22
# 制御変数の文脈特異的独立関係を用いた因果効果同定

Causal Effect Identification with Context-specific Independence Relations of Control Variables ( http://arxiv.org/abs/2110.12064v1 )

ライセンス: Link先を確認
Ehsan Mokhtarian, Fateme Jamshidi, Jalal Etesami, Negar Kiyavash(参考訳) 因果グラフといくつかの文脈特異的独立性(csi)関係を考慮した観測分布からの因果効果同定の問題について検討した。 この問題はNPハードであることが最近示され、Tika et al. (2019) では因果効果を学習する音響アルゴリズムが提案されているが、タスクの完全なアルゴリズムは存在しない。 本研究では、csi関係が因果グラフに親がいない観測ノードに制限される場合の、音質と完全性を考慮したアルゴリズムを提案する。 適用性の観点からの最先端の制限の一つは、すべての変数間のCSI関係が(学習とは対照的に)与えられる必要があることである。 代わりに, csi関係を単なる観測分布から学習できる一連のグラフィカル制約を導入する。 これにより、芸術の状態を超越した特定可能な因果効果のセットが拡張される。

We study the problem of causal effect identification from observational distribution given the causal graph and some context-specific independence (CSI) relations. It was recently shown that this problem is NP-hard, and while a sound algorithm to learn the causal effects is proposed in Tikka et al. (2019), no complete algorithm for the task exists. In this work, we propose a sound and complete algorithm for the setting when the CSI relations are limited to observed nodes with no parents in the causal graph. One limitation of the state of the art in terms of its applicability is that the CSI relations among all variables, even unobserved ones, must be given (as opposed to learned). Instead, We introduce a set of graphical constraints under which the CSI relations can be learned from mere observational distribution. This expands the set of identifiable causal effects beyond the state of the art.
翻訳日:2021-10-26 16:35:39 公開日:2021-10-22
# 知識蒸留における対人ロバスト性伝達の方法と時期

How and When Adversarial Robustness Transfers in Knowledge Distillation? ( http://arxiv.org/abs/2110.12072v1 )

ライセンス: Link先を確認
Rulin Shao, Jinfeng Yi, Pin-Yu Chen, Cho-Jui Hsieh(参考訳) 知識蒸留(KD)は、資源制約された深層学習における圧縮をモデル化するために、教師学生の訓練に広く用いられている。 現在の研究は主に教師モデルの精度を維持することに焦点を当てている。 しかし、他の重要なモデル特性、例えば対向ロバスト性は蒸留中に失われる。 本稿では,KDにおける教師モデルから生徒モデルへの対向的ロバスト性の移行について検討する。 我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。 特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成できることを示す。 我々のKD実験は、残差ニューラルネットワーク(ResNet)やビジョントランスフォーマー(ViT)を含む、ImageNetおよびCIFAR-10データセットで評価された様々なネットワークアーキテクチャとサイズを持つ教師と学生の多様なモデルを含む。 Our comprehensive analysis shows several novel insights that (1) With KDIGA, students can preserve or even exceed the adversarial robustness of the teacher model, even when their models have fundamentally different architectures; (2) KDIGA enables robustness to transfer to pre-trained students, such as KD from an adversarially trained ResNet to a pre-trained ViT, without loss of clean accuracy; and (3) Our derived local linearity bounds for characterizing adversarial robustness in KD are consistent with the empirical results.

Knowledge distillation (KD) has been widely used in teacher-student training, with applications to model compression in resource-constrained deep learning. Current works mainly focus on preserving the accuracy of the teacher model. However, other important model properties, such as adversarial robustness, can be lost during distillation. This paper studies how and when the adversarial robustness can be transferred from a teacher model to a student model in KD. We show that standard KD training fails to preserve adversarial robustness, and we propose KD with input gradient alignment (KDIGA) for remedy. Under certain assumptions, we prove that the student model using our proposed KDIGA can achieve at least the same certified robustness as the teacher model. Our experiments of KD contain a diverse set of teacher and student models with varying network architectures and sizes evaluated on ImageNet and CIFAR-10 datasets, including residual neural networks (ResNets) and vision transformers (ViTs). Our comprehensive analysis shows several novel insights that (1) With KDIGA, students can preserve or even exceed the adversarial robustness of the teacher model, even when their models have fundamentally different architectures; (2) KDIGA enables robustness to transfer to pre-trained students, such as KD from an adversarially trained ResNet to a pre-trained ViT, without loss of clean accuracy; and (3) Our derived local linearity bounds for characterizing adversarial robustness in KD are consistent with the empirical results.
翻訳日:2021-10-26 16:35:24 公開日:2021-10-22
# 異常検出における生成的対向ネットワークの応用:体系的文献レビュー

Applications of Generative Adversarial Networks in Anomaly Detection: A Systematic Literature Review ( http://arxiv.org/abs/2110.12076v1 )

ライセンス: Link先を確認
Mikael Sabuhi, Ming Zhou, Cor-Paul Bezemer, Petr Musilek(参考訳) 異常検出は、不正取引の検出から悪性脳腫瘍まで幅広い応用に適用される現代社会にとって欠かせないツールとなっている。 時間とともに、多くの異常検出技術が導入された。 しかし、一般的には、それらはすべて同じ問題、つまり異常な振る舞いを表すデータの欠如に悩まされる。 異常な振る舞いは通常、システムにとってコストがかかる(あるいは危険な)ため、そのような振る舞いを表す十分なデータを集めるのは難しい。 これにより、異常検出技術の開発と評価が困難になる。 近年、GAN(Generative Adversarial Network)は、新しいデータを生成するユニークな能力のため、異常検出研究において大きな注目を集めている。 本稿では, 異常検出におけるGANの応用に関する系統的な文献レビューを行い, 128論文について報告する。 本研究の目的は,(1)特定の種類のGANから異常検出技術が有用であるか,(2)アプリケーションドメインのGAN支援異常検出技術が適用されているか,(3)これらの手法を評価するためにデータセットと性能指標が使用されているか,などを分析することである。 我々の研究は、研究者や実践者が最も適したGAN支援異常検出技術を見つけるのに役立ちます。 また,この分野における今後の研究のロードマップについて述べる。

Anomaly detection has become an indispensable tool for modern society, applied in a wide range of applications, from detecting fraudulent transactions to malignant brain tumours. Over time, many anomaly detection techniques have been introduced. However, in general, they all suffer from the same problem: a lack of data that represents anomalous behaviour. As anomalous behaviour is usually costly (or dangerous) for a system, it is difficult to gather enough data that represents such behaviour. This, in turn, makes it difficult to develop and evaluate anomaly detection techniques. Recently, generative adversarial networks (GANs) have attracted a great deal of attention in anomaly detection research, due to their unique ability to generate new data. In this paper, we present a systematic literature review of the applications of GANs in anomaly detection, covering 128 papers on the subject. The goal of this review paper is to analyze and summarize: (1) which anomaly detection techniques can benefit from certain types of GANs, and how, (2) in which application domains GAN-assisted anomaly detection techniques have been applied, and (3) which datasets and performance metrics have been used to evaluate these techniques. Our study helps researchers and practitioners to find the most suitable GAN-assisted anomaly detection technique for their application. In addition, we present a research roadmap for future studies in this area.
翻訳日:2021-10-26 16:34:57 公開日:2021-10-22
# cd&sデータセット:トウモロコシ病の同定と重症度推定のためのフィールド条件下で取得したハンドヘルド画像データセット

CD&S Dataset: Handheld Imagery Dataset Acquired Under Field Conditions for Corn Disease Identification and Severity Estimation ( http://arxiv.org/abs/2110.12084v1 )

ライセンス: Link先を確認
Aanis Ahmad, Dharmendra Saraswat, Aly El Gamal, and Gurmukh Johal(参考訳) 正確な病原性同定とその重症度推定は、疾患管理にとって重要な考察である。 画像データセットを用いたディープラーニングベースの疾病管理ソリューションは、研究コミュニティによってますます探究されている。 しかし、ほとんどの報告された研究は、制御された実験室条件下で取得された画像データセットに依存している。 その結果、このようなモデルは現場の病気を識別する能力に欠けていた。 そこで,フィールド利用のための頑健なディープラーニングモデルをトレーニングするために,手持ちセンサと背景の異なる拡張画像を用いて,フィールド条件下で取得した生画像を用いて画像データセットを作成した。 トウモロコシ病と重症度 (cd&s) データセットは511, 524, 562であり, 未熟なトウモロコシ病 (nlb), グレーリーフスポット (gls), ノーザンリーフスポット (nls) に対応する。 疾患識別モデルのトレーニングでは,各疾患の画像データの半分を境界ボックスを用いて注釈付けし,さらに3つの異なる背景を用いて2343個の追加画像を生成する。 重症度推定のために, NLS用515個の原画像を取得し, 1(耐性)から5(感受性)までの重度クラスに分類した。 CD&Sデータセットは、2112のフィールド画像と2343のAR画像からなる4455の合計画像で構成された。

Accurate disease identification and its severity estimation is an important consideration for disease management. Deep learning-based solutions for disease management using imagery datasets are being increasingly explored by the research community. However, most reported studies have relied on imagery datasets that were acquired under controlled lab conditions. As a result, such models lacked the ability to identify diseases in the field. Therefore, to train a robust deep learning model for field use, an imagery dataset was created using raw images acquired under field conditions using a handheld sensor and augmented images with varying backgrounds. The Corn Disease and Severity (CD&S) dataset consisted of 511, 524, and 562, field acquired raw images, corresponding to three common foliar corn diseases, namely Northern Leaf Blight (NLB), Gray Leaf Spot (GLS), and Northern Leaf Spot (NLS), respectively. For training disease identification models, half of the imagery data for each disease was annotated using bounding boxes and also used to generate 2343 additional images through augmentation using three different backgrounds. For severity estimation, an additional 515 raw images for NLS were acquired and categorized into severity classes ranging from 1 (resistant) to 5 (susceptible). Overall, the CD&S dataset consisted of 4455 total images comprising of 2112 field images and 2343 augmented images.
翻訳日:2021-10-26 15:41:17 公開日:2021-10-22
# 欠落データ計算の公正性

Fairness in Missing Data Imputation ( http://arxiv.org/abs/2110.12002v1 )

ライセンス: Link先を確認
Yiliang Zhang, Qi Long(参考訳) 欠落したデータはビッグデータの時代はユビキタスであり、不適切に処理された場合、偏見のある発見につながることが知られ、データ駆動意思決定に有害な影響を及ぼす。 影響を軽減するために、多くの値計算方法が開発されている。 しかし、これらの計算手法がセンシティブなグループにまたがる公平性は研究されていない。 本稿では,データインプテーションの公正性に関する最初の既知の研究を行う。 一般に使用される3つのデータセットにおけるインプテーション法の性能を調べることにより,価値の欠落インプテーションの不公平性が広く存在し,複数の要因に関連付けられることを実証する。 以上の結果から,データインプテーションの欠如に伴う不公平さを緩和する上で,関連因子の慎重な調査が有用であることが示唆された。

Missing data are ubiquitous in the era of big data and, if inadequately handled, are known to lead to biased findings and have deleterious impact on data-driven decision makings. To mitigate its impact, many missing value imputation methods have been developed. However, the fairness of these imputation methods across sensitive groups has not been studied. In this paper, we conduct the first known research on fairness of missing data imputation. By studying the performance of imputation methods in three commonly used datasets, we demonstrate that unfairness of missing value imputation widely exists and may be associated with multiple factors. Our results suggest that, in practice, a careful investigation of related factors can provide valuable insights on mitigating unfairness associated with missing data imputation.
翻訳日:2021-10-26 15:14:50 公開日:2021-10-22
# PPSGCN: プライバシ保護サブグラフサンプリングに基づく分散GCNトレーニング手法

PPSGCN: A Privacy-Preserving Subgraph Sampling Based Distributed GCN Training Method ( http://arxiv.org/abs/2110.12906v1 )

ライセンス: Link先を確認
Binchi Zhang, Minnan Luo, Shangbin Feng, Ziqi Liu, Jun Zhou, Qinghua Zheng(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ表現学習に広く採用されており、優れた性能を実現している。 異なるクライアントに個別に格納される大きなグラフに対して、効率とスケーラビリティを改善するために分散GCNトレーニングアルゴリズムが提案された。 しかし、既存のメソッドは異なるクライアント間でノード機能を直接交換するので、データのプライバシリークが発生する。 フェデレーション学習は、データプライバシに取り組むためにグラフ学習に取り入れられたが、非iidデータ分散によるパフォーマンス低下に苦しんだ。 さらに、これらのアプローチは一般的に、トレーニングプロセス中に大量の通信とメモリオーバーヘッドを伴います。 これらの問題を考慮し,プライバシ保護サブグラフサンプリングに基づく分散GCNトレーニング手法(PPSGCN)を提案する。 具体的には、PSGCNはスタートポロジークライアントサーバシステムを採用している。 まず、各クライアントのローカルノードサブセットをサンプリングし、グローバルサブグラフを作成し、通信とメモリコストを大幅に削減する。 次に、サンプルノードの機能や勾配で各クライアント上でローカル計算を行います。 最後に、すべてのクライアントは、データプライバシを保持しながら、ローカル結果を組み合わせるために、同型暗号化で中央サーバとセキュアに通信する。 フェデレーショングラフ学習法と比較すると,ppsgcnモデルは局所データ分布の負の影響を避けるために,グローバルグラフ上でトレーニングされる。 我々は PPSGCN アルゴリズムが確率 1 の局所最適値に収束することを証明した。 3つのベンチマーク実験の結果,提案アルゴリズムは良好な性能を維持しつつ,通信とメモリオーバーヘッドを大幅に低減することが示された。 さらなる研究はPSGCNの高速収束を実証するだけでなく、通信と局所計算コストのトレードオフについても論じている。

Graph convolutional networks (GCNs) have been widely adopted for graph representation learning and achieved impressive performance. For larger graphs stored separately on different clients, distributed GCN training algorithms were proposed to improve efficiency and scalability. However, existing methods directly exchange node features between different clients, which results in data privacy leakage. Federated learning was incorporated in graph learning to tackle data privacy, while they suffer from severe performance drop due to non-iid data distribution. Besides, these approaches generally involve heavy communication and memory overhead during the training process. In light of these problems, we propose a Privacy-Preserving Subgraph sampling based distributed GCN training method (PPSGCN), which preserves data privacy and significantly cuts back on communication and memory overhead. Specifically, PPSGCN employs a star-topology client-server system. We firstly sample a local node subset in each client to form a global subgraph, which greatly reduces communication and memory costs. We then conduct local computation on each client with features or gradients of the sampled nodes. Finally, all clients securely communicate with the central server with homomorphic encryption to combine local results while preserving data privacy. Compared with federated graph learning methods, our PPSGCN model is trained on a global graph to avoid the negative impact of local data distribution. We prove that our PPSGCN algorithm would converge to a local optimum with probability 1. Experiment results on three prevalent benchmarks demonstrate that our algorithm significantly reduces communication and memory overhead while maintaining desirable performance. Further studies not only demonstrate the fast convergence of PPSGCN, but discuss the trade-off between communication and local computation cost as well.
翻訳日:2021-10-26 15:12:17 公開日:2021-10-22
# 不均一・サブ指数雑音による低域行列補完の不確かさの定量化

Uncertainty Quantification For Low-Rank Matrix Completion With Heterogeneous and Sub-Exponential Noise ( http://arxiv.org/abs/2110.12046v1 )

ライセンス: Link先を確認
Vivek F. Farias, Andrew A. Li, Tianyi Peng(参考訳) ヘテロジニアスおよびサブエクソンシャル(同質およびガウス的)ノイズによる低ランク行列完備化の問題は、現代商業における多くの応用に特に関係している。 例えばパネル販売データやレコメンデーションエンジンなどのwebコマースシステムから収集されたデータなどだ。 この問題に対する重要な未解決の問題は、一般的な低ランク推定器における推定行列成分の分布を特徴づけることである。 このようなキャラクタリゼーションは、これらの推定の不確かさの定量化を必要とするあらゆる応用に必須であり、ホモ固有ガウス雑音の仮定下でのみ利用可能である。 ここでは,観測ノイズが不均質な部分指数である場合に推定行列エントリの分布を特徴付け,観測エントリがポアソン分布または二元分布である場合に,この分布を明示的に定式化する。

The problem of low-rank matrix completion with heterogeneous and sub-exponential (as opposed to homogeneous and Gaussian) noise is particularly relevant to a number of applications in modern commerce. Examples include panel sales data and data collected from web-commerce systems such as recommendation engines. An important unresolved question for this problem is characterizing the distribution of estimated matrix entries under common low-rank estimators. Such a characterization is essential to any application that requires quantification of uncertainty in these estimates and has heretofore only been available under the assumption of homogenous Gaussian noise. Here we characterize the distribution of estimated matrix entries when the observation noise is heterogeneous sub-exponential and provide, as an application, explicit formulas for this distribution when observed entries are Poisson or Binary distributed.
翻訳日:2021-10-26 14:45:25 公開日:2021-10-22
# 因果的損失: 因果的因果関係の促進

The Causal Loss: Driving Correlation to Imply Causation ( http://arxiv.org/abs/2110.12066v1 )

ライセンス: Link先を確認
Moritz Willig and Matej Ze\v{c}evi\'c and Devendra Singh Dhami and Kristian Kersting(参考訳) 古典的および現代機械学習のほとんどのアルゴリズムは、パフォーマンスを駆動する特徴間の相関に基づく依存に焦点を当てている。 多くの関連する問題で成功が観測されているが、これらのアルゴリズムは、基礎となる因果関係が仮定された関係と矛盾する場合に失敗する。 本稿では,ニューラル因果正則化器を用いて予測の介入品質を向上させる,因果損失と呼ばれる新しいモデル依存損失関数を提案する。 実験の結果から,介入的能力を持つ非因果的連想モデル(標準ニューラルネットや決定木など)を因果的損失が与える効果が示唆された。

Most algorithms in classical and contemporary machine learning focus on correlation-based dependence between features to drive performance. Although success has been observed in many relevant problems, these algorithms fail when the underlying causality is inconsistent with the assumed relations. We propose a novel model-agnostic loss function called Causal Loss that improves the interventional quality of the prediction using an intervened neural-causal regularizer. In support of our theoretical results, our experimental illustration shows how causal loss bestows a non-causal associative model (like a standard neural net or decision tree) with interventional capabilities.
翻訳日:2021-10-26 14:45:10 公開日:2021-10-22
# ミニパッチ学習による巨大データのガウス図形モデル選択

Gaussian Graphical Model Selection for Huge Data via Minipatch Learning ( http://arxiv.org/abs/2110.12067v1 )

ライセンス: Link先を確認
Tianyi Yao and Minjie Wang and Genevera I. Allen(参考訳) ガウス図形モデルはノードの集合間の条件依存関係を推定するための教師なし学習手法である。 グラフィカルモデル選択は多くの一般的なテクニックでよく研究されている問題であるが、一般的には3つの重要な課題がある。 一 既存の方法の多くは、数万のノードを持つ巨大なデータ設定で計算に難航する。 二 分離データ駆動チューニングハイパーパラメータ選択手順の必要性は、計算上の負担を大幅に増加させる。 三 グラフ構造の次元及び/又は複雑さが増大するにつれて、選択したエッジの統計的精度が劣化することがしばしばある。 本稿では,MPGraph (Minipatch Graph) 推定器を提案する。 提案手法は,潜在変数のグラフィカルモデル問題から得られた知見に基づいて,観測とノードの両方の小さなランダムな部分集合に適合する閾値付きグラフ推定器のアンサンブルを利用する。 推定は小さな問題に当てはまるため、我々の手法は安定度に基づくハイパーパラメータチューニングの統合で計算的に高速である。 さらに,ある条件下では,MPGraphアルゴリズムは有限サンプルグラフ選択の一貫性を実現する。 我々は、BigQUICアルゴリズムを含むガウスのグラフィカルモデル選択に対する最先端の計算手法に対するアプローチを比較し、我々のアプローチがより正確であるだけでなく、巨大なグラフ選択問題に対して広範囲に高速であることを示す。

Gaussian graphical models are essential unsupervised learning techniques to estimate conditional dependence relationships between sets of nodes. While graphical model selection is a well-studied problem with many popular techniques, there are typically three key practical challenges: i) many existing methods become computationally intractable in huge-data settings with tens of thousands of nodes; ii) the need for separate data-driven tuning hyperparameter selection procedures considerably adds to the computational burden; iii) the statistical accuracy of selected edges often deteriorates as the dimension and/or the complexity of the underlying graph structures increase. We tackle these problems by proposing the Minipatch Graph (MPGraph) estimator. Our approach builds upon insights from the latent variable graphical model problem and utilizes ensembles of thresholded graph estimators fit to tiny, random subsets of both the observations and the nodes, termed minipatches. As estimates are fit on small problems, our approach is computationally fast with integrated stability-based hyperparameter tuning. Additionally, we prove that under certain conditions our MPGraph algorithm achieves finite-sample graph selection consistency. We compare our approach to state-of-the-art computational approaches to Gaussian graphical model selection including the BigQUIC algorithm, and empirically demonstrate that our approach is not only more accurate but also extensively faster for huge graph selection problems.
翻訳日:2021-10-26 14:44:57 公開日:2021-10-22
# 騒音ラベルによる学習再考 : 実世界の人間のアノテーションを用いた研究

Learning with Noisy Labels Revisited: A Study Using Real-World Human Annotations ( http://arxiv.org/abs/2110.12088v1 )

ライセンス: Link先を確認
Jiaheng Wei, Zhaowei Zhu, Hao Cheng, Tongliang Liu, Gang Niu, and Yang Liu(参考訳) 雑音ラベルを用いた学習に関する最近の研究は,主に合成ラベルノイズに着目している。 合成ラベルノイズは、統計解析を大いに可能にするクリーンな構造を持つが、現実世界のノイズパターンのモデル化に失敗することが多い。 最近の文献では、実世界のノイズのデータセットを提供するためのいくつかの取り組みが観察されているが、既存の取り組みは2つの注意点に悩まされている。 第二に、これらの取り組みはしばしば大規模であり、合理的でアクセスしやすい計算能力において堅牢な手法の不正な比較につながる可能性がある。 実世界のラベルノイズをよりよく理解するためには、制御可能で中規模な実世界のノイズデータセットを確立することが重要である。 本研究は、CIFAR-10とCIFAR-100の列車データセットに、Amazon Mechanical Turkから収集した人間の注釈付き実世界のノイズラベルを付けた2つの新しいベンチマークデータセット(CIFAR-10N、CIFAR-100N)を提示する。 実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。 CIFAR-10N, CIFAR-100Nを用いて既存のソリューションのサブセットをベンチマークする作業を開始する。 次に, モデル予測の暗記について検討し, ヒトの雑音とクラス依存合成雑音との差について述べる。 実際、現実世界のノイズパターンは、合成と比べ、新しくて際立った課題を課している。 これらの観察は,ノイズラベルの扱いを再考することが必要であり,これらの2つのデータセットが利用可能になることで,ノイズラベルソリューションによる将来の学習の開発と評価が容易になることを期待する。 対応するデータセットとリーダボードは、 \url{http://noisylabels.c om}で公開されている。

Existing research on learning with noisy labels mainly focuses on synthetic label noise. Synthetic label noise, though has clean structures which greatly enable statistical analyses, often fails to model the real-world noise patterns. The recent literature has observed several efforts to offer real-world noisy datasets, yet the existing efforts suffer from two caveats: firstly, the lack of ground-truth verification makes it hard to theoretically study the property and treatment of real-world label noise. Secondly, these efforts are often of large scales, which may lead to unfair comparisons of robust methods within reasonable and accessible computation power. To better understand real-world label noise, it is important to establish controllable and moderate-sized real-world noisy datasets with both ground-truth and noisy labels. This work presents two new benchmark datasets (CIFAR-10N, CIFAR-100N), equipping the train dataset of CIFAR-10 and CIFAR-100 with human-annotated real-world noisy labels that we collect from Amazon Mechanical Turk. We quantitatively and qualitatively show that real-world noisy labels follow an instance-dependent pattern rather than the classically adopted class-dependent ones. We then initiate an effort to benchmark a subset of existing solutions using CIFAR-10N, CIFAR-100N. We next proceed to study the memorization of model predictions, which further illustrates the difference between human noise and class-dependent synthetic noise. We show indeed the real-world noise patterns impose new and outstanding challenges as compared to synthetic ones. These observations require us to rethink the treatment of noisy labels, and we hope the availability of these two datasets would facilitate the development and evaluation of future learning with noisy label solutions. The corresponding datasets and the leaderboard are publicly available at \url{http://noisylabels.c om}.
翻訳日:2021-10-26 14:44:36 公開日:2021-10-22
# 教師なしドメイン適応のためのプロトタイプ指向フレームワーク

A Prototype-Oriented Framework for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2110.12024v1 )

ライセンス: Link先を確認
Korawat Tanwisuth, Xinjie Fan, Huangjie Zheng, Shujian Zhang, Hao Zhang, Bo Chen, Mingyuan Zhou(参考訳) 教師なし領域適応のための既存の手法は、しばしば潜在空間におけるソースとターゲットサンプルの間の統計距離を最小化することに依存している。 これらの手法をしばしば悩ませるサンプリングのバラツキ、クラス不均衡、データプライバシーの懸念を避けるため、代わりに、クラスプロトタイプを抽出し、ターゲット機能をそれらと整合させるメモリおよび計算効率の高い確率フレームワークを提供する。 本稿では,単一ソース,マルチソース,クラス不均衡,ソースプライベートドメイン適応など,幅広いシナリオにおいて,本手法の適用性を示す。 追加のモデルパラメータを必要とせず、ソースモデルのみに対して適度に計算量を増加させるため、提案手法は最先端手法による競合性能を実現する。

Existing methods for unsupervised domain adaptation often rely on minimizing some statistical distance between the source and target samples in the latent space. To avoid the sampling variability, class imbalance, and data-privacy concerns that often plague these methods, we instead provide a memory and computation-efficien t probabilistic framework to extract class prototypes and align the target features with them. We demonstrate the general applicability of our method on a wide range of scenarios, including single-source, multi-source, class-imbalance, and source-private domain adaptation. Requiring no additional model parameters and having a moderate increase in computation over the source model alone, the proposed method achieves competitive performance with state-of-the-art methods.
翻訳日:2021-10-26 14:15:29 公開日:2021-10-22
# 建設作業員の風力劣化のセマンティック検出:ハリケーン対策と作業員の安全のためのデジタルツイニング

Semantic Detection of Potential Wind-borne Debris in Construction Jobsites: Digital Twining for Hurricane Preparedness and Jobsite Safety ( http://arxiv.org/abs/2110.12968v1 )

ライセンス: Link先を確認
Mirsalar Kamari, Youngjib Ham(参考訳) アメリカ合衆国では、ハリケーンは毎年数十億ドル相当の被害をもたらす最も壊滅的な自然災害である。 さらに重要なことに、建設作業員は深刻な風害の最も脆弱な環境に分類される。 ハリケーンのとき、足場、合板、金属棒など、安全で不完全な建設現場の要素が風による破片になり、建設プロジェクトや近隣のコミュニティに被害を与える可能性がある。 そのため、建設業者が非常事態発生前に準備対応を強制する緊急計画を策定するのも不思議ではない。 しかし,大規模で複雑な現場環境では,徹底的なハリケーン対策を行うためのチェックリスト型緊急行動計画に頼ることが困難である。 ハリケーン対策の系統的応答を実現するため,建設作業員の風上破片の同定と解析を行うビジョンベース手法を提案した。 そこで本研究では,建設現場のハリケーン対策を支援するマシンビジョンに基づく新しい手法の有効性を実証し,その意義について述べる。 その結果、視覚的データ収集の便利さと、機械ビジョンベースのフレームワークの利点により、現場の迅速な理解が得られ、建設作業における風による潜在的な真皮を認識・ローカライズし、ハリケーン対策を効果的に実施できることが示されている。

In the United States, hurricanes are the most devastating natural disasters causing billions of dollars worth of damage every year. More importantly, construction jobsites are classified among the most vulnerable environments to severe wind events. During hurricanes, unsecured and incomplete elements of construction sites, such as scaffoldings, plywoods, and metal rods, will become the potential wind-borne debris, causing cascading damages to the construction projects and the neighboring communities. Thus, it is no wonder that construction firms implement jobsite emergency plans to enforce preparedness responses before extreme weather events. However, relying on checklist-based emergency action plans to carry out a thorough hurricane preparedness is challenging in large-scale and complex site environments. For enabling systematic responses for hurricane preparedness, we have proposed a vision-based technique to identify and analyze the potential wind-borne debris in construction jobsites. Building on this, this paper demonstrates the fidelity of a new machine vision-based method to support construction site hurricane preparedness and further discuss its implications. The outcomes indicate that the convenience of visual data collection and the advantages of the machine vision-based frameworks enable rapid scene understanding and thus, provide critical heads up for practitioners to recognize and localize the potential wind-borne derbies in construction jobsites and effectively implement hurricane preparedness.
翻訳日:2021-10-26 14:11:57 公開日:2021-10-22
# ReLACE:任意予測モデルの非現実的説明のための強化学習エージェント

ReLACE: Reinforcement Learning Agent for Counterfactual Explanations of Arbitrary Predictive Models ( http://arxiv.org/abs/2110.11960v1 )

ライセンス: Link先を確認
Ziheng Chen, Fabrizio Silvestri, Gabriele Tolomei, He Zhu, Jia Wang, Hongshik Ahn(参考訳) 説明可能な機械学習(ML)モデルの需要は近年急速に増加している。 MLモデル予測と人間の理解可能な理論的根拠を関連付ける手法として提案されている手法の中では、反実的説明が最も一般的である。 これらは、反実例(CF)から派生したポストホックルール、すなわち、説明すべき予測モデルから代替的な出力応答をもたらす入力サンプルの修正版から構成される。 しかし、既存のCF生成戦略は特定のモデルの内部(例えばランダムフォレストやニューラルネットワーク)を利用するか、サンプルの近傍に依存するため、より複雑なモデルでは一般化が困難で、より大きなデータセットでは非効率である。 本研究では,これらの制約を克服し,最適な反事実的説明を生成するモデル非依存アルゴリズムを提案する。 具体的には,逐次的意思決定タスクとしてcfsを作成する問題を定式化し,離散連続ハイブリッド行動空間を持つ深層強化学習(drl)により最適なcfsを求める。 他の手法とは異なり、この方法は任意のブラックボックスモデルに容易に適用でき、これはdrlエージェントが相互作用する環境に似ている。 また,drlエージェントのポリシーから説明可能な決定ルールを抽出するアルゴリズムを開発し,cfs生成プロセス自体を透明化する。 いくつかのデータセットで行った大規模な実験により,本手法は既存のCF生成ベースラインより優れていることが示された。

The demand for explainable machine learning (ML) models has been growing rapidly in recent years. Amongst the methods proposed to associate ML model predictions with human-understandable rationale, counterfactual explanations are one of the most popular. They consist of post-hoc rules derived from counterfactual examples (CFs), i.e., modified versions of input samples that result in alternative output responses from the predictive model to be explained. However, existing CF generation strategies either exploit the internals of specific models (e.g., random forests or neural networks), or depend on each sample's neighborhood, which makes them hard to be generalized for more complex models and inefficient for larger datasets. In this work, we aim to overcome these limitations and introduce a model-agnostic algorithm to generate optimal counterfactual explanations. Specifically, we formulate the problem of crafting CFs as a sequential decision-making task and then find the optimal CFs via deep reinforcement learning (DRL) with discrete-continuous hybrid action space. Differently from other techniques, our method is easily applied to any black-box model, as this resembles the environment that the DRL agent interacts with. In addition, we develop an algorithm to extract explainable decision rules from the DRL agent's policy, so as to make the process of generating CFs itself transparent. Extensive experiments conducted on several datasets have shown that our method outperforms existing CF generation baselines.
翻訳日:2021-10-26 14:09:47 公開日:2021-10-22
# 神経因果推論のトラクタビリティについて

On the Tractability of Neural Causal Inference ( http://arxiv.org/abs/2110.12052v1 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c and Devendra Singh Dhami and Kristian Kersting(参考訳) Roth (1996) は、確率的グラフィカルモデル(例えばベイズ・ネットワーク)による任意の辺推論は少なくともNPハードであることが証明した。 過去10年間に導入され、広範囲に研究され、SPN(Sum-product Network)として知られる神経確率回路は線形時間複雑性を提供する。 また、ニューラル因果モデル(NCM)に関する研究は、最近勢いを増し、機械学習の因果関係のより緊密な統合を要求している。 この目的のために、異なるNCMに対して、いつ、どのように、どのように、どのように、どのコストがかかるかに関する理論的研究を行う。 我々は,SPNに基づく因果推論が通常のMLPベースのNCMとは対照的に,一般的には抽出可能であることを証明した。 さらに,PearlのCausal Hierarchyの観点から,推論が効率的で,完全に表現可能な新しいトラクタブルNCMクラスを導入する。 シミュレーションと標準ベンチマークに関する比較実証図は、我々の理論的証明を検証する。

Roth (1996) proved that any form of marginal inference with probabilistic graphical models (e.g. Bayesian Networks) will at least be NP-hard. Introduced and extensively investigated in the past decade, the neural probabilistic circuits known as sum-product network (SPN) offers linear time complexity. On another note, research around neural causal models (NCM) recently gained traction, demanding a tighter integration of causality for machine learning. To this end, we present a theoretical investigation of if, when, how and under what cost tractability occurs for different NCM. We prove that SPN-based causal inference is generally tractable, opposed to standard MLP-based NCM. We further introduce a new tractable NCM-class that is efficient in inference and fully expressive in terms of Pearl's Causal Hierarchy. Our comparative empirical illustration on simulations and standard benchmarks validates our theoretical proofs.
翻訳日:2021-10-26 14:09:24 公開日:2021-10-22
# 対比的に不連続な逐次変分オートエンコーダ

Contrastively Disentangled Sequential Variational Autoencoder ( http://arxiv.org/abs/2110.12091v1 )

ライセンス: Link先を確認
Junwen Bai, Weiran Wang, Carla Gomes(参考訳) 自己教師付き不等角表現学習はシーケンスモデリングにおいて重要な課題である。 学習された表現は、より優れたモデル解釈可能性とデータ生成に貢献し、下流タスクのサンプル効率を向上させる。 潜在空間における静的な(時間不変)因子と動的(時間変化)因子を抽出・分離するために,コントラスト的に不等角化された逐次変分オートエンコーダ(c-dsvae)という新しいシーケンス表現学習法を提案する。 従来の逐次変分オートエンコーダ法とは異なり,入力と潜在因子の相互情報を最大化する新たなエビデンス下限を用い,静的因子と動的因子の相互情報をペナライズする。 我々は,学習における相互情報項の対比的推定と,単純かつ効果的な拡張手法を用いて,帰納的バイアスを導入する。 実験の結果,C-DSVAEは,従来の最先端手法よりも高い性能を示した。

Self-supervised disentangled representation learning is a critical task in sequence modeling. The learnt representations contribute to better model interpretability as well as the data generation, and improve the sample efficiency for downstream tasks. We propose a novel sequence representation learning method, named Contrastively Disentangled Sequential Variational Autoencoder (C-DSVAE), to extract and separate the static (time-invariant) and dynamic (time-variant) factors in the latent space. Different from previous sequential variational autoencoder methods, we use a novel evidence lower bound which maximizes the mutual information between the input and the latent factors, while penalizes the mutual information between the static and dynamic factors. We leverage contrastive estimations of the mutual information terms in training, together with simple yet effective augmentation techniques, to introduce additional inductive biases. Our experiments show that C-DSVAE significantly outperforms the previous state-of-the-art methods on multiple metrics.
翻訳日:2021-10-26 14:09:08 公開日:2021-10-22
# 医用物体検出のための円表示

Circle Representation for Medical Object Detection ( http://arxiv.org/abs/2110.12093v1 )

ライセンス: Link先を確認
Ethan H. Nguyen, Haichun Yang, Ruining Deng, Yuzhe Lu, Zheyu Zhu, Joseph T. Roland, Le Lu, Bennett A. Landman, Agnes B. Fogo, and Yuankai Huo(参考訳) ボックス表現はコンピュータビジョンにおけるオブジェクト検出に広く使われている。 このような表現は有効であるが、腎病理において重要な役割を果たす生医学的対象(例えば、糸球体)に必ずしも最適化されない。 本稿では,医療用物体検出のための簡易な円表現を提案し,アンカーフリー検出フレームワークであるcirclenetを紹介する。 従来の有界箱表現と比較して、提案された有界円表現は、(1)球形生物医学オブジェクトに最適化されている;(2)円表現は箱表現と比較して自由度を減らしている;(3)自然により回転不変である。 病理画像上での糸球体と核の検出において,提案した円周表現は,境界箱に比べて優れた検出性能と回転不変性を得た。 コードは公開された: https://github.com/h rlblab/circlenet

Box representation has been extensively used for object detection in computer vision. Such representation is efficacious but not necessarily optimized for biomedical objects (e.g., glomeruli), which play an essential role in renal pathology. In this paper, we propose a simple circle representation for medical object detection and introduce CircleNet, an anchor-free detection framework. Compared with the conventional bounding box representation, the proposed bounding circle representation innovates in three-fold: (1) it is optimized for ball-shaped biomedical objects; (2) The circle representation reduced the degree of freedom compared with box representation; (3) It is naturally more rotation invariant. When detecting glomeruli and nuclei on pathological images, the proposed circle representation achieved superior detection performance and be more rotation-invariant, compared with the bounding box. The code has been made publicly available: https://github.com/h rlblab/CircleNet
翻訳日:2021-10-26 13:41:06 公開日:2021-10-22
# (参考訳) 第3回自律システムの形式的手法に関するワークショップ

Proceedings Third Workshop on Formal Methods for Autonomous Systems ( http://arxiv.org/abs/2110.11527v1 )

ライセンス: CC BY 4.0
Marie Farrell (Maynooth University, Ireland), Matt Luckcuck (Maynooth University, Ireland)(参考訳) 自律システムは高度に複雑であり、形式的手法の適用に特有の課題がある。 自律システムは人間の介入なしに行動し、しばしばロボットシステムに組み込まれ、現実世界と対話できるようにします。 そのため、それらは安全クリティカル、サイバー物理、ハイブリッド、リアルタイムシステムの特性を示す。 EPTCSの巻には、2021年10月21日と22日に事実上開催されたFMAS 2021(Formal Methods for Autonomous Systems)の第3回ワークショップの手続きが含まれている。 前回のワークショップと同様、FMAS 2021は新型コロナウイルス(COVID-19)の規制に適応するため、オンラインのスタンドアロンイベントだった。 これがもたらした課題にもかかわらず、私たちは以前の2つのFMASワークショップの成功に基づいて構築することにしました。 FMASの目標は、フォーマルな方法で自律システムのユニークな課題に対処している先進的な研究者をまとめて、現在進行中の成果を提示することにある。 私たちは、自律型および/またはロボットシステムの特定、モデル化、検証のための正式な方法の使用に興味があります。 私たちはまた、産業応用の成功と、この新たな形式的手法の適用の今後の方向性にも興味を持っています。

Autonomous systems are highly complex and present unique challenges for the application of formal methods. Autonomous systems act without human intervention, and are often embedded in a robotic system, so that they can interact with the real world. As such, they exhibit the properties of safety-critical, cyber-physical, hybrid, and real-time systems. This EPTCS volume contains the proceedings for the third workshop on Formal Methods for Autonomous Systems (FMAS 2021), which was held virtually on the 21st and 22nd of October 2021. Like the previous workshop, FMAS 2021 was an online, stand-alone event, as an adaptation to the ongoing COVID-19 restrictions. Despite the challenges this brought, we were determined to build on the success of the previous two FMAS workshops. The goal of FMAS is to bring together leading researchers who are tackling the unique challenges of autonomous systems using formal methods, to present recent and ongoing work. We are interested in the use of formal methods to specify, model, or verify autonomous and/or robotic systems; in whole or in part. We are also interested in successful industrial applications and potential future directions for this emerging application of formal methods.
翻訳日:2021-10-26 02:34:47 公開日:2021-10-22
# (参考訳) 抽象化と推論のためのニューラル誘導双方向プログラム探索 [全文訳有]

Neural-guided, Bidirectional Program Search for Abstraction and Reasoning ( http://arxiv.org/abs/2110.11536v1 )

ライセンス: CC BY 4.0
Simon Alford, Anshula Gandhi, Akshay Rangamani, Andrzej Banburski, Tony Wang, Sylee Dandekar, John Chin, Tomaso Poggio, and Peter Chin(参考訳) 今日の人工知能研究が直面する課題の1つは、体系的な推論を利用して新しいタスクを一般化できるシステムを設計することだ。 ARC(Abstraction and Reasoning Corpus)は、視覚的推論タスクを通じてそのような能力を測定する。 本稿では,arcに関する漸進的な進歩を報告し,ブルートフォース検索を基盤としない2つの抽象化と推論の基礎を述べる。 まずDreamCoderと呼ばれる既存のプログラム合成システムを用いて、これまで解決されてきたタスクからシンボリックな抽象化を作成し、より困難なARCタスクの解決を可能にする方法を示す。 第二に、人間がARCに近づく方法によって動機付けられた推論アルゴリズムを設計する。 アルゴリズムは探索グラフを構築し,このグラフ構造上の理由からタスクソリューションを探索する。 より具体的には,関数逆セマンティクスに基づく帰納的推論を用いて,既存の実行誘導型プログラム合成手法を拡張し,ニューラルネットワークによる双方向探索アルゴリズムを実現する。 本稿では,ARC,24ゲームタスク,および'double-and-add'算術パズルの3つの領域におけるアルゴリズムの有効性を示す。

One of the challenges facing artificial intelligence research today is designing systems capable of utilizing systematic reasoning to generalize to new tasks. The Abstraction and Reasoning Corpus (ARC) measures such a capability through a set of visual reasoning tasks. In this paper we report incremental progress on ARC and lay the foundations for two approaches to abstraction and reasoning not based in brute-force search. We first apply an existing program synthesis system called DreamCoder to create symbolic abstractions out of tasks solved so far, and show how it enables solving of progressively more challenging ARC tasks. Second, we design a reasoning algorithm motivated by the way humans approach ARC. Our algorithm constructs a search graph and reasons over this graph structure to discover task solutions. More specifically, we extend existing execution-guided program synthesis approaches with deductive reasoning based on function inverse semantics to enable a neural-guided bidirectional search algorithm. We demonstrate the effectiveness of the algorithm on three domains: ARC, 24-Game tasks, and a 'double-and-add' arithmetic puzzle.
翻訳日:2021-10-26 02:33:50 公開日:2021-10-22
# (参考訳) 教師学習ネットワークを用いた擬似単眼深度推定 [全文訳有]

Pseudo Supervised Monocular Depth Estimation with Teacher-Student Network ( http://arxiv.org/abs/2110.11545v1 )

ライセンス: CC BY 4.0
Huan Liu, Junsong Yuan, Chen Wang, Jun Chen(参考訳) 近年, 教師付き単眼深度推定法が改良されているにもかかわらず, 高品質な画素単位の基底真理アノテーションの欠如は, さらなる進歩の大きなハードルとなっている。 本研究では,知識蒸留による教師学生ネットワークの学習による疑似監視機構に基づく教師なし深度推定手法を提案する。 これは、教師なしおよび教師なしの単眼深度推定の利点と、教師なしの両眼深度推定の利点を戦略的に統合する。 具体的には,教師ネットワークが両眼深度推定の有効性を生かして正確な不一致マップを作成し,これを疑似基底真理として学習し,単眼深度推定を行う。 これにより、教師なし学習の問題を教師なし学習に効果的に変換する。 提案手法は,KITTIベンチマークの最先端性能より優れていることを示す。

Despite recent improvement of supervised monocular depth estimation, the lack of high quality pixel-wise ground truth annotations has become a major hurdle for further progress. In this work, we propose a new unsupervised depth estimation method based on pseudo supervision mechanism by training a teacher-student network with knowledge distillation. It strategically integrates the advantages of supervised and unsupervised monocular depth estimation, as well as unsupervised binocular depth estimation. Specifically, the teacher network takes advantage of the effectiveness of binocular depth estimation to produce accurate disparity maps, which are then used as the pseudo ground truth to train the student network for monocular depth estimation. This effectively converts the problem of unsupervised learning to supervised learning. Our extensive experimental results demonstrate that the proposed method outperforms the state-of-the-art on the KITTI benchmark.
翻訳日:2021-10-26 02:21:16 公開日:2021-10-22
# (参考訳) ロバストクラス不均衡学習のための原型分類器 [全文訳有]

Prototypical Classifier for Robust Class-Imbalanced Learning ( http://arxiv.org/abs/2110.11553v1 )

ライセンス: CC BY 4.0
Tong Wei, Jiang-Xin Shi, Yu-Feng Li, Min-Ling Zhang(参考訳) ディープニューラルネットワークは多くの教師付き学習タスクにおいて非常に強力な手法であることが示されている。 しかし、それらはセットバイアス、すなわちラベルノイズとクラス不均衡のトレーニングに容易に適合する。 ノイズラベルによる学習とクラス不均衡学習の両方が大きな注目を集めているが、既存の研究は主にこれらの2つのトレーニングセットのバイアスの1つに焦点を当てている。 このギャップを埋めるために,組込みネットワークに対して追加パラメータを必要としない \textit{prototypical classifier} を提案する。 ヘッドクラスに偏っている従来の分類器とは異なり、訓練セットがクラス不均衡であるにもかかわらず、プロトタイプ分類器はすべてのクラスに対してバランスと同等の予測を生成する。 この魅力を生かして,しきい値が反復によって動的に調整される原型的分類器によって予測される信頼度スコアをしきい値にすることで,ノイズラベルを容易に検出できる。 次に、ノイズラベルの影響を軽減するためにサンプルリウェッギング戦略を適用する。 我々は, CIFAR-10-LT, CIFAR-100-LT, Webvision のデータセットを用いて, プロトタイプ分類器が, 芸術の状況と比較すると, サブステイティ改善が得られることを示した。

Deep neural networks have been shown to be very powerful methods for many supervised learning tasks. However, they can also easily overfit to training set biases, i.e., label noise and class imbalance. While both learning with noisy labels and class-imbalanced learning have received tremendous attention, existing works mainly focus on one of these two training set biases. To fill the gap, we propose \textit{Prototypical Classifier}, which does not require fitting additional parameters given the embedding network. Unlike conventional classifiers that are biased towards head classes, Prototypical Classifier produces balanced and comparable predictions for all classes even though the training set is class-imbalanced. By leveraging this appealing property, we can easily detect noisy labels by thresholding the confidence scores predicted by Prototypical Classifier, where the threshold is dynamically adjusted through the iteration. A sample reweghting strategy is then applied to mitigate the influence of noisy labels. We test our method on CIFAR-10-LT, CIFAR-100-LT and Webvision datasets, observing that Prototypical Classifier obtains substaintial improvements compared with state of the arts.
翻訳日:2021-10-26 02:06:15 公開日:2021-10-22
# (参考訳) 2つの文化を融合する - 深層学習と統計的学習 [全文訳有]

Merging Two Cultures: Deep and Statistical Learning ( http://arxiv.org/abs/2110.11561v1 )

ライセンス: CC BY 4.0
Anindya Bhadra, Jyotishka Datta, Nick Polson, Vadim Sokolov, Jianeng Xu(参考訳) 深層学習と統計的学習の2つの文化を組み合わせることで、構造化された高次元データに対する洞察が得られる。 従来の統計モデリングは依然として構造化表データの主要な戦略である。 ディープラーニングは、複合リンク関数を持つ一般化線形モデル(GLM)のレンズを通して見ることができる。 十分次元還元(SDR)と疎性は非線形特徴工学を実行する。 モデルの出力層における確率的手法を用いて予測,補間,不確かさの定量化が可能であることを示す。 したがって、機械学習の一般的なフレームワークは、まずスパース正規化と確率的勾配最適化を通じて非線形特徴(すなわち因子)を生成し、次に予測の不確実性のために確率的出力層を使用する。 多くの統計モデルのように浅い付加的アーキテクチャを使うのではなく、ディープラーニングは半アフィン入力変換の層を使って予測ルールを提供する。 これらの変換層を適用すれば、予測統計手法が適用可能な属性(つまり特徴)の集合が得られる。 したがって、スケーラビリティと高速予測ルール構築と不確実性定量化という両世界のベストを達成できる。 教師なしまたは教師なし学習によるスパース正規化はその特徴を見つける。 我々は,PCA,PPR,RRRなどの浅層モデルと,オートエンコーダ,MPP,CNN,LSTMなどの深層アーキテクチャの両立性を明らかにする。 データ変換との接続は、優れたネットワークアーキテクチャを見つける上で実用上重要である。 出力レベルで確率的成分を組み込むことにより、予測の不確かさを許容する。 補間には深いガウス過程とReLU木を用いて分類する。 我々は回帰、分類、補間に応用する。 最後に,今後の研究の方向性について述べる。

Merging the two cultures of deep and statistical learning provides insights into structured high-dimensional data. Traditional statistical modeling is still a dominant strategy for structured tabular data. Deep learning can be viewed through the lens of generalized linear models (GLMs) with composite link functions. Sufficient dimensionality reduction (SDR) and sparsity performs nonlinear feature engineering. We show that prediction, interpolation and uncertainty quantification can be achieved using probabilistic methods at the output layer of the model. Thus a general framework for machine learning arises that first generates nonlinear features (a.k.a factors) via sparse regularization and stochastic gradient optimisation and second uses a stochastic output layer for predictive uncertainty. Rather than using shallow additive architectures as in many statistical models, deep learning uses layers of semi affine input transformations to provide a predictive rule. Applying these layers of transformations leads to a set of attributes (a.k.a features) to which predictive statistical methods can be applied. Thus we achieve the best of both worlds: scalability and fast predictive rule construction together with uncertainty quantification. Sparse regularisation with un-supervised or supervised learning finds the features. We clarify the duality between shallow and wide models such as PCA, PPR, RRR and deep but skinny architectures such as autoencoders, MLPs, CNN, and LSTM. The connection with data transformations is of practical importance for finding good network architectures. By incorporating probabilistic components at the output level we allow for predictive uncertainty. For interpolation we use deep Gaussian process and ReLU trees for classification. We provide applications to regression, classification and interpolation. Finally, we conclude with directions for future research.
翻訳日:2021-10-26 01:53:57 公開日:2021-10-22
# (参考訳) アンチバックドア学習:中毒データによるクリーンモデルのトレーニング [全文訳有]

Anti-Backdoor Learning: Training Clean Models on Poisoned Data ( http://arxiv.org/abs/2110.11571v1 )

ライセンス: CC BY 4.0
Yige Li, Xixiang Lyu, Nodens Koren, Lingjuan Lyu, Bo Li, Xingjun Ma(参考訳) バックドア攻撃はディープニューラルネットワーク(DNN)に対する主要なセキュリティ脅威として浮上している。 既存の防衛手法はバックドアトリガの検出と消去に有望な結果を示してきたが、そもそもトリガがモデルに学習されることを避けるための措置がとれるかは明らかになっていない。 本稿では,バックドア汚染データを用いたクリーンモデルの学習を目的とした,emph{anti-backdoor learning}の概念を紹介する。 学習プロセス全体を、データのクリーンな部分を学び、データのバックドア部分を学ぶための2つのタスクとして捉えています。 この観点から、バックドア攻撃の2つの特徴を弱点として認識する。 1)モデルはクリーンなデータを学ぶよりもずっと速い速度でバックドア付きデータを学習し,攻撃が強ければ早いほどバックドア付きデータに収束する。 2) バックドアタスクは特定のクラス(バックドアターゲットクラス)に結び付けられます。 これら2つの弱点に基づき、トレーニング中のバックドア攻撃を自動的に防止する一般的な学習手法であるアンチバックドア学習(ABL)を提案する。 ablは標準的なトレーニングに2段階の\emph{gradient ascent}メカニズムを導入 1)早期研修段階におけるバックドア事例の分離を支援し, 2)後段の訓練段階において,バックドア例と対象クラスとの相関関係を破る。 10回の最先端攻撃に対する複数のベンチマークデータセットの広範囲な実験を通じて、ablで訓練されたモデルが純粋にクリーンなデータでトレーニングされたデータと同等のパフォーマンスを達成できることを実証的に示した。 コードは \underline{https://github.com/b boylyg/ABL} で入手できる。

Backdoor attack has emerged as a major security threat to deep neural networks (DNNs). While existing defense methods have demonstrated promising results on detecting and erasing backdoor triggers, it is still not clear if measures can be taken to avoid the triggers from being learned into the model in the first place. In this paper, we introduce the concept of \emph{anti-backdoor learning}, of which the aim is to train clean models on backdoor-poisoned data. We frame the overall learning process as a dual-task of learning the clean portion of data and learning the backdoor portion of data. From this view, we identify two inherent characteristics of backdoor attacks as their weaknesses: 1) the models learn backdoored data at a much faster rate than learning clean data, and the stronger the attack the faster the model converges on backdoored data; and 2) the backdoor task is tied to a specific class (the backdoor target class). Based on these two weaknesses, we propose a general learning scheme, Anti-Backdoor Learning (ABL), to automatically prevent backdoor attacks during training. ABL introduces a two-stage \emph{gradient ascent} mechanism into standard training to 1) help isolate backdoor examples at an early training stage, and 2) break the correlation between backdoor examples and the target class at a later training stage. Through extensive experiments on multiple benchmark datasets against 10 state-of-the-art attacks, we empirically show that ABL-trained models on backdoor-poisoned data achieve the same performance as they were trained on purely clean data. Code is available at \underline{https://github.com/b boylyg/ABL}.
翻訳日:2021-10-26 01:32:55 公開日:2021-10-22
# (参考訳) PreCAD: 暗号支援微分プライバシーによるプライバシー保護とロバストなフェデレーション学習 [全文訳有]

PRECAD: Privacy-Preserving and Robust Federated Learning via Crypto-Aided Differential Privacy ( http://arxiv.org/abs/2110.11578v1 )

ライセンス: CC BY 4.0
Xiaolan Gu, Ming Li, Li Xiong(参考訳) フェデレートラーニング(FL)は、複数の参加するクライアントがデータセットをローカルに保持し、モデル更新のみを交換することで、機械学習モデルを協調的にトレーニングすることを可能にする。 既存のFLプロトコルの設計は、データのプライバシやモデルの堅牢性を損なう攻撃に対して脆弱であることが示されている。 最近提案された防衛は、プライバシーと堅牢性の両方を保証することに焦点を当てたが、両方ではない。 本稿では,DP(差分プライバシー)を同時に達成し,暗号の助けを借りてモデル中毒攻撃に対する堅牢性を高めるPreCADというフレームワークを開発する。 セキュアなマルチパーティ計算(MPC)技術(シークレット共有など)を用いることで、クライアントの入力を明かさずに(各クライアントの代わりに)正直なサーバによってモデル更新にノイズが追加され、ローカルDPベースのソリューションよりも優れたプライバシーユーティリティトレードオフを提供することで、集中型DPの利点が得られる。 一方、暗号支援のセキュア検証プロトコルは、各クライアントからのモデル更新の貢献が、プライバシを漏らすことなくバウンダリであることを検証するために設計されている。 我々は,dp に付加されるノイズが,悪意のあるモデルの提出に対して強固性を高めることを解析的に示す。 我々は,PreCADフレームワークがより高いプライバシー利用トレードオフを実現し,トレーニングされたモデルの堅牢性を高めることを実験的に実証した。

Federated Learning (FL) allows multiple participating clients to train machine learning models collaboratively by keeping their datasets local and only exchanging model updates. Existing FL protocol designs have been shown to be vulnerable to attacks that aim to compromise data privacy and/or model robustness. Recently proposed defenses focused on ensuring either privacy or robustness, but not both. In this paper, we develop a framework called PRECAD, which simultaneously achieves differential privacy (DP) and enhances robustness against model poisoning attacks with the help of cryptography. Using secure multi-party computation (MPC) techniques (e.g., secret sharing), noise is added to the model updates by the honest-but-curious server(s) (instead of each client) without revealing clients' inputs, which achieves the benefit of centralized DP in terms of providing a better privacy-utility tradeoff than local DP based solutions. Meanwhile, a crypto-aided secure validation protocol is designed to verify that the contribution of model update from each client is bounded without leaking privacy. We show analytically that the noise added to ensure DP also provides enhanced robustness against malicious model submissions. We experimentally demonstrate that our PRECAD framework achieves higher privacy-utility tradeoff and enhances robustness for the trained models.
翻訳日:2021-10-26 01:09:20 公開日:2021-10-22
# (参考訳) 潜在最適化とshapleyガイド付き検索によるテキスト偽造 [全文訳有]

Text Counterfactuals via Latent Optimization and Shapley-Guided Search ( http://arxiv.org/abs/2110.11589v1 )

ライセンス: CC BY 4.0
Quintin Pope, Xiaoli Z. Fern(参考訳) 本稿では,分類の理解とデバッグの手段として,分類器の対実テキストを生成する問題について検討する。 テキスト入力と分類モデルを考えると,テキストを最小限に修正してモデルの予測を変更することが目的である。 ホワイトボックスアプローチは、連続入力を直接最適化できるビジョンの同様の問題に対してうまく適用されている。 最適化に基づくアプローチは、テキストの離散的な性質のため、言語領域では困難になる。 我々は、潜時空間を直接最適化し、最適化された潜時表現から候補修正を生成するために言語モデルを活用することでこの問題を回避する。 さらに,複数の変化の組合せ効果を推定するためにshapley値を用いる。 次に、これらの推定値を用いて、最終的な偽造テキストのビームサーチを誘導する。 近年のホワイトボックスベースラインやブラックボックスベースラインと比較して,人間および自動評価により良好な性能が得られる。 アブレーション研究は、潜在最適化とシェープリー値の使用の両方が成功率と生成した反事実の品質を向上させることを示した。

We study the problem of generating counterfactual text for a classifier as a means for understanding and debugging classification. Given a textual input and a classification model, we aim to minimally alter the text to change the model's prediction. White-box approaches have been successfully applied to similar problems in vision where one can directly optimize the continuous input. Optimization-based approaches become difficult in the language domain due to the discrete nature of text. We bypass this issue by directly optimizing in the latent space and leveraging a language model to generate candidate modifications from optimized latent representations. We additionally use Shapley values to estimate the combinatoric effect of multiple changes. We then use these estimates to guide a beam search for the final counterfactual text. We achieve favorable performance compared to recent white-box and black-box baselines using human and automatic evaluations. Ablation studies show that both latent optimization and the use of Shapley values improve success rate and the quality of the generated counterfactuals.
翻訳日:2021-10-26 00:30:19 公開日:2021-10-22
# (参考訳) ディープニューラルネットワークを用いた2次元描画における射出成形部品の自動検出 [全文訳有]

Automatic Detection of Injection and Press Mold Parts on 2D Drawing Using Deep Neural Network ( http://arxiv.org/abs/2110.11593v1 )

ライセンス: CC BY 4.0
Junseok Lee, Jongwon Kim, Jumi Park, Seunghyeok Back, Seongho Bak, Kyoobin Lee(参考訳) 本稿では,商用テレビのCADにおける重要な特徴を自動的に検出し,ディープニューラルネットワークを用いてモニタする手法を提案する。 2dcad描画画像において,フック,ボス,アンダーカット,dps,embo-screwless, embo-burring,emboなどのインジェクション部分を検出するディープラーニングパイプラインを開発した。 まず、深層ニューラルネットワークのトレーニング効率のために、図面を特定のサイズに絞り込みました。 次に、カスケードR-CNNを用いて射出位置と押出部品の位置を見つけ、Resnet-50を用いて部品の向きを予測する。 最後に、切り抜いた画像から見つかった部分の位置を原画像の位置に変換する。 その結果,ap(平均精度)84.1%,ar(平均リコール)91.2%,ap(平均リコール)72.0%,ar87.0%,94.4% ,92.0%の射出プレス部品の検出精度が得られ,工業製品設計の高速化が図られた。

This paper proposes a method to automatically detect the key feature parts in a CAD of commercial TV and monitor using a deep neural network. We developed a deep learning pipeline that can detect the injection parts such as hook, boss, undercut and press parts such as DPS, Embo-Screwless, Embo-Burring, and EMBO in the 2D CAD drawing images. We first cropped the drawing to a specific size for the training efficiency of a deep neural network. Then, we use Cascade R-CNN to find the position of injection and press parts and use Resnet-50 to predict the orientation of the parts. Finally, we convert the position of the parts found through the cropped image to the position of the original image. As a result, we obtained detection accuracy of injection and press parts with 84.1% in AP (Average Precision), 91.2% in AR(Average Recall), 72.0% in AP, 87.0% in AR, and orientation accuracy of injection and press parts with 94.4% and 92.0%, which can facilitate the faster design in industrial product design.
翻訳日:2021-10-26 00:09:20 公開日:2021-10-22
# (参考訳) マルチモーダル半教師付き学習 for3d objects [全文訳有]

Multimodal Semi-Supervised Learning for3D Objects ( http://arxiv.org/abs/2110.11601v1 )

ライセンス: CC BY 4.0
Zhimin Chen, Longlong Jing, Yang Liang, YingLi Tian, Bing Li(参考訳) 近年、半教師付き学習が広く研究され、2次元データに優れたデータ効率が示されている。 ラベル付き3Dデータの不足により、3Dタスクのデータ効率を改善する必要性が高まっている。 本稿では,3次元データの異なるモデル(ポイントクラウド,イメージ,メッシュなど)のコヒーレンスを用いて,3次元分類および検索作業におけるデータ効率を向上させる方法について検討する。 本稿では,インスタンスレベルの一貫性制約を導入した新しいマルチモーダル半教師付き学習フレームワークと,新しいマルチモーダルコントラストプロトタイプ(m2cp)損失を提案する。 インスタンスレベルの一貫性は、そのモダリティに関係なく、同じオブジェクトのマルチモーダルデータの一貫性のある表現を生成するようにネットワークを強制する。 m2cpは、各クラスのマルチモーダルプロトタイプを維持し、各オブジェクトとプロトタイプの特徴距離を最小化し、他との距離を最大化することで、小さなクラス内バリエーションで特徴を学習する。 提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。

In recent years, semi-supervised learning has been widely explored and shows excellent data efficiency for 2D data. There is an emerging need to improve data efficiency for 3D tasks due to the scarcity of labeled 3D data. This paper explores how the coherence of different modelities of 3D data (e.g. point cloud, image, and mesh) can be used to improve data efficiency for both 3D classification and retrieval tasks. We propose a novel multimodal semi-supervised learning framework by introducing instance-level consistency constraint and a novel multimodal contrastive prototype (M2CP) loss. The instance-level consistency enforces the network to generate consistent representations for multimodal data of the same object regardless of its modality. The M2CP maintains a multimodal prototype for each class and learns features with small intra-class variations by minimizing the feature distance of each object to its prototype while maximizing the distance to the others. Our proposed framework significantly outperforms all the state-of-the-art counterparts for both classification and retrieval tasks by a large margin on the modelNet10 and ModelNet40 datasets.
翻訳日:2021-10-26 00:04:36 公開日:2021-10-22
# (参考訳) レベルセット法による半ラグランジアンアドベクションのための誤り訂正ニューラルネットワーク

Error-Correcting Neural Networks for Semi-Lagrangian Advection in the Level-Set Method ( http://arxiv.org/abs/2110.11611v1 )

ライセンス: CC BY 4.0
Luis \'Angel Larios-C\'ardenas and Fr\'ed\'eric Gibou(参考訳) 本稿では,画像超解像技術とスカラートランスポートを融合した機械学習フレームワークを提案する。 本稿では,インターフェースの粗いメッシュ進化における数値粘度を最小化するために,オンザフライデータ駆動補正を計算できるかどうかを検討する。 提案システムの出発点は半ラグランジュ式である。 そして, 数値散逸を低減するため, 誤差定量化多層パーセプトロンを導入する。 このニューラルネットワークの役割は、推定された表面軌跡を改善することである。 そのため、ローカライズされたレベルセット、速度、位置データを単一の時間フレームで処理し、移動前面付近の頂点を選択する。 提案手法は,選択的なリディスタンスと並行して動作し,調整されたインタフェース軌跡を滑らかに保つために従来のアドベクションと交互に動作する。 その結果,本手法は自由境界周辺にのみ計算処理を集中するため,フルスキャン畳み込みベースのアプリケーションよりも効率的である。 また, 数値拡散と質量損失の両面において, 本手法が有効であることを示す。 例えば、受動的対流問題では、本手法はベースライン方式と同じ精度を2倍の精度で達成できるが、コストはわずかである。 同様に、我々のハイブリッド技術は結晶化プロセスのための実現可能な凝固前線を作り出すことができる。 一方で、高い変形や長いシミュレーションはバイアスアーティファクトや推論の劣化を沈降させる可能性がある。 同様に、厳密な設計速度の制約は、特に迅速なインターフェース変更に伴う問題に対して、一定の制限を課すことができる。 後者のケースでは、アプローチの基本概念を放棄することなく、堅牢性を高めるためのいくつかの機会を見出した。

We present a machine learning framework that blends image super-resolution technologies with scalar transport in the level-set method. Here, we investigate whether we can compute on-the-fly data-driven corrections to minimize numerical viscosity in the coarse-mesh evolution of an interface. The proposed system's starting point is the semi-Lagrangian formulation. And, to reduce numerical dissipation, we introduce an error-quantifying multilayer perceptron. The role of this neural network is to improve the numerically estimated surface trajectory. To do so, it processes localized level-set, velocity, and positional data in a single time frame for select vertices near the moving front. Our main contribution is thus a novel machine-learning-aug mented transport algorithm that operates alongside selective redistancing and alternates with conventional advection to keep the adjusted interface trajectory smooth. Consequently, our procedure is more efficient than full-scan convolutional-based applications because it concentrates computational effort only around the free boundary. Also, we show through various tests that our strategy is effective at counteracting both numerical diffusion and mass loss. In passive advection problems, for example, our method can achieve the same precision as the baseline scheme at twice the resolution but at a fraction of the cost. Similarly, our hybrid technique can produce feasible solidification fronts for crystallization processes. On the other hand, highly deforming or lengthy simulations can precipitate bias artifacts and inference deterioration. Likewise, stringent design velocity constraints can impose certain limitations, especially for problems involving rapid interface changes. In the latter cases, we have identified several opportunity avenues to enhance robustness without forgoing our approach's basic concept.
翻訳日:2021-10-25 23:51:26 公開日:2021-10-22
# (参考訳) エキスパート生成アノテーションを用いた外科的位相認識の一般化性能の再考 [全文訳有]

Rethinking Generalization Performance of Surgical Phase Recognition with Expert-Generated Annotations ( http://arxiv.org/abs/2110.11626v1 )

ライセンス: CC BY 4.0
Seungbum Hong, Jiwon Lee, Bokyung Park, Ahmed A. Alwusaibie, Anwar H. Alfadhel, SungHyun Park, Woo Jin Hyung, Min-Kook Choi(参考訳) ディープニューラルネットワークの適用領域が医学や法学などの専門知識を必要とする領域にまで拡大するにつれて、専門家の知識トレーニングのためのより精巧なアノテーションプロセスが求められている。 特に,アノテーションの専門家の間で意見の相違がある専門家知識トレーニングの場合,臨床分野における一般化性能の保証は困難である。 胃癌に対する腹腔鏡下胆嚢摘出術および腹腔鏡下胃切除術の外科的位相認識のためのアノテーション生成法について検討した。 術前のラベルの相違を解析し, 手術段階の基準を議論することにより, 胆嚢摘出7段階の校正注釈を作成した。 胃癌に対する胃切除術は, 術後21期より複雑であり, 5名の専門医とのコンセンサス・アノテーションが得られた。 修正アノテーションを用いたcnnによる手術相認識ネットワークの訓練により,同一のクロスバリデーション設定下で,オリジナルアノテーションを訓練したモデルよりも一般化性能が向上した。 深層ニューラルネットワークのための専門知識データアノテーションパイプラインは,臨床分野に適用する問題の種類に基づいてより厳密にすべきであることを示した。

As the area of application of deep neural networks expands to areas requiring expertise, e.g., in medicine and law, more exquisite annotation processes for expert knowledge training are required. In particular, it is difficult to guarantee generalization performance in the clinical field in the case of expert knowledge training where opinions may differ even among experts on annotations. To raise the issue of the annotation generation process for expertise training of CNNs, we verified the annotations for surgical phase recognition of laparoscopic cholecystectomy and subtotal gastrectomy for gastric cancer. We produce calibrated annotations for the seven phases of cholecystectomy by analyzing the discrepancies of previously annotated labels and by discussing the criteria of surgical phases. For gastrectomy for gastric cancer has more complex twenty-one surgical phases, we generate consensus annotation by the revision process with five specialists. By training the CNN-based surgical phase recognition networks with revised annotations, we achieved improved generalization performance over models trained with original annotation under the same cross-validation settings. We showed that the expertise data annotation pipeline for deep neural networks should be more rigorous based on the type of problem to apply clinical field.
翻訳日:2021-10-25 23:50:17 公開日:2021-10-22
# (参考訳) 子どもの区別学習による高齢者ギャップによる顔認識の改善 [全文訳有]

Improving Face Recognition with Large Age Gaps by Learning to Distinguish Children ( http://arxiv.org/abs/2110.11630v1 )

ライセンス: CC BY 4.0
Jungsoo Lee, Jooyeol Yun, Sunghyun Park, Yonggyu Kim, Jaegul Choo(参考訳) 前例のない顔認証の改善にもかかわらず、既存の顔認識モデルは、一対の子供と成人の画像が同一のアイデンティティに属するかどうかを判断する上で、かなり低い性能を示す。 従来のアプローチは主に、年齢による顔の外観の相違を克服するために、特定のアイデンティティの子供と大人のイメージの類似性を高めることに焦点を当てていた。 しかし、異なるアイデンティティの児童像の類似度を減らすことは、子どもの異なる特徴を学習し、子どもと大人のペアの顔認識性能を向上させるために重要である。 この直観に基づいて,子ども画像間の類似性を最小化するプロトタイプ間損失と呼ばれる新しい損失関数を提案する。 以前の研究とは異なり、プロトタイプ間の損失は、追加の子供イメージや学習可能なパラメータのトレーニングを必要としない。 より広範な実験と詳細な分析により,既存の顔認識のベースラインと親子関係のペアを比較検討した。 私たちのコードと新たに構築された子育てペアのテストセットはhttps://github.com/l eebebeto/Inter-Proto type.comで公開されています。

Despite the unprecedented improvement of face recognition, existing face recognition models still show considerably low performances in determining whether a pair of child and adult images belong to the same identity. Previous approaches mainly focused on increasing the similarity between child and adult images of a given identity to overcome the discrepancy of facial appearances due to aging. However, we observe that reducing the similarity between child images of different identities is crucial for learning distinct features among children and thus improving face recognition performance in child-adult pairs. Based on this intuition, we propose a novel loss function called the Inter-Prototype loss which minimizes the similarity between child images. Unlike the previous studies, the Inter-Prototype loss does not require additional child images or training additional learnable parameters. Our extensive experiments and in-depth analyses show that our approach outperforms existing baselines in face recognition with child-adult pairs. Our code and newly-constructed test sets of child-adult pairs are available at https://github.com/l eebebeto/Inter-Proto type.
翻訳日:2021-10-25 23:33:11 公開日:2021-10-22
# (参考訳) ピクセル単位のクロスドメインアライメントによる少数ショットセマンティクスセグメンテーション

Pixel-by-Pixel Cross-Domain Alignment for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2110.11650v1 )

ライセンス: CC BY 4.0
Antonio Tavera, Fabio Cermelli, Carlo Masone, Barbara Caputo(参考訳) 本稿では,自律運転アプリケーションにおけるセマンティックセグメンテーションの課題について考察する。 具体的には,実世界のアノテート画像と多数のアノテート合成画像のみをトレーニングで使用できるクロスドメイン・マイトショット設定を検討する。 この文脈では、領域の整列は、セグメンテーションに固有のピクセル単位のクラス不均衡によってより困難にされ、不明確なクラスを無視し、よく表現されたクラスを過度に適合させる。 我々はPixel-By-Pixel Cross-Domain Alignment (PixDA)と呼ばれる新しいフレームワークでこの問題に対処する。 我々は3つの基準を満たした新しいピクセル・バイ・ピクセル領域逆損失を提案する。 (i)各画素に対してソースとターゲットドメインをアライメントする。 (ii)正しく表現された画素の負の転送を回避し、 (iii)過失を避けるために不適切なクラスの訓練を規則化する。 画素単位の対角トレーニングは、ソースとターゲットデータの不均衡を処理する新しいサンプル選択手順と、少数のターゲット画像に対する過度な適合を回避する知識蒸留戦略によって支援される。 pixda が (1-5) ショット設定で以前の最先端メソッドを上回っている標準的な合成から実へのベンチマークを実演する。

In this paper we consider the task of semantic segmentation in autonomous driving applications. Specifically, we consider the cross-domain few-shot setting where training can use only few real-world annotated images and many annotated synthetic images. In this context, aligning the domains is made more challenging by the pixel-wise class imbalance that is intrinsic in the segmentation and that leads to ignoring the underrepresented classes and overfitting the well represented ones. We address this problem with a novel framework called Pixel-By-Pixel Cross-Domain Alignment (PixDA). We propose a novel pixel-by-pixel domain adversarial loss following three criteria: (i) align the source and the target domain for each pixel, (ii) avoid negative transfer on the correctly represented pixels, and (iii) regularize the training of infrequent classes to avoid overfitting. The pixel-wise adversarial training is assisted by a novel sample selection procedure, that handles the imbalance between source and target data, and a knowledge distillation strategy, that avoids overfitting towards the few target images. We demonstrate on standard synthetic-to-real benchmarks that PixDA outperforms previous state-of-the-art methods in (1-5)-shot settings.
翻訳日:2021-10-25 23:19:54 公開日:2021-10-22
# (参考訳) 深回転回帰のための射影多様体勾配層 [全文訳有]

Projective Manifold Gradient Layer for Deep Rotation Regression ( http://arxiv.org/abs/2110.11657v1 )

ライセンス: CC BY 4.0
Jiayi Chen, Yingda Yin, Tolga Birdal, Baoquan Chen, Leonidas Guibas, He Wang(参考訳) ディープニューラルネットワークを用いたso(3)多様体上の回帰回転は重要だが未解決の問題である。 ユークリッドネットワーク出力空間と非ユークリッドSO(3)多様体とのギャップは、前と後の両方でニューラルネットワーク学習に深刻な課題を課す。 いくつかの研究で異なる回帰親和性のある回転表現が提案されているが、逆行の勾配バックプロパゲーションを改善するための研究はごくわずかである。 本稿では,ネットワーク重みに直接逆伝搬する多様体対応勾配を提案する。 リーマン勾配と新しい射影勾配を応用し,提案した正規化射影多様体勾配(RPMG)は,様々な回転推定タスクにおいて,ネットワークが新たな最先端性能を達成するのに役立つ。 提案された勾配層は単位球面のような他の滑らかな多様体にも適用できる。

Regressing rotations on SO(3) manifold using deep neural networks is an important yet unsolved problem. The gap between Euclidean network output space and the non-Euclidean SO(3) manifold imposes a severe challenge for neural network learning in both forward and backward passes. While several works have proposed different regression-friendly rotation representations, very few works have been devoted to improving the gradient backpropagating in the backward pass. In this paper, we propose a manifold-aware gradient that directly backpropagates into deep network weights. Leveraging the Riemannian gradient and a novel projective gradient, our proposed regularized projective manifold gradient (RPMG) helps networks achieve new state-of-the-art performance in a variety of rotation estimation tasks. The proposed gradient layer can also be applied to other smooth manifolds such as the unit sphere.
翻訳日:2021-10-25 23:18:48 公開日:2021-10-22
# (参考訳) オープンワールドセグメンテーション2021におけるuvoチャレンジの1位 [全文訳有]

1st Place Solution for the UVO Challenge on Video-based Open-World Segmentation 2021 ( http://arxiv.org/abs/2110.11661v1 )

ライセンス: CC BY 4.0
Yuming Du, Wen Guo, Yang Xiao, Vincent Lepetit(参考訳) 本稿では,2段階の"detect-then-match&qu ot;ビデオインスタンスセグメンテーション手法について紹介する。 最初のステップでは、各フレームのインスタンスセグメンテーションを実行し、多数のインスタンスマスクの提案を得る。 2番目のステップは、光学フローの助けを借りてフレーム間インスタンスのマスクマッチングを行うことである。 高品質なマスクの提案では、単純なマッチング機構が追跡に十分であることを示す。 UVO 2021ビデオベースのオープンワールドセグメンテーションチャレンジでは,このアプローチが初となる。

In this report, we introduce our (pretty straightforard) two-step "detect-then-match&qu ot; video instance segmentation method. The first step performs instance segmentation for each frame to get a large number of instance mask proposals. The second step is to do inter-frame instance mask matching with the help of optical flow. We demonstrate that with high quality mask proposals, a simple matching mechanism is good enough for tracking. Our approach achieves the first place in the UVO 2021 Video-based Open-World Segmentation Challenge.
翻訳日:2021-10-25 22:49:40 公開日:2021-10-22
# (参考訳) 歩行者と車両の安全向上のための都市介入の自動化

Explainable, automated urban interventions to improve pedestrian and vehicle safety ( http://arxiv.org/abs/2110.11672v1 )

ライセンス: CC BY 4.0
Cristina Bustos, Daniel Rhoads, Albert Sole-Ribalta, David Masip, Alex Arenas, Agata Lapedriza, Javier Borge-Holthoefer(参考訳) 現在、都市移動研究や政府主導の取り組みは主に、渋滞や汚染といったモーター関連の問題に焦点を当てている。 しかし、都市景観における最も脆弱な要素、すなわち歩行者は、他の道路利用者よりも高いリスクにさらされている。 実際、安全でアクセス可能で持続可能な都市輸送システムは、国連の2030年の議題の中核的目標である。 したがって、特に過去に見過ごされてきた歩行者に対しては、交通安全の問題に高度な計算ツールを適用する機会がある。 本稿では,公共データソースと大規模街路画像とコンピュータビジョン技術を組み合わせて,歩行者と車両の安全にアプローチし,自動的かつ比較的単純かつ普遍的に適用可能なデータ処理方式を提案する。 このパイプラインに含まれるステップは、各都市シーンのハザードインデックスを決定するために、残留畳み込みニューラルネットワークの適応とトレーニング、およびこれら同じ画像に対するイメージセグメンテーションとクラスアクティベーションマッピングに基づく解釈可能性分析を含む。 この計算手法の成果は、都市全体の危険レベルの詳細なマップと、歩行者と車両の安全性を同時に改善する可能性のある介入を特定するためのヒューリスティックである。 提案された枠組みは、都市計画家や公共機関の業務を補完するものとみなすべきである。

At the moment, urban mobility research and governmental initiatives are mostly focused on motor-related issues, e.g. the problems of congestion and pollution. And yet, we can not disregard the most vulnerable elements in the urban landscape: pedestrians, exposed to higher risks than other road users. Indeed, safe, accessible, and sustainable transport systems in cities are a core target of the UN's 2030 Agenda. Thus, there is an opportunity to apply advanced computational tools to the problem of traffic safety, in regards especially to pedestrians, who have been often overlooked in the past. This paper combines public data sources, large-scale street imagery and computer vision techniques to approach pedestrian and vehicle safety with an automated, relatively simple, and universally-applicab le data-processing scheme. The steps involved in this pipeline include the adaptation and training of a Residual Convolutional Neural Network to determine a hazard index for each given urban scene, as well as an interpretability analysis based on image segmentation and class activation mapping on those same images. Combined, the outcome of this computational approach is a fine-grained map of hazard levels across a city, and an heuristic to identify interventions that might simultaneously improve pedestrian and vehicle safety. The proposed framework should be taken as a complement to the work of urban planners and public authorities.
翻訳日:2021-10-25 22:43:33 公開日:2021-10-22
# (参考訳) DQC: 微分量子化学のためのPythonプログラムパッケージ [全文訳有]

DQC: a Python program package for Differentiable Quantum Chemistry ( http://arxiv.org/abs/2110.11678v1 )

ライセンス: CC BY-SA 4.0
Muhammad F. Kasim, Susi Lehtola, Sam M. Vinko(参考訳) 自動微分(automatic differentiation)は、多くの応用において関数とその微分を評価する必要がある科学プログラミングにおけるパラダイムシフトである。 勾配の式を明示的に導出する必要をなくすことで、開発時間を短縮し、計算を単純化することができる。 これらの理由から、自動微分は、過去10年間に様々な洗練された機械学習技術の急速な成長を促してきたが、量子システムのシミュレーションをサポートし、計算量子化学を強化するために、その価値をますます示そうとしている。 本稿では,(1)分子摂動特性の計算,(2)炭化水素の基底集合の再最適化,(3)自己整合場波動関数の安定性の検証,(4)有機化学摂動による分子特性の予測,といった,自動微分によるオープンソースの微分可能な量子化学シミュレーションコードdqcについて述べる。

Automatic differentiation represents a paradigm shift in scientific programming, where evaluating both functions and their derivatives is required for most applications. By removing the need to explicitly derive expressions for gradients, development times can be be shortened, and calculations simplified. For these reasons, automatic differentiation has fueled the rapid growth of a variety of sophisticated machine learning techniques over the past decade, but is now also increasingly showing its value to support {\it ab initio} simulations of quantum systems, and enhance computational quantum chemistry. Here we present an open-source differentiable quantum chemistry simulation code, DQC, and explore applications facilitated by automatic differentiation: (1) calculating molecular perturbation properties; (2) reoptimizing a basis set for hydrocarbons; (3) checking the stability of self-consistent field wave functions; and (4) predicting molecular properties via alchemical perturbations.
翻訳日:2021-10-25 22:40:38 公開日:2021-10-22
# (参考訳) マルチモーダルブース:ウェーブレット変換を用いたマルチモーダル医用画像超解法 [全文訳有]

Multimodal-Boost: Multimodal Medical Image Super-Resolution using Multi-Attention Network with Wavelet Transform ( http://arxiv.org/abs/2110.11684v1 )

ライセンス: CC BY 4.0
Farah Deeba, Fayaz Ali Dharejo, Muhammad Zawish, Yuanchun Zhou, Kapal Dev, Sunder Ali Khowaja, and Nawab Muhammad Faseeh Qureshi(参考訳) マルチモーダル医療画像は、非侵襲的な方法で高解像度画像から補完情報を分析・取得するために、臨床医や医師によって広く用いられている。 対応する画像解像度の損失は、医用画像診断の全体的な性能を低下させる。 ディープラーニングベースのシングルイメージスーパーレゾリューション(sisr)アルゴリズムは、低解像度画像の畳み込みニューラルネットワーク(cnn)に関連するアーキテクチャコンポーネントとトレーニング戦略を継続的に改善することで、全体的な診断フレームワークに革命をもたらした。 しかし、既存の作業には2つの方法がない。 一 生成したSR出力は、テクスチャの詳細が乏しく、しばしばぼやけた縁を生じる。 ii) ほとんどのモデルは単一のモダリティのために開発されているため、新しいモダリティに適応するには修正が必要となる。 この仕事の住所 (i)低周波データから高頻度情報を学習するために,GAN(Generative Adversarial Network)と深層マルチアテンションモジュールを提案する。 既存のganに基づくアプローチは良好なsr結果を得たが、sr出力のテクスチャの詳細は特に医療画像に不足していることが実験的に確認されている。 提案するSRモデルにおけるウェーブレット変換(WT)とGANの統合は、テキストに関する上記の制限に対処する。 WTはLR画像を複数の周波数帯域に分割し、転送されたGANは複数の注目ブロックとアップサンプルブロックを使用して高周波成分を予測する。 さらに,知覚損失関数としてドメイン固有分類器を訓練する学習手法を提案する。 マルチアテンションGAN損失と知覚的損失関数を組み合わせることで、信頼性と効率のよい性能が得られる。 多様なモダリティから医療画像に同じモデルを適用するのは困難です (二)トランスファーラーニングによる複数のモダリティの訓練及び実施。

Multimodal medical images are widely used by clinicians and physicians to analyze and retrieve complementary information from high-resolution images in a non-invasive manner. The loss of corresponding image resolution degrades the overall performance of medical image diagnosis. Deep learning based single image super resolution (SISR) algorithms has revolutionized the overall diagnosis framework by continually improving the architectural components and training strategies associated with convolutional neural networks (CNN) on low-resolution images. However, existing work lacks in two ways: i) the SR output produced exhibits poor texture details, and often produce blurred edges, ii) most of the models have been developed for a single modality, hence, require modification to adapt to a new one. This work addresses (i) by proposing generative adversarial network (GAN) with deep multi-attention modules to learn high-frequency information from low-frequency data. Existing approaches based on the GAN have yielded good SR results; however, the texture details of their SR output have been experimentally confirmed to be deficient for medical images particularly. The integration of wavelet transform (WT) and GANs in our proposed SR model addresses the aforementioned limitation concerning textons. The WT divides the LR image into multiple frequency bands, while the transferred GAN utilizes multiple attention and upsample blocks to predict high-frequency components. Moreover, we present a learning technique for training a domain-specific classifier as a perceptual loss function. Combining multi-attention GAN loss with a perceptual loss function results in a reliable and efficient performance. Applying the same model for medical images from diverse modalities is challenging, our work addresses (ii) by training and performing on several modalities via transfer learning.
翻訳日:2021-10-25 22:30:31 公開日:2021-10-22
# (参考訳) 自然画像セグメンテーションのための無ノイズオンライン低ランク表現を用いた適応融合親和性グラフ [全文訳有]

Adaptive Fusion Affinity Graph with Noise-free Online Low-rank Representation for Natural Image Segmentation ( http://arxiv.org/abs/2110.11685v1 )

ライセンス: CC BY 4.0
Yang Zhang, Moyun Liu, Huiming Zhang, Guodong Sun, Jingwu He(参考訳) アフィニティグラフに基づくセグメンテーション手法はコンピュータビジョンの主要なトレンドとなっている。 これらの手法の性能は構築された親和性グラフに依存し、特に近傍位相とスーパーピクセル間のペア親和性に重点を置いている。 異なるグラフを同化する利点があるため、マルチスケールの融合グラフはシングルスケールのグラフよりも優れた性能を持つ。 しかし、これらの手法は、ペアの類似性の精度に影響を与える画像からノイズを無視する。 マルチスケールの組合せグルーピングとグラフ融合も計算複雑性を増大させる。 本稿では,自然画像セグメンテーションのためのオンライン手法として,ノイズのない低ランク表現を用いた適応型融合親和性グラフ(afa-graph)を提案する。 入力画像は、まず異なるスケールのスーパーピクセルにオーバーセグメンテーションされ、その後、改良されたカーネル密度推定法によりフィルタリングされる。 さらに,これらのスーパーピクセルのグローバルノードをサブスペース保存プレゼンテーションに基づいて選択し,スーパーピクセルの特徴分布を正確に示す。 性能を改善しつつ時間の複雑さを低減し、ノイズのないオンライン低ランク表現に基づくグローバルノードのスパース表現を用いて、各スケールでグローバルグラフを得る。 グローバルグラフは最終的に、各スケールのすべてのスーパーピクセル上に構築されたローカルグラフの更新に使用される。 BSD300、BSD500、MSRC、SBD、PASCAL VOCの実験結果は、最先端のアプローチと比較してAFAグラフの有効性を示している。

Affinity graph-based segmentation methods have become a major trend in computer vision. The performance of these methods relies on the constructed affinity graph, with particular emphasis on the neighborhood topology and pairwise affinities among superpixels. Due to the advantages of assimilating different graphs, a multi-scale fusion graph has a better performance than a single graph with single-scale. However, these methods ignore the noise from images which influences the accuracy of pairwise similarities. Multi-scale combinatorial grouping and graph fusion also generate a higher computational complexity. In this paper, we propose an adaptive fusion affinity graph (AFA-graph) with noise-free low-rank representation in an online manner for natural image segmentation. An input image is first over-segmented into superpixels at different scales and then filtered by the proposed improved kernel density estimation method. Moreover, we select global nodes of these superpixels on the basis of their subspace-preserving presentation, which reveals the feature distribution of superpixels exactly. To reduce time complexity while improving performance, a sparse representation of global nodes based on noise-free online low-rank representation is used to obtain a global graph at each scale. The global graph is finally used to update a local graph which is built upon all superpixels at each scale. Experimental results on the BSD300, BSD500, MSRC, SBD, and PASCAL VOC show the effectiveness of AFA-graph in comparison with state-of-the-art approaches.
翻訳日:2021-10-25 22:07:49 公開日:2021-10-22
# (参考訳) 形状表現を用いた知識グラフサブセットの作成

Creating Knowledge Graphs Subsets using Shape Expressions ( http://arxiv.org/abs/2110.11709v1 )

ライセンス: CC BY 4.0
Jose Emilio Labra Gayo(参考訳) Googleとその後の大企業による知識グラフの導入は、その採用と人気を高めている。 本稿では,rdfベースのグラフ,プロパティグラフ,wikibaseグラフと呼ばれる3種類の知識グラフの形式モデルを提案する。 知識グラフの質を高めるために、いくつかのアプローチでその内容の説明と検証がなされている。 形状表現(ShEx)はRDF検証のための簡潔な言語として提案されている。 本稿では、ShExの簡単な紹介と、プロパティグラフ(PShEx)とwikibaseグラフ(WShEx)の記述および検証に使用できる2つの拡張について述べる。 知識グラフの1つの問題は、それらに含まれる大量のデータである。 この問題を緩和するために、ある領域の知識グラフのサブセットを作成するというアプローチがある。 エンティティマッチング、単純なマッチング、ShExマッチング、ShExプラスSlurpおよびShExプラスPregelは、いくつかのコンテンツまたはシェイプ式を一致させることで、サブセットを宣言的に定義する。 最後のアプローチは、ビッグデータグラフを処理でき、Apache Spark GraphXに実装されているPregelアルゴリズムに基づいた、ShExの新たなバリデーションアルゴリズムに基づいている。

The initial adoption of knowledge graphs by Google and later by big companies has increased their adoption and popularity. In this paper we present a formal model for three different types of knowledge graphs which we call RDF-based graphs, property graphs and wikibase graphs. In order to increase the quality of Knowledge Graphs, several approaches have appeared to describe and validate their contents. Shape Expressions (ShEx) has been proposed as concise language for RDF validation. We give a brief introduction to ShEx and present two extensions that can also be used to describe and validate property graphs (PShEx) and wikibase graphs (WShEx). One problem of knowledge graphs is the large amount of data they contain, which jeopardizes their practical application. In order to palliate this problem, one approach is to create subsets of those knowledge graphs for some domains. We propose the following approaches to generate those subsets: Entity-matching, simple matching, ShEx matching, ShEx plus Slurp and ShEx plus Pregel which are based on declaratively defining the subsets by either matching some content or by Shape Expressions. The last approach is based on a novel validation algorithm for ShEx based on the Pregel algorithm that can handle big data graphs and has been implemented on Apache Spark GraphX.
翻訳日:2021-10-25 21:48:29 公開日:2021-10-22
# (参考訳) 確率的biレベル最適化のための投影自由アルゴリズム

Projection-Free Algorithm for Stochastic Bi-level Optimization ( http://arxiv.org/abs/2110.11721v1 )

ライセンス: CC BY 4.0
Zeeshan Akhtar, Amrit Singh Bedi, Srujan Teja Thomdapu and Ketan Rajawat(参考訳) 本稿では, 対象関数が別の確率的最適化問題の解に依存する確率的双レベル最適化問題を解く最初のプロジェクションフリーアルゴリズムを提案する。 提案された$\textbf{s}$tochastic $\textbf{bi}$-level $\textbf{f}$rank-$\textbf{w}$olfe (\textbf{sbfw}$)アルゴリズムはストリーミング設定に適用でき、大規模なバッチやチェックポイントを使用しない。 SBFW のサンプル複雑性は凸対象に対して $\mathcal{O}(\epsilon^{-3})$ および非凸対象に対して $\mathcal{O}(\epsilon^{-4})$ であることが示されている。 2段階問題の特別な場合である確率的構成問題に対して改善率を導出し、2つの期待値関数の構成を最小化する。 提案する$\textbf{s}$tochastic $\textbf{c}$ompositional $\textbf{f}$rank-$\textbf{w}$olfe (\textbf{scfw}$) は、凸対象に対して$\mathcal{o}(\epsilon^{-2})$ と非凸対象に対して$\mathcal{o}(\epsilon^{-3})$ というサンプル複雑性を、単レベル問題を解くプロジェクションフリーアルゴリズムの最先端のサンプル複雑さと同等に達成できることが示されている。 本稿では,強化学習における行列完了問題と政策価値評価問題を解くことで,提案手法の利点を実証する。

This work presents the first projection-free algorithm to solve stochastic bi-level optimization problems, where the objective function depends on the solution of another stochastic optimization problem. The proposed $\textbf{S}$tochastic $\textbf{Bi}$-level $\textbf{F}$rank-$\textbf{W}$olfe ($\textbf{SBFW}$) algorithm can be applied to streaming settings and does not make use of large batches or checkpoints. The sample complexity of SBFW is shown to be $\mathcal{O}(\epsilon^{-3})$ for convex objectives and $\mathcal{O}(\epsilon^{-4})$ for non-convex objectives. Improved rates are derived for the stochastic compositional problem, which is a special case of the bi-level problem, and entails minimizing the composition of two expected-value functions. The proposed $\textbf{S}$tochastic $\textbf{C}$ompositional $\textbf{F}$rank-$\textbf{W}$olfe ($\textbf{SCFW}$) is shown to achieve a sample complexity of $\mathcal{O}(\epsilon^{-2})$ for convex objectives and $\mathcal{O}(\epsilon^{-3})$ for non-convex objectives, at par with the state-of-the-art sample complexities for projection-free algorithms solving single-level problems. We demonstrate the advantage of the proposed methods by solving the problem of matrix completion with denoising and the problem of policy value evaluation in reinforcement learning.
翻訳日:2021-10-25 21:47:31 公開日:2021-10-22
# (参考訳) 異なるレンダリングによる制御可能な3次元人間の作成と再現

Creating and Reenacting Controllable 3D Humans with Differentiable Rendering ( http://arxiv.org/abs/2110.11746v1 )

ライセンス: CC BY-SA 4.0
Thiago L. Gomes and Thiago M. Coutinho and Rafael Azevedo and Renato Martins and Erickson R. Nascimento(参考訳) 本稿では,人間アクターの出現と再現のためのニューラルレンダリングアーキテクチャを提案する。 本手法は,人間の身体多様体構造をモデル化するために注意深く設計されたグラフ畳み込みネットワーク(gcn)を利用し,その初期記録から異なる文脈の人物の新しい映像を合成する。 近年の外観伝達法と異なり, 視覚合成における身体形状とテクスチャの出現から多様体構造を考慮しつつ, 完全に制御可能な3次元テクスチャマップモデルを構築することができる。 具体的には、人間の体に描画されたシルエットを自己監督的に訓練した3段階のGCNを用いてメッシュ変形をモデル化する。 また、テクスチャドメイン内の畳み込みネットワークによってテクスチャの外観を推論し、異なるポーズで俳優のレンダリングされたイメージから人間のテクスチャを再構築する。 異なるビデオ上での実験では, 構造的類似性(SSIM), 学習された知覚的イメージパッチ類似性(LPIPS), 平均正方形誤差(MSE), Fr\echet Video Distance(FVD)の両面から, 具体的な変形を推測し, テクスチャアーチファクトの生成を回避できることが示されている。 微分可能レンダリングと3次元パラメトリックモデルの両方の利点を生かして,提案手法は完全に制御可能であり,ポーズパラメータとレンダリングパラメータの両方から人間の合成を制御できる。 ソースコードはhttps://www.verlab.d cc.ufmg.br/retargeti ng-motion/wacv2022で入手できる。

This paper proposes a new end-to-end neural rendering architecture to transfer appearance and reenact human actors. Our method leverages a carefully designed graph convolutional network (GCN) to model the human body manifold structure, jointly with differentiable rendering, to synthesize new videos of people in different contexts from where they were initially recorded. Unlike recent appearance transferring methods, our approach can reconstruct a fully controllable 3D texture-mapped model of a person, while taking into account the manifold structure from body shape and texture appearance in the view synthesis. Specifically, our approach models mesh deformations with a three-stage GCN trained in a self-supervised manner on rendered silhouettes of the human body. It also infers texture appearance with a convolutional network in the texture domain, which is trained in an adversarial regime to reconstruct human texture from rendered images of actors in different poses. Experiments on different videos show that our method successfully infers specific body deformations and avoid creating texture artifacts while achieving the best values for appearance in terms of Structural Similarity (SSIM), Learned Perceptual Image Patch Similarity (LPIPS), Mean Squared Error (MSE), and Fr\'echet Video Distance (FVD). By taking advantages of both differentiable rendering and the 3D parametric model, our method is fully controllable, which allows controlling the human synthesis from both pose and rendering parameters. The source code is available at https://www.verlab.d cc.ufmg.br/retargeti ng-motion/wacv2022.
翻訳日:2021-10-25 21:45:56 公開日:2021-10-22
# (参考訳) 均衡仮説:深層ニューラルネットワークにおける暗黙の正則化再考

The Equilibrium Hypothesis: Rethinking implicit regularization in Deep Neural Networks ( http://arxiv.org/abs/2110.11749v1 )

ライセンス: CC BY 4.0
Yizhang Lou, Chris Mingard, Soufiane Hayou(参考訳) 現代のディープニューラルネットワーク(DNN)は、明示的な正規化なしで様々なタスクに顕著な一般化特性を示し、隠された正規化効果の存在を示唆している。 Baratin et al. (2021) による最近の研究は、興味深い暗黙の正規化効果に光を当て、いくつかの層が他の層よりもはるかにデータラベルと整合していることを示している。 これはネットワークの深さと幅が大きくなるにつれて、トレーニング中に暗黙の層選択現象が起こることを示唆している。 本稿では,このアライメント階層について,最初の説明を行う。 我々は,前方情報損失と後方情報損失のバランスをとる層がデータラベルに最も一致する層であることを示す平衡仮説を導入し,実証的に検証する。 我々の実験は理論的な予測とよく一致している。

Modern Deep Neural Networks (DNNs) exhibit impressive generalization properties on a variety of tasks without explicit regularization, suggesting the existence of hidden regularization effects. Recent work by Baratin et al. (2021) sheds light on an intriguing implicit regularization effect, showing that some layers are much more aligned with data labels than other layers. This suggests that as the network grows in depth and width, an implicit layer selection phenomenon occurs during training. In this work, we provide the first explanation for this alignment hierarchy. We introduce and empirically validate the Equilibrium Hypothesis which states that the layers that achieve some balance between forward and backward information loss are the ones with the highest alignment to data labels. Our experiments demonstrate an excellent match with the theoretical predictions.
翻訳日:2021-10-25 21:44:51 公開日:2021-10-22
# (参考訳) 機械学習によるネットワーク機能からの金融市場構造予測 [全文訳有]

Forecasting Financial Market Structure from Network Features using Machine Learning ( http://arxiv.org/abs/2110.11751v1 )

ライセンス: CC BY 4.0
Douglas Castilho, Tharsis T. P. Souza, Soong Moon Kang, Jo\~ao Gama and Andr\'e C. P. L. F. de Carvalho(参考訳) 機械学習を用いて,リンクおよびノードベースの金融ネットワーク機能から市場相関構造を予測するモデルを提案する。 そのため、市場構造は、主要なグローバル市場指標の企業構成員間で時間依存の資産価格リターンのコムーブメントを定量化し、動的資産ネットワークとしてモデル化される。 本稿では,3つの異なるネットワークフィルタリング手法を用いて市場構造,すなわち動的アセットグラフ(DAG),動的ミニマルスパンニングツリー(DMST),動的スレッショルドネットワーク(DTN)を推定する実験的な証拠を提供する。 実験の結果,提案モデルは,時間不変相関に基づくベンチマークと比較して,最大40\%$改善の予測性能の高い市場構造を予測できることがわかった。 非ペアワイド相関特性は、調査対象とする全ての市場、特に長期の株式市場構造予測において、従来使用されていたペアワイド相関指標と比較して重要であることが判明した。 DAX30、EUROSTOXX50、FTSE100、HANGSENG50、NASDAQ100、NIFTY50の銘柄に記載されている。 ポートフォリオの選択やリスク管理方法の改善には,一般的にはポートフォリオのリスクを見積もるために,後方方向の共分散行列に依存する。

We propose a model that forecasts market correlation structure from link- and node-based financial network features using machine learning. For such, market structure is modeled as a dynamic asset network by quantifying time-dependent co-movement of asset price returns across company constituents of major global market indices. We provide empirical evidence using three different network filtering methods to estimate market structure, namely Dynamic Asset Graph (DAG), Dynamic Minimal Spanning Tree (DMST) and Dynamic Threshold Networks (DTN). Experimental results show that the proposed model can forecast market structure with high predictive performance with up to $40\%$ improvement over a time-invariant correlation-based benchmark. Non-pair-wise correlation features showed to be important compared to traditionally used pair-wise correlation measures for all markets studied, particularly in the long-term forecasting of stock market structure. Evidence is provided for stock constituents of the DAX30, EUROSTOXX50, FTSE100, HANGSENG50, NASDAQ100 and NIFTY50 market indices. Findings can be useful to improve portfolio selection and risk management methods, which commonly rely on a backward-looking covariance matrix to estimate portfolio risk.
翻訳日:2021-10-25 21:43:25 公開日:2021-10-22
# (参考訳) LSTMエンコーダデコーダと動的時間ワープを用いた銀行顧客クラスタリング [全文訳有]

Clustering of Bank Customers using LSTM-based encoder-decoder and Dynamic Time Warping ( http://arxiv.org/abs/2110.11769v1 )

ライセンス: CC BY 4.0
Ehsan Barkhordar, Mohammad Hassan Shirali-Shahreza, Hamid Reza Sadeghi(参考訳) クラスタリングは、顧客をセグメント化するために使用できる教師なしのデータマイニング技術である。 顧客の効率的なクラスタリングにより、銀行はターゲット顧客の特徴に基づいて、設計と提供が可能になる。 本研究では,実世界の金融データセット(Berka, 2000)を用いて,エンコーダデコーダネットワークと動的時間ワープ(DTW)手法を用いて銀行顧客をクラスタリングする。 クラスタ化に必要な顧客特性は,ダイナミックタイムワーピング(dtw),レジェンシー周波数・通貨(rfm),lstmエンコーダ・デコーダネットワーク,提案するハイブリッド手法の4種類である。 顧客取引データによってlstmモデルを訓練すると、エンコーダによって各顧客の特徴ベクトルが自動的に抽出され、さらにdtwを用いて取引量のペア間の距離が得られた。 もうひとつのベクター機能は、rfmスコアによって顧客に計算された。 ハイブリッド方式では、特徴ベクトルはエンコーダデコーダ出力、DTW距離、人口統計データ(年齢や性別など)から合成される。 最後に,k-meansクラスタリングアルゴリズムの入力として特徴ベクトルを導入し,silhouette と davies-bouldin index との比較を行った。 その結果、ハイブリッドアプローチから得られたクラスタは、個々のクラスタリング技術に由来するクラスタよりも正確で有意義である。 さらに、ニューラルネットワーク層の種類はクラスタに大きな影響を与え、高いネットワークエラーは必ずしもクラスタリング性能を悪化させるわけではない。

Clustering is an unsupervised data mining technique that can be employed to segment customers. The efficient clustering of customers enables banks to design and make offers based on the features of the target customers. The present study uses a real-world financial dataset (Berka, 2000) to cluster bank customers by an encoder-decoder network and the dynamic time warping (DTW) method. The customer features required for clustering are obtained in four ways: Dynamic Time Warping (DTW), Recency Frequency and Monetary (RFM), LSTM encoder-decoder network, and our proposed hybrid method. Once the LSTM model was trained by customer transaction data, a feature vector of each customer was automatically extracted by the encoder.Moreover, the distance between pairs of sequences of transaction amounts was obtained using DTW. Another vector feature was calculated for customers by RFM scoring. In the hybrid method, the feature vectors are combined from the encoder-decoder output, the DTW distance, and the demographic data (e.g., age and gender). Finally, feature vectors were introduced as input to the k-means clustering algorithm, and we compared clustering results with Silhouette and Davies-Bouldin index. As a result, the clusters obtained from the hybrid approach are more accurate and meaningful than those derived from individual clustering techniques. In addition, the type of neural network layers had a substantial effect on the clusters, and high network error does not necessarily worsen clustering performance.
翻訳日:2021-10-25 21:22:40 公開日:2021-10-22
# (参考訳) シンクフォーマー:2つの確率的注意を持つトランスフォーマー [全文訳有]

Sinkformers: Transformers with Doubly Stochastic Attention ( http://arxiv.org/abs/2110.11773v1 )

ライセンス: CC BY 4.0
Michael E. Sander, Pierre Ablin, Mathieu Blondel, Gabriel Peyr\'e(参考訳) トランスフォーマーのような注意に基づくモデルは、学習可能な注意行列でモデル化されたデータポイント間のペアワイズな相互作用を伴う。 重要なことに、この注意行列はSoftMax演算子で正規化され、行ワイド確率的である。 そこで本稿では,Sinkhorn のアルゴリズムを用いて注意行列を2倍確率的に求める手法を提案する。 結果のモデルをSinkformerと呼びます。 古典的変圧器の行方向確率的注意行列は、エポック数の増加に伴って二重確率行列に近づくことを示し、シンクホーン正規化を情報的先行として用いることを正当化する。 理論的には、ソフトマックス演算とは異なり、この正規化により、自己着加群の反復をワッサースタイン計量の離散勾配フローとして理解することができる。 また,無限個のサンプルでは,アテンション行列と深さをリスケーリングすると,シンクフォーマーが熱拡散を制御できることを示した。 実験面では、Sinkformersは視覚および自然言語処理タスクにおけるモデル精度を向上させる。 特に3次元形状分類では、シンクフォーマーは顕著な改善をもたらす。

Attention based models such as Transformers involve pairwise interactions between data points, modeled with a learnable attention matrix. Importantly, this attention matrix is normalized with the SoftMax operator, which makes it row-wise stochastic. In this paper, we propose instead to use Sinkhorn's algorithm to make attention matrices doubly stochastic. We call the resulting model a Sinkformer. We show that the row-wise stochastic attention matrices in classical Transformers get close to doubly stochastic matrices as the number of epochs increases, justifying the use of Sinkhorn normalization as an informative prior. On the theoretical side, we show that, unlike the SoftMax operation, this normalization makes it possible to understand the iterations of self-attention modules as a discretized gradient-flow for the Wasserstein metric. We also show in the infinite number of samples limit that, when rescaling both attention matrices and depth, Sinkformers operate a heat diffusion. On the experimental side, we show that Sinkformers enhance model accuracy in vision and natural language processing tasks. In particular, on 3D shapes classification, Sinkformers lead to a significant improvement.
翻訳日:2021-10-25 21:15:45 公開日:2021-10-22
# (参考訳) リー群上の安定ベクトル場を学ぶ [全文訳有]

Learning Stable Vector Fields on Lie Groups ( http://arxiv.org/abs/2110.11774v1 )

ライセンス: CC BY 4.0
Julen Urain, Davide Tateo and Jan Peters(参考訳) デモからロボットの動きを学習するには、作業空間でタスクが定義されたときに、ロボット全体のポーズのベクトルフィールドを表現できるモデルが必要である。 反応運動生成の最近の進歩は、適応性、反応性、滑らか、安定なベクトル場を学ぶことができることを示している。 しかし、これらのアプローチは平面ユークリッド多様体上のベクトル場を定義し、リー群のような非ユークリッド多様体の動力学をモデル化するために必要な向きのベクトル場を表現している。 本稿では,従来のアプローチ,すなわち安定性,滑らかさ,およびユークリッド空間を超えた反応性のほとんどを保証できる新しいベクトル場モデルを提案する。 実験評価では,提案するベクトル場モデルを用いて,シミュレーションと実ロボット作業の両方において,完全ロボットポーズの安定ベクトル場をse(2),se(3)として学習する性能を示す。

Learning robot motions from demonstration requires having models that are able to represent vector fields for the full robot pose when the task is defined in operational space. Recent advances in reactive motion generation have shown that it is possible to learn adaptive, reactive, smooth, and stable vector fields. However, these approaches define a vector field on a flat Euclidean manifold, while representing vector fields for orientations required to model the dynamics in non-Euclidean manifolds, such as Lie Groups. In this paper, we present a novel vector field model that can guarantee most of the properties of previous approaches i.e., stability, smoothness, and reactivity beyond the Euclidean space. In the experimental evaluation, we show the performance of our proposed vector field model to learn stable vector fields for full robot poses as SE(2) and SE(3) in both simulated and real robotics tasks.
翻訳日:2021-10-25 20:51:47 公開日:2021-10-22
# (参考訳) ロバストガウス混合モデルによるセンチネル-2時系列の再構成 -コムギおよびラピセド作物の異常作物発生検出への応用- [全文訳有]

Reconstruction of Sentinel-2 Time Series Using Robust Gaussian Mixture Models -- Application to the Detection of Anomalous Crop Development in wheat and rapeseed crops ( http://arxiv.org/abs/2110.11780v1 )

ライセンス: CC BY 4.0
Florian Mouret, Mohanad Albughdadi, Sylvie Duthoit, Denis Kouam\'e, Guillaume Rieu, Jean-Yves Tourneret(参考訳) データの欠落はリモートセンシングにおいて繰り返し発生する問題であり、主にマルチスペクトル画像のクラウドカバレッジと取得の問題による。 これは、特に機械学習技術に依存するアプリケーションにおいて、特に、機能マトリックスが欠落した値を持っていないと一般的に想定される、作物のモニタリングにとって重要な問題である。 マルチスペクトル画像から抽出したパーセルレベルの特徴を再構成するためのガウス混合モデル(GMM)を提案する。 データセットは不正確なサンプルや特徴によって汚染されるため、GMMの堅牢なバージョンも調査されている(例えば、誤った作物タイプ、不正確な境界、未検出の雲など)。 sentinel-1データを用いた合成開口レーダ(sar)画像から抽出した追加の特徴は、補完的情報を提供し、インプテーションを改善するためにも用いられる。 本研究で検討したロバストなGMMは,GMMパラメータの推定時に外周に減重を割り当て,最終的な再構成を改善する。 これらの重みは、分離フォレストアルゴリズムが提供する外れ値を用いて、期待最大化(em)アルゴリズムの各ステップで計算される。 ボース地域(フランス)のラプシーズと小麦の果肉について実験的に検証した。 全体として,GMM計算法は他の再建戦略よりも優れていることを示す。 平均絶対誤差(mae)は0.013(resp. 0.019)であり、レイプされた(resp. wheat)パーセルの中央正規化差指数(ndvi)を含意する。 他の指標(例:正規化差水指数)と統計(例:パーセルインジケータの不均一性を捉えた異種間距離)は、精度良く同時に再構成される。 無関係なサンプルによって汚染されたデータセットでは、標準のGMM計算が不正確な不正確な値をもたらす可能性があるため、ロバストなGMMを使用することが推奨される。

Missing data is a recurrent problem in remote sensing, mainly due to cloud coverage for multispectral images and acquisition problems. This can be a critical issue for crop monitoring, especially for applications relying on machine learning techniques, which generally assume that the feature matrix does not have missing values. This paper proposes a Gaussian Mixture Model (GMM) for the reconstruction of parcel-level features extracted from multispectral images. A robust version of the GMM is also investigated, since datasets can be contaminated by inaccurate samples or features (e.g., wrong crop type reported, inaccurate boundaries, undetected clouds, etc). Additional features extracted from Synthetic Aperture Radar (SAR) images using Sentinel-1 data are also used to provide complementary information and improve the imputations. The robust GMM investigated in this work assigns reduced weights to the outliers during the estimation of the GMM parameters, which improves the final reconstruction. These weights are computed at each step of an Expectation-Maximiza tion (EM) algorithm by using outlier scores provided by the isolation forest algorithm. Experimental validation is conducted on rapeseed and wheat parcels located in the Beauce region (France). Overall, we show that the GMM imputation method outperforms other reconstruction strategies. A mean absolute error (MAE) of 0.013 (resp. 0.019) is obtained for the imputation of the median Normalized Difference Index (NDVI) of the rapeseed (resp. wheat) parcels. Other indicators (e.g., Normalized Difference Water Index) and statistics (for instance the interquartile range, which captures heterogeneity among the parcel indicator) are reconstructed at the same time with good accuracy. In a dataset contaminated by irrelevant samples, using the robust GMM is recommended since the standard GMM imputation can lead to inaccurate imputed values.
翻訳日:2021-10-25 20:35:28 公開日:2021-10-22
# (参考訳) SLOPE問題の解における零点同定のための安全ルール [全文訳有]

Safe rules for the identification of zeros in the solutions of the SLOPE problem ( http://arxiv.org/abs/2110.11784v1 )

ライセンス: CC BY 4.0
Cl\'ement Elvira and C\'edric Herzet(参考訳) 本稿では,いわゆる 'Sorted L-One Penalized Estimation' (SLOPE) 問題の解決を早める手法を提案する。 本手法は, <textit{group-separable} sparsity-inducing norms の文献でよく研究されている ``safe screening'' の概念を活用し, SLOPE の解における零点の同定を目的とする。 具体的には、 \(n!) の族を紹介します。 \) この問題の安全なスクリーニングルール、ここでは \(n\) は原変数の次元であり、これらのテストのうちの1つがパスされているかどうかを検証するための抽出可能な手順を提案する。 我々の手順は複雑性 \(\mathcal{O}(n\log n + LT)\) を持ち、ここで \(T\leq n\) は問題依存定数であり、 \(L\) はテストによって特定される零点の数である。 提案手法の性能を数値ベンチマークで評価し,多くのセットアップにおいて計算量を大幅に削減できることを強調する。

In this paper we propose a methodology to accelerate the resolution of the so-called ``Sorted L-One Penalized Estimation'' (SLOPE) problem. Our method leverages the concept of ``safe screening'', well-studied in the literature for \textit{group-separable} sparsity-inducing norms, and aims at identifying the zeros in the solution of SLOPE. More specifically, we introduce a family of \(n!\) safe screening rules for this problem, where \(n\) is the dimension of the primal variable, and propose a tractable procedure to verify if one of these tests is passed. Our procedure has a complexity \(\mathcal{O}(n\log n + LT)\) where \(T\leq n\) is a problem-dependent constant and \(L\) is the number of zeros identified by the tests. We assess the performance of our proposed method on a numerical benchmark and emphasize that it leads to significant computational savings in many setups.
翻訳日:2021-10-25 19:56:08 公開日:2021-10-22
# (参考訳) クラス識別によるフェデレーション・アンラーニング [全文訳有]

Federated Unlearning via Class-Discriminative Pruning ( http://arxiv.org/abs/2110.11794v1 )

ライセンス: CC BY 4.0
Junxiao Wang, Song Guo, Xin Xie, Heng Qi(参考訳) フェデレーション学習(fl)において,訓練されたcnn分類モデルからカテゴリを選択的に忘れる問題を検討する。 FLではトレーニングに使用されるデータがグローバルにアクセスできないため、我々の洞察は各チャネルの内部的影響を深く調査する。 異なるチャネルによって活性化される特徴写像の可視化を通して、異なるチャネルが画像分類における異なるカテゴリに様々な寄与があることを観察する。 そこで本研究では,特定のカテゴリ情報からモデルを抽出する手法を提案する。 このメソッドは、スクラッチからの再トレーニングや、トレーニングに使用するデータへのグローバルアクセスを必要としない。 代わりに、チャネルのクラス識別を定量化するために、TF-IDF(Term Frequency Inverse Document Frequency)の概念を導入する。 TF-IDFスコアの高いチャネルは、対象のカテゴリに対してより差別的であり、未学習にプルーニングする必要がある。 チャネルプルーニングは、プルーニングされたモデルのパフォーマンスを回復するための微調整プロセスが続く。 CIFAR10データセットを用いて評価した結果,ResNetモデルでは8.9倍,VGGモデルでは7.9倍の高速化を実現した。 CIFAR100データセットでは、スピードアップはそれぞれ9.9xと8.4xである。 この研究は、法的および倫理的基準の遵守に向けたflの補完的ブロックとして考えています。

We explore the problem of selectively forgetting categories from trained CNN classification models in the federated learning (FL). Given that the data used for training cannot be accessed globally in FL, our insights probe deep into the internal influence of each channel. Through the visualization of feature maps activated by different channels, we observe that different channels have a varying contribution to different categories in image classification. Inspired by this, we propose a method for scrubbing the model clean of information about particular categories. The method does not require retraining from scratch, nor global access to the data used for training. Instead, we introduce the concept of Term Frequency Inverse Document Frequency (TF-IDF) to quantize the class discrimination of channels. Channels with high TF-IDF scores have more discrimination on the target categories and thus need to be pruned to unlearn. The channel pruning is followed by a fine-tuning process to recover the performance of the pruned model. Evaluated on CIFAR10 dataset, our method accelerates the speed of unlearning by 8.9x for the ResNet model, and 7.9x for the VGG model under no degradation in accuracy, compared to retraining from scratch. For CIFAR100 dataset, the speedups are 9.9x and 8.4x, respectively. We envision this work as a complementary block for FL towards compliance with legal and ethical criteria.
翻訳日:2021-10-25 19:20:36 公開日:2021-10-22
# (参考訳) HDRVideo-GAN:ディープジェネレーティブなHDRビデオ再構成 [全文訳有]

HDRVideo-GAN: Deep Generative HDR Video Reconstruction ( http://arxiv.org/abs/2110.11795v1 )

ライセンス: CC BY 4.0
Mrinal Anand, Nidhin Harilal, Chandan Kumar, Shanmuganathan Raman(参考訳) 高ダイナミックレンジ(HDR)ビデオは、標準的な低ダイナミックレンジ(LDR)ビデオよりも視覚的にリアルな体験を提供する。 HDR画像の大幅な進歩にもかかわらず、従来のオフザシェルフカメラで高品質なHDRビデオを撮影することは依然として難しい課題である。 既存のアプローチは、HDRフレームを再構築するために、隣接するLDRシーケンス間の密度の高い光フローを使用することに完全に依存している。 しかし、ノイズフレームによる露光を交互に適用すると、時間とともに色と露光が矛盾する。 本稿では,ldrシーケンスからのhdr映像再構成のためのエンドツーエンドganベースフレームワークを提案する。 まず、ノイズの多いLDRビデオからクリーンなLDRフレームを抽出し、自己教師付き環境で訓練された聴覚ネットワークと交互に露光する。 光フローを用いて、隣接する交互露光フレームを基準フレームに整列し、高品質なHDRフレームを完全対向的に再構成する。 生成したフレームのロバスト性と品質をさらに向上するために,時間安定性に基づく正規化期間と,トレーニング中のコスト関数のコンテントとスタイルに基づく損失を組み込む。 実験により,本フレームワークは最先端の性能を実現し,既存の手法よりも高品質なHDRフレームを生成することが示された。

High dynamic range (HDR) videos provide a more visually realistic experience than the standard low dynamic range (LDR) videos. Despite having significant progress in HDR imaging, it is still a challenging task to capture high-quality HDR video with a conventional off-the-shelf camera. Existing approaches rely entirely on using dense optical flow between the neighboring LDR sequences to reconstruct an HDR frame. However, they lead to inconsistencies in color and exposure over time when applied to alternating exposures with noisy frames. In this paper, we propose an end-to-end GAN-based framework for HDR video reconstruction from LDR sequences with alternating exposures. We first extract clean LDR frames from noisy LDR video with alternating exposures with a denoising network trained in a self-supervised setting. Using optical flow, we then align the neighboring alternating-exposure frames to a reference frame and then reconstruct high-quality HDR frames in a complete adversarial setting. To further improve the robustness and quality of generated frames, we incorporate temporal stability-based regularization term along with content and style-based losses in the cost function during the training procedure. Experimental results demonstrate that our framework achieves state-of-the-art performance and generates superior quality HDR frames of a video over the existing methods.
翻訳日:2021-10-25 19:02:58 公開日:2021-10-22
# (参考訳) プルーニングマスクの確率的微調整とpac-bayes自己拘束学習

Probabilistic fine-tuning of pruning masks and PAC-Bayes self-bounded learning ( http://arxiv.org/abs/2110.11804v1 )

ライセンス: CC BY 4.0
Soufiane Hayou, Bobby He, Gintare Karolina Dziugaite(参考訳) 本研究では, 確率的プルーニングマスクの損失を最適化し, 重量比の確率と独立して各重量をゼロにすることによるプルーニングマスクの学習手法について検討した。 線形回帰の設定における確率予測器のトレーニングダイナミクスを解析し、線形回帰におけるドロップアウトを減らすことで知られているデータ適応型L2正規化項とは対照的に、データ適応型L1正規化項を観察する。 また、データラベルとあまり一致しないpruneの重みに対する好みも観察しています。 ニューラルネットワークのための確率的プルーニングマスクを最適化するための確率的ファインチューニングの評価を行った。 いずれの場合も、微調整された確率的プルーニングマスクのしきい値においても、ベースラインよりもテスト誤差が改善する。 最後に,確率的プルーニングマスクは確率的ニューラルネットワークを誘導するので,一般化誤差にバウンドしたpac-bayesを最小化するために,重みと/またはプルーニング確率を同時に訓練することを検討する。 データ依存優先法を用いて,強い性能と数値的に密接な境界を持つ自己境界学習アルゴリズムを得る。 線形モデルにおいて,pac-bayes一般化誤差のバウンドは,'prior'データと'posterior'データ間の特徴アライメントの変化の大きさによって制御されることを示す。

We study an approach to learning pruning masks by optimizing the expected loss of stochastic pruning masks, i.e., masks which zero out each weight independently with some weight-specific probability. We analyze the training dynamics of the induced stochastic predictor in the setting of linear regression, and observe a data-adaptive L1 regularization term, in contrast to the dataadaptive L2 regularization term known to underlie dropout in linear regression. We also observe a preference to prune weights that are less well-aligned with the data labels. We evaluate probabilistic fine-tuning for optimizing stochastic pruning masks for neural networks, starting from masks produced by several baselines. In each case, we see improvements in test error over baselines, even after we threshold fine-tuned stochastic pruning masks. Finally, since a stochastic pruning mask induces a stochastic neural network, we consider training the weights and/or pruning probabilities simultaneously to minimize a PAC-Bayes bound on generalization error. Using data-dependent priors, we obtain a selfbounded learning algorithm with strong performance and numerically tight bounds. In the linear model, we show that a PAC-Bayes generalization error bound is controlled by the magnitude of the change in feature alignment between the 'prior' and 'posterior' data.
翻訳日:2021-10-25 18:47:49 公開日:2021-10-22
# (参考訳) PropMix: ノイズラベルによる学習のためのハードサンプルフィルタリングとプロポーショナルミックスアップ [全文訳有]

PropMix: Hard Sample Filtering and Proportional MixUp for Learning with Noisy Labels ( http://arxiv.org/abs/2110.11809v1 )

ライセンス: CC BY 4.0
Filipe R. Cordeiro, Vasileios Belagiannis, Ian Reid, Gustavo Carneiro(参考訳) 最も競争力のあるノイズラベル学習法は、クリーンサンプルとノイズサンプルの教師なし分類に依存しており、ノイズと分類されたサンプルは、クリーンサンプルで"MixMatched"と再ラベルされる。 これらの方法には大きなノイズレート問題に2つの問題がある。 1)ノイズ集合は、不正に再ラベルされた硬いサンプルを多く含む傾向があり、 2)mixmatchが生成するサンプルの数は小さくクリーンなセットサイズによって制限されるため少なくなる傾向がある。 本稿では,上記の問題に対処するための学習アルゴリズムpropmixを提案する。 propmixは難しいノイズのサンプルをフィルタし、簡単なノイズのサンプルを正しく再ラベルする可能性を高めることを目標としている。 また、RipMixは、MixUpで強化されたトレーニングセットに、クリーンで再レイアウトされた簡単なノイズサンプルを配置し、クリーンなセットサイズ制約を取り除き、正しくレイアウトされた簡単なノイズサンプルを多数含む。 また,ノイズの多いラベルシナリオに対するロバスト性を改善するために,自己教師付き事前トレーニングも含む。 実験の結果,CIFAR-10/-100(対称,非対称,セマンティックラベルノイズを含む),Red Mini-ImageNet(制御ノイズWebラベルから),Chrothing1M,WebVis ionに対して,PropMixの最先端(SOTA)結果が得られた。 重度なラベルノイズベンチマークでは,他の手法よりも結果がかなり良好である。 コードはhttps://github.com/f ilipe-research/propm ixで入手できる。

The most competitive noisy label learning methods rely on an unsupervised classification of clean and noisy samples, where samples classified as noisy are re-labelled and "MixMatched" with the clean samples. These methods have two issues in large noise rate problems: 1) the noisy set is more likely to contain hard samples that are in-correctly re-labelled, and 2) the number of samples produced by MixMatch tends to be reduced because it is constrained by the small clean set size. In this paper, we introduce the learning algorithm PropMix to handle the issues above. PropMix filters out hard noisy samples, with the goal of increasing the likelihood of correctly re-labelling the easy noisy samples. Also, PropMix places clean and re-labelled easy noisy samples in a training set that is augmented with MixUp, removing the clean set size constraint and including a large proportion of correctly re-labelled easy noisy samples. We also include self-supervised pre-training to improve robustness to high noisy label scenarios. Our experiments show that PropMix has state-of-the-art (SOTA) results on CIFAR-10/-100(with symmetric, asymmetric and semantic label noise), Red Mini-ImageNet (from the Controlled Noisy Web Labels), Clothing1M and WebVision. In severe label noise bench-marks, our results are substantially better than other methods. The code is available athttps://github.com /filipe-research/Pro pMix.
翻訳日:2021-10-25 18:46:37 公開日:2021-10-22
# (参考訳) IVS3D: インテリジェントビデオサンプリングと3D再構成のための前処理のためのオープンソースフレームワーク [全文訳有]

IVS3D: An Open Source Framework for Intelligent Video Sampling and Preprocessing to Facilitate 3D Reconstruction ( http://arxiv.org/abs/2110.11810v1 )

ライセンス: CC BY 4.0
Max Hermann, Thomas Pollok, Daniel Brommer, Dominic Zahn(参考訳) 詳細な3Dモデルの作成は、3次元空間でのナビゲーション、建設計画、災害評価など幅広い応用に関係している。 しかし、複雑な処理と詳細な3d復元に要する長い実行時間は、その結果を妥当な時間で得るために元のデータベースを縮小する必要がある。 そこで本稿では,画像シーケンスの知的前処理のためのフレームワークiVS3Dを提案する。 私たちのソフトウェアは、サンプルビデオ全体を特定のフレームレートにダウンさせ、個々の画像のサイズを変えて収穫することができる。 さらに、モジュールアーキテクチャのおかげで、プラグインと追加のアルゴリズムの開発と統合が容易になります。 3つのプラグインをベースラインとして提供し、適切な画像のインテリジェントな選択を可能にし、それらを追加情報で強化する。 動きのぼかしに影響を受ける画像のフィルタリングを行うために,これらのフレームを検知し,その代替画像として空間近傍を探索するプラグインを開発した。 第2のプラグインは、光学フローを使用して、一時的に静止したカメラによって引き起こされる冗長な画像を検出する。 実験では、カメラの速度が変化した場合、このアプローチがよりバランスの取れた画像サンプリングにどのようにつながるかを示し、このような冗長な画像を除外すると、シーケンスに8.1パーセントの時間を節約できることを示した。 第3のプラグインは、セマンティックセグメンテーションを実行することで、困難な画像領域を3D再構成から除外することができる。 コミュニティがそのようなアプローチから大きな恩恵を受けることができると考えているので、我々はフレームワークと開発済みプラグインをMITライセンスを使ってオープンソースに公開し、共同開発と容易に拡張できるようにします。

The creation of detailed 3D models is relevant for a wide range of applications such as navigation in three-dimensional space, construction planning or disaster assessment. However, the complex processing and long execution time for detailed 3D reconstructions require the original database to be reduced in order to obtain a result in reasonable time. In this paper we therefore present our framework iVS3D for intelligent pre-processing of image sequences. Our software is able to down sample entire videos to a specific frame rate, as well as to resize and crop the individual images. Furthermore, thanks to our modular architecture, it is easy to develop and integrate plugins with additional algorithms. We provide three plugins as baseline methods that enable an intelligent selection of suitable images and can enrich them with additional information. To filter out images affected by motion blur, we developed a plugin that detects these frames and also searches the spatial neighbourhood for suitable images as replacements. The second plugin uses optical flow to detect redundant images caused by a temporarily stationary camera. In our experiments, we show how this approach leads to a more balanced image sampling if the camera speed varies, and that excluding such redundant images leads to a time saving of 8.1\percent for our sequences. A third plugin makes it possible to exclude challenging image regions from the 3D reconstruction by performing semantic segmentation. As we think that the community can greatly benefit from such an approach, we will publish our framework and the developed plugins open source using the MIT licence to allow co-development and easy extension.
翻訳日:2021-10-25 18:27:03 公開日:2021-10-22
# (参考訳) 数百万次元の確率的ode解 [全文訳有]

Probabilistic ODE Solutions in Millions of Dimensions ( http://arxiv.org/abs/2110.11812v1 )

ライセンス: CC BY 4.0
Nicholas Kr\"amer, Nathanael Bosch, Jonathan Schmidt, and Philipp Hennig(参考訳) 常微分方程式(odes)の確率的解法は、力学系における不確かさの定量化と推論の効率的な枠組みとして登場した。 本稿では,確率的数値アルゴリズムを用いて,高次元のオデムを解くための数学的仮定と詳細な実装スキームについて述べる。 これは、各ソルバステップにおける行列行列演算のため以前には不可能であったが、科学的に関連する問題(最も重要なのは、離散 {partial} 微分方程式の解)にとって重要である。 簡単に言えば、効率的な高次元確率的ODEソリューションは、独立性の仮定または以前のモデルにおけるクロネッカー構造の上に構築される。 数百万次元の微分方程式の確率論的数値シミュレーションを含む,様々な問題に対する結果の効率性を評価する。

Probabilistic solvers for ordinary differential equations (ODEs) have emerged as an efficient framework for uncertainty quantification and inference on dynamical systems. In this work, we explain the mathematical assumptions and detailed implementation schemes behind solving {high-dimensional} ODEs with a probabilistic numerical algorithm. This has not been possible before due to matrix-matrix operations in each solver step, but is crucial for scientifically relevant problems -- most importantly, the solution of discretised {partial} differential equations. In a nutshell, efficient high-dimensional probabilistic ODE solutions build either on independence assumptions or on Kronecker structure in the prior model. We evaluate the resulting efficiency on a range of problems, including the probabilistic numerical simulation of a differential equation with millions of dimensions.
翻訳日:2021-10-25 18:16:27 公開日:2021-10-22
# (参考訳) 環境に対するAIソリューションの隠れた環境影響の解明 [全文訳有]

Unraveling the hidden environmental impacts of AI solutions for environment ( http://arxiv.org/abs/2110.11822v1 )

ライセンス: CC BY 4.0
Anne-Laure Ligozat, Julien Lef\`evre, Aur\'elie Bugeau, Jacques Combaz(参考訳) 過去10年間、人工知能は、環境問題や温室効果ガス排出量(ghg)を解決するためのツールとして、現在選択されているような劇的な進歩に遭遇してきた。 同時に、ディープラーニングコミュニティは、より多くのパラメータを持つトレーニングモデルには大量のエネルギーと結果としてGHG排出量が必要であることに気づき始めた。 我々の知る限り、環境に対するAI手法の完全な環境影響("AI for Green")に疑問を投げかけることは、GHGだけでなく、直接的に対処することはない。 本稿では,「緑のためのAI」の負の影響について考察する。 1)まず、異なるタイプのAI影響をレビューすることで、 2)これらの影響,特にライフサイクルアセスメントを評価するための異なる方法論を提示し, 3)一般AIサービスの環境有用性を評価する方法について論じる。

In the past ten years artificial intelligence has encountered such dramatic progress that it is seen now as a tool of choice to solve environmental issues and in the first place greenhouse gas emissions (GHG). At the same time the deep learning community began to realize that training models with more and more parameters required a lot of energy and as a consequence GHG emissions. To our knowledge, questioning the complete environmental impacts of AI methods for environment ("AI for green"), and not only GHG, has never been addressed directly. In this article we propose to study the possible negative impact of "AI for green" 1) by reviewing first the different types of AI impacts 2) by presenting the different methodologies used to assess those impacts, in particular life cycle assessment and 3) by discussing how to assess the environmental usefulness of a general AI service.
翻訳日:2021-10-25 17:50:21 公開日:2021-10-22
# (参考訳) 多視点コントラストグラフクラスタリング [全文訳有]

Multi-view Contrastive Graph Clustering ( http://arxiv.org/abs/2110.11842v1 )

ライセンス: CC BY 4.0
Erlin Pan, Zhao Kang(参考訳) 情報技術の爆発的な成長に伴い、多視点グラフデータはますます普及し、価値を高めている。 既存のマルチビュークラスタリング技術のほとんどは、複数のグラフやマルチビュー属性のシナリオに焦点を当てている。 本稿では,マルチビュー属性グラフデータをクラスタリングするための汎用フレームワークを提案する。 具体的には、コントラスト学習の成功に触発されて、元のグラフがノイズや不完全で直接適用できないため、コンセンサスグラフを学ぶためのマルチビューコントラストグラフクラスタリング(mcgc)手法を提案する。 提案手法は,まず,グラフフィルタを用いてグラフ幾何学的特徴を保存しながら所望の高周波ノイズを除去し,ノードのスムーズな表現を得る。 いくつかのベンチマークデータセットの結果は、最先端のアプローチに対する我々の手法の優位性を示している。 特に、我々のシンプルなアプローチは、既存のディープラーニングベースの方法よりも優れています。

With the explosive growth of information technology, multi-view graph data have become increasingly prevalent and valuable. Most existing multi-view clustering techniques either focus on the scenario of multiple graphs or multi-view attributes. In this paper, we propose a generic framework to cluster multi-view attributed graph data. Specifically, inspired by the success of contrastive learning, we propose multi-view contrastive graph clustering (MCGC) method to learn a consensus graph since the original graph could be noisy or incomplete and is not directly applicable. Our method composes of two key steps: we first filter out the undesirable high-frequency noise while preserving the graph geometric features via graph filtering and obtain a smooth representation of nodes; we then learn a consensus graph regularized by graph contrastive loss. Results on several benchmark datasets show the superiority of our method with respect to state-of-the-art approaches. In particular, our simple approach outperforms existing deep learning-based methods.
翻訳日:2021-10-25 17:34:54 公開日:2021-10-22
# (参考訳) 時間依存偏微分方程式に対する直線の確率的数値解法 [全文訳有]

Probabilistic Numerical Method of Lines for Time-Dependent Partial Differential Equations ( http://arxiv.org/abs/2110.11847v1 )

ライセンス: CC BY 4.0
Nicholas Kr\"amer, Jonathan Schmidt, and Philipp Hennig(参考訳) 本研究は非線形時間依存偏微分方程式(PDE)の数値解に対する確率論的アルゴリズムのクラスを開発する。 現在のpdeソルバは、空間的および時間的分割を連続的に処理し、時間的近似誤差と時間的近似誤差の相互作用を曖昧にし、全体的な誤差の定量化を誤認するブラックボックスアルゴリズムで処理する。 この問題を解決するために,線法と呼ばれる手法の確率的バージョンを提案する。 提案するアルゴリズムは、有限差分法のガウス過程解釈から始まり、共通の言語であるベイズ推論(英語版)を共有するため、フィルタリングに基づく確率的常微分方程式(ode)解法と自然に相互作用する。 空間不確かさと時間不確かさの同時定量化は、十分に調整されたODEソルバの性能上の利点を失うことなく実現できる。 これにより、微分方程式シミュレーションのための確率的プログラムのツールボックスをPDEに拡張する。

This work develops a class of probabilistic algorithms for the numerical solution of nonlinear, time-dependent partial differential equations (PDEs). Current state-of-the-art PDE solvers treat the space- and time-dimensions separately, serially, and with black-box algorithms, which obscures the interactions between spatial and temporal approximation errors and misguides the quantification of the overall error. To fix this issue, we introduce a probabilistic version of a technique called method of lines. The proposed algorithm begins with a Gaussian process interpretation of finite difference methods, which then interacts naturally with filtering-based probabilistic ordinary differential equation (ODE) solvers because they share a common language: Bayesian inference. Joint quantification of space- and time-uncertainty becomes possible without losing the performance benefits of well-tuned ODE solvers. Thereby, we extend the toolbox of probabilistic programs for differential equation simulation to PDEs.
翻訳日:2021-10-25 17:23:06 公開日:2021-10-22
# (参考訳) ワッサーシュタイン距離を用いたクラスタリング市場レジーム

Clustering Market Regimes using the Wasserstein Distance ( http://arxiv.org/abs/2110.11848v1 )

ライセンス: CC0 1.0
Blanka Horvath, Zacharia Issa, Aitor Muguruza(参考訳) 異なる市場体制を迅速かつ自動で検出する問題は、金融数学者や実践家にとっても大きな関心事である。 本稿では,金融時系列を適切な時間セグメント(市場状況)にクラスタ化するための教師なし学習アルゴリズムについて概説する。 上記の特殊な事例として,市場体制を分類するプロセスを自動化する頑健なアルゴリズムを開発する。 本手法は,実際のデータセットを用いた実験結果から,基礎となる時系列のモデル化仮定に依存しないという意味では堅牢である。 この方法 -- Wasserstein $k$-means algorithm と呼ばれる -- は、(経験的)分布の間の$p$-Wasserstein距離という観点で、有限の$p^\text{th}$ moment を持つ確率測度空間上の問題の1つをフレーム化する。 WK-meansアプローチと従来型のクラスタリングアルゴリズムを比較して,クラスタ内およびクラスタ内における,いわゆる最大平均差スコアについて検討する。 どちらの場合も、WK-meansアルゴリズムは競合するアプローチよりも優れていることが示されている。 本研究では, 合成データと実データの両方において, 制御環境における全手法の性能を示す。

The problem of rapid and automated detection of distinct market regimes is a topic of great interest to financial mathematicians and practitioners alike. In this paper, we outline an unsupervised learning algorithm for clustering financial time-series into a suitable number of temporal segments (market regimes). As a special case of the above, we develop a robust algorithm that automates the process of classifying market regimes. The method is robust in the sense that it does not depend on modelling assumptions of the underlying time series as our experiments with real datasets show. This method -- dubbed the Wasserstein $k$-means algorithm -- frames such a problem as one on the space of probability measures with finite $p^\text{th}$ moment, in terms of the $p$-Wasserstein distance between (empirical) distributions. We compare our WK-means approach with a more traditional clustering algorithms by studying the so-called maximum mean discrepancy scores between, and within clusters. In both cases it is shown that the WK-means algorithm vastly outperforms all considered competitor approaches. We demonstrate the performance of all approaches both in a controlled environment on synthetic data, and on real data.
翻訳日:2021-10-25 16:58:42 公開日:2021-10-22
# (参考訳) 特殊性向上のための軽量デコーディング戦略 [全文訳有]

Lightweight Decoding Strategies for Increasing Specificity ( http://arxiv.org/abs/2110.11850v1 )

ライセンス: CC BY 4.0
Katy Ilonka Gero, Chris Kedzie, Savvas Petridis and Lydia Chilton(参考訳) 言語モデルはあいまいで一般的な出力を生成することが知られている。 本研究では,生成時の確率分布を出力する任意のモデルの特異性を高めるために,単語頻度と点方向の相互情報に基づく教師なし復号戦略を2つ提案する。 我々は,迅速な完了タスクで戦略をテストする。人間による評価では,両戦略とも感性低下のみを伴い,出力の特異性を高めることが判明した。 また、これらの戦略がより具体的な要約を生成できるような要約ユースケースを簡潔に提示する。

Language models are known to produce vague and generic outputs. We propose two unsupervised decoding strategies based on either word-frequency or point-wise mutual information to increase the specificity of any model that outputs a probability distribution over its vocabulary at generation time. We test the strategies in a prompt completion task; with human evaluations, we find that both strategies increase the specificity of outputs with only modest decreases in sensibility. We also briefly present a summarization use case, where these strategies can produce more specific summaries.
翻訳日:2021-10-25 16:57:28 公開日:2021-10-22
# (参考訳) 後悔最小化エージェント間の競売 [全文訳有]

Auctions Between Regret-Minimizing Agents ( http://arxiv.org/abs/2110.11855v1 )

ライセンス: CC BY 4.0
Yoav Kolumbus and Noam Nisan(参考訳) 後悔最小化アルゴリズムとして実装されたソフトウェアエージェントがユーザに代わって繰り返しオークションに参加するシナリオを分析した。 我々は、第1価格と第2価格のオークション、および一般化されたバージョン(例えば、広告オークションに使用されるもの)について研究する。 理論的解析とシミュレーションの両方を用いて、意外なことに第2の価格オークションでは、プレイヤーは真の評価を自身の学習エージェントに誤って報告するインセンティブを持つ一方で、第1の価格オークションでは、すべてのプレイヤーが真に彼らの評価をエージェントに報告する支配的な戦略であることを示す。

We analyze a scenario in which software agents implemented as regret minimizing algorithms engage in a repeated auction on behalf of their users. We study first price and second price auctions, as well as their generalized versions (e.g., as those used for ad auctions). Using both theoretical analysis and simulations, we show that, surprisingly, in second price auctions the players have incentives to mis-report their true valuations to their own learning agents, while in the first price auction it is a dominant strategy for all players to truthfully report their valuations to their agents.
翻訳日:2021-10-25 16:50:18 公開日:2021-10-22
# (参考訳) 卵巣癌に対する新しい治療法発見のための患者レベルシミュレーションと強化学習 [全文訳有]

Patient level simulation and reinforcement learning to discover novel strategies for treating ovarian cancer ( http://arxiv.org/abs/2110.11872v1 )

ライセンス: CC BY 4.0
Brian Murphy, Mustafa Nasir-Moin, Grace von Oiste, Viola Chen, Howard A Riina, Douglas Kondziolka, Eric K Oermann(参考訳) 上皮性卵巣癌に対する予後は, 他のがんに対する生存率の改善にもかかわらず, 相変わらず良好である。 治療は多系統の化学療法を伴い、初回治療後の不均一性が増す。 実世界の成果データによる強化学習は、全体の生存を改善するための新しい治療戦略を特定する可能性がある。 上皮性卵巣癌治療の軌跡をモデル化する強化学習環境をデザインし,モデルフリー強化学習を用いてシミュレーション患者に対する治療体制の検討を行う。

The prognosis for patients with epithelial ovarian cancer remains dismal despite improvements in survival for other cancers. Treatment involves multiple lines of chemotherapy and becomes increasingly heterogeneous after first-line therapy. Reinforcement learning with real-world outcomes data has the potential to identify novel treatment strategies to improve overall survival. We design a reinforcement learning environment to model epithelial ovarian cancer treatment trajectories and use model free reinforcement learning to investigate therapeutic regimens for simulated patients.
翻訳日:2021-10-25 16:21:02 公開日:2021-10-22
# (参考訳) Gapoera: インドネシアのボードゲームにおけるAI環境のためのアプリケーションプログラミングインターフェース [全文訳有]

Gapoera: Application Programming Interface for AI Environment of Indonesian Board Game ( http://arxiv.org/abs/2110.11924v1 )

ライセンス: CC BY 4.0
Rian Adam Rajagede and Galang Prihadi Mahardhika(参考訳) 現在、コンピュータゲームの開発は飛躍的な増加を見せている。 今日のインターネットアクセスの容易さとスピードは、コンピュータゲーム、特にオンラインでプレイされるコンピュータゲームの開発にも影響を与えている。 インターネット技術により、コンピュータゲームはマルチプレイヤーモードでプレイできるようになった。 コンピュータゲームにおけるプレイヤー間のインタラクションは、いくつかの方法で構築することができる。 対戦相手は知的なエージェントを使って開発できる。 一方、インテリジェントエージェントの開発に関する研究も急速に進んでいる。 コンピュータゲーム開発において、インテリジェントエージェントのパフォーマンスを測定する最も簡単な方法の1つは、インテリジェントエージェントが他のプレイヤーと対話できる仮想環境を開発することである。 本研究では,ボードゲームのためのインテリジェントエージェントと仮想環境の開発を試みる。 アクセスしやすいように、インテリジェントエージェントと仮想環境は、Gapoera APIと呼ばれるアプリケーションプログラミングインターフェース(API)サービスに開発されます。 GapoeraのAPIサービスは、ゲームデベロッパーがゲームに埋め込まれる人工知能についてよく考えなくてもゲームを開発するのに役立つと期待されている。 このサービスは、インドネシアでよくプレイされるボードゲームをユーザに提供できる、基本的なマルチレベルインテリジェントエージェントを提供する。 Gapoera APIは様々な種類のゲームに利用できるが、本稿ではインドネシアで人気のあるボードゲームであるMancalaの議論に焦点を当てる。 実験の結果,多レベルエージェントの概念は期待通りに機能した。 その一方で、gapoera apiサービスの開発も、いくつかのゲームプラットフォームで成功を収めている。

Currently, the development of computer games has shown a tremendous surge. The ease and speed of internet access today have also influenced the development of computer games, especially computer games that are played online. Internet technology has allowed computer games to be played in multiplayer mode. Interaction between players in a computer game can be built in several ways, one of which is by providing balanced opponents. Opponents can be developed using intelligent agents. On the other hand, research on developing intelligent agents is also growing rapidly. In computer game development, one of the easiest ways to measure the performance of an intelligent agent is to develop a virtual environment that allows the intelligent agent to interact with other players. In this research, we try to develop an intelligent agent and virtual environment for the board game. To be easily accessible, the intelligent agent and virtual environment are then developed into an Application Programming Interface (API) service called Gapoera API. The Gapoera API service that is built is expected to help game developers develop a game without having to think much about the artificial intelligence that will be embedded in the game. This service provides a basic multilevel intelligent agent that can provide users with playing board games commonly played in Indonesia. Although the Gapoera API can be used for various types of games, in this paper, we will focus on the discussion on a popular traditional board game in Indonesia, namely Mancala. The test results conclude that the multilevel agent concept developed has worked as expected. On the other hand, the development of the Gapoera API service has also been successfully accessed on several game platforms.
翻訳日:2021-10-25 16:07:34 公開日:2021-10-22
# 科学機械学習を用いた動的システムの実験的分岐解析

Using scientific machine learning for experimental bifurcation analysis of dynamic systems ( http://arxiv.org/abs/2110.11854v1 )

ライセンス: Link先を確認
Sandor Beregi and David A. W. Barton and Djamel Rezgui and Simon A. Neild(参考訳) 機械学習可能な構造を持つ機械的常微分方程式(ODE)モデルの拡大は、測定データを通じて専門家の知識と現実の両方を取り入れた高精度で低次元の工学系モデルを作成するための新しいアプローチである。 本研究は, フラッター振動を受けるエアロフォイルと電磁力学非線形発振器を用いた物理非線形力学系に対する普遍微分方程式(UDE)モデルの訓練に焦点をあてる。 数値シミュレーションによりトレーニングデータが生成される例を考察するとともに,提案したモデリング概念を物理実験に適用することにより,幅広い複雑さの問題を調査する。 トレーニングデータを収集するために、制御ベースの継続法は、安定しただけでなく、観測されたシステムの不安定な極限サイクルを捉えるために用いられる。 この機能により、標準のオープンループアプローチよりも観測されたシステムに関する情報を抽出することができる。 ニューラルネットワークとガウス過程の両方を、力学モデルと共に普遍近似器として使用し、UDEモデリングアプローチの正確性と堅牢性を批判的に評価する。 また、現在のモデリングフレームワークの限界を示すトレーニング手順中に発生する可能性のある潜在的な問題を強調します。

Augmenting mechanistic ordinary differential equation (ODE) models with machine-learnable structures is an novel approach to create highly accurate, low-dimensional models of engineering systems incorporating both expert knowledge and reality through measurement data. Our exploratory study focuses on training universal differential equation (UDE) models for physical nonlinear dynamical systems with limit cycles: an aerofoil undergoing flutter oscillations and an electrodynamic nonlinear oscillator. We consider examples where training data is generated by numerical simulations, whereas we also employ the proposed modelling concept to physical experiments allowing us to investigate problems with a wide range of complexity. To collect the training data, the method of control-based continuation is used as it captures not just the stable but also the unstable limit cycles of the observed system. This feature makes it possible to extract more information about the observed system than the standard, open-loop approach would allow. We use both neural networks and Gaussian processes as universal approximators alongside the mechanistic models to give a critical assessment of the accuracy and robustness of the UDE modelling approach. We also highlight the potential issues one may run into during the training procedure indicating the limits of the current modelling framework.
翻訳日:2021-10-25 15:59:49 公開日:2021-10-22
# MHAttnSurv:全スライディング画像を用いた生存予測のためのマルチヘッド注意

MHAttnSurv: Multi-Head Attention for Survival Prediction Using Whole-Slide Pathology Images ( http://arxiv.org/abs/2110.11558v1 )

ライセンス: Link先を確認
Shuai Jiang, Arief A. Suriawinata, Saeed Hassanpour(参考訳) 病理学では、全体スライダー画像(wsi)に基づく生存予測が注目されている。 しかし、WSIsの大規模化と病理学者のアノテーションの欠如を考えると、WSIsから予後情報を抽出することは難しい課題である。 従来の研究では、複数のランダムにサンプリングされたパッチからの情報を組み合わせるために複数のインスタンス学習アプローチが用いられてきたが、異なる視覚パターンが予後予測に異なる貢献をする可能性がある。 本研究では,腫瘍スライドの様々な部分に着目し,WSIからより包括的な情報抽出を行うマルチヘッドアテンション手法を開発した。 The Cancer Genome Atlas database から4種類の癌について検討した。 平均c-indexは0.640で、wsiベースのサバイバル予測には2つの既存手法を上回っており、平均c-indexは0.603と0.619である。 注意マップの可視化により、それぞれの注意ヘッドは異なる形態パターンに相乗的に焦点を合わせていることが明らかとなった。

In pathology, whole-slide images (WSI) based survival prediction has attracted increasing interest. However, given the large size of WSIs and the lack of pathologist annotations, extracting the prognostic information from WSIs remains a challenging task. Previous studies have used multiple instance learning approaches to combine the information from multiple randomly sampled patches, but different visual patterns may contribute differently to prognosis prediction. In this study, we developed a multi-head attention approach to focus on various parts of a tumor slide, for more comprehensive information extraction from WSIs. We evaluated our approach on four cancer types from The Cancer Genome Atlas database. Our model achieved an average c-index of 0.640, outperforming two existing state-of-the-art approaches for WSI-based survival prediction, which have an average c-index of 0.603 and 0.619 on these datasets. Visualization of our attention maps reveals each attention head focuses synergistically on different morphological patterns.
翻訳日:2021-10-25 15:59:12 公開日:2021-10-22
# 学習画像再構成のための条件変動オートエンコーダ

Conditional Variational Autoencoder for Learned Image Reconstruction ( http://arxiv.org/abs/2110.11681v1 )

ライセンス: Link先を確認
Chen Zhang and Riccardo Barbano Bangti Jin(参考訳) 深層ニューラルネットワークを用いた学習画像再構成技術が最近人気を集め、有望な実験結果を提供している。 しかし、ほとんどのアプローチは観測毎に1つのリカバリに焦点を合わせ、不確実性情報を無視する。 本研究では,各問合せ観察における未知画像の後方分布を近似する新しい計算フレームワークを開発した。 暗黙のノイズモデルと事前処理を処理し、データ形成プロセス(すなわちフォワード演算子)を組み込んで、学習した再構築特性を異なるデータセット間で転送可能にする。 条件付き変分オートエンコーダ損失を用いてネットワークを訓練すると、フィードフォワード伝播による近似後続分布に対する計算効率の高いサンプリング器が提供され、生成されたサンプルの集計統計は点推定と不確実性定量の両方に使用される。 ポジトロン放射トモグラフィー(中等度・低数レベル)の広範な数値実験により,本フレームワークが最先端の手法と比較して高品質な試料を生成することを示す。

Learned image reconstruction techniques using deep neural networks have recently gained popularity, and have delivered promising empirical results. However, most approaches focus on one single recovery for each observation, and thus neglect the uncertainty information. In this work, we develop a novel computational framework that approximates the posterior distribution of the unknown image at each query observation. The proposed framework is very flexible: It handles implicit noise models and priors, it incorporates the data formation process (i.e., the forward operator), and the learned reconstructive properties are transferable between different datasets. Once the network is trained using the conditional variational autoencoder loss, it provides a computationally efficient sampler for the approximate posterior distribution via feed-forward propagation, and the summarizing statistics of the generated samples are used for both point-estimation and uncertainty quantification. We illustrate the proposed framework with extensive numerical experiments on positron emission tomography (with both moderate and low count levels) showing that the framework generates high-quality samples when compared with state-of-the-art methods.
翻訳日:2021-10-25 15:58:53 公開日:2021-10-22
# ディープラーニングを用いたランダム摂動力学系の不変分布の計算

Computing the Invariant Distribution of Randomly Perturbed Dynamical Systems Using Deep Learning ( http://arxiv.org/abs/2110.11538v1 )

ライセンス: Link先を確認
Bo Lin, Qianxiao Li, Weiqing Ren(参考訳) 定常フォッカー・プランク方程式によって特徴づけられる不変分布は、ランダムな摂動力学系の研究において重要な対象である。 伝統的に、有限差分法や有限要素法のようなフォッカー・プランク方程式に基づく不変分布を計算する数値計算法は、次元性の呪いによる低次元システムに限られる。 本研究では,一般ポテンシャル,すなわち雑音に乗じた不変分布の負対数を計算するための深層学習に基づく手法を提案する。 この手法の考え方は、軌跡データからFokker-Planck方程式によって定義された力場の分解を学習することである。 分解のポテンシャル成分は一般化ポテンシャルを与える。 この方法は高次元システム、おそらく部分的に知られている力学を扱うことができる。 一般化ポテンシャルを用いることで、準安定状態の周りの不変分布が特異になるような低温のシステムにも対処できる。 これらの利点は、実用力学系における不変分布を効率的に解析する方法である。 提案手法の有効性を数値例で示す。

The invariant distribution, which is characterized by the stationary Fokker-Planck equation, is an important object in the study of randomly perturbed dynamical systems. Traditional numerical methods for computing the invariant distribution based on the Fokker-Planck equation, such as finite difference or finite element methods, are limited to low-dimensional systems due to the curse of dimensionality. In this work, we propose a deep learning based method to compute the generalized potential, i.e. the negative logarithm of the invariant distribution multiplied by the noise. The idea of the method is to learn a decomposition of the force field, as specified by the Fokker-Planck equation, from the trajectory data. The potential component of the decomposition gives the generalized potential. The method can deal with high-dimensional systems, possibly with partially known dynamics. Using the generalized potential also allows us to deal with systems at low temperatures, where the invariant distribution becomes singular around the metastable states. These advantages make it an efficient method to analyze invariant distributions for practical dynamical systems. The effectiveness of the proposed method is demonstrated by numerical examples.
翻訳日:2021-10-25 15:57:14 公開日:2021-10-22
# 最適輸送のための高速かつ正確な分割法:解析と実装

A Fast and Accurate Splitting Method for Optimal Transport: Analysis and Implementation ( http://arxiv.org/abs/2110.11738v1 )

ライセンス: Link先を確認
Vien V. Mai, Jacob Lindb\"ack, Mikael Johansson(参考訳) 我々は,高速かつ信頼性の高い大規模最適輸送(OT)問題を,前例のない速度と精度の組み合わせで解く方法を開発した。 ダグラス・ラフフォード分割法に基づいて構築され、多くの最先端技術と同様に、近似正規化問題を解く代わりに、元のOT問題に直接取り組む。 これにより、疎輸送計画を提供し、エントロピー正規化を利用する手法の数値問題を回避することができる。 アルゴリズムは、一般的なシンクホーン法と同じイテレーション毎のコストを持ち、各イテレーションを並列に効率的に実行できる。 提案手法は,Sinkhorn法において最もよく知られた$O(1/\epsilon^2)$と比較して,反復複雑性が$O(1/\epsilon)$である。 さらに,OT問題を定式化するための線形収束率を確立する。 本稿では,提案手法のGPUによる効率的な実装について述べる。 計算時間とロバスト性の観点から,本手法の有効性を実証する実験を行った。

We develop a fast and reliable method for solving large-scale optimal transport (OT) problems at an unprecedented combination of speed and accuracy. Built on the celebrated Douglas-Rachford splitting technique, our method tackles the original OT problem directly instead of solving an approximate regularized problem, as many state-of-the-art techniques do. This allows us to provide sparse transport plans and avoid numerical issues of methods that use entropic regularization. The algorithm has the same cost per iteration as the popular Sinkhorn method, and each iteration can be executed efficiently, in parallel. The proposed method enjoys an iteration complexity $O(1/\epsilon)$ compared to the best-known $O(1/\epsilon^2)$ of the Sinkhorn method. In addition, we establish a linear convergence rate for our formulation of the OT problem. We detail an efficient GPU implementation of the proposed method that maintains a primal-dual stopping criterion at no extra cost. Substantial experiments demonstrate the effectiveness of our method, both in terms of computation times and robustness.
翻訳日:2021-10-25 15:56:58 公開日:2021-10-22
# 通信とリソースを最適化した無線iotネットワークによる連合学習

Federated Learning over Wireless IoT Networks with Optimized Communication and Resources ( http://arxiv.org/abs/2110.11775v1 )

ライセンス: Link先を確認
Hao Chen, Shaocheng Huang, Deyou Zhang, Ming Xiao, Mikael Skoglund, and H. Vincent Poor(参考訳) 大規模分散データと計算資源を活用するため,ネットワークエッジにおける機械学習は,特に大規模モデルトレーニングにおいて有望な手法であると考えられる。 協調学習技術のパラダイムとしてのフェデレーション学習(fl)は,コミュニケーション効率とデータプライバシの向上というメリットにより,研究の注目を集めている。 通信チャネルの損失と限られた通信資源(例えば帯域幅と電力)のため、無線システム上の高速応答と正確なflスキームを調査することが重要である。 そこで本研究では,無線モノのインターネット(IoT)ネットワーク上でFLの通信効率とリソースを協調的に最適化する問題について検討する。 複雑さを減らすために、全体的な最適化問題をクライアントスケジューリング問題とリソース割り当て問題という2つのサブ問題に分割する。 無線IoTネットワークにおけるFLの通信コストを低減するため、静的モデルパラメータを再利用して新しいクライアントスケジューリングポリシーを提案する。 ネットワーク上の情報交換を最大化するために、電力変数、帯域幅変数、伝送インジケータを含む変数を分離することにより、ラグランジュ乗算器法を最初に活用する。 次に,線形探索に基づく電力・帯域割り当て手法を開発した。 適切なハイパーパラメータを仮定すると,提案した通信効率向上型連合学習(CEFL)フレームワークは強い線形速度で収束することを示す。 提案するceflフレームワークは,無線iotネットワーク上での学習損失とテスト精度の両方の通信効率と学習性能を,一様リソース割り当てによる基本的なflアプローチと比較して大幅に向上することが明らかとなった。

To leverage massive distributed data and computation resources, machine learning in the network edge is considered to be a promising technique especially for large-scale model training. Federated learning (FL), as a paradigm of collaborative learning techniques, has obtained increasing research attention with the benefits of communication efficiency and improved data privacy. Due to the lossy communication channels and limited communication resources (e.g., bandwidth and power), it is of interest to investigate fast responding and accurate FL schemes over wireless systems. Hence, we investigate the problem of jointly optimized communication efficiency and resources for FL over wireless Internet of things (IoT) networks. To reduce complexity, we divide the overall optimization problem into two sub-problems, i.e., the client scheduling problem and the resource allocation problem. To reduce the communication costs for FL in wireless IoT networks, a new client scheduling policy is proposed by reusing stale local model parameters. To maximize successful information exchange over networks, a Lagrange multiplier method is first leveraged by decoupling variables including power variables, bandwidth variables and transmission indicators. Then a linear-search based power and bandwidth allocation method is developed. Given appropriate hyper-parameters, we show that the proposed communication-effici ent federated learning (CEFL) framework converges at a strong linear rate. Through extensive experiments, it is revealed that the proposed CEFL framework substantially boosts both the communication efficiency and learning performance of both training loss and test accuracy for FL over wireless IoT networks compared to a basic FL approach with uniform resource allocation.
翻訳日:2021-10-25 15:56:42 公開日:2021-10-22
# ユーザ数が少ない、厳密で堅牢なプライベート平均推定

Tight and Robust Private Mean Estimation with Few Users ( http://arxiv.org/abs/2110.11876v1 )

ライセンス: Link先を確認
Hossein Esfandiari, Vahab Mirrokni, Shyam Narayanan(参考訳) 本研究では,ユーザレベルのディファレンシャルプライバシの下での高次元平均推定と,可能な限り少数のユーザを用いた$(\epsilon,\delta)$- differentially private機構の設計を試みる。 特に、ユーザが$O(\frac{1}{\epsilon}\log\frac{1}{\delta})$である場合でも、ユーザ数とプライベート平均推定に必要なユーザ一人当たりのサンプル数とのほぼ最適なトレードオフを提供します。 興味深いことに、我々の有界な$O(\frac{1}{\epsilon}\log\frac{1}{\delta})$は、Amin et al が残した問題を多項式的に解決する以前の作業とは異なり、ユーザ数では次元に依存しない。 ICML'2019より。 我々のメカニズムは、ユーザーの49ドル%の情報が破損したとしても、最終的な見積もりは依然としてほぼ正確である。 最後に, 離散分布の学習, 確率凸最適化, 経験的リスク最小化, 微分的平均推定への還元による確率的勾配降下の変種など, 幅広い問題に適用した。

In this work, we study high-dimensional mean estimation under user-level differential privacy, and attempt to design an $(\epsilon,\delta)$- differentially private mechanism using as few users as possible. In particular, we provide a nearly optimal trade-off between the number of users and the number of samples per user required for private mean estimation, even when the number of users is as low as $O(\frac{1}{\epsilon}\log\frac{1}{\delta})$. Interestingly our bound $O(\frac{1}{\epsilon}\log\frac{1}{\delta})$ on the number of users is independent of the dimension, unlike the previous work that depends polynomially on the dimension, solving a problem left open by Amin et al.~(ICML'2019). Our mechanism enjoys robustness up to the point that even if the information of $49\%$ of the users are corrupted, our final estimation is still approximately accurate. Finally, our results also apply to a broader range of problems such as learning discrete distributions, stochastic convex optimization, empirical risk minimization, and a variant of stochastic gradient descent via a reduction to differentially private mean estimation.
翻訳日:2021-10-25 15:56:15 公開日:2021-10-22
# (参考訳) 汚い本: スキャン済みテキストのポストocr処理 [全文訳有]

Cleaning Dirty Books: Post-OCR Processing for Previously Scanned Texts ( http://arxiv.org/abs/2110.11934v1 )

ライセンス: CC BY 4.0
Allen Kim, Charuta Pethe, Naoya Inoue and Steve Skiena(参考訳) スキャンされたテキストに誤りがあることとコーパスに重複したボリュームが存在するため、nlp分析のために大量のデジタル書籍をきれいにするためにかなりの量の作業が必要となる。 本稿では,光学式文字認識(OCR)誤差の存在下での重複の問題を考察する。 本稿では,project gutenbergデータセットの19,347テキストとhathitrustライブラリの96,635テキストのコレクションを用いて,これらのエラーに対処する手法を提案する。 言語モデルの改良により,スキャン画像自体を考慮せずにOCRエラーの検出と修正が可能になった。 同じ仕事のスキャンのペアを合わせることで見つかる矛盾は、エラーを検出し修正するためのモデルを構築するためのトレーニングデータを提供する。 58,808スキャンから17,136冊の繰り返しスキャンされた書籍の標準版を同定した。 最後に,単一コピーテキストの誤りを検出し,訂正する手法について検討する。 提案手法は,提案手法が導入した誤差の6倍以上の誤差を補正することを示す。 また,スキャニング品質と場所や出版年といった他の要因との関係についても興味深い分析を行った。

Substantial amounts of work are required to clean large collections of digitized books for NLP analysis, both because of the presence of errors in the scanned text and the presence of duplicate volumes in the corpora. In this paper, we consider the issue of deduplication in the presence of optical character recognition (OCR) errors. We present methods to handle these errors, evaluated on a collection of 19,347 texts from the Project Gutenberg dataset and 96,635 texts from the HathiTrust Library. We demonstrate that improvements in language models now enable the detection and correction of OCR errors without consideration of the scanning image itself. The inconsistencies found by aligning pairs of scans of the same underlying work provides training data to build models for detecting and correcting errors. We identify the canonical version for each of 17,136 repeatedly-scanned books from 58,808 scans. Finally, we investigate methods to detect and correct errors in single-copy texts. We show that on average, our method corrects over six times as many errors as it introduces. We also provide interesting analysis on the relation between scanning quality and other factors such as location and publication year.
翻訳日:2021-10-25 15:53:01 公開日:2021-10-22
# 深度のみの物体追跡

Depth-only Object Tracking ( http://arxiv.org/abs/2110.11679v1 )

ライセンス: Link先を確認
Song Yan and Jinyu Yang and Ales Leonardis and Joni-Kristian Kamarainen(参考訳) 奥行き (d) は咬合を示し、照明の変化に対する感度が低く、視覚物体追跡 (vot) の奥行きが魅力的である。 深度はRGBDオブジェクトトラッキングで使われており、最高のトラッカーは深度マップを用いたヒューリスティックなRGBトラッカーである。 ヒューリスティックスには2つの潜在的な理由がある。 1)深いrgbdトラッカをトレーニングするための大規模rgbdトラッキングデータセットの欠如 2) VOT RGBD の長期評価プロトコルは,深度に基づく閉塞検出などのヒューリスティックな手法の恩恵を受けている。 本研究は,大量の深度データを用いてトレーニングした場合,Dのみのトラッキングがどこまで達するかを考察する。 深度データの欠如を補うため、追跡のための深度マップを生成する。 生成されたデータでスクラッチから"Depth-DiMP"をトレーニングし、利用可能な小さなRGBD追跡データセットで微調整します。 深度のみのDiMPは、深度のみのトラッキングにおいて優れた精度を実現し、オリジナルのRGB DiMPと組み合わせて、エンドツーエンドのRGBD-DiMPは、最近のVOT 2020 RGBDの勝者よりも優れている。

Depth (D) indicates occlusion and is less sensitive to illumination changes, which make depth attractive modality for Visual Object Tracking (VOT). Depth is used in RGBD object tracking where the best trackers are deep RGB trackers with additional heuristic using depth maps. There are two potential reasons for the heuristics: 1) the lack of large RGBD tracking datasets to train deep RGBD trackers and 2) the long-term evaluation protocol of VOT RGBD that benefits from heuristics such as depth-based occlusion detection. In this work, we study how far D-only tracking can go if trained with large amounts of depth data. To compensate the lack of depth data, we generate depth maps for tracking. We train a "Depth-DiMP" from the scratch with the generated data and fine-tune it with the available small RGBD tracking datasets. The depth-only DiMP achieves good accuracy in depth-only tracking and combined with the original RGB DiMP the end-to-end trained RGBD-DiMP outperforms the recent VOT 2020 RGBD winners.
翻訳日:2021-10-25 15:40:30 公開日:2021-10-22
# BlendGAN: 任意型顔生成のための暗黙のGANブレンド

BlendGAN: Implicitly GAN Blending for Arbitrary Stylized Face Generation ( http://arxiv.org/abs/2110.11728v1 )

ライセンス: Link先を確認
Mingcong Liu, Qiang Li, Zekui Qin, Guoxin Zhang, Pengfei Wan, Wen Zheng(参考訳) generative adversarial networks (gans)は、高忠実度画像合成とスタイリッシュな顔生成において劇的な飛躍を遂げた。 近年,スタイライゼーション性能を向上させるための層スワッピング機構が開発されている。 しかし、この方法は任意のスタイルを1つのモデルに適合させることができず、各スタイルに数百のスタイル一貫性のある訓練画像を必要とする。 そこで本稿では,フレキシブルブレンディング戦略と汎用的アーティスティックデータセットを用いて,任意のスタイリッシュな顔生成のためのblendganを提案する。 具体的には、まず、ジェネリックアーティカルデータセット上で自己教師付きスタイルエンコーダを訓練し、任意のスタイルの表現を抽出する。 さらに,顔とスタイル表現を暗黙的にブレンドし,任意のスタイライゼーション効果を制御するために,重み付きブレンディングモジュール(wbm)を提案する。 これにより、BlendGANは任意のスタイルを統一されたモデルに適切に適合させ、スタイル一貫性のあるトレーニング画像のケース・バイ・ケース作成を回避できる。 この目的のために,新しい大規模顔データセットAAHQを提案する。 広汎な実験により、BlendGANは、潜在誘導型と参照誘導型の両方の顔合成において、視覚的品質とスタイルの多様性の観点から、最先端の手法よりも優れていることが示された。

Generative Adversarial Networks (GANs) have made a dramatic leap in high-fidelity image synthesis and stylized face generation. Recently, a layer-swapping mechanism has been developed to improve the stylization performance. However, this method is incapable of fitting arbitrary styles in a single model and requires hundreds of style-consistent training images for each style. To address the above issues, we propose BlendGAN for arbitrary stylized face generation by leveraging a flexible blending strategy and a generic artistic dataset. Specifically, we first train a self-supervised style encoder on the generic artistic dataset to extract the representations of arbitrary styles. In addition, a weighted blending module (WBM) is proposed to blend face and style representations implicitly and control the arbitrary stylization effect. By doing so, BlendGAN can gracefully fit arbitrary styles in a unified model while avoiding case-by-case preparation of style-consistent training images. To this end, we also present a novel large-scale artistic face dataset AAHQ. Extensive experiments demonstrate that BlendGAN outperforms state-of-the-art methods in terms of visual quality and style diversity for both latent-guided and reference-guided stylized face synthesis.
翻訳日:2021-10-25 15:40:10 公開日:2021-10-22
# ubr$^2$s: 教師なしドメイン適応のための不確実性に基づく再サンプリングと再強調戦略

UBR$^2$S: Uncertainty-Based Resampling and Reweighting Strategy for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2110.11739v1 )

ライセンス: Link先を確認
Tobias Ringwald, Rainer Stiefelhagen(参考訳) unsupervised domain adaptation (uda) はラベルなしのターゲットドメインへのモデルの適応プロセスを扱うが、アノテートされたデータは特定のソースドメインでのみ利用できる。 ソースとターゲットインスタンスのドメインシフトは、対処しないときにモデルのパフォーマンスを低下させるため、これは難しいタスクとなる。 本稿では,この問題を解決するために,不確実性に基づくリサンプリングとリタイリング戦略であるUBR$2$Sを提案する。 UBR$2$Sはモンテカルロのドロップアウトに基づく不確実性推定を用いてクラスごとの確率分布を求め、サンプル確率とそれに伴う決定誤差に基づいて擬似ラベルの動的再サンプリングと再重み付けに使用される。 提案手法は,複数のUDAデータセットに対して,単一および複数ソース適応タスクによる最先端の処理結果を実現し,市販のネットワークアーキテクチャにも適用可能である。 このメソッドのコードはhttps://gitlab.com/t ringwald/ubr2sで利用可能です。

Unsupervised domain adaptation (UDA) deals with the adaptation process of a model to an unlabeled target domain while annotated data is only available for a given source domain. This poses a challenging task, as the domain shift between source and target instances deteriorates a model's performance when not addressed. In this paper, we propose UBR$^2$S - the Uncertainty-Based Resampling and Reweighting Strategy - to tackle this problem. UBR$^2$S employs a Monte Carlo dropout-based uncertainty estimate to obtain per-class probability distributions, which are then used for dynamic resampling of pseudo-labels and reweighting based on their sample likelihood and the accompanying decision error. Our proposed method achieves state-of-the-art results on multiple UDA datasets with single and multi-source adaptation tasks and can be applied to any off-the-shelf network architecture. Code for our method is available at https://gitlab.com/t ringwald/UBR2S.
翻訳日:2021-10-25 15:39:48 公開日:2021-10-22
# 生物多様性分野における細粒度認識のためのドメイン適応とアクティブラーニング

Domain Adaptation and Active Learning for Fine-Grained Recognition in the Field of Biodiversity ( http://arxiv.org/abs/2110.11778v1 )

ライセンス: Link先を確認
Bernd Gruner, Matthias K\"orschens, Bj\"orn Barz and Joachim Denzler(参考訳) ディープラーニング手法は、きめ細かな認識タスクを含む、幅広いドメインで未適用の認識性能を提供する。 しかし、ほとんどの問題領域では、注釈付きトレーニングサンプルが不十分である。 したがって,転帰学習におけるドメイン適応のトピックは特に重要である。 本研究では, 生物多様性の文脈において, 教師なしドメイン適応が, 保存された蝶や植物など, 理想的な訓練データに基づいて, 現実世界の分類器を学習するために, 微粒な認識にどの程度使えるかを検討する。 さらに,重みの標準化と組み合わせた群正規化などの異なる正規化層が分類器に与える影響について検討した。 ドメイン適応はきめ細かな認識に非常に適しており、正規化法は結果に大きな影響を与えていることがわかった。 ドメイン適応と転送可能な正規化を用いることで、分類器の精度をベースラインと比較して最大12.35パーセント向上させることができる。 さらに、ドメイン適応システムとアクティブラーニングコンポーネントを組み合わせることで、結果を改善する。 さまざまなアクティブな学習戦略を比較します。 驚いたことに、2つのデータセットのうち1つだけがランダム選択ベースラインよりも洗練された戦略がより良い結果をもたらすことがわかった。 この場合、距離と多様性の戦略が最善であった。 最後に,データセットの問題点分析について述べる。

Deep-learning methods offer unsurpassed recognition performance in a wide range of domains, including fine-grained recognition tasks. However, in most problem areas there are insufficient annotated training samples. Therefore, the topic of transfer learning respectively domain adaptation is particularly important. In this work, we investigate to what extent unsupervised domain adaptation can be used for fine-grained recognition in a biodiversity context to learn a real-world classifier based on idealized training data, e.g. preserved butterflies and plants. Moreover, we investigate the influence of different normalization layers, such as Group Normalization in combination with Weight Standardization, on the classifier. We discovered that domain adaptation works very well for fine-grained recognition and that the normalization methods have a great influence on the results. Using domain adaptation and Transferable Normalization, the accuracy of the classifier could be increased by up to 12.35 % compared to the baseline. Furthermore, the domain adaptation system is combined with an active learning component to improve the results. We compare different active learning strategies with each other. Surprisingly, we found that more sophisticated strategies provide better results than the random selection baseline for only one of the two datasets. In this case, the distance and diversity strategy performed best. Finally, we present a problem analysis of the datasets.
翻訳日:2021-10-25 15:39:28 公開日:2021-10-22
# SwiftLane: 高速かつ効率的なレーン検出を目指す

SwiftLane: Towards Fast and Efficient Lane Detection ( http://arxiv.org/abs/2110.11779v1 )

ライセンス: Link先を確認
Oshada Jayasinghe, Damith Anhettigama, Sahan Hemachandra, Shenali Kariyawasam, Ranga Rodrigo, Peshala Jayasekara(参考訳) 最近の車線検出の研究は複雑なシナリオで車線を正確に検出することに成功したが、多くの人は限られた計算資源でリアルタイムのパフォーマンスを達成できなかった。 本稿では,簡易で軽量でエンドツーエンドなディープラーニングベースのフレームワークであるswiftlaneと,高速かつ効率的なレーン検出のための行単位での分類定式化を提案する。 この枠組みには偽陽性抑制アルゴリズムと曲線フィッティング技術が補足され、精度がさらに向上する。 提案手法は,毎秒411フレームの推論速度を達成し,速度の面では最先端を上回り,人気のあるculaneベンチマークデータセットでは同等の精度を達成している。 さらに,提案フレームワークとtensorrt最適化により,nvidia jetson agx xavierを組込みシステムとしてリアルタイムレーン検出が容易となり,高い推算速度を毎秒56フレームとした。

Recent work done on lane detection has been able to detect lanes accurately in complex scenarios, yet many fail to deliver real-time performance specifically with limited computational resources. In this work, we propose SwiftLane: a simple and light-weight, end-to-end deep learning based framework, coupled with the row-wise classification formulation for fast and efficient lane detection. This framework is supplemented with a false positive suppression algorithm and a curve fitting technique to further increase the accuracy. Our method achieves an inference speed of 411 frames per second, surpassing state-of-the-art in terms of speed while achieving comparable results in terms of accuracy on the popular CULane benchmark dataset. In addition, our proposed framework together with TensorRT optimization facilitates real-time lane detection on a Nvidia Jetson AGX Xavier as an embedded system while achieving a high inference speed of 56 frames per second.
翻訳日:2021-10-25 15:39:06 公開日:2021-10-22
# multi-attribute pizza generator:条件付きスタイルガンを用いたクロスドメイン属性制御

Multi-attribute Pizza Generator: Cross-domain Attribute Control with Conditional StyleGAN ( http://arxiv.org/abs/2110.11830v1 )

ライセンス: Link先を確認
Fangda Han, Guoyao Hao, Ricardo Guerrero, Vladimir Pavlovic(参考訳) マルチ属性条件画像生成はコンピュータビジョンにおいて難しい問題である。 属性の3分割から画像を生成するための条件付き生成ニューラルネットワーク(GAN)フレームワークであるMPG(Multi-Atribute Pizza Generator)を提案する。 我々は、中間機能マップを案内する新しい条件付け手法を用いて、最先端のStyleGAN2を拡張してMPGを設計し、マルチスケールなマルチ属性の絡み合った属性表現を学習する。 多属性画像生成問題の複雑な性質から、明示的な条件付け属性(向きと視野)を予測して画像生成を定式化する。 自然学習画像の範囲外でビュー属性を用いたピザイメージを合成するために,3dピザモデルを用いたcgiピザデータセットpizzaviewを設計し,ビュー属性レグレッサーをトレーニングして生成プロセスを規則化し,リアルおよびcgiトレーニングデータセットをブリッジする。 mpgの有効性を検証するために、注意深いマルチ赤みを帯びたピザ画像データセットであるpizza10でテストした。 MPGは、現実世界のトレーニングデータに見られるものの範囲を超えて、望ましい材料とビュー属性で写真リアルピザ画像を生成することができる。

Multi-attribute conditional image generation is a challenging problem in computervision. We propose Multi-attribute Pizza Generator (MPG), a conditional Generative Neural Network (GAN) framework for synthesizing images from a trichotomy of attributes: content, view-geometry, and implicit visual style. We design MPG by extending the state-of-the-art StyleGAN2, using a new conditioning technique that guides the intermediate feature maps to learn multi-scale multi-attribute entangled representationsof controlling attributes. Because of the complex nature of the multi-attribute image generation problem, we regularize the image generation by predicting the explicit conditioning attributes (ingredients and view). To synthesize a pizza image with view attributesoutside the range of natural training images, we design a CGI pizza dataset PizzaView using 3D pizza models and employ it to train a view attribute regressor to regularize the generation process, bridging the real and CGI training datasets. To verify the efficacy of MPG, we test it on Pizza10, a carefully annotated multi-ingredient pizza image dataset. MPG can successfully generate photo-realistic pizza images with desired ingredients and view attributes, beyond the range of those observed in real-world training data.
翻訳日:2021-10-25 15:38:49 公開日:2021-10-22
# 深さに沿った再帰:繰り返し層凝集を伴う深部畳み込みニューラルネットワーク

Recurrence along Depth: Deep Convolutional Neural Networks with Recurrent Layer Aggregation ( http://arxiv.org/abs/2110.11852v1 )

ライセンス: Link先を確認
Jingyu Zhao, Yanwen Fang and Guodong Li(参考訳) 本稿では,従来のレイヤからの情報を再利用して,現在のレイヤの特徴をよりよく抽出する方法について述べる。 DenseNetはレイヤ集約機構の典型的な例であるが、その冗長性は文献で一般的に批判されている。 これにより、深層CNNにおける階層のシーケンシャル構造を利用することにより、リカレント層集約(RLA)と呼ばれる非常に軽量なモジュールを提案することができる。 我々のRLAモジュールは、ResNets、Xception、MobileNetV2など、多くの主要なCNNと互換性があり、画像分類、オブジェクト検出、インスタンスセグメンテーションタスクに関する広範な実験により、その効果が検証されている。 具体的には、改善はCIFAR、ImageNet、MS COCOデータセットで一様に観察でき、対応するRLA-Netは、オブジェクト検出タスクで驚くほどパフォーマンスを2-3%向上させることができる。 このことは、主要CNNが画像の構造情報をよりよく学習する上で、我々のRLAモジュールの力を示す。

This paper introduces a concept of layer aggregation to describe how information from previous layers can be reused to better extract features at the current layer. While DenseNet is a typical example of the layer aggregation mechanism, its redundancy has been commonly criticized in the literature. This motivates us to propose a very light-weighted module, called recurrent layer aggregation (RLA), by making use of the sequential structure of layers in a deep CNN. Our RLA module is compatible with many mainstream deep CNNs, including ResNets, Xception and MobileNetV2, and its effectiveness is verified by our extensive experiments on image classification, object detection and instance segmentation tasks. Specifically, improvements can be uniformly observed on CIFAR, ImageNet and MS COCO datasets, and the corresponding RLA-Nets can surprisingly boost the performances by 2-3% on the object detection task. This evidences the power of our RLA module in helping main CNNs better learn structural information in images.
翻訳日:2021-10-25 15:38:27 公開日:2021-10-22
# CeyMo: Roadsの詳細 - 道路マーキング検出のための新しいベンチマークデータセット

CeyMo: See More on Roads -- A Novel Benchmark Dataset for Road Marking Detection ( http://arxiv.org/abs/2110.11867v1 )

ライセンス: Link先を確認
Oshada Jayasinghe, Sahan Hemachandra, Damith Anhettigama, Shenali Kariyawasam, Ranga Rodrigo, Peshala Jayasekara(参考訳) 本稿では,道路マーキング検出のための新しい道路マーキングベンチマークデータセットを導入し,難解なシナリオの欠如,レーンマーキングに与えられた優位性,評価スクリプトの有効性の欠如,アノテーションフォーマットの欠如,解像度の低下など,既存の公開データセットの制限に対処する。 データセットは合計2887枚の画像と11のクラスに属する4706個の道路標識インスタンスで構成されている。 画像は1920 x 1080の高解像度で、幅広い交通、照明、気象条件を捉えている。 我々は,多角形の道路マーキングアノテーション,境界ボックス,画素レベルのセグメンテーションマスクを提供し,多様な道路マーキング検出アルゴリズムを実現する。 提案する評価指標と評価スクリプトは,既存の手法と路面マーキング検出のための新しい手法の直接比較をさらに促進する。 さらに,道路標識検出タスクにおいて,インスタンス分割とオブジェクト検出に基づくアプローチの併用の有効性を評価する。 2つのインスタンスセグメンテーションモデルと2つのオブジェクト検出器モデルの速度と精度スコアをベンチマークデータセットのパフォーマンスベースラインとして提供します。 データセットと評価スクリプトは公開される予定だ。

In this paper, we introduce a novel road marking benchmark dataset for road marking detection, addressing the limitations in the existing publicly available datasets such as lack of challenging scenarios, prominence given to lane markings, unavailability of an evaluation script, lack of annotation formats and lower resolutions. Our dataset consists of 2887 total images with 4706 road marking instances belonging to 11 classes. The images have a high resolution of 1920 x 1080 and capture a wide range of traffic, lighting and weather conditions. We provide road marking annotations in polygons, bounding boxes and pixel-level segmentation masks to facilitate a diverse range of road marking detection algorithms. The evaluation metrics and the evaluation script we provide, will further promote direct comparison of novel approaches for road marking detection with existing methods. Furthermore, we evaluate the effectiveness of using both instance segmentation and object detection based approaches for the road marking detection task. Speed and accuracy scores for two instance segmentation models and two object detector models are provided as a performance baseline for our benchmark dataset. The dataset and the evaluation script will be publicly available.
翻訳日:2021-10-25 15:36:36 公開日:2021-10-22
# C$^{4}$Net:Salient Object Detectionのためのコンテキスト圧縮と補完結合ネットワーク

C$^{4}$Net: Contextual Compression and Complementary Combination Network for Salient Object Detection ( http://arxiv.org/abs/2110.11887v1 )

ライセンス: Link先を確認
Hazarapet Tunanyan(参考訳) 健全な物体検出問題のディープラーニングソリューションは,近年,大きな成果を上げている。 これらのモデルの大部分はエンコーダとデコーダに基づいており、異なるマルチ機能の組み合わせがある。 本稿では,乗法や加算法といった他の組み合わせ法よりも特徴連結が有効であることを示す。 また、共同機能学習は、処理中の情報共有により、よりよい結果をもたらす。 エッジ保存で必要な特徴を抽出するための補完抽出モジュール(CEM)を設計した。 提案する過剰損失(el)関数は偽陽性の予測を減少させ,他の重み付き損失関数でエッジを純化する。 我々の設計したGlobal guiding Flow(G)を用いたピラミッド・セマンティック・モジュール(PSM)は,より浅い層に高レベルな補完情報を提供することにより,予測をより正確にする。 実験結果から,提案モデルでは,3つの評価基準の下で,すべてのベンチマークデータセット上で最先端の手法よりも優れた結果が得られた。

Deep learning solutions of the salient object detection problem have achieved great results in recent years. The majority of these models are based on encoders and decoders, with a different multi-feature combination. In this paper, we show that feature concatenation works better than other combination methods like multiplication or addition. Also, joint feature learning gives better results, because of the information sharing during their processing. We designed a Complementary Extraction Module (CEM) to extract necessary features with edge preservation. Our proposed Excessiveness Loss (EL) function helps to reduce false-positive predictions and purifies the edges with other weighted loss functions. Our designed Pyramid-Semantic Module (PSM) with Global guiding flow (G) makes the prediction more accurate by providing high-level complementary information to shallower layers. Experimental results show that the proposed model outperforms the state-of-the-art methods on all benchmark datasets under three evaluation metrics.
翻訳日:2021-10-25 15:36:16 公開日:2021-10-22
# 対話の学習と推論の適応的ブリッジ

Adaptive Bridge between Training and Inference for Dialogue ( http://arxiv.org/abs/2110.11560v1 )

ライセンス: Link先を確認
Haoran Xu, Hainan Zhang, Yanyan Zou, Hongshen Chen, Zhuoye Ding, Yanyan Lan(参考訳) 露光バイアスはいくつかのNLPタスクで広く研究されているが、対話応答生成において特有の課題に直面している。 実際の人間対話では、同じ文脈に対して適切な応答が多数存在し、異なる表現を持つだけでなく、異なる話題を持つ。 そのため,対話生成作業では,接地反応と生成した合成応答とのギャップが大きいため,露光バイアスがより困難である。 さらに、MLEがモデルに対して、異なる基幹的応答の共通語のみを学ぶことを奨励する一方で、興味深く特定の部分を無視しているため、露出バイアスが"I don't know"や"HaHaHa"といった一般的な応答生成問題にさらに繋がる可能性がある。 本稿では,コサイン類似度などの単語レベルのマッチングスコアについて,接地学習と生成学習との自動トランジットを学習する適応スイッチング機構を提案する。 中国STCデータセットと英語Redditデータセットの両方の実験結果から,我々の適応的手法は,最先端の露光バイアスアプローチと比較して,メートル法に基づく評価と人的評価において著しく改善されていることが示された。 NMTタスクに関するさらなる分析は、我々のモデルが大幅に改善できることを示している。

Although exposure bias has been widely studied in some NLP tasks, it faces its unique challenges in dialogue response generation, the representative one-to-various generation scenario. In real human dialogue, there are many appropriate responses for the same context, not only with different expressions, but also with different topics. Therefore, due to the much bigger gap between various ground-truth responses and the generated synthetic response, exposure bias is more challenging in dialogue generation task. What's more, as MLE encourages the model to only learn the common words among different ground-truth responses, but ignores the interesting and specific parts, exposure bias may further lead to the common response generation problem, such as "I don't know" and "HaHa?" In this paper, we propose a novel adaptive switching mechanism, which learns to automatically transit between ground-truth learning and generated learning regarding the word-level matching score, such as the cosine similarity. Experimental results on both Chinese STC dataset and English Reddit dataset, show that our adaptive method achieves a significant improvement in terms of metric-based evaluation and human evaluation, as compared with the state-of-the-art exposure bias approaches. Further analysis on NMT task also shows that our model can achieve a significant improvement.
翻訳日:2021-10-25 15:36:00 公開日:2021-10-22
# mandera: ランキングによる連合学習における悪意のあるノード検出

MANDERA: Malicious Node Detection in Federated Learning via Ranking ( http://arxiv.org/abs/2110.11736v1 )

ライセンス: Link先を確認
Wanchuang Zhu, Benjamin Zi Hao Zhao, Simon Luo, Ke Deng(参考訳) フェデレートラーニング(Federated Learning)は、各ノードのデータのプライバシを維持するための分散学習パラダイムである。 しかし、連合学習は、特に、モデル完全性攻撃に対する攻撃に対して脆弱である。 本稿では,manderaと呼ばれる悪意のあるノード検出手法を提案する。 元のメッセージマトリクスを各局所ノードの相対的なランキングを示す列を異なるパラメータ次元に沿って示すランキングマトリクスに移すことで,悪意のあるノードと良性ノードをランクドメインの重要な特性に基づいて高い効率で区別することを目指す。 軽度な条件下では、マンデラは典型的なビザンチン攻撃下で全ての悪意のあるノードを検出することが保証されており、そのノードに関する事前の知識や履歴は得られていない。 提案手法の有効性は、CIFAR-10とMNISTという2つの古典的データセットの実験によってさらに確認される。 ビザンチン攻撃を防御する文献の最先端の手法と比較すると、マンデラはランク付けによって悪意のあるノードを識別し、幅広い攻撃を効果的に防御する強固さを特徴とする。

Federated learning is a distributed learning paradigm which seeks to preserve the privacy of each participating node's data. However, federated learning is vulnerable to attacks, specifically to our interest, model integrity attacks. In this paper, we propose a novel method for malicious node detection called MANDERA. By transferring the original message matrix into a ranking matrix whose column shows the relative rankings of all local nodes along different parameter dimensions, our approach seeks to distinguish the malicious nodes from the benign ones with high efficiency based on key characteristics of the rank domain. We have proved, under mild conditions, that MANDERA is guaranteed to detect all malicious nodes under typical Byzantine attacks with no prior knowledge or history about the participating nodes. The effectiveness of the proposed approach is further confirmed by experiments on two classic datasets, CIFAR-10 and MNIST. Compared to the state-of-art methods in the literature for defending Byzantine attacks, MANDERA is unique in its way to identify the malicious nodes by ranking and its robustness to effectively defense a wide range of attacks.
翻訳日:2021-10-25 15:34:11 公開日:2021-10-22
# LSD Rewards によるバンドルーチンの切断:最後のスイッチ依存による満足度と季節性の分析

Break your Bandit Routine with LSD Rewards: a Last Switch Dependent Analysis of Satiation and Seasonality ( http://arxiv.org/abs/2110.11819v1 )

ライセンス: Link先を確認
Pierre Laforgue, Giulia Clerici, Nicol\`o Cesa-Bianchi, Ran Gilad-Bachrach(参考訳) 人間は何らかの予測不可能さや新奇さを好んでおり、定常的な政策と対話するときにすぐに退屈するかもしれないという事実に感銘を受け、我々は、腕の期待される報酬が、最後に行動の切り替えに参加した時から経過した時間によって完全に決定される、新しい非定常的盗賊問題を導入する。 我々のモデルは、遅延依存報酬の概念を一般化し、報酬関数に関するほとんどの仮定を緩和する。 これにより、進行的な満足や周期的な振る舞いのような現象のモデリングが可能になる。 CSB( Combinatorial Semi-Bandits)フレームワークを基盤として,アルゴリズムを設計し,最適な非定常ポリシー(NP-hard to compute)に関して,その後悔を証明している。 過去の研究と同様に、我々の後悔の分析は近似と推定の間の適切なトレードオフを定義し、解決することに基づいている。 予備実験により,oracle greedy アプローチと vanilla csb ソルバに対するアルゴリズムの優位性を確認した。

Motivated by the fact that humans like some level of unpredictability or novelty, and might therefore get quickly bored when interacting with a stationary policy, we introduce a novel non-stationary bandit problem, where the expected reward of an arm is fully determined by the time elapsed since the arm last took part in a switch of actions. Our model generalizes previous notions of delay-dependent rewards, and also relaxes most assumptions on the reward function. This enables the modeling of phenomena such as progressive satiation and periodic behaviours. Building upon the Combinatorial Semi-Bandits (CSB) framework, we design an algorithm and prove a bound on its regret with respect to the optimal non-stationary policy (which is NP-hard to compute). Similarly to previous works, our regret analysis is based on defining and solving an appropriate trade-off between approximation and estimation. Preliminary experiments confirm the superiority of our algorithm over both the oracle greedy approach and a vanilla CSB solver.
翻訳日:2021-10-25 15:33:15 公開日:2021-10-22
# グラフフィルタカーネル

Graph Filtration Kernels ( http://arxiv.org/abs/2110.11862v1 )

ライセンス: Link先を確認
Till Hendrik Schulz, Pascal Welke, Stefan Wrobel(参考訳) 人気のあるグラフカーネルの大部分は、ハウスラーの$\mathcal{R}$-畳み込みカーネルの概念に基づいており、相互部分構造の観点からグラフ類似性を定義する。 本稿では,グラフの濾過を考慮し,これらの類似性を高めることを目的とする。 辺集合上の有意義な順序を用いることで,ネストしたグラフの列を構成できる。 ひとつは、異なるレベルの解像度で機能にアクセスできることだ。 さらに、グラフの特徴の頻度を単純に比較するのではなく、シーケンス内に存在する時間と時間の観点から比較することができる。 本研究では,これらの特徴の存在区間を包含するグラフカーネル群を提案する。 我々のアプローチは任意のグラフ機能に適用できるが、weisfeiler-lehman頂点ラベルは特に強調され、効率的なカーネルとなる。 特定のフィルター上のweisfeiler-lehmanラベルを用いることで、グラフ同型を決定する観点で、通常のweisfeiler-lehmanプロシージャ上の表現力が厳密に増加することが示されている。 実際、この結果はそのような特徴に基づいてより強力なグラフカーネルを直接生成し、Weisfeiler-Lehman法と密接な関係にあるため、グラフニューラルネットワークに影響を及ぼす。 我々は,グラフカーネルの表現力を実証的に検証し,実世界のベンチマークデータセットにおける予測性能の観点から,最先端のグラフカーネルに対する大幅な改善を示す。

The majority of popular graph kernels is based on the concept of Haussler's $\mathcal{R}$-convolution kernel and defines graph similarities in terms of mutual substructures. In this work, we enrich these similarity measures by considering graph filtrations: Using meaningful orders on the set of edges, which allow to construct a sequence of nested graphs, we can consider a graph at multiple granularities. For one thing, this provides access to features on different levels of resolution. Furthermore, rather than to simply compare frequencies of features in graphs, it allows for their comparison in terms of when and for how long they exist in the sequences. In this work, we propose a family of graph kernels that incorporate these existence intervals of features. While our approach can be applied to arbitrary graph features, we particularly highlight Weisfeiler-Lehman vertex labels, leading to efficient kernels. We show that using Weisfeiler-Lehman labels over certain filtrations strictly increases the expressive power over the ordinary Weisfeiler-Lehman procedure in terms of deciding graph isomorphism. In fact, this result directly yields more powerful graph kernels based on such features and has implications to graph neural networks due to their close relationship to the Weisfeiler-Lehman method. We empirically validate the expressive power of our graph kernels and show significant improvements over state-of-the-art graph kernels in terms of predictive performance on various real-world benchmark datasets.
翻訳日:2021-10-25 15:32:54 公開日:2021-10-22
# ModEL: 自動運転のためのモジュール化されたエンドツーエンド強化学習フレームワーク

ModEL: A Modularized End-to-end Reinforcement Learning Framework for Autonomous Driving ( http://arxiv.org/abs/2110.11573v1 )

ライセンス: Link先を確認
Guan Wang, Haoyi Niu, Desheng Zhu, Jianming Hu, Xianyuan Zhan, Guyue Zhou(参考訳) 最高の自動運転フレームワークに関して、熱い議論が続いている。 古典的なモジュラーパイプラインは、その大きな解釈可能性と安定性のために業界で広く採用されているが、エンドツーエンドのパラダイムは、ディープラーニングの台頭とともに、かなり単純で学習性を示している。 我々は,従来の2つのアプローチのメリットを組み合わせた,自律運転のための新しいモジュール型エンドツーエンド強化学習フレームワーク(model)を提案する。 ModELの自律運転スタックは、各シーン理解、エンドツーエンド強化学習、PID制御を活用することにより、知覚、計画、制御モジュールに分解される。 さらに、このフレームワークをデプロイするために、完全に機能する自律車両を構築します。 広範なシミュレーションと実世界の実験を通じて、様々な複雑なシナリオに対して非常に汎用性が示され、競合するベースラインよりも優れています。

Heated debates continue over the best autonomous driving framework. The classic modular pipeline is widely adopted in the industry owing to its great interpretability and stability, whereas the end-to-end paradigm has demonstrated considerable simplicity and learnability along with the rise of deep learning. We introduce a new modularized end-to-end reinforcement learning framework (ModEL) for autonomous driving, which combines the merits of both previous approaches. The autonomous driving stack of ModEL is decomposed into perception, planning, and control module, leveraging scene understanding, end-to-end reinforcement learning, and PID control respectively. Furthermore, we build a fully functional autonomous vehicle to deploy this framework. Through extensive simulation and real-world experiments, our framework has shown great generalizability to various complicated scenarios and outperforms the competing baselines.
翻訳日:2021-10-25 15:32:31 公開日:2021-10-22
# モビリティとweb検索データを用いたソーシャルアウェアネスに基づくグラフニューラルネットによる多波新型コロナウイルスの予測

Multiwave COVID-19 Prediction via Social Awareness-Based Graph Neural Networks using Mobility and Web Search Data ( http://arxiv.org/abs/2110.11584v1 )

ライセンス: Link先を確認
J. Xue, T. Yabe, K. Tsubouchi, J. Ma, S. V. Ukkusuri(参考訳) 新型コロナウイルス(COVID-19)の再発は世界社会に持続的な影響をもたらしており、早期に利用可能なさまざまなデータを用いてパンデミックの波の予測を求める。 日本と米国では, 異なる波をまたいだ移動パターンが感染事例の変動と異なる関係を示すことが示されているため, 移動データを用いた第1次流行波の予測モデルでは, マルチウェーブ予測には適用できない可能性がある。 そこで本研究では,多波のパンデミックを予測するために,症状関連web検索頻度の減衰を考慮したsab-gnn(social awareness-based graph neural network)を提案する。 SAB-GNNはGNNとLSTMを組み合わせて、都市部の複雑な関係、地域間移動パターン、Web検索履歴、将来の新型コロナウイルス感染症をモデル化している。 我々は,2020年4月から2021年5月までの移動性およびweb検索データを用いて,厳格なプライバシー保護規則の下で_anonymous_company_が収集した4つのパンデミック波を用いて,東京圏における将来的なパンデミックの予測を訓練する。 その結果,本モデルはST-GNNやMPNN+LSTMなど,他のベースラインよりも優れていた。 我々のモデルは計算に高価ではないが(3層と10個の隠れニューロンのみ)、提案モデルは公共機関が将来のパンデミックの発生を予測し、準備できるようにする。

Recurring outbreaks of COVID-19 have posed enduring effects on global society, which calls for a predictor of pandemic waves using various data with early availability. Existing prediction models that forecast the first outbreak wave using mobility data may not be applicable to the multiwave prediction, because the evidence in the USA and Japan has shown that mobility patterns across different waves exhibit varying relationships with fluctuations in infection cases. Therefore, to predict the multiwave pandemic, we propose a Social Awareness-Based Graph Neural Network (SAB-GNN) that considers the decay of symptom-related web search frequency to capture the changes in public awareness across multiple waves. SAB-GNN combines GNN and LSTM to model the complex relationships among urban districts, inter-district mobility patterns, web search history, and future COVID-19 infections. We train our model to predict future pandemic outbreaks in the Tokyo area using its mobility and web search data from April 2020 to May 2021 across four pandemic waves collected by _ANONYMOUS_COMPANY_ under strict privacy protection rules. Results show our model outperforms other baselines including ST-GNN and MPNN+LSTM. Though our model is not computationally expensive (only 3 layers and 10 hidden neurons), the proposed model enables public agencies to anticipate and prepare for future pandemic outbreaks.
翻訳日:2021-10-25 15:32:17 公開日:2021-10-22
# チーズの非遷移度測定

Measuring the Non-Transitivity in Chess ( http://arxiv.org/abs/2110.11737v1 )

ライセンス: Link先を確認
Ricky Sanjaya, Jun Wang, Yaodong Yang(参考訳) チェスは人工知能(AI)のemph{Drosophila}であると長い間信じられてきた。 チェスの研究は複雑なシステムに関する有効な知識を生産的に提供することができる。 チェスの解決には目覚ましい進歩があったが、戦略空間におけるチェスの幾何学的景観はまだ謎のままである。 aiが生成した戦略に基づいて、研究者はチェスの戦略空間が回転するトップ幾何学を持ち、直立軸は \emph{transitive} 次元(例えば、a beats b, b beats c, a beats c)を、半径軸は \emph{non-transitive} 次元(例えば a beats b, b beats c, c beats a)をそれぞれ持つと仮定した。 しかし、そのような仮説が現実世界の戦略に当てはまるかどうかは不明である。 本稿では,チェスにおける非推移性を,人間プレイヤーによる実世界データを用いて定量化する。 具体的には、LichessとFICSの10億以上のマッチングデータ(Nash Clustering)とRock-Paper-Scissorサイクルの数をカウントする2つの方法を実行しました。 本研究は,実世界のチェス戦略が占める戦略空間がスピントップ幾何学を示し,より重要なこととして,非推移性の程度とチェス選手のレーティングの進行との間に強い関係があることを示す。 特に、高レベルの非推移性は、人間プレイヤーがエロレーティングの進歩を妨げやすい傾向にあり、一方、進行は、非推移性の度合いが低いレーティングのレベルでの進行が容易である。 また,人口ベーストレーニング手法における非推移度の影響についても検討した。 プロキシとして \emph{fixed-Memory Fictitious Play} を考慮することで,Chessタイプのゲームを解決する上で,大規模かつ多様な戦略戦略の維持が効果的なAIエージェントのトレーニングに不可欠である,という結論に達した。

It has long been believed that Chess is the \emph{Drosophila} of Artificial Intelligence (AI). Studying Chess can productively provide valid knowledge about complex systems. Although remarkable progress has been made on solving Chess, the geometrical landscape of Chess in the strategy space is still mysterious. Judging on AI-generated strategies, researchers hypothesised that the strategy space of Chess possesses a spinning top geometry, with the upright axis representing the \emph{transitive} dimension (e.g., A beats B, B beats C, A beats C), and the radial axis representing the \emph{non-transitive} dimension (e.g., A beats B, B beats C, C beats A). However, it is unclear whether such a hypothesis holds for real-world strategies. In this paper, we quantify the non-transitivity in Chess through real-world data from human players. Specifically, we performed two ways of non-transitivity quantifications -- Nash Clustering and counting the number of Rock-Paper-Scissor cycles -- on over one billion match data from Lichess and FICS. Our findings positively indicate that the strategy space occupied by real-world Chess strategies demonstrates a spinning top geometry, and more importantly, there exists a strong connection between the degree of non-transitivity and the progression of a Chess player's rating. In particular, high degrees of non-transitivity tend to prevent human players from making progress on their Elo rating, whereas progressions are easier to make at the level of ratings where the degree of non-transitivity is lower. Additionally, we also investigate the implication of the degree of non-transitivity for population-based training methods. By considering \emph{fixed-memory Fictitious Play} as a proxy, we reach the conclusion that maintaining large-size and diverse populations of strategies is imperative to training effective AI agents in solving Chess types of games.
翻訳日:2021-10-25 15:31:52 公開日:2021-10-22
# 教師なしハイパースペクトル画像超解像のためのモデルインスパイアオートエンコーダ

Model Inspired Autoencoder for Unsupervised Hyperspectral Image Super-Resolution ( http://arxiv.org/abs/2110.11591v1 )

ライセンス: Link先を確認
Jianjun Liu, Zebin Wu, Liang Xiao and Xiao-Jun Wu(参考訳) 本稿では,低空間分解能HSIと高空間分解能HSIを融合して高空間分解能HSI(HR-HSI)を形成するハイパースペクトル画像(HSI)について述べる。 既存のディープラーニングベースのアプローチはほとんどが教師付きであり、多数のラベル付きトレーニングサンプルに依存している。 一般的に使用されるモデルベースのアプローチは教師なしで柔軟性があるが、手作りの優先事項に依存している。 モデルの特徴に触発されて,HSI超解像のためのモデルにインスパイアされたディープネットワークを教師なしで設計する試みを行う。 このアプローチは、ターゲットHR-HSI上に構築された暗黙のオートエンコーダネットワークから成り、各ピクセルを個々のサンプルとして扱う。 ターゲットHR-HSIの非負行列分解(NMF)をオートエンコーダネットワークに統合し、それぞれスペクトル行列と空間行列の2つのNMFをデコーダパラメータと隠れ出力として扱う。 符号化段階では、隠れた出力を直接推定し、モデルのアルゴリズムを再構成して展開してエンコーダネットワークを形成する画素分割融合モデルを提案する。 特定のアーキテクチャでは、提案するネットワークは多様体の事前ベースモデルに似ており、画像全体ではなくパッチでパッチをトレーニングすることができる。 さらに,点拡散関数とスペクトル応答関数を推定するための教師なしネットワークを提案する。 合成データと実データの両方で行った実験の結果,提案手法の有効性が示された。

This paper focuses on hyperspectral image (HSI) super-resolution that aims to fuse a low-spatial-resoluti on HSI and a high-spatial-resolut ion multispectral image to form a high-spatial-resolut ion HSI (HR-HSI). Existing deep learning-based approaches are mostly supervised that rely on a large number of labeled training samples, which is unrealistic. The commonly used model-based approaches are unsupervised and flexible but rely on hand-craft priors. Inspired by the specific properties of model, we make the first attempt to design a model inspired deep network for HSI super-resolution in an unsupervised manner. This approach consists of an implicit autoencoder network built on the target HR-HSI that treats each pixel as an individual sample. The nonnegative matrix factorization (NMF) of the target HR-HSI is integrated into the autoencoder network, where the two NMF parts, spectral and spatial matrices, are treated as decoder parameters and hidden outputs respectively. In the encoding stage, we present a pixel-wise fusion model to estimate hidden outputs directly, and then reformulate and unfold the model's algorithm to form the encoder network. With the specific architecture, the proposed network is similar to a manifold prior-based model, and can be trained patch by patch rather than the entire image. Moreover, we propose an additional unsupervised network to estimate the point spread function and spectral response function. Experimental results conducted on both synthetic and real datasets demonstrate the effectiveness of the proposed approach.
翻訳日:2021-10-25 15:29:24 公開日:2021-10-22
# 深部特徴工学を用いた効率的なクロスモーダル検索のためのテキストイメージ共同埋め込み学習

Learning Text-Image Joint Embedding for Efficient Cross-Modal Retrieval with Deep Feature Engineering ( http://arxiv.org/abs/2110.11592v1 )

ライセンス: Link先を確認
Zhongwei Xie, Ling Liu, Yanzhao Wu, Luo Zhong, Lin Li(参考訳) 本稿では,テキスト・画像統合組込みモデルの学習からデータ前処理における深い特徴工学を明確に分離した,意味論の効率的な学習のための2相深層特徴工学フレームワークを提案する。 技術的記述と実証検証にはRecipe1Mデータセットを使用します。 プリプロセッシングでは、生のテキストイメージ入力データから派生した意味的コンテキスト特徴と深い特徴工学を組み合わせることで、深い特徴工学を行う。 我々はLSTMを利用してキー用語、BERTファミリー、TextRank、TF-IDFのディープNLPモデルを特定し、ワード2vecを用いて各キー用語のベクトル表現を生成する前にキー用語のランキングスコアを生成する。 我々は、より広いesnet50とword2vecを利用して、食品画像のイメージカテゴリセマンティクスを抽出・エンコードし、学習したレシピと画像埋め込みの結合潜在空間における意味的アラインメントを支援する。 組込み学習では,ソフトマージンと二重負サンプリングによるバッチハード三重項損失関数を最適化し,カテゴリベースアライメント損失と判別器ベースアライメント損失も考慮して,深い特徴工学を行う。 広範囲な実験により、深い特徴工学によるSEJEアプローチは、最先端のアプローチよりも大幅に優れています。

This paper introduces a two-phase deep feature engineering framework for efficient learning of semantics enhanced joint embedding, which clearly separates the deep feature engineering in data preprocessing from training the text-image joint embedding model. We use the Recipe1M dataset for the technical description and empirical validation. In preprocessing, we perform deep feature engineering by combining deep feature engineering with semantic context features derived from raw text-image input data. We leverage LSTM to identify key terms, deep NLP models from the BERT family, TextRank, or TF-IDF to produce ranking scores for key terms before generating the vector representation for each key term by using word2vec. We leverage wideResNet50 and word2vec to extract and encode the image category semantics of food images to help semantic alignment of the learned recipe and image embeddings in the joint latent space. In joint embedding learning, we perform deep feature engineering by optimizing the batch-hard triplet loss function with soft-margin and double negative sampling, taking into account also the category-based alignment loss and discriminator-based alignment loss. Extensive experiments demonstrate that our SEJE approach with deep feature engineering significantly outperforms the state-of-the-art approaches.
翻訳日:2021-10-25 15:28:59 公開日:2021-10-22
# フレーム分類によるhermesbot自律配送ロボットのcnnに基づく全方位物体検出

CNN-based Omnidirectional Object Detection for HermesBot Autonomous Delivery Robot with Preliminary Frame Classification ( http://arxiv.org/abs/2110.11829v1 )

ライセンス: Link先を確認
Saian Protasov, Pavel Karpyshev, Ivan Kalinov, Pavel Kopanev, Nikita Mikhailovskiy, Alexander Sedunin, and Dzmitry Tsetserukou(参考訳) 移動ロボットには環境認識のための多数のセンサーが含まれている。 カメラはロボットのローカライゼーション、ナビゲーション、障害物回避に不可欠なツールである。 センサから大量のデータを処理するためには、アルゴリズムを最適化したり、かなりの計算能力を利用する必要がある。 本研究では,予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。 周囲に6台のローリングシャッターカメラを備えた自律型屋外移動ロボットを360度視野として実験装置として使用した。 得られた実験結果から,提案手法は対象物体を含むカメラ6台中最大5台において,ニューラルネットワークの推論時間を高速化できることが判明した。

Mobile autonomous robots include numerous sensors for environment perception. Cameras are an essential tool for robot's localization, navigation, and obstacle avoidance. To process a large flow of data from the sensors, it is necessary to optimize algorithms, or to utilize substantial computational power. In our work, we propose an algorithm for optimizing a neural network for object detection using preliminary binary frame classification. An autonomous outdoor mobile robot with 6 rolling-shutter cameras on the perimeter providing a 360-degree field of view was used as the experimental setup. The obtained experimental results revealed that the proposed optimization accelerates the inference time of the neural network in the cases with up to 5 out of 6 cameras containing target objects.
翻訳日:2021-10-25 15:28:34 公開日:2021-10-22
# WebFed: ローカル差分プライバシーを備えたWebブラウザに基づくクロスプラットフォームフェデレーション学習フレームワーク

WebFed: Cross-platform Federated Learning Framework Based on Web Browser with Local Differential Privacy ( http://arxiv.org/abs/2110.11646v1 )

ライセンス: Link先を確認
Zhuotao Lian, Qinglin Yang, Qingkui Zeng, Chunhua Su(参考訳) データ分離された島やプライバシーの問題に対して、フェデレートドラーニングは、クライアントがローカルデータを使ってグローバルモデルのトレーニングを、サードパーティと共有することなく行えることから、大きな関心を呼び起こしている。 しかし、既存の連合学習フレームワークは常に高度な条件設定(例えばnvidiaのようなスタンドアロンのグラフィックカードの高度なドライバ構成、コンパイル環境)を必要としており、大規模な開発やデプロイメントには不便である。 フェデレーション学習の展開と関連アプリケーションの実装を容易にするために,ブラウザの機能(クロスプラットフォーム,javascriptプログラミング機能など)を活用した,ブラウザベースの新たなフェデレーション学習フレームワークであるwebfedを提案し,ローカルディファレンシャルプライバシ機構によるプライバシ保護を強化する。 最後に、提案するWebFedフレームワークの性能を評価するため、異種デバイスの実験を行う。

For data isolated islands and privacy issues, federated learning has been extensively invoking much interest since it allows clients to collaborate on training a global model using their local data without sharing any with a third party. However, the existing federated learning frameworks always need sophisticated condition configurations (e.g., sophisticated driver configuration of standalone graphics card like NVIDIA, compile environment) that bring much inconvenience for large-scale development and deployment. To facilitate the deployment of federated learning and the implementation of related applications, we innovatively propose WebFed, a novel browser-based federated learning framework that takes advantage of the browser's features (e.g., Cross-platform, JavaScript Programming Features) and enhances the privacy protection via local differential privacy mechanism. Finally, We conduct experiments on heterogeneous devices to evaluate the performance of the proposed WebFed framework.
翻訳日:2021-10-25 15:28:25 公開日:2021-10-22
# 計数木によるネットワーク相関の効率的な検証

Testing network correlation efficiently via counting trees ( http://arxiv.org/abs/2110.11816v1 )

ライセンス: Link先を確認
Cheng Mao, Yihong Wu, Jiaming Xu, Sophie H. Yu(参考訳) 本稿では,2つのネットワークがエッジ関連であるかどうかを,潜在頂点対応によって検証する新しい手法を提案する。 テスト統計は、非同型木族に対する符号付き木の共起を数えることに基づいている。 Erd\H{o}s-R\'enyiランダムグラフ $\mathcal{G}(n,q)$ と相関係数 $\rho$ が独立あるいは相関関係を持つ場合、我々のテストは $n^{2+o(1)} の時間で実行され、高い確率で $n\to\infty$ として成功し、$n\min\{q,1-q\} \ge n^{-o(1)}$ と $\rho^2>\alpha \approx 0.338$ が成立すると、$\alpha$ は、$K$エッジを持つ未ラベル木の数が$(1/\alpha)^K$ として増加する。 これにより、統計的精度、実行時間、グラフの間隔の観点から、以前の作業を大幅に改善する。

We propose a new procedure for testing whether two networks are edge-correlated through some latent vertex correspondence. The test statistic is based on counting the co-occurrences of signed trees for a family of non-isomorphic trees. When the two networks are Erd\H{o}s-R\'enyi random graphs $\mathcal{G}(n,q)$ that are either independent or correlated with correlation coefficient $\rho$, our test runs in $n^{2+o(1)}$ time and succeeds with high probability as $n\to\infty$, provided that $n\min\{q,1-q\} \ge n^{-o(1)}$ and $\rho^2>\alpha \approx 0.338$, where $\alpha$ is Otter's constant so that the number of unlabeled trees with $K$ edges grows as $(1/\alpha)^K$. This significantly improves the prior work in terms of statistical accuracy, running time, and graph sparsity.
翻訳日:2021-10-25 15:28:09 公開日:2021-10-22
# KYCとESGコンプライアンスのための逆メディアマイニング

Adverse Media Mining for KYC and ESG Compliance ( http://arxiv.org/abs/2110.11542v1 )

ライセンス: Link先を確認
Rupinder Paul Khandpur, Albert Aristotle Nanda, Mathew Davis, Chen Li, Daulet Nurmanbetov, Sankalp Gaur and Ashit Talukder(参考訳) 近年、グローバル市場経済で活動する機関は、サイバーや第三者などの非金融的リスク要因によるリスクの増加に直面しており、従来の信用と流動性のリスクよりも高い評価を受けている。 逆メディアやネガティブニューススクリーニングは、そのような非金融的リスクの特定に不可欠である。 典型的なスクリーニングツールはリアルタイムではなく、手動で検索し、労働集約的な情報ソースの監視を必要とする。 さらに、複雑な規制要件を最新に保つためのコストのかかるプロセスであり、制度の進化するリスク欲求である。 この拡張要約では、ニュースや他のオープンソースの非構造化情報ソースを用いて、ユーザのクエリ(個人または組織エンティティ)に対する有害メディアのリアルタイムおよびバッチ検索を行う自動システムを提案する。 我々のスケーラブルで機械学習による、高精度で有害なニュースフィルタリングアプローチは、リスクドメインに対する4つの観点、検索クエリ(関心)の関連性、ネガティブな感情分析、リスクエンコーディングに基づいています。 モデル評価とケーススタディの助けを借りて、デプロイされたアプリケーションのパフォーマンスを要約する。

In recent years, institutions operating in the global market economy face growing risks stemming from non-financial risk factors such as cyber, third-party, and reputational outweighing traditional risks of credit and liquidity. Adverse media or negative news screening is crucial for the identification of such non-financial risks. Typical tools for screening are not real-time, involve manual searches, require labor-intensive monitoring of information sources. Moreover, they are costly processes to maintain up-to-date with complex regulatory requirements and the institution's evolving risk appetite. In this extended abstract, we present an automated system to conduct both real-time and batch search of adverse media for users' queries (person or organization entities) using news and other open-source, unstructured sources of information. Our scalable, machine-learning driven approach to high-precision, adverse news filtering is based on four perspectives - relevance to risk domains, search query (entity) relevance, adverse sentiment analysis, and risk encoding. With the help of model evaluations and case studies, we summarize the performance of our deployed application.
翻訳日:2021-10-25 15:21:09 公開日:2021-10-22
# DistFL: モバイルシナリオのための分散型フェデレーション学習

DistFL: Distribution-aware Federated Learning for Mobile Scenarios ( http://arxiv.org/abs/2110.11619v1 )

ライセンス: Link先を確認
Bingyan Liu, Yifeng Cai, Ziqi Zhang, Yuanchun Li, Leye Wang, Ding Li, Yao Guo, Xiangqun Chen(参考訳) federated learning(fl)は、モバイルクライアント向けの分散およびプライバシ保存機械学習の効果的なソリューションとして登場した。 従来のflは優位性を示してきたが、モバイルシナリオに広く存在する非iid(独立的に同じ分散)状況を無視している。 iidでない状況は、パフォーマンスの低下や攻撃の可能性といった問題を引き起こす可能性がある。 これまでの研究では、従来のFLモデルに追加のステップを加えることで、精度を改善したり、攻撃の可能性を検出するために、直接「症状」に焦点を当てていた。 しかし、以前の手法では「シンプトム」の根本原因を見落としていた:非iid分布を盲目的に集約するモデルである。 本稿では,非iid状態全体を複数のiidクラスタに分解し,各クラスタでアグリゲーションを行うことで,この問題に根本的な対処を試みる。 具体的には、コスト効率の高い方法で自動的かつ正確な \textbf{dist}ribution-aware \textbf{f}ederated \textbf{l}earning を実現するための新しいフレームワークである \textbf{distfl} を提案する。 DistFL はアップロードされたモデルから \textit{distribution knowledge} を抽出して比較することでクラスタリングを実現する。 このフレームワークにより、異なる分布を持つ複数のパーソナライズされたモデルを生成し、対応するクライアントに割り当てることができます。 一般的なモデルアーキテクチャを用いたモバイルシナリオに関する大規模な実験は、DistFLの有効性を実証している。

Federated learning (FL) has emerged as an effective solution to decentralized and privacy-preserving machine learning for mobile clients. While traditional FL has demonstrated its superiority, it ignores the non-iid (independently identically distributed) situation, which widely exists in mobile scenarios. Failing to handle non-iid situations could cause problems such as performance decreasing and possible attacks. Previous studies focus on the "symptoms" directly, as they try to improve the accuracy or detect possible attacks by adding extra steps to conventional FL models. However, previous techniques overlook the root causes for the "symptoms": blindly aggregating models with the non-iid distributions. In this paper, we try to fundamentally address the issue by decomposing the overall non-iid situation into several iid clusters and conducting aggregation in each cluster. Specifically, we propose \textbf{DistFL}, a novel framework to achieve automated and accurate \textbf{Dist}ribution-aware \textbf{F}ederated \textbf{L}earning in a cost-efficient way. DistFL achieves clustering via extracting and comparing the \textit{distribution knowledge} from the uploaded models. With this framework, we are able to generate multiple personalized models with distinctive distributions and assign them to the corresponding clients. Extensive experiments on mobile scenarios with popular model architectures have demonstrated the effectiveness of DistFL.
翻訳日:2021-10-25 15:20:50 公開日:2021-10-22
# ランドスケープアウェア最適化性能予測

Explainable Landscape-Aware Optimization Performance Prediction ( http://arxiv.org/abs/2110.11633v1 )

ライセンス: Link先を確認
Risto Trajanov and Stefan Dimeski and Martin Popovski and Peter Koro\v{s}ec and Tome Eftimov(参考訳) 未発見の最適化問題の効率的な解法は、最適化アルゴリズムとそのハイパーパラメータの適切な選択に関連している。 この目的のために、アルゴリズムの自動性能予測は、一般的に適用されているほとんどのプラクティスでは、一連の問題ランドスケープ機能を使用して教師付きMLアルゴリズムをトレーニングする必要がある。 しかし,このようなモデルのトレーニングの主な課題は,景観特徴の集合が最終予測結果に与える影響についてのみ情報を提供するため,限定的な説明可能性である。 本研究では,各景観特徴の最適化アルゴリズム性能予測への寄与を,グローバルおよびローカルレベルで推定する,説明可能な景観認識回帰モデルについて検討する。 グローバルレベルはすべてのベンチマーク問題のインスタンスに対する機能の影響に関する情報を提供するが、ローカルレベルは特定の問題インスタンスに対する影響に関する情報を提供する。 実験結果はCOCOベンチマーク問題と3つの異なる構成のモジュールCMA-ESを用いて得られた。 その結果、異なる問題インスタンスに対して異なる特徴セットが重要であるという概念の証明を示し、自動アルゴリズムの性能予測モデルのトレーニングにおいて、ランドスケープ空間のさらなるパーソナライズが必要であることを示した。

Efficient solving of an unseen optimization problem is related to appropriate selection of an optimization algorithm and its hyper-parameters. For this purpose, automated algorithm performance prediction should be performed that in most commonly-applied practices involves training a supervised ML algorithm using a set of problem landscape features. However, the main issue of training such models is their limited explainability since they only provide information about the joint impact of the set of landscape features to the end prediction results. In this study, we are investigating explainable landscape-aware regression models where the contribution of each landscape feature to the prediction of the optimization algorithm performance is estimated on a global and local level. The global level provides information about the impact of the feature across all benchmark problems' instances, while the local level provides information about the impact on a specific problem instance. The experimental results are obtained using the COCO benchmark problems and three differently configured modular CMA-ESs. The results show a proof of concept that different set of features are important for different problem instances, which indicates that further personalization of the landscape space is required when training an automated algorithm performance prediction model.
翻訳日:2021-10-25 15:20:23 公開日:2021-10-22
# 一般特徴抽出器としての深層畳み込みオートエンコーダ

Deep Convolutional Autoencoders as Generic Feature Extractors in Seismological Applications ( http://arxiv.org/abs/2110.11802v1 )

ライセンス: Link先を確認
Qingkai Kong, Andrea Chiang, Ana C. Aguiar, M. Giselle Fern\'andez-Godino, Stephen C. Myers, Donald D. Lucas(参考訳) 深部オートエンコーダを用いて地震波形の特徴を符号化し、異なる地震学的な用途で使用するというアイデアは魅力的である。 本稿では, 地震と騒音の波形, 地震と爆発の波形, 位相ピッキングなど, 地震の識別など, 特徴抽出器としてオートエンコーダを用いるというこの考え方を評価するための実験を設計した。 これらのテストでは、未完成または過完全のいずれかのオートエンコーダを大量の地震波形で訓練し、訓練されたエンコーダをその後のアプリケーション層(完全に接続された層または畳み込み層と完全に接続された層)を持つ特徴抽出器として使用する。 これらの新設計モデルの性能をスクラッチからトレーニングしたベースラインモデルと比較することにより,対象課題がオートエンコーダ符号化機能に類似する特徴を必要とする場合,比較的少ないトレーニングデータが存在する場合,特定のモデル構造やトレーニング戦略が利用される場合など,特定の条件下でのみオートエンコーダ特徴抽出器アプローチが有効であると結論づける。 これらのテストで最もうまく機能するモデル構造は、畳み込み層と完全に連結された層を備えたオーバーコンプリートオートエンコーダである。

The idea of using a deep autoencoder to encode seismic waveform features and then use them in different seismological applications is appealing. In this paper, we designed tests to evaluate this idea of using autoencoders as feature extractors for different seismological applications, such as event discrimination (i.e., earthquake vs. noise waveforms, earthquake vs. explosion waveforms, and phase picking). These tests involve training an autoencoder, either undercomplete or overcomplete, on a large amount of earthquake waveforms, and then using the trained encoder as a feature extractor with subsequent application layers (either a fully connected layer, or a convolutional layer plus a fully connected layer) to make the decision. By comparing the performance of these newly designed models against the baseline models trained from scratch, we conclude that the autoencoder feature extractor approach may only perform well under certain conditions such as when the target problems require features to be similar to the autoencoder encoded features, when a relatively small amount of training data is available, and when certain model structures and training strategies are utilized. The model structure that works best in all these tests is an overcomplete autoencoder with a convolutional layer and a fully connected layer to make the estimation.
翻訳日:2021-10-25 15:20:06 公開日:2021-10-22
# 規範的応用のための予測機械学習--複合トレーニング検証アプローチ

Predictive machine learning for prescriptive applications: a coupled training-validating approach ( http://arxiv.org/abs/2110.11826v1 )

ライセンス: Link先を確認
Ebrahim Mortaz, Alexander Vinel(参考訳) 本研究では,規範的応用のための予測機械学習モデルを学習するための新しい手法を提案する。 このアプローチは、標準的なトレーニング検証テストスキームの検証ステップを微調整することに基づいて、結合バリデーションと呼ぶ。 具体的には,超パラメータ校正の目的として処方損失を考える。 この方法は、予測段階でバイアスをインテリジェントに導入し、規範的な段階での意思決定を改善することを可能にし、最近提案されたハイブリッド予測-確率最適化技術を含むほとんどの機械学習手法に適用でき、モデル固有の数学的モデリングなしで容易に実装できる。 合成データと実データを用いたいくつかの実験は、決定論的モデルと確率的モデルの両方において処方コストを減少させる有望な結果を示している。

In this research we propose a new method for training predictive machine learning models for prescriptive applications. This approach, which we refer to as coupled validation, is based on tweaking the validation step in the standard training-validating- testing scheme. Specifically, the coupled method considers the prescription loss as the objective for hyper-parameter calibration. This method allows for intelligent introduction of bias in the prediction stage to improve decision making at the prescriptive stage, and is generally applicable to most machine learning methods, including recently proposed hybrid prediction-stochasti c-optimization techniques, and can be easily implemented without model-specific mathematical modeling. Several experiments with synthetic and real data demonstrate promising results in reducing the prescription costs in both deterministic and stochastic models.
翻訳日:2021-10-25 15:19:39 公開日:2021-10-22
# (参考訳) 潜在モデルの逆ロバスト性:ロバスト標準アキュラティトレードオフの再検討 [全文訳有]

Adversarial robustness for latent models: Revisiting the robust-standard accuracies tradeoff ( http://arxiv.org/abs/2110.11950v1 )

ライセンス: CC BY 4.0
Adel Javanmard and Mohammad Mehrabi(参考訳) 近年,機械学習モデルが入力の逆方向摂動に対して頑健性を向上させるために,いくつかの逆方向学習法が提案されている。 この点において顕著な進歩にもかかわらず、標準的なテスト精度を落とすために敵の訓練がしばしば観察される。 この現象は、2つのパフォーマンス対策として、標準とロバストな精度の間の潜在的なトレードオフを調査する研究コミュニティに興味を向けている。 本稿では,遅延モデルに対するこのトレードオフを再検討し,データの低次元構造を享受すると,このトレードオフが緩和されると主張する。 特に,2つのデータ生成モデル,すなわちガウス混合モデルと一般化線形モデルに基づく二項分類を考える。 空間次元に対する多様体次元が減少するにつれて、標準精度とロバストな精度尺度の両方に関してほぼ最適となるモデルが得られることを示す。

Over the past few years, several adversarial training methods have been proposed to improve the robustness of machine learning models against adversarial perturbations in the input. Despite remarkable progress in this regard, adversarial training is often observed to drop the standard test accuracy. This phenomenon has intrigued the research community to investigate the potential tradeoff between standard and robust accuracy as two performance measures. In this paper, we revisit this tradeoff for latent models and argue that this tradeoff is mitigated when the data enjoys a low-dimensional structure. In particular, we consider binary classification under two data generative models, namely Gaussian mixture model and generalized linear model, where the feature data lie on a low-dimensional manifold. We show that as the manifold dimension to the ambient dimension decreases, one can obtain models that are nearly optimal with respect to both, the standard accuracy and the robust accuracy measures.
翻訳日:2021-10-25 15:17:56 公開日:2021-10-22
# GCNScheduler: グラフ畳み込みネットワークを用いた分散コンピューティングアプリケーションのスケジューリング

GCNScheduler: Scheduling Distributed Computing Applications using Graph Convolutional Networks ( http://arxiv.org/abs/2110.11552v1 )

ライセンス: Link先を確認
Mehrdad Kiamari and Bhaskar Krishnamachari(参考訳) 分散コンピューティングシステムにおける複雑なアプリケーションに対応するタスクグラフをスケジューリングする古典的な問題を考察する。 makespanやスループットといったメトリクスに関してタスクスケジューリングを最適化するために、これまで多くのヒューリスティックが提案されてきた。 しかしながら、特に大きな問題インスタンスでは実行が遅くなり、よりダイナミックなシステムでの適用性が制限される傾向にある。 そこで我々は,これらの問題を高速に解くことを目標として,グラフ畳み込みネットワークベースのスケジューラ(GCNScheduler)を提案する。 タスク間データ依存構造とネットワーク設定を慎重に統合し、それを適切なGCNに供給することにより、GCNSchedulerは所定の目的のために複雑なアプリケーションのタスクを効率的にスケジュールすることができる。 シミュレーションにより,提案手法をベースラインで評価する。 提案手法は,既存のスケジューリング方式から高速かつ効率的に学習できるだけでなく,現在のスケジューリング方式では処理できない大規模設定にも容易に適用できることを示す。 本稿では,従来のHEFTアルゴリズムよりも精度が高く,スループット指向のHEFT(TP-HEFT)とほぼ同等のスループットを実現するとともに,どちらの場合も桁違いに高速なスケジューリング時間を提供できることを示す。 例えば、メースパンの最小化では、GCNSchedulerはおよそ4ミリ秒で50ノードのタスクグラフをスケジュールし、HEFTは1500秒以上、スループットの最大化では、約3.3ミリ秒で100ノードのタスクグラフをスケジュールする。

We consider the classical problem of scheduling task graphs corresponding to complex applications on distributed computing systems. A number of heuristics have been previously proposed to optimize task scheduling with respect to metrics such as makespan and throughput. However, they tend to be slow to run, particularly for larger problem instances, limiting their applicability in more dynamic systems. Motivated by the goal of solving these problems more rapidly, we propose, for the first time, a graph convolutional network-based scheduler (GCNScheduler). By carefully integrating an inter-task data dependency structure with network settings into an input graph and feeding it to an appropriate GCN, the GCNScheduler can efficiently schedule tasks of complex applications for a given objective. We evaluate our scheme with baselines through simulations. We show that not only can our scheme quickly and efficiently learn from existing scheduling schemes, but also it can easily be applied to large-scale settings where current scheduling schemes fail to handle. We show that it achieves better makespan than the classic HEFT algorithm, and almost the same throughput as throughput-oriented HEFT (TP-HEFT), while providing several orders of magnitude faster scheduling times in both cases. For example, for makespan minimization, GCNScheduler schedules 50-node task graphs in about 4 milliseconds while HEFT takes more than 1500 seconds; and for throughput maximization, GCNScheduler schedules 100-node task graphs in about 3.3 milliseconds, compared to about 6.9 seconds for TP-HEFT.
翻訳日:2021-10-25 14:38:59 公開日:2021-10-22
# 機械学習推論の機械論的解釈:ファジィ特徴重要融合アプローチ

Mechanistic Interpretation of Machine Learning Inference: A Fuzzy Feature Importance Fusion Approach ( http://arxiv.org/abs/2110.11713v1 )

ライセンス: Link先を確認
Divish Rengasamy, Jimiama M. Mase, Mercedes Torres Torres, Benjamin Rothwell, David A. Winkler, Grazziela P. Figueredo(参考訳) 意思決定を支援するために機械学習が広く使われているため、特定のアウトプットが生成される理由を検証し理解することがますます重要である。 ポストトレーニング後の特徴重要アプローチはこの解釈を補助するが、機能重要度を定量化する方法に関する全体的なコンセンサスが欠如しており、モデル予測の説明は信頼できない。 さらに、これらの説明の多くは、特定の機械学習アプローチと、特徴量を計算する際に使用されるデータのサブセットに依存する。 説明の信頼性を改善するための可能な解決策は、異なる機械学習アプローチによる複数の特徴重要量化器の結果と再サンプリングを組み合わせることである。 現在の最先端のアンサンブル特徴量融合は、異なるアプローチによる結果を融合するためにクリップ技術を使用する。 しかし、これらの手法は文脈に適応せず、数個の量化器を1つのクリップ出力に還元するので、情報のかなりの損失がある。 さらに重要なことに、係数としての'importance'の表現は誤解を招くものであり、エンドユーザや意思決定者にとって理解できない。 本稿では, ファジィデータ融合法がsplit fusion法の重要な限界を克服する方法について述べる。

With the widespread use of machine learning to support decision-making, it is increasingly important to verify and understand the reasons why a particular output is produced. Although post-training feature importance approaches assist this interpretation, there is an overall lack of consensus regarding how feature importance should be quantified, making explanations of model predictions unreliable. In addition, many of these explanations depend on the specific machine learning approach employed and on the subset of data used when calculating feature importance. A possible solution to improve the reliability of explanations is to combine results from multiple feature importance quantifiers from different machine learning approaches coupled with re-sampling. Current state-of-the-art ensemble feature importance fusion uses crisp techniques to fuse results from different approaches. There is, however, significant loss of information as these approaches are not context-aware and reduce several quantifiers to a single crisp output. More importantly, their representation of 'importance' as coefficients is misleading and incomprehensible to end-users and decision makers. Here we show how the use of fuzzy data fusion methods can overcome some of the important limitations of crisp fusion methods.
翻訳日:2021-10-25 14:38:33 公開日:2021-10-22
# 複合的経験的リスク最小化のための微分プライベート座標降下

Differentially Private Coordinate Descent for Composite Empirical Risk Minimization ( http://arxiv.org/abs/2110.11688v1 )

ライセンス: Link先を確認
Paul Mangold, Aur\'elien Bellet, Joseph Salmon, Marc Tommasi(参考訳) 機械学習モデルは、トレーニングに使用されるデータに関する情報をリークすることができる。 Stochastic Gradient Descent (DP-SGD) のような最適化アルゴリズムの差分プライベート(DP)は、プライバシとユーティリティのトレードオフを引き起こすことでこれを緩和するように設計されている。 本稿では,DP-ERM (differially Private Empirical Risk Minimization) とDP-CD (differially Private Proximal Coordinate Descent) を組み合わせた新しい手法を提案する。 本研究では, DP-CD がDP-SGD を上回り, ステップサイズを大きくする可能性によって, DP-CD が DP-SGD より優れる状況を明らかにする。 また,座標的正則性仮定の下での複合dp-ermの新たな下限を証明した。 実用的な実装では、DP-CD更新の座標的な性質は、勾配への個々の貢献を束縛するために使用されるクリッピングしきい値を選択することに特別な注意が必要である。 これらのしきい値の自然なパラメータ化は、座標ワイドなハイパーパラメータチューニングや余分な計算コストを必要とせず、不要な大きなノイズの追加を制限するという我々の理論から生じる。

Machine learning models can leak information about the data used to train them. Differentially Private (DP) variants of optimization algorithms like Stochastic Gradient Descent (DP-SGD) have been designed to mitigate this, inducing a trade-off between privacy and utility. In this paper, we propose a new method for composite Differentially Private Empirical Risk Minimization (DP-ERM): Differentially Private proximal Coordinate Descent (DP-CD). We analyze its utility through a novel theoretical analysis of inexact coordinate descent, and highlight some regimes where DP-CD outperforms DP-SGD, thanks to the possibility of using larger step sizes. We also prove new lower bounds for composite DP-ERM under coordinate-wise regularity assumptions, that are, in some settings, nearly matched by our algorithm. In practical implementations, the coordinate-wise nature of DP-CD updates demands special care in choosing the clipping thresholds used to bound individual contributions to the gradients. A natural parameterization of these thresholds emerges from our theory, limiting the addition of unnecessarily large noise without requiring coordinate-wise hyperparameter tuning or extra computational cost.
翻訳日:2021-10-25 14:37:51 公開日:2021-10-22
# ListReader: 質問に対するリスト形式の回答を抽出する

ListReader: Extracting List-form Answers for Opinion Questions ( http://arxiv.org/abs/2110.11692v1 )

ライセンス: Link先を確認
Peng Cui, Dongyao Hu, Le Hu(参考訳) 質問応答(QA)は自然言語処理の高レベルな能力である。 ほとんどの抽出マシーン読解モデルは、ファクトイドな質問(例えば、いつ、どこで、どこで)に焦点を合わせ、出力の答えを元の節の短く連続的なスパンとして制限する。 しかし、現実のシナリオでは、多くの質問は非ファクト(例えば、なぜか)であり、その答えは複数の非連続スパンを含むリスト形式に整理される。 当然、既存の抽出モデルはそのような質問に答えることができない。 この問題に対処するため,本稿では,リスト形式回答のためのニューラル抽出QAモデルであるListReaderを提案する。 質問と内容のアライメントの学習に加えて,候補セグメント間の関係を明示的に把握するヘテロジニアスグラフニューラルネットワークを導入する。 さらに,本モデルでは,スパンレベルあるいは文レベルの回答を抽出し,適用性の向上を図る。 この研究を支援するために、異なる言語の大規模データセットが2つ構築されている。 実験結果から,本モデルは各種の強いベースラインを著しく上回ることがわかった。 さらなる議論は、私たちのモデルがどのように機能し、パフォーマンスがどこから得られるのかを直感的に理解する。

Question answering (QA) is a high-level ability of natural language processing. Most extractive ma-chine reading comprehension models focus on factoid questions (e.g., who, when, where) and restrict the output answer as a short and continuous span in the original passage. However, in real-world scenarios, many questions are non-factoid (e.g., how, why) and their answers are organized in the list format that contains multiple non-contiguous spans. Naturally, existing extractive models are by design unable to answer such questions. To address this issue, this paper proposes ListReader, a neural ex-tractive QA model for list-form answer. In addition to learning the alignment between the question and content, we introduce a heterogeneous graph neural network to explicitly capture the associations among candidate segments. Moreover, our model adopts a co-extraction setting that can extract either span- or sentence-level answers, allowing better applicability. Two large-scale datasets of different languages are constructed to support this study. Experimental results show that our model considerably outperforms various strong baselines. Further discussions provide an intuitive understanding of how our model works and where the performance gain comes from.
翻訳日:2021-10-25 14:35:53 公開日:2021-10-22
# 読解行動と言語理解のマルチモーダル分析による学習評価の枠組み

A Framework for Learning Assessment through Multimodal Analysis of Reading Behaviour and Language Comprehension ( http://arxiv.org/abs/2110.11938v1 )

ライセンス: Link先を確認
Santosh Kumar Barnwal(参考訳) 読解は、グラフを意味に翻訳する過程を通じて、文章の理解を得ることと定義されており、重要な学術的スキルである。 その他の言語学習スキル - 読み書き、会話、聞き取りは、すべて、読み理解と結びついている。 第二言語学習者(L2)、特に第二言語学習者(ESL)、外国語学習者(EFL)に対する理解スキルの評価を自動化するためのいくつかの方法が提案されている。 しかし, 本手法は, 読解頻度が理解力に与える影響を解析することなく, 特定のスキルを測定する。 この論文では、異なるスキルを計測し、自動的にスコアを付ける方法を示す。 また,複数形態の学習者の反応を例示し,多形態的スキルの変数(読み方,書き方,口頭フラレンシ)に対して,読解の頻度がどの程度影響するかを実証した。 この論文は5つの研究からなる。 第1および第2の研究では、反復読解(RR)セッションでEFL読者から収集された視線追跡データに基づいている。 第3および第4の研究は,efl読解者による自由テキスト要約を反復読解セッションで評価することである。 論文の第6章で述べられている第5章と最後の研究は、EFL読者が繰り返し読むセッションで朗読した口頭要約を評価することである。 一言で言えば、この論文を通じて、学習者のマルチモーダルスキルを評価できるとともに、重要な特徴を見出し、LMERのような統計モデルを組み合わせて機械学習技術を適用して、繰り返し読みがこれらのスキルに与える影響を経時的に測定できることを示す。

Reading comprehension, which has been defined as gaining an understanding of written text through a process of translating grapheme into meaning, is an important academic skill. Other language learning skills - writing, speaking and listening, all are connected to reading comprehension. There have been several measures proposed by researchers to automate the assessment of comprehension skills for second language (L2) learners, especially English as Second Language (ESL) and English as Foreign Language (EFL) learners. However, current methods measure particular skills without analysing the impact of reading frequency on comprehension skills. In this dissertation, we show how different skills could be measured and scored automatically. We also demonstrate, using example experiments on multiple forms of learners' responses, how frequent reading practices could impact on the variables of multimodal skills (reading pattern, writing, and oral fluency). This thesis comprises of five studies. The first and second studies are based on eye-tracking data collected from EFL readers in repeated reading (RR) sessions. The third and fourth studies are to evaluate free-text summary written by EFL readers in repeated reading sessions. The fifth and last study, described in the sixth chapter of the thesis, is to evaluate recorded oral summaries recited by EFL readers in repeated reading sessions. In a nutshell, through this dissertation, we show that multimodal skills of learners could be assessed to measure their comprehension skills as well as to measure the effect of repeated readings on these skills in the course of time, by finding significant features and by applying machine learning techniques with a combination of statistical models such as LMER.
翻訳日:2021-10-25 14:35:34 公開日:2021-10-22
# 正確な接地ラベルのない評価のための論理評価式とその原理

Logical Assessment Formula and its Principles for Evaluations without Accurate Ground-Truth Labels ( http://arxiv.org/abs/2110.11567v1 )

ライセンス: Link先を確認
Yongquan Yang(参考訳) 正確な接地ラベル(agtl)のない評価のために論理評価式(laf)を提案した。 本稿では,LAFの原理を包括的理論的分析により明らかにする。 明らかにされた原則から, LAFの実践性について要約する。 1) LAF は AGTL を使わずに,より困難な作業において,AGTL を使わずに,通常の AGTL による評価戦略と同じように,合理的に適用することができる。 2) LAF は AGTL による評価の通常の戦略のように振る舞うことができないため,AGTL を含まない評価にも適用可能である。 乳がんに対する腫瘍郭清に応用したLAFの実験結果と解析により,LAFの実用性は明らかであった原則から要約された。

Logical assessment formula (LAF) was proposed for evaluations without accurate ground-truth labels (AGTL). In this paper, we reveal the principles of LAF via comprehensive theoretical analyses. From the revealed principles, we summarize the practicability of LAF: 1) LAF can be reasonably applied for evaluations without AGTL on a more difficult task, just acting like usual strategies for evaluations with AGTL; 2) LAF can be applied for evaluations without AGTL from the logical perspective on an easier task, unable to be acting like usual strategies for evaluations with AGTL. Experimental results and analyses of LAF applied on tumour segmentation for breast cancer support the practicability of LAF summarized from the revealed principles.
翻訳日:2021-10-25 14:35:00 公開日:2021-10-22
# 署名グラフネットワーク

Signature-Graph Networks ( http://arxiv.org/abs/2110.11551v1 )

ライセンス: Link先を確認
Ali Hamdi, Flora Salim, Du Yong Kim, and Xiaojun Chang(参考訳) 本稿では,SGN(Signature-Graph Neural Networks)と呼ばれる視覚表現学習手法を提案する。 SGNは、畳み込みニューラルネットワーク(CNN)の特徴表現を強化する潜在グローバル構造を学ぶ。 SGNは、CNN特徴写像に基づいて、各画像に対して独自の無向グラフを構築する。 特徴マップは、等しいパッチと非重複パッチのセットに分割される。 グラフノードは、これらのパッチの局所的な最大値または最小値を持つ高コントラストの鋭い畳み込み特性上に位置する。 ノード埋め込みは、水平および垂直のエッジ接続に基づく新しいSignature-Graphを通じて集約される。 表現ベクトルはグラフのスペクトルラプラシアン固有値に基づいて計算される。 SGNは、最近のグラフ畳み込みネットワーク、生成敵ネットワーク、および画像分類精度99.65%のオートエンコーダ、MNISTで99.91%、Fashion-MNISTで98.55%、CIFAR-10で96.18%、CIFAR-100で84.71%、STL10で94.36%、SVHNデータセットで95.86%である。 また,提案したSGNの上に,最先端マルチヘッドアテンション(MHA)の新たな実装を導入する。 MHAにSGNを追加することで、画像分類の精度は86.92%から94.36%に向上した。

We propose a novel approach for visual representation learning called Signature-Graph Neural Networks (SGN). SGN learns latent global structures that augment the feature representation of Convolutional Neural Networks (CNN). SGN constructs unique undirected graphs for each image based on the CNN feature maps. The feature maps are partitioned into a set of equal and non-overlapping patches. The graph nodes are located on high-contrast sharp convolution features with the local maxima or minima in these patches. The node embeddings are aggregated through novel Signature-Graphs based on horizontal and vertical edge connections. The representation vectors are then computed based on the spectral Laplacian eigenvalues of the graphs. SGN outperforms existing methods of recent graph convolutional networks, generative adversarial networks, and auto-encoders with image classification accuracy of 99.65% on ASIRRA, 99.91% on MNIST, 98.55% on Fashion-MNIST, 96.18% on CIFAR-10, 84.71% on CIFAR-100, 94.36% on STL10, and 95.86% on SVHN datasets. We also introduce a novel implementation of the state-of-the-art multi-head attention (MHA) on top of the proposed SGN. Adding SGN to MHA improved the image classification accuracy from 86.92% to 94.36% on the STL10 dataset
翻訳日:2021-10-25 14:31:41 公開日:2021-10-22
# 広さと狭さ: コンテキストと動きからのビデオ予測

Wide and Narrow: Video Prediction from Context and Motion ( http://arxiv.org/abs/2110.11586v1 )

ライセンス: Link先を確認
Jaehoon Cho, Jiyoung Lee, Changjae Oh, Wonil Song, Kwanghoon Sohn(参考訳) 映像予測は,シーンを取り巻くグローバルな状況や局所的な動きのダイナミクスなど,視点の変化が様々な要因に影響されるため,一連の入力フレームから将来のフレームを予測することが難しい課題である。 本稿では,これらの相補的属性を統合し,深層ネットワークによる複雑なピクセルダイナミクスを予測するフレームワークを提案する。 本稿では,非局所隣接表現を反復的に集約し,過去フレームの文脈情報を保存するグローバルコンテキスト伝搬ネットワークを提案する。 また,オブジェクトの局所的動きパターンを捉えるために,移動物体の原型的動きを記憶することで適応フィルタカーネルを生成するローカルフィルタメモリネットワークを考案する。 提案手法は,両ネットワークからの出力を利用して,ぼやけた予測や色歪に対処できる。 我々は、カルテック歩行者とutf101データセットの実験を行い、最新結果を実証する。 特に多段階予測では,定量的および定性評価において優れた性能が得られる。

Video prediction, forecasting the future frames from a sequence of input frames, is a challenging task since the view changes are influenced by various factors, such as the global context surrounding the scene and local motion dynamics. In this paper, we propose a new framework to integrate these complementary attributes to predict complex pixel dynamics through deep networks. We present global context propagation networks that iteratively aggregate the non-local neighboring representations to preserve the contextual information over the past frames. To capture the local motion pattern of objects, we also devise local filter memory networks that generate adaptive filter kernels by storing the prototypical motion of moving objects in the memory. The proposed framework, utilizing the outputs from both networks, can address blurry predictions and color distortion. We conduct experiments on Caltech pedestrian and UCF101 datasets, and demonstrate state-of-the-art results. Especially for multi-step prediction, we obtain an outstanding performance in quantitative and qualitative evaluation.
翻訳日:2021-10-25 14:31:13 公開日:2021-10-22
# DIML/CVL RGB-Dデータセット:2M RGB-Dによる自然室内・屋外シーンの画像

DIML/CVL RGB-D Dataset: 2M RGB-D Images of Natural Indoor and Outdoor Scenes ( http://arxiv.org/abs/2110.11590v1 )

ライセンス: Link先を確認
Jaehoon Cho, Dongbo Min, Youngjung Kim, Kwanghoon Sohn(参考訳) このマニュアルは、DIML/CVL RGB-Dデータセットの詳細な説明を提供する。 このデータセットは、2M色の画像と、様々な自然の屋内・屋外シーンの深度マップで構成されている。 屋内データセットはMicrosoft Kinect v2を使用して構築され、屋外データセットはステレオカメラ(ZEDステレオカメラと内蔵ステレオカメラ)を使用して構築された。 テーブルiは、買収、処理、フォーマット、ツールボックスを含むデータセットの詳細を要約します。 詳細は第2節および第3節を参照。

This manual is intended to provide a detailed description of the DIML/CVL RGB-D dataset. This dataset is comprised of 2M color images and their corresponding depth maps from a great variety of natural indoor and outdoor scenes. The indoor dataset was constructed using the Microsoft Kinect v2, while the outdoor dataset was built using the stereo cameras (ZED stereo camera and built-in stereo camera). Table I summarizes the details of our dataset, including acquisition, processing, format, and toolbox. Refer to Section II and III for more details.
翻訳日:2021-10-25 14:30:59 公開日:2021-10-22
# 単車速と車間距離推定のためのマルチストリーム注意学習

Multi-Stream Attention Learning for Monocular Vehicle Velocity and Inter-Vehicle Distance Estimation ( http://arxiv.org/abs/2110.11608v1 )

ライセンス: Link先を確認
Kuan-Chih Huang, Yu-Kai Huang, Winston H. Hsu(参考訳) ada(advanced driver-assistance system)や自動運転車には、車速と車間距離推定が不可欠である。 高価なレンジセンサーのコストを抑えるため、最近の研究では、低コストの単眼カメラを使用して、データ駆動方式で車両周囲の環境を知覚することに焦点を当てている。 既存のアプローチでは、各車両を独立して認識し、一貫性のない推定を行う。 さらに, 2次元物体検出における文脈や空間関係などの重要な情報は, 速度推定パイプラインでは無視されることが多い。 本稿では,一貫した推定を促進するために,同一フレームの車両とグローバル相対制約(GLC)損失の関係を検討する。 新しいマルチストリームアテンションネットワーク(MSANet)が提案され、例えば、車間距離推定と車間距離推定のための空間的特徴と文脈的特徴の異なる特徴を抽出する。 提案手法の有効性と頑健性を示す実験を行った。 msanetはkittiデータセットとtusimple velocityデータセットの両方で最先端のアルゴリズムを上回る。

Vehicle velocity and inter-vehicle distance estimation are essential for ADAS (Advanced driver-assistance systems) and autonomous vehicles. To save the cost of expensive ranging sensors, recent studies focus on using a low-cost monocular camera to perceive the environment around the vehicle in a data-driven fashion. Existing approaches treat each vehicle independently for perception and cause inconsistent estimation. Furthermore, important information like context and spatial relation in 2D object detection is often neglected in the velocity estimation pipeline. In this paper, we explore the relationship between vehicles of the same frame with a global-relative-cons traint (GLC) loss to encourage consistent estimation. A novel multi-stream attention network (MSANet) is proposed to extract different aspects of features, e.g., spatial and contextual features, for joint vehicle velocity and inter-vehicle distance estimation. Experiments show the effectiveness and robustness of our proposed approach. MSANet outperforms state-of-the-art algorithms on both the KITTI dataset and TuSimple velocity dataset.
翻訳日:2021-10-25 14:30:50 公開日:2021-10-22
# 立体表現を用いたオクルージョン・ロバストオブジェクト・ポース推定

Occlusion-Robust Object Pose Estimation with Holistic Representation ( http://arxiv.org/abs/2110.11636v1 )

ライセンス: Link先を確認
Bo Chen, Tat-Jun Chin, Marius Klimavicius(参考訳) 実用的物体ポーズ推定は、対象物体に対する咬合に対するロバスト性を要求する。 State-of-the-art(SOT A)オブジェクトのポーズ推定は2段階のアプローチを採り、第1段階はディープネットワークを用いて2Dランドマークを予測し、第2段階は2D-3D対応から6DOFのポーズを解く。 広く採用されているが、このような2段階のアプローチは、一般化する際に新たな閉塞や、破壊的な特徴によるランドマークの一貫性の弱さに苦しむ可能性がある。 これらの問題に対処するために,オクルージョンロバスト深層特徴を学習するための新しいオクルード・アンド・ブラックアウトバッチ拡張手法と,高精度かつコヒーレントなランドマーク予測のための総合的なポーズ表現学習を促すマルチプレシジョン監督アーキテクチャを開発した。 我々は,我々のイノベーションが与える影響を検証するために注意深いアブレーションテストを行い,本手法をsomaポーズ推定器と比較する。 後処理や改良を一切必要とせずに,本手法はLINEMODデータセットに優れた性能を示す。 YCB-Videoデータセットでは、この手法はADD(-S)メトリックで全ての非精製手法より優れています。 また,本手法の高データ効率性を示す。 私たちのコードはhttp://github.com/Bo ChenYS/ROPEで利用可能です。

Practical object pose estimation demands robustness against occlusions to the target object. State-of-the-art (SOTA) object pose estimators take a two-stage approach, where the first stage predicts 2D landmarks using a deep network and the second stage solves for 6DOF pose from 2D-3D correspondences. Albeit widely adopted, such two-stage approaches could suffer from novel occlusions when generalising and weak landmark coherence due to disrupted features. To address these issues, we develop a novel occlude-and-blackout batch augmentation technique to learn occlusion-robust deep features, and a multi-precision supervision architecture to encourage holistic pose representation learning for accurate and coherent landmark predictions. We perform careful ablation tests to verify the impact of our innovations and compare our method to SOTA pose estimators. Without the need of any post-processing or refinement, our method exhibits superior performance on the LINEMOD dataset. On the YCB-Video dataset our method outperforms all non-refinement methods in terms of the ADD(-S) metric. We also demonstrate the high data-efficiency of our method. Our code is available at http://github.com/Bo ChenYS/ROPE
翻訳日:2021-10-25 14:29:39 公開日:2021-10-22
# クロスドメイン軌道予測のためのCTP-Net

CTP-Net For Cross-Domain Trajectory Prediction ( http://arxiv.org/abs/2110.11645v1 )

ライセンス: Link先を確認
Pingxuan Huang, Yanyan Fang, Bo Hu, Shenghua Gao, Jing Li(参考訳) 深層学習に基づく軌跡予測手法は、大量の注釈付き将来の軌跡に依存するが、他のカメラが捉えた新しいシナリオにはうまく応用できないかもしれない。 一方、この新しいシナリオのためにネットワークをトレーニングするための注釈付きトラジェクトリは時間と費用がかかるため、アノテーション付きソースドメイントラジェクトリでトレーニングされたモデルをターゲットドメインに適応することが望ましい。 軌道予測のための領域適応に取り組むために,両領域の観測された軌道をlstmで符号化し,それらの特徴をクロスドメイン特徴判別器でアライメントするクロスドメイン軌道予測ネットワーク(ctp-net)を提案する。 さらに、対象領域における観測軌跡と予測軌跡との整合性を考慮して、対象領域オフセット判別器を用いて、観測軌跡と整合する将来の軌跡予測を逆向きに調整する。 トラジェクティブ予測設定における提案した領域適応の有効性と、トラジェクトリ予測のための領域適応に関する提案手法について実験を行った。

Deep learning based trajectory prediction methods rely on large amount of annotated future trajectories, but may not generalize well to a new scenario captured by another camera. Meanwhile, annotating trajectories for training a network for this new scenario is time-consuming and expensive, therefore it is desirable to adapt the model trained with the annotated source domain trajectories to the target domain. To tackle domain adaptation for trajectory prediction, we propose a Cross-domain Trajectory Prediction Network (CTP-Net), in which LSTMs are used to encode the observed trajectories of both domain, and their features are aligned by a cross-domain feature discriminator. Further, considering the consistency between the observed trajectories and the predicted trajectories in the target domain, a target domain offset discriminator is utilized to adversarially regularize the future trajectory predictions to be consistent with the observed trajectories. Extensive experiments demonstrate the effectiveness of the proposed domain adaptation for trajectory prediction setting as well as our method on domain adaptation for trajectory prediction.
翻訳日:2021-10-25 14:29:16 公開日:2021-10-22
# 意味セグメンテーションにおけるリアルタイム領域適応のための再想像ビセネット

Reimagine BiSeNet for Real-Time Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2110.11662v1 )

ライセンス: Link先を確認
Antonio Tavera, Carlo Masone, Barbara Caputo(参考訳) セマンティックセグメンテーションモデルは様々なタスクで顕著なパフォーマンスを達成した。 しかし、この性能は、強力な計算資源を使用し、トレーニングや推論時間を考慮せずに非常に大きなモデルで達成される。 一方、現実世界のアプリケーションは、最小限のメモリ要求、効率的な推論速度、自動運転車のような低リソースの組み込みデバイスで実行可能なモデルを必要とする。 本稿では,ドメイン間のリアルタイムセマンティクスセグメンテーションの課題を考察し,合成領域で訓練されたにもかかわらず,実世界データに対して適切に動作するようにモデルを訓練する。 私たちは、この目的のために特別に作られた新しい軽量で浅い識別器を採用しています。 我々の知る限りでは、セマンティックセグメンテーションにおけるドメイン適応問題を評価するために、我々は初めてリアルタイムの敵対的アプローチを提示する。 私たちは、GTA5からCityscapes、SynTHIAからCityscapesの2つの標準プロトコルでフレームワークをテストしました。 コードはhttps://github.com/t averaantonio/rtda.co m/。

Semantic segmentation models have reached remarkable performance across various tasks. However, this performance is achieved with extremely large models, using powerful computational resources and without considering training and inference time. Real-world applications, on the other hand, necessitate models with minimal memory demands, efficient inference speed, and executable with low-resources embedded devices, such as self-driving vehicles. In this paper, we look at the challenge of real-time semantic segmentation across domains, and we train a model to act appropriately on real-world data even though it was trained on a synthetic realm. We employ a new lightweight and shallow discriminator that was specifically created for this purpose. To the best of our knowledge, we are the first to present a real-time adversarial approach for assessing the domain adaption problem in semantic segmentation. We tested our framework in the two standard protocol: GTA5 to Cityscapes and SYNTHIA to Cityscapes. Code is available at: https://github.com/t averaantonio/RTDA.
翻訳日:2021-10-25 14:28:59 公開日:2021-10-22
# GCCN:グローバルコンテキスト畳み込みネットワーク

GCCN: Global Context Convolutional Network ( http://arxiv.org/abs/2110.11664v1 )

ライセンス: Link先を確認
Ali Hamdi, Flora Salim, and Du Yong Kim(参考訳) 本稿では,視覚認識のためのグローバルコンテキスト畳み込みネットワーク(GCCN)を提案する。 GCCNは、画像パッチ全体にわたるコンテキスト情報を表すグローバル機能を計算する。 これらのグローバルなコンテキスト特徴は、各パッチに高い視覚的シャープ性を持つ局所的な最大画素として定義される。 これらの機能は統合され、畳み込み機能を拡張するために使用される。 学習特徴ベクトルはフロベニウスノルムを用いて大域的文脈特徴を用いて正規化される。 この単純なアプローチは、CIFAR-10データセットとSTL-10データセットでそれぞれ94.6%と95.41%の最先端の手法に対する思いやりの精度を達成する。 GCCNが他の視覚的表現タスクに与える影響を探るため,GCCNを画像分類のためのベースモデルとして実装した。 我々は,拡張特徴ベクトルとそのプロトタイプ表現の間の距離を,プロトタイプやマッチングネットワークと同様に学習する。 GCCNは99.9%、84.8%、80.74%をOmniglot、MiniImageNet、CUB-200で達成している。 GCCNは、最先端のプロトタイプおよびマッチングネットワークの精度を、異なる数ショットの学習シナリオで最大30%改善した。

In this paper, we propose Global Context Convolutional Network (GCCN) for visual recognition. GCCN computes global features representing contextual information across image patches. These global contextual features are defined as local maxima pixels with high visual sharpness in each patch. These features are then concatenated and utilised to augment the convolutional features. The learnt feature vector is normalised using the global context features using Frobenius norm. This straightforward approach achieves high accuracy in compassion to the state-of-the-art methods with 94.6% and 95.41% on CIFAR-10 and STL-10 datasets, respectively. To explore potential impact of GCCN on other visual representation tasks, we implemented GCCN as a based model to few-shot image classification. We learn metric distances between the augmented feature vectors and their prototypes representations, similar to Prototypical and Matching Networks. GCCN outperforms state-of-the-art few-shot learning methods achieving 99.9%, 84.8% and 80.74% on Omniglot, MiniImageNet and CUB-200, respectively. GCCN has significantly improved on the accuracy of state-of-the-art prototypical and matching networks by up to 30% in different few-shot learning scenarios.
翻訳日:2021-10-25 14:28:42 公開日:2021-10-22
# (参考訳) 条件付きガウスPAC-Bayes [全文訳有]

Conditional Gaussian PAC-Bayes ( http://arxiv.org/abs/2110.11886v1 )

ライセンス: CC BY 4.0
Eugenio Clerico, George Deligiannidis, and Arnaud Doucet(参考訳) 近年の研究では、確率勾配勾配によるPAC-ベイズ境界の最適化により、確率的分類器を訓練する方法を実験的に検討している。 これらの手順の多くは、誤分類エラーを代理損失に置き換える必要があり、最適化目標と実際の一般化境界とのミスマッチにつながる。 本稿では,サロゲート損失に頼らずにPAC-ベイズ境界を最適化する新しいトレーニングアルゴリズムを提案する。 実験結果から,本手法で得られた境界は文献より厳密であることがわかった。

Recent studies have empirically investigated different methods to train a stochastic classifier by optimising a PAC-Bayesian bound via stochastic gradient descent. Most of these procedures need to replace the misclassification error with a surrogate loss, leading to a mismatch between the optimisation objective and the actual generalisation bound. The present paper proposes a novel training algorithm that optimises the PAC-Bayesian bound, without relying on any surrogate loss. Empirical results show that the bounds obtained with this approach are tighter than those found in the literature.
翻訳日:2021-10-25 14:26:05 公開日:2021-10-22
# 実践的エネルギーベース回帰のための学習提案

Learning Proposals for Practical Energy-Based Regression ( http://arxiv.org/abs/2110.11948v1 )

ライセンス: Link先を確認
Fredrik K. Gustafsson, Martin Danelljan, Thomas B. Sch\"on(参考訳) エネルギーベースモデル(EBM)は近年、確率的回帰の有望な代替手段として、機械学習内で復活を遂げている。 しかし、エネルギーベースの回帰は、手動でトレーニング用に設計する提案分布を必要とし、最初の見積もりはテスト時に提供する必要がある。 そこで本研究では, ネットワークヘッドによってパラメータ化される効果的な提案分布を自動学習する概念的に単純な手法を導入することで, 両課題に対処した。 この結果から,EBM への提案からの KL の分岐と EBM の負の対数類似性を両立させる統一的な学習目標が導出された。 テスト時には,学習したESMを効率よく評価し,スタンドアローン予測を生成するために,トレーニングされた提案で重要サンプリングを利用することができる。 さらに,コンピュータビジョンにおける4つの実世界の回帰タスクにおいて,従来のMDNトレーニングを一貫して上回りながら,混合密度ネットワーク(MDN)とエネルギーベースの教師を併用して学習する。 コードはhttps://github.com/f regu856/ebms_proposa lsで入手できる。

Energy-based models (EBMs) have experienced a resurgence within machine learning in recent years, including as a promising alternative for probabilistic regression. However, energy-based regression requires a proposal distribution to be manually designed for training, and an initial estimate has to be provided at test-time. We address both of these issues by introducing a conceptually simple method to automatically learn an effective proposal distribution, which is parameterized by a separate network head. To this end, we derive a surprising result, leading to a unified training objective that jointly minimizes the KL divergence from the proposal to the EBM, and the negative log-likelihood of the EBM. At test-time, we can then employ importance sampling with the trained proposal to efficiently evaluate the learned EBM and produce stand-alone predictions. Furthermore, we utilize our derived training objective to learn mixture density networks (MDNs) with a jointly trained energy-based teacher, consistently outperforming conventional MDN training on four real-world regression tasks within computer vision. Code is available at https://github.com/f regu856/ebms_proposa ls.
翻訳日:2021-10-25 13:56:00 公開日:2021-10-22
# 二重問題: マスキング言語モデルで合成された反事実を用いたテキスト分類器の決定をどう説明しないか?

Double Trouble: How to not explain a text classifier's decisions using counterfactuals synthesized by masked language models? ( http://arxiv.org/abs/2110.11929v1 )

ライセンス: Link先を確認
Thang M. Pham, Trung Bui, Long Mai, Anh Nguyen(参考訳) それぞれの入力機能が分類器の決定にどれほど重要かを説明することは、高いスループットのアプリケーションにおいて重要である。 多くの説明法の背後にある根底にある原則は、入力特徴(ここではトークン)の前後の予測差を、因果推論における個々の治療効果の帰属として取り除くことである。 IM(Kim et al., 2020)と呼ばれる最近の手法では、トークンの代わりにBERTを使用している。 do(.)演算子をシミュレートします。 しかし、5つの指標と3つのデータセットを用いた厳密な評価により、imの説明は、単に単語を削除することに由来するものよりも、一貫して偏り、正確性が低く、妥当でないことがわかった。

Explaining how important each input feature is to a classifier's decision is critical in high-stake applications. An underlying principle behind dozens of explanation methods is to take the prediction difference between before-and-after an input feature (here, a token) is removed as its attribution - the individual treatment effect in causal inference. A recent method called Input Marginalization (IM) (Kim et al., 2020) uses BERT to replace a token - i.e. simulating the do(.) operator - yielding more plausible counterfactuals. However, our rigorous evaluation using five metrics and on three datasets found IM explanations to be consistently more biased, less accurate, and less plausible than those derived from simply deleting a word.
翻訳日:2021-10-25 13:55:40 公開日:2021-10-22
# AUDITEDを用いた簡易対話システム

Simple Dialogue System with AUDITED ( http://arxiv.org/abs/2110.11881v1 )

ライセンス: Link先を確認
Yusuf Tas, Piotr Koniusz(参考訳) テキスト,画像,あるいはその両方からなる対話発話のためのマルチモーダル会話システムを開発する。 Auxiliary UnsuperviseD vIsual と TExtual Data (AUDITED) を利用する。 テキストベースのタスクの性能を向上させるために,対象文を英語からフランス語へ翻訳し,補助監督を行う。 画像ベースタスクにはDeepFashionデータセットを使用し、MDDデータの正および負のターゲット画像の近接画像を探索する。 これらの最寄りの近傍は、対象画像の外部コンテキストを提供する最寄りの近傍埋め込みを形成する。 本研究では, 隣接埋め込みベクトル(Neighbor Embedding by Hard Assignment (NEHA) と Neighbor Embedding by Soft Assignment (NESA) の2つの手法を構築し, 対象画像毎のコンテキスト部分空間を生成する。 その後、これらのサブスペースは、ターゲットデータのコンテキストとしてパイプラインによって学習されます。 また,画像とテキストベースのタスクを切り替える識別器を提案する。 本稿では,Multimodal Dialogue Dataset(MMD)とSIMMCのベースラインの改善について述べる。

We devise a multimodal conversation system for dialogue utterances composed of text, image or both modalities. We leverage Auxiliary UnsuperviseD vIsual and TExtual Data (AUDITED). To improve the performance of text-based task, we utilize translations of target sentences from English to French to form the assisted supervision. For the image-based task, we employ the DeepFashion dataset in which we seek nearest neighbor images of positive and negative target images of the MMD data. These nearest neighbors form the nearest neighbor embedding providing an external context for target images. We form two methods to create neighbor embedding vectors, namely Neighbor Embedding by Hard Assignment (NEHA) and Neighbor Embedding by Soft Assignment (NESA) which generate context subspaces per target image. Subsequently, these subspaces are learnt by our pipeline as a context for the target data. We also propose a discriminator which switches between the image- and text-based tasks. We show improvements over baselines on the large-scale Multimodal Dialogue Dataset (MMD) and SIMMC.
翻訳日:2021-10-25 13:55:24 公開日:2021-10-22
# 手続き型マルチモーダルマシン理解の課題:ベンチマークの新しい方法

Challenges in Procedural Multimodal Machine Comprehension:A Novel Way To Benchmark ( http://arxiv.org/abs/2110.11899v1 )

ライセンス: Link先を確認
Pritish Sahu, Karan Sikka, Ajay Divakaran(参考訳) 我々は、与えられた文(または文脈)に基づいて、モデルが質問に答えることを期待するマルチモーダル機械読解理解(M3C)に焦点を当て、その文脈と質問は異なるモダリティで得る。 RecipeQAのような以前の研究は、評価のためのデータセットとクローゼスタイルのタスクを提案している。 しかし,大深度モデルの問合せ生成過程と記憶能力から生じる3つの重要なバイアスを同定する。 これらのバイアスは、素早い相関や単純なデータパターンに頼ることによって、モデルが過度に適合することを容易にする。 3つの制御ノブによってこれらのバイアスに対処する体系的なフレームワークを提案し、プログレッシブな難易度を持つデータセットの試験ベッドを生成する。 当社のベンチマーク(Meta-RecipeQA)は,モデルの一般化能力の詳細な評価を初めて提供するものだと考えています。 また,いくつかのsomaモデルを実現し,新しい階層的トランスフォーマベース推論ネットワーク(htrn)を動機付ける汎用m3cモデルを提案する。 ベンチマークで、異なる言語と視覚的特徴を持つこれらのモデルの詳細な評価を行う。 我々は、HTRNによるSOTAに対する一貫した改善(Visual Clozeタスクでは18%、すべてのタスクでは平均13%)を観察した。 また、RecipeQAでテストする場合、すべてのモデルのパフォーマンスが低下し、Meta-RecipeQA(例えば、HTRNでは83.6%対67.1%)を提案する。 その結果, 制御ノブの影響を定量的に明らかにした。

We focus on Multimodal Machine Reading Comprehension (M3C) where a model is expected to answer questions based on given passage (or context), and the context and the questions can be in different modalities. Previous works such as RecipeQA have proposed datasets and cloze-style tasks for evaluation. However, we identify three critical biases stemming from the question-answer generation process and memorization capabilities of large deep models. These biases makes it easier for a model to overfit by relying on spurious correlations or naive data patterns. We propose a systematic framework to address these biases through three Control-Knobs that enable us to generate a test bed of datasets of progressive difficulty levels. We believe that our benchmark (referred to as Meta-RecipeQA) will provide, for the first time, a fine grained estimate of a model's generalization capabilities. We also propose a general M3C model that is used to realize several prior SOTA models and motivate a novel hierarchical transformer based reasoning network (HTRN). We perform a detailed evaluation of these models with different language and visual features on our benchmark. We observe a consistent improvement with HTRN over SOTA (~18% in Visual Cloze task and ~13% in average over all the tasks). We also observe a drop in performance across all the models when testing on RecipeQA and proposed Meta-RecipeQA (e.g. 83.6% versus 67.1% for HTRN), which shows that the proposed dataset is relatively less biased. We conclude by highlighting the impact of the control knobs with some quantitative results.
翻訳日:2021-10-25 13:55:07 公開日:2021-10-22
# 深部2ストリーム映像による人体ポーズ推定と形状推定

Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation ( http://arxiv.org/abs/2110.11680v1 )

ライセンス: Link先を確認
Ziwen Li, Bo Xu, Han Huang, Cheng Lu and Yandong Guo(参考訳) 単一画像に基づく手法の時間的矛盾を解決するために,ビデオベースの3次元ポーズと形状推定アルゴリズムが提案されている。 しかし、安定的かつ正確な再建はいまだに困難である。 本稿では,RGBビデオから3次元のポーズとメッシュを生成するために,人体姿勢と形状推定のためのDeep Two-Stream Video Inference(DTS-VIBE)を提案する。 我々は,rgbとオプティカルフローを融合したマルチモダリティ問題としてタスクを再構成し,より信頼性の高い推定を行う。 感覚モーダル性(RGBまたは光流)の両面をフル活用するために,変換器に基づく2ストリーム時間ネットワークを訓練し,SMPLパラメータを予測する。 補足的モダリティ、光学的フローは、2つの連続するフレーム間の運動知識を活用することで時間的一貫性を維持するのに役立つ。 提案アルゴリズムはhuman3.6および3dpwデータセット上で広く評価されている。 実験の結果,他の最先端手法よりも有意差が認められた。

Several video-based 3D pose and shape estimation algorithms have been proposed to resolve the temporal inconsistency of single-image-based methods. However it still remains challenging to have stable and accurate reconstruction. In this paper, we propose a new framework Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation (DTS-VIBE), to generate 3D human pose and mesh from RGB videos. We reformulate the task as a multi-modality problem that fuses RGB and optical flow for more reliable estimation. In order to fully utilize both sensory modalities (RGB or optical flow), we train a two-stream temporal network based on transformer to predict SMPL parameters. The supplementary modality, optical flow, helps to maintain temporal consistency by leveraging motion knowledge between two consecutive frames. The proposed algorithm is extensively evaluated on the Human3.6 and 3DPW datasets. The experimental results show that it outperforms other state-of-the-art methods by a significant margin.
翻訳日:2021-10-25 13:54:06 公開日:2021-10-22
# Pseudo-classes によるSemantic Segmentation

Few-shot Semantic Segmentation with Self-supervision from Pseudo-classes ( http://arxiv.org/abs/2110.11742v1 )

ライセンス: Link先を確認
Yiwen Li, Gratianus Wesley Putra Data, Yunguan Fu, Yipeng Hu, Victor Adrian Prisacariu(参考訳) セマンティクスセグメンテーションのためのディープラーニング手法の成功にもかかわらず、限られたトレーニングデータとunseenクラスの一般化要件のため、数少ないセマンティクスセグメンテーションは依然として難しい課題である。 近年の進歩は特に促進されているが、クエリ画像がターゲットクラス以外の意味クラスを含む場合、既存のメソッドのパフォーマンスが低くなる傾向があることが判明した。 そこで本研究では,問合せ画像の背景にランダムな疑似クラスを生成し,個々の対象クラスを予測する際に利用できない追加のトレーニングデータを提供する,新しい自己教師付きタスクを提案する。 そこで我々は疑似クラスを生成するためにスーパーピクセルセグメンテーションを採用した。 この余分な監督により,PASCAL-5iおよびCOCOベンチマークでは,1ショットタスクでは2.5%,5.1%,5ショットタスクでは6.7%,4.4%のIoU性能が向上した。

Despite the success of deep learning methods for semantic segmentation, few-shot semantic segmentation remains a challenging task due to the limited training data and the generalisation requirement for unseen classes. While recent progress has been particularly encouraging, we discover that existing methods tend to have poor performance in terms of meanIoU when query images contain other semantic classes besides the target class. To address this issue, we propose a novel self-supervised task that generates random pseudo-classes in the background of the query images, providing extra training data that would otherwise be unavailable when predicting individual target classes. To that end, we adopted superpixel segmentation for generating the pseudo-classes. With this extra supervision, we improved the meanIoU performance of the state-of-the-art method by 2.5% and 5.1% on the one-shot tasks, as well as 6.7% and 4.4% on the five-shot tasks, on the PASCAL-5i and COCO benchmarks, respectively.
翻訳日:2021-10-25 13:53:50 公開日:2021-10-22
# 半スーパービジョン画像キャプションにおけるクロスモーダル予測と関係整合性

Exploiting Cross-Modal Prediction and Relation Consistency for Semi-Supervised Image Captioning ( http://arxiv.org/abs/2110.11767v1 )

ライセンス: Link先を確認
Yang Yang, Hongchen Wei, Hengshu Zhu, Dianhai Yu, Hui Xiong, Qingshan Liu and Jian Yang(参考訳) 画像キャプションのタスクは、自動学習されたクロスモーダルジェネレータを通じて、画像から直接キャプションを生成することを目的としている。 優れたジェネレータを構築するために、既存のアプローチは通常、多数の記述されたイメージを必要とし、手動ラベリングに大きな影響を与える。 しかし、現実のアプリケーションでは、より一般的なシナリオは、記述済みのイメージと多くの未記述のイメージしか持たないということです。 したがって、結果として生じる課題は、未記述の画像とクロスモーダルジェネレータの学習を効果的に組み合わせることである。 そこで本研究では,共通意味空間における生成文の制約に生画像入力を活用することを目的とした,CPRC(Cross-modal Prediction and Relation Consistency)を利用した画像キャプション手法を提案する。 詳細は、モダリティの不均一なギャップが常にグローバル埋め込みを直接使用することの監督上の困難につながることを考慮し、CPRCは生画像と対応する生成された文の両方を共有意味空間に変換し、生成された文を2つの側面から測定する。 1)予測整合性。 CPRCは、原画像の予測をソフトラベルとして利用し、従来の擬似ラベリングではなく、生成文の有用な監視を蒸留する。 2)関係整合性。 CPRCは、重要な関係知識を保持するために、拡張画像と対応する生成された文との間の新しい関係性を開発する。 その結果、CPRCは、情報性と代表性の両方の観点から生成された文を監督し、未記述の画像を合理的に使用して、半教師付きシナリオ下でより効果的な生成物を学ぶことができる。

The task of image captioning aims to generate captions directly from images via the automatically learned cross-modal generator. To build a well-performing generator, existing approaches usually need a large number of described images, which requires a huge effects on manual labeling. However, in real-world applications, a more general scenario is that we only have limited amount of described images and a large number of undescribed images. Therefore, a resulting challenge is how to effectively combine the undescribed images into the learning of cross-modal generator. To solve this problem, we propose a novel image captioning method by exploiting the Cross-modal Prediction and Relation Consistency (CPRC), which aims to utilize the raw image input to constrain the generated sentence in the commonly semantic space. In detail, considering that the heterogeneous gap between modalities always leads to the supervision difficulty of using the global embedding directly, CPRC turns to transform both the raw image and corresponding generated sentence into the shared semantic space, and measure the generated sentence from two aspects: 1) Prediction consistency. CPRC utilizes the prediction of raw image as soft label to distill useful supervision for the generated sentence, rather than employing the traditional pseudo labeling; 2) Relation consistency. CPRC develops a novel relation consistency between augmented images and corresponding generated sentences to retain the important relational knowledge. In result, CPRC supervises the generated sentence from both the informativeness and representativeness perspectives, and can reasonably use the undescribed images to learn a more effective generator under the semi-supervised scenario.
翻訳日:2021-10-25 13:52:30 公開日:2021-10-22
# 決定点プロセスを用いたバッチベイズ最適化のための多様化サンプリング

Diversified Sampling for Batched Bayesian Optimization with Determinantal Point Processes ( http://arxiv.org/abs/2110.11665v1 )

ライセンス: Link先を確認
Elvis Nava, Mojm\'ir Mutn\'y, Andreas Krause(参考訳) ベイジアン最適化(BO)では,ノイズ点評価とベイジアン先行値を用いてブラックボックス関数の最適化を検討した。 boの収束は、ブラックボックス関数の複数の評価を1ラウンドで行うバッチ処理によって大幅に加速することができる。 この設定における主な難点は、評価点の多様で有意義なバッチを同時に提案することである。 本稿では,dpp(decisionantal point process)の反発特性を利用して,サンプリングベースboにおけるバッチの多様性を誘導する汎用フレームワークであるdpp-batch bayesian optimization (dpp-bbo)を提案する。 我々は,dpp-thompson sampling (dpp-ts) をポピュラー・トンプソンサンプリング (ts) アルゴリズムの変種として定式化し,マルコフ連鎖モンテカルロ手順を導入した。 次に、古典的バッチTSと DPP-TS の双方に対して、ベイズ的単純後悔境界を証明し、後者はより厳密である。 我々の実世界と合成実験は、ガウス過程とコックス過程モデルによる古典的バッチ法よりも優れたDPP-BBO性能を示す。

In Bayesian Optimization (BO) we study black-box function optimization with noisy point evaluations and Bayesian priors. Convergence of BO can be greatly sped up by batching, where multiple evaluations of the black-box function are performed in a single round. The main difficulty in this setting is to propose at the same time diverse and informative batches of evaluation points. In this work, we introduce DPP-Batch Bayesian Optimization (DPP-BBO), a universal framework for inducing batch diversity in sampling based BO by leveraging the repulsive properties of Determinantal Point Processes (DPP) to naturally diversify the batch sampling procedure. We illustrate this framework by formulating DPP-Thompson Sampling (DPP-TS) as a variant of the popular Thompson Sampling (TS) algorithm and introducing a Markov Chain Monte Carlo procedure to sample from it. We then prove novel Bayesian simple regret bounds for both classical batched TS as well as our counterpart DPP-TS, with the latter bound being tighter. Our real-world, as well as synthetic, experiments demonstrate improved performance of DPP-BBO over classical batching methods with Gaussian process and Cox process models.
翻訳日:2021-10-25 13:51:48 公開日:2021-10-22
# c周期単調性を持つ変分ワッサーシュタインバリセンタ

Variational Wasserstein Barycenters with c-Cyclical Monotonicity ( http://arxiv.org/abs/2110.11707v1 )

ライセンス: Link先を確認
Jinjin Chi, Zhiyao Yang, Jihong Ouyang, Ximing Li(参考訳) 最適輸送理論に基づいて構築されたwasserstein barycenterは、確率分布を集約するための強力なフレームワークを提供し、機械学習コミュニティで注目を集めている。 しかし、特に高次元および連続的な設定において、計算上の重荷に悩まされる。 そこで本研究では,入力分布へのサンプルアクセスを前提として,wasserstein barycenters問題に対する新しい連続近似法を開発した。 基本的な考え方は、変分分布を真の連続バリセンタの近似として導入し、バリセンタ計算問題を最適化問題としてフレーム化し、変分分布のパラメータがプロキシ分布をバリセンタに類似するように調整する。 変分分布を活用し, c-巡回単調性を持つ正則化waserstein barycenter問題に対して, 確率的最適化により効率的に解くことができる可搬的双対定式を構築する。 本手法は, 収束に関する理論的解析を行い, 部分後層凝集と合成データの実際の応用において, 実用的有用性を示す。

Wasserstein barycenter, built on the theory of optimal transport, provides a powerful framework to aggregate probability distributions, and it has increasingly attracted great attention within the machine learning community. However, it suffers from severe computational burden, especially for high dimensional and continuous settings. To this end, we develop a novel continuous approximation method for the Wasserstein barycenters problem given sample access to the input distributions. The basic idea is to introduce a variational distribution as the approximation of the true continuous barycenter, so as to frame the barycenters computation problem as an optimization problem, where parameters of the variational distribution adjust the proxy distribution to be similar to the barycenter. Leveraging the variational distribution, we construct a tractable dual formulation for the regularized Wasserstein barycenter problem with c-cyclical monotonicity, which can be efficiently solved by stochastic optimization. We provide theoretical analysis on convergence and demonstrate the practical effectiveness of our method on real applications of subset posterior aggregation and synthetic data.
翻訳日:2021-10-25 13:51:25 公開日:2021-10-22
# モデル, サンプルおよびエポックワイズ降下: ランダム特徴モデルにおける勾配流の厳密解

Model, sample, and epoch-wise descents: exact solution of gradient flow in the random feature model ( http://arxiv.org/abs/2110.11805v1 )

ライセンス: Link先を確認
Antoine Bodin and Nicolas Macris(参考訳) 最近の証拠は、深層学習モデルの一般化誤差に対して、いわゆる二重発色と三重発色が存在することを示している。 この重要な現象は、実装されたニューラルネットワークアーキテクチャによく現れ、トレーニングプロセス中にエポックな曲線に現れる。 最近の研究は、ランダムな特徴モデルの一般化(および訓練)エラーの正確な解析的漸近を求めるためにランダムな行列ツールが利用できることを強調している。 本研究では,ランダム特徴モデルのための勾配流れ下での一般化とトレーニング誤差の時間的挙動を解析した。 システム規模の漸近限界において,両誤差の完全な時間発展経路を解析的に計算できることを示す。 これにより、二重降下と三重降下が時間とともにどのように発達するか、早期停止が選択可能であれば、また時間軸降下構造も観察できる。 本手法は,誤りのコーシー複素積分表現と,線形鉛筆に基づく最近のランダム行列法に基づいている。

Recent evidence has shown the existence of a so-called double-descent and even triple-descent behavior for the generalization error of deep-learning models. This important phenomenon commonly appears in implemented neural network architectures, and also seems to emerge in epoch-wise curves during the training process. A recent line of research has highlighted that random matrix tools can be used to obtain precise analytical asymptotics of the generalization (and training) errors of the random feature model. In this contribution, we analyze the whole temporal behavior of the generalization and training errors under gradient flow for the random feature model. We show that in the asymptotic limit of large system size the full time-evolution path of both errors can be calculated analytically. This allows us to observe how the double and triple descents develop over time, if and when early stopping is an option, and also observe time-wise descent structures. Our techniques are based on Cauchy complex integral representations of the errors together with recent random matrix methods based on linear pencils.
翻訳日:2021-10-25 13:48:54 公開日:2021-10-22
# GeneDisco: 薬物発見実験のためのベンチマーク

GeneDisco: A Benchmark for Experimental Design in Drug Discovery ( http://arxiv.org/abs/2110.11875v1 )

ライセンス: Link先を確認
Arash Mehrjou, Ashkan Soleymani, Andrew Jesson, Pascal Notin, Yarin Gal, Stefan Bauer, Patrick Schwab(参考訳) 例えばCRISPR技術を用いたin vitroでの細胞実験は、早期の薬物発見と標的検証において重要なステップであり、生物学的メカニズムと疾患の病態の間の因果関係に関する最初の仮説を評価するのに役立つ。 何十億という仮説が検証される中、in vitroの遺伝子実験のための実験的な設計スペースは非常に広く、利用可能な実験能力(世界最大の研究機関でも)は、この生物学的仮説空間の大きさと関係している。 アクティブ学習や強化学習のような機械学習手法は、様々な情報ソースからの事前知識を統合し、利用可能なデータに基づいて実験的な設計空間の未探索領域に外挿することで、広大な生物空間を最適に探索するのに役立つ。 しかし、この課題に対して標準化されたベンチマークやデータセットは存在せず、この分野ではこれまでほとんど研究されていない。 本稿では,薬物発見実験のためのアクティブラーニングアルゴリズムを評価するベンチマークスイートであるGeneDiscoを紹介する。 GeneDiscoには、複数の公開実験データセットのキュレートされたセットと、実験設計と探索のための最先端のアクティブラーニングポリシーのオープンソース実装が含まれている。

In vitro cellular experimentation with genetic interventions, using for example CRISPR technologies, is an essential step in early-stage drug discovery and target validation that serves to assess initial hypotheses about causal associations between biological mechanisms and disease pathologies. With billions of potential hypotheses to test, the experimental design space for in vitro genetic experiments is extremely vast, and the available experimental capacity - even at the largest research institutions in the world - pales in relation to the size of this biological hypothesis space. Machine learning methods, such as active and reinforcement learning, could aid in optimally exploring the vast biological space by integrating prior knowledge from various information sources as well as extrapolating to yet unexplored areas of the experimental design space based on available data. However, there exist no standardised benchmarks and data sets for this challenging task and little research has been conducted in this area to date. Here, we introduce GeneDisco, a benchmark suite for evaluating active learning algorithms for experimental design in drug discovery. GeneDisco contains a curated set of multiple publicly available experimental data sets as well as open-source implementations of state-of-the-art active learning policies for experimental design and exploration.
翻訳日:2021-10-25 13:48:39 公開日:2021-10-22
# ProtoShotXAI: 説明可能なAIのためのプロトタイプFew-Shotアーキテクチャ

ProtoShotXAI: Using Prototypical Few-Shot Architecture for Explainable AI ( http://arxiv.org/abs/2110.11597v1 )

ライセンス: Link先を確認
Samuel Hess and Gregory Ditzler(参考訳) 説明不能なブラックボックスモデルは、異常が有害な応答を引き起こすシナリオを生成します。 これらのリスクは、ブラックボックスニューラルネットワークの局所的解釈可能性を評価することによって、信頼を向上させるためのeXplainable Artificial Intelligence(XAI)の分野を動機付けている。 残念ながら、モデルの決定には根拠の真理は利用できないため、評価は質的評価に限定される。 さらに、解釈可能性はモデルに関する不正確な結論や誤った信頼感につながる可能性がある。 我々は,ブラックボックスモデルの潜在機能空間を探索することにより,ユーザの信頼を損なう点からXAIを改善することを提案する。 本稿では,異なるクラスの非線形特徴間の対比多様体を探索するために,プロトタイプ数ショットネットワークを用いたProtoShotXAIを提案する。 ユーザは、クエリサンプルの入力特徴を摂動させ、任意のクラスからの例題のサブセットに対する応答を記録することで、多様体を探索する。 我々のアプローチは、ローカルに解釈可能な最初のXAIモデルであり、数ショットのネットワークに拡張し、実証することができる。 我々は,ProtoShotXAIとMNIST,Omniglot,Image Netの最先端のXAIアプローチを比較し,ProtoShotXAIがモデル探索により高い柔軟性を提供することを示す。 最後にProtoShotXAIは、敵のサンプルに新しい説明可能性と検出性を示す。

Unexplainable black-box models create scenarios where anomalies cause deleterious responses, thus creating unacceptable risks. These risks have motivated the field of eXplainable Artificial Intelligence (XAI) to improve trust by evaluating local interpretability in black-box neural networks. Unfortunately, the ground truth is unavailable for the model's decision, so evaluation is limited to qualitative assessment. Further, interpretability may lead to inaccurate conclusions about the model or a false sense of trust. We propose to improve XAI from the vantage point of the user's trust by exploring a black-box model's latent feature space. We present an approach, ProtoShotXAI, that uses a Prototypical few-shot network to explore the contrastive manifold between nonlinear features of different classes. A user explores the manifold by perturbing the input features of a query sample and recording the response for a subset of exemplars from any class. Our approach is the first locally interpretable XAI model that can be extended to, and demonstrated on, few-shot networks. We compare ProtoShotXAI to the state-of-the-art XAI approaches on MNIST, Omniglot, and ImageNet to demonstrate, both quantitatively and qualitatively, that ProtoShotXAI provides more flexibility for model exploration. Finally, ProtoShotXAI also demonstrates novel explainabilty and detectabilty on adversarial samples.
翻訳日:2021-10-25 13:47:31 公開日:2021-10-22
# MIGS: シーングラフからメタ画像を生成する

MIGS: Meta Image Generation from Scene Graphs ( http://arxiv.org/abs/2110.11918v1 )

ライセンス: Link先を確認
Azade Farshad, Sabrina Musatian, Helisa Dhamo, Nassir Navab(参考訳) シーングラフからのイメージ生成は、明示的なシーン生成と操作への有望な方向である。 しかし、シーングラフから生成された画像は品質に欠けており、その原因の一部はデータの難易度と多様性にある。 MIGS(Meta Image Generation from Scene Graphs)は,異なるシーンにモデルを適応させ,多様なタスクセットをトレーニングすることで画質を向上させる,グラフからの数ショット画像生成のためのメタラーニングベースのアプローチである。 タスク駆動方式でデータをサンプリングすることにより、シーン属性に基づいて分類されたタスクの集合に基づいてメタラーニングを用いてジェネレータを訓練する。 本研究では,このメタラーニング手法を用いてシーングラフから画像を生成することにより,画像の質とシーンの意味的関係を捉えることで,最先端のパフォーマンスを実現することを示す。 プロジェクトウェブサイト: https://migs2021.git hub.io/

Generation of images from scene graphs is a promising direction towards explicit scene generation and manipulation. However, the images generated from the scene graphs lack quality, which in part comes due to high difficulty and diversity in the data. We propose MIGS (Meta Image Generation from Scene Graphs), a meta-learning based approach for few-shot image generation from graphs that enables adapting the model to different scenes and increases the image quality by training on diverse sets of tasks. By sampling the data in a task-driven fashion, we train the generator using meta-learning on different sets of tasks that are categorized based on the scene attributes. Our results show that using this meta-learning approach for the generation of images from scene graphs achieves state-of-the-art performance in terms of image quality and capturing the semantic relationships in the scene. Project Website: https://migs2021.git hub.io/
翻訳日:2021-10-25 13:47:08 公開日:2021-10-22
# evogan:ganを支援する進化的計算

EvoGAN: An Evolutionary Computation Assisted GAN ( http://arxiv.org/abs/2110.11583v1 )

ライセンス: Link先を確認
Feng Liu, HanYang Wang, Jiahao Zhang, Ziwang Fu, Aimin Zhou, Jiayin Qi, Zhibin Li(参考訳) 画像合成技術は比較的よく確立されており、人間でも区別できない顔画像を生成することができる。 しかしながら、これらのアプローチはすべて、出力を条件付けるために勾配を使い、結果として同じ画像を同じ入力で出力する。 また、合成表現を生成する代わりに、基本的な表現で画像を生成するか、あるいは表現を模倣するのみである。 しかし現実では、人間の表現は非常に多様性と複雑さがある。 本稿では,進化的アルゴリズム (ea) を用いたgan, evogan を用いて, 任意の対象化合物表現を合成する手法を提案する。 EvoGAN は EA を用いて GAN が学習したデータ配信の結果を検索する。 具体的には、顔動作符号化システム(facs)をeaの符号化として使用し、予め訓練されたganを用いて人間の顔画像を生成し、その後、事前訓練された分類器を使用して、合成画像の表現構成を適合機能として認識し、eaの探索を導く。 ランダム検索アルゴリズムと組み合わせて、ターゲット表現と様々な画像を容易に合成することができる。 いくつかの複合表現に対して定量的および定性的な結果が示され、実験結果はEvoGANの有効性と可能性を示している。

The image synthesis technique is relatively well established which can generate facial images that are indistinguishable even by human beings. However, all of these approaches uses gradients to condition the output, resulting in the outputting the same image with the same input. Also, they can only generate images with basic expression or mimic an expression instead of generating compound expression. In real life, however, human expressions are of great diversity and complexity. In this paper, we propose an evolutionary algorithm (EA) assisted GAN, named EvoGAN, to generate various compound expressions with any accurate target compound expression. EvoGAN uses an EA to search target results in the data distribution learned by GAN. Specifically, we use the Facial Action Coding System (FACS) as the encoding of an EA and use a pre-trained GAN to generate human facial images, and then use a pre-trained classifier to recognize the expression composition of the synthesized images as the fitness function to guide the search of the EA. Combined random searching algorithm, various images with the target expression can be easily sythesized. Quantitative and Qualitative results are presented on several compound expressions, and the experimental results demonstrate the feasibility and the potential of EvoGAN.
翻訳日:2021-10-25 13:46:52 公開日:2021-10-22
# (参考訳) 論理活性化関数:ブール作用素のロジット空間同値 [全文訳有]

Logical Activation Functions: Logit-space equivalents of Boolean Operators ( http://arxiv.org/abs/2110.11940v1 )

ライセンス: CC BY-SA 4.0
Scott C. Lowe, Robert Earle, Jason d'Eon, Thomas Trappenberg, Sageev Oore(参考訳) 人工神経ネットワーク内の神経表現は、一般にロジットとして理解され、刺激内の特徴の対数(対数不在)スコアを表す。 この解釈の下では、一対の独立な特徴がそれぞれの対から刺激を受ける確率$P(x_0 \land x_1)$を導出することができる。 結果の確率をロジットに変換することにより、AND演算に相当するロジット空間を得る。 しかし、この関数は複数の指数と対数を取るため、ニューラルネットワーク内で直接使用されるのが適していない。 そこで我々は,ニューラルネットワークのアクティベーション関数としてデプロイ可能な比較および加算操作のみを利用して,$\text{AND}_\text{AIL}$ (AND演算子 Approximate for Independent Logits) という効率的な近似を構築した。 MaxOut と同様、$\text{AND}_\text{AIL}$ は ReLU の 2次元への一般化である。 さらに,ORおよびXNOR演算子に対するロジット空間等価性の効率的な近似を構築した。 画像分類,移動学習,抽象推論,合成ゼロショット学習など,さまざまなタスクにおいて,これらの新たなアクティベーション関数を分離および協調的に展開し,その効果を実証した。

Neuronal representations within artificial neural networks are commonly understood as logits, representing the log-odds score of presence (versus absence) of features within the stimulus. Under this interpretation, we can derive the probability $P(x_0 \land x_1)$ that a pair of independent features are both present in the stimulus from their logits. By converting the resulting probability back into a logit, we obtain a logit-space equivalent of the AND operation. However, since this function involves taking multiple exponents and logarithms, it is not well suited to be directly used within neural networks. We thus constructed an efficient approximation named $\text{AND}_\text{AIL}$ (the AND operator Approximate for Independent Logits) utilizing only comparison and addition operations, which can be deployed as an activation function in neural networks. Like MaxOut, $\text{AND}_\text{AIL}$ is a generalization of ReLU to two-dimensions. Additionally, we constructed efficient approximations of the logit-space equivalents to the OR and XNOR operators. We deployed these new activation functions, both in isolation and in conjunction, and demonstrated their effectiveness on a variety of tasks including image classification, transfer learning, abstract reasoning, and compositional zero-shot learning.
翻訳日:2021-10-25 13:45:26 公開日:2021-10-22
# SCICAP:科学図のためのキャプションの生成

SCICAP: Generating Captions for Scientific Figures ( http://arxiv.org/abs/2110.11624v1 )

ライセンス: Link先を確認
Ting-Yao (Edward) Hsu, C. Lee Giles, Ting-Hao 'Kenneth' Huang(参考訳) 研究者は、科学論文でリッチで複雑な情報を伝えるために数字を使う。 これらの数字のキャプションは効果的なメッセージを伝えるのに不可欠である。 しかし、低品質の字幕は科学記事によく現れ、理解を減少させる可能性がある。 本稿では,科学的人物に対する情報的,高品質なキャプションを自動生成するエンドツーエンドのニューラルネットワークフレームワークを提案する。 この目的のために,2010年から2020年にかけて発行されたコンピュータサイエンスarXiv論文に基づく大規模フィギュアキャプチャーデータセットであるSCICAPを紹介する。 フィギュアタイプ分類、サブフィギュア識別、テキスト正規化、キャプションテキスト選択を含む前処理の後、SCICAPは290,000以上の論文から200万以上の数字を抽出した。 次に、主観的な(19.2%)図型であるキャプショングラフプロットのベースラインモデルを構築した。 実験結果から, 科学的数字のキャプション生成の機会と急激な課題が示された。

Researchers use figures to communicate rich, complex information in scientific papers. The captions of these figures are critical to conveying effective messages. However, low-quality figure captions commonly occur in scientific articles and may decrease understanding. In this paper, we propose an end-to-end neural framework to automatically generate informative, high-quality captions for scientific figures. To this end, we introduce SCICAP, a large-scale figure-caption dataset based on computer science arXiv papers published between 2010 and 2020. After pre-processing - including figure-type classification, sub-figure identification, text normalization, and caption text selection - SCICAP contained more than two million figures extracted from over 290,000 papers. We then established baseline models that caption graph plots, the dominant (19.2%) figure type. The experimental results showed both opportunities and steep challenges of generating captions for scientific figures.
翻訳日:2021-10-25 13:17:55 公開日:2021-10-22
# 機械学習のための可聴性アルゴリズム定義の必要性について

On the Necessity of Auditable Algorithmic Definitions for Machine Unlearning ( http://arxiv.org/abs/2110.11891v1 )

ライセンス: Link先を確認
Anvith Thudi, Hengrui Jia, Ilia Shumailov, Nicolas Papernot(参考訳) 機械学習、すなわち、トレーニングデータのいくつかを忘れるモデルを持つことは、プライバシー法が忘れられる権利の変種を促進するにつれ、ますます重要になっている。 ディープラーニングの文脈では、機械学習のアプローチは2つのクラスに大別される: 正確なアンラーニング手法、エンティティがスクラッチからモデルを再トレーニングすることでモデルに対するデータポイントの影響を正式に除去する手法、そして、エンティティが正確なアンラーニングによって得られるモデルパラメータを近似して計算コストを節約するアンラーニング。 本稿では, ほぼ未学習モデルが正確に再学習されたモデルに近いことを証明しようとするアンラーニングの基盤となる定義が, 異なるデータセットを用いて同じモデルが得られるため, 正しくないことを示す。 したがって、モデルをまったく変更せずに解放できる。 そして、正確なアンラーニングアプローチに目を向け、アンラーニングのクレームの検証方法を尋ねます。 以上の結果から,訓練中の特定のデータポイントの欠如を形式的に証明することはできないことがわかった。 したがって、アンラーニングはアルゴリズムレベルでのみ明確に定義され、あるエンティティのアンラーニングに対する唯一の監査可能な主張は、監査中に外部の検査を可能にするように設計された特定のアルゴリズムを使用することである。

Machine unlearning, i.e. having a model forget about some of its training data, has become increasingly more important as privacy legislation promotes variants of the right-to-be-forgotte n. In the context of deep learning, approaches for machine unlearning are broadly categorized into two classes: exact unlearning methods, where an entity has formally removed the data point's impact on the model by retraining the model from scratch, and approximate unlearning, where an entity approximates the model parameters one would obtain by exact unlearning to save on compute costs. In this paper we first show that the definition that underlies approximate unlearning, which seeks to prove the approximately unlearned model is close to an exactly retrained model, is incorrect because one can obtain the same model using different datasets. Thus one could unlearn without modifying the model at all. We then turn to exact unlearning approaches and ask how to verify their claims of unlearning. Our results show that even for a given training trajectory one cannot formally prove the absence of certain data points used during training. We thus conclude that unlearning is only well-defined at the algorithmic level, where an entity's only possible auditable claim to unlearning is that they used a particular algorithm designed to allow for external scrutiny during an audit.
翻訳日:2021-10-25 13:17:42 公開日:2021-10-22
# 高忠実度3次元再構成法

High Fidelity 3D Reconstructions with Limited Physical Views ( http://arxiv.org/abs/2110.11599v1 )

ライセンス: Link先を確認
Mosam Dabhi, Chaoyang Wang, Kunal Saluja, Laszlo Jeni, Ian Fasel, Simon Lucey(参考訳) マルチビュー三角測量は、既知のキャリブレーションと十分なビューを与えられた2次元対応から3次元再構成するための金の標準である。 しかし実際には、現代の多くのアプリケーションに必要な高忠実度な3d再構成を得るためには、数十台のカメラを含む高価なマルチビューセットアップが必要である。 本稿では,ニューラルネットワークを用いた2d-3dリフティングの最近の進歩を活かし,多視点等分散を実現する新しい手法を提案する。 本手法は,2~3個の非校正カメラビューを用いて,高価な校正マルチビューリグに匹敵する忠実度を達成できることを示す。

Multi-view triangulation is the gold standard for 3D reconstruction from 2D correspondences given known calibration and sufficient views. However in practice, expensive multi-view setups -- involving tens sometimes hundreds of cameras -- are required in order to obtain the high fidelity 3D reconstructions necessary for many modern applications. In this paper we present a novel approach that leverages recent advances in 2D-3D lifting using neural shape priors while also enforcing multi-view equivariance. We show how our method can achieve comparable fidelity to expensive calibrated multi-view rigs using a limited (2-3) number of uncalibrated camera views.
翻訳日:2021-10-25 13:16:49 公開日:2021-10-22
# AIR-Nets: 局所条件付き命令表現のための注意ベースのフレームワーク

AIR-Nets: An Attention-Based Framework for Locally Conditioned Implicit Representations ( http://arxiv.org/abs/2110.11860v1 )

ライセンス: Link先を確認
Simon Giebenhain, Bastian Goldl\"ucke(参考訳) 本稿では,点雲からの3次元再構成のための簡易かつ高効率なアーキテクチャであるAIR-Netsを紹介する。 局所的かつモジュラーな方法で3d形状を表現すると一般化と再構成の品質が向上するので、エアネットは入力点クラウドを3d空間に固定された局所的潜在ベクトルの集合に符号化し、局所的にオブジェクトの幾何学を記述する。 我々のモデルは、暗黙の関数を局所的に記述する最初のグリッドフリーエンコーダベースのアプローチである。 zhao et al. 2020]のベクターアテンションメカニズムは、メインポイントのクラウドプロセッシングモジュールとして機能し、置換不変性と変換等価性を可能にする。 3次元座標を問合せすると、我々のデコーダは、占有値を予測するために、大域および近辺の局所的潜在ベクトルから情報を収集する。 ShapeNetデータセットの実験では、AIR-Netsは従来の最先端エンコーダベースの暗黙の形状学習手法よりも大幅に優れており、特にスパース設定において優位である。 さらに,本モデルはゼロショット設定でFAUSTデータセットによく一般化する。 最後に、AIR-Netsはスパース遅延表現を使用し、単純なオペレーションスキームに従うので、このモデルは将来の作業にいくつかの出口を提供する。 私たちのコードはhttps://github.com/S imonGiebenhain/AIR-N etsで利用可能です。

This paper introduces Attentive Implicit Representation Networks (AIR-Nets), a simple, but highly effective architecture for 3D reconstruction from point clouds. Since representing 3D shapes in a local and modular fashion increases generalization and reconstruction quality, AIR-Nets encode an input point cloud into a set of local latent vectors anchored in 3D space, which locally describe the object's geometry, as well as a global latent description, enforcing global consistency. Our model is the first grid-free, encoder-based approach that locally describes an implicit function. The vector attention mechanism from [Zhao et al. 2020] serves as main point cloud processing module, and allows for permutation invariance and translation equivariance. When queried with a 3D coordinate, our decoder gathers information from the global and nearby local latent vectors in order to predict an occupancy value. Experiments on the ShapeNet dataset show that AIR-Nets significantly outperform previous state-of-the-art encoder-based, implicit shape learning methods and especially dominate in the sparse setting. Furthermore, our model generalizes well to the FAUST dataset in a zero-shot setting. Finally, since AIR-Nets use a sparse latent representation and follow a simple operating scheme, the model offers several exiting avenues for future work. Our code is available at https://github.com/S imonGiebenhain/AIR-N ets.
翻訳日:2021-10-25 13:16:39 公開日:2021-10-22
# SOFT:線形複雑度を有するソフトマックスフリー変圧器

SOFT: Softmax-free Transformer with Linear Complexity ( http://arxiv.org/abs/2110.11945v1 )

ライセンス: Link先を確認
Jiachen Lu, Jinghan Yao, Junge Zhang, Xiatian Zhu, Hang Xu, Weiguo Gao, Chunjing Xu, Tao Xiang, Li Zhang(参考訳) 視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。 しかし、自己アテンションモジュールの雇用は計算とメモリ使用の両方において二次的な複雑さをもたらす。 自然言語処理において,線形複雑度で自己注意計算を近似する様々な試みがなされている。 しかし、本研究の詳細な分析は、それらが理論的に欠陥があるか、あるいは視覚認識に実験的に効果がないことを示している。 さらに、それらの制限は近似中にソフトマックスの自己注意を維持することに根ざしていると確認する。 具体的には、トークン特徴ベクトル間の拡張ドット積を正規化することにより、従来の自己注意を計算する。 このソフトマックス操作を維持することは、その後の線形化の取り組みに挑戦する。 この知見に基づいて,ソフトマックスフリー変圧器(SOFT)を初めて提案する。 自己アテンションにおいてソフトマックスを取り除くために、ガウス核関数はさらなる正規化なしにドット生成の類似性を置き換えるために用いられる。 これにより、全自己着行列は低ランク行列分解によって近似することができる。 近似のロバスト性は、ニュートン・ラフソン法を用いてムーア・ペンローズ逆計算によって達成される。 imagenet の広範な実験により,既存の vit 変異体の計算効率が大幅に向上した。 重要なことに、線形複雑性では、より長いトークンシーケンスがSOFTで認められ、精度と複雑さのトレードオフが優れている。

Vision transformers (ViTs) have pushed the state-of-the-art for various visual recognition tasks by patch-wise image tokenization followed by self-attention. However, the employment of self-attention modules results in a quadratic complexity in both computation and memory usage. Various attempts on approximating the self-attention computation with linear complexity have been made in Natural Language Processing. However, an in-depth analysis in this work shows that they are either theoretically flawed or empirically ineffective for visual recognition. We further identify that their limitations are rooted in keeping the softmax self-attention during approximations. Specifically, conventional self-attention is computed by normalizing the scaled dot-product between token feature vectors. Keeping this softmax operation challenges any subsequent linearization efforts. Based on this insight, for the first time, a softmax-free transformer or SOFT is proposed. To remove softmax in self-attention, Gaussian kernel function is used to replace the dot-product similarity without further normalization. This enables a full self-attention matrix to be approximated via a low-rank matrix decomposition. The robustness of the approximation is achieved by calculating its Moore-Penrose inverse using a Newton-Raphson method. Extensive experiments on ImageNet show that our SOFT significantly improves the computational efficiency of existing ViT variants. Crucially, with a linear complexity, much longer token sequences are permitted in SOFT, resulting in superior trade-off between accuracy and complexity.
翻訳日:2021-10-25 13:16:14 公開日:2021-10-22
# AdamD: バイアス補正を改善したAdam

AdamD: Improved bias-correction in Adam ( http://arxiv.org/abs/2110.10828v2 )

ライセンス: Link先を確認
John St John(参考訳) ここでは,adamオプティマイザにおけるバイアス補正項の小さな更新について紹介する。 デフォルトのバイアス補正では、Adamはトレーニングの早い段階で要求された勾配更新よりも大きくなるだろう。 第2モーメント勾配の推定値である$v_t$を適切に補正したバイアス補正と、第1次推定値である$m_t$のバイアス補正を除いて、これらのより望ましい勾配更新特性を第1のステップで達成する。 Adamのデフォルトの実装は、もともと提案されたバイアス補正手順と初期ステップの振る舞いのために、ハイパーパラメータ$\beta_1, \beta_2$に匹敵する敏感である。

Here I present a small update to the bias-correction term in the Adam optimizer that has the advantage of making smaller gradient updates in the first several steps of training. With the default bias-correction, Adam may actually make larger than requested gradient updates early in training. By only including the well-justified bias-correction of the second moment gradient estimate, $v_t$, and excluding the bias-correction on the first-order estimate, $m_t$, we attain these more desirable gradient update properties in the first series of steps. The default implementation of Adam may be as sensitive as it is to the hyperparameters $\beta_1, \beta_2$ partially due to the originally proposed bias correction procedure, and its behavior in early steps.
翻訳日:2021-10-25 11:55:31 公開日:2021-10-22
# フェイスマスク装着が顔画像品質に及ぼす影響

The Effect of Wearing a Face Mask on Face Image Quality ( http://arxiv.org/abs/2110.11283v2 )

ライセンス: Link先を確認
Biying Fu, Florian Kirchbuchner, Naser Damer(参考訳) 新型コロナウイルス(COVID-19)の影響で、マスクは私たちの日常生活の中心となっている。 新型コロナウイルスの感染拡大を防ぐため、多くの公共の場所で口と鼻の保護が義務付けられている。 しかし,顔マスクは顔の大部分を覆っているため,顔認識性能に影響を及ぼす。 協調環境における顔認証システムの異なる構成要素に対するフェイスマスクの着用の効果は、まだ十分に研究されていない問題である。 本研究は, 顔にマスクを装着することによる顔の画質への影響を, 異なる性質の最先端顔画像評価法を用いて, 初めて検討するものである。 これは、顔マスクがシステム全体の顔認識操作に与える影響をよりよく理解することを目的としている。 さらに,実顔マスクと比較して,顔画像の有用性に対するシミュレーションマスクの効果についても検討した。 顔画像品質に対するマスク効果と、自動システムと人間専門家による顔認証性能の相関について検討し、両要因間の一貫した傾向を示す。 NISTプロトコル[1,23]に従って、(1)非マスク面、(2)実顔マスク、(3)模擬顔マスクを含むデータベース上で、非マスク面にデジタル顔マスクを合成して評価を行う。 最後に、選択した一連の品質評価方法の品質スコアに寄与する顔領域の視覚的解釈を提供し、マスク面と非マスク面のネットワーク決定の違いについて深い洞察を与える。

Due to the COVID-19 situation, face masks have become a main part of our daily life. Wearing mouth-and-nose protection has been made a mandate in many public places, to prevent the spread of the COVID-19 virus. However, face masks affect the performance of face recognition, since a large area of the face is covered. The effect of wearing a face mask on the different components of the face recognition system in a collaborative environment is a problem that is still to be fully studied. This work studies, for the first time, the effect of wearing a face mask on face image quality by utilising state-of-the-art face image quality assessment methods of different natures. This aims at providing better understanding on the effect of face masks on the operation of face recognition as a whole system. In addition, we further studied the effect of simulated masks on face image utility in comparison to real face masks. We discuss the correlation between the mask effect on face image quality and that on the face verification performance by automatic systems and human experts, indicating a consistent trend between both factors. The evaluation is conducted on the database containing (1) no-masked faces, (2) real face masks, and (3) simulated face masks, by synthetically generating digital facial masks on no-masked faces according to the NIST protocols [1, 23]. Finally, a visual interpretation of the face areas contributing to the quality score of a selected set of quality assessment methods is provided to give a deeper insight into the difference of network decisions in masked and non-masked faces, among other variations.
翻訳日:2021-10-25 11:55:16 公開日:2021-10-22
# GAN HEMTのI-V特性予測のための半教師付き物理ガイド深層学習フレームワーク

Semi-supervised physics guided deep learning framework for predicting the I-V characteristics of GAN HEMT ( http://arxiv.org/abs/2110.10724v2 )

ライセンス: Link先を確認
Shivanshu Mishra, Bipin Gaikwad and Nidhi Chaturvedi(参考訳) 本稿では、物理に基づく問題を解決するためのディープラーニング技術の導入において、2つの大きなハードルに対処する新しいディープラーニングフレームワーク(DLF)を提案する。 1)dlモデルのトレーニングのための大規模データセットの要件 2)dlモデルと現象の物理との整合性。 このフレームワークは本質的に汎用的であり、その振る舞いが知られている限り、他の研究分野の現象をモデル化するために適用することができる。 この技術を実証するために、窒化ガリウム系高電子移動トランジスタ(GaN HEMT)のI-V特性を予測する半教師付き物理誘導ニューラルネットワーク(SPGNN)を開発した。 dlモデルに物理挙動を組み込んだモデルの損失関数として、電界効果トランジスタのi-v方程式を用いた教師なし学習法を用いてdlモデルを訓練し、第2段階では、dlモデルを非常に小さな実験データで微調整した。 SPGNNは、目に見えない状況であっても、従来のニューラルネットワーク(TNN)と同じような、あるいは優れたパフォーマンスを達成するために、トレーニングデータの要求を80%以上削減する。 SPGNNは、未確認テストデータの32.4%、エラーの1%未満、未確認テストデータのわずか0.4%、エラーの10%以上を予測している。

This letter proposes a novel deep learning framework (DLF) that addresses two major hurdles in the adoption of deep learning techniques for solving physics-based problems: 1) requirement of the large dataset for training the DL model, 2) consistency of the DL model with the physics of the phenomenon. The framework is generic in nature and can be applied to model a phenomenon from other fields of research too as long as its behaviour is known. To demonstrate the technique, a semi-supervised physics guided neural network (SPGNN) has been developed that predicts I-V characteristics of a gallium nitride-based high electron mobility transistor (GaN HEMT). A two-stage training method is proposed, where in the first stage, the DL model is trained via the unsupervised learning method using the I-V equations of a field-effect transistor as a loss function of the model that incorporates physical behaviors in the DL model and in the second stage, the DL model has been fine-tuned with a very small set of experimental data. The SPGNN significantly reduces the requirement of the training data by more than 80% for achieving similar or better performance than a traditional neural network (TNN) even for unseen conditions. The SPGNN predicts 32.4% of the unseen test data with less than 1% of error and only 0.4% of the unseen test data with more than 10% of error.
翻訳日:2021-10-25 11:54:53 公開日:2021-10-22
# クロスドメインレコメンデーションのためのユーザ嗜好のパーソナライズされた転送

Personalized Transfer of User Preferences for Cross-domain Recommendation ( http://arxiv.org/abs/2110.11154v2 )

ライセンス: Link先を確認
Yongchun Zhu, Zhenwei Tang, Yudan Liu, Fuzhen Zhuang, Ruobing Xie, Xu Zhang, Leyu Lin, Qing He(参考訳) コールドスタート問題はまだレコメンデーションシステムにおいて非常に難しい問題です。 幸いなことに、補助ソースドメインのコールドスタートユーザのインタラクションは、ターゲットドメインのコールドスタートレコメンデーションに役立つ。 ユーザの好みをソースドメインからターゲットドメインに転送する方法は、コールドスタート問題に対処するための有望なソリューションであるクロスドメイン勧告(CDR)において重要な問題である。 既存のほとんどのメソッドは、すべてのユーザの好みを転送するための共通の嗜好ブリッジをモデル化する。 直感的には、好みはユーザーによって異なるため、異なるユーザの好みのブリッジは異なるべきである。 本稿では,PTUPCDR(Personalize d Transfer of User Preferences for Cross-domain Recommendation)という新しいフレームワークを提案する。 具体的には,ユーザの特徴を組み込んだメタネットワークを学習し,個別化されたブリッジ関数を生成し,各ユーザの好みの伝達を実現する。 メタネットワークを安定的に学習するために,タスク指向最適化手法を用いる。 メタ生成パーソナライズドブリッジ機能により、ソースドメインへのユーザの嗜好埋め込みをターゲットドメインに変換し、変換されたユーザ嗜好埋め込みを、ターゲットドメインにおけるコールドスタートユーザの初期埋め込みとして利用することができる。 大規模な実世界のデータセットを用いて,PTUPCDRの冷間開始と暖間開始の両段階における有効性を評価するための広範な実験を行った。 コードは \url{https://github.com/e asezyc/WSDM2022-PTUP CDR} で公開されている。

Cold-start problem is still a very challenging problem in recommender systems. Fortunately, the interactions of the cold-start users in the auxiliary source domain can help cold-start recommendations in the target domain. How to transfer user's preferences from the source domain to the target domain, is the key issue in Cross-domain Recommendation (CDR) which is a promising solution to deal with the cold-start problem. Most existing methods model a common preference bridge to transfer preferences for all users. Intuitively, since preferences vary from user to user, the preference bridges of different users should be different. Along this line, we propose a novel framework named Personalized Transfer of User Preferences for Cross-domain Recommendation (PTUPCDR). Specifically, a meta network fed with users' characteristic embeddings is learned to generate personalized bridge functions to achieve personalized transfer of preferences for each user. To learn the meta network stably, we employ a task-oriented optimization procedure. With the meta-generated personalized bridge function, the user's preference embedding in the source domain can be transformed into the target domain, and the transformed user preference embedding can be utilized as the initial embedding for the cold-start user in the target domain. Using large real-world datasets, we conduct extensive experiments to evaluate the effectiveness of PTUPCDR on both cold-start and warm-start stages. The code has been available at \url{https://github.com/e asezyc/WSDM2022-PTUP CDR}.
翻訳日:2021-10-25 11:54:25 公開日:2021-10-22
# (参考訳) 生成逆ネットワークを用いた相補的2次元・3次元画像データを組み合わせた多相材料の超解像 [全文訳有]

Super-resolution of multiphase materials by combining complementary 2D and 3D image data using generative adversarial networks ( http://arxiv.org/abs/2110.11281v2 )

ライセンス: CC BY 4.0
Amir Dahari, Steve Kench, Isaac Squires, Samuel J. Cooper(参考訳) デバイスレベルのパフォーマンスに対する材料のメソ構造の影響をモデル化するには、シミュレーション領域の幾何学を定義するために、すべての関連する情報を含む3D画像データにアクセスする必要がある。 この画像データは、各材料を区別するための位相間の十分なコントラストを含み、キーの詳細を捉えるのに十分な解像度を持つと同時に、一般に材料を表現するのに十分な視野を持つ必要がある。 単一の撮像技術からこれらすべての特性を持つデータを得ることは滅多に不可能である。 本稿では,多相,高分解能,代表3次元画像の正確な再構成のために,一対の相補的画像技術からの情報を組み合わせる手法を提案する。 具体的には,超解像,スタイル転送,次元展開を実現するために,深層畳み込み生成対向ネットワークを用いる。 このツールの適用性を示すために、2組のデータセットを使用して、ペア画像技術から情報を融合して生成されたボリュームの品質を検証する。 各ケースで3つの重要なメソストラクチャメトリックが計算され、この手法の精度を示す。 提案手法の精度に自信を持って,リチウムイオン電池電極の実際のデータ対に適用することで,そのパワーを実証する。 本手法は, 従来報告されていた材料復元法よりも, 信頼性と使いやすさの両面において優れていると考えられる。 さらに、このアルゴリズムのトレーニングに必要なデータの多くは、文献にすでに存在し、結合されるのを待っている。 そのため、我々のオープンアクセスコードは、メソスケールでの動作をシミュレートするために必要な高品質な画像量を生成することで、ステップ変更を早めることができる。

Modelling the impact of a material's mesostructure on device level performance typically requires access to 3D image data containing all the relevant information to define the geometry of the simulation domain. This image data must include sufficient contrast between phases to distinguish each material, be of high enough resolution to capture the key details, but also have a large enough field-of-view to be representative of the material in general. It is rarely possible to obtain data with all of these properties from a single imaging technique. In this paper, we present a method for combining information from pairs of distinct but complementary imaging techniques in order to accurately reconstruct the desired multi-phase, high resolution, representative, 3D images. Specifically, we use deep convolutional generative adversarial networks to implement super-resolution, style transfer and dimensionality expansion. To demonstrate the widespread applicability of this tool, two pairs of datasets are used to validate the quality of the volumes generated by fusing the information from paired imaging techniques. Three key mesostructural metrics are calculated in each case to show the accuracy of this method. Having confidence in the accuracy of our method, we then demonstrate its power by applying to a real data pair from a lithium ion battery electrode, where the required 3D high resolution image data is not available anywhere in the literature. We believe this approach is superior to previously reported statistical material reconstruction methods both in terms of its fidelity and ease of use. Furthermore, much of the data required to train this algorithm already exists in the literature, waiting to be combined. As such, our open-access code could precipitate a step change by generating the hard to obtain high quality image volumes necessary to simulate behaviour at the mesoscale.
翻訳日:2021-10-25 11:53:32 公開日:2021-10-22
# (参考訳) ヒト行動合成のための生成逆グラフ畳み込みネットワーク

Generative Adversarial Graph Convolutional Networks for Human Action Synthesis ( http://arxiv.org/abs/2110.11191v2 )

ライセンス: CC BY-SA 4.0
Bruno Degardin, Jo\~ao Neves, Vasco Lopes, Jo\~ao Brito, Ehsan Yaghoubi and Hugo Proen\c{c}a(参考訳) 人体骨格の空間的および時間的ダイナミクスの合成は、生成した形状の品質だけでなく、その多様性、特に特定の作用の現実的な身体運動(アクションコンディショニング)を合成する上でも、依然として困難な課題である。 本稿では,人体の運動を合成するために,生成的敵対ネットワークとグラフ畳み込みネットワークの利点を利用する新しいアーキテクチャであるKineetic-GANを提案する。 提案する敵対的アーキテクチャは, 潜在空間のばらつきや確率的変動によるサンプル品質と多様性を改善しつつ, 局所的およびグローバルな身体運動に対して最大120の異なるアクションを条件付けることができる。 実験は,3つのよく知られたデータセットで実施され,キネティック-ganは分散品質指標において最先端の手法を特に上回り,異なるアクションの数について1桁以上の大きさの合成が可能であった。 私たちのコードとモデルはhttps://github.com/D egardinBruno/Kinetic -GAN.comで公開されています。

Synthesising the spatial and temporal dynamics of the human body skeleton remains a challenging task, not only in terms of the quality of the generated shapes, but also of their diversity, particularly to synthesise realistic body movements of a specific action (action conditioning). In this paper, we propose Kinetic-GAN, a novel architecture that leverages the benefits of Generative Adversarial Networks and Graph Convolutional Networks to synthesise the kinetics of the human body. The proposed adversarial architecture can condition up to 120 different actions over local and global body movements while improving sample quality and diversity through latent space disentanglement and stochastic variations. Our experiments were carried out in three well-known datasets, where Kinetic-GAN notably surpasses the state-of-the-art methods in terms of distribution quality metrics while having the ability to synthesise more than one order of magnitude regarding the number of different actions. Our code and models are publicly available at https://github.com/D egardinBruno/Kinetic -GAN.
翻訳日:2021-10-25 11:36:36 公開日:2021-10-22
# mos: 顔検出、ランドマーク定位、頭部ポーズ推定のための低レイテンシで軽量なフレームワーク

MOS: A Low Latency and Lightweight Framework for Face Detection, Landmark Localization, and Head Pose Estimation ( http://arxiv.org/abs/2110.10953v2 )

ライセンス: Link先を確認
Yepeng Liu, Zaiwang Gu, Shenghua Gao, Dong Wang, Yusheng Zeng, Jun Cheng(参考訳) サービスロボットや監視カメラの出現により、野生の動的顔認識(dfr)は近年注目を集めている。 顔検出と頭部ポーズ推定はDFRの2つの重要なステップである。 多くの場合、顔検出後にポーズが推定される。 しかし、このような逐次計算によりレイテンシが高くなる。 本稿では,顔検出,ランドマーク位置推定,頭部ポーズ推定を同時に行う低レイテンシで軽量なネットワークを提案する。 大きな角度の顔のランドマークを見つけることがより困難であるという観察に刺激され、学習を制限するためにポーズロスが提案される。 また,各タスクの重み付けを自動的に学習するために,不確実なマルチタスク損失を提案する。 もうひとつの課題は、ロボットがARMベースのコンピューティングコアのような低計算単位を使用する場合が多く、重いものの代わりに軽量ネットワークを使用する場合が多いことです。 本稿では,学習データの多様性を自動的に向上させる学習サンプルを,さまざまなスケールで強化するオンラインフィードバックサンプリングを提案する。 WIDER FACE, AFLW, AFLW2000データセットの検証を通じて, 提案手法が低計算資源における最先端性能を実現することを示す。

With the emergence of service robots and surveillance cameras, dynamic face recognition (DFR) in wild has received much attention in recent years. Face detection and head pose estimation are two important steps for DFR. Very often, the pose is estimated after the face detection. However, such sequential computations lead to higher latency. In this paper, we propose a low latency and lightweight network for simultaneous face detection, landmark localization and head pose estimation. Inspired by the observation that it is more challenging to locate the facial landmarks for faces with large angles, a pose loss is proposed to constrain the learning. Moreover, we also propose an uncertainty multi-task loss to learn the weights of individual tasks automatically. Another challenge is that robots often use low computational units like ARM based computing core and we often need to use lightweight networks instead of the heavy ones, which lead to performance drop especially for small and hard faces. In this paper, we propose online feedback sampling to augment the training samples across different scales, which increases the diversity of training data automatically. Through validation in commonly used WIDER FACE, AFLW and AFLW2000 datasets, the results show that the proposed method achieves the state-of-the-art performance in low computational resources.
翻訳日:2021-10-25 11:33:21 公開日:2021-10-22
# RoMA: ニューラルネットワークのロバスト性測定と評価方法

RoMA: a Method for Neural Network Robustness Measurement and Assessment ( http://arxiv.org/abs/2110.11088v2 )

ライセンス: Link先を確認
Natan Levy and Guy Katz(参考訳) ニューラルネットワークモデルは、分類、言語処理、タンパク質の折り畳みなど、さまざまなタスクにおいて主要なソリューションになっています。 しかし、その信頼性は、モデルが誤った出力を発生させる小さな入力摂動という、逆入力に悩まされている。 悪意のある敵がいなくても、システムの環境がランダムに振る舞うと、逆入力は自然に起こり、重要なシステムにニューラルネットワークをデプロイしようとする場合、深刻な原因となる。 本稿では,ニューラルネットワークモデルの期待ロバスト性を測定するためのロバストネス測定・評価(roma)と呼ばれる新しい統計手法を提案する。 特に、romaはランダムな入力摂動が誤分類を引き起こす確率を決定する。 この方法では、トレーニングされたモデルがデプロイ後に遭遇するエラーの予測頻度に関する正式な保証を提供することができる。 我々のアプローチは,最近提案された検証手法に比べて大きな利点を持つ大規模ブラックボックスニューラルネットワークに適用できる。 我々は、異なるモデルのロバスト性を比較し、入力摂動の大きさによってモデルのロバスト性がどのように影響を受けるかを測定する。 この研究を通じて得られた興味深い洞察は、分類ネットワークにおいて、異なる出力ラベルが全く異なる堅牢性レベルを示すことができることである。 この現象を分類的堅牢性と呼ぶ。 我々のリスク評価とロバスト性評価をカテゴリベースで行う能力は、リスク軽減への扉を開く。

Neural network models have become the leading solution for a large variety of tasks, such as classification, language processing, protein folding, and others. However, their reliability is heavily plagued by adversarial inputs: small input perturbations that cause the model to produce erroneous outputs. Adversarial inputs can occur naturally when the system's environment behaves randomly, even in the absence of a malicious adversary, and are a severe cause for concern when attempting to deploy neural networks within critical systems. In this paper, we present a new statistical method, called Robustness Measurement and Assessment (RoMA), which can measure the expected robustness of a neural network model. Specifically, RoMA determines the probability that a random input perturbation might cause misclassification. The method allows us to provide formal guarantees regarding the expected frequency of errors that a trained model will encounter after deployment. Our approach can be applied to large-scale, black-box neural networks, which is a significant advantage compared to recently proposed verification methods. We apply our approach in two ways: comparing the robustness of different models, and measuring how a model's robustness is affected by the magnitude of input perturbation. One interesting insight obtained through this work is that, in a classification network, different output labels can exhibit very different robustness levels. We term this phenomenon categorial robustness. Our ability to perform risk and robustness assessments on a categorial basis opens the door to risk mitigation, which may prove to be a significant step towards neural network certification in safety-critical applications.
翻訳日:2021-10-25 11:33:02 公開日:2021-10-22
# モデル圧縮のためのピアツーピア相互学習による知識蒸留の強化

Augmenting Knowledge Distillation With Peer-To-Peer Mutual Learning For Model Compression ( http://arxiv.org/abs/2110.11023v2 )

ライセンス: Link先を確認
Usma Niyaz, Deepti R. Bathula(参考訳) 知識蒸留(KD)は、複雑で高度に訓練された教師ネットワークの振る舞いを模倣するために、コンパクトな学生ネットワークを指導する効果的なモデル圧縮手法である。 対照的に、相互学習(ML)は、強力な静的教師ネットワークがなくても、複数の単純な学生ネットワークが知識を共有することの恩恵を受ける代替戦略を提供する。 これらの知見に触発されて,KDとMLを併用して,より優れたパフォーマンスを実現する,単教師多学生フレームワークを提案する。 さらに、オンライン蒸留戦略を利用して教師と生徒を同時に訓練する。 提案手法の性能を評価するために, ベンチマークバイオメディカル分類 (MSI vs. MSS) とオブジェクト検出 (Polyp Detection) の3種類の教師学生ネットワークを用いた広範囲な実験を行った。 提案手法で学習した学生ネットワークの集合は,KDやMLを用いて個別に学習した学生の集合よりも優れた結果を得た。

Knowledge distillation (KD) is an effective model compression technique where a compact student network is taught to mimic the behavior of a complex and highly trained teacher network. In contrast, Mutual Learning (ML) provides an alternative strategy where multiple simple student networks benefit from sharing knowledge, even in the absence of a powerful but static teacher network. Motivated by these findings, we propose a single-teacher, multi-student framework that leverages both KD and ML to achieve better performance. Furthermore, an online distillation strategy is utilized to train the teacher and students simultaneously. To evaluate the performance of the proposed approach, extensive experiments were conducted using three different versions of teacher-student networks on benchmark biomedical classification (MSI vs. MSS) and object detection (Polyp Detection) tasks. Ensemble of student networks trained in the proposed manner achieved better results than the ensemble of students trained using KD or ML individually, establishing the benefit of augmenting knowledge transfer from teacher to students with peer-to-peer learning between students.
翻訳日:2021-10-25 11:32:39 公開日:2021-10-22
# 効率的なハイパーパラメータ解析によるリサイクル分類の展開改善

Improving the Deployment of Recycling Classification through Efficient Hyper-Parameter Analysis ( http://arxiv.org/abs/2110.11043v2 )

ライセンス: Link先を確認
Mazin Abdulmahmood and Ryan Grammenos(参考訳) 自動廃棄物分類のパラダイムは、最近、従来の画像処理技術から畳み込みニューラルネットワーク(CNN)として知られる強力なコンピュータビジョンアルゴリズムへと関心が移っている。 歴史的にCNNは、リアルタイム分類のための強力なハードウェアへの強い依存を示してきたが、より弱い組み込みデバイスへのデプロイメントの必要性はこれまで以上に大きい。 本稿では,従来の画像分類モデルの再構成とチューニングを行う手法を提案する。EfficientNetsは,モデル精度のトレードオフのないパラメータ化を削減し,NVIDIA Jetson Nano組み込みデバイス上でリアルタイムに動作するためのTensorRTを用いたパイプラインを開発する。 トレーニングとデプロイメントの間のモデルの正確さの差がいかに貧弱であるかに関する列車配置の不一致は、多くの論文で無視されているため、一度デプロイすると実際の摂動がモデルの正確さに与えた影響を分析して評価することで、作業が拡張される。 作業の範囲は、共同リサイクル分類モデルであるムダネットのより効率的な変種の開発に関係している。 新たに開発されたモデルは、テストセット精度95.8%、実世界の精度95%、オリジナルよりも14%向上した。 我々の加速パイプラインは,Jetson Nano上で毎秒750%から24パーセントの速度でモデルスループットを向上し,サーボモータ遅延解析によりシステムのリアルタイムレイテンシを検証した。

The paradigm of automated waste classification has recently seen a shift in the domain of interest from conventional image processing techniques to powerful computer vision algorithms known as convolutional neural networks (CNN). Historically, CNNs have demonstrated a strong dependency on powerful hardware for real-time classification, yet the need for deployment on weaker embedded devices is greater than ever. The work in this paper proposes a methodology for reconstructing and tuning conventional image classification models, using EfficientNets, to decrease their parameterisation with no trade-off in model accuracy and develops a pipeline through TensorRT for accelerating such models to run at real-time on an NVIDIA Jetson Nano embedded device. The train-deployment discrepancy, relating how poor data augmentation leads to a discrepancy in model accuracy between training and deployment, is often neglected in many papers and thus the work is extended by analysing and evaluating the impact real world perturbations had on model accuracy once deployed. The scope of the work concerns developing a more efficient variant of WasteNet, a collaborative recycling classification model. The newly developed model scores a test-set accuracy of 95.8% with a real world accuracy of 95%, a 14% increase over the original. Our acceleration pipeline boosted model throughput by 750% to 24 inferences per second on the Jetson Nano and real-time latency of the system was verified through servomotor latency analysis.
翻訳日:2021-10-25 11:32:17 公開日:2021-10-22
# 一般・顔特化画像品質指標による顔画像の実用性評価の深層化

A Deep Insight into Measuring Face Image Utility with General and Face-specific Image Quality Metrics ( http://arxiv.org/abs/2110.11111v2 )

ライセンス: Link先を確認
Biying Fu, Cong Chen, Olaf Henniger, and Naser Damer(参考訳) 品質スコアは生体認証のためのバイオメトリックサンプルの有用性を評価する尺度を提供する。 生体認証システムは最適な性能を得るために高品質なサンプルを必要とする。 本稿では、顔画像と、顔特有の画像品質指標を用いた顔画像の有用性の測定に焦点を当てた。 顔特有のメトリクスは、アライメントされた顔画像の特徴に依存するが、一般的な画像品質指標は、グローバルイメージ上で使用でき、人間の知覚に関連付けることができる。 本稿では,一般画像品質指標と顔画像品質指標とのギャップを解析する。 我々の貢献は、画像品質評価アルゴリズムが顔認識タスクの実用性とどのように関係しているかを徹底的に検討することにある。 画像品質評価アルゴリズムの結果は、専用の顔画像品質評価アルゴリズムと比較される。 3つの顔画像データベース、biosecure, lfw, vggface2に対して、sphereface, arcface, facenetという3つのオープンソースの顔認識ソリューションを使用して、合計25の異なる品質指標を評価している。 以上の結果から,顔用ユーティリティとして特別に訓練されることなく,学習した画像メトリクスと顔用ユーティリティとの相関が明らかとなった。 個々の手作り機能には一般的な安定性がなく、一般的な顔特有の品質指標よりもはるかに悪いパフォーマンスがある。 また、選択した品質評価方法の品質スコアに寄与する画像領域に対する視覚的な洞察を提供する。

Quality scores provide a measure to evaluate the utility of biometric samples for biometric recognition. Biometric recognition systems require high-quality samples to achieve optimal performance. This paper focuses on face images and the measurement of face image utility with general and face-specific image quality metrics. While face-specific metrics rely on features of aligned face images, general image quality metrics can be used on the global image and relate to human perceptions. In this paper, we analyze the gap between the general image quality metrics and the face image quality metrics. Our contribution lies in a thorough examination of how different the image quality assessment algorithms relate to the utility for the face recognition task. The results of image quality assessment algorithms are further compared with those of dedicated face image quality assessment algorithms. In total, 25 different quality metrics are evaluated on three face image databases, BioSecure, LFW, and VGGFace2 using three open-source face recognition solutions, SphereFace, ArcFace, and FaceNet. Our results reveal a clear correlation between learned image metrics to face image utility even without being specifically trained as a face utility measure. Individual handcrafted features lack general stability and perform significantly worse than general face-specific quality metrics. We additionally provide a visual insight into the image areas contributing to the quality score of a selected set of quality assessment methods.
翻訳日:2021-10-25 11:31:51 公開日:2021-10-22
# HCV:過度に精細な分類のための階層性検証

HCV: Hierarchy-Consistenc y Verification for Incremental Implicitly-Refined Classification ( http://arxiv.org/abs/2110.11148v2 )

ライセンス: Link先を確認
Kai Wang, Xialei Liu, Luis Herranz, Joost van de Weijer(参考訳) 人間は生涯にわたって階層的な知識を学び蓄積する。 この知識は、統合と階層構造に関する以前の概念と関連している。 しかし、現在のインクリメンタル学習手法では、新しい概念を古い概念に関連付けることで、概念階層を構築する能力が欠けている。 この問題に対処するより現実的な設定は、粗粒度カテゴリから細粒度カテゴリへの認識プロセスをシミュレートするIncrmental Implicitly-Refined Classification (IIRC)と呼ばれる。 本ベンチマークでは,既存の継続学習手法の強化を目的とした階層一貫性検証(HCV)を提案する。 本手法はクラス間の階層関係を段階的に発見する。 次に、トレーニングと推論の両方で、この知識をどのように活用できるかを示します。 3種類の難易度実験により,本モジュールは既存の連続学習手法の性能を大きなマージンで改善することを示した。 コードはhttps://github.com/w angkai930418/hcv_iir cで入手できる。

Human beings learn and accumulate hierarchical knowledge over their lifetime. This knowledge is associated with previous concepts for consolidation and hierarchical construction. However, current incremental learning methods lack the ability to build a concept hierarchy by associating new concepts to old ones. A more realistic setting tackling this problem is referred to as Incremental Implicitly-Refined Classification (IIRC), which simulates the recognition process from coarse-grained categories to fine-grained categories. To overcome forgetting in this benchmark, we propose Hierarchy-Consistenc y Verification (HCV) as an enhancement to existing continual learning methods. Our method incrementally discovers the hierarchical relations between classes. We then show how this knowledge can be exploited during both training and inference. Experiments on three setups of varying difficulty demonstrate that our HCV module improves performance of existing continual learning methods under this IIRC setting by a large margin. Code is available in https://github.com/w angkai930418/HCV_IIR C.
翻訳日:2021-10-25 11:31:30 公開日:2021-10-22
# マージンコサイン損失と相対論的判別器を有するGANの実証的研究

An Empirical Study on GANs with Margin Cosine Loss and Relativistic Discriminator ( http://arxiv.org/abs/2110.11293v2 )

ライセンス: Link先を確認
Cuong V. Nguyen, Tien-Dung Cao, Tram Truong-Huu, Khanh N. Pham, Binh T. Nguyen(参考訳) GAN(Generative Adversarial Networks)は、任意の複雑な次元のデータ分布を暗黙的に学習できる有用な生成モデルとして登場した。 しかし、gansの訓練は非常に不安定で敏感なことで実証的に知られている。 判別器とジェネレータのパラメータに関する損失関数は、訓練中に大きく振動する傾向がある。 トレーニングを安定させ、画像の品質を向上させるために異なる損失関数が提案されている。 本稿では,複数の損失関数が標準GANモデル,Deep Convolutional Generative Adversarial Networks (DCGANs)の性能に与える影響について実証的研究を行う。 本稿では,DCGANにおける古典的決定論的判別器の代替として相対論的判別器を用いた新たな改良手法を提案する。 この結果、Relativistic Margin Cosine Loss (RMCosGAN)と呼ばれる新しい損失関数が生じる。 CIFAR-$10$、MNIST、STL-$10$、CATの4つのデータセットで広範な実験を行う。 rmcosganの性能を,frechetインセプション距離とインセプションスコアの2つの指標に基づいて既存のロス関数と比較した。 実験の結果,RCCosGANは既存の画像よりも優れており,画像の品質が著しく向上していることがわかった。

Generative Adversarial Networks (GANs) have emerged as useful generative models, which are capable of implicitly learning data distributions of arbitrarily complex dimensions. However, the training of GANs is empirically well-known for being highly unstable and sensitive. The loss functions of both the discriminator and generator concerning their parameters tend to oscillate wildly during training. Different loss functions have been proposed to stabilize the training and improve the quality of images generated. In this paper, we perform an empirical study on the impact of several loss functions on the performance of standard GAN models, Deep Convolutional Generative Adversarial Networks (DCGANs). We introduce a new improvement that employs a relativistic discriminator to replace the classical deterministic discriminator in DCGANs and implement a margin cosine loss function for both the generator and discriminator. This results in a novel loss function, namely Relativistic Margin Cosine Loss (RMCosGAN). We carry out extensive experiments with four datasets: CIFAR-$10$, MNIST, STL-$10$, and CAT. We compare RMCosGAN performance with existing loss functions based on two metrics: Frechet inception distance and inception score. The experimental results show that RMCosGAN outperforms the existing ones and significantly improves the quality of images generated.
翻訳日:2021-10-25 11:31:13 公開日:2021-10-22
# カタストロフィックフォーミングを理解するための行動実験

Behavioral Experiments for Understanding Catastrophic Forgetting ( http://arxiv.org/abs/2110.10570v2 )

ライセンス: Link先を確認
Samuel J. Bell and Neil D. Lawrence(参考訳) 本稿では,実験心理学の基本的ツールである行動実験が,人間や動物だけでなく,人工システムにも洞察をもたらす能力を持っているかを検討する。 実験心理学の手法をニューラルネットワークにおける破滅的忘れの研究に適用する。 本稿では,2層ReLUネットワークを用いた一連の制御実験を行い,破滅的忘れの挙動の新たな理解を明らかにする。 実験結果と並行して,ニューラルネット現象を調査するための行動優先のアプローチを示す。

In this paper we explore whether the fundamental tool of experimental psychology, the behavioral experiment, has the power to generate insight not only into humans and animals, but artificial systems too. We apply the techniques of experimental psychology to investigating catastrophic forgetting in neural networks. We present a series of controlled experiments with two-layer ReLU networks, and exploratory results revealing a new understanding of the behavior of catastrophic forgetting. Alongside our empirical findings, we demonstrate an alternative, behavior-first approach to investigating neural network phenomena.
翻訳日:2021-10-25 11:30:52 公開日:2021-10-22