このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220811となっている論文です。

PDF登録状況(公開日: 20220811)

TitleAuthorsAbstract論文公表日・翻訳日
# Webスケールレコメンダシステムにおける後処理による公正化

Achieving Fairness via Post-Processing in Web-Scale Recommender Systems ( http://arxiv.org/abs/2006.11350v3 )

ライセンス: Link先を確認
Preetam Nandy, Cyrus Diciccio, Divya Venugopalan, Heloise Logan, Kinjal Basu, Noureddine El Karoui(参考訳) 公正なレコメンデーターシステムの構築は、社会に大きな影響を与えるため、困難かつ重要な研究分野である。 一般に受け入れられている2つのフェアネス概念の定義をレコメンデーションシステム、すなわち機会の平等と等化オッズに拡張した。 これらの公平性は、平等に「適格」(または「適格」)な候補者が、保護された属性(性別や人種など)に関係なく平等に扱われることを保証する。 提案手法は,レコメンダシステムから生成されるデータに共通する位置バイアスの存在下での,オッズとオッズの均等性を実現するためのスケーラブルな手法を提案する。 我々のアルゴリズムは、モデルが提供する最終的なスコアにのみ依存するという意味で、モデルに依存しないため、事実上全てのWebスケールレコメンデータシステムに容易に適用できる。 我々は,本手法の有効性を示すために,実世界実験と同様に広範なシミュレーションを行う。

Building fair recommender systems is a challenging and crucial area of study due to its immense impact on society. We extended the definitions of two commonly accepted notions of fairness to recommender systems, namely equality of opportunity and equalized odds. These fairness measures ensure that equally "qualified" (or "unqualified") candidates are treated equally regardless of their protected attribute status (such as gender or race). We propose scalable methods for achieving equality of opportunity and equalized odds in rankings in the presence of position bias, which commonly plagues data generated from recommender systems. Our algorithms are model agnostic in the sense that they depend only on the final scores provided by a model, making them easily applicable to virtually all web-scale recommender systems. We conduct extensive simulations as well as real-world experiments to show the efficacy of our approach.
翻訳日:2022-11-19 04:33:51 公開日:2022-08-11
# データ駆動型故障診断解析と時系列データのオープンセット分類

Data-Driven Fault Diagnosis Analysis and Open-Set Classification of Time-Series Data ( http://arxiv.org/abs/2009.04756v2 )

ライセンス: Link先を確認
Andreas Lundgren and Daniel Jung(参考訳) 動的システムの故障診断は、例えばシステムの劣化と不良成分に起因する残差などの時系列データの変化を検出することによって行われる。 不均衡なトレーニングデータと未知の障害クラスによって, 汎用的多クラス分類法を用いた断層診断が複雑になる。 もう一つの複雑化要因は、異なる断層クラスが類似した残差出力をもたらすことであり、特に小さな断層の場合、分類の曖昧さを引き起こす。 本研究では,Kullback-Leibler分散を用いた故障診断のためのデータ駆動解析とオープンセット分類のためのフレームワークを開発した。 不均衡データセット、クラス重複、未知の障害を扱うデータ駆動型障害分類アルゴリズムを提案する。 さらに、トレーニングデータに既知の故障認識の情報が含まれている場合の故障の大きさを推定するアルゴリズムを提案する。 提案手法の利点は, 故障診断性能の定量的解析にも利用できる点である。 提案手法の有用性を評価するために, 内燃機関試験ベンチから異なる故障シナリオから複数のデータセットを収集し, 定量的故障診断解析および開発したオープンセット故障分類アルゴリズムの評価を含むデータ駆動診断システムの設計プロセスを説明する。

Fault diagnosis of dynamic systems is done by detecting changes in time-series data, for example residuals, caused by system degradation and faulty components. The use of general-purpose multi-class classification methods for fault diagnosis is complicated by imbalanced training data and unknown fault classes. Another complicating factor is that different fault classes can result in similar residual outputs, especially for small faults, which causes classification ambiguities. In this work, a framework for data-driven analysis and open-set classification is developed for fault diagnosis applications using the Kullback-Leibler divergence. A data-driven fault classification algorithm is proposed which can handle imbalanced datasets, class overlapping, and unknown faults. In addition, an algorithm is proposed to estimate the size of the fault when training data contains information from known fault realizations. An advantage of the proposed framework is that it can also be used for quantitative analysis of fault diagnosis performance, for example, to analyze how easy it is to classify faults of different magnitudes. To evaluate the usefulness of the proposed methods, multiple datasets from different fault scenarios have been collected from an internal combustion engine test bench to illustrate the design process of a data-driven diagnosis system, including quantitative fault diagnosis analysis and evaluation of the developed open set fault classification algorithm.
翻訳日:2022-10-20 03:11:34 公開日:2022-08-11
# 確率的変分不等式に対する単純かつ最適手法 I:演算子外挿法

Simple and optimal methods for stochastic variational inequalities, I: operator extrapolation ( http://arxiv.org/abs/2011.02987v4 )

ライセンス: Link先を確認
Georgios Kotsalis, Guanghui Lan, Tianjiao Li(参考訳) 本稿ではまず,決定論的変分不等式(VI)問題を解決するための演算子外挿法を提案する。 勾配(オペレーター)投影法と同様に、oeは各イテレーションで単一のプロジェクションサブプロジェクションを解決し、1つの検索シーケンスを更新する。 oeは既存の手法よりもずっと簡単な方法で様々なvi問題を解決するために最適な収束率を達成できることを示す。 次に,確率作用素外挿法(soe)法を導入し,その最適収束挙動を定式化し,異なる確率 vi 問題を解く。 特に、soeは、文献の中で初めて、確率的滑らかかつ強い単調viという基本的な問題を解決するための最適な複雑さを達成する。 また,確率的ブロック演算子外挿法(SBOE)を提案し,あるブロック構造を持つ大規模決定論的 VI に適用した OE 法の繰り返しコストをさらに削減する。 提案アルゴリズムの潜在的な利点を示すための数値実験が実施されている。 実際、これらのアルゴリズムはすべて、作用素が必ずしも単調でない一般化単調変分不等式(GMVI)問題を解決するために適用される。 また,強化学習のためのoe に基づく最適政策評価手法について,コンパニオン・ペーパーで検討する。

In this paper we first present a novel operator extrapolation (OE) method for solving deterministic variational inequality (VI) problems. Similar to the gradient (operator) projection method, OE updates one single search sequence by solving a single projection subproblem in each iteration. We show that OE can achieve the optimal rate of convergence for solving a variety of VI problems in a much simpler way than existing approaches. We then introduce the stochastic operator extrapolation (SOE) method and establish its optimal convergence behavior for solving different stochastic VI problems. In particular, SOE achieves the optimal complexity for solving a fundamental problem, i.e., stochastic smooth and strongly monotone VI, for the first time in the literature. We also present a stochastic block operator extrapolations (SBOE) method to further reduce the iteration cost for the OE method applied to large-scale deterministic VIs with a certain block structure. Numerical experiments have been conducted to demonstrate the potential advantages of the proposed algorithms. In fact, all these algorithms are applied to solve generalized monotone variational inequality (GMVI) problems whose operator is not necessarily monotone. We will also discuss optimal OE-based policy evaluation methods for reinforcement learning in a companion paper.
翻訳日:2022-09-29 11:50:17 公開日:2022-08-11
# 宇宙天気予報のためのフルディスクとアクティブ領域のフレア予測の結合に向けて

Towards Coupling Full-disk and Active Region-based Flare Prediction for Operational Space Weather Forecasting ( http://arxiv.org/abs/2209.07406v1 )

ライセンス: Link先を確認
Chetraj Pandey, Anli Ji, Rafal A. Angryk, Manolis K. Georgoulis and Berkay Aydin(参考訳) 太陽フレア予測は宇宙天気予報の中心的な問題であり、リモートセンシングと機械学習とディープラーニングの両方のアプローチの進歩により、幅広い研究者の注目を集めている。 機械学習モデルとディープラーニングモデルに基づく実験結果から,タスク固有のデータセットのパフォーマンスが大幅に向上した。 モデルの構築とともに、そのようなモデルを運用環境下で運用環境にデプロイするプラクティスは、より複雑で、しばしば時間を要するプロセスである。 我々は,2つの予測モードを持つ$\geq$m1.0クラスのフレアを運用する太陽フレア予測システムの訓練と展開のための新しいヒューリスティックな手法を提案する。 フルディスクモードでは、深層学習モデルを用いて全ディスクラインオブサイト磁気グラム上で予測を行う一方、アクティブ領域ベースモデルでは、多変量時系列データインスタンスを用いて各アクティブ領域に対して予測を行う。 個々のアクティブ領域予測とフルディスク予測器からの出力をメタモデルで最終フルディスク予測結果と組み合わせる。 ベースラインメタ学習者として2つのベース学習者のフレア確率の等重平均アンサンブルを利用し,ロジスティック回帰モデルを用いて2つのベース学習者の能力を改善した。 この研究の主な発見は次のとおりである。 (i)異なるデータセットとモデルアーキテクチャで訓練した2つの異種フレア予測モデルを組み合わせて,今後24時間にわたってフルディスクフレア確率を予測した。 (II)ロジスティック回帰(ロジスティック回帰)という本提案モデルでは,広く使用されている2つの指標であるTrue Skill Statistic(TSS)とHeidke Skill core(HSS)を用いて,2つのベース学習者およびベースラインメタ学習者の予測性能を改善する。 3) この結果から, ロジスティック回帰に基づくアンサンブル(Meta-FP)は,全ディスクモデル(ベースラーナ)において,TSSの$\sim9\%,HSSの$\sim10\%により改善されることが示唆された。 同様に、ARベースのモデル(ベースラーナー)を、それぞれTSSとSSの点で$\sim17\%$と$\sim20\%$で改善する。 最後に、ベースラインメタモデルと比較すると、TSSを$\sim10\%$、HSSを$\sim15\%$で改善する。

Solar flare prediction is a central problem in space weather forecasting and has captivated the attention of a wide spectrum of researchers due to recent advances in both remote sensing as well as machine learning and deep learning approaches. The experimental findings based on both machine and deep learning models reveal significant performance improvements for task specific datasets. Along with building models, the practice of deploying such models to production environments under operational settings is a more complex and often time-consuming process which is often not addressed directly in research settings. We present a set of new heuristic approaches to train and deploy an operational solar flare prediction system for $\geq$M1.0-class flares with two prediction modes: full-disk and active region-based. In full-disk mode, predictions are performed on full-disk line-of-sight magnetograms using deep learning models whereas in active region-based models, predictions are issued for each active region individually using multivariate time series data instances. The outputs from individual active region forecasts and full-disk predictors are combined to a final full-disk prediction result with a meta-model. We utilized an equal weighted average ensemble of two base learners' flare probabilities as our baseline meta learner and improved the capabilities of our two base learners by training a logistic regression model. The major findings of this study are: (i) We successfully coupled two heterogeneous flare prediction models trained with different datasets and model architecture to predict a full-disk flare probability for next 24 hours, (ii) Our proposed ensembling model, i.e., logistic regression, improves on the predictive performance of two base learners and the baseline meta learner measured in terms of two widely used metrics True Skill Statistic (TSS) and Heidke Skill core (HSS), and (iii) Our result analysis suggests that the logistic regression-based ensemble (Meta-FP) improves on the full-disk model (base learner) by $\sim9\%$ in terms TSS and $\sim10\%$ in terms of HSS. Similarly, it improves on the AR-based model (base learner) by $\sim17\%$ and $\sim20\%$ in terms of TSS and HSS respectively. Finally, when compared to the baseline meta model, it improves on TSS by $\sim10\%$ and HSS by $\sim15\%$.
翻訳日:2022-09-18 16:58:53 公開日:2022-08-11
# DisCoCircテキスト回路の言語依存性:英語とウルドゥー語

Language-independence of DisCoCirc's Text Circuits: English and Urdu ( http://arxiv.org/abs/2208.10281v1 )

ライセンス: Link先を確認
Muhammad Hamza Waseem, Jonathon Liu, Vincent Wang-Ma\'scianica, Bob Coecke(参考訳) DisCoCircは、合成生成回路を用いてテキストの文法と意味を表現するための新しいフレームワークである。 これはカテゴリ分散構成(DisCoCat)フレームワークの開発を構成するが、根本的に新しい機能を公開する。 特に[14]は、DisCoCircが言語間の文法的な違いをなくすための何らかの方法を示している。 本稿では、英語とウルドゥー語の制限された断片について、これが事実であることを示す。 私たちはまず、[14]で英語で行ったように、Urduの断片のためにDisCoCircを開発しました。 英語文法からウルドゥー文法への簡単な翻訳があり、その逆もある。 次に,DCoCirc回路を通過すると,単語や句の順序に関する英語とウルディプリムの文法構造の違いがなくなることを示す。

DisCoCirc is a newly proposed framework for representing the grammar and semantics of texts using compositional, generative circuits. While it constitutes a development of the Categorical Distributional Compositional (DisCoCat) framework, it exposes radically new features. In particular, [14] suggested that DisCoCirc goes some way toward eliminating grammatical differences between languages. In this paper we provide a sketch that this is indeed the case for restricted fragments of English and Urdu. We first develop DisCoCirc for a fragment of Urdu, as it was done for English in [14]. There is a simple translation from English grammar to Urdu grammar, and vice versa. We then show that differences in grammatical structure between English and Urdu - primarily relating to the ordering of words and phrases - vanish when passing to DisCoCirc circuits.
翻訳日:2022-08-28 22:17:36 公開日:2022-08-11
# 都市における乗用車ハイジャックスポット判定のためのtwitter型深層学習機構

A Twitter-Driven Deep Learning Mechanism for the Determination of Vehicle Hijacking Spots in Cities ( http://arxiv.org/abs/2208.10280v1 )

ライセンス: Link先を確認
Taahir Aiyoob Patel, Clement N. Nyirenda(参考訳) 自動車のハイジャックは多くの都市で主要な犯罪の1つである。 例えば南アフリカでは、ドライバーがハイジャックされた被害者にならないように、常に道路で警戒し続けなければならない。 この研究は、twitterデータを用いて、都市のハイジャックスポットを描いた地図を作成することを目的としている。 この作品では、「ハイジャック」というキーワードを含むつぶやきがケープタウンの指定都市で得られている。 関連するツイートを抽出するために、これらのツイートは以下の機械学習技術を用いて分析される。 1) 多層フィードフォワードニューラルネットワーク(MLFNN) 2)畳み込みニューラルネットワーク,および変換器(BERT)からの双方向エンコーダ表現 CNNは99.66%の精度を達成し、MLFNNとBERTはそれぞれ98.99%、73.99%の精度を達成した。 Recall、Precision、F1スコアについても、CNNは最高の結果を得た。 そのため、CNNは関連するツイートの識別に使われた。 生成した関連する報告はケープタウン市のポイントマップに視覚的に表示されている。 この研究は426ツイートの小さなデータセットを使用した。 将来的には、深層学習モデルの最適化を目的とした進化計算の利用が検討される。 この情報を一般向けに利用するためのモバイルアプリが開発中である。

Vehicle hijacking is one of the leading crimes in many cities. For instance, in South Africa, drivers must constantly remain vigilant on the road in order to ensure that they do not become hijacking victims. This work is aimed at developing a map depicting hijacking spots in a city by using Twitter data. Tweets, which include the keyword "hijacking", are obtained in a designated city of Cape Town, in this work. In order to extract relevant tweets, these tweets are analyzed by using the following machine learning techniques: 1) a Multi-layer Feed-forward Neural Network (MLFNN); 2) Convolutional Neural Network; and Bidirectional Encoder Representations from Transformers (BERT). Through training and testing, CNN achieved an accuracy of 99.66%, while MLFNN and BERT achieve accuracies of 98.99% and 73.99% respectively. In terms of Recall, Precision and F1-score, CNN also achieved the best results. Therefore, CNN was used for the identification of relevant tweets. The relevant reports that it generates are visually presented on a points map of the City of Cape Town. This work used a small dataset of 426 tweets. In future, the use of evolutionary computation will be explored for purposes of optimizing the deep learning models. A mobile application is under development to make this information usable by the general public.
翻訳日:2022-08-28 22:10:32 公開日:2022-08-11
# ドメインのアンタングルモデリングと適応的Dense Retrievalへの応用

Disentangled Modeling of Domain and Relevance for Adaptable Dense Retrieval ( http://arxiv.org/abs/2208.05753v1 )

ライセンス: Link先を確認
Jingtao Zhan, Qingyao Ai, Yiqun Liu, Jiaxin Mao, Xiaohui Xie, Min Zhang, Shaoping Ma(参考訳) 近年のDense Retrieval(DR)技術は,第1段階検索の有効性を大幅に向上させた。 大規模な教師付きデータで訓練されたDRモデルは、クエリやドキュメントを低次元の高密度空間にエンコードし、効果的なセマンティックマッチングを行うことができる。 しかし、以前の研究では、トレーニングされたdrモデルがラベル付きデータのドメインとは異なるターゲット領域で採用されると、drモデルの有効性は大きなマージンで低下することが示されている。 考えられる理由の1つは、drモデルがターゲットコーパスを見たことがないため、トレーニングとターゲットドメインの違いを緩和できない可能性があることである。 残念なことに、ドメインシフトを避けるために各ドメインに対してDRモデルをトレーニングするのは、常に利用できるわけではない追加の時間、ストレージ、ドメイン固有のデータラベリングを必要とするため、しばしば難しい作業です。 そこで本論文では,DRモデルに対する有効かつ柔軟なドメイン適応を支援するために,DDR(Disentangled Dense Retrieval)と呼ばれる新しいDRフレームワークを提案する。 DDRは、ドメイン不変のマッチングパターンをモデル化するためのRelevance Estimation Module(REM)と、複数のターゲットコーパスのドメイン固有機能をモデル化するためのDAM(Domain Adaption Module)で構成される。 REMとDAMをアンタングルにすることで、DDRはフレキシブルなトレーニングパラダイムを可能にし、REMは一度監視でトレーニングされ、DAMは教師なしのデータでトレーニングされる。 異なるドメインや言語での包括的な実験により、ddrは強力なdrベースラインに比べてランキング性能が著しく向上し、ほとんどのシナリオにおいて従来の検索方法を大きく上回っていることが示されている。

Recent advance in Dense Retrieval (DR) techniques has significantly improved the effectiveness of first-stage retrieval. Trained with large-scale supervised data, DR models can encode queries and documents into a low-dimensional dense space and conduct effective semantic matching. However, previous studies have shown that the effectiveness of DR models would drop by a large margin when the trained DR models are adopted in a target domain that is different from the domain of the labeled data. One of the possible reasons is that the DR model has never seen the target corpus and thus might be incapable of mitigating the difference between the training and target domains. In practice, unfortunately, training a DR model for each target domain to avoid domain shift is often a difficult task as it requires additional time, storage, and domain-specific data labeling, which are not always available. To address this problem, in this paper, we propose a novel DR framework named Disentangled Dense Retrieval (DDR) to support effective and flexible domain adaptation for DR models. DDR consists of a Relevance Estimation Module (REM) for modeling domain-invariant matching patterns and several Domain Adaption Modules (DAMs) for modeling domain-specific features of multiple target corpora. By making the REM and DAMs disentangled, DDR enables a flexible training paradigm in which REM is trained with supervision once and DAMs are trained with unsupervised data. Comprehensive experiments in different domains and languages show that DDR significantly improves ranking performance compared to strong DR baselines and substantially outperforms traditional retrieval methods in most scenarios.
翻訳日:2022-08-28 22:09:55 公開日:2022-08-11
# 新薬と株式市場 : 臨床試験発表に対する医薬品市場反応の予測法

New drugs and stock market: how to predict pharma market reaction to clinical trial announcements ( http://arxiv.org/abs/2208.07248v1 )

ライセンス: Link先を確認
Semen Budennyy, Alexey Kazakov, Elizaveta Kovtun, Leonid Zhukov(参考訳) 製薬会社は厳格に規制され、リスクの高い環境で運営されており、1回の滑りが深刻な財政的影響をもたらす可能性がある。 したがって、臨床試験結果の発表は、将来の出来事の経過を決定づける傾向があり、大衆によって注意深く監視されている。 本研究は, 薬剤師の市場価値に影響を及ぼす結果の統計的な証拠を提供する。 多くの研究はふりかえりの影響分析に焦点を当てているが,本研究の目的は株価変動の数値予測である。 この目的のために,発表の感情極性を抽出するbertベースのモデル,期待値を予測するための時間的融合トランスフォーマ,イベント関係をキャプチャするグラフ畳み込みネットワーク,価格変化を予測するための勾配ブースティングを含むパイプラインを開発した。 この問題の課題は、肯定的かつ否定的な発表に対する反応のパターンが本質的に異なることにあり、否定的なニュースに対するより強くより顕著な反応に反映される。 さらに、ポジティブ発表後の株価の下落のような現象は、価格行動の直観に反することを裏付ける。 重要なのは、予測フレームワークで作業中に考慮すべき2つの重要な要素を見つけることです。 第1の要因は、会社の薬物ポートフォリオのサイズであり、小さな薬物の多様化の場合、発表に対する大きな感受性を示している。 2つ目は、同じ会社やノソロジーに関連するイベントのネットワーク効果である。 過去5年間で681社から5436社の臨床治験の発表があり、FDA(食品医薬品局)の発表データセットの1つに基づいて、すべての発見と洞察が得られた。

Pharmaceutical companies operate in a strictly regulated and highly risky environment in which a single slip can lead to serious financial implications. Accordingly, the announcements of clinical trial results tend to determine the future course of events, hence being closely monitored by the public. In this work, we provide statistical evidence for the result promulgation influence on the public pharma market value. Whereas most works focus on retrospective impact analysis, the present research aims to predict the numerical values of announcement-induced changes in stock prices. For this purpose, we develop a pipeline that includes a BERT-based model for extracting sentiment polarity of announcements, a Temporal Fusion Transformer for forecasting the expected return, a graph convolution network for capturing event relationships, and gradient boosting for predicting the price change. The challenge of the problem lies in inherently different patterns of responses to positive and negative announcements, reflected in a stronger and more pronounced reaction to the negative news. Moreover, such phenomenon as the drop in stocks after the positive announcements affirms the counterintuitiveness of the price behavior. Importantly, we discover two crucial factors that should be considered while working within a predictive framework. The first factor is the drug portfolio size of the company, indicating the greater susceptibility to an announcement in the case of small drug diversification. The second one is the network effect of the events related to the same company or nosology. All findings and insights are gained on the basis of one of the biggest FDA (the Food and Drug Administration) announcement datasets, consisting of 5436 clinical trial announcements from 681 companies over the last five years.
翻訳日:2022-08-16 15:07:18 公開日:2022-08-11
# 物理情報付き深層ニューラルネットワークを用いた断面ドップラー拡大予測

Cross Section Doppler Broadening prediction using Physically Informed Deep Neural Networks ( http://arxiv.org/abs/2208.07224v1 )

ライセンス: Link先を確認
Arthur Pignet, Luiz Leal and Vaibhav Jaiswal(参考訳) 中性子-核相互作用の温度依存性は、断面のドップラー拡大として知られている。 これは中性子-核相互作用で発生する標的核の熱運動によるよく知られた効果である。 このような効果の高速計算はいかなる核応用にも不可欠である。 断面におけるドップラー効果を決定できるメカニズムが開発されており、その大半は、自由気体原子分布仮説から導かれた形式主義を拡大する断面ドップラーであるソルブリグ核と呼ばれる方程式の数値解に基づいている。 本稿では,ディープラーニング技術に基づく非線形アプローチを提案する。 ディープニューラルネットワークは、合成データと実験データに基づいて訓練され、クロスセクションドップラーブロードニング(DB)の代替として機能する。 本稿では、Solbrigのカーネルから推定される偏微分方程式の解として、ネットワークを物理的に正規化する物理情報ニューラルネットワークの利用の可能性を検討する。 学習過程は、熱から2250eVまでのエネルギー範囲において、$^{235}U$の分裂、捕獲、散乱断面積を用いて実証される。

Temperature dependence of the neutron-nucleus interaction is known as the Doppler broadening of the cross-sections. This is a well-known effect due to the thermal motion of the target nuclei that occurs in the neutron-nucleus interaction. The fast computation of such effects is crucial for any nuclear application. Mechanisms have been developed that allow determining the Doppler effects in the cross-section, most of them based on the numerical resolution of the equation known as Solbrig's kernel, which is a cross-section Doppler broadening formalism derived from a free gas atoms distribution hypothesis. This paper explores a novel non-linear approach based on deep learning techniques. Deep neural networks are trained on synthetic and experimental data, serving as an alternative to the cross-section Doppler Broadening (DB). This paper explores the possibility of using physically informed neural networks, where the network is physically regularized to be the solution of a partial derivative equation, inferred from Solbrig's kernel. The learning process is demonstrated by using the fission, capture, and scattering cross sections for $^{235}U$ in the energy range from thermal to 2250 eV.
翻訳日:2022-08-16 15:03:13 公開日:2022-08-11
# RandomSCM:オミクスデータに適したスパース分類器の解釈可能なアンサンブル

RandomSCM: interpretable ensembles of sparse classifiers tailored for omics data ( http://arxiv.org/abs/2208.06436v1 )

ライセンス: Link先を確認
Thibaud Godon, Pier-Luc Plante, Baptiste Bauvin, Elina Francovic-Fontaine, Alexandre Drouin, Jacques Corbeil(参考訳) 背景:Omicsと表現型との関係を理解することは、精密医療の中心的な問題である。 メタボロミクスデータの高次元性は、スケーラビリティと一般化の観点から学習アルゴリズムに挑戦する。 ほとんどの学習アルゴリズムは解釈可能なモデルを生成しない -メソッド: 決定規則の結合や分断に基づくアンサンブル学習アルゴリズムを提案する。 結果 : メタボロミクスデータへの応用は,高い予測性能が得られるモデルを生成することを示す。 モデルの解釈性は、高次元データにおけるバイオマーカーの発見とパターン発見に有用である。

Background: Understanding the relationship between the Omics and the phenotype is a central problem in precision medicine. The high dimensionality of metabolomics data challenges learning algorithms in terms of scalability and generalization. Most learning algorithms do not produce interpretable models -- Method: We propose an ensemble learning algorithm based on conjunctions or disjunctions of decision rules. -- Results : Applications on metabolomics data shows that it produces models that achieves high predictive performances. The interpretability of the models makes them useful for biomarker discovery and patterns discovery in high dimensional data.
翻訳日:2022-08-16 14:08:04 公開日:2022-08-11
# 本田スマートホームにおける住宅電力消費量予測手法の比較

Comparison of Forecasting Methods of House Electricity Consumption for Honda Smart Home ( http://arxiv.org/abs/2208.07217v1 )

ライセンス: Link先を確認
Farshad Ahmadi Asl and Mehmet Bodur(参考訳) 建物の電力消費は市のエネルギー消費の大きな部分を占めている。 電力消費予測は、より持続可能な住宅の設計と総エネルギー消費の減少をもたらす家庭用エネルギー管理システムの開発を可能にする。 建物のエネルギー性能は、環境温度、湿度、様々な電気機器など多くの要因に影響されている。 したがって、多変量予測手法は不定値よりも好まれる。 予測誤差を最小化するための3つの手法、maeとrmseを比較するために、honda smart home usデータセットが選択された: 人工ニューラルネットワーク、サポートベクター回帰、ファジィルールに基づく回帰のためのファジィルールベースシステム。 比較すると、SVRは代替手段よりも優れた方法である。

The electricity consumption of buildings composes a major part of the city's energy consumption. Electricity consumption forecasting enables the development of home energy management systems resulting in the future design of more sustainable houses and a decrease in total energy consumption. Energy performance in buildings is influenced by many factors like ambient temperature, humidity, and a variety of electrical devices. Therefore, multivariate prediction methods are preferred rather than univariate. The Honda Smart Home US data set was selected to compare three methods for minimizing forecasting errors, MAE and RMSE: Artificial Neural Networks, Support Vector Regression, and Fuzzy Rule-Based Systems for Regression by constructing many models for each method on a multivariate data set in different time terms. The comparison shows that SVR is a superior method over the alternatives.
翻訳日:2022-08-16 13:15:38 公開日:2022-08-11
# 隠れマルコフモデルの代数的還元

Algebraic Reduction of Hidden Markov Models ( http://arxiv.org/abs/2208.05968v1 )

ライセンス: Link先を確認
Tommaso Grigoletto and Francesco Ticozzi(参考訳) 隠れマルコフモデル(HMM)を、同じ限界を正確に再現する小さな次元の1つに還元する問題は、確率空間の適切な代数的表現を活用することで、HMMに適応するシステム理論的アプローチによって取り組まれる。 確率射影演算子によって得られた粗粒度等価なHMMを返す2つのアルゴリズムを提案する。第1は与えられた出力プロセスの単一時間分布を再現するモデルを返すが、第2は完全な(複数時間)分布を保存する。 還元法は、観測された出力の構造だけでなく、その初期条件を、後者が知られているときや与えられたサブクラスに属するときでも活用する。 最適アルゴリズムは、観測可能なHMMのクラスのために導出される。 一般の場合、分析したすべての例に対して最小限のモデルを作成し、それらの最適性を推測するアルゴリズムを提案する。

The problem of reducing a Hidden Markov Model (HMM) to a one of smaller dimension that exactly reproduces the same marginals is tackled by using a system-theoretic approach, adapted to HMMs by leveraging on a suitable algebraic representation of probability spaces. We propose two algorithms that return coarse-grained equivalent HMMs obtained by stochastic projection operators: the first returns models that reproduce the single-time distribution of a given output process, while in the second the full (multi-time) distribution is preserved. The reduction method exploits not only the structure of the observed output, but also its initial condition, whenever the latter is known or belongs to a given subclass. Optimal algorithms are derived for a class of HMM, namely observable ones. In the general case, we propose algorithms that have produced minimal models for all the examples we analyzed, and conjecture their optimality.
翻訳日:2022-08-15 13:54:28 公開日:2022-08-11
# 安全とパフォーマンス - なぜ両方ではないのか? AIソフトウェア展開に向けた双方向最適化モデル圧縮

Safety and Performance, Why not Both? Bi-Objective Optimized Model Compression toward AI Software Deployment ( http://arxiv.org/abs/2208.05969v1 )

ライセンス: Link先を確認
Jie Zhu, Leye Wang, Xiao Han(参考訳) 人工知能(AI)ソフトウェアにおけるディープラーニングモデルのサイズは急速に増加しており、リソース制限されたデバイス(例えばスマートフォン)への大規模な展開を妨げる。 この問題を軽減するため、AIソフトウェア圧縮は、高性能を維持しながらモデルサイズを圧縮することを目的として、重要な役割を果たす。 しかし、大きなモデルに内在する欠陥は圧縮されたモデルに受け継がれるかもしれない。 圧縮モデルは通常、適切な保護なしに多数のデバイスにデプロイされるため、このような欠陥は攻撃者によって容易に利用することができる。 本稿では,安全性能の協調最適化の観点から,安全なモデル圧縮問題に対処する。 具体的には,ソフトウェア工学におけるテスト駆動開発(tdd)パラダイムに着想を得て,safecompressと呼ばれるテスト駆動スパーストレーニングフレームワークを提案する。 安全テストとして攻撃機構をシミュレートすることで、SafeCompressは、ダイナミックスパーストレーニングパラダイムに従って、大きなモデルを小さなものに自動的に圧縮することができる。 さらに、代表攻撃、すなわちメンバーシップ推論攻撃(mia)を考えると、mia-safecompressと呼ばれる具体的な安全なモデル圧縮機構を開発する。 MIA-SafeCompressをコンピュータビジョンと自然言語処理の両方の5つのデータセットで評価するために、大規模な実験を行った。 その結果,本手法の有効性と一般化が検証された。 SafeCompressをMIA以外の攻撃に適応させる方法についても議論し、SafeCompressの柔軟性を示す。

The size of deep learning models in artificial intelligence (AI) software is increasing rapidly, which hinders the large-scale deployment on resource-restricted devices (e.g., smartphones). To mitigate this issue, AI software compression plays a crucial role, which aims to compress model size while keeping high performance. However, the intrinsic defects in the big model may be inherited by the compressed one. Such defects may be easily leveraged by attackers, since the compressed models are usually deployed in a large number of devices without adequate protection. In this paper, we try to address the safe model compression problem from a safety-performance co-optimization perspective. Specifically, inspired by the test-driven development (TDD) paradigm in software engineering, we propose a test-driven sparse training framework called SafeCompress. By simulating the attack mechanism as the safety test, SafeCompress can automatically compress a big model to a small one following the dynamic sparse training paradigm. Further, considering a representative attack, i.e., membership inference attack (MIA), we develop a concrete safe model compression mechanism, called MIA-SafeCompress. Extensive experiments are conducted to evaluate MIA-SafeCompress on five datasets for both computer vision and natural language processing tasks. The results verify the effectiveness and generalization of our method. We also discuss how to adapt SafeCompress to other attacks besides MIA, demonstrating the flexibility of SafeCompress.
翻訳日:2022-08-15 13:54:12 公開日:2022-08-11
# 複合気候モデルと複数の固有時間スケールの半自動調整--lorenz96モデルから学んだ教訓

Semi-automatic tuning of coupled climate models with multiple intrinsic timescales: lessons learned from the Lorenz96 model ( http://arxiv.org/abs/2208.06243v1 )

ライセンス: Link先を確認
Redouane Lguensat, Julie Deshayes, Homer Durand, V. Balaji(参考訳) 本研究の目的は,HM(History Matching, ヒストリーマッチング)が気候システムをマルチスケールの力学で調整する可能性を評価することである。 おもちゃの気候モデル、すなわち2スケールのlorenz96モデルを考慮し、完璧なモデル設定で実験を行うことにより、いくつかのビルトイン選択を慎重にテストする必要があるかを詳細に検討する。 また,HMの動作に先立って,パラメータの範囲に物理知識を導入することの重要性を示す。 最後に、遅いコンポーネントと速いコンポーネントを個別にチューニングする気候モデルチューニングの古典的な手順を再考する。 Lorenz96モデルでこれを行うことで、可算パラメータの非特異性を説明し、結合から生じるメトリクスの特異性を明らかにする。 本稿は,各コミュニティが同じ概念で使用する用語間の接続を図り,気候モデリング研究に役立つ有望な協調手段を提示することによって,不確実性定量化,機械学習,気候モデリングのコミュニティをブリッジすることにも貢献する。

The objective of this study is to evaluate the potential for History Matching (HM) to tune a climate system with multi-scale dynamics. By considering a toy climate model, namely, the two-scale Lorenz96 model and producing experiments in perfect-model setting, we explore in detail how several built-in choices need to be carefully tested. We also demonstrate the importance of introducing physical expertise in the range of parameters, a priori to running HM. Finally we revisit a classical procedure in climate model tuning, that consists of tuning the slow and fast components separately. By doing so in the Lorenz96 model, we illustrate the non-uniqueness of plausible parameters and highlight the specificity of metrics emerging from the coupling. This paper contributes also to bridging the communities of uncertainty quantification, machine learning and climate modeling, by making connections between the terms used by each community for the same concept and presenting promising collaboration avenues that would benefit climate modeling research.
翻訳日:2022-08-15 13:47:55 公開日:2022-08-11
# 強化学習最適実行のためのモジュールフレームワーク

A Modular Framework for Reinforcement Learning Optimal Execution ( http://arxiv.org/abs/2208.06244v1 )

ライセンス: Link先を確認
Fernando de Meer Pardo, Christoph Auth and Florin Dascalu(参考訳) 本稿では,強化学習を最適取引実行問題に適用するためのモジュラーフレームワークを開発した。 このフレームワークは、異なるシミュレーション設定の実装を容易にするために、柔軟性を念頭に設計されている。 エージェントや最適化手法に注目するのではなく,データ前処理,観察の構築,アクション処理,子命令実行,ベンチマークのシミュレーション,報酬計算など,強化学習フレームワークの下で最適な取引実行をシミュレートするために必要な要件を,環境に集中して分解する。 本稿では,各コンポーネントの例を示し,それぞれの実装の困難さを考察するとともに,シミュレーションにおいて各コンポーネントが引き起こす異なる現象について考察し,シミュレーションと実際の市場の振る舞いの相違を強調する。 我々は、時間重み付き平均価格(TWAP)の注文スケジュールに従って、エージェントがリミットオーダーを独占的に配置し、リミットオーダーブック(LOB)のスナップショットを反復して実行をシミュレートし、同じスケジュールに従ってTWAPベンチマークアルゴリズムによって達成された価格に対する$$の改善として、報酬を計算できるような設定でモジュール実装を紹介します。 また、新たな市場データが利用可能になると、エージェントが継続的に再トレーニングされるときにどのように振る舞うかを模倣し、現在の規制枠組みの下でアルゴリズムプロバイダが実行しなければならないモニタリングプラクティスを模倣する、所定のエージェントの再トレーニングと評価を反復的に組み込んだ評価手順を開発する。

In this article, we develop a modular framework for the application of Reinforcement Learning to the problem of Optimal Trade Execution. The framework is designed with flexibility in mind, in order to ease the implementation of different simulation setups. Rather than focusing on agents and optimization methods, we focus on the environment and break down the necessary requirements to simulate an Optimal Trade Execution under a Reinforcement Learning framework such as data pre-processing, construction of observations, action processing, child order execution, simulation of benchmarks, reward calculations etc. We give examples of each component, explore the difficulties their individual implementations \& the interactions between them entail, and discuss the different phenomena that each component induces in the simulation, highlighting the divergences between the simulation and the behavior of a real market. We showcase our modular implementation through a setup that, following a Time-Weighted Average Price (TWAP) order submission schedule, allows the agent to exclusively place limit orders, simulates their execution via iterating over snapshots of the Limit Order Book (LOB), and calculates rewards as the \$ improvement over the price achieved by a TWAP benchmark algorithm following the same schedule. We also develop evaluation procedures that incorporate iterative re-training and evaluation of a given agent over intervals of a training horizon, mimicking how an agent may behave when being continuously retrained as new market data becomes available and emulating the monitoring practices that algorithm providers are bound to perform under current regulatory frameworks.
翻訳日:2022-08-15 13:47:36 公開日:2022-08-11
# ファッションEコマースのためのサイズ・フィット勧告システムにおける顧客レビューの導入

Incorporating Customer Reviews in Size and Fit Recommendation systems for Fashion E-Commerce ( http://arxiv.org/abs/2208.06261v1 )

ライセンス: Link先を確認
Oishik Chatterjee, Jaidam Ram Tej, Narendra Varma Dasaraju(参考訳) 電子商取引分野の急成長に伴い、製品レコメンデーションは電子商取引企業の間でますます関心を集めている。 プロダクトレコメンデーションの最も難しいタスクの1つは、サイズと適合予測である。 e-fashionドメインには、顧客に対して不便を招き、会社に費用を負担する規模に関連する返金や返金がたくさんあります。 したがって、顧客にとって適切なサイズを予測できる適切なサイズと適合のレコメンデーションシステムを持つことで、サイズに関連するリターンと返金を減らすだけでなく、顧客エクスペリエンスを向上させることができる。 この分野の初期の研究は、購入履歴から顧客と製品のサイズを見積もるために、従来の機械学習アプローチを使用していた。 これらの手法は、顧客製品データが大きくスパースするため、コールドスタート問題に苦しんだ。 最近では、顧客とプロダクトの機能を組み込んで、ディープラーニングを使ってこの問題に対処しています。 しかしいずれも、顧客や製品機能とともに、製品ページに提示される価値ある顧客フィードバックを取り入れていない。 本稿では,顧客レビュー情報と顧客・製品機能を用いて,サイズと適合度を予測する新しい手法を提案する。 当社のアプローチの有効性を,4つのデータセットで製品と顧客のみの機能を使用することと比較した。 4つの異なるデータセットのベースラインよりも、f1(macro)スコアが1.37%から4.31%向上したことを示す。

With the huge growth in e-commerce domain, product recommendations have become an increasing field of interest amongst e-commerce companies. One of the more difficult tasks in product recommendations is size and fit predictions. There are a lot of size related returns and refunds in e-fashion domain which causes inconvenience to the customers as well as costs the company. Thus having a good size and fit recommendation system, which can predict the correct sizes for the customers will not only reduce size related returns and refunds but also improve customer experience. Early works in this field used traditional machine learning approaches to estimate customer and product sizes from purchase history. These methods suffered from cold start problem due to huge sparsity in the customer-product data. More recently, people have used deep learning to address this problem by embedding customer and product features. But none of them incorporates valuable customer feedback present on product pages along with the customer and product features. We propose a novel approach which can use information from customer reviews along with customer and product features for size and fit predictions. We demonstrate the effectiveness of our approach compared to using just product and customer features on 4 datasets. Our method shows an improvement of 1.37% - 4.31% in F1 (macro) score over the baseline across the 4 different datasets.
翻訳日:2022-08-15 13:47:07 公開日:2022-08-11
# CORNET: 条件付き表形式規則の学習におけるニューロシンボリックアプローチ

CORNET: A neurosymbolic approach to learning conditional table formatting rules by example ( http://arxiv.org/abs/2208.06032v1 )

ライセンス: Link先を確認
Mukul Singh, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Mohammad Raza, Gust Verbruggen(参考訳) スプレッドシートはテーブル操作やプレゼンテーションに広く使われている。 これらの表のスタイリスティックな形式化は、プレゼンテーションと分析の両方にとって重要な特性である。 その結果、excelのような人気のあるスプレッドシートソフトウェアは、データ依存のルールに基づいたテーブルの自動フォーマットをサポートする。 残念ながら、これらのフォーマットルールの記述は、基礎となるルール言語とデータロジックの知識を必要とするため、ユーザにとって難しい場合がある。 本稿では,このようなフォーマットルールをユーザ例から自動的に学習する新しい問題に対処する,ニューロシンボリックシステムであるCORNETを提案する。 cornetは帰納的プログラム合成からインスピレーションを得て、半教師付きクラスタリングと反復決定木学習に基づくシンボリックルール列挙と、条件付きフォーマットルールを生成するニューラルネットワークランカを組み合わせた。 提案手法のモチベーションと評価のために,40万以上の実スプレッドシートからなるコーパスからフォーマットルール付きテーブルを抽出した。 このデータを用いて、CORNETを幅広い記号的および神経的ベースラインと比較した。 以上の結果から,CORNETは,これらのベースラインと比較して,様々な条件で,より正確にルールを学習できることがわかった。 ユーザが手動でデータをフォーマットした場合でも,ユーザの条件付きフォーマットルールを簡素化し,ルールを回復するという,CORNETのさらなる利用を動機付けるための2つのケーススタディを提示した。

Spreadsheets are widely used for table manipulation and presentation. Stylistic formatting of these tables is an important property for both presentation and analysis. As a result, popular spreadsheet software, such as Excel, supports automatically formatting tables based on data-dependent rules. Unfortunately, writing these formatting rules can be challenging for users as that requires knowledge of the underlying rule language and data logic. In this paper, we present CORNET, a neuro-symbolic system that tackles the novel problem of automatically learning such formatting rules from user examples of formatted cells. CORNET takes inspiration from inductive program synthesis and combines symbolic rule enumeration, based on semi-supervised clustering and iterative decision tree learning, with a neural ranker to produce conditional formatting rules. To motivate and evaluate our approach, we extracted tables with formatting rules from a corpus of over 40K real spreadsheets. Using this data, we compared CORNET to a wide range of symbolic and neural baselines. Our results show that CORNET can learn rules more accurately, across varying conditions, compared to these baselines. Beyond learning rules from user examples, we present two case studies to motivate additional uses for CORNET: simplifying user conditional formatting rules and recovering rules even when the user may have manually formatted their data.
翻訳日:2022-08-15 13:44:13 公開日:2022-08-11
# 深層ニューラルネットワークにおける突然変異検査の確率的枠組み

A Probabilistic Framework for Mutation Testing in Deep Neural Networks ( http://arxiv.org/abs/2208.06018v1 )

ライセンス: Link先を確認
Florian Tambon, Foutse Khomh, Giuliano Antoniol(参考訳) コンテキスト: ミューテーションテスト(MT)は、従来のソフトウェア工学(SE)ホワイトボックステストにおいて重要なツールです。 テストスイートの欠陥発見機能が実際の障害に変換されると仮定して、テストスイートの障害検出能力を評価するために、システム内の障害を人工的に注入することを目指している。 MT が SE で長く使われてきた場合,DL モデルの試験性向上と DL システムの信頼性向上のため,Deep Learning (DL) コミュニティの注目を集めるのはごく最近になってからである。 目的: MT にいくつかの手法が提案された場合,そのほとんどは訓練段階から生じる DL 固有の確率性を無視した。 統計的なアプローチによってMTに取り組むことを提案するDLの最新のMTアプローチでさえ、一貫性のない結果をもたらす可能性がある。 実際、彼らの統計はサンプルのトレーニングインスタンスの固定セットに基づいているため、任意のインスタンスに対して結果が一貫性があるように設定されたインスタンス間で異なる結果をもたらす可能性がある。 方法:本研究では,不整合問題を緩和し,ミュータントが殺害されるか否かをより一貫した判断を可能にする,確率的突然変異試験(PMT)手法を提案する。 結果: PMTは3つのモデルと8つの突然変異演算子を用いて評価することにより, より一貫性があり, より情報的な突然変異決定を可能にすることを示した。 また,提案手法のコストと近似誤差のトレードオフを分析し,比較的小さな誤差を管理可能なコストで達成できることを示した。 結論: この結果から, DNN における現在の MT 実践の限界と再考の必要性が示された。 我々はPMTが、DNNトレーニングの確率性に起因する従来の手法のテスト実行における一貫性の欠如を効果的に除去する方向への第一歩であると信じている。

Context: Mutation Testing (MT) is an important tool in traditional Software Engineering (SE) white-box testing. It aims to artificially inject faults in a system to evaluate a test suite's capability to detect them, assuming that the test suite defects finding capability will then translate to real faults. If MT has long been used in SE, it is only recently that it started gaining the attention of the Deep Learning (DL) community, with researchers adapting it to improve the testability of DL models and improve the trustworthiness of DL systems. Objective: If several techniques have been proposed for MT, most of them neglected the stochasticity inherent to DL resulting from the training phase. Even the latest MT approaches in DL, which propose to tackle MT through a statistical approach, might give inconsistent results. Indeed, as their statistic is based on a fixed set of sampled training instances, it can lead to different results across instances set when results should be consistent for any instance. Methods: In this work, we propose a Probabilistic Mutation Testing (PMT) approach that alleviates the inconsistency problem and allows for a more consistent decision on whether a mutant is killed or not. Results: We show that PMT effectively allows a more consistent and informed decision on mutations through evaluation using three models and eight mutation operators used in previously proposed MT methods. We also analyze the trade-off between the approximation error and the cost of our method, showing that relatively small error can be achieved for a manageable cost. Conclusion: Our results showed the limitation of current MT practices in DNN and the need to rethink them. We believe PMT is the first step in that direction which effectively removes the lack of consistency across test executions of previous methods caused by the stochasticity of DNN training.
翻訳日:2022-08-15 13:42:54 公開日:2022-08-11
# 医用画像品質評価のためのシフトWindowsトランス

Shifted Windows Transformers for Medical Image Quality Assessment ( http://arxiv.org/abs/2208.06034v1 )

ライセンス: Link先を確認
Caner Ozer, Arda Guler, Aysel Turkvatan Cansever, Deniz Alis, Ercan Karaarslan, Ilkay Oksuz(参考訳) 医用画像研究における基準を維持するためには,画像の診断に必要となる画質が必要である。 CNNベースのアプローチは画像の品質を評価するのに使われているが、精度の面でも性能は改善されている。 本研究では,医療画像品質の低下を引き起こす品質の低い画像分類性能を改善するスウィントランスを用いて,この問題にアプローチする。 胸部x線(object-cxr)の異物分類問題と心mriの左室流出路分類問題に対するアプローチを4チャンバービュー(lvot)を用いて検討した。 我々は,Object-CXRおよびLVOTデータセットの分類精度が87.1%,95.48%であるのに対して,Swin Transformerの使用により,LVOTデータセットに匹敵する性能を得ながら,Object-CXR分類性能の向上が期待できる。 私たちの知る限りでは、この研究は医療用画像品質評価のための最初の視覚トランスフォーマーアプリケーションです。

To maintain a standard in a medical imaging study, images should have necessary image quality for potential diagnostic use. Although CNN-based approaches are used to assess the image quality, their performance can still be improved in terms of accuracy. In this work, we approach this problem by using Swin Transformer, which improves the poor-quality image classification performance that causes the degradation in medical image quality. We test our approach on Foreign Object Classification problem on Chest X-Rays (Object-CXR) and Left Ventricular Outflow Tract Classification problem on Cardiac MRI with a four-chamber view (LVOT). While we obtain a classification accuracy of 87.1% and 95.48% on the Object-CXR and LVOT datasets, our experimental results suggest that the use of Swin Transformer improves the Object-CXR classification performance while obtaining a comparable performance for the LVOT dataset. To the best of our knowledge, our study is the first vision transformer application for medical image quality assessment.
翻訳日:2022-08-15 13:36:33 公開日:2022-08-11
# テンソルネットワーク回帰のための相互作用分解

Interaction Decompositions for Tensor Network Regression ( http://arxiv.org/abs/2208.06029v1 )

ライセンス: Link先を確認
Ian Convy and K. Birgitta Whaley(参考訳) テンソルネットワーク回帰モデルが指数関数的に大きな特徴空間で動作することはよく知られているが、この空間がいかに効果的に利用できるかについては疑問が残る。 ノヴィコフらによる多項式分解を用いて, 相互作用分解を多項式次数の関数として, 異なる回帰器の相対的重要性を評価するツールとして提案する。 この分解をMNISTおよびFashion MNISTデータセットでトレーニングされたテンソルリングとツリーテンソルネットワークモデルに適用し、最大75%の相互作用度がこれらのモデルに有意な寄与があることを見出した。 また,少数の相互作用次数のみを明示的にトレーニングした新しいテンソルネットワークモデルを導入し,指数関数的特徴空間のごく一部だけを用いて,これらのモデルが完全モデルに適合し,さらに優れることを示した。 このことは、標準テンソルネットワークモデルが多項式回帰器を非効率に利用し、低次項が大いに利用されていないことを示唆している。

It is well known that tensor network regression models operate on an exponentially large feature space, but questions remain as to how effectively they are able to utilize this space. Using the polynomial featurization from Novikov et al., we propose the interaction decomposition as a tool that can assess the relative importance of different regressors as a function of their polynomial degree. We apply this decomposition to tensor ring and tree tensor network models trained on the MNIST and Fashion MNIST datasets, and find that up to 75% of interaction degrees are contributing meaningfully to these models. We also introduce a new type of tensor network model that is explicitly trained on only a small subset of interaction degrees, and find that these models are able to match or even outperform the full models using only a fraction of the exponential feature space. This suggests that standard tensor network models utilize their polynomial regressors in an inefficient manner, with the lower degree terms being vastly under-utilized.
翻訳日:2022-08-15 13:29:09 公開日:2022-08-11
# 高速な明示的モデル同定による2倍確率勾配法

An Accelerated Doubly Stochastic Gradient Method with Faster Explicit Model Identification ( http://arxiv.org/abs/2208.06058v1 )

ライセンス: Link先を確認
Runxue Bao, Bin Gu, Heng Huang(参考訳) 空間正規化損失最小化問題は、機械学習、データマイニング、現代統計など様々な分野で重要な役割を果たしている。 近似勾配降下法と座標降下法は最小化問題を解く最も一般的な手法である。 既存の手法では, 暗黙的なモデル同定, いわゆるサポートセット同定を有限回繰り返し行うことができるが, 高い次元シナリオにおいて, 計算コストとメモリ負荷に悩まされている。 理由は、これらの手法におけるサポートセットの識別が暗黙的であるため、実際には低複雑さ構造を明示的に識別することはできず、つまり、関連する特徴の無駄な係数を排除して次元の縮小によるアルゴリズム的加速度を達成することはできないからである。 そこで本研究では,最適化過程で不活性係数を除去してブロック反復数を削減し,より高速な明示的モデル同定とアルゴリズム効率の向上を実現した,スパーシティ正規化損失最小化問題の2倍確率勾配降下法(adsgd)を提案する。 理論的には、ADSGDが線形収束率を達成し、全体的な計算複雑性を低減できることを最初に証明する。 さらに重要なことは、ADSGDが明示的なモデル同定の線形速度を達成できることである。 ベンチマークデータセットにおける実験結果から,提案手法の有効性を確認した。

Sparsity regularized loss minimization problems play an important role in various fields including machine learning, data mining, and modern statistics. Proximal gradient descent method and coordinate descent method are the most popular approaches to solving the minimization problem. Although existing methods can achieve implicit model identification, aka support set identification, in a finite number of iterations, these methods still suffer from huge computational costs and memory burdens in high-dimensional scenarios. The reason is that the support set identification in these methods is implicit and thus cannot explicitly identify the low-complexity structure in practice, namely, they cannot discard useless coefficients of the associated features to achieve algorithmic acceleration via dimension reduction. To address this challenge, we propose a novel accelerated doubly stochastic gradient descent (ADSGD) method for sparsity regularized loss minimization problems, which can reduce the number of block iterations by eliminating inactive coefficients during the optimization process and eventually achieve faster explicit model identification and improve the algorithm efficiency. Theoretically, we first prove that ADSGD can achieve a linear convergence rate and lower overall computational complexity. More importantly, we prove that ADSGD can achieve a linear rate of explicit model identification. Numerically, experimental results on benchmark datasets confirm the efficiency of our proposed method.
翻訳日:2022-08-15 13:28:51 公開日:2022-08-11
# ヘテロ接合太陽電池のエレクトロルミネッセンス画像における欠陥検出のための異常分割モデル

Anomaly segmentation model for defects detection in electroluminescence images of heterojunction solar cells ( http://arxiv.org/abs/2208.05994v1 )

ライセンス: Link先を確認
Alexey Korovin, Artem Vasilyev, Fedor Egorov, Dmitry Saykin, Evgeny Terukov, Igor Shakhray, Leonid Zhukov, Semen Budennyy(参考訳) 太陽電池製造における効率のよい欠陥検出は、安定したグリーンエネルギー技術製造に不可欠である。 本稿では, 太陽電池の品質評価と異常検出のために, 蛍光画像の分類とセマンティックセグメンテーションを行うためのディープラーニングベース自動検出モデルSeMaCNNを提案する。 このモデルのコアはマハラノビス距離に基づく異常検出アルゴリズムであり、関連する欠陥のある少数のデジタルエレクトロルミネッセンス画像との不均衡なデータに基づいて半教師付きで訓練することができる。 これは、産業現場への迅速なモデル統合に特に有用である。 このモデルは、バスバーグリッドを備えたヘテロ接合太陽電池の68 748個のエレクトロルミネッセンス画像からなるプラントで収集されたデータセットで訓練されている。 本モデルの精度は92.5%,F1スコア95.8%,リコール94.8%,精度96.9%で,手動で注釈付き画像1049枚からなる。 このモデルはオープンなELPVデータセットでもテストされ、精度94.6%、F1スコア91.1%で安定した性能を示した。 SeMaCNNモデルは、その性能と計算コストのバランスをよく示しており、太陽電池製造の品質制御システムへの統合に応用できる。

Efficient defect detection in solar cell manufacturing is crucial for stable green energy technology manufacturing. This paper presents a deep-learning-based automatic detection model SeMaCNN for classification and semantic segmentation of electroluminescent images for solar cell quality evaluation and anomalies detection. The core of the model is an anomaly detection algorithm based on Mahalanobis distance that can be trained in a semi-supervised manner on imbalanced data with small number of digital electroluminescence images with relevant defects. This is particularly valuable for prompt model integration into the industrial landscape. The model has been trained with the on-plant collected dataset consisting of 68 748 electroluminescent images of heterojunction solar cells with a busbar grid. Our model achieves the accuracy of 92.5%, F1 score 95.8%, recall 94.8%, and precision 96.9% within the validation subset consisting of 1049 manually annotated images. The model was also tested on the open ELPV dataset and demonstrates stable performance with accuracy 94.6% and F1 score 91.1%. The SeMaCNN model demonstrates a good balance between its performance and computational costs, which make it applicable for integrating into quality control systems of solar cell manufacturing.
翻訳日:2022-08-15 13:25:26 公開日:2022-08-11
# ictサプライチェーンの大きな表データを扱う:マルチタスク、機械解釈可能なアプローチ

Handling big tabular data of ICT supply chains: a multi-task, machine-interpretable approach ( http://arxiv.org/abs/2208.06031v1 )

ライセンス: Link先を確認
Bin Xiao, Murat Simsek, Burak Kantarci and Ala Abu Alkheir(参考訳) ICT(Information and Communications Technology, 情報通信技術)製品の特徴から, ICT機器の臨界情報はサプライチェーン間で共有される大きな表形式で要約されることが多い。 したがって,電子資産の急増量で表構造を自動的に解釈することが重要である。 電子文書の表データを機械解釈可能な形式に変換し,情報抽出・解釈のためのレイアウトと意味情報を提供するために,表構造認識(TSR)タスクと表細胞型分類(CTC)タスクを定義する。 tsrタスクの複雑なテーブル構造を表現するのにグラフを使用します。 一方、表細胞は、CTCタスクの機能的役割、すなわちヘッダ、属性、データに基づいて3つのグループに分類される。 次に,テキストモダルと画像モダル特徴を用いて,定義された2つのタスクを同時に解くマルチタスクモデルを提案する。 ICDAR2013およびUNLVデータセットにおいて,提案手法が最先端の手法より優れていることを示す。

Due to the characteristics of Information and Communications Technology (ICT) products, the critical information of ICT devices is often summarized in big tabular data shared across supply chains. Therefore, it is critical to automatically interpret tabular structures with the surging amount of electronic assets. To transform the tabular data in electronic documents into a machine-interpretable format and provide layout and semantic information for information extraction and interpretation, we define a Table Structure Recognition (TSR) task and a Table Cell Type Classification (CTC) task. We use a graph to represent complex table structures for the TSR task. Meanwhile, table cells are categorized into three groups based on their functional roles for the CTC task, namely Header, Attribute, and Data. Subsequently, we propose a multi-task model to solve the defined two tasks simultaneously by using the text modal and image modal features. Our experimental results show that our proposed method can outperform state-of-the-art methods on ICDAR2013 and UNLV datasets.
翻訳日:2022-08-15 13:25:05 公開日:2022-08-11
# ICIP 2022 顕微鏡画像における寄生卵の検出と分類に関する課題:データセット,方法,結果

ICIP 2022 Challenge on Parasitic Egg Detection and Classification in Microscopic Images: Dataset, Methods and Results ( http://arxiv.org/abs/2208.06063v1 )

ライセンス: Link先を確認
Nantheera Anantrasirichai and Thanarat H. Chalidabhongse and Duangdao Palasuwan and Korranat Naruenatthanaset and Thananop Kobchaisawat and Nuntiporn Nunthanasup and Kanyarat Boonpeng and Xudong Ma and Alin Achim(参考訳) 寄生卵の存在を特定するために、精巣のスメアサンプルを手動で検査することは非常に時間がかかり、専門家によってのみ実施できる。 そのため,本疾患は腸管寄生虫感染の重症化につながるため,自動化システムが必要である。 本稿では, 寄生卵検出と顕微鏡画像の分類に関するICIP 2022 Challengeをレビューする。 我々は、この種の最大のデータセットであるこのアプリケーションのための新しいデータセットについて説明する。 課題参加者が使用する手法は要約され,結果とともに議論される。

Manual examination of faecal smear samples to identify the existence of parasitic eggs is very time-consuming and can only be done by specialists. Therefore, an automated system is required to tackle this problem since it can relate to serious intestinal parasitic infections. This paper reviews the ICIP 2022 Challenge on parasitic egg detection and classification in microscopic images. We describe a new dataset for this application, which is the largest dataset of its kind. The methods used by participants in the challenge are summarised and discussed along with their results.
翻訳日:2022-08-15 13:24:47 公開日:2022-08-11
# 不確かさの定量化と脳腫瘍切片のロバスト性向上のための領域ベース証拠深層学習

Region-Based Evidential Deep Learning to Quantify Uncertainty and Improve Robustness of Brain Tumor Segmentation ( http://arxiv.org/abs/2208.06038v1 )

ライセンス: Link先を確認
Hao Li, Yang Nan, Javier Del Ser, Guang Yang(参考訳) 脳腫瘍のセグメンテーションの精度は近年進歩しているが、信頼性と堅牢性は依然として低い。 不確実性推定はこの問題の効率的な解であり、セグメンテーション結果の信頼性の尺度を提供する。 量子回帰、ベイズニューラルネットワーク、アンサンブル、モンテカルロのドロップアウトに基づく現在の不確実性推定法は、その計算コストと不整合性によって制限される。 これらの課題を克服するために,最近の研究において,自然画像分類を主目的とした実証的深層学習 (edl) が開発された。 本稿では、信頼性の高い不確実性マップとロバストなセグメンテーション結果を生成することができる地域ベースのEDLセグメンテーションフレームワークを提案する。 ニューラルネットワークの出力を、入力特徴から収集したエビデンス値として解釈するために、エビデンス理論を用いた。 主観的論理に従えば,証拠はディリクレ分布としてパラメータ化され,予測確率は主観的評価として扱われた。 セグメンテーションと不確実性推定におけるモデルの性能を評価するため,BraTS 2020データセット上で定量的および定性的な実験を行った。 以上の結果から, 本手法は, セグメンテーション不確実性および頑健なセグメンテーション腫瘍の定量化に有効であった。 さらに, 計算コストが低く, 実装が容易であるという利点を維持し, 臨床応用の可能性を示した。

Despite recent advances in the accuracy of brain tumor segmentation, the results still suffer from low reliability and robustness. Uncertainty estimation is an efficient solution to this problem, as it provides a measure of confidence in the segmentation results. The current uncertainty estimation methods based on quantile regression, Bayesian neural network, ensemble, and Monte Carlo dropout are limited by their high computational cost and inconsistency. In order to overcome these challenges, Evidential Deep Learning (EDL) was developed in recent work but primarily for natural image classification. In this paper, we proposed a region-based EDL segmentation framework that can generate reliable uncertainty maps and robust segmentation results. We used the Theory of Evidence to interpret the output of a neural network as evidence values gathered from input features. Following Subjective Logic, evidence was parameterized as a Dirichlet distribution, and predicted probabilities were treated as subjective opinions. To evaluate the performance of our model on segmentation and uncertainty estimation, we conducted quantitative and qualitative experiments on the BraTS 2020 dataset. The results demonstrated the top performance of the proposed method in quantifying segmentation uncertainty and robustly segmenting tumors. Furthermore, our proposed new framework maintained the advantages of low computational cost and easy implementation and showed the potential for clinical application.
翻訳日:2022-08-15 13:19:31 公開日:2022-08-11
# 形態的に豊かな言語への翻訳におけるトランスフォーマー改善のための構造的バイアス

Structural Biases for Improving Transformers on Translation into Morphologically Rich Languages ( http://arxiv.org/abs/2208.06061v1 )

ライセンス: Link先を確認
Paul Soulos, Sudha Rao, Caitlin Smith, Eric Rosen, Asli Celikyilmaz, R. Thomas McCoy, Yichen Jiang, Coleman Haley, Roland Fernandez, Hamid Palangi, Jianfeng Gao, Paul Smolensky(参考訳) 機械翻訳は変圧器ベースのモデルが登場して急速に進歩した。 これらのモデルには明確な言語構造が組み込まれていないが、関連するトークンに従えば暗黙的に構造的な関係を学ぶことができる。 構造バイアスのあるトランスフォーマーを明示的に内挿することで,この構造学習をより強固なものにすることができると仮定し,このバイアスで構築する2つの方法を検討した。 tp変換器(tp-transformer)は、従来のトランスフォーマーアーキテクチャを補強し、構造を表現する追加のコンポーネントを含む。 第2の方法は、形態素化によりデータを分割することにより、データレベルの構造を付与する。 トルコ語とイヌクティトゥット語を英語から形態学的に豊かな言語に翻訳し、自動測定と人的評価の両方について検討する。 これらの2つのアプローチによってネットワークのパフォーマンスは向上するが、この改善はデータセットのサイズに依存する。 結果として、構造的な符号化手法によってトランスフォーマはよりサンプル効率が向上し、少ないデータ量でパフォーマンスが向上する。

Machine translation has seen rapid progress with the advent of Transformer-based models. These models have no explicit linguistic structure built into them, yet they may still implicitly learn structured relationships by attending to relevant tokens. We hypothesize that this structural learning could be made more robust by explicitly endowing Transformers with a structural bias, and we investigate two methods for building in such a bias. One method, the TP-Transformer, augments the traditional Transformer architecture to include an additional component to represent structure. The second method imbues structure at the data level by segmenting the data with morphological tokenization. We test these methods on translating from English into morphologically rich languages, Turkish and Inuktitut, and consider both automatic metrics and human evaluations. We find that each of these two approaches allows the network to achieve better performance, but this improvement is dependent on the size of the dataset. In sum, structural encoding methods make Transformers more sample-efficient, enabling them to perform better from smaller amounts of data.
翻訳日:2022-08-15 13:17:47 公開日:2022-08-11
# グラフ畳み込みニューラルネットワークによる電力市場における発電ユニットの最適入札戦略のためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning with Graph Convolutional Neural Networks for optimal Bidding Strategies of Generation Units in Electricity Markets ( http://arxiv.org/abs/2208.06242v1 )

ライセンス: Link先を確認
Pegah Rokhforoz, Olga Fink(参考訳) 電力市場における発電ユニットの最適入札戦略を見つけることは、高い利益をもたらす。 しかし、未知の他の世代単位の戦略によるシステム不確実性が問題となっている。 各エンティティまたはエージェントがその入札を個別に決定する分散最適化は、最先端技術となっている。 しかし、システム不確実性の課題を克服することはできない。 深層強化学習は、不確実な環境で最適な戦略を学ぶための有望なアプローチである。 しかし,学習過程において空間的システムトポロジに関する情報を統合することはできない。 本稿では,グラフ畳み込みニューラルネットワーク(gcn)を組み合わせた深層強化学習(drl)に基づく分散学習アルゴリズムを提案する。 実際、提案したフレームワークは、エージェントが環境からのフィードバックを得て意思決定を更新し、不確実性の課題を克服するのに役立つ。 提案アルゴリズムでは,ノード間の状態と接続がGCNの入力であり,エージェントがシステムの構造を認識することができる。 このシステムトポロジに関する情報は、エージェントが入札戦略を改善し、利益を上げるのに役立つ。 IEEE 30-busシステムにおける提案アルゴリズムを,異なるシナリオで評価する。 また,提案手法の一般化について検討するため,ieee 39-busシステムでトレーニングモデルをテストした。 その結果,提案アルゴリズムはDRLよりも一般化能力が高く,システムのトポロジを変更すると高い利益が得られることがわかった。

Finding optimal bidding strategies for generation units in electricity markets would result in higher profit. However, it is a challenging problem due to the system uncertainty which is due to the unknown other generation units' strategies. Distributed optimization, where each entity or agent decides on its bid individually, has become state of the art. However, it cannot overcome the challenges of system uncertainties. Deep reinforcement learning is a promising approach to learn the optimal strategy in uncertain environments. Nevertheless, it is not able to integrate the information on the spatial system topology in the learning process. This paper proposes a distributed learning algorithm based on deep reinforcement learning (DRL) combined with a graph convolutional neural network (GCN). In fact, the proposed framework helps the agents to update their decisions by getting feedback from the environment so that it can overcome the challenges of the uncertainties. In this proposed algorithm, the state and connection between nodes are the inputs of the GCN, which can make agents aware of the structure of the system. This information on the system topology helps the agents to improve their bidding strategies and increase the profit. We evaluate the proposed algorithm on the IEEE 30-bus system under different scenarios. Also, to investigate the generalization ability of the proposed approach, we test the trained model on IEEE 39-bus system. The results show that the proposed algorithm has more generalization abilities compare to the DRL and can result in higher profit when changing the topology of the system.
翻訳日:2022-08-15 13:13:53 公開日:2022-08-11
# 逐次意思決定過程の確率力学の理解:多武装帯域の経路積分解析

Understanding the stochastic dynamics of sequential decision-making processes: A path-integral analysis of Multi-armed Bandits ( http://arxiv.org/abs/2208.06245v1 )

ライセンス: Link先を確認
Bo Li and Chi Ho Yeung(参考訳) マルチアームバンディット(MAB)モデルは、不確実な環境で意思決定を研究する最も古典的なモデルの一つである。 このモデルでは、プレイヤーは各タイムステップでプレーするバンディットマシンの可能なK個のアームを選択する必要があり、そこで対応するアームは特定の未知の分布からプレイヤーにランダムな報酬を返す。 プレイヤーの目標は、プロセス中にできるだけ多くの報酬を集めることである。 その単純さにもかかわらず、MABモデルは、探究と搾取の間のトレードオフを研究し、不確実性の下でシーケンシャルな意思決定のための効果的なアルゴリズムを設計するための優れた遊び場を提供する。 多くの漸近的最適アルゴリズムが確立されているが、決定と報酬の相互関係のため、MABモデルの確率力学の有限時間挙動は分析がより困難であるように見える。 本稿では,統計物理学の手法を用いてmabモデルの解析を行い,有限短時間での累積的後悔の分布,mabアルゴリズムに対する関心の中心量,およびモデルの複雑な動的挙動を特徴付ける。

The multi-armed bandit (MAB) model is one of the most classical models to study decision-making in an uncertain environment. In this model, a player needs to choose one of K possible arms of a bandit machine to play at each time step, where the corresponding arm returns a random reward to the player, potentially from a specific unknown distribution. The target of the player is to collect as much rewards as possible during the process. Despite its simplicity, the MAB model offers an excellent playground for studying the trade-off between exploration versus exploitation and designing effective algorithms for sequential decision-making under uncertainty. Although many asymptotically optimal algorithms have been established, the finite-time behaviours of the stochastic dynamics of the MAB model appears much more difficult to analyze, due to the intertwining between the decision-making and the rewards being collected. In this paper, we employ techniques in statistical physics to analyze the MAB model, which facilitates to characterize the distribution of cumulative regrets at a finite short time, the central quantity of interest in an MAB algorithm, as well as the intricate dynamical behaviours of the model.
翻訳日:2022-08-15 13:11:29 公開日:2022-08-11
# WeightMom:反復モーメンタムプルーニングによるスパースネットワークの学習

WeightMom: Learning Sparse Networks using Iterative Momentum-based pruning ( http://arxiv.org/abs/2208.05970v1 )

ライセンス: Link先を確認
Elvis Johnson, Xiaochen Tang and Sriramacharyulu Samudrala(参考訳) ディープニューラルネットワークは様々なアプリケーションで使われており、大きな成功を収めている。 しかしながら、数百万のパラメータを構成できるという非常に複雑な性質は、レイテンシ要件の少ないパイプラインのデプロイメント中に問題を引き起こしている。 その結果、推論時間中に同じ性能の軽量ニューラルネットワークを得るのがより望ましい。 本研究では,前回の繰り返しの運動量に基づいて徐々に重みを刈り取る,重みに基づくプルーニング手法を提案する。 ニューラルネットワークの各レイヤは、相対的な疎度に基づいて重要値が割り当てられ、その後、前のイテレーションにおける重みの大きさが割り当てられる。 我々は,CIFAR-10やCIFAR-100といった画像分類データセットを用いて,AlexNet,VGG16,ResNet50などのネットワークに対するアプローチを評価する。 その結果,従来の手法よりも精度と圧縮比が優れていた。 本手法では, 両データセットの精度の同じ劣化に対して, 15%の圧縮が得られる。

Deep Neural Networks have been used in a wide variety of applications with significant success. However, their highly complex nature owing to comprising millions of parameters has lead to problems during deployment in pipelines with low latency requirements. As a result, it is more desirable to obtain lightweight neural networks which have the same performance during inference time. In this work, we propose a weight based pruning approach in which the weights are pruned gradually based on their momentum of the previous iterations. Each layer of the neural network is assigned an importance value based on their relative sparsity, followed by the magnitude of the weight in the previous iterations. We evaluate our approach on networks such as AlexNet, VGG16 and ResNet50 with image classification datasets such as CIFAR-10 and CIFAR-100. We found that the results outperformed the previous approaches with respect to accuracy and compression ratio. Our method is able to obtain a compression of 15% for the same degradation in accuracy on both the datasets.
翻訳日:2022-08-15 13:07:18 公開日:2022-08-11
# 深みは我々が持っていない高級品です

Deep is a Luxury We Don't Have ( http://arxiv.org/abs/2208.06066v1 )

ライセンス: Link先を確認
Ahmed Taha, Yen Nhi Truong Vu, Brent Mombourquette, Thomas Paul Matthews, Jason Su, Sadanand Singh(参考訳) 医用画像は解像度が高い。 高分解能は早期に悪性組織を見つけるのに不可欠である。 しかし、この解決は長い範囲の依存関係をモデリングすることの難しさを浮き彫りにする。 浅いトランスフォーマーではこの問題は解消されるが、二次的な複雑さに苦しむ。 本稿では,線形自己アテンション近似を用いて,この複雑性に取り組む。 この近似により,高分解能畳み込み変圧器を表すhctと呼ばれる効率的な視覚モデルを提案する。 HCTは、高解像度画像にトランスフォーマーの利点を著しく低コストでもたらす。 我々は高分解能マンモグラフィーデータセットを用いてHCTを評価する。 HCTはCNNよりもはるかに優れている。 さらに,医用画像に対するHCTの適合度を実効性受容野の評価により実証し,https://bit.ly/3ykBhhfで公開されている。

Medical images come in high resolutions. A high resolution is vital for finding malignant tissues at an early stage. Yet, this resolution presents a challenge in terms of modeling long range dependencies. Shallow transformers eliminate this problem, but they suffer from quadratic complexity. In this paper, we tackle this complexity by leveraging a linear self-attention approximation. Through this approximation, we propose an efficient vision model called HCT that stands for High resolution Convolutional Transformer. HCT brings transformers' merits to high resolution images at a significantly lower cost. We evaluate HCT using a high resolution mammography dataset. HCT is significantly superior to its CNN counterpart. Furthermore, we demonstrate HCT's fitness for medical images by evaluating its effective receptive field.Code available at https://bit.ly/3ykBhhf
翻訳日:2022-08-15 13:07:03 公開日:2022-08-11
# BSAC:深層強化学習におけるベイズ戦略ネットワークに基づくソフトアクター批判

BSAC: Bayesian Strategy Network Based Soft Actor-Critic in Deep Reinforcement Learning ( http://arxiv.org/abs/2208.06033v1 )

ライセンス: Link先を確認
Qin Yang, Ramviyas Parasuraman(参考訳) 合理的な戦略を採用することは難しいが、システムの有用性を改善し、全体のコストを削減し、ミッション成功の可能性を高めるために、危険で非構造化、動的環境で働く限られたリソースを持つインテリジェントエージェントにとって、不可欠である。 深層強化学習(drl)はエージェントの行動や行動をその状態に基づいて整理し、複雑な戦略(アクションの合成)を表現する。 本稿では,ベイジアン連鎖に基づく新しい階層型戦略分解手法を提案し,複雑な政策をいくつかの単純なサブ政治に分割し,ベイジアン戦略ネットワーク(BSN)としてそれらの関係を整理する。 このアプローチを最先端のdrl手法であるsoft actor-critic (sac) に統合し,複数のサブポリティシーを統合ポリシーとして整理し,対応するbayesian soft actor-critic (bsac)モデルを構築した。 提案手法を,OpenAI Gym環境のMuJoCoにおける標準連続制御ベンチマークであるHopper-v2, Walker2d-v2, Humanoid-v2において, 提案手法とSAC, TD3, DDPG, PPOなどの最先端手法との比較を行った。 その結果,BSAC法の有望なポテンシャルはトレーニング効率を著しく向上させることがわかった。 BSACのオープンソースコードはhttps://github.com/herolab-uga/bsacでアクセスできる。

Adopting reasonable strategies is challenging but crucial for an intelligent agent with limited resources working in hazardous, unstructured, and dynamic environments to improve the system utility, decrease the overall cost, and increase mission success probability. Deep Reinforcement Learning (DRL) helps organize agents' behaviors and actions based on their state and represents complex strategies (composition of actions). This paper proposes a novel hierarchical strategy decomposition approach based on Bayesian chaining to separate an intricate policy into several simple sub-policies and organize their relationships as Bayesian strategy networks (BSN). We integrate this approach into the state-of-the-art DRL method, soft actor-critic (SAC), and build the corresponding Bayesian soft actor-critic (BSAC) model by organizing several sub-policies as a joint policy. We compare the proposed BSAC method with the SAC and other state-of-the-art approaches such as TD3, DDPG, and PPO on the standard continuous control benchmarks -- Hopper-v2, Walker2d-v2, and Humanoid-v2 -- in MuJoCo with the OpenAI Gym environment. The results demonstrate that the promising potential of the BSAC method significantly improves training efficiency. The open sourced codes for BSAC can be accessed at https://github.com/herolab-uga/bsac.
翻訳日:2022-08-15 13:06:32 公開日:2022-08-11
# 混合精度ニューラルネットワーク:サーベイ

Mixed-Precision Neural Networks: A Survey ( http://arxiv.org/abs/2208.06064v1 )

ライセンス: Link先を確認
Mariam Rakka, Mohammed E. Fouda, Pramod Khargonekar, Fadi Kurdahi(参考訳) 混合精度のDeep Neural Networksは、特にリソースが制限されている場合に、ハードウェアデプロイメントに必要なエネルギー効率とスループットを、精度を犠牲にすることなく達成する。 しかし、特に膨大な探索空間を生成するモデル、データセット、量子化技術が豊富にあるため、精度を保つ最適な層単位のビット精度は見当たらない。 この課題に取り組むために,近年,文献体系が出現し,有望な精度を実現するいくつかの枠組みが提案されている。 本稿では,文献で一般的に用いられる量子化手法の要約から始める。 そこで本研究では,強化学習などの最適化手法と,決定論的丸め法などの量子化手法により分類された混合精度フレームワークの徹底的な調査を行った。 さらに,各フレームワークの長所と短所を議論し,ここではジャクスタポジションを提案する。 最終的には、混合精度フレームワークのガイドラインを提供します。

Mixed-precision Deep Neural Networks achieve the energy efficiency and throughput needed for hardware deployment, particularly when the resources are limited, without sacrificing accuracy. However, the optimal per-layer bit precision that preserves accuracy is not easily found, especially with the abundance of models, datasets, and quantization techniques that creates an enormous search space. In order to tackle this difficulty, a body of literature has emerged recently, and several frameworks that achieved promising accuracy results have been proposed. In this paper, we start by summarizing the quantization techniques used generally in literature. Then, we present a thorough survey of the mixed-precision frameworks, categorized according to their optimization techniques such as reinforcement learning and quantization techniques like deterministic rounding. Furthermore, the advantages and shortcomings of each framework are discussed, where we present a juxtaposition. We finally give guidelines for future mixed-precision frameworks.
翻訳日:2022-08-15 13:02:03 公開日:2022-08-11
# ニューラルネットワークのためのガウス過程代理モデル

Gaussian process surrogate models for neural networks ( http://arxiv.org/abs/2208.06028v1 )

ライセンス: Link先を確認
Michael Y. Li, Erin Grant, Thomas L. Griffiths(参考訳) ディープラーニングシステムに対する洞察の欠如は、その体系的設計を妨げる。 科学と工学において、モデリングは内部プロセスが不透明である複雑なシステムを理解するために用いられる方法論である。 モデリングは複雑なシステムを、解釈に適したより単純なサロゲートで置き換える。 このことから着想を得た我々は,ガウス過程を用いたニューラルネットワークの代理モデルのクラスを構築した。 ニューラルネットワークの特定の制限ケースのカーネルを導出するのではなく、ニューラルネットワークの自然な振る舞いからガウス過程のカーネルを経験的に学習する。 このアプローチを,ニューラルネットワークの低周波学習における好みを捉え,深層ニューラルネットワークの病理挙動を同定する,ニューラルネットワークの行動に関する前回の理論的研究から着想を得た2つのケーススタディで評価した。 さらに2つの実用的なケーススタディにおいて,学習核を用いてニューラルネットワークの一般化特性を予測する。

The lack of insight into deep learning systems hinders their systematic design. In science and engineering, modeling is a methodology used to understand complex systems whose internal processes are opaque. Modeling replaces a complex system with a simpler surrogate that is more amenable to interpretation. Drawing inspiration from this, we construct a class of surrogate models for neural networks using Gaussian processes. Rather than deriving the kernels for certain limiting cases of neural networks, we learn the kernels of the Gaussian process empirically from the naturalistic behavior of neural networks. We first evaluate our approach with two case studies inspired by previous theoretical studies of neural network behavior in which we capture neural network preferences for learning low frequencies and identify pathological behavior in deep neural networks. In two further practical case studies, we use the learned kernel to predict the generalization properties of neural networks.
翻訳日:2022-08-15 13:00:46 公開日:2022-08-11
# MILAN: 言語支援表現に基づく仮面画像作成

MILAN: Masked Image Pretraining on Language Assisted Representation ( http://arxiv.org/abs/2208.06049v1 )

ライセンス: Link先を確認
Zejiang Hou, Fei Sun, Yen-Kuang Chen, Yuan Xie, Sun-Yuan Kung(参考訳) 自己注意に基づくトランスフォーマーモデルはここ数年、多くのコンピュータビジョンタスクを支配してきた。 彼らのスーパーブモデルの品質は、非常に大きなラベル付き画像データセットに依存する。 大規模なラベル付きデータセットへの依存を減らすため、リコンストラクションベースのマスク付きオートエンコーダが人気を博し、ラベル付き画像から高品質な転送可能表現を学習している。 同じ目的のために、最近の弱教師付き画像事前訓練手法は、画像に付随するテキストキャプションから言語監督を探索する。 本研究では,MILANと呼ばれる言語支援表現に基づくマスク付き画像事前学習を提案する。 生のピクセルや低レベルな特徴を予測する代わりに、前訓練の目的は、キャプションの監督によって得られる実質的な意味的シグナルで画像の特徴を再構築することです。 さらに, 再構成対象に対応するために, より効率的なプロンプト型デコーダアーキテクチャとセマンティック・アウェア・マスク・サンプリング機構を提案し, 事前学習モデルの転送性能をさらに向上させる。 実験の結果,MILANは従来よりも精度が高いことがわかった。 マスク付きオートエンコーダがImageNet-1Kデータセット上で224x224の入力解像度で事前トレーニングされ、微調整されると、MILANはViTB/16で85.4%の最高1の精度を達成し、従来の最先端技術よりも1%上回る。 下流セマンティックセグメンテーションタスクでは、ADE20Kデータセット上のViT-B/16バックボーンを使用して52.7 mIoUを達成する。

Self-attention based transformer models have been dominating many computer vision tasks in the past few years. Their superb model qualities heavily depend on the excessively large labeled image datasets. In order to reduce the reliance on large labeled datasets, reconstruction based masked autoencoders are gaining popularity, which learn high quality transferable representations from unlabeled images. For the same purpose, recent weakly supervised image pretraining methods explore language supervision from text captions accompanying the images. In this work, we propose masked image pretraining on language assisted representation, dubbed as MILAN. Instead of predicting raw pixels or low level features, our pretraining objective is to reconstruct the image features with substantial semantic signals that are obtained using caption supervision. Moreover, to accommodate our reconstruction target, we propose a more efficient prompting decoder architecture and a semantic aware mask sampling mechanism, which further advance the transfer performance of the pretrained model. Experimental results demonstrate that MILAN delivers higher accuracy than the previous works. When the masked autoencoder is pretrained and finetuned on ImageNet-1K dataset with an input resolution of 224x224, MILAN achieves a top-1 accuracy of 85.4% on ViTB/16, surpassing previous state-of-the-arts by 1%. In the downstream semantic segmentation task, MILAN achieves 52.7 mIoU using ViT-B/16 backbone on ADE20K dataset, outperforming previous masked pretraining results by 4 points.
翻訳日:2022-08-15 12:55:58 公開日:2022-08-11
# 自律運転シーンにおけるアンカー型検知器の最適化

Optimizing Anchor-based Detectors for Autonomous Driving Scenes ( http://arxiv.org/abs/2208.06062v1 )

ライセンス: Link先を確認
Xianzhi Du, Wei-Chih Hung, Tsung-Yi Lin(参考訳) 本稿では,自律運転場面における一般的なアンカー型検出器のモデル改善と推論時間最適化について概説する。 共通検出シーン用に設計された高性能RCNN-RSおよびRetinaNet-RS検出フレームワークに基づいて,群衆シーンの小さな物体をよりよく検出するために,検出装置に適応するための一連のフレームワークの改善について検討した。 そこで我々は,より高速なトレードオフ曲線を実現するために,入力解像度とモデルサイズをスケールするモデルスケーリング戦略を提案する。 我々は、waymo open dataset (wod) のリアルタイム2d検出トラック上で、モデルファミリーを評価した。 V100 GPU上の70ms/frameレイテンシ制約の中で、我々の最大のカスケードRCNN-RSモデルは76.9%のAP/L1と70.1%のAP/L2を達成し、WODのリアルタイム2D検出における新たな最先端技術を実現する。 我々の最速のRetinaNet-RSモデルは、50.7%のAP/L1と42.9%のAP/L2で適切な検出精度を維持しながら、1フレームあたり6.3msを達成する。

This paper summarizes model improvements and inference-time optimizations for the popular anchor-based detectors in the scenes of autonomous driving. Based on the high-performing RCNN-RS and RetinaNet-RS detection frameworks designed for common detection scenes, we study a set of framework improvements to adapt the detectors to better detect small objects in crowd scenes. Then, we propose a model scaling strategy by scaling input resolution and model size to achieve a better speed-accuracy trade-off curve. We evaluate our family of models on the real-time 2D detection track of the Waymo Open Dataset (WOD). Within the 70 ms/frame latency constraint on a V100 GPU, our largest Cascade RCNN-RS model achieves 76.9% AP/L1 and 70.1% AP/L2, attaining the new state-of-the-art on WOD real-time 2D detection. Our fastest RetinaNet-RS model achieves 6.3 ms/frame while maintaining a reasonable detection precision at 50.7% AP/L1 and 42.9% AP/L2.
翻訳日:2022-08-15 12:55:14 公開日:2022-08-11
# オントロジー表現を用いた図記述テキスト抽出

Figure Descriptive Text Extraction using Ontological Representation ( http://arxiv.org/abs/2208.06040v1 )

ライセンス: Link先を確認
Gilchan Park, Julia Rayz, Line Pouchard(参考訳) 実験的な研究出版物は、グラフ、チャート、あらゆる種類の画像を含む図形資源を提供し、効果的にメソッドや結果をサポートし、伝達する。 図形を記述するために、著者はキャプションを追加し、しばしば不完全であり、さらに多くの記述が本文にある。 本研究は,学術論文の本体から図形記述テキストを抽出する手法を提案する。 文から人間や機械に読み取れる知識表現を生成する図形関連情報の概念認識を支援する存在論的意味論を用いた。 以上の結果から,概念モデルによって単語ベースアプローチよりも図形記述文の分類が改善されることが示された。

Experimental research publications provide figure form resources including graphs, charts, and any type of images to effectively support and convey methods and results. To describe figures, authors add captions, which are often incomplete, and more descriptions reside in body text. This work presents a method to extract figure descriptive text from the body of scientific articles. We adopted ontological semantics to aid concept recognition of figure-related information, which generates human- and machine-readable knowledge representations from sentences. Our results show that conceptual models bring an improvement in figure descriptive sentence classification over word-based approaches.
翻訳日:2022-08-15 12:53:48 公開日:2022-08-11
# GEM-2:多体・フルレンジ相互作用モデリングを用いた次世代分子特性予測ネットワーク

GEM-2: Next Generation Molecular Property Prediction Network with Many-body and Full-range Interaction Modeling ( http://arxiv.org/abs/2208.05863v1 )

ライセンス: Link先を確認
Lihang Liu, Donglong He, Xiaomin Fang, Shanzhuo Zhang, Fan Wang, Jingzhou He, Hua Wu(参考訳) 分子特性予測は医薬品や材料産業における基本的な課題である。 物理的には、分子の性質は自身の電子構造によって決定され、シュリンガー方程式によって正確に説明できる。 しかし、ほとんどの分子に対するシュリンガー方程式の解法は、量子多体系の振る舞いにおける長距離相互作用のために非常に難しい。 深層学習法は分子特性予測に有効であることが証明されているが、分子内の長距離および多体相互作用を包括的に考慮する新しい手法であるGEM-2を設計する。 GEM-2は、任意の2つの原子間の局所的および大域的相関をモデル化する原子レベルトラックと、任意の3または4つの原子間の情報を埋め込んだ全ての原子ペア間の相関をモデル化するペアレベルトラックである。 大規模な実験は、量子化学や薬物発見のタスクにおいて、複数のベースライン法よりもGEM-2の方が優れていることを示した。

Molecular property prediction is a fundamental task in the drug and material industries. Physically, the properties of a molecule are determined by its own electronic structure, which can be exactly described by the Schr\"odinger equation. However, solving the Schr\"odinger equation for most molecules is extremely challenging due to long-range interactions in the behavior of a quantum many-body system. While deep learning methods have proven to be effective in molecular property prediction, we design a novel method, namely GEM-2, which comprehensively considers both the long-range and many-body interactions in molecules. GEM-2 consists of two interacted tracks: an atom-level track modeling both the local and global correlation between any two atoms, and a pair-level track modeling the correlation between all atom pairs, which embed information between any 3 or 4 atoms. Extensive experiments demonstrated the superiority of GEM-2 over multiple baseline methods in quantum chemistry and drug discovery tasks.
翻訳日:2022-08-12 13:50:47 公開日:2022-08-11
# テスト駆動ユーザインテント形式によるインタラクティブコード生成

Interactive Code Generation via Test-Driven User-Intent Formalization ( http://arxiv.org/abs/2208.05950v1 )

ライセンス: Link先を確認
Shuvendu K. Lahiri and Aaditya Naik and Georgios Sakkas and Piali Choudhury and Curtis von Veh and Madanlal Musuvathi and Jeevana Priya Inala and Chenglong Wang and Jianfeng Gao(参考訳) OpenAI Codexのような事前訓練された大規模言語モデル(LLM)は、非公式な自然言語(NL)の意図から自然言語を生成することによって、コーディングの重要な側面を自動化する大きな可能性を示している。 しかし、生成されたコードはユーザの意図を満たすための正当性を保証するものではない。 実際、自然言語は曖昧で形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。 本稿では,テスト駆動型ユーザインテリジェンスフォーマライゼーション(TDUIF)のワークフローを提案し,軽量なユーザフィードバックを併用することで,上記の問題を解決するための第一歩を踏み出す。 (a) ユーザ意図をテスト(部分仕様)として形式化し、 (b) 正式なユーザ意図を満たすコードを生成する。 ループ内のユーザを必要とせずに,スケーラブルかつ大規模にアルゴリズムの自動評価を行うため,参照ソリューションを用いてユーザインタラクションを高忠実度でシミュレートする方法を述べる。 また、TDUIF問題に対する効率的な解を構成することができるアルゴリズムコンポーネント(一連のテストの修正とランキングを含む)の代替実装についても記述し、実装する。 我々は,tduif のソリューションをいくつか実装したシステム ticoder を開発し,mbpp のアカデミックコード生成ベンチマークでその相対的効果を比較した。 MBPP上でのOpenAI Codex LLMの使用は有望である: 最高のアルゴリズムは、パス@1コード生成精度を48.39%から70.49%に改善し、1つのユーザクエリで最大85.48%、最大5つのユーザクエリで最大85.48%に向上します。 第2に、このデータセットの例の90.40%に対して、平均1.69のユーザクエリでユーザ意図と整合した非自明な機能ユニットテストを生成することができる。

Pre-trained large language models (LLMs) such as OpenAI Codex have shown immense potential in automating significant aspects of coding by producing natural code from informal natural language (NL) intent. However, the code produced does not have any correctness guarantees around satisfying user's intent. In fact, it is hard to define a notion of correctness since natural language can be ambiguous and lacks a formal semantics. In this paper, we take a first step towards addressing the problem above by proposing the workflow of test-driven user-intent formalization (TDUIF), which leverages lightweight user feedback to jointly (a) formalize the user intent as tests (a partial specification), and (b) generates code that meets the formal user intent. To perform a scalable and large-scale automated evaluation of the algorithms without requiring a user in the loop, we describe how to simulate user interaction with high-fidelity using a reference solution. We also describe and implement alternate implementations of several algorithmic components (including mutating and ranking a set of tests) that can be composed for efficient solutions to the TDUIF problem. We have developed a system TICODER that implements several solutions to TDUIF, and compare their relative effectiveness on the MBPP academic code generation benchmark. Our results are promising with using the OpenAI Codex LLM on MBPP: our best algorithm improves the pass@1 code generation accuracy metric from 48.39% to 70.49% with a single user query, and up to 85.48% with up to 5 user queries. Second, we can generate a non-trivial functional unit test consistent with the user intent within an average of 1.69 user queries for 90.40% of the examples for this dataset.
翻訳日:2022-08-12 13:50:31 公開日:2022-08-11
# コロンビアにおける予測拡散SARS-CoV-2の統計的手法による機械学習

Machine learning in front of statistical methods for prediction spread SARS-CoV-2 in Colombia ( http://arxiv.org/abs/2208.05910v1 )

ライセンス: Link先を確認
A. Estupi\~n\'an, J. Acu\~na, A. Rodriguez, A. Ayala, C. Estupi\~n\'an, Ramon E. R. Gonzalez, D. A. Triana-Camacho and K. L. Cristiano-Rodr\'iguez(参考訳) コロンビアにおける新型コロナウイルス(covid-19)に関する分析研究は、感受性曝露感染除去(seir)、ロジスティック回帰(lr)、多項式回帰法と呼ばれる機械学習法などの数学的モデルを用いて行われた。 感染者数、死亡者数、感染した人々、ウイルスに感染した人々について、これまでの分析は550日間のタイムラインで行われてきた。 さらに, 伝播誤差の低減と統計的バイアスの有無を考慮し, 最も効率的かつ最適な方法について詳述した。 最後に4つの異なる予防シナリオを提案し,疾患に関連する各パラメータの比率について検討した。

An analytical study of the disease COVID-19 in Colombia was carried out using mathematical models such as Susceptible-Exposed-Infectious-Removed (SEIR), Logistic Regression (LR), and a machine learning method called Polynomial Regression Method. Previous analysis has been performed on the daily number of cases, deaths, infected people, and people who were exposed to the virus, all of them in a timeline of 550 days. Moreover, it has made the fitting of infection spread detailing the most efficient and optimal methods with lower propagation error and the presence of statistical biases. Finally, four different prevention scenarios were proposed to evaluate the ratio of each one of the parameters related to the disease.
翻訳日:2022-08-12 13:49:27 公開日:2022-08-11
# 粒子物理学における畳み込みグラフネットワーク応用のためのパーティショニングプール

Partition Pooling for Convolutional Graph Network Applications in Particle Physics ( http://arxiv.org/abs/2208.05952v1 )

ライセンス: Link先を確認
M. Bachlechner (1), T. Birkenfeld (1), P. Soldin (1), A. Stahl (1) and C. Wiebusch (1) ((1) III Physics Institute B, RWTH Aachen University)(参考訳) 畳み込みグラフネットワークは、効果的な事象再構成と分類のために素粒子物理学で用いられる。 しかし、その性能はセンサーレベルのデータに適用した場合、現代の粒子検出器で使用される大量のセンサーによって制限される。 画像のプールングと類似した,グラフ上のカーネルをパーティショニングによって生成するプールスキームを提案する。 パーティションプーリングは、粒子物理学におけるグラフニューラルネットワーク応用のための画像認識アーキテクチャを成功させるのに使用できる。 計算資源の削減により、より深いネットワークとより広範なハイパーパラメータ最適化が可能になる。 その適用性を示すために、理想的なニュートリノ検出器のための模擬相互作用頂点を再構成する分割プーリングを用いた畳み込みグラフネットワークを構築した。 プールネットワークは性能が向上し、プールのない類似ネットワークよりもオーバーフィットの影響を受けにくい。 リソース要件の低さにより、パフォーマンスがさらに向上したより深いネットワークの構築が可能になる。

Convolutional graph networks are used in particle physics for effective event reconstructions and classifications. However, their performances can be limited by the considerable amount of sensors used in modern particle detectors if applied to sensor-level data. We present a pooling scheme that uses partitioning to create pooling kernels on graphs, similar to pooling on images. Partition pooling can be used to adopt successful image recognition architectures for graph neural network applications in particle physics. The reduced computational resources allow for deeper networks and more extensive hyperparameter optimizations. To show its applicability, we construct a convolutional graph network with partition pooling that reconstructs simulated interaction vertices for an idealized neutrino detector. The pooling network yields improved performance and is less susceptible to overfitting than a similar network without pooling. The lower resource requirements allow the construction of a deeper network with further improved performance.
翻訳日:2022-08-12 13:49:05 公開日:2022-08-11
# psumnet:unified modality part streamsは、効率的なポーズベースのアクション認識に必要なすべて

PSUMNet: Unified Modality Part Streams are All You Need for Efficient Pose-based Action Recognition ( http://arxiv.org/abs/2208.05775v1 )

ライセンス: Link先を確認
Neel Trivedi, Ravi Kiran Sarvadevabhatla(参考訳) ポーズベースの動作認識は、入力骨格をモノリシックな方法で扱うアプローチ、すなわちポーズツリーの関節全体を処理するアプローチによって、主に取り組まれている。 しかし、このようなアプローチは、手を含む部分関節群(例えば、"Thumbs up")や脚(例えば、"Kicking")の小さな部分集合のみを含む局所的な作用ダイナミクスによって特徴付けられるという事実を無視している。 部分群に基づくアプローチは存在するが、各部分群はグローバルなポーズフレームには含まれておらず、そのような手法が不足する。 さらに、従来のアプローチでは、独立したモダリティストリーム(関節、骨、関節速度、骨速度など)を採用し、これらのストリーム上で複数のネットワークをトレーニングすることで、トレーニングパラメータの数を大幅に増加させる。 これらの問題に対処するため,我々は,スケーラブルで効率的なポーズベース行動認識のための新しいアプローチであるpsumnetを紹介する。 表現レベルでは、従来のモダリティに基づくストリームとは対照的に、グローバルなフレームベースの部分ストリームアプローチを提案する。 各部分ストリーム内では、複数のモダリティからの関連データが統一され、処理パイプラインによって消費される。 実験的にPSUMNetは、広く使われているNTURGB+D 60/120データセットと密度の高い関節骨格データセットNTU 60-X/120-X上でのアートパフォーマンスの状態を達成している。 PSUMNetは非常に効率的で、100%-400%以上のパラメータを使用する競合メソッドよりも優れている。 PSUMNetはまた、競争力のあるパフォーマンスでSHRECハンドジェスチャデータセットに一般化する。 全体として、psumnetのスケーラビリティ、パフォーマンス、効率性は、アクション認識や計算制限のある組み込みおよびエッジデバイスへのデプロイに魅力的な選択肢となります。 コードと事前トレーニングされたモデルはhttps://github.com/skelemoa/psumnetでアクセスできる。

Pose-based action recognition is predominantly tackled by approaches which treat the input skeleton in a monolithic fashion, i.e. joints in the pose tree are processed as a whole. However, such approaches ignore the fact that action categories are often characterized by localized action dynamics involving only small subsets of part joint groups involving hands (e.g. `Thumbs up') or legs (e.g. `Kicking'). Although part-grouping based approaches exist, each part group is not considered within the global pose frame, causing such methods to fall short. Further, conventional approaches employ independent modality streams (e.g. joint, bone, joint velocity, bone velocity) and train their network multiple times on these streams, which massively increases the number of training parameters. To address these issues, we introduce PSUMNet, a novel approach for scalable and efficient pose-based action recognition. At the representation level, we propose a global frame based part stream approach as opposed to conventional modality based streams. Within each part stream, the associated data from multiple modalities is unified and consumed by the processing pipeline. Experimentally, PSUMNet achieves state of the art performance on the widely used NTURGB+D 60/120 dataset and dense joint skeleton dataset NTU 60-X/120-X. PSUMNet is highly efficient and outperforms competing methods which use 100%-400% more parameters. PSUMNet also generalizes to the SHREC hand gesture dataset with competitive performance. Overall, PSUMNet's scalability, performance and efficiency makes it an attractive choice for action recognition and for deployment on compute-restricted embedded and edge devices. Code and pretrained models can be accessed at https://github.com/skelemoa/psumnet
翻訳日:2022-08-12 13:48:48 公開日:2022-08-11
# 形態計測人口分析のための最適輸送特性

Optimal Transport Features for Morphometric Population Analysis ( http://arxiv.org/abs/2208.05891v1 )

ライセンス: Link先を確認
Samuel Gerber, Marc Niethammer, Ebrahim Ebrahim, Joseph Piven, Stephen R. Dager, Martin Styner, Stephen Aylward, Andinet Enquobahrie(参考訳) 脳病理は、しばしば部分的または完全な組織喪失として現れる。 多くの神経画像研究の目標は、疾患の進行など、興味のある臨床変数に関する組織の変化の位置と量を把握することである。 形態計測分析は、臨床変数に関連する組織分布やその他の関心量の局所的な差異を捉える。 非平衡最適移動に基づく付加的特徴抽出ステップを用いて形態計測解析を補強する。 最適な輸送特徴抽出ステップは、空間的に分散した組織損失を引き起こす病理の統計力を増大させ、空間的異常や脳トポロジーの違いによる変化に対する感受性を最小化し、組織位置による変化による体積差による変化を分離する。 アルツハイマー病に対するoasis-1研究の量的形態計測解析の文脈において,提案する最適輸送特徴抽出ステップを実証する。 以上の結果から,提案手法は組織の変化や差異を識別できる可能性が示唆された。

Brain pathologies often manifest as partial or complete loss of tissue. The goal of many neuroimaging studies is to capture the location and amount of tissue changes with respect to a clinical variable of interest, such as disease progression. Morphometric analysis approaches capture local differences in the distribution of tissue or other quantities of interest in relation to a clinical variable. We propose to augment morphometric analysis with an additional feature extraction step based on unbalanced optimal transport. The optimal transport feature extraction step increases statistical power for pathologies that cause spatially dispersed tissue loss, minimizes sensitivity to shifts due to spatial misalignment or differences in brain topology, and separates changes due to volume differences from changes due to tissue location. We demonstrate the proposed optimal transport feature extraction step in the context of a volumetric morphometric analysis of the OASIS-1 study for Alzheimer's disease. The results demonstrate that the proposed approach can identify tissue changes and differences that are not otherwise measurable.
翻訳日:2022-08-12 13:48:17 公開日:2022-08-11
# 不確かさを検知するブロブ検出と統合型光星群リカバリへの応用

Uncertainty-Aware Blob Detection with an Application to Integrated-Light Stellar Population Recoveries ( http://arxiv.org/abs/2208.05881v1 )

ライセンス: Link先を確認
Prashin Jethwa, Fabian Parzer, Otmar Scherzer, Glenn van de Ven(参考訳) コンテキスト。 ブロブ検出は天文学において一般的な問題である。 例えば、恒星の人口モデリングでは、銀河内の恒星の年齢と金属量の分布が観測によって推測される。 この文脈では、ブロブは衛星から降着した星と対等に生まれた恒星に対応し、ブロブ検出の任務はこれらの成分を分離することである。 分布にかなりの不確実性が伴うと、未解決の恒星系のモデリングスペクトルから推定される恒星集団の回復が困難になる。 現在、不確実性のあるブロブ検出には満足のいく方法がない。 狙いだ 本稿では,恒星系統合光スペクトルの恒星集団モデリングにおける不確実性を考慮したブロブ検出手法を提案する。 メソッド。 ブロブ検出のための古典的ラプラシアン・オブ・ガウシアン法(ulog)の不確かさを認識できるための理論と計算ツールを開発した。 これは様々なスケールを考慮した重要なブロブを識別する。 星団モデリングにULoGを適用するための前提条件として,スペクトルモデリングにおける不確かさの効率的な計算法を提案する。 本手法は, 切り離された特異値分解とマルコフ連鎖モンテカルロサンプリング(SVD-MCMC)に基づく。 結果だ この手法を星団M54のデータに適用する。 SVD-MCMC推論は標準MCMCと一致するが,計算速度は5~10倍であることを示す。 我々は、ULoGを推定されたM54年齢/金属量分布に適用し、その恒星の2〜3つの有意な集団を同定した。

Context. Blob detection is a common problem in astronomy. One example is in stellar population modelling, where the distribution of stellar ages and metallicities in a galaxy is inferred from observations. In this context, blobs may correspond to stars born in-situ versus those accreted from satellites, and the task of blob detection is to disentangle these components. A difficulty arises when the distributions come with significant uncertainties, as is the case for stellar population recoveries inferred from modelling spectra of unresolved stellar systems. There is currently no satisfactory method for blob detection with uncertainties. Aims. We introduce a method for uncertainty-aware blob detection developed in the context of stellar population modelling of integrated-light spectra of stellar systems. Methods. We develop theory and computational tools for an uncertainty-aware version of the classic Laplacian-of-Gaussians method for blob detection, which we call ULoG. This identifies significant blobs considering a variety of scales. As a prerequisite to apply ULoG to stellar population modelling, we introduce a method for efficient computation of uncertainties for spectral modelling. This method is based on the truncated Singular Value Decomposition and Markov Chain Monte Carlo sampling (SVD-MCMC). Results. We apply the methods to data of the star cluster M54. We show that the SVD-MCMC inferences match those from standard MCMC, but are a factor 5-10 faster to compute. We apply ULoG to the inferred M54 age/metallicity distributions, identifying between 2 or 3 significant, distinct populations amongst its stars.
翻訳日:2022-08-12 13:48:02 公開日:2022-08-11
# 量子化学のためのスケーラブルな量子状態アーキテクチャ

Scalable neural quantum states architecture for quantum chemistry ( http://arxiv.org/abs/2208.05637v1 )

ライセンス: Link先を確認
Tianchen Zhao, James Stokes, Shravan Veerapaneni(参考訳) 量子状態のニューラルネットワーク表現の変分最適化は、相互作用するフェルミオン問題の解決に成功している。 急速な発展にもかかわらず、大規模な分子を考えると、数千から数百万のパウリ作用素からなる非局所的に相互作用する量子スピンハミルトニアンに対応する大きなスケーラビリティの問題が発生する。 本稿では,ニューラルネットワークに基づく変分量子モンテカルロ計算をab-initio量子化学に応用するために,スケーラブルな並列化手法を導入する。 複雑な分子のハミルトニアンの最適化目標を計算するために,gpuによる局所エネルギー並列性を確立した。 自動回帰サンプリング技術を用いて,CCSDベースライン目標エネルギーを達成するために必要な壁面時間タイミングの体系的改善を示す。 結果のスピンハミルトニアンの構造を自己回帰サンプリング順序に調節することで、さらに性能が向上する。 このアルゴリズムは従来の近似手法と比較して有望な性能を達成し、既存のニューラルネット方式よりも実行時間とスケーラビリティの優位性を示す。

Variational optimization of neural-network representations of quantum states has been successfully applied to solve interacting fermionic problems. Despite rapid developments, significant scalability challenges arise when considering molecules of large scale, which correspond to non-locally interacting quantum spin Hamiltonians consisting of sums of thousands or even millions of Pauli operators. In this work, we introduce scalable parallelization strategies to improve neural-network-based variational quantum Monte Carlo calculations for ab-initio quantum chemistry applications. We establish GPU-supported local energy parallelism to compute the optimization objective for Hamiltonians of potentially complex molecules. Using autoregressive sampling techniques, we demonstrate systematic improvement in wall-clock timings required to achieve CCSD baseline target energies. The performance is further enhanced by accommodating the structure of resultant spin Hamiltonians into the autoregressive sampling ordering. The algorithm achieves promising performance in comparison with the classical approximate methods and exhibits both running time and scalability advantages over existing neural-network based methods.
翻訳日:2022-08-12 13:47:00 公開日:2022-08-11
# デジタルセマンティック通信システムのための学習に基づく共同符号化制御

Learning Based Joint Coding-Modulation for Digital Semantic Communication Systems ( http://arxiv.org/abs/2208.05704v1 )

ライセンス: Link先を確認
Yufei Bo, Yiheng Duan, Shuo Shao, Meixia Tao(参考訳) 学習に基づくセマンティックコミュニケーションでは、ニューラルネットワークは従来の通信システムで異なるビルディングブロックを置き換える。 しかし、デジタル変調は依然としてニューラルネットワークの課題である。 ニューラルネットワークに基づくデジタル変調の本質的なメカニズムは、ニューラルネットワークエンコーダの連続的な出力を離散的なコンステレーションシンボルにマッピングすることである。 そこで本稿では,BPSK変調を用いたディジタルセマンティック通信のための共同符号化変調方式を提案する。 本手法では,ニューラルネットワークは,具体的なマッピングを行うのではなく,各星座点の確率を出力する。 したがって、決定論的なコードではなくランダムなコードが使われ、各星座点に近い確率でシンボルのより多くの情報を保存する。 ジョイント符号変調設計は、変調過程とチャネル状態とを整合させ、デジタル意味コミュニケーションの性能を向上させることができる。 実験結果から,本手法は,SNRにおける意味コミュニケーションにおける既存のディジタル変調法よりも優れ,低SNR方式におけるニューラルネットワークに基づくアナログ変調法よりも優れていた。

In learning-based semantic communications, neural networks have replaced different building blocks in traditional communication systems. However, the digital modulation still remains a challenge for neural networks. The intrinsic mechanism of neural network based digital modulation is mapping continuous output of the neural network encoder into discrete constellation symbols, which is a non-differentiable function that cannot be trained with existing gradient descend algorithms. To overcome this challenge, in this paper we develop a joint coding-modulation scheme for digital semantic communications with BPSK modulation. In our method, the neural network outputs the likelihood of each constellation point, instead of having a concrete mapping. A random code rather than a deterministic code is hence used, which preserves more information for the symbols with a close likelihood on each constellation point. The joint coding-modulation design can match the modulation process with channel states, and hence improve the performance of digital semantic communications. Experiment results show that our method outperforms existing digital modulation methods in semantic communications over a wide range of SNR, and outperforms neural network based analog modulation method in low SNR regime.
翻訳日:2022-08-12 13:46:42 公開日:2022-08-11
# 拡散に基づく生成モデルによる音声強調とデバーベレーション

Speech Enhancement and Dereverberation with Diffusion-based Generative Models ( http://arxiv.org/abs/2208.05830v1 )

ライセンス: Link先を確認
Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann(参考訳) 近年,拡散型生成モデルが音声強調課題に導入されている。 クリーンな音声の腐敗は、ノイズが徐々に増加する固定的な前進過程としてモデル化される。 ノイズ入力を条件とした反復的な方法でこのプロセスを反転させる学習をすることで、クリーンな音声を生成する。 我々は、従来の研究に基づいて、確率微分方程式の形式論におけるトレーニングタスクを導出する。 本稿では,基礎となるスコアマッチング目標の詳細な理論的検討を行い,テスト時に逆プロセスを解くための異なるサンプル構成について検討する。 自然画像生成文献からの高度なネットワークアーキテクチャを用いることで,従来の論文に比べて性能が大幅に向上した。 また,近年の差別モデルと競合し,学習用と異なるコーパスで評価すると,より優れた一般化が達成できることを示す。 評価結果を主観的聞き取りテストで補完し,提案手法が最良であることを確認した。 さらに,提案手法は,単チャネル音声の残響化において目覚ましい性能を実現することを示す。 私たちのコードとオーディオの例は、https://uhh.de/inf-sp-sgmseを参照してください。

Recently, diffusion-based generative models have been introduced to the task of speech enhancement. The corruption of clean speech is modeled as a fixed forward process in which increasing amounts of noise are gradually added. By learning to reverse this process in an iterative fashion conditioned on the noisy input, clean speech is generated. We build upon our previous work and derive the training task within the formalism of stochastic differential equations. We present a detailed theoretical review of the underlying score matching objective and explore different sampler configurations for solving the reverse process at test time. By using a sophisticated network architecture from natural image generation literature, we significantly improve performance compared to our previous publication. We also show that we can compete with recent discriminative models and achieve better generalization when evaluating on a different corpus than used for training. We complement the evaluation results with a subjective listening test, in which our proposed method is rated best. Furthermore, we show that the proposed method achieves remarkable state-of-the-art performance in single-channel speech dereverberation. Our code and audio examples are available online, see https://uhh.de/inf-sp-sgmse
翻訳日:2022-08-12 13:46:23 公開日:2022-08-11
# 信念のダイナミクス--連続的な監視と複雑なシステムの可視化

The dynamics of belief: continuously monitoring and visualising complex systems ( http://arxiv.org/abs/2208.05764v1 )

ライセンス: Link先を確認
Edwin J. Beggs and John V. Tucker(参考訳) 人間のコンテキストにおけるAIの台頭は、システムに対する新たな要求が透明で説明可能なものになる。 複雑な人間の文脈におけるデジタルシステムを考えるための理論的枠組みと、その行動を説明する問題を開発するために、このような説明責任に関連する擬人化的な考え方や原理について検討する。 構造的には、複雑なシステムはモジュラーコンポーネントと階層コンポーネントで構成されており、新しいモードとモード遷移の概念を用いて抽象的にモデル化する。 モードは、独自の目的、データ監視、アルゴリズムを備えた、システムの独立したコンポーネントである。 モードの振る舞いは、他のモードへの遷移を含むが、その目的やアルゴリズムに照らしてモードの監視データを解釈する信念関数によって決定される。 これらの信念関数は,高次元幾何学空間における評価を可視化することにより,システムの振る舞いを説明するのにどのように役立つかを示す。 これらのアイデアは抽象的および具体的な単体錯体によって定式化される。

The rise of AI in human contexts places new demands on systems to be transparent and explainable. We examine some anthropomorphic ideas and principles relevant to such accountablity in order to develop a theoretical framework for thinking about digital systems in complex human contexts and the problem of explaining their behaviour. Structurally, complex systems are made of modular and hierachical components, which we model abstractly using a new notion of modes and mode transitions. A mode is an independent component of the system with its own objectives, monitoring data, and algorithms. The behaviour of a mode, including its transitions to other modes, is determined by belief functions that interpret the mode's monitoring data in the light of its objectives and algorithms. We show how these belief functions can help explain system behaviour by visualising their evaluation in higher dimensional geometric spaces. These ideas are formalised by abstract and concrete simplicial complexes.
翻訳日:2022-08-12 13:43:03 公開日:2022-08-11
# プログラム言語処理パイプラインを構築するための再利用可能な機械学習コンポーネントを見つける

Finding Reusable Machine Learning Components to Build Programming Language Processing Pipelines ( http://arxiv.org/abs/2208.05596v1 )

ライセンス: Link先を確認
Patrick Flynn and Tristan Vanderbruggen and Chunhua Liao and Pei-Hung Lin and Murali Emani and Xipeng Shen(参考訳) 機械学習を用いたプログラミング言語処理(plp)は、ここ数年で大幅に改善されている。 この有望な分野を探求することに関心を持つ人がますます増えている。 しかし、解決すべき多様なplpタスク、リリース中の大量のデータセットとモデル、関連する複雑なコンパイラやツールセットを考えると、新たな研究者や開発者が独自の機械学習パイプラインを構築するための適切なコンポーネントを見つけることは困難である。 機械学習コンポーネントのファインダビリティ、アクセシビリティ、相互運用性、再利用性(FAIRness)を改善するため、機械学習ベースのPLPの領域における代表論文の集合を収集し分析する。 PLPタスクやモデルアーキテクチャ,サポートツールなど,主要な概念を識別し,特徴付ける。 最後に、plpタスクのセットを解決するために機械学習パイプラインを構築するために再利用可能なコンポーネントを利用するいくつかのユースケースを示す。

Programming Language Processing (PLP) using machine learning has made vast improvements in the past few years. Increasingly more people are interested in exploring this promising field. However, it is challenging for new researchers and developers to find the right components to construct their own machine learning pipelines, given the diverse PLP tasks to be solved, the large number of datasets and models being released, and the set of complex compilers or tools involved. To improve the findability, accessibility, interoperability and reusability (FAIRness) of machine learning components, we collect and analyze a set of representative papers in the domain of machine learning-based PLP. We then identify and characterize key concepts including PLP tasks, model architectures and supportive tools. Finally, we show some example use cases of leveraging the reusable components to construct machine learning pipelines to solve a set of PLP tasks.
翻訳日:2022-08-12 13:41:53 公開日:2022-08-11
# マルチファイダリティウェーブレットニューラル演算子と不確実性定量化への応用

Multi-fidelity wavelet neural operator with application to uncertainty quantification ( http://arxiv.org/abs/2208.05606v1 )

ライセンス: Link先を確認
Akshay Thakur, Tapas Tripura and Souvik Chakraborty(参考訳) 演算子学習フレームワークは、2つの無限次元の関数空間間の非線形マップを学習する能力とニューラルネットワークの利用により、最近、応用機械学習の分野において最も重要な分野の1つとして登場した。 これらのフレームワークは複雑な現象のモデリングに関して非常に有能であるが、トレーニングを成功させるために大量のデータを必要とする。 しかし、この問題は、低価格の低忠実度データと少量の高価な高忠実度データを使ってモデルを訓練するマルチ忠実度学習(multi-fidelity learning)の使用によって緩和することができる。 そこで本研究では,多目的データセットから学習可能なウェーブレット・ニューラル・オペレータに基づく新しいフレームワークを開発した。 開発したモデルの優れた学習能力は,サロゲート構築に有効な相関学習を必要とする異なる問題を解き明かした。 さらに,不確実性定量化のためのフレームワークの開発も検討した。 本研究から得られた結果は,提案手法の優れた性能を示す。

Operator learning frameworks, because of their ability to learn nonlinear maps between two infinite dimensional functional spaces and utilization of neural networks in doing so, have recently emerged as one of the more pertinent areas in the field of applied machine learning. Although these frameworks are extremely capable when it comes to modeling complex phenomena, they require an extensive amount of data for successful training which is often not available or is too expensive. However, this issue can be alleviated with the use of multi-fidelity learning, where a model is trained by making use of a large amount of inexpensive low-fidelity data along with a small amount of expensive high-fidelity data. To this end, we develop a new framework based on the wavelet neural operator which is capable of learning from a multi-fidelity dataset. The developed model's excellent learning capabilities are demonstrated by solving different problems which require effective correlation learning between the two fidelities for surrogate construction. Furthermore, we also assess the application of the developed framework for uncertainty quantification. The results obtained from this work illustrate the excellent performance of the proposed framework.
翻訳日:2022-08-12 13:41:39 公開日:2022-08-11
# 多項式最適化:円錐制約によるrlt緩和の強化

Polynomial Optimization: Enhancing RLT relaxations with Conic Constraints ( http://arxiv.org/abs/2208.05608v1 )

ライセンス: Link先を確認
Brais Gonz\'alez-Rodr\'iguez, Ra\'ul Alvite-Paz\'o, Samuel Alvite-Paz\'o, Bissan Ghaddar, Julio Gonz\'alez-D\'iaz(参考訳) 円錐最適化は,非凸多項式最適化問題に対するトラクタブルで保証されたアルゴリズムを設計するための強力なツールとして最近登場した。 一方,大規模な課題を効率的に解くためには,コントラクタビリティが不可欠であり,一方,高品質な解の確保には強い境界が必要である。 本研究では,線形,二階円錐,半定値計画に基づく9種類の制約を付加し,多項式最適化問題のよく確立されたテスト集合のインスタンスを最適に解くことにより,多項式最適化問題のrlt緩和の強化について検討する。 本稿では, 標準rlt緩和に関して, 円錐制約とそれらの性能を相互に設計する方法について述べる。 最初の発見は、非線形制約の異なる変種(二階錐と半定値)が、インスタンスの約50 %$で最高のパフォーマンスであるということである。 さらに、与えられたインスタンスに追加する最も適切な制約を決定するための機械学習アプローチを提案する。 計算結果から、機械学習のアプローチは9つのアプローチのそれぞれと1つずつを大きく上回ることがわかった。

Conic optimization has recently emerged as a powerful tool for designing tractable and guaranteed algorithms for non-convex polynomial optimization problems. On the one hand, tractability is crucial for efficiently solving large-scale problems and, on the other hand, strong bounds are needed to ensure high quality solutions. In this research, we investigate the strengthening of RLT relaxations of polynomial optimization problems through the addition of nine different types of constraints that are based on linear, second-order cone, and semidefinite programming to solve to optimality the instances of well established test sets of polynomial optimization problems. We describe how to design these conic constraints and their performance with respect to each other and with respect to the standard RLT relaxations. Our first finding is that the different variants of nonlinear constraints (second-order cone and semidefinite) are the best performing ones in around $50\%$ of the instances. Additionally, we present a machine learning approach to decide on the most suitable constraints to add for a given instance. The computational results show that the machine learning approach significantly outperforms each and every one of the nine individual approaches.
翻訳日:2022-08-12 13:41:22 公開日:2022-08-11
# フロー型深層生成モデルによる細胞型アノテーションの解釈

Interpretable cytometry cell-type annotation with flow-based deep generative models ( http://arxiv.org/abs/2208.05745v1 )

ライセンス: Link先を確認
Quentin Blampey, Nad\`ege Bercovici, Charles-Antoine Dutertre, Isabelle Pic, Fabrice Andr\'e, Joana Mourato Ribeiro, and Paul-Henry Courn\`ede(参考訳) サイトメトリーは、異種集団内の正確な単細胞表現型を可能にする。 これらの細胞型は伝統的に手動ゲーティングによってアノテートされるが、この方法は再現性とバッチ効果に対する感受性の欠如に苦しむ。 また、最新のサイトメータ(スペクトルフローまたは質量サイトメータ)は、手作業による分析が困難で時間がかかるリッチで高次元のデータを生成する。 これらの制限に対処するために、scyan(https://github.com/mics-lab/scyan)というシングルセルのサイトメトリーアノテーションネットワークを導入し、サイトメトリーパネルに関する専門知識のみを使用して、自動的に細胞タイプをアノテートする。 我々は、Scyanが複数の公開データセット上で関連する最先端モデルよりも高速かつ解釈可能であることを実証した。 さらに、Scyanはバッチ効果除去、デバーコーディング、人口発見など、いくつかの補完的なタスクを克服している。 全体として、このモデルは細胞集団の特徴化、定量化、細胞計測の発見を加速し、緩和する。

Cytometry enables precise single-cell phenotyping within heterogeneous populations. These cell types are traditionally annotated via manual gating, but this method suffers from a lack of reproducibility and sensitivity to batch-effect. Also, the most recent cytometers - spectral flow or mass cytometers - create rich and high-dimensional data whose analysis via manual gating becomes challenging and time-consuming. To tackle these limitations, we introduce Scyan (https://github.com/MICS-Lab/scyan), a Single-cell Cytometry Annotation Network that automatically annotates cell types using only prior expert knowledge about the cytometry panel. We demonstrate that Scyan significantly outperforms the related state-of-the-art models on multiple public datasets while being faster and interpretable. In addition, Scyan overcomes several complementary tasks such as batch-effect removal, debarcoding, and population discovery. Overall, this model accelerates and eases cell population characterisation, quantification, and discovery in cytometry.
翻訳日:2022-08-12 13:41:00 公開日:2022-08-11
# 機械学習による竜巻の予測

Predicting Tornadoes days ahead with Machine Learning ( http://arxiv.org/abs/2208.05855v1 )

ライセンス: Link先を確認
Davide Alessandro Coccomini, Giuliano Zara(参考訳) 破滅的な自然現象を予測する手法の開発は、これまで以上に重要であり、竜巻は自然界で最も危険なものである。 気象の予測不可能のため、対策は容易ではなく、今日では気象モデルを解釈する専門家の気象学者が中心となっている。 本稿では,竜巻の早期発見システムを提案し,その効果を実世界で検証し,すでに世界中に普及している気象データ収集システムを活用する。 本システムでは,5,000以上の竜巻および非竜巻の新たなデータセット上で,最大84%の確率で竜巻を予測することができた。 結果を再現するデータセットとコードは、https://tinyurl.com/3brsfwpk.comで公開されている。

Developing methods to predict disastrous natural phenomena is more important than ever, and tornadoes are among the most dangerous ones in nature. Due to the unpredictability of the weather, counteracting them is not an easy task and today it is mainly carried out by expert meteorologists, who interpret meteorological models. In this paper we propose a system for the early detection of a tornado, validating its effectiveness in a real-world context and exploiting meteorological data collection systems that are already widespread throughout the world. Our system was able to predict tornadoes with a maximum probability of 84% up to five days before the event on a novel dataset of more than 5000 tornadic and non-tornadic events. The dataset and the code to reproduce our results are available at: https://tinyurl.com/3brsfwpk
翻訳日:2022-08-12 13:40:42 公開日:2022-08-11
# 超普遍正規化ニュートン法

Super-Universal Regularized Newton Method ( http://arxiv.org/abs/2208.05888v1 )

ライセンス: Link先を確認
Nikita Doikov, Konstantin Mishchenko, Yurii Nesterov(参考訳) 複合凸最小化問題の解法として2次正規化を用いたニュートン法の性能解析を行った。 提案手法の各ステップでは,現在点における勾配ノルムの一定のパワーに比例する正規化パラメータを選択する。 第二導関数あるいは第三導関数の H より古い連続性によって特徴づけられる問題クラスの族を導入する。 そこで本研究では,問題のパラメータを特定せずに,最適な大域的複雑性境界を持つ問題クラスを自動調整する,簡単な適応探索手法を提案する。 特に、リプシッツ連続三階微分を持つ函数のクラスに対しては、以前は三階テンソル法に起因していた大域$O(1/k^3)$レートを得る。 目的関数が一様凸である場合、我々のスキームの自動加速度を正当化し、より高速な大域率と局所超線型収束をもたらす。 異なるレート(サブリニア、リニア、スーパーリニア)の切り替えは自動的に行われる。 そのため、パラメータの事前知識は必要ありません。

We analyze the performance of a variant of Newton method with quadratic regularization for solving composite convex minimization problems. At each step of our method, we choose regularization parameter proportional to a certain power of the gradient norm at the current point. We introduce a family of problem classes characterized by H\"older continuity of either the second or third derivative. Then we present the method with a simple adaptive search procedure allowing an automatic adjustment to the problem class with the best global complexity bounds, without knowing specific parameters of the problem. In particular, for the class of functions with Lipschitz continuous third derivative, we get the global $O(1/k^3)$ rate, which was previously attributed to third-order tensor methods. When the objective function is uniformly convex, we justify an automatic acceleration of our scheme, resulting in a faster global rate and local superlinear convergence. The switching between the different rates (sublinear, linear, and superlinear) is automatic. Again, for that, no a priori knowledge of parameters is needed.
翻訳日:2022-08-12 13:40:32 公開日:2022-08-11
# トップギアかブラックミラー:非政治コンテンツから政治的リーンを推測する

Top Gear or Black Mirror: Inferring Political Leaning From Non-Political Content ( http://arxiv.org/abs/2208.05662v1 )

ライセンス: Link先を確認
Ahmet Kurnaz and Scott A. Hale(参考訳) 分極とエコーチャンバーは選挙のような明確な政治的出来事の文脈でしばしば研究され、非政治的文脈における政治的集団の混合についてはほとんど研究されていない。 非政治的文脈における政治的分極の研究の大きな障害は、政治的傾き(左と右の向き)がしばしば不明であることである。 にもかかわらず、政治的傾きは、多くのライフスタイルの選択肢と(時に非常に強く)相関していることが知られている。 我々は、非政治的テキストから政治的傾倒を推測する機械学習分類器を開発し、ユーザがソーシャルメディアでフォローするアカウントを任意に作成する。 私たちは、twitterで共有された投票者アドバイスアプリケーションの結果を土台として使用し、政治的テキストでツイートを削除した後、各ユーザーの最新の3200ツイートからなるtwitterデータセットで分類器を訓練し、テストします。 われわれは、ほとんどのユーザーの政治的傾きを正しく分類する(F1スコアはカバー範囲によって0.70から0.85まで)。 政治活動のレベルと分類結果には何の関係も見つからない。 イギリスにおけるニュース共有のケーススタディに適用し、一般に、政治ニュースの共有は、スポーツニュースがそうでない間に、独特の左右の隔たりを示す。

Polarization and echo chambers are often studied in the context of explicitly political events such as elections, and little scholarship has examined the mixing of political groups in non-political contexts. A major obstacle to studying political polarization in non-political contexts is that political leaning (i.e., left vs right orientation) is often unknown. Nonetheless, political leaning is known to correlate (sometimes quite strongly) with many lifestyle choices leading to stereotypes such as the "latte-drinking liberal." We develop a machine learning classifier to infer political leaning from non-political text and, optionally, the accounts a user follows on social media. We use Voter Advice Application results shared on Twitter as our groundtruth and train and test our classifier on a Twitter dataset comprising the 3,200 most recent tweets of each user after removing any tweets with political text. We correctly classify the political leaning of most users (F1 scores range from 0.70 to 0.85 depending on coverage). We find no relationship between the level of political activity and our classification results. We apply our classifier to a case study of news sharing in the UK and discover that, in general, the sharing of political news exhibits a distinctive left-right divide while sports news does not.
翻訳日:2022-08-12 13:38:22 公開日:2022-08-11
# PPMN:ワンステージパノプティブ・ナラティブ・グラウンディングのためのPixel-Phrase Matching Network

PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding ( http://arxiv.org/abs/2208.05647v1 )

ライセンス: Link先を確認
Zihan Ding, Zi-han Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Xiaolin Wei, Si Liu(参考訳) Panoptic Narrative Grounding (PNG) は、静止画の濃密なナラティブキャプションによって記述された物やものの視覚的対象を分割することを目的とする新しいタスクである。 従来の2段階のアプローチでは,まずオフザシェル・パノプティクス・セグメンテーションモデルを用いてセグメンテーション領域の提案を抽出し,次に粗い領域フレーズマッチングを行い,各名詞句の候補領域を抽出する。 しかし、2段階のパイプラインは通常、第1段階における低品質の提案のパフォーマンス制限と、地域特徴プーリングによる空間的詳細の喪失と、物やもののカテゴリを別々に設計した複雑な戦略に苦しむ。 これらの欠点を緩和するために,各句を領域提案ではなく,対応する画素と直接マッチングし,簡単な組み合わせでパンオプティカルセグメンテーションを出力する1段階のエンド・ツー・エンドのピクセル・フレーズマッチングネットワーク(ppmn)を提案する。 そこで本モデルでは,スパース領域-フレーズ対ではなく,高密度に注釈付けされた画素-フレーズ対の監督から,十分かつ詳細な相互意味対応を利用できる。 さらに,言語対応型画素集合 (LCPA) モジュールも提案し,各フレーズに最も互換性のある画素を選択し,対応する視覚的コンテキストを適応的に集約することで,フレーズ特徴の識別能力を向上する。 実験の結果,提案手法はPNGベンチマークで4.0絶対平均リコールゲインを達成できた。

Panoptic Narrative Grounding (PNG) is an emerging task whose goal is to segment visual objects of things and stuff categories described by dense narrative captions of a still image. The previous two-stage approach first extracts segmentation region proposals by an off-the-shelf panoptic segmentation model, then conducts coarse region-phrase matching to ground the candidate regions for each noun phrase. However, the two-stage pipeline usually suffers from the performance limitation of low-quality proposals in the first stage and the loss of spatial details caused by region feature pooling, as well as complicated strategies designed for things and stuff categories separately. To alleviate these drawbacks, we propose a one-stage end-to-end Pixel-Phrase Matching Network (PPMN), which directly matches each phrase to its corresponding pixels instead of region proposals and outputs panoptic segmentation by simple combination. Thus, our model can exploit sufficient and finer cross-modal semantic correspondence from the supervision of densely annotated pixel-phrase pairs rather than sparse region-phrase pairs. In addition, we also propose a Language-Compatible Pixel Aggregation (LCPA) module to further enhance the discriminative ability of phrase features through multi-round refinement, which selects the most compatible pixels for each phrase to adaptively aggregate the corresponding visual context. Extensive experiments show that our method achieves new state-of-the-art performance on the PNG benchmark with 4.0 absolute Average Recall gains.
翻訳日:2022-08-12 13:37:04 公開日:2022-08-11
# TotalSegmentator:CT画像における104の解剖学的構造の堅牢なセグメンテーション

TotalSegmentator: robust segmentation of 104 anatomical structures in CT images ( http://arxiv.org/abs/2208.05868v1 )

ライセンス: Link先を確認
Jakob Wasserthal and Manfred Meyer and Hanns-Christian Breit and Joshy Cyriac and Shan Yang and Martin Segeroth(参考訳) 本研究は, 全身CT画像における複数の解剖学的構造の自動分割に焦点を当てた。 このタスクには多くのセグメンテーションアルゴリズムが存在する。 しかし、多くの場合、彼らは3つの問題に悩まされる。 1. 使用するのが難しい(コードとデータは公開されていないか、使用が難しい)。 2 それらは一般化しない(トレーニングデータセットは、臨床経過中に発見された画像分布を反映しない非常にきれいな画像のみを含むように調整されることが多い)。 3. アルゴリズムは1つの解剖学的構造のみを分割できる。 より多くの構造のためには、システムをセットアップするのに要する労力を増大させるいくつかのアルゴリズムを使う必要がある。 1204のCT画像では、104の解剖学的構造(27の臓器、59の骨、10の筋肉、8の血管)がほとんどのユースケースで関連するクラスの大部分をカバーしています。 我々は、プロセスを10倍以上高速化する基底真理セグメンテーションを作成するための改善ワークフローを示す。 CT画像は臨床ルーチンからランダムにサンプリングされ,臨床応用に一般化した実世界のデータセットを表す。 データセットには、さまざまな病理、スキャナ、シーケンス、サイトが含まれている。 最後に、この新しいデータセットでセグメンテーションアルゴリズムをトレーニングします。 我々はこのアルゴリズムをTotalSegmentatorと呼び、トレーニング済みのpython pipパッケージ(pip install totalsegmentator)として簡単に利用できるようにする。 使い方はTotalSegmentator -i ct.nii.gz -o segと同じくらいシンプルで、ほとんどのCT画像でうまく機能する。 コードはhttps://github.com/wasserth/TotalSegmentatorで、データセットはhttps://doi.org/10.5281/zenodo.6802613で入手できる。

In this work we focus on automatic segmentation of multiple anatomical structures in (whole body) CT images. Many segmentation algorithms exist for this task. However, in most cases they suffer from 3 problems: 1. They are difficult to use (the code and data is not publicly available or difficult to use). 2. They do not generalize (often the training dataset was curated to only contain very clean images which do not reflect the image distribution found during clinical routine), 3. The algorithm can only segment one anatomical structure. For more structures several algorithms have to be used which increases the effort required to set up the system. In this work we publish a new dataset and segmentation toolkit which solves all three of these problems: In 1204 CT images we segmented 104 anatomical structures (27 organs, 59 bones, 10 muscles, 8 vessels) covering a majority of relevant classes for most use cases. We show an improved workflow for the creation of ground truth segmentations which speeds up the process by over 10x. The CT images were randomly sampled from clinical routine, thus representing a real world dataset which generalizes to clinical application. The dataset contains a wide range of different pathologies, scanners, sequences and sites. Finally, we train a segmentation algorithm on this new dataset. We call this algorithm TotalSegmentator and make it easily available as a pretrained python pip package (pip install totalsegmentator). Usage is as simple as TotalSegmentator -i ct.nii.gz -o seg and it works well for most CT images. The code is available at https://github.com/wasserth/TotalSegmentator and the dataset at https://doi.org/10.5281/zenodo.6802613.
翻訳日:2022-08-12 13:36:36 公開日:2022-08-11
# SignalKG:センサ観測の根本原因の推論に向けて

SignalKG: Towards reasoning about the underlying causes of sensor observations ( http://arxiv.org/abs/2208.05627v1 )

ライセンス: Link先を確認
Anj Simmons, Rajesh Vasa, Antonio Giardina(参考訳) 本稿では,センサが観測する信号の原因をマシンが判断するのを支援する知識グラフのビジョンを示す。 提案手法は、受信した信号に直接作用するのではなく、最も起こりそうな原因(例えば、窓を壊す攻撃者)を考慮に入れた、よりスマートな監視システムの構築を可能にすることを示す。

This paper demonstrates our vision for knowledge graphs that assist machines to reason about the cause of signals observed by sensors. We show how the approach allows for constructing smarter surveillance systems that reason about the most likely cause (e.g., an attacker breaking a window) of a signal rather than acting directly on the received signal without consideration for how it was produced.
翻訳日:2022-08-12 13:35:44 公開日:2022-08-11
# 視覚的触覚推論:変形可能な物体相互作用の観察による接触力の推定

Visual Haptic Reasoning: Estimating Contact Forces by Observing Deformable Object Interactions ( http://arxiv.org/abs/2208.05632v1 )

ライセンス: Link先を確認
Yufei Wang, David Held, Zackory Erickson(参考訳) 高度に変形可能な布のロボット操作は、深刻な運動障害を持つ人のために、洗濯、洗濯、入浴、衛生補助など、日々の作業を行う人々を助ける有望な機会を提供する。 本研究では,協調型ロボットが布を用いて視覚的触覚推論を行うための定式化を導入する。 物理シミュレーションで訓練された2つの異なるモデル表現を提示し,視覚とロボットのキネマティックな観察のみを用いて触覚推論を行う。 ロボット支援ドレッシング,入浴,食器洗浄作業のシミュレーションにおいて,これらのモデルの定量的評価を行い,トレーニングしたモデルが,インタラクション,人体サイズ,物体形状の異なる異なる異なるタスクにまたがって一般化できることを実証した。 また、実世界の移動マニピュレータを用いて、シミュレーション学習したモデルを用いて、布を用いて物理的に補助作業を行いながら、応用接触力を推定した。 ビデオはプロジェクトのWebページにある。

Robotic manipulation of highly deformable cloth presents a promising opportunity to assist people with several daily tasks, such as washing dishes; folding laundry; or dressing, bathing, and hygiene assistance for individuals with severe motor impairments. In this work, we introduce a formulation that enables a collaborative robot to perform visual haptic reasoning with cloth -- the act of inferring the location and magnitude of applied forces during physical interaction. We present two distinct model representations, trained in physics simulation, that enable haptic reasoning using only visual and robot kinematic observations. We conducted quantitative evaluations of these models in simulation for robot-assisted dressing, bathing, and dish washing tasks, and demonstrate that the trained models can generalize across different tasks with varying interactions, human body sizes, and object shapes. We also present results with a real-world mobile manipulator, which used our simulation-trained models to estimate applied contact forces while performing physically assistive tasks with cloth. Videos can be found at our project webpage.
翻訳日:2022-08-12 13:35:37 公開日:2022-08-11
# ROC:Lyric-to-Melody生成の新しいパラダイム

ROC: A New Paradigm for Lyric-to-Melody Generation ( http://arxiv.org/abs/2208.05697v1 )

ライセンス: Link先を確認
Ang Lv, Xu Tan, Tao Qin, Tie-Yan Liu, Rui Yan(参考訳) 歌詞からメロディーへの生成は、曲の書き方において重要な課題であり、その特徴から非常に困難である: 生成されたメロディーは、優れた音楽パターンに従うだけでなく、リズムや構造といった歌詞の特徴とも一致すべきである。 これらの特徴は,(1)リリック-メロディ特徴のアライメントを十分に学習するためのアライメントされたリリック-メロディ訓練データの欠如,(2)リリック-メロディ特徴のアライメントを明示的に保証するための生成制御性の欠如,といった問題から,エンドツーエンドでリリック-メロディマッピングを学習するニューラルジェネレーションモデルではうまく扱えない。 本稿では,この問題に対処するLyric-to-Meody生成の新たなパラダイムであるROCを提案する。 Specifically, our paradigm has two stages: (1) creation stage, where a huge amount of music pieces are generated by a neural-based melody language model and indexed in a database through several key features (e.g., chords, tonality, rhythm, and structural information including chorus or verse); (2) re-creation stage, where melodies are recreated by retrieving music pieces from the database according to the key features from lyrics and concatenating best music pieces based on composition guidelines and melody language model scores. われわれのROCパラダイムにはいくつかの利点がある: 1) 前モデルでペア化された歌詞-メロディデータではなく、メロディ言語モデルを訓練するためには、メロディのないメロディデータのみが必要である。 2) 歌詞からメロディ生成に優れた歌詞・メロディ特徴アライメントを実現する。 英語と中国語のデータセットの実験では、ROCは従来のニューラルネットワークによる歌詞からメロディ生成モデルよりも客観的、主観的の両方で優れていた。

Lyric-to-melody generation is an important task in songwriting, and is also quite challenging due to its distinctive characteristics: the generated melodies should not only follow good musical patterns, but also align with features in lyrics such as rhythms and structures. These characteristics cannot be well handled by neural generation models that learn lyric-to-melody mapping in an end-to-end way, due to several issues: (1) lack of aligned lyric-melody training data to sufficiently learn lyric-melody feature alignment; (2) lack of controllability in generation to explicitly guarantee the lyric-melody feature alignment. In this paper, we propose ROC, a new paradigm for lyric-to-melody generation that addresses the above issues through a generation-retrieval pipeline. Specifically, our paradigm has two stages: (1) creation stage, where a huge amount of music pieces are generated by a neural-based melody language model and indexed in a database through several key features (e.g., chords, tonality, rhythm, and structural information including chorus or verse); (2) re-creation stage, where melodies are recreated by retrieving music pieces from the database according to the key features from lyrics and concatenating best music pieces based on composition guidelines and melody language model scores. Our ROC paradigm has several advantages: (1) It only needs unpaired melody data to train melody language model, instead of paired lyric-melody data in previous models. (2) It achieves good lyric-melody feature alignment in lyric-to-melody generation. Experiments on English and Chinese datasets demonstrate that ROC outperforms previous neural based lyric-to-melody generation models on both objective and subjective metrics.
翻訳日:2022-08-12 13:35:18 公開日:2022-08-11
# Cine-AI:人間ディレクターのスタイルでゲームカットシーンを生成する

Cine-AI: Generating Video Game Cutscenes in the Style of Human Directors ( http://arxiv.org/abs/2208.05701v1 )

ライセンス: Link先を確認
Inan Evin, Perttu H\"am\"al\"ainen, Christian Guckelsberger(参考訳) カットシーンは多くのビデオゲームに不可欠な部分を形成するが、制作にはコストがかかり、時間もかかり、多くのゲーム開発者が欠落するスキルを必要とする。 AIは半自動カットステン生産に活用されているが、その結果は通常、プロの人間ディレクターに特徴的なスタイルにおける内部の一貫性と統一性を欠いている。 この欠点を克服するために、cine-aiはオープンソースのプロシーデュラル撮影ツールセットで、人間監督のスタイルでゲーム内カットシーンを生成できる。 人気ゲームエンジンのUnityで実装されたCine-AIは、ランタイムシネマトグラフィー自動化と合わせて、デザイン・タイム操作のための新しいタイムラインとストーリーボードインターフェースを備えている。 Cine-AIは2つのユーザスタディにおいて,それぞれ定量的,定性的な尺度を用いて,目標監督と正しく関連付けられたカットシーンを生成しながら,平均的ユーザビリティを提供することを示した。 当社のディレクター模倣データセットは公開されており、ユーザや映画愛好家によって拡張可能です。

Cutscenes form an integral part of many video games, but their creation is costly, time-consuming, and requires skills that many game developers lack. While AI has been leveraged to semi-automate cutscene production, the results typically lack the internal consistency and uniformity in style that is characteristic of professional human directors. We overcome this shortcoming with Cine-AI, an open-source procedural cinematography toolset capable of generating in-game cutscenes in the style of eminent human directors. Implemented in the popular game engine Unity, Cine-AI features a novel timeline and storyboard interface for design-time manipulation, combined with runtime cinematography automation. Via two user studies, each employing quantitative and qualitative measures, we demonstrate that Cine-AI generates cutscenes that people correctly associate with a target director, while providing above-average usability. Our director imitation dataset is publicly available, and can be extended by users and film enthusiasts.
翻訳日:2022-08-12 13:34:45 公開日:2022-08-11
# マルチクラス予測器におけるフィットメトリックの良さ

Goodness of Fit Metrics for Multi-class Predictor ( http://arxiv.org/abs/2208.05651v1 )

ライセンス: Link先を確認
Uri Itai, Natan Katz(参考訳) マルチクラス予測は近年人気を博している。 したがって、適合性を測定することは、研究者がしばしば取り組まなければならない基本的な問題となる。 いくつかのメトリクスがこのタスクに一般的に使用される。 しかしながら、適切な測定方法を決定する必要がある場合、異なるユースケースが、この決定を統制する異なる制約を課すと考慮しなければなりません。 少なくとも \emph{real world} のマルチクラス問題における主要な制約は不均衡データである。 したがって、一般的なKPI(例えば精度-感度または精度)を観測すると、得られた数値をモデルの実ニーズにほとんど解釈できない。 マシューの相関係数を多次元に一般化する。 この一般化は一般化された混乱行列の幾何学的解釈に基づいている。

The multi-class prediction had gained popularity over recent years. Thus measuring fit goodness becomes a cardinal question that researchers often have to deal with. Several metrics are commonly used for this task. However, when one has to decide about the right measurement, he must consider that different use-cases impose different constraints that govern this decision. A leading constraint at least in \emph{real world} multi-class problems is imbalanced data: Multi categorical problems hardly provide symmetrical data. Hence, when we observe common KPIs (key performance indicators), e.g., Precision-Sensitivity or Accuracy, one can seldom interpret the obtained numbers into the model's actual needs. We suggest generalizing Matthew's correlation coefficient into multi-dimensions. This generalization is based on a geometrical interpretation of the generalized confusion matrix.
翻訳日:2022-08-12 13:31:04 公開日:2022-08-11
# WVA構造問題に関する実証的研究

Empirical investigations on WVA structural issues ( http://arxiv.org/abs/2208.05791v1 )

ライセンス: Link先を確認
Alexey Kutalev and Alisa Lapina(参考訳) 本稿では,ニューラルネットワークにおける破滅的忘れを克服する方法について,いくつかの問題に対する実証検証の結果を提示する。 まずはじめに、我々は、この話題に精通していない人のために、破滅的な忘れ方とそれを乗り越える方法の問題を詳細に説明する。 次に,本稿で紹介したWVA法の本質と限界について論じる。 さらに,重みの勾配や最適化ステップへのwva法の適用,この手法の最適減衰関数の選択,ニューラルネットワークの逐次学習におけるタスク数に応じた最適ハイパーパラメータの選択といった問題にも触れる。

In this paper we want to present the results of empirical verification of some issues concerning the methods for overcoming catastrophic forgetting in neural networks. First, in the introduction, we will try to describe in detail the problem of catastrophic forgetting and methods for overcoming it for those who are not yet familiar with this topic. Then we will discuss the essence and limitations of the WVA method which we presented in previous papers. Further, we will touch upon the issues of applying the WVA method to gradients or optimization steps of weights, choosing the optimal attenuation function in this method, as well as choosing the optimal hyper-parameters of the method depending on the number of tasks in sequential training of neural networks.
翻訳日:2022-08-12 13:30:51 公開日:2022-08-11
# HyperTime: 時系列のための暗黙のニューラル表現

HyperTime: Implicit Neural Representation for Time Series ( http://arxiv.org/abs/2208.05836v1 )

ライセンス: Link先を確認
Elizabeth Fons and Alejandro Sztrajman and Yousef El-laham and Alexandros Iosifidis and Svitlana Vyetrenko(参考訳) 暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。 一般的な近似器としてのロバスト性は、画像、音、三次元シーン表現など、様々なデータソースで示されている。 しかし、時系列データの表現と分析にこれらのアーキテクチャを活用することにはほとんど注意が払われていない。 本稿では,inrsを用いた時系列表現を解析し,復元精度と学習収束速度の観点から異なるアクティベーション関数を比較した。 本稿では,これらのネットワークを時系列のインプテーションに活用し,非変量データと多変量データの両方に適用する方法を示す。 最後に,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。 時系列にすべての周波数が保存されるように、FFTベースの損失をガイドトレーニングに導入する。 このネットワークは,INRとして時系列をエンコードすることができ,その埋め込みを補間して既存の時系列から新たな時系列を生成することができる。 データ拡張に使用することで生成手法を評価するとともに,現在最先端の時系列拡張手法と競合することを示す。

Implicit neural representations (INRs) have recently emerged as a powerful tool that provides an accurate and resolution-independent encoding of data. Their robustness as general approximators has been shown in a wide variety of data sources, with applications on image, sound, and 3D scene representation. However, little attention has been given to leveraging these architectures for the representation and analysis of time series data. In this paper, we analyze the representation of time series using INRs, comparing different activation functions in terms of reconstruction accuracy and training convergence speed. We show how these networks can be leveraged for the imputation of time series, with applications on both univariate and multivariate data. Finally, we propose a hypernetwork architecture that leverages INRs to learn a compressed latent representation of an entire time series dataset. We introduce an FFT-based loss to guide training so that all frequencies are preserved in the time series. We show that this network can be used to encode time series as INRs, and their embeddings can be interpolated to generate new time series from existing ones. We evaluate our generative method by using it for data augmentation, and show that it is competitive against current state-of-the-art approaches for augmentation of time series.
翻訳日:2022-08-12 13:30:41 公開日:2022-08-11
# 交通予測の不確かさの定量化:統一的アプローチ

Uncertainty Quantification for Traffic Forecasting: A Unified Approach ( http://arxiv.org/abs/2208.05875v1 )

ライセンス: Link先を確認
Weizhu Qian, Dalin Zhang, Yan Zhao, Kai Zheng, James J.Q. Yu(参考訳) 不確実性は時系列予測タスクに不可欠な考慮事項である。 本研究は,特に交通予測の不確かさの定量化に焦点をあてる。 これを実現するために, 深部空間不確実性定量(DeepSTUQ)を開発した。 まず,時空間モデルを用いて交通データの複雑な時空間相関をモデル化する。 その後,不均一なログ類似性を最大化する2つの独立したサブニューラルネットワークが開発され,アレエータ的不確実性が推定される。 認識的不確かさを推定するために,モンテカルロドロップアウト法と適応的重み平均再訓練法をそれぞれ統合することにより,変分推論と深部センシングの利点を組み合わせる。 最後に, 不確かさを推定するモデルの一般化能力を向上させるため, 温度スケーリングに基づく後処理校正手法を提案する。 4つの公開データセットについて広範な実験を行い,提案手法がポイント予測と不確実性定量化の両面で最先端手法を上回ることを示唆した。

Uncertainty is an essential consideration for time series forecasting tasks. In this work, we specifically focus on quantifying the uncertainty of traffic forecasting. To achieve this, we develop Deep Spatio-Temporal Uncertainty Quantification (DeepSTUQ), which can estimate both aleatoric and epistemic uncertainty. We first leverage a spatio-temporal model to model the complex spatio-temporal correlations of traffic data. Subsequently, two independent sub-neural networks maximizing the heterogeneous log-likelihood are developed to estimate aleatoric uncertainty. For estimating epistemic uncertainty, we combine the merits of variational inference and deep ensembling by integrating the Monte Carlo dropout and the Adaptive Weight Averaging re-training methods, respectively. Finally, we propose a post-processing calibration approach based on Temperature Scaling, which improves the model's generalization ability to estimate uncertainty. Extensive experiments are conducted on four public datasets, and the empirical results suggest that the proposed method outperforms state-of-the-art methods in terms of both point prediction and uncertainty quantification.
翻訳日:2022-08-12 13:30:21 公開日:2022-08-11
# ヘシアントレースの確率的推定器を用いたディープニューラルネットワークの規則化

Regularizing Deep Neural Networks with Stochastic Estimators of Hessian Trace ( http://arxiv.org/abs/2208.05924v1 )

ライセンス: Link先を確認
Yucong Liu and Shixing Yu and Tong Lin(参考訳) 本稿では,ヘッセンのトレースをペナルティ化したディープニューラルネットワークの新しい正規化手法を提案する。 この正規化子は、一般化誤差の最近の保証境界によって動機付けられる。 ハッチンソン法は行列のトレースのための古典的非バイアス推定法であるが、ディープラーニングモデルには非常に時間がかかる。 したがって,ハッチンソン法を効率的に実装するためのドロップアウト方式を提案する。 次に非線形力学系とフラット/シャープミニマの線形安定性との関係について考察する。 実験により,既存の正規化器やデータ拡張法であるヤコビアン,信頼度ペナルティ,ラベル平滑化,カットアウト,ミックスアップを上回った。

In this paper we develop a novel regularization method for deep neural networks by penalizing the trace of Hessian. This regularizer is motivated by a recent guarantee bound of the generalization error. Hutchinson method is a classical unbiased estimator for the trace of a matrix, but it is very time-consuming on deep learning models. Hence a dropout scheme is proposed to efficiently implements the Hutchinson method. Then we discuss a connection to linear stability of a nonlinear dynamical system and flat/sharp minima. Experiments demonstrate that our method outperforms existing regularizers and data augmentation methods, such as Jacobian, confidence penalty, and label smoothing, cutout and mixup.
翻訳日:2022-08-12 13:30:00 公開日:2022-08-11
# 確率的ミニマックス最適化における勾配を小さくするための近似最適アルゴリズム

Near-Optimal Algorithms for Making the Gradient Small in Stochastic Minimax Optimization ( http://arxiv.org/abs/2208.05925v1 )

ライセンス: Link先を確認
Lesi Chen, Luo Luo(参考訳) 滑らかなミニマックス最適化のための近定常点を求める問題について検討する。 最近提案された余剰アンカー勾配法 (EAG) は, 決定論的条件下での凸凹最小値問題の最適収束率を達成する。 しかし、確率最適化へのEAGの直接拡張は効率的ではない。 本稿では,Recursive Anchored IteratioN (RAIN)と呼ばれる新しい確率的アルゴリズムを設計する。 雨は,凸凹と強凸強凹のいずれにおいても,確率的ミニマックス最適化のための,oracle のほぼ最適確率的1次複雑性を達成することを示す。

We study the problem of finding a near-stationary point for smooth minimax optimization. The recent proposed extra anchored gradient (EAG) methods achieve the optimal convergence rate for the convex-concave minimax problem in deterministic setting. However, the direct extension of EAG to stochastic optimization is not efficient. In this paper, we design a novel stochastic algorithm called Recursive Anchored IteratioN (RAIN). We show that the RAIN achieves near-optimal stochastic first-order oracle complexity for stochastic minimax optimization in both convex-concave and strongly-convex-strongly-concave cases.
翻訳日:2022-08-12 13:29:48 公開日:2022-08-11
# ARM TrustZoneによる推論攻撃に対するフェデレーション学習システム

Shielding Federated Learning Systems against Inference Attacks with ARM TrustZone ( http://arxiv.org/abs/2208.05895v1 )

ライセンス: Link先を確認
Aghiles Ait Messaoud and Sonia Ben Mokhtar and Vlad Nitu and Valerio Shiavoni(参考訳) フェデレーション学習(federated learning, fl)は、ユーザの前提に個人データを保持しながら、マシンラーニングモデルをトレーニングするための新しい視点を開く。 具体的には、FLでは、モデルをユーザデバイスでトレーニングし、モデルの更新(すなわち勾配)のみを集約のために中央サーバに送信する。 しかし、近年公表されている勾配から個人データを漏洩させる推論攻撃の長いリストは、FLを大規模に導入するための効果的な保護メカニズムを考案する必要があることを強調している。 これらの攻撃をサーバ側で軽減するためのソリューションはあるが、クライアント側で実行される攻撃からユーザーを守るためにはほとんど行われていない。 この文脈では、クライアント側でのTrusted Execution Environments(TEE)の使用が最も提案されているソリューションです。 しかし、既存のフレームワーク(例えばDarkneTZ)は、複雑な攻撃や攻撃の組み合わせに対して効果的に防御するために、機械学習モデルの大部分をTEEに静的に配置する必要がある。 機械学習モデルのセンシティブなレイヤのみを静的または動的に保護するソリューションであるgradsecを提案する。これにより、ttbサイズとトレーニング時間の両方を、最先端の競合他社と比較して最大30%と56%削減することができる。

Federated Learning (FL) opens new perspectives for training machine learning models while keeping personal data on the users premises. Specifically, in FL, models are trained on the users devices and only model updates (i.e., gradients) are sent to a central server for aggregation purposes. However, the long list of inference attacks that leak private data from gradients, published in the recent years, have emphasized the need of devising effective protection mechanisms to incentivize the adoption of FL at scale. While there exist solutions to mitigate these attacks on the server side, little has been done to protect users from attacks performed on the client side. In this context, the use of Trusted Execution Environments (TEEs) on the client side are among the most proposing solutions. However, existing frameworks (e.g., DarkneTZ) require statically putting a large portion of the machine learning model into the TEE to effectively protect against complex attacks or a combination of attacks. We present GradSec, a solution that allows protecting in a TEE only sensitive layers of a machine learning model, either statically or dynamically, hence reducing both the TCB size and the overall training time by up to 30% and 56%, respectively compared to state-of-the-art competitors.
翻訳日:2022-08-12 13:28:56 公開日:2022-08-11
# 出力測定のみから物理を統治する学習

Learning governing physics from output only measurements ( http://arxiv.org/abs/2208.05609v1 )

ライセンス: Link先を確認
Tapas Tripura and Souvik Chakraborty(参考訳) 物理学をデータから取り出すことは、科学とテクノロジーの多くの分野において重要な課題である。 既存の方程式発見技術は入力測定と状態測定の両方に依存しているが、実際には出力測定のみにしかアクセスできない。 本稿では、出力のみから力学系の物理を学習する新しい枠組みを提案する。これは本質的に、物理発見問題を決定論的から確率的領域に移行させるものである。 提案手法は,入力を確率過程としてモデル化し,確率解析,スパース学習アルゴリズム,ベイズ統計の概念を融合する。 特に、スパイクとスラブの促進に先立ち、ベイズ法とユーラー・丸山スキームを組み合わせて、データから制御物理学を識別する。 結果のモデルは非常に効率的で、スパース、ノイズ、不完全な出力測定で動作する。 提案手法の有効性とロバスト性は,完全状態測定と部分状態測定の両方を含むいくつかの数値例で示される。 その結果,出力のみの測定から物理を識別する手法が提案される可能性が示唆された。

Extracting governing physics from data is a key challenge in many areas of science and technology. The existing techniques for equations discovery are dependent on both input and state measurements; however, in practice, we only have access to the output measurements only. We here propose a novel framework for learning governing physics of dynamical system from output only measurements; this essentially transfers the physics discovery problem from the deterministic to the stochastic domain. The proposed approach models the input as a stochastic process and blends concepts of stochastic calculus, sparse learning algorithms, and Bayesian statistics. In particular, we combine sparsity promoting spike and slab prior, Bayes law, and Euler Maruyama scheme to identify the governing physics from data. The resulting model is highly efficient and works with sparse, noisy, and incomplete output measurements. The efficacy and robustness of the proposed approach is illustrated on several numerical examples involving both complete and partial state measurements. The results obtained indicate the potential of the proposed approach in identifying governing physics from output only measurement.
翻訳日:2022-08-12 13:28:35 公開日:2022-08-11
# ディープフェイク検出のためのハイブリッドトランスネットワーク

Hybrid Transformer Network for Deepfake Detection ( http://arxiv.org/abs/2208.05820v1 )

ライセンス: Link先を確認
Sohail Ahmed Khan and Duc-Tien Dang-Nguyen(参考訳) ディープフェイク・メディアは、技術的知識を必要とせず、リアルに見えるディープフェイク・ビデオやイメージを生成できるツールやモバイルアプリが普及している。 近い将来、この技術分野のさらなる進歩により、ディープフェイクメディアの量と質も繁栄すると予想され、ディープフェイクメディアは、誤報/偽報を広めるための新しい実用的なツールとなる。 これらの懸念から、deepfakeメディア検出ツールの必要性が高まっている。 本研究では,ディープフェイク映像検出のための初期特徴融合戦略を用いたハイブリッドトランスネットワークを提案する。 本モデルでは,(1)XceptionNetと(2)EfficientNet-B4の2つの異なるCNNネットワークを用いて特徴抽出を行う。 FaceForensics++,DFDCベンチマーク上で,両機能抽出器と変換器をエンドツーエンドでトレーニングする。 我々のモデルは比較的単純なアーキテクチャであるが、FaceForensics++とDFDCベンチマークで評価すると、他の最先端のアプローチと同等の結果が得られる。 さらに,顔の切り欠きの増大やランダムな切り欠きの増大も提案する。 提案手法により,モデルの検出性能が向上し,オーバーフィッティングの低減が図られた。 それに加えて、我々のモデルは、かなり少ない量のデータから学習できることが示される。

Deepfake media is becoming widespread nowadays because of the easily available tools and mobile apps which can generate realistic looking deepfake videos/images without requiring any technical knowledge. With further advances in this field of technology in the near future, the quantity and quality of deepfake media is also expected to flourish, while making deepfake media a likely new practical tool to spread mis/disinformation. Because of these concerns, the deepfake media detection tools are becoming a necessity. In this study, we propose a novel hybrid transformer network utilizing early feature fusion strategy for deepfake video detection. Our model employs two different CNN networks, i.e., (1) XceptionNet and (2) EfficientNet-B4 as feature extractors. We train both feature extractors along with the transformer in an end-to-end manner on FaceForensics++, DFDC benchmarks. Our model, while having relatively straightforward architecture, achieves comparable results to other more advanced state-of-the-art approaches when evaluated on FaceForensics++ and DFDC benchmarks. Besides this, we also propose novel face cut-out augmentations, as well as random cut-out augmentations. We show that the proposed augmentations improve the detection performance of our model and reduce overfitting. In addition to that, we show that our model is capable of learning from considerably small amount of data.
翻訳日:2022-08-12 13:25:44 公開日:2022-08-11
# K-UNN:未学習ニューラルネットワークを用いたk空間補間

K-UNN: k-Space Interpolation With Untrained Neural Network ( http://arxiv.org/abs/2208.05827v1 )

ライセンス: Link先を確認
Zhuo-Xu Cui, Sen Jia, Qingyong Zhu, Congcong Liu, Zhilang Qiu, Yuanyuan Liu, Jing Cheng, Haifeng Wang, Yanjie Zhu and Dong Liang(参考訳) 近年,Untrained Neural Network (UNN) は,追加のフルサンプリングトレーニングデータを用いることなく,ランダムサンプリング軌道上でのMR画像再構成に十分な性能を示した。 しかし、既存のunnベースのアプローチでは、mr画像の物理前処理を完全には使用せず、いくつかの一般的なシナリオ(部分フーリエや正規サンプリングなど)では性能が低下し、再構成精度に関する理論的保証が欠如している。 このギャップを埋めるために、MR画像の3つの物理的先行(またはk空間データ)によって駆動される3重アーキテクチャを持つ特別設計のUNNを用いて、MRIの保護されたk空間補間法を提案する。 また,提案手法は補間したk空間データ精度の厳密な境界を保証する。 最後に, アブレーション実験により, 従来の手法よりもmr画像の物理前処理をより正確に特徴付けることができることを示した。 さらに, 実験により, 提案手法は従来の並列画像法や既存のUNNよりも一貫して優れており, 最先端の教師付きk空間深層学習法よりも優れていたことも確認された。

Recently, untrained neural networks (UNNs) have shown satisfactory performances for MR image reconstruction on random sampling trajectories without using additional full-sampled training data. However, the existing UNN-based approach does not fully use the MR image physical priors, resulting in poor performance in some common scenarios (e.g., partial Fourier, regular sampling, etc.) and the lack of theoretical guarantees for reconstruction accuracy. To bridge this gap, we propose a safeguarded k-space interpolation method for MRI using a specially designed UNN with a tripled architecture driven by three physical priors of the MR images (or k-space data), including sparsity, coil sensitivity smoothness, and phase smoothness. We also prove that the proposed method guarantees tight bounds for interpolated k-space data accuracy. Finally, ablation experiments show that the proposed method can more accurately characterize the physical priors of MR images than existing traditional methods. Additionally, under a series of commonly used sampling trajectories, experiments also show that the proposed method consistently outperforms traditional parallel imaging methods and existing UNNs, and even outperforms the state-of-the-art supervised-trained k-space deep learning methods in some cases.
翻訳日:2022-08-12 13:25:22 公開日:2022-08-11
# グラフ上の合同再構成分割

Joint reconstruction-segmentation on graphs ( http://arxiv.org/abs/2208.05834v1 )

ライセンス: Link先を確認
Jeremy Budd, Yves van Gennip, Jonas Latz, Simone Parisotto, and Carola-Bibiane Sch\"onlieb(参考訳) 実用的な画像分割タスクは、ノイズ、歪み、不完全な観測から再構成しなければならない画像に関するものである。 このような課題を解決するための最近のアプローチは、この再構築をセグメンテーションと共同で行うことである。 しかし、この研究はChan-Veseアルゴリズムのような比較的単純なセグメンテーション手法を用いている。 本稿では,近年注目されているグラフに基づくセグメンテーション手法を用いて,関節再建・セグメンテーションを行う手法を提案する。 合併症の原因は行列の大きさが大きいことであり,これらの合併症がどのように管理されるかを示す。 次に、我々のスキームの収束特性を分析する。 最後に,従来のグラフに基づくセグメンテーション文献からおなじみの ‘two cows' 画像の歪曲バージョン,ノイズの多いバージョン,ぼやけたバージョンに対して,このスキームを適用し,両ケースにおいて高精度セグメンテーションを実現する。 これらの結果は, 逐次的再構成・分割手法を用いて得られた手法と比較し, 再現精度や分割精度の点で, 提案手法が競合する, あるいは性能に優れることを示した。

Practical image segmentation tasks concern images which must be reconstructed from noisy, distorted, and/or incomplete observations. A recent approach for solving such tasks is to perform this reconstruction jointly with the segmentation, using each to guide the other. However, this work has so far employed relatively simple segmentation methods, such as the Chan--Vese algorithm. In this paper, we present a method for joint reconstruction-segmentation using graph-based segmentation methods, which have been seeing increasing recent interest. Complications arise due to the large size of the matrices involved, and we show how these complications can be managed. We then analyse the convergence properties of our scheme. Finally, we apply this scheme to distorted versions of ``two cows'' images familiar from previous graph-based segmentation literature, first to a highly noised version and second to a blurred version, achieving highly accurate segmentations in both cases. We compare these results to those obtained by sequential reconstruction-segmentation approaches, finding that our method competes with, or even outperforms, those approaches in terms of reconstruction and segmentation accuracy.
翻訳日:2022-08-12 13:24:46 公開日:2022-08-11
# シーン変化検出のための差分型自己教師付き事前学習

Differencing based Self-supervised pretraining for Scene Change Detection ( http://arxiv.org/abs/2208.05838v1 )

ライセンス: Link先を確認
Vijaya Raghavan T. Ramkumar, Elahe Arani, Bahram Zonooz(参考訳) 重要な知覚課題であるシーン変化検出(SCD)は、異なる時間に撮影されたシーンを比較して変化を特定する。 SCDは、照明のノイズの変化、季節変動、視点の違いにより、一対のビューで困難である。 ディープニューラルネットワークベースのソリューションでは,大量の注釈データが必要になります。 一方、大規模なデータセットからの転送学習はドメインシフトを引き起こす。 そこで,これらの課題に対処するために,特徴差分法を用いて変化領域に対応する識別表現を学習し,同時に,視点間の時間的不分散を強制することにより,雑音の変化に対処した新しい \textit{differencing self-supervised pretraining (dsp)} 法を提案する。 scdデータセットを用いた実験結果から,提案手法の有効性,特にカメラの視点と照明条件の違いが示された。 自己監督型Barlow Twinsと100万以上のラベル付き画像を使用する標準のImageNetプリトレーニングと比較すると、DSPは追加データを用いることなくそれを上回ることができる。 また, DSPの自然汚職に対する堅牢性, 分布変化, ラベル付きデータによる学習を実証した。

Scene change detection (SCD), a crucial perception task, identifies changes by comparing scenes captured at different times. SCD is challenging due to noisy changes in illumination, seasonal variations, and perspective differences across a pair of views. Deep neural network based solutions require a large quantity of annotated data which is tedious and expensive to obtain. On the other hand, transfer learning from large datasets induces domain shift. To address these challenges, we propose a novel \textit{Differencing self-supervised pretraining (DSP)} method that uses feature differencing to learn discriminatory representations corresponding to the changed regions while simultaneously tackling the noisy changes by enforcing temporal invariance across views. Our experimental results on SCD datasets demonstrate the effectiveness of our method, specifically to differences in camera viewpoints and lighting conditions. Compared against the self-supervised Barlow Twins and the standard ImageNet pretraining that uses more than a million additional labeled images, DSP can surpass it without using any additional data. Our results also demonstrate the robustness of DSP to natural corruptions, distribution shift, and learning under limited labeled data.
翻訳日:2022-08-12 13:24:26 公開日:2022-08-11
# MultiMatch: 半教師付きドメイン一般化のためのマルチタスク学習

MultiMatch: Multi-task Learning for Semi-supervised Domain Generalization ( http://arxiv.org/abs/2208.05853v1 )

ライセンス: Link先を確認
Lei Qi, Hongpeng Yang, Yinghuan Shi, Xin Geng(参考訳) ドメイン一般化(DG)は、ソースドメインのモデルを学習して、見えないターゲットドメインをうまく一般化することを目的としている。 これは大きな成功を収めたものの、既存の手法のほとんどは、実世界のアプリケーションでは時間がかかり高価であるソースドメインの全トレーニングサンプルのラベル情報を必要とする。 本稿では,各ソースドメインにいくつかのラベル情報が存在する半教師付きドメイン一般化(SSDG)タスクを解決する。 この課題に対処するために,我々はまず,マルチドメイン学習の理論を分析した。 1【ドメインギャップの影響の緩和・緩和】 2) モデルトレーニングに全サンプルを活用することで, ソース領域の一般化誤差を効果的に低減し, 擬似ラベルの品質向上を図る。 本稿では,マルチタスク学習フレームワークにfixmatchを拡張し,ssdgのための高品質な擬似ラベルを生成するマルチマッチを提案する。 具体的には、各トレーニングドメインをひとつのタスク(すなわちローカルタスク)として考慮し、すべてのトレーニングドメイン(すなわちグローバルタスク)を組み合わせることで、見えないテストドメインのために追加のタスクをトレーニングします。 マルチタスクフレームワークでは,個別のBNと分類器を各タスクに利用し,擬似ラベル処理中に異なるドメインからの干渉を効果的に緩和する。 また、フレームワーク内のほとんどのパラメータは共有されており、すべてのトレーニングサンプルで十分にトレーニングすることができる。 さらに、擬似ラベル精度とモデルの一般化をさらに高めるために、トレーニングおよびテスト中のグローバルタスクとローカルタスクから予測を融合する。 提案手法の有効性を検証し,いくつかのベンチマークDGデータセット上で既存の半教師付き手法とSSDG法より優れていることを示す。

Domain generalization (DG) aims at learning a model on source domains to well generalize on the unseen target domain. Although it has achieved great success, most of existing methods require the label information for all training samples in source domains, which is time-consuming and expensive in the real-world application. In this paper, we resort to solving the semi-supervised domain generalization (SSDG) task, where there are a few label information in each source domain. To address the task, we first analyze the theory of the multi-domain learning, which highlights that 1) mitigating the impact of domain gap and 2) exploiting all samples to train the model can effectively reduce the generalization error in each source domain so as to improve the quality of pseudo-labels. According to the analysis, we propose MultiMatch, i.e., extending FixMatch to the multi-task learning framework, producing the high-quality pseudo-label for SSDG. To be specific, we consider each training domain as a single task (i.e., local task) and combine all training domains together (i.e., global task) to train an extra task for the unseen test domain. In the multi-task framework, we utilize the independent BN and classifier for each task, which can effectively alleviate the interference from different domains during pseudo-labeling. Also, most of parameters in the framework are shared, which can be trained by all training samples sufficiently. Moreover, to further boost the pseudo-label accuracy and the model's generalization, we fuse the predictions from the global task and local task during training and testing, respectively. A series of experiments validate the effectiveness of the proposed method, and it outperforms the existing semi-supervised methods and the SSDG method on several benchmark DG datasets.
翻訳日:2022-08-12 13:24:04 公開日:2022-08-11
# 顔モフティング攻撃と顔画像品質 : モフティングと品質による教師なし検出の効果

Face Morphing Attacks and Face Image Quality: The Effect of Morphing and the Unsupervised Attack Detection by Quality ( http://arxiv.org/abs/2208.05864v1 )

ライセンス: Link先を確認
Biying Fu and Naser Damer(参考訳) モーフィング攻撃は、近年注目を集めているプレゼンテーション攻撃の一形態である。 モーフィック画像は、複数のidに対して正常に検証することができる。 したがって、この操作は、複数の人物に属することが確認される旅行や身分証明書の能力に深刻なセキュリティ上の問題を引き起こす。 以前の研究では、生成したモーフィング攻撃のリアルな外観を定量的に証明することを目的として、モーフィング攻撃画像の品質の問題に言及していた。 形態形成過程がボナフッ化物試料と比較した場合の知覚的画像品質と顔認識(FR)における画像有用性の両方に影響を及ぼす可能性が示唆された。 この理論を検討するため,本研究は,一般画像品質測定と顔画像有用性測定の両方を含む,顔画像品質に対するモーフィングの効果を広範囲に分析する。 この分析は1つのモーフィング技術に限らず、むしろ6つの異なるモーフィング技術と5つの異なるデータソースを10の異なる品質尺度で調べる。 この分析により, モルフィングアタックの品質スコアと, 一定の品質測定値で測定したボナフィデ試料との間に, 一貫した分離性が認められた。 さらに本研究は,この効果を生かして,品質スコアに基づいて非教師なしモーフィング攻撃検出(mad)を行う可能性について検討する。 本研究は,様々なモーフィング手法とボナfide源を用いた検出概念の一般化可能性を評価するために,intraおよびinter-dataset検出可能性を検討する。 最終結果は,MagFace や CNNNIQA などの品質指標のセットを用いて,正確な分類精度を70%以上で,教師なしおよび一般化MAD の実行が可能であることを指摘する。

Morphing attacks are a form of presentation attacks that gathered increasing attention in recent years. A morphed image can be successfully verified to multiple identities. This operation, therefore, poses serious security issues related to the ability of a travel or identity document to be verified to belong to multiple persons. Previous works touched on the issue of the quality of morphing attack images, however, with the main goal of quantitatively proofing the realistic appearance of the produced morphing attacks. We theorize that the morphing processes might have an effect on both, the perceptual image quality and the image utility in face recognition (FR) when compared to bona fide samples. Towards investigating this theory, this work provides an extensive analysis of the effect of morphing on face image quality, including both general image quality measures and face image utility measures. This analysis is not limited to a single morphing technique, but rather looks at six different morphing techniques and five different data sources using ten different quality measures. This analysis reveals consistent separability between the quality scores of morphing attack and bona fide samples measured by certain quality measures. Our study goes further to build on this effect and investigate the possibility of performing unsupervised morphing attack detection (MAD) based on quality scores. Our study looks intointra and inter-dataset detectability to evaluate the generalizability of such a detection concept on different morphing techniques and bona fide sources. Our final results point out that a set of quality measures, such as MagFace and CNNNIQA, can be used to perform unsupervised and generalized MAD with a correct classification accuracy of over 70%.
翻訳日:2022-08-12 13:23:35 公開日:2022-08-11
# 自然言語処理と機械学習アルゴリズムを用いたクロメート置換の探索

Searching for chromate replacements using natural language processing and machine learning algorithms ( http://arxiv.org/abs/2208.05672v1 )

ライセンス: Link先を確認
Shujing Zhao and Nick Birbilis(参考訳) ここ数年、新しい素材の探索に機械学習が使われるようになった。 多くの研究分野と同様に、知識の大多数はテキストとして出版され、研究と報告をまたがる統合的または統計的な分析に困難をもたらす。 このような課題には、量的情報を抽出できないことや、数値的でない情報の幅にアクセスすることが含まれる。 この問題に対処するために、自然言語処理(NLP)の適用は、これまでいくつかの研究で検討されてきた。 NLPでは、テキストの節への埋め込みとして知られる高次元ベクトルの割り当ては、単語間の構文的および意味的関係を保存する。 組み込みは機械学習アルゴリズムに依存しており、本研究では、以前他の人が検討した word2vec モデルと bert モデルを採用した。 この課題は、腐食防止分野におけるクロムの代替品の探索である。 8000万件以上のデータベースから, 腐食防食の話題に着目した5990件の論文を, NLPを用いて調査した。 本研究は,科学的文献の自動解釈から知識を抽出し,専門家による人間レベルの洞察を得ることが可能であることを示す。

The past few years has seen the application of machine learning utilised in the exploration of new materials. As in many fields of research - the vast majority of knowledge is published as text, which poses challenges in either a consolidated or statistical analysis across studies and reports. Such challenges include the inability to extract quantitative information, and in accessing the breadth of non-numerical information. To address this issue, the application of natural language processing (NLP) has been explored in several studies to date. In NLP, assignment of high-dimensional vectors, known as embeddings, to passages of text preserves the syntactic and semantic relationship between words. Embeddings rely on machine learning algorithms and in the present work, we have employed the Word2Vec model, previously explored by others, and the BERT model - applying them towards a unique challenge in materials engineering. That challenge is the search for chromate replacements in the field of corrosion protection. From a database of over 80 million records, a down-selection of 5990 papers focused on the topic of corrosion protection were examined using NLP. This study demonstrates it is possible to extract knowledge from the automated interpretation of the scientific literature and achieve expert human level insights.
翻訳日:2022-08-12 13:23:06 公開日:2022-08-11
# 階層的専門家の帯域問題に対する回帰分析

Regret Analysis for Hierarchical Experts Bandit Problem ( http://arxiv.org/abs/2208.05622v1 )

ライセンス: Link先を確認
Qihan Guo (1), Siwei Wang (1), Jun Zhu (1) ((1) Tsinghua University)(参考訳) 我々は、R層の専門家が存在する標準バンディット問題の拡張について研究する。 複数層の専門家は層ごとに選択層を作り、最後の層の専門家だけが腕を組むことができる。 学習方針の目標は、この階層的な専門家の設定における全後悔を最小限にすることである。 まず,全後悔が階層数とともに線形に増大するケースを分析した。 次に,すべての専門家がアッパー信頼境界(UCB)戦略を実践している場合に注目し,異なる状況下でいくつかのサブ線形上限を与える。 最後に, 階層的 UCB 構造の一般的なケースに対する後悔解析を支援する実験を設計し, 理論的結果の実用的意義を示す。 この記事では、合理的な階層的決定構造に関する多くの洞察を提供する。

We study an extension of standard bandit problem in which there are R layers of experts. Multi-layered experts make selections layer by layer and only the experts in the last layer can play arms. The goal of the learning policy is to minimize the total regret in this hierarchical experts setting. We first analyze the case that total regret grows linearly with the number of layers. Then we focus on the case that all experts are playing Upper Confidence Bound (UCB) strategy and give several sub-linear upper bounds for different circumstances. Finally, we design some experiments to help the regret analysis for the general case of hierarchical UCB structure and show the practical significance of our theoretical results. This article gives many insights about reasonable hierarchical decision structure.
翻訳日:2022-08-12 13:22:48 公開日:2022-08-11
# 弱教師付き異常検出のための識別ダイナミクス学習を用いた局所性認識型注意ネットワーク

Locality-aware Attention Network with Discriminative Dynamics Learning for Weakly Supervised Anomaly Detection ( http://arxiv.org/abs/2208.05636v1 )

ライセンス: Link先を確認
Yujiang Pu, Xiaoyu Wu(参考訳) ビデオ異常検出は、最近、弱監督下で複数のインスタンス学習タスクとして定式化され、各ビデオは、異常を含むか否かを決定するスニペットの袋として扱われる。 それまでの取り組みは主に、隣接するスニペットの変動を参照する時間的ダイナミクスをモデル化することなく、スニペット自体の識別に重点を置いていた。 そこで本研究では,2つの目的関数,すなわち動的ランク付け損失と動的アライメント損失の識別的ダイナミクス学習(DDL)手法を提案する。 前者は正の袋と負の袋の間のスコアのダイナミクスギャップを拡大し、後者はバッグ内の特徴のダイナミクスとスコアのダイナミクスを時間的にアライメントすることを目指している。 さらに, 局所性認識型注意ネットワーク(LA-Net)を構築し, グローバルな相関を捉え, スニペット間の位置嗜好を補正し, 因果畳み込みを伴う多層パーセプトロンで異常スコアを得る。 実験の結果,UCF-Crime と XD-Violence の2つのベンチマークにおいて,本手法が大幅な改善を達成していることがわかった。

Video anomaly detection is recently formulated as a multiple instance learning task under weak supervision, in which each video is treated as a bag of snippets to be determined whether contains anomalies. Previous efforts mainly focus on the discrimination of the snippet itself without modeling the temporal dynamics, which refers to the variation of adjacent snippets. Therefore, we propose a Discriminative Dynamics Learning (DDL) method with two objective functions, i.e., dynamics ranking loss and dynamics alignment loss. The former aims to enlarge the score dynamics gap between positive and negative bags while the latter performs temporal alignment of the feature dynamics and score dynamics within the bag. Moreover, a Locality-aware Attention Network (LA-Net) is constructed to capture global correlations and re-calibrate the location preference across snippets, followed by a multilayer perceptron with causal convolution to obtain anomaly scores. Experimental results show that our method achieves significant improvements on two challenging benchmarks, i.e., UCF-Crime and XD-Violence.
翻訳日:2022-08-12 13:20:05 公開日:2022-08-11
# 部分プールビューを用いた画像のキーポイント自動検出

Towards Automated Key-Point Detection in Images with Partial Pool View ( http://arxiv.org/abs/2208.05641v1 )

ライセンス: Link先を確認
T. J. Woinoski and I. V. Bajic(参考訳) スポーツ分析は、プロスポーツ組織や学術機関の間でも、最新の研究分野となっている。 このような分析の第一の目的は、スポーツ選手のパフォーマンスを測定可能で定量化できる方法で向上させることである。 この研究は、適切な水泳データを集める際に直面する課題を緩和することを目的としている。 過去の研究で、水泳選手の検出と追跡は可能であるが、課題がないわけではないことが示されている。 これらの課題には、プールのローカライゼーションとプールに対するスイマーの相対的な位置の決定がある。 この研究は、これらの課題の解決に2つの貢献をしている。 まず,水泳分析に関連する不変キーポイントを持つプールモデルを提案する。 第2に,プールビューが部分的である画像において,このようなキーポイントの検出可能性について検討する。

Sports analytics has been an up-and-coming field of research among professional sporting organizations and academic institutions alike. With the insurgence and collection of athlete data, the primary goal of such analysis is to improve athletes' performance in a measurable and quantifiable manner. This work is aimed at alleviating some of the challenges encountered in the collection of adequate swimming data. Past works on this subject have shown that the detection and tracking of swimmers is feasible, but not without challenges. Among these challenges are pool localization and determining the relative positions of the swimmers relative to the pool. This work presents two contributions towards solving these challenges. First, we present a pool model with invariant key-points relevant for swimming analytics. Second, we study the detectability of such key-points in images with partial pool view, which are challenging but also quite common in swimming race videos.
翻訳日:2022-08-12 13:19:43 公開日:2022-08-11
# ドロップアウトによる自己認識蒸留

Self-Knowledge Distillation via Dropout ( http://arxiv.org/abs/2208.05642v1 )

ライセンス: Link先を確認
Hyoje Lee, Yeachan Park, Hyun Seo, Myungjoo Kang(参考訳) パフォーマンスを高めるために、ディープニューラルネットワークは、膨大な計算とメモリコストを含むより深いネットワーク構造を必要とする。 この問題を緩和するため、自己知識蒸留法はモデル自体の内部知識を蒸留することによってモデルを標準化する。 従来の自己認識蒸留法は、さらなる訓練可能なパラメータを必要とするか、データに依存する。 本稿では,ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。 SD-Dropoutは、ドロップアウトサンプリングにより複数のモデルの後方分布を蒸留する。 このメソッドは、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作のみを必要とする。 さらに、この簡単な方法は、様々な自己知識蒸留手法と簡単に組み合わせることができる。 本研究におけるKL-分枝の前後効果に関する理論的,実験的解析を行った。 画像分類,物体検出,分布シフトといった様々な視覚課題に対する広範囲な実験により,提案手法が単一ネットワークの一般化を効果的に改善できることが実証された。 さらに, キャリブレーション性能, 対向ロバスト性, アウト・オブ・ディストリビューション検出能力も向上することを示した。

To boost the performance, deep neural networks require deeper or wider network structures that involve massive computational and memory costs. To alleviate this issue, the self-knowledge distillation method regularizes the model by distilling the internal knowledge of the model itself. Conventional self-knowledge distillation methods require additional trainable parameters or are dependent on the data. In this paper, we propose a simple and effective self-knowledge distillation method using a dropout (SD-Dropout). SD-Dropout distills the posterior distributions of multiple models through a dropout sampling. Our method does not require any additional trainable modules, does not rely on data, and requires only simple operations. Furthermore, this simple method can be easily combined with various self-knowledge distillation approaches. We provide a theoretical and experimental analysis of the effect of forward and reverse KL-divergences in our work. Extensive experiments on various vision tasks, i.e., image classification, object detection, and distribution shift, demonstrate that the proposed method can effectively improve the generalization of a single network. Further experiments show that the proposed method also improves calibration performance, adversarial robustness, and out-of-distribution detection ability.
翻訳日:2022-08-12 13:19:32 公開日:2022-08-11
# 移動可能な対向攻撃に対する注意空間における異種逆向摂動

Diverse Generative Adversarial Perturbations on Attention Space for Transferable Adversarial Attacks ( http://arxiv.org/abs/2208.05650v1 )

ライセンス: Link先を確認
Woo Jae Kim, Seunghoon Hong, and Sung-Eui Yoon(参考訳) トランスファービリティを改善した敵攻撃 - 既知のモデルで構築された敵の例が未知のモデルを騙す能力 - は、最近、その実用性から多くの注目を集めている。 それでも、既存の移動可能な攻撃は決定論的に摂動を発生させ、しばしば損失面の完全な探索に失敗し、結果として局所的な最適な状態に陥り、転送可能性の低下に悩まされる。 そこで本研究では,多彩な特徴を確率的に破壊し,伝達性を向上する Attentive-Diversity Attack (ADA) を提案する。 主に、さまざまなモデルで共有されるdisrupt universal機能に対するイメージの注意を揺るがします。 そして,局所視能の悪さを効果的に回避するために,これらの特徴を確率的に破壊し,移動可能な摂動の探索空間をより徹底的に探索する。 より具体的には、我々はジェネレータを使用して、入力潜時コードに依存する異なる方法で特徴を乱す逆の摂動を生成する。 また,本手法の有効性を実験的に検証し,その効果を実証した。 コードはhttps://github.com/wkim97/adaで入手できる。

Adversarial attacks with improved transferability - the ability of an adversarial example crafted on a known model to also fool unknown models - have recently received much attention due to their practicality. Nevertheless, existing transferable attacks craft perturbations in a deterministic manner and often fail to fully explore the loss surface, thus falling into a poor local optimum and suffering from low transferability. To solve this problem, we propose Attentive-Diversity Attack (ADA), which disrupts diverse salient features in a stochastic manner to improve transferability. Primarily, we perturb the image attention to disrupt universal features shared by different models. Then, to effectively avoid poor local optima, we disrupt these features in a stochastic manner and explore the search space of transferable perturbations more exhaustively. More specifically, we use a generator to produce adversarial perturbations that each disturbs features in different ways depending on an input latent code. Extensive experimental evaluations demonstrate the effectiveness of our method, outperforming the transferability of state-of-the-art methods. Codes are available at https://github.com/wkim97/ADA.
翻訳日:2022-08-12 13:19:14 公開日:2022-08-11
# PA-Seg:文脈正規化とクロス知識蒸留を用いた3次元医用画像分割のためのポイントアノテーションからの学習

PA-Seg: Learning from Point Annotations for 3D Medical Image Segmentation using Contextual Regularization and Cross Knowledge Distillation ( http://arxiv.org/abs/2208.05669v1 )

ライセンス: Link先を確認
Shuwei Zhai, Guotai Wang, Xiangde Luo, Qiang Yue, Kang Li, Shaoting Zhang(参考訳) 3次元医用画像セグメンテーションにおける畳み込みニューラルネットワーク(CNN)の成功は、時間と労働集約的なトレーニングのために、大量の注釈付き3Dボリュームに依存している。 本稿では,3次元医用画像におけるセグメンテーション対象を7点のみにアノテートし,2段階の弱教師付き学習フレームワークpa-segを設計する。 第1段階では,シードポイントを拡大するために測地距離変換を用い,より監視信号を提供する。 学習中の無注画像領域にさらに対処するために,マルチビュー条件付確率場(mcrf)ロスと分散最小化(vm)ロスという2つの文脈正規化戦略を提案する。 第2段階では、第1段階で事前学習されたモデルから得られた予測を擬似ラベルとして使用する。 擬似ラベルのノイズを克服するために,自己学習とクロスナレッジ蒸留(CKD)を組み合わせたセルフ・アンド・クロス・モニタリング(SCM)戦略を導入する。 前庭神経腫(VS)分節と脳腫瘍分節(BraTS)のための公開データセットの実験では、第1段階でトレーニングされたモデルが既存の最先端の教師付きアプローチを大きなマージンで上回り、追加トレーニングにSCMを使用した後、BraTSデータセットの完全教師付きモデルと比較して競争性能が向上することを示した。

The success of Convolutional Neural Networks (CNNs) in 3D medical image segmentation relies on massive fully annotated 3D volumes for training that are time-consuming and labor-intensive to acquire. In this paper, we propose to annotate a segmentation target with only seven points in 3D medical images, and design a two-stage weakly supervised learning framework PA-Seg. In the first stage, we employ geodesic distance transform to expand the seed points to provide more supervision signal. To further deal with unannotated image regions during training, we propose two contextual regularization strategies, i.e., multi-view Conditional Random Field (mCRF) loss and Variance Minimization (VM) loss, where the first one encourages pixels with similar features to have consistent labels, and the second one minimizes the intensity variance for the segmented foreground and background, respectively. In the second stage, we use predictions obtained by the model pre-trained in the first stage as pseudo labels. To overcome noises in the pseudo labels, we introduce a Self and Cross Monitoring (SCM) strategy, which combines self-training with Cross Knowledge Distillation (CKD) between a primary model and an auxiliary model that learn from soft labels generated by each other. Experiments on public datasets for Vestibular Schwannoma (VS) segmentation and Brain Tumor Segmentation (BraTS) demonstrated that our model trained in the first stage outperforms existing state-of-the-art weakly supervised approaches by a large margin, and after using SCM for additional training, the model can achieve competitive performance compared with the fully supervised counterpart on the BraTS dataset.
翻訳日:2022-08-12 13:18:55 公開日:2022-08-11
# 自己監督型視覚表現学習におけるモメンタムエンコーダの長所と短所について

On the Pros and Cons of Momentum Encoder in Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2208.05744v1 )

ライセンス: Link先を確認
Trung Pham, Chaoning Zhang, Axi Niu, Kang Zhang, Chang D. Yoo(参考訳) 指数移動平均 (Exponential moving Average, EMA) は、MoCoのような現代の自己教師型学習 (SSL) アプローチにおいて、性能向上に広く利用されている。 性能向上のために,SimCLRのようなモメンタフリーSSLフレームワークにそのようなモメンタブルをプラグインすることも実証した。 現代のSSLフレームワークの基本コンポーネントとして広く使われているが、勢いによるメリットはよく理解されていない。 その成功は少なくとも部分的には安定性の影響による可能性がある。 最初の試みでは、EMAがエンコーダの各部分にどのように影響するかを分析し、エンコーダの入力付近の部分が重要な役割を果たすのに対して、後者の部分は影響が大きいことを明らかにした。 エンコーダ内の各ブロックの出力に対する全体的な損失の勾配を監視することにより、最終層がバックプロパゲーション中に他の層よりも大きく変動する傾向、すなわち安定性の低下が観察される。 興味深いことに、SSLエンコーダの最終部分、すなわちプロジェクタにEMAを使用することで、ディープネットワークエンコーダに匹敵する、あるいは好ましいパフォーマンスが得られる。 提案するプロジェクタのみの運動量は、EMAの利点を維持するのに役立ち、ダブルフォワード計算を避ける。

Exponential Moving Average (EMA or momentum) is widely used in modern self-supervised learning (SSL) approaches, such as MoCo, for enhancing performance. We demonstrate that such momentum can also be plugged into momentum-free SSL frameworks, such as SimCLR, for a performance boost. Despite its wide use as a fundamental component in modern SSL frameworks, the benefit caused by momentum is not well understood. We find that its success can be at least partly attributed to the stability effect. In the first attempt, we analyze how EMA affects each part of the encoder and reveal that the portion near the encoder's input plays an insignificant role while the latter parts have much more influence. By monitoring the gradient of the overall loss with respect to the output of each block in the encoder, we observe that the final layers tend to fluctuate much more than other layers during backpropagation, i.e. less stability. Interestingly, we show that using EMA to the final part of the SSL encoder, i.e. projector, instead of the whole deep network encoder can give comparable or preferable performance. Our proposed projector-only momentum helps maintain the benefit of EMA but avoids the double forward computation.
翻訳日:2022-08-12 13:18:19 公開日:2022-08-11
# fdnerf: 顔再建と表情編集のための数発動的神経放射場

FDNeRF: Few-shot Dynamic Neural Radiance Fields for Face Reconstruction and Expression Editing ( http://arxiv.org/abs/2208.05751v1 )

ライセンス: Link先を確認
Jingbo Zhang, Xiaoyu Li, Ziyu Wan, Can Wang, Jing Liao(参考訳) 少数の動的画像に基づいて3次元顔の再構成と表現を可能とした最初のNeRF法であるFew-shot Dynamic Neural Radiance Field (FDNeRF)を提案する。 入力として高密度画像を必要とする既存の動的NeRFと異なり、単一のアイデンティティのためにのみモデル化できるため、少ないショット入力を持つ異なる人物間での顔再構成が可能となる。 静的シーンのモデリング用に設計された最新の数発のNeRFと比較して、提案したFDNeRFはビュー一貫性のない動的入力を受け入れ、任意の表情編集、すなわち入力を超える新しい表情の顔を生成する。 動的入力間の不整合に対処するために,2次元特徴空間において表現条件付きワーピングを行うためのよく設計された条件付き特徴ウォーピング(cfw)モジュールを導入する。 その結果、異なる表現の特徴がターゲットに変換される。 次に、これらのビュー一貫性のある特徴に基づいて放射場を構築し、ボリュームレンダリングを用いてモデル化された顔の新規なビューを合成する。 定量的・定性的評価による広範囲な実験により,3次元顔再構成と表情編集の両タスクにおいて,既存の動的および少数ショットのnrfを上回った。 私たちのコードとモデルは受け入れられるでしょう。

We propose a Few-shot Dynamic Neural Radiance Field (FDNeRF), the first NeRF-based method capable of reconstruction and expression editing of 3D faces based on a small number of dynamic images. Unlike existing dynamic NeRFs that require dense images as input and can only be modeled for a single identity, our method enables face reconstruction across different persons with few-shot inputs. Compared to state-of-the-art few-shot NeRFs designed for modeling static scenes, the proposed FDNeRF accepts view-inconsistent dynamic inputs and supports arbitrary facial expression editing, i.e., producing faces with novel expressions beyond the input ones. To handle the inconsistencies between dynamic inputs, we introduce a well-designed conditional feature warping (CFW) module to perform expression conditioned warping in 2D feature space, which is also identity adaptive and 3D constrained. As a result, features of different expressions are transformed into the target ones. We then construct a radiance field based on these view-consistent features and use volumetric rendering to synthesize novel views of the modeled faces. Extensive experiments with quantitative and qualitative evaluation demonstrate that our method outperforms existing dynamic and few-shot NeRFs on both 3D face reconstruction and expression editing tasks. Our code and model will be available upon acceptance.
翻訳日:2022-08-12 13:17:57 公開日:2022-08-11
# MixSKD:画像認識のためのMixupからの自己知識蒸留

MixSKD: Self-Knowledge Distillation from Mixup for Image Recognition ( http://arxiv.org/abs/2208.05768v1 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Helong Zhou, Linhang Cai, Xiang Zhi, Jiwen Wu, Yongjun Xu, Qian Zhang(参考訳) 従来の知識蒸留(KD)とは異なり、Self-KDはネットワークが余分なネットワークからのガイダンスなしで知識を学習することを可能にする。 本稿では,これら2つの手法を統合フレームワークに統合した画像混合(MixSKD)から自己KDを実行することを提案する。 MixSKDは、乱数対の原画像とそれらの混合画像との間の特徴写像と確率分布を有意に蒸留する。 そこで,混合画像からの監視信号のモデル化により,画像間知識の学習をネットワークに誘導する。 さらに,多段階特徴マップを集約して,バックボーン分類器を監督するソフトラベルを提供し,さらに自己ブーストの有効性を高めることで,自己教師ネットワークを構築する。 画像分類とオブジェクト検出とセマンティックセグメンテーションへの変換学習の実験は、MixSKDが他の最先端のSelf-KDおよびデータ拡張手法よりも優れていることを示した。 コードはhttps://github.com/winycg/self-kd-libで入手できる。

Unlike the conventional Knowledge Distillation (KD), Self-KD allows a network to learn knowledge from itself without any guidance from extra networks. This paper proposes to perform Self-KD from image Mixture (MixSKD), which integrates these two techniques into a unified framework. MixSKD mutually distills feature maps and probability distributions between the random pair of original images and their mixup images in a meaningful way. Therefore, it guides the network to learn cross-image knowledge by modelling supervisory signals from mixup images. Moreover, we construct a self-teacher network by aggregating multi-stage feature maps for providing soft labels to supervise the backbone classifier, further improving the efficacy of self-boosting. Experiments on image classification and transfer learning to object detection and semantic segmentation demonstrate that MixSKD outperforms other state-of-the-art Self-KD and data augmentation methods. The code is available at https://github.com/winycg/Self-KD-Lib.
翻訳日:2022-08-12 13:17:34 公開日:2022-08-11
# 自己ペーシング異常検出による教師なし顔モーフィング攻撃検出

Unsupervised Face Morphing Attack Detection via Self-paced Anomaly Detection ( http://arxiv.org/abs/2208.05787v1 )

ライセンス: Link先を確認
Meiling Fang and Fadi Boutros and Naser Damer(参考訳) 教師付き学習に基づくモーフィング攻撃検出(MAD)ソリューションは、既知のモーフィング技術や既知のデータソースからの攻撃に対処する上で、優れた成功を収めている。 しかし, モーフィング攻撃のバリエーションを考慮すると, 既存のMADデータセットの多様性と量不足により, 教師付きMADソリューションの性能は著しく低下する。 そこで本稿では,既存の大規模顔認識(FR)データセットと,畳み込みオートエンコーダの教師なし特性を活用することで,自己ペースト異常検出(SPL-MAD)による完全に教師なしのMADソリューションを提案する。 非意図的かつラベルなしの操作済みサンプルを含む一般的なfrデータセットを使用してオートエンコーダをトレーニングすることは、攻撃とボナファイドサンプルの多様な再構成行動につながる可能性がある。 我々は、この挙動を経験的に分析し、教師なしのMADソリューションを設計するための確かな理論的基盤を提供する。 これはまた、修正された自己評価学習パラダイムを統合し、完全に教師なしの方法でボナフィドとアタックサンプルの再構成誤り分離性を高めることを提案する。 多様なMAD評価データセットを用いた実験結果から,提案した無教師付きSPL-MADソリューションは,広範囲の教師付きMADソリューションの全体的な性能より優れ,未知の攻撃に対して高い一般化性を提供することが示された。

The supervised-learning-based morphing attack detection (MAD) solutions achieve outstanding success in dealing with attacks from known morphing techniques and known data sources. However, given variations in the morphing attacks, the performance of supervised MAD solutions drops significantly due to the insufficient diversity and quantity of the existing MAD datasets. To address this concern, we propose a completely unsupervised MAD solution via self-paced anomaly detection (SPL-MAD) by leveraging the existing large-scale face recognition (FR) datasets and the unsupervised nature of convolutional autoencoders. Using general FR datasets that might contain unintentionally and unlabeled manipulated samples to train an autoencoder can lead to a diverse reconstruction behavior of attack and bona fide samples. We analyze this behavior empirically to provide a solid theoretical ground for designing our unsupervised MAD solution. This also results in proposing to integrate our adapted modified self-paced learning paradigm to enhance the reconstruction error separability between the bona fide and attack samples in a completely unsupervised manner. Our experimental results on a diverse set of MAD evaluation datasets show that the proposed unsupervised SPL-MAD solution outperforms the overall performance of a wide range of supervised MAD solutions and provides higher generalizability on unknown attacks.
翻訳日:2022-08-12 13:17:03 公開日:2022-08-11
# ポイントワイズアノテーションを用いた病変検出のためのヒートマップ回帰

Heatmap Regression for Lesion Detection using Pointwise Annotations ( http://arxiv.org/abs/2208.05939v1 )

ライセンス: Link先を確認
Chelsea Myers-Colet, Julien Schroeter, Douglas L. Arnold, Tal Arbel(参考訳) 多くの臨床的文脈において、すべての病変を検出することは疾患活動を評価するのに不可欠である。 標準的アプローチは、セグメンテーションラベル取得の時間を要する性質にもかかわらず、セグメンテーション問題として病変検出を提起する。 本稿では,点ラベルのみに依存する病変検出手法を提案する。 熱マップ回帰を用いてトレーニングした本モデルでは, 確率論的手法により, 種々の病変を検出できる。 実際,提案手法は病変の存在不確かさを直接推定する信頼性の高い方法である。 gad病変検出実験の結果,本手法は高価なセグメンテーションラベルのトレーニングと比較し,比較評価を行った。 最後に,検出モデルはセグメント化に適した事前学習を提供する。 17のセグメンテーションサンプルのみを微調整すると、完全なデータセットによるトレーニングに匹敵するパフォーマンスが得られる。

In many clinical contexts, detecting all lesions is imperative for evaluating disease activity. Standard approaches pose lesion detection as a segmentation problem despite the time-consuming nature of acquiring segmentation labels. In this paper, we present a lesion detection method which relies only on point labels. Our model, which is trained via heatmap regression, can detect a variable number of lesions in a probabilistic manner. In fact, our proposed post-processing method offers a reliable way of directly estimating the lesion existence uncertainty. Experimental results on Gad lesion detection show our point-based method performs competitively compared to training on expensive segmentation labels. Finally, our detection model provides a suitable pre-training for segmentation. When fine-tuning on only 17 segmentation samples, we achieve comparable performance to training with the full dataset.
翻訳日:2022-08-12 13:14:32 公開日:2022-08-11
# ドラフト、コマンド、編集:Eコマースにおける制御可能なテキスト編集

Draft, Command, and Edit: Controllable Text Editing in E-Commerce ( http://arxiv.org/abs/2208.05623v1 )

ライセンス: Link先を確認
Kexin Yang, Dayiheng Liu, Wenqiang Lei, Baosong Yang, Qian Qu, Jiancheng Lv(参考訳) 製品記述生成は難しく、未調査の課題です。 そのような作業の多くは、入力として製品属性のセットを受け取り、1回のパスでスクラッチから記述を生成する。 しかし、この広範なパラダイムは、前バージョンに基づいたユーザ指定属性の内容の削除や追加など、記述を制約するユーザの動的な欲求に直面する場合に制限される可能性がある。 この課題に対処するため、記述生成における新しいドラフトコマンド編集手法を探求し、eコマースにおいて新しいタスク制御可能なテキスト編集を提案する。 より具体的には、システムはユーザーからコマンド(削除または追加)を受け取り、前バージョンに基づいてコンテンツを柔軟に変更することで記述を生成することができる。 スクラッチから生成するよりも、以前のバージョンを変更することで、新しいニーズを満たすのが簡単で実用的です。 さらに,人間による編集を模倣するモデルベースとルールベースの戦略を含む,この課題における低リソース課題を緩和するためのデータ拡張手法を設計する。 このタスクに対応するために、E-cEditsと呼ばれる人書きのドラフトコマンド編集データセットと、新しいメトリクス"Attribute Edit"を提案する。 実験の結果,新しいデータ拡張手法は,自動評価と人的評価の両方において,ベースラインをはるかに上回っていることがわかった。

Product description generation is a challenging and under-explored task. Most such work takes a set of product attributes as inputs then generates a description from scratch in a single pass. However, this widespread paradigm might be limited when facing the dynamic wishes of users on constraining the description, such as deleting or adding the content of a user-specified attribute based on the previous version. To address this challenge, we explore a new draft-command-edit manner in description generation, leading to the proposed new task-controllable text editing in E-commerce. More specifically, we allow systems to receive a command (deleting or adding) from the user and then generate a description by flexibly modifying the content based on the previous version. It is easier and more practical to meet the new needs by modifying previous versions than generating from scratch. Furthermore, we design a data augmentation method to remedy the low resource challenge in this task, which contains a model-based and a rule-based strategy to imitate the edit by humans. To accompany this new task, we present a human-written draft-command-edit dataset called E-cEdits and a new metric "Attribute Edit". Our experimental results show that using the new data augmentation method outperforms baselines to a greater extent in both automatic and human evaluations.
翻訳日:2022-08-12 13:14:01 公開日:2022-08-11
# ctc 2021の概要 : 中国語母語話者に対するテキスト訂正

Overview of CTC 2021: Chinese Text Correction for Native Speakers ( http://arxiv.org/abs/2208.05681v1 )

ライセンス: Link先を確認
Honghong Zhao, Baoxin Wang, Dayong Wu, Wanxiang Che, Zhigang Chen, Shijin Wang(参考訳) 本稿では,母語話者のための中国語テキスト修正タスクであるCTC 2021の概要について述べる。 本稿では,タスク定義とトレーニング用データ,評価について詳述する。 また,本課題の参加者によるアプローチについてもまとめる。 このタスクのために収集および注釈付けされたデータセットが、この研究領域における将来の発展を促進および促進することを願っている。 したがって、疑似トレーニングデータ、ゴールド標準検証データ、リーダーボード全体はhttps://destwang.github.io/ctc2021-explorer/で公開されている。

In this paper, we present an overview of the CTC 2021, a Chinese text correction task for native speakers. We give detailed descriptions of the task definition and the data for training as well as evaluation. We also summarize the approaches investigated by the participants of this task. We hope the data sets collected and annotated for this task can facilitate and expedite future development in this research area. Therefore, the pseudo training data, gold standards validation data, and entire leaderboard is publicly available online at https://destwang.github.io/CTC2021-explorer/.
翻訳日:2022-08-12 13:13:40 公開日:2022-08-11
# 合成のエンドツーエンド構成モデルとしてのユニタリRNNの評価

Assessing the Unitary RNN as an End-to-End Compositional Model of Syntax ( http://arxiv.org/abs/2208.05719v1 )

ライセンス: Link先を確認
Jean-Philippe Bernardy (University of Gothenburg), Shalom Lappin (University of Gothenburg, Queen Mary University of London, and King's College London)(参考訳) LSTMとユニタリ進化リカレントニューラルネットワーク(URN)は,文脈のない長距離一致と,文脈に敏感なクロスシリアル依存関係という,2種類の構文パターンにおいて,高い精度を達成可能であることを示す。 この研究は、nested context-free long distance dependencyに関する最近の実験を拡張し、同様の結果を示している。 URNは非線形活性化関数を避け、ユニタリ行列として符号化された単語埋め込みに行列乗法を適用するという点でLSTMとは異なる。 これにより、任意の距離にわたって入力文字列の処理に全ての情報を保持することができる。 また、厳密な構成性も満足させる。 urnはnlpに適用された深層学習における説明可能なモデルの探索において重要な進歩である。

We show that both an LSTM and a unitary-evolution recurrent neural network (URN) can achieve encouraging accuracy on two types of syntactic patterns: context-free long distance agreement, and mildly context-sensitive cross serial dependencies. This work extends recent experiments on deeply nested context-free long distance dependencies, with similar results. URNs differ from LSTMs in that they avoid non-linear activation functions, and they apply matrix multiplication to word embeddings encoded as unitary matrices. This permits them to retain all information in the processing of an input string over arbitrary distances. It also causes them to satisfy strict compositionality. URNs constitute a significant advance in the search for explainable models in deep learning applied to NLP.
翻訳日:2022-08-12 13:13:30 公開日:2022-08-11
# デジタル・ディセプションからみた自然言語生成の進展に関する総合的調査

A Comprehensive Survey of Natural Language Generation Advances from the Perspective of Digital Deception ( http://arxiv.org/abs/2208.05757v1 )

ライセンス: Link先を確認
Keenan Jones, Enes Altuncu, Virginia N. L. Franqueira, Yichao Wang and Shujun Li(参考訳) 近年,人間の言葉の流布やコヒーレンスを模倣するテキストを生成するように設計されたシステムの能力が著しく成長している。 このことから、これらの自然言語生成器(nlg)の様々なタスクへの潜在的な利用を調べることを目的とした研究が数多く行われている。 人間の文章を模倣する強力なテキスト生成器の能力の増大は、騙しやその他の危険な誤用の可能性を高める。 これらのシステムが改良され、人書きテキストと機械生成テキストの区別がさらに難しくなるにつれ、悪意のあるアクターは、偽ニュースや誤報の作成、偽のオンライン製品レビューの生成、あるいはユーザーが個人情報を漏らし出すためのチャットボットなど、これらの強力なNLGシステムを広範囲に活用することができる。 本稿では,NLG研究に焦点をあてた119のサーベイライクな論文の同定と検証を通じて,NLG分野の概要を述べる。 これらの特定論文から,汎用NLGシステムの開発に使用される手法,これらのシステムの評価方法,一般的なNLGタスクやサブタスクなどを含む,NLGを構成する中心概念の高レベルな分類について概説する。 そこで本研究では,これら各項目の概要と議論を行い,これらの脅威に対処する詐欺・検知システムにおけるNLGの潜在的な役割について検討する。 さらに,既存のテキスト生成システムでしばしば現れるバイアスのリスクを含む,NLGの広範な課題についても論じる。 この研究は、この急速に発展する研究領域の高レベルな理解を提供することを目的として、その誤用の可能性に関して、NLGの分野の幅広い概要を提供する。

In recent years there has been substantial growth in the capabilities of systems designed to generate text that mimics the fluency and coherence of human language. From this, there has been considerable research aimed at examining the potential uses of these natural language generators (NLG) towards a wide number of tasks. The increasing capabilities of powerful text generators to mimic human writing convincingly raises the potential for deception and other forms of dangerous misuse. As these systems improve, and it becomes ever harder to distinguish between human-written and machine-generated text, malicious actors could leverage these powerful NLG systems to a wide variety of ends, including the creation of fake news and misinformation, the generation of fake online product reviews, or via chatbots as means of convincing users to divulge private information. In this paper, we provide an overview of the NLG field via the identification and examination of 119 survey-like papers focused on NLG research. From these identified papers, we outline a proposed high-level taxonomy of the central concepts that constitute NLG, including the methods used to develop generalised NLG systems, the means by which these systems are evaluated, and the popular NLG tasks and subtasks that exist. In turn, we provide an overview and discussion of each of these items with respect to current research and offer an examination of the potential roles of NLG in deception and detection systems to counteract these threats. Moreover, we discuss the broader challenges of NLG, including the risks of bias that are often exhibited by existing text generation systems. This work offers a broad overview of the field of NLG with respect to its potential for misuse, aiming to provide a high-level understanding of this rapidly developing area of research.
翻訳日:2022-08-12 13:13:17 公開日:2022-08-11
# 機械翻訳のためのドメイン特化テキスト生成

Domain-Specific Text Generation for Machine Translation ( http://arxiv.org/abs/2208.05909v1 )

ライセンス: Link先を確認
Yasmin Moslem, Rejwanul Haque, John D. Kelleher, Andy Way(参考訳) 翻訳ワークフローでは、ソースからターゲットへのドメイン知識の保存が重要です。 翻訳業界では、ドメイン内データの並列性がほとんどない高度に専門的なプロジェクトを受けるのが一般的である。 微調整機械翻訳(mt)モデルに対するドメイン内データ不足のシナリオでは、関連する文脈に整合した翻訳を生成するのは困難である。 本研究では,mtのドメイン特化データ拡張のための最先端事前学習言語モデル(lms)を活用したドメイン適応手法を提案し,そのドメイン特性をシミュレーションする。 (a)小型のバイリンガルデータセット、又は (b)翻訳すべき単言語源文。 このアイデアとバックトランスレーションを組み合わせることで、両方のユースケースで膨大な量の合成バイリンガルインドメインデータを生成することができる。 調査には最先端のTransformerアーキテクチャを使用します。 我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いる。 具体的には、アラビア語と英語とアラビア語の組み合わせで、それぞれ約5-6 BLEUと2-3 BLEUの改善を実現している。 さらに、人的評価の結果は、自動評価結果の裏付けとなる。

Preservation of domain knowledge from the source to target is crucial in any translation workflow. It is common in the translation industry to receive highly specialized projects, where there is hardly any parallel in-domain data. In such scenarios where there is insufficient in-domain data to fine-tune Machine Translation (MT) models, producing translations that are consistent with the relevant context is challenging. In this work, we propose a novel approach to domain adaptation leveraging state-of-the-art pretrained language models (LMs) for domain-specific data augmentation for MT, simulating the domain characteristics of either (a) a small bilingual dataset, or (b) the monolingual source text to be translated. Combining this idea with back-translation, we can generate huge amounts of synthetic bilingual in-domain data for both use cases. For our investigation, we use the state-of-the-art Transformer architecture. We employ mixed fine-tuning to train models that significantly improve translation of in-domain texts. More specifically, in both scenarios, our proposed methods achieve improvements of approximately 5-6 BLEU and 2-3 BLEU, respectively, on the Arabic-to-English and English-to-Arabic language pairs. Furthermore, the outcome of human evaluation corroborates the automatic evaluation results.
翻訳日:2022-08-12 13:12:49 公開日:2022-08-11
# 多変量縦型内因性共変量の競合リスクに対するランダムサバイバルフォレスト

Random survival forests for competing risks with multivariate longitudinal endogenous covariates ( http://arxiv.org/abs/2208.05801v1 )

ライセンス: Link先を確認
Anthony Devaux (BPH), Catherine Helmer (BPH), Carole Dufouil (BPH), Robin Genuer (BPH, SISTM), C\'ecile Proust-Lima (BPH)(参考訳) パーソナライズドメディカル・メディカルの課題は, 完全患者履歴を用いて臨床イベントの個人的リスクを予測することである。 個々の動的予測を計算するために開発された手法のうち、統合モデルは、ドロップアウトを計算しながら利用可能な全ての情報を使用する資産を持っている。 しかし、それらは非常に少数の縦予測器に制限されている。 本研究の目的は,多数の長手予測器を用いて事象の確率を予測する革新的な代替手法を提案することである。 内因性経年的予測を担っている競合リスクに対するランダムサバイバル・フォレストの拡張であるdynforestを開発した。 木の各ノードでは、時間依存予測器を(混合モデルを用いて)時間固定特徴に変換し、対象を2つのサブグループに分割する候補として使用する。 個々の事象確率は、予測者の履歴に基づいて分類された葉のAalen-Johansen推定器によって各木で推定される。 最終個々の予測は、ツリー固有の個々の事象確率の平均によって与えられる。 本研究では,dynforestの性能を(ジョイントモデルと比較して)小次元の文脈と大次元の文脈で(情報的落下を無視する回帰キャリブレーション法と比較して)実証するシミュレーションを行った。 DynForestも適用しました。 (i)認知・機能・血管・神経変性マーカーの繰り返し測定による高齢者の認知症発症確率の予測 (II)認知症予測における各種類のマーカーの重要性を定量化する。 rパッケージdynforestに実装されたこの手法は、その数が何であれ、縦型内因性予測者からイベントを予測するためのソリューションを提供する。

Predicting the individual risk of a clinical event using the complete patient history is still a major challenge for personalized medicine. Among the methods developed to compute individual dynamic predictions, the joint models have the assets of using all the available information while accounting for dropout. However, they are restricted to a very small number of longitudinal predictors. Our objective was to propose an innovative alternative solution to predict an event probability using a possibly large number of longitudinal predictors. We developed DynForest, an extension of random survival forests for competing risks that handles endogenous longitudinal predictors. At each node of the trees, the time-dependent predictors are translated into time-fixed features (using mixed models) to be used as candidates for splitting the subjects into two subgroups. The individual event probability is estimated in each tree by the Aalen-Johansen estimator of the leaf in which the subject is classified according to his/her history of predictors. The final individual prediction is given by the average of the tree-specific individual event probabilities. We carried out a simulation study to demonstrate the performances of DynForest both in a small dimensional context (in comparison with joint models) and in a large dimensional context (in comparison with a regression calibration method that ignores informative dropout). We also applied DynForest to (i) predict the individual probability of dementia in the elderly according to repeated measures of cognitive, functional, vascular and neuro-degeneration markers, and (ii) quantify the importance of each type of markers for the prediction of dementia. Implemented in the R package DynForest, our methodology provides a solution for the prediction of events from longitudinal endogenous predictors whatever their number.
翻訳日:2022-08-12 13:12:23 公開日:2022-08-11
# リカレントスタイルGANベースジェネレータによる言語誘導顔アニメーション

Language-Guided Face Animation by Recurrent StyleGAN-based Generator ( http://arxiv.org/abs/2208.05617v1 )

ライセンス: Link先を確認
Tiankai Hang, Huan Yang, Bei Liu, Jianlong Fu, Xin Geng, Baining Guo(参考訳) 言語誘導画像操作に関する最近の研究は、特に顔画像に対するリッチセマンティクスの提供において、言語が持つ大きな力を示している。 しかし、他の自然情報、動き、言語での探索は少ない。 本稿では,動き情報を活用し,言語を用いて静的顔画像のアニメーション化を目的とした新しいタスクである言語誘導顔アニメーションについて検討する。 言語からのセマンティクスと動作の両面をよりよく活用するために,我々はシンプルで効果的なフレームワークを提案する。 具体的には,言語から一連の意味・動作情報を抽出し,事前学習したスタイルガンに視覚情報と共に供給し,高品質なフレームを生成するリカレントモーションジェネレータを提案する。 提案手法を最適化するために,顔の同一性を維持するための正規化損失,動きの平滑性を確保するための経路長正規化損失,1つのモデルで様々な言語指導によるビデオ合成を可能にするコントラスト的損失を含む3つの注意深く設計された損失関数を提案する。 様々な領域の質的・定量的な評価(例えば、人間の顔、アニメの顔、犬の顔)による広範にわたる実験は、言語指導による静止画像から高品質でリアルな映像を生成する上で、我々のモデルの優位性を実証している。 コードはhttps://github.com/tiankaihang/language-guided-animation.gitで入手できる。

Recent works on language-guided image manipulation have shown great power of language in providing rich semantics, especially for face images. However, the other natural information, motions, in language is less explored. In this paper, we leverage the motion information and study a novel task, language-guided face animation, that aims to animate a static face image with the help of languages. To better utilize both semantics and motions from languages, we propose a simple yet effective framework. Specifically, we propose a recurrent motion generator to extract a series of semantic and motion information from the language and feed it along with visual information to a pre-trained StyleGAN to generate high-quality frames. To optimize the proposed framework, three carefully designed loss functions are proposed including a regularization loss to keep the face identity, a path length regularization loss to ensure motion smoothness, and a contrastive loss to enable video synthesis with various language guidance in one single model. Extensive experiments with both qualitative and quantitative evaluations on diverse domains (\textit{e.g.,} human face, anime face, and dog face) demonstrate the superiority of our model in generating high-quality and realistic videos from one still image with the guidance of language. Code will be available at https://github.com/TiankaiHang/language-guided-animation.git.
翻訳日:2022-08-12 13:11:56 公開日:2022-08-11
# ARMANI: 統一型クロスモーダルファッションデザインのための部分レベルガーメントテキストアライメント

ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal Fashion Design ( http://arxiv.org/abs/2208.05621v1 )

ライセンス: Link先を確認
Xujie Zhang, Yu Sha, Michael C. Kampffmeyer, Zhenyu Xie, Zequn Jie, Chengwen Huang, Jianqing Peng, Xiaodan Liang(参考訳) クロスモーダルなファッション画像合成は、複数のモダリティと幅広いファッション画像アプリケーションを統合するという膨大な未解決の可能性のために、ジェネレーション領域で最も有望な方向の1つとして登場してきた。 正確な生成を容易にするため、クロスモーダル合成法は典型的にはコントラスト言語-画像事前学習(CLIP)を用いてテキスト情報と衣服情報を整列させる。 本研究では,テクスチャと衣料情報の整合だけでは視覚情報のセマンティクスを捉えるには不十分であり,従ってMaskCLIPを提案する。 MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。 MaskCLIP上に構築されたARMANIは,部分レベルの着物テキストアライメントを備えたクロスモーダルファッションデザイナである。 ARMANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、トランスフォーマーを使用して、第2段階で制御信号のトークンが与えられた実画像に対する画像トークンの分布をモデル化する。 2段階のパラダイムにも依存する以前のアプローチとは対照的に、ARMANIはコードブックにテキストトークンを導入し、よりリアルな画像を生成するために細粒のセマンティック情報を利用することを可能にした。 さらに、クロスモーダルトランスを導入することで、ARMANIは汎用的で、純テキスト、スケッチ画像、部分画像などの様々な制御信号から画像合成を行うことができる。 新たに収集したクロスモーダルファッションデータセットで行った広範囲な実験により、アルマーニは様々な合成タスクでフォトリアリスティックな画像を生成し、既存の最先端のクロスモーダル画像合成アプローチよりも優れています。

Cross-modal fashion image synthesis has emerged as one of the most promising directions in the generation domain due to the vast untapped potential of incorporating multiple modalities and the wide range of fashion image applications. To facilitate accurate generation, cross-modal synthesis methods typically rely on Contrastive Language-Image Pre-training (CLIP) to align textual and garment information. In this work, we argue that simply aligning texture and garment information is not sufficient to capture the semantics of the visual information and therefore propose MaskCLIP. MaskCLIP decomposes the garments into semantic parts, ensuring fine-grained and semantically accurate alignment between the visual and text information. Building on MaskCLIP, we propose ARMANI, a unified cross-modal fashion designer with part-level garment-text alignment. ARMANI discretizes an image into uniform tokens based on a learned cross-modal codebook in its first stage and uses a Transformer to model the distribution of image tokens for a real image given the tokens of the control signals in its second stage. Contrary to prior approaches that also rely on two-stage paradigms, ARMANI introduces textual tokens into the codebook, making it possible for the model to utilize fine-grain semantic information to generate more realistic images. Further, by introducing a cross-modal Transformer, ARMANI is versatile and can accomplish image synthesis from various control signals, such as pure text, sketch images, and partial images. Extensive experiments conducted on our newly collected cross-modal fashion dataset demonstrate that ARMANI generates photo-realistic images in diverse synthesis tasks and outperforms existing state-of-the-art cross-modal image synthesis approaches.Our code is available at https://github.com/Harvey594/ARMANI.
翻訳日:2022-08-12 13:11:32 公開日:2022-08-11
# 変換線形関数の重み付き和に対する(1+1)EAの実行時解析

Runtime Analysis of the (1+1) EA on Weighted Sums of Transformed Linear Functions ( http://arxiv.org/abs/2208.05670v1 )

ライセンス: Link先を確認
Frank Neumann and Carsten Witt(参考訳) 線形関数は進化的アルゴリズムのランタイム解析において重要な役割を担い、研究は進化的計算手法を分析するための幅広い新しい洞察と技術を提供した。 2つの変換線形関数の重み付き和である目的関数のクラスについて検討した。 その結果, (1+1) EA は関数の重なり合うビット数に依存する変異率を持ち, 期待時間 O(n log n) におけるこれらの関数に対する最適解を求め, 線形関数のよく知られた結果をより広い範囲の問題に一般化することを示した。

Linear functions play a key role in the runtime analysis of evolutionary algorithms and studies have provided a wide range of new insights and techniques for analyzing evolutionary computation methods. Motivated by studies on separable functions and the optimization behaviour of evolutionary algorithms as well as objective functions from the area of chance constrained optimization, we study the class of objective functions that are weighted sums of two transformed linear functions. Our results show that the (1+1) EA, with a mutation rate depending on the number of overlapping bits of the functions, obtains an optimal solution for these functions in expected time O(n log n), thereby generalizing a well-known result for linear functions to a much wider range of problems.
翻訳日:2022-08-12 13:07:31 公開日:2022-08-11
# 大規模グラフにおける効率的な表現学習のためのハッシュによる埋め込み圧縮

Embedding Compression with Hashing for Efficient Representation Learning in Large-Scale Graph ( http://arxiv.org/abs/2208.05648v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Mengting Gu, Yan Zheng, Huiyuan Chen, Javid Ebrahimi, Zhongfang Zhuang, Junpeng Wang, Liang Wang, and Wei Zhang(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータ専用に設計されたディープラーニングモデルであり、通常は第1層の入力としてノード機能に依存する。 このようなタイプのネットワークをノード機能なしでグラフに適用する場合、単純なグラフベースのノード特徴(度数など)を抽出したり、ネットワークをトレーニングする際に入力ノード表現(埋め込みなど)を学習することができる。 ノード埋め込みを訓練する後者のアプローチは、より良いパフォーマンスをもたらす可能性が高いが、埋め込みに関連するパラメータの数はノードの数とともに線形に増加する。 したがって、産業規模のグラフデータを扱う場合、グラフィクス処理ユニット(GPU)メモリ内のGNNと共に入力ノードの埋め込みをエンドツーエンドで訓練することは不可能である。 自然言語処理(NLP)タスクのための埋め込み圧縮法に着想を得て,各ノードを浮動小数点ベクトルの代わりにビットベクトルでコンパクトに表現するノード埋め込み圧縮法を開発した。 圧縮法で使用されるパラメータは、gnnと共にトレーニングすることができる。 提案手法は,提案手法が提案手法よりも優れた性能を示すことを示す。

Graph neural networks (GNNs) are deep learning models designed specifically for graph data, and they typically rely on node features as the input to the first layer. When applying such a type of network on the graph without node features, one can extract simple graph-based node features (e.g., number of degrees) or learn the input node representations (i.e., embeddings) when training the network. While the latter approach, which trains node embeddings, more likely leads to better performance, the number of parameters associated with the embeddings grows linearly with the number of nodes. It is therefore impractical to train the input node embeddings together with GNNs within graphics processing unit (GPU) memory in an end-to-end fashion when dealing with industrial-scale graph data. Inspired by the embedding compression methods developed for natural language processing (NLP) tasks, we develop a node embedding compression method where each node is compactly represented with a bit vector instead of a floating-point vector. The parameters utilized in the compression method can be trained together with GNNs. We show that the proposed node embedding compression method achieves superior performance compared to the alternatives.
翻訳日:2022-08-12 13:07:16 公開日:2022-08-11
# フェデレーション学習パケット伝送のための修正UDP

A Modified UDP for Federated Learning Packet Transmissions ( http://arxiv.org/abs/2208.05737v1 )

ライセンス: Link先を確認
Bright Kudzaishe Mahembe and Clement Nyirenda(参考訳) 本稿では,各フェデレート学習ラウンドにおけるグローバルモデルのポテンシャルを最大化し,モデルパラメータ転送プロセスの効率性と信頼性を確保するために,フェデレート学習のための修正ユーザデータグラムプロトコル(UDP)を提案する。 このプロトコルの開発とテストでは、NS3シミュレータを使用してネットワーク上のパケット転送をシミュレートし、Google TensorFlowを使用して独自のフェデレート学習環境を構築する。 この予備実装では、2つのノードがクライアントノードであり、1つはサーバノードである3つのノードを含む。 本稿では,本論文で得られた結果から,連合学習の今後におけるプロトコルの能力に自信を与え,将来的には,より多くのパラメータを含むtensorflowモデルを持つ大規模連合学習システム上で,修正udpをテストし,従来のudpプロトコルと修正udpプロトコルとの比較をシミュレートする。 また,信頼性を確保しつつ効率向上を図るため,修正UDPの最適化も検討する。

This paper introduces a Modified User Datagram Protocol (UDP) for Federated Learning to ensure efficiency and reliability in the model parameter transport process, maximizing the potential of the Global model in each Federated Learning round. In developing and testing this protocol, the NS3 simulator is utilized to simulate the packet transport over the network and Google TensorFlow is used to create a custom Federated learning environment. In this preliminary implementation, the simulation contains three nodes where two nodes are client nodes, and one is a server node. The results obtained in this paper provide confidence in the capabilities of the protocol in the future of Federated Learning therefore, in future the Modified UDP will be tested on a larger Federated learning system with a TensorFlow model containing more parameters and a comparison between the traditional UDP protocol and the Modified UDP protocol will be simulated. Optimization of the Modified UDP will also be explored to improve efficiency while ensuring reliability.
翻訳日:2022-08-12 13:06:59 公開日:2022-08-11
# 合成多忠実性データセット作成のための原理的手法

A Principled Method for the Creation of Synthetic Multi-fidelity Data Sets ( http://arxiv.org/abs/2208.05667v1 )

ライセンス: Link先を確認
Clyde Fare, Peter Fenner, Edward O. Pyzer-Knapp(参考訳) マルチファイダリティとマルチアウトプット最適化アルゴリズムは、実験的および計算的プロキシを最適種探索にインテリジェントに使用できるようにするため、計算設計の多くの領域で現在関心を集めている分野である。 これらのアルゴリズムのキャラクタリゼーションには、通常、解析関数または既存のマルチフィデリティデータセットを使用するベンチマークが含まれる。 残念なことに、既存の分析関数は、しばしば関連する問題を表すものではないが、多くの既存のデータセットは、含まれているプロキシ関数の特性の影響を体系的に調査できるように構築されていない。 このニーズを満たすために, 基準基底真理関数から導出される合成忠実度を, 制御可能な相関度で体系的に生成する手法を提案する。

Multifidelity and multioutput optimisation algorithms are an area of current interest in many areas of computational design as they allow experimental and computational proxies to be used intelligently in the search for optimal species. Characterisation of these algorithms involves benchmarks that typically either use analytic functions or existing multifidelity datasets. Unfortunately, existing analytic functions are often not representative of relevant problems, while many existing datasets are not constructed to easily allow systematic investigation of the influence of characteristics of the contained proxies functions. To fulfil this need, we present a methodology for systematic generation of synthetic fidelities derived from a reference ground truth function with a controllable degree of correlation.
翻訳日:2022-08-12 13:06:42 公開日:2022-08-11
# 因果発見後の正当性推論

Valid Inference after Causal Discovery ( http://arxiv.org/abs/2208.05949v1 )

ライセンス: Link先を確認
Paula Gradu, Tijana Zrnic, Yixin Wang, Michael I. Jordan(参考訳) 因果グラフの発見と因果効果の推定は因果推論の2つの基本的なタスクである。 同一データ上で因果発見アルゴリズムを実行した後の因果効果を推定すると、古典的信頼区間のカバレッジ保証を無効にする「二重ディッピング」が発生する。 この目的のために, 有効な発見後推論ツールを開発した。 1つの重要な貢献は、古典的信頼区間の有効な有限サンプル補正を可能にするgreedy equivalence Search (GES)アルゴリズムのランダム化バージョンである。 実験結果から, 因果探索法とそれに続く推論アルゴリズムを組み合わせると, 典型的に高度に膨らんだミスカバー率が得られること, また, ノイズの多いges法は, データの分割よりも正確な因果グラフの復元を実現するとともに, 信頼性の高いカバレッジ制御を提供する。

Causal graph discovery and causal effect estimation are two fundamental tasks in causal inference. While many methods have been developed for each task individually, statistical challenges arise when applying these methods jointly: estimating causal effects after running causal discovery algorithms on the same data leads to "double dipping," invalidating coverage guarantees of classical confidence intervals. To this end, we develop tools for valid post-causal-discovery inference. One key contribution is a randomized version of the greedy equivalence search (GES) algorithm, which permits a valid, finite-sample correction of classical confidence intervals. Across empirical studies, we show that a naive combination of causal discovery and subsequent inference algorithms typically leads to highly inflated miscoverage rates; at the same time, our noisy GES method provides reliable coverage control while achieving more accurate causal graph recovery than data splitting.
翻訳日:2022-08-12 13:06:13 公開日:2022-08-11
# OpenMedIA: 異種AIコンピューティングプラットフォーム下でのオープンソース医療画像解析ツールボックスとベンチマーク

OpenMedIA: Open-Source Medical Image Analysis Toolbox and Benchmark under Heterogeneous AI Computing Platforms ( http://arxiv.org/abs/2208.05616v1 )

ライセンス: Link先を確認
Jia-Xin Zhuang, Xiansong Huang, Yang Yang, Jiancong Chen, Yue Yu, Wei Gao, Ge Li, Jie Chen, and Tong Zhang(参考訳) 本稿では,異種人工知能(AI)コンピューティングプラットフォームにおける医用画像解析のための深層学習手法を多用したオープンソースのツールボックスライブラリOpenMedIAを提案する。 2d$/$3dの医用画像分類、セグメンテーション、ローカライズ、検出を含む様々な医用画像解析手法が、pytorchと$/$またはmindsporeを異種nvidiaとhuawei ascendコンピューティングシステムで実装したツールボックスに含まれている。 私たちの知る限り、OpenMedIAはPyTorchとMindSpを比較した最初のオープンソースアルゴリズムライブラリです。

In this paper, we present OpenMedIA, an open-source toolbox library containing a rich set of deep learning methods for medical image analysis under heterogeneous Artificial Intelligence (AI) computing platforms. Various medical image analysis methods, including 2D$/$3D medical image classification, segmentation, localisation, and detection, have been included in the toolbox with PyTorch and$/$or MindSpore implementations under heterogeneous NVIDIA and Huawei Ascend computing systems. To our best knowledge, OpenMedIA is the first open-source algorithm library providing compared PyTorch and MindSp
翻訳日:2022-08-12 13:05:40 公開日:2022-08-11
# 大量の注釈付きデータベースを用いたディープフェイク検出におけるAIバイアスの包括的解析

A Comprehensive Analysis of AI Biases in DeepFake Detection With Massively Annotated Databases ( http://arxiv.org/abs/2208.05845v1 )

ライセンス: Link先を確認
Ying Xu, Philipp Terh\"orst, Kiran Raja, Marius Pedersen(参考訳) 近年、DeepFakeによる画像とビデオの操作は、セキュリティと社会にとって深刻な懸念となっている。 したがって、DeepFakeデータを確実に検出するために、多くの検出モデルとデータベースが提案されている。 しかし、これらのモデルとトレーニングデータベースがバイアスを受けている可能性があるため、DeepFake検出が失敗するのではないかという懸念が高まっている。 この作業では、これらの問題に取り組みます。 (a) 人気のある5つのDeepFakeデータセットに対して41の属性の大規模および非デコグラフィ属性アノテーションを提供する。 b) これらのデータベース上の複数の最先端のDeepFake検出モデルのAIバイアスを包括的に分析する。 調査は,年齢,性別,民族,非デポグラフィ情報(髪,肌,アクセサリーなど)を含む,多種多様な特徴(65m以上のラベルを含む)が検出性能に与える影響を分析した。 その結果,データベースは多様性に欠けており,さらに重要なこととして,使用可能なディープフェイク検出モデルは,多くの属性に強く偏っていることがわかった。 また,モデルの意思決定は,笑顔や帽子をかぶっている場合など,いくつかの疑わしい(偏りのある)仮定に基づいている可能性が示唆された。 このようなDeepFake検出手法の適用により、これらのバイアスは一般化可能性、公平性、セキュリティ問題につながる可能性がある。 本研究の成果とアノテーションデータベースが将来のDeepFake検出技術におけるバイアスの評価と緩和に役立つことを期待する。 アノテーションデータセットは公開されています。

In recent years, image and video manipulations with DeepFake have become a severe concern for security and society. Therefore, many detection models and databases have been proposed to detect DeepFake data reliably. However, there is an increased concern that these models and training databases might be biased and thus, cause DeepFake detectors to fail. In this work, we tackle these issues by (a) providing large-scale demographic and non-demographic attribute annotations of 41 different attributes for five popular DeepFake datasets and (b) comprehensively analysing AI-bias of multiple state-of-the-art DeepFake detection models on these databases. The investigation analyses the influence of a large variety of distinctive attributes (from over 65M labels) on the detection performance, including demographic (age, gender, ethnicity) and non-demographic (hair, skin, accessories, etc.) information. The results indicate that investigated databases lack diversity and, more importantly, show that the utilised DeepFake detection models are strongly biased towards many investigated attributes. Moreover, the results show that the models' decision-making might be based on several questionable (biased) assumptions, such if a person is smiling or wearing a hat. Depending on the application of such DeepFake detection methods, these biases can lead to generalizability, fairness, and security issues. We hope that the findings of this study and the annotation databases will help to evaluate and mitigate bias in future DeepFake detection techniques. Our annotation datasets are made publicly available.
翻訳日:2022-08-12 13:05:16 公開日:2022-08-11
# 時空間グラフニューラルネットワークを用いたスパース走行予測の不確かさの定量化

Uncertainty Quantification of Sparse Travel Demand Prediction with Spatial-Temporal Graph Neural Networks ( http://arxiv.org/abs/2208.05908v1 )

ライセンス: Link先を確認
Dingyi Zhuang, Shenhao Wang, Haris N. Koutsopoulos, and Jinhua Zhao(参考訳) O-D(Origin-Destination)旅行需要予測は交通の基本的な課題である。 近年,空間的-時間的深層学習モデルが予測精度を高める可能性を示している。 しかしながら、細粒度o-d行列における不確実性とスパーシティの問題に取り組む研究はほとんどなかった。 これは、決定論的深層学習モデルの基礎となるガウスの仮定から多くの零点が逸脱するため、深刻な問題となる。 この問題に対処するため,空間的ゼロ膨張負二項グラフニューラルネットワーク(STZINB-GNN)を設計し,スパーストラベル需要の不確かさを定量化する。 拡散と時間的畳み込みネットワークを用いて空間的および時間的相関を解析し、それから融合して旅行需要の確率分布をパラメータ化する。 STZINB-GNNは空間分解能と時間分解能の異なる2つの実世界のデータセットを用いて検討した。 その結果,stzinb-gnnは,高い空間時間分解能,高い精度,密接な信頼区間,解釈可能なパラメータにより,ベンチマークモデルよりも優れていることがわかった。 STZINB-GNNの空間パラメータは、様々な輸送用途に対して物理的に解釈される。

Origin-Destination (O-D) travel demand prediction is a fundamental challenge in transportation. Recently, spatial-temporal deep learning models demonstrate the tremendous potential to enhance prediction accuracy. However, few studies tackled the uncertainty and sparsity issues in fine-grained O-D matrices. This presents a serious problem, because a vast number of zeros deviate from the Gaussian assumption underlying the deterministic deep learning models. To address this issue, we design a Spatial-Temporal Zero-Inflated Negative Binomial Graph Neural Network (STZINB-GNN) to quantify the uncertainty of the sparse travel demand. It analyzes spatial and temporal correlations using diffusion and temporal convolution networks, which are then fused to parameterize the probabilistic distributions of travel demand. The STZINB-GNN is examined using two real-world datasets with various spatial and temporal resolutions. The results demonstrate the superiority of STZINB-GNN over benchmark models, especially under high spatial-temporal resolutions, because of its high accuracy, tight confidence intervals, and interpretable parameters. The sparsity parameter of the STZINB-GNN has physical interpretation for various transportation applications.
翻訳日:2022-08-12 13:03:09 公開日:2022-08-11
# 視覚追跡のためのシーケンスレベルトレーニングに向けて

Towards Sequence-Level Training for Visual Tracking ( http://arxiv.org/abs/2208.05810v1 )

ライセンス: Link先を確認
Minji Kim, Seungkwan Lee, Jungseul Ok, Bohyung Han, Minsu Cho(参考訳) ビジュアルオブジェクト追跡のタスクに機械学習が広く採用されているにもかかわらず、最近の学習ベースのアプローチは、視覚的トラッキングがその性質においてシーケンスレベルのタスクであるという事実をほとんど見落としている。 本研究は,強化学習に基づく視覚追跡のためのシーケンスレベルのトレーニング戦略を導入し,データサンプリング,学習目標,データ拡張のシーケンスレベル設計が追跡アルゴリズムの正確性と堅牢性を改善する方法について論じる。 LaSOT, TrackingNet, GOT-10k などの標準ベンチマーク実験により,SiamRPN++, SiamAttn, TransT, TrDiMP の4つの代表的な追跡モデルが,アーキテクチャを変更することなく,提案手法をトレーニングに組み込むことで一貫した改善が得られた。

Despite the extensive adoption of machine learning on the task of visual object tracking, recent learning-based approaches have largely overlooked the fact that visual tracking is a sequence-level task in its nature; they rely heavily on frame-level training, which inevitably induces inconsistency between training and testing in terms of both data distributions and task objectives. This work introduces a sequence-level training strategy for visual tracking based on reinforcement learning and discusses how a sequence-level design of data sampling, learning objectives, and data augmentation can improve the accuracy and robustness of tracking algorithms. Our experiments on standard benchmarks including LaSOT, TrackingNet, and GOT-10k demonstrate that four representative tracking models, SiamRPN++, SiamAttn, TransT, and TrDiMP, consistently improve by incorporating the proposed methods in training without modifying architectures.
翻訳日:2022-08-12 13:01:46 公開日:2022-08-11
# PointTree: K-Dツリーを緩和した変換ロバストなポイントクラウドエンコーダ

PointTree: Transformation-Robust Point Cloud Encoder with Relaxed K-D Trees ( http://arxiv.org/abs/2208.05962v1 )

ライセンス: Link先を確認
Jun-Kun Chen and Yu-Xiong Wang(参考訳) 生の点クラウド上で、効果的なセマンティック表現を直接学べることが、3D理解の中心的なトピックになっている。 急激な進歩にもかかわらず、最先端のエンコーダは正準化点雲に制限され、幾何学的変換歪みに遭遇する際の性能よりも弱い。 この課題を克服するため,我々は,k-d木に基づく変換にロバストな汎用ポイントクラウドエンコーダであるpointtreeを提案する。 我々のアプローチの鍵は、主成分分析(PCA)を用いたK-D木における分割則の設計である。 リラックスしたk-d木の構造を計算グラフとして使用し,その特徴を境界ディスクリプタとしてモデル化し,ポイントワイズ最大演算と融合する。 このアーキテクチャ設計に加えて,PCAをベースとした簡易かつ効果的な正規化方式である事前調整を導入することにより,ロバスト性をさらに向上する。 我々のPointTreeエンコーダは、広くベンチマークされたデータセットの様々な変換されたバージョンにおけるオブジェクト分類からセマンティックセグメンテーションへの応用において、常に最先端の手法を大きなマージンで上回ります。 コードと事前トレーニングされたモデルはhttps://github.com/immortalCO/PointTree.comで入手できる。

Being able to learn an effective semantic representation directly on raw point clouds has become a central topic in 3D understanding. Despite rapid progress, state-of-the-art encoders are restrictive to canonicalized point clouds, and have weaker than necessary performance when encountering geometric transformation distortions. To overcome this challenge, we propose PointTree, a general-purpose point cloud encoder that is robust to transformations based on relaxed K-D trees. Key to our approach is the design of the division rule in K-D trees by using principal component analysis (PCA). We use the structure of the relaxed K-D tree as our computational graph, and model the features as border descriptors which are merged with pointwise-maximum operation. In addition to this novel architecture design, we further improve the robustness by introducing pre-alignment -- a simple yet effective PCA-based normalization scheme. Our PointTree encoder combined with pre-alignment consistently outperforms state-of-the-art methods by large margins, for applications from object classification to semantic segmentation on various transformed versions of the widely-benchmarked datasets. Code and pre-trained models are available at https://github.com/immortalCO/PointTree.
翻訳日:2022-08-12 13:01:29 公開日:2022-08-11
# relpose:野生の単一物体に対する確率的相対回転の予測

RelPose: Predicting Probabilistic Relative Rotation for Single Objects in the Wild ( http://arxiv.org/abs/2208.05963v1 )

ライセンス: Link先を確認
Jason Y. Zhang and Deva Ramanan and Shubham Tulsiani(参考訳) 任意の物体の複数の画像からカメラ視点を推定するデータ駆動手法について述べる。 このタスクは、sfmやslamといった古典的な幾何学的パイプラインのコアコンポーネントであり、オブジェクトの再構築とビュー合成に対する現代の神経アプローチ(例えば、nerf)のための重要な前処理要件としても機能する。 スパースビューが十分に機能しない既存の対応駆動方式とは対照的に,カメラ視点推定のためのトップダウン予測手法を提案する。 私たちの重要な技術的洞察は、相対的なカメラ回転の分布を表すエネルギーベースの定式化を使用することで、オブジェクトの対称性やビューから生じる複数のカメラモードを明示的に表現できるということです。 これらの相対予測を利用して、複数の画像から一貫したカメラ回転を推定する。 本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。 さらに, 確率的アプローチは, 直接レグレッシブな相対的なポーズを有意に上回っており, コヒーレントな関節再建にはマルチモーダリティのモデリングが重要であることが示唆された。 本システムは,マルチビューデータセットからのイン・ザ・ワイルド・リコンストラクションへの一歩となることを実証する。 コードとビデオのプロジェクトページはhttps://jasonyzhang.com/relpose.comで見ることができる。

We describe a data-driven method for inferring the camera viewpoints given multiple images of an arbitrary object. This task is a core component of classic geometric pipelines such as SfM and SLAM, and also serves as a vital pre-processing requirement for contemporary neural approaches (e.g. NeRF) to object reconstruction and view synthesis. In contrast to existing correspondence-driven methods that do not perform well given sparse views, we propose a top-down prediction based approach for estimating camera viewpoints. Our key technical insight is the use of an energy-based formulation for representing distributions over relative camera rotations, thus allowing us to explicitly represent multiple camera modes arising from object symmetries or views. Leveraging these relative predictions, we jointly estimate a consistent set of camera rotations from multiple images. We show that our approach outperforms state-of-the-art SfM and SLAM methods given sparse images on both seen and unseen categories. Further, our probabilistic approach significantly outperforms directly regressing relative poses, suggesting that modeling multimodality is important for coherent joint reconstruction. We demonstrate that our system can be a stepping stone toward in-the-wild reconstruction from multi-view datasets. The project page with code and videos can be found at https://jasonyzhang.com/relpose.
翻訳日:2022-08-12 13:00:52 公開日:2022-08-11
# 睡眠ステージを見る:脳波から赤外線ビデオへのクロスモーダル蒸留

Seeing your sleep stage: cross-modal distillation from EEG to infrared video ( http://arxiv.org/abs/2208.05814v1 )

ライセンス: Link先を確認
Jianan Han, Shaoxing Zhang, Aidong Men, Yang Liu, Ziming Yao, Yan Yan, Qingchao Chen(参考訳) 様々な疾患の診断のために睡眠段階を分類することが必然的に重要である。 しかし、既存の自動診断法では、病院のPolySomnoGraphy(PSG)マシンの「ゴールドスタンダード」心電図(EEG)またはその他の一様センシング信号が採用されており、高価で、輸入可能であり、在宅のポイント・オブ・ケアモニタリングには適していない。 そこで本研究では,家庭における睡眠ステージモニタリングを実現するために,赤外線映像と脳波信号の関係を分析し,脳波信号から視覚情報への有用な知識を蒸留することにより,睡眠ステージを赤外線映像を用いて分類する新しい課題を提案する。 このアプリケーションのための厳密なクロスモーダルベンチマークを確立するために、赤外線ビデオとEEG(S^3VE$)を介して、睡眠ステージを見るという新しいデータセットを開発した。 S^3VE$は、105人の被験者と1100時間以上の154,573本のビデオクリップを含む、睡眠ステージ分類のための同期赤外線ビデオと脳波信号を含む大規模なデータセットである。 我々の貢献はデータセットに限らず、新しいクロスモーダル蒸留ベースラインモデル、すなわち構造認識コントラスト蒸留(SACD)で、脳波の知識を赤外線ビデオの特徴に蒸留する。 SACDはS^3VE$と既存のクロスモーダル蒸留ベンチマークの両方で最先端の性能を達成した。 ベンチマークとベースラインメソッドの両方がコミュニティにリリースされる予定だ。 我々は,より多くの注意を喚起し,睡眠段階の分類や,より重要なこととして,臨床信号/メディアから従来のメディアへのクロスモーダル蒸留を促進することを期待する。

It is inevitably crucial to classify sleep stage for the diagnosis of various diseases. However, existing automated diagnosis methods mostly adopt the "gold-standard" lectroencephalogram (EEG) or other uni-modal sensing signal of the PolySomnoGraphy (PSG) machine in hospital, that are expensive, importable and therefore unsuitable for point-of-care monitoring at home. To enable the sleep stage monitoring at home, in this paper, we analyze the relationship between infrared videos and the EEG signal and propose a new task: to classify the sleep stage using infrared videos by distilling useful knowledge from EEG signals to the visual ones. To establish a solid cross-modal benchmark for this application, we develop a new dataset termed as Seeing your Sleep Stage via Infrared Video and EEG ($S^3VE$). $S^3VE$ is a large-scale dataset including synchronized infrared video and EEG signal for sleep stage classification, including 105 subjects and 154,573 video clips that is more than 1100 hours long. Our contributions are not limited to datasets but also about a novel cross-modal distillation baseline model namely the structure-aware contrastive distillation (SACD) to distill the EEG knowledge to infrared video features. The SACD achieved the state-of-the-art performances on both our $S^3VE$ and the existing cross-modal distillation benchmark. Both the benchmark and the baseline methods will be released to the community. We expect to raise more attentions and promote more developments in the sleep stage classification and more importantly the cross-modal distillation from clinical signal/media to the conventional media.
翻訳日:2022-08-12 13:00:27 公開日:2022-08-11
# 言語トークン:多言語翻訳のゼロショット性能を改善するフラストレーションに単純なアプローチ

Language Tokens: A Frustratingly Simple Approach Improves Zero-Shot Performance of Multilingual Translation ( http://arxiv.org/abs/2208.05852v1 )

ライセンス: Link先を確認
Muhammad ElNokrashy (1), Amr Hendy (1), Mohamed Maher (1), Mohamed Afify (1), Hany Hassan Awadalla (2) ((1) Microsoft ATL Cairo, (2) Microsoft Redmond)(参考訳) 本稿では,ゼロショットと直接データが利用可能である場合に,直接(X-to-Y)翻訳を改善する方法を提案する。 我々は、エンコーダとデコーダの両方で入力トークンを変更し、ソースおよびターゲット言語用の信号を含める。 スクラッチからトレーニングする場合や、トレーニング済みのモデルを提案された設定で微調整した場合のパフォーマンス向上を示す。 実験では, チェックポイント選択基準に応じて, 10.0 BLEU 点が社内データセット上で得られることを示す。 WMT評価キャンペーンでは、ゼロショット設定では、イングリッシュのパフォーマンスが4.17と2.87のBLEUポイント向上し、トレーニング用にダイレクトデータが利用できる。 x-to-yはゼロショットベースラインで1.29 bleu、多対多ベースラインで0.44 bleu向上する。 低リソース環境では、X-to-Yドメインデータを微調整すると1.5~1.7ポイント改善される。

This paper proposes a simple yet effective method to improve direct (X-to-Y) translation for both cases: zero-shot and when direct data is available. We modify the input tokens at both the encoder and decoder to include signals for the source and target languages. We show a performance gain when training from scratch, or finetuning a pretrained model with the proposed setup. In the experiments, our method shows nearly 10.0 BLEU points gain on in-house datasets depending on the checkpoint selection criteria. In a WMT evaluation campaign, From-English performance improves by 4.17 and 2.87 BLEU points, in the zero-shot setting, and when direct data is available for training, respectively. While X-to-Y improves by 1.29 BLEU over the zero-shot baseline, and 0.44 over the many-to-many baseline. In the low-resource setting, we see a 1.5~1.7 point improvement when finetuning on X-to-Y domain data.
翻訳日:2022-08-12 12:56:56 公開日:2022-08-11
# 量子化適応劣勾配アルゴリズムとその応用

Quantized Adaptive Subgradient Algorithms and Their Applications ( http://arxiv.org/abs/2208.05631v1 )

ライセンス: Link先を確認
Ke Xu, Jianqiao Wangni, Yifan Zhang, Deheng Ye, Jiaxiang Wu and Peilin Zhao(参考訳) データ爆発とモデルサイズの増加は、大規模機械学習の驚くべき進歩を駆動する一方で、モデルのトレーニング時間とモデルストレージを困難にする。 計算効率が高く、デバイス制限の少ない分散モデルトレーニング設定では、上記の問題に対処するためには、2つの大きな課題がある。 一方、労働者間の確率勾配などの情報を交換するための通信コストは、分散トレーニング効率の重要なボトルネックとなっている。 一方、パラメータモデルが少ないことはストレージや通信が容易であるが、モデル性能を損なうリスクがある。 通信コスト,モデル容量,モデル性能を同時にバランスさせるため,分散学習のための量子化複合ミラー降下適応サブグレード (qcmd adagrad) と量子化正規化正規化2平均適応サブグレード (qrda adagrad) を提案する。 具体的には、勾配量子化とスパースモデルを組み合わせることで、分散トレーニングにおけるイテレーション毎の通信コストを削減する。 量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデルのスパーシティのバランスを図る。 さらに、理論的には、大きな量子化誤差は余分なノイズをもたらし、モデルの収束と空間性に影響を与える。 そこで,QCMDアダグラードとQRDAアダグラードでは,比較的誤差の少ないしきい値量子化戦略を採用し,信号対雑音比を改善し,モデルの空間性を維持する。 理論的解析と実験結果の両方が提案アルゴリズムの有効性と効率を実証している。

Data explosion and an increase in model size drive the remarkable advances in large-scale machine learning, but also make model training time-consuming and model storage difficult. To address the above issues in the distributed model training setting which has high computation efficiency and less device limitation, there are still two main difficulties. On one hand, the communication costs for exchanging information, e.g., stochastic gradients among different workers, is a key bottleneck for distributed training efficiency. On the other hand, less parameter model is easy for storage and communication, but the risk of damaging the model performance. To balance the communication costs, model capacity and model performance simultaneously, we propose quantized composite mirror descent adaptive subgradient (QCMD adagrad) and quantized regularized dual average adaptive subgradient (QRDA adagrad) for distributed training. To be specific, we explore the combination of gradient quantization and sparse model to reduce the communication cost per iteration in distributed training. A quantized gradient-based adaptive learning rate matrix is constructed to achieve a balance between communication costs, accuracy, and model sparsity. Moreover, we theoretically find that a large quantization error brings in extra noise, which influences the convergence and sparsity of the model. Therefore, a threshold quantization strategy with a relatively small error is adopted in QCMD adagrad and QRDA adagrad to improve the signal-to-noise ratio and preserve the sparsity of the model. Both theoretical analyses and empirical results demonstrate the efficacy and efficiency of the proposed algorithms.
翻訳日:2022-08-12 12:56:13 公開日:2022-08-11
# リカレントグラフネットワークを用いた学習点プロセス

Learning Point Processes using Recurrent Graph Network ( http://arxiv.org/abs/2208.05736v1 )

ライセンス: Link先を確認
Saurabh Dash, Xueyuan She and Saibal Mukhopadhyay(参考訳) 本稿では,その基礎となる複雑な確率過程を学習し,離散的な事象列を予測するための新しいリカレントグラフネットワーク(RGN)を提案する。 ポイントプロセスの枠組みを用いて、特徴のある離散的なイベントシーケンスを、それぞれユニークなタイプの異なるシーケンスの重ね合わせとして解釈する。 Graph NetworkのノードはLSTMを使用して過去の情報を取り込み、Graph Attention Network(GAT Network)はこれらの異なるタイプのイベント間のインタラクションをキャプチャするために強力な誘導バイアスを導入する。 自己注意機構を過去のイベントへの参加からイベントタイプへの参加に変更することにより、時間と空間の複雑さを$\mathcal{O}(N^2)$(イベントの総数)から$\mathcal{O}(|\mathcal{Y}|^2)$(イベントの種類)に短縮する。 提案手法は,最先端のトランスフォーマーアーキテクチャと比較して,時間と空間の複雑さを低減し,ログライクさ,予測性,適合性のよいタスクの性能を向上させることを示す。

We present a novel Recurrent Graph Network (RGN) approach for predicting discrete marked event sequences by learning the underlying complex stochastic process. Using the framework of Point Processes, we interpret a marked discrete event sequence as the superposition of different sequences each of a unique type. The nodes of the Graph Network use LSTM to incorporate past information whereas a Graph Attention Network (GAT Network) introduces strong inductive biases to capture the interaction between these different types of events. By changing the self-attention mechanism from attending over past events to attending over event types, we obtain a reduction in time and space complexity from $\mathcal{O}(N^2)$ (total number of events) to $\mathcal{O}(|\mathcal{Y}|^2)$ (number of event types). Experiments show that the proposed approach improves performance in log-likelihood, prediction and goodness-of-fit tasks with lower time and space complexity compared to state-of-the art Transformer based architectures.
翻訳日:2022-08-12 12:55:44 公開日:2022-08-11
# ディープマルチタスクメトリック学習による不信頼不均一データにおける部分群に対する相対的細粒度変化の回帰

Regressing Relative Fine-Grained Change for Sub-Groups in Unreliable Heterogeneous Data Through Deep Multi-Task Metric Learning ( http://arxiv.org/abs/2208.05800v1 )

ライセンス: Link先を確認
Niall O' Mahony, Sean Campbell, Lenka Krpalkova, Joseph Walsh, Daniel Riordan(参考訳) 人工知能の多くの応用において、微粒化変化検出および回帰分析が不可欠である。 実際、この課題は、システムに影響を与える多くの基礎要因間の相互作用から生じる信頼性の高い真実情報と複雑さの欠如のため、しばしば困難である。 したがって、複数の情報源の関連性と信頼性を表現できるフレームワークの開発が重要となる。 本稿では,マルチタスク・メトリック・ラーニングの手法を実データにおけるきめ細かい変化に応用する方法を検討するとともに,個々のオブジェクトの特定のインスタンス間の関心度を,マルチタスク・メトリック・ラーニング・フレームワークのタスクの1つとしてインクリメンタルな変更を組み込んだ場合,そのダイアメンションを解釈することで,全体のメトリックが一般化されるものに対して,きめ細かい変化を警告することができる。 調査された手法は、不均一なデータソース、すなわち各タスクの入力データには欠落した値が含まれ、その値のスケールと解決はタスク間で一貫性がなく、データは非独立かつ同一の分散(非iid)インスタンスを含む。 我々は、このアイデアの最初の実験的な実装の結果を提示し、さらなる研究の方向性を示すであろうこの領域の関連研究について論じる。

Fine-Grained Change Detection and Regression Analysis are essential in many applications of ArtificialIntelligence. In practice, this task is often challenging owing to the lack of reliable ground truth information andcomplexity arising from interactions between the many underlying factors affecting a system. Therefore,developing a framework which can represent the relatedness and reliability of multiple sources of informationbecomes critical. In this paper, we investigate how techniques in multi-task metric learning can be applied for theregression of fine-grained change in real data.The key idea is that if we incorporate the incremental change in a metric of interest between specific instancesof an individual object as one of the tasks in a multi-task metric learning framework, then interpreting thatdimension will allow the user to be alerted to fine-grained change invariant to what the overall metric isgeneralised to be. The techniques investigated are specifically tailored for handling heterogeneous data sources,i.e. the input data for each of the tasks might contain missing values, the scale and resolution of the values is notconsistent across tasks and the data contains non-independent and identically distributed (non-IID) instances. Wepresent the results of our initial experimental implementations of this idea and discuss related research in thisdomain which may offer direction for further research.
翻訳日:2022-08-12 12:55:11 公開日:2022-08-11
# 線形MDPにおける最適政策同定

Best Policy Identification in Linear MDPs ( http://arxiv.org/abs/2208.05633v1 )

ライセンス: Link先を確認
Jerome Taupin, Yassir Jedra, Alexandre Proutiere(参考訳) 縮退した線形マルコフ決定過程における最適政策識別の問題について, 生成モデルに基づく固定信頼度設定における検討を行った。 まず,$\varepsilon$-optimal ポリシを 1-\delta$ の確率で識別するために必要なサンプル数の,インスタンス固有の下限を導出する。 下限は、複雑な非凸最適化プログラムの解として最適なサンプリングルールを特徴づけるが、単純で準最適サンプリングルールとアルゴリズムを考案するための出発点として使用できる。 このようなアルゴリズムを考案する。 これらのうちの1つは、${\cal o}({\frac{d}{(\varepsilon+\delta)^2}} (\log(\frac{1}{\delta})+d)$ ここで$\delta$は副最適作用の最小報酬ギャップを表し、$d$は特徴空間の次元である。 この上限は、中程度信頼体制(すなわちすべての$\delta$)にあり、既存のミニマックスとギャップ依存の下位境界と一致する。 我々はこのアルゴリズムを線形MDPに拡張する。

We investigate the problem of best policy identification in discounted linear Markov Decision Processes in the fixed confidence setting under a generative model. We first derive an instance-specific lower bound on the expected number of samples required to identify an $\varepsilon$-optimal policy with probability $1-\delta$. The lower bound characterizes the optimal sampling rule as the solution of an intricate non-convex optimization program, but can be used as the starting point to devise simple and near-optimal sampling rules and algorithms. We devise such algorithms. One of these exhibits a sample complexity upper bounded by ${\cal O}({\frac{d}{(\varepsilon+\Delta)^2}} (\log(\frac{1}{\delta})+d))$ where $\Delta$ denotes the minimum reward gap of sub-optimal actions and $d$ is the dimension of the feature space. This upper bound holds in the moderate-confidence regime (i.e., for all $\delta$), and matches existing minimax and gap-dependent lower bounds. We extend our algorithm to episodic linear MDPs.
翻訳日:2022-08-12 12:54:20 公開日:2022-08-11
# 分布にロバストなモデルに基づくオフライン強化学習

Distributionally Robust Model-Based Offline Reinforcement Learning with Near-Optimal Sample Complexity ( http://arxiv.org/abs/2208.05767v1 )

ライセンス: Link先を確認
Laixi Shi and Yuejie Chi(参考訳) 本稿では,オフライン強化学習(RL)におけるモデルロバストネスとサンプル効率の中心的課題について考察する。 環境の不確実性と不安定性のため、デプロイされた環境が履歴データセットの収集に使用される名目上のものから逸脱した場合でも、可能な限り少数のサンプルで堅牢なポリシを学ぶことが重要です。 オフラインRLの分布的ロバストな定式化について考察し、Kulback-Leiblerの発散によって指定された不確実性を持つ表型非定常有限水平ロバストマルコフ決定過程に着目した。 分散的ロバストな値反復と不確実性に直面した悲観主義の原理を組み合わさったモデルベースアルゴリズムにおいて,ロバストな値推定を慎重に設計したデータ駆動型ペナルティ項でペナルティ化する手法を提案する。 状態動作空間の完全なカバレッジを必要とせずに分布シフトを測定するヒストリデータセットの軽度かつ調整された仮定の下で,提案アルゴリズムの有限サンプル複雑性を確立し,さらに,ホライズン長の多項式係数までほぼ一致する情報理論下降値の場合には,ほぼ改善不可能であることを示す。 我々の知る限り、モデルの不確実性と部分的カバレッジの下で学習する、証明可能なほぼ最適のオフラインRLアルゴリズムを提供する。

This paper concerns the central issues of model robustness and sample efficiency in offline reinforcement learning (RL), which aims to learn to perform decision making from history data without active exploration. Due to uncertainties and variabilities of the environment, it is critical to learn a robust policy -- with as few samples as possible -- that performs well even when the deployed environment deviates from the nominal one used to collect the history dataset. We consider a distributionally robust formulation of offline RL, focusing on a tabular non-stationary finite-horizon robust Markov decision process with an uncertainty set specified by the Kullback-Leibler divergence. To combat with sample scarcity, a model-based algorithm that combines distributionally robust value iteration with the principle of pessimism in the face of uncertainty is proposed, by penalizing the robust value estimates with a carefully designed data-driven penalty term. Under a mild and tailored assumption of the history dataset that measures distribution shift without requiring full coverage of the state-action space, we establish the finite-sample complexity of the proposed algorithm, and further show it is almost unimprovable in light of a nearly-matching information-theoretic lower bound up to a polynomial factor of the horizon length. To the best our knowledge, this provides the first provably near-optimal robust offline RL algorithm that learns under model uncertainty and partial coverage.
翻訳日:2022-08-12 12:53:58 公開日:2022-08-11
# 臨床治験における治療ベネフィットを伴う患者集団の適応的同定

Adaptively Identifying Patient Populations With Treatment Benefit in Clinical Trials ( http://arxiv.org/abs/2208.05844v1 )

ライセンス: Link先を確認
Alicia Curth and Alihan H\"uy\"uk and Mihaela van der Schaar(参考訳) 確定的臨床試験において,特定の治療の恩恵を受ける患者サブポピュレーションを適応的に同定する問題について検討した。 このタイプの適応型臨床試験は、しばしば適応型エンリッチメント設計(Adaptive Enrichment design)と呼ばれ、生体統計学において、(サブ)人口を構成する少数のサブグループ(典型的には2つ)と少数の中間分析ポイントに焦点をあてて徹底的に研究されている。 本稿では,このような設計に関する古典的制約を緩和し,最近の機械学習文献の適応的・オンライン実験のアイデアを取り入れて,試行をより柔軟かつ効率的にする方法について検討する。 最も重要なのは、亜集団選択問題に特有の特徴があるということです。 (i)通常、予算が限られている場合において、治療効果のあるサブグループ(かつ必ずしも最大の効果を有する単一のサブグループではない)の発見に関心があるもの (ii) 有効性は、平均してサブポピュレーション全体に対してのみ示さなければなりません -- アルゴリズムソリューションを設計する際の興味深い課題と新たなデシデラタを生み出します。 そこで本研究では,良質なサブグループと良質な複合サブグループを特定することに焦点を当てた,サブグループ構築のための2つのメタアルゴリズムであるadaggiとadagcpiを提案する。 我々は、様々なシミュレーションシナリオにおけるパフォーマンスを実証的に調査し、異なる設定の(dis)アドバンタグに対する洞察を導出する。

We study the problem of adaptively identifying patient subpopulations that benefit from a given treatment during a confirmatory clinical trial. This type of adaptive clinical trial, often referred to as adaptive enrichment design, has been thoroughly studied in biostatistics with a focus on a limited number of subgroups (typically two) which make up (sub)populations, and a small number of interim analysis points. In this paper, we aim to relax classical restrictions on such designs and investigate how to incorporate ideas from the recent machine learning literature on adaptive and online experimentation to make trials more flexible and efficient. We find that the unique characteristics of the subpopulation selection problem -- most importantly that (i) one is usually interested in finding subpopulations with any treatment benefit (and not necessarily the single subgroup with largest effect) given a limited budget and that (ii) effectiveness only has to be demonstrated across the subpopulation on average -- give rise to interesting challenges and new desiderata when designing algorithmic solutions. Building on these findings, we propose AdaGGI and AdaGCPI, two meta-algorithms for subpopulation construction, which focus on identifying good subgroups and good composite subpopulations, respectively. We empirically investigate their performance across a range of simulation scenarios and derive insights into their (dis)advantages across different settings.
翻訳日:2022-08-12 12:53:30 公開日:2022-08-11
# せん断理論量子様条件とBERTを用いたアナフォリック曖昧性のモデル

A Model of Anaphoric Ambiguities using Sheaf Theoretic Quantum-like Contextuality and BERT ( http://arxiv.org/abs/2208.05720v1 )

ライセンス: Link先を確認
Kin Ian Lo (University College London, London, UK), Mehrnoosh Sadrzadeh (University College London, London, UK), Shane Mansfield (Quandela, Paris, France)(参考訳) 自然言語の曖昧さは、それを使うのを妨げず、コンテキストがアイデアを横断するのに役立ちます。 それでも彼らは、自然言語を理解し、人間と同じようにそれを使う能力のある機械の開発に重要な挑戦をしている。 文脈性(Contextuality)は、量子力学において、異なる数学的形式主義が、その理解と推論のために推進された、例外のない現象である。 本稿では,量子的文脈性を示すアナフォリック曖昧性のスキーマを構築する。 我々は近年,シグナリングモデルに適用可能なせん断理論的文脈性の基準を用いている。 次に、ニューラルネットワーク埋め込みエンジンBERTを利用して、スキーマを自然言語の例にインスタンス化し、インスタンスの確率分布を抽出する。 その結果、自然言語のcorpora BERT ユーティリティで多くの層-文脈例が発見された。 これらの例が将来の研究の道を開き、量子コンピューティングを自然言語処理に拡張する方法を見つけることを期待しています。

Ambiguities of natural language do not preclude us from using it and context helps in getting ideas across. They, nonetheless, pose a key challenge to the development of competent machines to understand natural language and use it as humans do. Contextuality is an unparalleled phenomenon in quantum mechanics, where different mathematical formalisms have been put forwards to understand and reason about it. In this paper, we construct a schema for anaphoric ambiguities that exhibits quantum-like contextuality. We use a recently developed criterion of sheaf-theoretic contextuality that is applicable to signalling models. We then take advantage of the neural word embedding engine BERT to instantiate the schema to natural language examples and extract probability distributions for the instances. As a result, plenty of sheaf-contextual examples were discovered in the natural language corpora BERT utilises. Our hope is that these examples will pave the way for future research and for finding ways to extend applications of quantum computing to natural language processing.
翻訳日:2022-08-12 12:50:46 公開日:2022-08-11
# オンライン学習のためのヘテロジニアスライングラフトランスフォーマによる算数語問題の自動解法

Solving MathWord Problems Automatically with Heterogeneous Line Graph Transformer for Online Learning ( http://arxiv.org/abs/2208.05645v1 )

ライセンス: Link先を確認
Zijian Hu and Meng Jiang(参考訳) 本稿では,オンライン学習システムのための新しい機械学習モデルの設計と実装について述べるとともに,宿題の修正や難易度推定,優先度推定といった幅広い機能をサポートする自動算術語問題解決システムの実現により,システムの知能レベルの向上を目指す。 元々は既存のモデルを採用する計画でしたが、数学の単語問題をシーケンスやトークンの均質なグラフとして処理していることに気付きました。 実体,単位,レート,数などの複数種類のトークンの関係は無視され,人間可読言語と機械理解可能な論理形式の間の情報ギャップを橋渡しするためにそのような関係データを使用する新しいモデルの設計と実装を決定した。 本稿では,数学用語問題に対する意味的ロールラベリングを通じて異種線グラフを構築し,エッジタイプを意識したノード表現学習を行うヘテロジニアス線グラフトランスフォーマ(hlgt)モデルを提案する。 実世界利用のためのモデルトレーニングを改善するための補助タスクとして数値比較を加える。 実験結果から,提案モデルは既存モデルよりも優れた性能を示し,人的性能よりもはるかに低い結果が得られた。 オンライン学習システムを改善するためには,情報活用と知識発見が継続的に必要となる。

This paper describes the design and implementation of a new machine learning model for online learning systems.We aim at improving the intelligent level of the systems by enabling an automated math word problem solver which can support a wide range of functions such as homework correction, difficulty estimation, and priority recommendation. We originally planned to employ existing models but realized that they processed a math word problem as a sequence or a homogeneous graph of tokens. Relationships between the multiple types of tokens such as entity, unit, rate, and number were ignored.We decided to design and implement a novel model to use such relational data to bridge the information gap between human-readable language and machine-understandable logical form. We propose a heterogeneous line graph transformer (HLGT) model that constructs a heterogeneous line graph via semantic role labeling on math word problems and then perform node representation learning aware of edge types. We add numerical comparison as an auxiliary task to improve model training for real-world use. Experimental results show that the proposed model achieves a better performance than existing models and suggest that it is still far below human performance. Information utilization and knowledge discovery is continuously needed to improve the online learning systems.
翻訳日:2022-08-12 12:50:31 公開日:2022-08-11
# 単語埋め込みによる半音節の単音節と根話動詞の区別

Word-Embeddings Distinguish Denominal and Root-Derived Verbs in Semitic ( http://arxiv.org/abs/2208.05721v1 )

ライセンス: Link先を確認
Ido Benbaji (MIT), Omri Doron (MIT), Ad\`ele H\'enot-Mortier (MIT)(参考訳) 分散形態学フレームワークの支持者は、2つのレベルの形態的単語形成の存在を示唆している: 下位の単語は、緩やかな入力-出力セマンティックな関係につながり、上位の単語は、入力-出力セマンティックな関係に結びつく。 本研究では,ヘブライ語埋め込みの文脈において,この仮定の有効性を検証することを提案する。 2段階の仮説が出された場合、(1) のヘブライ語の埋め込みは、(1) の名詞、(2) から派生した名詞(上位の操作)、(3) の名詞に関連する動詞(名詞の根の下位の操作)をエンコードし、(2) の項が関連する動詞(3) よりも名詞(1) の埋め込み空間に近付くようにして、同一の名詞(1) を符号化することを期待する。 我々は,この仮説を,fastText,GloVe,Word2Vec,AlephBERTの4つの埋め込みモデルを用いて検証した。 これは、単語埋め込みモデルが形態学的に動機づけられた複雑なきめ細かな意味特性を捉えることができることを示唆している。

Proponents of the Distributed Morphology framework have posited the existence of two levels of morphological word formation: a lower one, leading to loose input-output semantic relationships; and an upper one, leading to tight input-output semantic relationships. In this work, we propose to test the validity of this assumption in the context of Hebrew word embeddings. If the two-level hypothesis is borne out, we expect state-of-the-art Hebrew word embeddings to encode (1) a noun, (2) a denominal derived from it (via an upper-level operation), and (3) a verb related to the noun (via a lower-level operation on the noun's root), in such a way that the denominal (2) should be closer in the embedding space to the noun (1) than the related verb (3) is to the same noun (1). We report that this hypothesis is verified by four embedding models of Hebrew: fastText, GloVe, Word2Vec and AlephBERT. This suggests that word embedding models are able to capture complex and fine-grained semantic properties that are morphologically motivated.
翻訳日:2022-08-12 12:50:09 公開日:2022-08-11
# 半教師付き視覚変換器

Semi-supervised Vision Transformers at Scale ( http://arxiv.org/abs/2208.05688v1 )

ライセンス: Link先を確認
Zhaowei Cai, Avinash Ravichandran, Paolo Favaro, Manchen Wang, Davide Modolo, Rahul Bhotika, Zhuowen Tu, Stefano Soatto(参考訳) 視覚トランスフォーマー(vit)のための半教師付き学習(ssl)について検討した。vitアーキテクチャをさまざまなタスクに広く採用しているにも関わらず、未検討のトピックである。 この問題に対処するために,まず un/self-supervised pre-training とsupervised fine-tuning,最後に semi-supervised fine-tuning からなる新しいsslパイプラインを提案する。 前者はより安定しており、半教師付き視覚変換器の精度が高いため、半教師付き微調整段階では、一般的なFixMatchの代わりに指数移動平均(EMA)-Teacherフレームワークを採用する。 さらに,ラベルのないサンプルとそれらの擬似ラベルを補間して正則化を改善する確率的擬似混合機構を提案する。 提案手法はSemi-ViTと呼ばれ,半教師付き分類設定においてCNNと同等あるいは同等の性能を実現する。 semi-vitはvitsのスケーラビリティの利点も享受しており、より信頼性の高い大規模モデルに容易にスケールアップできる。 例えば、Semi-ViT-Hugeは、100% ImageNetラベルを使用するInception-v4に匹敵する1%ラベルのみを使用して、ImageNet上で印象的な80%のトップ1精度を達成する。

We study semi-supervised learning (SSL) for vision transformers (ViT), an under-explored topic despite the wide adoption of the ViT architectures to different tasks. To tackle this problem, we propose a new SSL pipeline, consisting of first un/self-supervised pre-training, followed by supervised fine-tuning, and finally semi-supervised fine-tuning. At the semi-supervised fine-tuning stage, we adopt an exponential moving average (EMA)-Teacher framework instead of the popular FixMatch, since the former is more stable and delivers higher accuracy for semi-supervised vision transformers. In addition, we propose a probabilistic pseudo mixup mechanism to interpolate unlabeled samples and their pseudo labels for improved regularization, which is important for training ViTs with weak inductive bias. Our proposed method, dubbed Semi-ViT, achieves comparable or better performance than the CNN counterparts in the semi-supervised classification setting. Semi-ViT also enjoys the scalability benefits of ViTs that can be readily scaled up to large-size models with increasing accuracies. For example, Semi-ViT-Huge achieves an impressive 80% top-1 accuracy on ImageNet using only 1% labels, which is comparable with Inception-v4 using 100% ImageNet labels.
翻訳日:2022-08-12 12:49:45 公開日:2022-08-11
# 境界伝達型ニューラルネットワーク検証のための一般切断平面

General Cutting Planes for Bound-Propagation-Based Neural Network Verification ( http://arxiv.org/abs/2208.05740v1 )

ライセンス: Link先を確認
Huan Zhang, Shiqi Wang, Kaidi Xu, Linyi Li, Bo Li, Suman Jana, Cho-Jui Hsieh, J. Zico Kolter(参考訳) 境界伝播法は、分岐と束縛を組み合わせることで、正確性、堅牢性、安全性などのディープニューラルネットワークの特性を正式に検証する最も効果的な方法の一つである。 しかし、従来の解法では広く受け入れられる平面制約の一般的な形式は扱えないため、凸緩和が強化された検証器の強化に不可欠である。 本稿では,境界伝播手順を一般化し,既存の境界伝播定式化に現れない緩和された整数変数を含む任意の切断平面制約を付加することを可能にする。 一般化された有界伝播法であるGCP-CROWNは、有界伝播法の効率とGPU加速度の利点を生かしながら、ニューラルネットワーク検証に汎用的切削平面法を適用する機会を開く。 ケーススタディとして、オフザシェルフ混合整数計画法(MIP)によって生成される切断面の使用について検討する。 新しい定式化により, MIPソルバは, 境界プロパゲーションに基づく検証の強化のために高品質な切削面を生成することができることがわかった。 分岐中心の有界伝播プロシージャとカットプレーン中心のMIPソルバは、異なるタイプのハードウェア(GPUとCPU)を用いて並列に動作可能であるため、それらの組み合わせは、強い切断面を持つ多数の分岐を迅速に探索し、高い検証性能をもたらす。 VNN-COMP 2021のベストツールと比較して,oval20ベンチマークを完全に解き,oval21ベンチマークの2倍のインスタンスを検証できる最初の検証器であり,また,幅広いベンチマークにおいて最先端の検証器よりも顕著に優れていることを示す。 GCP-CROWNは、VNN-COMP 2022の勝者である$\alpha$,$\beta$-CROWN検証ツールの一部である。 コードはhttp://PaperCode.cc/GCP-CROWNで入手できる。

Bound propagation methods, when combined with branch and bound, are among the most effective methods to formally verify properties of deep neural networks such as correctness, robustness, and safety. However, existing works cannot handle the general form of cutting plane constraints widely accepted in traditional solvers, which are crucial for strengthening verifiers with tightened convex relaxations. In this paper, we generalize the bound propagation procedure to allow the addition of arbitrary cutting plane constraints, including those involving relaxed integer variables that do not appear in existing bound propagation formulations. Our generalized bound propagation method, GCP-CROWN, opens up the opportunity to apply general cutting plane methods} for neural network verification while benefiting from the efficiency and GPU acceleration of bound propagation methods. As a case study, we investigate the use of cutting planes generated by off-the-shelf mixed integer programming (MIP) solver. We find that MIP solvers can generate high-quality cutting planes for strengthening bound-propagation-based verifiers using our new formulation. Since the branching-focused bound propagation procedure and the cutting-plane-focused MIP solver can run in parallel utilizing different types of hardware (GPUs and CPUs), their combination can quickly explore a large number of branches with strong cutting planes, leading to strong verification performance. Experiments demonstrate that our method is the first verifier that can completely solve the oval20 benchmark and verify twice as many instances on the oval21 benchmark compared to the best tool in VNN-COMP 2021, and also noticeably outperforms state-of-the-art verifiers on a wide range of benchmarks. GCP-CROWN is part of the $\alpha$,$\beta$-CROWN verifier, the VNN-COMP 2022 winner. Code is available at http://PaperCode.cc/GCP-CROWN
翻訳日:2022-08-12 12:49:22 公開日:2022-08-11
# 混合感情を用いた音声合成

Speech Synthesis with Mixed Emotions ( http://arxiv.org/abs/2208.05890v1 )

ライセンス: Link先を確認
Kun Zhou, Berrak Sisman, Rajib Rana, B.W.Schuller, Haizhou Li(参考訳) 感情音声合成は、人間の声を様々な感情効果で合成することを目的としている。 現在の研究は主に、特定の感情タイプに属する平均的なスタイルを模倣することに焦点を当てている。 本稿では,実行時の感情の混合による音声生成を提案する。 異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。 次に、私たちの定式化をシーケンスからシーケンスまでの感情的テキスト音声フレームワークに組み込む。 トレーニング中、フレームワークは感情のスタイルを明示的に特徴付けるだけでなく、他の感情との違いを定量化することで感情の順序的性質を探求する。 実行時には,感情属性ベクトルを手動で定義して,望ましい感情混合を生成するようにモデルを制御する。 提案手法の有効性を客観的および主観的評価により検証した。 本研究は,音声における混合感情のモデル化,合成,評価に関する最初の研究である。

Emotional speech synthesis aims to synthesize human voices with various emotional effects. The current studies are mostly focused on imitating an averaged style belonging to a specific emotion type. In this paper, we seek to generate speech with a mixture of emotions at run-time. We propose a novel formulation that measures the relative difference between the speech samples of different emotions. We then incorporate our formulation into a sequence-to-sequence emotional text-to-speech framework. During the training, the framework does not only explicitly characterize emotion styles, but also explores the ordinal nature of emotions by quantifying the differences with other emotions. At run-time, we control the model to produce the desired emotion mixture by manually defining an emotion attribute vector. The objective and subjective evaluations have validated the effectiveness of the proposed framework. To our best knowledge, this research is the first study on modelling, synthesizing and evaluating mixed emotions in speech.
翻訳日:2022-08-12 12:48:32 公開日:2022-08-11
# クラスインクリメンタル学習のための補足ネットワークの記憶

Memorizing Complementation Network for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2208.05610v1 )

ライセンス: Link先を確認
Zhong Ji, Zhishen Hou, Xiyao Liu, Yanwei Pang, Xuelong Li(参考訳) FSCIL(Few-shot Class-Incremental Learning)は、少数のサンプルで新しい概念を継続的に学習することを目的としている。 古いクラスが使えないことや、新しいサンプルが不足していることは、古い知識の保持と新しい概念の学習のトレードオフを実現するのに役立ちます。 異なるモデルが新しい概念を学ぶ際に異なる知識を記憶することに触発され、異なる記憶された知識を新しいタスクで補完する複数のモデルを統合するための記憶補完ネットワーク(mcnet)を提案する。 さらに, 新規なサンプル数が少ないモデルを更新するために, 現行のタスクだけでなく, 古い分布からも新しいサンプルを遠ざけるために, ハードマイニング・トリプルト (psht) 損失を平滑化するプロトタイプを開発した。 CIFAR100, miniImageNet, CUB200 の3つのベンチマークデータセットに対する大規模な実験により,提案手法の優位性を実証した。

Few-shot Class-Incremental Learning (FSCIL) aims at learning new concepts continually with only a few samples, which is prone to suffer the catastrophic forgetting and overfitting problems. The inaccessibility of old classes and the scarcity of the novel samples make it formidable to realize the trade-off between retaining old knowledge and learning novel concepts. Inspired by that different models memorize different knowledge when learning novel concepts, we propose a Memorizing Complementation Network (MCNet) to ensemble multiple models that complements the different memorized knowledge with each other in novel tasks. Additionally, to update the model with few novel samples, we develop a Prototype Smoothing Hard-mining Triplet (PSHT) loss to push the novel samples away from not only each other in current task but also the old distribution. Extensive experiments on three benchmark datasets, e.g., CIFAR100, miniImageNet and CUB200, have demonstrated the superiority of our proposed method.
翻訳日:2022-08-12 12:48:19 公開日:2022-08-11
# figo:ganとワンショット学習技術を用いた指紋識別の強化

FIGO: Enhanced Fingerprint Identification Approach Using GAN and One Shot Learning Techniques ( http://arxiv.org/abs/2208.05615v1 )

ライセンス: Link先を確認
Ibrahim Yilmaz(参考訳) 指紋証拠は個人識別のための刑事捜査において重要な役割を果たす。 指紋の分類や特徴抽出には様々な技術が提案されているが、指紋の自動識別はまだ初期段階にある。 従来の \textit{Automatic Fingerprint Identification System (AFIS) の性能は、有効な微妙な点の存在に依存し、特徴抽出と識別段階において人間の専門的な支援を必要とする。 このモチベーションに基づいて、生成的対向ネットワークとワンショット学習技術(FIGO)に基づく指紋識別手法を提案する。 我々のソリューションには、指紋強調層と指紋識別層という2つのコンポーネントが含まれている。 まず,低画質の指紋画像を,指紋強調層に直接画素を向けて高レベルの指紋画像に変換するPix2Pixモデルを提案する。 提案アルゴリズムでは,指紋識別モデルの性能が大幅に向上した。 さらに,指紋装置の認識精度を観測することにより,提案したモデルと比較するためのベンチマークとして,Gaborフィルタに基づく既存ソリューションを開発した。 実験の結果,提案したPix2pixモデルは指紋認証のベースラインアプローチよりもサポートが優れていることがわかった。 第2に,指紋識別プロセスにおいて,各指紋を他の指紋と区別するために,ワンショット学習アプローチを用いた完全自動指紋特徴抽出モデルを構築した。 この過程で特徴ベクトルを得るために、共有重みとパラメータを持つ2つの双対畳み込みニューラルネットワーク(CNN)を用いる。 提案手法を用いて,1つのトレーニングサンプルのみから必要な情報を高精度に学習できることを実証した。

Fingerprint evidence plays an important role in a criminal investigation for the identification of individuals. Although various techniques have been proposed for fingerprint classification and feature extraction, automated fingerprint identification of fingerprints is still in its earliest stage. The performance of traditional \textit{Automatic Fingerprint Identification System} (AFIS) depends on the presence of valid minutiae points and still requires human expert assistance in feature extraction and identification stages. Based on this motivation, we propose a Fingerprint Identification approach based on Generative adversarial network and One-shot learning techniques (FIGO). Our solution contains two components: fingerprint enhancement tier and fingerprint identification tier. First, we propose a Pix2Pix model to transform low-quality fingerprint images to a higher level of fingerprint images pixel by pixel directly in the fingerprint enhancement tier. With the proposed enhancement algorithm, the fingerprint identification model's performance is significantly improved. Furthermore, we develop another existing solution based on Gabor filters as a benchmark to compare with the proposed model by observing the fingerprint device's recognition accuracy. Experimental results show that our proposed Pix2pix model has better support than the baseline approach for fingerprint identification. Second, we construct a fully automated fingerprint feature extraction model using a one-shot learning approach to differentiate each fingerprint from the others in the fingerprint identification process. Two twin convolutional neural networks (CNNs) with shared weights and parameters are used to obtain the feature vectors in this process. Using the proposed method, we demonstrate that it is possible to learn necessary information from only one training sample with high accuracy.
翻訳日:2022-08-12 12:47:58 公開日:2022-08-11
# 行列完全化のための適応的および暗黙的正則化

Adaptive and Implicit Regularization for Matrix Completion ( http://arxiv.org/abs/2208.05640v1 )

ライセンス: Link先を確認
Zhemin Li, Tao Sun, Hongxia Wang, Bao Wang(参考訳) 明示的な低ランク正則化、例えば核ノルム正則化は画像科学で広く用いられている。 しかし、暗黙の正規化は様々な画像処理タスクにおいて明示的なものよりも優れていることが判明している。 別の問題は、異なる画像が異なる明示的正規化によってキャプチャされる異なる特徴を好むため、固定された明示的正規化は広い画像に適用性を制限することである。 そこで本研究では,トレーニングデータから低ランク先行を動的にキャプチャする適応的で暗黙の低ランク正規化を提案する。 新たな適応的かつ暗黙的な低ランク正規化の中核は、ディリクレエネルギーベース正規化においてラプラス行列をパラメータ化することであり、これは正規化 AIR と呼ばれる。 理論的には, \ReTwo{AIR} の適応正規化によって暗黙正規化が促進され, 訓練終了時に消滅することを示す。 私たちはAIRの有効性を様々なベンチマークタスクで検証し、欠落したエントリが一様でない場合、AIRは特にシナリオに好適であることを示す。 コードはhttps://github.com/lizhemin15/AIR-Netで見ることができる。

The explicit low-rank regularization, e.g., nuclear norm regularization, has been widely used in imaging sciences. However, it has been found that implicit regularization outperforms explicit ones in various image processing tasks. Another issue is that the fixed explicit regularization limits the applicability to broad images since different images favor different features captured by different explicit regularizations. As such, this paper proposes a new adaptive and implicit low-rank regularization that captures the low-rank prior dynamically from the training data. The core of our new adaptive and implicit low-rank regularization is parameterizing the Laplacian matrix in the Dirichlet energy-based regularization, which we call the regularization AIR. Theoretically, we show that the adaptive regularization of \ReTwo{AIR} enhances the implicit regularization and vanishes at the end of training. We validate AIR's effectiveness on various benchmark tasks, indicating that the AIR is particularly favorable for the scenarios when the missing entries are non-uniform. The code can be found at https://github.com/lizhemin15/AIR-Net.
翻訳日:2022-08-12 12:47:34 公開日:2022-08-11
# 脳活動からの視覚刺激の自己教師付きクロスモーダル検索

See What You See: Self-supervised Cross-modal Retrieval of Visual Stimuli from Brain Activity ( http://arxiv.org/abs/2208.03666v3 )

ライセンス: Link先を確認
Zesheng Ye, Lina Yao, Yu Zhang, Sylvia Gustin(参考訳) 最近の研究では、脳波からの視覚刺激に対する人間の知覚を表現した画像を生成するために2段階の教師付きフレームワークの使用が実証されている。 しかし、合成された画像が何であるかを決定するデータではなく、人間の指定した画像の注釈であるため、正確な視覚刺激を再現できない。 さらに、合成画像は、しばしばノイズの多い脳波エンコーディングや、生成モデルの不安定な訓練に悩まされ、認識が困難になる。 そこで我々は,2つのモダリティのデータをアノテーションとは対照的に関連付け,脳波クリップの正確な視覚刺激を復元する,単一段階の脳波視覚検索パラダイムを提案する。 脳波エンコーディングと関連する視覚刺激の相互情報をコントラスト的自己監督目標の最適化により最大化し、さらに2つの利点をもたらす。 ひとつは、学習がクラスアノテーションを指向していないため、トレーニング中に見られるもの以上の視覚クラスをEEGエンコーディングで処理できることだ。 さらに、このモデルはもはや視覚刺激の全詳細を生成する必要はなく、むしろクロスモーダルアライメントに焦点を当て、インスタンスレベルで画像を取得し、区別可能なモデル出力を確実にする。 画像刺激によって誘発される脳活動を測定する最大の単射脳波データセットについて実証的研究を行った。 提案手法は,既存の手法では不可能であるeeg-visual searchタスクを完了させる。 また,脳波および視覚エンコーダ構造の範囲についても検討した。 さらに、クラスアノテーションを使用しないにもかかわらず、主に研究されたセマンティックレベルの脳波視覚分類タスクにおいて、提案手法は最先端の教師付き脳波視覚再構成アプローチ、特にオープンクラス認識能力に優れる。

Recent studies demonstrate the use of a two-stage supervised framework to generate images that depict human perception to visual stimuli from EEG, referring to EEG-visual reconstruction. They are, however, unable to reproduce the exact visual stimulus, since it is the human-specified annotation of images, not their data, that determines what the synthesized images are. Moreover, synthesized images often suffer from noisy EEG encodings and unstable training of generative models, making them hard to recognize. Instead, we present a single-stage EEG-visual retrieval paradigm where data of two modalities are correlated, as opposed to their annotations, allowing us to recover the exact visual stimulus for an EEG clip. We maximize the mutual information between the EEG encoding and associated visual stimulus through optimization of a contrastive self-supervised objective, leading to two additional benefits. One, it enables EEG encodings to handle visual classes beyond seen ones during training, since learning is not directed at class annotations. In addition, the model is no longer required to generate every detail of the visual stimulus, but rather focuses on cross-modal alignment and retrieves images at the instance level, ensuring distinguishable model output. Empirical studies are conducted on the largest single-subject EEG dataset that measures brain activities evoked by image stimuli. We demonstrate the proposed approach completes an instance-level EEG-visual retrieval task which existing methods cannot. We also examine the implications of a range of EEG and visual encoder structures. Furthermore, for a mostly studied semantic-level EEG-visual classification task, despite not using class annotations, the proposed method outperforms state-of-the-art supervised EEG-visual reconstruction approaches, particularly on the capability of open class recognition.
翻訳日:2022-08-12 11:13:14 公開日:2022-08-11
# モンテカルロ木探索によるシンボリック音楽生成における感情知覚の制御

Controlling Perceived Emotion in Symbolic Music Generation with Monte Carlo Tree Search ( http://arxiv.org/abs/2208.05162v2 )

ライセンス: Link先を確認
Lucas N. Ferreira, Lili Mou, Jim Whitehead, Levi H. S. Lelis(参考訳) 本論文ではモンテカルロ木探索を用いたシンボリック音楽生成における感情制御手法を提案する。 モンテカルロ木探索をデコード機構として用いて,言語モデルで学習した確率分布を与えられた感情に向けて制御する。 復号処理の各ステップでは,木(puct)に対する予測子上信頼度を用いて,感情分類器と判別器が与える感情の平均値と品質を最大化するシーケンスを探索する。 puctのポリシーとして言語モデルを使用し、感情分類器と判別器をその価値関数として組み合わせます。 楽曲中の次のトークンをデコードするために、検索中に生成されたノード訪問の分布からサンプルを作成する。 生成したサンプルから直接計算した客観的な測定値の集合を用いて, 生成したサンプルの品質を評価する。 また, 被験者が生成したサンプルの質や感情をどのように知覚するかを評価するために, ユーザ調査を行った。 PUCTとSBBS(Stochastic Bi-Objective Beam Search)とCS(Conditional Smpling)を比較した。 その結果,PUCTは音楽の質や感情の指標のほとんどすべてにおいて,SBBSやCSよりも優れていた。

This paper presents a new approach for controlling emotion in symbolic music generation with Monte Carlo Tree Search. We use Monte Carlo Tree Search as a decoding mechanism to steer the probability distribution learned by a language model towards a given emotion. At every step of the decoding process, we use Predictor Upper Confidence for Trees (PUCT) to search for sequences that maximize the average values of emotion and quality as given by an emotion classifier and a discriminator, respectively. We use a language model as PUCT's policy and a combination of the emotion classifier and the discriminator as its value function. To decode the next token in a piece of music, we sample from the distribution of node visits created during the search. We evaluate the quality of the generated samples with respect to human-composed pieces using a set of objective metrics computed directly from the generated samples. We also perform a user study to evaluate how human subjects perceive the generated samples' quality and emotion. We compare PUCT against Stochastic Bi-Objective Beam Search (SBBS) and Conditional Sampling (CS). Results suggest that PUCT outperforms SBBS and CS in almost all metrics of music quality and emotion.
翻訳日:2022-08-12 11:12:44 公開日:2022-08-11
# 大規模レコメンデーションのための高速オフラインポリシー最適化

Fast Offline Policy Optimization for Large Scale Recommendation ( http://arxiv.org/abs/2208.05327v2 )

ライセンス: Link先を確認
Otmane Sakhi, David Rohde, Alexandre Gilotte(参考訳) 推薦システムのようなパーソナライズされた対話システムは、コンテキストに依存する関連する項目を選択する必要がある。 生産システムは、最大内積探索技術を用いて効率的に解決できる非常に大きなカタログから素早くアイテムを識別する必要がある。 最大内部積探索のオフライン最適化は、ポリシー学習や強化スタイル学習アルゴリズムをもたらす離散的な問題の緩和によって達成できる。 残念なことに、この緩和ステップではカタログ全体の和を計算し、カタログサイズで線形な勾配(したがって各確率的勾配降下イテレーション)の評価を複雑にする。 この計算は、大カタログレコメンデータシステムのような実世界の多くの例では、実際にこの方法の有用性を厳しく制限している。 本稿では、カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの優れた近似を生成することができるかを示す。 我々の貢献は、政策の勾配の新たなモンテカルロ推定法、自己正規化重要度サンプリング推定法、訓練時の高速最大内積探索法という3つの新しいアイデアの組み合わせに基づいている。 広範な実験により、このアルゴリズムはナイーブなアプローチよりも桁違いに速いが、等しく良いポリシーをつくりだすことが示されている。

Personalised interactive systems such as recommender systems require selecting relevant items dependent on context. Production systems need to identify the items rapidly from very large catalogues which can be efficiently solved using maximum inner product search technology. Offline optimisation of maximum inner product search can be achieved by a relaxation of the discrete problem resulting in policy learning or reinforce style learning algorithms. Unfortunately this relaxation step requires computing a sum over the entire catalogue making the complexity of the evaluation of the gradient (and hence each stochastic gradient descent iterations) linear in the catalogue size. This calculation is untenable in many real world examples such as large catalogue recommender systems severely limiting the usefulness of this method in practice. In this paper we show how it is possible to produce an excellent approximation of these policy learning algorithms that scale logarithmically with the catalogue size. Our contribution is based upon combining three novel ideas: a new Monte Carlo estimate of the gradient of a policy, the self normalised importance sampling estimator and the use of fast maximum inner product search at training time. Extensive experiments show our algorithm is an order of magnitude faster than naive approaches yet produces equally good policies.
翻訳日:2022-08-12 11:11:54 公開日:2022-08-11
# 連続時間線形2次強化学習のためのエントロピー正規化器の最適スケジューリング

Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning ( http://arxiv.org/abs/2208.04466v2 )

ライセンス: Link先を確認
Lukasz Szpruch, Tanut Treetanthiploet, Yufei Zhang(参考訳) 本研究は、エントロピー正規化緩和確率制御視点を、強化学習(rl)アルゴリズムを設計するための原理的枠組みとして用いる。 ここでエージェントは、最適な緩和ポリシーに従って分布するノイズ制御を生成して環境と相互作用する。 一方、ノイズの多い政策は、空間を探索し、学習を促進するが、一方、非最適行動に正の確率を割り当てることでバイアスを導入する。 この探索-探索トレードオフはエントロピー正規化の強さによって決定される。 本研究では,2つのエントロピー規則の定式化から得られたアルゴリズムについて検討する。エントロピーをコスト目標に加える探索的制御アプローチと,エントロピーが2回連続するポリシーのばらつきを解析する近親政策更新アプローチである。 両アルゴリズムがガウス緩和ポリシーを導出する有限地平線連続時間線形四元数(LQ)RL問題を解析する。 ガウスポリシーの値関数とノイズ評価との正確な差を定量化し、実行ノイズが時間とともに独立でなければならないことを示す。 緩和されたポリシーからのサンプリング頻度とエントロピー正規化の強さを規定するパラメータをチューニングすることにより、両方の学習アルゴリズムにとって後悔は、$\mathcal{o}(\sqrt{n}) $(対数係数まで)が$n$のエピソード以上であり、文献から最もよく知られた結果と一致することを証明する。

This work uses the entropy-regularised relaxed stochastic control perspective as a principled framework for designing reinforcement learning (RL) algorithms. Herein agent interacts with the environment by generating noisy controls distributed according to the optimal relaxed policy. The noisy policies, on the one hand, explore the space and hence facilitate learning but, on the other hand, introduce bias by assigning a positive probability to non-optimal actions. This exploration-exploitation trade-off is determined by the strength of entropy regularisation. We study algorithms resulting from two entropy regularisation formulations: the exploratory control approach, where entropy is added to the cost objective, and the proximal policy update approach, where entropy penalises the divergence of policies between two consecutive episodes. We analyse the finite horizon continuous-time linear-quadratic (LQ) RL problem for which both algorithms yield a Gaussian relaxed policy. We quantify the precise difference between the value functions of a Gaussian policy and its noisy evaluation and show that the execution noise must be independent across time. By tuning the frequency of sampling from relaxed policies and the parameter governing the strength of entropy regularisation, we prove that the regret, for both learning algorithms, is of the order $\mathcal{O}(\sqrt{N}) $ (up to a logarithmic factor) over $N$ episodes, matching the best known result from the literature.
翻訳日:2022-08-12 11:11:37 公開日:2022-08-11
# メタバースxurllcサービスの注意対応リソース割り当てとqoe分析

Attention-aware Resource Allocation and QoE Analysis for Metaverse xURLLC Services ( http://arxiv.org/abs/2208.05438v2 )

ライセンス: Link先を確認
Hongyang Du, Jiazhen Liu, Dusit Niyato, Jiawen Kang, Zehui Xiong, Junshan Zhang, and Dong In Kim(参考訳) 現実世界と対話する仮想世界として,Metaverseは次世代インターネットへの期待をカプセル化し,新たなキーパフォーマンス指標(KPI)を提供する。 特に、仮想移動のようなグラフィカルな技術に基づくMetaverseサービスは、仮想オブジェクトデータ転送の低レイテンシとユーザ命令のアップロードの高信頼性を必要とする。 従来の超信頼性・低レイテンシ通信(URLLC)は、ほとんどの対象サービスKPIを満足するが、次世代インターネットサービスの特徴であるパーソナライズされた没入感体験を提供することは困難である。 クオリティ・オブ・エクスペリエンス(QoE)は総合的なKPIとみなすことができるため、URLLCは次世代のURLLC(xURLLC)に向けて進化し、より多くのリソースをユーザがより興味を持つ仮想オブジェクトに割り当てることで、Metaverseサービスのより高いQoEを実現する。 本稿では,Metaverse xURLLCサービスを展開するために,Metaverseサービスプロバイダ(MSP)とネットワークインフラストラクチャプロバイダ(InP)のインタラクションを検討する。 最適なコントラクト設計フレームワークが提供される。 具体的には、メタバースユーザーのQoEの関数として定義されたMSPの効用を最大化し、InPのインセンティブを確実にする。 メタバースxurllcサービスのqoeをモデル化するために,ターゲットネットワークkpiとメタバースユーザの主観的感情の両方を組み込んだメタ没入という新しい指標を提案する。 ユーザ・オブジェクト・アテンション・レベル(uoal)データセットを用いて、注意対応レンダリング能力割当スキームの開発と検証を行い、qoeを改善する。 平均20.1%のQoE改善が xURLLC によって達成されることを示す。 qoeの改善率(例えば40%)は、総リソースが制限されたときに達成される。

As a virtual world interacting with the real world, Metaverse encapsulates our expectations of the next-generation Internet, bringing new key performance indicators (KPIs). Especially, Metaverse services based on graphical technologies, e.g., virtual traveling, require the low latency of virtual object data transmitting and the high reliability of user instruction uploading. Although conventional ultra-reliable and low-latency communications (URLLC) can satisfy the vast majority of objective service KPIs, it is difficult to offer users a personalized immersive experience that is a distinctive feature of next-generation Internet services. Since the quality of experience (QoE) can be regarded as a comprehensive KPI, the URLLC is evolved towards the next generation URLLC (xURLLC) to achieve higher QoE for Metaverse services by allocating more resources to virtual objects in which users are more interested. In this paper, we study the interaction between the Metaverse service provider (MSP) and the network infrastructure provider (InP) to deploy Metaverse xURLLC services. An optimal contract design framework is provided. Specifically, the utility of the MSP, defined as a function of Metaverse users' QoE, is to be maximized, while ensuring the incentives of the InP. To model the QoE of Metaverse xURLLC services, we propose a novel metric named Meta-Immersion that incorporates both the objective network KPIs and subjective feelings of Metaverse users. Using a user-object-attention level (UOAL) dataset, we develop and validate an attention-aware rendering capacity allocation scheme to improve QoE. It is shown that an average of 20.1% QoE improvement is achieved by the xURLLC compared to the conventional URLLC with the uniform allocation scheme. A higher percentage of QoE improvement, e.g., 40%, is achieved when the total resources are limited.
翻訳日:2022-08-12 11:11:09 公開日:2022-08-11
# CLIPガイド付きグループ最適化による識別画像のキャプション

Distinctive Image Captioning via CLIP Guided Group Optimization ( http://arxiv.org/abs/2208.04254v3 )

ライセンス: Link先を確認
Youyuan Zhang, Jiuniu Wang, Hao Wu, Wenjia Xu(参考訳) 画像キャプションモデルは通常、人間の注釈付き接地木キャプションに基づいて訓練され、正確だが汎用的なキャプションを生成する。 本稿では,対象画像を他の類似画像と区別できる特徴的なキャプションを生成することに焦点を当てる。 キャプションの特異性を評価するために,大規模視覚言語事前学習モデルCLIPを用いて特徴度を定量化する一連の指標を提案する。 キャプションモデルの特異性をさらに向上するため,ターゲット画像と類似画像群を比較し,グループ埋め込みギャップを最適化することにより,モデルのトレーニングを行う簡易かつ効果的なトレーニング戦略を提案する。 様々なベースラインモデルを用いて,我々の戦略の広範な適用性,および測定結果と人的評価との整合性を示す実験を行った。 我々の最良のモデルのパフォーマンスを既存の最先端モデルと比較することで、我々のモデルは識別性目標に向けて新しい最先端モデルを達成していると主張する。

Image captioning models are usually trained according to human annotated ground-truth captions, which could generate accurate but generic captions. In this paper, we focus on generating the distinctive captions that can distinguish the target image from other similar images. To evaluate the distinctiveness of captions, we introduce a series of metrics that use large-scale vision-language pre-training model CLIP to quantify the distinctiveness. To further improve the distinctiveness of captioning models, we propose a simple and effective training strategy which trains the model by comparing target image with similar image group and optimizing the group embedding gap. Extensive experiments are conducted on various baseline models to demonstrate the wide applicability of our strategy and the consistency of metric results with human evaluation. By comparing the performance of our best model with existing state-of-the-art models, we claim that our model achieves new state-of-the-art towards distinctiveness objective.
翻訳日:2022-08-12 11:10:33 公開日:2022-08-11
# RWSeg: 3Dインスタンスセグメンテーションにおいてランダムウォークと競合するクロスグラフ

RWSeg: Cross-graph Competing Random Walks for Weakly Supervised 3D Instance Segmentation ( http://arxiv.org/abs/2208.05110v2 )

ライセンス: Link先を確認
Shichao Dong, Ruibo Li, Jiacheng Wei, Fayao Liu, Guosheng Lin(参考訳) 3dポイントクラウド上のインスタンスセグメンテーションは、その幅広い応用、特にシーン理解領域によって、注目を集めている。 しかし、既存のほとんどの手法では、トレーニングデータを完全に注釈付けする必要がある。 地中ラベルをポイントレベルで手作業で準備するのは面倒で手間がかかります。 この問題に対処するため,我々は,一つのオブジェクトを一つのポイントでラベリングするだけでよい,新しい弱教師付きメソッドrwsegを提案する。 これらの疎弱なラベルを用いて,セマンティクス情報とインスタンス情報をそれぞれ未知の領域に伝達する2つのブランチによる統一フレームワークを導入する。 さらに、密配置されたオブジェクトのあいまいさを解消し、インスタンス割り当て時のパフォーマンスを改善するために、異なるインスタンスグラフ間の競合を促すクロスグラフ競合ランダムウォークス(CGCRW)アルゴリズムを提案する。 RWSegは定性的なインスタンスレベルの擬似ラベルを生成することができる。 ScanNet-v2およびS3DISデータセットによる実験結果から,本手法は完全教師付き手法と同等の性能を示し,従来の弱教師付き手法よりも大きなマージンで優れていた。 これは、この地域における弱者と完全な監督の間のギャップを埋める最初の仕事である。

Instance segmentation on 3D point clouds has been attracting increasing attention due to its wide applications, especially in scene understanding areas. However, most existing methods require training data to be fully annotated. Manually preparing ground-truth labels at point-level is very cumbersome and labor-intensive. To address this issue, we propose a novel weakly supervised method RWSeg that only requires labeling one object with one point. With these sparse weak labels, we introduce a unified framework with two branches to propagate semantic and instance information respectively to unknown regions, using self-attention and random walk. Furthermore, we propose a Cross-graph Competing Random Walks (CGCRW) algorithm which encourages competition among different instance graphs to resolve ambiguities in closely placed objects and improve the performance on instance assignment. RWSeg can generate qualitative instance-level pseudo labels. Experimental results on ScanNet-v2 and S3DIS datasets show that our approach achieves comparable performance with fully-supervised methods and outperforms previous weakly-supervised methods by large margins. This is the first work that bridges the gap between weak and full supervision in the area.
翻訳日:2022-08-12 11:10:15 公開日:2022-08-11
# ロバストハッシュを用いた時間操作映像の検出法

A Detection Method of Temporally Operated Videos Using Robust Hashing ( http://arxiv.org/abs/2208.05198v2 )

ライセンス: Link先を確認
Shoko Niwa, Miki Tanaka, Hitoshi Kiya(参考訳) SNSプロバイダは、アップロードされたビデオ/画像の再圧縮と再サイズを行うことが知られているが、従来のビデオ/画像の検出方法は、そのような操作に対して十分に堅牢ではない。 また,新しいフレームの挿入やフレームの置換など,従来の方法では検出が困難であった映像を時間的に操作する。 そこで本研究では,ビデオに縮小圧縮を適用した場合でも,時間的に操作されたビデオを検出する頑健なハッシュアルゴリズムを提案する。

SNS providers are known to carry out the recompression and resizing of uploaded videos/images, but most conventional methods for detecting tampered videos/images are not robust enough against such operations. In addition, videos are temporally operated such as the insertion of new frames and the permutation of frames, of which operations are difficult to be detected by using conventional methods. Accordingly, in this paper, we propose a novel method with a robust hashing algorithm for detecting temporally operated videos even when applying resizing and compression to the videos.
翻訳日:2022-08-12 11:09:53 公開日:2022-08-11
# 集団カウントのためのマルチスケール特徴集合

Multi-scale Feature Aggregation for Crowd Counting ( http://arxiv.org/abs/2208.05256v2 )

ライセンス: Link先を確認
Xiaoheng Jiang, Xinyi Wu, Hisham Cholakkal, Rao Muhammad Anwer, Jiale Cao Mingliang Xu, Bing Zhou, Yanwei Pang and Fahad Shahbaz Khan(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく群集カウント手法は,ここ数年で有望な成果を上げてきた。 しかし、スケール変動問題は正確なカウント推定には依然として大きな課題である。 本稿では,この問題をある程度緩和できるマルチスケール機能集約ネットワーク(MSFANet)を提案する。 具体的には,ショートアグリゲーション(ShortAgg)とスキップアグリゲーション(SkipAgg)の2つの機能アグリゲーションモジュールからなる。 ShortAggモジュールは、隣接する畳み込みブロックの特徴を集約する。 その目的は、異なる受容野を持つ機能をネットワークの下部から上部へと徐々に融合させることである。 skipaggモジュールは、小さな受容フィールドを持つ機能を、より大きな受容フィールドを持つ機能に直接伝達する。 その目的は、小さくて大きな受容野との融合を促進することである。 特に、SkipAggモジュールは、Swin Transformerブロックからローカルな自己アテンション機能を導入し、豊富な空間情報を組み込む。 さらに,非一様群集分布を考慮した地域・地域別カウント損失を提案する。 挑戦的な4つのデータセット(shanghaitech dataset, ucf_cc_50 dataset, ucf-qnrf dataset, worldexpo'10 dataset)に関する広範な実験により、提案されている実装が容易なmsfanetは、これまでの最先端のアプローチと比較して有望な結果が得られることが示されている。

Convolutional Neural Network (CNN) based crowd counting methods have achieved promising results in the past few years. However, the scale variation problem is still a huge challenge for accurate count estimation. In this paper, we propose a multi-scale feature aggregation network (MSFANet) that can alleviate this problem to some extent. Specifically, our approach consists of two feature aggregation modules: the short aggregation (ShortAgg) and the skip aggregation (SkipAgg). The ShortAgg module aggregates the features of the adjacent convolution blocks. Its purpose is to make features with different receptive fields fused gradually from the bottom to the top of the network. The SkipAgg module directly propagates features with small receptive fields to features with much larger receptive fields. Its purpose is to promote the fusion of features with small and large receptive fields. Especially, the SkipAgg module introduces the local self-attention features from the Swin Transformer blocks to incorporate rich spatial information. Furthermore, we present a local-and-global based counting loss by considering the non-uniform crowd distribution. Extensive experiments on four challenging datasets (ShanghaiTech dataset, UCF_CC_50 dataset, UCF-QNRF Dataset, WorldExpo'10 dataset) demonstrate the proposed easy-to-implement MSFANet can achieve promising results when compared with the previous state-of-the-art approaches.
翻訳日:2022-08-12 11:09:43 公開日:2022-08-11
# 注意に基づく交通予測モデル改善のためのビジュアル分析システム

A Visual Analytics System for Improving Attention-based Traffic Forecasting Models ( http://arxiv.org/abs/2208.04350v2 )

ライセンス: Link先を確認
Seungmin Jin, Hyunwook Lee, Cheonbok Park, Hyeshin Chu, Yunwon Tae, Jaegul Choo, Sungahn Ko(参考訳) 深層学習(DL)は様々なタスクの従来の手法よりも優れており、様々な領域におけるDLの利用に多くの努力が注がれている。 トラフィックドメインの研究者と開発者は、交通速度の推定や到着時刻などのタスクを予測するdlモデルの設計と改善も行なっている。 しかしながら、dlモデルのブラックボックス特性とトラフィックデータの複雑さ(時空間依存性)のため、dlモデルの解析には多くの課題がある。 ドメインエキスパートと共同で視覚分析システムであるAttnAnalyzerを設計し,効率的な時空間依存分析を行うことで,DLモデルがどのように予測を行うかを検討する。 このシステムは動的時間ワーキング(DTW)とグランガー因果性テスト(Granger causality test)を内蔵し、マップ、テーブル、ラインチャート、ピクセルビューを提供し、ユーザが依存性やモデル動作の分析を行うのを支援する。 本研究では,AttnAnalyzerがモデル動作を効果的に探索し,2つの異なる道路網におけるモデル性能を向上させる方法を示す。 ドメインエキスパートのフィードバックも提供します。

With deep learning (DL) outperforming conventional methods for different tasks, much effort has been devoted to utilizing DL in various domains. Researchers and developers in the traffic domain have also designed and improved DL models for forecasting tasks such as estimation of traffic speed and time of arrival. However, there exist many challenges in analyzing DL models due to the black-box property of DL models and complexity of traffic data (i.e., spatio-temporal dependencies). Collaborating with domain experts, we design a visual analytics system, AttnAnalyzer, that enables users to explore how DL models make predictions by allowing effective spatio-temporal dependency analysis. The system incorporates dynamic time warping (DTW) and Granger causality tests for computational spatio-temporal dependency analysis while providing map, table, line chart, and pixel views to assist user to perform dependency and model behavior analysis. For the evaluation, we present three case studies showing how AttnAnalyzer can effectively explore model behaviors and improve model performance in two different road networks. We also provide domain expert feedback.
翻訳日:2022-08-12 11:09:03 公開日:2022-08-11
# 高結合生物データのクラスタリング最適化法

Clustering Optimisation Method for Highly Connected Biological Data ( http://arxiv.org/abs/2208.04720v2 )

ライセンス: Link先を確認
Richard Tj\"ornhammar(参考訳) 現在、生物科学におけるデータ駆動発見は、データの賢明な記述を生成する多変量データにおけるセグメンテーション戦略を見つけることにある。 クラスタリングはいくつかのアプローチの1つであり、合理的なカットオフを評価するのが難しいこと、必要なクラスタの数、あるいはアプローチが元のシステムのトポロジ的特性をクラスタ化形式で保存するのに失敗するため、時には不足する。 本研究では,接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。 作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。 その結果生じるクラスタリングアプローチは、クラスタリングの固有の特性に由来するメトリクスのみに依存します。 この新しい手法は、実装が容易な最適化クラスタリングの知識を促進する。 本稿では,クラスタリング最適化戦略が最終セグメンテーションによって得られる情報内容とどのように対応するかについて議論する。 さらに,クラスタ化の結果を最適解として,3つの異なるデータセットの事前知識にどのように対応させるか,さらに詳しく述べる。

Currently, data-driven discovery in biological sciences resides in finding segmentation strategies in multivariate data that produce sensible descriptions of the data. Clustering is but one of several approaches and sometimes falls short because of difficulties in assessing reasonable cutoffs, the number of clusters that need to be formed or that an approach fails to preserve topological properties of the original system in its clustered form. In this work, we show how a simple metric for connectivity clustering evaluation leads to an optimised segmentation of biological data. The novelty of the work resides in the creation of a simple optimisation method for clustering crowded data. The resulting clustering approach only relies on metrics derived from the inherent properties of the clustering. The new method facilitates knowledge for optimised clustering, which is easy to implement. We discuss how the clustering optimisation strategy corresponds to the viable information content yielded by the final segmentation. We further elaborate on how the clustering results, in the optimal solution, corresponds to prior knowledge of three different data sets.
翻訳日:2022-08-12 11:08:42 公開日:2022-08-11