このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220110となっている論文です。

PDF登録状況(公開日: 20220110)

TitleAuthorsAbstract論文公表日・翻訳日
# 視覚認知過程を模倣しテクスチャ型バイアスを正すcnn教育

Teaching CNNs to mimic Human Visual Cognitive Process & regularise Texture-Shape bias ( http://arxiv.org/abs/2006.14722v2 )

ライセンス: Link先を確認
Satyam Mohla, Anshul Nasery and Biplab Banerjee(参考訳) コンピュータビジョンにおける最近の実験は、畳み込みニューラルネットワーク(CNN)を用いたモデルにおいて、テクスチャバイアスが最高の結果の主因であることを示した。 コスト関数はcnnに欲深いアプローチをとらせ、テクスチャのような局所的な情報による精度向上の促進を迫られ、世界的統計の探索に失敗したと考えられている。 画像の再構成と分類に形状,テクスチャ,エッジなどの人間の解釈可能な特徴を活用するために,心理学における特徴統合理論から着想を得た,新しい直感的なアーキテクチャであるCognitiveCNNを提案する。 我々は,これらのモダリティに存在する「抽象情報」の「関連性」をアテンションマップを用いて定量化するための新しい指標を定義する。 さらに, 形状, テクスチャなどの各モダリティが, 特定のタスクに比例的に影響を及ぼすことを保証し, それらのcnnに説明可能性を与え, オブジェクト認識性能を向上させるとともに, 精度と頑健性の向上を示す実験を行う。

Recent experiments in computer vision demonstrate texture bias as the primary reason for supreme results in models employing Convolutional Neural Networks (CNNs), conflicting with early works claiming that these networks identify objects using shape. It is believed that the cost function forces the CNN to take a greedy approach and develop a proclivity for local information like texture to increase accuracy, thus failing to explore any global statistics. We propose CognitiveCNN, a new intuitive architecture, inspired from feature integration theory in psychology to utilise human interpretable feature like shape, texture, edges etc. to reconstruct, and classify the image. We define novel metrics to quantify the "relevance" of "abstract information" present in these modalities using attention maps. We further introduce a regularisation method which ensures that each modality like shape, texture etc. gets proportionate influence in a given task, as it does for reconstruction; and perform experiments to show the resulting boost in accuracy and robustness, besides imparting explainability to these CNNs for achieving superior performance in object recognition.
翻訳日:2022-11-17 02:46:55 公開日:2022-01-10
# Sim2Real Learningのトレードオフ: 実世界の学習はシミュレーションよりも速く

Trade-off on Sim2Real Learning: Real-world Learning Faster than Simulations ( http://arxiv.org/abs/2007.10675v4 )

ライセンス: Link先を確認
Jingyi Huang, Yizheng Zhang, Fabio Giardina, Andre Rosendo(参考訳) Deep Reinforcement Learning (DRL) 実験は、ディープニューラルネットワークからの膨大なトレーニングサンプル要求のため、シミュレーション環境で一般的に行われている。 対照的に、モデルベースのベイジアンラーニングでは、ロボットが現実世界のいくつかの試行で良いポリシーを学ぶことができる。 反復は少ないが、ベイズ法は試行ごとに計算コストが比較的高くなり、そのような方法の利点は次元とノイズに強く結びついている。 本稿では,Deep Bayesian LearningアルゴリズムとモデルなしDRLアルゴリズムを比較し,シミュレーションと実世界の実験から得られた結果を分析した。 SimとReal Learningを考慮しながら,本実験では,計算時間(イテレーション数)を考慮しても,サンプル効率のよい深ベイズRL性能がDRLより優れていることを示した。 さらに、シミュレーションと実験で行った深いベイズ rl の計算時間の差は、現実のギャップを横切るために実行可能な経路を示している。 また、SimとRealの混在は純粋にRealアプローチよりも優れておらず、現実がベイズ学習に最高の事前知識を提供する可能性を示している。 ロボット工学者は毎日ロボットをデザインし、構築し、その結果、現実世界での学習効率が向上すれば、シミュレーションをスキップすることで、設計と配置の間の時間を短縮できることがわかった。

Deep Reinforcement Learning (DRL) experiments are commonly performed in simulated environments due to the tremendous training sample demands from deep neural networks. In contrast, model-based Bayesian Learning allows a robot to learn good policies within a few trials in the real world. Although it takes fewer iterations, Bayesian methods pay a relatively higher computational cost per trial, and the advantage of such methods is strongly tied to dimensionality and noise. In here, we compare a Deep Bayesian Learning algorithm with a model-free DRL algorithm while analyzing our results collected from both simulations and real-world experiments. While considering Sim and Real learning, our experiments show that the sample-efficient Deep Bayesian RL performance is better than DRL even when computation time (as opposed to number of iterations) is taken in consideration. Additionally, the difference in computation time between Deep Bayesian RL performed in simulation and in experiments point to a viable path to traverse the reality gap. We also show that a mix between Sim and Real does not outperform a purely Real approach, pointing to the possibility that reality can provide the best prior knowledge to a Bayesian Learning. Roboticists design and build robots every day, and our results show that a higher learning efficiency in the real-world will shorten the time between design and deployment by skipping simulations.
翻訳日:2022-11-08 04:31:18 公開日:2022-01-10
# COVID-19患者のCTにおける肺・病変・病変の自動分離のための深層学習法の比較検討

Comparative study of deep learning methods for the automatic segmentation of lung, lesion and lesion type in CT scans of COVID-19 patients ( http://arxiv.org/abs/2007.15546v4 )

ライセンス: Link先を確認
Sofie Tilborghs, Ine Dirks, Lucas Fidon, Siri Willems, Tom Eelbode, Jeroen Bertels, Bart Ilsen, Arne Brys, Adriana Dubbeldam, Nico Buls, Panagiotis Gonidakis, Sebasti\'an Amador S\'anchez, Annemiek Snoeckx, Paul M. Parizel, Johan de Mey, Dirk Vandermeulen, Tom Vercauteren, David Robben, Dirk Smeets, Frederik Maes, Jef Vandemeulebroucke, Paul Suetens(参考訳) 新型コロナウイルスに関する最近の研究は、ct画像が疾患の進行状況の評価と診断の支援に有用な情報を提供し、疾患の理解にも役立つことを示唆している。 深層学習を用いて、胸部CTスキャンを用いて新型コロナウイルスの迅速かつ正確な定量化を提供することを提案する研究が増えている。 主な課題は、新型コロナウイルス(COVID-19)感染者の胸部CT検査における肺と肺の病変の自動分離である。 本研究では,オープンソースと社内開発の両方のアルゴリズムを含む,マルチセンタデータセットを用いた12のディープラーニングアルゴリズムを比較した。 以上の結果から,肺分画,二分性病変分画,多群病変分画に対するテストセット全体の性能は,それぞれ0.982点,0.724点,0.469点であった。 結果として生じた2つの病変は、平均絶対体積誤差91.3mlで区切られた。 総じて, 病変の種類を識別する作業は, 152mlの平均絶対容積差と0.369点, 0.523点であった。 すべての方法は、平均ボリュームエラーを伴う2値性病変分画を行い、人手による視覚的評価よりも優れており、これらの方法が臨床での使用のための大規模評価に十分成熟していることを示唆している。

Recent research on COVID-19 suggests that CT imaging provides useful information to assess disease progression and assist diagnosis, in addition to help understanding the disease. There is an increasing number of studies that propose to use deep learning to provide fast and accurate quantification of COVID-19 using chest CT scans. The main tasks of interest are the automatic segmentation of lung and lung lesions in chest CT scans of confirmed or suspected COVID-19 patients. In this study, we compare twelve deep learning algorithms using a multi-center dataset, including both open-source and in-house developed algorithms. Results show that ensembling different methods can boost the overall test set performance for lung segmentation, binary lesion segmentation and multiclass lesion segmentation, resulting in mean Dice scores of 0.982, 0.724 and 0.469, respectively. The resulting binary lesions were segmented with a mean absolute volume error of 91.3 ml. In general, the task of distinguishing different lesion types was more difficult, with a mean absolute volume difference of 152 ml and mean Dice scores of 0.369 and 0.523 for consolidation and ground glass opacity, respectively. All methods perform binary lesion segmentation with an average volume error that is better than visual assessment by human raters, suggesting these methods are mature enough for a large-scale evaluation for use in clinical practice.
翻訳日:2022-11-05 21:04:50 公開日:2022-01-10
# 画像の重ね合わせ被写体をより良くするための凹点検出の改善

Improving concave point detection to better segment overlapped objects in images ( http://arxiv.org/abs/2008.00997v3 )

ライセンス: Link先を確認
Miquel Mir\'o-Nicolau, Biel Moy\`a-Alcover, Manuel Gonz\`alez-Hidalgo and Antoni Jaume-i-Cap\'o(参考訳) 本稿では,画像上に重なり合う物体を分割する第一歩として,凹点検出法の現状を改善する手法を提案する。 これは、物体の輪郭の曲率の分析に基づいている。 この方法の主なステップは3つある。 まず,原画像の事前処理を行い,各輪郭点の曲率の値を求める。 次に、高い曲率の領域を選択し、再帰的アルゴリズムを適用して、選択した領域を改良する。 最後に,近傍の相対的位置の分析に基づいて各領域から凹点を求め,より良好な凹点検出がクラスタ分割を意味することを実験的に証明した。 コンケーブ点検出アルゴリズムの品質を評価するために,重複する物体をシミュレートする合成データセットを構築し,コンケーブ点の位置を基底真理とした。 ケーススタディとして,シックル細胞貧血患者の末梢血スメア画像における重複細胞の分割など,よく知られた応用性能を評価した。 提案手法を用いて, セルの集合における凹点の検出を行い, 楕円フィッティングによりこのクラスターを分離する。

This paper presents a method that improve state-of-the-art of the concave point detection methods as a first step to segment overlapping objects on images. It is based on the analysis of the curvature of the objects contour. The method has three main steps. First, we pre-process the original image to obtain the value of the curvature on each contour point. Second, we select regions with higher curvature and we apply a recursive algorithm to refine the previous selected regions. Finally, we obtain a concave point from each region based on the analysis of the relative position of their neighbourhood We experimentally demonstrated that a better concave points detection implies a better cluster division. In order to evaluate the quality of the concave point detection algorithm, we constructed a synthetic dataset to simulate overlapping objects, providing the position of the concave points as a ground truth. As a case study, the performance of a well-known application is evaluated, such as the splitting of overlapped cells in images of peripheral blood smears samples of patients with sickle cell anaemia. We used the proposed method to detect the concave points in clusters of cells and then we separate this clusters by ellipse fitting.
翻訳日:2022-11-03 07:08:25 公開日:2022-01-10
# GTAdam: 分散オンライン最適化のための適応モーメントによるグラディエントトラッキング

GTAdam: Gradient Tracking with Adaptive Momentum for Distributed Online Optimization ( http://arxiv.org/abs/2009.01745v2 )

ライセンス: Link先を確認
Guido Carnevale, Francesco Farina, Ivano Notarnicola, Giuseppe Notarstefano(参考訳) 本稿では,オンライン最適化問題,すなわち局所的な計算と通信によって,中央コーディネータを使わずに解くことを目的とした計算エージェントのネットワークについて述べる。 本稿では,適応運動量推定法(GTAdam)を用いた勾配追従法と,勾配の1次および2次運動量推定法を組み合わせた勾配追従法を提案する。 このアルゴリズムは、リプシッツ連続勾配の強い凸コスト関数のオンライン設定で解析される。 初期条件に関連する項と目的関数の時間的変動に関する別の項によって与えられる動的後悔の上限を与える。 さらに、静的なセットアップでは線形収束率が保証される。 このアルゴリズムは、時間変化の分類問題、(移動)目標位置決め問題、および画像分類から確率最適化設定において試験される。 マルチエージェント学習による数値実験では、gtadamは最先端の分散最適化手法よりも優れている。

This paper deals with a network of computing agents aiming to solve an online optimization problem in a distributed fashion, i.e., by means of local computation and communication, without any central coordinator. We propose the gradient tracking with adaptive momentum estimation (GTAdam) distributed algorithm, which combines a gradient tracking mechanism with first and second order momentum estimates of the gradient. The algorithm is analyzed in the online setting for strongly convex cost functions with Lipschitz continuous gradients. We provide an upper bound for the dynamic regret given by a term related to the initial conditions, and another term related to the temporal variations of the objective functions. Moreover, a linear convergence rate is guaranteed in the static set-up. The algorithm is tested on a time-varying classification problem, on a (moving) target localization problem and in a stochastic optimization setup from image classification. In these numerical experiments from multi-agent learning, GTAdam outperforms state-of-the-art distributed optimization methods.
翻訳日:2022-10-22 08:17:15 公開日:2022-01-10
# ブースティング法による表面材料の破砕性向上

Enhancing Haptic Distinguishability of Surface Materials with Boosting Technique ( http://arxiv.org/abs/2010.02002v4 )

ライセンス: Link先を確認
Priyadarshini K and Subhasis Chaudhuri(参考訳) 識別機能は、オブジェクト検出や分類など、いくつかの学習アプリケーションにおいて不可欠である。 ニューラルネットワークは、画像と音声信号の識別的特徴を抽出するために広く使われている。 しかしながら、hapticsドメインにおける大規模なデータセットの欠如は、そのようなテクニックの適用性を制限することが多い。 本稿では,ハプティック信号の識別特性の解析のための一般的な枠組みを提案する。 触覚信号の識別性を高めるために,スペクトル特徴と強調埋め込み技術の有効性を実証する。 実験により、我々のフレームワークは、トレーニングデータが少なくなり、異なる予測子に対してうまく一般化され、関連する最先端よりも優れています。

Discriminative features are crucial for several learning applications, such as object detection and classification. Neural networks are extensively used for extracting discriminative features of images and speech signals. However, the lack of large datasets in the haptics domain often limits the applicability of such techniques. This paper presents a general framework for the analysis of the discriminative properties of haptic signals. We demonstrate the effectiveness of spectral features and a boosted embedding technique in enhancing the distinguishability of haptic signals. Experiments indicate our framework needs less training data, generalizes well for different predictors, and outperforms the related state-of-the-art.
翻訳日:2022-10-10 21:14:56 公開日:2022-01-10
# Astraea: 文法ベースの公正テスト

Astraea: Grammar-based Fairness Testing ( http://arxiv.org/abs/2010.02542v5 )

ライセンス: Link先を確認
Ezekiel Soremekun and Sakshi Udeshi and Sudipta Chattopadhyay(参考訳) ソフトウェアはしばしばバイアスのあるアウトプットを生成する。 特に機械学習(ml)ベースのソフトウェアは、判別入力を処理する際に誤った予測を生成することが知られている。 このような不公平なプログラム行動は社会的偏見によって引き起こされることがある。 ここ数年、Amazon、Microsoft、Googleは不公平なアウトプットを生み出すソフトウェアサービスを提供してきた。 このようなイベントでは、開発者はフェアネステストの実行に満足しています。 開発者はバイアスを明らかにし説明するための差別的なインプットを生成するタスクを負う。 本稿では,文脈自由文法を活用し,ソフトウェアシステムにおけるフェアネス違反を顕示する識別入力を生成する文法ベースフェアネステスト手法(astraea)を提案する。 ASTRAEAは確率文法を用いて、観測されたソフトウェアバイアスの原因を分離することで故障診断も提供する。 ASTRAEAの診断はMLフェアネスの改善を促進する。 ASTRAEAは3つの主要な自然言語処理(NLP)サービスを提供する18のソフトウェアシステムで評価された。 評価では,ASTRAEAはフェアネス違反を18%程度で発生した。 ASTRAEAは573K以上の差別試験を行い、102K以上の公正違反を発見した。 さらに、ASTRAEAはソフトウェアフェアネスを約76%改善する。

Software often produces biased outputs. In particular, machine learning (ML) based software are known to produce erroneous predictions when processing discriminatory inputs. Such unfair program behavior can be caused by societal bias. In the last few years, Amazon, Microsoft and Google have provided software services that produce unfair outputs, mostly due to societal bias (e.g. gender or race). In such events, developers are saddled with the task of conducting fairness testing. Fairness testing is challenging; developers are tasked with generating discriminatory inputs that reveal and explain biases. We propose a grammar-based fairness testing approach (called ASTRAEA) which leverages context-free grammars to generate discriminatory inputs that reveal fairness violations in software systems. Using probabilistic grammars, ASTRAEA also provides fault diagnosis by isolating the cause of observed software bias. ASTRAEA's diagnoses facilitate the improvement of ML fairness. ASTRAEA was evaluated on 18 software systems that provide three major natural language processing (NLP) services. In our evaluation, ASTRAEA generated fairness violations with a rate of ~18%. ASTRAEA generated over 573K discriminatory test cases and found over 102K fairness violations. Furthermore, ASTRAEA improves software fairness by ~76%, via model-retraining.
翻訳日:2022-10-10 06:13:27 公開日:2022-01-10
# 事実分析のために全ての情報を爆発させるか? 因子モデルと特殊同期補正の利点

Do We Exploit all Information for Counterfactual Analysis? Benefits of Factor Models and Idiosyncratic Correction ( http://arxiv.org/abs/2011.03996v3 )

ライセンス: Link先を確認
Jianqing Fan, Ricardo P. Masini, Marcelo C. Medeiros(参考訳) 最適価格、すなわち、ある商品の利益または収益を最大化する価格レベルを決定することは、小売業界にとって重要な課題である。 このような量を選択するには、まず製品需要から価格弾性を見積もる必要がある。 回帰法は通常、結束効果と価格内在性のためにそのような弾性を回復することができない。 そのため、ランダム化実験が一般的である。 しかし、例えば店舗の位置によっては、弾力性は非常に異質である。 ランダム化はしばしば自治体レベルで起こるため、標準差分法も失敗する可能性がある。 考えられる解決策は、人工的な制御から構築された反事実に基づく単一の(またはほんの数個の)処理単位に対する治療の効果を測定する方法論に基づいている。 例えば、治療グループの各都市に対して、未処理の場所から偽物が構築されることがある。 本稿では,ブラジルの大手小売店の日用品販売に対する価格変動の影響を測定するために,新しい高次元統計手法を適用した。 提案手法は主成分(因子)とスパースレグレッションを結合し,Facter-Adjusted Regularized Method for Treatment Evaluation (\texttt{FarmTreat})と呼ばれる手法が得られた。 データは、400以上の自治体で5つの異なる製品の販売と価格で構成されている。 emph{sweet and candies} カテゴリーに属すると考えられる製品や実験は、2016年から2017年にかけて実施されている。 以上の結果から,異なる自治体に対する価格戦略を導出する高次不均質性仮説が検証された。

Optimal pricing, i.e., determining the price level that maximizes profit or revenue of a given product, is a vital task for the retail industry. To select such a quantity, one needs first to estimate the price elasticity from the product demand. Regression methods usually fail to recover such elasticities due to confounding effects and price endogeneity. Therefore, randomized experiments are typically required. However, elasticities can be highly heterogeneous depending on the location of stores, for example. As the randomization frequently occurs at the municipal level, standard difference-in-differences methods may also fail. Possible solutions are based on methodologies to measure the effects of treatments on a single (or just a few) treated unit(s) based on counterfactuals constructed from artificial controls. For example, for each city in the treatment group, a counterfactual may be constructed from the untreated locations. In this paper, we apply a novel high-dimensional statistical method to measure the effects of price changes on daily sales from a major retailer in Brazil. The proposed methodology combines principal components (factors) and sparse regressions, resulting in a method called Factor-Adjusted Regularized Method for Treatment evaluation (\texttt{FarmTreat}). The data consist of daily sales and prices of five different products over more than 400 municipalities. The products considered belong to the \emph{sweet and candies} category and experiments have been conducted over the years of 2016 and 2017. Our results confirm the hypothesis of a high degree of heterogeneity yielding very different pricing strategies over distinct municipalities.
翻訳日:2022-09-28 08:18:18 公開日:2022-01-10
# IoTデバイスにおける機械学習に基づくパターン認識の応用:レビュー

Application of Machine Learning-Based Pattern Recognition in IoT Devices: Review ( http://arxiv.org/abs/2202.02456v1 )

ライセンス: Link先を確認
Zachary Menter, Wei Tee, Rushit Dave(参考訳) IoT(Internet of Things)は,近年急速に普及しているテクノロジ分野であり,急速に普及している。 インターネットに接続されている日々のオブジェクトの数が増えるにつれ、日々の生活をより簡単にするための多くのイノベーションが提示されている。 パターン認識はiotデバイスでは非常に普及しています。 スピードと精度の向上、複雑性の低減、IoTデバイスにおけるパターン認識アルゴリズムの全体的な処理能力の削減を目的として、数多くの研究が行われている。 さまざまな機械学習アルゴリズムの適用をレビューした後、結果はケースによって異なるが、IoTデバイスで使用する最適な機械学習ベースのパターン認識アルゴリズムは、ベクターマシン、k-アネアレスト、ランダムフォレストのサポートである、という一般的な結論が導かれる。

The Internet of things (IoT) is a rapidly advancing area of technology that has quickly become more widespread in recent years. With greater numbers of everyday objects being connected to the Internet, many different innovations have been presented to make our everyday lives more straightforward. Pattern recognition is extremely prevalent in IoT devices because of the many applications and benefits that can come from it. A multitude of studies has been conducted with the intention of improving speed and accuracy, decreasing complexity, and reducing the overall required processing power of pattern recognition algorithms in IoT devices. After reviewing the applications of different machine learning algorithms, results vary from case to case, but a general conclusion can be drawn that the optimal machine learning-based pattern recognition algorithms to be used with IoT devices are support vector machine, k-nearest neighbor, and random forest.
翻訳日:2022-02-13 14:52:56 公開日:2022-01-10
# GUDN 極多ラベルテキスト分類のための新しいガイドネットワーク

GUDN A novel guide network for extreme multi-label text classification ( http://arxiv.org/abs/2201.11582v1 )

ライセンス: Link先を確認
Qing Wang, Hongji Shu, Jia Zhu(参考訳) xmtc(extreme multi-label text classification)の問題は、非常に大きなラベルセットからテキストに対して、関連するいくつかのラベルを思い出すことである。 深層学習モデルに基づく手法は大きな成果を上げているが、まだ十分に活用されていない。 ラベルのセマンティクスはあまり注目されておらず、テキストとラベルの間の潜伏した空間は効果的に探索されていない。 本稿では,事前学習モデルの微調整を支援する新しいガイドネットワーク(GUDN)を構築する。 また,テキストとラベル間の潜在空間を効率的に探索するために生ラベル意味論を用い,予測精度をさらに向上させる。 実験の結果、GUDNはいくつかの一般的なデータセットで最先端の手法より優れていることが示された。 ソースコードはhttps://github.com/wq2581/gudnで公開しています。

The problem of extreme multi-label text classification (XMTC) is to recall some most relevant labels for a text from an extremely large label set. Though the methods based on deep pre-trained models have reached significant achievement, the pre-trained models are still not fully utilized. Label semantics has not attracted much attention so far, and the latent space between texts and labels has not been effectively explored. This paper constructs a novel guide network (GUDN) to help fine-tune the pre-trained model to instruct classification later. Also, we use the raw label semantics to effectively explore the latent space between texts and labels, which can further improve predicted accuracy. Experimental results demonstrate that GUDN outperforms state-of-the-art methods on several popular datasets. Our source code is released at https://github.com/wq2581/GUDN.
翻訳日:2022-01-30 11:52:40 公開日:2022-01-10
# EP-PQM:少ない量子ビットとゲートを持つ高効率パラメトリック確率量子メモリ

EP-PQM: Efficient Parametric Probabilistic Quantum Memory with Fewer Qubits and Gates ( http://arxiv.org/abs/2201.07265v1 )

ライセンス: Link先を確認
Mushahid Khan and Jean Paul Latyr Faye and Udson C. Mendes and Andriy Miranskyy(参考訳) 機械学習(ML)分類タスクは、確率量子メモリ(PQM)とその拡張であるパラメータPQM(P-PQM)を用いて、入力パターンと$z$特徴を含む$r$パターンのデータベースとのハミング距離を計算することにより、量子コンピュータ(QC)上で実行することができる。 正確な計算のためには、この機能は、$a>2$のマルチ属性データセットに対してメモリ集約的なone-hotエンコーディングを使用してエンコードする必要がある。 シングルホットエンコーディングをラベルエンコーディングに置き換えることで、従来のコンピュータ上でよりコンパクトにマルチ属性データを表現できる。 しかし、量子ビットレベルでPQMとP-PQMが動作するため、これらの符号化スキームをQCで置き換えることは簡単ではない。 EP-PQMと呼ばれる拡張されたP-PQMは、PQMデータ構造に格納されたデータのラベルエンコーディングを可能にし、データストレージと検索手順の回路深さを低減する。 理想的なqcとノイズの多い中間スケール量子(nisq)デバイスの実装を示す。 我々の複雑性解析は、P-PQM に対して$O(za)$ qubits ではなく$O\left(z \log_2(a)\right)$ qubits を必要とすることを示している。 EP-PQMはゲート数を$O\left(rza\right)$から$O\left(rz\log_2(a)\right)$に減らす。 5つのデータセットに対して、EP-PQMを用いたML分類モデルのトレーニングでは、$a>2$のデータセットの場合、P-PQMよりも48%から77%少ないキュービットが必要であることを示した。 EP-PQMは、データセットに応じて60%から96%の範囲の回路深度を減少させる。 分解された回路では、深さは94%から99%まで減少する。 EP-PQMは、より少ないスペースを必要とするため、NISQデバイス上の以前のPQM実装よりも大きなデータセットをトレーニングし、分類することができる。 さらに、ゲート数の削減は、分類を高速化し、ディープ量子回路に関連するノイズを低減する。 したがって、EP-PQMは、NISQデバイス上のスケーラブルなMLに近づきます。

Machine learning (ML) classification tasks can be carried out on a quantum computer (QC) using Probabilistic Quantum Memory (PQM) and its extension, Parameteric PQM (P-PQM) by calculating the Hamming distance between an input pattern and a database of $r$ patterns containing $z$ features with $a$ distinct attributes. For accurate computations, the feature must be encoded using one-hot encoding, which is memory-intensive for multi-attribute datasets with $a>2$. We can easily represent multi-attribute data more compactly on a classical computer by replacing one-hot encoding with label encoding. However, replacing these encoding schemes on a QC is not straightforward as PQM and P-PQM operate at the quantum bit level. We present an enhanced P-PQM, called EP-PQM, that allows label encoding of data stored in a PQM data structure and reduces the circuit depth of the data storage and retrieval procedures. We show implementations for an ideal QC and a noisy intermediate-scale quantum (NISQ) device. Our complexity analysis shows that the EP-PQM approach requires $O\left(z \log_2(a)\right)$ qubits as opposed to $O(za)$ qubits for P-PQM. EP-PQM also requires fewer gates, reducing gate count from $O\left(rza\right)$ to $O\left(rz\log_2(a)\right)$. For five datasets, we demonstrate that training an ML classification model using EP-PQM requires 48% to 77% fewer qubits than P-PQM for datasets with $a>2$. EP-PQM reduces circuit depth in the range of 60% to 96%, depending on the dataset. The depth decreases further with a decomposed circuit, ranging between 94% and 99%. EP-PQM requires less space; thus, it can train on and classify larger datasets than previous PQM implementations on NISQ devices. Furthermore, reducing the number of gates speeds up the classification and reduces the noise associated with deep quantum circuits. Thus, EP-PQM brings us closer to scalable ML on a NISQ device.
翻訳日:2022-01-23 18:16:19 公開日:2022-01-10
# 公正スコアとプロセス標準化:人工知能システムにおける公正認定のための枠組み

Fairness Score and Process Standardization: Framework for Fairness Certification in Artificial Intelligence Systems ( http://arxiv.org/abs/2201.06952v1 )

ライセンス: Link先を確認
Avinash Agarwal, Harsh Agarwal, Nihaarika Agarwal(参考訳) さまざまな人工知能(AI)システムによる決定は、私たちの日々の生活に大きな影響を与えます。 aiシステムの利用が増えるにつれて、彼らが公平であることを知り、意思決定の基盤となるバイアスを特定し、公平性を確認するための標準化されたフレームワークを作成することが重要になる。 本稿では,データ駆動型AIシステムの公正度を測定するための新しいフェアネススコアと,それらのシステムに対するフェアネス認証発行のための標準動作手順(SOP)を提案する。 公正スコアと監査プロセスの標準化は、品質の保証、あいまいさの低減、AIシステムの信頼性の比較と改善を可能にする。 また、公正性の概念を運用し、そのようなシステムの商用展開を容易にするためのフレームワークも提供する。 さらに、標準化されたプロセスに従って、指定された第三者監査機関によって発行される公正証明書は、デプロイするAIシステム内の組織の信念を高める。 本論文で提案するバイアス指標は,データセット内の各種保護属性間の比較バイアスも明らかにする。 提案手法を検証するために、複数のデータセットを用いてバイアス付きおよびバイアスなしデータのモデルを反復的にトレーニングし、フェアネススコアと提案プロセスがバイアスを正しく識別し、フェアネスを判断する。

Decisions made by various Artificial Intelligence (AI) systems greatly influence our day-to-day lives. With the increasing use of AI systems, it becomes crucial to know that they are fair, identify the underlying biases in their decision-making, and create a standardized framework to ascertain their fairness. In this paper, we propose a novel Fairness Score to measure the fairness of a data-driven AI system and a Standard Operating Procedure (SOP) for issuing Fairness Certification for such systems. Fairness Score and audit process standardization will ensure quality, reduce ambiguity, enable comparison and improve the trustworthiness of the AI systems. It will also provide a framework to operationalise the concept of fairness and facilitate the commercial deployment of such systems. Furthermore, a Fairness Certificate issued by a designated third-party auditing agency following the standardized process would boost the conviction of the organizations in the AI systems that they intend to deploy. The Bias Index proposed in this paper also reveals comparative bias amongst the various protected attributes within the dataset. To substantiate the proposed framework, we iteratively train a model on biased and unbiased data using multiple datasets and check that the Fairness Score and the proposed process correctly identify the biases and judge the fairness.
翻訳日:2022-01-23 17:57:52 公開日:2022-01-10
# グローバルクロックのない学習:物理駆動学習ネットワークにおける非同期学習

Learning Without a Global Clock: Asynchronous Learning in a Physics-Driven Learning Network ( http://arxiv.org/abs/2201.04626v1 )

ライセンス: Link先を確認
Jacob F Wycoff, Sam Dillavou, Menachem Stern, Andrea J Liu, Douglas J Durian(参考訳) ニューロンネットワークでは、シナプスはローカル情報を使用して個別に更新され、完全に分散学習が可能である。 対照的に、ニューラルネットワーク(ann)の要素は通常、中央プロセッサを使用して同時に更新される。 本稿では,最近導入された分散物理駆動学習ネットワークにおける非同期学習の実現可能性と効果について検討する。 学習過程の非同期化は、理想的なシミュレーションにおいて、様々なタスクのパフォーマンスを劣化させるものではないことを示す。 実験では、非同期化は、システムが解の離散化された状態空間をよりよく探索できるようにすることで、実際にパフォーマンスを向上させる。 確率的勾配降下における非同期性とミニバッチングの類似性を示し,学習過程に類似した影響を示す。 学習プロセスの同期化は、物理駆動学習ネットワークを真の完全な分散学習マシンとして確立し、より良いパフォーマンスとデプロイメントのスケーラビリティを促進する。

In a neuron network, synapses update individually using local information, allowing for entirely decentralized learning. In contrast, elements in an artificial neural network (ANN) are typically updated simultaneously using a central processor. Here we investigate the feasibility and effect of asynchronous learning in a recently introduced decentralized, physics-driven learning network. We show that desynchronizing the learning process does not degrade performance for a variety of tasks in an idealized simulation. In experiment, desynchronization actually improves performance by allowing the system to better explore the discretized state space of solutions. We draw an analogy between asynchronicity and mini-batching in stochastic gradient descent, and show that they have similar effects on the learning process. Desynchronizing the learning process establishes physics-driven learning networks as truly fully distributed learning machines, promoting better performance and scalability in deployment.
翻訳日:2022-01-14 15:10:46 公開日:2022-01-10
# NDCGと相互ランクメトリクスを用いたニューラルネットワークの防御と攻撃の評価

Evaluation of Neural Networks Defenses and Attacks using NDCG and Reciprocal Rank Metrics ( http://arxiv.org/abs/2201.05071v1 )

ライセンス: Link先を確認
Haya Brama, Lihi Dery, Tal Grinshpoun(参考訳) 近年,入力修正によるニューラルネットワーク攻撃問題(逆例)が注目されている。 比較的生成が容易で検出が難しいこれらの攻撃は、多くの防御策が緩和しようとするセキュリティ侵害を引き起こす。 しかし、攻撃や防御の効果の評価は、通常、敵のシナリオに適切に適応することなく、伝統的な分類基準に依存する。 これらの指標のほとんどは精度に基づいており、従って範囲が限られており、独特なパワーが低い。 他の指標は、ニューラルネットワークの機能のユニークな特徴を考慮せず、間接的に攻撃の効果を測定する(例えば、その生成の複雑さを通して)。 本稿では,多クラス分類タスクにおけるニューラルネットワークの出力に対する攻撃効果,防御の回復効果を測定するために特別に設計された2つの指標について述べる。 情報検索文献に使用される正規化割引累積利得と相互ランク指標に着想を得て,ニューラルネットワークの予測を検索結果のランク付けリストとして扱う。 ランクの確率に関する追加情報を使用することで、目の前のタスクに適した新しいメトリクスを定義することができます。 トレーニング済みのVGG19モデルとImageNetデータセットを用いて,様々な攻撃と防御を用いてメトリクスを評価する。 一般的な分類基準と比較すると,提案手法は優れた情報性と識別性を示す。

The problem of attacks on neural networks through input modification (i.e., adversarial examples) has attracted much attention recently. Being relatively easy to generate and hard to detect, these attacks pose a security breach that many suggested defenses try to mitigate. However, the evaluation of the effect of attacks and defenses commonly relies on traditional classification metrics, without adequate adaptation to adversarial scenarios. Most of these metrics are accuracy-based, and therefore may have a limited scope and low distinctive power. Other metrics do not consider the unique characteristics of neural networks functionality, or measure the effect of the attacks indirectly (e.g., through the complexity of their generation). In this paper, we present two metrics which are specifically designed to measure the effect of attacks, or the recovery effect of defenses, on the output of neural networks in multiclass classification tasks. Inspired by the normalized discounted cumulative gain and the reciprocal rank metrics used in information retrieval literature, we treat the neural network predictions as ranked lists of results. Using additional information about the probability of the rank enabled us to define novel metrics that are suited to the task at hand. We evaluate our metrics using various attacks and defenses on a pretrained VGG19 model and the ImageNet dataset. Compared to the common classification metrics, our proposed metrics demonstrate superior informativeness and distinctiveness.
翻訳日:2022-01-14 14:03:51 公開日:2022-01-10
# Directed Coordination Graph を用いた分散協調型マルチエージェント強化学習

Distributed Cooperative Multi-Agent Reinforcement Learning with Directed Coordination Graph ( http://arxiv.org/abs/2201.04962v1 )

ライセンス: Link先を確認
Gangshan Jing, He Bai, Jemin George, Aranya Chakrabortty and Piyush. K. Sharma(参考訳) 既存の分散協調型マルチエージェント強化学習(marl)フレームワークは通常、政策評価のためのコンセンサスアルゴリズムによるグローバル報酬を推定しながら、無向コーディネーショングラフと通信グラフを想定している。 このようなフレームワークは、高価な通信コストを発生させ、グローバルコンセンサスの要求によりスケーラビリティが低下する可能性がある。 本研究では,協調グラフを用いたMARLについて検討し,局所的な政策評価を局所値関数に基づく分散RLアルゴリズムを提案する。 各エージェントの局所値関数は、コンセンサスアルゴリズムを使用せずに、有向学習誘発通信グラフを介して隣者との局所的通信によって得られる。 パラメータ摂動に基づくゼロ階最適化(ZOO)手法を用いて勾配推定を行う。 既存のZOOベースのRLアルゴリズムと比較して,提案する分散RLアルゴリズムは高いスケーラビリティを保証することを示す。 本アルゴリズムの有効性を示すために,分散リソース割り当ての例を示す。

Existing distributed cooperative multi-agent reinforcement learning (MARL) frameworks usually assume undirected coordination graphs and communication graphs while estimating a global reward via consensus algorithms for policy evaluation. Such a framework may induce expensive communication costs and exhibit poor scalability due to requirement of global consensus. In this work, we study MARLs with directed coordination graphs, and propose a distributed RL algorithm where the local policy evaluations are based on local value functions. The local value function of each agent is obtained by local communication with its neighbors through a directed learning-induced communication graph, without using any consensus algorithm. A zeroth-order optimization (ZOO) approach based on parameter perturbation is employed to achieve gradient estimation. By comparing with existing ZOO-based RL algorithms, we show that our proposed distributed RL algorithm guarantees high scalability. A distributed resource allocation example is shown to illustrate the effectiveness of our algorithm.
翻訳日:2022-01-14 14:00:19 公開日:2022-01-10
# (参考訳) 感情音声変換における感情強度とその制御

Emotion Intensity and its Control for Emotional Voice Conversion ( http://arxiv.org/abs/2201.03967v1 )

ライセンス: CC BY 4.0
Kun Zhou, Berrak Sisman, Rajib Rana, Bj\"orn W. Schuller, Haizhou Li(参考訳) 感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。 EVCでは、感情は、聴取者が知覚できる様々な強度の感情も伝達するという事実を見下ろす、離散的なカテゴリーとして扱われる。 本稿では,感情の強さを明示的に表現し,制御することを目的とする。 本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。 さらに,感情ラベル付きデータベースから実際の感情エンコーダを学習し,粒度の細かい感情インテンシティを表現するための相対属性の利用について検討する。 感情理解性を確保するために,evcネットワークのトレーニングに感情分類損失と感情類似性損失を組み込む。 提案するネットワークは、所望の出力音声におけるきめ細かい感情強度を制御する。 主観的評価と主観的評価の両面から,感情表現性および感情強度制御のためのネットワークの有効性を検証した。

Emotional voice conversion (EVC) seeks to convert the emotional state of an utterance while preserving the linguistic content and speaker identity. In EVC, emotions are usually treated as discrete categories overlooking the fact that speech also conveys emotions with various intensity levels that the listener can perceive. In this paper, we aim to explicitly characterize and control the intensity of emotion. We propose to disentangle the speaker style from linguistic content and encode the speaker style into a style embedding in a continuous space that forms the prototype of emotion embedding. We further learn the actual emotion encoder from an emotion-labelled database and study the use of relative attributes to represent fine-grained emotion intensity. To ensure emotional intelligibility, we incorporate emotion classification loss and emotion embedding similarity loss into the training of the EVC network. As desired, the proposed network controls the fine-grained emotion intensity in the output speech. Through both objective and subjective evaluations, we validate the effectiveness of the proposed network for emotional expressiveness and emotion intensity control.
翻訳日:2022-01-12 23:06:39 公開日:2022-01-10
# (参考訳) 統計的特徴抽出に基づくSVM分類器を用いたニワトリ卵肥育の同定

Identification of chicken egg fertility using SVM classifier based on first-order statistical feature extraction ( http://arxiv.org/abs/2201.04063v1 )

ライセンス: CC BY 4.0
Shoffan Saifullah, Andiko Putro Suryotomo(参考訳) 本研究の目的は,支援ベクターマシン(SVM)分類器を用いて鶏卵の受精を同定することである。 分類基準は識別過程における特徴抽出として一階統計(fos)パラメータを用いた。 この研究は、まだ手動(慣習的)であるプロセスの識別プロセスに基づいて開発された。 現在、識別プロセスには多くの技術があるが、開発が必要である。 このように、この研究は画像処理技術の分野における発展の1つである。 サンプルデータは、100個の卵の画像を含む以前の研究から得られたデータセットを使用する。 画像内の卵オブジェクトは単一のオブジェクトです。 これらのデータから、受精卵と不妊卵の分類は50の画像データである。 鶏卵の画像データは画像処理で入力され、最初のプロセスはセグメンテーションである。 この最初のセグメンテーションは、オブジェクトに従って切り抜かれたイメージを取得することを目的としている。 切り抜いた画像は、グレースケーリングと画像強調による画像前処理を用いて修復される。 この方法(画像強調)は、コントラスト制限適応ヒストグラム等化(clahe)とヒストグラム等化(he)の2つの組み合わせ法を用いた。 改良された画像はFOS法による特徴抽出の入力となる。 FOSは5つのパラメータ、すなわち平均、エントロピー、分散、歪、およびクルトーシスを使用する。 SVM分類法に入力された5つのパラメータは,鶏卵の受精度を同定する。 これらの実験の結果, 同定過程で提案する手法は, 成功率84.57%であった。 したがって,本手法の実装は今後の研究改善の参考として利用することができる。 さらに,2次特徴抽出法を用いてその精度を向上し,分類のための教師あり学習を改善することができる。

This study aims to identify chicken eggs fertility using the support vector machine (SVM) classifier method. The classification basis used the first-order statistical (FOS) parameters as feature extraction in the identification process. This research was developed based on the process's identification process, which is still manual (conventional). Although currently there are many technologies in the identification process, they still need development. Thus, this research is one of the developments in the field of image processing technology. The sample data uses datasets from previous studies with a total of 100 egg images. The egg object in the image is a single object. From these data, the classification of each fertile and infertile egg is 50 image data. Chicken egg image data became input in image processing, with the initial process is segmentation. This initial segmentation aims to get the cropped image according to the object. The cropped image is repaired using image preprocessing with grayscaling and image enhancement methods. This method (image enhancement) used two combination methods: contrast limited adaptive histogram equalization (CLAHE) and histogram equalization (HE). The improved image becomes the input for feature extraction using the FOS method. The FOS uses five parameters, namely mean, entropy, variance, skewness, and kurtosis. The five parameters entered into the SVM classifier method to identify the fertility of chicken eggs. The results of these experiments, the method proposed in the identification process has a success percentage of 84.57%. Thus, the implementation of this method can be used as a reference for future research improvements. In addition, it may be possible to use a second-order feature extraction method to improve its accuracy and improve supervised learning for classification.
翻訳日:2022-01-12 22:25:19 公開日:2022-01-10
# (参考訳) bownetの再現:視覚単語の袋予測による学習表現

Reproducing BowNet: Learning Representations by Predicting Bags of Visual Words ( http://arxiv.org/abs/2201.03556v1 )

ライセンス: CC BY 4.0
Harry Nguyen, Stone Yun, Hisham Mohammad(参考訳) 本研究は,GidarisらによるCVPR 2020論文の成果を再現することを目的としている。 自己教師付き学習(SSL)は、ラベルなしデータセットを使用して画像の特徴表現を学習するために使用される。 本研究は,頑健で深層表現を学習するための自己教師型学習ターゲットとして,back-of-words (BoW) Deep Feature Descriptorsの使用を提案する。 BowNetは、画像の摂動バージョンを入力として提示する際に、参照画像の視覚単語(例えば深部BoW記述子)のヒストグラムを再構築するように訓練される。 そこで本手法は,数ショットタスクや下流タスクの管理に有用な摂動不変およびコンテキスト対応の画像特徴を学習することを目的とする。 本論文では,BowNetを,畳み込み特徴抽出器$\Phi(\cdot)$とDense-softmaxレイヤ$\Omega(\cdot)$からなるネットワークとして記述し,画像からBoW特徴を予測する訓練を行った。 BoWトレーニングの後、$\Phi$の機能は下流タスクで使用される。 この課題のために私たちは、元の論文で報告されたCIFAR-100の精度向上を再現できるネットワークを構築し、トレーニングしようとしていました。 しかし、著者が述べたのに匹敵する精度の改善を再現することはできなかった。

This work aims to reproduce results from the CVPR 2020 paper by Gidaris et al. Self-supervised learning (SSL) is used to learn feature representations of an image using an unlabeled dataset. This work proposes to use bag-of-words (BoW) deep feature descriptors as a self-supervised learning target to learn robust, deep representations. BowNet is trained to reconstruct the histogram of visual words (ie. the deep BoW descriptor) of a reference image when presented a perturbed version of the image as input. Thus, this method aims to learn perturbation-invariant and context-aware image features that can be useful for few-shot tasks or supervised downstream tasks. In the paper, the author describes BowNet as a network consisting of a convolutional feature extractor $\Phi(\cdot)$ and a Dense-softmax layer $\Omega(\cdot)$ trained to predict BoW features from images. After BoW training, the features of $\Phi$ are used in downstream tasks. For this challenge we were trying to build and train a network that could reproduce the CIFAR-100 accuracy improvements reported in the original paper. However, we were unsuccessful in reproducing an accuracy improvement comparable to what the authors mentioned.
翻訳日:2022-01-12 22:13:27 公開日:2022-01-10
# (参考訳) 塩分マップを用いた心電図分類可能性の向上

Improving ECG Classification Interpretability using Saliency Maps ( http://arxiv.org/abs/2201.04070v1 )

ライセンス: CC BY 4.0
Ms Yola Jones, Dr Fani Deligianni, Dr Jeff Dalton(参考訳) 心臓血管疾患は世界規模の医療問題であり、症状は最小限の警告で突然現れることが多い。 心電図 (ECG) は、皮膚に置かれた電極を通して記録された電気活動を測定することにより、心臓の健康を評価する高速でシンプルで信頼性の高い方法である。 心電図は、しばしば心臓科医によって分析され、患者のケアと結果を改善するために時間を費やす必要がある。 このため、機械学習を用いた自動ECG分類システムが提案され、ECG特徴間の複雑な相互作用を学習し、異常を検出することができる。 しかし、この目的のために構築されたアルゴリズムは、しばしば見当たらないデータにうまく一般化できず、最初の印象的な結果を報告し、新しい環境に適用すると劇的に低下する。 さらに、機械学習アルゴリズムは「ブラックボックス」の問題に苦しんでおり、意思決定の方法を決定するのが困難である。 臨床医はアルゴリズムを信頼するために評価のプロセスを検証する必要があるため、これは医療分野での応用に不可欠である。 本稿では,mit-bih arrhythmiaデータセットにおける各クラス間のモデル決定を可視化する方法を提案する。 最先端モデルに基づく2つのアルゴリズムを構築することでこれを実現します。 本稿では,これらの地図を用いて,一般化可能性やモデル性能に影響を与える可能性のある問題の探索を行う方法について述べる。 完全クラスでサリエンシマップを比較すると、ECGベースでサリエンシマップを比較する際に強調されるものとは異なり、モデル内の変数やその他のバイアスの相違に対する全体的な印象が得られる。

Cardiovascular disease is a large worldwide healthcare issue; symptoms often present suddenly with minimal warning. The electrocardiogram (ECG) is a fast, simple and reliable method of evaluating the health of the heart, by measuring electrical activity recorded through electrodes placed on the skin. ECGs often need to be analyzed by a cardiologist, taking time which could be spent on improving patient care and outcomes. Because of this, automatic ECG classification systems using machine learning have been proposed, which can learn complex interactions between ECG features and use this to detect abnormalities. However, algorithms built for this purpose often fail to generalize well to unseen data, reporting initially impressive results which drop dramatically when applied to new environments. Additionally, machine learning algorithms suffer a "black-box" issue, in which it is difficult to determine how a decision has been made. This is vital for applications in healthcare, as clinicians need to be able to verify the process of evaluation in order to trust the algorithm. This paper proposes a method for visualizing model decisions across each class in the MIT-BIH arrhythmia dataset, using adapted saliency maps averaged across complete classes to determine what patterns are being learned. We do this by building two algorithms based on state-of-the-art models. This paper highlights how these maps can be used to find problems in the model which could be affecting generalizability and model performance. Comparing saliency maps across complete classes gives an overall impression of confounding variables or other biases in the model, unlike what would be highlighted when comparing saliency maps on an ECG-by-ECG basis.
翻訳日:2022-01-12 22:03:20 公開日:2022-01-10
# (参考訳) データセット栄養ラベル(第2世代):人工知能におけるハームの緩和にコンテキストを活用する

The Dataset Nutrition Label (2nd Gen): Leveraging Context to Mitigate Harms in Artificial Intelligence ( http://arxiv.org/abs/2201.03954v1 )

ライセンス: CC BY 4.0
Kasia S. Chmielinski, Sarah Newman, Matt Taylor, Josh Joseph, Kemi Thomas, Jessica Yurkofsky, Yue Chelsea Qiu(参考訳) 自動意思決定システム(ADS)を生成するためのデータセットの生成と依存が増加するにつれて、基盤となるデータの評価と尋問のプロセスも必要になる。 2018年にデータセット栄養ラベル(dataset nutrition label)をローンチして以来、data nutritionプロジェクトは、このラベルの設計と目的を大幅に更新し、2020年末に更新したラベルを本論文でプレビューする予定である。 新しいラベルには、データサイエンティストプロファイルをターゲットとしたデザインとユーザーインターフェースのアップデートを通じて提示されるコンテキスト固有のユースケースとアラートが含まれている。 本稿では,ラベルが緩和を意図したトレーニングデータからの害とバイアス,ラベル付けされた新たなデータセット,新たな課題,作業のさらなる方向性,新たなラベルのプレビューなど,作業の現在の状況について論じる。

As the production of and reliance on datasets to produce automated decision-making systems (ADS) increases, so does the need for processes for evaluating and interrogating the underlying data. After launching the Dataset Nutrition Label in 2018, the Data Nutrition Project has made significant updates to the design and purpose of the Label, and is launching an updated Label in late 2020, which is previewed in this paper. The new Label includes context-specific Use Cases &Alerts presented through an updated design and user interface targeted towards the data scientist profile. This paper discusses the harm and bias from underlying training data that the Label is intended to mitigate, the current state of the work including new datasets being labeled, new and existing challenges, and further directions of the work, as well as Figures previewing the new label.
翻訳日:2022-01-12 21:49:43 公開日:2022-01-10
# (参考訳) 確率的競争に基づく多様な表現学習のための相互情報制約の競合

Competing Mutual Information Constraints with Stochastic Competition-based Activations for Learning Diversified Representations ( http://arxiv.org/abs/2201.03624v1 )

ライセンス: CC BY 4.0
Konstantinos P. Panousis, Anastasios Antoniadis, Sotirios Chatzis(参考訳) 本研究は,多角化表現の学習における長年の課題に対処することを目的とする。 この目的のために、情報理論の議論と確率的競争に基づくアクティベーション、すなわちStochastic Local Winner-Takes-All (LWTA)ユニットを組み合わせる。 この文脈では、非線型アクティベーションに依存する表現学習でよく使われる従来のディープアーキテクチャを廃止し、代わりに局所的および確率論的に競合する線形単位の集合に置き換える。 この設定では、各ネットワーク層は、競合のブロックに編成されたユニット間の競合の結果によって決定されるスパース出力を出力する。 各ブロックの勝者を決定するために後続サンプリングを行う競合機構に対して確率的引数を採用する。 我々はさらに,検討対象のネットワークに対して,データモデリングに不可欠なネットワークの下位部分の推測能力を与える。 新たな表現の情報をさらに豊かにするために、情報理論的な原則、すなわち情報競合プロセス(icp)に頼る。 そして、全ての成分は推論のための確率的変分ベイズフレームワークの下で結合される。 画像分類のベンチマークデータセットを用いて,提案手法の徹底的な実験を行った。 実験的に示すように、結果として得られるネットワークは、重要な識別的表現学習能力をもたらす。 さらに、このパラダイムにより、新興中間ネットワーク表現の原理的な調査機構が実現される。

This work aims to address the long-established problem of learning diversified representations. To this end, we combine information-theoretic arguments with stochastic competition-based activations, namely Stochastic Local Winner-Takes-All (LWTA) units. In this context, we ditch the conventional deep architectures commonly used in Representation Learning, that rely on non-linear activations; instead, we replace them with sets of locally and stochastically competing linear units. In this setting, each network layer yields sparse outputs, determined by the outcome of the competition between units that are organized into blocks of competitors. We adopt stochastic arguments for the competition mechanism, which perform posterior sampling to determine the winner of each block. We further endow the considered networks with the ability to infer the sub-part of the network that is essential for modeling the data at hand; we impose appropriate stick-breaking priors to this end. To further enrich the information of the emerging representations, we resort to information-theoretic principles, namely the Information Competing Process (ICP). Then, all the components are tied together under the stochastic Variational Bayes framework for inference. We perform a thorough experimental investigation for our approach using benchmark datasets on image classification. As we experimentally show, the resulting networks yield significant discriminative representation learning abilities. In addition, the introduced paradigm allows for a principled investigation mechanism of the emerging intermediate network representations.
翻訳日:2022-01-12 21:39:37 公開日:2022-01-10
# (参考訳) マルチクエリビデオ検索

Multi-query Video Retrieval ( http://arxiv.org/abs/2201.03639v1 )

ライセンス: CC BY 4.0
Zeyu Wang, Yu Wu, Karthik Narasimhan, Olga Russakovsky(参考訳) テキスト記述に基づくターゲットビデオの検索は非常に実用的な作業であり、ここ数年で注目を集めている。 本稿では,ビデオアーカイブを検索するモデルに対して,複数のクエリが提供されるマルチクエリ・ビデオ検索について,研究の少ない設定に焦点をあてる。 まず,マルチクエリ検索タスクは実世界のユースケースをより現実的に表現し,現在のモデルの検索能力をよりよく評価し,より一般的な単一クエリ検索設定とともにさらなる調査を継続することを示す。 次に、トレーニング時に複数のクエリを活用する新しい手法を提案し、通常の単一クエリ訓練モデルからの複数のクエリの類似度出力を単純に組み合わせて改善する。 私たちのモデルは、3つの異なるデータセットよりも競争力のあるベースラインを一貫して上回ります。 例えば、Recall@1はMSR-VTTで4.7ポイント、MSVDで4.1ポイント、VATEXで11.7ポイント改善できる。 さらなるモデリングの取り組みは、この方向性に新たな洞察をもたらし、実世界のビデオ検索アプリケーションでより良い性能を発揮する新しいシステムを引き起こすと信じています。 コードはhttps://github.com/princetonvisualai/MQVRで入手できる。

Retrieving target videos based on text descriptions is a task of great practical value and has received increasing attention over the past few years. In this paper, we focus on the less-studied setting of multi-query video retrieval, where multiple queries are provided to the model for searching over the video archive. We first show that the multi-query retrieval task is more pragmatic and representative of real-world use cases and better evaluates retrieval capabilities of current models, thereby deserving of further investigation alongside the more prevalent single-query retrieval setup. We then propose several new methods for leveraging multiple queries at training time to improve over simply combining similarity outputs of multiple queries from regular single-query trained models. Our models consistently outperform several competitive baselines over three different datasets. For instance, Recall@1 can be improved by 4.7 points on MSR-VTT, 4.1 points on MSVD and 11.7 points on VATEX over a strong baseline built on the state-of-the-art CLIP4Clip model. We believe further modeling efforts will bring new insights to this direction and spark new systems that perform better in real-world video retrieval applications. Code is available at https://github.com/princetonvisualai/MQVR.
翻訳日:2022-01-12 21:10:31 公開日:2022-01-10
# (参考訳) E2Eモデルの類似率に基づく領域適応法

A Likelihood Ratio based Domain Adaptation Method for E2E Models ( http://arxiv.org/abs/2201.03655v1 )

ライセンス: CC BY 4.0
Chhavi Choudhury, Ankur Gandhe, Xiaohan Ding, Ivan Bulyko(参考訳) エンドツーエンド(e2e)の自動音声認識モデルであるrecurrent neural networks transducer(rnn-t)は、音声アシスタントのようなストリーミングasrアプリケーションで人気を集めている。 E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。 さらに、これらのモデルはペア音声とテキストの訓練データを必要とし、計算コストが高く、会話音声の急速な進化に適応するのは難しい。 本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する確率比を用いたコンテキストバイアス手法を提案する。 本手法は, 単語認識の改善に有効であることを示すとともに, 一般データセットの劣化を伴わずに複数のドメイン外データセット上での1-best単語誤り率 (WER) が10%, n-bestOracle WER (n=8) が10%向上したことを示す。 また, 文脈バイアス適応と第2パス復元モデルの適応を補完することにより, 付加的な wer が改善されることを示した。

End-to-end (E2E) automatic speech recognition models like Recurrent Neural Networks Transducer (RNN-T) are becoming a popular choice for streaming ASR applications like voice assistants. While E2E models are very effective at learning representation of the training data they are trained on, their accuracy on unseen domains remains a challenging problem. Additionally, these models require paired audio and text training data, are computationally expensive and are difficult to adapt towards the fast evolving nature of conversational speech. In this work, we explore a contextual biasing approach using likelihood-ratio that leverages text data sources to adapt RNN-T model to new domains and entities. We show that this method is effective in improving rare words recognition, and results in a relative improvement of 10% in 1-best word error rate (WER) and 10% in n-best Oracle WER (n=8) on multiple out-of-domain datasets without any degradation on a general dataset. We also show that complementing the contextual biasing adaptation with adaptation of a second-pass rescoring model gives additive WER improvements.
翻訳日:2022-01-12 20:54:01 公開日:2022-01-10
# (参考訳) 部分群ラベルの存在下でのグループロバスト性を目指して

Towards Group Robustness in the presence of Partial Group Labels ( http://arxiv.org/abs/2201.03668v1 )

ライセンス: CC BY 4.0
Vishnu Suresh Lokhande, Kihyuk Sohn, Jinsung Yoon, Madeleine Udell, Chen-Yu Lee and Tomas Pfister(参考訳) データセットの急激な相関によって駆動される機械学習モデルをトレーニングする場合、不変表現の学習は重要な要件である。 入力サンプルとターゲットラベルの間のこれらの急激な相関関係は、ニューラルネットワークの予測を誤って指示し、特定のグループ、特に少数グループのパフォーマンスが低下する。 これらの急激な相関に対するロバストな訓練は、全てのサンプルに対するグループメンバーシップの知識を必要とする。 このような要件は、マイノリティグループやレアグループに対するデータラベリング努力が著しく手間がかかる状況や、データセットを構成する個人が機密情報を隠すことを選択する状況において、現実的ではない。 一方で、このようなデータ収集の取り組みの存在は、部分的なラベル付きグループ情報を含むデータセットをもたらす。 最近の研究は、グループのラベルが利用できない完全に教師なしのシナリオに取り組んでいる。 そこで,本研究では,学習中に部分的に利用可能なセンシティブな情報やグループ情報を活用できる,より現実的な設定に取り組むことで,文学の欠如したギャップを埋めることを目的とする。 まず、制約集合を構築し、その集合に属する群割り当てに対して有界な高確率を導出する。 次に,制約集合から最悪のグループ割り当てを最適化するアルゴリズムを提案する。 画像および表型データセットを用いた実験により,グループ全体の集計精度を維持しつつ,マイノリティグループのパフォーマンスを改善した。

Learning invariant representations is an important requirement when training machine learning models that are driven by spurious correlations in the datasets. These spurious correlations, between input samples and the target labels, wrongly direct the neural network predictions resulting in poor performance on certain groups, especially the minority groups. Robust training against these spurious correlations requires the knowledge of group membership for every sample. Such a requirement is impractical in situations where the data labeling efforts for minority or rare groups are significantly laborious or where the individuals comprising the dataset choose to conceal sensitive information. On the other hand, the presence of such data collection efforts results in datasets that contain partially labeled group information. Recent works have tackled the fully unsupervised scenario where no labels for groups are available. Thus, we aim to fill the missing gap in the literature by tackling a more realistic setting that can leverage partially available sensitive or group information during training. First, we construct a constraint set and derive a high probability bound for the group assignment to belong to the set. Second, we propose an algorithm that optimizes for the worst-off group assignments from the constraint set. Through experiments on image and tabular datasets, we show improvements in the minority group's performance while preserving overall aggregate accuracy across groups.
翻訳日:2022-01-12 20:44:00 公開日:2022-01-10
# (参考訳) 非公式なペルシャの普遍依存ツリーバンク

Informal Persian Universal Dependency Treebank ( http://arxiv.org/abs/2201.03679v1 )

ライセンス: CC BY 4.0
Roya Kabiri, Simin Karimi, Mihai Surdeanu(参考訳) 本稿では,形式的ペルシャ語と形式的ペルシャ語の音韻的,形態的,統語論的区別について述べる。 非公式なペルシャ語が特定の特徴を示すことを考えると、公式なペルシャ語で訓練された計算モデルは、非公式なペルシャ語にうまく移行することはありそうにない。 そこで我々は,Universal Dependenciesスキームにアノテートされた新しいツリーバンクであるInformal Persian Universal Dependency Treebankの開発について詳述する。 次に,2つの係り受けパーサを既存の形式ツリーバンクにトレーニングし,ドメイン外データ,すなわち非公式ツリーバンクの開発セット上で評価することで,非公式ペルシャの構文解析について検討した。 以上の結果から,より未知のトークンや構造に直面するため,パーサは2つの領域を移動すると大幅な性能低下を経験することがわかった。 さらに、性能が劣化する依存性関係は、非公式な変種の特徴を最も表している。 この研究の最終的な目標は、言語全体にわたる自然言語処理ツールで広く見過ごされてきた非公式な変種言語の重要性を明らかにするための足掛かりを提供することである。

This paper presents the phonological, morphological, and syntactic distinctions between formal and informal Persian, showing that these two variants have fundamental differences that cannot be attributed solely to pronunciation discrepancies. Given that informal Persian exhibits particular characteristics, any computational model trained on formal Persian is unlikely to transfer well to informal Persian, necessitating the creation of dedicated treebanks for this variety. We thus detail the development of the open-source Informal Persian Universal Dependency Treebank, a new treebank annotated within the Universal Dependencies scheme. We then investigate the parsing of informal Persian by training two dependency parsers on existing formal treebanks and evaluating them on out-of-domain data, i.e. the development set of our informal treebank. Our results show that parsers experience a substantial performance drop when we move across the two domains, as they face more unknown tokens and structures and fail to generalize well. Furthermore, the dependency relations whose performance deteriorates the most represent the unique properties of the informal variant. The ultimate goal of this study that demonstrates a broader impact is to provide a stepping-stone to reveal the significance of informal variants of languages, which have been widely overlooked in natural language processing tools across languages.
翻訳日:2022-01-12 20:21:26 公開日:2022-01-10
# (参考訳) fairedit: 欲望グラフ編集によるグラフニューラルネットワークの公平性維持

FairEdit: Preserving Fairness in Graph Neural Networks through Greedy Graph Editing ( http://arxiv.org/abs/2201.03681v1 )

ライセンス: CC BY 4.0
Donald Loveland, Jiayi Pan, Aaresh Farrokh Bhathena, Yiyang Lu(参考訳) グラフニューラルネットワーク(GNN)は、基礎となるデータがグラフである予測モデリングタスクに優れていることが証明されている。 しかしながら、GNNは人間中心のアプリケーションで広く使われているため、公平性の問題が持ち上がっている。 エッジ削除は、GNNの公平性を促進するのによく使われる手法であるが、データが本質的に公正な接続を欠いていることを考慮しない。 本研究では,公平性を促進するために,削除を伴うエッジ付加法について検討する。 本稿では,エッジ編集を行うためのモデル非依存な2つのアルゴリズムを提案する。 FairEditは、フェアネス損失の勾配情報を利用して効率の良いエッジ編集を行い、フェアネスを改善するエッジを見つける。 FairEditは、多くのデータセットやGNNメソッドの標準トレーニングよりも優れており、多くの最先端メソッドと互換性があり、FairEditが多くのドメインやモデルにまたがって公正性を向上させる能力を示している。

Graph Neural Networks (GNNs) have proven to excel in predictive modeling tasks where the underlying data is a graph. However, as GNNs are extensively used in human-centered applications, the issue of fairness has arisen. While edge deletion is a common method used to promote fairness in GNNs, it fails to consider when data is inherently missing fair connections. In this work we consider the unexplored method of edge addition, accompanied by deletion, to promote fairness. We propose two model-agnostic algorithms to perform edge editing: a brute force approach and a continuous approximation approach, FairEdit. FairEdit performs efficient edge editing by leveraging gradient information of a fairness loss to find edges that improve fairness. We find that FairEdit outperforms standard training for many data sets and GNN methods, while performing comparably to many state-of-the-art methods, demonstrating FairEdit's ability to improve fairness across many domains and models.
翻訳日:2022-01-12 20:01:01 公開日:2022-01-10
# (参考訳) NFANet:高分解能リモートセンシング画像からの弱補正水抽出法

NFANet: A Novel Method for Weakly Supervised Water Extraction from High-Resolution Remote Sensing Imagery ( http://arxiv.org/abs/2201.03686v1 )

ライセンス: CC BY 4.0
Ming Lu, Leyuan Fang, Muxing Li, Bob Zhang, Yi Zhang, Pedram Ghamisi(参考訳) 深層学習による水抽出には正確なピクセルレベルラベルが必要である。 しかし,高解像度リモートセンシング画像の画素レベルでのラベル付けは非常に困難である。 そこで本稿では,水体抽出にポイントラベルを用いる手法について検討し,NFANetと呼ばれる新しい手法を提案する。 ピクセルレベルラベルと比較すると、ポイントラベルはずっと入手しやすいが、多くの情報を失うだろう。 本稿では,近傍の水域の画素間の類似性を生かして,リモートセンシング画像のサンプル化を行う隣のサンプル装置を提案する。 そして、サンプル画像がネットワークに送られ、特徴集合となる。 さらに,改良された再帰的学習アルゴリズムを用いて抽出精度をさらに向上させ,水界の自然化を図る。 さらに,本手法では,グローバル機能やローカル機能の代わりに隣接機能を利用し,より代表的特徴を学習する。 実験結果から,NFANet法は弱教師付きアプローチよりも優れているだけでなく,最先端手法と類似した結果が得られることがわかった。

The use of deep learning for water extraction requires precise pixel-level labels. However, it is very difficult to label high-resolution remote sensing images at the pixel level. Therefore, we study how to utilize point labels to extract water bodies and propose a novel method called the neighbor feature aggregation network (NFANet). Compared with pixellevel labels, point labels are much easier to obtain, but they will lose much information. In this paper, we take advantage of the similarity between the adjacent pixels of a local water-body, and propose a neighbor sampler to resample remote sensing images. Then, the sampled images are sent to the network for feature aggregation. In addition, we use an improved recursive training algorithm to further improve the extraction accuracy, making the water boundary more natural. Furthermore, our method utilizes neighboring features instead of global or local features to learn more representative features. The experimental results show that the proposed NFANet method not only outperforms other studied weakly supervised approaches, but also obtains similar results as the state-of-the-art ones.
翻訳日:2022-01-12 19:50:34 公開日:2022-01-10
# 病理組織像における核セグメンテーションのための神経可塑性グラフアテンションネットワーク

Neuroplastic graph attention networks for nuclei segmentation in histopathology images ( http://arxiv.org/abs/2201.03669v1 )

ライセンス: Link先を確認
Yoav Alon, Huiyu Zhou(参考訳) 現代の病理組織学的画像解析は、生体医学研究や臨床診断に必要な定量的指標を導出するために細胞構造の区分に依存する。 最先端のディープラーニングアプローチは、主にセグメンテーションの畳み込み層を適用し、通常、特定の実験構成のために高度にカスタマイズされ、しばしば未知のデータに一般化できない。 古典的畳み込み層のモデル容量は、学習されたカーネルの有限集合によって制限されるため、我々は画像のグラフ表現を使い、複数の倍率におけるノード遷移に焦点を当てる。 染色や細胞型の変化といった実験的な構成の違いに頑健な細胞核のセグメンテーションのための新しいアーキテクチャを提案する。 組織像の多重倍率レベルを表すグラフ構造の残差グラフアテンション層と同時最適化に基づく新規な神経可塑性グラフアテンションネットワークで構成されている。 プロジェクションによってノードの特徴を生成するグラフ構造の変更は、グラフニューラルネットワーク自体と同様にアーキテクチャにとって重要である。 メッセージフローと臨界特性を判断し、バランスの取れた倍率損失における注意、グラフ構造、ノード更新を最適化する。 実験的な評価では、ニューラルネットワークの最先端のアンサンブルを、通常必要なニューロンのごく一部で上回り、新しい核データセットのセグメンテーションの新しい標準を設定した。

Modern histopathological image analysis relies on the segmentation of cell structures to derive quantitative metrics required in biomedical research and clinical diagnostics. State-of-the-art deep learning approaches predominantly apply convolutional layers in segmentation and are typically highly customized for a specific experimental configuration; often unable to generalize to unknown data. As the model capacity of classical convolutional layers is limited by a finite set of learned kernels, our approach uses a graph representation of the image and focuses on the node transitions in multiple magnifications. We propose a novel architecture for semantic segmentation of cell nuclei robust to differences in experimental configuration such as staining and variation of cell types. The architecture is comprised of a novel neuroplastic graph attention network based on residual graph attention layers and concurrent optimization of the graph structure representing multiple magnification levels of the histopathological image. The modification of graph structure, which generates the node features by projection, is as important to the architecture as the graph neural network itself. It determines the possible message flow and critical properties to optimize attention, graph structure, and node updates in a balanced magnification loss. In experimental evaluation, our framework outperforms ensembles of state-of-the-art neural networks, with a fraction of the neurons typically required, and sets new standards for the segmentation of new nuclei datasets.
翻訳日:2022-01-12 15:05:46 公開日:2022-01-10
# 最適かつ差動的にプライベートなデータ取得:中央および局所的メカニズム

Optimal and Differentially Private Data Acquisition: Central and Local Mechanisms ( http://arxiv.org/abs/2201.03968v1 )

ライセンス: Link先を確認
Alireza Fallah, Ali Makhdoumi, Azarakhsh Malekian, Asuman Ozdaglar(参考訳) プライバシに敏感なユーザからデータを収集するプラットフォームの問題を考え,その基盤となる関心パラメータを推定する。 我々は、個人が金銭的報酬やサービスと引き換えに彼女の(検証可能な)データを共有できるが、同時に、差動プライバシーを使って定量化する(プライベートな)異質なプライバシーコストを持つベイズ最適メカニズム設計問題として、この問題を定式化する。 ユーザに対してプライバシ保証を提供するための2つの一般的な差分プライバシー設定について検討する。 いずれの設定においても,推定誤差の最小上限を定め,ユーザに対する不均質なプライバシ損失レベルに対する最適推定値を導出する。 この特徴に基づいて,ユーザのプライバシ感を真に報告する推定器と支払いの最適選択として,メカニズム設計の問題を提起する。 プライバシ感受性の分布に関する規則性条件の下で,プライバシ設定の両方において,この問題を解決する効率的なアルゴリズム機構を考案する。 中央設定における我々のメカニズムは、時間$\mathcal{O}(n \log n)$で実装することができ、$n$はユーザ数であり、ローカル設定における我々のメカニズムは、PTAS(Polynomial Time Approximation Scheme)を許容する。

We consider a platform's problem of collecting data from privacy sensitive users to estimate an underlying parameter of interest. We formulate this question as a Bayesian-optimal mechanism design problem, in which an individual can share her (verifiable) data in exchange for a monetary reward or services, but at the same time has a (private) heterogeneous privacy cost which we quantify using differential privacy. We consider two popular differential privacy settings for providing privacy guarantees for the users: central and local. In both settings, we establish minimax lower bounds for the estimation error and derive (near) optimal estimators for given heterogeneous privacy loss levels for users. Building on this characterization, we pose the mechanism design problem as the optimal selection of an estimator and payments that will elicit truthful reporting of users' privacy sensitivities. Under a regularity condition on the distribution of privacy sensitivities we develop efficient algorithmic mechanisms to solve this problem in both privacy settings. Our mechanism in the central setting can be implemented in time $\mathcal{O}(n \log n)$ where $n$ is the number of users and our mechanism in the local setting admits a Polynomial Time Approximation Scheme (PTAS).
翻訳日:2022-01-12 15:03:54 公開日:2022-01-10
# ExBrainable: CNNベースのEEGデコーディングとモデル解釈のためのオープンソースGUI

ExBrainable: An Open-Source GUI for CNN-based EEG Decoding and Model Interpretation ( http://arxiv.org/abs/2201.04065v1 )

ライセンス: Link先を確認
Ya-Lin Huang, Chia-Ying Hsieh, Jian-Xue Huang, Chun-Shu Wei(参考訳) 我々は,脳波デコーディングにおける畳み込みニューラルネットワーク(CNN)モデルトレーニングと可視化に特化したグラフィックユーザインタフェースであるExBrainableを開発した。 利用可能な機能には、時間的および空間的表現の観点からのモデルトレーニング、評価、パラメータ可視化が含まれる。 運動画像脳波の公開データセットを用いてこれらの機能を実証し,既存の神経科学知識と比較した。 exbrainableの主な目的は、脳/神経科学研究において最先端の方法を活用するために、研究員に脳波デコーディングの高速でシンプルでユーザフレンドリーなソリューションを提供することである。

We have developed a graphic user interface (GUI), ExBrainable, dedicated to convolutional neural networks (CNN) model training and visualization in electroencephalography (EEG) decoding. Available functions include model training, evaluation, and parameter visualization in terms of temporal and spatial representations. We demonstrate these functions using a well-studied public dataset of motor-imagery EEG and compare the results with existing knowledge of neuroscience. The primary objective of ExBrainable is to provide a fast, simplified, and user-friendly solution of EEG decoding for investigators across disciplines to leverage cutting-edge methods in brain/neuroscience research.
翻訳日:2022-01-12 15:03:30 公開日:2022-01-10
# 成層グラフスペクトル

Stratified Graph Spectra ( http://arxiv.org/abs/2201.03696v1 )

ライセンス: Link先を確認
Fanchao Meng, Mark Orr, Samarth Swarup(参考訳) 古典的なグラフ信号処理では、実数値グラフ信号が与えられると、そのグラフフーリエ変換は一般に、信号とグラフラプラシアンの各固有ベクトルの間の一連の内積として定義される。 残念なことに、この定義はベクトル値グラフ信号の場合では数学的に有効ではない。 ベクトル値信号から固有成分の大きさを復号する一般化変換を求めることが本論文の主な目的である。 いくつかの試みが検討され、階層的な階層レベルでの変換を行うことで、信号のスペクトル特性をより洞察的にプロファイリングできることが判明した。 提案手法は,グラフ学習モデルの診断とプロファイリングを支援する新しいツールとして導入された。

In classic graph signal processing, given a real-valued graph signal, its graph Fourier transform is typically defined as the series of inner products between the signal and each eigenvector of the graph Laplacian. Unfortunately, this definition is not mathematically valid in the cases of vector-valued graph signals which however are typical operands in the state-of-the-art graph learning modeling and analyses. Seeking a generalized transformation decoding the magnitudes of eigencomponents from vector-valued signals is thus the main objective of this paper. Several attempts are explored, and also it is found that performing the transformation at hierarchical levels of adjacency help profile the spectral characteristics of signals more insightfully. The proposed methods are introduced as a new tool assisting on diagnosing and profiling behaviors of graph learning models.
翻訳日:2022-01-12 14:45:44 公開日:2022-01-10
# 類似タグ探索とタグコミュニティ検出による資源推薦システムの性能改善

Resource recommender system performance improvement by exploring similar tags and detecting tags communities ( http://arxiv.org/abs/2201.03622v1 )

ライセンス: Link先を確認
Zeinab Shokrzadeh, Mohammad-Reza Feizi-Derakhshi, Mohammad-Ali Balafar, Jamshid Bagherzadeh Mohasefi(参考訳) 多くの研究者がレコメンデーションシステムにおけるレコメンデーション手法の性能向上にタグ情報を使用している。 ユーザーのタグを調べることは、興味を得るのに役立ち、レコメンデーションでより正確になる。 ユーザ定義タグは自由かつ制限なく選択されるため、タグの正確な意味と類似性を決定する際に問題が発生する。 一方、ユーザによる自由な定義や多くのデータセットにおける異なる言語の使用により、タグの意味を見つけるためにシソーラスやオントロジーを使うことは、あまり効率的ではない。 そこで,本論文では,語彙的類似性を決定する数学的および統計的手法と,意味的類似性を割り当てる共起タグ解を用いた。 一方, 利用者の興味の変化により, タグの類似性が決定されるため, 共起タグにおけるタグ割り当ての時期を考察した。 そして、これらの類似性に基づいてグラフを作成する。 ユーザの興味をモデル化するために,コミュニティ検出手法を用いてタグのコミュニティを決定する。 そのため、タグのコミュニティとリソース間の類似性に基づいたレコメンデーションが行われます。 提案手法の性能は「Delicious」データセットを用いた評価に基づく精度とリコールの2つの基準を用いて評価されている。 評価の結果,提案手法の精度と再現性は,他の手法と比較して有意に向上した。

Many researchers have used tag information to improve the performance of recommendation techniques in recommender systems. Examining the tags of users will help to get their interests and leads to more accuracy in the recommendations. Since user-defined tags are chosen freely and without any restrictions, problems arise in determining their exact meaning and the similarity of tags. On the other hand, using thesauruses and ontologies to find the meaning of tags is not very efficient due to their free definition by users and the use of different languages in many data sets. Therefore, this article uses the mathematical and statistical methods to determine lexical similarity and co-occurrence tags solution to assign semantic similarity. On the other hand, due to the change of users' interests over time this article have considered the time of tag assignments in co-occurrence tags for determined similarity of tags. Then the graph is created based on these similarities. For modeling the interests of the users, the communities of tags are determined by using community detection methods. So recommendations based on the communities of tags and similarity between resources are done. The performance of the proposed method has been done using two criteria of precision and recall based on evaluations with "Delicious" dataset. The evaluation results show that, the precision and recall of the proposed method have significantly improved, compared to the other methods.
翻訳日:2022-01-12 14:44:54 公開日:2022-01-10
# 量子ニューラルネットワークのための量子活性化関数

Quantum activation functions for quantum neural networks ( http://arxiv.org/abs/2201.03700v1 )

ライセンス: Link先を確認
Marco Maronese and Claudio Destri and Enrico Prati(参考訳) ニューラルネットワークの分野は、最近の量子コンピュータの発展から大きな恩恵を受けると予想されている。 特に、トレーニング可能なニューラルネットワークを作成するためにキュービットを利用する量子アルゴリズムのクラスである量子機械学習は、パターン認識やクラスタリング、マシンラーニング全般といった問題を解決するためのより多くのパワーを提供する。 フィードフォワードニューラルネットワークの構成要素は、任意の活性化機能に従って活性化される出力ニューロンに接続されたニューロンの1層からなる。 対応する学習アルゴリズムはRosenblatt perceptronと呼ばれる。 特定の活性化関数を持つ量子パーセプトロンは知られているが、量子コンピュータ上で任意の活性化関数を実現する一般的な方法はまだ欠けている。 ここでは、このギャップを、任意の解析的活性化関数をそのパワー系列の任意の順序に近似できる量子アルゴリズムで埋める。 非可逆な測度に基づく簡易な活性化関数を提供する従来の提案とは違って、解析関数を必要な精度で近似する方法を、情報を符号化する状態を測定することなく示す。 この構成の一般化により、任意のフィードフォワードニューラルネットワークはホルニクの定理に従って普遍近似特性を取得することができる。 我々は,ゲートモデル量子コンピュータのアーキテクチャにおいて,人工ニューラルネットワークの科学を再考した。

The field of artificial neural networks is expected to strongly benefit from recent developments of quantum computers. In particular, quantum machine learning, a class of quantum algorithms which exploit qubits for creating trainable neural networks, will provide more power to solve problems such as pattern recognition, clustering and machine learning in general. The building block of feed-forward neural networks consists of one layer of neurons connected to an output neuron that is activated according to an arbitrary activation function. The corresponding learning algorithm goes under the name of Rosenblatt perceptron. Quantum perceptrons with specific activation functions are known, but a general method to realize arbitrary activation functions on a quantum computer is still lacking. Here we fill this gap with a quantum algorithm which is capable to approximate any analytic activation functions to any given order of its power series. Unlike previous proposals providing irreversible measurement--based and simplified activation functions, here we show how to approximate any analytic function to any required accuracy without the need to measure the states encoding the information. Thanks to the generality of this construction, any feed-forward neural network may acquire the universal approximation properties according to Hornik's theorem. Our results recast the science of artificial neural networks in the architecture of gate-model quantum computers.
翻訳日:2022-01-12 14:43:13 公開日:2022-01-10
# 完全学習型ガバーカーネルを用いた3次元セグメンテーションとピアソン相関係数

3D Segmentation with Fully Trainable Gabor Kernels and Pearson's Correlation Coefficient ( http://arxiv.org/abs/2201.03644v1 )

ライセンス: Link先を確認
Ken C. L. Wong, Mehdi Moradi(参考訳) 畳み込み層と損失関数は、ディープラーニングの2つの基本的な構成要素である。 従来のディープラーニングカーネルの成功により、さまざまな周波数、向き、およびパラメータの少ないスケールで豊富な機能を提供できるにもかかわらず、汎用性の低いgaborカーネルは人気が低くなる。 多クラス画像セグメンテーションのための既存の損失関数には、通常、精度、ハイパーパラメータに対する堅牢性、異なる損失を組み合わせた手動の重量選択のトレードオフがある。 したがって、ディープラーニングにおける自動機能生成の利点を保ちつつ、gaborカーネルを使用することの利点を得るため、すべてのgaborパラメータがバックプロパゲーションを通じてトレーニング可能な、完全にトレーニング可能なgaborベースの畳み込み層を提案する。 さらに,pearson相関係数に基づく損失関数を提案する。これは精度が高く,学習率に頑健であり,手作業による重量選択を必要としない。 43個の3次元脳磁気共鳴画像と19個の解剖学的構造を用いた実験により,提案した損失関数と従来とガボルのカーネルの適切な組み合わせを用いて,約1.6万パラメータのネットワークをトレーニングし,平均Dice係数83%を達成できることがわかった。 このサイズは、7100万のパラメータを持つV-Netの44倍小さい。 本稿では,学習可能なパラメトリックカーネルを用いたディープラーニングによる3次元セグメンテーションの可能性を示す。

The convolutional layer and loss function are two fundamental components in deep learning. Because of the success of conventional deep learning kernels, the less versatile Gabor kernels become less popular despite the fact that they can provide abundant features at different frequencies, orientations, and scales with much fewer parameters. For existing loss functions for multi-class image segmentation, there is usually a tradeoff among accuracy, robustness to hyperparameters, and manual weight selections for combining different losses. Therefore, to gain the benefits of using Gabor kernels while keeping the advantage of automatic feature generation in deep learning, we propose a fully trainable Gabor-based convolutional layer where all Gabor parameters are trainable through backpropagation. Furthermore, we propose a loss function based on the Pearson's correlation coefficient, which is accurate, robust to learning rates, and does not require manual weight selections. Experiments on 43 3D brain magnetic resonance images with 19 anatomical structures show that, using the proposed loss function with a proper combination of conventional and Gabor-based kernels, we can train a network with only 1.6 million parameters to achieve an average Dice coefficient of 83%. This size is 44 times smaller than the V-Net which has 71 million parameters. This paper demonstrates the potentials of using learnable parametric kernels in deep learning for 3D segmentation.
翻訳日:2022-01-12 14:41:54 公開日:2022-01-10
# MCU上のサブmWキーワードスポッティング:アナログ二項特徴抽出と二項ニューラルネットワーク

Sub-mW Keyword Spotting on an MCU: Analog Binary Feature Extraction and Binary Neural Networks ( http://arxiv.org/abs/2201.03386v1 )

ライセンス: Link先を確認
Gianmarco Cerutti, Lukas Cavigelli, Renzo Andri, Michele Magno, Elisabetta Farella, Luca Benini(参考訳) キーワードスポッティング(KWS)は、私たちの周辺にある多くのユビキタススマートデバイスとのインタラクションを可能にする重要な機能である。 多くのアプリケーションにとって、KWSはデバイスとのインタラクションのエントリポイントであり、常にオンのワークロードになります。 多くのスマートデバイスはモバイルであり、バッテリー寿命は継続的に動作するサービスによって大きく影響を受ける。 kwsと類似の常時接続サービスは、全体的な電力消費の最適化に重点を置いている。 この研究は、低コストマイクロコントローラユニット(MCU)のKWSエネルギー効率に対処する。 アナログ二項特徴抽出と二項ニューラルネットワークを組み合わせる。 デジタル前処理をアナログフロントエンドに置き換えることで、データ取得と前処理に必要なエネルギーを29倍に削減でき、参照KWSアプリケーション全体のエネルギー消費量の85%から16%に削減できることを示す。 音声コマンドデータセットの実験的評価により,提案方式は10級データセットで1%,4.3倍の精度とエネルギー効率をそれぞれ上回り,71倍のエネルギー削減に対して2%の精度低下を含む説得力のある精度とエネルギーのトレードオフが得られた。

Keyword spotting (KWS) is a crucial function enabling the interaction with the many ubiquitous smart devices in our surroundings, either activating them through wake-word or directly as a human-computer interface. For many applications, KWS is the entry point for our interactions with the device and, thus, an always-on workload. Many smart devices are mobile and their battery lifetime is heavily impacted by continuously running services. KWS and similar always-on services are thus the focus when optimizing the overall power consumption. This work addresses KWS energy-efficiency on low-cost microcontroller units (MCUs). We combine analog binary feature extraction with binary neural networks. By replacing the digital preprocessing with the proposed analog front-end, we show that the energy required for data acquisition and preprocessing can be reduced by 29x, cutting its share from a dominating 85% to a mere 16% of the overall energy consumption for our reference KWS application. Experimental evaluations on the Speech Commands Dataset show that the proposed system outperforms state-of-the-art accuracy and energy efficiency, respectively, by 1% and 4.3x on a 10-class dataset while providing a compelling accuracy-energy trade-off including a 2% accuracy drop for a 71x energy reduction.
翻訳日:2022-01-12 14:38:28 公開日:2022-01-10
# ベイズモデル可視化の評価

Evaluating Bayesian Model Visualisations ( http://arxiv.org/abs/2201.03604v1 )

ライセンス: Link先を確認
Sebastian Stein (1), John H. Williamson (1) ((1) School of Computing Science, University of Glasgow, Scotland, United Kingdom)(参考訳) 確率モデルは、最終的に人々が下した幅広いビジネスおよび政策決定を知らせる。 近年のアルゴリズム, 計算, およびソフトウェアフレームワークの開発は, 点推定ではなく, 共同分布によって未観測パラメータを特徴づけるベイズ確率モデルの普及を促進する。 意思決定者は複雑なクエリを探索し、理論上はWhat-if-style条件付けを行うことができるが、不確実性の下でユーザの理解と合理的な意思決定を最大化するためには、適切な視覚化と対話ツールが必要である。 本稿では,ベイズモデル可視化の定量的評価のためのプロトコルを提案し,評価実践の標準化を支援し,再現性を促進するために,このプロトコルを実装したソフトウェアフレームワークを提案する。 本研究は,BoxplotsとPhythetical Outcome Plotsをインタラクティブにすることで,理解や合理性を向上できるかどうかを探索するユーザスタディにおける評価と分析のワークフローを説明し,将来同様の研究を行おうとする研究者のための設計ガイドラインで結論付ける。

Probabilistic models inform an increasingly broad range of business and policy decisions ultimately made by people. Recent algorithmic, computational, and software framework development progress facilitate the proliferation of Bayesian probabilistic models, which characterise unobserved parameters by their joint distribution instead of point estimates. While they can empower decision makers to explore complex queries and to perform what-if-style conditioning in theory, suitable visualisations and interactive tools are needed to maximise users' comprehension and rational decision making under uncertainty. In this paper, propose a protocol for quantitative evaluation of Bayesian model visualisations and introduce a software framework implementing this protocol to support standardisation in evaluation practice and facilitate reproducibility. We illustrate the evaluation and analysis workflow on a user study that explores whether making Boxplots and Hypothetical Outcome Plots interactive can increase comprehension or rationality and conclude with design guidelines for researchers looking to conduct similar studies in the future.
翻訳日:2022-01-12 14:37:35 公開日:2022-01-10
# SpectraNet:高コントラスト分光画像による人工衛星の認識

SpectraNet: Learned Recognition of Artificial Satellites From High Contrast Spectroscopic Imagery ( http://arxiv.org/abs/2201.03614v1 )

ライセンス: Link先を確認
J. Zachary Gazak, Ian McQuaid, Ryan Swindle, Matthew Phelps, Justin Fletcher(参考訳) 効果的な宇宙交通管理には、人工衛星の正の識別が必要である。 観測データから物体を識別する現在の方法は、低軌道上の物体の識別を制限する空間的に解決された画像を必要とする。 しかし、ほとんどの人工衛星は、地上の観測所が空間情報の解決を禁止する距離の静止軌道で運用されている。 本稿では、残差畳み込みニューラルネットワークを応用して、距離不変の分光データをオブジェクトの同一性にマッピングするオブジェクト識別ソリューションについて述べる。 シミュレーション64級衛星問題に対して, 一定のランダムな再配向を行う衛星においても, 80%以上の分類精度を報告した。 これらの結果に触発された天文学的観測活動は、クラス平均100例の9クラス問題に対して72%の確率で帰結し、シミュレーションから期待通りに実行した。 変動ベイズ推定をドロップアウト,確率的重量平均化(swa)およびswaに焦点をあてた深層センシングを用いて,宇宙交通管理における不確実性(不確実性)の分類を計測する。

Effective space traffic management requires positive identification of artificial satellites. Current methods for extracting object identification from observed data require spatially resolved imagery which limits identification to objects in low earth orbits. Most artificial satellites, however, operate in geostationary orbits at distances which prohibit ground based observatories from resolving spatial information. This paper demonstrates an object identification solution leveraging modified residual convolutional neural networks to map distance-invariant spectroscopic data to object identity. We report classification accuracies exceeding 80% for a simulated 64-class satellite problem--even in the case of satellites undergoing constant, random re-orientation. An astronomical observing campaign driven by these results returned accuracies of 72% for a nine-class problem with an average of 100 examples per class, performing as expected from simulation. We demonstrate the application of variational Bayesian inference by dropout, stochastic weight averaging (SWA), and SWA-focused deep ensembling to measure classification uncertainties--critical components in space traffic management where routine decisions risk expensive space assets and carry geopolitical consequences.
翻訳日:2022-01-12 14:37:16 公開日:2022-01-10
# 乱流データ圧縮のための物理式ベクトル量子化オートエンコーダ

A Physics-Informed Vector Quantized Autoencoder for Data Compression of Turbulent Flow ( http://arxiv.org/abs/2201.03617v1 )

ライセンス: Link先を確認
Mohammadreza Momenifar, Enmao Diao, Vahid Tarokh, Andrew D. Bragg(参考訳) 乱流のシミュレーションによる大規模データの解析は、メモリ集約的であり、かなりのリソースを必要とする。 この大きな課題は、データ圧縮技術の必要性を強調している。 本研究では,ベクトル量子化に基づく物理インフォームド深層学習手法を適用し,3次元乱流のシミュレーションからデータの離散的,低次元表現を生成する。 ディープラーニングフレームワークは畳み込み層で構成されており、非圧縮性の保持や速度勾配のグローバル統計特性など、フローに対する物理的制約を取り入れている。 モデルの精度は、統計的・比較的類似度と物理的類似度を用いて評価される。 トレーニングデータセットは、非圧縮性、統計的に定常な等方性乱流の直接数値シミュレーションから生成される。 この損失データ圧縮方式の性能は, 定常, 等方性乱流の非検出データのみならず, 減衰する等方性乱流のデータ, テイラー-グリーン渦流によって評価される。 圧縮率 (CR) を圧縮データサイズと圧縮データサイズとの比として定義すると, ベクトル量子化に基づくモデルでは, 平均二乗誤差 (MSE) が$O(10^{-3})$で CR $=85$ となり, 流れの統計を忠実に再現する予測が可能となる。 圧縮を連続的に行う従来のオートエンコーダに基づく最近の研究と比較して,本モデルはcrを30ドル以上改善し,mseを1桁削減する。 当社の圧縮モデルは,高速で高品質,低オーバヘッドエンコーディングと大規模データのデコードが必要な状況において,魅力的なソリューションです。

Analyzing large-scale data from simulations of turbulent flows is memory intensive, requiring significant resources. This major challenge highlights the need for data compression techniques. In this study, we apply a physics-informed Deep Learning technique based on vector quantization to generate a discrete, low-dimensional representation of data from simulations of three-dimensional turbulent flows. The deep learning framework is composed of convolutional layers and incorporates physical constraints on the flow, such as preserving incompressibility and global statistical characteristics of the velocity gradients. The accuracy of the model is assessed using statistical, comparison-based similarity and physics-based metrics. The training data set is produced from Direct Numerical Simulation of an incompressible, statistically stationary, isotropic turbulent flow. The performance of this lossy data compression scheme is evaluated not only with unseen data from the stationary, isotropic turbulent flow, but also with data from decaying isotropic turbulence, and a Taylor-Green vortex flow. Defining the compression ratio (CR) as the ratio of original data size to the compressed one, the results show that our model based on vector quantization can offer CR $=85$ with a mean square error (MSE) of $O(10^{-3})$, and predictions that faithfully reproduce the statistics of the flow, except at the very smallest scales where there is some loss. Compared to the recent study based on a conventional autoencoder where compression is performed in a continuous space, our model improves the CR by more than $30$ percent, and reduces the MSE by an order of magnitude. Our compression model is an attractive solution for situations where fast, high quality and low-overhead encoding and decoding of large data are required.
翻訳日:2022-01-12 14:36:56 公開日:2022-01-10
# 胸部X線画像診断における非平衡データセットの原型関連伝播によるリスクの実証

Demonstrating The Risk of Imbalanced Datasets in Chest X-ray Image-based Diagnostics by Prototypical Relevance Propagation ( http://arxiv.org/abs/2201.03559v1 )

ライセンス: Link先を確認
Srishti Gautam, Marina M.-C. H\"ohne, Stine Hansen, Robert Jenssen and Michael Kampffmeyer(参考訳) マルチソースのChest X-Rayデータセットを統合して自動診断を改善する最近のトレンドは、モデルがソース固有の相関を利用して、医療病理ではなく画像のソースドメインを認識することでパフォーマンスを向上させることを学ぶという懸念を提起している。 我々は、この効果はソースドメイン間のラベル不均衡、すなわちソースに対応する疾患の頻度によって実施され、活用されると仮定する。 そこで本研究では,広く用いられている胸部x線14およびchexpertデータセットに対する肺炎検出課題に対するマルチソーストレーニングにおけるラベル不均衡の効果を徹底的に検討する。 その結果,より忠実で透明な自己説明モデルを用いた自動診断の重要性を強調し,強調した。 さらに、ラベルバランスの取れたソースドメインデータセットを保証する際に、急激な相関関係の学習が望ましくない効果を著しく低減できることを示す。

The recent trend of integrating multi-source Chest X-Ray datasets to improve automated diagnostics raises concerns that models learn to exploit source-specific correlations to improve performance by recognizing the source domain of an image rather than the medical pathology. We hypothesize that this effect is enforced by and leverages label-imbalance across the source domains, i.e, prevalence of a disease corresponding to a source. Therefore, in this work, we perform a thorough study of the effect of label-imbalance in multi-source training for the task of pneumonia detection on the widely used ChestX-ray14 and CheXpert datasets. The results highlight and stress the importance of using more faithful and transparent self-explaining models for automated diagnosis, thus enabling the inherent detection of spurious learning. They further illustrate that this undesirable effect of learning spurious correlations can be reduced considerably when ensuring label-balanced source domain datasets.
翻訳日:2022-01-12 14:24:02 公開日:2022-01-10
# 複雑な値の畳み込みをもつ反復RAKIによる画像再構成

Iterative RAKI with Complex-Valued Convolution for Improved Image Reconstruction with Limited Scan-Specific Training Samples ( http://arxiv.org/abs/2201.03560v1 )

ライセンス: Link先を確認
Peter Dawood, Martin Blaimer, Felix Breuer, Paul R. Burd, Istv\'an Homolya, Peter M. Jakob, Johannes Oberberger(参考訳) MRIスキャンの時間短縮は、通常、逆画像空間(k空間)の均一なアンサンプリングと複数の受信コイルによる同時信号受信に基づいているパラレルイメージング法によって達成される。 grappa法は、すべてのコイルに隣接する取得信号の線形結合により、欠落するk空間信号を補間し、k空間の畳み込みによって記述することができる。 近年,rakiと呼ばれるより一般化した手法が導入された。 RAKIは、GRAPPAを新たな畳み込み層で一般化し、非線形活性化関数を適用するディープラーニング手法である。 これにより、畳み込みニューラルネットワークによる欠落信号の非線形推定が可能になる。 GRAPPAと類似したRAKIの畳み込みカーネルは、自動校正信号(ACS)から得られたスキャン特異的なトレーニングサンプルを用いて訓練される。 RAKIはGRAPPAよりも優れた再構成品質を提供するが、未知のパラメータの数が増えるため、より多くのACSを必要とすることが多い。 本研究では,この限界を克服するために,標準2次元画像の復元品質に及ぼすトレーニングデータの影響,特にその量とコントラスト情報に着目した。 さらに,初期グラッパ再構成によるデータ拡張訓練,反復学習による畳み込みフィルタの改良を含む反復的k空間補間手法(iraki)を評価する。 アクセラレーション係数r=4,r=5で発生する残留アーティファクトを抑えることで,18,20,25のacsライン(8%)しか使用せず,定量的品質指標で示されるgrappaと比較して強いノイズ抑制をもたらす。 位相制約と組み合わせることでさらに改善される。 さらに,スキャン前校正ではGRAPPAやRAKIよりも優れた性能を示し,トレーニングデータとアンダーサンプルデータのコントラストが強く変化する。

MRI scan time reduction is commonly achieved by Parallel Imaging methods, typically based on uniform undersampling of the inverse image space (a.k.a. k-space) and simultaneous signal reception with multiple receiver coils. The GRAPPA method interpolates missing k-space signals by linear combination of adjacent, acquired signals across all coils, and can be described by a convolution in k-space. Recently, a more generalized method called RAKI was introduced. RAKI is a deep-learning method that generalizes GRAPPA with additional convolution layers, on which a non-linear activation function is applied. This enables non-linear estimation of missing signals by convolutional neural networks. In analogy to GRAPPA, the convolution kernels in RAKI are trained using scan-specific training samples obtained from auto-calibration-signals (ACS). RAKI provides superior reconstruction quality compared to GRAPPA, however, often requires much more ACS due to its increased number of unknown parameters. In order to overcome this limitation, this study investigates the influence of training data on the reconstruction quality for standard 2D imaging, with particular focus on its amount and contrast information. Furthermore, an iterative k-space interpolation approach (iRAKI) is evaluated, which includes training data augmentation via an initial GRAPPA reconstruction, and refinement of convolution filters by iterative training. Using only 18, 20 and 25 ACS lines (8%), iRAKI outperforms RAKI by suppressing residual artefacts occurring at accelerations factors R=4 and R=5, and yields strong noise suppression in comparison to GRAPPA, underlined by quantitative quality metrics. Combination with a phase-constraint yields further improvement. Additionally, iRAKI shows better performance than GRAPPA and RAKI in case of pre-scan calibration and strongly varying contrast between training- and undersampled data.
翻訳日:2022-01-12 14:23:45 公開日:2022-01-10
# 放射線熱測定における新しい誤差解析法と工業炉への応用

A novel method for error analysis in radiation thermometry with application to industrial furnaces ( http://arxiv.org/abs/2201.04069v1 )

ライセンス: Link先を確認
I\~nigo Martinez, Urtzi Otamendi, Igor G. Olaizola, Roger Solsona, Mikel Maiza, Elisabeth Viles, Arturo Fernandez, Ignacio Arzua(参考訳) 正確な温度測定は、産業用炉の適切な監視と制御に不可欠である。 しかし、測定の不確実性はそのような臨界パラメータのリスクである。 ターゲット表面の放射率の不確実性、周囲の物体からの放射の反射、大気の吸収と放射など、スペクトル帯放射温度測定技術を使用する場合、特定の測定値と環境誤差を考慮する必要がある。 測定された放射に対する望ましくない寄与は、誤差補正モデルとも呼ばれる測定モデルを用いて分離することができる。 本稿では, 石油化学炉における温度測定における誤差や不確実性のかなりの源泉の予算化手法を提案する。 また, 連続監視システムについても, 深層学習に基づく測定補正モデルを用いて検討し, 専門家が炉の運転をリアルタイムで解析できるようにした。 提案システムの有効性を検証するため,石油化学プラントにおける実世界の応用事例を示す。 提案手法は, 精密な産業用炉モニタリングの実現可能性を示し, 運転安全性を向上し, エネルギー集約システムの効率を向上する。

Accurate temperature measurements are essential for the proper monitoring and control of industrial furnaces. However, measurement uncertainty is a risk for such a critical parameter. Certain instrumental and environmental errors must be considered when using spectral-band radiation thermometry techniques, such as the uncertainty in the emissivity of the target surface, reflected radiation from surrounding objects, or atmospheric absorption and emission, to name a few. Undesired contributions to measured radiation can be isolated using measurement models, also known as error-correction models. This paper presents a methodology for budgeting significant sources of error and uncertainty during temperature measurements in a petrochemical furnace scenario. A continuous monitoring system is also presented, aided by a deep-learning-based measurement correction model, to allow domain experts to analyze the furnace's operation in real-time. To validate the proposed system's functionality, a real-world application case in a petrochemical plant is presented. The proposed solution demonstrates the viability of precise industrial furnace monitoring, thereby increasing operational security and improving the efficiency of such energy-intensive systems.
翻訳日:2022-01-12 14:22:30 公開日:2022-01-10
# コントラストマルチモーダル画像表現を用いたクロスモダリティサブイメージ検索

Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image Representations ( http://arxiv.org/abs/2201.03597v1 )

ライセンス: Link先を確認
Eva Breznik and Elisabeth Wetzer and Joakim Lindblad and Nata\v{s}a Sladoje(参考訳) 組織キャラクタリゼーションと癌診断において、マルチモーダルイメージングは強力な技術として現れている。 計算の進歩により、大きなデータセットを利用して診断を改善し、病理のパターンを発見することができる。 しかし、これは効率的でスケーラブルな画像検索方法を必要とする。 異なるモダリティでキャプチャされた同じコンテンツのイメージは、ほとんど共通情報を表示しない可能性があるため、クロスモダリティ画像検索は特に要求される。 本稿では,画像が整列せず,ごくわずかな構造しか共有していない異なるモダリティで撮像された対応する画像に対して,逆(サブ)画像検索を行うコンテンツベース画像検索システム(CBIR)を提案する。 本稿では,共通空間に両方のモダリティを埋め込んだ表現を,古典的,高速,堅牢な特徴抽出器(sift,surf)と組み合わせて,効率的かつ信頼性の高い検索のためのバガ・オブ・ワードモデルを作成することを提案する。 本手法は,brightfield および second harmonic generation microscope 画像の公開データセット上で有望な結果を示す。 検索において75.4%と83.6%の検索成功率を得た。 提案手法は,元のマルチモーダル(サブ)画像の直接検索と,それに対応するgan(generative adversarial network)ベースの画像対画像翻訳の双方を著しく上回っている。 提案手法は,近年のサブイメージ検索ツールキット,ganに基づく画像から画像への変換,およびクロスモーダル画像検索の下流タスクのための学習特徴抽出器と比較して,優れた性能を示す。 後者の手法の欠点を強調し,cbirパイプラインにおける学習表現と特徴抽出器の等分散性と不変性の重要性を観察した。 コードはgithub.com/MIDA-groupで入手できる。

In tissue characterization and cancer diagnostics, multimodal imaging has emerged as a powerful technique. Thanks to computational advances, large datasets can be exploited to improve diagnosis and discover patterns in pathologies. However, this requires efficient and scalable image retrieval methods. Cross-modality image retrieval is particularly demanding, as images of the same content captured in different modalities may display little common information. We propose a content-based image retrieval system (CBIR) for reverse (sub-)image search to retrieve microscopy images in one modality given a corresponding image captured by a different modality, where images are not aligned and share only few structures. We propose to combine deep learning to generate representations which embed both modalities in a common space, with classic, fast, and robust feature extractors (SIFT, SURF) to create a bag-of-words model for efficient and reliable retrieval. Our application-independent approach shows promising results on a publicly available dataset of brightfield and second harmonic generation microscopy images. We obtain 75.4% and 83.6% top-10 retrieval success for retrieval in one or the other direction. Our proposed method significantly outperforms both direct retrieval of the original multimodal (sub-)images, as well as their corresponding generative adversarial network (GAN)-based image-to-image translations. We establish that the proposed method performs better in comparison with a recent sub-image retrieval toolkit, GAN-based image-to-image translations, and learnt feature extractors for the downstream task of cross-modal image retrieval. We highlight the shortcomings of the latter methods and observe the importance of equivariance and invariance properties of the learnt representations and feature extractors in the CBIR pipeline. Code will be available at github.com/MIDA-group.
翻訳日:2022-01-12 14:20:20 公開日:2022-01-10
# PrintsGAN: 合成フィンガープリントジェネレータ

PrintsGAN: Synthetic Fingerprint Generator ( http://arxiv.org/abs/2201.03674v1 )

ライセンス: Link先を確認
Joshua J. Engelsma, Steven A. Grosz, and Anil K. Jain(参考訳) 指紋認識の分野での研究者にとっての大きな障害は、公開可能な大規模な指紋データセットがないことである。 公開されているデータセットには、指1本あたりのアイデンティティと印象が非常に少ない。 これは、例えばディープネットワークを使って固定長の指紋の埋め込みを学習するなど、いくつかのトピックの研究を制限する。 そこで本研究では,特定の指紋に対して複数の印象とともにユニークな指紋を生成できる合成指紋生成装置printsganを提案する。 printsganを使って、525,000の指紋(それぞれ15の印象を持つ35,000の異なる指)のデータベースを合成する。 次に、深層ネットワークをトレーニングし、指紋から固定長埋め込みを抽出することで、PrintsGAN生成データセットの有用性を示す。 特に,NIST SD302 から25,000 個の指紋が取得された場合,NIST SD4 データベース上で 87.03% @ FAR=0.01% の TAR が得られる(NIST SD302 上でのみ TAR=73.37% からの上昇)。 一般的な合成指紋生成法は、このような性能向上を許さない 現実主義または現実主義の欠如 二 指一本に複数の印象を生じさせることができないこと。 私たちは合成指紋のデータベースを一般公開する予定です。

A major impediment to researchers working in the area of fingerprint recognition is the lack of publicly available, large-scale, fingerprint datasets. The publicly available datasets that do exist contain very few identities and impressions per finger. This limits research on a number of topics, including e.g., using deep networks to learn fixed length fingerprint embeddings. Therefore, we propose PrintsGAN, a synthetic fingerprint generator capable of generating unique fingerprints along with multiple impressions for a given fingerprint. Using PrintsGAN, we synthesize a database of 525,000 fingerprints (35,000 distinct fingers, each with 15 impressions). Next, we show the utility of the PrintsGAN generated dataset by training a deep network to extract a fixed-length embedding from a fingerprint. In particular, an embedding model trained on our synthetic fingerprints and fine-tuned on a small number of publicly available real fingerprints (25,000 prints from NIST SD302) obtains a TAR of 87.03% @ FAR=0.01% on the NIST SD4 database (a boost from TAR=73.37% when only trained on NIST SD302). Prevailing synthetic fingerprint generation methods do not enable such performance gains due to i) lack of realism or ii) inability to generate multiple impressions per finger. We plan to release our database of synthetic fingerprints to the public.
翻訳日:2022-01-12 14:19:52 公開日:2022-01-10
# グラフカウンターファクトフェアネスを用いたフェアノード表現の学習

Learning Fair Node Representations with Graph Counterfactual Fairness ( http://arxiv.org/abs/2201.03662v1 )

ライセンス: Link先を確認
Jing Ma, Ruocheng Guo, Mengting Wan, Longqi Yang, Aidong Zhang, Jundong Li(参考訳) fair machine learningは、人種や性別などの繊細な属性に関する特定のサブポピュレーションに対するモデル予測のバイアスを軽減することを目的としている。 既存の多くのフェアネス概念のうち、反事実公平性は、原データと反事実から各個人の予測を比較することによって、因果的な観点からモデルフェアネスを測定する。 反事実では、この個人の繊細な属性値が変更された。 最近、いくつかの作品がグラフデータに対する反事実的公平性を拡張しているが、そのほとんどはバイアスにつながる可能性のある以下の事実を無視している。 1) 各ノードの隣接ノードの繊細な属性は,このノードの予測w.r.tに因果的に影響を及ぼす可能性がある。 2) 感度特性は他の特徴やグラフ構造に因果的に影響を及ぼす可能性がある。 本稿では,これらの問題に対処するために,上記の事実に導かれるバイアスを考える新しい公平性概念であるグラフ反事実公平性を提案する。 グラフの反事実的公平性に向けてノード表現を学ぶために,反事実的データ拡張に基づく新しい枠組みを提案する。 このフレームワークでは、各ノードとその隣接ノードの機密属性の摂動に対応する反事実を生成する。 次に、元のグラフから学習した表現と各ノードの反事実との相違を最小化することにより、公正性を強制する。 合成グラフと実世界のグラフの両方の実験により、我々のフレームワークはグラフの反ファクトフェアネスにおいて最先端のベースラインよりも優れており、同等の予測性能も達成している。

Fair machine learning aims to mitigate the biases of model predictions against certain subpopulations regarding sensitive attributes such as race and gender. Among the many existing fairness notions, counterfactual fairness measures the model fairness from a causal perspective by comparing the predictions of each individual from the original data and the counterfactuals. In counterfactuals, the sensitive attribute values of this individual had been modified. Recently, a few works extend counterfactual fairness to graph data, but most of them neglect the following facts that can lead to biases: 1) the sensitive attributes of each node's neighbors may causally affect the prediction w.r.t. this node; 2) the sensitive attributes may causally affect other features and the graph structure. To tackle these issues, in this paper, we propose a novel fairness notion - graph counterfactual fairness, which considers the biases led by the above facts. To learn node representations towards graph counterfactual fairness, we propose a novel framework based on counterfactual data augmentation. In this framework, we generate counterfactuals corresponding to perturbations on each node's and their neighbors' sensitive attributes. Then we enforce fairness by minimizing the discrepancy between the representations learned from the original graph and the counterfactuals for each node. Experiments on both synthetic and real-world graphs show that our framework outperforms the state-of-the-art baselines in graph counterfactual fairness, and also achieves comparable prediction performance.
翻訳日:2022-01-12 13:55:56 公開日:2022-01-10
# 深層強化学習のための検証確率的政策

Verified Probabilistic Policies for Deep Reinforcement Learning ( http://arxiv.org/abs/2201.03698v1 )

ライセンス: Link先を確認
Edoardo Bacci and David Parker(参考訳) 深層強化学習は、エージェントの環境との相互作用を制御するためのポリシーを合成する技術として、ますます人気が高まっている。 また、これらのポリシーが正しく、安全に実行されることを正式に検証することへの関心も高まっている。 この領域の進歩は、ディープニューラルネットワークと連続状態力学システムの検証のための既存の作業に基づいて構築されている。 本稿では,例えば,敵環境への取り組み,対称性の破断,トレードオフの管理などに用いられる,深層強化学習の確率的政策を検証する問題に取り組む。 本稿では,ポリシー実行の確率的保証を導く区間マルコフ決定プロセスに基づく抽象的アプローチを提案し,抽象解釈,混合整数線形プログラミング,エントロピーに基づく改良,確率的モデル検証を用いてこれらのモデルを構築し,解決する手法を提案する。 提案手法を実装し,その効果を強化学習ベンチマークの選択に適用する。

Deep reinforcement learning is an increasingly popular technique for synthesising policies to control an agent's interaction with its environment. There is also growing interest in formally verifying that such policies are correct and execute safely. Progress has been made in this area by building on existing work for verification of deep neural networks and of continuous-state dynamical systems. In this paper, we tackle the problem of verifying probabilistic policies for deep reinforcement learning, which are used to, for example, tackle adversarial environments, break symmetries and manage trade-offs. We propose an abstraction approach, based on interval Markov decision processes, that yields probabilistic guarantees on a policy's execution, and present techniques to build and solve these models using abstract interpretation, mixed-integer linear programming, entropy-based refinement and probabilistic model checking. We implement our approach and illustrate its effectiveness on a selection of reinforcement learning benchmarks.
翻訳日:2022-01-12 13:52:41 公開日:2022-01-10
# マルチモーダル感性分析のための相互情報最大化と最小化とアイデンティティ埋め込みに基づくマルチモーダル表現学習

Multimodal Representations Learning Based on Mutual Information Maximization and Minimization and Identity Embedding for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2201.03969v1 )

ライセンス: Link先を確認
Jiahao Zheng, Sen Zhang, Xiaoping Wang, Zhigang Zeng(参考訳) マルチモーダル感情分析(Multimodal sentiment analysis、MSA)は、異なるモーダル性と人間の感情表現のあいまいさの間の不均一性ギャップに起因する基礎的な複雑な研究課題である。 MSAのためのマルチモーダル表現の構築には多くの試みがあったが、解決すべき課題は2つある。 1)より堅牢なマルチモーダル表現は、異質性ギャップを橋渡し、複雑なマルチモーダル相互作用に対処するために構築する必要がある。 2) 文脈ダイナミクスは情報フロー全体を通して効果的にモデル化されなければならない。 本研究では,相互情報最大化と最小化とアイデンティティ埋め込み(mmmie)に基づくマルチモーダル表現モデルを提案する。 モーダルペア間の相互情報最大化と入力データと対応する特徴間の相互情報最小化を組み合わせることにより、モーダル不変情報とタスク関連情報をマイニングする。 さらに、下流ネットワークが文脈情報を認識するよう促すために、アイデンティティ埋め込みを提案する。 2つの公開データセットにおける実験結果は,提案モデルの有効性を示す。

Multimodal sentiment analysis (MSA) is a fundamental complex research problem due to the heterogeneity gap between different modalities and the ambiguity of human emotional expression. Although there have been many successful attempts to construct multimodal representations for MSA, there are still two challenges to be addressed: 1) A more robust multimodal representation needs to be constructed to bridge the heterogeneity gap and cope with the complex multimodal interactions, and 2) the contextual dynamics must be modeled effectively throughout the information flow. In this work, we propose a multimodal representation model based on Mutual information Maximization and Minimization and Identity Embedding (MMMIE). We combine mutual information maximization between modal pairs, and mutual information minimization between input data and corresponding features to mine the modal-invariant and task-related information. Furthermore, Identity Embedding is proposed to prompt the downstream network to perceive the contextual information. Experimental results on two public datasets demonstrate the effectiveness of the proposed model.
翻訳日:2022-01-12 13:26:24 公開日:2022-01-10
# 言語に依存しないウェブサイトの埋め込みと分類

Language-Agnostic Website Embedding and Classification ( http://arxiv.org/abs/2201.03677v1 )

ライセンス: Link先を確認
Sylvain Lugeon, Tiziano Piccardi, Robert West(参考訳) 現在、ウェブサイト分類の公開モデルは埋め込みメソッドを提供しておらず、英語以外の言語のサポートは限られている。 92言語で100万以上のWebサイトを持つデータセットを公開し、Curlieの相対ラベルを収集した。 データセットには、言語にまたがる14のwebサイトカテゴリが含まれている。 それと並行して,webサイトを言語非依存の方法で分類し,埋め込みするための,機械学習による事前学習モデルであるgrandline2vecも紹介する。 Homepage2Vecはその機能セット(テキストコンテンツ、メタデータタグ、ビジュアル属性)と最近の自然言語表現の進歩のおかげで、デザインによって言語に依存しず、埋め込み表現を生成することができる。 ホームページ2Vecは、マクロ平均F1スコア0.90のウェブサイトを正しく分類し、低および高ソース言語で安定したパフォーマンスを示す。 特徴分析により、効率的な計算可能な小さなサブセットは、限られた計算資源でも高い性能を達成するのに十分であることが示されている。 言語間で整列されたキュレートされたCurlieデータセット、事前トレーニングされたHomepage2Vecモデル、ライブラリを公開しています。

Currently, publicly available models for website classification do not offer an embedding method and have limited support for languages beyond English. We release a dataset with more than 1M websites in 92 languages with relative labels collected from Curlie, the largest multilingual crowdsourced Web directory. The dataset contains 14 website categories aligned across languages. Alongside it, we introduce Homepage2Vec, a machine-learned pre-trained model for classifying and embedding websites based on their homepage in a language-agnostic way. Homepage2Vec, thanks to its feature set (textual content, metadata tags, and visual attributes) and recent progress in natural language representation, is language-independent by design and can generate embeddings representation. We show that Homepage2Vec correctly classifies websites with a macro-averaged F1-score of 0.90, with stable performance across low- as well as high-resource languages. Feature analysis shows that a small subset of efficiently computable features suffices to achieve high performance even with limited computational resources. We make publicly available the curated Curlie dataset aligned across languages, the pre-trained Homepage2Vec model, and libraries.
翻訳日:2022-01-12 13:25:51 公開日:2022-01-10
# (参考訳) 細胞処理プロセス開発と制御のためのハイブリッドモデルベース強化学習の可能性

Opportunities of Hybrid Model-based Reinforcement Learning for Cell Therapy Manufacturing Process Development and Control ( http://arxiv.org/abs/2201.03116v1 )

ライセンス: CC BY 4.0
Hua Zheng, Wei Xie, Keqi Wang, Zheng Li(参考訳) 高複雑性, 高い不確実性, 極めて限られたプロセスデータを含む, 細胞治療における重要な課題に起因して, プロセス開発と制御を効率的に導くための確率的最適化フレームワーク"hybrid-RL"を提案する。 まず,生物生産プロセス機構の理解とバッチ・ツー・バッチ・バラツキやバイオプロセスノイズなど固有の確率性を定量化するハイブリッドモデルであるバイオプロセス確率的知識グラフを作成する。 非線形反応、時間変動運動学、部分的に観察されたバイオプロセス状態など、重要な特徴を捉えることができる。 このハイブリッドモデルは、既存のメカニックモデルを活用して、プロセスデータからの学習を促進することができる。 限られたプロセスデータを与えると、モデル推定の不確かさを定量化する後方サンプルを生成するために計算サンプリング手法が用いられる。 次に,自然確率性とモデル不確実性の両方を考慮したハイブリッドモデルベースベイズ強化学習(rl)を導入し,最適かつ堅牢かつ解釈可能な意思決定を指導し,細胞療法製造の重要な課題を克服する。 実験的検討では, 細胞治療の例を用いて, 提案したハイブリッドRLフレームワークが, 古典的決定論的力学モデルによるプロセス最適化よりも優れていることを示す。

Driven by the key challenges of cell therapy manufacturing, including high complexity, high uncertainty, and very limited process data, we propose a stochastic optimization framework named "hybrid-RL" to efficiently guide process development and control. We first create the bioprocess probabilistic knowledge graph that is a hybrid model characterizing the understanding of biomanufacturing process mechanisms and quantifying inherent stochasticity, such as batch-to-batch variation and bioprocess noise. It can capture the key features, including nonlinear reactions, time-varying kinetics, and partially observed bioprocess state. This hybrid model can leverage on existing mechanistic models and facilitate the learning from process data. Given limited process data, a computational sampling approach is used to generate posterior samples quantifying the model estimation uncertainty. Then, we introduce hybrid model-based Bayesian reinforcement learning (RL), accounting for both inherent stochasticity and model uncertainty, to guide optimal, robust, and interpretable decision making, which can overcome the key challenges of cell therapy manufacturing. In the empirical study, cell therapy manufacturing examples are used to demonstrate that the proposed hybrid-RL framework can outperform the classical deterministic mechanistic model assisted process optimization.
翻訳日:2022-01-12 00:03:46 公開日:2022-01-10
# (参考訳) スプリアス相関の因果的視点による情報理論バイアス低減

Information-Theoretic Bias Reduction via Causal View of Spurious Correlation ( http://arxiv.org/abs/2201.03121v1 )

ライセンス: CC BY 4.0
Seonguk Seo, Joon-Young Lee, Bohyung Han(参考訳) 条件付き相互情報を利用して特徴レベルのアルゴリズムバイアスを特定するのに有効である,スプリアス相関の因果的解釈による情報理論バイアス測定手法を提案する。 顔認識などの様々なタスクにおいて,アルゴリズム的公正性を実現するために,いくつかのバイアス測定手法が提案され,広く研究されているが,その精度やロジットに基づく測定値は,基本的なバイアス低減よりも簡単な予測スコア調整につながる。 そこで,提案する情報理論バイアス測定手法によるバイアス正規化損失を組み込んだアルゴリズムバイアスに対する新しいデバイアスフレームワークを設計する。 また,バイアス情報の明示的な監視を必要としない確率的ラベル雑音に基づく,単純かつ効果的な非教師なしデバイアス手法を提案する。 提案手法は,複数の標準ベンチマークにおける広範な実験を通じて,様々な現実的なシナリオにおいて検証される。

We propose an information-theoretic bias measurement technique through a causal interpretation of spurious correlation, which is effective to identify the feature-level algorithmic bias by taking advantage of conditional mutual information. Although several bias measurement methods have been proposed and widely investigated to achieve algorithmic fairness in various tasks such as face recognition, their accuracy- or logit-based metrics are susceptible to leading to trivial prediction score adjustment rather than fundamental bias reduction. Hence, we design a novel debiasing framework against the algorithmic bias, which incorporates a bias regularization loss derived by the proposed information-theoretic bias measurement approach. In addition, we present a simple yet effective unsupervised debiasing technique based on stochastic label noise, which does not require the explicit supervision of bias information. The proposed bias measurement and debiasing approaches are validated in diverse realistic scenarios through extensive experiments on multiple standard benchmarks.
翻訳日:2022-01-11 23:20:27 公開日:2022-01-10
# (参考訳) ベイズ近似決定のための損失校正予測伝播

Loss-calibrated expectation propagation for approximate Bayesian decision-making ( http://arxiv.org/abs/2201.03128v1 )

ライセンス: CC BY-SA 4.0
Michael J. Morais, Jonathan W. Pillow(参考訳) 近似ベイズ推定法は、難解な後方分布に対する近似を見つけるための強力なツール群を提供する。 しかし、機械学習のアプリケーションは通常、選択アクション(ベイズの設定では、期待されるユーティリティへの貢献を通してのみ後部分布に依存する)を伴います。 そこで, 損失校正近似推定法の開発は, 実用関数の影響に敏感な後部近似の開発を試みている。 本稿では,損失補償型期待伝播 (loss-ep) について述べる。 この方法は標準epに似ており、後方を高い有効性決定へと「傾ける」追加の要素がある。 非対称な負と偽の正の誤差に対するペナルティを持つ二元多目的関数の下でのガウス過程の分類への応用を示し、この非対称性が、近似でキャプチャする「有用」な情報に対して、どのように劇的な結果をもたらすかを示す。

Approximate Bayesian inference methods provide a powerful suite of tools for finding approximations to intractable posterior distributions. However, machine learning applications typically involve selecting actions, which -- in a Bayesian setting -- depend on the posterior distribution only via its contribution to expected utility. A growing body of work on loss-calibrated approximate inference methods has therefore sought to develop posterior approximations sensitive to the influence of the utility function. Here we introduce loss-calibrated expectation propagation (Loss-EP), a loss-calibrated variant of expectation propagation. This method resembles standard EP with an additional factor that "tilts" the posterior towards higher-utility decisions. We show applications to Gaussian process classification under binary utility functions with asymmetric penalties on False Negative and False Positive errors, and show how this asymmetry can have dramatic consequences on what information is "useful" to capture in an approximation.
翻訳日:2022-01-11 23:05:40 公開日:2022-01-10
# (参考訳) FedDTG:3プレイヤー生成逆ネットワークによるデータフリー知識蒸留

FedDTG:Federated Data-Free Knowledge Distillation via Three-Player Generative Adversarial Networks ( http://arxiv.org/abs/2201.03169v1 )

ライセンス: CC BY 4.0
Zhenyuan Zhang(参考訳) パーソナライズされたクロスサイロ連合学習に知識蒸留を適用することで、ユーザの多様性の問題を緩和することができる。 しかし、このアプローチにはプロキシデータセットが必要であり、現実の世界では取得が難しい。 さらに,パラメータ平均化に基づくグローバルモデルにより,ユーザのプライバシーが漏洩する。 クライアント間でのデータフリーな共蒸留を実現するために,分散3プレーヤGANを導入する。 この技術は、ユーザの不均一性を軽減し、ユーザのプライバシーをよりよく保護する。 また,ganが生成するフェーケ試料は,混合蒸留をより効率的かつ堅牢にし,また,グローバル知識を得ることにより,個々のクライアントに対して良好な性能が得られることを確認した。 ベンチマークデータセットに関する広範な実験により,提案手法のより優れた一般化性能が示された。

Applying knowledge distillation to personalized cross-silo federated learning can well alleviate the problem of user heterogeneity. This approach, however, requires a proxy dataset, which is difficult to obtain in the real world. Moreover, the global model based on parameter averaging will lead to the leakage of user privacy. We introduce a distributed three-player GAN to implement datafree co-distillation between clients. This technique mitigates the user heterogeneity problem and better protects user privacy. We confirmed that thefake samples generated by GAN can make federated distillation more efficient and robust, and the co-distillation can achieve good performance for individual clients on the basis of obtaining global knowledge. Our extensive experiments on benchmark datasets demonstrate the superior generalization performance of the proposed methods, compared with the state-of-the-art.
翻訳日:2022-01-11 22:48:41 公開日:2022-01-10
# (参考訳) 歩行者検出:ドメインの一般化、cnn、トランスフォーマーなど

Pedestrian Detection: Domain Generalization, CNNs, Transformers and Beyond ( http://arxiv.org/abs/2201.03176v1 )

ライセンス: CC BY 4.0
Irtiza Hasan, Shengcai Liao, Jinpeng Li, Saad Ullah Akram, and Ling Shao(参考訳) 歩行者検出は、物体追跡からビデオ監視、そして最近では自動運転まで、多くのビジョンベースのアプリケーションの基礎となる。 オブジェクト検出におけるディープラーニングの急速な発展により、歩行者検出は従来の単一データセットのトレーニングと評価設定において非常に優れたパフォーマンスを達成している。 しかし, 一般化可能な歩行者検知器に関する本研究では, 現行の歩行者検知器は, クロスデータセット評価において, 小さい領域シフトでさえも扱いにくいことが示されている。 限定的な一般化は、その方法と現在のデータ源の2つの主要な要因に帰着する。 本手法では,現在の歩行者検知器の設計選択(例えばアンカー設定)に存在するバイアスが,限定的な一般化の主要な要因であることを示す。 現代の歩行者検出装置は、従来の単一トレーニングとテストパイプラインで高いパフォーマンスを達成するためにターゲットデータセットに調整されているが、クロスデータセットの評価によって性能が低下している。 その結果、汎用オブジェクト検出器は、その汎用設計のため、アート歩行者検出器の状態と比較して、クロスデータセット評価が優れている。 データについては、自律走行ベンチマークは本質的に単調であり、シナリオでは多様ではなく、歩行者では密集していることを示している。 したがって、webをクロールする(多様で密集したシナリオを含む)ベンチマークは、より堅牢な表現を提供するための事前トレーニングの効率的なソースである。 そこで本研究では,一般化を向上するプログレッシブ微調整戦略を提案する。 コードとモデルはhttps://github.com/hasanirtiza/pedestronからアクセスする。

Pedestrian detection is the cornerstone of many vision based applications, starting from object tracking to video surveillance and more recently, autonomous driving. With the rapid development of deep learning in object detection, pedestrian detection has achieved very good performance in traditional single-dataset training and evaluation setting. However, in this study on generalizable pedestrian detectors, we show that, current pedestrian detectors poorly handle even small domain shifts in cross-dataset evaluation. We attribute the limited generalization to two main factors, the method and the current sources of data. Regarding the method, we illustrate that biasness present in the design choices (e.g anchor settings) of current pedestrian detectors are the main contributing factor to the limited generalization. Most modern pedestrian detectors are tailored towards target dataset, where they do achieve high performance in traditional single training and testing pipeline, but suffer a degrade in performance when evaluated through cross-dataset evaluation. Consequently, a general object detector performs better in cross-dataset evaluation compared with state of the art pedestrian detectors, due to its generic design. As for the data, we show that the autonomous driving benchmarks are monotonous in nature, that is, they are not diverse in scenarios and dense in pedestrians. Therefore, benchmarks curated by crawling the web (which contain diverse and dense scenarios), are an efficient source of pre-training for providing a more robust representation. Accordingly, we propose a progressive fine-tuning strategy which improves generalization. Code and models cab accessed at https://github.com/hasanirtiza/Pedestron.
翻訳日:2022-01-11 22:35:53 公開日:2022-01-10
# (参考訳) 1+\varepsilon)$-th moment仮定下での頑健な統計学習に対する非漸近的保証

Non-Asymptotic Guarantees for Robust Statistical Learning under $(1+\varepsilon)$-th Moment Assumption ( http://arxiv.org/abs/2201.03182v1 )

ライセンス: CC BY 4.0
Lihu Xu, Fang Yao, Qiuran Yao, Huiming Zhang(参考訳) 統計と機械学習において、重み付きデータを持つモデルの堅牢な推定器開発への関心が高まっている。 本稿では,統計レグレッションの大規模なファミリーを対象としたログトランケートM推定器を提案し,データに1+\varepsilon($-th moment with $\varepsilon \in(0,1]$という条件の下で,その余剰リスクを推定する。 関連するリスク関数に対する追加の仮定により、推定に$\ell_2$-errorバウンドを得る。 具体的回帰に対するロバストなM推定器を確立するために,本定理を適用した。 分位回帰や一般化線形モデルのような凸回帰に加えて、多くの非凸回帰は我々の定理にも当てはまることができ、確率的勾配降下アルゴリズムによって解かれる頑健なディープニューラルネットワーク回帰にフォーカスする。 シミュレーションと実データ解析は、標準推定よりもログトランケート推定の方が優れていることを示す。

There has been a surge of interest in developing robust estimators for models with heavy-tailed data in statistics and machine learning. This paper proposes a log-truncated M-estimator for a large family of statistical regressions and establishes its excess risk bound under the condition that the data have $(1+\varepsilon)$-th moment with $\varepsilon \in (0,1]$. With an additional assumption on the associated risk function, we obtain an $\ell_2$-error bound for the estimation. Our theorems are applied to establish robust M-estimators for concrete regressions. Besides convex regressions such as quantile regression and generalized linear models, many non-convex regressions can also be fit into our theorems, we focus on robust deep neural network regressions, which can be solved by the stochastic gradient descent algorithms. Simulations and real data analysis demonstrate the superiority of log-truncated estimations over standard estimations.
翻訳日:2022-01-11 22:14:56 公開日:2022-01-10
# (参考訳) 階層的多粒度分類のための階層的残差ネットワーク強化ラベル関係グラフ

Label Relation Graphs Enhanced Hierarchical Residual Network for Hierarchical Multi-Granularity Classification ( http://arxiv.org/abs/2201.03194v1 )

ライセンス: CC BY 4.0
Jingzhou Chen, Peng Wang, Jian Liu, Yuntao Qian(参考訳) 階層的多粒度分類(HMC)は、各オブジェクトに階層的多粒度ラベルを割り当て、["Albatross", "Laysan Albatross"]のようなラベル階層を粗いレベルから細かいレベルまで符号化することに焦点を当てる。 しかしながら、細粒度の定義は主観的であり、画像品質が識別に影響する可能性がある。 したがって、サンプルは階層の任意のレベル、例えば ["Albatross"] や ["Albatross", "Laysan Albatross"] で観察することができ、粗いカテゴリで識別される例は、従来のHMCの設定では無視されることが多い。 本稿では,オブジェクトを階層の任意のレベルにラベル付けするHMC問題について検討する。 提案手法の基本設計は,(1) 様々なレベルにラベル付けされた物体の学習は階層的な知識をレベル間で伝達し,(2) 下位クラスは上位レベルのスーパークラスに関連する属性を継承する,という2つの動機から導かれる。 提案する組合せ損失は、ツリー階層で定義された関連ラベルから情報を集約することにより、観測された基底真理ラベルの限界確率を最大化する。 観測されたラベルが葉のレベルであれば、組合せ損失はさらに多種クロスエントロピー損失を課し、細粒度の分類損失の重みを増加させる。 本研究では,階層的特徴の相互作用を考慮した階層的残差ネットワーク(hrn)を提案する。 3つの一般的なデータセットを用いた実験は、最新のHMCアプローチや、ラベル階層を利用したきめ細かな視覚分類(FGVC)手法と比較して、我々のアプローチの有効性を実証している。

Hierarchical multi-granularity classification (HMC) assigns hierarchical multi-granularity labels to each object and focuses on encoding the label hierarchy, e.g., ["Albatross", "Laysan Albatross"] from coarse-to-fine levels. However, the definition of what is fine-grained is subjective, and the image quality may affect the identification. Thus, samples could be observed at any level of the hierarchy, e.g., ["Albatross"] or ["Albatross", "Laysan Albatross"], and examples discerned at coarse categories are often neglected in the conventional setting of HMC. In this paper, we study the HMC problem in which objects are labeled at any level of the hierarchy. The essential designs of the proposed method are derived from two motivations: (1) learning with objects labeled at various levels should transfer hierarchical knowledge between levels; (2) lower-level classes should inherit attributes related to upper-level superclasses. The proposed combinatorial loss maximizes the marginal probability of the observed ground truth label by aggregating information from related labels defined in the tree hierarchy. If the observed label is at the leaf level, the combinatorial loss further imposes the multi-class cross-entropy loss to increase the weight of fine-grained classification loss. Considering the hierarchical feature interaction, we propose a hierarchical residual network (HRN), in which granularity-specific features from parent levels acting as residual connections are added to features of children levels. Experiments on three commonly used datasets demonstrate the effectiveness of our approach compared to the state-of-the-art HMC approaches and fine-grained visual classification (FGVC) methods exploiting the label hierarchy.
翻訳日:2022-01-11 22:13:50 公開日:2022-01-10
# (参考訳) 機械学習モデルによる乱流対流中のレイノルズ数とヌッセルト数の予測

Predictions of Reynolds and Nusselt numbers in turbulent convection using machine-learning models ( http://arxiv.org/abs/2201.03200v1 )

ライセンス: CC BY 4.0
Shashwat Bhattacharya, Mahendra K Verma, Arnab Bhattacharya(参考訳) 本稿では, 乱流熱対流におけるレイノルズ数(Re)とヌッセルト数を予測するために, 多変量回帰モデルとニューラルネットワークモデルを開発する。 それらの予測は、以前の対流モデルと比較する: Grossmann-Lohse~[Phys]。 Rev. Lett. \textbf{86}, 3316 (2001)], revision Grossmann-Lohse~[Phys. 流体は \textbf{33}, 015113 (2021)], pandey-verma [phys] である。 rev. e \textbf{94}, 053106 (2016)] モデル。 すべてのモデルの予測は互いに非常に近いが,本研究で開発した機械学習モデルは,実験結果と数値結果に最もよく一致する。

In this paper, we develop a multivariate regression model and a neural network model to predict the Reynolds number (Re) and Nusselt number in turbulent thermal convection. We compare their predictions with those of earlier models of convection: Grossmann-Lohse~[Phys. Rev. Lett. \textbf{86}, 3316 (2001)], revised Grossmann-Lohse~[Phys. Fluids \textbf{33}, 015113 (2021)], and Pandey-Verma [Phys. Rev. E \textbf{94}, 053106 (2016)] models. We observe that although the predictions of all the models are quite close to each other, the machine learning models developed in this work provide the best match with the experimental and numerical results.
翻訳日:2022-01-11 21:54:49 公開日:2022-01-10
# (参考訳) データインプットのための微分可能かつスケーラブルな生成逆数モデル

Differentiable and Scalable Generative Adversarial Models for Data Imputation ( http://arxiv.org/abs/2201.03202v1 )

ライセンス: CC BY 4.0
Yangyang Wu and Jun Wang and Xiaoye Miao and Wenjia Wang and Jianwei Yin(参考訳) データ計算は、欠落したデータ問題を解決するために広く研究されてきた。 不完全なデータ量が劇的に増加すると、インプテーションモデルは多くの実生活のアプリケーションで計算不可能になる。 本稿では,大規模不完全データに対する精度保証下での識別可能な逆数計算モデルのトレーニングを著しく高速化する,SCISと呼ばれる効率的なスケーラブルな計算システムを提案する。 SCISは2つのモジュールから構成されており、DIMとサンプルサイズ推定(SSE)である。 DIMは、新しいマスキングシンクホーン発散関数を活用して、任意の生成逆計算モデルを微分可能とし、そのような微分可能なインプットモデルでは、SSEが適切なサンプルサイズを推定し、最終モデルのユーザが特定したインプット精度を確保する。 実生活における大規模データセットの大規模な実験により, 提案システムでは, 生成的対角モデルトレーニングを7.1倍高速化できることを示した。 約7.6%のサンプルを用いて、SCISはより短い計算時間で最先端の計算法と競合する精度を得る。

Data imputation has been extensively explored to solve the missing data problem. The dramatically increasing volume of incomplete data makes the imputation models computationally infeasible in many real-life applications. In this paper, we propose an effective scalable imputation system named SCIS to significantly speed up the training of the differentiable generative adversarial imputation models under accuracy-guarantees for large-scale incomplete data. SCIS consists of two modules, differentiable imputation modeling (DIM) and sample size estimation (SSE). DIM leverages a new masking Sinkhorn divergence function to make an arbitrary generative adversarial imputation model differentiable, while for such a differentiable imputation model, SSE can estimate an appropriate sample size to ensure the user-specified imputation accuracy of the final model. Extensive experiments upon several real-life large-scale datasets demonstrate that, our proposed system can accelerate the generative adversarial model training by 7.1x. Using around 7.6% samples, SCIS yields competitive accuracy with the state-of-the-art imputation methods in a much shorter computation time.
翻訳日:2022-01-11 21:34:39 公開日:2022-01-10
# (参考訳) 重み付きデータを用いた微分プライベート$\ell_1$-norm線形回帰

Differentially Private $\ell_1$-norm Linear Regression with Heavy-tailed Data ( http://arxiv.org/abs/2201.03204v1 )

ライセンス: CC BY 4.0
Di Wang and Jinhui Xu(参考訳) 重み付きデータを用いた微分プライベート確率凸最適化(dp-sco)の問題について検討する。 具体的には、$\epsilon$-DPモデルにおける$\ell_1$-norm線形回帰に焦点を当てる。 前回の研究のほとんどは損失関数がリプシッツである場合に焦点を当てているが、ここでは変数が有界なモーメントを持つと仮定するだけでよい。 まず、データの$\ell_2$ノルムが2次モーメントに有界な場合について検討する。 指数関数機構に基づくアルゴリズムを提案し,高い確率で$\tilde{o}(\sqrt{\frac{d}{n\epsilon}})$(高い確率で)の上限を達成することができることを示した。 次に、ある$\theta\in (1, 2)$で有界な$\theta$-第2次順序モーメントへの仮定を緩和し、$\tilde{O}(({\frac{d}{n\epsilon}})^\frac{\theta-1}{\theta})$の上限を達成することができることを示す。 我々のアルゴリズムは、データの各座標が有界なモーメントを持つようなよりゆるやかなケースにも拡張することができ、上界の$\tilde{O}({\frac{d}{\sqrt{n\epsilon}}})$と$\tilde{O}({\frac{d}{({n\epsilon})^\frac{\theta-1}{\theta}}})$をそれぞれ第2のモーメントケースと$\theta$-thのモーメントケースで得ることができる。

We study the problem of Differentially Private Stochastic Convex Optimization (DP-SCO) with heavy-tailed data. Specifically, we focus on the $\ell_1$-norm linear regression in the $\epsilon$-DP model. While most of the previous work focuses on the case where the loss function is Lipschitz, here we only need to assume the variates has bounded moments. Firstly, we study the case where the $\ell_2$ norm of data has bounded second order moment. We propose an algorithm which is based on the exponential mechanism and show that it is possible to achieve an upper bound of $\tilde{O}(\sqrt{\frac{d}{n\epsilon}})$ (with high probability). Next, we relax the assumption to bounded $\theta$-th order moment with some $\theta\in (1, 2)$ and show that it is possible to achieve an upper bound of $\tilde{O}(({\frac{d}{n\epsilon}})^\frac{\theta-1}{\theta})$. Our algorithms can also be extended to more relaxed cases where only each coordinate of the data has bounded moments, and we can get an upper bound of $\tilde{O}({\frac{d}{\sqrt{n\epsilon}}})$ and $\tilde{O}({\frac{d}{({n\epsilon})^\frac{\theta-1}{\theta}}})$ in the second and $\theta$-th moment case respectively.
翻訳日:2022-01-11 20:58:39 公開日:2022-01-10
# (参考訳) 説明可能な人工知能の統合による地すべり要因の同定と特徴選択の改善による地すべり感受性マッピング

Integration of Explainable Artificial Intelligence to Identify Significant Landslide Causal Factors for Extreme Gradient Boosting based Landslide Susceptibility Mapping with Improved Feature Selection ( http://arxiv.org/abs/2201.03225v1 )

ライセンス: CC BY-SA 4.0
Muhammad Sakib Khan Inan and Istiakur Rahman(参考訳) 地すべりは、人為的な温暖化の時代において、人命と財産に対する脅威として定期的に発生してきた。 データ駆動型アプローチによる地すべり感受性の早期予測は時間の要求である。 本研究では,地すべりの感受性を最先端の機械学習手法で記述した雄弁な特徴について検討した。 本研究では,地すべり感受性予測にXgBoost,LR,KNN,SVM,Adaboostといった最先端の機械学習アルゴリズムを用いた。 最適化性能のための各分類器の最適なハイパーパラメータを見つけるために,10 Fold Cross-Validation を用いたグリッドサーチ手法を採用した。 この文脈で、最適化されたXgBoostは、クロスバリデーション重み付きF1スコア94.62%の他の分類器よりも優れていた。 この経験的証拠に追従して、TreeSHAPを組み込んでXgBoost分類器を探索し、XGBoost分類器の性能を補完するSLOPE、ELEVATION、TWI、モデル性能にあまり影響しないLANDUSE、NDVI、SPIなどの特徴を同定した。 特徴のtreeshapによる説明では, 地すべりの原因要因として, 15項目中9項目を選定した。 明らかに、XgBoostの最適化版と機能低下の40%は、Cross-Validation Weighted F1スコアが95.01%、AUCスコアが97%という一般的な評価基準で、他の分類器よりも優れている。

Landslides have been a regular occurrence and an alarming threat to human life and property in the era of anthropogenic global warming. An early prediction of landslide susceptibility using a data-driven approach is a demand of time. In this study, we explored the eloquent features that best describe landslide susceptibility with state-of-the-art machine learning methods. In our study, we employed state-of-the-art machine learning algorithms including XgBoost, LR, KNN, SVM, Adaboost for landslide susceptibility prediction. To find the best hyperparameters of each individual classifier for optimized performance, we have incorporated the Grid Search method, with 10 Fold Cross-Validation. In this context, the optimized version of XgBoost outperformed all other classifiers with a Cross-validation Weighted F1 score of 94.62%. Followed by this empirical evidence, we explored the XgBoost classifier by incorporating TreeSHAP and identified eloquent features such as SLOPE, ELEVATION, TWI that complement the performance of the XGBoost classifier mostly and features such as LANDUSE, NDVI, SPI which has less effect on models performance. According to the TreeSHAP explanation of features, we selected the 9 most significant landslide causal factors out of 15. Evidently, an optimized version of XgBoost along with feature reduction by 40%, has outperformed all other classifiers in terms of popular evaluation metrics with a Cross-Validation Weighted F1 score of 95.01% on the training and AUC score of 97%.
翻訳日:2022-01-11 20:39:20 公開日:2022-01-10
# (参考訳) blenderbot 2.0エラー解析のモデル・データ・ユーザ中心アプローチによる実証的研究

Empirical study on BlenderBot 2.0 Errors Analysis in terms of Model, Data and User-Centric Approach ( http://arxiv.org/abs/2201.03239v1 )

ライセンス: CC BY 4.0
Jungseob Lee, Midan Shim, Suhyune Son, Yujin Kim, Chanjun Park, Heuiseok Lim(参考訳) BlenderBot 2.0は、インターネット検索モジュールとマルチセッションを使用して、リアルタイム情報を反映し、ユーザ情報を長期間記憶することで、オープンドメインチャットボットを表現する対話モデルである。 それでもモデルには改善の余地がある。 この目的のために、BlenderBot 2.0の制限とエラーをモデル、データ、ユーザという3つの観点から検討した。 データの観点からは、クラウドソーシングの過程で労働者に提供される不明瞭なガイドラインと、収集されたデータのヘイトスピーチを精査し、インターネットベースの情報の正確性を検証するプロセスの欠如を強調した。 ユーザの視点からは、BlenderBot 2.0の9種類の問題を特定し、その原因を徹底的に調査する。 さらに, それぞれの観点から, 実践的改善手法を提案し, 今後の研究の方向性について検討する。

BlenderBot 2.0 is a dialogue model that represents open-domain chatbots by reflecting real-time information and remembering user information for an extended period using an internet search module and multi-session. Nonetheless, the model still has room for improvement. To this end, we examined BlenderBot 2.0 limitations and errors from three perspectives: model, data, and user. From the data point of view, we highlight the unclear guidelines provided to workers during the crowdsourcing process, as well as a lack of a process for refining hate speech in the collected data and verifying the accuracy of internet-based information. From a user perspective, we identify nine types of problems of BlenderBot 2.0, and their causes are thoroughly investigated. Furthermore, for each point of view, practical improvement methods are proposed, and we discuss several potential future research directions.
翻訳日:2022-01-11 20:16:06 公開日:2022-01-10
# (参考訳) ディープラーニングを用いた小物体検出

Small Object Detection using Deep Learning ( http://arxiv.org/abs/2201.03243v1 )

ライセンス: CC0 1.0
Aleena Ajaz, Ayesha Salar, Tauseef Jamal, Asif Ullah Khan(参考訳) 現在では、ドローンなどのUAVは、アリエル画像からの検知やターゲット検出など、様々な目的に広く利用されている。 これらの小型のアリエル車両の公共への容易なアクセスは、重大なセキュリティ上の脅威を引き起こす可能性がある。 例えば、重要な場所はドローンを使って公共の場でミキシングされたスパイによって監視される。 研究は、非常に小さなドローンを高精度に検出し追跡できる、改良され効率的なディープラーニングベースの自律システムを提案する。 提案されているシステムは、カスタムのディープラーニングモデルであるtiny yolov3で構成されており、非常に高速なオブジェクト検出モデルのフレーバーの1つだ(yolo)。 オブジェクト検出アルゴリズムは、ドローンを効率的に検出する。 提案したアーキテクチャは、以前のYOLOバージョンに比べて大幅に性能が向上している。 この改善はリソースの使用量と時間の複雑さの観点から観察される。 性能は、それぞれ93%と91%のリコールと精度の測定値を用いて測定される。

Now a days, UAVs such as drones are greatly used for various purposes like that of capturing and target detection from ariel imagery etc. Easy access of these small ariel vehicles to public can cause serious security threats. For instance, critical places may be monitored by spies blended in public using drones. Study in hand proposes an improved and efficient Deep Learning based autonomous system which can detect and track very small drones with great precision. The proposed system consists of a custom deep learning model Tiny YOLOv3, one of the flavors of very fast object detection model You Look Only Once (YOLO) is built and used for detection. The object detection algorithm will efficiently the detect the drones. The proposed architecture has shown significantly better performance as compared to the previous YOLO version. The improvement is observed in the terms of resource usage and time complexity. The performance is measured using the metrics of recall and precision that are 93% and 91% respectively.
翻訳日:2022-01-11 20:05:24 公開日:2022-01-10
# (参考訳) 悪天候のビジョン:各種物体検出器を用いたサイクロンGANによる自律走行の堅牢な認識

Vision in adverse weather: Augmentation using CycleGANs with various object detectors for robust perception in autonomous racing ( http://arxiv.org/abs/2201.03246v1 )

ライセンス: CC BY 4.0
Izzeddin Teeti, Valentina Musat, Salman Khan, Alexander Rast, Fabio Cuzzolin, Andrew Bradley(参考訳) 自律運転システムでは、環境からの特徴や物体を識別する認識が重要である。 自律レースでは、高速と小さなマージンは迅速かつ正確な検知システムを必要とする。 レース中、天候は突然変化し、認識が著しく低下し、非効率な操作が生じる。 悪天候の検出を改善するために、ディープラーニングベースのモデルは、通常、そのような状況でキャプチャされた広範なデータセットを必要とする。 しかし、最近のCycleGANアーキテクチャは、複数の気象条件下で非常に現実的なシーンを合成することができる。 そこで本研究では, 夜間条件下での5つの最先端検出器のうち4つを平均42.7と4.4mAPのパーセンテージで改善するため, 自律レースにおける合成悪条件データセット(CycleGANを用いた)を用いたアプローチを提案する。 さらに,5つの物体検出器の比較分析を行い,自律走行時に使用する検出器の最適ペアリングとトレーニングデータの同定を行った。

In an autonomous driving system, perception - identification of features and objects from the environment - is crucial. In autonomous racing, high speeds and small margins demand rapid and accurate detection systems. During the race, the weather can change abruptly, causing significant degradation in perception, resulting in ineffective manoeuvres. In order to improve detection in adverse weather, deep-learning-based models typically require extensive datasets captured in such conditions - the collection of which is a tedious, laborious, and costly process. However, recent developments in CycleGAN architectures allow the synthesis of highly realistic scenes in multiple weather conditions. To this end, we introduce an approach of using synthesised adverse condition datasets in autonomous racing (generated using CycleGAN) to improve the performance of four out of five state-of-the-art detectors by an average of 42.7 and 4.4 mAP percentage points in the presence of night-time conditions and droplets, respectively. Furthermore, we present a comparative analysis of five object detectors - identifying the optimal pairing of detector and training data for use during autonomous racing in challenging conditions.
翻訳日:2022-01-11 19:52:28 公開日:2022-01-10
# (参考訳) IoTGAN: マシンラーニングベースのIoTデバイス識別に対するGANパワーのカモフラージュ

IoTGAN: GAN Powered Camouflage Against Machine Learning Based IoT Device Identification ( http://arxiv.org/abs/2201.03281v1 )

ライセンス: CC0 1.0
Tao Hou, Tao Wang, Zhuo Lu, Yao Liu and Yalin Sagduyu(参考訳) IoTデバイスの普及に伴い、研究者は機械学習の助けを借りて、さまざまなIoTデバイス識別方法を開発した。 それでも、これらの識別方法のセキュリティは、収集されたトレーニングデータに大きく依存する。 本研究では,IoTデバイスのトラフィックを操作するために,IoTGANという新たな攻撃戦略を提案する。 IoTGANの開発には,2つの大きな技術的課題があります。 (i)ブラックボックス設定における識別モデル取得方法、及び (ii)IoTデバイスの機能に影響を与えることなく、識別を回避するために、マニピュティブモデルを通じてIoTトラフィックに摂動を加える方法。 これらの課題に対処するために、ニューラルネットワークベースの代替モデルを使用して、ターゲットモデルをブラックボックス設定に適合させ、IoTGANの識別モデルとして機能する。 操作モデルは、代替モデルを回避するために、IoTデバイスのトラフィックに敵の摂動を追加するように訓練される。 実験の結果、IoTGANは攻撃目標を達成することができた。 また、機械学習に基づくIoTデバイス識別がIoTGANによって損なわれないようにする効率的な対策も開発している。

With the proliferation of IoT devices, researchers have developed a variety of IoT device identification methods with the assistance of machine learning. Nevertheless, the security of these identification methods mostly depends on collected training data. In this research, we propose a novel attack strategy named IoTGAN to manipulate an IoT device's traffic such that it can evade machine learning based IoT device identification. In the development of IoTGAN, we have two major technical challenges: (i) How to obtain the discriminative model in a black-box setting, and (ii) How to add perturbations to IoT traffic through the manipulative model, so as to evade the identification while not influencing the functionality of IoT devices. To address these challenges, a neural network based substitute model is used to fit the target model in black-box settings, it works as a discriminative model in IoTGAN. A manipulative model is trained to add adversarial perturbations into the IoT device's traffic to evade the substitute model. Experimental results show that IoTGAN can successfully achieve the attack goals. We also develop efficient countermeasures to protect machine learning based IoT device identification from been undermined by IoTGAN.
翻訳日:2022-01-11 19:36:50 公開日:2022-01-10
# (参考訳) 臨床リスクスコアを生成する新しい解釈可能な機械学習システム : 振り返りコホート研究における早期死亡率および未計画再帰予測への応用

A novel interpretable machine learning system to generate clinical risk scores: An application for predicting early mortality or unplanned readmission in a retrospective cohort study ( http://arxiv.org/abs/2201.03291v1 )

ライセンス: CC BY 4.0
Yilin Ning, Siqi Li, Marcus Eng Hock Ong, Feng Xie, Bibhas Chakraborty, Daniel Shu Wei Ting, Nan Liu(参考訳) リスクスコアは臨床意思決定に広く用いられ、ロジスティック回帰モデルから一般的に生成される。 機械学習に基づく手法は重要な予測器を特定するのにうまく機能するが、このような「ブラックボックス」変数の選択は解釈可能性を制限する。 本稿では、最近開発されたShapley変数重要クラウド(ShapleyVIC)を用いて、モデル間のばらつきを考慮した頑健で解釈可能な変数選択手法を提案する。 提案手法は,詳細な推論と透過的な変数選択のための全体的な変数コントリビューションを評価し,非重要なコントリビュータをフィルタリングし,モデル構築手順を単純化する。 本稿では,自動的かつモジュール化されたリスクスコア生成器であるAutoScoreと簡単に統合できる可変コントリビューションから,アンサンブル変数ランキングを導出する。 早期死亡または未計画の再送の研究において、シャプリービッチは41の候補変数のうち6つを選択して、機械学習に基づくランキングから16変数のモデルに類似したパフォーマンスの優れたモデルを作成した。

Risk scores are widely used for clinical decision making and commonly generated from logistic regression models. Machine-learning-based methods may work well for identifying important predictors, but such 'black box' variable selection limits interpretability, and variable importance evaluated from a single model can be biased. We propose a robust and interpretable variable selection approach using the recently developed Shapley variable importance cloud (ShapleyVIC) that accounts for variability across models. Our approach evaluates and visualizes overall variable contributions for in-depth inference and transparent variable selection, and filters out non-significant contributors to simplify model building steps. We derive an ensemble variable ranking from variable contributions, which is easily integrated with an automated and modularized risk score generator, AutoScore, for convenient implementation. In a study of early death or unplanned readmission, ShapleyVIC selected 6 of 41 candidate variables to create a well-performing model, which had similar performance to a 16-variable model from machine-learning-based ranking.
翻訳日:2022-01-11 19:23:40 公開日:2022-01-10
# (参考訳) 重ね合わせを避ける:畳み込みニューラルネットワークの正規化法に関する調査

Avoiding Overfitting: A Survey on Regularization Methods for Convolutional Neural Networks ( http://arxiv.org/abs/2201.03299v1 )

ライセンス: CC BY 4.0
Claudio Filipi Gon\c{c}alves dos Santos, Jo\~ao Paulo Papa(参考訳) 画像分類や物体検出などの画像処理タスクは、畳み込みニューラルネットワーク(CNN)を用いて大幅に改善されている。 ResNetやEfficientNetのように、多くのアーキテクチャは、作成までに少なくとも1つのデータセットで優れた結果を得た。 トレーニングにおける重要な要因は、ネットワークの規則化であり、構造が過剰に適合することを防ぐ。 この研究は、過去数年間に開発されたいくつかの正規化手法を分析し、異なるCNNモデルの大幅な改善を示す。 最初のものは"データ拡張"と呼ばれ、すべてのテクニックが入力データの変更の実行に重点を置いている。 第2の"internal changes"は、ニューラルネットワークやカーネルによって生成された機能マップを修正する手順を記述することを目的としている。 最後の"label"は、入力のラベルを変換することに関するものだ。 本研究は、正規化に関する他の調査との主な違いを2つ示す。 (i)第1の事項は、5歳未満の写本に集められた書類についてである。 (ii)第2の区別は再現性に関するもので、ここで参照するすべての著作物は公開リポジトリで利用可能か、あるいはtensorflowやtorchといったフレームワークで直接実装されている。

Several image processing tasks, such as image classification and object detection, have been significantly improved using Convolutional Neural Networks (CNN). Like ResNet and EfficientNet, many architectures have achieved outstanding results in at least one dataset by the time of their creation. A critical factor in training concerns the network's regularization, which prevents the structure from overfitting. This work analyzes several regularization methods developed in the last few years, showing significant improvements for different CNN models. The works are classified into three main areas: the first one is called "data augmentation", where all the techniques focus on performing changes in the input data. The second, named "internal changes", which aims to describe procedures to modify the feature maps generated by the neural network or the kernels. The last one, called "label", concerns transforming the labels of a given input. This work presents two main differences comparing to other available surveys about regularization: (i) the first concerns the papers gathered in the manuscript, which are not older than five years, and (ii) the second distinction is about reproducibility, i.e., all works refered here have their code available in public repositories or they have been directly implemented in some framework, such as TensorFlow or Torch.
翻訳日:2022-01-11 19:11:36 公開日:2022-01-10
# (参考訳) 人間の認知と言語のためのプランク放射と量子化方式

A Planck Radiation and Quantization Scheme for Human Cognition and Language ( http://arxiv.org/abs/2201.03306v1 )

ライセンス: CC BY 4.0
Diederik Aerts and Lester Beltran(参考訳) 同一性」と「識別不能性」の同定と、関連するボース・アインシュタイン統計が人間の認知と言語に存在していることを示す強力な実験的な証拠の結果、量子認知の研究領域の拡張を先行研究で論じた。 量子複素ベクトル空間と量子確率モデルに加えて、量子化自体が量子化として重要であり、人間の認知にとって重要であることを示した。 本研究は,この結果に基づいて,人間認知のための強力な放射量子化手法を提案する。 ボース・アインシュタイン統計のマクスウェル・ボルツマン統計に対する独立性の欠如は、単語を同じ単語に惹きつける「平均ダイナミクス」の存在によって説明できることを示した。 この現象は量子力学の初期において光子でよく知られていた現象であり、プランクとアインシュタインの間に激しい意見の相違が生じた。 簡単な例を用いて、マイクロ状態やマクロ状態、マックスウェル・ボルツマン、ボース=アインシュタイン、フェルミ=ディラックの数値と重みなど、この「ダイナミックス」をより正確に表現するための全ての要素を紹介し、この例とグラフをウィニー・ザ・ポーの物語の放射量子化スキームと、そのグラフと比較する。 概念を人間の体験に直接つなげることで、エンタングルメントは私たちが特定した「計測ダイナミクス」を維持するために必要であることを示し、フェルミディラックが人間の記憶をどう扱うかが明らかになる。 内部パラメータを持つ空間では、同じ単語は異なる状態に割り当てられる。

As a result of the identification of 'identity' and 'indistinguishability' and strong experimental evidence for the presence of the associated Bose-Einstein statistics in human cognition and language, we argued in previous work for an extension of the research domain of quantum cognition. In addition to quantum complex vector spaces and quantum probability models, we showed that quantization itself, with words as quanta, is relevant and potentially important to human cognition. In the present work, we build on this result, and introduce a powerful radiation quantization scheme for human cognition. We show that the lack of independence of the Bose-Einstein statistics compared to the Maxwell-Boltzmann statistics can be explained by the presence of a 'meaning dynamics', which causes words to be attracted to the same words. And so words clump together in the same states, a phenomenon well known for photons in the early years of quantum mechanics, leading to fierce disagreements between Planck and Einstein. Using a simple example, we introduce all the elements to get a better and detailed view of this 'meaning dynamics', such as micro and macro states, and Maxwell-Boltzmann, Bose-Einstein and Fermi-Dirac numbers and weights, and compare this example and its graphs, with the radiation quantization scheme of a Winnie the Pooh story, also with its graphs. By connecting a concept directly to human experience, we show that entanglement is a necessity for preserving the 'meaning dynamics' we identified, and it becomes clear in what way Fermi-Dirac addresses human memory. There, in spaces with internal parameters identical words can nevertheless be assigned different states.
翻訳日:2022-01-11 18:45:56 公開日:2022-01-10
# (参考訳) ディープラーニングに基づく歩行認識:調査

Gait Recognition Based on Deep Learning: A Survey ( http://arxiv.org/abs/2201.03323v1 )

ライセンス: CC BY 4.0
Claudio Filipi Gon\c{c}alves dos Santos, Diego de Souza Oliveira, Leandro A. Passos, Rafael Gon\c{c}alves Pires, Daniel Felipe Silva Santos, Lucas Pascotti Valem, Thierry P. Moreira, Marcos Cleison S. Santana, Mateus Roder, Jo\~ao Paulo Papa, Danilo Colombo(参考訳) 一般に、バイオメトリベースの制御システムは、個別の期待された行動や協調に依存しない。 代わりに、そのようなシステムは不正アクセスの試みに対する悪意ある手続きを意識すべきである。 文献で利用可能ないくつかの作品は、歩行認識アプローチを通じてこの問題に取り組むことを提案している。 このような方法は、服装やアクセサリーに拘わらず、本質的な知覚的特徴を通じて人間を識別することを目的としている。 この問題は比較的長期にわたる課題であるが、この問題に対処するために開発された技術の多くは、特徴抽出や分類率の低下などに関連するいくつかの欠点が存在する。 しかし、ディープラーニングベースのアプローチは、ほぼあらゆる画像やコンピュータビジョンに関連する問題に対処するための堅牢なツールセットとして最近登場し、歩行認識においても最重要結果をもたらす。 そこで本研究では,歩行認識によるバイオメトリック検出に関する最近の研究成果を,深層学習のアプローチに着目し,その利点を強調し,弱点を明らかにした。 さらに、関連する制約に対処するために使用されるデータセット、アプローチ、アーキテクチャの分類と特徴を提示する。

In general, biometry-based control systems may not rely on individual expected behavior or cooperation to operate appropriately. Instead, such systems should be aware of malicious procedures for unauthorized access attempts. Some works available in the literature suggest addressing the problem through gait recognition approaches. Such methods aim at identifying human beings through intrinsic perceptible features, despite dressed clothes or accessories. Although the issue denotes a relatively long-time challenge, most of the techniques developed to handle the problem present several drawbacks related to feature extraction and low classification rates, among other issues. However, deep learning-based approaches recently emerged as a robust set of tools to deal with virtually any image and computer-vision related problem, providing paramount results for gait recognition as well. Therefore, this work provides a surveyed compilation of recent works regarding biometric detection through gait recognition with a focus on deep learning approaches, emphasizing their benefits, and exposing their weaknesses. Besides, it also presents categorized and characterized descriptions of the datasets, approaches, and architectures employed to tackle associated constraints.
翻訳日:2022-01-11 18:44:49 公開日:2022-01-10
# (参考訳) 神経情報検索における長話題系列の連続学習

Continual Learning of Long Topic Sequences in Neural Information Retrieval ( http://arxiv.org/abs/2201.03356v1 )

ライセンス: CC BY 4.0
Thomas Gerald and Laure Soulier(参考訳) 情報検索(IR)システムでは、トレンドやユーザの興味は時間とともに変化し、推奨される要求の分布やコンテンツを変更する。 ニューラルランキングのアプローチはトレーニングデータに大きく依存するため、長期的には新しいドメインに対処するための最近のIRアプローチの転送能力を理解することが不可欠である。 本稿ではまず,MSMarcoコーパスをベースとした,長いトピックストリームとIRプロパティ駆動制御設定のモデル化を目的としたデータセットを提案する。 次に、これらのストリームを継続的に学習しながら、最近のニューラルIRモデルの能力を詳細に分析する。 我々の経験的研究は、モデル設計の観点から将来の方向性を提供するために、破滅的な忘れ事(例えば、タスク間の類似度、テキスト長の特異性、学習方法など)が発生する特定のケースに焦点を当てている。

In information retrieval (IR) systems, trends and users' interests may change over time, altering either the distribution of requests or contents to be recommended. Since neural ranking approaches heavily depend on the training data, it is crucial to understand the transfer capacity of recent IR approaches to address new domains in the long term. In this paper, we first propose a dataset based upon the MSMarco corpus aiming at modeling a long stream of topics as well as IR property-driven controlled settings. We then in-depth analyze the ability of recent neural IR models while continually learning those streams. Our empirical study highlights in which particular cases catastrophic forgetting occurs (e.g., level of similarity between tasks, peculiarities on text length, and ways of learning models) to provide future directions in terms of model design.
翻訳日:2022-01-11 18:43:45 公開日:2022-01-10
# (参考訳) 感性分析のためのBERT:事前訓練と微調整による代替品

BERT for Sentiment Analysis: Pre-trained and Fine-Tuned Alternatives ( http://arxiv.org/abs/2201.03382v1 )

ライセンス: CC BY-SA 4.0
Frederico Souza, Jo\~ao Filho(参考訳) BERTは、複雑なテキストパターンをキャプチャできる大規模な言語モデルによるトランスファー学習を可能にして、NLP分野に革命をもたらした。 テキスト分類タスクについては、BERTはすでに広く研究されている。 しかし、BERT出力層によって提供される異なる埋め込みにどのように対処するか、多言語モデルの代わりに言語固有の使用法は、文学、特にブラジルポルトガル語ではあまり研究されていない。 本論文の目的は,bert出力層で生成する特徴を集約するための異なる戦略について,感情分析タスクに着目して,広範な実験研究を行うことである。 この実験には、ブラジルのポルトガル語コーパスと多言語バージョンでトレーニングされたBERTモデルが含まれ、複数のアグリゲーション戦略とオープンソースのデータセットを事前定義されたトレーニング、検証、テストパーティションによって検討し、結果の再現性を促進する。 BERT は TF-IDF と比較して ROC-AUC の値が最も高かった。 それでも、TF-IDFは予測性能と計算コストのトレードオフとして優れている。

BERT has revolutionized the NLP field by enabling transfer learning with large language models that can capture complex textual patterns, reaching the state-of-the-art for an expressive number of NLP applications. For text classification tasks, BERT has already been extensively explored. However, aspects like how to better cope with the different embeddings provided by the BERT output layer and the usage of language-specific instead of multilingual models are not well studied in the literature, especially for the Brazilian Portuguese language. The purpose of this article is to conduct an extensive experimental study regarding different strategies for aggregating the features produced in the BERT output layer, with a focus on the sentiment analysis task. The experiments include BERT models trained with Brazilian Portuguese corpora and the multilingual version, contemplating multiple aggregation strategies and open-source datasets with predefined training, validation, and test partitions to facilitate the reproducibility of the results. BERT achieved the highest ROC-AUC values for the majority of cases as compared to TF-IDF. Nonetheless, TF-IDF represents a good trade-off between the predictive performance and computational cost.
翻訳日:2022-01-11 18:25:55 公開日:2022-01-10
# (参考訳) 信頼できるエンボディードシステムのためのシステム課題

Systems Challenges for Trustworthy Embodied Systems ( http://arxiv.org/abs/2201.03413v1 )

ライセンス: CC BY 4.0
Harald Ruess(参考訳) 新たな世代の自律型・自己学習システム(embodied systems, embodied systems, embodied systems)が開発される予定です。 これらのシステムを現実のコンテキストにデプロイする場合、私たちは、実施されたシステムの振る舞いを有益な方法で調整し、人間中心の社会的価値との整合性を確保し、確実に安全で信頼性の高い人間と機械の相互作用を設計することが重要であるため、さまざまなエンジニアリング上の課題に直面します。 我々は、急進的なシステム工学が、組み込みシステムからエンボディドシステムへ、そして、状況を認識し、意図的に駆動され、爆発的に進化し、ほとんど予測不可能で、そして、不確実で、複雑で、予測不可能な現実世界の状況において、動的フェデレーションの信頼性を保証し、温暖化に近づきつつあると論じている。 私たちはまた、堅牢で人間中心のAI、認知アーキテクチャ、不確実な定量化、信頼できる自己統合、継続的な分析と保証など、信頼できる実施システムに対する緊急システム課題を数多く特定しています。

A new generation of increasingly autonomous and self-learning systems, which we call embodied systems, is about to be developed. When deploying these systems into a real-life context we face various engineering challenges, as it is crucial to coordinate the behavior of embodied systems in a beneficial manner, ensure their compatibility with our human-centered social values, and design verifiably safe and reliable human-machine interaction. We are arguing that raditional systems engineering is coming to a climacteric from embedded to embodied systems, and with assuring the trustworthiness of dynamic federations of situationally aware, intent-driven, explorative, ever-evolving, largely non-predictable, and increasingly autonomous embodied systems in uncertain, complex, and unpredictable real-world contexts. We are also identifying a number of urgent systems challenges for trustworthy embodied systems, including robust and human-centric AI, cognitive architectures, uncertainty quantification, trustworthy self-integration, and continual analysis and assurance.
翻訳日:2022-01-11 18:15:55 公開日:2022-01-10
# (参考訳) 3D顔モフィング攻撃:生成、脆弱性、検出

3D Face Morphing Attacks: Generation, Vulnerability and Detection ( http://arxiv.org/abs/2201.03454v1 )

ライセンス: CC BY 4.0
Jag Mohan Singh, Raghavendra Ramachandra(参考訳) 顔認識システム(frs)は、顔画像と寄与データとをブレンドすることにより、顔画像が生成されるモーフィング攻撃に対して脆弱である。 本研究は, 顔のモーフィング攻撃を3dで生成する新しい方向を示す。 そこで本稿では, コントリビュータデータに対応する3次元顔点雲をブレンドする手法を提案する。 提案手法では,入力した3次元顔点雲を深度マップ \&2次元カラーイメージに投影し,色画像と深度マップとで独立に行う画像ブレンディングとラッピング操作を行う。 次に、標準(固定)ビューを使用して、2次元モーフィングカラーマップと深度マップをポイントクラウドにバックプロジェクションします。 生成した3d顔モーフィングモデルが単一の正準ビューのために穴をあけることを考慮し,高品質な3d顔モーフィングモデルを実現するための新しい穴埋めアルゴリズムを提案する。 新たに生成した3d顔データセットは,41個のユニークなデータ対象に対応する675個の3dスキャンからなる。 自動2Dおよび3D FRSと人間の観察者分析の脆弱性をベンチマークするために実験が行われた。 また,8つの異なる品質指標を用いて生成した3次元顔形態モデルの品質を定量的に評価する。 最後に、3次元MADアルゴリズムの性能をベンチマークするために、3つの異なる3次元顔モフィング攻撃検出(3D-MAD)アルゴリズムを提案する。

Face Recognition systems (FRS) have been found vulnerable to morphing attacks, where the morphed face image is generated by blending the face images from contributory data subjects. This work presents a novel direction towards generating face morphing attacks in 3D. To this extent, we have introduced a novel approach based on blending the 3D face point clouds corresponding to the contributory data subjects. The proposed method will generate the 3D face morphing by projecting the input 3D face point clouds to depth-maps \& 2D color images followed by the image blending and wrapping operations performed independently on the color images and depth maps. We then back-project the 2D morphing color-map and the depth-map to the point cloud using the canonical (fixed) view. Given that the generated 3D face morphing models will result in the holes due to a single canonical view, we have proposed a new algorithm for hole filling that will result in a high-quality 3D face morphing model. Extensive experiments are carried out on the newly generated 3D face dataset comprised of 675 3D scans corresponding to 41 unique data subjects. Experiments are performed to benchmark the vulnerability of automatic 2D and 3D FRS and human observer analysis. We also present the quantitative assessment of the quality of the generated 3D face morphing models using eight different quality metrics. Finally, we have proposed three different 3D face Morphing Attack Detection (3D-MAD) algorithms to benchmark the performance of the 3D MAD algorithms.
翻訳日:2022-01-11 18:14:42 公開日:2022-01-10
# (参考訳) グラフベース半教師付き分類器における拡散率とラベル信頼性の最適化

Optimizing Diffusion Rate and Label Reliability in a Graph-Based Semi-supervised Classifier ( http://arxiv.org/abs/2201.03456v1 )

ライセンス: CC BY 4.0
Bruno Klaus de Aquino Afonso, Lilian Berton(参考訳) 半教師付き学習は、ラベルのないデータの構造を利用して、教師付きアプローチよりもはるかに少ないラベルで競合する分類結果を得ることができるため、研究者から注目を集めている。 Local and Global Consistency (LGC)アルゴリズムは、グラフベースの半教師付き半教師付き(GSSL)分類器の1つである。 特に、その解は既知のラベルの線形結合として書くことができる。 この線形結合の係数はパラメータ$\alpha$に依存し、ランダムウォークでラベル付き頂点に達すると、時間とともに報酬の減衰を決定する。 本研究は,ラベル付きインスタンスの自己影響を取り除くことがいかに有用か,そして,そのエラーがアウト・ワン・アウト・エラーにどのように関係するかを論じる。 さらに, 自動微分による残余損失を最小限に抑えることを提案する。 本稿では,ラベルの信頼性と拡散率を推定する手法を提案する。 拡散率の最適化はスペクトル表現によりより効率的に達成される。 その結果, ラベル信頼性手法はロバストなL1ノルム法と競合し, 対角成分の除去は過適合のリスクを低減し, パラメータ選択の適切な基準となることがわかった。

Semi-supervised learning has received attention from researchers, as it allows one to exploit the structure of unlabeled data to achieve competitive classification results with much fewer labels than supervised approaches. The Local and Global Consistency (LGC) algorithm is one of the most well-known graph-based semi-supervised (GSSL) classifiers. Notably, its solution can be written as a linear combination of the known labels. The coefficients of this linear combination depend on a parameter $\alpha$, determining the decay of the reward over time when reaching labeled vertices in a random walk. In this work, we discuss how removing the self-influence of a labeled instance may be beneficial, and how it relates to leave-one-out error. Moreover, we propose to minimize this leave-one-out loss with automatic differentiation. Within this framework, we propose methods to estimate label reliability and diffusion rate. Optimizing the diffusion rate is more efficiently accomplished with a spectral representation. Results show that the label reliability approach competes with robust L1-norm methods and that removing diagonal entries reduces the risk of overfitting and leads to suitable criteria for parameter selection.
翻訳日:2022-01-11 17:55:09 公開日:2022-01-10
# クロスイメージ・ディスタングルによる現実世界の低照度画像のエンハンス

Enhancing Low-Light Images in Real World via Cross-Image Disentanglement ( http://arxiv.org/abs/2201.03145v1 )

ライセンス: Link先を確認
Lanqing Guo, Renjie Wan, Wenhan Yang, Alex Kot and Bihan Wen(参考訳) 低照度環境で撮影された画像は、視認性が低く、ノイズのような様々な画像アーティファクトに苦しむ。 既存の教師付き啓蒙アルゴリズムでは、実際の準備が困難である大量のピクセル対応のトレーニングイメージペアが必要である。 弱い監督の手法や教師なしの手法は、ペアの訓練画像を使うことなくこれらの課題を軽減することができるが、現実のアーティファクトの中には、対応する監督の欠如のために必然的に偽の増幅が行われるものもある。 本稿では,完全に整列した画像をトレーニングに使用するのではなく,実世界の不整列画像を手引きとして創造的に活用し,より収集が容易な手法を提案する。 具体的には、低照度画像からクロスイメージ輝度と画像固有のコンテンツ特徴を別々に抽出するクロスイメージディスタングルネットワーク(CIDN)を提案する。 それに基づいてcidnは、輝度を補正し、特徴領域の画像アーティファクトを抑制することで、ピクセルシフトのロバスト性が大幅に向上する。 さらに,実世界の腐敗を伴う不整合トレーニング画像からなる新しい低照度画像強調データセットを収集した。 実験の結果,本モデルでは,新たに提案するデータセットと一般の低照度データセットの両方において最先端の性能が得られることがわかった。

Images captured in the low-light condition suffer from low visibility and various imaging artifacts, e.g., real noise. Existing supervised enlightening algorithms require a large set of pixel-aligned training image pairs, which are hard to prepare in practice. Though weakly-supervised or unsupervised methods can alleviate such challenges without using paired training images, some real-world artifacts inevitably get falsely amplified because of the lack of corresponded supervision. In this paper, instead of using perfectly aligned images for training, we creatively employ the misaligned real-world images as the guidance, which are considerably easier to collect. Specifically, we propose a Cross-Image Disentanglement Network (CIDN) to separately extract cross-image brightness and image-specific content features from low/normal-light images. Based on that, CIDN can simultaneously correct the brightness and suppress image artifacts in the feature domain, which largely increases the robustness to the pixel shifts. Furthermore, we collect a new low-light image enhancement dataset consisting of misaligned training images with real-world corruptions. Experimental results show that our model achieves state-of-the-art performances on both the newly proposed dataset and other popular low-light datasets.
翻訳日:2022-01-11 17:39:47 公開日:2022-01-10
# TFS 認識: MPH]{Thai Finger Spelling Recognition: Investigationing MediaPipe Hands potentials

TFS Recognition: Investigating MPH]{Thai Finger Spelling Recognition: Investigating MediaPipe Hands Potentials ( http://arxiv.org/abs/2201.03170v1 )

ライセンス: Link先を確認
Jinnavat Sanalohit and Tatpong Katanyukul(参考訳) タイのフィンガースペル(tfs)サイン認識は、大きな聴覚人口に橋渡しする難聴者のコミュニティに利益をもたらす可能性がある。 比較的多くのアルファベットを持つtfsは複数の署名方式を採用している。 より一般的な署名の2つのスキーム(静的および動的シングルハンド署名、他の手話言語で広く使用されている)が、過去のいくつかの作業で対処された。TFSの署名認識を完了するために、残りの2つのスキーム(静的および動的ポイントオンハンド署名)は、十分に対処する必要がある。 多くの既製ハンドスケルトン予測モデルが出現し、手話認識のためのモデルをスクラッチから訓練するコストがかかることから、最近発売されたMediaPipe Hands (MPH) をベースとしたアプローチを探求する。 MPHは手指検出のための高精度に訓練されたモデルである。 我々は,静的シングルハンド(S1),単純化された動的シングルハンド(S2),静的ポイントオンハンド(P1)の3つのスキームについてMPHを調査した。 以上の結果から,MPHはS1,S2ともに84.57%の精度でシングルハンドスキームに十分対応できることがわかった。 しかし本研究では,p1における23.66%の精度で,従来から訓練された分類から得られた69.19%の精度を持つ点対手スキームに対するmphの欠点を明らかにした。 この欠点が研究され、自己閉塞と利き手によって引き起こされている。

Thai Finger Spelling (TFS) sign recognition could benefit a community of hearing-difficulty people in bridging to a major hearing population. With a relatively large number of alphabets, TFS employs multiple signing schemes. Two schemes of more common signing -- static and dynamic single-hand signing, widely used in other sign languages -- have been addressed in several previous works. To complete the TFS sign recognition, the remaining two of quite distinct signing schemes -- static and dynamic point-on-hand signing -- need to be sufficiently addressed. With the advent of many off-the-shelf hand skeleton prediction models and that training a model to recognize a sign language from scratch is expensive, we explore an approach building upon recently launched MediaPipe Hands (MPH). MPH is a high-precision well-trained model for hand-keypoint detection. We have investigated MPH on three TFS schemes: static-single-hand (S1), simplified dynamic-single-hand (S2) and static-point-on-hand (P1) schemes. Our results show that MPH can satisfactorily address single-hand schemes with accuracy of 84.57% on both S1 and S2. However, our finding reveals a shortcoming of MPH in addressing a point-on-hand scheme, whose accuracy is 23.66% on P1 conferring to 69.19% obtained from conventional classification trained from scratch. This shortcoming has been investigated and attributed to self occlusion and handedness.
翻訳日:2022-01-11 17:39:24 公開日:2022-01-10
# myops : 3シーケンス心筋mri画像を組み合わせた心筋病理分節のベンチマーク

MyoPS: A Benchmark of Myocardial Pathology Segmentation Combining Three-Sequence Cardiac Magnetic Resonance Images ( http://arxiv.org/abs/2201.03186v1 )

ライセンス: Link先を確認
Lei Li, Fuping Wu, Sihan Wang, Xinzhe Luo, Carlos Martin-Isla, Shuwei Zhai, Jianpeng Zhang, Yanfei Liu7, Zhen Zhang, Markus J. Ankenbrand, Haochuan Jiang, Xiaoran Zhang, Linhong Wang, Tewodros Weldebirhan Arega, Elif Altunok, Zhou Zhao, Feiyan Li, Jun Ma, Xiaoping Yang, Elodie Puybareau, Ilkay Oksuz, Stephanie Bricq, Weisheng Li, Kumaradevan Punithakumar, Sotirios A. Tsaftaris, Laura M. Schreiber, Mingjing Yang, Guocai Liu, Yong Xia, Guotai Wang, Sergio Escalera, Xiahai Zhuang(参考訳) 心筋梗塞患者の診断・治療管理には, 心筋viabilityの評価が不可欠であり, 病理の分類がこの評価の鍵となる。 本研究は、MICCAI 2020とともにMyoPSチャレンジで最初に提案された3系列の心臓磁気共鳴(CMR)画像を組み合わせて、MyoPS(MyoPS)の心筋病理セグメント化(MyoPS)を行うための医療画像解析の新たな課題を定義する。 この課題は45対のCMR画像と予め整列されたCMR画像を提供し、アルゴリズムは3つのCMRシーケンスから補完的な情報を結合して病理分類を行う。 本稿では,課題の詳細を述べ,15人の参加者の作業を調査し,前処理,データ拡張,学習戦略,モデルアーキテクチャ,後処理という5つの側面に従って手法を解釈する。 さらに,様々な要因について分析を行い,主要な障害を調査し,解決策の可能性を探究するとともに,今後の研究のためのベンチマークを提供する。 有望な結果が報告されているが、研究はまだ初期段階にあり、診療所への応用に成功する前により詳細な調査が必要であると結論づけた。 myoPSデータと評価ツールは、ホームページ(www.sdspeople.fudan.edu.cn/zhuangxiahai/0/myops20/)を通じて、引き続き公開されている。

Assessment of myocardial viability is essential in diagnosis and treatment management of patients suffering from myocardial infarction, and classification of pathology on myocardium is the key to this assessment. This work defines a new task of medical image analysis, i.e., to perform myocardial pathology segmentation (MyoPS) combining three-sequence cardiac magnetic resonance (CMR) images, which was first proposed in the MyoPS challenge, in conjunction with MICCAI 2020. The challenge provided 45 paired and pre-aligned CMR images, allowing algorithms to combine the complementary information from the three CMR sequences for pathology segmentation. In this article, we provide details of the challenge, survey the works from fifteen participants and interpret their methods according to five aspects, i.e., preprocessing, data augmentation, learning strategy, model architecture and post-processing. In addition, we analyze the results with respect to different factors, in order to examine the key obstacles and explore potential of solutions, as well as to provide a benchmark for future research. We conclude that while promising results have been reported, the research is still in the early stage, and more in-depth exploration is needed before a successful application to the clinics. Note that MyoPS data and evaluation tool continue to be publicly available upon registration via its homepage (www.sdspeople.fudan.edu.cn/zhuangxiahai/0/myops20/).
翻訳日:2022-01-11 17:38:54 公開日:2022-01-10
# pseudo-residual による高精度深度マップのエンドツーエンドロスレス圧縮

End-to-end lossless compression of high precision depth maps guided by pseudo-residual ( http://arxiv.org/abs/2201.03195v1 )

ライセンス: Link先を確認
Yuyang Wu, Wei Gao(参考訳) 空間情報を表す基本的なデータ形式として、深度マップは信号処理やコンピュータビジョンの分野で広く使われている。 レーザースキャナやLiDARなどの装置の急速な開発により、高精度深度マップの大量生産が行われている。 そのため,高精度深度マップの圧縮率を向上した新しい圧縮法を検討することが急務である。 広汎な深層学習環境を利用して,高精度深度マップのためのエンドツーエンドの学習に基づくロスレス圧縮手法を提案する。 プロセス全体は、深度マップの前処理と深度マップの深度ロスレス圧縮という、2つのサブプロセスで構成されている。 ディープロスレス圧縮ネットワークは、ロスレス圧縮ネットワークとロスレス圧縮ネットワークという2つのサブネットワークで構成されている。 我々は擬似残差の概念を活用し、残差分布の生成をガイドし、文脈モデルの導入を避ける。 我々のエンドツーエンドのロスレス圧縮ネットワークは、エンジニアリングコーデックよりも競争性能が高く、計算コストも低い。

As a fundamental data format representing spatial information, depth map is widely used in signal processing and computer vision fields. Massive amount of high precision depth maps are produced with the rapid development of equipment like laser scanner or LiDAR. Therefore, it is urgent to explore a new compression method with better compression ratio for high precision depth maps. Utilizing the wide spread deep learning environment, we propose an end-to-end learning-based lossless compression method for high precision depth maps. The whole process is comprised of two sub-processes, named pre-processing of depth maps and deep lossless compression of processed depth maps. The deep lossless compression network consists of two sub-networks, named lossy compression network and lossless compression network. We leverage the concept of pseudo-residual to guide the generation of distribution for residual and avoid introducing context models. Our end-to-end lossless compression network achieves competitive performance over engineered codecs and has low computational cost.
翻訳日:2022-01-11 17:38:30 公開日:2022-01-10
# 学習可能な辞書を用いたモデルベース画像信号処理

Model-Based Image Signal Processors via Learnable Dictionaries ( http://arxiv.org/abs/2201.03210v1 )

ライセンス: Link先を確認
Marcos V. Conde, Steven McDonagh, Matteo Maggioni, Ale\v{s} Leonardis, Eduardo P\'erez-Pellitero(参考訳) デジタルカメラは、センサーRAWをイメージシグナルプロセッサ(ISP)を用いてRGBイメージに変換する。 画像のデノイジングやカラーコンステンシーなどの計算的写真撮影タスクは、ハードウェア設計に固有の部分があるだけでなく、直接のセンサーの読み出しから生じるノイズ統計の単純さにも起因して、生の領域で一般的に行われている。 それにもかかわらず、RAW画像の可用性は、利用可能なRGBデータの豊富さと多様性と比較して制限されている。 解釈可能で制御可能な手作りのモデルベースメソッドは通常手動パラメータの微調整を必要とし、エンドツーエンドの学習可能なニューラルネットワークは複雑なトレーニング手順で大量のトレーニングデータを必要とし、一般的には解釈可能性やパラメトリック制御が欠如している。 これらの制約に対処するために、我々は、標準ISP操作に基づいて学習可能かつ解釈可能な、新しいハイブリッドモデルベースおよびデータ駆動ISPを提案する。 提案する非可逆モデルはRAWドメインとRGBドメインの双方向マッピングが可能であり,直接パラメトリック監視が不要で,かつ,単純かつ可算なデータ拡張を可能にするリッチパラメータ表現(辞書)をエンドツーエンドで学習する。 我々は、RAW画像再構成とRAW画像復調の両タスクによる広範な実験により、データ生成プロセスの価値を実証し、両者の最先端性能を得る。 さらに、我々のispは、少数のデータサンプルから有意義なマッピングを学習できることを示し、辞書ベースのデータ拡張でトレーニングされたモデルに競争力があることを示した。

Digital cameras transform sensor RAW readings into RGB images by means of their Image Signal Processor (ISP). Computational photography tasks such as image denoising and colour constancy are commonly performed in the RAW domain, in part due to the inherent hardware design, but also due to the appealing simplicity of noise statistics that result from the direct sensor readings. Despite this, the availability of RAW images is limited in comparison with the abundance and diversity of available RGB data. Recent approaches have attempted to bridge this gap by estimating the RGB to RAW mapping: handcrafted model-based methods that are interpretable and controllable usually require manual parameter fine-tuning, while end-to-end learnable neural networks require large amounts of training data, at times with complex training procedures, and generally lack interpretability and parametric control. Towards addressing these existing limitations, we present a novel hybrid model-based and data-driven ISP that builds on canonical ISP operations and is both learnable and interpretable. Our proposed invertible model, capable of bidirectional mapping between RAW and RGB domains, employs end-to-end learning of rich parameter representations, i.e. dictionaries, that are free from direct parametric supervision and additionally enable simple and plausible data augmentation. We evidence the value of our data generation process by extensive experiments under both RAW image reconstruction and RAW image denoising tasks, obtaining state-of-the-art performance in both. Additionally, we show that our ISP can learn meaningful mappings from few data samples, and that denoising models trained with our dictionary-based data augmentation are competitive despite having only few or zero ground-truth labels.
翻訳日:2022-01-11 17:38:13 公開日:2022-01-10
# Why-So-Deep: 視覚的位置認識のためのトレーニング済みモデルの強化を目指す

Why-So-Deep: Towards Boosting Previously Trained Models for Visual Place Recognition ( http://arxiv.org/abs/2201.03212v1 )

ライセンス: Link先を確認
M. Usman Maqbool Bhutta, Yuxiang Sun, Darwin Lau, Ming Liu(参考訳) ループ閉鎖検出のための深層学習に基づく画像検索技術は良好な性能を示す。 しかし、以前訓練された異なる地域におけるモデルに基づいてハイレベルな性能を達成することは依然として困難である。 本稿では,新しい環境における同時ローカライゼーション・マッピング(slam)システムによる配置の問題について述べる。 一般的なベースラインアプローチでは、GPS、シーケンシャルなキーフレーム追跡、リコール率を高めるために環境全体の再トレーニングなどの追加情報を使用する。 本稿では,事前学習モデルに基づく画像検索を改善するための新しい手法を提案する。 画像リコールのための事前学習モデルのパワーを増幅する知的手法MAQBOOLとそのリアルタイムマルチエージェントSLAMシステムへの応用について述べる。 低ディスクリプタ次元(512-d)において,最先端手法の高ディスクリプタ次元(4096-d)と比較して,比較画像検索結果が得られる。 事前学習モデルにおける画像検索におけるリコール率を改善するために空間情報を用いる。

Deep learning-based image retrieval techniques for the loop closure detection demonstrate satisfactory performance. However, it is still challenging to achieve high-level performance based on previously trained models in different geographical regions. This paper addresses the problem of their deployment with simultaneous localization and mapping (SLAM) systems in the new environment. The general baseline approach uses additional information, such as GPS, sequential keyframes tracking, and re-training the whole environment to enhance the recall rate. We propose a novel approach for improving image retrieval based on previously trained models. We present an intelligent method, MAQBOOL, to amplify the power of pre-trained models for better image recall and its application to real-time multiagent SLAM systems. We achieve comparable image retrieval results at a low descriptor dimension (512-D), compared to the high descriptor dimension (4096-D) of state-of-the-art methods. We use spatial information to improve the recall rate in image retrieval on pre-trained models.
翻訳日:2022-01-11 17:37:27 公開日:2022-01-10
# craniosynostosisの無放射線評価と分類のための統計的形状モデル

A statistical shape model for radiation-free assessment and classification of craniosynostosis ( http://arxiv.org/abs/2201.03288v1 )

ライセンス: Link先を確認
Matthias Schaufelberger, Reinald Peter K\"uhle, Andreas Wachter, Frederic Weichel, Niclas Hagen, Friedemann Ringwald, Urs Eisenmann, J\"urgen Hoffmann, Michael Engel, Christian Freudlsperger, Werner Nahm(参考訳) 顎顔面変形の評価には患者データが必要である。 統計的形状モデルは、共通のデータセット上の既存の方法の比較を可能にする、現実的な合成データを提供する。 クラニオシノスタシス患者の3次元頭部モデルと,1.5歳未満の幼児に焦点を当てた最初のモデルを構築した。 対応確立のために,テンプレートモーフィングの4つのアプローチをテスト,評価する。 さらに, クラニオシノスタシスに対する形状モデルに基づく独自の分類手法を光グラム法表面スキャンで提案する。 我々の知る限りでは,本研究は,クラニオシノスタシスの分類研究と,現在までの統計的形状モデリングにおいて,最大のクラニオシノスタシス患者データセットを用いている。 我々の形状モデルが人間の頭部の他の統計的形状モデルと類似していることを示す。 craniosynostosis-specific pathologiesはモデルの最初の固有モードとして表される。 クラニオシノシスの自動分類では,この分類法は97.3%の精度で,CTスキャンとステレオフォトグラム法の両方を用いて,他の最先端の方法に匹敵する精度を示した。 クラニオシノスタシス特異的な統計形状モデルにより,現実的および合成的データに基づくクラニオシノスタシスの評価が可能となった。 クラニオシノスタシスの放射線のない診断のための,最先端の形状モデルに基づく分類手法を提案する。

The assessment of craniofacial deformities requires patient data which is sparsely available. Statistical shape models provide realistic and synthetic data enabling comparisons of existing methods on a common dataset. We build the first publicly available statistical 3D head model of craniosynostosis patients and the first model focusing on infants younger than 1.5 years. For correspondence establishment, we test and evaluate four template morphing approaches. We further present an original, shape-model-based classification approach for craniosynostosis on photogrammetric surface scans. To the best of our knowledge, our study uses the largest dataset of craniosynostosis patients in a classification study for craniosynostosis and statistical shape modeling to date. We demonstrate that our shape model performs similar to other statistical shape models of the human head. Craniosynostosis-specific pathologies are represented in the first eigenmodes of the model. Regarding the automatic classification of craniosynostis, our classification approach yields an accuracy of 97.3%, comparable to other state-of-the-art methods using both computed tomography scans and stereophotogrammetry. Our publicly available, craniosynostosis-specific statistical shape model enables the assessment of craniosynostosis on realistic and synthetic data. We further present a state-of-the-art shape-model-based classification approach for a radiation-free diagnosis of craniosynostosis.
翻訳日:2022-01-11 17:37:10 公開日:2022-01-10
# デュアルカメラSLAMを用いた繰り返し環境における高分解能生態系マッピング

High-resolution Ecosystem Mapping in Repetitive Environments Using Dual Camera SLAM ( http://arxiv.org/abs/2201.03364v1 )

ライセンス: Link先を確認
Brian M. Hopkinson and Suchendra M. Bhandarkar(参考訳) Structure from Motion (SfM)技術は、環境モニタリングを含む多くの領域の画像から3Dマップを作成するために、ますます使われている。 しかしながら、SfM技術は視覚的に反復的な環境において、主にグローバルに異なる画像特徴に依存しているため、しばしば融合される。 SLAM技術は、局所的な特徴マッチングを使用するため、視覚的に反復的な環境において潜在的な解決策を提供するが、SLAMアプローチは、しばしば関心のある環境システムの文書化に適さない広角カメラで機能する。 本稿では,前向き広角カメラをローカライズに使用し,下向きの狭角高解像度カメラをドキュメンテーションに使用するデュアルカメラSLAM方式を提案する。 フォワードカメラ映像によって取得された映像フレームは、画像システムの軌道を環境を通して提供する標準slamアプローチを用いて処理され、ドキュメンテーションカメラ画像の登録をガイドするために使用される。 当初、モノクロSLAMでドキュメンテーションカメラ画像から生成されたフラグメンタリーマップは、その後、ローカライゼーションカメラの軌跡に合わせて拡張され、最終的に統一された改良されたマップを生成するグローバルな最適化手順に従う。 複数の最先端sfm法との比較実験により, 地中制御点マーカーの選択サンプルに基づいて, 繰り返し環境システムの性能向上を目的としたデュアルカメラslam法が提案されている。

Structure from Motion (SfM) techniques are being increasingly used to create 3D maps from images in many domains including environmental monitoring. However, SfM techniques are often confounded in visually repetitive environments as they rely primarily on globally distinct image features. Simultaneous Localization and Mapping (SLAM) techniques offer a potential solution in visually repetitive environments since they use local feature matching, but SLAM approaches work best with wide-angle cameras that are often unsuitable for documenting the environmental system of interest. We resolve this issue by proposing a dual-camera SLAM approach that uses a forward facing wide-angle camera for localization and a downward facing narrower angle, high-resolution camera for documentation. Video frames acquired by the forward facing camera video are processed using a standard SLAM approach providing a trajectory of the imaging system through the environment which is then used to guide the registration of the documentation camera images. Fragmentary maps, initially produced from the documentation camera images via monocular SLAM, are subsequently scaled and aligned with the localization camera trajectory and finally subjected to a global optimization procedure to produce a unified, refined map. An experimental comparison with several state-of-the-art SfM approaches shows the dual-camera SLAM approach to perform better in repetitive environmental systems based on select samples of ground control point markers.
翻訳日:2022-01-11 17:36:52 公開日:2022-01-10
# 画像からの個体群レベルの形状統計と解剖学的セグメンテーション:共同学習モデル

Learning Population-level Shape Statistics and Anatomy Segmentation From Images: A Joint Deep Learning Model ( http://arxiv.org/abs/2201.03481v1 )

ライセンス: Link先を確認
Wenzheng Tao, Riddhish Bhalodia, Shireen Elhabian(参考訳) 統計的形状モデリングは解剖学的集団の定量的解析に不可欠なツールである。 点分布モデル(PDM)は、その後の応用のための直感的で使いやすい形状表現である高密度な対応によって解剖面を表現する。 これらの対応は2つの座標空間で示される: 各解剖学的表面の幾何学的特徴を記述する局所座標と、与えられたコホート内のサンプル間のグローバルアライメント差を除去した後、人口レベルの統計形状情報を表す世界座標である。 ボリューム画像から2つの座標空間を同時に学習するディープラーニングフレームワークを提案する。 提案されたジョイントモデルには2つの目的があり、世界対応は、従来のpdmモデルに関連する重い前処理やセグメンテーションを回避して、形状分析アプリケーションに直接使用できる。 さらに、局所的な対応は解剖学的セグメンテーションに利用できる。 2つのデータセット上での形状モデリングアプリケーションと解剖学的表面の推定における有用性の両方に,このジョイントモデルの有効性を示す。

Statistical shape modeling is an essential tool for the quantitative analysis of anatomical populations. Point distribution models (PDMs) represent the anatomical surface via a dense set of correspondences, an intuitive and easy-to-use shape representation for subsequent applications. These correspondences are exhibited in two coordinate spaces: the local coordinates describing the geometrical features of each individual anatomical surface and the world coordinates representing the population-level statistical shape information after removing global alignment differences across samples in the given cohort. We propose a deep-learning-based framework that simultaneously learns these two coordinate spaces directly from the volumetric images. The proposed joint model serves a dual purpose; the world correspondences can directly be used for shape analysis applications, circumventing the heavy pre-processing and segmentation involved in traditional PDM models. Additionally, the local correspondences can be used for anatomy segmentation. We demonstrate the efficacy of this joint model for both shape modeling applications on two datasets and its utility in inferring the anatomical surface.
翻訳日:2022-01-11 17:36:26 公開日:2022-01-10
# 誤り訂正と発話排除のためのクロスモーダルASRポストプロセッシングシステム

Cross-Modal ASR Post-Processing System for Error Correction and Utterance Rejection ( http://arxiv.org/abs/2201.03313v1 )

ライセンス: Link先を確認
Jing Du, Shiliang Pu, Qinbo Dong, Chao Jin, Xin Qi, Dian Gu, Ru Wu, Hongwei Zhou(参考訳) 現代の自動音声認識(ASR)システムは高い性能を達成することができるが、読者の経験を弱め、下流のタスクに害を与える誤りを生じる可能性がある。 ASR仮説の精度と信頼性を向上させるために,音声認識のためのクロスモーダル後処理システムを提案する。 1)異なる形態の音響的特徴とテキスト的特徴を融合させる。 2)マルチタスク学習における信頼度推定器と誤り訂正器の結合と 3) 誤り訂正と発話拒否モジュールを統一する。 シングルモーダルモデルやシングルタスクモデルと比較すると,提案方式の方が効率的かつ効率的であることが判明した。 実験の結果,産業用asrシステムでは,各トークンに対して約1.7msの遅延で,単一話者および複数話者音声の文字誤り率 (cer) が10%以上減少し,ストリーム音声認識において後処理による余分な遅延が許容されることが確認された。

Although modern automatic speech recognition (ASR) systems can achieve high performance, they may produce errors that weaken readers' experience and do harm to downstream tasks. To improve the accuracy and reliability of ASR hypotheses, we propose a cross-modal post-processing system for speech recognizers, which 1) fuses acoustic features and textual features from different modalities, 2) joints a confidence estimator and an error corrector in multi-task learning fashion and 3) unifies error correction and utterance rejection modules. Compared with single-modal or single-task models, our proposed system is proved to be more effective and efficient. Experiment result shows that our post-processing system leads to more than 10% relative reduction of character error rate (CER) for both single-speaker and multi-speaker speech on our industrial ASR system, with about 1.7ms latency for each token, which ensures that extra latency introduced by post-processing is acceptable in streaming speech recognition.
翻訳日:2022-01-11 17:36:06 公開日:2022-01-10
# ファセット方向を固定したポリトープの学習

Learning polytopes with fixed facet directions ( http://arxiv.org/abs/2201.03419v1 )

ライセンス: Link先を確認
Maria Dostert and Katharina Jochemko(参考訳) 有限個の支持関数評価から,ポリトープを固定面方向で再構築する作業を検討する。 固定単純正規ファンの場合、最小二乗推定は凸二次プログラムによって与えられる。 本研究では, 解集合の幾何学について検討し, この場合の再構成の特異性に関する組合せ的特徴付けを与える。 軽度な仮定の下では,騒音サポート関数評価の数が増加するにつれて,未知の入力形状に収束するアルゴリズムを提案する。 また、通常のファンの制限が取り除かれた場合の結果の制限についても論じる。

We consider the task of reconstructing polytopes with fixed facet directions from finitely many support function evaluations. We show that for fixed simplicial normal fan the least-squares estimate is given by a convex quadratic program. We study the geometry of the solution set and give a combinatorial characterization for the uniqueness of the reconstruction in this case. We provide an algorithm that, under mild assumptions, converges to the unknown input shape as the number of noisy support function evaluations increases. We also discuss limitations of our results if the restriction on the normal fan is removed.
翻訳日:2022-01-11 17:35:22 公開日:2022-01-10
# スープレム計量とのベイズ的整合性

Bayesian Consistency with the Supremum Metric ( http://arxiv.org/abs/2201.03447v1 )

ライセンス: Link先を確認
Nhat Ho and Stephen G. Walker(参考訳) 上限距離におけるベイズ整合性の簡単な条件を示す。 この手法の鍵となるのは三角形の不等式であり、これは標準クルバック-リーブラサポート条件の結果として弱収束を明示的に利用することができる。 さらなる条件として、密度の平滑化バージョンが元の密度からそれほど離れないことを保証するため、データを追跡しすぎる密度を扱うことができる。 この論文の重要な結果は、現在$\mathbb{L}_1$の整合性を確保するのに使われているものと比較して、弱い条件を用いた上限整合性を示すことである。

We present simple conditions for Bayesian consistency in the supremum metric. The key to the technique is a triangle inequality which allows us to explicitly use weak convergence, a consequence of the standard Kullback--Leibler support condition for the prior. A further condition is to ensure that smoothed versions of densities are not too far from the original density, thus dealing with densities which could track the data too closely. A key result of the paper is that we demonstrate supremum consistency using weaker conditions compared to those currently used to secure $\mathbb{L}_1$ consistency.
翻訳日:2022-01-11 17:35:15 公開日:2022-01-10
# 解釈可能なフェデレーション学習に基づくネットワーク侵入検出フレームワーク

An Interpretable Federated Learning-based Network Intrusion Detection Framework ( http://arxiv.org/abs/2201.03134v1 )

ライセンス: Link先を確認
Tian Dong, Song Li, Han Qiu, and Jialiang Lu(参考訳) 学習ベースのネットワーク侵入検知システム(NIDS)は、様々なサイバー攻撃を防御するために広く利用されている。 既存の学習ベースのNIDSは主に、サイバー攻撃データの質と量に依存する分類器としてニューラルネットワーク(NN)を使用している。 このようなnnベースのアプローチは、効率とスケーラビリティを改善するための解釈も難しい。 本稿では,解釈可能な勾配強化決定木(gbdt)とフェデレート学習(fl)フレームワークを組み合わせた新しい学習ベースのnidsである,新しい局所的グローバル計算パラダイムfeedforestを設計する。 具体的には、FEDFORESTは複数のクライアントで構成されており、サーバがモデルをトレーニングし、侵入を検出するために、ローカルなサイバー攻撃データの特徴を抽出する。 FEDFORESTでは、FLシステムのプライバシーをさらに損なうために、プライバシ強化技術も提案されている。 異なるタスクの4つのサイバー攻撃データセットに関する大規模な実験は、FEDFORESTが効率的、効率的、解釈可能、拡張可能であることを示している。 FEDFORESTは、中国の大学生を対象とした、2021年のコラボレーティブラーニングおよびサイバーセキュリティコンペティションで、第1位である。

Learning-based Network Intrusion Detection Systems (NIDSs) are widely deployed for defending various cyberattacks. Existing learning-based NIDS mainly uses Neural Network (NN) as a classifier that relies on the quality and quantity of cyberattack data. Such NN-based approaches are also hard to interpret for improving efficiency and scalability. In this paper, we design a new local-global computation paradigm, FEDFOREST, a novel learning-based NIDS by combining the interpretable Gradient Boosting Decision Tree (GBDT) and Federated Learning (FL) framework. Specifically, FEDFOREST is composed of multiple clients that extract local cyberattack data features for the server to train models and detect intrusions. A privacy-enhanced technology is also proposed in FEDFOREST to further defeat the privacy of the FL systems. Extensive experiments on 4 cyberattack datasets of different tasks demonstrate that FEDFOREST is effective, efficient, interpretable, and extendable. FEDFOREST ranks first in the collaborative learning and cybersecurity competition 2021 for Chinese college students.
翻訳日:2022-01-11 17:33:04 公開日:2022-01-10
# モデルインバージョンを持つ微分プライベート生成逆ネットワーク

Differentially Private Generative Adversarial Networks with Model Inversion ( http://arxiv.org/abs/2201.03139v1 )

ライセンス: Link先を確認
Dongjie Chen, Sen-ching Samson Cheung, Chen-Nee Chuah, Sally Ozonoff(参考訳) gan(generative adversarial network)の訓練においてセンシティブなデータを保護するために、標準的なアプローチは、勾配に制御されたノイズを付加した差分プライベート(dp)確率勾配降下法を用いることである。 出力された合成サンプルの品質は悪影響を及ぼすことができ、ネットワークのトレーニングはこれらのノイズの存在下では収束しない。 本稿では,プライベートデータをパブリックジェネレータを介して潜在空間にマッピングし,より収束性の高い低次元dp-ganを導出する差分プライベートモデルインバージョン(dpmi)法を提案する。 CIFAR10とSVHNの標準データセットおよび自閉症スクリーニングのための顔のランドマークデータセットに対する実験結果から、本手法は、インセプションスコア、Fr'echet Inception Distance、および同一のプライバシー保証に基づく標準DP-GAN法よりも優れていることが示された。

To protect sensitive data in training a Generative Adversarial Network (GAN), the standard approach is to use differentially private (DP) stochastic gradient descent method in which controlled noise is added to the gradients. The quality of the output synthetic samples can be adversely affected and the training of the network may not even converge in the presence of these noises. We propose Differentially Private Model Inversion (DPMI) method where the private data is first mapped to the latent space via a public generator, followed by a lower-dimensional DP-GAN with better convergent properties. Experimental results on standard datasets CIFAR10 and SVHN as well as on a facial landmark dataset for Autism screening show that our approach outperforms the standard DP-GAN method based on Inception Score, Fr\'echet Inception Distance, and classification accuracy under the same privacy guarantee.
翻訳日:2022-01-11 17:31:30 公開日:2022-01-10
# GridTuner:時空間予測モデルのためのグリッドサイズ選択の再検討 [技術報告]

GridTuner: Reinvestigate Grid Size Selection for Spatiotemporal Prediction Models [Technical Report] ( http://arxiv.org/abs/2201.03244v1 )

ライセンス: Link先を確認
Jiabao Jin, Peng Cheng, Lei Chen, Xuemin Lin, Wenjie Zhang(参考訳) 交通予測技術の発展に伴い、時空間予測モデルは学界のコミュニティや産業からますます注目を集めている。 しかしながら、既存の研究のほとんどはモデル予測誤差の低減に重点を置いているが、領域内の空間イベントの不均一な分布に起因する誤差を無視している。 本稿では、最適グリッドサイズ選択問題(OGSS)と呼ばれる領域分割問題について検討し、最適グリッドサイズを選択することで時空間予測モデルの実誤差を最小化することを目的とする。 ogssを解くために,時空間予測モデルの実誤差の上限を解析し,その上限を最小化することにより実誤差を最小化する。 詳細な解析により,モデルグリッドの数が1から最大許容値に増加すると,実誤差の上限が減少することがわかった。 そこで我々は,最適なグリッドサイズを自動的に見つけるために,Ternary SearchとIterative Methodという2つのアルゴリズムを提案する。 最後に, 実験により, 予測誤差は上限値と同じ傾向を示し, モデルグリッド数の増加に伴う実誤差の上限値の変化傾向は減少することを示した。 一方, 最適グリッドサイズを選択することにより, 最先端予測に基づくアルゴリズムのオーダーディスパッチ結果が13.6%向上し, 時空間予測モデルにおける領域分割の調整方法の有効性が示された。

With the development of traffic prediction technology, spatiotemporal prediction models have attracted more and more attention from academia communities and industry. However, most existing researches focus on reducing model's prediction error but ignore the error caused by the uneven distribution of spatial events within a region. In this paper, we study a region partitioning problem, namely optimal grid size selection problem (OGSS), which aims to minimize the real error of spatiotemporal prediction models by selecting the optimal grid size. In order to solve OGSS, we analyze the upper bound of real error of spatiotemporal prediction models and minimize the real error by minimizing its upper bound. Through in-depth analysis, we find that the upper bound of real error will decrease then increase when the number of model grids increase from 1 to the maximum allowed value. Then, we propose two algorithms, namely Ternary Search and Iterative Method, to automatically find the optimal grid size. Finally, the experiments verify that the error of prediction has the same trend as its upper bound, and the change trend of the upper bound of real error with respect to the increase of the number of model grids will decrease then increase. Meanwhile, in a case study, by selecting the optimal grid size, the order dispatching results of a state-of-the-art prediction-based algorithm can be improved up to 13.6%, which shows the effectiveness of our methods on tuning the region partition for spatiotemporal prediction models.
翻訳日:2022-01-11 17:31:11 公開日:2022-01-10
# 高品質心肺音に対する新生児胸部音分離術

Noisy Neonatal Chest Sound Separation for High-Quality Heart and Lung Sounds ( http://arxiv.org/abs/2201.03211v1 )

ライセンス: Link先を確認
Ethan Grooby, Chiranjibi Sitaula, Davood Fattahi, Reza Sameni, Kenneth Tan, Lindsay Zhou, Arrabella King, Ashwin Ramanathan, Atul Malhotra, Guy A. Dumont, Faezeh Marzbanrad(参考訳) 聴診器に記録された胸部音は新生児の遠隔循環型健康モニタリングの機会となる。 しかし、信頼できるモニタリングには高品質な心臓と肺の音が必要である。 新生児胸部音響分離のための新しい非負マトリックス因子分解法(NMF)と非負マトリックス共役法(NMCF)を提案する。 これらの方法を評価し,既存の単一音源分離法と比較するため,心臓,肺,騒音音からなる人工混合データセットを作成した。 次にこれらの人工混合物に対して信号-雑音比を計算した。 これらの手法は, 実環境における新生児胸部雑音にも適用し, バイタルサイン推定誤差と信号品質スコア1-5に基づいて評価した。 さらに,全手法の計算コストを評価し,リアルタイム処理への適用性を検討した。 概して、提案されたnmfとnmcfの手法は、人工データセットでは2.7dbから11.6dbで、実世界のデータセットでは0.40から1.12の信号品質改善を行う。 10s記録の音声分離の中央処理時間は、nmcfでは28.3秒、nmfでは342msであった。 安定でロバストな性能を有するため,本提案手法は実環境における新生児の心臓音と肺音の発声に有用であると考えられる。 提案および既存のメソッドのコードは、https://github.com/egrooby-monash/Heart-and-Lung-Sound-Separationで見ることができる。

Stethoscope-recorded chest sounds provide the opportunity for remote cardio-respiratory health monitoring of neonates. However, reliable monitoring requires high-quality heart and lung sounds. This paper presents novel Non-negative Matrix Factorisation (NMF) and Non-negative Matrix Co-Factorisation (NMCF) methods for neonatal chest sound separation. To assess these methods and compare with existing single-source separation methods, an artificial mixture dataset was generated comprising of heart, lung and noise sounds. Signal-to-noise ratios were then calculated for these artificial mixtures. These methods were also tested on real-world noisy neonatal chest sounds and assessed based on vital sign estimation error and a signal quality score of 1-5 developed in our previous works. Additionally, the computational cost of all methods was assessed to determine the applicability for real-time processing. Overall, both the proposed NMF and NMCF methods outperform the next best existing method by 2.7dB to 11.6dB for the artificial dataset and 0.40 to 1.12 signal quality improvement for the real-world dataset. The median processing time for the sound separation of a 10s recording was found to be 28.3s for NMCF and 342ms for NMF. Because of stable and robust performance, we believe that our proposed methods are useful to denoise neonatal heart and lung sound in a real-world environment. Codes for proposed and existing methods can be found at: https://github.com/egrooby-monash/Heart-and-Lung-Sound-Separation.
翻訳日:2022-01-11 17:28:06 公開日:2022-01-10
# 音声キャプションのための局所情報アシスト無注意デコーダ

Local Information Assisted Attention-free Decoder for Audio Captioning ( http://arxiv.org/abs/2201.03217v1 )

ライセンス: Link先を確認
Feiyang Xiao, Jian Guan, Qiaoxi Zhu, Haiyan Lan, Wenwu Wang(参考訳) 自動音声キャプション(aac)は、自然言語を用いたキャプションによる音声データの記述を目的とする。 既存のAACメソッドの多くはエンコーダ・デコーダ構造を採用しており、アテンションベースのメカニズムはオーディオ特徴からキャプションを予測するデコーダ(Transformer decoderなど)で一般的な選択である。 このような注意に基づくデコーダは、音声特徴からグローバル情報をキャプチャすることができるが、ローカル情報を抽出する能力は制限され、生成されたキャプションの品質が劣化する可能性がある。 本稿では,アテンションフリーデコーダを用いたAAC手法を提案し,PANNをベースとしたエンコーダを音声特徴抽出に使用し,アテンションフリーデコーダをローカル情報導入のために設計する。 提案手法は,音声信号からグローバル情報とローカル情報の両方を効果的に利用することができる。 実験の結果,本手法はDCASE 2021 Challengeのタスク6において,標準的なアテンションベースデコーダにより最先端の手法よりも優れていた。

Automated audio captioning (AAC) aims to describe audio data with captions using natural language. Most existing AAC methods adopt an encoder-decoder structure, where the attention based mechanism is a popular choice in the decoder (e.g., Transformer decoder) for predicting captions from audio features. Such attention based decoders can capture the global information from the audio features, however, their ability in extracting local information can be limited, which may lead to degraded quality in the generated captions. In this paper, we present an AAC method with an attention-free decoder, where an encoder based on PANNs is employed for audio feature extraction, and the attention-free decoder is designed to introduce local information. The proposed method enables the effective use of both global and local information from audio signals. Experiments show that our method outperforms the state-of-the-art methods with the standard attention based decoder in Task 6 of the DCASE 2021 Challenge.
翻訳日:2022-01-11 17:27:38 公開日:2022-01-10
# マルチプレイヤーパフォーマンス予測:決定依存ゲームにおける学習

Multiplayer Performative Prediction: Learning in Decision-Dependent Games ( http://arxiv.org/abs/2201.03398v1 )

ライセンス: Link先を確認
Adhyyan Narang and Evan Faulkner and Dmitriy Drusvyatskiy and Maryam Fazel and Lillian J. Ratliff(参考訳) 学習問題は通常、人口データが競合する意思決定者の行動に反応する興味深いフィードバックメカニズムを示す。 本稿では,この現象に対する新たなゲーム理論の枠組みを定式化した。 我々は2つの異なる解の概念、すなわち 一 能動安定均衡及び (ii)ゲームのナッシュ平衡。 後者の平衡はおそらくより有益であるが、ゲームが単調である場合にのみ効率的に発見できる。 軽微な仮定では、繰り返し再学習や繰り返し(確率的)勾配プレイを含む様々なアルゴリズムにより、性能的に安定な平衡を効率的に見つけることができる。 次に,ゲームの強い単調性に対する透明な十分条件を確立し,ナッシュ平衡を求めるアルゴリズムの開発に使用する。 本研究では,各プレイヤーがパラメトリックな分布記述の学習と,経験的リスクに対する勾配ステップを交互に行う,微分自由法と適応勾配アルゴリズムについて検討する。 合成および半合成の数値実験は結果を示す。

Learning problems commonly exhibit an interesting feedback mechanism wherein the population data reacts to competing decision makers' actions. This paper formulates a new game theoretic framework for this phenomenon, called multi-player performative prediction. We focus on two distinct solution concepts, namely (i) performatively stable equilibria and (ii) Nash equilibria of the game. The latter equilibria are arguably more informative, but can be found efficiently only when the game is monotone. We show that under mild assumptions, the performatively stable equilibria can be found efficiently by a variety of algorithms, including repeated retraining and repeated (stochastic) gradient play. We then establish transparent sufficient conditions for strong monotonicity of the game and use them to develop algorithms for finding Nash equilibria. We investigate derivative free methods and adaptive gradient algorithms wherein each player alternates between learning a parametric description of their distribution and gradient steps on the empirical risk. Synthetic and semi-synthetic numerical experiments illustrate the results.
翻訳日:2022-01-11 17:27:24 公開日:2022-01-10
# ネットワーク解析と潜在空間表現を用いた内部マイグレーションの調査:トルコへの応用

Investigating internal migration with network analysis and latent space representations: An application to Turkey ( http://arxiv.org/abs/2201.03543v1 )

ライセンス: Link先を確認
Furkan G\"ursoy, Bertan Badur(参考訳) ヒトの移住パターンは地理的に人口特性の再分配に影響を及ぼし、そのような分布は社会や経済的な成果と密接に関連しているため、内部移住の構造と動態が、そのようなシステムの政策を理解し設計する上で重要な役割を担っている。 我々は,2008年から2020年までトルコにおける内部移動の構造とダイナミクスについて詳細に調査した。 従来の移動法則の集合を同定し,署名付きネットワーク解析,エゴネットワーク解析,表現学習,時間的安定性解析,コミュニティ検出,ネットワーク可視化の様々な手法を用いて検証する。 その結果, 従来の移住法に則って, 移動リンクは大規模経済活動を伴う都市を含むいくつかの例外と地理的に結びついており, 主な移動流は逆方向の移動流に対抗し, 十分に定義された移動経路が存在し, 概ね安定していることがわかった。 これらの一般的な結果とは別に、トルコに関する独特で具体的な洞察も提供します。 全体として、我々が文献に初めて採用した新しいツールセットは、複雑なネットワークの観点から選択された移行法則を調査できるようにし、異なる地形に関する将来の移行研究に光を当てる。

Human migration patterns influence the redistribution of population characteristics over the geography and since such distributions are closely related to social and economic outcomes, investigating the structure and dynamics of internal migration plays a crucial role in understanding and designing policies for such systems. We provide an in-depth investigation into the structure and dynamics of the internal migration in Turkey from 2008 to 2020. We identify a set of classical migration laws and examine them via various methods for signed network analysis, ego network analysis, representation learning, temporal stability analysis, community detection, and network visualization. The findings show that, in line with the classical migration laws, most migration links are geographically bounded with several exceptions involving cities with large economic activity, major migration flows are countered with migration flows in the opposite direction, there are well-defined migration routes, and the migration system is generally stable over the investigated period. Apart from these general results, we also provide unique and specific insights into Turkey. Overall, the novel toolset we employ for the first time in the literature allows the investigation of selected migration laws from a complex networks perspective and sheds light on future migration research on different geographies.
翻訳日:2022-01-11 17:27:08 公開日:2022-01-10
# 2次元電子ガスの$m^\ast$:ニューラルカノニカル変換の研究

$m^\ast$ of two-dimensional electron gas: a neural canonical transformation study ( http://arxiv.org/abs/2201.03156v1 )

ライセンス: Link先を確認
Hao Xie, Linfeng Zhang, Lei Wang(参考訳) 相互作用電子の準粒子有効質量 $m^\ast$ はフェルミ液体理論の基本量である。 しかし、一様電子ガスの有効質量の正確な値は何十年もの研究を経ていまだに解明されていない。 新しく開発されたニューラルカノニカルトランスフォーメーションアプローチarXiv:2105.08644は、低温で熱エントロピーを直接計算することで、電子ガスの有効質量を抽出する原理的な方法を提供する。 このアプローチは、運動量占有の自己回帰モデルと電子座標の正規化フローの2つの生成ニューラルネットワークを用いて変動多電子密度行列をモデル化する。 低密度強結合領域における2次元スピン偏極電子ガスの有効質量の抑制は, 従来の報告よりも顕著である。 この予測は二次元電子ガス実験の検証を必要とする。

The quasiparticle effective mass $m^\ast$ of interacting electrons is a fundamental quantity in the Fermi liquid theory. However, the precise value of the effective mass of uniform electron gas is still elusive after decades of research. The newly developed neural canonical transformation approach arXiv:2105.08644 offers a principled way to extract the effective mass of electron gas by directly calculating the thermal entropy at low temperature. The approach models a variational many-electron density matrix using two generative neural networks: an autoregressive model for momentum occupation and a normalizing flow for electron coordinates. Our calculation reveals a suppression of effective mass in the two-dimensional spin-polarized electron gas, which is more pronounced than previous reports in the low-density strong-coupling region. This prediction calls for verification in two-dimensional electron gas experiments.
翻訳日:2022-01-11 17:24:54 公開日:2022-01-10
# (参考訳) 2020年代のConvNet

A ConvNet for the 2020s ( http://arxiv.org/abs/2201.03545v1 )

ライセンス: CC BY 4.0
Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell and Saining Xie(参考訳) 視覚認識の"Roaring 20s"は視覚変換器(ViT)の導入で始まり、コンネットを最先端の画像分類モデルとして置き換えた。 一方、Vanilla ViTは、オブジェクト検出やセマンティックセグメンテーションといった一般的なコンピュータビジョンタスクに適用する場合、困難に直面します。 階層型トランスフォーマー(例えば、Swin Transformer)は、いくつかのConvNetプリミティブを再導入し、トランスフォーマーを一般的なビジョンバックボーンとして実用化し、様々なビジョンタスクにおいて顕著なパフォーマンスを示す。 しかし、そのようなハイブリッドアプローチの有効性は、畳み込みの固有の帰納的バイアスよりもトランスフォーマーの内在的優位性に大きく寄与している。 本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。 視覚トランスフォーマーの設計に向けた標準のresnetを徐々に「近代化」し、その過程で性能の差に寄与するいくつかの重要なコンポーネントを発見します。 この探索の結果は、ConvNeXtと呼ばれる純粋なConvNetモデルのファミリーである。 ConvNeXtは標準のConvNetモジュールから完全に構成されており、精度とスケーラビリティの点でTransformerと良好に競合し、87.8%のImageNet top-1精度とCOCO検出とADE20KセグメンテーションにおけるSwing Transformerよりも優れており、標準のConvNetの単純さと効率性を維持している。

The "Roaring 20s" of visual recognition began with the introduction of Vision Transformers (ViTs), which quickly superseded ConvNets as the state-of-the-art image classification model. A vanilla ViT, on the other hand, faces difficulties when applied to general computer vision tasks such as object detection and semantic segmentation. It is the hierarchical Transformers (e.g., Swin Transformers) that reintroduced several ConvNet priors, making Transformers practically viable as a generic vision backbone and demonstrating remarkable performance on a wide variety of vision tasks. However, the effectiveness of such hybrid approaches is still largely credited to the intrinsic superiority of Transformers, rather than the inherent inductive biases of convolutions. In this work, we reexamine the design spaces and test the limits of what a pure ConvNet can achieve. We gradually "modernize" a standard ResNet toward the design of a vision Transformer, and discover several key components that contribute to the performance difference along the way. The outcome of this exploration is a family of pure ConvNet models dubbed ConvNeXt. Constructed entirely from standard ConvNet modules, ConvNeXts compete favorably with Transformers in terms of accuracy and scalability, achieving 87.8% ImageNet top-1 accuracy and outperforming Swin Transformers on COCO detection and ADE20K segmentation, while maintaining the simplicity and efficiency of standard ConvNets.
翻訳日:2022-01-11 17:24:10 公開日:2022-01-10
# 安価操作による異種デバイス上のゴーストネット

GhostNets on Heterogeneous Devices via Cheap Operations ( http://arxiv.org/abs/2201.03297v1 )

ライセンス: Link先を確認
Kai Han, Yunhe Wang, Chang Xu, Jianyuan Guo, Chunjing Xu, Enhua Wu, Qi Tian(参考訳) メモリと計算資源が限られているため、モバイルデバイスに畳み込みニューラルネットワーク(CNN)をデプロイすることは難しい。 我々は,CPUやGPUを含む異種デバイスのための効率的なニューラルネットワークを,ニューラルアーキテクチャ設計ではほとんど研究されていない特徴マップの冗長性を利用して設計することを目指している。 cpuライクなデバイスでは、安価な操作からより多くの機能マップを生成する新しいcpu効率の良いghost(c-ghost)モジュールを提案する。 本質的特徴マップのセットに基づいて,一連の線形変換を安価に適用し,本質的特徴に関する情報を完全に明らかにする多くのゴースト特徴マップを生成する。 提案するc-ghostモジュールは、既存の畳み込みニューラルネットワークをアップグレードするためのプラグアンドプレイコンポーネントとして利用することができる。 C-GhostのボトルネックはC-Ghostモジュールをスタックするように設計されており、軽量なC-GhostNetを簡単に確立することができる。 さらに、GPUデバイスの効率的なネットワークについても検討する。 構築段階ではGPU非効率な操作が多すぎる(例えば、深さ方向の畳み込み)ことなく、GPU非効率なゴースト(G-Ghost)ステージ構造を定式化する。 ステージ内の特徴は、本来の特徴を生成する出力チャネルが少なく、第1の部分を元のブロックで処理する部分と、ステージの冗長性を利用して安価な操作で生成する部分とに分けられる。 ベンチマーク実験により,提案したC-GhostモジュールとG-Ghostステージの有効性が示された。 C-GhostNetとG-GhostNetは、それぞれCPUとGPUの精度とレイテンシの最適なトレードオフを達成することができる。 コードはhttps://github.com/huawei-noah/CV-Backbonesで入手できる。

Deploying convolutional neural networks (CNNs) on mobile devices is difficult due to the limited memory and computation resources. We aim to design efficient neural networks for heterogeneous devices including CPU and GPU, by exploiting the redundancy in feature maps, which has rarely been investigated in neural architecture design. For CPU-like devices, we propose a novel CPU-efficient Ghost (C-Ghost) module to generate more feature maps from cheap operations. Based on a set of intrinsic feature maps, we apply a series of linear transformations with cheap cost to generate many ghost feature maps that could fully reveal information underlying intrinsic features. The proposed C-Ghost module can be taken as a plug-and-play component to upgrade existing convolutional neural networks. C-Ghost bottlenecks are designed to stack C-Ghost modules, and then the lightweight C-GhostNet can be easily established. We further consider the efficient networks for GPU devices. Without involving too many GPU-inefficient operations (e.g.,, depth-wise convolution) in a building stage, we propose to utilize the stage-wise feature redundancy to formulate GPU-efficient Ghost (G-Ghost) stage structure. The features in a stage are split into two parts where the first part is processed using the original block with fewer output channels for generating intrinsic features, and the other are generated using cheap operations by exploiting stage-wise redundancy. Experiments conducted on benchmarks demonstrate the effectiveness of the proposed C-Ghost module and the G-Ghost stage. C-GhostNet and G-GhostNet can achieve the optimal trade-off of accuracy and latency for CPU and GPU, respectively. Code is available at https://github.com/huawei-noah/CV-Backbones.
翻訳日:2022-01-11 16:55:41 公開日:2022-01-10
# GMFIM:プライバシ保護のためのマスク誘導顔画像操作モデル

GMFIM: A Generative Mask-guided Facial Image Manipulation Model for Privacy Preservation ( http://arxiv.org/abs/2201.03353v1 )

ライセンス: Link先を確認
Mohammad Hossein Khojaste, Nastaran Moradzadeh Farid, Ahmad Nickabadi(参考訳) ソーシャルメディアのウェブサイトやアプリケーションの利用は非常に人気があり、人々はこれらのネットワークで写真を共有している。 これらのネットワーク上の人々の写真の自動認識とタグ付けは、プライバシー保護の問題を引き起こし、ユーザーはこれらのアルゴリズムから身元を隠す方法を模索している。 GAN(Generative Adversarial Network)は、多彩な顔画像の生成や、顔画像の編集において非常に強力であることが示されている。 本稿では,GANをベースとした生成マスク誘導顔画像マニピュレーション(GMFIM)モデルを提案する。 私たちのモデルは3つの主要コンポーネントで構成されています。 a)入力画像から顔領域をカットして背景を省略するフェイスマスクモジュール b) 顔画像を操作し、同一性を隠すためのganベースの最適化モジュール c)入力画像の背景と操作された非識別顔画像とを結合するマージモジュール。 AFRシステムでは認識できないが、入力画像と可能な限り類似した高品質な画像を生成するため、最適化ステップの損失関数では異なる基準が考慮されている。 異なるデータセットを用いた実験の結果,本モデルは最先端手法と比較して,自動顔認識システムに対して優れた性能を実現することができ,攻撃成功率も18。 さらに,提案モデルの生成した画像は,高い画質で,より人間の眼に好適である。

The use of social media websites and applications has become very popular and people share their photos on these networks. Automatic recognition and tagging of people's photos on these networks has raised privacy preservation issues and users seek methods for hiding their identities from these algorithms. Generative adversarial networks (GANs) are shown to be very powerful in generating face images in high diversity and also in editing face images. In this paper, we propose a Generative Mask-guided Face Image Manipulation (GMFIM) model based on GANs to apply imperceptible editing to the input face image to preserve the privacy of the person in the image. Our model consists of three main components: a) the face mask module to cut the face area out of the input image and omit the background, b) the GAN-based optimization module for manipulating the face image and hiding the identity and, c) the merge module for combining the background of the input image and the manipulated de-identified face image. Different criteria are considered in the loss function of the optimization step to produce high-quality images that are as similar as possible to the input image while they cannot be recognized by AFR systems. The results of the experiments on different datasets show that our model can achieve better performance against automated face recognition systems in comparison to the state-of-the-art methods and it catches a higher attack success rate in most experiments from a total of 18. Moreover, the generated images of our proposed model have the highest quality and are more pleasing to human eyes.
翻訳日:2022-01-11 16:55:12 公開日:2022-01-10
# マルチタスク設定のためのグラフ表現学習:メタ学習アプローチ

Graph Representation Learning for Multi-Task Settings: a Meta-Learning Approach ( http://arxiv.org/abs/2201.03326v1 )

ライセンス: Link先を確認
Davide Buffelli, Fabio Vandin(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データに関する多くのアプリケーションで最先端の手法となっている。 gnnはグラフ表現学習のフレームワークであり、モデルが構造的および特徴的情報をカプセル化する低次元ノード埋め込みを生成することを学ぶ。 GNNは通常、エンドツーエンドでトレーニングされ、高度に専門化されたノードの埋め込みにつながる。 このアプローチはシングルタスク設定において大きな結果をもたらすが、複数のタスク(シングルタスクモデルに匹敵するパフォーマンスを持つ)の実行に使用できるノード埋め込みの生成は依然として未解決の問題である。 本稿では,マルチタスクノード組込みが可能なgnnモデルのトレーニングを可能にするメタラーニングに基づく,グラフ表現学習のための新しいトレーニング戦略を提案する。 本手法は,複数タスクの同時実行を学習する際の難しさを回避し,その代わりに,複数のタスクの同時実行を学習する(勾配降下のいくつかのステップを含む)。 我々は,本手法で訓練したモデルが生成した埋め込みを,単一タスクとマルチタスクの両エンドツーエンドモデルに匹敵する,あるいは驚くほど高いパフォーマンスで複数のタスクを実行できることを示す。

Graph Neural Networks (GNNs) have become the state-of-the-art method for many applications on graph structured data. GNNs are a framework for graph representation learning, where a model learns to generate low dimensional node embeddings that encapsulate structural and feature-related information. GNNs are usually trained in an end-to-end fashion, leading to highly specialized node embeddings. While this approach achieves great results in the single-task setting, generating node embeddings that can be used to perform multiple tasks (with performance comparable to single-task models) is still an open problem. We propose a novel training strategy for graph representation learning, based on meta-learning, which allows the training of a GNN model capable of producing multi-task node embeddings. Our method avoids the difficulties arising when learning to perform multiple tasks concurrently by, instead, learning to quickly (i.e. with a few steps of gradient descent) adapt to multiple tasks singularly. We show that the embeddings produced by a model trained with our method can be used to perform multiple tasks with comparable or, surprisingly, even higher performance than both single-task and multi-task end-to-end models.
翻訳日:2022-01-11 16:50:22 公開日:2022-01-10
# 推薦のための教師付きコントラスト学習

Supervised Contrastive Learning for Recommendation ( http://arxiv.org/abs/2201.03144v1 )

ライセンス: Link先を確認
Chun Yang(参考訳) 従来の協調フィルタリング手法と比較して、グラフ畳み込みネットワークは、ユーザ-イデム二部グラフのノード間の相互作用を明示的にモデル化し、高階隣人を効果的に使用することにより、NGCFやLightGCNのような推奨のためのより効率的な埋め込みをグラフニューラルネットワークが得ることができる。 しかし、その表現は相互作用のノイズに非常に敏感である。 この問題に対してSGLは,GCNの堅牢性を改善するために,ユーザイットグラフ上の自己教師型学習について検討した。 有効ではあるが、SGLはSimCLRの比較学習フレームワークを直接適用していることがわかった。 この枠組みは,レコメンデーションシステムのシナリオに直接適用されず,ユーザとイテムの相互作用の不確実性を十分に考慮していないため,レコメンデーションシステムのシナリオにおけるコントラスト学習の適用を適切に検討し,レコメンデーションタスクにより適したものにすることを目指している。 本稿では,2部グラフを事前学習し,グラフ畳み込みニューラルネットワークを微調整する,教師付きコントラスト学習フレームワークを提案する。 具体的には、データ前処理中のユーザとアイテムの類似性を比較し、コントラスト学習を適用する際には、拡張ビューを正のサンプルと見なすだけでなく、他のサンプルを負のサンプルとして扱うSimCLRとは異なる、一定の数の類似サンプルを正のサンプルとみなす。 我々は、この学習方法をSupervised Contrastive Learning (SCL)と呼び、最も先進的なLightGCNに適用する。 また,ノード間相互作用の不確実性を考慮するために,ノード複製と呼ばれる新しいデータ拡張手法を提案する。

Compared with the traditional collaborative filtering methods, the graph convolution network can explicitly model the interaction between the nodes of the user-item bipartite graph and effectively use higher-order neighbors, which enables the graph neural network to obtain more effective embeddings for recommendation, such as NGCF And LightGCN. However, its representations is very susceptible to the noise of interaction. In response to this problem, SGL explored the self-supervised learning on the user-item graph to improve the robustness of GCN. Although effective, we found that SGL directly applies SimCLR's comparative learning framework. This framework may not be directly applicable to the scenario of the recommendation system, and does not fully consider the uncertainty of user-item interaction.In this work, we aim to consider the application of contrastive learning in the scenario of the recommendation system adequately, making it more suitable for recommendation task. We propose a supervised contrastive learning framework to pre-train the user-item bipartite graph, and then fine-tune the graph convolutional neural network. Specifically, we will compare the similarity between users and items during data preprocessing, and then when applying contrastive learning, not only will the augmented views be regarded as the positive samples, but also a certain number of similar samples will be regarded as the positive samples, which is different from SimCLR who treats other samples in a batch as negative samples. We term this learning method as Supervised Contrastive Learning(SCL) and apply it on the most advanced LightGCN. In addition, in order to consider the uncertainty of node interaction, we also propose a new data augment method called node replication.
翻訳日:2022-01-11 16:47:27 公開日:2022-01-10
# 数千台のgpu上でのマルチテナント機械学習サービスのシミュレーションプラットフォーム

A Simulation Platform for Multi-tenant Machine Learning Services on Thousands of GPUs ( http://arxiv.org/abs/2201.03175v1 )

ライセンス: Link先を確認
Ruofan Liang, Bingsheng He, Shengen Yan, Peng Sun(参考訳) マルチテナント機械学習サービスは、GPUリソースを多用したデータセンタにおいて、新たなデータ集約型ワークロードになりつつある。 大規模で多くのチューニングパラメータやリソース使用量が多いため、実際のクラスタ上でこれらの機械学習サービスを評価してベンチマークするのは現実的ではない。 本稿では,マルチテナント機械学習サービスの効率的な設計探索を可能にするクラスタシミュレータAnalySIMを提案する。 具体的には、トレース駆動のクラスタワークロードシミュレーションによって、gpuリソースの利用など多くのパフォーマンスメトリクスで、さまざまなスケジューリングポリシーをテストし、分析することができる。 AnalySIMは物理トポロジと論理分割の両方に基づいてクラスタ計算資源をシミュレートする。 このツールは、1000以上のGPUの実際のプロダクションクラスタからトレースされた、さまざまなスケジューリングポリシの影響を理解するために、SenseTimeで使用されている。 プリエンプションとマイグレーションは、平均的な仕事の完了時間を大幅に削減し、リソースの断片化問題を緩和することができる。

Multi-tenant machine learning services have become emerging data-intensive workloads in data centers with heavy usage of GPU resources. Due to the large scale, many tuning parameters and heavy resource usage, it is usually impractical to evaluate and benchmark those machine learning services on real clusters. In this demonstration, we present AnalySIM, a cluster simulator that allows efficient design explorations for multi-tenant machine learning services. Specifically, by trace-driven cluster workload simulation, AnalySIM can easily test and analyze various scheduling policies in a number of performance metrics such as GPU resource utilization. AnalySIM simulates the cluster computational resource based on both physical topology and logical partition. The tool has been used in SenseTime to understand the impact of different scheduling policies with the trace from a real production cluster of over 1000 GPUs. We find that preemption and migration are able to significantly reduce average job completion time and mitigate the resource fragmentation problem.
翻訳日:2022-01-11 16:46:59 公開日:2022-01-10
# 仮想行動によるタスク計画と説明

Task planning and explanation with virtual actions ( http://arxiv.org/abs/2201.03199v1 )

ライセンス: Link先を確認
Guowei Cui and Xiaoping Chen(参考訳) タスク計画の課題のひとつは、計画の失敗の原因と障害をインテリジェントに処理する方法を見つけることです。 本稿では,これを実現する方法を示す。 それぞれの頂点は互換な \textit{states} の集合を表し、それぞれの辺は \textit{action} を表す。 任意の初期状態と目標に対して、私たちは、タスクプランニングを通じて常に計画が得られるように、仮想アクションを構築します。 本稿では、グラフを接続するためにアクションモデルを拡張する仮想アクションを導入する方法を示す。 i) 静的述語(型,永続性等)又は動的述語(状態)を明示的に定義する。 二 状態ごとに完全な仮想行動又は準仮想行動を構築すること。 三 プログレッシブ・プランニングのアプローチにより、計画の失敗の原因を見つけること。 実装は3つの典型的なシナリオで評価された。

One of the challenges of task planning is to find out what causes the planning failure and how to handle the failure intelligently. This paper shows how to achieve this. The idea is inspired by the connected graph: each verticle represents a set of compatible \textit{states}, and each edge represents an \textit{action}. For any given initial states and goals, we construct virtual actions to ensure that we always get a plan via task planning. This paper shows how to introduce virtual action to extend action models to make the graph to be connected: i) explicitly defines static predicate (type, permanent properties, etc) or dynamic predicate (state); ii) constructs a full virtual action or a semi-virtual action for each state; iii) finds the cause of the planning failure through a progressive planning approach. The implementation was evaluated in three typical scenarios.
翻訳日:2022-01-11 16:46:46 公開日:2022-01-10
# ユーザ活動センタに基づく社会的影響の活用 : ポイント・オブ・インタエンス・レコメンデーション

Leveraging Social Influence based on Users Activity Centers for Point-of-Interest Recommendation ( http://arxiv.org/abs/2201.03450v1 )

ライセンス: Link先を確認
Kosar Seyedhoseinzadeh, Hossein A. Rahmani, Mohsen Afsharchi, Mohammad Aliannejadi(参考訳) Recommender Systems(RS)は、Points of Interest(POI)などのアイテムと対話しながら、ユーザの好みをモデル化し、予測することを目的としている。 これらのシステムは、データの分散など、その有効性を制限するいくつかの課題に直面している。 本稿では,社会的,地理的,時間的情報をマトリックス因子化(MF)技術に組み込むことにより,この問題に対処する。 この目的のために、共通チェックインにおけるユーザ間の類似性と、それらの間の友情の2つの要因に基づいて、社会的影響をモデル化する。 明示的な友情ネットワークとユーザ間の高いチェックインオーバラップに基づく2段階の友情を導入する。 我々は,ユーザの地理的活動中心に友情アルゴリズムを基づける。 その結果,提案手法は2つの実世界のデータセットにおいて最先端のモデルよりも優れていた。 より具体的には, 社会モデルが提案するpoi推奨システムの性能を, 精度@10でgowallaとyelpのデータセット上で31%, 14%向上させることを示した。

Recommender Systems (RSs) aim to model and predict the user preference while interacting with items, such as Points of Interest (POIs). These systems face several challenges, such as data sparsity, limiting their effectiveness. In this paper, we address this problem by incorporating social, geographical, and temporal information into the Matrix Factorization (MF) technique. To this end, we model social influence based on two factors: similarities between users in terms of common check-ins and the friendships between them. We introduce two levels of friendship based on explicit friendship networks and high check-in overlap between users. We base our friendship algorithm on users' geographical activity centers. The results show that our proposed model outperforms the state-of-the-art on two real-world datasets. More specifically, our ablation study shows that the social model improves the performance of our proposed POI recommendation system by 31% and 14% on the Gowalla and Yelp datasets in terms of Precision@10, respectively.
翻訳日:2022-01-11 16:46:34 公開日:2022-01-10
# クロスコーパス音声の感情認識とデータ拡張に関する研究

A study on cross-corpus speech emotion recognition and data augmentation ( http://arxiv.org/abs/2201.03511v1 )

ライセンス: Link先を確認
Norbert Braunschweiler, Rama Doddipatla, Simon Keizer, Svetlana Stoyanchev(参考訳) 多様な話者と音響条件を処理できるモデルは、音声感情認識(ser)において必須である。 これらのモデルでは、訓練中に見えなかった話者や音響条件が混ざった結果を示すことが多い。 本稿では,データ補完とデータ拡張が一致した(同一コーパスからのテストセット)と不一致(異なるコーパスからのテストセット)におけるSERモデルの性能に及ぼす影響について検討する。 単一話者と複数話者を含む6つの感情音声コーパスと、感情スタイル(行動、誘発、自然)および記録条件のバリエーションを用いた調査を行った。 観察の結果,単一コーパスで訓練したモデルは一致した条件で最適に動作し,不一致条件では10~40%の性能が低下することがわかった。 混合コーパスでトレーニングされたモデルは、ミスマッチされたコンテキストにおいてより安定であり、マッチングされた条件での単一コーパスモデルと比較して、パフォーマンスの低下は1から8%である。 データ拡張は、最大4%の値上がりをもたらし、マッチした値よりも不一致の条件の恩恵を受けるように見える。

Models that can handle a wide range of speakers and acoustic conditions are essential in speech emotion recognition (SER). Often, these models tend to show mixed results when presented with speakers or acoustic conditions that were not visible during training. This paper investigates the impact of cross-corpus data complementation and data augmentation on the performance of SER models in matched (test-set from same corpus) and mismatched (test-set from different corpus) conditions. Investigations using six emotional speech corpora that include single and multiple speakers as well as variations in emotion style (acted, elicited, natural) and recording conditions are presented. Observations show that, as expected, models trained on single corpora perform best in matched conditions while performance decreases between 10-40% in mismatched conditions, depending on corpus specific features. Models trained on mixed corpora can be more stable in mismatched contexts, and the performance reductions range from 1 to 8% when compared with single corpus models in matched conditions. Data augmentation yields additional gains up to 4% and seem to benefit mismatched conditions more than matched ones.
翻訳日:2022-01-11 16:45:00 公開日:2022-01-10
# (参考訳) プラジャリズム検出システムに関する調査研究--英語・フランス語・アラビア語を事例として

A Survey of Plagiarism Detection Systems: Case of Use with English, French and Arabic Languages ( http://arxiv.org/abs/2201.03423v1 )

ライセンス: CC BY 4.0
Mehdi Abdelhamid, Faical Azouaou, Sofiane Batata(参考訳) アカデミアでは、プラジャリズムは、明らかに新興の関心事ではないが、インターネットの普及と世界中のコンテンツソースへのアクセスの容易化により、人間だけの介入が不十分になった。 しかし、情報検索(IR)と自然言語処理(NLP)の分野に該当するコンピュータ支援プラジャリズム検出は、現在活発な研究領域である。 そこで,本稿では,アラビア語,フランス語,英語の学歴・教育場面で使用されるプラジャリズム検出システムの概要について述べる。 この比較は8つのシステム間で行われ、それらの特徴、ユーザビリティ、技術的側面、および異なるソースから3つのレベルの難読化を検出するパフォーマンス(動詞、パラフレーズ、言語横断プラジャリズム)に関して行われた。 また,本研究の文脈において,技術形態の盗作を詳細に検討した。 また、異なる著者によって提唱された盗作の類型と分類について調査する。

In academia, plagiarism is certainly not an emerging concern, but it became of a greater magnitude with the popularisation of the Internet and the ease of access to a worldwide source of content, rendering human-only intervention insufficient. Despite that, plagiarism is far from being an unaddressed problem, as computer-assisted plagiarism detection is currently an active area of research that falls within the field of Information Retrieval (IR) and Natural Language Processing (NLP). Many software solutions emerged to help fulfil this task, and this paper presents an overview of plagiarism detection systems for use in Arabic, French, and English academic and educational settings. The comparison was held between eight systems and was performed with respect to their features, usability, technical aspects, as well as their performance in detecting three levels of obfuscation from different sources: verbatim, paraphrase, and cross-language plagiarism. An indepth examination of technical forms of plagiarism was also performed in the context of this study. In addition, a survey of plagiarism typologies and classifications proposed by different authors is provided.
翻訳日:2022-01-11 16:40:28 公開日:2022-01-10
# 深層ニューラルネットワークを用いた天体画像の大規模カタログ作成における系統的バイアス

Systematic biases when using deep neural networks for annotating large catalogs of astronomical images ( http://arxiv.org/abs/2201.03131v1 )

ライセンス: Link先を確認
Sanchari Dhar, Lior Shamir(参考訳) deep convolutional neural networks(dcnn)は、非パラメトリック性、優れたパフォーマンス、tensorflowなどのライブラリによるアクセシビリティなどの理由から、自動画像アノテーションの最も一般的なソリューションとなっている。 その他の分野において、DCNNはデジタルスカイサーベイによって取得された大規模な天体画像データベースのアノテーションに対する一般的なアプローチである。 DCNNの主な欠点の1つは、DCNNが 'black box' として振る舞う複雑な非直観的なルールであり、ユーザにとって不明瞭な方法でアノテーションを提供する。 そのため、DCNNがどの情報を分類に使っているかを知ることができないことが多い。 ここでは,dcnnの訓練が,空に存在する物体の位置などの訓練データの文脈に敏感であることを実証する。 楕円銀河と渦巻銀河の基本的な分類において、トレーニングに使用される銀河の空の位置がアルゴリズムの挙動に影響を与え、小さいが、統計的に有意なバイアスをもたらすことを示す。 このバイアスは、基本的な銀河形態の分布における宇宙スケールの異方性という形で表される。 したがって、DCNNは拡張源の画像に注釈をつける強力なツールであるが、銀河形態学のトレーニングセットの構築は、物体の視覚的外観よりも多くの側面を考慮する必要がある。 いずれにせよ、宇宙論的異方性の兆候を示すディープニューラルネットワークで作成されたカタログは、一貫したバイアスの可能性で解釈されるべきである。

Deep convolutional neural networks (DCNNs) have become the most common solution for automatic image annotation due to their non-parametric nature, good performance, and their accessibility through libraries such as TensorFlow. Among other fields, DCNNs are also a common approach to the annotation of large astronomical image databases acquired by digital sky surveys. One of the main downsides of DCNNs is the complex non-intuitive rules that make DCNNs act as a ``black box", providing annotations in a manner that is unclear to the user. Therefore, the user is often not able to know what information is used by the DCNNs for the classification. Here we demonstrate that the training of a DCNN is sensitive to the context of the training data such as the location of the objects in the sky. We show that for basic classification of elliptical and spiral galaxies, the sky location of the galaxies used for training affects the behavior of the algorithm, and leads to a small but consistent and statistically significant bias. That bias exhibits itself in the form of cosmological-scale anisotropy in the distribution of basic galaxy morphology. Therefore, while DCNNs are powerful tools for annotating images of extended sources, the construction of training sets for galaxy morphology should take into consideration more aspects than the visual appearance of the object. In any case, catalogs created with deep neural networks that exhibit signs of cosmological anisotropy should be interpreted with the possibility of consistent bias.
翻訳日:2022-01-11 16:12:39 公開日:2022-01-10
# 時間分解3次元超音波追跡のための表現学習手法の比較

Comparison of Representation Learning Techniques for Tracking in time resolved 3D Ultrasound ( http://arxiv.org/abs/2201.03319v1 )

ライセンス: Link先を確認
Daniel Wulff, Jannis Hagenah, Floris Ernst(参考訳) 3d超音波(3dus)は、電離放射線を使わずにリアルタイムで容積画像を提供する能力を持つため、放射線治療の標的追跡においてより興味深いものとなる。 fiducialsを使用せずに、トラッキングに使用できる可能性がある。 このために、意味のある表現を学習する手法は、表現空間 (r-space) 内の異なる時間枠の解剖学的構造を認識するのに有用である。 本研究では,従来のオートエンコーダ,変分オートエンコーダ,スライスドワッサースタインオートエンコーダを用いて,3dusパッチを128次元r空間に縮小する。 r空間において, 異なる超音波パッチを分離し, 類似のパッチを認識する能力について検討し, 肝画像のデータセットに基づいて比較した。 r空間におけるトラッキング能力を評価するための2つの指標を提案する。 異なる解剖学的構造を有する超音波パッチを識別でき,r-空間に同様のパッチ群をクラスタ化できることを示した。 その結果, 3dusでは, 対象追跡に対するユーザビリティのレベルが異なることがわかった。

3D ultrasound (3DUS) becomes more interesting for target tracking in radiation therapy due to its capability to provide volumetric images in real-time without using ionizing radiation. It is potentially usable for tracking without using fiducials. For this, a method for learning meaningful representations would be useful to recognize anatomical structures in different time frames in representation space (r-space). In this study, 3DUS patches are reduced into a 128-dimensional r-space using conventional autoencoder, variational autoencoder and sliced-wasserstein autoencoder. In the r-space, the capability of separating different ultrasound patches as well as recognizing similar patches is investigated and compared based on a dataset of liver images. Two metrics to evaluate the tracking capability in the r-space are proposed. It is shown that ultrasound patches with different anatomical structures can be distinguished and sets of similar patches can be clustered in r-space. The results indicate that the investigated autoencoders have different levels of usability for target tracking in 3DUS.
翻訳日:2022-01-11 16:12:17 公開日:2022-01-10
# COIN:VQA解釈のための対実画像生成

COIN: Counterfactual Image Generation for VQA Interpretation ( http://arxiv.org/abs/2201.03342v1 )

ライセンス: Link先を確認
Zeyd Boukhers, Timo Hartmann, Jan J\"urjens(参考訳) 自然言語処理とコンピュータビジョンベースのモデルの大幅な進歩により、視覚質問応答(VQA)システムはよりインテリジェントで高度なものになりつつある。 しかし、比較的複雑な問題を扱う場合、エラーが発生しやすい。 したがって、VQAモデルの結果を採用する前に、VQAモデルの振る舞いを理解することが重要である。 本稿では,VQAモデルに対する対物画像の生成による解釈可能性アプローチを提案する。 具体的には、生成された画像は、元の画像に最小限の変更が期待でき、VQAモデルに異なる回答を与える。 さらに,本手法は,生成した画像がリアルであることを保証する。 モデルの解釈性を評価するために定量的指標は使用できないため,提案手法の異なる側面を評価するためにユーザ調査を行った。 単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。

Due to the significant advancement of Natural Language Processing and Computer Vision-based models, Visual Question Answering (VQA) systems are becoming more intelligent and advanced. However, they are still error-prone when dealing with relatively complex questions. Therefore, it is important to understand the behaviour of the VQA models before adopting their results. In this paper, we introduce an interpretability approach for VQA models by generating counterfactual images. Specifically, the generated image is supposed to have the minimal possible change to the original image and leads the VQA model to give a different answer. In addition, our approach ensures that the generated image is realistic. Since quantitative metrics cannot be employed to evaluate the interpretability of the model, we carried out a user study to assess different aspects of our approach. In addition to interpreting the result of VQA models on single images, the obtained results and the discussion provides an extensive explanation of VQA models' behaviour.
翻訳日:2022-01-11 16:11:58 公開日:2022-01-10
# 消費者文化におけるジェンダーバイアスの定量化

Quantifying Gender Bias in Consumer Culture ( http://arxiv.org/abs/2201.03173v1 )

ライセンス: Link先を確認
Reihane Boghrati and Jonah Berger(参考訳) 曲のような文化的なアイテムは、ステレオタイプ、バイアス、差別の作成と強化に重要な影響を与える。 しかし、そのようなアイテムの実際の性質は、しばしば透明性が低い。 曲を例にとりましょう。 歌詞は女性に偏っているか? このような偏見は,時間とともにどのように変化したのでしょう? 50年以上にわたる100万曲の自然言語処理は、誤用を定量化する。 女性は望ましい特性(すなわち能力)と関連が薄い傾向にあり、このバイアスは減少しているが、持続する。 アンシラリー分析は、歌の歌詞が女性に対する社会的ステレオタイプの変化を促進するのに役立ち、叙情的な変化は男性アーティストによってもたらされる(女性アーティストは最初はバイアスが少なかった)ことを示唆している。 全体として、これらの結果は文化の進化、バイアスと差別の微妙な尺度、そして自然言語処理と機械学習がステレオタイプと文化の変化に対して深い洞察を与える方法に光を当てている。

Cultural items like songs have an important impact in creating and reinforcing stereotypes, biases, and discrimination. But the actual nature of such items is often less transparent. Take songs, for example. Are lyrics biased against women? And how have any such biases changed over time? Natural language processing of a quarter of a million songs over 50 years quantifies misogyny. Women are less likely to be associated with desirable traits (i.e., competence), and while this bias has decreased, it persists. Ancillary analyses further suggest that song lyrics may help drive shifts in societal stereotypes towards women, and that lyrical shifts are driven by male artists (as female artists were less biased to begin with). Overall, these results shed light on cultural evolution, subtle measures of bias and discrimination, and how natural language processing and machine learning can provide deeper insight into stereotypes and cultural change.
翻訳日:2022-01-11 16:09:45 公開日:2022-01-10
# スタイル、内容、そしてアイデアの成功

Style, Content, and the Success of Ideas ( http://arxiv.org/abs/2201.03174v1 )

ライセンス: Link先を確認
Reihane Boghrati, Jonah Berger, Grant Packard(参考訳) なぜアイデアのマーケットプレースで成功するのか? コンテンツが成功を促進すると主張する人もいる一方で、スタイルやアイデアの提示方法が重要な役割を担っているという意見もある。 文体の重要性を厳格に検証するために,内容が最優先すべき文脈,すなわち学術研究について検討する。 科学者はしばしば、文章は邪魔にならない真実を伝える無関心な方法だと考えているが、複数の方法による調査は、文章のスタイルが影響していることを示している。 特定の言語を使う傾向のある論文でも特定のトピックについて書くことができるため、コンテンツからスタイルを分離することは困難である。 その結果,内容に全く依存しないスタイル(and,the,onなどの機能語)に関連付けられた一意な単語群に注目した。 様々な分野から約3万記事の自然言語処理は、関数語が引用に与える影響の13-27%を説明できることを示している。 補助分析は、簡潔さ、個人的声、時間的視点の役割を強調して、スタイルがどう重要かを示す関数語の特定のカテゴリを探索する。 実験はスタイルの因果的影響をさらに強調する。 その結果,コミュニケーションの効果を高め,アイデアの成功を理解するために自然言語処理の価値を強調する方法が示唆された。

Why do some things succeed in the marketplace of ideas? While some argue that content drives success, others suggest that style, or the way ideas are presented, also plays an important role. To provide a stringent test of style's importance, we examine it in a context where content should be paramount: academic research. While scientists often see writing as a disinterested way to communicate unobstructed truth, a multi-method investigation indicates that writing style shapes impact. Separating style from content can be difficult as papers that tend to use certain language may also write about certain topics. Consequently, we focus on a unique class of words linked to style (i.e., function words such as "and," "the," and "on") that are completely devoid of content. Natural language processing of almost 30,000 articles from a range of disciplines finds that function words explain 13-27% of language's impact on citations. Ancillary analyses explore specific categories of function words to suggest how style matters, highlighting the role of writing simplicity, personal voice, and temporal perspective. Experiments further underscore the causal impact of style. The results suggest how to boost communication's impact and highlight the value of natural language processing for understanding the success of ideas.
翻訳日:2022-01-11 16:09:30 公開日:2022-01-10
# 文書レベルのイベント抽出を意識した書き込みスタイル

Writing Style Aware Document-level Event Extraction ( http://arxiv.org/abs/2201.03188v1 )

ライセンス: Link先を確認
Zhuo Xu, Yue Wang, Lu Bai, Lixin Cui(参考訳) 文書から構造情報を自動取得することを目的としたイベント抽出技術は、多くの分野で注目を集めている。 既存のほとんどの研究は、トークンを異なる役割として区別し、文書の書式を無視してトークンレベルのマルチラベル分類フレームワークでこの問題について議論している。 書体は、文書を整理する特別な方法であり、専門分野(財務、医療文書など)の文書に相対的に固定されている。 文字スタイルにはトークンの役割を判断するための重要な手がかりが含まれており、そのようなパターンの無知は既存の作品のパフォーマンス低下につながる可能性がある。 そこで,本稿では,文書中の記述スタイルをロール・ランド分布の分布としてモデル化し,ロール・ランド分布に基づくスーパービジョン機構を用いたイベント抽出モデルを提案し,イベント抽出タスクの教師付きトレーニングプロセスを通じてこのパターンを捉える。 いくつかの実世界のデータセットの最先端手法と比較した。 実験の結果,我々のアプローチは捕獲したパターンで他の手法よりも優れていることがわかった。 これにより、イベント抽出タスクのパフォーマンスを改善する貴重な情報を含む書き込みスタイルを検証することができる。

Event extraction, the technology that aims to automatically get the structural information from documents, has attracted more and more attention in many fields. Most existing works discuss this issue with the token-level multi-label classification framework by distinguishing the tokens as different roles while ignoring the writing styles of documents. The writing style is a special way of content organizing for documents and it is relative fixed in documents with a special field (e.g. financial, medical documents, etc.). We argue that the writing style contains important clues for judging the roles for tokens and the ignorance of such patterns might lead to the performance degradation for the existing works. To this end, we model the writing style in documents as a distribution of argument roles, i.e., Role-Rank Distribution, and propose an event extraction model with the Role-Rank Distribution based Supervision Mechanism to capture this pattern through the supervised training process of an event extraction task. We compare our model with state-of-the-art methods on several real-world datasets. The empirical results show that our approach outperforms other alternatives with the captured patterns. This verifies the writing style contains valuable information that could improve the performance of the event extraction task.
翻訳日:2022-01-11 16:09:08 公開日:2022-01-10
# TiltedBERT: BERTのリソース調整可能なバージョン

TiltedBERT: Resource Adjustable Version of BERT ( http://arxiv.org/abs/2201.03327v1 )

ライセンス: Link先を確認
Sajjad Kachuee, Mohammad Sharifkhani(参考訳) 本稿では,下流タスクにおけるBERTモデルのトレーニング時間と推論時間を改善するための調整可能な微調整手法を提案する。 提案手法では,まず,提案手法により,各層におけるより重要な単語ベクトルを抽出し,提案手法により重要でない単語ベクトルを除去する。 提案手法では,各層における単語ベクトル除去率をTilt-Rateハイパーパラメータで制御し,元のBERT\textsubscript{base}モデルよりもかなり少ない浮動小数点演算(FLOPs)で処理することを学習する。 提案手法では追加のトレーニングステップは必要とせず,他のトランスモデルにも適用可能である。 我々は,高層における単語ベクトルの冗長性が印象的であり,学習や推論の時間を短縮できることを示す広範な実験を行う。 広範囲な感情分析,分類,回帰データセット,IMDBやGLUEなどのベンチマークによる実験結果から,提案手法は様々なデータセットに有効であることがわかった。 BERT\textsubscript{base} モデルに適用することにより,平均精度 0.85 % 未満の精度で推定時間を5.3倍に短縮する。 微調整後のモデルでは,広範囲のTilt-Rate値選択に対して,オフラインチューニング特性を用いて推定時間を調整することができる。 また,本手法の高速化を正確に推定できる数学的高速化解析を提案する。 この分析の助けを借りて、ティルトレートハイパーパラメータは、微調整やオフラインチューニングの段階で選択することができる。

In this paper, we proposed a novel adjustable fine-tuning method that improves the training and inference time of the BERT model on downstream tasks. In the proposed method, we first detect more important word vectors in each layer by our proposed redundancy metric and then eliminate the less important word vectors with our proposed strategy. In our method, the word vector elimination rate in each layer is controlled by the Tilt-Rate hyper-parameter, and the model learns to work with a considerably lower number of Floating Point Operations (FLOPs) than the original BERT\textsubscript{base} model. Our proposed method does not need any extra training steps, and also it can be generalized to other transformer-based models. We perform extensive experiments that show the word vectors in higher layers have an impressive amount of redundancy that can be eliminated and decrease the training and inference time. Experimental results on extensive sentiment analysis, classification and regression datasets, and benchmarks like IMDB and GLUE showed that our proposed method is effective in various datasets. By applying our method on the BERT\textsubscript{base} model, we decrease the inference time up to 5.3 times with less than 0.85\% accuracy degradation on average. After the fine-tuning stage, the inference time of our model can be adjusted with our method offline-tuning property for a wide range of the Tilt-Rate value selections. Also, we propose a mathematical speedup analysis that can estimate the speedup of our method accurately. With the help of this analysis, the Tilt-Rate hyper-parameter can be selected before fine-tuning or while offline-tuning stages.
翻訳日:2022-01-11 16:08:51 公開日:2022-01-10
# DeepKE: 知識ベース人口のためのディープラーニングベースの知識抽出ツールキット

DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge Base Population ( http://arxiv.org/abs/2201.03335v1 )

ライセンス: Link先を確認
Ningyu Zhang, Xin Xu, Liankuan Tao, Haiyang Yu, Hongbin Ye, Xin Xie, Xiang Chen, Zhoubo Li, Lei Li, Xiaozhuan Liang, Yunzhi Yao, Shumin Deng, Zhenru Zhang, Chuanqi Tan, Fei Huang, Guozhou Zheng, Huajun Chen(参考訳) 本稿では、deepke(deep learning based knowledge extraction)と呼ばれる新しいオープンソースかつ拡張可能な知識抽出ツールキットを提案する。 deepkeは、名前付きエンティティ認識、関係抽出、属性抽出など、さまざまな情報抽出タスクを実装している。 統一されたフレームワークにより、開発者や研究者はデータセットやモデルをカスタマイズして、要求に応じて構造化されていないテキストから情報を抽出することができる。 具体的には、さまざまな機能モジュールとさまざまなタスクやシナリオのためのモデル実装を提供するだけでなく、モジュール性と拡張性を維持するための一貫性のあるフレームワークによって、すべてのコンポーネントを編成する。 さらに,様々なタスクをリアルタイムに抽出するためのオンラインプラットフォームを \url{http://deepke.zjukg.cn/} に提示する。 DeepKEは、初心者向けのGoogle Colabチュートリアルと包括的なドキュメントを備えている。 ソースコードは \url{https://github.com/zjunlp/deepke} で公開しています。

We present a new open-source and extensible knowledge extraction toolkit, called DeepKE (Deep learning based Knowledge Extraction), supporting standard fully supervised, low-resource few-shot and document-level scenarios. DeepKE implements various information extraction tasks, including named entity recognition, relation extraction and attribute extraction. With a unified framework, DeepKE allows developers and researchers to customize datasets and models to extract information from unstructured texts according to their requirements. Specifically, DeepKE not only provides various functional modules and model implementation for different tasks and scenarios but also organizes all components by consistent frameworks to maintain sufficient modularity and extensibility. Besides, we present an online platform in \url{http://deepke.zjukg.cn/} for real-time extraction of various tasks. DeepKE has been equipped with Google Colab tutorials and comprehensive documents for beginners. We release the source code at \url{https://github.com/zjunlp/DeepKE}, with a demo video.
翻訳日:2022-01-11 16:08:24 公開日:2022-01-10
# 教師なし再確認に対する多段階注意

Multi-Level Attention for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2201.03141v1 )

ライセンス: Link先を確認
Yi Zheng(参考訳) このアテンションメカニズムは、追加情報を導入することなくニューラルネットワークの性能に優れたため、ディープラーニングで広く使用されている。 しかし、教師なしの人物再同定では、多頭自己完結で表される注意モジュールは、非根拠真理の状態での注意の広がりに苦しむ。 この問題を解決するため,画素レベルのアテンションモジュールを設計し,マルチヘッドの自己注意に制約を与える。 一方,人物再同定データの識別対象がすべて歩行者である特性について,より包括的な歩行者機能を提供するために,ドメインレベルの注意モジュールを設計する。 ヘッドレベル,ピクセルレベル,ドメインレベルの注意を組み合わせ、多レベル注意ブロックを提案し、大人数再識別データセット(Market-1501, DukeMTMC-reID, MSMT17, PersonX)の性能を検証した。

The attention mechanism is widely used in deep learning because of its excellent performance in neural networks without introducing additional information. However, in unsupervised person re-identification, the attention module represented by multi-headed self-attention suffers from attention spreading in the condition of non-ground truth. To solve this problem, we design pixel-level attention module to provide constraints for multi-headed self-attention. Meanwhile, for the trait that the identification targets of person re-identification data are all pedestrians in the samples, we design domain-level attention module to provide more comprehensive pedestrian features. We combine head-level, pixel-level and domain-level attention to propose multi-level attention block and validate its performance on for large person re-identification datasets (Market-1501, DukeMTMC-reID and MSMT17 and PersonX).
翻訳日:2022-01-11 16:02:22 公開日:2022-01-10
# swinトランスフォーマはvhr画像道路抽出のための強力なコンテクストエンコーダを作る

Swin transformers make strong contextual encoders for VHR image road extraction ( http://arxiv.org/abs/2201.03178v1 )

ライセンス: Link先を確認
Tao Chen, Daguang Jiang, Ruirui Li(参考訳) ディープラーニングに基づく自動道路拡張やセグメンテーションでは大きな進歩があったが、結果の完全性や接続性に関してはまだ改善の余地がある。 これは主に、大きなクラス内ばらつき、あいまいなクラス間区別、そして影、木、建物からのオクルージョンの挑戦によるものである。 したがって,道路分割の精度を高めるためには,グローバルな文脈と幾何学的情報をモデル化できることが不可欠である。 本稿では,swinトランスフォーマのグローバルコンテキストモデリングとresnetの局所的特徴抽出の機能を活用した,新しいデュアルブランチ符号化ブロックコスウィンを設計した。 さらに,文脈に依存しない雑音の特徴を除去し,詳細を再構築することのできる,文脈誘導型フィルタブロックCFilterを提案する。 私たちは、U字型ネットワークアーキテクチャでCoSwinとCFilterを使用します。 マサチューセッツとCHN6-CUGデータセットの実験により、提案手法は、F1、IoU、OAのメトリクスにおいて、他の最先端手法よりも優れていることが示された。 さらなる分析により、精度の向上は、セグメント道路の整合性と接続性の向上によってもたらされることが明らかになった。

Significant progress has been made in automatic road extra-ction or segmentation based on deep learning, but there are still margins to improve in terms of the completeness and connectivity of the results. This is mainly due to the challenges of large intra-class variances, ambiguous inter-class distinctions, and occlusions from shadows, trees, and buildings. Therefore, being able to perceive global context and model geometric information is essential to further improve the accuracy of road segmentation. In this paper, we design a novel dual-branch encoding block CoSwin which exploits the capability of global context modeling of Swin Transformer and that of local feature extraction of ResNet. Furthermore, we also propose a context-guided filter block named CFilter, which can filter out context-independent noisy features for better reconstructing of the details. We use CoSwin and CFilter in a U-shaped network architecture. Experiments on Massachusetts and CHN6-CUG datasets show that the proposed method outperforms other state-of-the-art methods on the metrics of F1, IoU, and OA. Further analysis reveals that the improvement in accuracy comes from better integrity and connectivity of segmented roads.
翻訳日:2022-01-11 16:02:04 公開日:2022-01-10
# インド語におけるシーンテキスト認識のための移動学習

Transfer Learning for Scene Text Recognition in Indian Languages ( http://arxiv.org/abs/2201.03180v1 )

ライセンス: Link先を確認
Sanjana Gunna, Rohit Saluja and C. V. Jawahar(参考訳) 低リソースインド言語におけるシーンのテキスト認識は、複数のスクリプト、フォント、テキストサイズ、方向といった複雑さのために難しい。 本研究では,英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対する移動学習能力について検討する。 我々は,従来のCRNNモデルとSTAR-Netを用いて汎用性を確保する実験を行った。 異なるスクリプトの変化の影響を調べるために、Unicodeフォントを用いて描画された合成語画像について実験を行った。 インド語の単純な合成データセットへの英語モデルの転送は実用的ではないことを示す。 代わりに,n-gram分布の類似性や母音や結合文字などの視覚的特徴から,インド言語間でのトランスファー学習手法を適用することを提案する。 次に、フォントと単語長統計の複雑さが異なる6つのインド言語間の移動学習について研究する。 また、他のインド言語から移行したモデルの学習機能は、英語から移行したモデルよりも個々のモデル機能に視覚的に近い(時には良い)ことも示しています。 最後に、ヒンディー語、テルグ語、マラヤラム語のデータセットについて、mlt-17 の iiit-ilst と bangla のデータセットから 6%, 5%, 2%, 23% の単語認識率 (wrr) を達成して、シーンテキスト認識の新しいベンチマークを設定した。 モデルに新しい修正BiLSTMを挿入することにより, MLT-17 Banglaの結果をさらに改善する。 さらに,500のgujaratiと2535のタミル語を含む約440のシーンイメージのデータセットをリリースする。 WRRは、MLT-19 HindiとBanglaのデータセットとGujaratiとTamilのデータセットで、ベースラインを8%、4%、5%、3%改善する。

Scene text recognition in low-resource Indian languages is challenging because of complexities like multiple scripts, fonts, text size, and orientations. In this work, we investigate the power of transfer learning for all the layers of deep scene text recognition networks from English to two common Indian languages. We perform experiments on the conventional CRNN model and STAR-Net to ensure generalisability. To study the effect of change in different scripts, we initially run our experiments on synthetic word images rendered using Unicode fonts. We show that the transfer of English models to simple synthetic datasets of Indian languages is not practical. Instead, we propose to apply transfer learning techniques among Indian languages due to similarity in their n-gram distributions and visual features like the vowels and conjunct characters. We then study the transfer learning among six Indian languages with varying complexities in fonts and word length statistics. We also demonstrate that the learned features of the models transferred from other Indian languages are visually closer (and sometimes even better) to the individual model features than those transferred from English. We finally set new benchmarks for scene-text recognition on Hindi, Telugu, and Malayalam datasets from IIIT-ILST and Bangla dataset from MLT-17 by achieving 6%, 5%, 2%, and 23% gains in Word Recognition Rates (WRRs) compared to previous works. We further improve the MLT-17 Bangla results by plugging in a novel correction BiLSTM into our model. We additionally release a dataset of around 440 scene images containing 500 Gujarati and 2535 Tamil words. WRRs improve over the baselines by 8%, 4%, 5%, and 3% on the MLT-19 Hindi and Bangla datasets and the Gujarati and Tamil datasets.
翻訳日:2022-01-11 16:01:45 公開日:2022-01-10
# 非ラテンシーン音声認識の精度向上に向けて

Towards Boosting the Accuracy of Non-Latin Scene Text Recognition ( http://arxiv.org/abs/2201.03185v1 )

ライセンス: Link先を確認
Sanjana Gunna, Rohit Saluja and C. V. Jawahar(参考訳) シーンテキスト認識は、複数のフォント、単純語彙統計、更新されたデータ生成ツール、書き起こしシステムといったいくつかの要因により、ラテン言語よりも著しく優れている。 本稿では、英語データセットと非ラテン語言語を比較して、低い精度の理由について検討する。 単語画像のサイズ(幅と高さ)や単語長の統計値など,様々な特徴を比較する。 過去10年間で、強力なディープラーニング技術を用いた合成データセットの生成は、シーンテキスト認識を大幅に改善した。 いくつかの制御された実験が 英語で行われます (i)合成データを作成するためのフォント及び (ii)単語画像の作成。 これらの要因がシーンテキスト認識システムにとって重要であることを見出した。 英語の合成データセットは1400以上のフォントを使用し、アラビア語や他の非ラテン語のデータセットはデータ生成に100未満のフォントを使用する。 これらの言語の一部は異なる地域の一部であるため、アラビア語とデバナガリ語のシーンテキスト認識モデルを改善するために、地域ベースの検索を通じて追加のフォントを収集する。 我々は、アラビア語のMLT-17およびMLT-19データセットにおける単語認識率(WRR)を、以前の作品やベースラインと比較して24.54%と2.32%改善する。 我々は IIIT-ILST と MLT-19 Devanagari データセットで WRR の上昇率 7.88% と 3.72% を達成する。

Scene-text recognition is remarkably better in Latin languages than the non-Latin languages due to several factors like multiple fonts, simplistic vocabulary statistics, updated data generation tools, and writing systems. This paper examines the possible reasons for low accuracy by comparing English datasets with non-Latin languages. We compare various features like the size (width and height) of the word images and word length statistics. Over the last decade, generating synthetic datasets with powerful deep learning techniques has tremendously improved scene-text recognition. Several controlled experiments are performed on English, by varying the number of (i) fonts to create the synthetic data and (ii) created word images. We discover that these factors are critical for the scene-text recognition systems. The English synthetic datasets utilize over 1400 fonts while Arabic and other non-Latin datasets utilize less than 100 fonts for data generation. Since some of these languages are a part of different regions, we garner additional fonts through a region-based search to improve the scene-text recognition models in Arabic and Devanagari. We improve the Word Recognition Rates (WRRs) on Arabic MLT-17 and MLT-19 datasets by 24.54% and 2.32% compared to previous works or baselines. We achieve WRR gains of 7.88% and 3.72% for IIIT-ILST and MLT-19 Devanagari datasets.
翻訳日:2022-01-11 16:01:15 公開日:2022-01-10
# (参考訳) 未知のタスクで未知のチームメイトを支援する:部分的可観測性の下でのアドホックなチームワーク

Assisting Unknown Teammates in Unknown Tasks: Ad Hoc Teamwork under Partial Observability ( http://arxiv.org/abs/2201.03538v1 )

ライセンス: CC BY 4.0
Jo\~ao G. Ribeiro, Cassandro Martinho, Alberto Sardinha, Francisco S. Melo(参考訳) 本稿では,前調整プロトコルを必要とせずに未知のタスクを実行する未知のチームメイトとのオンザフライコラボレーションを可能にする部分可観測性(atpo)下でのアドホックなチームワークの問題設定のための,ベイズオンライン予測アルゴリズムを提案する。 環境の完全な可観測性を想定した以前の作業とは異なり、ATPOは、エージェントの観察を使用して、チームメイトが実行しているタスクを特定することで、部分的な可観測性に対応している。 当社のアプローチでは,チームメイトの行動が目に見えるものでも,環境報奨信号でもないと仮定している。 部分観察可能な2種類のPursuitドメインとオーバークッキングされたドメインの2つの修正版である3つのドメインでATPOを評価した。 以上の結果から,ATPOはタスクの膨大なライブラリからチームメイトのタスクを識別する上で有効で堅牢であり,ほぼ最適時間で解決し,より大きな問題サイズに適応する上でスケーラブルであることが示唆された。

In this paper, we present a novel Bayesian online prediction algorithm for the problem setting of ad hoc teamwork under partial observability (ATPO), which enables on-the-fly collaboration with unknown teammates performing an unknown task without needing a pre-coordination protocol. Unlike previous works that assume a fully observable state of the environment, ATPO accommodates partial observability, using the agent's observations to identify which task is being performed by the teammates. Our approach assumes neither that the teammate's actions are visible nor an environment reward signal. We evaluate ATPO in three domains -- two modified versions of the Pursuit domain with partial observability and the overcooked domain. Our results show that ATPO is effective and robust in identifying the teammate's task from a large library of possible tasks, efficient at solving it in near-optimal time, and scalable in adapting to increasingly larger problem sizes.
翻訳日:2022-01-11 15:59:57 公開日:2022-01-10
# リコメンダシステムのための協調反射強化オートエンコーダネットワーク

Collaborative Reflection-Augmented Autoencoder Network for Recommender Systems ( http://arxiv.org/abs/2201.03158v1 )

ライセンス: Link先を確認
Lianghao Xia, Chao Huang, Yong Xu, Huance Xu, Xiang Li, Weiguo Zhang(参考訳) ディープラーニング技術が現実のレコメンデーションタスクに拡張されるにつれて、多層パーセプトロン、オートエンコーダ、グラフニューラルネットワークなど、さまざまなニューラルネットワークアーキテクチャに基づいて、多くのディープニューラルネットワークベースのコラボレーティブ・フィルタリング(CF)モデルが開発され、潜在機能空間にユーザ-イテムインタラクションを投影している。 しかし、既存の協調フィルタリングシステムのほとんどは、欠落したデータを扱うために十分に設計されていない。 特に、トレーニングフェーズで負の信号を注入するために、これらのソリューションは、観測されていないユーザ-イテム相互作用からの負のサンプリングに大きく依存し、単に負のインスタンスとして扱うだけで、レコメンデーション性能が劣化する。 これらの課題に対処するために,観測および観測されていないユーザ・イテム相互作用から伝達可能な知識を探索できる協調反射拡張オートエンコーダネットワーク(CRANet)を開発した。 CRANetのネットワークアーキテクチャは、リフレクティブ・レセプティブ・ネットワークとインフォメーション・フュージョン・オートエンコーダ・モジュールを備えた統合構造で構成されており、対話的および非相互作用的なアイテムに対して暗黙的ユーザのペアワイズ・レコメンデーション・フレームワークをエンコードする機能を備えている。 さらに、パラメトリック正則化に基づく結合重みスキームは、2段クレーンモデルのロバストなジョイントトレーニングを実行するように設計されている。 CRANetを2つの推奨タスクに対応する4つの多様なベンチマークデータセット上で実験的に検証し、ユーザとイテム相互作用の負の信号の偏りが、様々な最先端の推奨手法と比較して性能を改善することを示す。 ソースコードはhttps://github.com/akaxlh/cranetで入手できます。

As the deep learning techniques have expanded to real-world recommendation tasks, many deep neural network based Collaborative Filtering (CF) models have been developed to project user-item interactions into latent feature space, based on various neural architectures, such as multi-layer perceptron, auto-encoder and graph neural networks. However, the majority of existing collaborative filtering systems are not well designed to handle missing data. Particularly, in order to inject the negative signals in the training phase, these solutions largely rely on negative sampling from unobserved user-item interactions and simply treating them as negative instances, which brings the recommendation performance degradation. To address the issues, we develop a Collaborative Reflection-Augmented Autoencoder Network (CRANet), that is capable of exploring transferable knowledge from observed and unobserved user-item interactions. The network architecture of CRANet is formed of an integrative structure with a reflective receptor network and an information fusion autoencoder module, which endows our recommendation framework with the ability of encoding implicit user's pairwise preference on both interacted and non-interacted items. Additionally, a parametric regularization-based tied-weight scheme is designed to perform robust joint training of the two-stage CRANet model. We finally experimentally validate CRANet on four diverse benchmark datasets corresponding to two recommendation tasks, to show that debiasing the negative signals of user-item interactions improves the performance as compared to various state-of-the-art recommendation techniques. Our source code is available at https://github.com/akaxlh/CRANet.
翻訳日:2022-01-11 15:40:33 公開日:2022-01-10
# フィルタリング方程式の解に対するニューラルネットワーク表現の計算における分割法の適用

An application of the splitting-up method for the computation of a neural network representation for the solution for the filtering equations ( http://arxiv.org/abs/2201.03283v1 )

ライセンス: Link先を確認
Dan Crisan and Alexander Lobbe and Salvador Ortiz-Latorre(参考訳) フィルタリング方程式は、部分的かつ潜在的にノイズの多い観測が時間内に順次到着する信号過程の条件分布の進化を制御する。 これらの数値近似は、数値天気予報、財務、工学など、多くの現実の応用において中心的な役割を果たす。 フィルタリング方程式の解を近似する古典的なアプローチの1つは、Gyongy、Krylov、LeGlandらによって始められた分割法と呼ばれるPDEにインスパイアされた方法を使うことである。 この手法や他のPDEに基づくアプローチは、低次元問題の解法に特に適用可能である。 本研究では,この手法をニューラルネットワーク表現と組み合わせる。 新しい手法は、信号過程の非正規化条件分布の近似を生成するために用いられる。 さらに,信号プロセスの正規化条件分布を復元する再帰的正規化手法を開発した。 新しいスキームは、漸近的不偏性特性を保ちながら、複数の時間ステップで反復することができる。 我々はカルマン・ベンズフィルタの数値近似結果を用いてニューラルネットワーク近似を検証した。

The filtering equations govern the evolution of the conditional distribution of a signal process given partial, and possibly noisy, observations arriving sequentially in time. Their numerical approximation plays a central role in many real-life applications, including numerical weather prediction, finance and engineering. One of the classical approaches to approximate the solution of the filtering equations is to use a PDE inspired method, called the splitting-up method, initiated by Gyongy, Krylov, LeGland, among other contributors. This method, and other PDE based approaches, have particular applicability for solving low-dimensional problems. In this work we combine this method with a neural network representation. The new methodology is used to produce an approximation of the unnormalised conditional distribution of the signal process. We further develop a recursive normalisation procedure to recover the normalised conditional distribution of the signal process. The new scheme can be iterated over multiple time steps whilst keeping its asymptotic unbiasedness property intact. We test the neural network approximations with numerical approximation results for the Kalman and Benes filter.
翻訳日:2022-01-11 15:37:43 公開日:2022-01-10
# {\mathbb{r}^d$:混合モデリングと最適輸送に基づくアプローチにおける置換単調回帰と非連結単調回帰

Permuted and Unlinked Monotone Regression in $\mathbb{R}^d$: an approach based on mixture modeling and optimal transport ( http://arxiv.org/abs/2201.03528v1 )

ライセンス: Link先を確認
Martin Slawski and Bodhisattva Sen(参考訳) 応答変数 Y が $\mathbb{R}^d$ の回帰問題と $\mathbb{R}^d$ の予測子 X が $d \geq 1$ の回帰問題であるとする。 置換あるいは無リンク回帰では、通常の回帰における (X,Y)-ペアのデータとは対照的に、X と Y 上の非順序データにアクセスできる。 これまでの文献では、$d=1$が注目されており、例えば、Rigollet と Weed による最近の論文 (Information & Inference, 8, 619--717] と Balabdaoui et al. [J. Mach. Learn. Res., 22(172), 1-60] を参照。 本稿では、$d \geq 1$ の一般多変量集合を考える。 回帰関数の巡回単調性の概念は、置換/非連結回帰モデルにおける同定と推定に十分であることを示す。 順列回帰設定における順列の回復について検討し,kiefer-wolfowitz [ann. math. statist., 27, 887--906] 非パラメトリック最大重み推定器と最適輸送理論からの手法に基づく,計算効率と使い易さのアルゴリズムを開発した。 ガウス雑音に付随する平均二乗除算誤差の上界を明示的に提示する。 d = 1$ の場合に関する以前の研究と同様に、置換/非リンク設定は、基礎となるデコンボリューション問題の根底にある収束率(対数)が遅い。 数値的な研究は、我々の理論的分析と相関し、提案手法が上記の場合、$d = 1$の手法と少なくとも同等に機能し、計算複雑性の点で実質的な削減を実現していることを示す。

Suppose that we have a regression problem with response variable Y in $\mathbb{R}^d$ and predictor X in $\mathbb{R}^d$, for $d \geq 1$. In permuted or unlinked regression we have access to separate unordered data on X and Y, as opposed to data on (X,Y)-pairs in usual regression. So far in the literature the case $d=1$ has received attention, see e.g., the recent papers by Rigollet and Weed [Information & Inference, 8, 619--717] and Balabdaoui et al. [J. Mach. Learn. Res., 22(172), 1--60]. In this paper, we consider the general multivariate setting with $d \geq 1$. We show that the notion of cyclical monotonicity of the regression function is sufficient for identification and estimation in the permuted/unlinked regression model. We study permutation recovery in the permuted regression setting and develop a computationally efficient and easy-to-use algorithm for denoising based on the Kiefer-Wolfowitz [Ann. Math. Statist., 27, 887--906] nonparametric maximum likelihood estimator and techniques from the theory of optimal transport. We provide explicit upper bounds on the associated mean squared denoising error for Gaussian noise. As in previous work on the case $d = 1$, the permuted/unlinked setting involves slow (logarithmic) rates of convergence rooting in the underlying deconvolution problem. Numerical studies corroborate our theoretical analysis and show that the proposed approach performs at least on par with the methods in the aforementioned prior work in the case $d = 1$ while achieving substantial reductions in terms of computational complexity.
翻訳日:2022-01-11 15:36:18 公開日:2022-01-10
# (参考訳) Head2Toe: 中間表現を活用した伝達学習

Head2Toe: Utilizing Intermediate Representations for Better Transfer Learning ( http://arxiv.org/abs/2201.03529v1 )

ライセンス: CC BY 4.0
Utku Evci, Vincent Dumoulin, Hugo Larochelle, Michael C. Mozer(参考訳) 転送学習手法は、データリッチソースドメイン上で事前訓練されたモデルを用いて、データスカースターゲットドメインのパフォーマンスを向上させることを目的としている。 コスト効率のよい戦略である線形探索では、ソースモデルを凍結し、ターゲットドメインの新しい分類ヘッドをトレーニングする。 この戦略は、コストがかかるが最先端のメソッド -- ソースモデルのすべてのパラメータをターゲットドメインに微調整する -- により、パフォーマンスが向上する。 これらの中間層を直接利用できるという仮説を探求する。 本稿では,ソースモデルのすべての層から特徴を抽出し,対象領域の分類ヘッドを訓練する手法であるHead2Toeを提案する。 vtab-1kの評価では、head2toeは、トレーニングやストレージコストを100倍以上削減しながら、平均的な微調整で得られるパフォーマンスにマッチする。

Transfer-learning methods aim to improve performance in a data-scarce target domain using a model pretrained on a data-rich source domain. A cost-efficient strategy, linear probing, involves freezing the source model and training a new classification head for the target domain. This strategy is outperformed by a more costly but state-of-the-art method -- fine-tuning all parameters of the source model to the target domain -- possibly because fine-tuning allows the model to leverage useful information from intermediate layers which is otherwise discarded by the later pretrained layers. We explore the hypothesis that these intermediate layers might be directly exploited. We propose a method, Head-to-Toe probing (Head2Toe), that selects features from all layers of the source model to train a classification head for the target-domain. In evaluations on the VTAB-1k, Head2Toe matches performance obtained with fine-tuning on average while reducing training and storage cost hundred folds or more, but critically, for out-of-distribution transfer, Head2Toe outperforms fine-tuning.
翻訳日:2022-01-11 15:29:48 公開日:2022-01-10
# (参考訳) BI-LSTM CRFモデルを用いた日本語平仮名文の形態解析

Morphological Analysis of Japanese Hiragana Sentences using the BI-LSTM CRF Model ( http://arxiv.org/abs/2201.03366v1 )

ライセンス: CC BY 4.0
Jun Izutsu and Kanako Komiya(参考訳) 本研究では,Bi-LSTM CRFモデルを用いて日本語平仮名文の形態解析器のニューラルモデルを構築する手法を提案する。 形態素解析は、テキストデータを単語に分割し、音声の一部などの情報を割り当てる技術である。 この手法は,日本語に単語の区切りがないため,自然言語処理システムにおける下流の応用において重要な役割を担っている。 平仮名(ひらがな)は、日本語の文字の一種で、子供や漢字が読めない人向けのテキストに用いられる。 平仮名文の形態素解析は, 分割情報が少ないため, 通常の日本語文よりも困難である。 平仮名文の形態解析において,通常の日本語テキストに基づくモデルを用いた微調整の有効性を実証し,各種ジャンルのテキストに対する訓練データの影響を検討した。

This study proposes a method to develop neural models of the morphological analyzer for Japanese Hiragana sentences using the Bi-LSTM CRF model. Morphological analysis is a technique that divides text data into words and assigns information such as parts of speech. This technique plays an essential role in downstream applications in Japanese natural language processing systems because the Japanese language does not have word delimiters between words. Hiragana is a type of Japanese phonogramic characters, which is used for texts for children or people who cannot read Chinese characters. Morphological analysis of Hiragana sentences is more difficult than that of ordinary Japanese sentences because there is less information for dividing. For morphological analysis of Hiragana sentences, we demonstrated the effectiveness of fine-tuning using a model based on ordinary Japanese text and examined the influence of training data on texts of various genres.
翻訳日:2022-01-11 15:00:01 公開日:2022-01-10
# グローバルモメンタムの加速によるコミュニケーション効率の高い連合学習

Communication-Efficient Federated Learning with Acceleration of Global Momentum ( http://arxiv.org/abs/2201.03172v1 )

ライセンス: Link先を確認
Geeho Kim, Jinkyu Kim, Bohyung Han(参考訳) 連合学習はしばしば、参加者の異質な特性のために不安定で収束が遅い。 この傾向は、各ラウンドでクライアントから収集された情報がより矛盾する傾向にあるため、クライアント参加比率が低い場合に増大する。 そこで本研究では,局所的な勾配更新を導くために,グローバル勾配で推定される加速度モデルをクライアントに送付することにより,サーバ側集約ステップの安定性を向上させる,新しいフェデレーション学習フレームワークを提案する。 提案アルゴリズムは,クライアントに過去のモデルを保存する必要がなく,通信コストのかかる参加者に対して,グローバルな更新情報を自然に集約し,伝達する。 また,局所更新を規則化し,バイアスを低減し,局所更新の安定性を向上させる。 各種設定下で実データに関する総合的な実証研究を行い、特にクライアント参加率の低い最先端手法と比較して精度と通信効率の点で提案手法の顕著な性能を示す。 私たちのコードはhttps://github.com/ ninigapa0/FedAGMで利用可能です。

Federated learning often suffers from unstable and slow convergence due to heterogeneous characteristics of participating clients. Such tendency is aggravated when the client participation ratio is low since the information collected from the clients at each round is prone to be more inconsistent. To tackle the challenge, we propose a novel federated learning framework, which improves the stability of the server-side aggregation step, which is achieved by sending the clients an accelerated model estimated with the global gradient to guide the local gradient updates. Our algorithm naturally aggregates and conveys the global update information to participants with no additional communication cost and does not require to store the past models in the clients. We also regularize local update to further reduce the bias and improve the stability of local updates. We perform comprehensive empirical studies on real data under various settings and demonstrate the remarkable performance of the proposed method in terms of accuracy and communication-efficiency compared to the state-of-the-art methods, especially with low client participation rates. Our code is available at https://github.com/ ninigapa0/FedAGM
翻訳日:2022-01-11 14:49:31 公開日:2022-01-10
# 高次元分類問題に対する特徴選択と規則抽出を統合した適応型ニューロファジーシステム

An Adaptive Neuro-Fuzzy System with Integrated Feature Selection and Rule Extraction for High-Dimensional Classification Problems ( http://arxiv.org/abs/2201.03187v1 )

ライセンス: Link先を確認
Guangdong Xue, Qin Chang, Jian Wang, Kai Zhang and Nikhil R. Pal(参考訳) ファジィやニューロファジーシステムの大きな制限は、高次元データセットを扱うことができないことである。 これは主にTノルム、特に製品または最小(またはよりソフトなバージョン)の使用によって起こる。 したがって、100以上の次元を持つデータセットを扱う作業はほとんどない。 本稿では,次元が7000以上のデータセットを処理できるニューロファジーフレームワークを提案する。 そこで,本稿では,既存のファジィシステムにおいて高次元問題に対処しつつ生じる ``numeric underflow" と ``fake minimum" の欠点を効果的に克服する適応ソフトミン (ada-softmin) を提案する。 AdaTSK(Adaptive Takagi-Sugeno-Kang)ファジィシステムと呼ぶ。 次に、AdaTSKシステムを用いて特徴選択とルール抽出を統合的に行う。 この文脈では、連続した2つの学習段階において、有用な特徴と規則を決定できる連続部分のみに、新しいゲート関数が導入され、埋め込まれる。 従来のファジィルールベースとは異なり、適切なルールを維持するが、ファジィニューラルネットワークで通常発生する次元と指数関数的に規則数を増加しない拡張ファジィルールベース(En-FRB)を設計する。 統合された特徴選択と規則抽出 AdaTSK (FSRE-AdaTSK) システムは3段階からなる。 (i)特徴選択 (ii)規則抽出、及び (iii)精巧な調律。 FSRE-AdaTSKの有効性は、7000以上の次元を持つ2つを含む5つの次元が2000以上の19のデータセットで実証されている。 7000以上の入力特徴を含む分類のためにファジィシステムが実現されたのはこれが初めてかもしれない。

A major limitation of fuzzy or neuro-fuzzy systems is their failure to deal with high-dimensional datasets. This happens primarily due to the use of T-norm, particularly, product or minimum (or a softer version of it). Thus, there are hardly any work dealing with datasets with dimensions more than hundred or so. Here, we propose a neuro-fuzzy framework that can handle datasets with dimensions even more than 7000! In this context, we propose an adaptive softmin (Ada-softmin) which effectively overcomes the drawbacks of ``numeric underflow" and ``fake minimum" that arise for existing fuzzy systems while dealing with high-dimensional problems. We call it an Adaptive Takagi-Sugeno-Kang (AdaTSK) fuzzy system. We then equip the AdaTSK system to perform feature selection and rule extraction in an integrated manner. In this context, a novel gate function is introduced and embedded only in the consequent parts, which can determine the useful features and rules, in two successive phases of learning. Unlike conventional fuzzy rule bases, we design an enhanced fuzzy rule base (En-FRB), which maintains adequate rules but does not grow the number of rules exponentially with dimension that typically happens for fuzzy neural networks. The integrated Feature Selection and Rule Extraction AdaTSK (FSRE-AdaTSK) system consists of three sequential phases: (i) feature selection, (ii) rule extraction, and (iii) fine tuning. The effectiveness of the FSRE-AdaTSK is demonstrated on 19 datasets of which five are in more than 2000 dimension including two with dimension greater than 7000. This may be the first time fuzzy systems are realized for classification involving more than 7000 input features.
翻訳日:2022-01-11 14:49:13 公開日:2022-01-10
# ウィンドパーク電力予測:注意に基づくグラフネットワークとディープラーニングによるウェイク損失のキャプチャ

Wind Park Power Prediction: Attention-Based Graph Networks and Deep Learning to Capture Wake Losses ( http://arxiv.org/abs/2201.03229v1 )

ライセンス: Link先を確認
Lars {\O}degaard Bentsen, Narada Dilp Warakagoda, Roy Stenbro and Paal Engelstad(参考訳) 電力網への風力エネルギーの浸透が増大するにつれて、より大きな風力発電所の電力生産を予測できることがますます重要になっている。 ディープラーニング(DL)モデルは、データの複雑なパターンを学習し、覚醒損失と期待される電力生産を予測することに成功している。 本稿では,グラフブロックの任意のコンポーネントに注目を適用可能な,注目に基づくグラフニューラルネットワーク(GNN)のモジュール化フレームワークを提案する。 その結果,多層型パーセプトロン (mlp) と双方向型lstm (blstm) モデルに有意に優れ, バニラgnnモデルと同等の性能を提供することができた。 さらに,提案するグラフアテンションアーキテクチャは,特定のアプリケーションに依存する可能性のある所望のアテンション操作に柔軟性を提供することにより,異なるアプリケーションに容易に適応できると主張する。 注意重みの分析を通じて,注意に基づくgnnを用いることで,モデルが学ぶことに対する洞察が得られることを示した。 特にアテンションネットワークは、航続損失に関する物理的な直観と一致したタービン依存に気付くように見えた。

With the increased penetration of wind energy into the power grid, it has become increasingly important to be able to predict the expected power production for larger wind farms. Deep learning (DL) models can learn complex patterns in the data and have found wide success in predicting wake losses and expected power production. This paper proposes a modular framework for attention-based graph neural networks (GNN), where attention can be applied to any desired component of a graph block. The results show that the model significantly outperforms a multilayer perceptron (MLP) and a bidirectional LSTM (BLSTM) model, while delivering performance on-par with a vanilla GNN model. Moreover, we argue that the proposed graph attention architecture can easily adapt to different applications by offering flexibility into the desired attention operations to be used, which might depend on the specific application. Through analysis of the attention weights, it was showed that employing attention-based GNNs can provide insights into what the models learn. In particular, the attention networks seemed to realise turbine dependencies that aligned with some physical intuition about wake losses.
翻訳日:2022-01-11 14:48:43 公開日:2022-01-10
# aiモデルにおける決定木に基づく不確実性推定のハードバウンダリ緩和に関する研究

A Study on Mitigating Hard Boundaries of Decision-Tree-based Uncertainty Estimates for AI Models ( http://arxiv.org/abs/2201.03263v1 )

ライセンス: Link先を確認
Pascal Gerber, Lisa J\"ockel, Michael Kl\"as(参考訳) データ駆動型AIモデルの成果は常に正しいとは考えられない。 これらの結果の不確実性を評価するために、モデル適合性、入力品質、スコープコンプライアンスに関する不確実性を考慮した不確実性ラッパーフレームワークが提案されている。 不確実性ラッパーは、クラスタの入力品質に関連する不確実性に決定木アプローチを使い、特定の不確実性クラスタに厳密に入力を割り当てる。 したがって、1つの特徴のわずかな変化は、かなり異なる不確実性を持つクラスタ割り当てにつながる可能性がある。 我々の目標は、解釈可能性、ランタイムの複雑さ、予測性能を維持しながら、これらの割り当てのハードな決定境界を緩和するアプローチに置き換えることです。 5つのアプローチが候補として選ばれ、不確実性ラッパーフレームワークに統合された。 brierスコアに基づく評価では,carlaシミュレータとyolov3を用いて歩行者検出ユースケースのデータセットを作成した。 すべての統合アプローチは、不確実性推定の軟化、すなわち平滑化を達成した。 しかし、決定木と比較すると、解釈は簡単ではなく、実行時の複雑さが高い。 さらに、ブライアスコアの一部が故障し、他の部分も改善した。 ブライアのスコアで最も有望なのは無作為な森林だった。 結論として,硬い決定木の境界の軟化はトレードオフ決定であると考えられる。

Outcomes of data-driven AI models cannot be assumed to be always correct. To estimate the uncertainty in these outcomes, the uncertainty wrapper framework has been proposed, which considers uncertainties related to model fit, input quality, and scope compliance. Uncertainty wrappers use a decision tree approach to cluster input quality related uncertainties, assigning inputs strictly to distinct uncertainty clusters. Hence, a slight variation in only one feature may lead to a cluster assignment with a significantly different uncertainty. Our objective is to replace this with an approach that mitigates hard decision boundaries of these assignments while preserving interpretability, runtime complexity, and prediction performance. Five approaches were selected as candidates and integrated into the uncertainty wrapper framework. For the evaluation based on the Brier score, datasets for a pedestrian detection use case were generated using the CARLA simulator and YOLOv3. All integrated approaches achieved a softening, i.e., smoothing, of uncertainty estimation. Yet, compared to decision trees, they are not so easy to interpret and have higher runtime complexity. Moreover, some components of the Brier score impaired while others improved. Most promising regarding the Brier score were random forests. In conclusion, softening hard decision tree boundaries appears to be a trade-off decision.
翻訳日:2022-01-11 14:48:23 公開日:2022-01-10
# ブートストラップによる異種グラフニューラルネットワークのクロスビュー自己監督学習

Cross-view Self-Supervised Learning on Heterogeneous Graph Neural Network via Bootstrapping ( http://arxiv.org/abs/2201.03340v1 )

ライセンス: Link先を確認
Minjae Park(参考訳) 不均一グラフニューラルネットワークは、優れた能力を持つ異種グラフの情報を表現することができる。 近年,グラフの独特な表現を対照的な学習方法で学習する自己教師型学習法が研究されている。 ラベルがない場合、この学習方法は大きな可能性を秘めている。 しかし、対照的な学習は正と負のペアに大きく依存しており、異種グラフから高品質なペアを生成することは困難である。 本稿では,近年の自己教師型学習の革新に則って,多数のペアを生成することなく優れた表現を生成できるシステムを提案する。 さらに、この過程における2つの視点から異種グラフを見ることができるという事実に注目し、グラフの高レベル表現をキャプチャして表現する。 提案モデルは,様々な実世界のデータセットにおいて,他の手法よりも最先端の性能を示した。

Heterogeneous graph neural networks can represent information of heterogeneous graphs with excellent ability. Recently, self-supervised learning manner is researched which learns the unique expression of a graph through a contrastive learning method. In the absence of labels, this learning methods show great potential. However, contrastive learning relies heavily on positive and negative pairs, and generating high-quality pairs from heterogeneous graphs is difficult. In this paper, in line with recent innovations in self-supervised learning, we introduce a that can generate good representations without generating large number of pairs. In addition, paying attention to the fact that heterogeneous graphs can be viewed from two perspectives in this process, high-level expressions in the graphs are captured and expressed. The proposed model showed state-of-the-art performance than other methods in various real world datasets.
翻訳日:2022-01-11 14:48:06 公開日:2022-01-10
# GBRS: Pawlakラフセットと近隣ラフセットの統一モデル

GBRS: An Unified Model of Pawlak Rough Set and Neighborhood Rough Set ( http://arxiv.org/abs/2201.03349v1 )

ライセンス: Link先を確認
Xia Shuyin, Wang Cheng, Wang GuoYing, Gao XinBo, Elisabeth Giem, Yu JianHang(参考訳) パウラーク粗集合と近傍粗集合は、最も一般的な粗集合理論モデルである。 Pawlawk は知識を表現するために同値クラスを使用することができるが、連続データを処理することはできない。 そこで本稿では,グラニュラーボール計算に基づく粒状ボール粗さ集合を提案する。 粒状ボール粗さ集合は、パウラーク粗さ集合と近傍粗さ集合を同時に表現することができ、2つの統一表現を実現することができる。 これにより、粒度ボールの粗い集合は連続データを扱うだけでなく、知識表現に同値クラスを使うことができる。 さらに,粒状球粗集合の実装アルゴリズムを提案する。 ベンチマークデータセットを用いた実験の結果,粒球計算のロバスト性と適応性の組み合わせにより,粒球粗さ集合の学習精度は,pawlak粗さ集合と従来の近傍粗さ集合と比較して大幅に向上した。 グラウラーボールセットはまた、9つの人気または最先端の特徴選択方法よりも優れている。

Pawlak rough set and neighborhood rough set are the two most common rough set theoretical models. Pawlawk can use equivalence classes to represent knowledge, but it cannot process continuous data; neighborhood rough sets can process continuous data, but it loses the ability of using equivalence classes to represent knowledge. To this end, this paper presents a granular-ball rough set based on the granlar-ball computing. The granular-ball rough set can simultaneously represent Pawlak rough sets, and the neighborhood rough set, so as to realize the unified representation of the two. This makes the granular-ball rough set not only can deal with continuous data, but also can use equivalence classes for knowledge representation. In addition, we propose an implementation algorithms of granular-ball rough sets. The experimental resuts on benchmark datasets demonstrate that, due to the combination of the robustness and adaptability of the granular-ball computing, the learning accuracy of the granular-ball rough set has been greatly improved compared with the Pawlak rough set and the traditional neighborhood rough set. The granular-ball rough set also outperforms nine popular or the state-of-the-art feature selection methods.
翻訳日:2022-01-11 14:47:54 公開日:2022-01-10
# (参考訳) オフライン2人のゼロサムマルコフゲームはいつ解決できるのか?

When is Offline Two-Player Zero-Sum Markov Game Solvable? ( http://arxiv.org/abs/2201.03522v1 )

ライセンス: CC0 1.0
Qiwen Cui and Simon S. Du(参考訳) オフライン2人プレイヤゼロサムマルコフゲームの解法について,データセット仮定を用いて検討する。 オフライン単一エージェントマルコフ決定過程とは対照的に,オフライン2プレイヤーゼロサムマルコフゲームにおけるナッシュ均衡(NE)戦略の学習には単一戦略集中仮定が不十分であることを示す。 一方,一方向集中という新しい仮定を提案し,この仮定の下で証明可能な悲観的アルゴリズムを設計する。 また,NE戦略の学習には一方的な濃度仮定が必要であることを示す。 さらに,本アルゴリズムは,一様濃度を仮定したデータセットとターンベースのマルコフゲームという,広く研究されている2つの設定を修正せずに,ミニマックスサンプル複雑性を実現することができる。 私たちの仕事は、オフラインマルチエージェント強化学習を理解するための重要な最初のステップとして役立ちます。

We study what dataset assumption permits solving offline two-player zero-sum Markov game. In stark contrast to the offline single-agent Markov decision process, we show that the single strategy concentration assumption is insufficient for learning the Nash equilibrium (NE) strategy in offline two-player zero-sum Markov games. On the other hand, we propose a new assumption named unilateral concentration and design a pessimism-type algorithm that is provably efficient under this assumption. In addition, we show that the unilateral concentration assumption is necessary for learning an NE strategy. Furthermore, our algorithm can achieve minimax sample complexity without any modification for two widely studied settings: dataset with uniform concentration assumption and turn-based Markov game. Our work serves as an important initial step towards understanding offline multi-agent reinforcement learning.
翻訳日:2022-01-11 14:46:58 公開日:2022-01-10
# 高速MRI用スイニングトランス

Swin Transformer for Fast MRI ( http://arxiv.org/abs/2201.03230v1 )

ライセンス: Link先を確認
Jiahao Huang, Yingying Fang, Yinzhe Wu, Huanjun Wu, Zhifan Gao, Yang Li, Javier Del Ser, Jun Xia, Guang Yang(参考訳) MRIは高解像度で再現可能な画像を生成する重要な非侵襲的臨床ツールである。 しかし、高画質MR画像には長い走査時間が必要であり、患者の疲労や不快感を招き、患者の自発的な動きや不随意の生理的動きによって多くの人工物が引き起こされる。 走査過程を高速化するため,k空間アンダーサンプリング法や深層学習に基づく再構成法が普及している。 この研究は、高速MRI再構成のための新しいスウィントランスベースの方法であるSwinMRを導入した。 ネットワーク全体は、入力モジュール(IM)、特徴抽出モジュール(FEM)、出力モジュール(OM)から構成されていた。 IMおよびOMは2次元畳み込み層であり, FEMは残留スウィン変圧器ブロック(RSTB)と2次元畳み込み層から構成されていた。 RSTBは一連のSwin Transformer Layer(STL)で構成されていた。 STLのシフトウィンドウマルチヘッド自己アテンション(W-MSA/SW-MSA)は、画像空間全体において元のトランスのマルチヘッド自己アテンション(MSA)ではなく、シフトウィンドウで実行された。 感性マップを用いて新しいマルチチャネル損失を提案し、さらにテクスチャや詳細を保存できることが証明された。 我々はCalgary-Campinas公開脳MRデータセットで比較研究とアブレーション研究を行い、Multi-modal Brain Tumour Segmentation Challenge 2017データセットで下流セグメンテーション実験を行った。 その結果、SwinMRは他のベンチマーク手法と比較して高品質な再構成を実現し、ノイズ遮断や異なるデータセット下で異なるアンダーサンプリングマスクで大きな堅牢性を示した。 コードはhttps://github.com/ayanglab/SwinMRで公開されている。

Magnetic resonance imaging (MRI) is an important non-invasive clinical tool that can produce high-resolution and reproducible images. However, a long scanning time is required for high-quality MR images, which leads to exhaustion and discomfort of patients, inducing more artefacts due to voluntary movements of the patients and involuntary physiological movements. To accelerate the scanning process, methods by k-space undersampling and deep learning based reconstruction have been popularised. This work introduced SwinMR, a novel Swin transformer based method for fast MRI reconstruction. The whole network consisted of an input module (IM), a feature extraction module (FEM) and an output module (OM). The IM and OM were 2D convolutional layers and the FEM was composed of a cascaded of residual Swin transformer blocks (RSTBs) and 2D convolutional layers. The RSTB consisted of a series of Swin transformer layers (STLs). The shifted windows multi-head self-attention (W-MSA/SW-MSA) of STL was performed in shifted windows rather than the multi-head self-attention (MSA) of the original transformer in the whole image space. A novel multi-channel loss was proposed by using the sensitivity maps, which was proved to reserve more textures and details. We performed a series of comparative studies and ablation studies in the Calgary-Campinas public brain MR dataset and conducted a downstream segmentation experiment in the Multi-modal Brain Tumour Segmentation Challenge 2017 dataset. The results demonstrate our SwinMR achieved high-quality reconstruction compared with other benchmark methods, and it shows great robustness with different undersampling masks, under noise interruption and on different datasets. The code is publicly available at https://github.com/ayanglab/SwinMR.
翻訳日:2022-01-11 14:45:16 公開日:2022-01-10
# 言語モデル・アズ・ア・サービスのためのブラックボックスチューニング

Black-Box Tuning for Language-Model-as-a-Service ( http://arxiv.org/abs/2201.03514v1 )

ライセンス: Link先を確認
Tianxiang Sun, Yunfan Shao, Hong Qian, Xuanjing Huang, Xipeng Qiu(参考訳) GPT-3のような非常に大きな事前訓練言語モデル(PTM)は一般的にサービスとしてリリースされ、ユーザーはブラックボックスAPIを通じてPTMに問い合わせるタスク固有のプロンプトを設計できる。 このようなシナリオでは、私たちがLMaaS(Language-Model-as-a-Service)と呼ぶPTMの勾配は通常利用できない。 モデル推論APIのみにアクセスすることで、タスクプロンプトを最適化できますか? 大規模PTMの内在次元が極めて低いという最近の観測に基づいて、この研究は微分自由アルゴリズムを用いてPTMを最適化するBlack-Box Tuningを提案する。 特に,PTM推論APIを反復的に呼び出すことで,入力テキストに既定の連続的なプロンプトを最適化するためにCMA-ESを呼び出す。 実験の結果,いくつかのラベル付きサンプルにおけるロベルタによるブラックボックスチューニングは,マニュアルプロンプトやgpt-3のインコンテキスト学習を著しく上回っているだけでなく,プロンプトチューニングやフルモデルチューニングといった勾配ベースのものを上回ることがわかった。

Extremely large pre-trained language models (PTMs) such as GPT-3 are usually released as a service, allowing users to design task-specific prompts to query the PTMs through some black-box APIs. In such a scenario, which we call Language-Model-as-a-Service (LMaaS), gradients of the PTMs are usually not available. Can we optimize the task prompts by only accessing the model inference APIs? Based on recent observations that large PTMs have a very low intrinsic dimensionality, this work proposes the Black-Box Tuning to optimize PTMs through derivative-free algorithms. In particular, we invoke the CMA-ES to optimize the continuous prompt prepended to the input text by iteratively calling PTM inference APIs. Our experimental results demonstrate that, black-box tuning with RoBERTa on a few labeled samples not only significantly outperforms manual prompt and GPT-3's in-context learning, but also surpasses the gradient-based counterparts, namely prompt tuning and full model tuning.
翻訳日:2022-01-11 14:44:47 公開日:2022-01-10
# polish natural language inference and factivity - エキスパートベースのデータセットとベンチマーク

Polish Natural Language Inference and Factivity -- an Expert-based Dataset and Benchmarks ( http://arxiv.org/abs/2201.03521v1 )

ライセンス: Link先を確認
Daniel Ziembicki, Anna Wr\'oblewska, Karolina Seweryn(参考訳) 最近の自然言語処理のための機械学習のブレークスルーにもかかわらず、自然言語推論(NLI)の問題はまだ課題である。 この目的のために、我々は、事実性現象にのみ焦点をあてた新しいデータセットを寄贈するが、我々のタスクは他のNLIタスク、すなわちエンテーメント、矛盾、中立性(ECN)の予測と同じである。 データセットはポーランド語で完全な自然言語発話を含み、2,432の動詞補完対と309の固有動詞を収集する。 このデータセットはNational Corpus of Polish (NKJP)に基づいており、主動詞の頻度やその他の言語的特徴(内部否定の発生など)に関する代表的なサンプルである。 文を扱う変換器BERTベースのモデルでは,比較的良好な結果が得られた(\approx89\%$ F1 score)。 言語学的特徴(==91\%=F1スコア)でより良い結果が得られたが、専門家言語学者によって手作業で作成されるため、このモデルはより人的労働(ループ内の人間)を必要とする。 入力文のみを消費するBERTベースのモデルは、NLI/factiveの複雑さの大部分を捉えていることを示している。 この現象の複雑なケース、例えば、権利(E)と非活動動詞のケースは、さらなる研究のために未解決のままである。

Despite recent breakthroughs in Machine Learning for Natural Language Processing, the Natural Language Inference (NLI) problems still constitute a challenge. To this purpose we contribute a new dataset that focuses exclusively on the factivity phenomenon; however, our task remains the same as other NLI tasks, i.e. prediction of entailment, contradiction or neutral (ECN). The dataset contains entirely natural language utterances in Polish and gathers 2,432 verb-complement pairs and 309 unique verbs. The dataset is based on the National Corpus of Polish (NKJP) and is a representative sample in regards to frequency of main verbs and other linguistic features (e.g. occurrence of internal negation). We found that transformer BERT-based models working on sentences obtained relatively good results ($\approx89\%$ F1 score). Even though better results were achieved using linguistic features ($\approx91\%$ F1 score), this model requires more human labour (humans in the loop) because features were prepared manually by expert linguists. BERT-based models consuming only the input sentences show that they capture most of the complexity of NLI/factivity. Complex cases in the phenomenon - e.g. cases with entitlement (E) and non-factive verbs - remain an open issue for further research.
翻訳日:2022-01-11 14:41:39 公開日:2022-01-10
# (参考訳) 報酬不特定化の効果:マッピングとミスアライメントモデルの緩和

The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models ( http://arxiv.org/abs/2201.03544v1 )

ライセンス: CC BY 4.0
Alexander Pan, Kush Bhatia, Jacob Steinhardt(参考訳) RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。 報酬ハッキングの発生方法を理解するため、私たちは4つのrl環境を構築しました。 エージェント機能としての報酬ハッキングについて,モデルキャパシティ,行動空間分解能,観測空間ノイズ,訓練時間などについて検討した。 より有能なエージェントは報酬の誤用をしばしば利用し、より高い代理報酬を達成し、有能なエージェントよりも真の報酬を低くする。 さらに, エージェントの行動が定性的に変化する能力閾値によって, 真の報酬が急激に減少する, 相転移の例を見出す。 このような相転移は、mlシステムの安全性の監視に課題をもたらす。 これに対処するために,異常ポリシーに対する異常検出タスクを提案し,複数のベースライン検出器を提供する。

Reward hacking -- where RL agents exploit gaps in misspecified reward functions -- has been widely observed, but not yet systematically studied. To understand how reward hacking arises, we construct four RL environments with misspecified rewards. We investigate reward hacking as a function of agent capabilities: model capacity, action space resolution, observation space noise, and training time. More capable agents often exploit reward misspecifications, achieving higher proxy reward and lower true reward than less capable agents. Moreover, we find instances of phase transitions: capability thresholds at which the agent's behavior qualitatively shifts, leading to a sharp decrease in the true reward. Such phase transitions pose challenges to monitoring the safety of ML systems. To address this, we propose an anomaly detection task for aberrant policies and offer several baseline detectors.
翻訳日:2022-01-11 14:38:25 公開日:2022-01-10
# scrolls: 長い言語シーケンスにおける標準比較

SCROLLS: Standardized CompaRison Over Long Language Sequences ( http://arxiv.org/abs/2201.03533v1 )

ライセンス: Link先を確認
Uri Shaham, Elad Segal, Maor Ivgi, Avia Efrat, Ori Yoran, Adi Haviv, Ankit Gupta, Wenhan Xiong, Mor Geva, Jonathan Berant, Omer Levy(参考訳) NLPベンチマークは主に文や段落などの短いテキストに重点を置いているが、長いテキストは野生でかなりの量の自然言語で構成されている。 SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。 既存の長文データセットを調べ,テキストが自然に長文である場合のハンドピックを行い,入力間の情報を合成するタスクを優先順位付けする。 SCROLLSには要約、質問応答、自然言語推論タスクが含まれており、文学、科学、ビジネス、エンターテイメントなど複数の分野をカバーする。 Longformer Encoder-Decoderを含む初期ベースラインは、SCROLLSの改善の余地が十分にあることを示している。 すべてのデータセットを統一されたテキスト・ツー・テキスト形式で公開し、モデルアーキテクチャと事前学習方法の研究を容易にするライブのリーダーボードをホストします。

NLP benchmarks have largely focused on short texts, such as sentences and paragraphs, even though long texts comprise a considerable amount of natural language in the wild. We introduce SCROLLS, a suite of tasks that require reasoning over long texts. We examine existing long-text datasets, and handpick ones where the text is naturally long, while prioritizing tasks that involve synthesizing information across the input. SCROLLS contains summarization, question answering, and natural language inference tasks, covering multiple domains, including literature, science, business, and entertainment. Initial baselines, including Longformer Encoder-Decoder, indicate that there is ample room for improvement on SCROLLS. We make all datasets available in a unified text-to-text format and host a live leaderboard to facilitate research on model architecture and pretraining methods.
翻訳日:2022-01-11 14:22:48 公開日:2022-01-10
# 日本語テストにおける手書き記述回答の完全自動スコアリング

Fully automatic scoring of handwritten descriptive answers in Japanese language tests ( http://arxiv.org/abs/2201.03215v1 )

ライセンス: Link先を確認
Hung Tuan Nguyen, Cuong Tuan Nguyen, Haruki Oka, Tsunenori Ishioka, Masaki Nakagawa(参考訳) 本研究は,2017年と2018年に約12万件の試験を行った日本大学入試試験において,手書き記述回答を自動的に評価する実験である。 約40万の回答があり、2000万以上の文字がある。 すべての答えは人間の検査官によって採点されているが、手書き文字はラベル付けされていない。 本稿では,ラベル付き手書きデータセットで学習した深層ニューラルネットワークに基づく手書き認識を,このラベルなし回答集合に適用する試みについて述べる。 提案手法は,異なる学習戦略を結合し,複数の認識器をアンサンブルし,大きな汎用コーパスから構築した言語モデルを用いて,特定のデータへの過剰適合を回避する。 提案手法では,データセットの0.5%以下を占める約2,000個のラベル付き回答を用いて97%以上の文字精度を記録する。 そして、認識された回答を、誤認識文字を修正せずにBERTモデルに基づいて事前学習した自動スコアシステムに入力し、ルーリックアノテーションを提供する。 自動スコアリングシステムは、四重重みカッパ(QWK)の0.84から0.98に達する。 QWKは0.8以上なので、自動スコアリングシステムと人間の検査員のスコアリングの相似性は許容できる。 これらの結果は、記述的回答のエンドツーエンド自動スコアリングに関するさらなる研究に期待できる。

This paper presents an experiment of automatically scoring handwritten descriptive answers in the trial tests for the new Japanese university entrance examination, which were made for about 120,000 examinees in 2017 and 2018. There are about 400,000 answers with more than 20 million characters. Although all answers have been scored by human examiners, handwritten characters are not labelled. We present our attempt to adapt deep neural network-based handwriting recognizers trained on a labelled handwriting dataset into this unlabeled answer set. Our proposed method combines different training strategies, ensembles multiple recognizers, and uses a language model built from a large general corpus to avoid overfitting into specific data. In our experiment, the proposed method records character accuracy of over 97% using about 2,000 verified labelled answers that account for less than 0.5% of the dataset. Then, the recognized answers are fed into a pre-trained automatic scoring system based on the BERT model without correcting misrecognized characters and providing rubric annotations. The automatic scoring system achieves from 0.84 to 0.98 of Quadratic Weighted Kappa (QWK). As QWK is over 0.8, it represents acceptable similarity of scoring between the automatic scoring system and the human examiners. These results are promising for further research on end-to-end automatic scoring of descriptive answers.
翻訳日:2022-01-11 14:22:35 公開日:2022-01-10
# 言語駆動セマンティックセグメンテーション

Language-driven Semantic Segmentation ( http://arxiv.org/abs/2201.03546v1 )

ライセンス: Link先を確認
Boyi Li and Kilian Q. Weinberger and Serge Belongie and Vladlen Koltun and Ren\'e Ranftl(参考訳) 本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。 LSegはテキストエンコーダを使用して、記述的な入力ラベル(例えば「グラス」や「ビルディング」)の埋め込みを、入力画像のピクセルあたりの密度の高い埋め込みを計算するトランスフォーマーベースのイメージエンコーダと共に計算する。 画像エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。 テキスト埋め込みは、意味的に類似したラベルが埋め込み空間の類似領域(例えば「キャット」と「ファーリー」)にマップされる柔軟なラベル表現を提供する。 これによりlsegは、再トレーニングや追加のトレーニングサンプルを1つも必要とせずに、テスト時にそれまで見つからなかったカテゴリに一般化することができる。 提案手法は,既存のゼロショットセグメンテーション法や少数ショットセグメンテーション法に比べ,高い競合性を持つゼロショットセグメンテーション性能を達成し,固定ラベルセットが提供された場合の従来のセグメンテーションアルゴリズムの精度にも適合することを示す。 コードとデモはhttps://github.com/isl-org/lang-segで入手できる。

We present LSeg, a novel model for language-driven semantic image segmentation. LSeg uses a text encoder to compute embeddings of descriptive input labels (e.g., "grass" or "building") together with a transformer-based image encoder that computes dense per-pixel embeddings of the input image. The image encoder is trained with a contrastive objective to align pixel embeddings to the text embedding of the corresponding semantic class. The text embeddings provide a flexible label representation in which semantically similar labels map to similar regions in the embedding space (e.g., "cat" and "furry"). This allows LSeg to generalize to previously unseen categories at test time, without retraining or even requiring a single additional training sample. We demonstrate that our approach achieves highly competitive zero-shot performance compared to existing zero- and few-shot semantic segmentation methods, and even matches the accuracy of traditional segmentation algorithms when a fixed label set is provided. Code and demo are available at https://github.com/isl-org/lang-seg.
翻訳日:2022-01-11 14:22:17 公開日:2022-01-10
# (参考訳) セグメンテーション性能に対する事前ベース損失の影響:ベンチマーク

Effect of Prior-based Losses on Segmentation Performance: A Benchmark ( http://arxiv.org/abs/2201.02428v2 )

ライセンス: CC BY 4.0
Rosana El Jurdi, Caroline Petitjean, Veronika Cheplygina, Paul Honeine, Fahed Abdallah(参考訳) 今日、深層畳み込みニューラルネットワーク(cnns)は、様々な画像モードやタスクに基づいて、医用画像セグメンテーションの最先端のパフォーマンスを実証している。 初期の成功にもかかわらず、セグメンテーションネットワークは依然として解剖学的に異常なセグメンテーションを生成し、オブジェクト境界付近に穴や不正確さがある。 解剖学的可能性を強化するために、近年の研究は、損失関数の制約として、物体形状や境界などの事前知識を取り入れることに焦点を当てている。 以前の統合は、基幹領域から抽出された再構成された表現を低レベル、または臓器の形状や大きさなどの外部医療情報を高レベルに表すことができる。 過去数年間、事前の損失は、アーキテクチャに依存しながら専門家の知識の統合を可能にしているため、研究分野への関心が高まった。 しかしながら、さまざまな医療画像の課題やタスクにおける事前ベース損失の多様性を考えると、どのデータセットに最適な損失を識別することが困難になっている。 本稿では,医療画像分割における最近の先行的損失のベンチマークについて述べる。 主な目的は、特定のタスクやデータセットに与えられた損失を選択するための直感を提供することである。 この目的のために、4つの低レベルおよび高レベルの事前ベース損失が選択される。 評価された損失は、Deathlon、ISLES、WMHチャレンジなど、さまざまな医療画像セグメンテーション課題から8つの異なるデータセットで検証される。 その結果、低レベルの事前ベース損失はデータセット特性に関わらずサイコロ損失ベースラインよりも性能が向上することを保証できるが、高レベルの事前ベース損失はデータ特性に応じて解剖学的信頼性が向上することが示された。

Today, deep convolutional neural networks (CNNs) have demonstrated state-of-the-art performance for medical image segmentation, on various imaging modalities and tasks. Despite early success, segmentation networks may still generate anatomically aberrant segmentations, with holes or inaccuracies near the object boundaries. To enforce anatomical plausibility, recent research studies have focused on incorporating prior knowledge such as object shape or boundary, as constraints in the loss function. Prior integrated could be low-level referring to reformulated representations extracted from the ground-truth segmentations, or high-level representing external medical information such as the organ's shape or size. Over the past few years, prior-based losses exhibited a rising interest in the research field since they allow integration of expert knowledge while still being architecture-agnostic. However, given the diversity of prior-based losses on different medical imaging challenges and tasks, it has become hard to identify what loss works best for which dataset. In this paper, we establish a benchmark of recent prior-based losses for medical image segmentation. The main objective is to provide intuition onto which losses to choose given a particular task or dataset. To this end, four low-level and high-level prior-based losses are selected. The considered losses are validated on 8 different datasets from a variety of medical image segmentation challenges including the Decathlon, the ISLES and the WMH challenge. Results show that whereas low-level prior-based losses can guarantee an increase in performance over the Dice loss baseline regardless of the dataset characteristics, high-level prior-based losses can increase anatomical plausibility as per data characteristics.
翻訳日:2022-01-11 13:38:21 公開日:2022-01-10
# (参考訳) インクリメンタル学習駆動型インスタンスセグメンテーションフレームワークによるコントラバンドアイテムの高度に乱雑なインスタンス認識

A Novel Incremental Learning Driven Instance Segmentation Framework to Recognize Highly Cluttered Instances of the Contraband Items ( http://arxiv.org/abs/2201.02560v2 )

ライセンス: CC BY 4.0
Taimur Hassan and Samet Akcay and Mohammed Bennamoun and Salman Khan and Naoufel Werghi(参考訳) 荷物のX線スキャンから散らばったコントラバンドアイテムをスキャンするのは、専門家のセキュリティスタッフにとっても面倒な作業だ。 本稿では,従来のエンコーダ・デコーダアーキテクチャを拡張してインスタンス認識セグメンテーションを行い,追加のサブネットワークやオブジェクト検出器を使わずにコントラバンドアイテムの統合インスタンスを抽出する手法を提案する。 エンコーダ−デコーダネットワークは、まず従来のセマンティクスセグメンテーションを行い、クラッタ化された荷物を検索する。 モデルはトレーニング中に段階的に進化し、トレーニングバッチを大幅に削減した個々のインスタンスを認識する。 新しい目的関数は、新しいクラス表現を学習し、ベイズ推論によって複雑な構造的相互依存を解消しながら、予め獲得した知識を保持しながら、各イテレーションにおけるネットワーク損失を最小限に抑える。 2つの公開X線データセットに対する我々のフレームワークの徹底的な評価は、検出精度と効率のトレードオフを最適に達成しつつ、特に難解な散在シナリオにおいて最先端の手法よりも優れていることを示している。

Screening cluttered and occluded contraband items from baggage X-ray scans is a cumbersome task even for the expert security staff. This paper presents a novel strategy that extends a conventional encoder-decoder architecture to perform instance-aware segmentation and extract merged instances of contraband items without using any additional sub-network or an object detector. The encoder-decoder network first performs conventional semantic segmentation and retrieves cluttered baggage items. The model then incrementally evolves during training to recognize individual instances using significantly reduced training batches. To avoid catastrophic forgetting, a novel objective function minimizes the network loss in each iteration by retaining the previously acquired knowledge while learning new class representations and resolving their complex structural inter-dependencies through Bayesian inference. A thorough evaluation of our framework on two publicly available X-ray datasets shows that it outperforms state-of-the-art methods, especially within the challenging cluttered scenarios, while achieving an optimal trade-off between detection accuracy and efficiency.
翻訳日:2022-01-11 13:15:41 公開日:2022-01-10
# ビデオテキストモデリングに基づくビデオ要約

Video Summarization Based on Video-text Modelling ( http://arxiv.org/abs/2201.02494v2 )

ライセンス: Link先を確認
Li Haopeng, Ke Qiuhong, Gong Mingming, Zhang Rui(参考訳) 現代のビデオ要約法は、トレーニングのために大量の注釈付きデータを必要とするディープニューラルネットワークに基づいている。 しかし、ビデオ要約のための既存のデータセットは小規模であり、深層モデルの過剰フィッティングに繋がる。 大規模データセットのアノテーションが時間を要することを考慮し,ビデオのセマンティック表現を得るためのマルチモーダルな自己教師型学習フレームワークを提案する。 具体的には,映像の視覚情報とテキスト情報のセマンティック一貫性について検討し,新たに収集したビデオテキストペアのデータセット上で,マルチモーダルエンコーダの自己教師付き事前学習を行う。 さらに,映像中の重要なコンテンツを段階的にピンポイントし,より優れた要約を生成するプログレッシブビデオ要約手法を提案する。 最後に,ビデオ分類に基づく映像要約の品質評価のための客観的評価フレームワークを提案する。 ランク相関係数,f-スコア,提案する客観的評価において,本手法の有効性と優れていることが実証された。

Modern video summarization methods are based on deep neural networks which require a large amount of annotated data for training. However, existing datasets for video summarization are small-scale, easily leading to over-fitting of the deep models. Considering that the annotation of large-scale datasets is time-consuming, we propose a multimodal self-supervised learning framework to obtain semantic representations of videos, which benefits the video summarization task. Specifically, we explore the semantic consistency between the visual information and text information of videos, for the self-supervised pretraining of a multimodal encoder on a newly-collected dataset of video-text pairs. Additionally, we introduce a progressive video summarization method, where the important content in a video is pinpointed progressively to generate better summaries. Finally, an objective evaluation framework is proposed to measure the quality of video summaries based on video classification. Extensive experiments have proved the effectiveness and superiority of our method in rank correlation coefficients, F-score, and the proposed objective evaluation compared to the state of the art.
翻訳日:2022-01-11 12:43:51 公開日:2022-01-10
# ファジィ認知地図を用いた時系列予測:調査

Time Series Forecasting Using Fuzzy Cognitive Maps: A Survey ( http://arxiv.org/abs/2201.02297v2 )

ライセンス: Link先を確認
Omid Orang, Petr\^onio C\^andido de Lima e Silva, and Frederico Gadelha Guimar\~aes(参考訳) 時系列予測のための様々なソフトコンピューティング手法の中で、ファジィ認知マップ(FCM)は複雑なシステムの力学をモデル化し解析するためのツールとして顕著な結果を示している。 FCMはリカレントニューラルネットワークと類似しており、神経ファジィ法に分類される。 言い換えれば、FCMはファジィ論理、ニューラルネットワーク、エキスパートシステムの側面の混合であり、複雑なシステムの動的挙動をシミュレーションし研究するための強力なツールとして機能する。 最も興味深い特徴は、知識の解釈性、動的特性、学習能力である。 本研究の目的は,本論文で提案されている最も関連性が高く,近年のFCMに基づく時系列予測モデルの概要を概説することである。 さらに,本論文では,FCMモデルの基礎と学習方法論について考察する。 また、本調査は、非定常データ処理やスケーラビリティ問題といった実世界の実験における課題をカバーするために、FCMの能力を高めるための将来の研究のアイデアを提供する。 さらに,FCMに高速学習アルゴリズムを組み込むことが,この分野の主要な関心事の一つである。

Among various soft computing approaches for time series forecasting, Fuzzy Cognitive Maps (FCM) have shown remarkable results as a tool to model and analyze the dynamics of complex systems. FCM have similarities to recurrent neural networks and can be classified as a neuro-fuzzy method. In other words, FCMs are a mixture of fuzzy logic, neural network, and expert system aspects, which act as a powerful tool for simulating and studying the dynamic behavior of complex systems. The most interesting features are knowledge interpretability, dynamic characteristics and learning capability. The goal of this survey paper is mainly to present an overview on the most relevant and recent FCM-based time series forecasting models proposed in the literature. In addition, this article considers an introduction on the fundamentals of FCM model and learning methodologies. Also, this survey provides some ideas for future research to enhance the capabilities of FCM in order to cover some challenges in the real-world experiments such as handling non-stationary data and scalability issues. Moreover, equipping FCMs with fast learning algorithms is one of the major concerns in this area.
翻訳日:2022-01-11 12:43:12 公開日:2022-01-10
# bern2: エンティティ認識および正規化ツールという,高度な神経バイオメディカル

BERN2: an advanced neural biomedical named entity recognition and normalization tool ( http://arxiv.org/abs/2201.02080v2 )

ライセンス: Link先を確認
Mujeen Sung, Minbyul Jeong, Yonghwa Choi, Donghyeon Kim, Jinhyuk Lee and Jaewoo Kang(参考訳) 生物医学の自然言語処理において、名前付き実体認識(NER)と名前付き実体正規化(NEN)は、成長を続ける生物医学の文献から生物医学の実体(疾患や化学物質など)を自動抽出できる重要なタスクである。 本稿では,従来のニューラルネットワークベースのNERツール(Kim et al., 2019)を改善するツールであるBERN2(Advanced Biomedical Entity Recognition and Normalization)を提案する。 我々は,バイオメディカル知識グラフ構築などの様々なタスクにおいて,大規模バイオメディカルテキストをより正確に注釈できるツールを期待する。

In biomedical natural language processing, named entity recognition (NER) and named entity normalization (NEN) are key tasks that enable the automatic extraction of biomedical entities (e.g., diseases and chemicals) from the ever-growing biomedical literature. In this paper, we present BERN2 (Advanced Biomedical Entity Recognition and Normalization), a tool that improves the previous neural network-based NER tool (Kim et al., 2019) by employing a multi-task NER model and neural network-based NEN models to achieve much faster and more accurate inference. We hope that our tool can help annotate large-scale biomedical texts more accurately for various tasks such as biomedical knowledge graph construction.
翻訳日:2022-01-11 12:42:57 公開日:2022-01-10
# イメージレベルの監督によるクラス検出

Detecting Twenty-thousand Classes using Image-level Supervision ( http://arxiv.org/abs/2201.02605v2 )

ライセンス: Link先を確認
Xingyi Zhou, Rohit Girdhar, Armand Joulin, Phillip Kr\"ahenb\"uhl, Ishan Misra(参考訳) 現在のオブジェクト検出器は、小さな検出データセットのため、語彙サイズが限られている。 一方、画像分類器は、データセットがより大きく、より収集しやすいので、はるかに大きな語彙を推論します。 本稿では、画像分類データに基づいて検出器の分類器を訓練し、検出器の語彙を数万の概念に拡張するDeticを提案する。 以前の作業とは異なり、Deticはモデル予測に基づいてイメージラベルをボックスに割り当てておらず、さまざまな検出アーキテクチャやバックボーンの実装と互換性をより容易にする。 ボックスアノテーションのないクラスでも,Deticは優れた検出値が得られることを示す。 これは、open-vocabularyとlong-tail検出ベンチマークの両方の以前の作業よりも優れている。 Deticは、すべてのクラスで2.4mAP、オープン語彙のLVISベンチマークで新しいクラスで8.3mAPを提供する。 標準のLVISベンチマークでは、Deticはすべてのクラスで41.7 mAP、レアクラスでは41.7 mAPに達する。 初めて、imagenetデータセットの21番目のクラスすべてで検出器をトレーニングし、微調整なしで新しいデータセットに一般化できることを示します。 コードはhttps://github.com/facebookresearch/Detic.comで入手できる。

Current object detectors are limited in vocabulary size due to the small scale of detection datasets. Image classifiers, on the other hand, reason about much larger vocabularies, as their datasets are larger and easier to collect. We propose Detic, which simply trains the classifiers of a detector on image classification data and thus expands the vocabulary of detectors to tens of thousands of concepts. Unlike prior work, Detic does not assign image labels to boxes based on model predictions, making it much easier to implement and compatible with a range of detection architectures and backbones. Our results show that Detic yields excellent detectors even for classes without box annotations. It outperforms prior work on both open-vocabulary and long-tail detection benchmarks. Detic provides a gain of 2.4 mAP for all classes and 8.3 mAP for novel classes on the open-vocabulary LVIS benchmark. On the standard LVIS benchmark, Detic reaches 41.7 mAP for all classes and 41.7 mAP for rare classes. For the first time, we train a detector with all the twenty-one-thousand classes of the ImageNet dataset and show that it generalizes to new datasets without fine-tuning. Code is available at https://github.com/facebookresearch/Detic.
翻訳日:2022-01-11 12:42:06 公開日:2022-01-10
# 視覚注意予測による自律型ドローンレースエージェントの性能向上

Visual Attention Prediction Improves Performance of Autonomous Drone Racing Agents ( http://arxiv.org/abs/2201.02569v2 )

ライセンス: Link先を確認
Christian Pfeiffer, Simon Wengeler, Antonio Loquercio, Davide Scaramuzza(参考訳) 人間はエンドツーエンドの自律飛行のために訓練されたニューラルネットワークよりも速くドローンをレースする。 これは、人間のパイロットがタスク関連視覚情報を効果的に選択できることに関連しているかもしれない。 本研究は、人間の目視行動や注意を模倣できるニューラルネットワークが、視覚ベースの自律型ドローンレースの課題に対して、ニューラルネットワークの性能を向上させるかどうかを検討するものである。 我々は、視線に基づく注意予測が、シミュレーターベースのドローンレースタスクにおける視覚情報選択と意思決定の効率的なメカニズムであると仮定する。 この仮説は、18人の無人機パイロットによる視線と飛行軌跡データを用いて、視覚的注意予測モデルを訓練する。 次に、この視覚的注意予測モデルを用いて、模倣学習を用いた視覚に基づく自律ドローンレースのためのエンドツーエンドコントローラを訓練する。 我々は,アテンション予測コントローラのドローンレース性能を生画像入力と画像に基づく抽象化(特徴トラック)を用いて比較する。 その結果,アテンション予測ベースのコントローラはベースラインを上回り,最大88%の成功率で挑戦的なレーストラックを完走できることがわかった。 さらに,視覚注意予測および特徴トラックに基づくモデルでは,ホールドアウト参照軌跡の評価において,画像モデルよりも一般化性能が向上した。 我々の結果は、人間の視覚的注意予測が自律的な視覚に基づくドローンレースエージェントの性能を向上させることを示し、視覚に基づく高速かつアジャイルな自律飛行に向けて重要なステップを提供する。

Humans race drones faster than neural networks trained for end-to-end autonomous flight. This may be related to the ability of human pilots to select task-relevant visual information effectively. This work investigates whether neural networks capable of imitating human eye gaze behavior and attention can improve neural network performance for the challenging task of vision-based autonomous drone racing. We hypothesize that gaze-based attention prediction can be an efficient mechanism for visual information selection and decision making in a simulator-based drone racing task. We test this hypothesis using eye gaze and flight trajectory data from 18 human drone pilots to train a visual attention prediction model. We then use this visual attention prediction model to train an end-to-end controller for vision-based autonomous drone racing using imitation learning. We compare the drone racing performance of the attention-prediction controller to those using raw image inputs and image-based abstractions (i.e., feature tracks). Our results show that attention-prediction based controllers outperform the baselines and are able to complete a challenging race track consistently with up to 88% success rate. Furthermore, visual attention-prediction and feature-track based models showed better generalization performance than image-based models when evaluated on hold-out reference trajectories. Our results demonstrate that human visual attention prediction improves the performance of autonomous vision-based drone racing agents and provides an essential step towards vision-based, fast, and agile autonomous flight that eventually can reach and even exceed human performances.
翻訳日:2022-01-11 12:41:49 公開日:2022-01-10