このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220123となっている論文です。

PDF登録状況(公開日: 20220123)

TitleAuthorsAbstract論文公表日・翻訳日
# 変化する環境におけるメモリ効率と効果的な視覚位置認識のためのバイナリニューラルネットワーク

Binary Neural Networks for Memory-Efficient and Effective Visual Place Recognition in Changing Environments ( http://arxiv.org/abs/2010.00716v2 )

ライセンス: Link先を確認
Bruno Ferrarini, Michael Milford, Klaus D. McDonald-Maier and Shoaib Ehsan(参考訳) 視覚的場所認識(VPR)は、視覚データを用いて、ある場所が訪れたかどうかを判断するロボットの能力である。 vprの従来の手作りの手法は、極端な環境変化下では失敗するが、畳み込みニューラルネットワーク(cnns)に基づく手法は最先端のパフォーマンスを実現するが、大量のメモリを必要とする重いランタイムプロセスとモデルサイズをもたらす。 したがって、CNNベースのアプローチは、小さなロボットやドローンのようなリソース制約のあるプラットフォームには適さない。 本稿では, モデルパラメータの精度を低下させ, ネットワーク深さの低減と分類段階のニューロンの減少を併用して, 最先端のVPR性能を維持しつつ, メモリ要求と計算労力を大幅に削減する, 高度にコンパクトなモデルの新たなクラスを提案する。 我々の知識を最大限に活用するため、条件の変化とリソース要求の大幅な低減により視覚的な場所認識問題を効果的に解決するためのバイナリニューラルネットワークを提案する最初の試みである。 我々の最高のパフォーマンスを持つバイナリニューラルネットワークであるFloppyNetは、その完全精度と深い精度に対して考慮し、99%のメモリを消費し、推論速度を7倍に向上する。

Visual place recognition (VPR) is a robot's ability to determine whether a place was visited before using visual data. While conventional hand-crafted methods for VPR fail under extreme environmental appearance changes, those based on convolutional neural networks (CNNs) achieve state-of-the-art performance but result in heavy runtime processes and model sizes that demand a large amount of memory. Hence, CNN-based approaches are unsuitable for resource-constrained platforms, such as small robots and drones. In this paper, we take a multi-step approach of decreasing the precision of model parameters, combining it with network depth reduction and fewer neurons in the classifier stage to propose a new class of highly compact models that drastically reduces the memory requirements and computational effort while maintaining state-of-the-art VPR performance. To the best of our knowledge, this is the first attempt to propose binary neural networks for solving the visual place recognition problem effectively under changing conditions and with significantly reduced resource requirements. Our best-performing binary neural network, dubbed FloppyNet, achieves comparable VPR performance when considered against its full-precision and deeper counterparts while consuming 99% less memory and increasing the inference speed seven times.
翻訳日:2022-10-12 08:29:32 公開日:2022-01-23
# setunion knapsack問題を解くための自己調整最適化アルゴリズム

Self-adjusting optimization algorithm for solving the setunion knapsack problem ( http://arxiv.org/abs/2202.05698v1 )

ライセンス: Link先を確認
Congcong Wu, Xiangyun Gao, Xueyong Liu, Bowen Sun(参考訳) 集合対knapsack問題(SUKP)は制約付き合成最適化問題である。 値と重みはそれぞれアイテムと要素に依存するため、解決はより困難である。 本稿では,アイテムと要素の観点からSUKPを近似する2つの自己調整最適化アルゴリズムを提案する。 SUKPの動的キャラクタを解析することにより、異なるロードプロセスに基づく2種類の自己調整修理と最適化演算子を設計する。 これら2種類の演算子に適した汎用離散フレームワーク(DTLBO)を設計するために,新しい学習型最適化アルゴリズム(TLBO)を用いる。 さらに,DTLBOには,検索と自然選択の相反するエリートな機構を導入し,集団の観点からアルゴリズムの性能をさらに向上させる。 最後に,提案アルゴリズムの有効性を検証するために,ベンチマークセットで実験的比較を行った。 実験の結果,アイテムベースの自己調整最適化アルゴリズムであるI-DTLBOは優れており,SUKPを解くための他のスワムインテリジェンス手法よりも優れていることがわかった。 IDTLBOアルゴリズムは、現在のSwarmインテリジェンスアルゴリズムの上界に到達し、SUKPを10インスタンスで解き、15インスタンスで新たな上界を得た。 要素ローディングに基づくアルゴリズムE-DTLBOは、小さなデータセットとミドルデータセットではわずかに良いが、大規模インスタンスでは悪い。 要素ベース設計はSUKPの解決には適していない。

The set-union knapsack problem (SUKP) is a constrained composed optimization problem. It is more difficulty for solving because values and weights depend on items and elements respectively. In this paper, we present two self-adjusting optimization algorithms for approximating SUKP from items and elements perspective respectively. By analyzing the dynamic characters in the SUKP, we design two types of self-adjusting repair and optimization operators that are based on the different loading process. We use the novel teaching-learning-based optimization algorithm (TLBO) to design a general discrete framework (DTLBO) suitable for these two types of operators. In addition, we introduce elite opposite search and natural selection mechanism into DTLBO to furtherly improve the performance of the algorithm from the perspective of population. Finally, we performed experimental comparisons on benchmark sets to verify the effectiveness of the proposed algorithm. The experimental results show that the item-based self-adjusting optimization algorithm I-DTLBO is outstanding, and the algorithm is superior to the other swarm intelligence methods for solving SUKP. IDTLBO algorithm reaches the upper boundary of the current swarm intelligence algorithms for solving SUKP in 10 instances, and gotten new upper boundary in 15 instances. The algorithm E-DTLBO based on element loading only perform slightly better on small and middle data sets, but worse on large-scale instances. It shows that element-based design is not suitable for solving SUKP.
翻訳日:2022-02-20 16:37:33 公開日:2022-01-23
# 意識の公理化と応用

Axiomatizing consciousness, with applications ( http://arxiv.org/abs/2202.05700v1 )

ライセンス: Link先を確認
Henk Barendregt and Antonino Raffone(参考訳) 意識は、仏教の洞察と心理学、コンピュータ科学の論理学、認知神経科学に着想を得て、公理的に導入され、$compound$、$discrete$、そして(非決定論的に)$computable$という、$configurations$のストリームからなる。 この文脈の中では、自己、集中、マインドフルネス、そして様々な形の苦しみの概念が定義できる。 この設定の応用として、集中とマインドフルネスの複合開発がいかにして減退し、最終的にいくつかの苦悩の形を根絶するかが示される。

Consciousness will be introduced axiomatically, inspired by Buddhist insight meditation and psychology, logic in computer science, and cognitive neuroscience, as consisting of a stream of $configurations$ that is $compound$, $discrete$, and (non-deterministically) $computable$. Within this context the notions of self, concentration, mindfulness, and various forms of suffering can be defined. As an application of this set up, it will be shown how a combined development of concentration and mindfulness can attenuate and eventually eradicate some of the forms of suffering.
翻訳日:2022-02-20 16:37:08 公開日:2022-01-23
# (参考訳) コントラスト学習によるグラディエント誘導型教師なしテキストスタイル転送

Gradient-guided Unsupervised Text Style Transfer via Contrastive Learning ( http://arxiv.org/abs/2202.00469v1 )

ライセンス: CC BY 4.0
Chenghao Fan, Ziao Li, Wei wei(参考訳) テキストスタイル転送は、テキスト生成の問題であり、コンテンツの不変性を保ちながら、与えられた文のスタイルをターゲットに変更することを目的としている。 並列データセットは自然に不足しているため、最近の研究は主に教師なしの方法で問題を解決することに焦点を当てている。 しかし、それまでの勾配に基づく作品は、一般的に下記の欠陥、すなわち(1)コンテンツマイグレーションに悩まされる。 以前のアプローチでは、コンテンツ不変性の明示的なモデリングが欠如しており、したがって、元の文と転送された文間のコンテンツシフトに影響を受けやすい。 (2) スタイルの誤分類。 勾配誘導アプローチの自然な欠点は、推論過程が逆攻撃列と同質であり、遅延最適化が誤分類による分類器への攻撃に容易になり得ることである。 これにより、高い転送精度を達成することが困難になる。 そこで本研究では,テキストスタイル転送のためのコントラスト的パラダイムによる新しい勾配誘導モデルを提案し,類似した意味文を明示的に収集し,それら2つの問題を緩和するシム構造に基づくスタイル分類器を設計する。 2つのデータセットを実験した結果,提案手法の有効性が得られた。

Text style transfer is a challenging text generation problem, which aims at altering the style of a given sentence to a target one while keeping its content unchanged. Since there is a natural scarcity of parallel datasets, recent works mainly focus on solving the problem in an unsupervised manner. However, previous gradient-based works generally suffer from the deficiencies as follows, namely: (1) Content migration. Previous approaches lack explicit modeling of content invariance and are thus susceptible to content shift between the original sentence and the transferred one. (2) Style misclassification. A natural drawback of the gradient-guided approaches is that the inference process is homogeneous with a line of adversarial attack, making latent optimization easily becomes an attack to the classifier due to misclassification. This leads to difficulties in achieving high transfer accuracy. To address the problems, we propose a novel gradient-guided model through a contrastive paradigm for text style transfer, to explicitly gather similar semantic sentences, and to design a siamese-structure based style classifier for alleviating such two issues, respectively. Experiments on two datasets show the effectiveness of our proposed approach, as compared to the state-of-the-arts.
翻訳日:2022-02-06 09:51:51 公開日:2022-01-23
# 深層学習によるcovid-19における輸出入為替レート収束因子の世界貿易予測のシミュレーション

Simulating Using Deep Learning The World Trade Forecasting of Export-Import Exchange Rate Convergence Factor During COVID-19 ( http://arxiv.org/abs/2201.12291v1 )

ライセンス: Link先を確認
Effat Ara Easmin Lucky, Md. Mahadi Hasan Sany, Mumenunnesa Keya, Md. Moshiur Rahaman, Umme Habiba Happy, Sharun Akter Khushbu, Md. Arid Hasan(参考訳) 貿易では、通常、国と国の間の商品の交換を意味する。 国際貿易は経済繁栄指数のバロメーターであり、各国は資源に過度に依存しているため、国際貿易は不可欠である。 貿易は世界の健康危機、生命と生活を救うために重要である。 NZ Tatauranga Aotearoaから「貿易におけるCOVID19の影響」というデータセットを収集し、深層学習モデルを用いて世界貿易におけるCOVID-19の影響を持続的に予測するプロセスを開発した。 調査では,コビッド19期において,毎日の輸入・輸出の上昇・減少が正確に予測された180日間の貿易予測を行った。 この予測を満たすため、2015年1月1日から2021年5月30日までの全ての国、すべての商品、およびすべての輸送システムに関するデータを収集し、コビッド19期の次の180日間の世界貿易状況を回復した。 深層学習法は、深層観測の分野で投資家と研究者の両方から等しく注目されている。 本研究は長期記憶を用いて世界貿易を予測する。 時系列分析は、ある資産、セキュリティ、経済が時間とともにどのように変化するかを見るのに有用である。 時系列分析は、過去の分析において未来の予測を異なるものにするために重要な役割を担い、ある要因が周期的に特定の変数に影響を与えることが観察できる。 時系列を通じて、様々な経済変化や貿易の影響が時間とともにどのように変化するか観察することができる。 これらの変更をレビューすることで、将来取るべきステップに気付くことができ、それに応じて輸入・輸出に関してより注意を払うことができる。 我々の時系列分析から、LSTMモデルは、貿易の観点で将来の世界の輸入・輸出状況について非常に好意的な考えを抱いていると言える。

By trade we usually mean the exchange of goods between states and countries. International trade acts as a barometer of the economic prosperity index and every country is overly dependent on resources, so international trade is essential. Trade is significant to the global health crisis, saving lives and livelihoods. By collecting the dataset called "Effects of COVID19 on trade" from the state website NZ Tatauranga Aotearoa, we have developed a sustainable prediction process on the effects of COVID-19 in world trade using a deep learning model. In the research, we have given a 180-day trade forecast where the ups and downs of daily imports and exports have been accurately predicted in the Covid-19 period. In order to fulfill this prediction, we have taken data from 1st January 2015 to 30th May 2021 for all countries, all commodities, and all transport systems and have recovered what the world trade situation will be in the next 180 days during the Covid-19 period. The deep learning method has received equal attention from both investors and researchers in the field of in-depth observation. This study predicts global trade using the Long-Short Term Memory. Time series analysis can be useful to see how a given asset, security, or economy changes over time. Time series analysis plays an important role in past analysis to get different predictions of the future and it can be observed that some factors affect a particular variable from period to period. Through the time series it is possible to observe how various economic changes or trade effects change over time. By reviewing these changes, one can be aware of the steps to be taken in the future and a country can be more careful in terms of imports and exports accordingly. From our time series analysis, it can be said that the LSTM model has given a very gracious thought of the future world import and export situation in terms of trade.
翻訳日:2022-02-06 08:59:59 公開日:2022-01-23
# OntoProtein:遺伝子オントロジーを組み込んだタンパク質

OntoProtein: Protein Pretraining With Gene Ontology Embedding ( http://arxiv.org/abs/2201.11147v1 )

ライセンス: Link先を確認
Ningyu Zhang, Zhen Bi, Xiaozhuan Liang, Siyuan Cheng, Haosen Hong, Shumin Deng, Jiazhang Lian, Qiang Zhang, Huajun Chen(参考訳) 自己制御タンパク質言語モデルは、タンパク質表現を学習する上での有効性を証明している。 計算能力の増大に伴い、数百万の多様な配列で事前訓練された現在のタンパク質言語モデルは、パラメータスケールを百万レベルから億レベルに向上させ、著しい改善を達成できる。 しかし、これらの一般的なアプローチは知識グラフ(KG)を取り入れることを考えることは滅多になく、タンパク質表現を改善するために豊富な構造化知識事実を提供することができる。 kgsにおける情報生物学の知識は、外部の知識によってタンパク質の表現を高めることができる。 本研究では,GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。 我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。 本稿では,知識グラフとタンパク質埋め込みを共同で最適化するために,知識認識ネガティブサンプリングを用いた新しいコントラスト学習を提案する。 実験結果から,OntoProteinはTAPEベンチマークで事前学習したタンパク質言語モデルにより最先端の手法を超越し,タンパク質-タンパク質相互作用のベースラインやタンパク質機能予測よりも優れた性能が得られることが示された。 コードとデータセットはhttps://github.com/zjunlp/OntoProtein.comで入手できる。

Self-supervised protein language models have proved their effectiveness in learning the proteins representations. With the increasing computational power, current protein language models pre-trained with millions of diverse sequences can advance the parameter scale from million-level to billion-level and achieve remarkable improvement. However, those prevailing approaches rarely consider incorporating knowledge graphs (KGs), which can provide rich structured knowledge facts for better protein representations. We argue that informative biology knowledge in KGs can enhance protein representation with external knowledge. In this work, we propose OntoProtein, the first general framework that makes use of structure in GO (Gene Ontology) into protein pre-training models. We construct a novel large-scale knowledge graph that consists of GO and its related proteins, and gene annotation texts or protein sequences describe all nodes in the graph. We propose novel contrastive learning with knowledge-aware negative sampling to jointly optimize the knowledge graph and protein embedding during pre-training. Experimental results show that OntoProtein can surpass state-of-the-art methods with pre-trained protein language models in TAPE benchmark and yield better performance compared with baselines in protein-protein interaction and protein function prediction. Code and datasets are available in https://github.com/zjunlp/OntoProtein.
翻訳日:2022-01-28 14:01:45 公開日:2022-01-23
# (参考訳) ai採用におけるパーソナリティ予測の有効性検証のための外部安定性監査

External Stability Auditing to Test the Validity of Personality Prediction in AI Hiring ( http://arxiv.org/abs/2201.09151v1 )

ライセンス: CC BY-SA 4.0
Alene K. Rhea, Kelsey Markey, Lauren D'Arinzo, Hilke Schellmann, Mona Sloane, Paul Squires, Julia Stoyanovich(参考訳) 自動化された雇用システムは、すべての高度なaiシステムの最速開発のひとつだ。 アルゴリズムによるパーソナリティテストは、心理計測テストからの洞察を使用し、求職者の履歴書やソーシャルメディアのプロフィールに基づいて、将来の成功を示すパーソナリティ特性を明らかにすることを約束する。 このようなシステムの妥当性を,生成する出力の安定性を用いて疑問視し,信頼性は必要ではあるが十分ではないことを指摘した。 私たちのアプローチは (a)アルゴリズムによる人格検査による予測の安定性の外部監査のための方法論を開発し、 b) humantic ai と crystal の2つのシステムの監査において,この方法論をインスタンス化する。 重要なのは、心理計測テストでなされた仮定 -- 個性は有意義で測定可能な構成であり、パーソナリティ特性は仕事における将来の成功を示すものである -- に挑戦または肯定するのではなく、アルゴリズム的パーソナリティテスト自体のベンダーによってなされる基盤となる前提をテストするための方法論を構築します。 ヒューマティックAIとクリスタルの監査では、両システムとも測定の重要面に関してかなりの不安定性を示しており、有効な試験機器とはみなされない。 例えば、CrystalはPDFと生のテキストフォーマットで同じ履歴書が与えられた場合、異なるパーソナリティスコアを頻繁に計算し、アルゴリズムによるパーソナリティテストの出力が入力のジョブ非関連なバリエーションで安定であるという仮定に違反している。 その他の注目すべき発見として、Humantic AIによる永続的(しばしば正しくない)データリンクの証拠がある。

Automated hiring systems are among the fastest-developing of all high-stakes AI systems. Among these are algorithmic personality tests that use insights from psychometric testing, and promise to surface personality traits indicative of future success based on job seekers' resumes or social media profiles. We interrogate the validity of such systems using stability of the outputs they produce, noting that reliability is a necessary, but not a sufficient, condition for validity. Our approach is to (a) develop a methodology for an external audit of stability of predictions made by algorithmic personality tests, and (b) instantiate this methodology in an audit of two systems, Humantic AI and Crystal. Crucially, rather than challenging or affirming the assumptions made in psychometric testing -- that personality is a meaningful and measurable construct, and that personality traits are indicative of future success on the job -- we frame our methodology around testing the underlying assumptions made by the vendors of the algorithmic personality tests themselves. In our audit of Humantic AI and Crystal, we find that both systems show substantial instability with respect to key facets of measurement, and so cannot be considered valid testing instruments. For example, Crystal frequently computes different personality scores if the same resume is given in PDF vs. in raw text format, violating the assumption that the output of an algorithmic personality test is stable across job-irrelevant variations in the input. Among other notable findings is evidence of persistent -- and often incorrect -- data linkage by Humantic AI.
翻訳日:2022-01-28 03:05:33 公開日:2022-01-23
# (参考訳) ODoSフィルタと形状特徴を用いたCT画像における肺吸入セグメンテーション

Pulmonary Fissure Segmentation in CT Images Based on ODoS Filter and Shape Features ( http://arxiv.org/abs/2201.09163v1 )

ライセンス: CC BY 4.0
Yuanyuan Peng, Pengpeng Luan, Hongbin Tu, Xiong Li, Ping Zhou(参考訳) 肺解剖学の事前知識は肺疾患の診断において重要な役割を果たす。 CT画像では, 肺胞分画は様々な要因により, 強迫性ミッションである。 この課題に対処するために,ODoSフィルタと形状特徴に基づく肺胞分画法に有用なアプローチを提案する。 本稿では,向き情報とマグニチュード情報を融合したodosフィルタを採用し,肺裂とクラッタを効果的に区別するfissure拡張のための構造特徴を強調する。 2次元空間における肺裂の線状構造と方位場における3次元空間における平面構造との相乗効果により、方位曲率基準と方位分割スキームとを融合させ、異なる方位分割における分裂パッチやその他の構造を分離し、クラッタの部分を抑制することができる。 大きさ場における肺細管と管状構造の形状差を考慮し, 形状測定法と3次元骨格化モデルを組み合わせて肺細管を切断する。 本手法を, LOLA11データセットから取得した55個の胸部CTスキャンに適用した場合, F1スコア, False Discovery Rate (FDR), False Negative Rate (FNR)はそれぞれ0.896, 0.109, 0.100であり, 提案法は良好な肺線量セグメンテーション性能を示した。

Priori knowledge of pulmonary anatomy plays a vital role in diagnosis of lung diseases. In CT images, pulmonary fissure segmentation is a formidable mission due to various of factors. To address the challenge, an useful approach based on ODoS filter and shape features is presented for pulmonary fissure segmentation. Here, we adopt an ODoS filter by merging the orientation information and magnitude information to highlight structure features for fissure enhancement, which can effectively distinguish between pulmonary fissures and clutters. Motivated by the fact that pulmonary fissures appear as linear structures in 2D space and planar structures in 3D space in orientation field, an orientation curvature criterion and an orientation partition scheme are fused to separate fissure patches and other structures in different orientation partition, which can suppress parts of clutters. Considering the shape difference between pulmonary fissures and tubular structures in magnitude field, a shape measure approach and a 3D skeletonization model are combined to segment pulmonary fissures for clutters removal. When applying our scheme to 55 chest CT scans which acquired from a publicly available LOLA11 datasets, the median F1-score, False Discovery Rate (FDR), and False Negative Rate (FNR) respectively are 0.896, 0.109, and 0.100, which indicates that the presented method has a satisfactory pulmonary fissure segmentation performance.
翻訳日:2022-01-28 03:04:20 公開日:2022-01-23
# (参考訳) 感情認識のための事前学習型音声変換器

A Pre-trained Audio-Visual Transformer for Emotion Recognition ( http://arxiv.org/abs/2201.09165v1 )

ライセンス: CC BY 4.0
Minh Tran, Mohammad Soleymani(参考訳) 本稿では,VoxCeleb2データセットから約4000人の有名人から500k以上の発話をトレーニングした事前学習型音声-視覚変換器を提案する。 このモデルは、人間の顔と聴覚行動の相互作用から有用な情報を抽出し、感情認識に適用することを目的としている。 本研究では,2つのデータセット,すなわち CREMAD-D (感情分類) と MSP-IMPROV (連続感情回帰) のモデル性能を評価する。 実験の結果, 事前学習モデルの微調整により, 連続感情認識における感情分類精度が5~7%向上し, 一致相関係数 (ccc) が0.03~0.09向上した。 また,低リソース環境下での事前学習モデルの微調整の堅牢性を示す。 トレーニングセットの10%しか提供されていないため、トレーニング済みモデルの微調整により、少なくとも10%の感情認識精度が向上し、CCCスコアが0.1以上向上する。

In this paper, we introduce a pretrained audio-visual Transformer trained on more than 500k utterances from nearly 4000 celebrities from the VoxCeleb2 dataset for human behavior understanding. The model aims to capture and extract useful information from the interactions between human facial and auditory behaviors, with application in emotion recognition. We evaluate the model performance on two datasets, namely CREMAD-D (emotion classification) and MSP-IMPROV (continuous emotion regression). Experimental results show that fine-tuning the pre-trained model helps improving emotion classification accuracy by 5-7% and Concordance Correlation Coefficients (CCC) in continuous emotion recognition by 0.03-0.09 compared to the same model trained from scratch. We also demonstrate the robustness of finetuning the pre-trained model in a low-resource setting. With only 10% of the original training set provided, fine-tuning the pre-trained model can lead to at least 10% better emotion recognition accuracy and a CCC score improvement by at least 0.1 for continuous emotion recognition.
翻訳日:2022-01-28 02:49:23 公開日:2022-01-23
# (参考訳) 隠れたデザインをもつアートワークの混合x線画像分離

Mixed X-Ray Image Separation for Artworks with Concealed Designs ( http://arxiv.org/abs/2201.09167v1 )

ライセンス: CC BY 4.0
Wei Pu, Jun-Jie Huang, Barak Sober, Nathan Daly, Catherine Higgitt, Ingrid Daubechies, Pier Luigi Dragotti, Miguel Rodigues(参考訳) 本稿では,表層画と裏面画の両面からのコントリビューションを含む,裏面を隠蔽した絵画のX線画像(例えば,画家による絵画支援の再利用や作曲の改訂など)に焦点を当てる。 特に,これらの絵画のX線画像に適用可能な,自己教師型深層学習に基づく画像分離手法を提案し,これを2つの仮説的X線画像に分割する。 復元された画像の1つは、隠し絵のx線画像と関連しており、もう1つは、可視絵画のx線に関する情報のみを含んでいる。 提案する分離ネットワークは,解析と合成サブネットワークの2つの構成要素から構成される。 解析サブネットワークはアルゴリズム展開法を用いて設計した学習結合型反復縮小しきい値アルゴリズム(lcista)に基づいており、合成サブネットワークは複数の線形写像からなる。 学習アルゴリズムは、混合x線画像と分離画像の両方を含むサンプルセットを必要とせずに、完全に自己教師付きで動作する。 提案手法は,フランシスコ・デ・ゴヤの隠れた内容を持つ実画『Do\~na Isabel de Porcel』において,その効果を示す。

In this paper, we focus on X-ray images of paintings with concealed sub-surface designs (e.g., deriving from reuse of the painting support or revision of a composition by the artist), which include contributions from both the surface painting and the concealed features. In particular, we propose a self-supervised deep learning-based image separation approach that can be applied to the X-ray images from such paintings to separate them into two hypothetical X-ray images. One of these reconstructed images is related to the X-ray image of the concealed painting, while the second one contains only information related to the X-ray of the visible painting. The proposed separation network consists of two components: the analysis and the synthesis sub-networks. The analysis sub-network is based on learned coupled iterative shrinkage thresholding algorithms (LCISTA) designed using algorithm unrolling techniques, and the synthesis sub-network consists of several linear mappings. The learning algorithm operates in a totally self-supervised fashion without requiring a sample set that contains both the mixed X-ray images and the separated ones. The proposed method is demonstrated on a real painting with concealed content, Do\~na Isabel de Porcel by Francisco de Goya, to show its effectiveness.
翻訳日:2022-01-28 02:41:14 公開日:2022-01-23
# (参考訳) テキスト・ビデオ検索のための読解戦略に基づく視覚表現学習

Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval ( http://arxiv.org/abs/2201.09168v1 )

ライセンス: CC BY 4.0
Jianfeng Dong, Yabing Wang, Xianke Chen, Xiaoye Qu, Xirong Li, Yuan He, Xun Wang(参考訳) 本稿では,テキストからビデオへの検索を目的とし,自然言語文形式でのクエリを与えられた場合,多数の未ラベルビデオから,与えられたクエリに意味的に関連のあるビデオの検索を依頼する。 このタスクの成功は、ビデオと文の両方を共通の空間に投影して意味的類似性を計算するクロスモーダル表現学習に依存する。 本研究は,テキストからビデオへの検索に不可欠な要素である映像表現学習に焦点をあてる。 そこで,人間の読書戦略に触発されて,映像表現の表現にrivrl(reading-strategy inspired visual representation learning)を提案する。 プレビューブランチは、ビデオの概要情報を簡潔にキャプチャするために設計され、集中読み込みブランチは、より詳細な情報を得るために設計されている。 さらに、集中読み取りブランチは、プレビューブランチがキャプチャしたビデオ概要を認識している。 このような包括的情報は、よりきめ細かな特徴を抽出する集約読解枝に有用である。 3つのデータセットに対する大規模な実験を行い、我々のモデルRIVRLはTGIFとVATEXの新たな最先端を実現する。 さらに,msr-vttでは,2つのビデオ機能を用いたモデルが,大規模howto100mデータセットで事前トレーニングされたモデルよりも優れた7つのビデオ機能を用いて,最先端と同等のパフォーマンスを示している。

This paper aims for the task of text-to-video retrieval, where given a query in the form of a natural-language sentence, it is asked to retrieve videos which are semantically relevant to the given query, from a great number of unlabeled videos. The success of this task depends on cross-modal representation learning that projects both videos and sentences into common spaces for semantic similarity computation. In this work, we concentrate on video representation learning, an essential component for text-to-video retrieval. Inspired by the reading strategy of humans, we propose a Reading-strategy Inspired Visual Representation Learning (RIVRL) to represent videos, which consists of two branches: a previewing branch and an intensive-reading branch. The previewing branch is designed to briefly capture the overview information of videos, while the intensive-reading branch is designed to obtain more in-depth information. Moreover, the intensive-reading branch is aware of the video overview captured by the previewing branch. Such holistic information is found to be useful for the intensive-reading branch to extract more fine-grained features. Extensive experiments on three datasets are conducted, where our model RIVRL achieves a new state-of-the-art on TGIF and VATEX. Moreover, on MSR-VTT, our model using two video features shows comparable performance to the state-of-the-art using seven video features and even outperforms models pre-trained on the large-scale HowTo100M dataset.
翻訳日:2022-01-28 02:21:42 公開日:2022-01-23
# (参考訳) 多変量時系列における教師なし異常検出のための動的閾値付きアテンションベースConvLSTMオートエンコーダ

An Attention-based ConvLSTM Autoencoder with Dynamic Thresholding for Unsupervised Anomaly Detection in Multivariate Time Series ( http://arxiv.org/abs/2201.09172v1 )

ライセンス: CC BY 4.0
Tareq Tayeh, Sulaiman Aburakhia, Ryan Myers, Abdallah Shami(参考訳) スマートマニュファクチャリングの複雑なシステムによって大量の多変量時系列データが生成されているため、運用上のリスクとシステムオペレーターの監視負担を軽減するために、改良された異常検出フレームワークが必要である。 しかし、このようなフレームワークの構築は困難であり、十分な量の欠陥のあるトレーニングデータが入手できないことが多く、異なる時間ステップ間で時間的およびコンテキスト的依存関係をキャプチャし、ノイズに強いフレームワークが必要である。 本稿では,多変量時系列における異常検出と診断のための動的スレッショルド(ACLAE-DT)フレームワークを用いた非教師付き注意に基づく畳み込み長短期記憶(ConvLSTM)自動エンコーダを提案する。 このフレームワークは、データの前処理とエンリッチメントから始まり、時系列のペア間の相関をキャプチャして、さまざまな時間ステップにわたるシステムステータスを特徴付ける機能イメージを構築する。 その後、構築された特徴画像を注意に基づくConvLSTMオートエンコーダに入力し、構築された特徴画像を符号化し、時間的振る舞いを捉え、次いで圧縮された知識表現を復号して特徴画像入力を再構成する。 その後、再構成エラーを計算し、統計に基づく動的しきい値決定機構により異常を検出し診断する。 実生活生産データを用いた評価の結果, 実験環境の違いによる最先端手法の性能向上効果が示された。

As a substantial amount of multivariate time series data is being produced by the complex systems in Smart Manufacturing, improved anomaly detection frameworks are needed to reduce the operational risks and the monitoring burden placed on the system operators. However, building such frameworks is challenging, as a sufficiently large amount of defective training data is often not available and frameworks are required to capture both the temporal and contextual dependencies across different time steps while being robust to noise. In this paper, we propose an unsupervised Attention-based Convolutional Long Short-Term Memory (ConvLSTM) Autoencoder with Dynamic Thresholding (ACLAE-DT) framework for anomaly detection and diagnosis in multivariate time series. The framework starts by pre-processing and enriching the data, before constructing feature images to characterize the system statuses across different time steps by capturing the inter-correlations between pairs of time series. Afterwards, the constructed feature images are fed into an attention-based ConvLSTM autoencoder, which aims to encode the constructed feature images and capture the temporal behavior, followed by decoding the compressed knowledge representation to reconstruct the feature images input. The reconstruction errors are then computed and subjected to a statistical-based, dynamic thresholding mechanism to detect and diagnose the anomalies. Evaluation results conducted on real-life manufacturing data demonstrate the performance strengths of the proposed approach over state-of-the-art methods under different experimental settings.
翻訳日:2022-01-28 01:45:12 公開日:2022-01-23
# (参考訳) pvCNN:プライバシ保護と検証可能な畳み込みニューラルネットワークテスト

pvCNN: Privacy-Preserving and Verifiable Convolutional Neural Network Testing ( http://arxiv.org/abs/2201.09186v1 )

ライセンス: CC BY 4.0
Jiasi Weng and Jian Weng and Gui Tang and Anjia Yang and Ming Li and Jia-Nan Liu(参考訳) 本稿では,CNNモデル開発者が,モデルプライバシを尊重しつつ,複数のテスタの公開データよりも真正なCNNパフォーマンスをユーザに納得させることのできる,プライバシ保護と検証可能な畳み込みニューラルネットワーク(CNN)テストのための新しいアプローチを提案する。 セキュリティと効率の両立を図るため、同型暗号化(HE)とゼロ知識簡潔な知識の非対話的議論(zk-SNARK)をCNNテストと適切に統合することで、3つの新しい取り組みを行う。 まず、テスト対象のCNNモデルを、モデル開発者がローカルに保持するプライベート部分と、外部サーバにアウトソースされたパブリック部分に戦略的に分割する。 そして、プライベート部は、テスタが送信したHE保護されたテストデータ上で動作し、その出力を公開部へ送信し、その後のCNNテストの計算を行う。 第2に、上記のcnnテストの正確性は、2次元(2次元)畳み込み操作における証明オーバーヘッドの最適化に重点を置いて、zk-snarkベースの証明を生成することによって実現される。 具体的には,複数のフィルタと入力間の2次元畳み込み演算をバッチ方式で表現する単一の乗算ゲートを持つ,新しい二次行列演算回路(qmps)を提案する。 第3に、同一のcnnモデルに対して複数の証明を集約し、異なるテストデータ(すなわち異なるステートメント)を1つの証明に集約し、集約された証明の妥当性が元の複数の証明の妥当性を示すことを保証する。 最後に,我々のqmps ベースの zk-snark は,既存の qaps ベースの zk-snark よりも約 13.9$\times$fast であり,高次元行列乗算では 17.6$\times$fast であることを示した。

This paper proposes a new approach for privacy-preserving and verifiable convolutional neural network (CNN) testing, enabling a CNN model developer to convince a user of the truthful CNN performance over non-public data from multiple testers, while respecting model privacy. To balance the security and efficiency issues, three new efforts are done by appropriately integrating homomorphic encryption (HE) and zero-knowledge succinct non-interactive argument of knowledge (zk-SNARK) primitives with the CNN testing. First, a CNN model to be tested is strategically partitioned into a private part kept locally by the model developer, and a public part outsourced to an outside server. Then, the private part runs over HE-protected test data sent by a tester and transmits its outputs to the public part for accomplishing subsequent computations of the CNN testing. Second, the correctness of the above CNN testing is enforced by generating zk-SNARK based proofs, with an emphasis on optimizing proving overhead for two-dimensional (2-D) convolution operations, since the operations dominate the performance bottleneck during generating proofs. We specifically present a new quadratic matrix programs (QMPs)-based arithmetic circuit with a single multiplication gate for expressing 2-D convolution operations between multiple filters and inputs in a batch manner. Third, we aggregate multiple proofs with respect to a same CNN model but different testers' test data (i.e., different statements) into one proof, and ensure that the validity of the aggregated proof implies the validity of the original multiple proofs. Lastly, our experimental results demonstrate that our QMPs-based zk-SNARK performs nearly 13.9$\times$faster than the existing QAPs-based zk-SNARK in proving time, and 17.6$\times$faster in Setup time, for high-dimension matrix multiplication.
翻訳日:2022-01-27 13:18:38 公開日:2022-01-23
# (参考訳) 最適移動のレンズを通したプールの再訪

Revisiting Pooling through the Lens of Optimal Transport ( http://arxiv.org/abs/2201.09191v1 )

ライセンス: CC BY 4.0
Minjie Cheng and Hongteng Xu(参考訳) ポーリングは多くの機械学習モデルやタスクにおいて最も重要な操作の1つであり、その実装は実際は経験的であることが多い。 本稿では,最適移動のレンズを通した新規でソリッドなアルゴリズム・プーリング・フレームワークを開発した。 特に,既存のプール法の多くは,不均衡な最適輸送(UOT)問題の特殊化と等価であることを示す。 UOT問題のパラメータを学習可能にするため、ほとんどの既存のプーリングメソッドを同じフレームワークに統合し、ニューラルネットワークのための一般化されたプーリング層である「textit{UOT-Pooling}」を提案する。 さらに,spinhorn scalingアルゴリズムとbregman admmアルゴリズムに基づいて,uot-poolingを2つの異なるアーキテクチャで実装し,その安定性と効率を定量的に検討した。 マルチインスタンスラーニング(MIL)とグラフ埋め込みという,2つのアプリケーションシナリオでUOT-Poolingレイヤをテストする。 これら2つのタスクの最先端モデルでは、従来のプール層を UOT-Pooling 層に置き換えることで、パフォーマンスを向上させることができます。

Pooling is one of the most significant operations in many machine learning models and tasks, whose implementation, however, is often empirical in practice. In this paper, we develop a novel and solid algorithmic pooling framework through the lens of optimal transport. In particular, we demonstrate that most existing pooling methods are equivalent to solving some specializations of an unbalanced optimal transport (UOT) problem. Making the parameters of the UOT problem learnable, we unify most existing pooling methods in the same framework, and accordingly, propose a generalized pooling layer called \textit{UOT-Pooling} for neural networks. Moreover, we implement the UOT-Pooling with two different architectures, based on the Sinkhorn scaling algorithm and the Bregman ADMM algorithm, respectively, and study their stability and efficiency quantitatively. We test our UOT-Pooling layers in two application scenarios, including multi-instance learning (MIL) and graph embedding. For state-of-the-art models of these two tasks, we can improve their performance by replacing conventional pooling layers with our UOT-Pooling layers.
翻訳日:2022-01-27 11:59:11 公開日:2022-01-23
# (参考訳) スパイクニューラルネットワークのためのニューラルアーキテクチャ探索

Neural Architecture Search for Spiking Neural Networks ( http://arxiv.org/abs/2201.10355v1 )

ライセンス: CC BY 4.0
Youngeun Kim, Yuhang Li, Hyoungseob Park, Yeshwanth Venkatesha, Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)は、従来のニューラルネットワーク(ANN)に代わるエネルギー効率の高い代替品として注目されている。 しかし、以前のSNN手法ではANNのようなアーキテクチャ(VGG-NetやResNetなど)を使用しており、これはSNNにおけるバイナリ情報の時間的シーケンス処理に準最適性能を提供する。 そこで本稿では,より優れたSNNアーキテクチャを見つけるための新しいニューラルネットワーク探索(NAS)手法を提案する。 初期化時のアクティベーションパターンから最適なアーキテクチャを求める最近のNASアプローチに着想を得て、トレーニングなしで異なるデータサンプル間で多様なスパイクアクティベーションパターンを表現できるアーキテクチャを選択する。 さらに,スパイク間の時間的相関性を活用するために,レイヤ間の後方接続(つまり時間的フィードバック接続)と同様にフィードフォワード接続を探索する。 興味深いことに,検索アルゴリズムによって発見されたSNASNetは,時間的情報の利用に適したSNNアーキテクチャの設計の重要性を示す。 我々は3つの画像認識ベンチマークで広範囲に実験を行い、SNASNetが時間ステップ(5時間ステップ)を大幅に短縮して最先端の性能を達成することを示す。

Spiking Neural Networks (SNNs) have gained huge attention as a potential energy-efficient alternative to conventional Artificial Neural Networks (ANNs) due to their inherent high-sparsity activation. However, most prior SNN methods use ANN-like architectures (e.g., VGG-Net or ResNet), which could provide sub-optimal performance for temporal sequence processing of binary information in SNNs. To address this, in this paper, we introduce a novel Neural Architecture Search (NAS) approach for finding better SNN architectures. Inspired by recent NAS approaches that find the optimal architecture from activation patterns at initialization, we select the architecture that can represent diverse spike activation patterns across different data samples without training. Furthermore, to leverage the temporal correlation among the spikes, we search for feed forward connections as well as backward connections (i.e., temporal feedback connections) between layers. Interestingly, SNASNet found by our search algorithm achieves higher performance with backward connections, demonstrating the importance of designing SNN architecture for suitably using temporal information. We conduct extensive experiments on three image recognition benchmarks where we show that SNASNet achieves state-of-the-art performance with significantly lower timesteps (5 timesteps).
翻訳日:2022-01-27 11:26:59 公開日:2022-01-23
# (参考訳) 否定環境における視覚に基づくuav定位システム

Vision-Based UAV Localization System in Denial Environments ( http://arxiv.org/abs/2201.09201v1 )

ライセンス: CC BY 4.0
Ming Dai and Jinglin Huang and Jiedong Zhuang and Wenbo Lan and Yongheng Cai and Enhui Zheng(参考訳) 無人航空機(UAV)の局部化能力はGNSS(Global Navigation Satellite System)の否定的環境において重要である。 本研究の目的は,uav自体を純粋に視覚的なアプローチで位置決めする問題を検討することである。 衛星画像がuav画像と位置情報との橋渡しであるgss信号をuavが取得しない場合、カメラが取得した画像を介して対応するジオタグ付き衛星画像に一致させる。 しかし、UAVに基づく以前のクロスビューデータセットのサンプリングポイントは空間分布において離散的であり、クラス間の関係は確立されていない。 UAV-ローカライゼーションの実際のプロセスでは、UAV運動の連続性のため、近接位置分布のクラス間特徴類似性が小さくなければならない。 そこで本研究では,GNSSデニアル環境での高精度なUAV局所化を実現するために,空間距離とスケール変換による課題を解決することを目的とした,DenseUAVと呼ばれるUAV位置決めタスクの集中的データセットを改訂した。 さらに,宇宙空間におけるUAVの連続性を利用して,モデルマッチングの精度を評価するために,SDMと呼ばれる新しい連続型評価指標を考案した。 具体的には、シアムネットワークとメートル法学習のアイデアにより、空間的に微妙な特徴の捕捉を強化するためにトランスフォーマーベースのベースラインを構築した。 遠距離局所化バイアスの問題を解決するために, 隣接探索後処理戦略が提案されている。

Unmanned Aerial Vehicle (UAV) localization capability is critical in a Global Navigation Satellite System (GNSS) denial environment. The aim of this paper is to investigate the problem of locating the UAV itself through a purely visual approach. This task mainly refers to: matching the corresponding geo-tagged satellite images through the images acquired by the camera when the UAV does not acquire GNSS signals, where the satellite images are the bridge between the UAV images and the location information. However, the sampling points of previous cross-view datasets based on UAVs are discrete in spatial distribution and the inter-class relationships are not established. In the actual process of UAV-localization, the inter-class feature similarity of the proximity position distribution should be small due to the continuity of UAV movement in space. In view of this, this paper has reformulated an intensive dataset for UAV positioning tasks, which is named DenseUAV, aiming to solve the problems caused by spatial distance and scale transformation in practical application scenarios, so as to achieve high-precision UAV-localization in GNSS denial environment. In addition, a new continuum-type evaluation metric named SDM is designed to evaluate the accuracy of model matching by exploiting the continuum of UAVs in space. Specifically, with the ideas of siamese networks and metric learning, a transformer-based baseline was constructed to enhance the capture of spatially subtle features. Ultimately, a neighbor-search post-processing strategy was proposed to solve the problem of large distance localisation bias.
翻訳日:2022-01-26 14:01:54 公開日:2022-01-23
# (参考訳) uav-viewジオローカライズのためのトランスベース特徴セグメンテーションと領域アライメント法

A Transformer-Based Feature Segmentation and Region Alignment Method For UAV-View Geo-Localization ( http://arxiv.org/abs/2201.09206v1 )

ライセンス: CC BY 4.0
Ming Dai and Jianhong Hu and Jiedong Zhuang and Enhui Zheng(参考訳) クロスビュージオローカライズ(cross-view geo-localization)は、異なる視点からの同じ地理的イメージ、例えば無人航空機(uav)や衛星とマッチングするタスクである。 最も難しい課題は、位置シフトと距離とスケールの不確実性である。 既存の手法は主により詳細な情報を掘り下げることを目的としている。 しかし、ロバストな特徴表現と特徴アライメントの影響を抽出することの重要性を過小評価している。 CNNベースの手法は、クロスビューなジオローカライゼーションにおいて大きな成功を収めた。 しかし、いくつかの制限があり、例えば、近隣の情報の一部を抽出できるだけであり、ある程度のスケール縮小操作によって細かい情報が失われる。 特に,FSRA(Feature Segmentation and Region Alignment)と呼ばれる簡易かつ効率的なトランスフォーマベース構造を導入し,コンテキスト情報やインスタンスの分布を理解する能力を向上させる。 FSRAは、追加の監視情報を用いることなく、トランスフォーマーの特徴マップの熱分布に基づいて領域を分割し、異なるビューで複数の特定領域を1つずつアライメントする。 最後に、FSRAは各リージョンを特徴表現のセットに統合する。 FSRAは、手動で領域を分割するのではなく、特徴写像の熱分布に基づいて自動的に分割する。 そのため、イメージに大きなシフトやスケール変更があった場合、特定のインスタンスを分割してアライメントすることができる。 また,衛星画像数と他のソースからの画像の差を克服するために,複数のサンプリング戦略を提案する。 実験により,提案手法は性能が優れ,目標位置推定とドローンナビゲーションの両タスクにおいて最先端の達成が期待できることがわかった。 コードはhttps://github.com/Dmmm1997/FSRAでリリースされる。

Cross-view geo-localization is a task of matching the same geographic image from different views, e.g., unmanned aerial vehicle (UAV) and satellite. The most difficult challenges are the position shift and the uncertainty of distance and scale. Existing methods are mainly aimed at digging for more comprehensive fine-grained information. However, it underestimates the importance of extracting robust feature representation and the impact of feature alignment. The CNN-based methods have achieved great success in cross-view geo-localization. However it still has some limitations, e.g., it can only extract part of the information in the neighborhood and some scale reduction operations will make some fine-grained information lost. In particular, we introduce a simple and efficient transformer-based structure called Feature Segmentation and Region Alignment (FSRA) to enhance the model's ability to understand contextual information as well as to understand the distribution of instances. Without using additional supervisory information, FSRA divides regions based on the heat distribution of the transformer's feature map, and then aligns multiple specific regions in different views one on one. Finally, FSRA integrates each region into a set of feature representations. The difference is that FSRA does not divide regions manually, but automatically based on the heat distribution of the feature map. So that specific instances can still be divided and aligned when there are significant shifts and scale changes in the image. In addition, a multiple sampling strategy is proposed to overcome the disparity in the number of satellite images and that of images from other sources. Experiments show that the proposed method has superior performance and achieves the state-of-the-art in both tasks of drone view target localization and drone navigation. Code will be released at https://github.com/Dmmm1997/FSRA
翻訳日:2022-01-26 13:44:18 公開日:2022-01-23
# (参考訳) マルチモーダルRGB-Dビデオにおけるビジュアルオブジェクト追跡

Visual Object Tracking on Multi-modal RGB-D Videos: A Review ( http://arxiv.org/abs/2201.09207v1 )

ライセンス: CC BY 4.0
Xue-Feng Zhu, Tianyang Xu, Xiao-Jun Wu(参考訳) 視覚物体追跡の開発は数十年間続けられた。 近年、低コストのRGBDセンサーの幅広い利用可能性から、RGB-Dビデオにおける視覚的物体追跡の課題が注目されている。 従来のRGBのみのトラッキングと比較して、RGB-Dビデオは複雑なシナリオでオブジェクト追跡を容易にする情報を提供することができる。 本研究の目的は,RGB-D追跡研究の相対的知識を要約することである。 具体的には、関連するRGB-D追跡ベンチマークデータセットと、対応するパフォーマンス測定を一般化する。 また,既存のRGB-D追跡手法についても概説した。 さらに,RGB-Dトラッキング分野における今後の方向性についても検討する。

The development of visual object tracking has continued for decades. Recent years, as the wide accessibility of the low-cost RGBD sensors, the task of visual object tracking on RGB-D videos has drawn much attention. Compared to conventional RGB-only tracking, the RGB-D videos can provide more information that facilitates objecting tracking in some complicated scenarios. The goal of this review is to summarize the relative knowledge of the research filed of RGB-D tracking. To be specific, we will generalize the related RGB-D tracking benchmarking datasets as well as the corresponding performance measurements. Besides, the existing RGB-D tracking methods are summarized in the paper. Moreover, we discuss the possible future direction in the field of RGB-D tracking.
翻訳日:2022-01-26 13:13:27 公開日:2022-01-23
# (参考訳) Terra: インペラティブディープラーニングプログラムのインペラティブ・シンボリック共同実行

Terra: Imperative-Symbolic Co-Execution of Imperative Deep Learning Programs ( http://arxiv.org/abs/2201.09210v1 )

ライセンス: CC BY 4.0
Taebum Kim, Eunji Jeong, Geon-Woo Kim, Yunmo Koo, Sehoon Kim, Gyeong-In Yu, Byung-Gon Chun(参考訳) 命令型プログラミングにより、ユーザはディープニューラルネットワーク(DNN)を簡単に実装でき、最近のディープラーニング(DL)フレームワークの重要な部分になった。 近年,命令型プログラミングのユーザビリティと記号グラフ実行の最適化性能を併用するシステムが提案されている。 このようなシステムは命令型Python DLプログラムを最適化されたシンボルグラフに変換し、それらを実行する。 しかし、命令型プログラミングのユーザビリティを完全にはサポートできない。 例えば、命令型DLプログラムに対応するシンボル表現を持たないPython機能(例えば、サードパーティのライブラリ呼び出しやサポート対象の動的制御フロー)がある場合、プログラムの実行に失敗する。 この制限を克服するために,シンボルグラフ実行の最適化性能を達成しつつ,命令型DLプログラムを処理可能な命令型共実行システムTerraを提案する。 これを実現するため、terraはpythonの機能からdl操作を分離してシンボリックグラフを構築する。 次にTerraは、すべてのPython機能をサポートするために命令実行を実行し、分離された操作をシンボル実行に委譲する。 いくつかのDNNアーキテクチャを対象とした10個の命令型DLプログラムによるTerraの性能改善とカバレッジを評価した。 その結果、Terraは10の命令型DLプログラムの実行を高速化できる一方で、最先端システムの1つであるAutoGraphは5つの実行に失敗していることがわかった。

Imperative programming allows users to implement their deep neural networks (DNNs) easily and has become an essential part of recent deep learning (DL) frameworks. Recently, several systems have been proposed to combine the usability of imperative programming with the optimized performance of symbolic graph execution. Such systems convert imperative Python DL programs to optimized symbolic graphs and execute them. However, they cannot fully support the usability of imperative programming. For example, if an imperative DL program contains a Python feature with no corresponding symbolic representation (e.g., third-party library calls or unsupported dynamic control flows) they fail to execute the program. To overcome this limitation, we propose Terra, an imperative-symbolic co-execution system that can handle any imperative DL programs while achieving the optimized performance of symbolic graph execution. To achieve this, Terra builds a symbolic graph by decoupling DL operations from Python features. Then, Terra conducts the imperative execution to support all Python features, while delegating the decoupled operations to the symbolic execution. We evaluated the performance improvement and coverage of Terra with ten imperative DL programs for several DNN architectures. The results show that Terra can speed up the execution of all ten imperative DL programs, whereas AutoGraph, one of the state-of-the-art systems, fails to execute five of them.
翻訳日:2022-01-26 12:12:51 公開日:2022-01-23
# (参考訳) FN-Net:ノイズフィルタによる外周除去

FN-Net:Remove the Outliers by Filtering the Noise ( http://arxiv.org/abs/2201.09213v1 )

ライセンス: CC BY 4.0
Kai Lv(参考訳) 2つの画像の対応を確立することはコンピュータビジョンの重要な研究方向である。 2つの画像の関係を推定すると、しばしば外れ値によって乱される。 本稿では,異常値のノイズをフィルタできる畳み込みニューラルネットワークを提案する。 一対の特徴点が不整点である確率を出力し、カメラの相対的なポーズを表す必須行列を回帰することができる。 この異常値の主な原因は、前回の処理で生じたノイズである。 オフリアーズ拒絶はノイズ除去問題として扱うことができ、ソフトしきい値関数はノイズ低減に非常に良い影響を与える。 そこで,このソフトしきい値関数に基づく適応消音モジュールを設計し,外れ値のノイズ成分を除去し,外れ値が外れ値と予測される確率を低減した。 YFCC100Mデータセットによる実験結果から,本手法は相対的なポーズ推定において最先端の手法を超えていることがわかった。

Establishing the correspondence between two images is an important research direction of computer vision. When estimating the relationship between two images, it is often disturbed by outliers. In this paper, we propose a convolutional neural network that can filter the noise of outliers. It can output the probability that the pair of feature points is an inlier and regress the essential matrix representing the relative pose of the camera. The outliers are mainly caused by the noise introduced by the previous processing. The outliers rejection can be treated as a problem of noise elimination, and the soft threshold function has a very good effect on noise reduction. Therefore, we designed an adaptive denoising module based on soft threshold function to remove noise components in the outliers, to reduce the probability that the outlier is predicted to be an inlier. Experimental results on the YFCC100M dataset show that our method exceeds the state-of-the-art in relative pose estimation.
翻訳日:2022-01-26 11:54:24 公開日:2022-01-23
# (参考訳) オンラインソフトコンフォーマンスチェック:どんな視点でも逸脱を示すことができる

Online Soft Conformance Checking: Any Perspective Can Indicate Deviations ( http://arxiv.org/abs/2201.09222v1 )

ライセンス: CC BY-SA 4.0
Andrea Burattin(参考訳) プロセスマイニングにおいて、関連するアクティビティは適合性チェックである。 そのようなアクティビティは、プロセスの実際の実行が基準モデルの期待される振る舞いに合致する程度を確立することで成り立っている。 現在の技術は、参照として制御フローの規範モデルに焦点を当てている。 しかし、特定のシナリオでは、規範的モデルは利用できないかもしれないし、さらに、制御-フローの観点はこの目的には理想的ではないかもしれない。 本稿では、制御フローを必ずしも参照していない記述的モデル(一定時間にわたる観察行動パターン)を用いた適合性アプローチ(例えば、作業のハンドオーバをベースとしたソーシャルネットワーク)を提案することにより、これらの2つの課題に対処する。 さらに、アプローチ全体がオフラインでもオンラインでも動作し、リアルタイムでフィードバックを提供する。 ProMで実装されたこの手法はテストされており、実世界の3つの実験と合成データの結果が報告されている。

Within process mining, a relevant activity is conformance checking. Such activity consists of establishing the extent to which actual executions of a process conform the expected behavior of a reference model. Current techniques focus on prescriptive models of the control-flow as references. In certain scenarios, however, a prescriptive model might not be available and, additionally, the control-flow perspective might not be ideal for this purpose. This paper tackles these two problems by suggesting a conformance approach that uses a descriptive model (i.e., a pattern of the observed behavior over a certain amount of time) which is not necessarily referring to the control-flow (e.g., it can be based on the social network of handover of work). Additionally, the entire approach can work both offline and online, thus providing feedback in real time. The approach, which is implemented in ProM, has been tested and results from 3 experiments with real world as well as synthetic data are reported.
翻訳日:2022-01-26 11:44:46 公開日:2022-01-23
# (参考訳) 言語モデリングのための大きく多様なアラビア語コーパス

A Large and Diverse Arabic Corpus for Language Modeling ( http://arxiv.org/abs/2201.09227v1 )

ライセンス: CC BY 4.0
Abbas Raza Ali(参考訳) 言語モデル (LM) は自然言語処理 (NLP) モデリングにおいて大きなパラダイムシフトをもたらし、そこでは大きな事前学習されたLMがほとんどのNLPタスクに不可欠なものとなった。 LMは、監督なしで言語の有用性と関連する表現を見つけるのに十分な知能を持っている。 おそらくこれらのモデルは、従来の手法と比較して非常に高い精度で典型的なNLPタスクを微調整するために使用される。 逆に、これらのモデルのトレーニングには言語をうまく表現する巨大なコーパスが必要である。 英語のLMは、大規模な英語コーパスが利用できるため、他の言語よりもパフォーマンスがよい。 この研究は、大きなアラビア人コーパスの設計と開発について詳述している。 大規模言語モデルのクロスドメイン知識と下流一般化能力の向上を目的とした、500GB以上のアラビアクリーンテキストで構成されている。 さらに、このコーパスは、大きなアラビア語lmの訓練に利用される。 LMの有効性を評価するために、多くの典型的なNLPタスクを微調整する。 タスクは多言語BERT(mBERT)で微調整されたタスクと比較して4.5から8.5%に大幅に向上した。 私の知る限りでは、これは現在収集されたアラビア最大のクリーンで多様なコーパスです。

Language models (LMs) have introduced a major paradigm shift in Natural Language Processing (NLP) modeling where large pre-trained LMs became integral to most of the NLP tasks. The LMs are intelligent enough to find useful and relevant representations of the language without any supervision. Perhaps, these models are used to fine-tune typical NLP tasks with significantly high accuracy as compared to the traditional approaches. Conversely, the training of these models requires a massively large corpus that is a good representation of the language. English LMs generally perform better than their other language counterparts, due to the availability of massive English corpora. This work elaborates on the design and development of a large Arabic corpus. It consists of over 500 GB of Arabic cleaned text targeted at improving cross-domain knowledge and downstream generalization capability of large-scale language models. Moreover, the corpus is utilized in the training of a large Arabic LM. In order to evaluate the effectiveness of the LM, a number of typical NLP tasks are fine-tuned. The tasks demonstrate a significant boost from 4.5 to 8.5% when compared to tasks fine-tuned on multi-lingual BERT (mBERT). To the best of my knowledge, this is currently the largest clean and diverse Arabic corpus ever collected.
翻訳日:2022-01-26 11:30:12 公開日:2022-01-23
# (参考訳) 学習駆動型損失画像圧縮 : 包括的調査

Learning-Driven Lossy Image Compression; A Comprehensive Survey ( http://arxiv.org/abs/2201.09240v1 )

ライセンス: CC BY 4.0
Sonain Jamil, Md. Jalil Piran, and MuhibUrRahman(参考訳) 画像処理とコンピュータビジョン(CV)の分野では、機械学習(ML)アーキテクチャが広く採用されている。 畳み込みニューラルネットワーク(CNN)は、幅広い画像処理問題を解き、画像圧縮問題を解くことができる。 画像の圧縮は帯域幅とメモリ制約のため必要である。 ヘルプで冗長で無関係な情報は、画像に見られる3種類の情報である。 本稿では、畳み込みオートエンコーダ(CAE)、変分オートエンコーダ(VAE)、高次モデルを持つAE、リカレントニューラルネットワーク(RNN)、CNN、生成逆数ネットワーク(GAN)、主成分分析(PCA)、ファジィ平均クラスタリングなど、MLアーキテクチャを用いて、主に損失の多い画像圧縮を利用した最近の技術を検討することを目的とする。 すべてのアルゴリズムをアーキテクチャに基づいて複数のグループに分けます。 この調査では静止画像圧縮について取り上げる。 研究者の様々な発見が強調され、研究者の今後の方向性が示唆されている。 out of memory(oom)、ストライプ領域歪み(srd)、エイリアス(エイリアス)、中央処理ユニット(cpu)とgpu(gpu)を同時に使用するフレームワークの互換性といったオープンリサーチの問題について解説する。 調査対象となった圧縮ドメインの出版物の大部分は,過去5年間のもので,さまざまなアプローチを採用している。

In the realm of image processing and computer vision (CV), machine learning (ML) architectures are widely applied. Convolutional neural networks (CNNs) solve a wide range of image processing issues and can solve image compression problem. Compression of images is necessary due to bandwidth and memory constraints. Helpful, redundant, and irrelevant information are three different forms of information found in images. This paper aims to survey recent techniques utilizing mostly lossy image compression using ML architectures including different auto-encoders (AEs) such as convolutional auto-encoders (CAEs), variational auto-encoders (VAEs), and AEs with hyper-prior models, recurrent neural networks (RNNs), CNNs, generative adversarial networks (GANs), principal component analysis (PCA) and fuzzy means clustering. We divide all of the algorithms into several groups based on architecture. We cover still image compression in this survey. Various discoveries for the researchers are emphasized and possible future directions for researchers. The open research problems such as out of memory (OOM), striped region distortion (SRD), aliasing, and compatibility of the frameworks with central processing unit (CPU) and graphics processing unit (GPU) simultaneously are explained. The majority of the publications in the compression domain surveyed are from the previous five years and use a variety of approaches.
翻訳日:2022-01-26 11:14:40 公開日:2022-01-23
# (参考訳) コンパクトな2次画像勾配配向による顔認識

Face recognition via compact second order image gradient orientations ( http://arxiv.org/abs/2201.09246v1 )

ライセンス: CC BY-SA 4.0
He-Feng Yin, Xiao-Jun Wu, Xiaoning Song(参考訳) 画像勾配配向に基づく従来の部分空間学習手法は、一階勾配情報のみを用いる。 しかし、人間の視覚システム(HVS)に関する最近の研究により、ニューラルイメージが2階勾配情報によって幾何学的性質を捉えることのできる風景や表面であることが明らかになった。 2階画像勾配方向(SOIGO)は、顔画像における雑音の悪影響を軽減することができる。 そこで我々は,SOIGOにおける線形複素主成分分析(PCA)を適用して,コンパクトなSOIGO(CSOIGO)を提案する。 協調表現に基づく分類(CRC)アルゴリズムと組み合わせて, CSOIGOの分類性能をさらに向上する。 CSOIGOは、現実世界の変装、合成オクルージョンおよび混合変異の下で評価される。 実験結果から,提案手法は学習サンプルの少ない競合手法よりも優れており,ニューラルネットワークに基づくアプローチよりも優れていることが示唆された。 CSOIGOのソースコードはhttps://github.com/yinhefeng/SOIGOで公開されている。

Conventional subspace learning approaches based on image gradient orientations only employ the first-order gradient information. However, recent researches on human vision system (HVS) uncover that the neural image is a landscape or a surface whose geometric properties can be captured through the second order gradient information. The second order image gradient orientations (SOIGO) can mitigate the adverse effect of noises in face images. To reduce the redundancy of SOIGO, we propose compact SOIGO (CSOIGO) by applying linear complex principal component analysis (PCA) in SOIGO. Combined with collaborative representation based classification (CRC) algorithm, the classification performance of CSOIGO is further enhanced. CSOIGO is evaluated under real-world disguise, synthesized occlusion and mixed variations. Experimental results indicate that the proposed method is superior to its competing approaches with few training samples, and even outperforms some prevailing deep neural network based approaches. The source code of CSOIGO is available at https://github.com/yinhefeng/SOIGO.
翻訳日:2022-01-26 10:51:10 公開日:2022-01-23
# (参考訳) 神経陰影における微分幾何学

Differential Geometry in Neural Implicits ( http://arxiv.org/abs/2201.09263v1 )

ライセンス: CC BY 4.0
Tiago Novello, Vinicius da Silva, Helio Lopes, Guilherme Shardong, Luiz Schirmer, Luiz Velho(参考訳) トライアングルメッシュの離散微分幾何とニューラル暗黙曲面の連続微分幾何を橋渡しするニューラル暗黙の枠組みを導入する。 ニューラルネットワークの微分可能特性と三角形メッシュの離散幾何を利用して、それらを神経暗黙関数のゼロレベル集合として近似する。 ニューラル暗黙関数を訓練するために,主方向間のアライメントなどの高次導関数の項がより幾何学的詳細を知ることを可能にするロス関数を提案する。 トレーニング中、トライアングルメッシュの離散曲率に基づく非一様サンプリング戦略を検討し、より幾何学的な詳細を持つ点にアクセスする。 このサンプリングは、幾何学的精度を維持しながら、より高速な学習を意味する。 本稿では,正規ベクトルや曲率といった神経表面の解析微分幾何学式を提案する。 球面追跡を用いて表面を描画する。 さらに,パラメータ数を削減するために,特異値分解に基づくネットワーク最適化を提案する。

We introduce a neural implicit framework that bridges discrete differential geometry of triangle meshes and continuous differential geometry of neural implicit surfaces. It exploits the differentiable properties of neural networks and the discrete geometry of triangle meshes to approximate them as the zero-level sets of neural implicit functions. To train a neural implicit function, we propose a loss function that allows terms with high-order derivatives, such as the alignment between the principal directions, to learn more geometric details. During training, we consider a non-uniform sampling strategy based on the discrete curvatures of the triangle mesh to access points with more geometric details. This sampling implies faster learning while preserving geometric accuracy. We present the analytical differential geometry formulas for neural surfaces, such as normal vectors and curvatures. We use them to render the surfaces using sphere tracing. Additionally, we propose a network optimization based on singular value decomposition to reduce the number of parameters.
翻訳日:2022-01-26 10:40:12 公開日:2022-01-23
# (参考訳) WIDAR -- 加重入力ドキュメント拡張ROUGE

WIDAR -- Weighted Input Document Augmented ROUGE ( http://arxiv.org/abs/2201.09282v1 )

ライセンス: CC BY 4.0
Raghav Jain, Vaibhav Mavi, Anubhav Jangra, Sriparna Saha(参考訳) 自動テキスト要約のタスクは、最近の機械学習技術の進歩により、多くの注目を集めている。 しかし,生成要約の品質評価は未解決の問題である。 この文献は、要約の標準的な評価基準として、リコール指向のGisting Evaluation(ROUGE)を広く採用している。 しかし、rougeには古くからある制限があり、主なものは良質な参照要約の可用性に依存している。 そこで本研究では,参照要約の活用に加えて,生成した要約の質を評価するために,入力文書も利用するメトリクスWIDARを提案する。 提案手法は,基準要約の品質に応じて評価スコアを適応するように設計されているため,多用途である。 26%, 76%, 82%, 15%のルージュよりも高い相関関係を示し, 総和データセットで得られた判定スコアの一貫性, 一貫性, 流束性, 妥当性について検討した。 提案手法は, 計算時間を比較的短くしながら, 実測値と同等の結果を得ることができる。

The task of automatic text summarization has gained a lot of traction due to the recent advancements in machine learning techniques. However, evaluating the quality of a generated summary remains to be an open problem. The literature has widely adopted Recall-Oriented Understudy for Gisting Evaluation (ROUGE) as the standard evaluation metric for summarization. However, ROUGE has some long-established limitations; a major one being its dependence on the availability of good quality reference summary. In this work, we propose the metric WIDAR which in addition to utilizing the reference summary uses also the input document in order to evaluate the quality of the generated summary. The proposed metric is versatile, since it is designed to adapt the evaluation score according to the quality of the reference summary. The proposed metric correlates better than ROUGE by 26%, 76%, 82%, and 15%, respectively, in coherence, consistency, fluency, and relevance on human judgement scores provided in the SummEval dataset. The proposed metric is able to obtain comparable results with other state-of-the-art metrics while requiring a relatively short computational time.
翻訳日:2022-01-26 10:15:05 公開日:2022-01-23
# (参考訳) 深部rgbt追跡に関する調査

A Survey for Deep RGBT Tracking ( http://arxiv.org/abs/2201.09296v1 )

ライセンス: CC BY 4.0
Zhangyong Tang (1), Tianyang Xu (1) and Xiao-Jun Wu (1) ((1) Jiangnan University, China)(参考訳) 可視光(RGB)と熱赤外(TIR)電磁波(RGBT)による物体追跡は、最近トラッキングコミュニティで注目を集めている。 本稿では,ディープラーニングの急速な発展を考えると,近年の深層ニューラルネットワークを用いたRGBTトラッカーの探索について述べる。 まず、このカテゴリにまとめられたRGBTトラッカーについて簡単な紹介を行う。 次に、いくつかの困難なベンチマークにおいて、既存のrgbtトラッカーの比較を統計的に与える。 具体的には、MDNetとSiameseアーキテクチャはRGBTコミュニティ、特に前者の2つの主要なフレームワークである。 MDNetに基づくトラッカーは高い性能を達成する一方、シームズベースのトラッカーはリアルタイム要件を満たす。 要約すると、大規模なデータセットLasHeRが公開されたため、例えば、SiameseやTransformerといったエンドツーエンドフレームワークの統合は、リアルタイムだけでなく、より堅牢なパフォーマンスを実現するためにさらに考慮されるべきである。 さらに、ネットワークの設計において数学的意味を考慮すべきである。 この調査は、RGBTトラッキングに関心がある研究者のルックアップテーブルとして扱うことができる。

Visual object tracking with the visible (RGB) and thermal infrared (TIR) electromagnetic waves, shorted in RGBT tracking, recently draws increasing attention in the tracking community. Considering the rapid development of deep learning, a survey for the recent deep neural network based RGBT trackers is presented in this paper. Firstly, we give brief introduction for the RGBT trackers concluded into this category. Then, a comparison among the existing RGBT trackers on several challenging benchmarks is given statistically. Specifically, MDNet and Siamese architectures are the two mainstream frameworks in the RGBT community, especially the former. Trackers based on MDNet achieve higher performance while Siamese-based trackers satisfy the real-time requirement. In summary, since the large-scale dataset LasHeR is published, the integration of end-to-end framework, e.g., Siamese and Transformer, should be further considered to fulfil the real-time as well as more robust performance. Furthermore, the mathematical meaning should be more considered during designing the network. This survey can be treated as a look-up-table for researchers who are concerned about RGBT tracking.
翻訳日:2022-01-26 10:00:08 公開日:2022-01-23
# (参考訳) act-rとsoarの分析と比較

An Analysis and Comparison of ACT-R and Soar ( http://arxiv.org/abs/2201.09305v1 )

ライセンス: CC BY 4.0
John E. Laird(参考訳) これはACT-RとSoarの認知アーキテクチャの詳細な分析と比較であり、全体的な構造、エージェントデータとメタデータの表現、関連する処理を含んでいる。 作業メモリ、手続きメモリ、長期宣言メモリに焦点を当てている。 私は多くの共通点を強調しますが、違いも強調しています。 エージェントデータ、メタデータ、メタプロセスデータを含む、これらのアーキテクチャが使用するプロセスと異なる情報のクラスを特定し、メタデータが意思決定、メモリ検索、学習で果たす役割について調べます。

This is a detailed analysis and comparison of the ACT-R and Soar cognitive architectures, including their overall structure, their representations of agent data and metadata, and their associated processing. It focuses on working memory, procedural memory, and long-term declarative memory. I emphasize the commonalities, which are many, but also highlight the differences. I identify the processes and distinct classes of information used by these architectures, including agent data, metadata, and meta-process data, and explore the roles that metadata play in decision making, memory retrievals, and learning.
翻訳日:2022-01-26 09:46:34 公開日:2022-01-23
# (参考訳) MRI超解像のための知覚的cGAN

Perceptual cGAN for MRI Super-resolution ( http://arxiv.org/abs/2201.09314v1 )

ライセンス: CC BY 4.0
Sahar Almahfouz Nasser, Saqib Shamsi, Valay Bundele, Bhavesh Garg, and Amit Sethi(参考訳) 高分解能磁気共鳴(MR)画像の取得は時間のかかるプロセスであり、医学的緊急事態や小児患者には適さない。 対照的に、低解像度のmr画像は高解像度画像よりも高速だが、より正確な診断に必要な詳細を妥協する。 超解像(SR)を低分解能MR画像に適用すると、高分解能画像を少ない時間で合成して有用性を高めることができる。 本稿では,mr画像に対するsr技術について,srにおけるシャープなディテール生成に非常に有用であることが証明されたgans(generative adversarial network)に基づくmr画像のsr手法を提案する。 入力された低分解能画像に条件付けされた知覚損失を有する条件付きGANを導入し、等方性および異方性MRI超解像の性能を向上させる。

Capturing high-resolution magnetic resonance (MR) images is a time consuming process, which makes it unsuitable for medical emergencies and pediatric patients. Low-resolution MR imaging, by contrast, is faster than its high-resolution counterpart, but it compromises on fine details necessary for a more precise diagnosis. Super-resolution (SR), when applied to low-resolution MR images, can help increase their utility by synthetically generating high-resolution images with little additional time. In this paper, we present a SR technique for MR images that is based on generative adversarial networks (GANs), which have proven to be quite useful in generating sharp-looking details in SR. We introduce a conditional GAN with perceptual loss, which is conditioned upon the input low-resolution image, which improves the performance for isotropic and anisotropic MRI super-resolution.
翻訳日:2022-01-26 09:30:18 公開日:2022-01-23
# (参考訳) Data-Consistent Supervised and Adversarial Learning を用いたスカーストレーニングデータからのスパースビューコーンビームCT再構成

Sparse-view Cone Beam CT Reconstruction using Data-consistent Supervised and Adversarial Learning from Scarce Training Data ( http://arxiv.org/abs/2201.09318v1 )

ライセンス: CC BY 4.0
Anish Lahiri, Marc Klasky, Jeffrey A. Fessler and Saiprasad Ravishankar(参考訳) 医用画像から産業用環境まで様々な用途において,対象物を通して限られた投影からCT画像の再構成が重要である。 利用可能な投影回数が減少するにつれて、fdkアルゴリズムやモデルベース反復再構成法といった従来の再構成手法は性能が低下する。 近年,深層学習に基づく再構築などのデータ駆動手法は,十分なトレーニングデータが得られると性能が向上するため,アプリケーションに多くの注目を集めている。 しかし、これらの方法でさえ、利用可能なトレーニングデータが少ない場合に制限がある。 この研究は、利用可能なct投影数とトレーニングデータの両方が極めて制限された場合に、このような設定で画像再構成に焦点を当てている。 本研究では,複数の段階にまたがる逐次的再構成手法を用いて,各段階におけるデータ一貫性更新を行った。 限られたデータを扱うために、私たちは画像サブボリュームを使用してメソッドをトレーニングし、テスト中にアグリゲーションをパッチします。 3次元復元のための3次元データセット学習の計算課題に対処するため,destreakingの部分ではハイブリッド3d-to2dマッピングネットワークを用いる。 いくつかの試験例に対する他の手法との比較から,提案手法は投射数と利用可能なトレーニングデータの両方が極めて限定されている場合に,非常に有益であることが示された。

Reconstruction of CT images from a limited set of projections through an object is important in several applications ranging from medical imaging to industrial settings. As the number of available projections decreases, traditional reconstruction techniques such as the FDK algorithm and model-based iterative reconstruction methods perform poorly. Recently, data-driven methods such as deep learning-based reconstruction have garnered a lot of attention in applications because they yield better performance when enough training data is available. However, even these methods have their limitations when there is a scarcity of available training data. This work focuses on image reconstruction in such settings, i.e., when both the number of available CT projections and the training data is extremely limited. We adopt a sequential reconstruction approach over several stages using an adversarially trained shallow network for 'destreaking' followed by a data-consistency update in each stage. To deal with the challenge of limited data, we use image subvolumes to train our method, and patch aggregation during testing. To deal with the computational challenge of learning on 3D datasets for 3D reconstruction, we use a hybrid 3D-to-2D mapping network for the 'destreaking' part. Comparisons to other methods over several test examples indicate that the proposed method has much potential, when both the number of projections and available training data are highly limited.
翻訳日:2022-01-26 09:21:34 公開日:2022-01-23
# (参考訳) ロバストウェーブレットによるアプリケーションのスケーリング評価

Robust Wavelet-based Assessment of Scaling with Applications ( http://arxiv.org/abs/2201.09320v1 )

ライセンス: CC BY-SA 4.0
Erin K. Hamilton, Seonghye Jeon, Pepa Ramirez Cobo, Kichun Sky Lee, and Brani Vidakovic(参考訳) 多くのアプローチが自己相似性の統計的評価を扱っており、その多くがマルチスケールの概念に基づいている。 ほとんどの場合、実際のデータトレースに反する特定の分布仮定に依存しており、しばしば大きな時間的あるいは空間的な平均レベルシフト、欠落した値、極端な観測によって特徴づけられる。 Theil型重み付き回帰に基づく新しいロバストなアプローチが2次元データ(画像)における自己相似性を推定するために提案されている。 この手法は、ウェーブレット分解を用いる2つの従来の推定手法、通常最小二乗法(OLS)とAbry-Veitchバイアス補正推定器(AV)と比較される。 応用として、ロバストなアプローチによる自己相似性推定の適合性を、デジタル化マンモグラム画像の癌または非癌として分類する際の予測的特徴として説明する。 ここで用いられる診断は、通常乳がん検診において未使用のモダリティである画像背景の特性に基づいている。 分類結果は,ウェーブレットベースの選択と多分解能レベルの範囲に応じてわずかに変化し,約68%の精度を示した。

A number of approaches have dealt with statistical assessment of self-similarity, and many of those are based on multiscale concepts. Most rely on certain distributional assumptions which are usually violated by real data traces, often characterized by large temporal or spatial mean level shifts, missing values or extreme observations. A novel, robust approach based on Theil-type weighted regression is proposed for estimating self-similarity in two-dimensional data (images). The method is compared to two traditional estimation techniques that use wavelet decompositions; ordinary least squares (OLS) and Abry-Veitch bias correcting estimator (AV). As an application, the suitability of the self-similarity estimate resulting from the the robust approach is illustrated as a predictive feature in the classification of digitized mammogram images as cancerous or non-cancerous. The diagnostic employed here is based on the properties of image backgrounds, which is typically an unused modality in breast cancer screening. Classification results show nearly 68% accuracy, varying slightly with the choice of wavelet basis, and the range of multiresolution levels used.
翻訳日:2022-01-26 09:03:44 公開日:2022-01-23
# (参考訳) ULSA:合成プロトコル表現のための統一された合成行動言語

ULSA: Unified Language of Synthesis Actions for Representation of Synthesis Protocols ( http://arxiv.org/abs/2201.09329v1 )

ライセンス: CC BY 4.0
Zheren Wang, Kevin Cruse, Yuxing Fei, Ann Chia, Yan Zeng, Haoyan Huo, Tanjin He, Bowen Deng, Olga Kononova and Gerbrand Ceder(参考訳) 新たな素材の合成を予測するためにAIパワーを適用するには、高品質で大規模なデータセットが必要である。 科学出版物からの合成情報の抽出は、特に合成手順を記述するために固体的でロバストで確立されたオントロジーを用いた包括的ラベル付きデータセットが欠如しているため、まだ難しい。 本研究では, セラミックス合成手順を記述するための最初の統一合成行動言語 (ULSA) を提案する。 3,040個の合成手順のデータセットを作成し,提案するulsa方式に則ってドメインの専門家による注釈を付与した。 ULSAの能力を実証するため,任意のセラミックス合成段落をULSAにマッピングするニューラルネットワークモデルを構築し,合成手順のための合成フローチャートの構築に利用した。 フローチャートの解析は (a)ULSAは、合成手順を記述する際に研究者が使用する必須語彙を網羅する b)合成プロトコルの重要な特徴を捉えることができる。 この研究は、合成オントロジーを作るための重要なステップであり、自律的なロボット合成の基礎となる。

Applying AI power to predict syntheses of novel materials requires high-quality, large-scale datasets. Extraction of synthesis information from scientific publications is still challenging, especially for extracting synthesis actions, because of the lack of a comprehensive labeled dataset using a solid, robust, and well-established ontology for describing synthesis procedures. In this work, we propose the first Unified Language of Synthesis Actions (ULSA) for describing ceramics synthesis procedures. We created a dataset of 3,040 synthesis procedures annotated by domain experts according to the proposed ULSA scheme. To demonstrate the capabilities of ULSA, we built a neural network-based model to map arbitrary ceramics synthesis paragraphs into ULSA and used it to construct synthesis flowcharts for synthesis procedures. Analysis for the flowcharts showed that (a) ULSA covers essential vocabulary used by researchers when describing synthesis procedures and (b) it can capture important features of synthesis protocols. This work is an important step towards creating a synthesis ontology and a solid foundation for autonomous robotic synthesis.
翻訳日:2022-01-26 08:51:35 公開日:2022-01-23
# (参考訳) グラフのスペクトル領域におけるトランスの表現性の検討

Investigating Expressiveness of Transformer in Spectral Domain for Graphs ( http://arxiv.org/abs/2201.09332v1 )

ライセンス: CC BY 4.0
Anson Bastos, Abhishek Nadgeri, Kuldeep Singh, Hiroki Kanezashi, Toyotaro Suzumura, Isaiah Onando Mulang'(参考訳) トランスフォーマーはグラフ表現学習に不適当であることが証明されている。 この不適切さを理解するためには、変換器のスペクトル分析が表現力に関する洞察を明らかにするかどうかを検討する必要がある。 同様の研究により、グラフニューラルネットワーク(gnns)のスペクトル分析は、その表現力に関するさらなる視点をもたらすことが既に証明されている。 本研究では, 変圧器領域における空間領域とスペクトル領域の関係を系統的に研究し, 証明する。 さらに,変圧器の空間的注意機構が所望の周波数応答を効果的に捉えることができず,スペクトル空間における表現性を本質的に制限する理論解析を行った。 そこで本稿では,空間空間における注目に類似したグラフスペクトル全体に注意を向けるフレームワークFeTAを提案する。 実証的な結果は、FeTAが標準ベンチマーク上の全てのタスクに対してバニラ変換器に対して均質な性能向上をもたらし、低パス特性(例えばGAT)を持つGNNベースのモデルに容易に拡張可能であることを示唆している。 さらに、最近提案された位置符号化方式でバニラトランスモデルをfetaに置き換えることで、トランスフォーマやgnnのベースラインと同等あるいは優れた性能を実現している。

Transformers have been proven to be inadequate for graph representation learning. To understand this inadequacy, there is need to investigate if spectral analysis of transformer will reveal insights on its expressive power. Similar studies already established that spectral analysis of Graph neural networks (GNNs) provides extra perspectives on their expressiveness. In this work, we systematically study and prove the link between the spatial and spectral domain in the realm of the transformer. We further provide a theoretical analysis that the spatial attention mechanism in the transformer cannot effectively capture the desired frequency response, thus, inherently limiting its expressiveness in spectral space. Therefore, we propose FeTA, a framework that aims to perform attention over the entire graph spectrum analogous to the attention in spatial space. Empirical results suggest that FeTA provides homogeneous performance gain against vanilla transformer across all tasks on standard benchmarks and can easily be extended to GNN based models with low-pass characteristics (e.g., GAT). Furthermore, replacing the vanilla transformer model with FeTA in recently proposed position encoding schemes has resulted in comparable or better performance than transformer and GNN baselines.
翻訳日:2022-01-26 08:40:42 公開日:2022-01-23
# (参考訳) 機械学習の対称性

Machine Learning Symmetry ( http://arxiv.org/abs/2201.09345v1 )

ライセンス: CC BY 4.0
Shailesh Lal(参考訳) ニューラルネットワークを用いた共形場理論とリー代数表現論の機械学習における最近の研究を概観する。

We review recent work in machine learning aspects of conformal field theory and Lie algebra representation theory using neural networks.
翻訳日:2022-01-26 07:49:41 公開日:2022-01-23
# (参考訳) ImageNet-Oにおける分布検出の実際

Out of Distribution Detection on ImageNet-O ( http://arxiv.org/abs/2201.09352v1 )

ライセンス: CC BY 4.0
Anugya Srivastava, Shriya Jain and Mugdha Thigle(参考訳) Out of Distribution(OOD)検出は、マシンラーニングシステムを堅牢化するための重要な部分である。 imagenet-oデータセットは、さまざまなシステムやアプリケーションで広く使われているimagenetトレーニングされたディープニューラルネットワークの堅牢性をテストする上で重要なツールである。 我々は、ImageNetモデルにおけるOOD検出の研究を支援するために作成された、ImageNetとは異なるラベル分布を持つ最初のタイプのデータセットであるImageNet-Oで、OOD検出方法の比較分析を行うことを目指している。 このデータセットはかなり新しいので、この新しいデータセットにおけるart ood検出方法の現在の状況に関する包括的なベンチマークを提供することを目指している。 このベンチマークは、さまざまなモデルアーキテクチャ、OODデータに事前アクセス可能な設定、予測スコアベースのアプローチ、OOD検出に対する深い生成アプローチなどをカバーする。

Out of distribution (OOD) detection is a crucial part of making machine learning systems robust. The ImageNet-O dataset is an important tool in testing the robustness of ImageNet trained deep neural networks that are widely used across a variety of systems and applications. We aim to perform a comparative analysis of OOD detection methods on ImageNet-O, a first of its kind dataset with a label distribution different than that of ImageNet, that has been created to aid research in OOD detection for ImageNet models. As this dataset is fairly new, we aim to provide a comprehensive benchmarking of some of the current state of the art OOD detection methods on this novel dataset. This benchmarking covers a variety of model architectures, settings where we haves prior access to the OOD data versus when we don't, predictive score based approaches, deep generative approaches to OOD detection, and more.
翻訳日:2022-01-26 07:43:41 公開日:2022-01-23
# (参考訳) エコー状態ネットワーク上でコネクトーム由来トポロジーを構成する

Imposing Connectome-Derived Topology on an Echo State Network ( http://arxiv.org/abs/2201.09359v1 )

ライセンス: CC BY 4.0
Jacob Morra, Mark Daley(参考訳) コネクトームによる制約は、計算を通知できるのか? 本稿では,カオティック時系列予測における最先端の技術であるリザーバコンピューティングのサブセットであるエコー状態ネットワーク(esn)の性能に対するフルーツフライコネクトームのトポロジーの寄与について検討する。具体的には,古典的esnのリザーバ層(通常は2次元行列として表される固定されたランダムグラフ)を,特定の(女性)フルーツフライコネクトーム由来の連結マトリックスに置き換える。 本研究では,このモデル(コネクトーム由来貯水池を含む)をFruit Fly ESNs(FFESNs)と呼ぶ。 我々は,FFESNをカオス時系列予測タスクでトレーニングし,評価する。ここでは,異なるトレーニング入力サイズ(小さい,大きい)と列車価分割(2つの変種)の4つの試行について検討する。 本研究では,すべてのFFESNモデルの検証性能(平均二乗誤差)とESNのクラス(単に「ESN」と呼ぶ)を比較した。 全体として、全ての4つの試行において、FFESN は ESN よりも著しく優れ(かつ分散度が低い)、単に ESN よりも分散度が低い。

Can connectome-derived constraints inform computation? In this paper we investigate the contribution of a fruit fly connectome's topology on the performance of an Echo State Network (ESN) -- a subset of Reservoir Computing which is state of the art in chaotic time series prediction. Specifically, we replace the reservoir layer of a classical ESN -- normally a fixed, random graph represented as a 2-d matrix -- with a particular (female) fruit fly connectome-derived connectivity matrix. We refer to this experimental class of models (with connectome-derived reservoirs) as "Fruit Fly ESNs" (FFESNs). We train and validate the FFESN on a chaotic time series prediction task; here we consider four sets of trials with different training input sizes (small, large) and train-validate splits (two variants). We compare the validation performance (Mean-Squared Error) of all of the best FFESN models to a class of control model ESNs (simply referred to as "ESNs"). Overall, for all four sets of trials we find that the FFESN either significantly outperforms (and has lower variance than) the ESN; or simply has lower variance than the ESN.
翻訳日:2022-01-26 07:34:20 公開日:2022-01-23
# (参考訳) POTHER:COVID-19検出のための深層学習に基づく胸部X線バイアス解析

POTHER: Patch-Voted Deep Learning-based Chest X-ray Bias Analysis for COVID-19 Detection ( http://arxiv.org/abs/2201.09360v1 )

ライセンス: CC BY 4.0
Tomasz Szczepa\'nski, Arkadiusz Sitek, Tomasz Trzci\'nski, Szymon P{\l}otka(参考訳) 新型コロナウイルス感染症(COVID-19)と闘う上で重要なステップは、重篤な症状を呈する診療所で提示された患者の効果的なスクリーニングである。 胸部x線撮影は有望なスクリーニングアプローチの一つである。 多くの研究では、深層学習を用いて胸部x線でcovid-19が検出されたと報告されている。 多くの出版アプローチの深刻な制限は、ディープラーニングモデルによる決定を説明するのに十分な注意を払っていない。 説明可能な人工知能手法を用いて, モデル決定は医学的病理学ではなく, 統合的要因に依存する可能性があることを実証する。 胸部X線像から見いだされる潜在因子の解析の後, その負の影響を最小化するための新しい手法を提案する。 提案手法は, 胸部X線による心電図など, モデル分類決定に影響を及ぼす要因に対して, 従来よりも頑健であることを示す。 堅牢性に加えて,本手法は最先端技術に匹敵する結果が得られる。 ソースコードとトレーニング済みのウェイトは公開されている(https://github.com/tomek1911/pother)。

A critical step in the fight against COVID-19, which continues to have a catastrophic impact on peoples lives, is the effective screening of patients presented in the clinics with severe COVID-19 symptoms. Chest radiography is one of the promising screening approaches. Many studies reported detecting COVID-19 in chest X-rays accurately using deep learning. A serious limitation of many published approaches is insufficient attention paid to explaining decisions made by deep learning models. Using explainable artificial intelligence methods, we demonstrate that model decisions may rely on confounding factors rather than medical pathology. After an analysis of potential confounding factors found on chest X-ray images, we propose a novel method to minimise their negative impact. We show that our proposed method is more robust than previous attempts to counter confounding factors such as ECG leads in chest X-rays that often influence model classification decisions. In addition to being robust, our method achieves results comparable to the state-of-the-art. The source code and pre-trained weights are publicly available (https://github.com/tomek1911/POTHER).
翻訳日:2022-01-26 07:23:15 公開日:2022-01-23
# (参考訳) ReconFormer: Recurrent Transformer を用いた Accelerated MRI 再構成

ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer ( http://arxiv.org/abs/2201.09376v1 )

ライセンス: CC BY 4.0
Pengfei Guo, Yiqun Mei, Jinyuan Zhou, Shanshan Jiang, Vishal M. Patel(参考訳) 磁気共鳴画像(mri)再構成過程の高速化は、k空間での過度なアンダーサンプリング操作による逆問題である。 本稿では,高濃度のk空間データから高純度磁気共鳴像を反復的に再構成できるMRI再構成用再帰変換器モデル(textbf{ReconFormer})を提案する。 特に、提案されたアーキテクチャは、リカレントピラミッドトランスフォーマー層(rptl)の上に構築されており、リカレント状態を通じた深い特徴相関の依存関係だけでなく、すべてのアーキテクチャユニットに固有のマルチスケール情報を活用する。 さらに,パラメータ効率に再帰構造を用いるため,提案手法は軽量である。 磁気共鳴シーケンスが異なる複数のデータセットに対するReconFormerの有効性を検証し、パラメータ効率が向上した最先端手法よりも大幅に改善されたことを示す。 実装コードはhttps://github.com/guopengf/ReconFormer.comで入手できる。

Accelerating magnetic resonance image (MRI) reconstruction process is a challenging ill-posed inverse problem due to the excessive under-sampling operation in k-space. In this paper, we propose a recurrent transformer model, namely \textbf{ReconFormer}, for MRI reconstruction which can iteratively reconstruct high fertility magnetic resonance images from highly under-sampled k-space data. In particular, the proposed architecture is built upon Recurrent Pyramid Transformer Layers (RPTL), which jointly exploits intrinsic multi-scale information at every architecture unit as well as the dependencies of the deep feature correlation through recurrent states. Moreover, the proposed ReconFormer is lightweight since it employs the recurrent structure for its parameter efficiency. We validate the effectiveness of ReconFormer on multiple datasets with different magnetic resonance sequences and show that it achieves significant improvements over the state-of-the-art methods with better parameter efficiency. Implementation code will be available in https://github.com/guopengf/ReconFormer.
翻訳日:2022-01-26 07:11:09 公開日:2022-01-23
# (参考訳) vclimb: 新しいビデオクラスインクリメンタル学習ベンチマーク

vCLIMB: A Novel Video Class Incremental Learning Benchmark ( http://arxiv.org/abs/2201.09381v1 )

ライセンス: CC BY 4.0
Andr\'es Villa, Kumail Alhamoud, Juan Le\'on Alc\'azar, Fabian Caba Heilbron, Victor Escorcia and Bernard Ghanem(参考訳) 連続学習(CL)はビデオ領域では未探索である。 現存する数少ない研究は、タスク上の不均衡なクラス分布を持つ分割を含むか、不適切なデータセットで問題を研究している。 本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。 vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。 従来の研究とは対照的に,不連続なタスクの列で訓練されたモデルを用いた逐次的連続学習に焦点を合わせ,タスク間でクラス数を均一に分配する。 我々は,vCLIMBにおける既存のCL手法の詳細な評価を行い,ビデオデータにおける2つのユニークな課題を観察する。 エピソードメモリに格納するインスタンスの選択は、フレームレベルで行われる。 第2に,非トリミングトレーニングデータは,フレームサンプリング戦略の有効性に影響を与える。 本稿では,この2つの課題に,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。 我々のアプローチはベースラインを大幅に改善し、未解決の連続学習タスクを最大24%改善する。 ビデオ連続学習における今後の研究の合理化と促進のために,我々のベンチマークとメソッドのコードを公開する。

Continual learning (CL) is under-explored in the video domain. The few existing works contain splits with imbalanced class distributions over the tasks, or study the problem in unsuitable datasets. We introduce vCLIMB, a novel video continual learning benchmark. vCLIMB is a standardized test-bed to analyze catastrophic forgetting of deep models in video continual learning. In contrast to previous work, we focus on class incremental continual learning with models trained on a sequence of disjoint tasks, and distribute the number of classes uniformly across the tasks. We perform in-depth evaluations of existing CL methods in vCLIMB, and observe two unique challenges in video data. The selection of instances to store in episodic memory is performed at the frame level. Second, untrimmed training data influences the effectiveness of frame sampling strategies. We address these two challenges by proposing a temporal consistency regularization that can be applied on top of memory-based continual learning methods. Our approach significantly improves the baseline, by up to 24% on the untrimmed continual learning task. To streamline and foster future research in video continual learning, we will publicly release the code for our benchmark and method.
翻訳日:2022-01-26 07:01:25 公開日:2022-01-23
# (参考訳) 空間的, 気候的結合を考慮したベクター性疾患のリカレントニューラルネットワークと回帰モデル

An integrated recurrent neural network and regression model with spatial and climatic couplings for vector-borne disease dynamics ( http://arxiv.org/abs/2201.09394v1 )

ライセンス: CC BY 4.0
Zhijian Li, Jack Xin, Guofa Zhou(参考訳) ベクトル駆動型疾患進化のためのリカレントニューラルネットワークと非線形回帰時空間モデルを開発した。 気候データと季節性は、昆虫を媒介する病気(ハエなど)と相関する外部要因であり、また、関心のある地域を囲む近隣地域からの感染も考慮する。 気候データは、レコメンデーションシステムによって動機付けられた二次埋め込みスキームによってモデルに符号化される。 隣接領域の影響は、長期の短期記憶ニューラルネットワークによってモデル化される。 統合モデルは確率勾配降下法により訓練され,2013-2018年にスリランカで発生したリーシュ・マニアシスデータに基づいて検査された。 我々のモデルは感染率の高い多くの領域でarimaモデルよりも優れており、関連するアブレーション研究は我々のモデリング仮説とアイデアを支持している。

We developed an integrated recurrent neural network and nonlinear regression spatio-temporal model for vector-borne disease evolution. We take into account climate data and seasonality as external factors that correlate with disease transmitting insects (e.g. flies), also spill-over infections from neighboring regions surrounding a region of interest. The climate data is encoded to the model through a quadratic embedding scheme motivated by recommendation systems. The neighboring regions' influence is modeled by a long short-term memory neural network. The integrated model is trained by stochastic gradient descent and tested on leish-maniasis data in Sri Lanka from 2013-2018 where infection outbreaks occurred. Our model outperformed ARIMA models across a number of regions with high infections, and an associated ablation study renders support to our modeling hypothesis and ideas.
翻訳日:2022-01-26 06:50:29 公開日:2022-01-23
# (参考訳) ローカル差分プライバシーを用いた分散グラフのプライベート学習に向けて

Towards Private Learning on Decentralized Graphs with Local Differential Privacy ( http://arxiv.org/abs/2201.09398v1 )

ライセンス: CC BY 4.0
Wanyu Lin, Baochun Li and Cong Wang(参考訳) 多くの現実世界のネットワークは本質的に分散している。 例えば、ソーシャルネットワークでは、各ユーザが友人のリストやプロフィールなど、ソーシャルグラフのローカルビューを維持している。 ソーシャルグラフのローカルなビューを収集し、グラフ学習タスクを実行するのが一般的です。 しかし、グラフによる学習は、これらのローカルビューが機密情報を含むことが多いため、プライバシーの懸念を引き起こす可能性がある。 本稿では,分散ネットワークグラフ上でのプライベートグラフ学習の確保を目指す。 この目的に向けて,グラフニューラルネットワーク(gnns)に基づく新たなプライバシ保存学習フレームワークである"em solitude"を提案し,エッジローカルディファレンシャルプライバシに基づく形式的プライバシ保証を提案する。 {\em Solitude} は、ユーザから収集された分散グラフに導入されたノイズを校正する新しい繊細なメカニズムの集合である。 キャリブレーションの背後にある原理は、空間性のような多くの実世界のグラフで共有される固有の性質である。 ローカルプライベートGNNの既存の作業とは異なり、当社の新しいフレームワークはノード機能のプライバシとエッジプライバシを同時に保護し、プライバシユーティリティの保証を備えた任意のGNNとシームレスに統合することができます。 ベンチマークデータセットに関する大規模な実験は、学習したGNNの一般化能力を維持しつつ、所定のプライバシー予算の下でユーザのデータプライバシを保存することができることを示している。

Many real-world networks are inherently decentralized. For example, in social networks, each user maintains a local view of a social graph, such as a list of friends and her profile. It is typical to collect these local views of social graphs and conduct graph learning tasks. However, learning over graphs can raise privacy concerns as these local views often contain sensitive information. In this paper, we seek to ensure private graph learning on a decentralized network graph. Towards this objective, we propose {\em Solitude}, a new privacy-preserving learning framework based on graph neural networks (GNNs), with formal privacy guarantees based on edge local differential privacy. The crux of {\em Solitude} is a set of new delicate mechanisms that can calibrate the introduced noise in the decentralized graph collected from the users. The principle behind the calibration is the intrinsic properties shared by many real-world graphs, such as sparsity. Unlike existing work on locally private GNNs, our new framework can simultaneously protect node feature privacy and edge privacy, and can seamlessly incorporate with any GNN with privacy-utility guarantees. Extensive experiments on benchmarking datasets show that {\em Solitude} can retain the generalization capability of the learned GNN while preserving the users' data privacy under given privacy budgets.
翻訳日:2022-01-26 06:43:55 公開日:2022-01-23
# 一般化線形因果ネットワークの分散学習

Distributed Learning of Generalized Linear Causal Networks ( http://arxiv.org/abs/2201.09194v1 )

ライセンス: Link先を確認
Qiaoling Ye, Arash A. Amini and Qing Zhou(参考訳) 本稿では,複数のマシンに格納されたデータから因果構造を学習するタスクについて考察し,正規化度スコア(DARLS)に基づく分散アニーリングと呼ばれる新しい構造学習手法を提案する。 我々は、一般化線形モデルでパラメータ化された有向非巡回グラフを用いて因果構造をモデル化し、様々な種類のデータに適用できる。 高スケーリング因果グラフを得るため、darlsは、分散最適化法によりソートと互換性のある最適なグラフィカル構造が見つかる位相的ソート空間を探索するためのアニーリングプロセスをシミュレートする。 この分散最適化は、最適構造を推定するために、ローカルマシンと中央マシン間の複数ラウンドの通信に依存する。 ローカルマシンにまたがるすべてのデータで計算される総合スコアのグローバルオプティマイザへの収束を確立する。 我々の知る限り、DARLSはそのような理論的保証のある因果グラフを学習するための最初の分散手法である。 大規模なシミュレーション研究を通じて、DARLSは分散データ上の既存の手法と競合する性能を示し、全てのローカルマシンにまたがるプールデータに適用された手法と同等の構造学習精度とテストデータ確率を達成した。 DARLSは、タンパク質-DNA結合ネットワークを分散ChIPシーケンスデータでモデル化する現実世界のアプリケーションにおいて、他の方法よりも高い予測力を示し、分散データから因果ネットワークを推定する際の大きな利点を示す。

We consider the task of learning causal structures from data stored on multiple machines, and propose a novel structure learning method called distributed annealing on regularized likelihood score (DARLS) to solve this problem. We model causal structures by a directed acyclic graph that is parameterized with generalized linear models, so that our method is applicable to various types of data. To obtain a high-scoring causal graph, DARLS simulates an annealing process to search over the space of topological sorts, where the optimal graphical structure compatible with a sort is found by a distributed optimization method. This distributed optimization relies on multiple rounds of communication between local and central machines to estimate the optimal structure. We establish its convergence to a global optimizer of the overall score that is computed on all data across local machines. To the best of our knowledge, DARLS is the first distributed method for learning causal graphs with such theoretical guarantees. Through extensive simulation studies, DARLS has shown competing performance against existing methods on distributed data, and achieved comparable structure learning accuracy and test-data likelihood with competing methods applied to pooled data across all local machines. In a real-world application for modeling protein-DNA binding networks with distributed ChIP-Sequencing data, DARLS also exhibits higher predictive power than other methods, demonstrating a great advantage in estimating causal networks from distributed data.
翻訳日:2022-01-25 17:48:18 公開日:2022-01-23
# 計算学習とインバージョンのための一般化重み付き最適化法

A Generalized Weighted Optimization Method for Computational Learning and Inversion ( http://arxiv.org/abs/2201.09223v1 )

ライセンス: Link先を確認
Kui Ren, Yunan Yang and Bj\"orn Engquist(参考訳) 様々な機械学習モデルの一般化能力は、低パラメータと過パラメータの領域で異なる現象を示す。 本稿では,特徴回帰やカーネル回帰といった回帰モデルに着目し,ノイズデータを用いた計算学習と逆解析のための一般化重み付き最小二乗最適化法を解析する。 提案フレームワークのハイライトは、パラメータ空間とデータ空間の両方で重み付けを可能にすることである。 重み付け方式は、学習対象に関する事前知識と、損失関数における異なるデータポイントの寄与を重み付けするための戦略の両方を符号化する。 ここでは、重み付け方式が学習手法の一般化誤差に与える影響を特徴付け、アンダーパラメータ化とオーバーパラメータ化の両方でランダムフーリエ特徴モデルに対する明示的な一般化誤差を導出する。 より一般的な特徴写像に対して、誤差境界は特徴行列の特異値に基づいて与えられる。 先行知識からの適切な重み付けが学習モデルの一般化能力を向上させることを実証する。

The generalization capacity of various machine learning models exhibits different phenomena in the under- and over-parameterized regimes. In this paper, we focus on regression models such as feature regression and kernel regression and analyze a generalized weighted least-squares optimization method for computational learning and inversion with noisy data. The highlight of the proposed framework is that we allow weighting in both the parameter space and the data space. The weighting scheme encodes both a priori knowledge on the object to be learned and a strategy to weight the contribution of different data points in the loss function. Here, we characterize the impact of the weighting scheme on the generalization error of the learning method, where we derive explicit generalization errors for the random Fourier feature model in both the under- and over-parameterized regimes. For more general feature maps, error bounds are provided based on the singular values of the feature matrix. We demonstrate that appropriate weighting from prior knowledge can improve the generalization capability of the learned model.
翻訳日:2022-01-25 17:47:54 公開日:2022-01-23
# 格子インフォームドテンポラル・トポロジカル埋め込みニューラルネットを用いた高速過渡安定予測

Fast Transient Stability Prediction Using Grid-informed Temporal and Topological Embedding Deep Neural Network ( http://arxiv.org/abs/2201.09245v1 )

ライセンス: Link先を確認
Peiyuan Sun, Long Huo, Siyuan Liang, and Xin Chen(参考訳) 過渡安定予測は、電力系統における安定運転の迅速なオンライン評価と維持に不可欠である。 ファサー測定ユニット(PMU)の広範な展開は、過渡安定度評価のためのデータ駆動アプローチの開発を促進する。 本稿では,時間的および位相的埋め込み型深層ニューラルネットワーク(ttednn)モデルを提案する。 TTEDNNモデルは、初期過渡ダイナミクスの時系列データから時間的および位相的特徴を抽出することにより、過渡安定性を高精度かつ効率的に予測することができる。 グリッドインフォームド隣接行列は、電力グリッド構造および電気パラメータ情報を組み込むために使用される。 IEEE 39-bus と IEEE 118-bus の TTEDNN モデルの性能試験には, 単一ノードと複数ノードの摂動下での過渡的ダイナミクスシミュレーション環境を用いる。 その結果,TTEDNNモデルが最も優れ,かつ堅牢な予測性能を示した。 さらに,ttednnモデルでは,より複雑な過渡力学シミュレーション環境での過渡安定性を予測する伝達能力も示している。

Transient stability prediction is critically essential to the fast online assessment and maintaining the stable operation in power systems. The wide deployment of phasor measurement units (PMUs) promotes the development of data-driven approaches for transient stability assessment. This paper proposes the temporal and topological embedding deep neural network (TTEDNN) model to forecast transient stability with the early transient dynamics. The TTEDNN model can accurately and efficiently predict the transient stability by extracting the temporal and topological features from the time-series data of the early transient dynamics. The grid-informed adjacency matrix is used to incorporate the power grid structural and electrical parameter information. The transient dynamics simulation environments under the single-node and multiple-node perturbations are used to test the performance of the TTEDNN model for the IEEE 39-bus and IEEE 118-bus power systems. The results show that the TTEDNN model has the best and most robust prediction performance. Furthermore, the TTEDNN model also demonstrates the transfer capability to predict the transient stability in the more complicated transient dynamics simulation environments.
翻訳日:2022-01-25 17:47:39 公開日:2022-01-23
# アクティブ歩行者安全のためのセンサフュージョンドライバ支援システムの設計

Design of Sensor Fusion Driver Assistance System for Active Pedestrian Safety ( http://arxiv.org/abs/2201.09208v1 )

ライセンス: Link先を確認
I-Hsi Kao, Ya-Zhu Yian, Jian-An Su, Yi-Horng Lai, Jau-Woei Perng, Tung-Li Hsieh, Yi-Shueh Tsai, and Min-Shiu Hsieh(参考訳) 本稿では,カメラと物体検出のための1次元光検出・測光(lidar)センサを組み合わせた,センサ融合検出システムのための並列アーキテクチャを提案する。 このシステムは、光学フローに基づく2つの物体検出方法と、lidarを用いたもう1つの方法を含む。 2つのセンサーは、他方の欠陥を効果的に補うことができる。 物体の位置とその横移動情報の正確な経時的精度を同時に達成することができる。 時空間的アライメントとセンサ融合の方針を用いて,20mまでの距離に高い信頼性を有する核融合検出システムの開発を完了した。 実験結果から,提案方式は車両前方の歩行者や物体の検出において高い精度を実現し,特殊環境に対して高いロバスト性を有することがわかった。

In this paper, we present a parallel architecture for a sensor fusion detection system that combines a camera and 1D light detection and ranging (lidar) sensor for object detection. The system contains two object detection methods, one based on an optical flow, and the other using lidar. The two sensors can effectively complement the defects of the other. The accurate longitudinal accuracy of the object's location and its lateral movement information can be achieved simultaneously. Using a spatio-temporal alignment and a policy of sensor fusion, we completed the development of a fusion detection system with high reliability at distances of up to 20 m. Test results show that the proposed system achieves a high level of accuracy for pedestrian or object detection in front of a vehicle, and has high robustness to special environments.
翻訳日:2022-01-25 17:21:42 公開日:2022-01-23
# トランスベースsar画像デスペックリング

Transformer-based SAR Image Despeckling ( http://arxiv.org/abs/2201.09355v1 )

ライセンス: Link先を確認
Malsha V. Perera, Wele Gedara Chaminda Bandara, Jeya Maria Jose Valanarasu, and Vishal M. Patel(参考訳) 合成開口レーダ(SAR)画像は通常、SAR画像の処理と解釈を困難にするスペックルとして知られる乗法ノイズによって劣化する。 本稿では,SAR画像復号化のためのトランスフォーマーネットワークを提案する。 提案されたデスペックリングネットワークはトランスフォーマーベースのエンコーダで構成されており、ネットワークは異なる画像領域間のグローバルな依存関係を学習することができる。 このネットワークは複合損失関数を用いて合成したスペックル画像でエンドツーエンドに訓練される。 実験により,本手法は,合成画像と実画像の両方において,従来型および畳み込みニューラルネットワークに基づくデスペックリング法よりも大きな改善が得られた。

Synthetic Aperture Radar (SAR) images are usually degraded by a multiplicative noise known as speckle which makes processing and interpretation of SAR images difficult. In this paper, we introduce a transformer-based network for SAR image despeckling. The proposed despeckling network comprises of a transformer-based encoder which allows the network to learn global dependencies between different image regions - aiding in better despeckling. The network is trained end-to-end with synthetically generated speckled images using a composite loss function. Experiments show that the proposed method achieves significant improvements over traditional and convolutional neural network-based despeckling methods on both synthetic and real SAR images.
翻訳日:2022-01-25 17:21:30 公開日:2022-01-23
# stganography と visual encryption を用いた患者のプライバシー保護に関する調査

A Survey on Patients Privacy Protection with Stganography and Visual Encryption ( http://arxiv.org/abs/2201.09388v1 )

ライセンス: Link先を確認
Hussein K. Alzubaidy, Dhiah Al-Shammary, Mohammed Hamzah Abed(参考訳) 本研究では,患者プライバシ保護のためにステガノグラフィとビジュアル暗号化の30モデルについて検討した。

In this survey, thirty models for steganography and visual encryption methods have been discussed to provide patients privacy protection.
翻訳日:2022-01-25 17:21:21 公開日:2022-01-23
# 大規模グラフ上でディープラーニングサービスを高速化する計算ssdのためのハードウェア/ソフトウェア協調プログラミングフレームワーク

Hardware/Software Co-Programmable Framework for Computational SSDs to Accelerate Deep Learning Service on Large-Scale Graphs ( http://arxiv.org/abs/2201.09189v1 )

ライセンス: Link先を確認
Miryeong Kwon, Donghyun Gouk, Sangwon Lee, Myoungsoo Jung(参考訳) グラフニューラルネットワーク(gnn)は、1000億エッジからなる大規模グラフを処理する。 従来のディープラーニングとは対照的に、新興GNNのユニークな振る舞いは、大量のグラフとストレージにデータを埋め込むことで、複雑で不規則な前処理を示す。 高速でエネルギー効率のよいGNN処理のための,使い易く,ほぼ保存可能な推論基盤を提供する,大規模グラフの新たなディープラーニングフレームワークであるHolisticGNNを提案する。 最高のエンドツーエンドのレイテンシと高エネルギー効率を達成するために、HolisticGNNは、ユーザーが様々なGNNアルゴリズムを実装し、実際のデータが存在する場所で直接実行することができる。 また、PCIe上のRPCも可能で、ユーザーは基盤となるハードウェアやストレージの構成を知らずにグラフセマンティックライブラリを通じてGNNをプログラムできる。 本稿では,HolisticGNNのハードウェアRTLを作成し,FPGAベースの計算SSD(CSSD)上に実装する。 実験により,HolisticGNNの予測時間は,高性能な現代GPUを用いたGNN推論サービスを平均で7.1倍,エネルギー消費量は33.2倍に向上した。

Graph neural networks (GNNs) process large-scale graphs consisting of a hundred billion edges. In contrast to traditional deep learning, unique behaviors of the emerging GNNs are engaged with a large set of graphs and embedding data on storage, which exhibits complex and irregular preprocessing. We propose a novel deep learning framework on large graphs, HolisticGNN, that provides an easy-to-use, near-storage inference infrastructure for fast, energy-efficient GNN processing. To achieve the best end-to-end latency and high energy efficiency, HolisticGNN allows users to implement various GNN algorithms and directly executes them where the actual data exist in a holistic manner. It also enables RPC over PCIe such that the users can simply program GNNs through a graph semantic library without any knowledge of the underlying hardware or storage configurations. We fabricate HolisticGNN's hardware RTL and implement its software on an FPGA-based computational SSD (CSSD). Our empirical evaluations show that the inference time of HolisticGNN outperforms GNN inference services using high-performance modern GPUs by 7.1x while reducing energy consumption by 33.2x, on average.
翻訳日:2022-01-25 17:12:26 公開日:2022-01-23
# SpiroMask: コンシューマグレードマスクを用いた肺機能測定

SpiroMask: Measuring Lung Function Using Consumer-Grade Masks ( http://arxiv.org/abs/2201.09280v1 )

ライセンス: Link先を確認
Rishiraj Adhikary, Dhruvi Lodhavia, Chris Francis, Rohit Patil, Tanmay Srivastava, Prerna Khanna, Nipun Batra, Joe Breda, Jacob Peplinski, Shwetak Patel(参考訳) 世界保健機関(WHO)によると、2億3500万人が呼吸器疾患にかかり、毎年400万人が死亡している。 定期的な肺健康モニタリングは、肺の健康状態の悪化に関する診断につながる可能性がある。 本稿では,患者用マスク (N95, 布マスク) にマイクロフォンを組み込んだ連続肺健康モニタリングシステムSpiroMaskを提案する。 対象者48名(肺疾患14名を含む)を対象に評価を行い,米国胸部協会(ats)が承認した誤差範囲内の肺容積や呼吸率などのパラメータを推定できることを見いだした。 さらに,マスク内部のセンサ配置に対して,我々のアプローチは堅牢であることを示す。

According to the World Health Organisation (WHO), 235 million people suffer from respiratory illnesses and four million deaths annually. Regular lung health monitoring can lead to prognoses about deteriorating lung health conditions. This paper presents our system SpiroMask that retrofits a microphone in consumer-grade masks (N95 and cloth masks) for continuous lung health monitoring. We evaluate our approach on 48 participants (including 14 with lung health issues) and find that we can estimate parameters such as lung volume and respiration rate within the approved error range by the American Thoracic Society (ATS). Further, we show that our approach is robust to sensor placement inside the mask.
翻訳日:2022-01-25 17:12:09 公開日:2022-01-23
# 異種エージェントを用いた分散バンディット

Distributed Bandits with Heterogeneous Agents ( http://arxiv.org/abs/2201.09353v1 )

ライセンス: Link先を確認
Lin Yang, Yu-zhen Janice Chen, Mohammad Hajiesmaili, John CS Lui, Don Towsley(参考訳) 本稿では、M$エージェントが協力して、K$腕確率的バンディット問題の同じ事例を解決するマルチエージェント・バンディット・セッティングに取り組む。 エージェントは \textit{heterogeneous} で、各エージェントはローカルなアームサブセットへのアクセスに制限があり、エージェントは意思決定ラウンド間の異なるギャップで非同期である。 各エージェントの目標は、最適なローカルアームを見つけることであり、エージェントは他のエージェントと観察を共有することで協力することができる。 エージェント間の協調は学習のパフォーマンスを向上させるが、エージェント間のコミュニケーションがさらに複雑になる。 この不均質なマルチエージェント設定のために, 2つの学習アルゴリズム, \ucbo と \aae を提案する。 両アルゴリズムがオーダー最適後悔(\sum_{i:\tilde{\Delta}_i>0} \log T/\tilde{\Delta}_i\right)$であることを示す。 さらに、協力のための貴重な情報を慎重に選択することで、$O(\log T)$の低通信複雑性を実現する。 最後に,両アルゴリズムの効率性を検証する数値実験を行った。

This paper tackles a multi-agent bandit setting where $M$ agents cooperate together to solve the same instance of a $K$-armed stochastic bandit problem. The agents are \textit{heterogeneous}: each agent has limited access to a local subset of arms and the agents are asynchronous with different gaps between decision-making rounds. The goal for each agent is to find its optimal local arm, and agents can cooperate by sharing their observations with others. While cooperation between agents improves the performance of learning, it comes with an additional complexity of communication between agents. For this heterogeneous multi-agent setting, we propose two learning algorithms, \ucbo and \AAE. We prove that both algorithms achieve order-optimal regret, which is $O\left(\sum_{i:\tilde{\Delta}_i>0} \log T/\tilde{\Delta}_i\right)$, where $\tilde{\Delta}_i$ is the minimum suboptimality gap between the reward mean of arm $i$ and any local optimal arm. In addition, a careful selection of the valuable information for cooperation, \AAE achieves a low communication complexity of $O(\log T)$. Last, numerical experiments verify the efficiency of both algorithms.
翻訳日:2022-01-25 17:11:55 公開日:2022-01-23
# 因果発見のための最適輸送

Optimal transport for causal discovery ( http://arxiv.org/abs/2201.09366v1 )

ライセンス: Link先を確認
Ruibo Tu, Kun Zhang, Hedvig Kjellstr\"om, Cheng Zhang(参考訳) モデルクラスを適切に制限することで2変数間の因果方向を決定するために,機能因果モデル(FCM)に基づくアプローチが提案されているが,それらの性能はモデルの仮定に敏感であるため,実践者が使用するのが困難である。 本稿では,fcmsの新しい力学系ビューを提供し,二変量の場合の因果方向を同定するための新しい枠組みを提案する。 まず、FCMと最適輸送の関連性を示し、次にFCMの制約下で最適な輸送について検討する。 さらに、FCM制約下での最適輸送の動的解釈を利用して、最小作用原理の下で静的因果関係データの対応する動的過程を決定する。 静的因果発見タスクを記述するための新しい次元を提供し、定量的因果影響をモデル化する自由を享受する。 特に, 付加雑音モデル (ANM) は容積保存型無圧力流に対応していることを示す。 その結果,速度場のばらつきに基づき,因果方向を決定する基準を導入する。 この基準により、モデルの選択に頑健なANMのための新しい最適トランスポートベースアルゴリズムを提案し、それを非線形モデルに拡張する。 提案手法は, 合成および因果探索ベンチマークを用いて, 最新の結果を示した。

Approaches based on Functional Causal Models (FCMs) have been proposed to determine causal direction between two variables, by properly restricting model classes; however, their performance is sensitive to the model assumptions, which makes it difficult for practitioners to use. In this paper, we provide a novel dynamical-system view of FCMs and propose a new framework for identifying causal direction in the bivariate case. We first show the connection between FCMs and optimal transport, and then study optimal transport under the constraints of FCMs. Furthermore, by exploiting the dynamical interpretation of optimal transport under the FCM constraints, we determine the corresponding underlying dynamical process of the static cause-effect pair data under the least action principle. It provides a new dimension for describing static causal discovery tasks, while enjoying more freedom for modeling the quantitative causal influences. In particular, we show that Additive Noise Models (ANMs) correspond to volume-preserving pressureless flows. Consequently, based on their velocity field divergence, we introduce a criterion to determine causal direction. With this criterion, we propose a novel optimal transport-based algorithm for ANMs which is robust to the choice of models and extend it to post-noninear models. Our method demonstrated state-of-the-art results on both synthetic and causal discovery benchmark datasets.
翻訳日:2022-01-25 17:09:11 公開日:2022-01-23
# スパース攻撃の効率的かつロバストな分類

Efficient and Robust Classification for Sparse Attacks ( http://arxiv.org/abs/2201.09369v1 )

ライセンス: Link先を確認
Mark Beliaev, Payam Delgosha, Hamed Hassani, Ramtin Pedarsani(参考訳) 過去20年間で、ニューラルネットワークの人気は、その分類の正確さとともに高まっている。 これと並行して、私たちは、非常に同じ予測モデルがいかに脆弱であるかを目撃した。 入力に対する小さな摂動は、データセット全体にわたって誤った分類エラーを引き起こす可能性がある。 本稿では,画像認識,自然言語処理,マルウェア検出の領域における効果的な攻撃として実証された$\ell_0$-normによる摂動について考察する。 そこで本研究では,「侵入」と「敵対的訓練」からなる新たな防御手法を提案する。 次に理論的にガウス混合設定を研究し、提案した分類器の漸近最適性を証明する。 得られた洞察により、これらのコンポーネントをニューラルネットワーク分類器に拡張する。 mnistとcifarデータセットを用いて,コンピュータビジョン領域における数値実験を行い,ニューラルネットワークのロバスト分類誤差に対して有意な改善を示した。

In the past two decades we have seen the popularity of neural networks increase in conjunction with their classification accuracy. Parallel to this, we have also witnessed how fragile the very same prediction models are: tiny perturbations to the inputs can cause misclassification errors throughout entire datasets. In this paper, we consider perturbations bounded by the $\ell_0$--norm, which have been shown as effective attacks in the domains of image-recognition, natural language processing, and malware-detection. To this end, we propose a novel defense method that consists of "truncation" and "adversarial training". We then theoretically study the Gaussian mixture setting and prove the asymptotic optimality of our proposed classifier. Motivated by the insights we obtain, we extend these components to neural network classifiers. We conduct numerical experiments in the domain of computer vision using the MNIST and CIFAR datasets, demonstrating significant improvement for the robust classification error of neural networks.
翻訳日:2022-01-25 17:08:51 公開日:2022-01-23
# あなたの感性属性はプライベートか? 分類モデルに対する新しいモデルインバージョン属性推論攻撃

Are Your Sensitive Attributes Private? Novel Model Inversion Attribute Inference Attacks on Classification Models ( http://arxiv.org/abs/2201.09370v1 )

ライセンス: Link先を確認
Shagufta Mehnaz, Sayanton V. Dibbo, Ehsanul Kabir, Ninghui Li, Elisa Bertino(参考訳) 医療診断、ライフスタイルの予測、ビジネス上の決定など、プライバシに敏感な領域における機械学習(ML)テクノロジの利用の増加は、これらのMLテクノロジが機密でプロプライエタリなトレーニングデータの漏洩を導入しているかどうかをよりよく理解する必要性を強調している。 本稿では,対象の分類モデルへのブラックボックスアクセスのみを使用して,学習データ中のレコードに関する非機密属性を敵が知るモデル反転攻撃に着目し,敵に未知の機密属性の値を推測することを目的とする。 まず,信頼性スコアに基づくモデル逆属性推論攻撃を考案し,その精度を著しく向上させる。 次に、予測したラベルのみに依存するが、攻撃効果の観点からは信頼度スコアに基づく攻撃と一致するラベルのみモデル反転攻撃を導入する。 また、ターゲットレコードの他の(非センシティブな)属性が敵に知られていないシナリオにも攻撃を延ばします。 3つの実際のデータセットでトレーニングされた2種類の機械学習モデル、決定木とディープニューラルネットワークに対する攻撃を評価する。 さらに,モデルのインバージョン攻撃,すなわち,トレーニングデータセット内の特定のグループ(性別や人種などによってグループ化されている)が,モデルインバージョン攻撃に対してより脆弱であることを示す。

Increasing use of machine learning (ML) technologies in privacy-sensitive domains such as medical diagnoses, lifestyle predictions, and business decisions highlights the need to better understand if these ML technologies are introducing leakage of sensitive and proprietary training data. In this paper, we focus on model inversion attacks where the adversary knows non-sensitive attributes about records in the training data and aims to infer the value of a sensitive attribute unknown to the adversary, using only black-box access to the target classification model. We first devise a novel confidence score-based model inversion attribute inference attack that significantly outperforms the state-of-the-art. We then introduce a label-only model inversion attack that relies only on the model's predicted labels but still matches our confidence score-based attack in terms of attack effectiveness. We also extend our attacks to the scenario where some of the other (non-sensitive) attributes of a target record are unknown to the adversary. We evaluate our attacks on two types of machine learning models, decision tree and deep neural network, trained on three real datasets. Moreover, we empirically demonstrate the disparate vulnerability of model inversion attacks, i.e., specific groups in the training dataset (grouped by gender, race, etc.) could be more vulnerable to model inversion attacks.
翻訳日:2022-01-25 17:08:37 公開日:2022-01-23
# LSNet:リモートセンシング画像における変化検出のための超軽量シームネットワーク

LSNet: Extremely Light-Weight Siamese Network For Change Detection in Remote Sensing Image ( http://arxiv.org/abs/2201.09156v1 )

ライセンス: Link先を確認
Biyuan Liu and Huaixin Chen and Zhixi Wang(参考訳) リモートセンシング画像(RSI)の変化検出において,シームズネットワークが主流になりつつある。 しかし、近年では複雑な構造、モジュール、トレーニングプロセスが開発され、大規模なrsi処理でその応用を阻害する厄介なモデルが生み出されている。 そこで本稿では,RSI 変更検出のための非常に軽量な Siamese ネットワーク (LSNet) を提案する。このネットワークは,標準の畳み込みを奥行き分離可能なアトラス畳み込みに置き換え,余分な高密度接続を除去し,Siamese の機能融合を行い,パラメータと計算量を大幅に圧縮する。 CCDデータセットの1位モデルと比較して、LSNetのパラメータと計算量は、それぞれ90.35\%と91.34\%に大幅に減少し、精度は1.5\%しか低下しない。

The Siamese network is becoming the mainstream in change detection of remote sensing images (RSI). However, in recent years, the development of more complicated structure, module and training processe has resulted in the cumbersome model, which hampers their application in large-scale RSI processing. To this end, this paper proposes an extremely lightweight Siamese network (LSNet) for RSI change detection, which replaces standard convolution with depthwise separable atrous convolution, and removes redundant dense connections, retaining only valid feature flows while performing Siamese feature fusion, greatly compressing parameters and computation amount. Compared with the first-place model on the CCD dataset, the parameters and the computation amount of LSNet is greatly reduced by 90.35\% and 91.34\% respectively, with only a 1.5\% drops in accuracy.
翻訳日:2022-01-25 15:51:29 公開日:2022-01-23
# ASCNet:早期行動予測のための任意進行レベルのアクションセマンティック一貫性学習

ASCNet: Action Semantic Consistent Learning of Arbitrary Progress Levels for Early Action Prediction ( http://arxiv.org/abs/2201.09169v1 )

ライセンス: Link先を確認
Xiaoli Liu, Di Guo, Jianqin Yin(参考訳) 早期行動予測は、アクション実行の一部のみから人間の行動を認識することを目的としており、これは多くの実用的なアプリケーションにおいて重要なビデオ解析タスクである。 多くの先行研究は、部分的または完全なビデオ全体を扱い、クラス内の大きなばらつきのために、様々な進行レベルの部分的なビデオのセマンティックな相違を無視する。 対照的に、オリジナルまたはフルビデオは、新しい部分的ビデオのシリーズを形成するために分割し、任意の進行レベルで進化するこれらの新しい部分的ビデオのうち、アクションセマンティック一貫性知識(ASCK)をマイニングする。 さらに,早期行動予測のために,教師・学生の枠組みに基づく新しい行動意味一貫性学習ネットワーク(ASCNet)を提案する。 具体的には,部分映像をノードとして,動作意味をエッジとして扱う。 次に,教師ネットワーク用双方向完全連結グラフと,学生ネットワーク用一方向完全連結グラフを構築し,部分ビデオ間でASCKをモデル化する。 mseとmmdの損失は我々の蒸留損失として組み込まれており、教師から生徒ネットワークへさらにasckを転送している。 早期行動予測のためのASCKモデリングの有効性を実証する大規模な実験とアブレーション研究が実施されている。 提案したASCNetでは、2つのベンチマークで最先端のパフォーマンスを達成した。 論文が受け入れられれば、コードはリリースされます。

Early action prediction aims to recognize human actions from only a part of action execution, which is an important video analysis task for many practical applications. Most prior works treat partial or full videos as a whole, which neglects the semantic consistencies among partial videos of various progress levels due to their large intra-class variances. In contrast, we partition original partial or full videos to form a series of new partial videos and mine the Action Semantic Consistent Knowledge (ASCK) among these new partial videos evolving in arbitrary progress levels. Moreover, a novel Action Semantic Consistent learning network (ASCNet) under the teacher-student framework is proposed for early action prediction. Specifically, we treat partial videos as nodes and their action semantic consistencies as edges. Then we build a bi-directional fully connected graph for the teacher network and a single-directional fully connected graph for the student network to model ASCK among partial videos. The MSE and MMD losses are incorporated as our distillation loss to further transfer the ASCK from the teacher to the student network. Extensive experiments and ablative studies have been conducted, demonstrating the effectiveness of modeling ASCK for early action prediction. With the proposed ASCNet, we have achieved state-of-the-art performance on two benchmarks. The code will be released if the paper is accepted.
翻訳日:2022-01-25 15:51:10 公開日:2022-01-23
# 階層的分解によるCNNの深い説明

Deeply Explain CNN via Hierarchical Decomposition ( http://arxiv.org/abs/2201.09205v1 )

ライセンス: Link先を確認
Ming-Ming Cheng, Peng-Tao Jiang, Ling-Hao Han, Liang Wang, Philip Torr(参考訳) コンピュータビジョンにおいて、CNNの説明に寄与するいくつかの手法は、中間的特徴がネットワーク予測にどのように影響するかを研究する。 しかしながら、通常は中間機能間の機能階層を無視する。 本稿では,CNNの意思決定過程をトップダウンで説明する階層的な分解フレームワークを提案する。 具体的には、任意の中間CNN決定を下位層に分解し、サポート機能を見つけることができる勾配に基づくアクティベーション伝搬(gAP)モジュールを提案する。 次に、gAPモジュールを用いて、異なるCNN層からの支持エビデンスに対して、ネットワーク決定を反復的に分解する。 提案するフレームワークは,ネットワーク決定に強く関連する支持証拠の深い階層を生成することができ,意思決定プロセスに関する洞察を提供する。 さらに、ネットワークアーキテクチャの変更や追加のトレーニングプロセスなしにCNNベースのモデルを理解するのに、gAPは手間をかけない。 提案手法の有効性を示す実験を行った。 code and interactiveのデモwebサイトが公開される予定だ。

In computer vision, some attribution methods for explaining CNNs attempt to study how the intermediate features affect the network prediction. However, they usually ignore the feature hierarchies among the intermediate features. This paper introduces a hierarchical decomposition framework to explain CNN's decision-making process in a top-down manner. Specifically, we propose a gradient-based activation propagation (gAP) module that can decompose any intermediate CNN decision to its lower layers and find the supporting features. Then we utilize the gAP module to iteratively decompose the network decision to the supporting evidence from different CNN layers. The proposed framework can generate a deep hierarchy of strongly associated supporting evidence for the network decision, which provides insight into the decision-making process. Moreover, gAP is effort-free for understanding CNN-based models without network architecture modification and extra training process. Experiments show the effectiveness of the proposed method. The code and interactive demo website will be made publicly available.
翻訳日:2022-01-25 15:50:49 公開日:2022-01-23
# wavelet-attention cnnによる画像分類

Wavelet-Attention CNN for Image Classification ( http://arxiv.org/abs/2201.09271v1 )

ライセンス: Link先を確認
Zhao Xiangyu(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく特徴学習手法は,画像分類タスクにおいて大きな成果を上げている。 しかし、固有雑音や他の要因は畳み込み特徴統計の有効性を弱める可能性がある。 本稿では,周波数領域における離散ウェーブレット変換(dwt)について検討し,高周波領域にのみ注目する新しいウェーブレット・アテンション(wa)ブロックを設計する。 これに基づいて、画像分類のためのWavelet-Attention Convolutional Neural Network (WA-CNN)を提案する。 具体的には、wa-cnnは特徴マップを低周波成分と高周波成分に分解し、基本オブジェクトの構造と詳細な情報とノイズをそれぞれ格納する。 次に、WAブロックを利用して、注目要因が異なる高周波領域の詳細な情報をキャプチャするが、低周波領域の基本オブジェクト構造を予約する。 CIFAR-10とCIFAR-100データセットによる実験結果から,提案したWA-CNNは,他のネットワークと比較して,分類精度を大幅に向上することが示された。 具体的には、MobileNetV2のバックボーンに基づいて、WA-CNNはCIFAR-10ベンチマークで1.26%のTop-1精度、CIFAR-100ベンチマークで1.54%のTop-1精度改善を達成した。

The feature learning methods based on convolutional neural network (CNN) have successfully produced tremendous achievements in image classification tasks. However, the inherent noise and some other factors may weaken the effectiveness of the convolutional feature statistics. In this paper, we investigate Discrete Wavelet Transform (DWT) in the frequency domain and design a new Wavelet-Attention (WA) block to only implement attention in the high-frequency domain. Based on this, we propose a Wavelet-Attention convolutional neural network (WA-CNN) for image classification. Specifically, WA-CNN decomposes the feature maps into low-frequency and high-frequency components for storing the structures of the basic objects, as well as the detailed information and noise, respectively. Then, the WA block is leveraged to capture the detailed information in the high-frequency domain with different attention factors but reserves the basic object structures in the low-frequency domain. Experimental results on CIFAR-10 and CIFAR-100 datasets show that our proposed WA-CNN achieves significant improvements in classification accuracy compared to other related networks. Specifically, based on MobileNetV2 backbones, WA-CNN achieves 1.26% Top-1 accuracy improvement on the CIFAR-10 benchmark and 1.54% Top-1 accuracy improvement on the CIFAR-100 benchmark.
翻訳日:2022-01-25 15:50:33 公開日:2022-01-23
# 通常のデバイスによる1000倍高速カメラとマシンビジョン

1000x Faster Camera and Machine Vision with Ordinary Devices ( http://arxiv.org/abs/2201.09302v1 )

ライセンス: Link先を確認
Tiejun Huang, Yajing Zheng, Zhaofei Yu, Rui Chen, Yuan Li, Ruiqin Xiong, Lei Ma, Junwei Zhao, Siwei Dong, Lin Zhu, Jianing Li, Shanshan Jia, Yihua Fu, Boxin Shi, Si Wu and Yonghong Tian(参考訳) デジタルカメラでは、大きな制限がある。フィルムカメラから継承された画像とビデオフォームは、急速に変化するフォトニックの世界を捉えるのを妨げます。 ここでは,光子の蓄積がしきい値に達したか否かを各ビットが表現し,任意のタイミングでシーンの放射を記録・再構成するビットシーケンスアレイであるvidarを提案する。 コンシューマレベルのCMOSセンサと集積回路のみを用いることで、従来のカメラより1000倍高速なビダカメラを開発した。 バイオビジョンにおけるスパイクトレインとしてvidarを取り扱うことにより、マシンの速度と生体ビジョンのメカニズムを組み合わせたスパイクニューラルネットワークベースのマシンビジョンシステムを開発し、高速物体検出を実現し、人間の視覚よりも1000倍高速に追跡する。 本稿では,vidarカメラとスーパービジョンシステムの有用性を,補助審判と目標ポインティングシステムを用いて実証する。 我々の研究は、写真、映画、ビジュアルメディアなど、画像やビデオの概念や関連産業を根本的に革新させ、新しいスパイクニューラルネットワーク対応のスピードフリーマシンビジョン時代を開封することが期待される。

In digital cameras, we find a major limitation: the image and video form inherited from a film camera obstructs it from capturing the rapidly changing photonic world. Here, we present vidar, a bit sequence array where each bit represents whether the accumulation of photons has reached a threshold, to record and reconstruct the scene radiance at any moment. By employing only consumer-level CMOS sensors and integrated circuits, we have developed a vidar camera that is 1,000x faster than conventional cameras. By treating vidar as spike trains in biological vision, we have further developed a spiking neural network-based machine vision system that combines the speed of the machine and the mechanism of biological vision, achieving high-speed object detection and tracking 1,000x faster than human vision. We demonstrate the utility of the vidar camera and the super vision system in an assistant referee and target pointing system. Our study is expected to fundamentally revolutionize the image and video concepts and related industries, including photography, movies, and visual media, and to unseal a new spiking neural network-enabled speed-free machine vision era.
翻訳日:2022-01-25 15:48:40 公開日:2022-01-23
# バスケットベースソフトマックス

Basket-based Softmax ( http://arxiv.org/abs/2201.09308v1 )

ライセンス: Link先を確認
Qiang Meng, Xinqian Gu, Xiaqing Xu, Feng Zhou(参考訳) ソフトマックスに基づく損失は、顔認識や再識別といった様々なタスクにおいて最先端のパフォーマンスを達成した。 しかし、これらの手法はグローバルラベルを持つクリーンなデータセットに大きく依存しており、実世界のアプリケーションでの使用を制限している。 重要な理由は、様々な時間的シナリオと空間的なシナリオからデータセットをマージして整理することは、通常現実的ではないことである。 そこで本研究では,マルチデータセット上でのモデルをエンドツーエンドで効果的にトレーニングするための並列モデルとして,バスケットベースソフトマックス(bbs)と呼ばれる新しいマイニング学習戦略を提案する。 具体的には、各トレーニングサンプルに対して、他のデータセットから負のクラスをマイニングする手がかりとして類似度スコアを同時に採用し、識別的特徴の学習を支援するために動的に追加する。 実験では,シミュレーションデータセットと実世界データセットの両方を用いて,顔認識と再識別タスクにおけるbbsの効率性と優位性を実証する。

Softmax-based losses have achieved state-of-the-art performances on various tasks such as face recognition and re-identification. However, these methods highly relied on clean datasets with global labels, which limits their usage in many real-world applications. An important reason is that merging and organizing datasets from various temporal and spatial scenarios is usually not realistic, as noisy labels can be introduced and exponential-increasing resources are required. To address this issue, we propose a novel mining-during-training strategy called Basket-based Softmax (BBS) as well as its parallel version to effectively train models on multiple datasets in an end-to-end fashion. Specifically, for each training sample, we simultaneously adopt similarity scores as the clue to mining negative classes from other datasets, and dynamically add them to assist the learning of discriminative features. Experimentally, we demonstrate the efficiency and superiority of the BBS on the tasks of face recognition and re-identification, with both simulated and real-world datasets.
翻訳日:2022-01-25 15:48:20 公開日:2022-01-23
# シングルビュー画像からの非教師なし重変形メッシュ再構成(DMR)

Unsupervised Severely Deformed Mesh Reconstruction (DMR) from a Single-View Image ( http://arxiv.org/abs/2201.09373v1 )

ライセンス: Link先を確認
Jie Mei, Jingxi Yu, Suzanne Romain, Craig Rose, Kelsey Magrane, Graeme LeeSon, Jenq-Neng Hwang(参考訳) 多視点画像やビデオからの剛体物体の3次元再構成の教師あり学習において、多くの進歩があった。 しかし、一視点のRGB画像から厳格に変形した物体を教師なしで再構成することはより困難である。 特定のカテゴリレベルのトレーニングのようなトレーニングベースの方法は、単一視点画像から鳥のような剛体オブジェクトやわずかに変形したオブジェクトを復元するのに成功することが示されているが、それらは効果的に非常に変形したオブジェクトを扱えず、また、再構成されるオブジェクトの3dテンプレートを定義するのに不可欠な頂点の一貫性のない意味のために、現実世界のいくつかの下流タスクにも適用できない。 本研究では,一視点画像から3次元形状を推定するテンプレートベースの手法を導入し,その再構成メッシュを下流タスク,すなわち絶対長測定に適用する。 提案手法は, 3Dメッシュを忠実に再構築し, 変形した魚のデータセット上の長さ測定タスクにおいて, 最先端の精度を実現する。

Much progress has been made in the supervised learning of 3D reconstruction of rigid objects from multi-view images or a video. However, it is more challenging to reconstruct severely deformed objects from a single-view RGB image in an unsupervised manner. Although training-based methods, such as specific category-level training, have been shown to successfully reconstruct rigid objects and slightly deformed objects like birds from a single-view image, they cannot effectively handle severely deformed objects and neither can be applied to some downstream tasks in the real world due to the inconsistent semantic meaning of vertices, which are crucial in defining the adopted 3D templates of objects to be reconstructed. In this work, we introduce a template-based method to infer 3D shapes from a single-view image and apply the reconstructed mesh to a downstream task, i.e., absolute length measurement. Without using 3D ground truth, our method faithfully reconstructs 3D meshes and achieves state-of-the-art accuracy in a length measurement task on a severely deformed fish dataset.
翻訳日:2022-01-25 15:48:02 公開日:2022-01-23
# フェデレーション学習に関する包括的調査:概念と応用

A Comprehensive Survey on Federated Learning: Concept and Applications ( http://arxiv.org/abs/2201.09384v1 )

ライセンス: Link先を確認
Dhurgham Hassan Mahlool, Mohammed Hamzah Abed(参考訳) 本稿では,コンポーネント,課題,アプリケーション,fl環境に着目した連合学習(fl)の包括的研究について述べる。 FLは実生活モデルにおける複数の分野や領域に適用できる。 医療システムでは、患者のプライバシとその医療状態が重要なデータであるため、協調学習や連合学習が画像に現れる。 一方、医療従事者がFLの概念に導かれるデータを共有せずに支援するインテリジェントシステムを構築し、その応用の1つは、協調的な環境で効率的に働くことができるAI手法に基づく脳腫瘍診断インテリジェントシステムである。

This paper provides a comprehensive study of Federated Learning (FL) with an emphasis on components, challenges, applications and FL environment. FL can be applicable in multiple fields and domains in real-life models. in the medical system, the privacy of patients records and their medical condition is critical data, therefore collaborative learning or federated learning comes into the picture. On other hand build an intelligent system assist the medical staff without sharing the data lead into the FL concept and one of the applications that are used is a brain tumor diagnosis intelligent system based on AI methods that can efficiently work in a collaborative environment.this paper will introduce some of the applications and related work in the medical field and work under the FL concept then summarize them to introduce the main limitations of their work.
翻訳日:2022-01-25 15:47:42 公開日:2022-01-23
# 予測とアンカーの併用による物体検出のための動的ラベル割り当て

Dynamic Label Assignment for Object Detection by Combining Predicted and Anchor IoUs ( http://arxiv.org/abs/2201.09396v1 )

ライセンス: Link先を確認
Tianxiao Zhang, Ajay Sharda, Bo Luo, Guanghui Wang(参考訳) ラベル割り当ては、現代のオブジェクト検出モデルにおいて重要な役割を果たす。 検出モデルは異なるラベル割り当て戦略で全く異なるパフォーマンスが得られる。 アンカーベース検出モデルでは、正サンプルと負サンプルがIoU閾値で分割されるため、アンカーとそれに対応する接地真理境界ボックスとの間のIoUしきい値が鍵となる。 初期の物体検出器は、すべてのトレーニングサンプルに固定しきい値を使用するが、最近の検出アルゴリズムは、iousの基底真理ボックスへの分布に基づく適応しきい値にフォーカスしている。 本稿では,予測を伴う訓練状況に基づいてラベル割り当てを動的に行うための簡易かつ効果的な手法を提案する。 ラベル割り当てにおける予測を導入することで、より高品質なIoUを基底真理対象とするサンプルを正のサンプルとして選択し、分類スコアとIoUスコアとの差を小さくし、より高品質な境界ボックスを生成する。 提案手法は,適応ラベル割当アルゴリズムによる検出モデルの性能向上と,これらの正のサンプルに対するバウンディングボックス損失の低減を示し,より高品質な予測ボックスを正の候補として選択した。 ソースコードはhttps://github.com/ZTX-100/DLA-Combined-IoUsで入手できる。

Label assignment plays a significant role in modern object detection models. Detection models may yield totally different performances with different label assignment strategies. For anchor-based detection models, the IoU threshold between the anchors and their corresponding ground truth bounding boxes is the key element since the positive samples and negative samples are divided by the IoU threshold. Early object detectors simply utilize a fixed threshold for all training samples, while recent detection algorithms focus on adaptive thresholds based on the distribution of the IoUs to the ground truth boxes. In this paper, we introduce a simple and effective approach to perform label assignment dynamically based on the training status with predictions. By introducing the predictions in label assignment, more high-quality samples with higher IoUs to the ground truth objects are selected as the positive samples, which could reduce the discrepancy between the classification scores and the IoU scores, and generate more high-quality boundary boxes. Our approach shows improvements in the performance of the detection models with the adaptive label assignment algorithm and lower bounding box losses for those positive samples, indicating more samples with higher quality predicted boxes are selected as positives. The source code will be available at https://github.com/ZTX-100/DLA-Combined-IoUs.
翻訳日:2022-01-25 15:47:31 公開日:2022-01-23
# メタユニバース作成における生成的逆ネットワーク応用

Generative Adversarial Network Applications in Creating a Meta-Universe ( http://arxiv.org/abs/2201.09152v1 )

ライセンス: Link先を確認
Soheyla Amirian, Thiab R. Taha, Khaled Rasheed, Hamid R. Arabnia(参考訳) Generative Adversarial Networks (GAN) は、多くの重要かつ新しいアプリケーションで使用される機械学習手法である。 例えば、画像科学では、ganは画像データセット、人間の顔の写真、画像とビデオのキャプション、画像から画像への翻訳、テキストから画像への翻訳、ビデオの予測、3dオブジェクトの生成に効果的に利用されている。 本稿では,GANを用いて人工世界を創出する方法について論じる。 より具体的には、画像/映像キャプション手法を用いた画像の表現にGANがどう役立つか、画像から画像への変換フレームワークを用いた新たな画像への変換方法を、我々が望むテーマで述べる。 我々は、GANがいかにカスタマイズされた世界を生み出すかを明確にする。

Generative Adversarial Networks (GANs) are machine learning methods that are used in many important and novel applications. For example, in imaging science, GANs are effectively utilized in generating image datasets, photographs of human faces, image and video captioning, image-to-image translation, text-to-image translation, video prediction, and 3D object generation to name a few. In this paper, we discuss how GANs can be used to create an artificial world. More specifically, we discuss how GANs help to describe an image utilizing image/video captioning methods and how to translate the image to a new image using image-to-image translation frameworks in a theme we desire. We articulate how GANs impact creating a customized world.
翻訳日:2022-01-25 15:25:46 公開日:2022-01-23
# Sketch2PQ:シングルスケッチによるフリーフォーム平面四辺形メッシュ設計

Sketch2PQ: Freeform Planar Quadrilateral Mesh Design via a Single Sketch ( http://arxiv.org/abs/2201.09367v1 )

ライセンス: Link先を確認
Zhi Deng, Yang Liu, Hao Pan, Wassim Jabi, Juyong Zhang, Bailin Deng(参考訳) freeformアーキテクチャモデリングプロセスは、しばしば概念設計とデジタルモデリングの2つの重要な段階を含む。 最初の段階では、建築家は通常、物理的またはデジタルの紙に全体の3D形状とパネルレイアウトをスケッチする。 第2段階では、スケッチを基準としてデジタル3dモデルが作成される。 ディジタルモデルは、建設コストを考慮したパネルの平面性など、そのコンポーネントの幾何学的要件を組み込む必要があるため、モデリングプロセスがより困難になる可能性がある。 本稿では,平面四角形(pq)メッシュとして表現される自由形屋根型形状の概念設計とディジタルモデリングを橋渡しする,新しいスケッチベースシステムを提案する。 本システムでは,軸線投影下で表面境界線と輪郭線を描画し,オクルード領域のスケッチを支援する。 さらに、フィーチャーラインをスケッチして、pqメッシュレイアウトへの方向性ガイダンスを提供することもできる。 この2次元スケッチ入力を前提として,pqメッシュの抽出に用いる高密度共役方向場とともに,基礎面形状をリアルタイムに推定する深層ニューラルネットワークを提案する。 ネットワークをトレーニングし検証するために、フリーフォーム四角形パッチの設計図を模倣した大規模な合成データセットを作成します。 本システムの有効性とユーザビリティを,定量的かつ質的な評価とユーザスタディで実証した。

The freeform architectural modeling process often involves two important stages: concept design and digital modeling. In the first stage, architects usually sketch the overall 3D shape and the panel layout on a physical or digital paper briefly. In the second stage, a digital 3D model is created using the sketching as the reference. The digital model needs to incorporate geometric requirements for its components, such as planarity of panels due to consideration of construction costs, which can make the modeling process more challenging. In this work, we present a novel sketch-based system to bridge the concept design and digital modeling of freeform roof-like shapes represented as planar quadrilateral (PQ) meshes. Our system allows the user to sketch the surface boundary and contour lines under axonometric projection and supports the sketching of occluded regions. In addition, the user can sketch feature lines to provide directional guidance to the PQ mesh layout. Given the 2D sketch input, we propose a deep neural network to infer in real-time the underlying surface shape along with a dense conjugate direction field, both of which are used to extract the final PQ mesh. To train and validate our network, we generate a large synthetic dataset that mimics architect sketching of freeform quadrilateral patches. The effectiveness and usability of our system are demonstrated with quantitative and qualitative evaluation as well as user studies.
翻訳日:2022-01-25 15:25:30 公開日:2022-01-23
# MRIの高速再生:トランスフォーマーのパワーは?

Fast MRI Reconstruction: How Powerful Transformers Are? ( http://arxiv.org/abs/2201.09400v1 )

ライセンス: Link先を確認
Jiahao Huang, Yinzhe Wu, Huanjun Wu, Guang Yang(参考訳) 磁気共鳴イメージング(MRI)は、臓器構造と代謝の臨床的検査に広く用いられている非放射能および非侵襲的手法であり、本質的に長い走査時間を有する。 k空間アンダーサンプリングと深層学習に基づく再構成による手法が広く普及し, 走査過程の高速化が図られている。 この研究は、異なる新しいネットワークアーキテクチャを活用して比較することで、高速MRIのためのトランスフォーマーがいかに強力かを調べることに重点を置いている。 特に、高速MRI再構成のために、GAN(Generative Adversarial Network)ベースのSwin Transformer(ST-GAN)を導入した。 エッジ情報とテクスチャ情報をさらに保存するために、エッジ強化GANベースのSwin変換器(EESGAN)とテクスチャ強化GANベースのSwin変換器(TES-GAN)も開発された。 提案したGAN変換器,スタンドアロンスウィン変換器,および他の畳み込みニューラルネットワークを用いたGANモデルと比較し,PSNR,SSIM,FIDの評価指標について検討した。 異なるアンダーサンプリング条件からのMRI再建にはトランスフォーマーが有効であることを示した。 GANの対向構造の利用により、30%以上アンサンプされた画像の品質が向上する。

Magnetic resonance imaging (MRI) is a widely used non-radiative and non-invasive method for clinical interrogation of organ structures and metabolism, with an inherently long scanning time. Methods by k-space undersampling and deep learning based reconstruction have been popularised to accelerate the scanning process. This work focuses on investigating how powerful transformers are for fast MRI by exploiting and comparing different novel network architectures. In particular, a generative adversarial network (GAN) based Swin transformer (ST-GAN) was introduced for the fast MRI reconstruction. To further preserve the edge and texture information, edge enhanced GAN based Swin transformer (EESGAN) and texture enhanced GAN based Swin transformer (TES-GAN) were also developed, where a dual-discriminator GAN structure was applied. We compared our proposed GAN based transformers, standalone Swin transformer and other convolutional neural networks based based GAN model in terms of the evaluation metrics PSNR, SSIM and FID. We showed that transformers work well for the MRI reconstruction from different undersampling conditions. The utilisation of GAN's adversarial structure improves the quality of images reconstructed when undersampled for 30% or higher.
翻訳日:2022-01-25 15:25:10 公開日:2022-01-23
# 同時マルチモーダル機械翻訳のための教師付き視覚注意

Supervised Visual Attention for Simultaneous Multimodal Machine Translation ( http://arxiv.org/abs/2201.09324v1 )

ライセンス: Link先を確認
Veneta Haralampieva, Ozan Caglayan, Lucia Specia(参考訳) 近年,マルチモーダル機械翻訳(mmt)の研究が急増しており,画像などの付加的なモダリティをテキストシステムの翻訳品質向上に活用している。 このようなマルチモーダルシステムの特別な用途は同時機械翻訳のタスクであり、特に翻訳の初期段階において、原文が提供する部分的な情報を補うために視覚的な文脈が示されてきた(caglayanet al., 2020a; imankulova et al., 2020)。 本稿では,これまでに検討されていない最初の変圧器ベースの同時mmtアーキテクチャを提案する。 さらに,ラベル付き句領域アライメントを用いて視覚注意機構を誘導する補助監督信号により,このモデルを拡張した。 我々は3つの言語方向に関する総合的な実験を行い、自動測定と手動検査の両方を用いて徹底的な量的および質的な分析を行う。 私たちの結果は i)教師付き視覚的注意はMTモデルの翻訳品質を一貫して改善し、 (2)MMTを微調整することで、MMTをスクラッチからトレーニングするよりも優れた性能が得られる。 現状と比較すると,提案手法は最大2.3BLEU点と3.5 METEOR点の改善を実現している。

Recently, there has been a surge in research in multimodal machine translation (MMT), where additional modalities such as images are used to improve translation quality of textual systems. A particular use for such multimodal systems is the task of simultaneous machine translation, where visual context has been shown to complement the partial information provided by the source sentence, especially in the early phases of translation (Caglayanet al., 2020a; Imankulova et al., 2020). In this paper, we propose the first Transformer-based simultaneous MMT architecture, which has not been previously explored in the field. Additionally, we extend this model with an auxiliary supervision signal that guides its visual attention mechanism using labelled phrase-region alignments. We perform comprehensive experiments on three language directions and conduct thorough quantitative and qualitative analyses using both automatic metrics and manual inspection. Our results show that (i) supervised visual attention consistently improves the translation quality of the MMT models, and (ii) fine-tuning the MMT with supervision loss enabled leads to better performance than training the MMT from scratch. Compared to the state-of-the-art, our proposed model achieves improvements of up to 2.3 BLEU and 3.5 METEOR points.
翻訳日:2022-01-25 15:22:14 公開日:2022-01-23
# クイックシフト画像分割のためのハイパーパラメータのスケーリング方法

How to scale hyperparameters for quickshift image segmentation ( http://arxiv.org/abs/2201.09286v1 )

ライセンス: Link先を確認
Damien Garreau(参考訳) Quickshiftは画像セグメンテーションの一般的なアルゴリズムで、多くのアプリケーションにおいて前処理のステップとして使われる。 残念ながら、ハイパーパラメータが生成したスーパーピクセルの数と形状に与える影響を理解することは極めて困難である。 本稿では,クイックシフトアルゴリズムの微修正版を理論的に検討し,画素雑音を伴う均質なイメージパッチと,それらのパッチ間のシャープなバウンダリに着目した。 この分析を利用することで、実際の画像を扱う際にクイックシフトハイパーパラメータをスケールするための単純なヒューリスティックを導出し、経験的にチェックする。

Quickshift is a popular algorithm for image segmentation, used as a preprocessing step in many applications. Unfortunately, it is quite challenging to understand the hyperparameters' influence on the number and shape of superpixels produced by the method. In this paper, we study theoretically a slightly modified version of the quickshift algorithm, with a particular emphasis on homogeneous image patches with i.i.d. pixel noise and sharp boundaries between such patches. Leveraging this analysis, we derive a simple heuristic to scale quickshift hyperparameters when dealing with real images, which we check empirically.
翻訳日:2022-01-25 14:41:57 公開日:2022-01-23
# 帰属配列の深層学習

Deep Learning on Attributed Sequences ( http://arxiv.org/abs/2201.09199v1 )

ライセンス: Link先を確認
Zhongfang Zhuang(参考訳) 特徴学習の最近の研究はシーケンスデータにまで拡張され、各インスタンスは可変長の異種項目のシーケンスで構成されている。 しかし、多くの実世界のアプリケーションでは、データは属性付きシーケンスの形式で存在し、これは固定サイズの属性のセットとそれらの間の依存関係を持つ可変長シーケンスから構成される。 属性付きシーケンスコンテキストでは、シーケンスとその関連属性間の依存関係のため、機能学習は依然として困難である。 本論文では,属性列上の4つの新しい問題に対するディープラーニングモデルの解析と構築に焦点を当てる。 実世界のデータセットに関する広範な実験により,提案手法は属性付きシーケンスの最先端手法よりも,各タスクの性能を著しく向上することを示した。

Recent research in feature learning has been extended to sequence data, where each instance consists of a sequence of heterogeneous items with a variable length. However, in many real-world applications, the data exists in the form of attributed sequences, which is composed of a set of fixed-size attributes and variable-length sequences with dependencies between them. In the attributed sequence context, feature learning remains challenging due to the dependencies between sequences and their associated attributes. In this dissertation, we focus on analyzing and building deep learning models for four new problems on attributed sequences. Our extensive experiments on real-world datasets demonstrate that the proposed solutions significantly improve the performance of each task over the state-of-the-art methods on attributed sequences.
翻訳日:2022-01-25 14:40:51 公開日:2022-01-23
# 分散シーケンスによるワンショット学習

One-Shot Learning on Attributed Sequences ( http://arxiv.org/abs/2201.09202v1 )

ライセンス: Link先を確認
Zhongfang Zhuang, Xiangnan Kong, Elke Rundensteiner, Aditya Arora, Jihane Zouaoui(参考訳) ワンショット学習は多くの現実世界のアプリケーションで過去10年で重要な研究テーマとなっている。 ワンショット学習の目標は、ラベルなしインスタンスをクラス毎にラベル付きサンプルが1つしかない場合に分類することである。 ワンショット学習の従来の問題設定は、主に既に特徴空間(画像など)にあるデータに焦点を当てている。 しかし、現実世界のアプリケーションのデータインスタンスは多くの場合より複雑で、機能ベクトルは利用できない。 本稿では,各インスタンスが属性のセット(ユーザプロファイルなど)とカテゴリの要素のシーケンス(クリックストリームなど)で構成された,帰属シーケンスにおけるワンショット学習の問題について検討する。 この問題は、詐欺防止からネットワーク侵入検出まで、様々な現実世界のアプリケーションにとって重要である。 この問題は、属性とシーケンスの間に依存関係があるため、従来のワンショット学習よりも難しい。 我々はこの問題に対処するためにディープラーニングフレームワークOLASを設計する。 提案するOLASは、ツインネットワークを用いて、ペア属性シーケンスの例から特徴を一般化する。 実世界のデータセットに対する実証的な結果から、提案したOLASは、様々なパラメータ設定の下で最先端の手法より優れていることが示された。

One-shot learning has become an important research topic in the last decade with many real-world applications. The goal of one-shot learning is to classify unlabeled instances when there is only one labeled example per class. Conventional problem setting of one-shot learning mainly focuses on the data that is already in feature space (such as images). However, the data instances in real-world applications are often more complex and feature vectors may not be available. In this paper, we study the problem of one-shot learning on attributed sequences, where each instance is composed of a set of attributes (e.g., user profile) and a sequence of categorical items (e.g., clickstream). This problem is important for a variety of real-world applications ranging from fraud prevention to network intrusion detection. This problem is more challenging than conventional one-shot learning since there are dependencies between attributes and sequences. We design a deep learning framework OLAS to tackle this problem. The proposed OLAS utilizes a twin network to generalize the features from pairwise attributed sequence examples. Empirical results on real-world datasets demonstrate the proposed OLAS can outperform the state-of-the-art methods under a rich variety of parameter settings.
翻訳日:2022-01-25 14:40:41 公開日:2022-01-23
# グラフニューラルネットワークのためのパーティションベースアクティブラーニング

Partition-Based Active Learning for Graph Neural Networks ( http://arxiv.org/abs/2201.09391v1 )

ライセンス: Link先を確認
Jiaqi Ma, Ziqiao Ma, Joyce Chai, Qiaozhu Mei(参考訳) グラフニューラルネットワーク(GNN)を用いた半教師あり学習の課題を,アクティブな学習環境において検討する。 GNNのための新しい分割型アクティブラーニングアプローチであるGraphPartを提案する。 GraphPartはまずグラフを非結合なパーティションに分割し、各パーティション内の代表ノードを選択してクエリする。 提案手法は,グラフ上およびノード上の現実的な平滑性仮定下での分類誤差の新しい解析に動機づけられている。 複数のベンチマークデータセットに対する広範囲な実験により、提案手法が、幅広いアノテーション予算制約下でgnnの既存のアクティブラーニング手法よりも優れていることが示されている。 また,提案手法では,特にラベル付き検証セットが利用できない能動的学習環境において,モデル学習において重要なハイパーパラメータを導入しない。

We study the problem of semi-supervised learning with Graph Neural Networks (GNNs) in an active learning setup. We propose GraphPart, a novel partition-based active learning approach for GNNs. GraphPart first splits the graph into disjoint partitions and then selects representative nodes within each partition to query. The proposed method is motivated by a novel analysis of the classification error under realistic smoothness assumptions over the graph and the node features. Extensive experiments on multiple benchmark datasets demonstrate that the proposed method outperforms existing active learning methods for GNNs under a wide range of annotation budget constraints. In addition, the proposed method does not introduce additional hyperparameters, which is crucial for model training, especially in the active learning setting where a labeled validation set may not be available.
翻訳日:2022-01-25 14:40:25 公開日:2022-01-23
# 重量拡大:ドロップアウトと一般化の新しい展望

Weight Expansion: A New Perspective on Dropout and Generalization ( http://arxiv.org/abs/2201.09209v1 )

ライセンス: Link先を確認
Gaojie Jin, Xinping Yi, Pengfei Yang, Lijun Zhang, Sven Schewe, Xiaowei Huang(参考訳) ドロップアウトは正規化の成功技術として知られているが、この成功につながるメカニズムに関する洞察はまだ不足している。 重み共分散行列の列や行ベクトルにまたがる平行トロープの符号付き体積の増加である 'emph{weight expansion} の概念を導入し、重み拡張がPAC-ベイズ的設定における一般化を増大させる有効な手段であることを示す。 我々は,ドロップアウトが重量拡大につながるという理論的議論と,ドロップアウトと重量膨張の相関に対する広範な経験的支援を提供する。 重量拡大は、ドロップアウトによって与えられた拡張汎化能力の、単なる副生成物としてだけでなく、拡張された一般化能力の \emph{indicator} と見なすことができるという仮説を裏付けるために、重量拡大を達成する他の方法(resp)を研究した。 そして、それらが一般的に増加(resp)につながることを発見した。 一般化能力の低下)。 これは、ドロップアウトが重量拡大を得るための計算量的に安価な方法であるため、魅力的な正規化子であることを示唆している。 この洞察は、レギュラライザーとしてのドロップアウトの役割を正当化すると同時に、重量拡大による一般化を改善することを約束するレギュラライザーを特定する方法も与えている。

While dropout is known to be a successful regularization technique, insights into the mechanisms that lead to this success are still lacking. We introduce the concept of \emph{weight expansion}, an increase in the signed volume of a parallelotope spanned by the column or row vectors of the weight covariance matrix, and show that weight expansion is an effective means of increasing the generalization in a PAC-Bayesian setting. We provide a theoretical argument that dropout leads to weight expansion and extensive empirical support for the correlation between dropout and weight expansion. To support our hypothesis that weight expansion can be regarded as an \emph{indicator} of the enhanced generalization capability endowed by dropout, and not just as a mere by-product, we have studied other methods that achieve weight expansion (resp.\ contraction), and found that they generally lead to an increased (resp.\ decreased) generalization ability. This suggests that dropout is an attractive regularizer, because it is a computationally cheap method for obtaining weight expansion. This insight justifies the role of dropout as a regularizer, while paving the way for identifying regularizers that promise improved generalization through weight expansion.
翻訳日:2022-01-25 14:35:55 公開日:2022-01-23
# 教師付き学習の残りを最小限に抑えるための学習

Learning to Minimize the Remainder in Supervised Learning ( http://arxiv.org/abs/2201.09193v1 )

ライセンス: Link先を確認
Yan Luo, Yongkang Wong, Mohan Kankanhalli, Qi Zhao(参考訳) ディープラーニング手法の学習プロセスは通常、モデルのパラメータを複数のイテレーションで更新する。 各反復はテイラーの級数展開の1次近似と見なすことができる。 残りは高次項からなるが、通常は単純さのために学習プロセスで無視される。 この学習方式は,画像検索,レコメンデーションシステム,ビデオ検索など,様々なマルチメディアベースのアプリケーションを実現する。 一般的に、マルチメディアデータ(例えば画像)は意味が豊富で高次元であるため、近似の残りの部分はおそらくゼロではない。 本研究では,残りは情報的であり,学習プロセスにどのように影響するかを考察する。 そこで本研究では,過去の学習イテレーションから得られた知識を活用し,バニラ勾配を最小化し近似値を改善するための新しい学習手法である勾配調整学習(gal)を提案する。 提案したGALはモデルとオプティマイザに依存しないため,標準学習フレームワークへの適応が容易である。 画像分類、オブジェクト検出、回帰という3つのタスクで、最先端のモデルとオプティマイザを用いて評価される。 実験の結果,提案したGALは連続的に評価モデルを強化し,アブレーション実験はGALの様々な側面を検証した。 コードは \url{https://github.com/luoyan407/gradient_adjustment.git} で入手できる。

The learning process of deep learning methods usually updates the model's parameters in multiple iterations. Each iteration can be viewed as the first-order approximation of Taylor's series expansion. The remainder, which consists of higher-order terms, is usually ignored in the learning process for simplicity. This learning scheme empowers various multimedia based applications, such as image retrieval, recommendation system, and video search. Generally, multimedia data (e.g., images) are semantics-rich and high-dimensional, hence the remainders of approximations are possibly non-zero. In this work, we consider the remainder to be informative and study how it affects the learning process. To this end, we propose a new learning approach, namely gradient adjustment learning (GAL), to leverage the knowledge learned from the past training iterations to adjust vanilla gradients, such that the remainders are minimized and the approximations are improved. The proposed GAL is model- and optimizer-agnostic, and is easy to adapt to the standard learning framework. It is evaluated on three tasks, i.e., image classification, object detection, and regression, with state-of-the-art models and optimizers. The experiments show that the proposed GAL consistently enhances the evaluated models, whereas the ablation studies validate various aspects of the proposed GAL. The code is available at \url{https://github.com/luoyan407/gradient_adjustment.git}.
翻訳日:2022-01-25 14:34:18 公開日:2022-01-23
# 半教師付き連続学習のための勾配予測学習

Learning to Predict Gradients for Semi-Supervised Continual Learning ( http://arxiv.org/abs/2201.09196v1 )

ライセンス: Link先を確認
Yan Luo, Yongkang Wong, Mohan Kankanhalli, Qi Zhao(参考訳) マシンインテリジェンスの重要な課題は、以前獲得した知識を忘れずに新しい視覚概念を学ぶことだ。 継続的学習は、この課題に取り組むことを目的としている。 しかし、既存の教師付き連続学習と人間のような知性の間にはギャップがあり、人間はラベル付きデータとラベルなしデータの両方から学習することができる。 ラベルのないデータが、継続的な学習プロセスにおける学習と破滅的な忘れにどのように影響するかは、いまだ不明である。 そこで本研究では,既存の連続学習モデルに汎用的に適用可能な,半教師付き連続学習法を提案する。 具体的には、ラベル付きデータから新しい勾配学習者が学習し、ラベルなしデータの勾配を予測する。 したがって、ラベルのないデータは教師付き連続学習法に適合する。 従来の半教師付き設定とは異なり、ラベルなしデータに関連付けられた下位クラスが学習プロセスに知られているとは考えていない。 言い換えれば、ラベルのないデータはラベル付きデータと非常に異なる可能性がある。 提案手法は,主流の連続学習,逆連続学習,および半教師付き学習タスクにおいて評価される。 提案手法は,半教師付き学習環境における分類精度の所望の性能を保ちながら,連続学習環境における分類精度と後方移動に関する最先端性能を実現する。 このことは、ラベルのない画像は、目に見えないデータに対する予測能力に対する連続学習モデルの一般化性を高め、破滅的な忘れを著しく軽減できることを示している。 コードは \url{https://github.com/luoyan407/grad_prediction.git} で入手できる。

A key challenge for machine intelligence is to learn new visual concepts without forgetting the previously acquired knowledge. Continual learning is aimed towards addressing this challenge. However, there is a gap between existing supervised continual learning and human-like intelligence, where human is able to learn from both labeled and unlabeled data. How unlabeled data affects learning and catastrophic forgetting in the continual learning process remains unknown. To explore these issues, we formulate a new semi-supervised continual learning method, which can be generically applied to existing continual learning models. Specifically, a novel gradient learner learns from labeled data to predict gradients on unlabeled data. Hence, the unlabeled data could fit into the supervised continual learning method. Different from conventional semi-supervised settings, we do not hypothesize that the underlying classes, which are associated to the unlabeled data, are known to the learning process. In other words, the unlabeled data could be very distinct from the labeled data. We evaluate the proposed method on mainstream continual learning, adversarial continual learning, and semi-supervised learning tasks. The proposed method achieves state-of-the-art performance on classification accuracy and backward transfer in the continual learning setting while achieving desired performance on classification accuracy in the semi-supervised learning setting. This implies that the unlabeled images can enhance the generalizability of continual learning models on the predictive ability on unseen data and significantly alleviate catastrophic forgetting. The code is available at \url{https://github.com/luoyan407/grad_prediction.git}.
翻訳日:2022-01-25 14:33:59 公開日:2022-01-23
# AttentionHTR: Attention Encoder-Decoder Networks を用いた手書き文字認識

AttentionHTR: Handwritten Text Recognition Based on Attention Encoder-Decoder Networks ( http://arxiv.org/abs/2201.09390v1 )

ライセンス: Link先を確認
Dmitrijs Kass and Ekta Vats(参考訳) 本研究は,手書き単語認識のための注意に基づくシーケンス・ツー・シーケンスモデルを提案し,htrシステムのデータ効率トレーニングのための転送学習について検討する。 学習データの不足を克服するために,テキスト画像に事前学習したモデルを手書き認識モデルの調整のための出発点として活用する。 ResNetの特徴抽出と双方向LSTMに基づくシーケンスモデリングはエンコーダを構成する。 予測段階は、デコーダとコンテンツベースの注意機構から構成される。 提案したエンドツーエンドHTRシステムの有効性は、新しいマルチライターデータセットImgur5KとIAMデータセットで実証的に評価されている。 実験結果はhtrフレームワークの性能を評価し、さらにエラーケースの詳細な分析によってサポートした。 ソースコードと事前訓練されたモデルはhttps://github.com/dmitrijsk/AttentionHTR.comで入手できる。

This work proposes an attention-based sequence-to-sequence model for handwritten word recognition and explores transfer learning for data-efficient training of HTR systems. To overcome training data scarcity, this work leverages models pre-trained on scene text images as a starting point towards tailoring the handwriting recognition models. ResNet feature extraction and bidirectional LSTM-based sequence modeling stages together form an encoder. The prediction stage consists of a decoder and a content-based attention mechanism. The effectiveness of the proposed end-to-end HTR system has been empirically evaluated on a novel multi-writer dataset Imgur5K and the IAM dataset. The experimental results evaluate the performance of the HTR framework, further supported by an in-depth analysis of the error cases. Source code and pre-trained models are available at https://github.com/dmitrijsk/AttentionHTR.
翻訳日:2022-01-25 14:32:21 公開日:2022-01-23
# miseval: 医用画像分割評価のための計量ライブラリ

MISeval: a Metric Library for Medical Image Segmentation Evaluation ( http://arxiv.org/abs/2201.09395v1 )

ライセンス: Link先を確認
Dominik M\"uller, Dennis Hartmann, Philip Meyer, Florian Auer, I\~naki Soto-Rey and Frank Kramer(参考訳) 正しいパフォーマンス評価は、ディープラーニングベースの医療画像セグメンテーションモデルのような医学における現代の人工知能アルゴリズムを評価するのに不可欠である。 しかし、pythonに標準的かつ再現可能な評価のためのユニバーサルメトリックライブラリは存在しない。 そこで我々は,医療画像セグメンテーション評価のためのメトリクスライブラリであるmisevalをオープンソースとして公開した。 実装されたメトリクスは直感的に使用でき、パフォーマンス評価パイプラインに簡単に統合できます。 このパッケージは、機能と安定性を確保するためにモダンなci/cd戦略を使用している。 MISevalは、PyPI (miseval)とGitHubから入手できる。

Correct performance assessment is crucial for evaluating modern artificial intelligence algorithms in medicine like deep-learning based medical image segmentation models. However, there is no universal metric library in Python for standardized and reproducible evaluation. Thus, we propose our open-source publicly available Python package MISeval: a metric library for Medical Image Segmentation Evaluation. The implemented metrics can be intuitively used and easily integrated into any performance assessment pipeline. The package utilizes modern CI/CD strategies to ensure functionality and stability. MISeval is available from PyPI (miseval) and GitHub: https://github.com/frankkramer-lab/miseval.
翻訳日:2022-01-25 14:32:08 公開日:2022-01-23
# ダイコトミックパターンマイニングと半構造化クリックストリームデータセットからのインテント予測への応用

Dichotomic Pattern Mining with Applications to Intent Prediction from Semi-Structured Clickstream Datasets ( http://arxiv.org/abs/2201.09178v1 )

ライセンス: Link先を確認
Xin Wang, Serdar Kadioglu(参考訳) 半構造化データセット上で動作し,結果間の二分法を利用するパターンマイニングフレームワークを提案する。 本手法は制約推論を活用し,頻繁に発生する逐次パターンを見つけ,望ましい特性を示す。 これにより、知識抽出や予測モデリングに有用な新しいパターン埋め込みを作成することができる。 最後に,デジタルクリックストリームデータから顧客意図予測に関するアプリケーションを提案する。 全体として、パターン埋め込みは半構造化データと機械学習モデルの間の積分子の役割を担い、下流タスクの性能を改善し、解釈可能性を維持する。

We introduce a pattern mining framework that operates on semi-structured datasets and exploits the dichotomy between outcomes. Our approach takes advantage of constraint reasoning to find sequential patterns that occur frequently and exhibit desired properties. This allows the creation of novel pattern embeddings that are useful for knowledge extraction and predictive modeling. Finally, we present an application on customer intent prediction from digital clickstream data. Overall, we show that pattern embeddings play an integrator role between semi-structured data and machine learning models, improve the performance of the downstream task and retain interpretability.
翻訳日:2022-01-25 14:31:46 公開日:2022-01-23
# ビデオキャプションと応用のための統合的アプローチ

An Integrated Approach for Video Captioning and Applications ( http://arxiv.org/abs/2201.09153v1 )

ライセンス: Link先を確認
Soheyla Amirian, Thiab R. Taha, Khaled Rasheed, Hamid R. Arabnia(参考訳) 物理コンピューティングインフラストラクチャ、データ収集、アルゴリズムは最近、画像やビデオから情報を抽出するための重要な進歩を遂げている。 この成長は特に画像キャプションやビデオキャプションで顕著である。 しかし、ビデオキャプションの進歩のほとんどは、今でも短いビデオで行われている。 本研究では,ビデオフレーム全体の小さなサブセットであるキーフレームを使用することで,より長い動画をキャプションする。 数千フレームを処理する代わりに、キーフレームの数に応じて数フレームしか処理されない。 多くのフレームの計算とキャプション処理の速度との間にはトレードオフがある。 本研究のアプローチは,実行時間と精度のトレードオフをユーザが指定できるようにすることである。 さらに,画像や映像,自然言語をリンクすることで,実用上のメリットや即効的な応用が期待できる。 モデリングの観点からは、ビデオの処理や複雑な処理パイプラインでキャプションを生成するために、明示的なアルゴリズムを設計してステージングするのではなく、ビデオキーフレームをキャプションして長いビデオに適用するためのハイブリッドなディープラーニングアーキテクチャを設計することに貢献しています。 本研究では,本研究で議論されるアプリケーションへのステップとして開発した技術と方法論について考察する。

Physical computing infrastructure, data gathering, and algorithms have recently had significant advances to extract information from images and videos. The growth has been especially outstanding in image captioning and video captioning. However, most of the advancements in video captioning still take place in short videos. In this research, we caption longer videos only by using the keyframes, which are a small subset of the total video frames. Instead of processing thousands of frames, only a few frames are processed depending on the number of keyframes. There is a trade-off between the computation of many frames and the speed of the captioning process. The approach in this research is to allow the user to specify the trade-off between execution time and accuracy. In addition, we argue that linking images, videos, and natural language offers many practical benefits and immediate practical applications. From the modeling perspective, instead of designing and staging explicit algorithms to process videos and generate captions in complex processing pipelines, our contribution lies in designing hybrid deep learning architectures to apply in long videos by captioning video keyframes. We consider the technology and the methodology that we have developed as steps toward the applications discussed in this research.
翻訳日:2022-01-25 13:59:58 公開日:2022-01-23
# (参考訳) Pseudo-Log-Likelihoods の自然言語スコーリングへの応用

An Application of Pseudo-Log-Likelihoods to Natural Language Scoring ( http://arxiv.org/abs/2201.09377v1 )

ライセンス: CC BY 4.0
Darren Abramson and Ali Emami(参考訳) 半教師付き機械学習を使って構築された言語モデルは、自然言語の生成と理解の分野を急速に覆い隠している。 本稿では,多くの研究者が独自に開発したゼロショットアプローチを,一般的な感覚タスクの評価のためのファインチューニングの代案として認識している。 より最近の言語モデル(T5)と比較して、比較的少ないパラメータとトレーニングステップを持つ言語モデルは、同様の言語タスクのクラスにわたるパフォーマンスの堅牢性を示しながら、最近の大規模なデータセット(TimeDial)でそれを上回るパフォーマンスを発揮する。 驚くべきことに、この結果はより小さいモデルでハイパーパラメータフリーなゼロショットメソッドを使用することで達成される。 類似したモデルのクラスに関する最近の文献から考える意味で、より小さいモデルの頑健性は構成性の観点から理解されるべきであると主張する。 本手法の実用的コストとモデルを明らかにする: 自然言語評価のための高gpu時間。 アルバートや他のbert変種に対して顕著な安定性をもたらすゼロショット計測技術は、ウィノグラード・スキーマチャレンジ、ウィノグランデなど強制選択言語タスクにおける代替代替の確率の相対的測定のためのマスク言語モデルへの擬似ログ類似の応用である。 この論文の貢献の一つは、類似しているが独立した多くの研究をまとめることである。 我々は、二分選択タスクにおける常識推論のための絶対的な最先端の結果を生成し、微調整を含む文学におけるどの結果よりも優れた結果を得る。 我々は,モデルの表現構成性によって最もよく説明できる,敵対的設定下でのモデルの性能の顕著な一貫性を示す。

Language models built using semi-supervised machine learning on large corpora of natural language have very quickly enveloped the fields of natural language generation and understanding. In this paper we apply a zero-shot approach independently developed by a number of researchers now gaining recognition as a significant alternative to fine-tuning for evaluation on common sense tasks. A language model with relatively few parameters and training steps compared to a more recent language model (T5) can outperform it on a recent large data set (TimeDial), while displaying robustness in its performance across a similar class of language tasks. Surprisingly, this result is achieved by using a hyperparameter-free zero-shot method with the smaller model, compared to fine-tuning to the larger model. We argue that robustness of the smaller model ought to be understood in terms of compositionality, in a sense that we draw from recent literature on a class of similar models. We identify a practical cost for our method and model: high GPU-time for natural language evaluation. The zero-shot measurement technique that produces remarkable stability, both for ALBERT and other BERT variants, is an application of pseudo-log-likelihoods to masked language models for the relative measurement of probability for substitution alternatives in forced choice language tasks such as the Winograd Schema Challenge, Winogrande, and others. One contribution of this paper is to bring together a number of similar, but independent strands of research. We produce some absolute state-of-the-art results for common sense reasoning in binary choice tasks, performing better than any published result in the literature, including fine-tuned efforts. We show a remarkable consistency of the model's performance under adversarial settings, which we argue is best explained by the model's compositionality of representations.
翻訳日:2022-01-25 13:57:45 公開日:2022-01-23
# 校正作業によるモデル抽出コストの増大

Increasing the Cost of Model Extraction with Calibrated Proof of Work ( http://arxiv.org/abs/2201.09243v1 )

ライセンス: Link先を確認
Adam Dziedzic, Muhammad Ahmad Kaleem, Yu Shen Lu, Nicolas Papernot(参考訳) モデル抽出攻撃では、敵は公開APIを通じて公開されている機械学習モデルを盗み、それを繰り返しクエリし、得られた予測に基づいて自身のモデルを調整できる。 モデル盗みを防止するため、既存の防御策では悪意のあるクエリの検出、停止、出力の歪曲に重点を置いているため、正当なユーザのための堅牢性とモデルユーティリティのトレードオフを導入する必要がある。 代わりに,モデルの予測を読めなくなる前に,ユーザが作業の証明を完了するよう要求することで,モデル抽出を妨げることを提案する。 これにより、モデル抽出にクエリアクセスを利用するのに必要な計算労力を大幅に増加(最大100倍)することで攻撃者を抑える。 クエリ毎に作業の完了に必要な労力を調整するため、通常のユーザ(最大2倍)に対してわずかにオーバーヘッドを発生させるだけです。 これを実現するために,我々は,クエリによって明らかにされる情報を測定するために,差分プライバシーのツールを適用する。 本手法は,被害者モデルの修正を必要とせず,公開されているモデルが容易に盗まれないように,機械学習実践者が適用することができる。

In model extraction attacks, adversaries can steal a machine learning model exposed via a public API by repeatedly querying it and adjusting their own model based on obtained predictions. To prevent model stealing, existing defenses focus on detecting malicious queries, truncating, or distorting outputs, thus necessarily introducing a tradeoff between robustness and model utility for legitimate users. Instead, we propose to impede model extraction by requiring users to complete a proof-of-work before they can read the model's predictions. This deters attackers by greatly increasing (even up to 100x) the computational effort needed to leverage query access for model extraction. Since we calibrate the effort required to complete the proof-of-work to each query, this only introduces a slight overhead for regular users (up to 2x). To achieve this, our calibration applies tools from differential privacy to measure the information revealed by a query. Our method requires no modification of the victim model and can be applied by machine learning practitioners to guard their publicly exposed models against being easily stolen.
翻訳日:2022-01-25 13:37:27 公開日:2022-01-23
# 3次元物体検出モデルと方法の調査と体系化

Survey and Systematization of 3D Object Detection Models and Methods ( http://arxiv.org/abs/2201.09354v1 )

ライセンス: Link先を確認
Moritz Drobnitzky, Jonas Friederich, Bernhard Egger, Patrick Zschech(参考訳) 本稿では,入力データからデータ表現,特徴抽出から実際の検出モジュールまでの全パイプラインを網羅する3次元オブジェクト検出の最近の展開を包括的に調査する。 基本的な概念を取り入れ,過去10年間に発生したさまざまなアプローチを幅広く調査し,それらのアプローチをメソッドレベルで比較するための実践的なフレームワークを提供するシステム化を提案する。

This paper offers a comprehensive survey of recent developments in 3D object detection covering the full pipeline from input data, over data representation and feature extraction to the actual detection modules. We include basic concepts, focus our survey on a broad spectrum of different approaches arising in the last ten years and propose a systematization which offers a practical framework to compare those approaches on the methods level.
翻訳日:2022-01-25 13:37:07 公開日:2022-01-23
# スペクトル,確率,深層メトリック学習:チュートリアルと調査

Spectral, Probabilistic, and Deep Metric Learning: Tutorial and Survey ( http://arxiv.org/abs/2201.09267v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) これはメートル法学習に関するチュートリアルおよび調査論文である。 アルゴリズムはスペクトル、確率、および深度メートル法学習に分けられる。 まず、距離距離、マハラノビス距離、および一般化されたマハラノビス距離の定義から始める。 スペクトル法では,第1のスペクトルメトリック学習,フィッシャー判別分析に関連する手法,関連する成分分析(rca),判別成分分析(dca),フィッシャー-hsic法など,データの散乱を用いた手法から始める。 次に, 大規模計量学習, 不均衡計量学習, 局所線形計量適応, 対角距離学習について述べる。 また,特徴空間における計量学習のためのカーネルスペクトル法についても述べる。 また、リーマン多様体上の幾何学的距離学習法も導入する。 確率論的手法では,入力空間と特徴空間の両方でクラスが崩壊し,近隣成分分析法,ベイズ計量学習,情報理論法,計量学習における経験的リスク最小化について説明する。 深層学習法では,まず再構成オートエンコーダと教師付き損失関数を導入する。 次に、シャムネットワークとその損失関数、三重項マイニング、三重項サンプリングについて説明する。 また,フィッシャー判別分析に基づく深層判別分析手法についても概説した。 最後に、マルチモーダルな深度学習、ニューラルネットワークによる幾何メートル法学習、数ショットのメートル法学習を紹介する。

This is a tutorial and survey paper on metric learning. Algorithms are divided into spectral, probabilistic, and deep metric learning. We first start with the definition of distance metric, Mahalanobis distance, and generalized Mahalanobis distance. In spectral methods, we start with methods using scatters of data, including the first spectral metric learning, relevant methods to Fisher discriminant analysis, Relevant Component Analysis (RCA), Discriminant Component Analysis (DCA), and the Fisher-HSIC method. Then, large-margin metric learning, imbalanced metric learning, locally linear metric adaptation, and adversarial metric learning are covered. We also explain several kernel spectral methods for metric learning in the feature space. We also introduce geometric metric learning methods on the Riemannian manifolds. In probabilistic methods, we start with collapsing classes in both input and feature spaces and then explain the neighborhood component analysis methods, Bayesian metric learning, information theoretic methods, and empirical risk minimization in metric learning. In deep learning methods, we first introduce reconstruction autoencoders and supervised loss functions for metric learning. Then, Siamese networks and its various loss functions, triplet mining, and triplet sampling are explained. Deep discriminant analysis methods, based on Fisher discriminant analysis, are also reviewed. Finally, we introduce multi-modal deep metric learning, geometric metric learning by neural networks, and few-shot metric learning.
翻訳日:2022-01-25 13:36:35 公開日:2022-01-23
# フルフェイス外観に基づく3次元視線推定のための学習・バイ・ノーベルビュー合成

Learning-by-Novel-View-Synthesis for Full-Face Appearance-based 3D Gaze Estimation ( http://arxiv.org/abs/2201.07927v2 )

ライセンス: Link先を確認
Jiawei Qin, Takuru Shimoyama, Yusuke Sugano(参考訳) 近年の外観に基づく視線推定技術の進歩にもかかわらず、目標の頭部ポーズと視線分布をカバーするトレーニングデータの必要性は、実用的展開において重要な課題である。 本研究は,単眼3次元顔再構成に基づく視線推定訓練データの合成手法について検討する。 マルチビュー再構成,フォトリアリスティックcgモデル,ジェネレイティブニューラルネットワークを用いた先行研究とは異なり,既存のトレーニングデータの頭部ポーズ範囲を,追加の必要なしに操作・拡張することが可能である。 本稿では,再構成された3次元顔メッシュをカメラ座標系と整合させ,正確な視線ラベルを用いた顔画像合成を行う投影マッチング手法を提案する。 また,合成学習データを活用することで,推定精度をさらに向上させるため,マスクガイド付視線推定モデルとデータ拡張戦略を提案する。 複数の公開データセットを用いた実験により、重複しない視線分布を持つ挑戦的なデータセット設定における推定性能が大幅に向上することが示された。

Despite recent advances in appearance-based gaze estimation techniques, the need for training data that covers the target head pose and gaze distribution remains a crucial challenge for practical deployment. This work examines a novel approach for synthesizing gaze estimation training data based on monocular 3D face reconstruction. Unlike prior works using multi-view reconstruction, photo-realistic CG models, or generative neural networks, our approach can manipulate and extend the head pose range of existing training data without any additional requirements. We introduce a projective matching procedure to align the reconstructed 3D facial mesh to the camera coordinate system and synthesize face images with accurate gaze labels. We also propose a mask-guided gaze estimation model and data augmentation strategies to further improve the estimation accuracy by taking advantage of the synthetic training data. Experiments using multiple public datasets show that our approach can significantly improve the estimation performance on challenging cross-dataset settings with non-overlapping gaze distributions.
翻訳日:2022-01-25 11:56:24 公開日:2022-01-23