このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220104となっている論文です。

PDF登録状況(公開日: 20220104)

TitleAuthorsAbstract論文公表日・翻訳日
# グラフ上の注意に基づく勧告

Attention-Based Recommendation On Graphs ( http://arxiv.org/abs/2201.05499v1 )

ライセンス: Link先を確認
Taher Hekmatfar, Saman Haratizadeh, Parsa Razban, Sama Goliaei(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなタスクで顕著なパフォーマンスを示している。 しかしながら、GNNのレコメンデーションシステムに関するいくつかの研究がある。 GNNの一種であるGCNは、グラフ内の異なるエンティティに対する高品質な埋め込みを抽出することができる。 協調フィルタリングタスクでは、対象ユーザの将来の振る舞いを予測するために、エンティティがどの程度情報的かを知ることが問題となる。 注意機構を用いて、基礎となるデータがグラフとしてモデル化された場合、GCNがそのような分析を行えるようにする。 本研究では,レコメンダグラフ上の空間gcnとともに注意機構を適用し,ユーザやアイテムへの埋め込みを抽出するモデルベースレコメンダシステムとしてgarecを提案する。 注意機構はGCNに、関連するユーザまたはアイテムがターゲットエンティティの最終的な表現にどの程度影響するかを伝える。 GARecの性能をRMSEのベースラインアルゴリズムと比較した。 提案手法は,既存のモデルベース非グラフニューラルネットワークとグラフニューラルネットワークを異なるMovieLensデータセットで比較した。

Graph Neural Networks (GNN) have shown remarkable performance in different tasks. However, there are a few studies about GNN on recommender systems. GCN as a type of GNNs can extract high-quality embeddings for different entities in a graph. In a collaborative filtering task, the core problem is to find out how informative an entity would be for predicting the future behavior of a target user. Using an attention mechanism, we can enable GCNs to do such an analysis when the underlying data is modeled as a graph. In this study, we proposed GARec as a model-based recommender system that applies an attention mechanism along with a spatial GCN on a recommender graph to extract embeddings for users and items. The attention mechanism tells GCN how much a related user or item should affect the final representation of the target entity. We compared the performance of GARec against some baseline algorithms in terms of RMSE. The presented method outperforms existing model-based, non-graph neural networks and graph neural networks in different MovieLens datasets.
翻訳日:2022-01-23 18:29:38 公開日:2022-01-04
# C2-CRS:会話レコメンダシステムのための粗大なコントラスト学習

C2-CRS: Coarse-to-Fine Contrastive Learning for Conversational Recommender System ( http://arxiv.org/abs/2201.02732v1 )

ライセンス: Link先を確認
Yuanhang Zhou, Kun Zhou, Wayne Xin Zhao, Cheng Wang, Peng Jiang, He Hu(参考訳) 会話レコメンデータシステム(CRS)は,自然言語会話を通じて適切な項目をユーザに推薦することを目的としている。 効果的なCRSを開発するためには、非常に限られた会話コンテキストからユーザの好みを正確に推測する方法が重要な技術的問題である。 問題に対処するには、コンテキスト情報を豊かにするために外部データを組み込むことが有望である。 しかし、以前の研究は主に特定の種類の外部データ用に調整された核融合モデルの設計に重点を置いている。 マルチタイプの外部データを効果的に活用するために,CRSのデータセマンティックフュージョンを改善するための,より粗いコントラスト学習フレームワークを提案する。 提案手法では,まず異なるデータ信号から多粒度意味単位を抽出し,次に,関連した多形意味単位を粗い方法で整列させる。 このフレームワークを実装するために、ユーザ嗜好をモデル化するための粗粒度と細粒度の両方の手順を設計し、前者はより汎用的で粗粒度の高いセマンティックフュージョンに、後者はより具体的で細粒度なセマンティックフュージョンに焦点をあてる。 このようなアプローチは、より多くの種類の外部データを組み込むように拡張できる。 2つの公開CRSデータセットに対する大規模な実験により,提案手法の有効性が示唆された。

Conversational recommender systems (CRS) aim to recommend suitable items to users through natural language conversations. For developing effective CRSs, a major technical issue is how to accurately infer user preference from very limited conversation context. To address issue, a promising solution is to incorporate external data for enriching the context information. However, prior studies mainly focus on designing fusion models tailored for some specific type of external data, which is not general to model and utilize multi-type external data. To effectively leverage multi-type external data, we propose a novel coarse-to-fine contrastive learning framework to improve data semantic fusion for CRS. In our approach, we first extract and represent multi-grained semantic units from different data signals, and then align the associated multi-type semantic units in a coarse-to-fine way. To implement this framework, we design both coarse-grained and fine-grained procedures for modeling user preference, where the former focuses on more general, coarse-grained semantic fusion and the latter focuses on more specific, fine-grained semantic fusion. Such an approach can be extended to incorporate more kinds of external data. Extensive experiments on two public CRS datasets have demonstrated the effectiveness of our approach in both recommendation and conversation tasks.
翻訳日:2022-01-16 16:05:00 公開日:2022-01-04
# (参考訳) カプセルネットワークを用いたパーキンソン病診断のための脳波法 [全文訳有]

An EEG-based approach for Parkinson's disease diagnosis using Capsule network ( http://arxiv.org/abs/2201.00628v2 )

ライセンス: CC BY 4.0
Shujie Wang, Gongshu Wang, Guangying Pei(参考訳) 2番目に多い神経変性疾患として、パーキンソン病は世界中で深刻な問題を引き起こしている。 しかし、PDの原因と機序は明らかではなく、PDの系統的早期診断や治療は確立されていない。 PD患者の多くは診断や誤診を受けていない。 本稿では,パーキンソン病の診断に脳波を用いたアプローチを提案する。 補間法を用いて脳波(EEG)信号の周波数帯エネルギーを2次元画像にマッピングし、カプセルネットワーク(CapsNet)を用いて分類し、短期脳波セクションの89.34%の分類精度を達成した。 異なる脳波帯域で異なる分類精度を比較すると、ガンマバンドの最も高い精度が示され、PDの初期段階におけるガンマバンドの変化により多くの注意を払う必要があることが示唆された。

As the second most common neurodegenerative disease, Parkinson's disease has caused serious problems worldwide. However, the cause and mechanism of PD are not clear, and no systematic early diagnosis and treatment of PD have been established. Many patients with PD have not been diagnosed or misdiagnosed. In this paper, we proposed an EEG-based approach to diagnosing Parkinson's disease. It mapped the frequency band energy of electroencephalogram (EEG) signals to 2-dimensional images using the interpolation method and identified classification using capsule network(CapsNet) and achieved 89.34% classification accuracy for short-term EEG sections. A comparison of separate classification accuracy across different EEG bands revealed the highest accuracy in the gamma bands, suggesting that we need to pay more attention to the changes in gamma band changes in the early stages of PD.
翻訳日:2022-01-09 14:55:53 公開日:2022-01-04
# (参考訳) 二重転写DNAのためのグラフニューラルネットワーク [全文訳有]

Graph Neural Networks for Double-Strand DNA Breaks Prediction ( http://arxiv.org/abs/2201.01855v1 )

ライセンス: CC BY 4.0
XU Wang and Huan Zhao and Weiwei TU and Hao Li and Yu Sun and Xiaochen Bo(参考訳) 二重鎖DNA切断(Double-strand DNA breaks、DSBs)は、異常な染色体再構成を引き起こすDNA損傷の一種である。 本研究では,dna配列の特徴と染色体構造情報を用いてdsbs(graphdsb)を予測するグラフニューラルネットワークを設計,構築する。 モデルの表現能力を向上させるために,Jumping Knowledge Architectureといくつかの効果的な構造符号化手法を導入する。 正常ヒト表皮ケラチノサイト (NHEK) および慢性骨髄性白血病細胞株 (K562) からのデータセットを用いて, DSBs の予測に対する構造情報の寄与を検証し, さらに, 提案した GraphDSB フレームワークにおける設計成分の有効性について検討した。 最後に,gnnexplainerを用いてdsbs予測へのノード特徴とトポロジーの寄与を分析し,5-merのdna配列特徴と2つのクロマチン相互作用モードの高い寄与を証明した。

Double-strand DNA breaks (DSBs) are a form of DNA damage that can cause abnormal chromosomal rearrangements. Recent technologies based on high-throughput experiments have obvious high costs and technical challenges.Therefore , we design a graph neural network based method to predict DSBs (GraphDSB), using DNA sequence features and chromosome structure information. In order to improve the expression ability of the model, we introduce Jumping Knowledge architecture and several effective structural encoding methods. The contribution of structural information to the prediction of DSBs is verified by the experiments on datasets from normal human epidermal keratinocytes (NHEK) and chronic myeloid leukemia cell line (K562), and the ablation studies further demonstrate the effectiveness of the designed components in the proposed GraphDSB framework. Finally, we use GNNExplainer to analyze the contribution of node features and topology to DSBs prediction, and proved the high contribution of 5-mer DNA sequence features and two chromatin interaction modes.
翻訳日:2022-01-08 00:18:12 公開日:2022-01-04
# (参考訳) 時系列の弾性積量子化 [全文訳有]

Elastic Product Quantization for Time Series ( http://arxiv.org/abs/2201.01856v1 )

ライセンス: CC BY 4.0
Pieter Robberechts, Wannes Meert, Jesse Davis(参考訳) 多数の、あるいは長い時系列の分析は、高いストレージコストと計算要件のため、実際には困難である。 そのため、時系列のコンパクトな類似性保存表現を生成する手法が提案され、大規模なインメモリデータコレクション上でリアルタイムの類似性検索が可能となった。 しかし、既存の手法は、配列が位相外である場合の類似性を評価するのに理想的ではない。 本稿では,効率的な類似度に基づく時系列比較のための製品定量化手法を提案する。 まず、時系列を短いコードで表される同じ長さのサブシーケンスに分割することで、データを圧縮する。 2つの時系列間の距離は、コード間の事前計算された弾性距離によって効率よく近似することができる。 サブシーケンスへの分割は不要なアライメントを強制し、最大重なりの離散ウェーブレット変換(MODWT)を用いて事前アライメントステップで処理する。 提案手法の効率性と精度を実証するため,近隣の分類およびクラスタリングアプリケーションにおけるベンチマークデータセットの広範な評価を行った。 全体的に、提案されたソリューションは(メモリ使用量と計算時間の両方の観点から)時系列アプリケーションにおける弾力的測度の代替として現れる。

Analyzing numerous or long time series is difficult in practice due to the high storage costs and computational requirements. Therefore, techniques have been proposed to generate compact similarity-preservin g representations of time series, enabling real-time similarity search on large in-memory data collections. However, the existing techniques are not ideally suited for assessing similarity when sequences are locally out of phase. In this paper, we propose the use of product quantization for efficient similarity-based comparison of time series under time warping. The idea is to first compress the data by partitioning the time series into equal length sub-sequences which are represented by a short code. The distance between two time series can then be efficiently approximated by pre-computed elastic distances between their codes. The partitioning into sub-sequences forces unwanted alignments, which we address with a pre-alignment step using the maximal overlap discrete wavelet transform (MODWT). To demonstrate the efficiency and accuracy of our method, we perform an extensive experimental evaluation on benchmark datasets in nearest neighbors classification and clustering applications. Overall, the proposed solution emerges as a highly efficient (both in terms of memory usage and computation time) replacement for elastic measures in time series applications.
翻訳日:2022-01-08 00:09:24 公開日:2022-01-04
# (参考訳) FCNN:反応拡散方程式を解くための5点ステンシルCNN [全文訳有]

FCNN: Five-point stencil CNN for solving reaction-diffusion equations ( http://arxiv.org/abs/2201.01854v1 )

ライセンス: CC BY 4.0
Yongho Kim and Yongho Choi(参考訳) 本稿では,5点ステンシルカーネルとトレーニング可能な近似関数を含む5点ステンシルCNN(FCNN)を提案する。 我々は、熱、フィッシャー方程式、アレン・カーン方程式、三角関数を持つ反応拡散式を含む反応拡散型方程式を考察する。 提案するFCNNは, 少ないデータで十分に訓練され, 未確認初期条件で反応拡散進化を予測することができる。 また, 列車データを用いた場合, FCNNは良好に訓練されている。 提案するfcnnがうまく機能していることを示すため,様々なシミュレーション結果を示す。

In this paper, we propose Five-point stencil CNN (FCNN) containing a five-point stencil kernel and a trainable approximation function. We consider reaction-diffusion type equations including heat, Fisher's, Allen-Cahn equations, and reaction-diffusion equations with trigonometric functions. Our proposed FCNN is trained well using few data and then can predict reaction-diffusion evolutions with unseen initial conditions. Also, our FCNN is trained well in the case of using noisy train data. We present various simulation results to demonstrate that our proposed FCNN is working well.
翻訳日:2022-01-07 23:56:13 公開日:2022-01-04
# (参考訳) weibullに基づく損失関数を用いた知識情報機械学習 [全文訳有]

Knowledge Informed Machine Learning using a Weibull-based Loss Function ( http://arxiv.org/abs/2201.01769v1 )

ライセンス: CC BY 4.0
Tim von Hahn and Chris K Mechefske(参考訳) 機械学習は、外部知識の統合によって強化することができる。 この手法は知識情報機械学習と呼ばれ、PHM(Prognostics and Health Management)の分野にも適用できる。 本稿では,phmコンテキストから知識情報機械学習の様々な手法について,読者がドメインを理解するのを手助けする目的で検討する。 さらに、共通IMSとPronostiaのデータセットを用いて、有用な生活(RUL)予測のための知識情報機械学習手法を実証した。 特に、知識はワイブル分布を通して表現される信頼性工学の分野から得ている。 知識は、新しいweibullベースの損失関数を介してニューラルネットワークに統合される。 ワイブル型損失関数の詳細な統計的解析を行い,PronoSTIAデータセット上での有効性を実証した。 しかし、Weibullベースの損失関数はIMSデータセットでは効果が低い。 このアプローチの結果、欠点、メリットを長く議論する。 最後に、すべてのコードは、他の研究者の利益のために公開されています。

Machine learning can be enhanced through the integration of external knowledge. This method, called knowledge informed machine learning, is also applicable within the field of Prognostics and Health Management (PHM). In this paper, the various methods of knowledge informed machine learning, from a PHM context, are reviewed with the goal of helping the reader understand the domain. In addition, a knowledge informed machine learning technique is demonstrated, using the common IMS and PRONOSTIA bearing data sets, for remaining useful life (RUL) prediction. Specifically, knowledge is garnered from the field of reliability engineering which is represented through the Weibull distribution. The knowledge is then integrated into a neural network through a novel Weibull-based loss function. A thorough statistical analysis of the Weibull-based loss function is conducted, demonstrating the effectiveness of the method on the PRONOSTIA data set. However, the Weibull-based loss function is less effective on the IMS data set. The results, shortcomings, and benefits of the approach are discussed in length. Finally, all the code is publicly available for the benefit of other researchers.
翻訳日:2022-01-07 23:50:12 公開日:2022-01-04
# 深層強化学習

Deep Reinforcement Learning ( http://arxiv.org/abs/2201.02135v1 )

ライセンス: Link先を確認
Aske Plaat(参考訳) 深層強化学習は近年注目を集めている。 自動運転、ゲームプレイ、分子組換え、ロボティクスなど、さまざまな分野で素晴らしい成果が得られました。 これらすべての分野において、コンピュータプログラムは難しい問題を解くことを自ら教えている。 彼らは模型ヘリコプターを飛ばし、ループやロールのようなエアロバティックな操縦をすることを学んだ。 一部のアプリケーションでは、Atari、Go、ポーカー、StarCraftなど、最高の人間よりも優れています。 深層強化学習が複雑な環境を探索する方法は、子供たちがふざけて物事を試し、フィードバックを得て、もう一度挑戦することで、どのように学習するかを思い出させる。 コンピューターは本当に人間の学習の側面を持っているようで、これは人工知能の夢の核心にかかっている。 研究の成功は教育者によって気付かれず、大学はこのテーマのコースを提供し始めている。 本書の目的は,深層強化学習の分野の包括的概要を提供することである。 この本は人工知能の大学院生と、深層強化学習の方法とその課題をより深く理解したい研究者や実践者のために書かれている。 我々は、コンピュータ科学と人工知能の学部レベルの理解を想定し、この本のプログラミング言語はPythonである。 本稿では,深層強化学習の基礎,アルゴリズム,応用について述べる。 フィールドの基礎を形成する既定のモデルフリーおよびモデルベースメソッドについて紹介する。 開発は急速に進み、深層多エージェント強化学習、深層階層強化学習、深層メタ学習といった先進的なトピックもカバーしています。

Deep reinforcement learning has gathered much attention recently. Impressive results were achieved in activities as diverse as autonomous driving, game playing, molecular recombination, and robotics. In all these fields, computer programs have taught themselves to solve difficult problems. They have learned to fly model helicopters and perform aerobatic manoeuvers such as loops and rolls. In some applications they have even become better than the best humans, such as in Atari, Go, poker and StarCraft. The way in which deep reinforcement learning explores complex environments reminds us of how children learn, by playfully trying out things, getting feedback, and trying again. The computer seems to truly possess aspects of human learning; this goes to the heart of the dream of artificial intelligence. The successes in research have not gone unnoticed by educators, and universities have started to offer courses on the subject. The aim of this book is to provide a comprehensive overview of the field of deep reinforcement learning. The book is written for graduate students of artificial intelligence, and for researchers and practitioners who wish to better understand deep reinforcement learning methods and their challenges. We assume an undergraduate-level of understanding of computer science and artificial intelligence; the programming language of this book is Python. We describe the foundations, the algorithms and the applications of deep reinforcement learning. We cover the established model-free and model-based methods that form the basis of the field. Developments go quickly, and we also cover advanced topics: deep multi-agent reinforcement learning, deep hierarchical reinforcement learning, and deep meta learning.
翻訳日:2022-01-07 14:53:35 公開日:2022-01-04
# 分散型フェイクニュース検出のためのSwarm LearningへのHuman-in-the-loopの統合

Integrating Human-in-the-loop into Swarm Learning for Decentralized Fake News Detection ( http://arxiv.org/abs/2201.02048v1 )

ライセンス: Link先を確認
Xishuang Dong and Lijun Qian(参考訳) ソーシャルメディアは、人々を誤解させ、世論を歪めてしまう偽ニュースを生み出し広める効果的なプラットフォームになっている。 しかし、フェイクニュース検出の集中化手法は、トレーニングモデルの集中データ収集プロセスにおいて、ユーザのプライバシを効果的に保護することはできない。 さらに、フェイクニュース検出をさらに強化するために、学習検出モデルのループにユーザーフィードバックを完全に巻き込むことはできない。 これらの課題を克服するために,本研究では,ユーザのプライバシを分散的に侵害することなく,偽ニュースを認識するための学習と推論のループにユーザフィードバックを統合する,新たな分散化手法であるHBSLを提案する。 ローカルデータ上のフェイクニュースを独立して学習し検出できる分散ノードで構成されている。 さらに、これらのノードでトレーニングされた検出モデルは、分散モデルマージによって強化することができる。 実験の結果,提案手法は,ベンチマークデータセット上での偽ニュースの検出において,最先端の分散手法よりも優れていた。

Social media has become an effective platform to generate and spread fake news that can mislead people and even distort public opinion. Centralized methods for fake news detection, however, cannot effectively protect user privacy during the process of centralized data collection for training models. Moreover, it cannot fully involve user feedback in the loop of learning detection models for further enhancing fake news detection. To overcome these challenges, this paper proposed a novel decentralized method, Human-in-the-loop Based Swarm Learning (HBSL), to integrate user feedback into the loop of learning and inference for recognizing fake news without violating user privacy in a decentralized manner. It consists of distributed nodes that are able to independently learn and detect fake news on local data. Furthermore, detection models trained on these nodes can be enhanced through decentralized model merging. Experimental results demonstrate that the proposed method outperforms the state-of-the-art decentralized method in regard of detecting fake news on a benchmark dataset.
翻訳日:2022-01-07 14:40:34 公開日:2022-01-04
# (参考訳) Sim2Real Gap量子化による四足歩行歩行実験と評価 [全文訳有]

Test and Evaluation of Quadrupedal Walking Gaits through Sim2Real Gap Quantification ( http://arxiv.org/abs/2201.01323v1 )

ライセンス: CC BY 4.0
Prithvi Akella, Wyatt Ubellacker, and Aaron D. Ames(参考訳) 本報告では,実際のシステムの運用目標を満足する能力を評価し,検証するための2段階のアプローチを提案する。 具体的には、システム目標が満足度(すなわち信号時相論理仕様やバリア関数など)の定量値を持つ場合、著者らはベイズ最適化手順を通じて解決可能な2つの異なる最適化問題を開発する。 このデュアルアプローチは、システムシミュレータとハードウェアとのsim2現実のギャップを定量化する付加的な利点がある。 私たちの貢献は2倍です。 まず,これらの最適化問題の解法について,概略最適化手順に関して繰り返し可能性を示す。 第2に,シミュレータと異なる環境で動作するハードウェア間のsim2現実的ギャップを識別することにより,同一の手順で異なる環境を判別できることを示す。

In this letter, the authors propose a two-step approach to evaluate and verify a true system's capacity to satisfy its operational objective. Specifically, whenever the system objective has a quantifiable measure of satisfaction, i.e. a signal temporal logic specification, a barrier function, etc - the authors develop two separate optimization problems solvable via a Bayesian Optimization procedure detailed within. This dual approach has the added benefit of quantifying the Sim2Real Gap between a system simulator and its hardware counterpart. Our contributions are twofold. First, we show repeatability with respect to our outlined optimization procedure in solving these optimization problems. Second, we show that the same procedure can discriminate between different environments by identifying the Sim2Real Gap between a simulator and its hardware counterpart operating in different environments.
翻訳日:2022-01-06 20:29:14 公開日:2022-01-04
# (参考訳) 二足歩行における転倒防止と安全のための学習制御

Learning Control Policies for Fall prevention and safety in bipedal locomotion ( http://arxiv.org/abs/2201.01361v1 )

ライセンス: CC BY 4.0
Visak Kumar(参考訳) 予期せぬ外乱から回復する能力は、二足歩行における基本的な運動能力である。 効果的な応答は、バランスの回復と安定性の維持だけでなく、バランスの回復が物理的に不可能な場合に安全な方法で崩壊する能力を含む。 歩行を支援するヒューマノイドロボットや補助ロボットデバイスといった二足歩行に関連するロボットの場合、この安定性と安全性を提供するコントローラーの設計は、ロボットの損傷を防止したり、医療コストの障害を防ぐことができる。 これは、高次元、非線形、非作動系の接触を伴う高度にダイナミックな動きを生成するため、難しいタスクである。 モデルベースおよび最適化手法の事前の進歩にもかかわらず、広範なドメイン知識の要求、比較的大きな計算時間、ダイナミックスの変化に対するロバスト性といった課題は、まだオープンな問題である。 そこで本論文では,二足歩行を支援するヒューマノイドロボットと補助ロボットの2種類のロボットに対して,プッシュリカバリ制御ポリシを合成する学習ベースのアルゴリズムを開発した。 我々の研究は,(1)ヒューマノイドロボットの安全落下・転倒防止戦略の学習と,それに関連する2つの方向性に分岐することができる。 2)ロボット支援装置を用いた人間の転倒防止戦略の学習 そこで本研究では,これらのロボットを用いて安全性を向上させる制御ポリシーを学習するための,深層強化学習(DRL)アルゴリズムを提案する。

The ability to recover from an unexpected external perturbation is a fundamental motor skill in bipedal locomotion. An effective response includes the ability to not just recover balance and maintain stability but also to fall in a safe manner when balance recovery is physically infeasible. For robots associated with bipedal locomotion, such as humanoid robots and assistive robotic devices that aid humans in walking, designing controllers which can provide this stability and safety can prevent damage to robots or prevent injury related medical costs. This is a challenging task because it involves generating highly dynamic motion for a high-dimensional, non-linear and under-actuated system with contacts. Despite prior advancements in using model-based and optimization methods, challenges such as requirement of extensive domain knowledge, relatively large computational time and limited robustness to changes in dynamics still make this an open problem. In this thesis, to address these issues we develop learning-based algorithms capable of synthesizing push recovery control policies for two different kinds of robots : Humanoid robots and assistive robotic devices that assist in bipedal locomotion. Our work can be branched into two closely related directions : 1) Learning safe falling and fall prevention strategies for humanoid robots and 2) Learning fall prevention strategies for humans using a robotic assistive devices. To achieve this, we introduce a set of Deep Reinforcement Learning (DRL) algorithms to learn control policies that improve safety while using these robots.
翻訳日:2022-01-06 20:07:31 公開日:2022-01-04
# (参考訳) スパーススーパーレギュラーネットワーク [全文訳有]

Sparse Super-Regular Networks ( http://arxiv.org/abs/2201.01363v1 )

ライセンス: CC BY 4.0
Andrew W.E. McDonald and Ali Shokoufandeh(参考訳) ThomとPalmは、疎結合ニューラルネットワーク(SCN)は完全接続ネットワーク(FCN)よりも性能が向上していると主張している。 超正則ネットワーク(super-regular network、srns)は、(epsilon、delta)超正則ペアの積み重ねられたスパース層と、ランダムに置換されたノード順序からなるニューラルネットワークである。 Blow-up Lemma を用いて、SRN は各層の個々の超規則性の結果、多くのタスクに対して FCN の置換を適切に行う多くの特性を保証することを証明した。 これらの保証には、すべての大容量サブセットのエッジ均一性、最小ノードのイン・アンド・アウト・ディフレクション、入出力感度、事前訓練されたコンストラクトを埋め込む機能が含まれる。 実際、SRNはFCNのように機能し、Dropoutのような高価な正規化スキームを必要としない能力を持っている。 我々は、SRNが容易に再現可能な実験により、X-Netと同じような性能を示し、ネットワーク構造に対するはるかに大きな保証と制御を提供する。

It has been argued by Thom and Palm that sparsely-connected neural networks (SCNs) show improved performance over fully-connected networks (FCNs). Super-regular networks (SRNs) are neural networks composed of a set of stacked sparse layers of (epsilon, delta)-super-regular pairs, and randomly permuted node order. Using the Blow-up Lemma, we prove that as a result of the individual super-regularity of each pair of layers, SRNs guarantee a number of properties that make them suitable replacements for FCNs for many tasks. These guarantees include edge uniformity across all large-enough subsets, minimum node in- and out-degree, input-output sensitivity, and the ability to embed pre-trained constructs. Indeed, SRNs have the capacity to act like FCNs, and eliminate the need for costly regularization schemes like Dropout. We show that SRNs perform similarly to X-Nets via readily reproducible experiments, and offer far greater guarantees and control over network structure.
翻訳日:2022-01-06 20:06:20 公開日:2022-01-04
# (参考訳) シミュレーション最適化によるクワッドロータのゼロショットポリシー転送の改善 [全文訳有]

Using Simulation Optimization to Improve Zero-shot Policy Transfer of Quadrotors ( http://arxiv.org/abs/2201.01369v1 )

ライセンス: CC BY 4.0
Sven Gronauer, Matthias Kissel, Luca Sacchetto, Mathias Korte, Klaus Diepold(参考訳) そこで本研究では,強化学習による低レベルの制御ポリシをシミュレーションで完全に訓練し,実世界のデータを使わずに四足歩行ロボットに展開することができることを示す。 ゼロショットポリシー転送を実現するために,シミュレーション最適化を適用し,現実のギャップを狭める。 私たちのニューラルネットワークベースのポリシーは、オンボードセンサーデータのみを使用し、組み込みドローンハードウェアで完全に動作します。 実世界の広範囲な実験では、低レベルパルス幅変調モータ指令からネスト比例積分導出制御に基づく高レベル姿勢制御までの3つの異なる制御構造を比較した。 実験の結果,強化学習で訓練された低レベルコントローラは,高レベル制御ポリシよりも正確なシミュレーションを必要とすることがわかった。

In this work, we show that it is possible to train low-level control policies with reinforcement learning entirely in simulation and, then, deploy them on a quadrotor robot without using real-world data to fine-tune. To render zero-shot policy transfers feasible, we apply simulation optimization to narrow the reality gap. Our neural network-based policies use only onboard sensor data and run entirely on the embedded drone hardware. In extensive real-world experiments, we compare three different control structures ranging from low-level pulse-width-modulate d motor commands to high-level attitude control based on nested proportional-integra l-derivative controllers. Our experiments show that low-level controllers trained with reinforcement learning require a more accurate simulation than higher-level control policies.
翻訳日:2022-01-06 19:50:12 公開日:2022-01-04
# (参考訳) コロナホールセグメンテーション、マッチング、マップ分類のための画像処理方法 [全文訳有]

Image Processing Methods for Coronal Hole Segmentation, Matching, and Map Classification ( http://arxiv.org/abs/2201.01380v1 )

ライセンス: CC BY 4.0
V. Jatla, M.S. Pattichis, and C.N. Arge(参考訳) 本稿では,太陽観測に基づく最適物理モデル選択のための画像処理手法を複数年にわたって開発・検証し,その成果について述べる。 アプローチは、画像から抽出されたコロナホールとの一致に基づいて物理モデルを選択することで構成される。 究極の目標は、物理モデルを使って地磁気嵐を予測することだ。 問題を3つの部分問題に分解します (i)物理的制約に基づくコロナホールセグメンテーション (二)異なる地図間のコロナホールのクラスタのマッチング (iii)物理地図の分類。 コロナホールのセグメンテーションのために,3つの異なる方法からのセグメンテーションマップを用いて,初期コロナホールセグメンテーションを磁気境界に進化させるレベルセット法を初期化するマルチモーダル法を開発した。 そこで我々は,コロナホールのクラスタをマッチングするための線形プログラミングに基づく新しい手法を提案する。 最終戦はランダム・フォレスト(Random Forests)で行われる。 提案手法は,複数リーダからのコンセンサスマップ,手動クラスタリング,手動マップ分類,50マップのメソッド検証などを用いて,慎重に検証された。 提案手法は,精度の高い境界検出を提供することで,SegNet,U-net,Henney -Harvey,FCNを著しく上回る性能を示した。 概して、この方法は95.5%の地図分類精度を示した。

The paper presents the results from a multi-year effort to develop and validate image processing methods for selecting the best physical models based on solar image observations. The approach consists of selecting the physical models based on their agreement with coronal holes extracted from the images. Ultimately, the goal is to use physical models to predict geomagnetic storms. We decompose the problem into three subproblems: (i) coronal hole segmentation based on physical constraints, (ii) matching clusters of coronal holes between different maps, and (iii) physical map classification. For segmenting coronal holes, we develop a multi-modal method that uses segmentation maps from three different methods to initialize a level-set method that evolves the initial coronal hole segmentation to the magnetic boundary. Then, we introduce a new method based on Linear Programming for matching clusters of coronal holes. The final matching is then performed using Random Forests. The methods were carefully validated using consensus maps derived from multiple readers, manual clustering, manual map classification, and method validation for 50 maps. The proposed multi-modal segmentation method significantly outperformed SegNet, U-net, Henney-Harvey, and FCN by providing accurate boundary detection. Overall, the method gave a 95.5% map classification accuracy.
翻訳日:2022-01-06 19:34:26 公開日:2022-01-04
# (参考訳) Graph Decipher: ノード分類のためのメッセージパッシング機構を理解するための透過的なデュアルアテンショングラフニューラルネットワーク [全文訳有]

Graph Decipher: A transparent dual-attention graph neural network to understand the message-passing mechanism for the node classification ( http://arxiv.org/abs/2201.01381v1 )

ライセンス: CC BY 4.0
Yan Pang, Chao Liu(参考訳) グラフニューラルネットワークは、幅広い分野にわたる現実世界の多くの問題の解を見つけるために効果的に適用することができる。 グラフニューラルネットワークの成功は、グラフ上のメッセージパッシング機構と結びついているが、ほとんどのアルゴリズムでは、メッセージ集約の振る舞いは完全には明確ではない。 グラフ構造とノード属性,グラフ,特徴量,グローバルレベルという2つの主成分をノード分類タスクで優先順位付けすることにより,メッセージパッシング機構を調査するための,graph decipherと呼ばれる新しい透過ネットワークを提案する。 しかし、グラフ構造とノード属性の関連性がグラフ上で計算されるため、計算の負担が最も重要な問題となっている。 この問題を解決するために、関連する代表ノード属性のみをグラフ特徴フィルタによって抽出し、計算をカテゴリ指向で行えるようにする。 7つのデータセットに関する実験は、グラフ解読が最先端のパフォーマンスを達成し、ノード分類タスク下では計算負荷が大幅に低減することを示している。 さらに,本アルゴリズムは,カテゴリ別に代表ノード属性を探索できるので,マルチクラスグラフデータセット上での不均衡ノード分類問題を緩和するために利用される。

Graph neural networks can be effectively applied to find solutions for many real-world problems across widely diverse fields. The success of graph neural networks is linked to the message-passing mechanism on the graph, however, the message-aggregating behavior is still not entirely clear in most algorithms. To improve functionality, we propose a new transparent network called Graph Decipher to investigate the message-passing mechanism by prioritizing in two main components: the graph structure and node attributes, at the graph, feature, and global levels on a graph under the node classification task. However, the computation burden now becomes the most significant issue because the relevance of both graph structure and node attributes are computed on a graph. In order to solve this issue, only relevant representative node attributes are extracted by graph feature filters, allowing calculations to be performed in a category-oriented manner. Experiments on seven datasets show that Graph Decipher achieves state-of-the-art performance while imposing a substantially lower computation burden under the node classification task. Additionally, since our algorithm has the ability to explore the representative node attributes by category, it is utilized to alleviate the imbalanced node classification problem on multi-class graph datasets.
翻訳日:2022-01-06 19:16:17 公開日:2022-01-04
# (参考訳) Efficient-Dyn: イベントベース時空間注意ネットワークによる動的グラフ表現学習 [全文訳有]

Efficient-Dyn: Dynamic Graph Representation Learning via Event-based Temporal Sparse Attention Network ( http://arxiv.org/abs/2201.01384v1 )

ライセンス: CC BY 4.0
Yan Pang, Chao Liu(参考訳) 静的グラフニューラルネットワークは、グラフ構造データのモデリングと表現学習に広く利用されている。 しかし,ソーシャルネットワークや金融取引,レコメンデーションシステムなど,現実的な問題の多くは動的であり,ノードやエッジの追加や削除は時間とともに行われる。 そのため、近年、動的グラフニューラルネットワークは研究者からますます注目を集めている。 本研究では,新しい動的グラフニューラルネットワーク, efficient-dynを提案する。 時間的情報を同じ量の時間的トポロジー構造を持つパッチのシーケンスに適応的に符号化する。 したがって、情報損失の原因となるスナップショットの使用を避ける一方で、連続ネットワークが提供するものに近い、より微細な時間粒度を実現している。 さらに,構造近傍と時間ダイナミクスの両方を通してノード表現を計算するための軽量モジュールsparse temporal transformerを設計した。 完全接続された注意結合は単純化されているので、計算コストは現在の技術よりはるかに低い。 連続グラフデータセットと離散グラフデータセットの両方でリンク予測実験を行う。 いくつかの最先端グラフ埋め込みベースラインと比較することにより,実験結果から,効率的な推論速度が向上し,競争性能が向上した。

Static graph neural networks have been widely used in modeling and representation learning of graph structure data. However, many real-world problems, such as social networks, financial transactions, recommendation systems, etc., are dynamic, that is, nodes and edges are added or deleted over time. Therefore, in recent years, dynamic graph neural networks have received more and more attention from researchers. In this work, we propose a novel dynamic graph neural network, Efficient-Dyn. It adaptively encodes temporal information into a sequence of patches with an equal amount of temporal-topological structure. Therefore, while avoiding the use of snapshots to cause information loss, it also achieves a finer time granularity, which is close to what continuous networks could provide. In addition, we also designed a lightweight module, Sparse Temporal Transformer, to compute node representations through both structural neighborhoods and temporal dynamics. Since the fully-connected attention conjunction is simplified, the computation cost is far lower than the current state-of-the-arts. Link prediction experiments are conducted on both continuous and discrete graph datasets. Through comparing with several state-of-the-art graph embedding baselines, the experimental results demonstrate that Efficient-Dyn has a faster inference speed while having competitive performance.
翻訳日:2022-01-06 18:58:40 公開日:2022-01-04
# 新しい環境への一般化のための制御バリア関数を用いた可変安全臨界制御の学習

Learning Differentiable Safety-Critical Control using Control Barrier Functions for Generalization to Novel Environments ( http://arxiv.org/abs/2201.01347v1 )

ライセンス: Link先を確認
Hengbo Ma, Bike Zhang, Masayoshi Tomizuka, and Koushil Sreenath(参考訳) 制御バリア機能(CBF)は、制御システムの安全性を強制するための一般的なツールとなっている。 CBFは2次プログラム定式化(CBF-QP)において、安全クリティカルな制約として一般的に使用される。 cbfのクラス$\mathcal{k}$関数は通常、各環境のパフォーマンスと安全性のトレードオフのバランスをとるために手動で調整する必要がある。 しかし、この過程はしばしばヒューリスティックであり、高相対度系では難解となる。 さらに、CBF-QPが現実世界の異なる環境に一般化することを防ぐ。 CBF-QPの最適化手順を深層学習アーキテクチャに組み込むことにより、前向きな不変性を保証する新しい環境への一般化を可能にする、差別化可能な最適化ベースの安全クリティカル制御フレームワークを提案する。 最後に,各環境における2次元および4重積分器システムによる制御設計の検証を行った。

Control barrier functions (CBFs) have become a popular tool to enforce safety of a control system. CBFs are commonly utilized in a quadratic program formulation (CBF-QP) as safety-critical constraints. A class $\mathcal{K}$ function in CBFs usually needs to be tuned manually in order to balance the trade-off between performance and safety for each environment. However, this process is often heuristic and can become intractable for high relative-degree systems. Moreover, it prevents the CBF-QP from generalizing to different environments in the real world. By embedding the optimization procedure of the CBF-QP as a differentiable layer within a deep learning architecture, we propose a differentiable optimization-based safety-critical control framework that enables generalization to new environments with forward invariance guarantees. Finally, we validate the proposed control design with 2D double and quadruple integrator systems in various environments.
翻訳日:2022-01-06 14:55:53 公開日:2022-01-04
# CAMELSプロジェクト:公開データリリース

The CAMELS project: public data release ( http://arxiv.org/abs/2201.01300v1 )

ライセンス: Link先を確認
Francisco Villaescusa-Navarro, Shy Genel, Daniel Angl\'es-Alc\'azar, Lucia A. Perez, Pablo Villanueva-Domingo, Digvijay Wadekar, Helen Shao, Faizan G. Mohammad, Sultan Hassan, Emily Moser, Erwin T. Lau, Luis Fernando Machado Poletti Valle, Andrina Nicola, Leander Thiele, Yongseok Jo, Oliver H. E. Philcox, Benjamin D. Oppenheimer, Megan Tillman, ChangHoon Hahn, Neerav Kaushal, Alice Pisani, Matthew Gebhardt, Ana Maria Delgado, Joyce Caliendo, Christina Kreisch, Kaze W.K. Wong, William R. Coulton, Michael Eickenberg, Gabriele Parimbelli, Yueying Ni, Ulrich P. Steinwandel, Valentina La Torre, Romeel Dave, Nicholas Battaglia, Daisuke Nagai, David N. Spergel, Lars Hernquist, Blakesley Burkhart, Desika Narayanan, Benjamin Wandelt, Rachel S. Somerville, Greg L. Bryan, Matteo Viel, Yin Li, Vid Irsic, Katarina Kraljic, Mark Vogelsberger(参考訳) camels(cosslogy and astrophysics with machine learning simulations)プロジェクトは、宇宙論と天体物理学を何千もの宇宙流体力学シミュレーションと機械学習で組み合わせるために開発された。 CAMELSには4,233の宇宙学シミュレーション、2,049のNボディ、2,184の最先端の流体力学シミュレーションがあり、パラメータ空間の膨大な量をサンプリングしている。 本稿では,ラクダシミュレーションの特徴とそれらから生成される様々なデータ製品,ハロ,サブハロ,銀河,ボイドカタログ,パワースペクトル,ビスペクトラ,ライマン=$\alpha$スペクトル,確率分布関数,ハロ放射状プロファイル,x線光子リストについて述べる。 CAMELS-SAMはサンタクルーズ半分析モデルと組み合わせた大量のN体シミュレーションのコレクションです。 350テラバイト以上、スナップショット143,922枚、数百万のハロ、銀河、要約統計を含む全てのデータを公開しています。 データのアクセス、ダウンロード、読み込み、処理に関する技術的な詳細は、 \url{https://camels.readt hedocs.io}で公開しています。

The Cosmology and Astrophysics with MachinE Learning Simulations (CAMELS) project was developed to combine cosmology with astrophysics through thousands of cosmological hydrodynamic simulations and machine learning. CAMELS contains 4,233 cosmological simulations, 2,049 N-body and 2,184 state-of-the-art hydrodynamic simulations that sample a vast volume in parameter space. In this paper we present the CAMELS public data release, describing the characteristics of the CAMELS simulations and a variety of data products generated from them, including halo, subhalo, galaxy, and void catalogues, power spectra, bispectra, Lyman-$\alpha$ spectra, probability distribution functions, halo radial profiles, and X-rays photon lists. We also release over one thousand catalogues that contain billions of galaxies from CAMELS-SAM: a large collection of N-body simulations that have been combined with the Santa Cruz Semi-Analytic Model. We release all the data, comprising more than 350 terabytes and containing 143,922 snapshots, millions of halos, galaxies and summary statistics. We provide further technical details on how to access, download, read, and process the data at \url{https://camels.readt hedocs.io}.
翻訳日:2022-01-06 14:24:29 公開日:2022-01-04
# 機械学習による天体物理スケール関係の増大 : SZフラックス質量散乱低減への応用

Augmenting astrophysical scaling relations with machine learning : application to reducing the SZ flux-mass scatter ( http://arxiv.org/abs/2201.01305v1 )

ライセンス: Link先を確認
Digvijay Wadekar, Leander Thiele, Francisco Villaescusa-Navarro, J. Colin Hill, David N. Spergel, Miles Cranmer, Nicholas Battaglia, Daniel Angl\'es-Alc\'azar, Lars Hernquist, Shirley Ho(参考訳) 複雑な系(恒星、超新星、銀河、銀河団)は、観測可能な性質(例えば、光度、速度分散、振動周期、温度)の間の低い散乱関係を示す。 これらのスケーリング関係は基礎となる物理学を照らし、質量と距離を推定するための観測ツールを提供することができる。 機械学習は、抽象的な高次元パラメータ空間において、新しいスケーリング関係(または既存の関係への単純な拡張)を探索する体系的な方法を提供する。 我々は、あるデータセットのパターンを解析方程式の形でモデル化する、シンボル回帰(SR)と呼ばれる機械学習ツールを使用する。 我々は、クラスター存在量データから宇宙論的パラメータの推測に影響を与える散乱である、sunyaev-zeldovich flux$-$cluster mass relation (y_\mathrm{sz}-m$)に注目した。 illustristng hydrodynamical simulationのデータにsrを用い、y_\mathrm{sz}$とイオン化ガス(c_\mathrm{gas}$): $m \propto y_\mathrm{conc}^{3/5} \equiv y_\mathrm{sz}^{3/5} (1-a\, c_\mathrm{gas})$を組み合わせたクラスター質量の新しいプロキシを見つける。 y_\mathrm{conc}$は、$y_\mathrm{sz}$を使用する場合に比べて、大クラスタ (m\gtrsim 10^{14}\, h^{-1} \, m_\odot$) に対して、予測された$m$の散乱を$\sim 20-30$%削減する。 c_\mathrm{gas}$ への依存は、外部よりも大きな散乱を示すクラスタのコアと関連していることを示す。 最後に、camelsプロジェクトのシミュレーションからクラスタ上で$y_\mathrm{conc}$をテストし、$y_\mathrm{conc}$が宇宙論、天体物理学、サブグリッド物理学、宇宙分散のバリエーションに対して堅牢であることを示す。 提案手法は, ACT, SO, SPT, eROSITA, CMB-S4などのX線サーベイおよびCMB-S4の高精度クラスタ質量推定に有用である。

Complex systems (stars, supernovae, galaxies, and clusters) often exhibit low scatter relations between observable properties (e.g., luminosity, velocity dispersion, oscillation period, temperature). These scaling relations can illuminate the underlying physics and can provide observational tools for estimating masses and distances. Machine learning can provide a systematic way to search for new scaling relations (or for simple extensions to existing relations) in abstract high-dimensional parameter spaces. We use a machine learning tool called symbolic regression (SR), which models the patterns in a given dataset in the form of analytic equations. We focus on the Sunyaev-Zeldovich flux$-$cluster mass relation ($Y_\mathrm{SZ}-M$), the scatter in which affects inference of cosmological parameters from cluster abundance data. Using SR on the data from the IllustrisTNG hydrodynamical simulation, we find a new proxy for cluster mass which combines $Y_\mathrm{SZ}$ and concentration of ionized gas ($c_\mathrm{gas}$): $M \propto Y_\mathrm{conc}^{3/5} \equiv Y_\mathrm{SZ}^{3/5} (1-A\, c_\mathrm{gas})$. $Y_\mathrm{conc}$ reduces the scatter in the predicted $M$ by $\sim 20-30$% for large clusters ($M\gtrsim 10^{14}\, h^{-1} \, M_\odot$) at both high and low redshifts, as compared to using just $Y_\mathrm{SZ}$. We show that the dependence on $c_\mathrm{gas}$ is linked to cores of clusters exhibiting larger scatter than their outskirts. Finally, we test $Y_\mathrm{conc}$ on clusters from simulations of the CAMELS project and show that $Y_\mathrm{conc}$ is robust against variations in cosmology, astrophysics, subgrid physics, and cosmic variance. Our results and methodology can be useful for accurate multiwavelength cluster mass estimation from current and upcoming CMB and X-ray surveys like ACT, SO, SPT, eROSITA and CMB-S4.
翻訳日:2022-01-06 14:24:05 公開日:2022-01-04
# 独自のビューを実現する - プレハブのないグラフコントラスト学習

Bringing Your Own View: Graph Contrastive Learning without Prefabricated Data Augmentations ( http://arxiv.org/abs/2201.01702v1 )

ライセンス: Link先を確認
Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen(参考訳) 自己監督はグラフ学習の新しいフロンティアで最近急増している。 ダウンストリームタスクにとって有益なグラフ表現を容易にするが、その成功はハンドクラフトのドメイン知識やしばしば高価な試行錯誤にかかっている。 最先端の代表であるグラフコントラスト学習(GraphCL)でさえ、グラフデータ拡張のアドホックな手動選択によって事前に反映された事前表現を使用するため、そのニーズを完全には実現していない。 当社の目標は、グラフ拡張ビューの空間をどのように表現するか、という質問に回答することで、graphclを前進させることです。 その領域で事前学習するために、どのような原則を頼りにできますか? 対照的な学習で事前学習するために、どのようなフレームワークを構築することができるのか? そこで,グラフ生成器のパラメータ空間における学習可能な連続先行値まで拡張し,画像多様体の概念に類似したグラフ先行値がデータ生成によって学習可能であることを仮定した。 さらに,先行学習可能性による自明な解に崩壊することなくコントラストビューを形成するために,情報最小化(infomin)と情報ボトルネック(infobn)の2つの原則を活用し,学習した事前を定式化する。 最終的に、対照的な学習、InfoMin、InfoBNは、双レベル最適化の1つのフレームワークに有機的に組み込まれます。 私たちの原則と自動化されたアプローチは、graphclを含む最先端のグラフ自己スーパービジョン手法と、小さなグラフのベンチマークで競合することが証明されています。 私たちのコードはhttps://github.com/S hen-Lab/GraphCL_Auto mated.comで公開されています。

Self-supervision is recently surging at its new frontier of graph learning. It facilitates graph representations beneficial to downstream tasks; but its success could hinge on domain knowledge for handcraft or the often expensive trials and errors. Even its state-of-the-art representative, graph contrastive learning (GraphCL), is not completely free of those needs as GraphCL uses a prefabricated prior reflected by the ad-hoc manual selection of graph data augmentations. Our work aims at advancing GraphCL by answering the following questions: How to represent the space of graph augmented views? What principle can be relied upon to learn a prior in that space? And what framework can be constructed to learn the prior in tandem with contrastive learning? Accordingly, we have extended the prefabricated discrete prior in the augmentation set, to a learnable continuous prior in the parameter space of graph generators, assuming that graph priors per se, similar to the concept of image manifolds, can be learned by data generation. Furthermore, to form contrastive views without collapsing to trivial solutions due to the prior learnability, we have leveraged both principles of information minimization (InfoMin) and information bottleneck (InfoBN) to regularize the learned priors. Eventually, contrastive learning, InfoMin, and InfoBN are incorporated organically into one framework of bi-level optimization. Our principled and automated approach has proven to be competitive against the state-of-the-art graph self-supervision methods, including GraphCL, on benchmarks of small graphs; and shown even better generalizability on large-scale graphs, without resorting to human expertise or downstream validation. Our code is publicly released at https://github.com/S hen-Lab/GraphCL_Auto mated.
翻訳日:2022-01-06 14:17:37 公開日:2022-01-04
# 音声言語認識のための階層モデル

A Hierarchical Model for Spoken Language Recognition ( http://arxiv.org/abs/2201.01364v1 )

ライセンス: Link先を確認
Luciana Ferrer, Diego Castan, Mitchell McLaren, Aaron Lawson(参考訳) 音声言語認識(slr)は、音声サンプルに存在する言語を決定するのに使用される自動プロセスを指す。 SLRは、例えば大量の多言語データを分析または分類するためのツールとして、それ自体が重要なタスクである。 さらに、例えば適切な音声認識や機械翻訳モデルを選択する作業フローにおいて、下流アプリケーションを選択するための必須のツールでもある。 slrシステムは通常、音声サンプルを表す埋め込みが抽出される2つのステージと、各言語の最終スコアを計算する2つのステージで構成される。 本研究では,SLRタスクを検出問題としてアプローチし,確率線形判別分析(PLDA)モデルとして第2段階を実装した。 PLDAパラメータの識別訓練は,通常の生成訓練において大きな利益をもたらすことを示す。 さらに,2つのpldaモデルを訓練した新しい階層的アプローチを提案する。1つは高度に関連する言語の集合に対してスコアを生成し,もう1つは各クラスタに条件付きスコアを生成する。 最終言語検出スコアは、これら2つのスコアの組み合わせとして計算される。 完全なモデルは、クロスエントロピー目的を最適化するために差別的に訓練される。 この階層的アプローチは、しばしば大きなマージンによって、高関係言語を検出する非階層的アプローチよりも一貫して優れていることを示す。 100の言語を含むデータセットのコレクションでシステムをトレーニングし、マッチした条件とミスマッチした条件の両方でテストします。

Spoken language recognition (SLR) refers to the automatic process used to determine the language present in a speech sample. SLR is an important task in its own right, for example, as a tool to analyze or categorize large amounts of multi-lingual data. Further, it is also an essential tool for selecting downstream applications in a work flow, for example, to chose appropriate speech recognition or machine translation models. SLR systems are usually composed of two stages, one where an embedding representing the audio sample is extracted and a second one which computes the final scores for each language. In this work, we approach the SLR task as a detection problem and implement the second stage as a probabilistic linear discriminant analysis (PLDA) model. We show that discriminative training of the PLDA parameters gives large gains with respect to the usual generative training. Further, we propose a novel hierarchical approach were two PLDA models are trained, one to generate scores for clusters of highly related languages and a second one to generate scores conditional to each cluster. The final language detection scores are computed as a combination of these two sets of scores. The complete model is trained discriminatively to optimize a cross-entropy objective. We show that this hierarchical approach consistently outperforms the non-hierarchical one for detection of highly related languages, in many cases by large margins. We train our systems on a collection of datasets including 100 languages and test them both on matched and mismatched conditions, showing that the gains are robust to condition mismatch.
翻訳日:2022-01-06 14:16:58 公開日:2022-01-04
# DenseTact:Dense形状再構成のための光学触覚センサ

DenseTact: Optical Tactile Sensor for Dense Shape Reconstruction ( http://arxiv.org/abs/2201.01367v1 )

ライセンス: Link先を確認
Won Kyung Do and Monroe Kennedy III(参考訳) ロボットにおける触覚センシングの性能向上は、多目的で手動操作を可能にする。 視覚に基づく触覚センサは、リッチな触覚フィードバックが操作タスクのパフォーマンス向上と相関していることが示されている。 高解像度の既存の触覚センサーソリューションには、低い精度、高価なコンポーネント、スケーラビリティの欠如を含む制限がある。 本稿では,3次元センサの表面再構成のための高分解能表面変形モデリングによる安価でスケーラブルでコンパクトな触覚センサを提案する。 魚眼カメラから画像を測定することにより,深い畳み込みニューラルネットワークを用いて,センサがリアルタイム(1.8ms)の表面変形を推定できることが示されている。 このセンサの設計とセンシング能力は、高分解能形状再構成によってすべて可能となる、より優れたオブジェクトのローカライズ、分類、表面推定のための重要なステップである。

Increasing the performance of tactile sensing in robots enables versatile, in-hand manipulation. Vision-based tactile sensors have been widely used as rich tactile feedback has been shown to be correlated with increased performance in manipulation tasks. Existing tactile sensor solutions with high resolution have limitations that include low accuracy, expensive components, or lack of scalability. In this paper, an inexpensive, scalable, and compact tactile sensor with high-resolution surface deformation modeling for surface reconstruction of the 3D sensor surface is proposed. By measuring the image from the fisheye camera, it is shown that the sensor can successfully estimate the surface deformation in real-time (1.8ms) by using deep convolutional neural networks. This sensor in its design and sensing abilities represents a significant step toward better object in-hand localization, classification, and surface estimation all enabled by high-resolution shape reconstruction.
翻訳日:2022-01-06 14:16:37 公開日:2022-01-04
# 線形変分状態空間フィルタリング

Linear Variational State Space Filtering ( http://arxiv.org/abs/2201.01353v1 )

ライセンス: Link先を確認
Daniel Pfrommer, Nikolai Matni(参考訳) 原画素からの潜在マルコフ状態空間モデルの教師なし学習,識別,フィルタリングのための新しい手法である変分状態空間フィルタ(VSSF)を導入する。 不均一なセンサ構成下での潜在状態空間推定のための理論的に健全な枠組みを提案する。 結果として得られたモデルは、トレーニング中に使用されるセンサ測定の任意のサブセットを統合することができ、半教師状態表現の学習を可能にし、学習された潜在状態空間の特定の構成要素が解釈可能な測定と一致するようにする。 このフレームワークからL-VSSFを導出し、線形潜在力学とガウス分布パラメータ化を用いたモデルの明示的なインスタンス化を行う。 L-VSSFが複数の異なるテスト環境にわたってトレーニングデータセットのシーケンス長を超える潜時空間でフィルタリングできることを実験的に示す。

We introduce Variational State-Space Filters (VSSF), a new method for unsupervised learning, identification, and filtering of latent Markov state space models from raw pixels. We present a theoretically sound framework for latent state space inference under heterogeneous sensor configurations. The resulting model can integrate an arbitrary subset of the sensor measurements used during training, enabling the learning of semi-supervised state representations, thus enforcing that certain components of the learned latent state space to agree with interpretable measurements. From this framework we derive L-VSSF, an explicit instantiation of this model with linear latent dynamics and Gaussian distribution parameterizations. We experimentally demonstrate L-VSSF's ability to filter in latent space beyond the sequence length of the training dataset across several different test environments.
翻訳日:2022-01-06 13:52:56 公開日:2022-01-04
# ZeroBERTo -- トピックモデリングによるゼロショットテキスト分類の活用

ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling ( http://arxiv.org/abs/2201.01337v1 )

ライセンス: Link先を確認
Alexandre Alcoforado, Thomas Palmeira Ferraz, Rodrigo Gerber, Enzo Bustos, Andr\'e Seidel Oliveira, Bruno Miguel Veloso, Fabio Levy Siqueira, Anna Helena Reali Costa(参考訳) 従来のテキスト分類手法は、しばしば大量のラベル付きデータを必要とするが、特に制限されたドメインやあまり普及していない言語では入手が困難である。 このラベル付きデータの欠如は、自然言語処理における低データ可用性を前提とした低リソースメソッドの台頭につながった。 中でもゼロショット学習は際立っており、以前のラベル付きデータなしで分類器を学習する。 このアプローチで報告された最良の結果はトランスフォーマーのような言語モデルであるが、高い実行時間と長いテキストを入力として処理できないという2つの問題に陥る。 本稿では,分類タスクの前に圧縮データ表現を得るために教師なしクラスタリングステップを利用する新しいモデルであるzerobertoを提案する。 また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。 キーワード:低リソースNLP、ラベルなしデータ、ゼロショット学習、トピックモデリング、トランスフォーマー。

Traditional text classification approaches often require a good amount of labeled data, which is difficult to obtain, especially in restricted domains or less widespread languages. This lack of labeled data has led to the rise of low-resource methods, that assume low data availability in natural language processing. Among them, zero-shot learning stands out, which consists of learning a classifier without any previously labeled data. The best results reported with this approach use language models such as Transformers, but fall into two problems: high execution time and inability to handle long texts as input. This paper proposes a new model, ZeroBERTo, which leverages an unsupervised clustering step to obtain a compressed data representation before the classification task. We show that ZeroBERTo has better performance for long inputs and shorter execution time, outperforming XLM-R by about 12% in the F1 score in the FolhaUOL dataset. Keywords: Low-Resource NLP, Unlabeled data, Zero-Shot Learning, Topic Modeling, Transformers.
翻訳日:2022-01-06 13:28:20 公開日:2022-01-04
# (参考訳) クラウドソーシングによる半構造化音声記録からの自閉症の分類:機械学習アプローチ [全文訳有]

Classifying Autism from Crowdsourced Semi-Structured Speech Recordings: A Machine Learning Approach ( http://arxiv.org/abs/2201.00927v1 )

ライセンス: CC BY 4.0
Nathan A. Chi, Peter Washington, Aaron Kline, Arman Husic, Cathy Hou, Chloe He, Kaitlyn Dunlap, and Dennis Wall(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、行動の変化、社会的発達、コミュニケーションパターンをもたらす神経発達障害である。 近年では自閉症の有病率は3倍になり、54人中1人が影響を受けた。 従来の診断が長く、労働集約的なプロセスであることを考えると、自閉症を自動スクリーニングするシステムの開発に重要な注意が向けられている。 韻律異常は自閉症の最も明確な兆候の一つであり、患児はエコー、単調なイントネーション、非典型的ピッチ、不規則な言語的ストレスパターンを含む音声の同調を示す。 本研究では,家庭環境における自閉症・ニューロタイプ(NT)児の自己記録音声における自閉症検出のための機械学習手法について述べる。 まず,抽出音声の特徴(メル周波数ケプストラム係数を含む)を訓練したランダムフォレスト,分光法を訓練した第2の畳み込みニューラルネットワーク(CNN),第3の細調整wav2vec 2.0(最先端トランスフォーマーベースASRモデル)について検討した。 私たちは、スタンフォードのGuess What?から収集された携帯電話で録音された音声のデータセットに基づいて、分類器を訓練します。 モバイルゲーム(mobile game)は、自閉症や神経質な子供のビデオを、自然の家庭環境でクラウドソースするアプリだ。 ランダムフォレスト分類器は70%の精度、微調整されたwav2vec 2.0モデルは77%の精度、CNNは79%の精度で子供の音声をASDまたはNTに分類する。 本モデルでは, 実環境においてより一般化可能な, 録音品質の相容れない家庭内オーディオクリップの選択を訓練する際に, 自閉症状態を予測することができた。 これらの結果から,機械学習手法が音声から自閉症を自動的に検出する可能性を示唆している。

Autism spectrum disorder (ASD) is a neurodevelopmental disorder which results in altered behavior, social development, and communication patterns. In past years, autism prevalence has tripled, with 1 in 54 children now affected. Given that traditional diagnosis is a lengthy, labor-intensive process, significant attention has been given to developing systems that automatically screen for autism. Prosody abnormalities are among the clearest signs of autism, with affected children displaying speech idiosyncrasies including echolalia, monotonous intonation, atypical pitch, and irregular linguistic stress patterns. In this work, we present a suite of machine learning approaches to detect autism in self-recorded speech audio captured from autistic and neurotypical (NT) children in home environments. We consider three methods to detect autism in child speech: first, Random Forests trained on extracted audio features (including Mel-frequency cepstral coefficients); second, convolutional neural networks (CNNs) trained on spectrograms; and third, fine-tuned wav2vec 2.0--a state-of-the-art Transformer-based ASR model. We train our classifiers on our novel dataset of cellphone-recorded child speech audio curated from Stanford's Guess What? mobile game, an app designed to crowdsource videos of autistic and neurotypical children in a natural home environment. The Random Forest classifier achieves 70% accuracy, the fine-tuned wav2vec 2.0 model achieves 77% accuracy, and the CNN achieves 79% accuracy when classifying children's audio as either ASD or NT. Our models were able to predict autism status when training on a varied selection of home audio clips with inconsistent recording quality, which may be more generalizable to real world conditions. These results demonstrate that machine learning methods offer promise in detecting autism automatically from speech without specialized equipment.
翻訳日:2022-01-05 22:03:02 公開日:2022-01-04
# (参考訳) 畳み込みニューラルネットワークを用いた正常化乳腺病理画像認識によるがん検出 [全文訳有]

Stain Normalized Breast Histopathology Image Recognition using Convolutional Neural Networks for Cancer Detection ( http://arxiv.org/abs/2201.00957v1 )

ライセンス: CC BY 4.0
Sruthi Krishna, Suganthi S.S, Shivsubramani Krishnamoorthy, Arnav Bhavsar(参考訳) デジタル病理学におけるコンピュータ支援診断は、より効率的で客観的な医療診断を提供するため、広く普及している。 近年の進歩により、畳み込みニューラルネットワーク(CNN)アーキテクチャは、確立されたディープラーニングパラダイムであり、乳がん検出のためのコンピュータ支援診断(CAD)システムの設計に利用できることが示されている。 しかし, 染色の多様性や, このような深層学習フレームワークによる染色正規化の影響による課題については, まだ十分に検討されていない。 Moreover, performance analysis with arguably more efficient network models, which may be important for high throughput screening, is also not well explored.To address this challenge, we consider some contemporary CNN models for binary classification of breast histopathology images that involves (1) the data preprocessing with stain normalized images using an adaptive colour deconvolution (ACD) based color normalization algorithm to handle the stain variabilities; and (2) applying transfer learning based training of some arguably more efficient CNN models, namely Visual Geometry Group Network (VGG16), MobileNet and EfficientNet. 我々は,200倍,400倍に拡大した病理像に対して,トレーニング済みCNNネットワークを公開データセット上で検証した。 実験により, トレーニング済みのネットワークは, 染色正常化のない場合よりも, 染色正常化を伴う乳腺病理像の高画質化に寄与することがわかった。 さらに,steit正規化画像を用いて,人気のある軽量ネットワークの性能と効率を評価し,テスト精度とf1スコアの点でeffernetがvgg16やmobilenetよりも優れていることを発見した。 我々は,VGGNetやMobileNetなど他のネットワークに比べて,テスト時間の面での効率性は高いが,分類精度はそれほど低下しない。

Computer assisted diagnosis in digital pathology is becoming ubiquitous as it can provide more efficient and objective healthcare diagnostics. Recent advances have shown that the convolutional Neural Network (CNN) architectures, a well-established deep learning paradigm, can be used to design a Computer Aided Diagnostic (CAD) System for breast cancer detection. However, the challenges due to stain variability and the effect of stain normalization with such deep learning frameworks are yet to be well explored. Moreover, performance analysis with arguably more efficient network models, which may be important for high throughput screening, is also not well explored.To address this challenge, we consider some contemporary CNN models for binary classification of breast histopathology images that involves (1) the data preprocessing with stain normalized images using an adaptive colour deconvolution (ACD) based color normalization algorithm to handle the stain variabilities; and (2) applying transfer learning based training of some arguably more efficient CNN models, namely Visual Geometry Group Network (VGG16), MobileNet and EfficientNet. We have validated the trained CNN networks on a publicly available BreaKHis dataset, for 200x and 400x magnified histopathology images. The experimental analysis shows that pretrained networks in most cases yield better quality results on data augmented breast histopathology images with stain normalization, than the case without stain normalization. Further, we evaluated the performance and efficiency of popular lightweight networks using stain normalized images and found that EfficientNet outperforms VGG16 and MobileNet in terms of test accuracy and F1 Score. We observed that efficiency in terms of test time is better in EfficientNet than other networks; VGG Net, MobileNet, without much drop in the classification accuracy.
翻訳日:2022-01-05 21:51:49 公開日:2022-01-04
# (参考訳) ニューラルピースワイズ・コンスタント遅延微分方程式 [全文訳有]

Neural Piecewise-Constant Delay Differential Equations ( http://arxiv.org/abs/2201.00960v1 )

ライセンス: CC BY 4.0
Qunxi Zhu and Yifei Shen and Dongsheng Li and Wei Lin(参考訳) 近年、neural ordinary differential equation(odes)のような連続的な深層ニューラルネットワークは、ディープラーニングとデータサイエンスのコミュニティから大きな関心を集めており、ディープニューラルネットワークと動的システムの間の接続を橋渡ししている。 本稿では,PCDDE(Neural Piecewise-Constant Delay Differential Equations)と呼ばれる,連続深度ニューラルネットワークについて紹介する。 ここで,最近提案されたニューラル遅延微分方程式(ddes)の枠組みとは異なり,単一遅延を分割定数遅延に変換する。 このような変換を持つニューラルPCDDEは、ニューラルDDEの普遍近似能力の強さを継承する。 一方、ニューラルネットワークPCDDEは、過去の複数のステップからの情報提供を活用し、ネットワーク次元を増大させることなくモデリング能力をさらに向上させる。 このような促進により、Neural PCDDEは、MNIST、CIFAR10、SVHNなどの1次元の遅延人口動態と実世界のデータセットにおいて、既存の連続深度ニューラルネットワークフレームワークよりも優れていることを示す。

Continuous-depth neural networks, such as the Neural Ordinary Differential Equations (ODEs), have aroused a great deal of interest from the communities of machine learning and data science in recent years, which bridge the connection between deep neural networks and dynamical systems. In this article, we introduce a new sort of continuous-depth neural network, called the Neural Piecewise-Constant Delay Differential Equations (PCDDEs). Here, unlike the recently proposed framework of the Neural Delay Differential Equations (DDEs), we transform the single delay into the piecewise-constant delay(s). The Neural PCDDEs with such a transformation, on one hand, inherit the strength of universal approximating capability in Neural DDEs. On the other hand, the Neural PCDDEs, leveraging the contributions of the information from the multiple previous time steps, further promote the modeling capability without augmenting the network dimension. With such a promotion, we show that the Neural PCDDEs do outperform the several existing continuous-depth neural frameworks on the one-dimensional piecewise-constant delay population dynamics and real-world datasets, including MNIST, CIFAR10, and SVHN.
翻訳日:2022-01-05 21:40:55 公開日:2022-01-04
# (参考訳) ニッピング・イン・ザ・バッド:ソーシャルメディアにおけるヘイトスピーチの検出、拡散、緩和 [全文訳有]

Nipping in the Bud: Detection, Diffusion and Mitigation of Hate Speech on Social Media ( http://arxiv.org/abs/2201.00961v1 )

ライセンス: CC BY 4.0
Tanmoy Chakraborty, Sarah Masud(参考訳) ソーシャルメディアの利用が急増して以来、ヘイトスピーチは深刻な危機となっている。 不快なコンテンツは素早く広がり、苦痛と敵意の環境を作ることができる。 さらに、憎悪と見なされるものは文脈的であり、時間によって異なる。 オンラインヘイトスピーチは、既に疎外されたグループが自由に議論に参加する能力を減らすが、オフラインヘイトスピーチは、憎悪犯罪や個人やコミュニティに対する暴力につながる。 ヘイトスピーチの多面的な性質とその現実世界への影響は、データマイニングと機械学習コミュニティの関心をすでに高めている。 私たちのベストな努力にもかかわらず、ヘイトスピーチは研究者や実践者にとっても避けられない問題です。 本稿では,自動ヘイト緩和システムの構築を妨げる方法論的課題について述べる。 これらの課題は、web上の憎しみのあるコンテンツと戦う幅広い領域において、私たちの仕事に刺激を与えました。 ソーシャルメディア上でのヘイトスピーチの拡散を制限するための一連のソリューションについて論じる。

Since the proliferation of social media usage, hate speech has become a major crisis. Hateful content can spread quickly and create an environment of distress and hostility. Further, what can be considered hateful is contextual and varies with time. While online hate speech reduces the ability of already marginalised groups to participate in discussion freely, offline hate speech leads to hate crimes and violence against individuals and communities. The multifaceted nature of hate speech and its real-world impact have already piqued the interest of the data mining and machine learning communities. Despite our best efforts, hate speech remains an evasive issue for researchers and practitioners alike. This article presents methodological challenges that hinder building automated hate mitigation systems. These challenges inspired our work in the broader area of combating hateful content on the web. We discuss a series of our proposed solutions to limit the spread of hate speech on social media.
翻訳日:2022-01-05 21:18:14 公開日:2022-01-04
# (参考訳) ナノスケール顕微鏡におけるAI可視化 [全文訳有]

AI visualization in Nanoscale Microscopy ( http://arxiv.org/abs/2201.00966v1 )

ライセンス: CC BY 4.0
Rajagopal A (1), Nirmala V (2), Andrew J (3), Arun Muthuraj Vedamanickam. ((1) Indian Institute of Technology Madras, (2) Queen Marys College, (3) Karunya Institute of Technology and Sciences. India)(参考訳) 人工知能とナノテクノロジーは人類の未来に有望な分野である。 ディープラーニングをベースとするComputer Visionは、医学から自動車まで、多くの分野の応用を見出しているが、ナノテクノロジーの応用は、新しい科学的発見の扉を開くことができる。 ナノスケールサイズの物体など、目が見えない物体を探索するためにaiを応用できますか? ディープラーニングニューラルネットワークによって学習されるナノスケールパターンを視覚化するaiプラットフォームは、ナノテクノロジーの新しいフロンティアを開くことができる。 本研究の目的は,走査型電子顕微鏡により得られたナノ材料の画像を用いた深層学習に基づく可視化システムの開発である。 本稿では、ナノマテリアルのナノスケール形態の視覚的探索に、あらゆるナノサイエンス研究者がAIを利用できるようにするためのAIプラットフォームを提供する。 このaiは畳み込みオートエンコーダの中間アクティベーションを可視化する技術によって開発された。 この方法では、ナノスケールの検体画像が畳み込みニューラルネットワークによって特徴表現に変換される。 Convolutional AutoEncoderは100%SEMデータセットでトレーニングされ、CNNビジュアライゼーションが適用される。 このAIはナノマテリアルの様々な概念的特徴表現を生成する。 ディープラーニングに基づくSEM画像のイメージ分類は文献で広く公開されているが、ナノマテリアルのディープニューラルネットワークを視覚化した出版物はあまりない。 機械学習によって抽出された学習から洞察を得る大きな機会がある。 本稿では,Deep Learning based Visualization on Electron microscopyを応用し,様々なナノマテリアルのAI抽出特徴とアーキテクチャパターンを提供する。 これはナノスケールオブジェクトにおける説明可能なAIへの貢献である。 本稿では、URLで再現可能な結果を提供するオープンソースAI(https://sites.goo gle.com/view/aiforna notechnology)を提案する。

Artificial Intelligence & Nanotechnology are promising areas for the future of humanity. While Deep Learning based Computer Vision has found applications in many fields from medicine to automotive, its application in nanotechnology can open doors for new scientific discoveries. Can we apply AI to explore objects that our eyes can't see such as nano scale sized objects? An AI platform to visualize nanoscale patterns learnt by a Deep Learning neural network can open new frontiers for nanotechnology. The objective of this paper is to develop a Deep Learning based visualization system on images of nanomaterials obtained by scanning electron microscope. This paper contributes an AI platform to enable any nanoscience researcher to use AI in visual exploration of nanoscale morphologies of nanomaterials. This AI is developed by a technique of visualizing intermediate activations of a Convolutional AutoEncoder. In this method, a nano scale specimen image is transformed into its feature representations by a Convolution Neural Network. The Convolutional AutoEncoder is trained on 100% SEM dataset, and then CNN visualization is applied. This AI generates various conceptual feature representations of the nanomaterial. While Deep Learning based image classification of SEM images are widely published in literature, there are not much publications that have visualized Deep neural networks of nanomaterials. There is a significant opportunity to gain insights from the learnings extracted by machine learning. This paper unlocks the potential of applying Deep Learning based Visualization on electron microscopy to offer AI extracted features and architectural patterns of various nanomaterials. This is a contribution in Explainable AI in nano scale objects. This paper contributes an open source AI with reproducible results at URL (https://sites.googl e.com/view/aifornano technology)
翻訳日:2022-01-05 21:06:57 公開日:2022-01-04
# (参考訳) 女性の安全における夜景理解のために、低照度写真を字幕に翻訳するInteractive Attention AI [全文訳有]

Interactive Attention AI to translate low light photos to captions for night scene understanding in women safety ( http://arxiv.org/abs/2201.00969v1 )

ライセンス: CC BY 4.0
Rajagopal A, Nirmala V, Arun Muthuraj Vedamanickam(参考訳) 画像キャプションと低光画像強調のためのディープラーニングベースのモデルには驚くべき進歩があります。 文学において初めて、夜間シーンを文に変換するディープラーニングモデルを開発し、視覚障害者の安全におけるAI応用の可能性を広げる。 画像キャプションと視覚的質問応答にインスパイアされた新しいインタラクティブ画像キャプションを開発した。 ユーザは、注目スコアに影響を与えることで、選択した関係者にAIを集中させることができる。 cnn特徴ベクトルとユーザ提供開始語から注意コンテキストベクトルを算出する。 Encoder-Attention-De coderニューラルネットワークは、低輝度画像からキャプションを生成することを学ぶ。 本稿では,夜の環境知覚のための対話型視覚言語モデルにおける新たなai能力の研究により,女性の安全を実現する方法を示す。

There is amazing progress in Deep Learning based models for Image captioning and Low Light image enhancement. For the first time in literature, this paper develops a Deep Learning model that translates night scenes to sentences, opening new possibilities for AI applications in the safety of visually impaired women. Inspired by Image Captioning and Visual Question Answering, a novel Interactive Image Captioning is developed. A user can make the AI focus on any chosen person of interest by influencing the attention scoring. Attention context vectors are computed from CNN feature vectors and user-provided start word. The Encoder-Attention-De coder neural network learns to produce captions from low brightness images. This paper demonstrates how women safety can be enabled by researching a novel AI capability in the Interactive Vision-Language model for perception of the environment in the night.
翻訳日:2022-01-05 20:59:28 公開日:2022-01-04
# (参考訳) 水中物体の分類と検出:第一報と今後の課題 [全文訳有]

Underwater Object Classification and Detection: first results and open challenges ( http://arxiv.org/abs/2201.00977v1 )

ライセンス: CC BY 4.0
Andre Jesus, Claudio Zito, Claudio Tortorici, Eloy Roura, Giulia De Masi(参考訳) 本研究は,水中環境における物体検出の問題点を概観する。 我々は,この困難な環境に適用するコンピュータビジョンコミュニティにおける従来の最先端(sota)アルゴリズムの欠点を分析し,定量化するとともに,今後の研究に向けた洞察とガイドラインを提供する。 まず,物体検出装置を異なる特徴分布によって特徴付けられる環境に適用する必要がある場合に,従来のイメージネットによる事前学習が有用であるかどうかを評価する。 次に, 単段検出器について, 精度, 結合の交わり (IoU) , 浮動小数点演算 (FLOPS) , 推測時間の観点から, 2段検出器が良好な性能を発揮するかを検討した。 最後に、より厳しい条件を想定した実際のシナリオでの性能をシミュレートするために、各モデルの一般化能力を低品質データセットに評価した。 実験の結果, 水中物体検出には, 単にSOTAアーキテクチャを新しいデータで訓練するだけではなく, アドホックなアーキテクチャを探索する必要があるという証拠が得られた。

This work reviews the problem of object detection in underwater environments. We analyse and quantify the shortcomings of conventional state-of-the-art (SOTA) algorithms in the computer vision community when applied to this challenging environment, as well as providing insights and general guidelines for future research efforts. First, we assessed if pretraining with the conventional ImageNet is beneficial when the object detector needs to be applied to environments that may be characterised by a different feature distribution. We then investigate whether two-stage detectors yields to better performance with respect to single-stage detectors, in terms of accuracy, intersection of union (IoU), floating operation per second (FLOPS), and inference time. Finally, we assessed the generalisation capability of each model to a lower quality dataset to simulate performance on a real scenario, in which harsher conditions ought to be expected. Our experimental results provide evidence that underwater object detection requires searching for "ad-hoc" architectures than merely training SOTA architectures on new data, and that pretraining is not beneficial.
翻訳日:2022-01-05 20:51:53 公開日:2022-01-04
# (参考訳) 多様なビデオキャプションのための変動重畳ローカルアテンションネットワーク

Variational Stacked Local Attention Networks for Diverse Video Captioning ( http://arxiv.org/abs/2201.00985v1 )

ライセンス: CC BY 4.0
Tonmoay Deb, Akib Sadmanee, Kishor Kumar Bhaumik, Amin Ahsan Ali, M Ashraful Amin, A K M Mahbubur Rahman(参考訳) 時空間事象を自然言語で記述する一方で、ビデオキャプションモデルはエンコーダの潜在視覚表現に依存している。 エンコーダ-デコーダモデルの最近の進歩は、主にデコーダとの線形相互作用においてエンコーダの特徴に付随する。 しかしながら、視覚データに対するモデル複雑さの増大は、ビデオキャプション領域に現在存在しない、きめ細かい情報に対するより明示的な特徴相互作用を促進する。 さらに、特徴集約法は、連結または線形層を用いて、よりリッチな視覚表現を明らかにするために使われてきた。 ビデオの機能セットは意味論的にある程度重複するが、これらのアプローチは客観的なミスマッチと特徴冗長性をもたらす。 加えて、キャプションの多様性は、いくつかの意味ある視点から1つのイベントを表現する基本的な要素であり、現在は時間的、すなわちビデオキャプション領域に欠けている。 そこで本研究では,低ランクな双線形プールによる自己注意的特徴の相互作用と,複数のビデオ特徴ストリームを割引方式で積み重ねたVSLANを提案する。 各特徴スタックの学習属性は、提案した多様性符号化モジュールに寄与し、続いてデコードクエリステージにより、属性を明示的に監視することなく、エンドツーエンドの多様な自然なキャプションを容易にする。 構文および多様性の観点から,MSVDおよびMSR-VTTデータセット上でVSLANを評価する。 VSLANのCIDErスコアは、MSVDでは7.8 %、MSR-VTTでは4.5 %である。 同じデータセット上で、VSLANはキャプションの多様性メトリクスで競合する結果を達成する。

While describing Spatio-temporal events in natural language, video captioning models mostly rely on the encoder's latent visual representation. Recent progress on the encoder-decoder model attends encoder features mainly in linear interaction with the decoder. However, growing model complexity for visual data encourages more explicit feature interaction for fine-grained information, which is currently absent in the video captioning domain. Moreover, feature aggregations methods have been used to unveil richer visual representation, either by the concatenation or using a linear layer. Though feature sets for a video semantically overlap to some extent, these approaches result in objective mismatch and feature redundancy. In addition, diversity in captions is a fundamental component of expressing one event from several meaningful perspectives, currently missing in the temporal, i.e., video captioning domain. To this end, we propose Variational Stacked Local Attention Network (VSLAN), which exploits low-rank bilinear pooling for self-attentive feature interaction and stacking multiple video feature streams in a discount fashion. Each feature stack's learned attributes contribute to our proposed diversity encoding module, followed by the decoding query stage to facilitate end-to-end diverse and natural captions without any explicit supervision on attributes. We evaluate VSLAN on MSVD and MSR-VTT datasets in terms of syntax and diversity. The CIDEr score of VSLAN outperforms current off-the-shelf methods by $7.8\%$ on MSVD and $4.5\%$ on MSR-VTT, respectively. On the same datasets, VSLAN achieves competitive results in caption diversity metrics.
翻訳日:2022-01-05 20:39:45 公開日:2022-01-04
# (参考訳) ハイパースペクトル画像分類のためのハイブリッドデンスネットワークとの注意機構 [全文訳有]

Attention Mechanism Meets with Hybrid Dense Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2201.01001v1 )

ライセンス: CC BY 4.0
Muhammad Ahmad, Adil Mehmood Khan, Manuel Mazzara, Salvatore Distefano, Swalpa Kumar Roy and Xin Wu(参考訳) 畳み込みニューラルネットワーク(CNN)は、実際より適している。 しかしながら、固定されたカーネルサイズは従来のcnnをあまりにも具体的であり、柔軟性も特徴学習にも寄与しないため、分類精度に影響を及ぼす。 異なるカーネルサイズネットワークの畳み込みは、より識別され関連する情報をキャプチャすることでこの問題を克服することができる。 提案手法は,3Dと2Dインセプションネットのコアアイデアとアテンション機構を組み合わせることで,ハイブリッドシナリオにおけるHSIC CNNの性能向上を図ることを目的としている。 結果として得られた \textit{attention-fused hybrid network} (afnet) は、各ブロックに異なるカーネルを持つ3つの注意操作された並列ハイブリッドサブネットに基づいている。 要するに、afnetは分類に不可欠な識別的特徴を選択的にフィルターすることができる。 HSIデータセットのいくつかのテストは、最先端のモデルと比較して、AfNetの競合結果を提供した。 提案するパイプラインは、実際には、インド松の97\%、ボツワナの100\%、パヴィア大学、パヴィアセンター、サリナスデータセットの99\%という全体的な精度を達成した。

Convolutional Neural Networks (CNN) are more suitable, indeed. However, fixed kernel sizes make traditional CNN too specific, neither flexible nor conducive to feature learning, thus impacting on the classification accuracy. The convolution of different kernel size networks may overcome this problem by capturing more discriminating and relevant information. In light of this, the proposed solution aims at combining the core idea of 3D and 2D Inception net with the Attention mechanism to boost the HSIC CNN performance in a hybrid scenario. The resulting \textit{attention-fused hybrid network} (AfNet) is based on three attention-fused parallel hybrid sub-nets with different kernels in each block repeatedly using high-level features to enhance the final ground-truth maps. In short, AfNet is able to selectively filter out the discriminative features critical for classification. Several tests on HSI datasets provided competitive results for AfNet compared to state-of-the-art models. The proposed pipeline achieved, indeed, an overall accuracy of 97\% for the Indian Pines, 100\% for Botswana, 99\% for Pavia University, Pavia Center, and Salinas datasets.
翻訳日:2022-01-05 20:38:36 公開日:2022-01-04
# (参考訳) MoCoPnet:赤外小ターゲット超解法における局所運動とコントラスト先行の探索 [全文訳有]

MoCoPnet: Exploring Local Motion and Contrast Priors for Infrared Small Target Super-Resolution ( http://arxiv.org/abs/2201.01014v1 )

ライセンス: CC BY 4.0
Xinyi Ying, Yingqian Wang, Longguang Wang, Weidong Sheng, Li Liu, Zaipin Lin, Shilin Zho(参考訳) 赤外線小型ターゲットスーパーレゾリューション(sr)は、低レゾリューションのターゲットから高コントラストのターゲットで信頼性と詳細な高解像度画像を回収することを目的としている。 赤外線小ターゲットには色や微細な構造情報がないため、シーケンス画像間の補足情報を利用してターゲットを強化することが重要である。 本稿では,赤外小ターゲットのドメイン知識を深層ネットワークに統合し,赤外小ターゲットの固有の特徴不足を軽減するために,ローカルモーションとコントラスト事前駆動深層ネットワーク(MoCoPnet)と呼ばれる最初の赤外小ターゲットSR手法を提案する。 具体的には、時空間次元に先立つ局所運動に動機づけられ、暗黙的なフレームアライメントを行い、局所時空間情報を取り込んで局所的特徴(特に小さな対象)を高める局所時空間アライメントモジュールを提案する。 空間次元に先行する局所的コントラストに動機づけられ,中心的差分畳み込みを特徴抽出バックボーンに組み込む中心的差分残差群を提案する。 広範な実験により,本手法が正確な空間依存性を回復し,目標コントラストを改善することを実証した。 比較の結果,MoCoPnetは,SR性能と目標拡張の両面から,最先端ビデオSRと単一画像SR法より優れていた。 SRの結果から,赤外線小目標検出におけるSRの影響についてさらに検討し,MoCoPnetが検出性能を向上させることを示す実験結果を得た。 コードはhttps://github.com/x inyiying/mocopnetで入手できる。

Infrared small target super-resolution (SR) aims to recover reliable and detailed high-resolution image with highcontrast targets from its low-resolution counterparts. Since the infrared small target lacks color and fine structure information, it is significant to exploit the supplementary information among sequence images to enhance the target. In this paper, we propose the first infrared small target SR method named local motion and contrast prior driven deep network (MoCoPnet) to integrate the domain knowledge of infrared small target into deep network, which can mitigate the intrinsic feature scarcity of infrared small targets. Specifically, motivated by the local motion prior in the spatio-temporal dimension, we propose a local spatiotemporal attention module to perform implicit frame alignment and incorporate the local spatio-temporal information to enhance the local features (especially for small targets). Motivated by the local contrast prior in the spatial dimension, we propose a central difference residual group to incorporate the central difference convolution into the feature extraction backbone, which can achieve center-oriented gradient-aware feature extraction to further improve the target contrast. Extensive experiments have demonstrated that our method can recover accurate spatial dependency and improve the target contrast. Comparative results show that MoCoPnet can outperform the state-of-the-art video SR and single image SR methods in terms of both SR performance and target enhancement. Based on the SR results, we further investigate the influence of SR on infrared small target detection and the experimental results demonstrate that MoCoPnet promotes the detection performance. The code is available at https://github.com/X inyiYing/MoCoPnet.
翻訳日:2022-01-05 20:17:11 公開日:2022-01-04
# (参考訳) 間隔値q-rung直交ファジィ環境下での批判群決定法の統合

A integrating critic-waspas group decision making method under interval-valued q-rung orthogonal fuzzy enviroment ( http://arxiv.org/abs/2201.01027v1 )

ライセンス: CC BY 4.0
Benting Wan, Shufen Zhou(参考訳) 本稿では,重みと属性の重みが未知な多属性群意思決定のための新しいツールを提案する。 本稿では,Yager演算子とCRITIC-WASPAS法に基づいて,時間間隔値の一般化直交ファジィ群決定法を提案する。 この方法は、Yager演算子、CRITIC、WASPAS、および区間値一般化直交ファジィ群を統合する。 その利点は、意思決定者がより大きな自由を許容し、意思決定者の重みによる偏見を避け、正確な評価を得ることである。 本研究は、類似度測定と意思決定法の比較・適用のための区間値一般化距離測定方法の拡大、区間値一般化直交ファジィ数のサイズ比較のための新たなスコアリング関数の開発、およびさらに既存の研究を含む。 情報集約には、間隔値Yager重み付き平均演算子(IVq-ROFYWA)とYager重み付き幾何平均演算子(IVq-ROFYWG)が使用される。 CRITIC-WASPAS は、CRITIC と WASPAS の利点を組み合わせ、単一の決定で機能するだけでなく、グループ決定の基盤としても機能する。 意思決定者の重み行列の詳細な研究は、決定を全体として捉える際の欠点を克服し、意思決定者の情報集約を重み付けする。 最後に、群決定アルゴリズムは高血圧リスク管理に使用される。 結果は意思決定者の意見と一致している。 本論文では,本手法の有効性を実証し,実例分析を行った。 同時に、他の演算子や意思決定方法と比較し、その方法が効果的かつ実現可能であることを示す。

This paper provides a new tool for multi-attribute multi-objective group decision-making with unknown weights and attributes' weights. An interval-valued generalized orthogonal fuzzy group decision-making method is proposed based on the Yager operator and CRITIC-WASPAS method with unknown weights. The method integrates Yager operator, CRITIC, WASPAS, and interval value generalized orthogonal fuzzy group. Its merits lie in allowing decision-makers greater freedom, avoiding bias due to decision-makers' ; weight, and yielding accurate evaluation. The research includes: expanding the interval value generalized distance measurement method for comparison and application of similarity measurement and decision-making methods; developing a new scoring function for comparing the size of interval value generalized orthogonal fuzzy numbers,and further existing researches. The proposed interval-valued Yager weighted average operator (IVq-ROFYWA) and Yager weighted geometric average operator (IVq-ROFYWG) are used for information aggregation. The CRITIC-WASPAS combines the advantages of CRITIC and WASPAS, which not only work in the single decision but also serve as the basis of the group decision. The in-depth study of the decision-maker's weight matrix overcomes the shortcomings of taking the decision as a whole, and weighs the decision-maker's information aggregation. Finally, the group decision algorithm is used for hypertension risk management. The results are consistent with decision-makers' ; opinions. Practice and case analysis have proved the effectiveness of the method proposed in this paper. At the same time, it is compared with other operators and decision-making methods, which proves the method effective and feasible.
翻訳日:2022-01-05 19:43:31 公開日:2022-01-04
# (参考訳) クラスインクリメンタルセグメンテーションのための弱教師付き連続学習 [全文訳有]

Weakly-supervised continual learning for class-incremental segmentation ( http://arxiv.org/abs/2201.01029v1 )

ライセンス: CC BY 4.0
Gaston Lenczner, Adrien Chan-Hon-Tong, Nicola Luminari, Bertrand Le Saux(参考訳) 転送学習は、既存のディープラーニングモデルを新しいリモートセンシングのユースケースに適応させる強力な方法である。 すでにセマンティクスセグメンテーションのために訓練されたニューラルネットワークから始め、弱い監督下で新しいクラスに素早く適応するためにラベル空間を変更することを提案する。 このような連続学習に内在する背景シフトと破滅的な忘れ問題を軽減するために,異なる正規化項を比較し,擬似ラベル戦略を活用した。 3つのパブリックリモートセンシングデータセットに対するアプローチの有効性を実験的に示す。

Transfer learning is a powerful way to adapt existing deep learning models to new emerging use-cases in remote sensing. Starting from a neural network already trained for semantic segmentation, we propose to modify its label space to swiftly adapt it to new classes under weak supervision. To alleviate the background shift and the catastrophic forgetting problems inherent to this form of continual learning, we compare different regularization terms and leverage a pseudo-label strategy. We experimentally show the relevance of our approach on three public remote sensing datasets.
翻訳日:2022-01-05 19:42:14 公開日:2022-01-04
# (参考訳) DIAL:リモートセンシングにおけるセマンティックセグメンテーションのためのインタラクティブでアクティブな学習 [全文訳有]

DIAL: Deep Interactive and Active Learning for Semantic Segmentation in Remote Sensing ( http://arxiv.org/abs/2201.01047v1 )

ライセンス: CC BY 4.0
Gaston Lenczner, Adrien Chan-Hon-Tong, Bertrand Le Saux, Nicola Luminari, Guy Le Besnerais(参考訳) 本稿では,深層ニューラルネットワークとループ内の人間との協調関係を構築し,リモートセンシング画像の正確なセグメンテーションマップを迅速に取得することを提案する。 一言で言えば、エージェントはネットワークと反復的にやり取りし、最初の欠陥のある予測を修正する。 具体的には、これらの相互作用は意味ラベルを表すアノテーションである。 我々の方法論的な貢献は2つある。 まず,深層ニューラルネットワークにユーザ入力を統合する2つの対話型学習手法を提案する。 1つ目は、アノテーションを他のネットワークの入力と結合する。 2つめは、アノテーションをスパースな基盤として使用し、ネットワークを再トレーニングする。 第2に,アノテートする最も関連性の高い領域にユーザを誘導する,アクティブな学習戦略を提案する。 この目的のために、異なる最先端の取得関数を比較して、confidnet、entropy、odinといったニューラルネットワークの不確実性を評価する。 3つのリモートセンシングデータセットを用いた実験により,提案手法の有効性を示す。 特に,不確実性推定に基づくアクティブラーニングは,ユーザを素早くミスへと導くことが可能であり,ユーザ介入の指導に関係していることを示す。

We propose in this article to build up a collaboration between a deep neural network and a human in the loop to swiftly obtain accurate segmentation maps of remote sensing images. In a nutshell, the agent iteratively interacts with the network to correct its initially flawed predictions. Concretely, these interactions are annotations representing the semantic labels. Our methodological contribution is twofold. First, we propose two interactive learning schemes to integrate user inputs into deep neural networks. The first one concatenates the annotations with the other network's inputs. The second one uses the annotations as a sparse ground-truth to retrain the network. Second, we propose an active learning strategy to guide the user towards the most relevant areas to annotate. To this purpose, we compare different state-of-the-art acquisition functions to evaluate the neural network uncertainty such as ConfidNet, entropy or ODIN. Through experiments on three remote sensing datasets, we show the effectiveness of the proposed methods. Notably, we show that active learning based on uncertainty estimation enables to quickly lead the user towards mistakes and that it is thus relevant to guide the user interventions.
翻訳日:2022-01-05 19:35:58 公開日:2022-01-04
# (参考訳) 筋電図に基づく生体認証のためのオープンアクセスデータセット [全文訳有]

Open Access Dataset for Electromyography based Multi-code Biometric Authentication ( http://arxiv.org/abs/2201.01051v1 )

ライセンス: CC BY 4.0
Ashirbad Pradhan, Jiayuan He, Ning Jiang(参考訳) 近年、表面筋電図 (emg) は、スプーフィングや活力といった現在の生体計測のいくつかの重要な制限に対処するための新しい生体計測特性として提案されている。 EMG信号は個人(バイオメトリックス)と本質的に異なる特徴を持ち、マルチ長のコードやパスワード(例えば、異なるジェスチャーを実行することで)を実現するようにカスタマイズできる。 しかし、現在のEMGベースの生体計測研究には2つの限界がある。 1)他のより確立された生体特性と比較して小さな被験者プール 2) シングルセッションまたはシングルデイデータセットに限定される。 本研究は,手指と手首のジェスチャーをしながら,3日間にわたり3つの異なる被験者から前腕筋電図と手首筋電図を収集した。 複数日間の生体認証の結果、前腕のEERは0.017、手首のEERは0.025となり、整合性のある生体認証特性に匹敵する性能を示した。 提示された大規模マルチデイデータセットと知見は、emgベースのバイオメトリックスや他のジェスチャー認識に基づくアプリケーションに関するさらなる研究を促進することができる。

Recently, surface electromyogram (EMG) has been proposed as a novel biometric trait for addressing some key limitations of current biometrics, such as spoofing and liveness. The EMG signals possess a unique characteristic: they are inherently different for individuals (biometrics), and they can be customized to realize multi-length codes or passwords (for example, by performing different gestures). However, current EMG-based biometric research has two critical limitations: 1) a small subject pool, compared to other more established biometric traits, and 2) limited to single-session or single-day data sets. In this study, forearm and wrist EMG data were collected from 43 participants over three different days with long separation while they performed static hand and wrist gestures. The multi-day biometric authentication resulted in a median EER of 0.017 for the forearm setup and 0.025 for the wrist setup, comparable to well-established biometric traits suggesting consistent performance over multiple days. The presented large-sample multi-day data set and findings could facilitate further research on EMG-based biometrics and other gesture recognition-based applications.
翻訳日:2022-01-05 19:15:10 公開日:2022-01-04
# (参考訳) FROTE: モデル編集のためのフィードバックルール駆動オーバーサンプリング [全文訳有]

FROTE: Feedback Rule-Driven Oversampling for Editing Models ( http://arxiv.org/abs/2201.01070v1 )

ライセンス: CC BY 4.0
\"Oznur Alkan, Dennis Wei, Massimiliano Matteti, Rahul Nair, Elizabeth M. Daly, Diptikalyan Saha(参考訳) 機械学習モデルは、ローン承認やクレーム管理などの規則や規則の更新によって、時間とともに変化する決定境界を含む。 しかし、そのようなシナリオでは、新しい決定境界を反映するためにモデルを再トレーニングするために十分なトレーニングデータが蓄積されるのに時間がかかります。 既存の決定境界を強化する作業は行われているが、新しいルールを反映するためにMLモデルの決定境界を変更するシナリオをカバーするための作業はほとんど行われていない。 本稿では,MLモデルの更新プロセスを高速化する手段として,ユーザが提供するフィードバックルールに注目し,モデルが事前処理されたデータに再トレーニングされると,その決定境界がルールとより密接に一致するように,フィードバックルールに応じてMLモデルの編集を行うための事前処理トレーニングデータの問題を正式に導入する。 そこで本研究では,新しいデータ拡張法であるフィードバックルールに基づくオーバーサンプリング手法を提案する。 異なるMLモデルと実世界のデータセットを用いた大規模な実験は、この手法の有効性、特に拡張の利点と多くのフィードバックルールを扱う能力を示す。

Machine learning models may involve decision boundaries that change over time due to updates to rules and regulations, such as in loan approvals or claims management. However, in such scenarios, it may take time for sufficient training data to accumulate in order to retrain the model to reflect the new decision boundaries. While work has been done to reinforce existing decision boundaries, very little has been done to cover these scenarios where decision boundaries of the ML models should change in order to reflect new rules. In this paper, we focus on user-provided feedback rules as a way to expedite the ML models update process, and we formally introduce the problem of pre-processing training data to edit an ML model in response to feedback rules such that once the model is retrained on the pre-processed data, its decision boundaries align more closely with the rules. To solve this problem, we propose a novel data augmentation method, the Feedback Rule-Based Oversampling Technique. Extensive experiments using different ML models and real world datasets demonstrate the effectiveness of the method, in particular the benefit of augmentation and the ability to handle many feedback rules.
翻訳日:2022-01-05 18:55:46 公開日:2022-01-04
# (参考訳) マルチパーソン・ポーズ・レグレッションのための品質認識表現の学習 [全文訳有]

Learning Quality-aware Representation for Multi-person Pose Regression ( http://arxiv.org/abs/2201.01087v1 )

ライセンス: CC BY 4.0
Yabo Xiao, Dongdong Yu, Xiaojuan Wang, Lei Jin, Guoli Wang, Qian Zhang(参考訳) off-the-shelf single-stage multi-person pose regression methodは一般にインスタンススコア(すなわちインスタンスローカライゼーションの信頼度)を利用して、ポーズ候補を選択するポーズ品質を示す。 1) 既存のパラダイムには2つのギャップがあると考えている。 ~2) インスタンスの特徴表現は、インスタンススコアの予測に使われるが、ポーズ回帰品質を表す合理的なスコアを予測するために、構造的なポーズ情報を明示的にエンコードしていない。 上記の課題に対処するために,ポーズ回帰品質認識表現の学習を提案する。 具体的には、第1のギャップに対して、前のインスタンス信頼度ラベル(例えば離散 {1,0} やガウス表現)を使用して人のインスタンスの位置と信頼度を示す代わりに、まず、インスタンスのポーズ回帰品質スコアとバックグラウンドの信頼度を統合する一貫性インスタンス表現(cir)を画素単位のスコアマップに導入し、インスタンススコアとポーズ回帰品質の矛盾を対応付けます。 さらに、第2のギャップを埋めるために、各キーポイントの位置および意味情報をエンコードするキーポイントクエリエンコーディング(kqe)と、予測された構造的ポーズ情報を明示的にエンコードして一貫性のあるインスタンス表現(cir)に適合させるポーズクエリエンコーディング(pqe)を含むクエリエンコーディングモジュール(qem)を提案する。 提案するコンポーネントを用いることで,上記のギャップを大幅に緩和する。 提案手法は従来の単段回帰に基づくボトムアップ手法よりも優れており,MS COCOテストデブセットにおける71.7 APの最先端結果が得られる。

Off-the-shelf single-stage multi-person pose regression methods generally leverage the instance score (i.e., confidence of the instance localization) to indicate the pose quality for selecting the pose candidates. We consider that there are two gaps involved in existing paradigm:~1) The instance score is not well interrelated with the pose regression quality.~2) The instance feature representation, which is used for predicting the instance score, does not explicitly encode the structural pose information to predict the reasonable score that represents pose regression quality. To address the aforementioned issues, we propose to learn the pose regression quality-aware representation. Concretely, for the first gap, instead of using the previous instance confidence label (e.g., discrete {1,0} or Gaussian representation) to denote the position and confidence for person instance, we firstly introduce the Consistent Instance Representation (CIR) that unifies the pose regression quality score of instance and the confidence of background into a pixel-wise score map to calibrates the inconsistency between instance score and pose regression quality. To fill the second gap, we further present the Query Encoding Module (QEM) including the Keypoint Query Encoding (KQE) to encode the positional and semantic information for each keypoint and the Pose Query Encoding (PQE) which explicitly encodes the predicted structural pose information to better fit the Consistent Instance Representation (CIR). By using the proposed components, we significantly alleviate the above gaps. Our method outperforms previous single-stage regression-based even bottom-up methods and achieves the state-of-the-art result of 71.7 AP on MS COCO test-dev set.
翻訳日:2022-01-05 18:02:19 公開日:2022-01-04
# (参考訳) ABMにおける複雑な空間行動の学習 : 実験的観察研究 [全文訳有]

Learning Complex Spatial Behaviours in ABM: An Experimental Observational Study ( http://arxiv.org/abs/2201.01099v1 )

ライセンス: CC BY 4.0
Sedar Olmez, Dan Birks, Alison Heppenstall(参考訳) 空間的に明示的な個人モデル内での知的適応行動の捕獲とシミュレーションは、研究者にとって現在も進行中の課題である。 現実世界の行動データが大量に収集される一方で、重要な個々の行動の定量化と形式化、空間や時間とともにどのように変化するか、といったアプローチがいくつか存在する。 したがって、イベント・コンディション・アクション・ルールのような一般的に使用されるエージェント決定フレームワークは、狭い範囲の行動にのみ焦点を合わせる必要がある。 これらの行動フレームワークは現実世界のシナリオを反映しないことが多く、刺激に反応して行動がどのように発達するかを捉えることができない。 近年、機械学習の手法や、インテリジェントな適応行動をシミュレートする可能性への関心が高まっている。 この領域で注目を集め始めた方法の一つが強化学習(rl)である。 本稿では, 簡単な捕食者・捕食者モデル(ABM)を用いて, 創発的エージェント行動の生成にRLを適用する方法について検討する。 一連のシミュレーションを行い、新しいPPOアルゴリズムを用いて訓練されたエージェントが、隠蔽、回避、捕食などの現実世界の知的適応行動の特性を示す方法で行動することを示した。

Capturing and simulating intelligent adaptive behaviours within spatially explicit individual-based models remains an ongoing challenge for researchers. While an ever-increasing abundance of real-world behavioural data are collected, few approaches exist that can quantify and formalise key individual behaviours and how they change over space and time. Consequently, commonly used agent decision-making frameworks, such as event-condition-acti on rules, are often required to focus only on a narrow range of behaviours. We argue that these behavioural frameworks often do not reflect real-world scenarios and fail to capture how behaviours can develop in response to stimuli. There has been an increased interest in Machine Learning methods and their potential to simulate intelligent adaptive behaviours in recent years. One method that is beginning to gain traction in this area is Reinforcement Learning (RL). This paper explores how RL can be applied to create emergent agent behaviours using a simple predator-prey Agent-Based Model (ABM). Running a series of simulations, we demonstrate that agents trained using the novel Proximal Policy Optimisation (PPO) algorithm behave in ways that exhibit properties of real-world intelligent adaptive behaviours, such as hiding, evading and foraging.
翻訳日:2022-01-05 17:47:59 公開日:2022-01-04
# (参考訳) 極小変化を伴う移動可能非制限逆例に向けて [全文訳有]

Towards Transferable Unrestricted Adversarial Examples with Minimum Changes ( http://arxiv.org/abs/2201.01102v1 )

ライセンス: CC BY 4.0
Fangcheng Liu, Chao Zhang, Hongyang Zhang(参考訳) transfer-based adversarial exampleはブラックボックス攻撃の最も重要なクラスの1つである。 しかし, 対向摂動の伝達可能性と非受容性の間にはトレードオフがある。 この方向の先行作業には、良好な転送成功率に達するためには、固定だが大きな$\ell_p$-norm摂動予算が必要となることが多い。 一方、セマンティック保存摂動を発生させようとする現在の非制限の敵攻撃のほとんどは、ターゲットモデルへのより弱い転送可能性に悩まされている。 本稿では,最小限の変更で転送可能な逆例を生成する幾何認識フレームワークを提案する。 統計的機械学習におけるモデル選択と同様に、各画像に対する最適な摂動予算を$\ell_{\infty}$-normとunrestricted threatモデルの両方の下で選択するために検証モデルを利用する。 大規模実験により,本フレームワークの有効性を検証し,その有効性を検証した。 cvpr'21 security ai challenger: unrestricted adversarial attack on imagenetでは,1,559チーム中1位にランクインし,最終スコアと平均画像品質レベルで,次点を4.59%,23.91%上回った。 コードはhttps://github.com/E quationliu/GA-Attack .comで入手できる。

Transfer-based adversarial example is one of the most important classes of black-box attacks. However, there is a trade-off between transferability and imperceptibility of the adversarial perturbation. Prior work in this direction often requires a fixed but large $\ell_p$-norm perturbation budget to reach a good transfer success rate, leading to perceptible adversarial perturbations. On the other hand, most of the current unrestricted adversarial attacks that aim to generate semantic-preserving perturbations suffer from weaker transferability to the target model. In this work, we propose a geometry-aware framework to generate transferable adversarial examples with minimum changes. Analogous to model selection in statistical machine learning, we leverage a validation model to select the optimal perturbation budget for each image under both the $\ell_{\infty}$-norm and unrestricted threat models. Extensive experiments verify the effectiveness of our framework on balancing imperceptibility and transferability of the crafted adversarial examples. The methodology is the foundation of our entry to the CVPR'21 Security AI Challenger: Unrestricted Adversarial Attacks on ImageNet, in which we ranked 1st place out of 1,559 teams and surpassed the runner-up submissions by 4.59% and 23.91% in terms of final score and average image quality level, respectively. Code is available at https://github.com/E quationliu/GA-Attack .
翻訳日:2022-01-05 17:23:29 公開日:2022-01-04
# (参考訳) Barker提案と他の局所平衡メトロポリス・ハスティングスアルゴリズムの最適設計 [全文訳有]

Optimal design of the Barker proposal and other locally-balanced Metropolis-Hastings algorithms ( http://arxiv.org/abs/2201.01123v1 )

ライセンス: CC BY 4.0
Jure Vogrinc, Samuel Livingstone and Giacomo Zanella(参考訳) リビングストン・アンド・ザネラ(英語版) (2021) で導入された一階の局所均衡メトロポリス-ハスティングアルゴリズムのクラスについて検討した。 クラス内で特定のアルゴリズムを選択するには、ユーザーはバランス関数 $g:\mathbb{R} \to \mathbb{R}$ を満足する $g(t) = tg(1/t)$ と、提案インクリメントのノイズ分布を選択する必要がある。 クラス内の一般的な選択は、メトロポリス調整ランゲヴィンアルゴリズムと最近導入されたバーカーの提案である。 まず57%の普遍的限界最適受入率を確立し、n$の次元は、g$の穏やかな滑らかさの仮定の下で、そしてアルゴリズムのターゲット分布が製品形式である場合、クラス全体の無限大になりがちであるとして、n^{-1/3}$をスケーリングする。 特に,クラス内の任意のアルゴリズムの漸近効率の明示的な式を,期待される2乗跳躍距離で測定する。 次に,この表現を様々な制約の下で最適化する方法を検討する。 本稿では,バーカー提案における雑音分布の最適選択,ガウス雑音分布下でのバランス関数の最適選択,およびクラス全体の一階局所バランスアルゴリズムの最適選択を導出する。 数値シミュレーションにより理論的な知見が確認され,特にbarker提案における雑音分布のバイモーダル選択は,ガウシアン版よりも一貫して効率的であることを示す。

We study the class of first-order locally-balanced Metropolis--Hastings algorithms introduced in Livingstone & Zanella (2021). To choose a specific algorithm within the class the user must select a balancing function $g:\mathbb{R} \to \mathbb{R}$ satisfying $g(t) = tg(1/t)$, and a noise distribution for the proposal increment. Popular choices within the class are the Metropolis-adjusted Langevin algorithm and the recently introduced Barker proposal. We first establish a universal limiting optimal acceptance rate of 57% and scaling of $n^{-1/3}$ as the dimension $n$ tends to infinity among all members of the class under mild smoothness assumptions on $g$ and when the target distribution for the algorithm is of the product form. In particular we obtain an explicit expression for the asymptotic efficiency of an arbitrary algorithm in the class, as measured by expected squared jumping distance. We then consider how to optimise this expression under various constraints. We derive an optimal choice of noise distribution for the Barker proposal, optimal choice of balancing function under a Gaussian noise distribution, and optimal choice of first-order locally-balanced algorithm among the entire class, which turns out to depend on the specific target distribution. Numerical simulations confirm our theoretical findings and in particular show that a bi-modal choice of noise distribution in the Barker proposal gives rise to a practical algorithm that is consistently more efficient than the original Gaussian version.
翻訳日:2022-01-05 16:45:04 公開日:2022-01-04
# (参考訳) 実用性とプライバシを向上させるためにRNNを用いたリアル人口のための合成モビリティデータの生成 [全文訳有]

Generating synthetic mobility data for a realistic population with RNNs to improve utility and privacy ( http://arxiv.org/abs/2201.01139v1 )

ライセンス: CC BY 4.0
Alex Berke, Ronan Doorley, Kent Larson, Esteban Moro(参考訳) モバイルデバイスから収集された位置情報は、個人および社会レベルでの移動行動を表す。 これらのデータには、交通計画から疫病モデルまで、重要な応用がある。 しかし、これらのユースケースに最善を尽くすには、問題が克服されなければならない。データは、しばしば、人口の限られたサンプルを表し、データの使用がプライバシーを脅かす。 そこで本研究では,実位置データに基づいて学習したディープリカレントニューラルネットワーク(rnn)を用いて,合成モビリティデータを生成するシステムを提案する。 本システムは,人口分布を入力として,対応する合成人口の移動トレースを生成する。 関連する生成的アプローチは、個人の移動行動のパターンと変動性を長期にわたって捉えながら、現実的なデータ生成とプライバシのバランスをとるという課題を解決していない。 本システムでは,トレーニングデータからパターンを保ちつつ,複雑な新しいシーケンスを生成するrnnの能力を活用する。 また、このモデルでは、個々のレベルでの合成データと実データの変動を校正するランダム性を導入する。 これは、人間の移動の多様性を捉え、ユーザーのプライバシーを保護するためである。 22,700以上のモバイルデバイスからの位置情報ベースのサービス(LBS)データは、ユーティリティとプライバシのメトリクスの実験的評価に使用された。 生成したモビリティデータは実際のデータの特徴を保ちながら、個々のレベルでの実際のデータから変化し、その変化量が実際のデータ内の変動と一致しているかを示す。

Location data collected from mobile devices represent mobility behaviors at individual and societal levels. These data have important applications ranging from transportation planning to epidemic modeling. However, issues must be overcome to best serve these use cases: The data often represent a limited sample of the population and use of the data jeopardizes privacy. To address these issues, we present and evaluate a system for generating synthetic mobility data using a deep recurrent neural network (RNN) which is trained on real location data. The system takes a population distribution as input and generates mobility traces for a corresponding synthetic population. Related generative approaches have not solved the challenges of capturing both the patterns and variability in individuals' mobility behaviors over longer time periods, while also balancing the generation of realistic data with privacy. Our system leverages RNNs' ability to generate complex and novel sequences while retaining patterns from training data. Also, the model introduces randomness used to calibrate the variation between the synthetic and real data at the individual level. This is to both capture variability in human mobility, and protect user privacy. Location based services (LBS) data from more than 22,700 mobile devices were used in an experimental evaluation across utility and privacy metrics. We show the generated mobility data retain the characteristics of the real data, while varying from the real data at the individual level, and where this amount of variation matches the variation within the real data.
翻訳日:2022-01-05 16:11:23 公開日:2022-01-04
# (参考訳) ラジオギャラクシー分類における深層学習手法の不確かさの定量化 [全文訳有]

Quantifying Uncertainty in Deep Learning Approaches to Radio Galaxy Classification ( http://arxiv.org/abs/2201.01203v1 )

ライセンス: CC BY 4.0
Devina Mohan, Anna M. M. Scaife, Fiona Porter, Mike Walmsley, Micah Bowles(参考訳) 本研究では,電波銀河分類の深層学習モデル予測における不確かさの程度を,変分推論を用いて定量化する。 個々の試料に対するモデル後方分散のレベルは、電波銀河のラベル付け時に人間の不確かさと相関することを示した。 種々の重み事前のモデル性能と不確実性校正について検討し、スパース事前がよりよく校正された不確実性推定を生成することを示唆する。 個々の重みに対する後部分布を用いて,低信号-雑音比 (SNR) の重みを除去することにより,完全連結層重みの30%を著しく損なうことなくプルークできることを示す。 我々は,フィッシャー情報に基づくランク付けにより,より多くのプルーニングが達成できることを実証するが,どちらのプルーニング方法もファナロフ・ライリー型銀河とii型電波銀河の不確実性校正に影響を与えることに留意する。 最後に, この分野での他の研究と同様, 後部効果が冷え込み, 後部が下降し, 良好な予測性能が得られることを示した。 モデル不特定性に対応するためにコスト関数を適用することで、この効果を補うことができるか検討するが、大きな違いはない。 また、原則データ拡張の効果を検証し、ベースラインに対して改善するが、観測した効果を補償しないことを示す。 我々はこれを、トレーニングサンプルが過度に効果的にキュレーションされ、誤った分類につながることによる寒冷後効果と解釈し、将来ベイズ深層学習による電波銀河分類の潜在的な問題として提起する。

In this work we use variational inference to quantify the degree of uncertainty in deep learning model predictions of radio galaxy classification. We show that the level of model posterior variance for individual test samples is correlated with human uncertainty when labelling radio galaxies. We explore the model performance and uncertainty calibration for a variety of different weight priors and suggest that a sparse prior produces more well-calibrated uncertainty estimates. Using the posterior distributions for individual weights, we show that we can prune 30% of the fully-connected layer weights without significant loss of performance by removing the weights with the lowest signal-to-noise ratio (SNR). We demonstrate that a larger degree of pruning can be achieved using a Fisher information based ranking, but we note that both pruning methods affect the uncertainty calibration for Fanaroff-Riley type I and type II radio galaxies differently. Finally we show that, like other work in this field, we experience a cold posterior effect, whereby the posterior must be down-weighted to achieve good predictive performance. We examine whether adapting the cost function to accommodate model misspecification can compensate for this effect, but find that it does not make a significant difference. We also examine the effect of principled data augmentation and find that this improves upon the baseline but also does not compensate for the observed effect. We interpret this as the cold posterior effect being due to the overly effective curation of our training sample leading to likelihood misspecification, and raise this as a potential issue for Bayesian deep learning approaches to radio galaxy classification in future.
翻訳日:2022-01-05 15:55:06 公開日:2022-01-04
# (参考訳) CNN学習のための効率的な量子特徴抽出 [全文訳有]

Efficient Quantum Feature Extraction for CNN-based Learning ( http://arxiv.org/abs/2201.01246v1 )

ライセンス: CC BY 4.0
Tong Dou, Guofeng Zhang, and Wei Cui(参考訳) 最近の研究は、一般関数近似器としてのパラメトリズド量子回路(pqcs)のポテンシャルを探求し始めた。 本研究では,古典的cnnモデルの識別性を高めるために,量子古典的深層ネットワーク構造を提案する。 畳み込み層は線形フィルタを用いて入力データをスキャンする。 さらに、より強力な関数近似器であるpqcを構築し、受容体内の特徴を捉えるためのより複雑な構造を構築する。 特徴マップは、cnnと似た方法でpqcを入力上でスライドさせることによって得られる。 また,提案モデルに対するトレーニングアルゴリズムを提案する。 本設計で使用されるハイブリッドモデルは数値シミュレーションにより検証した。 我々は,MNISTにおける適切な分類性能を示し,異なる設定のモデルと比較する。 その結果,ansatzの高表現性モデルが低コストかつ高精度に実現できることが判明した。

Recent work has begun to explore the potential of parametrized quantum circuits (PQCs) as general function approximators. In this work, we propose a quantum-classical deep network structure to enhance classical CNN model discriminability. The convolutional layer uses linear filters to scan the input data. Moreover, we build PQC, which is a more potent function approximator, with more complex structures to capture the features within the receptive field. The feature maps are obtained by sliding the PQCs over the input in a similar way as CNN. We also give a training algorithm for the proposed model. The hybrid models used in our design are validated by numerical simulation. We demonstrate the reasonable classification performances on MNIST and we compare the performances with models in different settings. The results disclose that the model with ansatz in high expressibility achieves lower cost and higher accuracy.
翻訳日:2022-01-05 15:18:33 公開日:2022-01-04
# (参考訳) 分散マルチエージェント政策勾配における潜在状態情報共有を伴う値関数の分解 [全文訳有]

Value Functions Factorization with Latent State Information Sharing in Decentralized Multi-Agent Policy Gradients ( http://arxiv.org/abs/2201.01247v1 )

ライセンス: CC BY 4.0
Hanhan Zhou, Tian Lan, Vaneet Aggarwal(参考訳) 集中型トレーニングと分散実行による価値関数の分解は、協調型マルチエージェント強化タスクの解決に有効である。 この領域におけるアプローチの1つ、QMIXは最先端になり、StarCraft IIマイクロマネジメントベンチマークで最高のパフォーマンスを達成した。 しかし、QMIXにおけるエージェント1個当たりの単調混合は、表現できる共同動作 Q-値を制限することや、単一のエージェント値関数の推定に不十分な大域的状態情報を制限することが知られている。 そこで本研究では,変動推論に基づく情報共有機構を付加的な状態情報として活用し,価値関数因子化における個々のエージェントを支援する新しいフレームワーク lsf-sac を提案する。 このような潜在的な個々の状態情報共有は価値関数因子化の力を著しく拡大できるが、完全に分散化された実行はソフト・アクタ・クリティックな設計によってlsf-sacで維持できる。 我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。 さらに,その性能向上に寄与する重要な要因を特定するため,広範なアブレーション研究を行った。 この新たな洞察が,新たな局所値推定法や変分深層学習アルゴリズムに繋がると信じている。 デモビデオと実装コードはhttps://sites.google .com/view/sacmmで見ることができる。

Value function factorization via centralized training and decentralized execution is promising for solving cooperative multi-agent reinforcement tasks. One of the approaches in this area, QMIX, has become state-of-the-art and achieved the best performance on the StarCraft II micromanagement benchmark. However, the monotonic-mixing of per agent estimates in QMIX is known to restrict the joint action Q-values it can represent, as well as the insufficient global state information for single agent value function estimation, often resulting in suboptimality. To this end, we present LSF-SAC, a novel framework that features a variational inference-based information-sharing mechanism as extra state information to assist individual agents in the value function factorization. We demonstrate that such latent individual state information sharing can significantly expand the power of value function factorization, while fully decentralized execution can still be maintained in LSF-SAC through a soft-actor-critic design. We evaluate LSF-SAC on the StarCraft II micromanagement challenge and demonstrate that it outperforms several state-of-the-art methods in challenging collaborative tasks. We further set extensive ablation studies for locating the key factors accounting for its performance improvements. We believe that this new insight can lead to new local value estimation methods and variational deep learning algorithms. A demo video and code of implementation can be found at https://sites.google .com/view/sacmm.
翻訳日:2022-01-05 15:03:18 公開日:2022-01-04
# 分散ワイヤレス脳波サンプリングにおけるレジリエンス

Resilience Aspects in Distributed Wireless Electroencephalograp hic Sampling ( http://arxiv.org/abs/2201.01272v1 )

ライセンス: Link先を確認
R. Natarov, O. Sudakov, Z. Dyka, I. Kabin, O. Maksymyuk, O. Iegorova, O. Krishtal and P. Langend\"orfer(参考訳) 遠隔脳波サンプリングのレジリエンスの側面を考察する。 動作センサデータと産業用電力ネットワーク干渉の測定をサンプルチャネルの故障検出に利用する可能性を示した。 チャネルの故障信号とモーションセンサーデータの間に有意な相関は示されていない。 故障チャネルからの50Hzスペクトル成分のレベルは、通常動作チャネルの50Hz成分のレベルと大きく異なる。 以上の結果から,脳波サンプリングのレジリエンス向上への応用について考察した。

Resilience aspects of remote electroencephalograp hy sampling are considered. The possibility to use motion sensors data and measurement of industrial power network interference for detection of failed sampling channels is demonstrated. No significant correlation between signals of failed channels and motion sensors data is shown. Level of 50 Hz spectral component from failed channels significantly differs from level of 50 Hz component of normally operating channel. Conclusions about application of these results for increasing resilience of electroencephalograp hy sampling is made.
翻訳日:2022-01-05 14:38:51 公開日:2022-01-04
# 実世界深層ニューラルネットワークのフレキシブルエンド・ツー・エンド推論のための異種インメモリ計算クラスタ

A Heterogeneous In-Memory Computing Cluster For Flexible End-to-End Inference of Real-World Deep Neural Networks ( http://arxiv.org/abs/2201.01089v1 )

ライセンス: Link先を確認
Angelo Garofalo, Gianmarco Ottavi, Francesco Conti, Geethan Karunaratne, Irem Boybat, Luca Benini and Davide Rossi(参考訳) バッテリー制限の小さなIoTデバイスに最新のTinyMLタスクをデプロイするには、高い計算エネルギー効率が必要である。 非揮発性メモリ(NVM)を使用したアナログメモリコンピューティング(IMC)は、ディープニューラルネットワーク(DNN)推論を大幅に効率化し、DNN重みのオンチップメモリストレージとして機能する。 しかし、IMCの機能的柔軟性の制限と性能、エネルギー、面積効率への影響は、システムレベルではまだ完全には理解されていない。 実用的なエンドツーエンドIoTアプリケーションをターゲットにするためには、MCアレイを異種プログラマブルシステムに囲まなければならない。 8つのRISC-Vコア、インメモリ・コンピューティング・アクセラレータ(IMA)、デジタル・アクセラレータを統合した異種密結合クラスタアーキテクチャを提案する。 我々は,MobileNetV2 の Bottleneck 層のような高度に異質なワークロードをベンチマークし,コア上での並列実行に対して 11.5 倍の性能と 9.5 倍のエネルギー効率向上を示す。 さらに、IMCアレイリソースの観点からモバイルグレードDNN(MobileNetV2)のエンドツーエンド推論の要件について検討し、異種アーキテクチャをマルチアレイ加速器にスケールアップする。 この結果から,MobileNetV2のエンドツーエンド推論では,既存のプログラマブルアーキテクチャよりも実行レイテンシが1桁,インメモリ・アナログコアを統合した最先端の異種ソリューションよりも2桁よいことがわかった。

Deployment of modern TinyML tasks on small battery-constrained IoT devices requires high computational energy efficiency. Analog In-Memory Computing (IMC) using non-volatile memory (NVM) promises major efficiency improvements in deep neural network (DNN) inference and serves as on-chip memory storage for DNN weights. However, IMC's functional flexibility limitations and their impact on performance, energy, and area efficiency are not yet fully understood at the system level. To target practical end-to-end IoT applications, IMC arrays must be enclosed in heterogeneous programmable systems, introducing new system-level challenges which we aim at addressing in this work. We present a heterogeneous tightly-coupled clustered architecture integrating 8 RISC-V cores, an in-memory computing accelerator (IMA), and digital accelerators. We benchmark the system on a highly heterogeneous workload such as the Bottleneck layer from a MobileNetV2, showing 11.5x performance and 9.5x energy efficiency improvements, compared to highly optimized parallel execution on the cores. Furthermore, we explore the requirements for end-to-end inference of a full mobile-grade DNN (MobileNetV2) in terms of IMC array resources, by scaling up our heterogeneous architecture to a multi-array accelerator. Our results show that our solution, on the end-to-end inference of the MobileNetV2, is one order of magnitude better in terms of execution latency than existing programmable architectures and two orders of magnitude better than state-of-the-art heterogeneous solutions integrating in-memory computing analog cores.
翻訳日:2022-01-05 14:38:46 公開日:2022-01-04
# 音声信号による新型コロナウイルスの進行予測 : 縦断的研究

COVID-19 Disease Progression Prediction via Audio Signals: A Longitudinal Study ( http://arxiv.org/abs/2201.01232v1 )

ライセンス: Link先を確認
Ting Dang, Jing Han, Tong Xia, Dimitris Spathis, Erika Bondareva, Chlo\"e Brown, Jagmohan Chauhan, Andreas Grammenos, Apinan Hasthanasombat, Andres Floto, Pietro Cicuta, Cecilia Mascolo(参考訳) 最近の研究は、新型コロナウイルスのスクリーニングに音声データを使用することの可能性を示している。 しかし、病気の進行、特にオーディオによるcovid-19の回復をモニターする調査はほとんど行われていない。 疾患の進行特性や回復パターンの追跡は、素晴らしい洞察と、よりタイムリーな治療や治療調整、および医療システムにおけるより良い資源管理につながる可能性がある。 本研究の目的は, 進行予測, 特に回復傾向予測に焦点をあて, 逐次的深層学習技術を用いた新型コロナウイルスモニタリングにおける縦波オーディオダイナミックスの可能性を検討することである。 5日間から385日間にわたる212人を対象に, クラウドソーシングによる呼吸音声データの解析を行った。 まず、covid-19検出のためのオーディオバイオマーカーの経時的ダイナミクスを捉えることの利点について検討する。 強い性能は、AUC-ROCが0.79、感度が0.75、特異性が0.70であり、縦方向力学を使わない方法と比較して、アプローチの有効性を支持する。 さらに, 縦断試験結果と高い一貫性を示す予測疾患進行軌跡を, 検査コホートで0.76, テストコホートのサブセットで0.86と, 疾患回復を報告した12名との相関で検討した。 縦断的な音声データによる新型コロナウイルスの進行のモニタリングは、個人の疾患の進行と回復を追跡する上で大きな可能性を秘めていることが示唆された。

Recent work has shown the potential of the use of audio data in screening for COVID-19. However, very little exploration has been done of monitoring disease progression, especially recovery in COVID-19 through audio. Tracking disease progression characteristics and patterns of recovery could lead to tremendous insights and more timely treatment or treatment adjustment, as well as better resources management in health care systems. The primary objective of this study is to explore the potential of longitudinal audio dynamics for COVID-19 monitoring using sequential deep learning techniques, focusing on prediction of disease progression and, especially, recovery trend prediction. We analysed crowdsourced respiratory audio data from 212 individuals over 5 days to 385 days, alongside their self-reported COVID-19 test results. We first explore the benefits of capturing longitudinal dynamics of audio biomarkers for COVID-19 detection. The strong performance, yielding an AUC-ROC of 0.79, sensitivity of 0.75 and specificity of 0.70, supports the effectiveness of the approach compared to methods that do not leverage longitudinal dynamics. We further examine the predicted disease progression trajectory, which displays high consistency with the longitudinal test results with a correlation of 0.76 in the test cohort, and 0.86 in a subset of the test cohort with 12 participants who report disease recovery. Our findings suggest that monitoring COVID-19 progression via longitudinal audio data has enormous potential in the tracking of individuals' disease progression and recovery.
翻訳日:2022-01-05 14:38:17 公開日:2022-01-04
# (参考訳) deepfgs: 学習画像圧縮のための細粒度スケーラブルコーディング [全文訳有]

DeepFGS: Fine-Grained Scalable Coding for Learned Image Compression ( http://arxiv.org/abs/2201.01173v1 )

ライセンス: CC BY 4.0
Yi Ma, Yongqi Zhai and Ronggang Wang(参考訳) チャネル帯域幅のばらつきに適応できるスケーラブルコーディングは、今日の複雑なネットワーク環境ではうまく機能する。 しかし、既存のスケーラブル圧縮手法は圧縮性能の低下とスケーラビリティの不足という2つの課題に直面している。 本稿では,上記の2つの欠点を克服するために,初めて学習された微細粒度スケーラブル画像圧縮モデル(DeepFGS)を提案する。 具体的には,画像情報を基本かつスケーラブルな特徴に分割する機能分離バックボーンを導入し,情報再構成戦略を通じて特徴チャネルをチャネル毎に再分配する。 このようにして、ワンパスエンコーディングによって連続的にスケーラブルなビットストリームを生成することができる。 さらに,DeepFGSのパラメータと計算複雑性を低減するためにデコーダを再利用する。 実験により,私たちのDeepFGSはPSNRおよびMS-SSIMメトリクスにおいて,学習ベースでスケーラブルな画像圧縮モデルや従来型のスケーラブルな画像コーデックよりも優れていることが示された。 私たちの知る限りでは、私たちのDeepFGSは、学習した細粒度でスケーラブルなコーディングを初めて探求したものです。

Scalable coding, which can adapt to channel bandwidth variation, performs well in today's complex network environment. However, the existing scalable compression methods face two challenges: reduced compression performance and insufficient scalability. In this paper, we propose the first learned fine-grained scalable image compression model (DeepFGS) to overcome the above two shortcomings. Specifically, we introduce a feature separation backbone to divide the image information into basic and scalable features, then redistribute the features channel by channel through an information rearrangement strategy. In this way, we can generate a continuously scalable bitstream via one-pass encoding. In addition, we reuse the decoder to reduce the parameters and computational complexity of DeepFGS. Experiments demonstrate that our DeepFGS outperforms all learning-based scalable image compression models and conventional scalable image codecs in PSNR and MS-SSIM metrics. To the best of our knowledge, our DeepFGS is the first exploration of learned fine-grained scalable coding, which achieves the finest scalability compared with learning-based methods.
翻訳日:2022-01-05 14:35:07 公開日:2022-01-04
# PSNR指向手法の知覚品質に障害があるか?

What Hinders Perceptual Quality of PSNR-oriented Methods? ( http://arxiv.org/abs/2201.01034v1 )

ライセンス: Link先を確認
Tianshuo Xu, Peng Mi, Xiawu Zheng, Lijiang Li, Fei Chao, Guannan Jiang, Wei Zhang, Yiyi Zhou, Rongrong Ji(参考訳) 本稿では,POMの知覚品質向上を阻害する2つの要因について述べる。 1)センター指向最適化(COO)問題 2)モデルの低周波傾向。 まず、pomは、特徴空間における位置が全ての高分解能画像の分布中心に最も近いsr画像を生成する傾向にあり、その結果、高周波数詳細が失われる。 第2に、画像の90\%$領域は低周波信号から成り、対照的に人間の知覚は画像の高周波詳細に依存している。 しかし、POMは異なる周波数領域を処理するために同じ計算を適用するため、POMは低周波数領域を復元する傾向がある。 これらの2つの要因に基づいて,高周波数拡張モジュールと空間コントラスト学習モジュールを組み合わせたDetail Enhanced Contrastive Loss (DECLoss)を提案し,COO問題と低周波数傾向の影響を低減する。 実験結果は,複数の正規srモデルにdeclossを適用する場合の効率と有効性を示す。 例えば、EDSRでは、視覚的品質の微妙な劣化を伴うGAN法と比較して3.60$\times$高速学習を実現する。 さらに,本研究の最終結果は,DECOsを組み込んだSRネットワークが,最先端の手法に比べて現実的で視覚的なテクスチャを生成することを示す。 % 提案手法のソースコードは補足資料に含まれており,今後公開される予定である。

In this paper, we discover two factors that inhibit POMs from achieving high perceptual quality: 1) center-oriented optimization (COO) problem and 2) model's low-frequency tendency. First, POMs tend to generate an SR image whose position in the feature space is closest to the distribution center of all potential high-resolution (HR) images, resulting in such POMs losing high-frequency details. Second, $90\%$ area of an image consists of low-frequency signals; in contrast, human perception relies on an image's high-frequency details. However, POMs apply the same calculation to process different-frequency areas, so that POMs tend to restore the low-frequency regions. Based on these two factors, we propose a Detail Enhanced Contrastive Loss (DECLoss), by combining a high-frequency enhancement module and spatial contrastive learning module, to reduce the influence of the COO problem and low-Frequency tendency. Experimental results show the efficiency and effectiveness when applying DECLoss on several regular SR models. E.g, in EDSR, our proposed method achieves 3.60$\times$ faster learning speed compared to a GAN-based method with a subtle degradation in visual quality. In addition, our final results show that an SR network equipped with our DECLoss generates more realistic and visually pleasing textures compared to state-of-the-art methods. %The source code of the proposed method is included in the supplementary material and will be made publicly available in the future.
翻訳日:2022-01-05 14:19:25 公開日:2022-01-04
# 複数の事前学習課題を用いた音・視覚表現学習

Sound and Visual Representation Learning with Multiple Pretraining Tasks ( http://arxiv.org/abs/2201.01046v1 )

ライセンス: Link先を確認
Arun Balajee Vasudevan, Dengxin Dai, Luc Van Gool(参考訳) 異なる自己管理タスク(SSL)は、データと異なる特徴を明らかにします。 学習された特徴表現は、下流タスク毎に異なるパフォーマンスを示すことができる。 この点から見て、この作業は、ダウンストリームのすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としています。 具体的には,両耳音と画像データを分離して検討する。 両耳音については,空間アライメント,フォアグラウンドオブジェクトの時間同期,バイノーラル音声と時間ギャップ予測という3つのsslタスクを提案する。 我々は,マルチsslのいくつかのアプローチを調査し,ビデオ検索,空間音の超解像,omniaudioデータセットにおける意味予測における下流タスク性能について考察する。 両耳的音声表現実験により,sslタスクのインクリメンタルラーニング(il)によるマルチsslが,単一sslタスクモデルと完全教師付きモデルを上回ることを示した。 また、他のモダリティの適用性を確認するため、画像表現学習のためのマルチSSLモデルを定式化し、最近提案されたSSLタスクであるMoCov2とDenseCLを使用する。 ここでは、Multi-SSLはMoCov2、DenseCL、DetCoといった最近の手法を2.06%、VOC07分類では3.27%、そして1.19%、COCO検出では+2.83、+1.56、+1.61 APで上回っている。 コードは公開される予定だ。

Different self-supervised tasks (SSL) reveal different features from the data. The learned feature representations can exhibit different performance for each downstream task. In this light, this work aims to combine Multiple SSL tasks (Multi-SSL) that generalizes well for all downstream tasks. Specifically, for this study, we investigate binaural sounds and image data in isolation. For binaural sounds, we propose three SSL tasks namely, spatial alignment, temporal synchronization of foreground objects and binaural audio and temporal gap prediction. We investigate several approaches of Multi-SSL and give insights into the downstream task performance on video retrieval, spatial sound super resolution, and semantic prediction on the OmniAudio dataset. Our experiments on binaural sound representations demonstrate that Multi-SSL via incremental learning (IL) of SSL tasks outperforms single SSL task models and fully supervised models in the downstream task performance. As a check of applicability on other modality, we also formulate our Multi-SSL models for image representation learning and we use the recently proposed SSL tasks, MoCov2 and DenseCL. Here, Multi-SSL surpasses recent methods such as MoCov2, DenseCL and DetCo by 2.06%, 3.27% and 1.19% on VOC07 classification and +2.83, +1.56 and +1.61 AP on COCO detection. Code will be made publicly available.
翻訳日:2022-01-05 14:19:04 公開日:2022-01-04
# ニューラルネットワーク学習の実現不可能性

An unfeasability view of neural network learning ( http://arxiv.org/abs/2201.00945v1 )

ライセンス: Link先を確認
Joos Heintz, Hvara Ocar, Luis Miguel Pardo, Andres Rojas Paredes, Enrique Carlos Segura(参考訳) 多層ニューラルネットワークアーキテクチャのための連続的微分可能な完全学習アルゴリズムの概念を定義し、データセットの長さが関連するパラメータの数を超え、アクティベーション関数がロジスティック、tanh、sinである場合、そのようなアルゴリズムは存在しないことを示す。

We define the notion of a continuously differentiable perfect learning algorithm for multilayer neural network architectures and show that such algorithms don't exist provided that the length of the data set exceeds the number of involved parameters and the activation functions are logistic, tanh or sin.
翻訳日:2022-01-05 14:15:52 公開日:2022-01-04
# 機械学習とブロックチェーンの収束性に関する調査

Survey on the Convergence of Machine Learning and Blockchain ( http://arxiv.org/abs/2201.00976v1 )

ライセンス: Link先を確認
Shengwen Ding, Chenhui Hu(参考訳) 機械学習(ML)は近年広く研究されており、現実の多くの面で応用されている。 それでも、モデルとデータの問題はmlの開発に伴うものだ。 例えば、従来のMLモデルのトレーニングは、一般的にプロプライエタリなデータセットへのアクセスに限られている。発行されたMLモデルは、新しいデータや継続的トレーニングを更新することなく、すぐに時代遅れになる可能性がある。 新興かつ迅速に開発される技術であるブロックチェーンを利用することで、これらの問題を効率的に解決することができる。 本稿では、協調型MLとブロックチェーンの収束に関する調査を行う。 これら2つの技術の組み合わせ方法と応用分野について検討する。 また、現在の研究の限界と今後の方向性についても論じる。

Machine learning (ML) has been pervasively researched nowadays and it has been applied in many aspects of real life. Nevertheless, issues of model and data still accompany the development of ML. For instance, training of traditional ML models is limited to the access of data sets, which are generally proprietary; published ML models may soon be out of date without update of new data and continuous training; malicious data contributors may upload wrongly labeled data that leads to undesirable training results; and the abuse of private data and data leakage also exit. With the utilization of blockchain, an emerging and swiftly developing technology, these problems can be efficiently solved. In this paper, we conduct a survey of the convergence of collaborative ML and blockchain. We investigate different ways of combination of these two technologies, and their fields of application. We also discuss the limitations of current research and their future directions.
翻訳日:2022-01-05 14:15:46 公開日:2022-01-04
# cherry : グラフエンコーダ-デコーダモデルを用いたウイルス-ウイルス相互作用の高精度予測法

CHERRY: a Computational metHod for accuratE pRediction of virus-pRokarYotic interactions using a graph encoder-decoder model ( http://arxiv.org/abs/2201.01018v1 )

ライセンス: Link先を確認
Jiayu Shang and Yanni Sun(参考訳) 細菌や古細菌に感染するプロカリアティックウイルスは、微生物コミュニティにおいて重要な役割を担っている。 原核生物ウイルスの宿主を予測することは、微生物間の動的関係の解明に役立つ。 ホストの同定には実験的な方法があるが、それらは労働集約的であるか、宿主細胞の培養を必要とするため、計算ホスト予測の必要性が生じる。 有望な結果にもかかわらず、計算ホスト予測は、高スループットシーケンシング技術による既知の相互作用と配列されたファージの量が限られているため、依然として課題である。 最先端の手法は種レベルでは43%の精度しか達成できない。 本研究は,リンク予測としてホスト予測を定式化したCHERRYを知識グラフに提示する。 ウイルス-原核生物相互作用予測ツールとして、新たに発見されたウイルスおよび抗生物質耐性細菌に感染するウイルスの宿主を予測するためにチェリーを適用することができる。 両アプリケーションにおけるCHERRYの有用性を実証し,その性能を異なるシナリオにおける最先端手法と比較した。 我々の知る限り、CHERRYはウイルス-プロカロライト相互作用の同定において最も正確である。 種レベルでは既存の方法よりも37%の精度で優れています。 加えて、CHERRYのパフォーマンスは他のツールよりも短時間で安定している。

Prokaryotic viruses, which infect bacteria and archaea, are key players in microbial communities. Predicting the hosts of prokaryotic viruses helps decipher the dynamic relationship between microbes. Although there are experimental methods for host identification, they are either labor-intensive or require the cultivation of the host cells, creating a need for computational host prediction. Despite some promising results, computational host prediction remains a challenge because of the limited known interactions and the sheer amount of sequenced phages by high-throughput sequencing technologies. The state-of-the-art methods can only achieve 43% accuracy at the species level. This work presents CHERRY, a tool formulating host prediction as link prediction in a knowledge graph. As a virus-prokaryotic interaction prediction tool, CHERRY can be applied to predict hosts for newly discovered viruses and also the viruses infecting antibiotic-resistant bacteria. We demonstrated the utility of CHERRY for both applications and compared its performance with the state-of-the-art methods in different scenarios. To our best knowledge, CHERRY has the highest accuracy in identifying virus-prokaryote interactions. It outperforms all the existing methods at the species level with an accuracy increase of 37%. In addition, CHERRY's performance is more stable on short contigs than other tools.
翻訳日:2022-01-05 14:15:35 公開日:2022-01-04
# 手術室における医療処置による機械学習結果の信頼

Trusting Machine Learning Results from Medical Procedures in the Operating Room ( http://arxiv.org/abs/2201.01060v1 )

ライセンス: Link先を確認
Ali El-Merhi, Helena Odenstedt Herg\'es, Linda Block, Mikael Elam, Richard Vithal, Jaquette Liljencrantz, Miroslaw Staron(参考訳) 機械学習は、いくつかの目的で生理データを分析するのに使うことができる。 脳虚血の検出は、患者のケアに高い影響を与える成果である。 急性期脳卒中における頸動脈内膜切除術および血管内血栓摘出術において,非侵襲的モニターからの連続的生理データの収集がthoの異なる設定で脳虚血を検出できるかどうかを,機械学習を用いて検討した。 2つの異なるグループからの結果と,各グループから1人の患者を詳細に比較した。 CEA患者の結果は一貫しているが、血栓摘出患者の患者は、正確性1.0などの極端な値を含んでいない。 これは、手順の短い期間と、品質の悪いデータが多いことによる、小さなデータセットの結果である、ということが分かっています。 これらの結果は信頼できない。

Machine learning can be used to analyse physiological data for several purposes. Detection of cerebral ischemia is an achievement that would have high impact on patient care. We attempted to study if collection of continous physiological data from non-invasive monitors, and analysis with machine learning could detect cerebral ischemia in tho different setting, during surgery for carotid endarterectomy and during endovascular thrombectomy in acute stroke. We compare the results from the two different group and one patient from each group in details. While results from CEA-patients are consistent, those from thrombectomy patients are not and frequently contain extreme values such as 1.0 in accuracy. We conlcude that this is a result of short duration of the procedure and abundance of data with bad quality resulting in small data sets. These results can therefore not be trusted.
翻訳日:2022-01-05 14:15:16 公開日:2022-01-04
# 進化的マルチタスクAUC最適化

Evolutionary Multitasking AUC Optimization ( http://arxiv.org/abs/2201.01145v1 )

ライセンス: Link先を確認
Chao Wang, Kai Wu, Jing Liu(参考訳) 近年,不均衡データに対する受信動作特性曲線(AUC)に基づく領域最適化の学習が注目されている。 AUC最適化の方法はいくつかあるが、ペアの学習スタイルのため、AUC最適化のスケールアップはまだ未解決である。 大規模データセットにおけるAUCの最大化は、非凸かつ高価な問題とみなすことができる。 ペアワイズ学習の特徴に着想を得て,大規模データセットからサンプル化した小型データセットを用いた安価なAUC最適化タスクを構築し,AUCの原型で大規模で高価な最適化タスクのAUC精度を向上させる。 本稿では,構築した安価で高価なタスクの情報をフル活用して高い性能を得るための進化的マルチタスク・フレームワーク(EMTAUC)を開発する。 EMTAUCでは、サンプルデータセットからAUCを最適化するミッションと、元のデータセットからAUCを最大化するミッションがある。 さらに、知識の少ない安価なタスクにより、低コストタスクのデータ構造を動的に調整する戦略を提案し、マルチタスクauc最適化環境にさらなる知識を導入する。 提案手法の性能は, 一連のバイナリ分類データセットを用いて評価した。 実験の結果,emtaucは単一タスクメソッドやオンラインメソッドと高い競合性を示す。 EMTAUCの補助資料とソースコードの実装はhttps://github.com/x iaofangxd/EMTAUCでアクセスできる。

Learning to optimize the area under the receiver operating characteristics curve (AUC) performance for imbalanced data has attracted much attention in recent years. Although there have been several methods of AUC optimization, scaling up AUC optimization is still an open issue due to its pairwise learning style. Maximizing AUC in the large-scale dataset can be considered as a non-convex and expensive problem. Inspired by the characteristic of pairwise learning, the cheap AUC optimization task with a small-scale dataset sampled from the large-scale dataset is constructed to promote the AUC accuracy of the original, large-scale, and expensive AUC optimization task. This paper develops an evolutionary multitasking framework (termed EMTAUC) to make full use of information among the constructed cheap and expensive tasks to obtain higher performance. In EMTAUC, one mission is to optimize AUC from the sampled dataset, and the other is to maximize AUC from the original dataset. Moreover, due to the cheap task containing limited knowledge, a strategy for dynamically adjusting the data structure of inexpensive tasks is proposed to introduce more knowledge into the multitasking AUC optimization environment. The performance of the proposed method is evaluated on a series of binary classification datasets. The experimental results demonstrate that EMTAUC is highly competitive to single task methods and online methods. Supplementary materials and source code implementation of EMTAUC can be accessed at https://github.com/x iaofangxd/EMTAUC.
翻訳日:2022-01-05 14:15:04 公開日:2022-01-04
# (参考訳) 変圧器型シャムネットワークによる変化検出 [全文訳有]

A Transformer-Based Siamese Network for Change Detection ( http://arxiv.org/abs/2201.01293v1 )

ライセンス: CC BY 4.0
Wele Gedara Chaminda Bandara and Vishal M. Patel(参考訳) 本稿では,一対のリモートセンシング画像から変化検出のためのトランスフォーマーベースのSiameseネットワークアーキテクチャ(略してChangeFormer)を提案する。 完全畳み込みネットワーク(ConvNets)に基づく最近のCDフレームワークとは違って,提案手法は階層的に構造化されたトランスフォーマーエンコーダとマルチ層パーセプション(MLP)デコーダをシムズネットワークアーキテクチャで統合し,高精度CDに必要なマルチスケール長範囲詳細を効率的にレンダリングする。 2つのCDデータセットの実験は、提案されたエンドツーエンドのトレーニング可能なChangeFormerアーキテクチャが、以前のものよりも優れたCDパフォーマンスを実現することを示している。 私たちのコードはhttps://github.com/w gcban/changeformerで利用可能です。

This paper presents a transformer-based Siamese network architecture (abbreviated by ChangeFormer) for Change Detection (CD) from a pair of co-registered remote sensing images. Different from recent CD frameworks, which are based on fully convolutional networks (ConvNets), the proposed method unifies hierarchically structured transformer encoder with Multi-Layer Perception (MLP) decoder in a Siamese network architecture to efficiently render multi-scale long-range details required for accurate CD. Experiments on two CD datasets show that the proposed end-to-end trainable ChangeFormer architecture achieves better CD performance than previous counterparts. Our code is available at https://github.com/w gcban/ChangeFormer.
翻訳日:2022-01-05 14:14:12 公開日:2022-01-04
# 受容場にインスパイアされたロバストな視覚サンプリングモデル

A Robust Visual Sampling Model Inspired by Receptive Field ( http://arxiv.org/abs/2201.01030v1 )

ライセンス: Link先を確認
Liwen Hu, Lei Ma, Dawei Weng, Tiejun Huang(参考訳) 網膜窩を模したスパイクカメラは、発火スパイクによってピクセル当たりの輝度の蓄積を報告できる。 高時間分解能のバイオインスパイアされた視覚センサとして、コンピュータビジョンには大きな可能性を秘めている。 しかし、現在のスパイクカメラのサンプリングモデルは量子化やノイズの影響を受けやすく、オブジェクトのテクスチャの詳細を効果的に捉えることができない。 本研究では、受容場(RVSM)にインスパイアされた頑健な視覚サンプリングモデルを提案し、ガウスフィルタ(DoG)とガウスフィルタ(Gaussian filter)の違いによって生成されたウェーブレットフィルタを用いて受容場をシミュレートする。 逆ウェーブレット変換と同様の手法を用いて、RVSMからのスパイクデータを画像に変換することができる。 また,様々な動きシーンを含む高速モーションスパイクデータセット(HMD)を提案する。 HMDにおける再構成画像を比較することで、RVSMはスパイクカメラの情報収集能力を大幅に向上させることができる。 さらに,地域情報を収集するための受容場機構の模倣により,RVSMは高強度ノイズを効果的にフィルタリングすることができ,Spikeカメラがノイズに敏感であるという問題を改善することができる。 また、サンプリング構造の強い一般化により、RVSMは他のニューロモルフィック視覚センサにも適している。 上記の実験はスパイクカメラシミュレーターで完了する。

Spike camera mimicking the retina fovea can report per-pixel luminance intensity accumulation by firing spikes. As a bio-inspired vision sensor with high temporal resolution, it has a huge potential for computer vision. However, the sampling model in current Spike camera is so susceptible to quantization and noise that it cannot capture the texture details of objects effectively. In this work, a robust visual sampling model inspired by receptive field (RVSM) is proposed where wavelet filter generated by difference of Gaussian (DoG) and Gaussian filter are used to simulate receptive field. Using corresponding method similar to inverse wavelet transform, spike data from RVSM can be converted into images. To test the performance, we also propose a high-speed motion spike dataset (HMD) including a variety of motion scenes. By comparing reconstructed images in HMD, we find RVSM can improve the ability of capturing information of Spike camera greatly. More importantly, due to mimicking receptive field mechanism to collect regional information, RVSM can filter high intensity noise effectively and improves the problem that Spike camera is sensitive to noise largely. Besides, due to the strong generalization of sampling structure, RVSM is also suitable for other neuromorphic vision sensor. Above experiments are finished in a Spike camera simulator.
翻訳日:2022-01-05 14:05:48 公開日:2022-01-04
# 教師なしオープンワールドセグメンテーションに向けて

Towards Unsupervised Open World Semantic Segmentation ( http://arxiv.org/abs/2201.01073v1 )

ライセンス: Link先を確認
Svenja Uhlemeyer, Matthias Rottmann, Hanno Gottschalk(参考訳) 画像のセマンティックセグメンテーションのために、最先端のディープニューラルネットワーク(DNN)は、そのタスクが閉じたクラスのセットに制限されている場合、高いセグメンテーション精度を達成する。 しかし、現在、DNNは、未知のオブジェクトに属するピクセルを識別し、最終的に新しいクラスを漸進的に学習する、オープンな世界での運用能力に制限がある。 人間は言う能力を持っている:私はそれが何であるかわからないが、私はすでにそのようなものを見た。 したがって、このような漸進的な学習を教師なしの方法で行うことが望ましい。 視覚的類似性に基づいて未知のオブジェクトをクラスタ化する手法を提案する。 これらのクラスタは、新しいクラスを定義し、教師なしのインクリメンタル学習のトレーニングデータとして利用します。 より正確には、予測された意味セグメンテーションの連結成分をセグメンテーション品質推定により評価する。 予測品質の低い結合コンポーネントは、その後のクラスタリングの候補となる。 さらに、コンポーネント品質評価により、未知のオブジェクトを含む可能性のある画像領域の予測セグメンテーションマスクを得ることができる。 これらのマスクの各画素は疑似ラベル付けされ、その後、人間によって生成された根拠真理を使わずに、dnnの再訓練に使用される。 実験では、基礎的真理にアクセスせず、データも少ない場合でも、dnnのクラス空間を新しいクラスで拡張でき、かなりのセグメンテーション精度が得られることを実証した。

For the semantic segmentation of images, state-of-the-art deep neural networks (DNNs) achieve high segmentation accuracy if that task is restricted to a closed set of classes. However, as of now DNNs have limited ability to operate in an open world, where they are tasked to identify pixels belonging to unknown objects and eventually to learn novel classes, incrementally. Humans have the capability to say: I don't know what that is, but I've already seen something like that. Therefore, it is desirable to perform such an incremental learning task in an unsupervised fashion. We introduce a method where unknown objects are clustered based on visual similarity. Those clusters are utilized to define new classes and serve as training data for unsupervised incremental learning. More precisely, the connected components of a predicted semantic segmentation are assessed by a segmentation quality estimate. connected components with a low estimated prediction quality are candidates for a subsequent clustering. Additionally, the component-wise quality assessment allows for obtaining predicted segmentation masks for the image regions potentially containing unknown objects. The respective pixels of such masks are pseudo-labeled and afterwards used for re-training the DNN, i.e., without the use of ground truth generated by humans. In our experiments we demonstrate that, without access to ground truth and even with few data, a DNN's class space can be extended by a novel class, achieving considerable segmentation accuracy.
翻訳日:2022-01-05 14:05:24 公開日:2022-01-04
# 深層学習とデジタル画像処理による3次元地図上の建物外像の同定と標高情報抽出

Identifying the exterior image of buildings on a 3D map and extracting elevation information using deep learning and digital image processing ( http://arxiv.org/abs/2201.01081v1 )

ライセンス: Link先を確認
Donghwa Shon, Byeongjoon Noh and Nahyang Byun(参考訳) 韓国における建築管理情報は長年にわたって高品質な情報を提供してきたが、行政情報に焦点を当てた情報の実用性は高くない。 このような状況ではあるものの、高解像度の3次元マップが技術開発とともに出現している。 しかし、ビルの外見に焦点を絞った画像情報のみを含むため、視覚伝達よりは機能しない。 ビルの外装に関する情報を3dマップから抽出又は特定できるのであれば、国の建築管理情報がbim(building information modeling)のレベルにビル外装に関する情報を含めるように拡張できるため、その情報の有用性が高まることが期待される。 本研究では, 深層学習とデジタル画像処理を用いた3次元マッピングを目的とした, 建物外装の外観に関する情報抽出の基礎的手法を提示し, 評価することを目的とする。 地図から画像の抽出と前処理を行った後,Fast R-CNN(Regions with Convolutional Neuron Networks)モデルを用いて情報を同定した。 地図から画像抽出および前処理を行った後,より高速なr-cnnモデルを用いて情報を同定した。 その結果,建物の高さと窓部分の検出では,約93%,91%の精度を示し,建物の標高情報を抽出する実験では優れた性能を示した。 いずれにせよ,実験者の誤解による誤検出率やノイズデータとの混合確率を窓の曖昧な境界に関して補うことで,改良された結果が得られることが期待される。

Despite the fact that architectural administration information in Korea has been providing high-quality information for a long period of time, the level of utility of the information is not high because it focuses on administrative information. While this is the case, a three-dimensional (3D) map with higher resolution has emerged along with the technological development. However, it cannot function better than visual transmission, as it includes only image information focusing on the exterior of the building. If information related to the exterior of the building can be extracted or identified from a 3D map, it is expected that the utility of the information will be more valuable as the national architectural administration information can then potentially be extended to include such information regarding the building exteriors to the level of BIM(Building Information Modeling). This study aims to present and assess a basic method of extracting information related to the appearance of the exterior of a building for the purpose of 3D mapping using deep learning and digital image processing. After extracting and preprocessing images from the map, information was identified using the Fast R-CNN(Regions with Convolutional Neuron Networks) model. The information was identified using the Faster R-CNN model after extracting and preprocessing images from the map. As a result, it showed approximately 93% and 91% accuracy in terms of detecting the elevation and window parts of the building, respectively, as well as excellent performance in an experiment aimed at extracting the elevation information of the building. Nonetheless, it is expected that improved results will be obtained by supplementing the probability of mixing the false detection rate or noise data caused by the misunderstanding of experimenters in relation to the unclear boundaries of windows.
翻訳日:2022-01-05 14:05:02 公開日:2022-01-04
# 骨格に基づく歩行情報を用いた抑うつ検出のためのデータ拡張

Data Augmentation for Depression Detection Using Skeleton-Based Gait Information ( http://arxiv.org/abs/2201.01115v1 )

ライセンス: Link先を確認
Jingjing Yang and Haifeng Lu and Chengming Li and Xiping Hu and Bin Hu(参考訳) 近年、世界規模でうつ病の発生が急速に増加しているが、大規模なうつ病スクリーニングはいまだに困難である。 歩行分析は、非接触で低コストで効率的な早期スクリーニング法を提供する。 しかし,歩行分析に基づく抑うつの早期スクリーニングには十分な有効サンプルデータがない。 本稿では,うつ病のリスクを評価するための骨格データ拡張手法を提案する。 まず、骨格データを強化し、抑うつや感情データセットに適用する5つの手法を提案する。 そこで我々は,相互情報と分類精度に基づいて,拡張手法を2つのタイプ(非雑音増強と雑音増強)に分割する。 最後に,人間の骨格データの特徴をより効果的に捉えるための拡張戦略を検討する。 実験の結果,生の骨格データ特性を多く保持する強化トレーニングデータセットが検出モデルの性能を決定することがわかった。 具体的には、回転増強とチャネルマスク増強により、それぞれ92.15%と91.34%に達する。

In recent years, the incidence of depression is rising rapidly worldwide, but large-scale depression screening is still challenging. Gait analysis provides a non-contact, low-cost, and efficient early screening method for depression. However, the early screening of depression based on gait analysis lacks sufficient effective sample data. In this paper, we propose a skeleton data augmentation method for assessing the risk of depression. First, we propose five techniques to augment skeleton data and apply them to depression and emotion datasets. Then, we divide augmentation methods into two types (non-noise augmentation and noise augmentation) based on the mutual information and the classification accuracy. Finally, we explore which augmentation strategies can capture the characteristics of human skeleton data more effectively. Experimental results show that the augmented training data set that retains more of the raw skeleton data properties determines the performance of the detection model. Specifically, rotation augmentation and channel mask augmentation make the depression detection accuracy reach 92.15% and 91.34%, respectively.
翻訳日:2022-01-05 14:04:39 公開日:2022-01-04
# 1億の医用画像からの自己教師あり学習

Self-supervised Learning from 100 Million Medical Images ( http://arxiv.org/abs/2201.01283v1 )

ライセンス: Link先を確認
Florin C. Ghesu, Bogdan Georgescu, Awais Mansoor, Youngjin Yoo, Dominik Neumann, Pragneshkumar Patel, R.S. Vishwanath, James M. Balter, Yue Cao, Sasa Grbic, Dorin Comaniciu(参考訳) 医療画像評価のための正確で堅牢な人工知能システムの構築には、高度なディープラーニングモデルの研究と設計だけでなく、注釈付きトレーニング例の大規模かつキュレーションセットの作成が必要である。 しかし、このようなデータセットの構築は、しばしば非常にコストがかかる - アノテーションタスクの複雑な性質と、医療画像(例えば、専門家放射線科医)の解釈に必要な高度な専門知識のおかげで。 この制限に対応するために、コントラスト学習とオンライン特徴クラスタリングに基づくリッチ画像特徴の自己教師付き学習法を提案する。 この目的のために,X線撮影,CT,MRI,超音波などの様々なモードの医療画像10万枚を超える大規模なトレーニングデータセットを利用する。 本稿では,これらの特徴を,様々な下流タスクにおける教師付き・ハイブリッド型自己監督・教師付きシステムにおけるモデルトレーニングの指導に利用することを提案する。 画像診断, CT, MRにおける画像評価の課題に対して, この戦略の多くの利点を強調した。 1)最先端と比較しての精度の顕著な上昇(例:AUCによる胸部X線撮影による異常検出と脳CTでの出血検出の3-7%) 2)トレーニング中のモデル収束の促進は,事前トレーニングを行わない場合と比較して最大85%向上する(例,mrスキャンにおける脳転移検出モデルのトレーニング時83%)。 3)フィールドで見られるデータ変動の強度変化,回転,スケーリング反射などの画像強化に対するロバスト性の向上。

Building accurate and robust artificial intelligence systems for medical image assessment requires not only the research and design of advanced deep learning models but also the creation of large and curated sets of annotated training examples. Constructing such datasets, however, is often very costly -- due to the complex nature of annotation tasks and the high level of expertise required for the interpretation of medical images (e.g., expert radiologists). To counter this limitation, we propose a method for self-supervised learning of rich image features based on contrastive learning and online feature clustering. For this purpose we leverage large training datasets of over 100,000,000 medical images of various modalities, including radiography, computed tomography (CT), magnetic resonance (MR) imaging and ultrasonography. We propose to use these features to guide model training in supervised and hybrid self-supervised/supe rvised regime on various downstream tasks. We highlight a number of advantages of this strategy on challenging image assessment problems in radiography, CT and MR: 1) Significant increase in accuracy compared to the state-of-the-art (e.g., AUC boost of 3-7% for detection of abnormalities from chest radiography scans and hemorrhage detection on brain CT); 2) Acceleration of model convergence during training by up to 85% compared to using no pretraining (e.g., 83% when training a model for detection of brain metastases in MR scans); 3) Increase in robustness to various image augmentations, such as intensity variations, rotations or scaling reflective of data variation seen in the field.
翻訳日:2022-01-05 14:04:26 公開日:2022-01-04
# 教師なし再同定学習と咬合推定を用いたオンラインマルチオブジェクトトラッキング

Online Multi-Object Tracking with Unsupervised Re-Identification Learning and Occlusion Estimation ( http://arxiv.org/abs/2201.01297v1 )

ライセンス: Link先を確認
Qiankun Liu and Dongdong Chen and Qi Chu and Lu Yuan and Bin Liu and Lei Zhang and Nenghai Yu(参考訳) 異なるオブジェクト間のオクルージョンは、Multi-Object Tracking (MOT) において典型的な課題であり、検出されたオブジェクトの欠如による追跡結果の低下につながることが多い。 マルチオブジェクト追跡の一般的な実践は、再出現したオブジェクトを再識別することである。 追跡性能は再識別によって向上するが、モデルのトレーニングにはアイデンティティのアノテーションが必要である。 さらに、そのような再同定のプラクティスは、検出器に見逃されたときに、非常に隠蔽された物体を追跡することができない。 本稿では,オンラインのマルチオブジェクト追跡に着目し,教師なし再同定学習モジュールとオクルージョン推定モジュールという2つの新しいモジュールを設計した。 具体的には、教師なし再識別学習モジュールは、(疑似)識別情報を一切必要とせず、スケーラビリティの問題に悩まされることもない。 提案したオクルージョン推定モジュールは、オクルージョンが発生する場所を予測しようとするが、これは検出器によって見逃された物体の位置を推定するために用いられる。 本研究は,最先端mot法に適用した場合,提案する教師なし再同定学習は教師なし再識別学習と同等であり,提案する咬合推定モジュールにより追従性能がさらに向上することを示す。

Occlusion between different objects is a typical challenge in Multi-Object Tracking (MOT), which often leads to inferior tracking results due to the missing detected objects. The common practice in multi-object tracking is re-identifying the missed objects after their reappearance. Though tracking performance can be boosted by the re-identification, the annotation of identity is required to train the model. In addition, such practice of re-identification still can not track those highly occluded objects when they are missed by the detector. In this paper, we focus on online multi-object tracking and design two novel modules, the unsupervised re-identification learning module and the occlusion estimation module, to handle these problems. Specifically, the proposed unsupervised re-identification learning module does not require any (pseudo) identity information nor suffer from the scalability issue. The proposed occlusion estimation module tries to predict the locations where occlusions happen, which are used to estimate the positions of missed objects by the detector. Our study shows that, when applied to state-of-the-art MOT methods, the proposed unsupervised re-identification learning is comparable to supervised re-identification learning, and the tracking performance is further improved by the proposed occlusion estimation module.
翻訳日:2022-01-05 14:04:00 公開日:2022-01-04
# セメント:ロングテールラベルを用いた不完全多視点弱ラベル学習

CEMENT: Incomplete Multi-View Weak-Label Learning with Long Tail Labels ( http://arxiv.org/abs/2201.01079v1 )

ライセンス: Link先を確認
Zhiwei Li, Lu Sun(参考訳) 様々な現代的なアプリケーションがマルチビューのマルチラベル学習を示しており、各サンプルにはマルチビュー機能があり、複数のラベルは共通のビューで関連付けられている。 近年、それに対応し、大きな成功を収めるためにいくつかの方法が提案されているが、依然として2つの重要な問題を抱えている。 1) 不完全な多視点弱ラベルデータを扱う能力が欠如しており,各サンプルに特徴及びラベルのサブセットのみが提供される。 2) 現実問題に通常発生するノイズの多いビューやテールラベルの存在を無視する。 本稿では,その限界を克服するために,Cementという新しい手法を提案する。 1) セメントは不完全なビューと弱いラベルをそれぞれ異なる低次元部分空間に埋め込み、ヒルベルト・シュミット独立基準 (hsic) によってそれらを関連付ける。 例えば、CEMEMTは、ノイズの多いビューをキャプチャするための埋め込みの重みを適応的に学習し、テールラベルをモデル化するための余分なコンポーネントを探索し、低ランクをマルチラベル設定で利用できるようにする。 提案する最適化問題を解くための交互アルゴリズムを開発した。 7つの実世界のデータセットにおける実験結果は,提案手法の有効性を示している。

A variety of modern applications exhibit multi-view multi-label learning, where each sample has multi-view features, and multiple labels are correlated via common views. In recent years, several methods have been proposed to cope with it and achieve much success, but still suffer from two key problems: 1) lack the ability to deal with the incomplete multi-view weak-label data, in which only a subset of features and labels are provided for each sample; 2) ignore the presence of noisy views and tail labels usually occurring in real-world problems. In this paper, we propose a novel method, named CEMENT, to overcome the limitations. For 1), CEMENT jointly embeds incomplete views and weak labels into distinct low-dimensional subspaces, and then correlates them via Hilbert-Schmidt Independence Criterion (HSIC). For 2), CEMEMT adaptively learns the weights of embeddings to capture noisy views, and explores an additional sparse component to model tail labels, making the low-rankness available in the multi-label setting. We develop an alternating algorithm to solve the proposed optimization problem. Experimental results on seven real-world datasets demonstrate the effectiveness of the proposed method.
翻訳日:2022-01-05 14:01:44 公開日:2022-01-04
# オートバランス:不均衡データに対する最適損失関数

AutoBalance: Optimized Loss Functions for Imbalanced Data ( http://arxiv.org/abs/2201.01212v1 )

ライセンス: Link先を確認
Mingchen Li, Xuechen Zhang, Christos Thrampoulidis, Jiasi Chen, Samet Oymak(参考訳) 不均衡データセットは、現代の機械学習問題でよく見られる。 センシティブな属性を持つクラスやグループの存在は、一般化と公平性に関する懸念をもたらす。 このような懸念は、大容量のディープネットがトレーニングデータに完全に適合し、トレーニング中に完全な正確さと公平性を達成できるが、テスト中は不十分であるという事実によってさらに悪化する。 これらの課題に対処するために,トレーニング損失関数を自動設計し,精度と公正性を求める目的のブレンドを最適化する,双方向最適化フレームワークであるAutoBalanceを提案する。 具体的には、下位の問題はモデル重みを訓練し、上位の問題は検証データ上で所望の目標を監視し最適化することで損失関数をチューニングする。 損失設計はパラメトリッククロスエントロピー損失と個別化データ拡張スキームを用いてクラス/グループをパーソナライズした処理を可能にする。 不均衡な分類とグループ敏感な分類の応用シナリオに対するアプローチの利点と性能を評価する。 大規模な実証評価は、最先端アプローチに対するAutoBalanceのメリットを示している。 実験結果は,損失関数設計と列車評価分割の利点に関する理論的知見を補足した。 すべてのコードはオープンソースである。

Imbalanced datasets are commonplace in modern machine learning problems. The presence of under-represented classes or groups with sensitive attributes results in concerns about generalization and fairness. Such concerns are further exacerbated by the fact that large capacity deep nets can perfectly fit the training data and appear to achieve perfect accuracy and fairness during training, but perform poorly during test. To address these challenges, we propose AutoBalance, a bi-level optimization framework that automatically designs a training loss function to optimize a blend of accuracy and fairness-seeking objectives. Specifically, a lower-level problem trains the model weights, and an upper-level problem tunes the loss function by monitoring and optimizing the desired objective over the validation data. Our loss design enables personalized treatment for classes/groups by employing a parametric cross-entropy loss and individualized data augmentation schemes. We evaluate the benefits and performance of our approach for the application scenarios of imbalanced and group-sensitive classification. Extensive empirical evaluations demonstrate the benefits of AutoBalance over state-of-the-art approaches. Our experimental findings are complemented with theoretical insights on loss function design and the benefits of train-validation split. All code is available open-source.
翻訳日:2022-01-05 14:01:25 公開日:2022-01-04
# 限られたデータを用いた多相脾血管損傷の外部注意支援

External Attention Assisted Multi-Phase Splenic Vascular Injury Segmentation with Limited Data ( http://arxiv.org/abs/2201.00942v1 )

ライセンス: Link先を確認
Yuyin Zhou, David Dreizin, Yan Wang, Fengze Liu, Wei Shen, Alan L. Yuille(参考訳) 脾臓は鈍的腹部外傷の最も一般的な固形臓器の1つである。 脾血管損傷に対する多相ctによる自動分画システムの開発は, 臨床判断支援と予後予測を改善するために, 重症度評価を増強する。 しかし,脾血管損傷の正確な分節は以下の理由により困難である。 1)脾臓血管障害は,形状,テクスチャ,サイズ,全体的な外観において非常に変化しうる。 2) データ取得は複雑で費用のかかる手続きであり、データ科学者と放射線科医の双方の集中的な努力を必要とする。 これらの課題を踏まえて,我々は,特に限られたデータを用いて,多相脾血管損傷セグメンテーションのための新しい枠組みを設計する。 一方, 脾臓損傷の分節化を導くために, 外部注意と呼ばれる空間的注意として, 仮設脾臓マスクをマイニングするための外部データを活用することを提案する。 一方,我々は,異なる位相間の関係を十分に活用して内部データをポピュレーションするための生成的逆ネットワークを基盤とする合成相加重モジュールを開発した。 提案手法は, 学習中に外部の注意を集中させ, 内部データ表現を投入することにより, 他の競合手法を上回り, 一般的なdeeplab-v3+ベースラインを平均dscで7%以上向上させ, その効果を確認した。

The spleen is one of the most commonly injured solid organs in blunt abdominal trauma. The development of automatic segmentation systems from multi-phase CT for splenic vascular injury can augment severity grading for improving clinical decision support and outcome prediction. However, accurate segmentation of splenic vascular injury is challenging for the following reasons: 1) Splenic vascular injury can be highly variant in shape, texture, size, and overall appearance; and 2) Data acquisition is a complex and expensive procedure that requires intensive efforts from both data scientists and radiologists, which makes large-scale well-annotated datasets hard to acquire in general. In light of these challenges, we hereby design a novel framework for multi-phase splenic vascular injury segmentation, especially with limited data. On the one hand, we propose to leverage external data to mine pseudo splenic masks as the spatial attention, dubbed external attention, for guiding the segmentation of splenic vascular injury. On the other hand, we develop a synthetic phase augmentation module, which builds upon generative adversarial networks, for populating the internal data by fully leveraging the relation between different phases. By jointly enforcing external attention and populating internal data representation during training, our proposed method outperforms other competing methods and substantially improves the popular DeepLab-v3+ baseline by more than 7% in terms of average DSC, which confirms its effectiveness.
翻訳日:2022-01-05 14:00:45 公開日:2022-01-04
# HWRCNet: CNN-BiLSTMネットワークを用いたJPEG圧縮領域における手書き単語認識

HWRCNet: Handwritten Word Recognition in JPEG Compressed Domain using CNN-BiLSTM Network ( http://arxiv.org/abs/2201.00947v1 )

ライセンス: Link先を確認
Mudit Goyal, Abhishek Kumar Gupta, Shiv Kumar, Karan Chatwani, Shiv Ram Dubey, Satish Kumar Singh(参考訳) 深層学習を用いた画像からの手書き単語認識は,有望な性能を持つ活発な研究領域である。 実際のシナリオでは、セキュリティ上の理由から、圧縮されたドメインで手書きの画像を処理する必要があるかもしれない。 しかし, 圧縮画像の処理において, ディープラーニングの利用は依然として極めて限られている。 近年のディープラーニングを用いた圧縮領域における文書画像処理の必要性から,JPEG圧縮領域における手書き単語認識のためのHWRCNetモデルを提案する。 提案モデルは、畳み込みニューラルネットワーク(CNN)とBiLSTM(Bi-Directiona l Long Term Memory)をベースとしたリカレントニューラルネットワーク(RNN)を組み合わせたものである。 基本的に、圧縮されたドメイン画像を用いてモデルを訓練し、89.05%の単語認識精度と13.37%の文字誤り率で非常に魅力的な性能を示す。

The handwritten word recognition from images using deep learning is an active research area with promising performance. It practical scenario, it might be required to process the handwritten images in the compressed domain due to due to security reasons. However, the utilization of deep learning is still very limited for the processing of compressed images. Motivated by the need of processing document images in the compressed domain using recent developments in deep learning, we propose a HWRCNet model for handwritten word recognition in JPEG compressed domain. The proposed model combines the Convolutional Neural Network (CNN) and Bi-Directional Long Short Term Memory (BiLSTM) based Recurrent Neural Network (RNN). Basically, we train the model using compressed domain images and observe a very appealing performance with 89.05% word recognition accuracy and 13.37% character error rate.
翻訳日:2022-01-05 14:00:24 公開日:2022-01-04
# (参考訳) 逆検出における画像変換の効果の理解と活用に向けて [全文訳有]

Towards Understanding and Harnessing the Effect of Image Transformation in Adversarial Detection ( http://arxiv.org/abs/2201.01080v1 )

ライセンス: CC BY 4.0
Hui Liu, Bo Zhao, Yuefeng Peng, Weidong Li, Peng Liu(参考訳) ディープニューラルネットワーク(DNN)は、敵の例から脅威を受けている。 逆方向検出は、良質な画像と逆方向の画像を区別する堅牢なDNNベースのサービスにおいて、基本的な作業である。 画像変換は、敵の例を検出する最も効果的な手法の1つである。 過去数年間、様々な画像変換が研究され、信頼できる逆検出器を設計するために議論されてきた。 本稿では,新しい分類法を用いた画像変換による敵検出の最近の進歩を体系的にレビューする。 そこで我々は,現状の敵攻撃に対する画像変換の検出性能をテストするために,広範囲な実験を行った。 さらに,単一変換では頑健な対向例を検出できないことを明らかにし,複数の画像変換を組み合わせた改良手法を提案する。 その結果,ジョイントアプローチは検出精度とリコールの大幅な向上を実現した。 共同検出装置は, 逆例検出に有効なツールであることが示唆された。

Deep neural networks (DNNs) are under threat from adversarial examples. Adversarial detection is a fundamental work for robust DNNs-based service, which distinguishes adversarial images from benign images. Image transformation is one of the most effective approaches to detect adversarial examples. During the last few years, a variety of image transformations have been studied and discussed to design reliable adversarial detectors. In this paper, we systematically review the recent progress on adversarial detection via image transformations with a novel taxonomy. Then we conduct an extensive set of experiments to test the detection performance of image transformations towards the state-of-the-art adversarial attacks. Furthermore, we reveal that the single transformation is not capable of detecting robust adversarial examples, and propose an improved approach by combining multiple image transformations. The results show that the joint approach achieves significant improvement in detection accuracy and recall. We suggest that the joint detector is a more effective tool to detect adversarial examples.
翻訳日:2022-01-05 13:58:33 公開日:2022-01-04
# 個人情報保護のためのセマンティックス保存歪み

Semantics-Preserved Distortion for Personal Privacy Protection ( http://arxiv.org/abs/2201.00965v1 )

ライセンス: Link先を確認
Letian Peng, Zuchao Li and Hai Zhao(参考訳) プライバシー保護は、連合学習、特に自然言語処理において重要かつ関連するトピックである。 クライアントデバイスでは、ユーザによって毎日、個人情報を含む大量のテキストが生成される。 ユーザからの情報の直接的適用は個人のプライバシーを侵害する可能性が高いため、フェデレーション学習において、クライアント装置の生情報からセンタモデルをブロックする多くの方法が提案されている。 本稿では,意味を保ちながらテキストを歪ませることで,より言語的にこれを行おうとする。 実際に,最近提案された手法であるNighboring Distribution Divergenceを用いて,歪み時の意味的保存を評価する。 このメトリックに基づいて,セマンティクス保存歪の2つのフレームワーク,生成型と置換型を提案する。 現在の自然言語処理分野におけるプライバシー関連タスクの欠如により、名前付きエンティティ認識と選挙区解析の実験を行っている。 以上の結果から,個人のプライバシー保護手法としての歪みの妥当性と効率性が示された。

Privacy protection is an important and concerning topic in Federated Learning, especially for Natural Language Processing. In client devices, a large number of texts containing personal information are produced by users every day. As the direct application of information from users is likely to invade personal privacy, many methods have been proposed in Federated Learning to block the center model from the raw information in client devices. In this paper, we try to do this more linguistically via distorting the text while preserving the semantics. In practice, we leverage a recently proposed metric, Neighboring Distribution Divergence, to evaluate the semantic preservation during the distortion. Based on the metric, we propose two frameworks for semantics-preserved distortion, a generative one and a substitutive one. Due to the lack of privacy-related tasks in the current Natural Language Processing field, we conduct experiments on named entity recognition and constituency parsing. Results from our experiments show the plausibility and efficiency of our distortion as a method for personal privacy protection.
翻訳日:2022-01-05 13:48:50 公開日:2022-01-04
# dignet: アスペクトレベルの感情分類のためのローカル-グローバルインタラクティブグラフからヒントを掘り出す

DigNet: Digging Clues from Local-Global Interactive Graph for Aspect-level Sentiment Classification ( http://arxiv.org/abs/2201.00989v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor Tsang(参考訳) アスペクトレベルの感情分類(ASC)では、最先端のモデルが構文グラフまたは関係グラフをエンコードし、局所構文情報またはグローバルリレーショナル情報をキャプチャする。 構文と関係グラフの利点にもかかわらず、それらの不足は無視され、グラフモデリングプロセスにおける表現力を制限する。 それらの限界を解決するため,我々は,インタラクティブエッジを用いて2つのグラフを縫い合わせることで,その利点を享受する新しい局所的グローバルインタラクティブグラフを設計した。 グラフ内メッセージパッシングとクロスグラフメッセージパッシングの2つのプロセスを実行するlgi(stacked local-global interactive)レイヤをコアモジュールとする,新たなニューラルネットワークであるdigenetを提案する。 このように、局所的な構文とグローバルな関係情報は、アスペクトレベルの感情を理解する上で、全体として和解することができる。 具体的には、異なる種類の対話エッジと3種類のLGI層を持つローカル・グローバル・インタラクティブグラフの2つの変種を設計する。 その結果,Lap14,Res14,Res15データセット上でのマクロF1,Res14,Res15の3倍,2.32倍,6.33倍の速度で過去のベストスコアを上回り,提案したローカル・グローバル・インタラクティブグラフとDigNetの有効性と優位性を確認した。

In aspect-level sentiment classification (ASC), state-of-the-art models encode either syntax graph or relation graph to capture the local syntactic information or global relational information. Despite the advantages of syntax and relation graphs, they have respective shortages which are neglected, limiting the representation power in the graph modeling process. To resolve their limitations, we design a novel local-global interactive graph, which marries their advantages by stitching the two graphs via interactive edges. To model this local-global interactive graph, we propose a novel neural network termed DigNet, whose core module is the stacked local-global interactive (LGI) layers performing two processes: intra-graph message passing and cross-graph message passing. In this way, the local syntactic and global relational information can be reconciled as a whole in understanding the aspect-level sentiment. Concretely, we design two variants of local-global interactive graphs with different kinds of interactive edges and three variants of LGI layers. We conduct experiments on several public benchmark datasets and the results show that we outperform previous best scores by 3\%, 2.32\%, and 6.33\% in terms of Macro-F1 on Lap14, Res14, and Res15 datasets, respectively, confirming the effectiveness and superiority of the proposed local-global interactive graph and DigNet.
翻訳日:2022-01-05 13:48:34 公開日:2022-01-04
# テキストゲームにおける戦略探索のための多段階エピソード制御

Multi-Stage Episodic Control for Strategic Exploration in Text Games ( http://arxiv.org/abs/2201.01251v1 )

ライセンス: Link先を確認
Jens Tuyls, Shunyu Yao, Sham Kakade, Karthik Narasimhan(参考訳) テキストアドベンチャーゲームは、組み合わさった大きなアクション空間とスパース報酬により、強化学習手法に固有の課題を示す。 これらの2つの要因の相互作用は、大きなアクションスペースは広範囲な探索を必要とするが、スパース報酬は限られたフィードバックを提供するため、特に要求されている。 本研究は,各エピソードでこれら2つの戦略を明確に分断する多段階アプローチを用いて,explore-vs-exploitジレンマに取り組むことを提案する。 eXploit-Then-eXplore (XTX)と呼ばれる我々のアルゴリズムは、過去の有望な軌道を模倣したエクスプロイトポリシーを使用して各エピソードを起動し、未知の状態空間につながる新しい行動を発見することを目的とした探索ポリシーに切り替える。 このポリシーの分解によって、ゲームスペースのどの部分に戻るべきかのグローバルな決定と、その領域における好奇心に基づく局所的な探索を組み合わせることができます。 本手法は,Jerichoベンチマーク(Hausknecht et al., 2020)の判定および確率的設定において,12ゲームの平均正規化スコアを27%,11%,それぞれ27%で上回った。 特にZolk1のゲームでは、XTXは従来の方法よりも2倍以上改善された103のスコアを取得し、過去の最先端の手法に悩まされてきたゲームにおけるいくつかの既知のボトルネックを突破する。

Text adventure games present unique challenges to reinforcement learning methods due to their combinatorially large action spaces and sparse rewards. The interplay of these two factors is particularly demanding because large action spaces require extensive exploration, while sparse rewards provide limited feedback. This work proposes to tackle the explore-vs-exploit dilemma using a multi-stage approach that explicitly disentangles these two strategies within each episode. Our algorithm, called eXploit-Then-eXplore (XTX), begins each episode using an exploitation policy that imitates a set of promising trajectories from the past, and then switches over to an exploration policy aimed at discovering novel actions that lead to unseen state spaces. This policy decomposition allows us to combine global decisions about which parts of the game space to return to with curiosity-based local exploration in that space, motivated by how a human may approach these games. Our method significantly outperforms prior approaches by 27% and 11% average normalized score over 12 games from the Jericho benchmark (Hausknecht et al., 2020) in both deterministic and stochastic settings, respectively. On the game of Zork1, in particular, XTX obtains a score of 103, more than a 2x improvement over prior methods, and pushes past several known bottlenecks in the game that have plagued previous state-of-the-art methods.
翻訳日:2022-01-05 13:48:07 公開日:2022-01-04
# pyramidtnt: ピラミッドアーキテクチャによるtransform-in-transfo rmerベースラインの改善

PyramidTNT: Improved Transformer-in-Trans former Baselines with Pyramid Architecture ( http://arxiv.org/abs/2201.00978v1 )

ライセンス: Link先を確認
Kai Han, Jianyuan Guo, Yehui Tang, Yunhe Wang(参考訳) トランスフォーマーネットワークはコンピュータビジョンタスクにおいて大きな進歩を遂げた。 Transformer-in-Trans former (TNT) アーキテクチャは、内変圧器と外変圧器を用いて局所的および大域的表現を抽出する。 本稿では,2つの高度な設計を導入することで,新しいTNTベースラインを提案する。 1)ピラミッド建築、及び 2) コンボリューションステム。 新しい"PyramidTNT"は階層的表現を確立することで、元のTNTを大幅に改善する。 PyramidTNTは、Swin Transformerのような従来の最先端のビジョントランスよりも優れたパフォーマンスを実現している。 この新たなベースラインが、視覚変換器のさらなる研究と応用に役立つことを願っている。 コードはhttps://github.com/h uawei-noah/CV-Backbo nes/tree/master/tnt_ pytorchで入手できる。

Transformer networks have achieved great progress for computer vision tasks. Transformer-in-Trans former (TNT) architecture utilizes inner transformer and outer transformer to extract both local and global representations. In this work, we present new TNT baselines by introducing two advanced designs: 1) pyramid architecture, and 2) convolutional stem. The new "PyramidTNT" significantly improves the original TNT by establishing hierarchical representations. PyramidTNT achieves better performances than the previous state-of-the-art vision transformers such as Swin Transformer. We hope this new baseline will be helpful to the further research and application of vision transformer. Code will be available at https://github.com/h uawei-noah/CV-Backbo nes/tree/master/tnt_ pytorch.
翻訳日:2022-01-05 13:47:01 公開日:2022-01-04
# 暗黙的機能学習による多視点画像からの詳細な顔形状復元

Detailed Facial Geometry Recovery from Multi-view Images by Learning an Implicit Function ( http://arxiv.org/abs/2201.01016v1 )

ライセンス: Link先を確認
Yunze Xiao, Hao Zhu, Haotian Yang, Zhengyu Diao, Xiangju Lu, Xun Cao(参考訳) マルチビュー画像の校正セットから詳細な顔形状を復元することは、その幅広い応用に有用である。 従来のマルチビューステレオ(mvs)法は、マッチングコストを正則化する最適化手法を採用している。 近年、学習に基づく手法がこれらすべてをエンドツーエンドニューラルネットワークに統合し、効率性が向上している。 本稿では,約10秒で極めて詳細な3次元顔の復元を行う新しいアーキテクチャを提案する。 従来の学習に基づく3D CNNによるコストの正規化手法とは異なり,マッチングコストを抑える暗黙の関数を学習することを提案する。 マルチビュー画像から3次元形状モデルを適用することにより、メッシュ付きUV空間において複数の画像の特徴を抽出・集約し、より詳細な顔形状の復元に有効な暗黙的機能を実現する。 提案手法は,FaceScapeデータセットにおいて,SOTA学習に基づくMVSよりも精度が高い。 コードとデータはまもなくリリースされる。

Recovering detailed facial geometry from a set of calibrated multi-view images is valuable for its wide range of applications. Traditional multi-view stereo (MVS) methods adopt optimization methods to regularize the matching cost. Recently, learning-based methods integrate all these into an end-to-end neural network and show superiority of efficiency. In this paper, we propose a novel architecture to recover extremely detailed 3D faces in roughly 10 seconds. Unlike previous learning-based methods that regularize the cost volume via 3D CNN, we propose to learn an implicit function for regressing the matching cost. By fitting a 3D morphable model from multi-view images, the features of multiple images are extracted and aggregated in the mesh-attached UV space, which makes the implicit function more effective in recovering detailed facial shape. Our method outperforms SOTA learning-based MVS in accuracy by a large margin on the FaceScape dataset. The code and data will be released soon.
翻訳日:2022-01-05 13:46:50 公開日:2022-01-04
# (参考訳) パリティベース累積フェアネスアウェアブースティング

Parity-based Cumulative Fairness-aware Boosting ( http://arxiv.org/abs/2201.01148v1 )

ライセンス: CC BY 4.0
Vasileios Iosifidis, Arjun Roy, Eirini Ntoutsi(参考訳) データ駆動型AIシステムは、性別や人種といった保護された属性に基づいた差別につながる可能性がある。 この行動の1つの理由は、訓練データ(例えば、女性が不足している)の符号化された社会的バイアスであり、これは不均衡なクラス分布(例えば、グラインドは少数派である)の存在によって増大する。 state-of-the-art fairness-aware machine learning のアプローチは、公平性を改善しながら \emph{overall} の分類精度を維持することに焦点を当てている。 クラス不均衡が存在する場合、そのような方法は、既に過小評価されているグループ(例えば、 \textit{females})が平等な社会的特権(例えば、等信用機会)の基本的権利を否定することによって、差別の問題をさらに悪化させることができる。 そこで本研究では,各ラウンドにおけるデータ分布を変化させるフェアネスを意識したブースティングアンサンブルであるAdaFairを提案し,クラスエラーだけでなく,部分アンサンブルに基づいて累積的に定義されたモデルのフェアネス関連性能も考慮する。 各ラウンドにわたって識別されたグループのトレーニング内ブースティングを除き、adafairはバランスドエラーパフォーマンス(ber)のためにアンサンブル学習者の数を最適化することにより、トレーニング後のフェーズで直接不均衡に取り組む。 AdaFairはパリティに基づくフェアネスの概念を多用し、効果的に差別的な結果を緩和することができる。 提案手法は,全てのクラスにおいて良好な予測性能を維持しつつ,統計的に同等な機会,不公平な扱いを両立できることを示す。

Data-driven AI systems can lead to discrimination on the basis of protected attributes like gender or race. One reason for this behavior is the encoded societal biases in the training data (e.g., females are underrepresented), which is aggravated in the presence of unbalanced class distributions (e.g., "granted" is the minority class). State-of-the-art fairness-aware machine learning approaches focus on preserving the \emph{overall} classification accuracy while improving fairness. In the presence of class-imbalance, such methods may further aggravate the problem of discrimination by denying an already underrepresented group (e.g., \textit{females}) the fundamental rights of equal social privileges (e.g., equal credit opportunity). To this end, we propose AdaFair, a fairness-aware boosting ensemble that changes the data distribution at each round, taking into account not only the class errors but also the fairness-related performance of the model defined cumulatively based on the partial ensemble. Except for the in-training boosting of the group discriminated over each round, AdaFair directly tackles imbalance during the post-training phase by optimizing the number of ensemble learners for balanced error performance (BER). AdaFair can facilitate different parity-based fairness notions and mitigate effectively discriminatory outcomes. Our experiments show that our approach can achieve parity in terms of statistical parity, equal opportunity, and disparate mistreatment while maintaining good predictive performance for all classes.
翻訳日:2022-01-05 13:45:25 公開日:2022-01-04
# pssmと単語埋め込みを用いたインフルエンザaウイルス宿主の予測

Predicting Influenza A Viral Host Using PSSM and Word Embeddings ( http://arxiv.org/abs/2201.01140v1 )

ライセンス: Link先を確認
Yanhua Xu, Dominik Wojtczak(参考訳) インフルエンザウイルスの急速な変異は公衆の健康を脅かす。 異なる宿主を持つウイルスの再配列は致命的なパンデミックを引き起こす可能性がある。 しかし、インフルエンザウイルスが異なる種間を循環できるため、感染の間または感染後のウイルスの原宿主を検出することは困難である。 したがって、ウイルス宿主の早期かつ迅速な検出は、ウイルスのさらなる拡散を減少させるのに役立つ。 我々は,位置特異的スコアリングマトリクス(pssm)に由来する特徴を持つ様々な機械学習モデルを用いて,ウイルスの起源を推定するために,単語埋め込みと単語エンコーディングから学習した特徴について述べる。 その結果,PSSMモデルの性能は95%程度に達し,F1は約96%であった。 単語埋め込みモデルを用いて得られたMCCは約96%であり、F1は約97%である。

The rapid mutation of the influenza virus threatens public health. Reassortment among viruses with different hosts can lead to a fatal pandemic. However, it is difficult to detect the original host of the virus during or after an outbreak as influenza viruses can circulate between different species. Therefore, early and rapid detection of the viral host would help reduce the further spread of the virus. We use various machine learning models with features derived from the position-specific scoring matrix (PSSM) and features learned from word embedding and word encoding to infer the origin host of viruses. The results show that the performance of the PSSM-based model reaches the MCC around 95%, and the F1 around 96%. The MCC obtained using the model with word embedding is around 96%, and the F1 is around 97%.
翻訳日:2022-01-05 13:42:54 公開日:2022-01-04
# mdfend: 多ドメインフェイクニュース検出

MDFEND: Multi-domain Fake News Detection ( http://arxiv.org/abs/2201.00987v1 )

ライセンス: Link先を確認
Qiong Nan, Juan Cao, Yongchun Zhu, Yanyan Wang, Jintao Li(参考訳) フェイクニュースは様々なドメインのソーシャルメディアに広まり、政治、災害、金融など多くの面で現実世界の脅威に繋がった。 既存のほとんどのアプローチは、単一ドメイン偽ニュース検出(SFND)に焦点を当てており、これらの手法がマルチドメイン偽ニュース検出に適用された場合、不満足なパフォーマンスをもたらす。 新興分野として、マルチドメイン偽ニュース検知(MFND)が注目されている。 しかし、単語頻度や伝播パターンといったデータ分布はドメインごとに異なり、ドメインシフトと呼ばれる。 深刻なドメインシフトの課題に直面した既存のフェイクニュース検出技術は、マルチドメインシナリオでは性能が悪い。 そのため、MFNDの専門モデルの設計が求められている。 本稿では,9つのドメインから4,488個の偽ニュースと4,640個の実ニュースからなるドメインラベル付きMFND用偽ニュースデータセットのベンチマークを最初に設計する。 さらに、ドメインゲートを利用して複数の専門家が抽出した複数の表現を集約し、効果的なマルチドメインフェイクニュース検出モデル(MDFEND)を提案する。 実験の結果、mdfendはマルチドメインフェイクニュース検出の性能を大幅に向上できることがわかった。 データセットとコードはhttps://github.com/k ennqiang/MDFEND-Weib o21.comから入手可能です。

Fake news spread widely on social media in various domains, which lead to real-world threats in many aspects like politics, disasters, and finance. Most existing approaches focus on single-domain fake news detection (SFND), which leads to unsatisfying performance when these methods are applied to multi-domain fake news detection. As an emerging field, multi-domain fake news detection (MFND) is increasingly attracting attention. However, data distributions, such as word frequency and propagation patterns, vary from domain to domain, namely domain shift. Facing the challenge of serious domain shift, existing fake news detection techniques perform poorly for multi-domain scenarios. Therefore, it is demanding to design a specialized model for MFND. In this paper, we first design a benchmark of fake news dataset for MFND with domain label annotated, namely Weibo21, which consists of 4,488 fake news and 4,640 real news from 9 different domains. We further propose an effective Multi-domain Fake News Detection Model (MDFEND) by utilizing a domain gate to aggregate multiple representations extracted by a mixture of experts. The experiments show that MDFEND can significantly improve the performance of multi-domain fake news detection. Our dataset and code are available at https://github.com/k ennqiang/MDFEND-Weib o21.
翻訳日:2022-01-05 13:42:42 公開日:2022-01-04
# Speech-to-SQL: 自然言語質問から音声駆動型SQLクエリ生成を目指す

Speech-to-SQL: Towards Speech-driven SQL Query Generation From Natural Language Question ( http://arxiv.org/abs/2201.01209v1 )

ライセンス: Link先を確認
Yuanfeng Song, Raymond Chi-Wing Wong, Xuefang Zhao, Di Jiang(参考訳) 音声による入力は、人間とコンピュータの対話において最も簡単かつ効率的な方法であるため、私たちの日常生活におけるスマートフォンやタブレットの普及に伴い、大きな勢いを増している。 本稿では,関係データベースの構造化データを検索するための,より効率的な音声インタフェースの設計について検討する。 まず、人間の発話によって伝達される情報を理解し、それを構造化クエリ言語(sql)文に直接翻訳することを目的とした、 speech-to-sqlという新しいタスクを特定した。 この問題に対するナイーブな解決策は、逐次的な方法、すなわち自動音声認識(asr)コンポーネントとテキストからsqlコンポーネントで動作します。 しかし、高品質なASRシステムが必要であり、2つのコンポーネント間のエラー複合問題に悩まされ、性能が制限される。 これらの課題に対処するために,我々はさらに,人間の発話を外部asrステップを使わずにsqlクエリに直接翻訳する, speechsqlnet という新しいエンドツーエンドのニューラルネットワークアーキテクチャを提案する。 speechsqlnetは、スピーチで提示される豊かな言語情報をフル活用する利点がある。 私たちの知る限りでは、これはSQLの自然言語ベースのバージョンや限定的なSQL文法による変種ではなく、任意の自然言語質問に基づいてSQLを直接合成する最初の試みです。 提案した問題とモデルの有効性を検証するため,広く使用されているテキストからSQLへのデータセットをピギーバックすることで,SpeechQLというデータセットをさらに構築する。 このデータセットの大規模な実験的評価により、SpeechSQLNetは人間の音声から直接高品質なSQLクエリを合成でき、正確な一致精度の点で、様々な競合相手とカスケードされた手法を上回ります。

Speech-based inputs have been gaining significant momentum with the popularity of smartphones and tablets in our daily lives, since voice is the most easiest and efficient way for human-computer interaction. This paper works towards designing more effective speech-based interfaces to query the structured data in relational databases. We first identify a new task named Speech-to-SQL, which aims to understand the information conveyed by human speech and directly translate it into structured query language (SQL) statements. A naive solution to this problem can work in a cascaded manner, that is, an automatic speech recognition (ASR) component followed by a text-to-SQL component. However, it requires a high-quality ASR system and also suffers from the error compounding problem between the two components, resulting in limited performance. To handle these challenges, we further propose a novel end-to-end neural architecture named SpeechSQLNet to directly translate human speech into SQL queries without an external ASR step. SpeechSQLNet has the advantage of making full use of the rich linguistic information presented in speech. To the best of our knowledge, this is the first attempt to directly synthesize SQL based on arbitrary natural language questions, rather than a natural language-based version of SQL or its variants with a limited SQL grammar. To validate the effectiveness of the proposed problem and model, we further construct a dataset named SpeechQL, by piggybacking the widely-used text-to-SQL datasets. Extensive experimental evaluations on this dataset show that SpeechSQLNet can directly synthesize high-quality SQL queries from human speech, outperforming various competitive counterparts as well as the cascaded methods in terms of exact match accuracies.
翻訳日:2022-01-05 13:42:20 公開日:2022-01-04
# McXai: ローカルモデルに依存しない2つのゲーム

McXai: Local model-agnostic explanation as two games ( http://arxiv.org/abs/2201.01044v1 )

ライセンス: Link先を確認
Yiran Huang, Nicole Schaal, Michael Hefenbrock, Yexu Zhou, Till Riedel, Likun Fang, Michael Beigl(参考訳) 今日まで、ブラックボックス機械学習モデルのローカル解釈可能性を提供する様々なアプローチが導入されてきた。 これらのメソッドは、自分自身を理解するのが難しいか、機能ごとの作業を行い、機能間の依存関係を無視しているか、あるいはモデルによってなされた決定を主張する機能のみに焦点を当てているかのどちらかです。 これらの点に対処するため、この研究はモンテカルロ木探索と呼ばれる強化学習に基づくeXplainable Artificial Intelligent (McXai)のアプローチを導入し、ブラックボックス分類モデル(分類器)の決定を説明する。 本手法はモンテカルロ木探索を活用し,説明生成過程を2ゲームとしてモデル化する。 あるゲームでは、報酬は分類器の決定を支持する特徴セットを見つけることで最大化され、第二ゲームでは、代替決定につながる特徴セットを見つけることが報酬を最大化する。 その結果、木構造としての人間に親しみやすい表現となり、各ノードは、木の上部でより小さな説明で研究すべき特徴の集合を表す。 実験の結果, LIME や SHAP などの古典的手法に比べて,本手法の特徴は分類に関してより有益であることがわかった。 さらに,誤解を招く特徴を識別することで,ブラックボックスモデルのロバスト性向上を多くの場面で導くことができる。

To this day, a variety of approaches for providing local interpretability of black-box machine learning models have been introduced. Unfortunately, all of these methods suffer from one or more of the following deficiencies: They are either difficult to understand themselves, they work on a per-feature basis and ignore the dependencies between features and/or they only focus on those features asserting the decision made by the model. To address these points, this work introduces a reinforcement learning-based approach called Monte Carlo tree search for eXplainable Artificial Intelligent (McXai) to explain the decisions of any black-box classification model (classifier). Our method leverages Monte Carlo tree search and models the process of generating explanations as two games. In one game, the reward is maximized by finding feature sets that support the decision of the classifier, while in the second game, finding feature sets leading to alternative decisions maximizes the reward. The result is a human friendly representation as a tree structure, in which each node represents a set of features to be studied with smaller explanations at the top of the tree. Our experiments show, that the features found by our method are more informative with respect to classifications than those found by classical approaches like LIME and SHAP. Furthermore, by also identifying misleading features, our approach is able to guide towards improved robustness of the black-box model in many situations.
翻訳日:2022-01-05 13:41:50 公開日:2022-01-04
# グラフ機械学習の自動化 - アプローチ、ライブラリ、方向性

Automated Graph Machine Learning: Approaches, Libraries and Directions ( http://arxiv.org/abs/2201.01288v1 )

ライセンス: Link先を確認
Xin Wang, Ziwei Zhang and Wenwu Zhu(参考訳) グラフ機械学習は学術と産業の両方で広く研究されている。 しかし、グラフ学習に関する文献が多くの新しい手法や技術と共にブームとなり、異なるグラフ関連タスクに対して最適な機械学習アルゴリズムを手動で設計することはますます困難になっている。 この課題に取り組むために、手動設計なしで異なるグラフタスク/データに対して最適なハイパーパラメータとニューラルネットワークアーキテクチャの設定を見つけることを目的とした自動グラフ機械学習が、研究コミュニティから注目を集めている。 本稿では,グラフ機械学習のためのハイパーパラメータ最適化 (HPO) とニューラルアーキテクチャ探索 (NAS) を網羅する,グラフマシンの自動手法について論じる。 グラフ機械学習と自動機械学習の両方用に設計された既存のライブラリを簡単に概説し、さらに深く、私たちの専用で世界初のグラフ機械学習自動化のためのオープンソースライブラリであるautoglを紹介します。 最後に、私たちは自動グラフ機械学習の今後の研究方向に関する洞察を共有しています。 本論文は,自動グラフ機械学習のためのアプローチ,ライブラリ,方向性に関する,最初の体系的かつ包括的な議論である。

Graph machine learning has been extensively studied in both academic and industry. However, as the literature on graph learning booms with a vast number of emerging methods and techniques, it becomes increasingly difficult to manually design the optimal machine learning algorithm for different graph-related tasks. To tackle the challenge, automated graph machine learning, which aims at discovering the best hyper-parameter and neural architecture configuration for different graph tasks/data without manual design, is gaining an increasing number of attentions from the research community. In this paper, we extensively discuss automated graph machine approaches, covering hyper-parameter optimization (HPO) and neural architecture search (NAS) for graph machine learning. We briefly overview existing libraries designed for either graph machine learning or automated machine learning respectively, and further in depth introduce AutoGL, our dedicated and the world's first open-source library for automated graph machine learning. Last but not least, we share our insights on future research directions for automated graph machine learning. This paper is the first systematic and comprehensive discussion of approaches, libraries as well as directions for automated graph machine learning.
翻訳日:2022-01-05 13:40:56 公開日:2022-01-04
# 自己指向型機械学習

Self-directed Machine Learning ( http://arxiv.org/abs/2201.01289v1 )

ライセンス: Link先を確認
Wenwu Zhu, Xin Wang and Pengtao Xie(参考訳) 従来の機械学習(ML)は、学習タスク、データ、モデル、最適化アルゴリズム、評価メトリクスを決定するために、機械学習の専門家による手動設計に大きく依存している。 教育科学において、人間学習者が自力で学習タスクや教材を選択できるセルフディレクティブ学習は、受動的な教師主導学習よりも効果的であることが示されている。 自己指向型機械学習の概念に触発されて,自己指向型機械学習(SDML)の基本概念を導入し,SDMLのためのフレームワークを提案する。 具体的には,sdmlを自己認識と外部認知を含む自己認識に基づく自己指向学習プロセスとして設計する。 提案したSDMLプロセスは,自己タスク選択,自己データ選択,自己モデル選択,自己最適化戦略選択,自己評価基準選択の恩恵を受けることができる。 一方、SDMLプロセスの学習性能は、自己認識をさらに改善するためのフィードバックとなる。 マルチレベル最適化に基づくSDMLの数学的定式化を提案する。 さらに,SDMLの応用の可能性とともに事例研究を行い,今後の研究方向性について論じる。 SDMLは、機械が人間のような自己指向学習を実行し、人工知能への新たな視点を提供することを期待している。

Conventional machine learning (ML) relies heavily on manual design from machine learning experts to decide learning tasks, data, models, optimization algorithms, and evaluation metrics, which is labor-intensive, time-consuming, and cannot learn autonomously like humans. In education science, self-directed learning, where human learners select learning tasks and materials on their own without requiring hands-on guidance, has been shown to be more effective than passive teacher-guided learning. Inspired by the concept of self-directed human learning, we introduce the principal concept of Self-directed Machine Learning (SDML) and propose a framework for SDML. Specifically, we design SDML as a self-directed learning process guided by self-awareness, including internal awareness and external awareness. Our proposed SDML process benefits from self task selection, self data selection, self model selection, self optimization strategy selection and self evaluation metric selection through self-awareness without human guidance. Meanwhile, the learning performance of the SDML process serves as feedback to further improve self-awareness. We propose a mathematical formulation for SDML based on multi-level optimization. Furthermore, we present case studies together with potential applications of SDML, followed by discussing future research directions. We expect that SDML could enable machines to conduct human-like self-directed learning and provide a new perspective towards artificial general intelligence.
翻訳日:2022-01-05 13:40:40 公開日:2022-01-04
# Deep Metric Learningのための新しいクラスを生成するための学習

Learning to Generate Novel Classes for Deep Metric Learning ( http://arxiv.org/abs/2201.01008v1 )

ライセンス: Link先を確認
Kyungmoon Lee, Sungyeon Kim, Seunghoon Hong, Suha Kwak(参考訳) ディープメトリックラーニングは、トレーニング中にクラスが見えない場合でも、データ間の距離がクラス同値性を反映する埋め込み空間を学習することを目的としている。 しかし、訓練で利用できるクラス数は限られており、学習された埋め込み空間の一般化を妨げている。 そこで本研究では,新しいクラスとその組込みベクトルを合成する新しいデータ拡張手法を提案する。 本手法は,組込みモデルに豊富な意味情報を提供し,元のデータでは使用できない新しいクラスでトレーニングデータを拡張することにより,その一般化を改善できる。 クラスラベルとノイズが与えられたとき、そのクラスのランダム埋め込みベクトルを生成する条件付き生成モデルの学習と活用により、このアイデアを実装した。 提案するジェネレータは,現実的で多様なクラスを補完することにより,よりリッチなクラス関係の利用を可能にした。 公開ベンチマークデータセットにおける実験結果から,本手法はプロキシベース損失の性能を明らかに向上することが示された。

Deep metric learning aims to learn an embedding space where the distance between data reflects their class equivalence, even when their classes are unseen during training. However, the limited number of classes available in training precludes generalization of the learned embedding space. Motivated by this, we introduce a new data augmentation approach that synthesizes novel classes and their embedding vectors. Our approach can provide rich semantic information to an embedding model and improve its generalization by augmenting training data with novel classes unavailable in the original data. We implement this idea by learning and exploiting a conditional generative model, which, given a class label and a noise, produces a random embedding vector of the class. Our proposed generator allows the loss to use richer class relations by augmenting realistic and diverse classes, resulting in better generalization to unseen samples. Experimental results on public benchmark datasets demonstrate that our method clearly enhances the performance of proxy-based losses.
翻訳日:2022-01-05 13:39:29 公開日:2022-01-04
# クラスタ構造関数

The cluster structure function ( http://arxiv.org/abs/2201.01222v1 )

ライセンス: Link先を確認
Andrew R. Cohen and Paul M.B. Vit\'anyi(参考訳) 与えられた部品数に設定されたデータのパーティションごとに、その部分に含まれるデータに対して、すべての部分が可能な限り良いモデル("アルゴリズム的十分統計")であるようなパーティションが存在する。 これは1とデータ数の間のすべての数に対して可能であるので、結果は関数であり、クラスタ構造関数である。 パーティションの部品数を、部品による良いモデルであることの欠陥に関連する値にマッピングする。 このような関数は、データセットのパーティションが無ければ少なくともゼロの値から始まり、データセットのパーティションがシングルトンに分割される場合、0に降下する。 最適なクラスタリングは、クラスタ構造関数を最小限にするために選ばれたものである。 この方法の背後にある理論はアルゴリズム情報理論(コルモゴロフ複雑性)で表される。 実際にはコルモゴロフ錯体はコンクリート圧縮機によって近似される。 実データを用いた例を挙げる: MNIST手書き桁と、幹細胞研究で用いられる実細胞のセグメント化である。

For each partition of a data set into a given number of parts there is a partition such that every part is as much as possible a good model (an "algorithmic sufficient statistic") for the data in that part. Since this can be done for every number between one and the number of data, the result is a function, the cluster structure function. It maps the number of parts of a partition to values related to the deficiencies of being good models by the parts. Such a function starts with a value at least zero for no partition of the data set and descents to zero for the partition of the data set into singleton parts. The optimal clustering is the one chosen to minimize the cluster structure function. The theory behind the method is expressed in algorithmic information theory (Kolmogorov complexity). In practice the Kolmogorov complexities involved are approximated by a concrete compressor. We give examples using real data sets: the MNIST handwritten digits and the segmentation of real cells as used in stem cell research.
翻訳日:2022-01-05 13:39:13 公開日:2022-01-04
# 網膜血管疾患検出のためのトランスファーラーニング : 糖尿病網膜症と未熟児網膜症のパイロット研究

Transfer Learning for Retinal Vascular Disease Detection: A Pilot Study with Diabetic Retinopathy and Retinopathy of Prematurity ( http://arxiv.org/abs/2201.01250v1 )

ライセンス: Link先を確認
Guan Wang, Yusuke Kikuchi, Jinglin Yi, Qiong Zou, Rui Zhou, Xin Guo(参考訳) 網膜血管疾患は、人間の身体の健康に影響を及ぼし、時には検出されていない身体の損傷を示す。 近年,糖尿病網膜症(DR)の診断に深層学習技術が応用されている。 他のほとんどの網膜血管疾患を検出するためにディープラーニング技術を適用する主な障害は、利用可能なデータ量が限られていることだ。 本稿では,網膜血管疾患の検出における特徴類似性を利用したトランスファーラーニング手法を提案する。 本研究は、ソースタスクとしてDR検出を選択し、ターゲットタスクとして未熟児網膜症(ROP)を早期に検出する。 実験の結果, 医用画像解析で現在採用されている従来のimagenetプリトレーニングトランスファー学習手法が, あらゆる指標において, drプリトレーニングアプローチが支配的であることが判明した。 さらに,本手法は,訓練過程の確率性や,訓練サンプルの削減に関して,より堅牢である。 本研究は, 広範囲の網膜血管疾患や病理疾患に対するトランスファーラーニングアプローチの可能性を示すものである。

Retinal vascular diseases affect the well-being of human body and sometimes provide vital signs of otherwise undetected bodily damage. Recently, deep learning techniques have been successfully applied for detection of diabetic retinopathy (DR). The main obstacle of applying deep learning techniques to detect most other retinal vascular diseases is the limited amount of data available. In this paper, we propose a transfer learning technique that aims to utilize the feature similarities for detecting retinal vascular diseases. We choose the well-studied DR detection as a source task and identify the early detection of retinopathy of prematurity (ROP) as the target task. Our experimental results demonstrate that our DR-pretrained approach dominates in all metrics the conventional ImageNet-pretrained transfer learning approach, currently adopted in medical image analysis. Moreover, our approach is more robust with respect to the stochasticity in the training process and with respect to reduced training samples. This study suggests the potential of our proposed transfer learning approach for a broad range of retinal vascular diseases or pathologies, where data is limited.
翻訳日:2022-01-05 13:39:00 公開日:2022-01-04
# クロスドメインフラッド検出のための階層型説明可能なネットワークを用いたユーザの行動系列のモデル化

Modeling Users' Behavior Sequences with Hierarchical Explainable Network for Cross-domain Fraud Detection ( http://arxiv.org/abs/2201.01004v1 )

ライセンス: Link先を確認
Yongchun Zhu, Dongbo Xi, Bowen Song, Fuzhen Zhuang, Shuai Chen, Xi Gu, Qing He(参考訳) 電子商取引業界の爆発的な成長に伴い、現実のアプリケーションにおけるオンライン取引詐欺の検出は、電子商取引プラットフォームの開発においてますます重要になっている。 ユーザのシーケンシャルな行動履歴は、通常の支払いと不正な支払いを区別する有用な情報を提供する。 近年,このシーケンスに基づく不正検出問題の解法が提案されている。 しかし、これらの手法は通常2つの問題に悩まされる: 予測結果は説明が困難であり、行動の内部情報の活用は不十分である。 上記の2つの問題に対処するために,ユーザ行動系列をモデル化する階層型説明可能ネットワーク(HEN)を提案する。 一方、eコマースビジネスが新たなドメイン、例えば新しい国や新しい市場へと拡大するにつれて、不正検出システムにおけるユーザの振る舞いをモデル化する上での大きな問題は、データ収集の制限である。 そこで本稿では,既存のドメイン(ソースドメイン)からの知識を十分に成熟したデータで転送し,新たなドメイン(ターゲットドメイン)のパフォーマンスを向上させることを目的とした,クロスドメイン不正検出問題に取り組むためのトランスファーフレームワークを提案する。 提案手法は,hen に適用できるだけでなく,embedd & mlp パラダイムにおける既存モデルにも適用可能な汎用転送フレームワークである。 90の転送タスク実験に基づいて,提案手法がhenによるクロスドメイン不正検出タスクに寄与するだけでなく,既存モデルにも普遍的かつ拡張可能なことを実証した。

With the explosive growth of the e-commerce industry, detecting online transaction fraud in real-world applications has become increasingly important to the development of e-commerce platforms. The sequential behavior history of users provides useful information in differentiating fraudulent payments from regular ones. Recently, some approaches have been proposed to solve this sequence-based fraud detection problem. However, these methods usually suffer from two problems: the prediction results are difficult to explain and the exploitation of the internal information of behaviors is insufficient. To tackle the above two problems, we propose a Hierarchical Explainable Network (HEN) to model users' behavior sequences, which could not only improve the performance of fraud detection but also make the inference process interpretable. Meanwhile, as e-commerce business expands to new domains, e.g., new countries or new markets, one major problem for modeling user behavior in fraud detection systems is the limitation of data collection, e.g., very few data/labels available. Thus, in this paper, we further propose a transfer framework to tackle the cross-domain fraud detection problem, which aims to transfer knowledge from existing domains (source domains) with enough and mature data to improve the performance in the new domain (target domain). Our proposed method is a general transfer framework that could not only be applied upon HEN but also various existing models in the Embedding & MLP paradigm. Based on 90 transfer task experiments, we also demonstrate that our transfer framework could not only contribute to the cross-domain fraud detection task with HEN, but also be universal and expandable for various existing models.
翻訳日:2022-01-05 13:38:41 公開日:2022-01-04
# 協調した注意を持つ学習オペレーター

Learning Operators with Coupled Attention ( http://arxiv.org/abs/2201.01032v1 )

ライセンス: Link先を確認
Georgios Kissas, Jacob Seidman, Leonardo Ferreira Guilhoto, Victor M. Preciado, George J. Pappas and Paris Perdikaris(参考訳) Supervised operator learningは、時空間力学系の進化をモデル化し、機能データ間の一般的なブラックボックス関係を近似するための応用のための、新しい機械学習パラダイムである。 本稿では,近年の注目機構の成功を動機とした,新たな演算子学習手法であるLOCAを提案する。 我々のアーキテクチャでは、入力関数は有限個の特徴にマッピングされ、その特徴は出力クエリの場所に依存する注意重みで平均化される。 これらの注意重みを積分変換と組み合わせることで、LOCAは目標出力関数の相関関係を明示的に学習することができ、トレーニングセットの測定における出力関数の数が非常に小さい場合でも非線形演算子を近似することができる。 この定式化には,提案モデルの普遍表現性に関する厳密な近似理論的保証が伴う。 実験により,常微分方程式と偏微分方程式に支配されるシステムと,ブラックボックス気候予測問題を含む演算子学習シナリオにおけるLOCAの性能を評価する。 これらのシナリオを通じて、分散予測タスクであっても、ノイズの多い入力データに対する技術精度、堅牢性、テストデータセット上で一貫して小さなエラーの拡散を示す。

Supervised operator learning is an emerging machine learning paradigm with applications to modeling the evolution of spatio-temporal dynamical systems and approximating general black-box relationships between functional data. We propose a novel operator learning method, LOCA (Learning Operators with Coupled Attention), motivated from the recent success of the attention mechanism. In our architecture, the input functions are mapped to a finite set of features which are then averaged with attention weights that depend on the output query locations. By coupling these attention weights together with an integral transform, LOCA is able to explicitly learn correlations in the target output functions, enabling us to approximate nonlinear operators even when the number of output function in the training set measurements is very small. Our formulation is accompanied by rigorous approximation theoretic guarantees on the universal expressiveness of the proposed model. Empirically, we evaluate the performance of LOCA on several operator learning scenarios involving systems governed by ordinary and partial differential equations, as well as a black-box climate prediction problem. Through these scenarios we demonstrate state of the art accuracy, robustness with respect to noisy input data, and a consistently small spread of errors over testing data sets, even for out-of-distribution prediction tasks.
翻訳日:2022-01-05 13:38:17 公開日:2022-01-04
# 推定誤差が証明可能な深層ニューラルネットワークの最小逆摂動について

On the Minimal Adversarial Perturbation for Deep Neural Networks with Provable Estimation Error ( http://arxiv.org/abs/2201.01235v1 )

ライセンス: Link先を確認
Fabio Brau, Giulio Rossolini, Alessandro Biondi and Giorgio Buttazzo(参考訳) Deep Neural Networks(DNN)は、知覚と制御のタスクにおいて驚くほどのパフォーマンスを示しているが、いくつかの信頼できる問題がまだ残っている。 最も議論されたトピックの1つは、与えられた入力の頑健さを定量化できる証明可能な技術に関する興味深い研究ラインを開設した対向摂動の存在である。 この点において、分類境界からの入力のユークリッド距離は、最小限の安価な対向摂動として十分に証明されたロバスト性評価を示す。 残念ながら、NNの非凸性のため、そのような距離の計算は非常に複雑である。 この問題に対処するためにいくつかの方法が提案されているが、私たちの知る限りでは、提案した誤りを推定してバウンドする証明可能な結果は提示されていない。 本稿では,最小対向摂動を求める2つの軽量戦略を提案し,この問題に対処する。 最先端とは違って,提案手法では近似距離の誤差推定理論を理論値に対して定式化することができる。 最後に、アルゴリズムの性能を評価し、理論的な結果を支持するために、かなりの実験が報告されている。 その結果, 提案手法は, 分類境界に近い試料の理論的距離を近似し, 対向攻撃に対するロバスト性を保証することが示唆された。

Although Deep Neural Networks (DNNs) have shown incredible performance in perceptive and control tasks, several trustworthy issues are still open. One of the most discussed topics is the existence of adversarial perturbations, which has opened an interesting research line on provable techniques capable of quantifying the robustness of a given input. In this regard, the Euclidean distance of the input from the classification boundary denotes a well-proved robustness assessment as the minimal affordable adversarial perturbation. Unfortunately, computing such a distance is highly complex due the non-convex nature of NNs. Despite several methods have been proposed to address this issue, to the best of our knowledge, no provable results have been presented to estimate and bound the error committed. This paper addresses this issue by proposing two lightweight strategies to find the minimal adversarial perturbation. Differently from the state-of-the-art, the proposed approach allows formulating an error estimation theory of the approximate distance with respect to the theoretical one. Finally, a substantial set of experiments is reported to evaluate the performance of the algorithms and support the theoretical findings. The obtained results show that the proposed strategies approximate the theoretical distance for samples close to the classification boundary, leading to provable robustness guarantees against any adversarial attacks.
翻訳日:2022-01-05 13:36:02 公開日:2022-01-04
# ExAID:皮膚病変のコンピュータ診断のためのマルチモーダル説明フレームワーク

ExAID: A Multimodal Explanation Framework for Computer-Aided Diagnosis of Skin Lesions ( http://arxiv.org/abs/2201.01249v1 )

ライセンス: Link先を確認
Adriano Lucieri and Muhammad Naseer Bajwa and Stephan Alexander Braun and Muhammad Imran Malik and Andreas Dengel and Sheraz Ahmed(参考訳) AIベースのコンピュータ支援診断(CAD)システムの臨床ワークフローへの展開を成功させる上での障害のひとつは、透明な意思決定の欠如である。 一般的に使用されるeXplainable AIメソッドは、不透明なアルゴリズムに関する洞察を提供するが、そのような説明は通常、高度に訓練された専門家以外は容易に理解できない。 皮膚鏡像からの皮膚病変の悪性度に関する決定の解説は、基礎疾患の定義自体が曖昧であるため、特定の明快さを必要とする。 本研究は,バイオメディカル画像解析のための新しいフレームワークであるExAID(Explainable AI for Dermatology)を提示する。 ExAIDは概念活性化ベクトル(Concept Activation Vectors)を利用して、潜在空間における任意のディープラーニングモデルによって学習された概念に人間の概念をマッピングする。 関連概念の同定は、概念的位置情報によって補足されたきめ細かいテキストの説明を構築するために使用され、包括的で一貫性のあるマルチモーダルな説明を提供する。 すべての情報は、臨床ルーチンで使用する診断インターフェースで包括的に提示される。 教育モードは、医学研究と教育を支援するデータとモデル探索のためのデータセットレベルの説明統計とツールを提供する。 ExAIDの厳密な量的・質的な評価を通じて、誤った予測であってもCAD支援シナリオに対するマルチモーダルな説明の有用性を示す。 exaidは皮膚科医に、彼らが理解し信頼する効果的なスクリーニングツールを提供すると信じています。 さらに、他のバイオメディカルイメージングの分野でも同様の応用の基礎となる。

One principal impediment in the successful deployment of AI-based Computer-Aided Diagnosis (CAD) systems in clinical workflows is their lack of transparent decision making. Although commonly used eXplainable AI methods provide some insight into opaque algorithms, such explanations are usually convoluted and not readily comprehensible except by highly trained experts. The explanation of decisions regarding the malignancy of skin lesions from dermoscopic images demands particular clarity, as the underlying medical problem definition is itself ambiguous. This work presents ExAID (Explainable AI for Dermatology), a novel framework for biomedical image analysis, providing multi-modal concept-based explanations consisting of easy-to-understand textual explanations supplemented by visual maps justifying the predictions. ExAID relies on Concept Activation Vectors to map human concepts to those learnt by arbitrary Deep Learning models in latent space, and Concept Localization Maps to highlight concepts in the input space. This identification of relevant concepts is then used to construct fine-grained textual explanations supplemented by concept-wise location information to provide comprehensive and coherent multi-modal explanations. All information is comprehensively presented in a diagnostic interface for use in clinical routines. An educational mode provides dataset-level explanation statistics and tools for data and model exploration to aid medical research and education. Through rigorous quantitative and qualitative evaluation of ExAID, we show the utility of multi-modal explanations for CAD-assisted scenarios even in case of wrong predictions. We believe that ExAID will provide dermatologists an effective screening tool that they both understand and trust. Moreover, it will be the basis for similar applications in other biomedical imaging fields.
翻訳日:2022-01-05 13:35:43 公開日:2022-01-04
# supervised homogeneity fusion: 組合せアプローチ

Supervised Homogeneity Fusion: a Combinatorial Approach ( http://arxiv.org/abs/2201.01036v1 )

ライセンス: Link先を確認
Wen Wang, Shihao Wu, Ziwei Zhu, Ling Zhou, Peter X.-K. Song(参考訳) 回帰係数を同族群に融合することで、各群内で共通の値を共有する係数を顕示することができる。 このような群的同質性はパラメータ空間の固有次元を減少させ、より鋭い統計的精度を解き放つ。 混合整数最適化(MIO)に有効な$L_0$-Fusionと呼ばれる新たな組合せ群化手法を提案し,検討する。 統計的側面から、真の群を回復する難しさを裏付けるグループ感度と呼ばれる基本量を特定する。 l_0$-fusion はグループ化感度の最も弱い要件の下でグループ化一貫性を達成する:もしこの要件に違反した場合、グループ化の最小リスクは 0 に収束しない。 さらに,高次元のシステムでは,統計的効率を損なうことなく,数値計算コストを大幅に削減しつつ,確実に特徴の検定セットと組み合わせて$L_0$-Fusionを適用できることが示される。 アルゴリズムの面では、暖かいスタート戦略とともに$L_0$-FusionのMIO定式化を提供する。 シミュレーションと実データ解析により、$L_0$-Fusionは、グループ化精度において競合他社よりも優れていることを示した。

Fusing regression coefficients into homogenous groups can unveil those coefficients that share a common value within each group. Such groupwise homogeneity reduces the intrinsic dimension of the parameter space and unleashes sharper statistical accuracy. We propose and investigate a new combinatorial grouping approach called $L_0$-Fusion that is amenable to mixed integer optimization (MIO). On the statistical aspect, we identify a fundamental quantity called grouping sensitivity that underpins the difficulty of recovering the true groups. We show that $L_0$-Fusion achieves grouping consistency under the weakest possible requirement of the grouping sensitivity: if this requirement is violated, then the minimax risk of group misspecification will fail to converge to zero. Moreover, we show that in the high-dimensional regime, one can apply $L_0$-Fusion coupled with a sure screening set of features without any essential loss of statistical efficiency, while reducing the computational cost substantially. On the algorithmic aspect, we provide a MIO formulation for $L_0$-Fusion along with a warm start strategy. Simulation and real data analysis demonstrate that $L_0$-Fusion exhibits superiority over its competitors in terms of grouping accuracy.
翻訳日:2022-01-05 13:35:18 公開日:2022-01-04
# swin unetr:mri画像における脳腫瘍のセグメンテーションのためのスウィントランスフォーマー

Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images ( http://arxiv.org/abs/2201.01266v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Vishwesh Nath, Yucheng Tang, Dong Yang, Holger Roth and Daguang Xu(参考訳) 脳腫瘍のセマンティックセグメンテーション(Semantic segmentation of brain tumors)は、臨床医が患者を診断し、悪性物質の進行を連続的に研究するのを助ける複数のMRI画像モダリティを含む基本的な医療画像解析タスクである。 近年、FCNN(Fully Convolutional Neural Networks)アプローチは、3次元医用画像セグメンテーションのデファクトスタンダードとなっている。 人気のある"u字型"ネットワークアーキテクチャは、異なる2dおよび3dセマンティックセグメンテーションタスクと様々なイメージモダリティで最先端のパフォーマンスベンチマークを達成している。 しかし、FCNNの畳み込み層のカーネルサイズが限られているため、長距離情報をモデル化する性能は準最適であり、可変サイズの腫瘍のセグメンテーションに欠陥をもたらす可能性がある。 一方、トランスフォーマーモデルは、自然言語処理やコンピュータビジョンなど、複数の領域でこのような長距離情報をキャプチャする優れた性能を示している。 視覚変換器とその変種の成功に触発されて,Swin UNEt TRansformers (Swin UNETR) と呼ばれる新しいセグメンテーションモデルを提案する。 具体的には、3次元脳腫瘍セマンティクスセグメンテーションのタスクを、マルチモーダル入力データを埋め込みの1次元シーケンスに投影し、階層的なスウィントランスをエンコーダとして入力として使用するシーケンストシーケンス予測問題として再構成する。 スウィントランスエンコーダは、シフトしたウィンドウを利用して、5つの異なる解像度で特徴を抽出し、スキップ接続を介して各解像度でFCNNベースのデコーダに接続する。 我々は、BraTS 2021セグメンテーションチャレンジに参加し、提案モデルが検証フェーズにおける最も優れたアプローチである。 コード: https://monai.io/res earch/swin-unetr

Semantic segmentation of brain tumors is a fundamental medical image analysis task involving multiple MRI imaging modalities that can assist clinicians in diagnosing the patient and successively studying the progression of the malignant entity. In recent years, Fully Convolutional Neural Networks (FCNNs) approaches have become the de facto standard for 3D medical image segmentation. The popular "U-shaped" network architecture has achieved state-of-the-art performance benchmarks on different 2D and 3D semantic segmentation tasks and across various imaging modalities. However, due to the limited kernel size of convolution layers in FCNNs, their performance of modeling long-range information is sub-optimal, and this can lead to deficiencies in the segmentation of tumors with variable sizes. On the other hand, transformer models have demonstrated excellent capabilities in capturing such long-range information in multiple domains, including natural language processing and computer vision. Inspired by the success of vision transformers and their variants, we propose a novel segmentation model termed Swin UNEt TRansformers (Swin UNETR). Specifically, the task of 3D brain tumor semantic segmentation is reformulated as a sequence to sequence prediction problem wherein multi-modal input data is projected into a 1D sequence of embedding and used as an input to a hierarchical Swin transformer as the encoder. The swin transformer encoder extracts features at five different resolutions by utilizing shifted windows for computing self-attention and is connected to an FCNN-based decoder at each resolution via skip connections. We have participated in BraTS 2021 segmentation challenge, and our proposed model ranks among the top-performing approaches in the validation phase. Code: https://monai.io/res earch/swin-unetr
翻訳日:2022-01-05 13:34:58 公開日:2022-01-04
# 3DVSR:角・空間光場画像超解像のための3D EPIボリュームベースアプローチ

3DVSR: 3D EPI Volume-based Approach for Angular and Spatial Light field Image Super-resolution ( http://arxiv.org/abs/2201.01294v1 )

ライセンス: Link先を確認
Trung-Hieu Tran, Jan Berberich, Sven Simon(参考訳) 光フィールド(lf)イメージングは、シーンの空間情報と角度情報の両方をキャプチャするが、多くのアプリケーションにとって間違いなく有益である。 LF取得には様々な技術が提案されているが、角高分解能LFと空間高分解能LFの両方を達成することは技術的課題である。 本稿では,高分解能LFを再構成するための3次元極性画像(EPI)に学習に基づくアプローチを提案する。 提案手法は2段階の超分解能フレームワークを用いて,空間SR,角状SR,角-空間SRといった様々なLF超分解能問題に効果的に対処する。 第1段階は、所望の解像度にEPIボリュームをアップサンプルする柔軟なオプションを提供する一方で、第2段階は、新しいEPIボリュームベース精製ネットワーク(EVRN)で構成され、高解像度のEPIボリュームの品質を大幅に向上させる。 提案手法は,空間的および角的超解像問題,すなわち,空間的SR$\times 2$,空間的SR$\times 4$,角状SRにおける2dB,1.4dB,3.14dB以上の雑音比改善に対する平均ピーク信号,および3.14dBに対して,最先端の手法よりも優れていることを示す。 再構成された4次元光野は、全視点画像におけるバランスの取れた性能分布を示し、以前の作品よりも優れた視覚品質を示す。

Light field (LF) imaging, which captures both spatial and angular information of a scene, is undoubtedly beneficial to numerous applications. Although various techniques have been proposed for LF acquisition, achieving both angularly and spatially high-resolution LF remains a technology challenge. In this paper, a learning-based approach applied to 3D epipolar image (EPI) is proposed to reconstruct high-resolution LF. Through a 2-stage super-resolution framework, the proposed approach effectively addresses various LF super-resolution (SR) problems, i.e., spatial SR, angular SR, and angular-spatial SR. While the first stage provides flexible options to up-sample EPI volume to the desired resolution, the second stage, which consists of a novel EPI volume-based refinement network (EVRN), substantially enhances the quality of the high-resolution EPI volume. An extensive evaluation on 90 challenging synthetic and real-world light field scenes from 7 published datasets shows that the proposed approach outperforms state-of-the-art methods to a large extend for both spatial and angular super-resolution problem, i.e., an average peak signal to noise ratio improvement of more than 2.0 dB, 1.4 dB, and 3.14 dB in spatial SR $\times 2$, spatial SR $\times 4$, and angular SR respectively. The reconstructed 4D light field demonstrates a balanced performance distribution across all perspective images and presents superior visual quality compared to the previous works.
翻訳日:2022-01-05 13:34:25 公開日:2022-01-04
# (参考訳) Submix: 大規模言語モデルの実用的なプライベート予測 [全文訳有]

Submix: Practical Private Prediction for Large-Scale Language Models ( http://arxiv.org/abs/2201.00971v1 )

ライセンス: CC BY 4.0
Antonio Ginart, Laurens van der Maaten, James Zou, Chuan Guo(参考訳) 最近のデータ抽出攻撃により、言語モデルがいくつかのトレーニングサンプルを記憶できることが明らかになった。 これはモデルのトレーニングデータのプライバシを侵害する可能性のある脆弱性である。 本研究では,公開コーパスの事前トレーニング後,プライベートコーパスに微調整された言語モデルによるプライバシー侵害を防止するために設計された,プライベート次世代予測のための実用的なプロトコルであるSubMixを紹介する。 サブミックスは,グループ差動プライベート予測の緩和を通じて,個人コーパス内の個人ユーザ特有の情報の漏洩を制限していることを示す。 重要なことに、submixは厳密なデータ依存のプライバシー会計機構を認めており、言語モデルの有用性を維持しながら、既存のデータ抽出攻撃を阻止できる。 SubMixは、GPT-2のような大きなトランスフォーマーベースのモデルによって何万もの次世代の予測を公開しても、プライバシを維持する最初のプロトコルである。

Recent data-extraction attacks have exposed that language models can memorize some training samples verbatim. This is a vulnerability that can compromise the privacy of the model's training data. In this work, we introduce SubMix: a practical protocol for private next-token prediction designed to prevent privacy violations by language models that were fine-tuned on a private corpus after pre-training on a public corpus. We show that SubMix limits the leakage of information that is unique to any individual user in the private corpus via a relaxation of group differentially private prediction. Importantly, SubMix admits a tight, data-dependent privacy accounting mechanism, which allows it to thwart existing data-extraction attacks while maintaining the utility of the language model. SubMix is the first protocol that maintains privacy even when publicly releasing tens of thousands of next-token predictions made by large transformer-based models such as GPT-2.
翻訳日:2022-01-05 13:31:42 公開日:2022-01-04
# StyleM: コントラストN-gramを用いた画像キャプション用スティル化メトリック

StyleM: Stylized Metrics for Image Captioning Built with Contrastive N-grams ( http://arxiv.org/abs/2201.00975v1 )

ライセンス: Link先を確認
Chengxi Li, Brent Harrison(参考訳) 本稿では,機械生成キャプションと基底真理スタイライゼーションキャプションの関連性を評価するための2つの自動評価指標,onlystyleとstyleciderを構築した。

In this paper, we build two automatic evaluation metrics for evaluating the association between a machine-generated caption and a ground truth stylized caption: OnlyStyle and StyleCIDEr.
翻訳日:2022-01-05 13:06:27 公開日:2022-01-04
# クロスドメイン画像分類のための多表現適応ネットワーク

Multi-Representation Adaptation Network for Cross-domain Image Classification ( http://arxiv.org/abs/2201.01002v1 )

ライセンス: Link先を確認
Yongchun Zhu, Fuzhen Zhuang, Jindong Wang, Jingwu Chen, Zhiping Shi, Wenjuan Wu, Qing He(参考訳) 画像分類では、十分なラベルを取得するのにしばしば高価で時間がかかる。 この問題を解決するために、ドメイン適応は、同じ性質の異なるドメインからの大量のラベル付きデータに対して魅力的な選択肢を提供することが多い。 既存のアプローチは主に単一の構造によって抽出された表現の分布を整列させ、その表現は部分的な情報のみを含む(例えば、飽和度、明るさ、色調情報の一部だけを含む)。 本稿では,クロスドメイン画像分類の分類精度を劇的に向上させ,特にインセプション適応モジュール (iam) と呼ばれるハイブリッド構造によって抽出された複数の表現の分布を整合させることを目的としている。 そこで本研究では,複数表現アライメントによるクロスドメイン画像分類タスクを実現するために,mran(multi-represen tation adaptation network)を提案する。 さらに,適応損失を計算するために,最大平均離散性(MMD)を拡張した。 提案手法は,多くのフィードフォワードモデルをiamで拡張することで容易に実装でき,ネットワークはバックプロパゲーションによって効率的にトレーニングできる。 3つのベンチマーク画像データセットで実施された実験は、MRANの有効性を示す。 コードはhttps://github.com/e asezyc/deep-transfer -learningで入手できる。

In image classification, it is often expensive and time-consuming to acquire sufficient labels. To solve this problem, domain adaptation often provides an attractive option given a large amount of labeled data from a similar nature but different domain. Existing approaches mainly align the distributions of representations extracted by a single structure and the representations may only contain partial information, e.g., only contain part of the saturation, brightness, and hue information. Along this line, we propose Multi-Representation Adaptation which can dramatically improve the classification accuracy for cross-domain image classification and specially aims to align the distributions of multiple representations extracted by a hybrid structure named Inception Adaptation Module (IAM). Based on this, we present Multi-Representation Adaptation Network (MRAN) to accomplish the cross-domain image classification task via multi-representation alignment which can capture the information from different aspects. In addition, we extend Maximum Mean Discrepancy (MMD) to compute the adaptation loss. Our approach can be easily implemented by extending most feed-forward models with IAM, and the network can be trained efficiently via back-propagation. Experiments conducted on three benchmark image datasets demonstrate the effectiveness of MRAN. The code has been available at https://github.com/e asezyc/deep-transfer -learning.
翻訳日:2022-01-05 13:06:22 公開日:2022-01-04
# 複数のソースからのクロスドメイン分類のためのドメイン固有分布と分類器の調整

Aligning Domain-specific Distribution and Classifier for Cross-domain Classification from Multiple Sources ( http://arxiv.org/abs/2201.01003v1 )

ライセンス: Link先を確認
Yongchun Zhu, Fuzhen Zhuang, Deqing Wang(参考訳) Unsupervised Domain Adaptation (UDA)アルゴリズム、すなわち、ソースドメインからのラベル付きデータのみが近年活発に研究されているが、ほとんどのアルゴリズムと理論的結果は単一ソースのUnsupervised Domain Adaptation (SUDA)に焦点を当てている。 しかしながら、実用的なシナリオでは、ラベル付きデータは一般的に複数のソースから収集され、ターゲットドメインだけでなく、互いに異なる可能性がある。 したがって、複数のソースからのドメインアダプタを同じ方法でモデル化するべきではない。 最近の深層学習に基づくMulti-source Unsupervised Domain Adaptation (MUDA)アルゴリズムは、共通特徴空間におけるすべてのソースとターゲットドメインの分布を整列させることにより、すべてのドメインに対して共通のドメイン不変表現を抽出することに焦点を当てている。 しかし、MUDAのすべての領域に対して同じドメイン不変表現を抽出することはしばしば困難である。 さらに、これらの手法はクラス間のドメイン固有の決定境界を考慮せずに分布に一致する。 これらの問題を解決するために,複数の特徴空間において各ソースとターゲットドメインの分布をそれぞれ整列するだけでなく,ドメイン固有の決定境界を利用して分類器の出力を整列するMUDAの2つのアライメント段階を持つ新しいフレームワークを提案する。 広範な実験により,本手法は画像分類のためのベンチマークデータセットにおいて顕著な結果が得られることを示した。

While Unsupervised Domain Adaptation (UDA) algorithms, i.e., there are only labeled data from source domains, have been actively studied in recent years, most algorithms and theoretical results focus on Single-source Unsupervised Domain Adaptation (SUDA). However, in the practical scenario, labeled data can be typically collected from multiple diverse sources, and they might be different not only from the target domain but also from each other. Thus, domain adapters from multiple sources should not be modeled in the same way. Recent deep learning based Multi-source Unsupervised Domain Adaptation (MUDA) algorithms focus on extracting common domain-invariant representations for all domains by aligning distribution of all pairs of source and target domains in a common feature space. However, it is often very hard to extract the same domain-invariant representations for all domains in MUDA. In addition, these methods match distributions without considering domain-specific decision boundaries between classes. To solve these problems, we propose a new framework with two alignment stages for MUDA which not only respectively aligns the distributions of each pair of source and target domains in multiple specific feature spaces, but also aligns the outputs of classifiers by utilizing the domain-specific decision boundaries. Extensive experiments demonstrate that our method can achieve remarkable results on popular benchmark datasets for image classification.
翻訳日:2022-01-05 13:06:04 公開日:2022-01-04
# 人物再同定のための短距離相関変換器

Short Range Correlation Transformer for Occluded Person Re-Identification ( http://arxiv.org/abs/2201.01090v1 )

ライセンス: Link先を確認
Yunbin Zhao, Songhao Zhu, Dongsheng Wang, Zhiwei Liang(参考訳) occluded person re-identificationは、非効率な特徴表現や低い認識精度といった問題に直面したコンピュータビジョンの難題の1つである。 畳み込みニューラルネットワークは、局所的な特徴の抽出により多くの注意を払うため、閉塞した歩行者の特徴を抽出することは困難であり、その効果は満足できない。 近年、視覚トランスフォーマーが再同定の分野に導入され、パッチシーケンス間のグローバル特徴の関係を構築することにより、最も高度な結果が得られる。 しかし、局所特徴抽出における視覚トランスフォーマーの性能は畳み込みニューラルネットワークの性能よりも劣っている。 そこで我々はPFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを設計する。 提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。 1)全次元強化モジュールをパッチする。 パッチシーケンスと同等の大きさの学習可能なテンソルを設計し、パッチシーケンスに完全次元で深く埋め込まれ、トレーニングサンプルの多様性を高める。 (2)融合・再構成モジュール 得られたパッチシーケンスの重要でない部分を抽出し、元のパッチシーケンスと融合して元のパッチシーケンスを再構築する。 (3)空間スライシングモジュール 我々は,パッチシーケンスの短距離相関を効果的に改善できる空間的方向からパッチシーケンスをスライスし,グループ化する。 包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークは高い性能を示し,最先端の手法よりも優れていた。

Occluded person re-identification is one of the challenging areas of computer vision, which faces problems such as inefficient feature representation and low recognition accuracy. Convolutional neural network pays more attention to the extraction of local features, therefore it is difficult to extract features of occluded pedestrians and the effect is not so satisfied. Recently, vision transformer is introduced into the field of re-identification and achieves the most advanced results by constructing the relationship of global features between patch sequences. However, the performance of vision transformer in extracting local features is inferior to that of convolutional neural network. Therefore, we design a partial feature transformer-based person re-identification framework named PFT. The proposed PFT utilizes three modules to enhance the efficiency of vision transformer. (1) Patch full dimension enhancement module. We design a learnable tensor with the same size as patch sequences, which is full-dimensional and deeply embedded in patch sequences to enrich the diversity of training samples. (2) Fusion and reconstruction module. We extract the less important part of obtained patch sequences, and fuse them with original patch sequence to reconstruct the original patch sequences. (3) Spatial Slicing Module. We slice and group patch sequences from spatial direction, which can effectively improve the short-range correlation of patch sequences. Experimental results over occluded and holistic re-identification datasets demonstrate that the proposed PFT network achieves superior performance consistently and outperforms the state-of-the-art methods.
翻訳日:2022-01-05 13:05:11 公開日:2022-01-04
# (参考訳) 効率的な乱流シミュレーションのための学習粗いモデル

Learned Coarse Models for Efficient Turbulence Simulation ( http://arxiv.org/abs/2112.15275v2 )

ライセンス: CC BY 4.0
Kimberly Stachenfeld, Drummond B. Fielding, Dmitrii Kochkov, Miles Cranmer, Tobias Pfaff, Jonathan Godwin, Can Cui, Shirley Ho, Peter Battaglia, Alvaro Sanchez-Gonzalez(参考訳) 古典数値解法による乱流シミュレーションは、ダイナミクスを正確に解くために非常に高分解能の格子を必要とする。 そこで我々は,低空間および時間分解能のシミュレータを訓練し,高分解能で発生する乱流力学を捉える。 提案モデルでは, 従来の数値解法に比べて, 様々な科学的に関係のある指標で同じ低分解能で乱流力学を正確にシミュレートできることを示す。 我々のモデルは、データからエンドツーエンドに訓練され、最先端のAthena++エンジンによって生成される軌道を含む、様々な挑戦的なカオスと乱流のダイナミクスを低解像度で学習することができる。 学習した乱流シミュレーション文献から,より単純で汎用的なアーキテクチャが,より特殊で乱流特有のアーキテクチャよりも優れていることを示す。 一般に,学習シミュレータは不安定な軌跡を生じさせるが,トレーニングノイズのチューニングや時間的ダウンサンプリングがこの問題を解決していることを示す。 トレーニング分布を超えた一般化は,学習モデルや学習ノイズ,畳み込みアーキテクチャ,損失制約の追加といった面でも有効であることがわかった。 より広範に、学習シミュレータは、粗いグリッド上での従来の解法よりも優れており、単純な設計選択は安定性と堅牢な一般化をもたらすことを強調する。

Turbulence simulation with classical numerical solvers requires very high-resolution grids to accurately resolve dynamics. Here we train learned simulators at low spatial and temporal resolutions to capture turbulent dynamics generated at high resolution. We show that our proposed model can simulate turbulent dynamics more accurately than classical numerical solvers at the same low resolutions across various scientifically relevant metrics. Our model is trained end-to-end from data and is capable of learning a range of challenging chaotic and turbulent dynamics at low resolution, including trajectories generated by the state-of-the-art Athena++ engine. We show that our simpler, general-purpose architecture outperforms various more specialized, turbulence-specific architectures from the learned turbulence simulation literature. In general, we see that learned simulators yield unstable trajectories; however, we show that tuning training noise and temporal downsampling solves this problem. We also find that while generalization beyond the training distribution is a challenge for learned models, training noise, convolutional architectures, and added loss constraints can help. Broadly, we conclude that our learned simulator outperforms traditional solvers run on coarser grids, and emphasize that simple design choices can offer stability and robust generalization.
翻訳日:2022-01-05 11:49:47 公開日:2022-01-04
# (参考訳) プログラム合成による計算,微分方程式,線形代数学など,ニューラルネットワークが数学問題を解いて生成する

A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More ( http://arxiv.org/abs/2112.15594v2 )

ライセンス: CC BY 4.0
Iddo Drori, Sunny Tran, Roman Wang, Newman Cheng, Kevin Liu, Leonard Tang, Elizabeth Ke, Nikhil Singh, Taylor L. Patti, Jayson Lynch, Avi Shporer, Nakul Verma, Eugene Wu, Gilbert Strang(参考訳) テキストで事前学習し、コードで微調整したニューラルネットワークが、プログラム合成によって数学の問題を解くことを実証する。 We turn questions into programming tasks, automatically generate programs, and then execute them, perfectly solving university-level problems from MIT's large Mathematics courses (Single Variable Calculus 18.01, Multivariable Calculus 18.02, Differential Equations 18.03, Introduction to Probability and Statistics 18.05, Linear Algebra 18.06, and Mathematics for Computer Science 6.042), Columbia University's COMS3251 Computational Linear Algebra course, as well as questions from a MATH dataset (on Prealgebra, Algebra, Counting and Probability, Number Theory, and Precalculus), the latest benchmark of advanced mathematics problems specifically designed to assess mathematical reasoning. 提案手法では,プロットによる解を含む問題解決プログラムをトランスフォーマーが生成できるようにする。 各トピックにおけるランダムな質問のサンプルに対して正しい回答を生成する。 原質問と変換された質問のギャップを定量化し,生成した質問の品質と難易度を評価する調査を行う。 これは、大学レベルの数学コースの質問を自動的に解き、評価し、生成する最初の作品である。 これは高等教育のマイルストーンである。

We demonstrate that a neural network pre-trained on text and fine-tuned on code solves Mathematics problems by program synthesis. We turn questions into programming tasks, automatically generate programs, and then execute them, perfectly solving university-level problems from MIT's large Mathematics courses (Single Variable Calculus 18.01, Multivariable Calculus 18.02, Differential Equations 18.03, Introduction to Probability and Statistics 18.05, Linear Algebra 18.06, and Mathematics for Computer Science 6.042), Columbia University's COMS3251 Computational Linear Algebra course, as well as questions from a MATH dataset (on Prealgebra, Algebra, Counting and Probability, Number Theory, and Precalculus), the latest benchmark of advanced mathematics problems specifically designed to assess mathematical reasoning. We explore prompt generation methods that enable Transformers to generate question solving programs for these subjects, including solutions with plots. We generate correct answers for a random sample of questions in each topic. We quantify the gap between the original and transformed questions and perform a survey to evaluate the quality and difficulty of generated questions. This is the first work to automatically solve, grade, and generate university-level Mathematics course questions at scale. This represents a milestone for higher education.
翻訳日:2022-01-05 11:44:38 公開日:2022-01-04
# (参考訳) 知識ベースによる食品安全出版物の話題分類 [全文訳有]

Topical Classification of Food Safety Publications with a Knowledge Base ( http://arxiv.org/abs/2201.00374v2 )

ライセンス: CC BY 4.0
Piotr Sowinski, Katarzyna Wasielewska-Michniew ska, Maria Ganzha, Marcin Paprzycki(参考訳) 多くの科学出版物は、与えられた研究課題に関連するものを見つけ、その根拠に基づいて情報的決定を行うという課題が増えていることを示している。 これは自動化ツールを使わずに非常に難しくなります。 ここで、改善すべき1つの領域は、そのトピックに応じた出版要約の自動分類である。 本研究は,新しい知識ベース指向出版分類器を提案する。 提案手法はスケーラビリティと他のドメインへの適応性の向上に重点を置いている。 分類速度と精度は、非常に要求の多い食品安全分野において満足できる。 本手法のさらなる開発と評価は,提案手法が大きな可能性を示すため必要である。

The vast body of scientific publications presents an increasing challenge of finding those that are relevant to a given research question, and making informed decisions on their basis. This becomes extremely difficult without the use of automated tools. Here, one possible area for improvement is automatic classification of publication abstracts according to their topic. This work introduces a novel, knowledge base-oriented publication classifier. The proposed method focuses on achieving scalability and easy adaptability to other domains. Classification speed and accuracy are shown to be satisfactory, in the very demanding field of food safety. Further development and evaluation of the method is needed, as the proposed approach shows much potential.
翻訳日:2022-01-05 11:42:37 公開日:2022-01-04
# グラフに基づく自己チューニングネットワークによる高調波画像再構成

Calibrated Hyperspectral Image Reconstruction via Graph-based Self-Tuning Network ( http://arxiv.org/abs/2112.15362v2 )

ライセンス: Link先を確認
Jiamian Wang, Yulun Zhang, Xin Yuan, Ziyi Meng, Zhiqiang Tao(参考訳) 近年,高スペクトルイメージング(HSI)が注目され,特にCASSI(コーデック・アパーチャ・スナップショット・スペクトル・イメージング)システムに基づく画像が注目されている。 既存の深いHSI再構成モデルは、CASSIの特定の光学ハードウェアマスクによって与えられる2次元圧縮された測定に基づいて元の信号を取得するためにペア化されたデータに基づいて訓練され、その間、マスクは復元性能に大きな影響を与え、データ拡張を統括する「モデルハイパーパラメータ」として機能する。 このマスク固有のトレーニングスタイルは、ハードウェアの誤校正問題を引き起こし、異なるハードウェアとノイズの多い環境間で深いHSIモデルをデプロイする障壁を設定できる。 この課題に対処するために,完全変分ベイズ学習処理によるhsiのマスク不確実性を導入し,実際のハードウェアに触発されたマスク分解を通じて明示的にモデル化する。 具体的には,異なるハードウェア間のマスクの空間構造に不確実性を適用するための,新しいグラフ型自己チューニング(gst)ネットワークを提案する。 さらに,マスクのハイパーパラメータ特性を考慮したhsi再構成と不確実性推定を両立する2レベル最適化フレームワークを開発した。 提案したGST法の有効性(33/30dB以上)を2つの誤校正シナリオで検証し,最先端の校正手法と比較して高い競争性能を示した。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/J iamian-Wang/mask_unc ertainty_spectral_SC Iで利用可能です。

Recently, hyperspectral imaging (HSI) has attracted increasing research attention, especially for the ones based on a coded aperture snapshot spectral imaging (CASSI) system. Existing deep HSI reconstruction models are generally trained on paired data to retrieve original signals upon 2D compressed measurements given by a particular optical hardware mask in CASSI, during which the mask largely impacts the reconstruction performance and could work as a "model hyperparameter" governing on data augmentations. This mask-specific training style will lead to a hardware miscalibration issue, which sets up barriers to deploying deep HSI models among different hardware and noisy environments. To address this challenge, we introduce mask uncertainty for HSI with a complete variational Bayesian learning treatment and explicitly model it through a mask decomposition inspired by real hardware. Specifically, we propose a novel Graph-based Self-Tuning (GST) network to reason uncertainties adapting to varying spatial structures of masks among different hardware. Moreover, we develop a bilevel optimization framework to balance HSI reconstruction and uncertainty estimation, accounting for the hyperparameter property of masks. Extensive experimental results and model discussions validate the effectiveness (over 33/30 dB) of the proposed GST method under two miscalibration scenarios and demonstrate a highly competitive performance compared with the state-of-the-art well-calibrated methods. Our code and pre-trained model are available at https://github.com/J iamian-Wang/mask_unc ertainty_spectral_SC I
翻訳日:2022-01-05 11:26:44 公開日:2022-01-04
# ライセンスプレート認識におけるクロスデータセット一般化について

On the Cross-dataset Generalization in License Plate Recognition ( http://arxiv.org/abs/2201.00267v2 )

ライセンス: Link先を確認
Rayson Laroca, Everton V. Cardoso, Diego R. Lucio, Valter Estevam, David Menotti(参考訳) ALPR(Automatic License Plate Recognition)システムは、ディープラーニングの進歩とデータセットの可用性の向上により、複数のリージョンのライセンスプレート(LP)に顕著な性能を示した。 深層alprシステムの評価は通常、各データセット内で行われ、その結果が一般化能力の信頼できる指標であるかどうか疑問視される。 本稿では,様々な側面(例えば取得設定,画像解像度,lpレイアウトなど)で利用可能な9つのデータセットのlp認識に適用される12の光学文字認識 (ocr) モデルのクロスデータセット一般化を実証的に評価するための,従来型スプリット対残1データセット実験的なセットアップを提案する。 我々はまた、Mercosur LPを用いた車両画像と、最も多くのオートバイ画像を含む車両画像を含む、エンドツーエンドALPRのためのパブリックデータセットも導入した。 実験結果は、alprコンテキストにおけるアプローチ評価のための従来のスプリットプロトコルの限界に光を当てた。モデルのトレーニングとテストにおいて、ほとんどのデータセットのパフォーマンスが大幅に低下するからだ。

Automatic License Plate Recognition (ALPR) systems have shown remarkable performance on license plates (LPs) from multiple regions due to advances in deep learning and the increasing availability of datasets. The evaluation of deep ALPR systems is usually done within each dataset; therefore, it is questionable if such results are a reliable indicator of generalization ability. In this paper, we propose a traditional-split versus leave-one-dataset-ou t experimental setup to empirically assess the cross-dataset generalization of 12 Optical Character Recognition (OCR) models applied to LP recognition on nine publicly available datasets with a great variety in several aspects (e.g., acquisition settings, image resolution, and LP layouts). We also introduce a public dataset for end-to-end ALPR that is the first to contain images of vehicles with Mercosur LPs and the one with the highest number of motorcycle images. The experimental results shed light on the limitations of the traditional-split protocol for evaluating approaches in the ALPR context, as there are significant drops in performance for most datasets when training and testing the models in a leave-one-dataset-ou t fashion.
翻訳日:2022-01-05 11:26:18 公開日:2022-01-04
# オープンワールドオブジェクト検出の再検討

Revisiting Open World Object Detection ( http://arxiv.org/abs/2201.00471v2 )

ライセンス: Link先を確認
Xiaowei Zhao, Xianglong Liu, Yifan Shen, Yixuan Qiao, Yuqing Ma, Duorui Wang(参考訳) Open World Object Detection (OWOD)は、知識が継続的に成長する現実世界をシミュレーションし、未知のクラスと未知のクラスの両方を検出し、識別された未知のクラスを漸進的に学習しようとする。 OWOD の定義は,従来の OWOD の作業のみが構成的に推し進めたものの,実験的な設定は非論理的ベンチマークと不合理であり,計量計算を混乱させ,不適切な方法であることがわかった。 本稿では,OWOD 実験設定を再考し,OWOD ベンチマーク構築の指針となる5つの基本ベンチマーク原理を提案する。 さらに,OWOD問題に特有な2つの公正評価プロトコルを設計し,未知のクラスの観点から評価する余地を埋める。 さらに,提案アドバイザ (PAD) とクラス固有の排他的分類器 (CEC) を含む新規かつ効果的なOWODフレームワークを提案する。 非パラメトリックPADは、RPNが監督なしで正確な未知の提案を特定するのを補助し、CECは過信のアクティベーション境界を校正し、クラス固有の排出関数を通じて混乱した予測をフィルタリングする。 試行錯誤実験の結果,本手法は既存指標と新指標の両方の観点から,他の最先端のオブジェクト検出手法よりも優れていることが示された。 ベンチマークとコードはhttps://github.com/R E-OWOD/RE-OWOD.comで公開しています。

Open World Object Detection (OWOD), simulating the real dynamic world where knowledge grows continuously, attempts to detect both known and unknown classes and incrementally learn the identified unknown ones. We find that although the only previous OWOD work constructively puts forward to the OWOD definition, the experimental settings are unreasonable with the illogical benchmark, confusing metric calculation, and inappropriate method. In this paper, we rethink the OWOD experimental setting and propose five fundamental benchmark principles to guide the OWOD benchmark construction. Moreover, we design two fair evaluation protocols specific to the OWOD problem, filling the void of evaluating from the perspective of unknown classes. Furthermore, we introduce a novel and effective OWOD framework containing an auxiliary Proposal ADvisor (PAD) and a Class-specific Expelling Classifier (CEC). The non-parametric PAD could assist the RPN in identifying accurate unknown proposals without supervision, while CEC calibrates the over-confident activation boundary and filters out confusing predictions through a class-specific expelling function. Comprehensive experiments conducted on our fair benchmark demonstrate that our method outperforms other state-of-the-art object detection approaches in terms of both existing and our new metrics. Our benchmark and code are available at https://github.com/R E-OWOD/RE-OWOD.
翻訳日:2022-01-05 11:25:56 公開日:2022-01-04
# 可搬性畳み込みによる高速高画質画像の雑音化

Fast and High-Quality Image Denoising via Malleable Convolutions ( http://arxiv.org/abs/2201.00392v2 )

ライセンス: Link先を確認
Yifan Jiang, Bart Wronski, Ben Mildenhall, Jon Barron, Zhangyang Wang, Tianfan Xue(参考訳) 多くの画像処理ネットワークは入力画像全体にわたって1組の静的畳み込みカーネルを適用している。 近年の分類、セグメント化、画像復元の研究は、局所的な画像統計のモデリングにおいて、動的カーネルが静的カーネルより優れていることを示した。 しかし、これらの作品はしばしばピクセル単位の畳み込みカーネルを採用し、高いメモリと計算コストをもたらす。 空間変動処理を実現するために,動的畳み込みの効率的な変種としてmaleable convolution (malleconv)を提案する。 malleconvの重みは、特定の空間でコンテンツ依存の出力を生成できる効率的な予測ネットワークによって動的に生成される。 以前の作品とは異なり、mareconvは入力から空間的に変動するカーネルの集合を生成し、ネットワークの受容野を拡大し、計算コストとメモリコストを大幅に削減する。 これらのカーネルは、メモリオーバーヘッドを最小限にした効率的なスライス・アンド・コンブ演算子を通じて、フル解像度の機能マップに適用される。 さらに,mallenet と呼ばれる malleconv を用いた効率的なデノージングネットワークを構築する。 非常に深いアーキテクチャを使わずに高品質な結果を達成し、例えば、最高の性能の復調アルゴリズム(SwinIR)と比較して8.91倍高速に到達し、同様の性能を維持している。 また、標準的な畳み込みベースのバックボーンに1つのMalleConvを追加することで、計算コストの削減や画像品質の向上に大きく貢献することを示す。 プロジェクトページ:https://yifanjiang. net/MalleConv.html

Many image processing networks apply a single set of static convolutional kernels across the entire input image, which is sub-optimal for natural images, as they often consist of heterogeneous visual patterns. Recent works in classification, segmentation, and image restoration have demonstrated that dynamic kernels outperform static kernels at modeling local image statistics. However, these works often adopt per-pixel convolution kernels, which introduce high memory and computation costs. To achieve spatial-varying processing without significant overhead, we present Malleable Convolution (MalleConv), as an efficient variant of dynamic convolution. The weights of MalleConv are dynamically produced by an efficient predictor network capable of generating content-dependent outputs at specific spatial locations. Unlike previous works, MalleConv generates a much smaller set of spatially-varying kernels from input, which enlarges the network's receptive field and significantly reduces computational and memory costs. These kernels are then applied to a full-resolution feature map through an efficient slice-and-conv operator with minimum memory overhead. We further build an efficient denoising network using MalleConv, coined as MalleNet. It achieves high quality results without very deep architecture, e.g., reaching 8.91x faster speed compared to the best performed denoising algorithms (SwinIR), while maintaining similar performance. We also show that a single MalleConv added to a standard convolution-based backbone can contribute significantly to reducing the computational cost or boosting image quality at a similar cost. Project page: https://yifanjiang.n et/MalleConv.html
翻訳日:2022-01-05 11:25:35 公開日:2022-01-04
# パーコレーションと有向パーコレーションにおける相転移の転移学習

Transfer learning of phase transitions in percolation and directed percolation ( http://arxiv.org/abs/2112.15516v3 )

ライセンス: Link先を確認
Jianmin Shen, Feiyi Liu, Shiyang Chen, Dian Xu, Xiangna Chen, Shengfeng Deng, Wei Li, Gabor Papp, Chunbin Yang(参考訳) 統計物理学の最近の進歩は、位相遷移の同定における機械学習の顕著な性能を示している。 本稿では,伝達学習に基づくドメイン逆ニューラルネットワーク(dann)を,それぞれパーコレーションモデルと指向型パーコレーション(dp)モデルである非平衡相転移モデルと平衡相転移モデルの研究に適用する。 DANNでは、臨界点を捉えるために、少数の入力構成(2d画像)にラベルを付ける必要があり、それが自動的に選択される。 DPモデルを学習するために、クリティカル指数$\nu_{\perp}$を計算する際のデータ崩壊の前提条件である臨界点を決定する反復的な手順により、この手法を洗練する。 次に,順序パラメータに関連する情報を含む可能性のある最大のクラスタのみを含むようにフィルタされた2次元のサイトパーコレーションに適用する。 両モデルのDANN学習はモンテカルロシミュレーションに匹敵する信頼性の高い結果をもたらす。 また,本研究では,教師付き学習に比べて,極めて低いコストで極めて高い精度が得られることを示した。

The latest advances of statistical physics have shown remarkable performance of machine learning in identifying phase transitions. In this paper, we apply domain adversarial neural network (DANN) based on transfer learning to studying non-equilibrium and equilibrium phase transition models, which are percolation model and directed percolation (DP) model, respectively. With the DANN, only a small fraction of input configurations (2d images) needs to be labeled, which is automatically chosen, in order to capture the critical point. To learn the DP model, the method is refined by an iterative procedure in determining the critical point, which is a prerequisite for the data collapse in calculating the critical exponent $\nu_{\perp}$. We then apply the DANN to a two-dimensional site percolation with configurations filtered to include only the largest cluster which may contain the information related to the order parameter. The DANN learning of both models yields reliable results which are comparable to the ones from Monte Carlo simulations. Our study also shows that the DANN can achieve quite high accuracy at much lower cost, compared to the supervised learning.
翻訳日:2022-01-05 11:25:07 公開日:2022-01-04