このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210522となっている論文です。

PDF登録状況(公開日: 20210522)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 自然言語処理を用いたヘイト音声自動検出の体系的検討

A systematic review of Hate Speech automatic detection using Natural Language Processing ( http://arxiv.org/abs/2106.00742v1 )

ライセンス: CC BY 4.0
Md Saroar Jahan, Mourad Oussalah(参考訳) 匿名性、アクセス容易性、オンラインコミュニティ形成、オンラインの議論などのソーシャルメディアプラットフォームの普及により、ヘイトスピーチの検出と追跡の問題は、社会、個人、政策立案者、研究者にとってますます困難になっている。 自動検出と監視に自動技術を活用する努力にもかかわらず、その性能は依然として満足のいくものではない。 本稿では,自然言語処理とディープラーニング技術に焦点をあて,用語,処理パイプライン,コアメソッド,ディープラーニングアーキテクチャに焦点をあてて,本分野の文献を体系的にレビューする。 方法論的な観点からは,acmデジタルライブラリーとgoogle scholarによる過去10年間の文献体系的レビューのprismaガイドラインを採用する。 続編では、既存の調査、限界、今後の研究方向性が広く議論されている。

With the multiplication of social media platforms, which offer anonymity, easy access and online community formation, and online debate, the issue of hate speech detection and tracking becomes a growing challenge to society, individual, policy-makers and researchers. Despite efforts for leveraging automatic techniques for automatic detection and monitoring, their performances are still far from satisfactory, which constantly calls for future research on the issue. This paper provides a systematic review of literature in this field, with a focus on natural language processing and deep learning technologies, highlighting the terminology, processing pipeline, core methods employed, with a focal point on deep learning architecture. From a methodological perspective, we adopt PRISMA guideline of systematic review of the last 10 years literature from ACM Digital Library and Google Scholar. In the sequel, existing surveys, limitations, and future research directions are extensively discussed.
翻訳日:2021-06-06 09:51:58 公開日:2021-05-22
# Deep Feature Crossing Networkによる説明可能なエンタープライズクレジットレーティング

Explainable Enterprise Credit Rating via Deep Feature Crossing Network ( http://arxiv.org/abs/2105.13843v1 )

ライセンス: Link先を確認
Weiyu Guo, Zhijiang Yang, Shu Wu, Fu Chen(参考訳) 高階および非線形特徴に対する強力な学習能力のため、ディープニューラルネットワーク(DNN)は様々な分野のデータマイニングや機械学習に適用されており、従来の手法よりも高い識別性能を示している。 しかし、DNNに基づくアプリケーションは、ほとんどのDNNが「エンドツーエンド」学習パラダイムを採用しており、説明なしにオブジェクトの高階表現と予測結果を出力しているため、企業の信用格付けタスクではまれである。 したがって、金融業界のユーザは、これらのハイランクな表現がどのように生成されるのか、その意味や生の入力とどのような関係があるのかを理解できない。 するとユーザは、DNNが提供する予測が信頼できるかどうかを判断できず、そのような「ブラックボックス」モデルによって提供される予測を信頼できない。 そこで本稿では,DNNとアテンション機構を用いて,企業信用格付け問題を明確にモデル化するネットワークを提案する。 提案モデルは、説明可能な企業信用格付けを実現する。 実世界の企業データセットで得られた実験結果は,提案手法が従来の手法よりも高い性能を達成し,個々の評価結果とモデルトレーニングの信頼性に関する洞察を提供する。

Due to the powerful learning ability on high-rank and non-linear features, deep neural networks (DNNs) are being applied to data mining and machine learning in various fields, and exhibit higher discrimination performance than conventional methods. However, the applications based on DNNs are rare in enterprise credit rating tasks because most of DNNs employ the "end-to-end" learning paradigm, which outputs the high-rank representations of objects and predictive results without any explanations. Thus, users in the financial industry cannot understand how these high-rank representations are generated, what do they mean and what relations exist with the raw inputs. Then users cannot determine whether the predictions provided by DNNs are reliable, and not trust the predictions providing by such "black box" models. Therefore, in this paper, we propose a novel network to explicitly model the enterprise credit rating problem using DNNs and attention mechanisms. The proposed model realizes explainable enterprise credit ratings. Experimental results obtained on real-world enterprise datasets verify that the proposed approach achieves higher performance than conventional methods, and provides insights into individual rating results and the reliability of model training.
翻訳日:2021-06-06 08:52:16 公開日:2021-05-22
# (参考訳) 緊急障害物回避マニキュアへの自律走行車統合アプローチの展望

A Review of Autonomous Road Vehicle Integrated Approaches to an Emergency Obstacle Avoidance Maneuver ( http://arxiv.org/abs/2105.09446v2 )

ライセンス: CC BY-SA 4.0
Evan Lowe, Levent Guven\c{c}(参考訳) 旅客車両の技術が進歩するにつれて、特にタイヤ、サスペンション、ステアリング、ABS、ESC、最近ではADASシステムといった安全技術の開発において、障害物を避ける能力を持つようになった。 しかし、乗用車を取り巻く環境はより複雑で危険なものになっている。 以前は、乗用車の運転中に障害物を避けようとするドライバーの傾向と性能を概説する研究があった。 現在、自動運転車は障害物回避機能を備えた開発が進んでいるため、人間のドライバーを満足または超越した性能を目標にすることが重要である。 本本書は,緊急障害物回避操作(eoam)に不可欠なシステムを強調し,高速道路走行時のニュアンスを考慮しながら,関連するシステム毎の最先端を特定する。 このレビューで議論されているeoam関連システム/領域は、一般的な経路計画法、システム階層、意思決定、軌道生成、軌道追跡制御法である。 コメントを締めくくった後、理想的なEOAM開発に繋がる将来の仕事の提案について論じる。

As passenger vehicle technologies have advanced, so have their capabilities to avoid obstacles, especially with developments in tires, suspensions, steering, as well as safety technologies like ABS, ESC, and more recently, ADAS systems. However, environments around passenger vehicles have also become more complex, and dangerous. There have previously been studies that outline driver tendencies and performance capabilities when attempting to avoid obstacles while driving passenger vehicles. Now that autonomous vehicles are being developed with obstacle avoidance capabilities, it is important to target performance that meets or exceeds that of human drivers. This manuscript highlights systems that are crucial for an emergency obstacle avoidance maneuver (EOAM) and identifies the state-of-the-art for each of the related systems, while considering the nuances of traveling at highway speeds. Some of the primary EOAM-related systems/areas that are discussed in this review are: general path planning methods, system hierarchies, decision-making, trajectory generation, and trajectory-tracking control methods. After concluding remarks, suggestions for future work which could lead to an ideal EOAM development, are discussed.
翻訳日:2021-05-29 19:59:10 公開日:2021-05-22
# (参考訳) 物体検出のための知識蒸留の再検討 [全文訳有]

Revisiting Knowledge Distillation for Object Detection ( http://arxiv.org/abs/2105.10633v1 )

ライセンス: CC BY 4.0
Amin Banitalebi-Dehkordi(参考訳) 既存のオブジェクト検出蒸留のソリューションは、教師モデルとグランドトラスラベルの両方の可用性に依存している。 この制約を緩和する新たな視点を提案する。 私たちのフレームワークでは、まず教師が生成した擬似ラベルで生徒を訓練し、可能であればラベル付きデータを使って微調整します。 広範な実験により、既存のオブジェクト検出蒸留アルゴリズムよりも改善が示されている。 また、この枠組みにおける教師の分離と接地蒸留は、1)学生のパフォーマンスをさらに改善するためにラベルのないデータを使用すること、2)異なるアーキテクチャの複数の教師モデルと異なるオブジェクトカテゴリを組み合わせること、3)ラベル付きデータの必要性を減らすこと、(cocoラベルの20%しか持たないこの方法は、ラベルのセットでトレーニングされたモデルと同等の性能を達成している。 さらに、このアプローチの副産物は、ドメイン適応の潜在的利用である。 これらの性質は広範な実験を通じて検証する。

The existing solutions for object detection distillation rely on the availability of both a teacher model and ground-truth labels. We propose a new perspective to relax this constraint. In our framework, a student is first trained with pseudo labels generated by the teacher, and then fine-tuned using labeled data, if any available. Extensive experiments demonstrate improvements over existing object detection distillation algorithms. In addition, decoupling the teacher and ground-truth distillation in this framework provides interesting properties such: as 1) using unlabeled data to further improve the student's performance, 2) combining multiple teacher models of different architectures, even with different object categories, and 3) reducing the need for labeled data (with only 20% of COCO labels, this method achieves the same performance as the model trained on the entire set of labels). Furthermore, a by-product of this approach is the potential usage for domain adaptation. We verify these properties through extensive experiments.
翻訳日:2021-05-27 10:33:03 公開日:2021-05-22
# (参考訳) ラベルから学ぶための2段階学習 [全文訳有]

Two-stage Training for Learning from Label Proportions ( http://arxiv.org/abs/2105.10635v1 )

ライセンス: CC BY 4.0
Jiabin Liu, Bo Wang, Xin Shen, Zhiquan Qi, Yingjie Tian(参考訳) ラベルパーセンテージ(LLP)からの学習は、グループ化されたトレーニングデータにおけるラベルパーセンテージを持つインスタンスレベルの分類器の学習を目的としている。 既存のディープラーニングに基づくLPP手法では,バッグレベルの事前分布と後続のクラス分布とのKulback-Leibler分散による比例損失を得るために,エンドツーエンドのパイプラインを利用する。 しかし、この目的に対する制約のない最適化は、与えられた比率に応じて解に達することはほとんどできない。 さらに、確率的分類器に関して、この戦略は必然的にインスタンスレベルでの高エントロピー条件付きクラス分布をもたらす。 これらの問題は、インスタンスレベルの分類のパフォーマンスをさらに低下させる。 本稿では,これらの問題をノイズの多い擬似ラベリングと捉え,制約付き最適化を既存のllp分類器の連続学習段階として分類器に厳密な比例一貫性を課す。 さらに,ラベルノイズをさらに低減するために,混合戦略と対称クロスエントロピーを導入する。 我々のフレームワークはモデル非依存であり、他の深層LPPモデルにポストホックフェーズとして組み込む場合、広範囲な実験において魅力的な性能向上を示す。

Learning from label proportions (LLP) aims at learning an instance-level classifier with label proportions in grouped training data. Existing deep learning based LLP methods utilize end-to-end pipelines to obtain the proportional loss with Kullback-Leibler divergence between the bag-level prior and posterior class distributions. However, the unconstrained optimization on this objective can hardly reach a solution in accordance with the given proportions. Besides, concerning the probabilistic classifier, this strategy unavoidably results in high-entropy conditional class distributions at the instance level. These issues further degrade the performance of the instance-level classification. In this paper, we regard these problems as noisy pseudo labeling, and instead impose the strict proportion consistency on the classifier with a constrained optimization as a continuous training stage for existing LLP classifiers. In addition, we introduce the mixup strategy and symmetric crossentropy to further reduce the label noise. Our framework is model-agnostic, and demonstrates compelling performance improvement in extensive experiments, when incorporated into other deep LLP models as a post-hoc phase.
翻訳日:2021-05-27 10:09:45 公開日:2021-05-22
# (参考訳) 深部インバーチブルハイブリッドモデルを用いた半スーパービジョンFew-Shot分類 [全文訳有]

Semi-Supervised Few-Shot Classification with Deep Invertible Hybrid Models ( http://arxiv.org/abs/2105.10644v1 )

ライセンス: CC BY 4.0
Yusuke Ohtsubo, Tetsu Matsukawa, Einoshin Suzuki(参考訳) 本稿では,半教師付き少数ショット分類のための潜在空間レベルでの判別学習と生成学習を統合する,深い可逆ハイブリッドモデルを提案する。 画像データから新種を分類するための様々なタスクは、ラベル付きおよびラベルなしのトレーニング例とターゲットクラスの小さなサポートセットを想定した半教師付き少数ショット分類としてモデル化することができる。 クラス毎にいくつかのサポート例を持つ対象クラスを予測することにより,自己学習を含む既存の半教師付き分類手法の学習タスクを困難にし,未ラベルのトレーニング例のクラスラベルを反復的に推定して,トレーニングクラスの分類器を学習する。 ラベル付けされていない学習例を効果的に活用するために,識別学習と生成学習を統合し,パラメータ結合よりも深層ニューラルネットワークに適する合成可能性の目的関数として,他の一般的な統合学習アプローチを採用した。 提案モデルでは, 識別モデルと生成モデルはそれぞれ, 各種の少ショット学習において優れた性能を示したプロトタイプ型ネットワークと, VAE, GAN, 自己回帰モデルといった他の3つの主要な手法と異なり, 真正差率を返す深い可逆モデルであるフローを正規化する。 私たちの主な独創性は、これらのコンポーネントを潜在的な空間レベルで統合することにあります。 mini-ImageNetとVGG-Faceデータセットを用いた実験により,本手法は自己学習に基づくプロトタイプネットワークよりも優れていた。

In this paper, we propose a deep invertible hybrid model which integrates discriminative and generative learning at a latent space level for semi-supervised few-shot classification. Various tasks for classifying new species from image data can be modeled as a semi-supervised few-shot classification, which assumes a labeled and unlabeled training examples and a small support set of the target classes. Predicting target classes with a few support examples per class makes the learning task difficult for existing semi-supervised classification methods, including selftraining, which iteratively estimates class labels of unlabeled training examples to learn a classifier for the training classes. To exploit unlabeled training examples effectively, we adopt as the objective function the composite likelihood, which integrates discriminative and generative learning and suits better with deep neural networks than the parameter coupling prior, the other popular integrated learning approach. In our proposed model, the discriminative and generative models are respectively Prototypical Networks, which have shown excellent performance in various kinds of few-shot learning, and Normalizing Flow a deep invertible model which returns the exact marginal likelihood unlike the other three major methods, i.e., VAE, GAN, and autoregressive model. Our main originality lies in our integration of these components at a latent space level, which is effective in preventing overfitting. Experiments using mini-ImageNet and VGG-Face datasets show that our method outperforms selftraining based Prototypical Networks.
翻訳日:2021-05-27 09:46:53 公開日:2021-05-22
# (参考訳) 放射線治療後PET画像の生体モデル誘導による深層学習による予後予測 : 口腔咽頭癌応用の可能性 [全文訳有]

Post-Radiotherapy PET Image Outcome Prediction by Deep Learning under Biological Model Guidance: A Feasibility Study of Oropharyngeal Cancer Application ( http://arxiv.org/abs/2105.10650v1 )

ライセンス: CC BY 4.0
Hangjie Ji, Kyle Lafata, Yvonne Mowery, David Brizel, Andrea L. Bertozzi, Fang-Fang Yin, Chunhao Wang(参考訳) 本稿では,放射線照射後FDG-PET画像結果予測のための生物学的誘導深層学習法を開発した。 従来の反応拡散機構に基づいて,空間放射線線量分布を患者固有の治療情報変数とする偏微分方程式を用いて,新しい生物学的モデルを提案した。 7層エンコーダをベースとした畳み込みニューラルネットワーク(CNN)が設計され,提案する生物モデルを学ぶために訓練された。 その結果, 放射線照射後のFDG-PET画像結果の予測は, 放射線照射前の画像状態から放射線照射後の画像状態へ移行する可能性が示唆された。 IMRTによる20Gy導入前後(日量2Gy/日分)にFDG-PETを併用した64例の口腔咽頭患者を用いて本法を開発した。 2ブランチのディープラーニング実行において、提案したCNNは、一方のブランチのように、ペア化されたFDG-PET画像と空間線量分布から生物学的モデルの特定の用語を学習し、他方のブランチで20Gy後のFDG-PET画像予測を生成する。 提案手法は,生物モデル成分の分解図を用いた20Gy後のFDG-PET画像結果の予測に成功した。 fdg-pet画像の時系列予測が作成され,疾患応答の再現性が実証された。 本手法は,20Gy後のFDG-PET画像結果の予測を基調とよく一致させる。 生物学的モデリングコンポーネントのブレークダウンでは、適応的放射線治療決定に結果イメージ予測を用いて、パーソナライズされたプランを将来最高の結果に最適化することができる。

This paper develops a method of biologically guided deep learning for post-radiation FDG-PET image outcome prediction based on pre-radiation images and radiotherapy dose information. Based on the classic reaction-diffusion mechanism, a novel biological model was proposed using a partial differential equation that incorporates spatial radiation dose distribution as a patient-specific treatment information variable. A 7-layer encoder-decoder-base d convolutional neural network (CNN) was designed and trained to learn the proposed biological model. As such, the model could generate post-radiation FDG-PET image outcome predictions with possible time-series transition from pre-radiotherapy image states to post-radiotherapy states. The proposed method was developed using 64 oropharyngeal patients with paired FDG-PET studies before and after 20Gy delivery (2Gy/daily fraction) by IMRT. In a two-branch deep learning execution, the proposed CNN learns specific terms in the biological model from paired FDG-PET images and spatial dose distribution as in one branch, and the biological model generates post-20Gy FDG-PET image prediction in the other branch. The proposed method successfully generated post-20Gy FDG-PET image outcome prediction with breakdown illustrations of biological model components. Time-series FDG-PET image predictions were generated to demonstrate the feasibility of disease response rendering. The developed biologically guided deep learning method achieved post-20Gy FDG-PET image outcome predictions in good agreement with ground-truth results. With break-down biological modeling components, the outcome image predictions could be used in adaptive radiotherapy decision-making to optimize personalized plans for the best outcome in the future.
翻訳日:2021-05-27 09:27:23 公開日:2021-05-22
# (参考訳) 2021年のフェイクニュース:ウイルスの拡散は止められるか?

SOK: Fake News Outbreak 2021: Can We Stop the Viral Spread? ( http://arxiv.org/abs/2105.10671v1 )

ライセンス: CC BY 4.0
Tanveer Khan, Antonis Michalas, Adnan Akhunzada(参考訳) ソーシャルネットワークの全能性と使いやすさは、今日の世界の情報の生成と流通に革命をもたらした。 しかし、情報への容易なアクセスは、公共知識の増加と同等ではない。 従来のメディアチャネルとは異なり、ソーシャルネットワークは偽情報や誤情報の迅速かつ広範な拡散を促進する。 虚偽情報の拡散は、大衆の行動、態度、信念に深刻な影響を及ぼし、究極的には民主主義の過程を脅かす可能性がある。 偽情報の早期検出と広範囲な拡散の制御によるネガティブな影響を制限することは、今日研究者が直面する大きな課題である。 本稿では,既存文献におけるフェイクニュースの早期発見のための様々な手法を幅広く分析する。 より正確には、フェイクニュースの識別と分類のための機械学習(ml)モデル、オンラインフェイクニュース検出コンペティション、統計的アウトプット、利用可能なデータセットのいくつかの利点とデメリットについて検討する。 最後に,偽ニュースの検出と緩和に利用可能なオンラインwebブラウジングツールを評価し,公開研究課題を提示する。

Social Networks' omnipresence and ease of use has revolutionized the generation and distribution of information in today's world. However, easy access to information does not equal an increased level of public knowledge. Unlike traditional media channels, social networks also facilitate faster and wider spread of disinformation and misinformation. Viral spread of false information has serious implications on the behaviors, attitudes and beliefs of the public, and ultimately can seriously endanger the democratic processes. Limiting false information's negative impact through early detection and control of extensive spread presents the main challenge facing researchers today. In this survey paper, we extensively analyze a wide range of different solutions for the early detection of fake news in the existing literature. More precisely, we examine Machine Learning (ML) models for the identification and classification of fake news, online fake news detection competitions, statistical outputs as well as the advantages and disadvantages of some of the available data sets. Finally, we evaluate the online web browsing tools available for detecting and mitigating fake news and present some open research challenges.
翻訳日:2021-05-27 09:11:33 公開日:2021-05-22
# (参考訳) 膝X線自動生成装置 [全文訳有]

Automated Knee X-ray Report Generation ( http://arxiv.org/abs/2105.10702v1 )

ライセンス: CC BY 4.0
Aydan Gasimova, Giovanni Montana, Daniel Rueckert(参考訳) 予測モデルをトレーニングするために手動でアノテートされた画像を集めることは、専門の放射線技師の専門知識を必要とするため、自然画像よりも医学領域においてはるかに難しい。 そこで我々は,過去の放射線検査(特に膝X線検査)を活用し,画像と報告の対応を学習できる枠組みを定式化し,任意の数の画像ビューからなる所定のX線検査の診断レポートを生成することを提案する。 言語生成モデルの訓練において,個々の試験のイメージ特徴を集約し,条件入力として使用すると,放射線学者が作成した報告とよく相関する自動生成試験レポートが得られることを示す。

Gathering manually annotated images for the purpose of training a predictive model is far more challenging in the medical domain than for natural images as it requires the expertise of qualified radiologists. We therefore propose to take advantage of past radiological exams (specifically, knee X-ray examinations) and formulate a framework capable of learning the correspondence between the images and reports, and hence be capable of generating diagnostic reports for a given X-ray examination consisting of an arbitrary number of image views. We demonstrate how aggregating the image features of individual exams and using them as conditional inputs when training a language generation model results in auto-generated exam reports that correlate well with radiologist-generate d reports.
翻訳日:2021-05-27 09:10:24 公開日:2021-05-22
# (参考訳) リアルタイムUAVセマンティック通信のための注意に基づく強化学習 [全文訳有]

Attention-based Reinforcement Learning for Real-Time UAV Semantic Communication ( http://arxiv.org/abs/2105.10716v1 )

ライセンス: CC BY 4.0
Won Joon Yun, Byungju Lim, Soyi Jung, Young-Chai Ko, Jihong Park, Joongheon Kim, Mehdi Bennis(参考訳) 本稿では,移動地利用者を対象とした空対地超信頼性低遅延通信(URLLC)の問題点について検討する。 これは複数の無人航空機(uav)をリアルタイムで制御し、uav間の衝突を避けることで行われる。 そこで本稿では,グラフアテンション交換ネットワーク(GAXNet)を作成したマルチエージェント深部強化学習(MADRL)フレームワークを提案する。 GAXNetでは、各UAVは、近隣のUAVに対する注意度を局所的に測定するアテンショングラフを構築し、他のUAVとアテンション重みを交換することで、それらの間のアテンションミスマッチを低減する。 シミュレーションの結果は、GAXNetがトレーニング中に最大4.5倍の報酬を達成することを裏付けている。 GAXNetは、UAV間の衝突を発生させることなく、ターゲットの0.0000001エラー率に対して6.5倍のレイテンシを実現している。

In this article, we study the problem of air-to-ground ultra-reliable and low-latency communication (URLLC) for a moving ground user. This is done by controlling multiple unmanned aerial vehicles (UAVs) in real time while avoiding inter-UAV collisions. To this end, we propose a novel multi-agent deep reinforcement learning (MADRL) framework, coined a graph attention exchange network (GAXNet). In GAXNet, each UAV constructs an attention graph locally measuring the level of attention to its neighboring UAVs, while exchanging the attention weights with other UAVs so as to reduce the attention mismatch between them. Simulation results corroborates that GAXNet achieves up to 4.5x higher rewards during training. At execution, without incurring inter-UAV collisions, GAXNet achieves 6.5x lower latency with the target 0.0000001 error rate, compared to a state-of-the-art baseline framework.
翻訳日:2021-05-27 09:00:48 公開日:2021-05-22
# (参考訳) 機械学習回帰に基づく回路レベルシミュレーションのための単一イベント過渡モデリング手法 [全文訳有]

Machine Learning Regression based Single Event Transient Modeling Method for Circuit-Level Simulation ( http://arxiv.org/abs/2105.10723v1 )

ライセンス: CC BY 4.0
ChangQing Xu, Yi Liu, XinFang Liao, JiaLiang Cheng and YinTang Yang(参考訳) 本稿では,新しい機械学習回帰ベース単一イベントトランジェント(set)モデリング手法を提案する。 提案手法は複雑な物理機構を考慮せずに合理的かつ正確なモデルを得ることができる。 SMIC 130nmバルクCMOSのSET電流データは、異なる条件(例えば、TCADシミュレーション)で得られる。 異なるletと異なるドレインバイアス電圧)。 TCADシミュレーションからデータを学習することにより、SETパルス電流モデルを構築するために、多層フィードフォードワードニューラルネットワークを用いる。 提案モデルは,tcaシミュレーションによるシミュレーション結果によって検証される。 訓練されたセットパルス電流モデルは、ケイデンス・スペクタ回路シミュレータのverilog-a電流源として実装され、5つのファンアウトを持つインバータを用いて、回路レベルの単一事象効果(see)シミュレーションのためのセットパルス電流モデルの実用性と妥当性を示す。

In this paper, a novel machine learning regression based single event transient (SET) modeling method is proposed. The proposed method can obtain a reasonable and accurate model without considering the complex physical mechanism. We got plenty of SET current data of SMIC 130nm bulk CMOS by TCAD simulation under different conditions (e.g. different LET and different drain bias voltage). A multilayer feedfordward neural network is used to build the SET pulse current model by learning the data from TCAD simulation. The proposed model is validated with the simulation results from TCAD simulation. The trained SET pulse current model is implemented as a Verilog-A current source in the Cadence Spectre circuit simulator and an inverter with five fan-outs is used to show the practicability and reasonableness of the proposed SET pulse current model for circuit-level single-event effect (SEE) simulation.
翻訳日:2021-05-27 08:42:27 公開日:2021-05-22
# (参考訳) PAL:Egocentric Visual Context Detection を用いたインテリジェンス強化 [全文訳有]

PAL: Intelligence Augmentation using Egocentric Visual Context Detection ( http://arxiv.org/abs/2105.10735v1 )

ライセンス: CC BY 4.0
Mina Khan and Pattie Maes(参考訳) エゴセントリックな視覚コンテキスト検出はインテリジェンス強化アプリケーションをサポートする。 我々は、ウェアラブル、パーソナライズ、プライバシー保護のエゴセントリックな視覚的コンテキスト検出のための、PALと呼ばれるウェアラブルシステムを開発した。 palには、カメラ、心拍センサー、オンデバイスディープラーニング、オーディオ入出力を備えたウェアラブルデバイスがある。 PALには、パーソナライズされたコンテキストラベリングのためのモバイル/ウェブアプリケーションもある。 汎用オブジェクトと顔検出,低ショットカスタム顔とコンテキスト認識(歯磨きなど),カスタムコンテキストクラスタリング(屋内ロケーションなど)に,デバイス上でのディープラーニングモデルを用いた。 モデルの精度は80\%以上(約1000画像)で,行動変化などの知性強化アプリケーション用にpalをテストした。 我々はPALをオープンソースにして、パーソナライズされたプライバシー保護エゴセントリックなビジュアルコンテキストを使用して、インテリジェンス強化をさらにサポートした。

Egocentric visual context detection can support intelligence augmentation applications. We created a wearable system, called PAL, for wearable, personalized, and privacy-preserving egocentric visual context detection. PAL has a wearable device with a camera, heart-rate sensor, on-device deep learning, and audio input/output. PAL also has a mobile/web application for personalized context labeling. We used on-device deep learning models for generic object and face detection, low-shot custom face and context recognition (e.g., activities like brushing teeth), and custom context clustering (e.g., indoor locations). The models had over 80\% accuracy in in-the-wild contexts (~1000 images) and we tested PAL for intelligence augmentation applications like behavior change. We have made PAL is open-source to further support intelligence augmentation using personalized and privacy-preserving egocentric visual contexts.
翻訳日:2021-05-27 08:33:02 公開日:2021-05-22
# (参考訳) AutoLRS:フライ時のベイズ最適化による学習率自動スケジューリング [全文訳有]

AutoLRS: Automatic Learning-Rate Schedule by Bayesian Optimization on the Fly ( http://arxiv.org/abs/2105.10762v1 )

ライセンス: CC BY 4.0
Yuchen Jin, Tianyi Zhou, Liangyu Zhao, Yibo Zhu, Chuanxiong Guo, Marco Canini, Arvind Krishnamurthy(参考訳) 学習率(LR)スケジュールは、DNNのトレーニングに注意深いチューニングを必要とする最も重要なハイパーパラメータの1つである。 しかし、機械学習システムの最も自動化されていない部分の1つであり、通常、かなりの手作業と計算コストがかかる。 LRスケジュールと適応型LRのオプティマイザが事前に定義されているが、異なるタスク/データセットに対して個別に調整する必要がある新しいハイパーパラメータが導入されている。 本稿では,人間の関与なしに,トレーニングの過程でLRを自動的に調整できるのか,という課題について考察する。 本稿では,訓練段階ごとのLRを自動的に最適化するAutoLRSを提案する。 AutoLRSは、結果のバリデーション損失を最小限に抑えるために$\tau$ステップ毎に適用されるLRを見つけることを目的としている。 我々はこのブラックボックス最適化をベイズ最適化(BO)により高速に解く。 しかし、BOのトレーニングインスタンスの収集には、BOの取得関数によってクエリされた各LRを$\tau$のステップで評価する必要がある。 代わりに、各候補LRを$\tau'\ll\tau$ステップのみに適用し、$\tau$ステップ後の検証損失を予測する指数モデルをトレーニングする。 このboと損失予測モデル間の相互学習プロセスは、bo探索に費やされたトレーニングステップを制限することができる。 我々は,異なる最適化器を用いた多様なドメインからのタスクに対するDNNの訓練実験を通じて,AutoLRSの利点と汎用性を実証する。 AutoLRSが自動生成したLRスケジュールは、それぞれResNet-50、Transformer、BERTのトレーニング時に1.22\times$、1.43\times$、1.5\times$のスピードアップとなる。

The learning rate (LR) schedule is one of the most important hyper-parameters needing careful tuning in training DNNs. However, it is also one of the least automated parts of machine learning systems and usually costs significant manual effort and computing. Though there are pre-defined LR schedules and optimizers with adaptive LR, they introduce new hyperparameters that need to be tuned separately for different tasks/datasets. In this paper, we consider the question: Can we automatically tune the LR over the course of training without human involvement? We propose an efficient method, AutoLRS, which automatically optimizes the LR for each training stage by modeling training dynamics. AutoLRS aims to find an LR applied to every $\tau$ steps that minimizes the resulted validation loss. We solve this black-box optimization on the fly by Bayesian optimization (BO). However, collecting training instances for BO requires a system to evaluate each LR queried by BO's acquisition function for $\tau$ steps, which is prohibitively expensive in practice. Instead, we apply each candidate LR for only $\tau'\ll\tau$ steps and train an exponential model to predict the validation loss after $\tau$ steps. This mutual-training process between BO and the loss-prediction model allows us to limit the training steps invested in the BO search. We demonstrate the advantages and the generality of AutoLRS through extensive experiments of training DNNs for tasks from diverse domains using different optimizers. The LR schedules auto-generated by AutoLRS lead to a speedup of $1.22\times$, $1.43\times$, and $1.5\times$ when training ResNet-50, Transformer, and BERT, respectively, compared to the LR schedules in their original papers, and an average speedup of $1.31\times$ over state-of-the-art heavily-tuned LR schedules.
翻訳日:2021-05-26 13:32:00 公開日:2021-05-22
# (参考訳) 越冬運転自動化のための非ホロノミック移動操作の全身制御 [全文訳有]

Whole-Body Control on Non-holonomic Mobile Manipulation for Grapevine Winter Pruning Automation ( http://arxiv.org/abs/2105.10777v1 )

ライセンス: CC BY 4.0
Tao Teng, Miguel Fernandes, Matteo Gatti, Stefano Poni, Claudio Semini, Darwin Caldwell, Fei Chen(参考訳) 移動性と操作性を組み合わせた移動マニピュレータは、フィールドにおける様々な非構造化アプリケーションシナリオ、例えば、ますます使われている。 ブドウ園 したがって、移動体ベースとマニピュレータの協調動作は、全体的な性能の重要な特徴である。 本稿では,2-DoF非ホロノミック駆動型移動体ベースと7-DoF非ホロノミック駆動型移動体マニピュレータ(NWMM)を組み合わせたロボットの全身運動制御装置について検討する。 制御フレームワークでは、NWMMのタスク優先度調整動作が保証される。 低優先度タスクは、上位優先度タスクのヌル空間に投影され、下位優先度タスクの中断なしに上位優先度タスクが完了する。 提案する制御器はブドウの穂刈り実験シナリオで評価した。

Mobile manipulators that combine mobility and manipulability, are increasingly being used for various unstructured application scenarios in the field, e.g. vineyards. Therefore, the coordinated motion of the mobile base and manipulator is an essential feature of the overall performance. In this paper, we explore a whole-body motion controller of a robot which is composed of a 2-DoFs non-holonomic wheeled mobile base with a 7-DoFs manipulator (non-holonomic wheeled mobile manipulator, NWMM) This robotic platform is designed to efficiently undertake complex grapevine pruning tasks. In the control framework, a task priority coordinated motion of the NWMM is guaranteed. Lower-priority tasks are projected into the null space of the top-priority tasks so that higher-priority tasks are completed without interruption from lower-priority tasks. The proposed controller was evaluated in a grapevine spur pruning experiment scenario.
翻訳日:2021-05-26 12:48:48 公開日:2021-05-22
# (参考訳) GOO:小売環境における目標予測のためのデータセット [全文訳有]

GOO: A Dataset for Gaze Object Prediction in Retail Environments ( http://arxiv.org/abs/2105.10793v1 )

ライセンス: CC BY 4.0
Henri Tomas, Marcus Reyes, Raimarc Dionido, Mark Ty, Jonric Mirando, Joel Casimiro, Rowel Atienza, Richard Guinto(参考訳) 人間が行う最も基本的な情報提供行動の1つは、物体を見ることである。 しかし、現在の研究の調査によると、既存の視線関連データセットは、特定の対象の境界ではなく、見ているピクセルのみに注釈を付ける。 このオブジェクトアノテーションの欠如は、視線推定研究をさらに前進させる機会を与える。 そこで本研究では,視線物体予測と呼ばれる課題を提示し,視線物体のバウンディングボックスの予測を目標とする。 このタスクで視線ネットワークをトレーニングし、評価するために、Gaze On Objects (GOO)データセットを示す。 GOOは、小売環境でオブジェクトを見ている人々の実際の画像(GOO-Real)の小さなサブセットによって補完される、大規模な合成画像(GOO Synth)で構成されている。 本研究は,GOOに対する幅広いベースラインを確立し,選択された最先端技術モデルの再実装と評価を行う。 コードはgithubで入手できる。

One of the most fundamental and information-laden actions humans do is to look at objects. However, a survey of current works reveals that existing gaze-related datasets annotate only the pixel being looked at, and not the boundaries of a specific object of interest. This lack of object annotation presents an opportunity for further advancing gaze estimation research. To this end, we present a challenging new task called gaze object prediction, where the goal is to predict a bounding box for a person's gazed-at object. To train and evaluate gaze networks on this task, we present the Gaze On Objects (GOO) dataset. GOO is composed of a large set of synthetic images (GOO Synth) supplemented by a smaller subset of real images (GOO-Real) of people looking at objects in a retail environment. Our work establishes extensive baselines on GOO by re-implementing and evaluating selected state-of-the art models on the task of gaze following and domain adaptation. Code is available on github.
翻訳日:2021-05-26 12:33:23 公開日:2021-05-22
# (参考訳) Sockpuppet の検出:Telegram のケーススタディ [全文訳有]

Sockpuppet Detection: a Telegram case study ( http://arxiv.org/abs/2105.10799v1 )

ライセンス: CC BY 4.0
Gabriele Pisciotta, Miriana Somenzi, Elisa Barisani, Giulio Rossetti(参考訳) オンライン・ソーシャル・ネットワーク(osn)では、ユーザーが複数のアカウントを作成できるケースが多数ある。 これらの架空のキャラクターは、意見の操作、偽ニュースの拡散、他のユーザーを乱すといった虐待的な行動を実行するために利用することができる。 文献では、この問題はソックパペット問題として知られている。 我々の研究は、広範囲にわたるインスタントメッセージングアプリケーションであるTelegramに焦点を当てており、組織犯罪やテロリズムのメンバーによる搾取でよく知られており、一般的には攻撃的な行動を持つ人々の存在で知られている。

In Online Social Networks (OSN) numerous are the cases in which users create multiple accounts that publicly seem to belong to different people but are actually fake identities of the same person. These fictitious characters can be exploited to carry out abusive behaviors such as manipulating opinions, spreading fake news and disturbing other users. In literature this problem is known as the Sockpuppet problem. In our work we focus on Telegram, a wide-spread instant messaging application, often known for its exploitation by members of organized crime and terrorism, and more in general for its high presence of people who have offensive behaviors.
翻訳日:2021-05-26 12:15:39 公開日:2021-05-22
# (参考訳) 畳み込みニューラルネットワークを用いた心疾患予測のための新しいディープラーニングアーキテクチャ [全文訳有]

Novel Deep Learning Architecture for Heart Disease Prediction using Convolutional Neural Network ( http://arxiv.org/abs/2105.10816v1 )

ライセンス: CC BY 4.0
Shadab Hussain, Susmith Barigidad, Shadab Akhtar, Md Suaib(参考訳) 医療は人間の生活において最も重要な側面の1つです。 心臓病は、世界中の多くの人々の生活を妨げる最も致命的な病気の1つとして知られている。 心臓病は早期に検出され、生命の喪失を防ぐことができる。 医療診断のための大規模データの利用は、心臓疾患の早期診断を自動化するための複雑な機械学習とディープラーニングベースのモデルの開発に役立った。 古典的なアプローチは、トレーニングセットで見られていない新しいデータにうまく一般化しないという点で制限されている。 これは、トレーニングとテストの精度の大きなギャップによって示されます。 本稿では、1次元畳み込みニューラルネットワークを用いて、健康な人と非健康な人の分類を行い、古典的アプローチの限界を克服する新しいディープラーニングアーキテクチャを提案する。 早期診断に役立つ患者のリスクプロファイルを評価するために、様々な臨床パラメータが使用される。 提案するネットワークのオーバーフィットを回避するために,様々な手法が用いられている。 提案するネットワークは、データセット上で97%以上のトレーニング精度と96%のテスト精度を達成する。 このモデルの精度は,提案手法の有効性を実証する様々な性能パラメータを用いて,他の分類アルゴリズムと詳細に比較した。

Healthcare is one of the most important aspects of human life. Heart disease is known to be one of the deadliest diseases which is hampering the lives of many people around the world. Heart disease must be detected early so the loss of lives can be prevented. The availability of large-scale data for medical diagnosis has helped developed complex machine learning and deep learning-based models for automated early diagnosis of heart diseases. The classical approaches have been limited in terms of not generalizing well to new data which have not been seen in the training set. This is indicated by a large gap in training and test accuracies. This paper proposes a novel deep learning architecture using a 1D convolutional neural network for classification between healthy and non-healthy persons to overcome the limitations of classical approaches. Various clinical parameters are used for assessing the risk profile in the patients which helps in early diagnosis. Various techniques are used to avoid overfitting in the proposed network. The proposed network achieves over 97% training accuracy and 96% test accuracy on the dataset. The accuracy of the model is compared in detail with other classification algorithms using various performance parameters which proves the effectiveness of the proposed architecture.
翻訳日:2021-05-26 12:11:00 公開日:2021-05-22
# 術中内視鏡画像を用いた純石・混合石の自動認識に向けて

Towards Automatic Recognition of Pure & Mixed Stones using Intraoperative Endoscopic Digital Images ( http://arxiv.org/abs/2105.10686v1 )

ライセンス: Link先を確認
Vincent Estrade, Michel Daudon, Emmanuel Richard, Jean-Christophe Bernhard, Franck Bladou, Gregoire Robert, Baudouin Denis de Senneville(参考訳) 目的:臨床現場で取得した術中デジタル内視鏡画像を用いて純尿石と混合尿石の形態的特徴の自動認識を評価すること。 材料と方法: 本研究では, 経験豊富な尿器科医が, 腎結石の表面と部分について, 術中および前向きに検討した。 炭酸カルシウムの一水和物 (COM/Ia), 二水化物 (COD/IIb) および尿酸 (UA/IIIb) の形態基準を収集し, 注釈データセットを生成するために分類した。 深層畳み込みニューラルネットワーク (cnn) を訓練し, 純石と混合石の組成を推定した。 ディープニューラルネットワークモデルの予測を説明するために、粗い局所化熱マップをプロットして、ネットワークが特定したキー領域をピンポイントした。 結果: 石面の347例, 石断面の236例について検討した。 表面画像を用いた「純IIIb/UA」の感度は98 %であった。 最も頻繁に遭遇した形態は「pure ia/com」型の形態であり、それぞれ表面画像と断面画像を用いて91 %と94 %のケースで正しく予測された。 混合型"Ia/COM+IIb/COD"では, 表面像の84 %, IIb/CODの70 %, それぞれ65 %でIa/COMが予測された。 混合Ia/COM+IIIb/UAは91%,IIIb/UAは69%,Ia/COMは74%であった。 結論: 深層畳み込みニューラルネットワークは, 術中取得した内視鏡画像から腎臓石組成を同定できる可能性が示唆された。 純石組成と混合石組成の両方を区別できる。 深層cnnによって分析された表面画像と断面画像は、コンピュータ支援診断のために石の形態に関する貴重な情報を提供する。

Objective: To assess automatic computer-aided in-situ recognition of morphological features of pure and mixed urinary stones using intraoperative digital endoscopic images acquired in a clinical setting. Materials and methods: In this single-centre study, an experienced urologist intraoperatively and prospectively examined the surface and section of all kidney stones encountered. Calcium oxalate monohydrate (COM/Ia), dihydrate (COD/IIb) and uric acid (UA/IIIb) morphological criteria were collected and classified to generate annotated datasets. A deep convolutional neural network (CNN) was trained to predict the composition of both pure and mixed stones. To explain the predictions of the deep neural network model, coarse localisation heat-maps were plotted to pinpoint key areas identified by the network. Results: This study included 347 and 236 observations of stone surface and stone section, respectively. A highest sensitivity of 98 % was obtained for the type "pure IIIb/UA" using surface images. The most frequently encountered morphology was that of the type "pure Ia/COM"; it was correctly predicted in 91 % and 94 % of cases using surface and section images, respectively. Of the mixed type "Ia/COM+IIb/COD", Ia/COM was predicted in 84 % of cases using surface images, IIb/COD in 70 % of cases, and both in 65 % of cases. Concerning mixed Ia/COM+IIIb/UA stones, Ia/COM was predicted in 91 % of cases using section images, IIIb/UA in 69 % of cases, and both in 74 % of cases. Conclusions: This preliminary study demonstrates that deep convolutional neural networks are promising to identify kidney stone composition from endoscopic images acquired intraoperatively. Both pure and mixed stone composition could be discriminated. Collected in a clinical setting, surface and section images analysed by deep CNN provide valuable information about stone morphology for computer-aided diagnosis.
翻訳日:2021-05-25 15:30:51 公開日:2021-05-22
# shapley値のベースライン値の学習

Learning Baseline Values for Shapley Values ( http://arxiv.org/abs/2105.10719v1 )

ライセンス: Link先を確認
Jie Ren, Zhanpeng Zhou, Qirui Chen, Quanshi Zhang(参考訳) 本稿では,ゲーム理論におけるシェープリー値の最適基準値を推定する問題を定式化することを目的とする。 Shapley値は、複素モデルの各入力変数の属性を測定し、この変数 w.r.t. が異なる文脈で存在しないことの限界利益として計算される。 この目的のために、通常、入力変数をベースライン値に設定して、この変数の欠如を表す(つまり、この変数の符号なし状態)。 以前の研究では、通常、基準値が経験的な方法で決定されるため、シェープリー価値の信頼性が損なわれる。 本稿では,ゲーム理論の観点から,深層モデルの特徴表現を再検討し,入力変数の多変数相互作用パターンを定義し,入力変数の無符号状態を定義する。 多変量相互作用に基づき、各入力変数の最適ベースライン値を学習する。 実験の結果,本手法の有効性が示された。

This paper aims to formulate the problem of estimating the optimal baseline values for the Shapley value in game theory. The Shapley value measures the attribution of each input variable of a complex model, which is computed as the marginal benefit from the presence of this variable w.r.t.its absence under different contexts. To this end, people usually set the input variable to its baseline value to represent the absence of this variable (i.e.the no-signal state of this variable). Previous studies usually determine the baseline values in an empirical manner, which hurts the trustworthiness of the Shapley value. In this paper, we revisit the feature representation of a deep model from the perspective of game theory, and define the multi-variate interaction patterns of input variables to define the no-signal state of an input variable. Based on the multi-variate interaction, we learn the optimal baseline value of each input variable. Experimental results have demonstrated the effectiveness of our method.
翻訳日:2021-05-25 15:29:32 公開日:2021-05-22
# 有限から可算のバンディットへ

From Finite to Countable-Armed Bandits ( http://arxiv.org/abs/2105.10721v1 )

ライセンス: Link先を確認
Anand Kalvit and Assaf Zeevi(参考訳) 有限個の型に属する腕を数え切れないほど多く持つ確率的バンディット問題を,それぞれに一意な平均報酬を特徴とする。 さらに、腕の個体群におけるそれぞれのタイプの割合を設定する型に対する固定分布が存在する。 意思決定者は、いかなる腕の型や、前述の種類に対する分布にも従わないが、腕の集団で起こるタイプの総数を完全に知っている。 我々は,O(log n)分布依存の累積後悔を任意の回数の再生後に達成する完全適応型オンライン学習アルゴリズムを提案し,この後悔の順序が最善であることを示す。 アルゴリズムの解析は, 有限武装バンディット問題におけるUTBのような楽観主義に基づく政策の, 新たに発見された集中度と収束度に依拠する。

We consider a stochastic bandit problem with countably many arms that belong to a finite set of types, each characterized by a unique mean reward. In addition, there is a fixed distribution over types which sets the proportion of each type in the population of arms. The decision maker is oblivious to the type of any arm and to the aforementioned distribution over types, but perfectly knows the total number of types occurring in the population of arms. We propose a fully adaptive online learning algorithm that achieves O(log n) distribution-depende nt expected cumulative regret after any number of plays n, and show that this order of regret is best possible. The analysis of our algorithm relies on newly discovered concentration and convergence properties of optimism-based policies like UCB in finite-armed bandit problems with "zero gap," which may be of independent interest.
翻訳日:2021-05-25 15:28:57 公開日:2021-05-22
# サイバー物理システムの異常検知装置に対する敵意攻撃と対策

Adversarial Attacks and Mitigation for Anomaly Detectors of Cyber-Physical Systems ( http://arxiv.org/abs/2105.10707v1 )

ライセンス: Link先を確認
Yifan Jia, Jingyi Wang, Christopher M. Poskitt, Sudipta Chattopadhyay, Jun Sun, Yuqi Chen(参考訳) 重要なインフラにおけるサイバー物理システム(CPS)が直面する脅威は、ニューラルネットワークモデルに基づく異常検出を含む、多数の攻撃検出メカニズムの研究を動機付けている。 異常検知器の有効性は、一連の攻撃をテストすることで評価できるが、特定の騒音を発生させる敵攻撃者にはあまり考慮されていない。 画像やオーディオなどの領域でうまく適用されているが、ルールチェッカー(または不変チェッカー)のような他の内蔵防御機構が存在するため、CPSでは敵攻撃の実装がはるかに困難である。 本研究では,CPSの異常検出器とルールチェッカーを同時に回避する対向攻撃を提案する。 従来の勾配に基づくアプローチにインスパイアされた我々の敵攻撃は、センサとアクチュエータの値に対するノイズを発生させ、遺伝的アルゴリズムを用いて後者を最適化し、ニューラルネットワークとルールチェックシステムの両方が騙されていることを保証します。我々は、2つの現実のクリティカルインフラストラクチャテストベッドに対してアプローチを実行し、検知器の分類精度を平均50%以上低減し、同時にルールチェッカーによる検出を回避しました。 最後に,これらの攻撃を,検出者を敵のサンプルで訓練することで軽減できるかどうかを考察する。

The threats faced by cyber-physical systems (CPSs) in critical infrastructure have motivated research into a multitude of attack detection mechanisms, including anomaly detectors based on neural network models. The effectiveness of anomaly detectors can be assessed by subjecting them to test suites of attacks, but less consideration has been given to adversarial attackers that craft noise specifically designed to deceive them. While successfully applied in domains such as images and audio, adversarial attacks are much harder to implement in CPSs due to the presence of other built-in defence mechanisms such as rule checkers(or invariant checkers). In this work, we present an adversarial attack that simultaneously evades the anomaly detectors and rule checkers of a CPS. Inspired by existing gradient-based approaches, our adversarial attack crafts noise over the sensor and actuator values, then uses a genetic algorithm to optimise the latter, ensuring that the neural network and the rule checking system are both deceived.We implemented our approach for two real-world critical infrastructure testbeds, successfully reducing the classification accuracy of their detectors by over 50% on average, while simultaneously avoiding detection by rule checkers. Finally, we explore whether these attacks can be mitigated by training the detectors on adversarial samples.
翻訳日:2021-05-25 15:25:36 公開日:2021-05-22
# モード指向逆エンターメントを用いたドメイン知識のGNNへの取り込み

Inclusion of Domain-Knowledge into GNNs using Mode-Directed Inverse Entailment ( http://arxiv.org/abs/2105.10709v1 )

ライセンス: Link先を確認
Tirtharaj Dash, Ashwin Srinivasan, A Baskar(参考訳) 本稿では,マルチリレーショナルドメイン知識を用いたグラフニューラルネットワーク(GNN)の構築手法を提案する。 この手法は、インダクティブ論理プログラミング(ILP)で開発されたモード指向逆エンターメント(MDIE)に基づいている。 データインスタンス$e$とバックグラウンド知識$B$が与えられたとき、MDIEは、$e$に関連するすべてのリレーショナル情報を含む最も特定の論理式$\bot_B(e)$を識別する。 私たちは$\bot_b(e)$を対応する"bottom-graph"に変換します。 この変換によって、一般的なバックグラウンド知識をGNNに組み込む、原則化された方法が可能になる。 背景知識を持つ実世界のデータセットを用いて、いくつかのGNN変種に対して、背景知識を持たない両方のGNNよりもはるかに優れた性能を示し、最近提案されたドメイン知識をGNNに組み込むための簡易な手法を提案する。 また,多層パーセプトロン(MLP)に対して,背景知識の「仮定された」形式を表す特徴を用いたBotGNNと,最も固有な節を用いた標準ILPを用いたBotGNNとを比較した実験的なエビデンスも提供する。 これらの結果は、GNNの計算効率とILPの表現多元性を組み合わせることができることを示唆している。

We present a general technique for constructing Graph Neural Networks (GNNs) capable of using multi-relational domain knowledge. The technique is based on mode-directed inverse entailment (MDIE) developed in Inductive Logic Programming (ILP). Given a data instance $e$ and background knowledge $B$, MDIE identifies a most-specific logical formula $\bot_B(e)$ that contains all the relational information in $B$ that is related to $e$. We transform $\bot_B(e)$ into a corresponding "bottom-graph" that can be processed for use by standard GNN implementations. This transformation allows a principled way of incorporating generic background knowledge into GNNs: we use the term `BotGNN' for this form of graph neural networks. For several GNN variants, using real-world datasets with substantial background knowledge, we show that BotGNNs perform significantly better than both GNNs without background knowledge and a recently proposed simplified technique for including domain knowledge into GNNs. We also provide experimental evidence comparing BotGNNs favourably to multi-layer perceptrons (MLPs) that use features representing a "propositionalised&qu ot; form of the background knowledge; and BotGNNs to a standard ILP based on the use of most-specific clauses. Taken together, these results point to BotGNNs as capable of combining the computational efficacy of GNNs with the representational versatility of ILP.
翻訳日:2021-05-25 15:25:14 公開日:2021-05-22
# ノイズの多いニューラルネットワーク:補償によるベイズ的アプローチ

Denoising Noisy Neural Networks: A Bayesian Approach with Compensation ( http://arxiv.org/abs/2105.10699v1 )

ライセンス: Link先を確認
Yulin Shao and Soung Chang Liew and Deniz Gunduz(参考訳) ノイズニューラルネットワーク(ノイズニューラルネット、Noisy Neural Network)は、ノイズの存在下でのNNの推測と訓練を指す。 ノイズは、ほとんどの通信やストレージシステムに固有のものであり、フェデレーションエッジ学習(英語版)や、ノイズの多い無線チャネル上でNNを協調訓練したり、アナログ記憶媒体でNNを実装・保存する場合など、多くの新しいアプリケーションで発生する。 本稿では,ノイズの観測や症状から汚染されていないNN重量を推定する方法について検討する。 推定NN重みの確率関数を最大化するために,すべての先行研究が最大確率(ML)推定に依存しているのに対し,本稿はML推定器が一般に最適であることを示す。 従来のML推定器の準最適性を克服するため,人口補償器とバイアス補償器による補償平均二乗誤差(MSE)を最小限に抑えるために$\text{MMSE}_{pb}$推定器を作成した。 提案手法は,(1)すでに訓練済みのnn重みの推論段階でのみ雑音が導入される雑音推定と,(2)学習過程で雑音が導入される雑音訓練の両方において発生する雑音nnに対して有効である。 異なるNNアーキテクチャを持つCIFAR-10とSST-2データセットに対する大規模な実験により、NoisyNNをノイズ化する際にML推定器上での$\text{MMSE}_{pb}$ estimatorの大幅な性能向上が検証された。 騒がしい推論では、ノイズの多いresnet34モデルでは平均値が156\%、ノイズの多いbertモデルでは14.7\%であり、ノイズの多いトレーニングでは、ノイズの多いresnet18モデルでは平均値が18.1ドルである。

Noisy neural networks (NoisyNNs) refer to the inference and training of NNs in the presence of noise. Noise is inherent in most communication and storage systems; hence, NoisyNNs emerge in many new applications, including federated edge learning, where wireless devices collaboratively train a NN over a noisy wireless channel, or when NNs are implemented/stored in an analog storage medium. This paper studies a fundamental problem of NoisyNNs: how to estimate the uncontaminated NN weights from their noisy observations or manifestations. Whereas all prior works relied on the maximum likelihood (ML) estimation to maximize the likelihood function of the estimated NN weights, this paper demonstrates that the ML estimator is in general suboptimal. To overcome the suboptimality of the conventional ML estimator, we put forth an $\text{MMSE}_{pb}$ estimator to minimize a compensated mean squared error (MSE) with a population compensator and a bias compensator. Our approach works well for NoisyNNs arising in both 1) noisy inference, where noise is introduced only in the inference phase on the already-trained NN weights; and 2) noisy training, where noise is introduced over the course of training. Extensive experiments on the CIFAR-10 and SST-2 datasets with different NN architectures verify the significant performance gains of the $\text{MMSE}_{pb}$ estimator over the ML estimator when used to denoise the NoisyNN. For noisy inference, the average gains are up to $156\%$ for a noisy ResNet34 model and $14.7\%$ for a noisy BERT model; for noisy training, the average gains are up to $18.1$ dB for a noisy ResNet18 model.
翻訳日:2021-05-25 15:21:50 公開日:2021-05-22
# HPNet:ハイブリッド表現を用いた深層原始セグメンテーション

HPNet: Deep Primitive Segmentation Using Hybrid Representations ( http://arxiv.org/abs/2105.10620v1 )

ライセンス: Link先を確認
Siming Yan, Zhenpei Yang, Chongyang Ma, Haibin Huang, Etienne Vouga, Qixing Huang(参考訳) 本稿では,ポイントクラウドとして表現される3次元形状をプリミティブパッチに分割する,新しいディープラーニング手法HPNetを紹介する。 ディーププリミティブセグメンテーションの鍵は、異なるプリミティブのポイントを分離できる特徴表現を学ぶことである。 単一の特徴表現を利用するのとは異なり、hpnetは1つの学習された意味記述子と予測された幾何学的パラメータから派生した2つのスペクトル記述子と鋭いエッジを符号化する隣接行列を組み合わせたハイブリッド表現を利用する。 さらに、単にディスクリプタを結合する代わりに、hpnetはハイブリッド表現を結合して組み合わせ重みを学習する。 この重み付けモジュールは入力機能のエントロピーに基づいている。 出力プリミティブセグメンテーションは平均シフトクラスタリングモジュールから得られる。 ベンチマークデータセットANSIとABCPartsの実験結果は、HPNetがベースラインアプローチから大きなパフォーマンス向上をもたらすことを示している。

This paper introduces HPNet, a novel deep-learning approach for segmenting a 3D shape represented as a point cloud into primitive patches. The key to deep primitive segmentation is learning a feature representation that can separate points of different primitives. Unlike utilizing a single feature representation, HPNet leverages hybrid representations that combine one learned semantic descriptor, two spectral descriptors derived from predicted geometric parameters, as well as an adjacency matrix that encodes sharp edges. Moreover, instead of merely concatenating the descriptors, HPNet optimally combines hybrid representations by learning combination weights. This weighting module builds on the entropy of input features. The output primitive segmentation is obtained from a mean-shift clustering module. Experimental results on benchmark datasets ANSI and ABCParts show that HPNet leads to significant performance gains from baseline approaches.
翻訳日:2021-05-25 15:17:56 公開日:2021-05-22
# ベルやホイッスルのないビデオベースの人物再同定

Video-based Person Re-identification without Bells and Whistles ( http://arxiv.org/abs/2105.10678v1 )

ライセンス: Link先を確認
Chih-Ting Liu, Jun-Cheng Chen, Chu-Song Chen, Shao-Yi Chien(参考訳) ビデオベースの人物再識別(Re-ID)は、異なるカメラの下で歩行者を特定するために、ビデオトラッカーとトリミングされたビデオフレームをマッチングすることを目的としている。 しかし, 従来の手法による不完全な検出と追跡の結果が原因で, 刈り取られたトラックレットの空間的, 時間的ずれが生じている。 この問題に対処するために,学習に基づくトラックレットの検出と追跡を行うことで,予期せぬノイズを効果的に低減できる簡易な再検出リンク(dl)モジュールを提案する。 さらに, 粗粒軸結合網 (cf-aan) と呼ばれる改良モデルを提案する。 典型的な非局所ネットワークに基づいて、提案した粗粒構造に加えて、非局所モジュールを3つの1次元位置感応軸アテンションで置き換える。 CF-AANの開発により、従来の非局所演算と比較して計算コストを大幅に削減できるだけでなく、大規模MARSデータセット上での最先端性能(ランク1で91.3%、mAPで86.5%)を得ることができる。 一方、データアライメントにdlモジュールを単に採用することで、いくつかのベースラインモデルが現在の最先端と同等の結果を得ることができるのです。 さらに、トラックレットの識別ラベルだけでなく、火星の試験データの評価プロトコルについてもエラーを発見しました。 我々は,空間的・時間的アライメントやデータセットノイズのハードルを伴わずに,不変表現のさらなる発展を支援することができることを願っている。 コード、修正ラベル、評価プロトコル、アライメントされたデータはhttps://github.com/j ackie840129/cf-aanで入手できる。

Video-based person re-identification (Re-ID) aims at matching the video tracklets with cropped video frames for identifying the pedestrians under different cameras. However, there exists severe spatial and temporal misalignment for those cropped tracklets due to the imperfect detection and tracking results generated with obsolete methods. To address this issue, we present a simple re-Detect and Link (DL) module which can effectively reduce those unexpected noise through applying the deep learning-based detection and tracking on the cropped tracklets. Furthermore, we introduce an improved model called Coarse-to-Fine Axial-Attention Network (CF-AAN). Based on the typical Non-local Network, we replace the non-local module with three 1-D position-sensitive axial attentions, in addition to our proposed coarse-to-fine structure. With the developed CF-AAN, compared to the original non-local operation, we can not only significantly reduce the computation cost but also obtain the state-of-the-art performance (91.3% in rank-1 and 86.5% in mAP) on the large-scale MARS dataset. Meanwhile, by simply adopting our DL module for data alignment, to our surprise, several baseline models can achieve better or comparable results with the current state-of-the-arts. Besides, we discover the errors not only for the identity labels of tracklets but also for the evaluation protocol for the test data of MARS. We hope that our work can help the community for the further development of invariant representation without the hassle of the spatial and temporal alignment and dataset noise. The code, corrected labels, evaluation protocol, and the aligned data will be available at https://github.com/j ackie840129/CF-AAN.
翻訳日:2021-05-25 15:17:42 公開日:2021-05-22
# ADNet:高ダイナミックレンジイメージングのための注意誘導変形性畳み込みネットワーク

ADNet: Attention-guided Deformable Convolutional Network for High Dynamic Range Imaging ( http://arxiv.org/abs/2105.10697v1 )

ライセンス: Link先を確認
Zhen Liu, Wenjie Lin, Xinpeng Li, Qing Rao, Ting Jiang, Mingyan Han, Haoqiang Fan, Jian Sun, Shuaicheng Liu(参考訳) 本稿では,ハンドヘルド多フレームハイダイナミックレンジ(HDR)イメージングのための注意誘導型変形可能な畳み込みネットワーク,ADNetを提案する。 この問題には、飽和とノイズを適切に処理する方法と、物体の動きやカメラのジッタリングに起因する不一致に対処する方法の2つの難題が含まれている。 前者に対処するために,空間的注意モジュールを採用し,様々な露光低ダイナミックレンジ(ldr)画像の最適領域を適応的に選択する。 後者については,機能レベルでのガンマ補正画像をピラミッド,カスケード,変形可能な(pcd)アライメントモジュールにアライメントすることを提案する。 提案したADNetは、従来の手法と比較して最先端の性能を示し、PSNR-$l$ 39.4471、PSNR-$\mu$ 37.6359 in NTIRE 2021 Multi-Frame HDR Challengeを達成している。

In this paper, we present an attention-guided deformable convolutional network for hand-held multi-frame high dynamic range (HDR) imaging, namely ADNet. This problem comprises two intractable challenges of how to handle saturation and noise properly and how to tackle misalignments caused by object motion or camera jittering. To address the former, we adopt a spatial attention module to adaptively select the most appropriate regions of various exposure low dynamic range (LDR) images for fusion. For the latter one, we propose to align the gamma-corrected images in the feature-level with a Pyramid, Cascading and Deformable (PCD) alignment module. The proposed ADNet shows state-of-the-art performance compared with previous methods, achieving a PSNR-$l$ of 39.4471 and a PSNR-$\mu$ of 37.6359 in NTIRE 2021 Multi-Frame HDR Challenge.
翻訳日:2021-05-25 15:17:15 公開日:2021-05-22
# 低品質ビデオでのサッカー選手の追跡

Soccer Player Tracking in Low Quality Video ( http://arxiv.org/abs/2105.10700v1 )

ライセンス: Link先を確認
Eloi Martins, Jos\'e Henrique Brito(参考訳) 本稿では,異なるタイプのビデオ品質で複数のサッカー選手を追跡できるシステムを提案する。 ほとんどの最先端のサッカー選手追跡システムとは対照的に、主な目標は、低品質のビデオで効果的にトラッキングする能力である。 我々はそのタスクに最先端のマルチオブジェクト追跡を適用した。 この適応のために,ビデオの3つの異なる品質に対する検出と追跡データセットを作成しました。 本システムの結果は,その高い性能を決定づけるものである。

In this paper we propose a system capable of tracking multiple soccer players in different types of video quality. The main goal, in contrast to most state-of-art soccer player tracking systems, is the ability of execute effectively tracking in videos of low-quality. We adapted a state-of-art Multiple Object Tracking to the task. In order to do that adaptation, we created a Detection and a Tracking Dataset for 3 different qualities of video. The results of our system are conclusive of its high performance.
翻訳日:2021-05-25 15:16:56 公開日:2021-05-22
# PLM:不均衡なマルチラベル分類のための部分ラベルマスキング

PLM: Partial Label Masking for Imbalanced Multi-label Classification ( http://arxiv.org/abs/2105.10782v1 )

ライセンス: Link先を確認
Kevin Duarte, Yogesh S. Rawat, Mubarak Shah(参考訳) 長いラベル分布を持つ実世界のデータセットでトレーニングされたニューラルネットワークは、頻繁なクラスに偏り、不適切なクラスでパフォーマンスが低い。 各クラスにおける正と負のサンプルの比率の不均衡は、地上分布からさらにネットワーク出力確率を歪める。 本稿では,この比を訓練中に利用する部分ラベルマスキング(plm)法を提案する。 損失計算中にラベルを確率的にマスキングすることにより、各クラスに対するこの比率のバランスを保ち、マイノリティクラスのリコールを改善し、頻繁なクラスの精度を向上する。 予測分布と接地分布のkl発散を最小化することにより、ネットワークの性能に基づいてその比率を適応的に推定する。 データ不均衡に対処する既存のほとんどのアプローチは、主にシングルラベル分類に重点を置いており、マルチラベルの場合とよく一致しないが、本研究では、マルチラベル分類のためのロングテールデータ不均衡問題を解決するための一般的なアプローチを提案する。 PLMは汎用性があり、ほとんどの目的関数に適用でき、クラス不均衡のための他の戦略と併用することができる。 本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100 の両画像分類データセット) の既存手法と比較して高い性能を実現する。

Neural networks trained on real-world datasets with long-tailed label distributions are biased towards frequent classes and perform poorly on infrequent classes. The imbalance in the ratio of positive and negative samples for each class skews network output probabilities further from ground-truth distributions. We propose a method, Partial Label Masking (PLM), which utilizes this ratio during training. By stochastically masking labels during loss computation, the method balances this ratio for each class, leading to improved recall on minority classes and improved precision on frequent classes. The ratio is estimated adaptively based on the network's performance by minimizing the KL divergence between predicted and ground-truth distributions. Whereas most existing approaches addressing data imbalance are mainly focused on single-label classification and do not generalize well to the multi-label case, this work proposes a general approach to solve the long-tail data imbalance issue for multi-label classification. PLM is versatile: it can be applied to most objective functions and it can be used alongside other strategies for class imbalance. Our method achieves strong performance when compared to existing methods on both multi-label (MultiMNIST and MSCOCO) and single-label (imbalanced CIFAR-10 and CIFAR-100) image classification datasets.
翻訳日:2021-05-25 15:16:49 公開日:2021-05-22
# マルチスケール多層統計への投影によるテクスチャー合成

Texture synthesis via projection onto multiscale, multilayer statistics ( http://arxiv.org/abs/2105.10825v1 )

ライセンス: Link先を確認
Jieqian He and Matthew Hirn(参考訳) マルチスケール多層特徴抽出器に基づくテクスチャ合成のための新しいモデルを提案する。 モデル内のテクスチャは、異なる層のReLUウェーブレット係数、スケール、配向から計算された統計によって表される。 反復射影アルゴリズムにより、対象の統計値に一致して新しい画像が合成される。 本稿では,本モデルで使用するウェーブレットフィルタの異なる種類の必要性と,画像合成における多層構造の利点について述べる。 高品質なテクスチャのサンプルを生成し,テクスチャ画像の深い表現に対する洞察を提供することで,モデルのパワーを実証する。

We provide a new model for texture synthesis based on a multiscale, multilayer feature extractor. Within the model, textures are represented by a set of statistics computed from ReLU wavelet coefficients at different layers, scales and orientations. A new image is synthesized by matching the target statistics via an iterative projection algorithm. We explain the necessity of the different types of pre-defined wavelet filters used in our model and the advantages of multilayer structures for image synthesis. We demonstrate the power of our model by generating samples of high quality textures and providing insights into deep representations for texture images.
翻訳日:2021-05-25 15:16:26 公開日:2021-05-22
# アクター批判の可能性:国家安全確保のための制約付き強化学習

Feasible Actor-Critic: Constrained Reinforcement Learning for Ensuring Statewise Safety ( http://arxiv.org/abs/2105.10682v1 )

ライセンス: Link先を確認
Haitong Ma, Yang Guan, Shegnbo Eben Li, Xiangteng Zhang, Sifa Zheng, Jianyu Chen(参考訳) 既存の安全性強化学習(rl)手法で一般的に使用される安全制約は、初期状態の期待のみに基づいて定義されるが、それぞれの状態が安全でないことを許容する。 本稿では,各初期状態の安全性を考慮に入れた最初のモデルレス制約付きRL法である,実行可能アクタ・クリティカル(FAC)アルゴリズムを提案する。 我々は、ある州は、どの政策を選択しても本質的に安全ではないと主張しているが、他の州には、安全を確保する政策が存在する。 rlサンプリングで使用可能なステートワイズラグランジュ関数を構築し、ステートワイズラグランジュ乗算器を近似する追加ニューラルネットワークを採用することで、各実現可能な状態に対する安全性と実現不可能な状態に対する最も安全なポリシーを確保するための最適な実現可能ポリシーを得る。 さらに、訓練された乗算ネットは、状態的に相補的なスラックネス条件により、与えられた状態が実現可能であるか否かを示すことができる。 我々は,FACが制約満足度と報酬最適化の両方の観点から,従来の予測に基づく制約付きRL法より優れていることを理論的に保証する。 ロボットロコモティブタスクと安全探査タスクの両方に関する実験結果から,提案手法の安全性向上と実現可能性の検証が可能となった。

The safety constraints commonly used by existing safe reinforcement learning (RL) methods are defined only on expectation of initial states, but allow each certain state to be unsafe, which is unsatisfying for real-world safety-critical tasks. In this paper, we introduce the feasible actor-critic (FAC) algorithm, which is the first model-free constrained RL method that considers statewise safety, e.g, safety for each initial state. We claim that some states are inherently unsafe no matter what policy we choose, while for other states there exist policies ensuring safety, where we say such states and policies are feasible. By constructing a statewise Lagrange function available on RL sampling and adopting an additional neural network to approximate the statewise Lagrange multiplier, we manage to obtain the optimal feasible policy which ensures safety for each feasible state and the safest possible policy for infeasible states. Furthermore, the trained multiplier net can indicate whether a given state is feasible or not through the statewise complementary slackness condition. We provide theoretical guarantees that FAC outperforms previous expectation-based constrained RL methods in terms of both constraint satisfaction and reward optimization. Experimental results on both robot locomotive tasks and safe exploration tasks verify the safety enhancement and feasibility interpretation of the proposed method.
翻訳日:2021-05-25 15:07:29 公開日:2021-05-22
# ディープニューラルネットワーク学習のための特徴依存擬似ノイズの生成と解析

Generation and Analysis of Feature-Dependent Pseudo Noise for Training Deep Neural Networks ( http://arxiv.org/abs/2105.10796v1 )

ライセンス: Link先を確認
Sree Ram Kamabattula, Kumudha Musini, Babak Namazi, Ganesh Sankaranarayanan, Venkat Devarajan(参考訳) ノイズの多いラベル付きデータセット上でのディープニューラルネットワーク(dnn)のトレーニングは、誤ったラベル付き例による学習がネットワークのパフォーマンスを低下させるため、難しい問題である。 現実のノイズの多いデータセットに限られているため、以前の論文では、クリーンなデータセットのトレーニング例のラベルをランダムに修正して合成ノイズの多いデータセットを作成していた。 しかし、特徴依存ノイズを除外するため、このランダムノイズのみを用いることで最終的な結論は導出できない。 したがって、基礎的真理を付加する特徴依存ノイズデータセットを生成することが不可欠である。 そこで本稿では,真のラベル情報を保持するクリーンデータセット上でのDNNのトレーニング予測を利用して,特徴依存型ノイズデータセットを作成するための直感的なアプローチを提案する。 これらのデータセットを "Pseudo Noisy datasets" と呼ぶ。 疑似ノイズデータセットが様々な条件における特徴依存ノイズデータセットに類似していることを示すため,いくつかの実験を行った。 さらに, 擬似雑音と同じ雑音分布を持つ合成雑音データセット(「ランダム雑音」と呼ばれる)をランダムに生成し, i) 特徴依存ラベルノイズをランダムノイズと比較した場合の学習が容易であること, ii) 雑音分布によらず, 擬似雑音データセットが特徴依存ラベルノイズを模倣すること, iii) 現在の学習方法は特徴依存ラベルノイズには一般化しないことを示す。 したがって, Pseudo noisy データセットは, 頑健なトレーニング手法の研究・開発に有効であると考えられる。

Training Deep neural networks (DNNs) on noisy labeled datasets is a challenging problem, because learning on mislabeled examples deteriorates the performance of the network. As the ground truth availability is limited with real-world noisy datasets, previous papers created synthetic noisy datasets by randomly modifying the labels of training examples of clean datasets. However, no final conclusions can be derived by just using this random noise, since it excludes feature-dependent noise. Thus, it is imperative to generate feature-dependent noisy datasets that additionally provide ground truth. Therefore, we propose an intuitive approach to creating feature-dependent noisy datasets by utilizing the training predictions of DNNs on clean datasets that also retain true label information. We refer to these datasets as "Pseudo Noisy datasets". We conduct several experiments to establish that Pseudo noisy datasets resemble feature-dependent noisy datasets across different conditions. We further randomly generate synthetic noisy datasets with the same noise distribution as that of Pseudo noise (referred as "Randomized Noise") to empirically show that i) learning is easier with feature-dependent label noise compared to random noise, ii) irrespective of noise distribution, Pseudo noisy datasets mimic feature-dependent label noise and iii) current training methods are not generalizable to feature-dependent label noise. Therefore, we believe that Pseudo noisy datasets will be quite helpful to study and develop robust training methods.
翻訳日:2021-05-25 15:07:06 公開日:2021-05-22
# MIASSR : 医用画像任意スケール超解法へのアプローチ

MIASSR: An Approach for Medical Image Arbitrary Scale Super-Resolution ( http://arxiv.org/abs/2105.10738v1 )

ライセンス: Link先を確認
Jin Zhu, Chuan Tan, Junwei Yang, Guang Yang and Pietro Lio'(参考訳) 単一の画像超解像(SISR)は、1つの低解像度画像から高解像度の出力を得る。 現在、深層学習に基づくsisrアプローチは、追加のスキャンのコストなしで、高品質で高空間分解能の画像を実現する可能性があるため、医療画像処理において広く議論されている。 しかし、既存の手法の多くはスケール固有のsrタスク用に設計されており、拡大スケールを一般化できない。 本稿では, 医用画像の任意のスケールの超解像 (miassr) に対して, 生成的逆ネットワーク (gans) とメタラーニングを組み合わせることで, (1, 4] の倍率で医用画像の超解像を行う手法を提案する。 単一モード磁気共鳴(MR)脳画像(OASIS脳)と多モードMR脳画像(BraTS)の最先端のSISRアルゴリズムと比較して、MIASSRは最小モデルサイズで同等の忠実度と最高の知覚品質を達成する。 心MR画像 (ACDC) や胸部CT画像 (COVID-CT) などの新しい医療モダリティのSRタスクにMIASSRが対応できるように, トランスファーラーニングも採用している。 私たちの作品のソースコードも公開されています。 このように、MIASSRは、再構成、画質向上、セグメンテーションといった臨床画像解析タスクにおいて、新しい基礎的な前処理ステップになる可能性がある。

Single image super-resolution (SISR) aims to obtain a high-resolution output from one low-resolution image. Currently, deep learning-based SISR approaches have been widely discussed in medical image processing, because of their potential to achieve high-quality, high spatial resolution images without the cost of additional scans. However, most existing methods are designed for scale-specific SR tasks and are unable to generalise over magnification scales. In this paper, we propose an approach for medical image arbitrary-scale super-resolution (MIASSR), in which we couple meta-learning with generative adversarial networks (GANs) to super-resolve medical images at any scale of magnification in (1, 4]. Compared to state-of-the-art SISR algorithms on single-modal magnetic resonance (MR) brain images (OASIS-brains) and multi-modal MR brain images (BraTS), MIASSR achieves comparable fidelity performance and the best perceptual quality with the smallest model size. We also employ transfer learning to enable MIASSR to tackle SR tasks of new medical modalities, such as cardiac MR images (ACDC) and chest computed tomography images (COVID-CT). The source code of our work is also public. Thus, MIASSR has the potential to become a new foundational pre-/post-processing step in clinical image analysis tasks such as reconstruction, image quality enhancement, and segmentation.
翻訳日:2021-05-25 15:00:52 公開日:2021-05-22
# 生体画像分割のための直交アンサンブルネットワーク

Orthogonal Ensemble Networks for Biomedical Image Segmentation ( http://arxiv.org/abs/2105.10827v1 )

ライセンス: Link先を確認
Agostina J. Larrazabal, C\'esar Mart\'inez, Jose Dolz and Enzo Ferrante(参考訳) セマンティックセグメンテーションのような視覚的タスクに対するディープラーニングベースのアプローチの驚くべきパフォーマンスにもかかわらず、それらは、重要な意思決定プロセスにとって有害な誤校正予測を生成することが知られている。 アンサンブル学習は、個々のモデルの性能を向上するだけでなく、独立した予測を平均化することによって、誤校正を減らすことも示している。 このシナリオでは、モデルの多様性が重要な要素となり、異なる関数型ソリューションに収束する個々のモデルを促進する。 本稿では,直交制約によってモデル多様性を明示的に強制する新たな枠組みである直交アンサンブルネットワーク(oen)を提案する。 提案手法は,アンサンブルの構成成分間の直交性がモデル全体の多様性を増大させるという仮説に基づいている。 我々は、逐次アンサンブルトレーニングプロセスの正規化に使用できる新しいペアワイド直交制約を活用し、予測性能を改善し、モデル出力を校正する。 MR画像における脳腫瘍と白質超強度セグメンテーションの2つの挑戦的脳病変セグメンテーションタスクにおいて,提案手法をベンチマークした。 実験の結果,本手法はより頑健で高度に調整されたアンサンブルモデルを生成し,生体医用画像セグメンテーションの課題に対処できることがわかった。

Despite the astonishing performance of deep-learning based approaches for visual tasks such as semantic segmentation, they are known to produce miscalibrated predictions, which could be harmful for critical decision-making processes. Ensemble learning has shown to not only boost the performance of individual models but also reduce their miscalibration by averaging independent predictions. In this scenario, model diversity has become a key factor, which facilitates individual models converging to different functional solutions. In this work, we introduce Orthogonal Ensemble Networks (OEN), a novel framework to explicitly enforce model diversity by means of orthogonal constraints. The proposed method is based on the hypothesis that inducing orthogonality among the constituents of the ensemble will increase the overall model diversity. We resort to a new pairwise orthogonality constraint which can be used to regularize a sequential ensemble training process, resulting on improved predictive performance and better calibrated model outputs. We benchmark the proposed framework in two challenging brain lesion segmentation tasks --brain tumor and white matter hyper-intensity segmentation in MR images. The experimental results show that our approach produces more robust and well-calibrated ensemble models and can deal with challenging tasks in the context of biomedical image segmentation.
翻訳日:2021-05-25 15:00:24 公開日:2021-05-22
# 弱教師付き異常検出のためのオートエンコーダ付き特徴符号化

Feature Encoding with AutoEncoders for Weakly-supervised Anomaly Detection ( http://arxiv.org/abs/2105.10500v1 )

ライセンス: Link先を確認
Yingjie Zhou, Xucheng Song, Yanru Zhang, Fanxing Liu, Ce Zhu and Lingqiao Liu(参考訳) 弱教師付き異常検出は、ラベル付きデータと豊富なラベル付きデータから異常検出を学習することを目的としている。 最近の研究では、正常なサンプルと異常なサンプルを特徴空間内の異なる領域に識別的にマッピングしたり、異なる分布に適合させることで、異常検出のためのディープニューラルネットワークを構築している。 しかし、注釈付き異常サンプルの数が限られているため、識別損失のあるネットワークを直接訓練することは不十分である。 この問題を克服するため,本稿では,入力データをより有意義な表現に変換し,異常検出に使用できる新しい手法を提案する。 具体的には, 入力データの符号化にオートエンコーダを活用し, 入力データの新たな表現として隠れ表現, 復元残留ベクトル, 再構成誤差の3つの要因を活用した。 この表現は、トレーニングデータ多様体上の射影、射影への方向、射影への距離を伴うテストサンプルを符号化する。 この符号化に加えて,これら3つの要素をシームレスに組み込む新しいネットワークアーキテクチャを提案する。 広範な実験から,提案手法の利点は,競合手法よりも優れた性能によって明らかに示された。

Weakly-supervised anomaly detection aims at learning an anomaly detector from a limited amount of labeled data and abundant unlabeled data. Recent works build deep neural networks for anomaly detection by discriminatively mapping the normal samples and abnormal samples to different regions in the feature space or fitting different distributions. However, due to the limited number of annotated anomaly samples, directly training networks with the discriminative loss may not be sufficient. To overcome this issue, this paper proposes a novel strategy to transform the input data into a more meaningful representation that could be used for anomaly detection. Specifically, we leverage an autoencoder to encode the input data and utilize three factors, hidden representation, reconstruction residual vector, and reconstruction error, as the new representation for the input data. This representation amounts to encode a test sample with its projection on the training data manifold, its direction to its projection and its distance to its projection. In addition to this encoding, we also propose a novel network architecture to seamlessly incorporate those three factors. From our extensive experiments, the benefits of the proposed strategy are clearly demonstrated by its superior performance over the competitive methods.
翻訳日:2021-05-25 14:57:39 公開日:2021-05-22
# 確率的遅延を伴う組合せブロックバンド

Combinatorial Blocking Bandits with Stochastic Delays ( http://arxiv.org/abs/2105.10625v1 )

ライセンス: Link先を確認
Alexia Atsidakou, Orestis Papadigenopoulos, Soumya Basu, Constantine Caramanis, Sanjay Shakkottai(参考訳) 近年の研究では、各腕の報酬分布が最後の引き抜きから経過した時間の特別な機能である多腕バンディット問題の自然変化が検討されている。 この方向では、単純な(より広く適用可能な)モデルは、ブラディットをブロックするものであり、各プレイ後に決定論的ラウンド数で腕が利用できなくなる。 本研究では, 上記のモデルを2つの方向に拡張する: (i) 各ラウンドで複数の腕を演奏できる一般的な組み合わせ設定を, 実現可能性制約の下で検討する。 (ii)各腕の閉塞時間が確率的であることを許容する。 まず,上記の設定の計算・無条件の硬さについて検討し,(近似的な意味でも)解決可能な問題となるために必要な条件を特定した。 これらの条件に基づき、利用可能な(非ブロック)アームの最大報酬実現可能部分集合を常に果たす自然な欲望ヒューリスティックの近似保証を厳密に解析する。 腕の期待される報酬が不明な場合には、このヒューリスティックを UCB に基づく帯域幅アルゴリズムに適応させ、遅延がない場合の理論的下限に一致して、サブ線形(近似的)後悔の保証を与える。

Recent work has considered natural variations of the multi-armed bandit problem, where the reward distribution of each arm is a special function of the time passed since its last pulling. In this direction, a simple (yet widely applicable) model is that of blocking bandits, where an arm becomes unavailable for a deterministic number of rounds after each play. In this work, we extend the above model in two directions: (i) We consider the general combinatorial setting where more than one arms can be played at each round, subject to feasibility constraints. (ii) We allow the blocking time of each arm to be stochastic. We first study the computational/uncond itional hardness of the above setting and identify the necessary conditions for the problem to become tractable (even in an approximate sense). Based on these conditions, we provide a tight analysis of the approximation guarantee of a natural greedy heuristic that always plays the maximum expected reward feasible subset among the available (non-blocked) arms. When the arms' expected rewards are unknown, we adapt the above heuristic into a bandit algorithm, based on UCB, for which we provide sublinear (approximate) regret guarantees, matching the theoretical lower bounds in the limiting case of absence of delays.
翻訳日:2021-05-25 14:56:30 公開日:2021-05-22
# 逆グラフ埋め込みのためのロバストで一般化されたフレームワーク

A Robust and Generalized Framework for Adversarial Graph Embedding ( http://arxiv.org/abs/2105.10651v1 )

ライセンス: Link先を確認
Jianxin Li, Xingcheng Fu, Hao Peng, Senzhang Wang, Shijie Zhu, Qingyun Sun, Philip S. Yu, Lifang He(参考訳) グラフ埋め込みはグラフマイニングに不可欠である。 近年,実世界におけるグラフデータの普及に伴い,高品質なグラフ埋め込みベクトルを学習するための手法が数多く提案されている。 しかし、既存の手法のほとんどは、ノイズを考慮せずにトレーニングデータを強化するために、元のグラフから負のサンプルをランダムに選択する。 加えて、これらの手法のほとんどは明示的なグラフ構造のみに焦点を当てており、様々な関係や非対称性のような辺の複雑な意味論を完全に捉えることができない。 これらの問題に対処するために,生成的逆数ネットワークに基づく逆数グラフ埋め込みのための堅牢で一般化されたフレームワークを提案する。 生成逆数ネットワークに着想を得て, AGE という逆数グラフ埋め込みのための堅牢で一般化されたフレームワークを提案する。 AGEは、暗黙の分布から強化された負のサンプルとして偽の隣接ノードを生成し、識別器とジェネレータがそれぞれのノードの堅牢で一般化された表現を共同で学習できるようにする。 本フレームワークでは,3種類のグラフデータを扱う3つのモデルを提案し,これに対応する最適化アルゴリズム,すなわち,無方向性および有向な同種グラフに対するUG-AGEとDG-AGEと,異種情報ネットワークに対するHIN-AGEを導出する。 広範な実験により,提案手法は,リンク予測やノード分類,グラフ再構成など,複数のグラフマイニングタスクにおいて,既存の最先端手法を一貫して著しく上回ることがわかった。

Graph embedding is essential for graph mining tasks. With the prevalence of graph data in real-world applications, many methods have been proposed in recent years to learn high-quality graph embedding vectors various types of graphs. However, most existing methods usually randomly select the negative samples from the original graph to enhance the training data without considering the noise. In addition, most of these methods only focus on the explicit graph structures and cannot fully capture complex semantics of edges such as various relationships or asymmetry. In order to address these issues, we propose a robust and generalized framework for adversarial graph embedding based on generative adversarial networks. Inspired by generative adversarial network, we propose a robust and generalized framework for adversarial graph embedding, named AGE. AGE generates the fake neighbor nodes as the enhanced negative samples from the implicit distribution, and enables the discriminator and generator to jointly learn each node's robust and generalized representation. Based on this framework, we propose three models to handle three types of graph data and derive the corresponding optimization algorithms, i.e., UG-AGE and DG-AGE for undirected and directed homogeneous graphs, respectively, and HIN-AGE for heterogeneous information networks. Extensive experiments show that our methods consistently and significantly outperform existing state-of-the-art methods across multiple graph mining tasks, including link prediction, node classification, and graph reconstruction.
翻訳日:2021-05-25 14:56:08 公開日:2021-05-22
# V2V時空間的パターン認識とレーン変動のリスク解析

V2V Spatiotemporal Interactive Pattern Recognition and Risk Analysis in Lane Changes ( http://arxiv.org/abs/2105.10688v1 )

ライセンス: Link先を確認
Yue Zhang, Yajie Zou, Lingtao Wu(参考訳) 複雑な車線変化(LC)のシナリオでは、自動運転車が適切な判断を下すためには、動的対話パターンの意味論的解釈と安全性解析が必要である。 本研究では,プリミティブベースの対話型パターン認識手法とリスク分析手法を組み合わせた教師なし学習フレームワークを提案する。 ガウス混合モデル(GMM-HMM)を用いた隠れマルコフモデルを開発し,LCシナリオをプリミティブに分解する。 次に、動的時間ワープ(DTW)距離に基づくK平均クラスタリングを適用し、プリミティブを13種類のインタラクティブパターンに集約する。 最後に、LCプロセスに関わる2種類の時間対衝突(TTC)を、対話パターンのリスクを分析し、リスクの高いLCインタラクティブパターンを抽出する指標として検討する。 The Highway Drone Dataset (highD) から得られた結果は、LCインタラクティブパターンが解釈可能な意味情報を含んでいることを示している。 本研究は,lcインタラクティブパターンの時空間的進化則とリスク形成機構を探求し,潜在インタラクティブパターンの包括的理解,自律走行車の意思決定の合理性と安全性の向上に有用であることを示す。

In complex lane change (LC) scenarios, semantic interpretation and safety analysis of dynamic interactive pattern are necessary for autonomous vehicles to make appropriate decisions. This study proposes an unsupervised learning framework that combines primitive-based interactive pattern recognition methods and risk analysis methods. The Hidden Markov Model with the Gaussian mixture model (GMM-HMM) approach is developed to decompose the LC scenarios into primitives. Then the Dynamic Time Warping (DTW) distance based K-means clustering is applied to gather the primitives to 13 types of interactive patterns. Finally, this study considers two types of time-to-collision (TTC) involved in the LC process as indicators to analyze the risk of the interactive patterns and extract high-risk LC interactive patterns. The results obtained from The Highway Drone Dataset (highD) demonstrate that the identified LC interactive patterns contain interpretable semantic information. This study explores the spatiotemporal evolution law and risk formation mechanism of the LC interactive patterns and the findings are useful for comprehensively understanding the latent interactive patterns, improving the rationality and safety of autonomous vehicle's decision-making.
翻訳日:2021-05-25 14:55:43 公開日:2021-05-22
# 因果埋め込みによるクープマン作用素の普遍可観測集合

Universal set of Observables for the Koopman Operator through Causal Embedding ( http://arxiv.org/abs/2105.10759v1 )

ライセンス: Link先を確認
G Manjunath and A de Clercq(参考訳) このようなシステムのより情報的な力学モデルを構築するために、物理的および自然的なシステムから繰り返し測定されることは、現代科学において刻まれている。 遅延座標マッピング, クープマン演算子に基づくデータ駆動手法, 貯水池計算手法を用いて等価カオス力学系を再構成した結果, データを生成する力学系に関係のある新しい位相空間上でモデル方程式が見つかる可能性が示された。 最近、新しいフェーズのダイナミクスを記述するマップの機能的複雑さを減らすための厳密な結果によって、koopman演算子ベースのアプローチはデータ駆動モデリングに非常に魅力的になった。 しかし、異なるデータセットで機能する非線形可観測関数の集合を選択することは、オープンチャレンジである。 我々は、貯水池計算において、新しい空間の力学が元の系と同値あるいは位相的に共役となるような観測可能な適切な集合を得るために、emph{causal embedding property} と同等の駆動力学系を用いる。 深層学習法は、トポロジカル共役の結果現れる地図を学習するために用いられる。 ハードウェア実装の安定性、アメニビリティに加えて、因果埋め込みベースのモデルは、以前に報告されたデータ駆動または機械学習メソッドで失敗したマップに対しても、長期的な一貫性を提供する。

Obtaining repeated measurements from physical and natural systems for building a more informative dynamical model of such systems is engraved in modern science. Results in reconstructing equivalent chaotic dynamical systems through delay coordinate mappings, Koopman operator based data-driven approach and reservoir computing methods have shown the possibility of finding model equations on a new phase space that is relatable to the dynamical system generating the data. Recently, rigorous results that point to reducing the functional complexity of the map that describes the dynamics in the new phase have made the Koopman operator based approach very attractive for data-driven modeling. However, choosing a set of nonlinear observable functions that can work for different data sets is an open challenge. We use driven dynamical systems comparable to that in reservoir computing with the \emph{causal embedding property} to obtain the right set of observables through which the dynamics in the new space is made equivalent or topologically conjugate to the original system. Deep learning methods are used to learn a map that emerges as a consequence of the topological conjugacy. Besides stability, amenability for hardware implementations, causal embedding based models provide long-term consistency even for maps that have failed under previously reported data-driven or machine learning methods.
翻訳日:2021-05-25 14:55:24 公開日:2021-05-22
# 動的システムへの情報埋め込み

Embedding Information onto a Dynamical System ( http://arxiv.org/abs/2105.10766v1 )

ライセンス: Link先を確認
G Manjunath(参考訳) ケインの埋め込み定理は、一般的な遅延観測写像を通して適切な次元のユークリッド空間に力学系の魅力を埋め込むものである。 埋め込みはまた、トポロジカルな共役性を確立する。 本稿では,非自律力学系の魅力的な解として任意の列を別の空間に写像する方法を示す。 このような写像には位相共役や、列と魅力的な解空間の間の埋め込みも伴う。 この結果は、テイケンズ埋め込み定理の一般化ではなく、解空間に外部刺激を埋め込むアプリケーションで広く使われている離散時間状態空間モデルで何が必要とされるかを理解するのに役立つ。 以上より,自律力学系の摂動に関する別の基礎的な課題を解決した。 離散時間自律力学系の局所的既約誘引集合(安定な固定点など)を外生ノイズ摂動が連続的に引き付けるとき、ダイナミクスに何が起こるかを正確に記述する。

The celebrated Takens' embedding theorem concerns embedding an attractor of a dynamical system in a Euclidean space of appropriate dimension through a generic delay-observation map. The embedding also establishes a topological conjugacy. In this paper, we show how an arbitrary sequence can be mapped into another space as an attractive solution of a nonautonomous dynamical system. Such mapping also entails a topological conjugacy and an embedding between the sequence and the attractive solution spaces. This result is not a generalization of Takens embedding theorem but helps us understand what exactly is required by discrete-time state space models widely used in applications to embed an external stimulus onto its solution space. Our results settle another basic problem concerning the perturbation of an autonomous dynamical system. We describe what exactly happens to the dynamics when exogenous noise perturbs continuously a local irreducible attracting set (such as a stable fixed point) of a discrete-time autonomous dynamical system.
翻訳日:2021-05-25 14:55:00 公開日:2021-05-22
# 3次元超音波による多面定位のための協調エージェントの探索

Searching Collaborative Agents for Multi-plane Localization in 3D Ultrasound ( http://arxiv.org/abs/2105.10626v1 )

ライセンス: Link先を確認
Xin Yang, Yuhao Huang, Ruobing Huang, Haoran Dou, Rui Li, Jikuan Qian, Xiaoqiong Huang, Wenlong Shi, Chaoyu Chen, Yuanji Zhang, Haixia Wang, Yi Xiong, Dong Ni(参考訳) 3D超音波(US)は, 2D USに含まれない空間情報や診断情報が豊富であることから普及している。 さらに、3D USは複数の標準平面(SP)を1枚のショットに収めることができる。 したがって、3D USにおけるSPの自動ローカライズは、ユーザ独立性とスキャニング効率を向上させる可能性がある。 しかし、3D USにおける手動SPローカライゼーションは、画像品質が低く、検索スペースが大きく、解剖学的変動が大きいため困難である。 本研究では、3D USで複数のSPを同時にローカライズする新しいマルチエージェント強化学習(MARL)フレームワークを提案する。 私たちの貢献は4倍です。 まず,提案手法は汎用的であり,複数のSPを米国内の異なるデータセットに正確にローカライズすることができる。 次に,エージェント間のコミュニケーションを強化し,平面間の空間関係を効果的に学習するrecurrent neural network(rnn)ベースの協調モジュールをmarlシステムに適用する。 第3に,エージェントと協調モジュールのネットワークアーキテクチャを自動設計するために,ニューラルネットワーク検索(nas)を採用することを検討する。 最後に,我々は骨盤usボリュームにおけるspの自動局在化を初めて実現し,正常例と異常例の両方にアプローチできることに留意した。 提案手法は, 子宮と胎児脳の2つの難解なデータセット上で広く検証され, 平均定位精度は7.03°/1.59mm, 9.75°/1.19mmであった。 実験の結果, 軽量marlモデルは最先端手法よりも精度が高いことがわかった。

3D ultrasound (US) has become prevalent due to its rich spatial and diagnostic information not contained in 2D US. Moreover, 3D US can contain multiple standard planes (SPs) in one shot. Thus, automatically localizing SPs in 3D US has the potential to improve user-independence and scanning-efficiency. However, manual SP localization in 3D US is challenging because of the low image quality, huge search space and large anatomical variability. In this work, we propose a novel multi-agent reinforcement learning (MARL) framework to simultaneously localize multiple SPs in 3D US. Our contribution is four-fold. First, our proposed method is general and it can accurately localize multiple SPs in different challenging US datasets. Second, we equip the MARL system with a recurrent neural network (RNN) based collaborative module, which can strengthen the communication among agents and learn the spatial relationship among planes effectively. Third, we explore to adopt the neural architecture search (NAS) to automatically design the network architecture of both the agents and the collaborative module. Last, we believe we are the first to realize automatic SP localization in pelvic US volumes, and note that our approach can handle both normal and abnormal uterus cases. Extensively validated on two challenging datasets of the uterus and fetal brain, our proposed method achieves the average localization accuracy of 7.03 degrees/1.59mm and 9.75 degrees/1.19mm. Experimental results show that our light-weight MARL model has higher accuracy than state-of-the-art methods.
翻訳日:2021-05-25 14:50:42 公開日:2021-05-22
# (参考訳) エデルマンの意識的アーティファクトへの歩み [全文訳有]

Edelman's Steps Toward a Conscious Artifact ( http://arxiv.org/abs/2105.10461v1 )

ライセンス: CC BY 4.0
Jeffrey L. Krichmar(参考訳) 2006年、カリフォルニア州ラ・ジョラ(la jolla)の神経科学研究所(neuralsciences institute, nsi)で、ジェラルド・エデルマン(gerald edelman)は、意識的な人工物の作成に向けたロードマップを説明した。 私の知る限り、このロードマップは公開されていません。 しかし、それは、その会議以来何年もの間、私の考えと他の多くの人々の考えを形作りました。 このショートペーパーは、ミーティング中に受け取ったメモに基づいており、このロードマップの重要なステップを説明しています。 15年以上前と同じように、今日は画期的だと思います。

In 2006, during a meeting of a working group of scientists in La Jolla, California at The Neurosciences Institute (NSI), Gerald Edelman described a roadmap towards the creation of a Conscious Artifact. As far as I know, this roadmap was not published. However, it did shape my thinking and that of many others in the years since that meeting. This short paper, which is based on my notes taken during the meeting, describes the key steps in this roadmap. I believe it is as groundbreaking today as it was more than 15 years ago.
翻訳日:2021-05-25 05:13:59 公開日:2021-05-22