このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20200317)

# 点欠陥量子ビット系に適用した縦スピン緩和モデル

Longitudinal spin relaxation model applied to point defect qubit systems ( http://arxiv.org/abs/2001.01801v2 )

ライセンス: Link先を確認
Viktor Iv\'ady(参考訳) 制御可能な、部分的に孤立した半導体のレベルシステムは最近、ナノスケールセンシングと量子テクノロジーの広範な応用により、複数の分野の注目を集めている。 このようなシステムのダイナミクスと関連する応用の定量的シミュレーションは、少数のレベルシステムだけでなく、そのローカル環境も忠実に記述する必要がある、難しい理論的課題である。 本稿では,核スピンと電子スピンの希薄な浴によって引き起こされる緩和過程を記述する方法を開発した。 この方法は、中心スピン系のクラスター近似の枠組みにおける拡張リンドブラッド方程式を利用する。 提案手法は, 模擬固体点欠陥量子ビット系, 特にダイヤモンド中のNV中心のT$_1$時間を, 様々な磁場とひずみで正確に記述できることを示す。

Controllable, partially isolated few level systems in semiconductors have recently gained multidisciplinary attention due to their widespread nanoscale sensing and quantum technology applications. Quantitative simulation of the dynamics and related applications of such systems is a challenging theoretical task that requires faithful description not only the few level systems but also their local environments. Here, we develop a method that can describe relevant relaxation processes induced by a dilute bath of nuclear and electron spins. The method utilizes an extended Lindblad equation in the framework of cluster approximation of a central spin system. We demonstrate that the proposed method can accurately describe T$_1$ time of an exemplary solid-state point defect qubit system, in particular NV center in diamond, at various magnetic fields and strain.
翻訳日:2023-01-14 03:13:29 公開日:2020-03-17
# 皮膚科ワークフローにおける深層学習手法のロバスト性評価

Assessing Robustness of Deep learning Methods in Dermatological Workflow ( http://arxiv.org/abs/2001.05878v2 )

ライセンス: Link先を確認
Sourav Mishra, Subhajit Chaudhury, Hideaki Imaizumi, Toshihiko Yamasaki(参考訳) 本稿では, 皮膚科に焦点をあてて, 臨床ワークフローにおける現在の深層学習法の適合性を評価することを目的とした。 深層学習法は皮膚科医の精度を高めるためにいくつかの個別の条件で試みられているが、一般的な臨床症状に対して厳密な検査は行われていない。 ほとんどのプロジェクトは、よく制御された実験室条件で取得されたデータを含んでいる。 これは、対応する画像品質が必ずしも理想的ではない場合の定期的な臨床評価を反映しないかもしれない。 本研究は,10種類の疾患の入力画像に対する非理想的特徴をシミュレートして,深層学習手法のロバスト性をテストする。 擬似条件を用いて評価した結果,強靭な訓練にもかかわらず,個々の予測値が大きく変化することがわかった。

This paper aims to evaluate the suitability of current deep learning methods for clinical workflow especially by focusing on dermatology. Although deep learning methods have been attempted to get dermatologist level accuracy in several individual conditions, it has not been rigorously tested for common clinical complaints. Most projects involve data acquired in well-controlled laboratory conditions. This may not reflect regular clinical evaluation where corresponding image quality is not always ideal. We test the robustness of deep learning methods by simulating non-ideal characteristics on user submitted images of ten classes of diseases. Assessing via imitated conditions, we have found the overall accuracy to drop and individual predictions change significantly in many cases despite of robust training.
翻訳日:2023-01-11 05:39:28 公開日:2020-03-17
# シグナルネットワークの学習 : 分子機構

Learning of signaling networks: molecular mechanisms ( http://arxiv.org/abs/2001.11679v2 )

ライセンス: Link先を確認
P\'eter Csermely, Nina Kunsic, P\'eter Mendik, M\'ark Kerest\'ely, Teod\'ora Farag\'o, D\'aniel V. Veres, and P\'eter Tompa(参考訳) 神経学習の分子過程はよく説明されている。 しかし、非神経細胞の学習機構は分子レベルでは十分に理解されていない。 本稿では,本研究の分子機構として,内因性に障害のあるタンパク質やプリオンのコンフォメーション記憶,シグナルカスケード,タンパク質の転位,RNA(microRNAおよびlncRNA),クロマチン記憶について論じる。 これらのプロセスがシグナリングネットワークの学習を構成すると仮定し、単一、非神経細胞の一般化されたヒュービアン学習プロセスに対応し、細胞学習が薬物設計における新しい方向性を開き、新しい人工知能手法を刺激する方法について論じる。

Molecular processes of neuronal learning have been well-described. However, learning mechanisms of non-neuronal cells have not been fully understood at the molecular level. Here, we discuss molecular mechanisms of cellular learning, including conformational memory of intrinsically disordered proteins and prions, signaling cascades, protein translocation, RNAs (microRNA and lncRNA), and chromatin memory. We hypothesize that these processes constitute the learning of signaling networks and correspond to a generalized Hebbian learning process of single, non-neuronal cells, and discuss how cellular learning may open novel directions in drug design and inspire new artificial intelligence methods.
翻訳日:2023-01-05 06:47:42 公開日:2020-03-17
# 関係ネットワークがGANと出会う時--トリプルト損失と関係GAN

When Relation Networks meet GANs: Relation GANs with Triplet Loss ( http://arxiv.org/abs/2002.10174v3 )

ライセンス: Link先を確認
Runmin Wu, Kunyao Zhang, Lijun Wang, Yue Wang, Pingping Zhang, Huchuan Lu, Yizhou Yu(参考訳) 最近の研究は、gans(generative adversarial network)による現実的な画像の生成において顕著な進歩を遂げているが、トレーニングの安定性の欠如は、多くのgans、特に高解像度入力や複雑なデータセットにおいて依然として重要な関心事である。 ランダムに生成された分布は実際の分布とほとんど重複しないため、訓練用GANは勾配消滅問題に悩まされることが多い。 この問題に対処するために、重量クリッピング、勾配ペナルティ、スペクトル正規化などの経験的手法を用いて判別器の能力を制限する多くのアプローチが提案されている。 本稿では,この問題に対する代替案として,より原則的なアプローチを提案する。 そこで,同一分布と異なる分布のサンプルを識別するために,識別器を訓練することにより,実および偽の入力サンプルを識別する代わりに,ペアサンプル間の関係を調べる。 この目的のために,判別器の関係ネットワークアーキテクチャを探索し,一般化と安定性を向上させる三重項損失の設計を行う。 ベンチマークデータセットに関する広範囲な実験により、提案する関係判別器と新たな損失は、無条件および条件付き画像生成および画像変換を含む可変視覚タスクにおいて著しい改善をもたらすことが示された。

Though recent research has achieved remarkable progress in generating realistic images with generative adversarial networks (GANs), the lack of training stability is still a lingering concern of most GANs, especially on high-resolution inputs and complex datasets. Since the randomly generated distribution can hardly overlap with the real distribution, training GANs often suffers from the gradient vanishing problem. A number of approaches have been proposed to address this issue by constraining the discriminator's capabilities using empirical techniques, like weight clipping, gradient penalty, spectral normalization etc. In this paper, we provide a more principled approach as an alternative solution to this issue. Instead of training the discriminator to distinguish real and fake input samples, we investigate the relationship between paired samples by training the discriminator to separate paired samples from the same distribution and those from different distributions. To this end, we explore a relation network architecture for the discriminator and design a triplet loss which performs better generalization and stability. Extensive experiments on benchmark datasets show that the proposed relation discriminator and new loss can provide significant improvement on variable vision tasks including unconditional and conditional image generation and image translation.
翻訳日:2022-12-29 03:48:13 公開日:2020-03-17
# ワンステップ攻撃による迅速かつロバストな対向訓練を目指して

Towards Rapid and Robust Adversarial Training with One-Step Attacks ( http://arxiv.org/abs/2002.10097v4 )

ライセンス: Link先を確認
Leo Schwinn, Ren\'e Raab, Bj\"orn Eskofier(参考訳) 敵意トレーニングは、敵意攻撃に対するニューラルネットワークの堅牢性を高めるための最も成功した経験的手法である。 しかしながら、PGD(Projected Gradient Descent)によるトレーニングのような最も効果的なアプローチは、高い計算複雑性を伴う。 本稿では,計算コストの低いFGSM(Fast Gradient Sign Method)を用いて,敵対的学習を可能にする2つのアイデアを提案する。 まず、FGSM攻撃の初期データポイントに均一なノイズを加えることで、より多様な敵を発生させ、特定の摂動境界に過度に適合することを禁じる。 さらに、ニューラルネットワークの前に学習可能な正規化ステップを追加し、これをpixelwise noise injection layer(pnil)と呼ぶ。 PNILが伝播する入力は、学習されたガウス分布から再サンプリングされる。 PNILによって誘導される正規化は、モデルフォーム学習がその勾配を曖昧にするのを防ぐ。 FGSMをベースとした対向訓練と併用したノイズ注入は,PGDによる対向訓練に匹敵する結果を示す。 さらに,ノイズインジェクションとpnilを組み合わせることで,pgdベースの対向訓練よりも優れる。

Adversarial training is the most successful empirical method for increasing the robustness of neural networks against adversarial attacks. However, the most effective approaches, like training with Projected Gradient Descent (PGD) are accompanied by high computational complexity. In this paper, we present two ideas that, in combination, enable adversarial training with the computationally less expensive Fast Gradient Sign Method (FGSM). First, we add uniform noise to the initial data point of the FGSM attack, which creates a wider variety of adversaries, thus prohibiting overfitting to one particular perturbation bound. Further, we add a learnable regularization step prior to the neural network, which we call Pixelwise Noise Injection Layer (PNIL). Inputs propagated trough the PNIL are resampled from a learned Gaussian distribution. The regularization induced by the PNIL prevents the model form learning to obfuscate its gradients, a factor that hindered prior approaches from successfully applying one-step methods for adversarial training. We show that noise injection in conjunction with FGSM-based adversarial training achieves comparable results to adversarial training with PGD while being considerably faster. Moreover, we outperform PGD-based adversarial training by combining noise injection and PNIL.
翻訳日:2022-12-29 03:03:19 公開日:2020-03-17
# ビデオ質問応答のための階層的条件関係ネットワーク

Hierarchical Conditional Relation Networks for Video Question Answering ( http://arxiv.org/abs/2002.10698v3 )

ライセンス: Link先を確認
Thao Minh Le, Vuong Le, Svetha Venkatesh, and Truyen Tran(参考訳) ビデオ質問応答(VideoQA)は、動的視覚的アーティファクトと遠縁関係を蒸留し、それらと言語概念を関連付けるためのモデリング能力を必要とするため、難しい。 本稿では,映像表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する,条件付き関係ネットワーク(crn)と呼ばれる汎用再利用可能なニューラルユニットを提案する。 CRNはテンソルオブジェクトの配列と条件付け機能を入力として取り、符号化された出力オブジェクトの配列を計算する。 モデル構築は、様々なモダリティとコンテキスト情報のために、これらの再利用可能なユニットの複製、再配置、積み重ねの簡単な演習となる。 この設計は高次リレーショナルおよび多段階推論をサポートする。 VideoQAのアーキテクチャはCRN階層であり、ブランチはサブビデオやクリップを表し、全員がコンテキスト条件と同じ質問を共有する。 よく知られているデータセットに対する評価により,新たなsota結果が得られ,videoqaのような複雑なドメインに対する汎用推論ユニットの構築が与える影響が示された。

Video question answering (VideoQA) is challenging as it requires modeling capacity to distill dynamic visual artifacts and distant relations and to associate them with linguistic concepts. We introduce a general-purpose reusable neural unit called Conditional Relation Network (CRN) that serves as a building block to construct more sophisticated structures for representation and reasoning over video. CRN takes as input an array of tensorial objects and a conditioning feature, and computes an array of encoded output objects. Model building becomes a simple exercise of replication, rearrangement and stacking of these reusable units for diverse modalities and contextual information. This design thus supports high-order relational and multi-step reasoning. The resulting architecture for VideoQA is a CRN hierarchy whose branches represent sub-videos or clips, all sharing the same question as the contextual condition. Our evaluations on well-known datasets achieved new SoTA results, demonstrating the impact of building a general-purpose reasoning unit on complex domains such as VideoQA.
翻訳日:2022-12-28 21:46:33 公開日:2020-03-17
# スペイン語臨床テキストにおける感性データの検出と分類:BERTを用いた実験

Sensitive Data Detection and Classification in Spanish Clinical Text: Experiments with BERT ( http://arxiv.org/abs/2003.03106v2 )

ライセンス: Link先を確認
Aitor Garc\'ia-Pablos, Naiara Perez, Montse Cuadros(参考訳) 大量のデジタルデータ処理は、幅広い機会と利益を提供するが、個人データのプライバシーを危険にさらすコストがかかる。 匿名化は、機密情報をデータから削除または置き換えることであり、個人のプライバシーを維持しながら、異なる目的のためにその利用を可能にする。 長年にわたり、多くの自動匿名化システムが提案されてきたが、データの種類、対象言語、訓練文書の入手状況によっては、まだ課題が残っている。 過去2年間に新たなディープラーニングモデルが出現したことで、自然言語処理の分野における最先端の技術が大幅に向上した。 これらの進歩は、2018年にGoogleが提案したBERTと、数百万のドキュメントで事前トレーニングされた共有言語モデルによって最も顕著に導かれた。 本稿では,BERTに基づくシークエンスラベリングモデルを用いて,スペインにおけるいくつかの臨床データセットに対する一連の匿名化実験を行う。 BERTを他のアルゴリズムと比較する。 実験の結果, 汎用ドメイン事前学習を用いた単純なBERTモデルでは, ドメイン固有の特徴工学を使わずに, 高い競争力が得られることがわかった。

Massive digital data processing provides a wide range of opportunities and benefits, but at the cost of endangering personal data privacy. Anonymisation consists in removing or replacing sensitive information from data, enabling its exploitation for different purposes while preserving the privacy of individuals. Over the years, a lot of automatic anonymisation systems have been proposed; however, depending on the type of data, the target language or the availability of training documents, the task remains challenging still. The emergence of novel deep-learning models during the last two years has brought large improvements to the state of the art in the field of Natural Language Processing. These advancements have been most noticeably led by BERT, a model proposed by Google in 2018, and the shared language models pre-trained on millions of documents. In this paper, we use a BERT-based sequence labelling model to conduct a series of anonymisation experiments on several clinical datasets in Spanish. We also compare BERT to other algorithms. The experiments show that a simple BERT-based model with general-domain pre-training obtains highly competitive results without any domain specific feature engineering.
翻訳日:2022-12-26 01:20:42 公開日:2020-03-17
# ビデオ手話認識のためのクロスドメイン知識の伝達

Transferring Cross-domain Knowledge for Video Sign Language Recognition ( http://arxiv.org/abs/2003.03703v2 )

ライセンス: Link先を確認
Dongxu Li, Xin Yu, Chenchen Xu, Lars Petersson, Hongdong Li(参考訳) 単語レベルの手話認識(WSLR)は手話解釈の基本課題である。 モデルはビデオから孤立した手話を認識する必要がある。 しかし、WSLRデータの注釈付けには専門家の知識が必要であるため、WSLRデータセットの取得は制限される。 反対に、インターネット上には豊富な字幕付きニュースビデオがある。 これらのビデオには単語レベルのアノテーションがなく、孤立した記号から大きなドメイン間ギャップがあるため、wslrモデルのトレーニングに直接使用することはできない。 我々は、大きなドメインギャップが存在するにもかかわらず、孤立とニュースサインは同じ視覚的概念を共有していることを観察した。 そこで本研究では,ドメイン不変の視覚概念を学習し,サブタイトルのニュースサインの知識を伝達することによってWSLRモデルを肥大化させる手法を提案する。 この目的のために,wslrモデルに基づいてニュース符号を抽出し,これら2つのドメイン特徴を粗く整えるために,ニュースと分離符号を共同で訓練した分類器を設計する。 本手法は,各クラス内のドメイン不変の特徴を学習し,ドメイン固有の特徴を抑えるために,さらに外部メモリを活用して,整列したニュースサインのクラスセントロイドを格納する。 次に,学習記述子に基づく時間的注意を設計し,認識性能を向上させる。 標準WSLRデータセットによる実験結果から,本手法は従来の最先端手法よりも優れていた。 また,サインニュースからサインを自動的に位置決めする手法の有効性を実証し,AP@0.5で28.1を達成した。

Word-level sign language recognition (WSLR) is a fundamental task in sign language interpretation. It requires models to recognize isolated sign words from videos. However, annotating WSLR data needs expert knowledge, thus limiting WSLR dataset acquisition. On the contrary, there are abundant subtitled sign news videos on the internet. Since these videos have no word-level annotation and exhibit a large domain gap from isolated signs, they cannot be directly used for training WSLR models. We observe that despite the existence of a large domain gap, isolated and news signs share the same visual concepts, such as hand gestures and body movements. Motivated by this observation, we propose a novel method that learns domain-invariant visual concepts and fertilizes WSLR models by transferring knowledge of subtitled news sign to them. To this end, we extract news signs using a base WSLR model, and then design a classifier jointly trained on news and isolated signs to coarsely align these two domain features. In order to learn domain-invariant features within each class and suppress domain-specific features, our method further resorts to an external memory to store the class centroids of the aligned news signs. We then design a temporal attention based on the learnt descriptor to improve recognition performance. Experimental results on standard WSLR datasets show that our method outperforms previous state-of-the-art methods significantly. We also demonstrate the effectiveness of our method on automatically localizing signs from sign news, achieving 28.1 for AP@0.5.
翻訳日:2022-12-25 14:42:21 公開日:2020-03-17
# ソフトウェア故障予測の外部妥当性に対処する帯域アルゴリズムのシミュレーションによる検討

A Simulation Study of Bandit Algorithms to Address External Validity of Software Fault Prediction ( http://arxiv.org/abs/2003.05094v2 )

ライセンス: Link先を確認
Teruki Hayakawa, Masateru Tsunoda, Koji Toda, Keitaro Nakasai, Kenichi Matsumoto(参考訳) 様々なソフトウェア故障予測モデルとアルゴリズム構築手法が提案されている。 多くの研究がそれらを比較評価し、最も有効なものを特定してきた。 しかし、ほとんどの場合、そのようなモデルやテクニックはデータセットごとに最高のパフォーマンスを持っていない。 これは、ソフトウェア開発データセットの多様性があるため、選択したモデルやテクニックが特定のデータセットで悪いパフォーマンスを示すリスクがあるためです。 低精度モデルの選択を避けるために,障害予測にbanditアルゴリズムを適用する。 プレイヤーが複数のスロットマシンに賭ける100枚のコインを持っている場合を考えてみよう。 ソフトウェア故障予測の通常の使用法は、プレイヤーが1つのスロットマシンで100コイン全てを賭けるのと類似している。 対照的に、バンディットアルゴリズムは各マシン(すなわち予測モデル)に1つのコインを賭けて、最良のマシンを探す。 実験では,100個のモジュールを含む人工データセットを開発した。 次に,様々な人工断層予測モデルを開発し,バンディットアルゴリズムを用いて動的に選択した。 トムソンサンプリングアルゴリズムは, 一つの予測モデルを用いた場合と比較して, 最良または第2の予測性能を示した。

Various software fault prediction models and techniques for building algorithms have been proposed. Many studies have compared and evaluated them to identify the most effective ones. However, in most cases, such models and techniques do not have the best performance on every dataset. This is because there is diversity of software development datasets, and therefore, there is a risk that the selected model or technique shows bad performance on a certain dataset. To avoid selecting a low accuracy model, we apply bandit algorithms to predict faults. Consider a case where player has 100 coins to bet on several slot machines. Ordinary usage of software fault prediction is analogous to the player betting all 100 coins in one slot machine. In contrast, bandit algorithms bet one coin on each machine (i.e., use prediction models) step-by-step to seek the best machine. In the experiment, we developed an artificial dataset that includes 100 modules, 15 of which include faults. Then, we developed various artificial fault prediction models and selected them dynamically using bandit algorithms. The Thomson sampling algorithm showed the best or second-best prediction performance compared with using only one prediction model.
翻訳日:2022-12-24 15:42:48 公開日:2020-03-17
# オンラインマルチオブジェクトトラッキングにおける動作と外観の改善

Refinements in Motion and Appearance for Online Multi-Object Tracking ( http://arxiv.org/abs/2003.07177v2 )

ライセンス: Link先を確認
Piao Huang, Shoudong Han, Jun Zhao, Donghaisheng Liu, Hongwei Wang, En Yu, and Alex ChiChung Kot(参考訳) 現代のマルチオブジェクト追跡(MOT)システムは通常、位置の移動モデルやデータアソシエーションの出現モデルのような分離されたモジュールを含む。 しかし、運動モデルと外観モデルの両方で互換性のある問題は無視される。 本稿では,運動積分,三次元(3d)積分画像,適応的外観特徴融合をシームレスに組み合わせ,mifと呼ばれる一般的なアーキテクチャを提案する。 通常、不確実な歩行者とカメラの動きは別々に処理されるため、統合された動きモデルは、カメラの動きの集中度を用いて設計される。 具体的には、3次元積分画像に基づく空間的ブロッキング法を提案し、空間的制約のある候補と軌跡間の無駄な接続を効率的に切断する。 そして、外観モデルと視認性予測を共同構築する。 スケール、ポーズ、可視性を考慮して、外観特徴を適応的に融合させ、特徴の誤認を克服する。 MIFベースのトラッカー(MIFT)は,MOT16と17の課題に対して60.1 MOTAで最先端の精度を実現する。

Modern multi-object tracking (MOT) system usually involves separated modules, such as motion model for location and appearance model for data association. However, the compatible problems within both motion and appearance models are always ignored. In this paper, a general architecture named as MIF is presented by seamlessly blending the Motion integration, three-dimensional(3D) Integral image and adaptive appearance feature Fusion. Since the uncertain pedestrian and camera motions are usually handled separately, the integrated motion model is designed using our defined intension of camera motion. Specifically, a 3D integral image based spatial blocking method is presented to efficiently cut useless connections between trajectories and candidates with spatial constraints. Then the appearance model and visibility prediction are jointly built. Considering scale, pose and visibility, the appearance features are adaptively fused to overcome the feature misalignment problem. Our MIF based tracker (MIFT) achieves the state-of-the-art accuracy with 60.1 MOTA on both MOT16&17 challenges.
翻訳日:2022-12-23 03:31:09 公開日:2020-03-17
# TACO:リッター検出のためのコンテキストにおけるトレーシュアノテーション

TACO: Trash Annotations in Context for Litter Detection ( http://arxiv.org/abs/2003.06975v2 )

ライセンス: Link先を確認
Pedro F Proen\c{c}a and Pedro Sim\~oes(参考訳) TACOはリッター検出とセグメンテーションのためのオープンイメージデータセットで、クラウドソーシングを通じて成長している。 まず、このデータセットとそれをサポートするために開発されたツールについて述べる。 次に,現在のTACOのインスタンス分割性能について,Mask R-CNNを用いて報告する。 サイズが小さい(画像1500枚、アノテーション4784枚)にもかかわらず、この挑戦的な問題に対して我々の結果は有望である。 しかし、デプロイに十分なゴミ検出を実現するために、TACOはいまだにずっと手動のアノテーションを必要としている。 http://tacodataset.org/ を使って貢献できる。

TACO is an open image dataset for litter detection and segmentation, which is growing through crowdsourcing. Firstly, this paper describes this dataset and the tools developed to support it. Secondly, we report instance segmentation performance using Mask R-CNN on the current version of TACO. Despite its small size (1500 images and 4784 annotations), our results are promising on this challenging problem. However, to achieve satisfactory trash detection in the wild for deployment, TACO still needs much more manual annotations. These can be contributed using: http://tacodataset.org/
翻訳日:2022-12-23 03:24:38 公開日:2020-03-17
# エンゲージメント・ダイバーシティ・コネクション:Spotifyのフィールド実験からの証拠

The Engagement-Diversity Connection: Evidence from a Field Experiment on Spotify ( http://arxiv.org/abs/2003.08203v1 )

ライセンス: Link先を確認
David Holtz, Benjamin Carterette, Praveen Chandar, Zahra Nazari, Henriette Cramer, Sinan Aral(参考訳) パーソナライズドレコメンデーションが、人々が消費するコンテンツの多様性を増減させるかどうかは不明だ。 本研究では,Spotifyにおけるランダムフィールド実験の結果を,消費多様性に対するパーソナライズされたレコメンデーションの効果を検証した。 この実験では、コントロールと治療の両方にポッドキャストの推奨が与えられ、ポッドキャストの消費を増やすことが目的であった。 治療ユーザーのレコメンデーションは音楽リスニング履歴に基づいてパーソナライズされ、コントロールユーザーはグループ内のユーザーの間で人気のあるポッドキャストを推奨された。 平均してポッドキャストのストリーム数は28.90%増加した。 しかし、この治療法はポッドキャストストリームの平均的な個人レベルの多様性を11.51%削減し、ポッドキャストストリームの総多様性を5.96%増加させ、パーソナライズされたレコメンデーションは、ユーザ間で均質で多様な消費パターンを作る可能性があり、バルカン化を反映している。 この結果から,推奨事項が消費促進のためだけに最適化された場合,利用者のエンゲージメントが向上する一方で,消費コンテンツの多様性にも影響することを示す。 この消費の多様性の変化は、ユーザの保持とライフタイムバリューに影響し、コンテンツ生産者にとって最適な戦略に影響を与える可能性がある。 また、私たちの治療がspotifyアプリのセクションのストリームに直接影響しないという証拠も観察し、パーソナライズドレコメンデーションへの露出が、ユーザーがオーガニックに消費するコンテンツに影響を与える可能性を示唆しています。 これらの知見は、推奨コンテンツの多様性を明示的に考慮したパーソナライズ手法への投資を継続する学術や実践者の必要性を強調している。

It remains unknown whether personalized recommendations increase or decrease the diversity of content people consume. We present results from a randomized field experiment on Spotify testing the effect of personalized recommendations on consumption diversity. In the experiment, both control and treatment users were given podcast recommendations, with the sole aim of increasing podcast consumption. Treatment users' recommendations were personalized based on their music listening history, whereas control users were recommended popular podcasts among users in their demographic group. We find that, on average, the treatment increased podcast streams by 28.90%. However, the treatment also decreased the average individual-level diversity of podcast streams by 11.51%, and increased the aggregate diversity of podcast streams by 5.96%, indicating that personalized recommendations have the potential to create patterns of consumption that are homogenous within and diverse across users, a pattern reflecting Balkanization. Our results provide evidence of an "engagement-diversity trade-off" when recommendations are optimized solely to drive consumption: while personalized recommendations increase user engagement, they also affect the diversity of consumed content. This shift in consumption diversity can affect user retention and lifetime value, and impact the optimal strategy for content producers. We also observe evidence that our treatment affected streams from sections of Spotify's app not directly affected by the experiment, suggesting that exposure to personalized recommendations can affect the content that users consume organically. We believe these findings highlight the need for academics and practitioners to continue investing in personalization methods that explicitly take into account the diversity of content recommended.
翻訳日:2022-12-22 22:11:01 公開日:2020-03-17
# 正則化テンソルネットワークbスプラインを用いた非線形システム同定

Nonlinear system identification with regularized Tensor Network B-splines ( http://arxiv.org/abs/2003.07594v1 )

ライセンス: Link先を確認
Ridvan Karagoz, Kim Batselier(参考訳) 本稿では非線形自己回帰外因性(NARX)アプローチを用いて非線形システムの正規化同定のためのTensor Network B-splineモデルを紹介する。 テンソルネットワーク理論は、高次元の重みテンソルを低階近似として表現することにより、多変量B-スプラインの次元性の呪いを軽減するために用いられる。 低ランクテンソルネットワーク近似を直接推定するために交互線形スキームに基づく反復アルゴリズムを開発し、指数関数的に大きいテンソルを明示的に構築する必要をなくした。 これにより計算とストレージの複雑さが大幅に減少し、大量の入力とラグを持つ NARX システムの識別が可能となる。 提案するアルゴリズムは数値的に安定であり、雑音に頑健であり、単調収束を保証し、正則化の直接的編入を可能にする。 TNBS-NARXモデルは、標準的なデスクトップコンピュータ上で16次元のB-スプライン面を4秒で識別しながら、最先端の性能を達成できるカスケードウォータータンクベンチマーク非線形システムの同定によって検証される。 オープンソースのMATLAB実装がGitHubで公開されている。

This article introduces the Tensor Network B-spline model for the regularized identification of nonlinear systems using a nonlinear autoregressive exogenous (NARX) approach. Tensor network theory is used to alleviate the curse of dimensionality of multivariate B-splines by representing the high-dimensional weight tensor as a low-rank approximation. An iterative algorithm based on the alternating linear scheme is developed to directly estimate the low-rank tensor network approximation, removing the need to ever explicitly construct the exponentially large weight tensor. This reduces the computational and storage complexity significantly, allowing the identification of NARX systems with a large number of inputs and lags. The proposed algorithm is numerically stable, robust to noise, guaranteed to monotonically converge, and allows the straightforward incorporation of regularization. The TNBS-NARX model is validated through the identification of the cascaded watertank benchmark nonlinear system, on which it achieves state-of-the-art performance while identifying a 16-dimensional B-spline surface in 4 seconds on a standard desktop computer. An open-source MATLAB implementation is available on GitHub.
翻訳日:2022-12-22 22:10:28 公開日:2020-03-17
# 自己監督型ログパーシング

Self-Supervised Log Parsing ( http://arxiv.org/abs/2003.07905v1 )

ライセンス: Link先を確認
Sasho Nedelkoski, Jasmin Bogatinovski, Alexander Acker, Jorge Cardoso and Odej Kao(参考訳) ログはソフトウェアシステムの開発とメンテナンスに広く利用されている。 ランタイムイベントを収集し、コード実行のトラッキングを可能にすることで、トラブルシューティングや障害検出など、さまざまな重要なタスクが可能になる。 しかし,大規模ソフトウェアシステムでは大量の半構造化ログが生成され,自動解析の大きな課題となっている。 半構造化レコードと自由形式のテキストログメッセージを構造化テンプレートに解析することは、さらなる分析を可能にする最初の重要なステップである。 既存のアプローチはログ固有のヒューリスティックや手動ルール抽出に依存している。 これらは、特定のログタイプの解析に特化して、パフォーマンススコアと一般化を制限する。 自己教師あり学習モデルを用いた新しい解析手法 nulog を提案し,その解析タスクを masked language modeling (mlm) として定式化する。 解析の過程で、モデルはベクトル埋め込みの形でログから要約を抽出する。 これにより、MLMの事前トレーニングと下流異常検出タスクの結合が可能になる。 実世界の10のログデータセットにおけるNuLogのパース性能を評価し,12のパース手法との比較を行った。 以上の結果から,NuLogは従来の手法よりも平均99%の精度で解析し,地上の真理テンプレートよりも編集距離が低いことがわかった。 さらに,教師付きシナリオと教師なしシナリオの両方において,ログに基づく異常検出手法が有効であることを示すために,2つのケーススタディを行った。 結果は、トラブルシューティングタスクをサポートするためにNuLogがうまく使えることを示している。 実装はhttps://github.com/nulog/nulogで利用可能である。

Logs are extensively used during the development and maintenance of software systems. They collect runtime events and allow tracking of code execution, which enables a variety of critical tasks such as troubleshooting and fault detection. However, large-scale software systems generate massive volumes of semi-structured log records, posing a major challenge for automated analysis. Parsing semi-structured records with free-form text log messages into structured templates is the first and crucial step that enables further analysis. Existing approaches rely on log-specific heuristics or manual rule extraction. These are often specialized in parsing certain log types, and thus, limit performance scores and generalization. We propose a novel parsing technique called NuLog that utilizes a self-supervised learning model and formulates the parsing task as masked language modeling (MLM). In the process of parsing, the model extracts summarizations from the logs in the form of a vector embedding. This allows the coupling of the MLM as pre-training with a downstream anomaly detection task. We evaluate the parsing performance of NuLog on 10 real-world log datasets and compare the results with 12 parsing techniques. The results show that NuLog outperforms existing methods in parsing accuracy with an average of 99% and achieves the lowest edit distance to the ground truth templates. Additionally, two case studies are conducted to demonstrate the ability of the approach for log-based anomaly detection in both supervised and unsupervised scenario. The results show that NuLog can be successfully used to support troubleshooting tasks. The implementation is available at https://github.com/nulog/nulog.
翻訳日:2022-12-22 22:08:20 公開日:2020-03-17
# 可視光通信を用いた協調物体検出とパラメータ推定

Cooperative Object Detection and Parameter Estimation Using Visible Light Communications ( http://arxiv.org/abs/2003.07525v1 )

ライセンス: Link先を確認
Hamid Hosseinianfar, Maite Brandt-Pearce(参考訳) 可視光通信(VLC)システムは将来の屋内アクセスとピアツーピアネットワークの候補として期待されている。 しかし、これらのシステムの性能は、室内のオブジェクトにより、視線(LOS)リンクの遮断に対して脆弱である。 本稿では,ユーザデバイスと天井上のトランシーバ間のLOSリンクのブロック状態を利用して,それらのオブジェクトを検知する確率的オブジェクト検出手法を提案する。 対象物はランダム半径を持つシリンダーとしてモデル化される。 二次プログラミングアプローチを用いて、オブジェクトの位置とサイズを推定することができる。 シミュレーションの結果, ルート平均二乗誤差は, 対象の中心と半径をそれぞれ推定するために, 1$ cm 未満と 8$ cm 未満であることがわかった。

Visible light communication (VLC) systems are promising candidates for future indoor access and peer-to-peer networks. The performance of these systems, however, is vulnerable to the line of sight (LOS) link blockage due to objects inside the room. In this paper, we develop a probabilistic object detection method that takes advantage of the blockage status of the LOS links between the user devices and transceivers on the ceiling to locate those objects. The target objects are modeled as cylinders with random radii. The location and size of an object can be estimated by using a quadratic programming approach. Simulation results show that the root-mean-squared error can be less than $1$ cm and $8$ cm for estimating the center and the radius of the object, respectively.
翻訳日:2022-12-22 22:07:56 公開日:2020-03-17
# 限定ラベルからの学習と物理パラメータ推定との深いつながり-正規化へのインスピレーション

Deep connections between learning from limited labels & physical parameter estimation -- inspiration for regularization ( http://arxiv.org/abs/2003.07908v1 )

ライセンス: Link先を確認
Bas Peters(参考訳) 近年、微分方程式とニューラルネットワークの構造の等価性が確立され、ニューラルネットワークのトレーニングをPDE(Partial-differential-equation)制約付き最適化として解釈できるようになった。 以前に確立された接続、特に部分アノテーション付き大規模例では特に有益である明示的な正規化を加えます。 pde制約付き最適化におけるモデルパラメータの明示的正則化は、ネットワーク出力の正則化に変換される。 対応するラグランジアンおよびバックプロパゲーションアルゴリズムの構造の検証は、さらなる計算上の課題を明らかにしない。 ハイパースペクトルイメージングの例は、最適正規化パラメータのクロスバリデーションと共に最小の事前情報がセグメンテーション精度を高めることを示している。

Recently established equivalences between differential equations and the structure of neural networks enabled some interpretation of training of a neural network as partial-differential-equation (PDE) constrained optimization. We add to the previously established connections, explicit regularization that is particularly beneficial in the case of single large-scale examples with partial annotation. We show that explicit regularization of model parameters in PDE constrained optimization translates to regularization of the network output. Examination of the structure of the corresponding Lagrangian and backpropagation algorithm do not reveal additional computational challenges. A hyperspectral imaging example shows that minimum prior information together with cross-validation for optimal regularization parameters boosts the segmentation accuracy.
翻訳日:2022-12-22 22:07:44 公開日:2020-03-17
# Ford Multi-AV 季節データ

Ford Multi-AV Seasonal Dataset ( http://arxiv.org/abs/2003.07969v1 )

ライセンス: Link先を確認
Siddharth Agarwal, Ankit Vora, Gaurav Pandey, Wayne Williams, Helen Kourous and James McBride(参考訳) 本稿では,フォードの自律走行車群が2017-18年の間,異なる日数で収集した複数エージェントの季節データを提案する。 この車両は、デトロイト空港、高速道路、都市中心部、大学キャンパス、郊外地区など、様々な運転シナリオを含む、ミシガン州で平均66kmのルートを走行した。 このデータ収集で使用される車両はフォード・フュージョンで、アパラニックス POS-LV GNSSシステム、HDL-32E ベロディネ 3D-ライダースキャナー4台、屋上に配置された6つのポイントグレイ 1.3 MPカメラ、フロント視野用フロントガラスの後ろに設置されたポイントグレイ 5 MPカメラである。 本稿では, 都市環境における気象, 照明, 建設, 交通状況の季節変動について述べる。 このデータセットは、自動運転車やマルチエージェントシステムのための堅牢なアルゴリズムの設計に役立つ。 データセットの各ログはタイムスタンプされ、すべてのセンサーの生データ、キャリブレーション値、軌道のポーズ、地上の真実のポーズ、および3Dマップが含まれている。 すべてのデータはrosbagフォーマットで利用可能であり、オープンソースのロボットオペレーティングシステム(ros)を使用して可視化、修正、適用することができる。 また,ベンチマーキングのために,最先端の反射率に基づく局所化の出力も提供する。 データセットは私たちのWebサイトで無料でダウンロードできます。

This paper presents a challenging multi-agent seasonal dataset collected by a fleet of Ford autonomous vehicles at different days and times during 2017-18. The vehicles traversed an average route of 66 km in Michigan that included a mix of driving scenarios such as the Detroit Airport, freeways, city-centers, university campus and suburban neighbourhoods, etc. Each vehicle used in this data collection is a Ford Fusion outfitted with an Applanix POS-LV GNSS system, four HDL-32E Velodyne 3D-lidar scanners, 6 Point Grey 1.3 MP Cameras arranged on the rooftop for 360-degree coverage and 1 Pointgrey 5 MP camera mounted behind the windshield for the forward field of view. We present the seasonal variation in weather, lighting, construction and traffic conditions experienced in dynamic urban environments. This dataset can help design robust algorithms for autonomous vehicles and multi-agent systems. Each log in the dataset is time-stamped and contains raw data from all the sensors, calibration values, pose trajectory, ground truth pose, and 3D maps. All data is available in Rosbag format that can be visualized, modified and applied using the open-source Robot Operating System (ROS). We also provide the output of state-of-the-art reflectivity-based localization for bench-marking purposes. The dataset can be freely downloaded at our website.
翻訳日:2022-12-22 22:07:31 公開日:2020-03-17
# 深部強化学習によるセル接続型UAVの同時ナビゲーションと無線マッピング

Simultaneous Navigation and Radio Mapping for Cellular-Connected UAV with Deep Reinforcement Learning ( http://arxiv.org/abs/2003.07574v1 )

ライセンス: Link先を確認
Yong Zeng, Xiaoli Xu, Shi Jin, Rui Zhang(参考訳) セルラー接続無人航空機(UAV)は、将来UAVの潜在能力を最大限に活用するための有望な技術である。 しかし、空におけるuavのユビキタスな3次元コミュニケーションを実現するには、新たな課題がある。 本稿では,UAVの制御可能な移動性を利用して,セルラーBSのカバーホールを回避するためのナビゲーション/軌道を設計する,新しいカバレッジ対応ナビゲーションアプローチにより,この問題に対処する。 我々は,そのミッション完了時間と通信停止時間の重み付け和を最小化するために,uav軌道最適化問題を定式化し,深層強化学習(drl)手法に基づく新しい解法を提案する。 そこで本研究では,uavの信号計測を,ディープqネットワーク(dqn)を直接トレーニングするだけでなく,関心領域のすべての場所でのダウン確率を予測可能な無線地図を作成するために用いる,同時ナビゲーション・無線マッピング(snarm)という新しい枠組みを提案する。 これにより、シミュレーションされたUAV軌道の生成と予測されたリターンの予測が可能になり、Dyna技術を介してDQNをさらに訓練するために使用される。

Cellular-connected unmanned aerial vehicle (UAV) is a promising technology to unlock the full potential of UAVs in the future. However, how to achieve ubiquitous three-dimensional (3D) communication coverage for the UAVs in the sky is a new challenge. In this paper, we tackle this challenge by a new coverage-aware navigation approach, which exploits the UAV's controllable mobility to design its navigation/trajectory to avoid the cellular BSs' coverage holes while accomplishing their missions. We formulate an UAV trajectory optimization problem to minimize the weighted sum of its mission completion time and expected communication outage duration, and propose a new solution approach based on the technique of deep reinforcement learning (DRL). To further improve the performance, we propose a new framework called simultaneous navigation and radio mapping (SNARM), where the UAV's signal measurement is used not only for training the deep Q network (DQN) directly, but also to create a radio map that is able to predict the outage probabilities at all locations in the area of interest. This thus enables the generation of simulated UAV trajectories and predicting their expected returns, which are then used to further train the DQN via Dyna technique, thus greatly improving the learning efficiency.
翻訳日:2022-12-22 22:06:49 公開日:2020-03-17
# 特徴型グラフ基底関数を用いた半教師あり学習

Semi-Supervised Learning on Graphs with Feature-Augmented Graph Basis Functions ( http://arxiv.org/abs/2003.07646v1 )

ライセンス: Link先を確認
Wolfgang Erb(参考訳) グラフ上の半教師付き学習において、教師付き学習システムにおける初期カーネルを、既知の事前情報や教師なし学習出力から追加情報で拡張する方法を検討する。 これらの拡張カーネルは、追加のフィーチャカーネルを持つカーネルのSchur-Hadamard製品に基づいた単純な更新スキームで構築される。 正定値核の生成者として、グラフフーリエ変換を介してグラフの幾何学的情報を含めることができるグラフ基底関数(gbf)に焦点を当てる。 機械学習において、正規化最小二乗(RLS)アプローチを用いて、グラフ上のデータの分類のための派生カーネルをテストする。

For semi-supervised learning on graphs, we study how initial kernels in a supervised learning regime can be augmented with additional information from known priors or from unsupervised learning outputs. These augmented kernels are constructed in a simple update scheme based on the Schur-Hadamard product of the kernel with additional feature kernels. As generators of the positive definite kernels we will focus on graph basis functions (GBF) that allow to include geometric information of the graph via the graph Fourier transform. Using a regularized least squares (RLS) approach for machine learning, we will test the derived augmented kernels for the classification of data on graphs.
翻訳日:2022-12-22 22:06:26 公開日:2020-03-17
# CT画像における肝セグメント化例におけるオートエンコーダを用いたラベル付き・未ラベルデータを用いた3次元医用画像分割

3D medical image segmentation with labeled and unlabeled data using autoencoders at the example of liver segmentation in CT images ( http://arxiv.org/abs/2003.07923v1 )

ライセンス: Link先を確認
Cheryl Sital, Tom Brosch, Dominique Tio, Alexander Raaijmakers, J\"urgen Weese(参考訳) 畳み込みニューラルネットワーク(CNN)を用いた解剖学的構造の自動セグメンテーションは、医用画像解析における研究の大部分を構成する。 CNNベースの手法の大半は、適切なトレーニングのためにラベル付きデータの豊富さに依存している。 ラベル付き医療データはしばしば少ないが、ラベル付き医療データはより広く利用可能である。 これは従来の教師付き学習を超えて、セグメンテーションタスクにラベルのないデータを活用するアプローチを必要とする。 本研究は,CNNによるセグメンテーションを改善するために,自動エンコーダ抽出機能の可能性を検討する。 2つの戦略が検討された。 まず、セグメンテーションネットワークにおける畳み込み層の初期化として事前学習されたオートエンコーダ機能を用いた転送学習を行う。 第2に,セグメンテーションと特徴抽出のタスクを入力再構成によって同時に学習し,最適化したマルチタスク学習を行う。 コンボリューション・オートエンコーダを用いてラベルのないデータから特徴を抽出し,CT画像における3次元肝セグメンテーションの目標タスクを実行するために,マルチスケール完全畳み込みCNNを用いた。 どちらの戦略も,ラベル付きおよびラベルなしのトレーニングデータを用いて実験を行った。 提案する学習戦略は,実験結果の75-%をスクラッチから比較して改善し,ラベルなしとラベル付きトレーニングデータの約32 : 1$と12.5 : 1$の比率に対して,最大0.040$と0.024$のサイコロスコアを増加させた。 その結果,ラベルなしとラベル付きトレーニングデータの比率が高いほど,両方のトレーニング戦略がより効果的であることが示唆された。

Automatic segmentation of anatomical structures with convolutional neural networks (CNNs) constitutes a large portion of research in medical image analysis. The majority of CNN-based methods rely on an abundance of labeled data for proper training. Labeled medical data is often scarce, but unlabeled data is more widely available. This necessitates approaches that go beyond traditional supervised learning and leverage unlabeled data for segmentation tasks. This work investigates the potential of autoencoder-extracted features to improve segmentation with a CNN. Two strategies were considered. First, transfer learning where pretrained autoencoder features were used as initialization for the convolutional layers in the segmentation network. Second, multi-task learning where the tasks of segmentation and feature extraction, by means of input reconstruction, were learned and optimized simultaneously. A convolutional autoencoder was used to extract features from unlabeled data and a multi-scale, fully convolutional CNN was used to perform the target task of 3D liver segmentation in CT images. For both strategies, experiments were conducted with varying amounts of labeled and unlabeled training data. The proposed learning strategies improved results in $75\%$ of the experiments compared to training from scratch and increased the dice score by up to $0.040$ and $0.024$ for a ratio of unlabeled to labeled training data of about $32 : 1$ and $12.5 : 1$, respectively. The results indicate that both training strategies are more effective with a large ratio of unlabeled to labeled training data.
翻訳日:2022-12-22 21:59:09 公開日:2020-03-17
# 畳み込み構造を用いた磁気共鳴画像における脳腫瘍の分離

Segmentation of brain tumor on magnetic resonance imaging using a convolutional architecture ( http://arxiv.org/abs/2003.07934v1 )

ライセンス: Link先を確認
Miriam Zulema Jacobo, Jose Mejia(参考訳) 脳は認知過程と身体機能を制御する複雑な器官である。 脳腫瘍は脳の正常な機能や過程に影響を与える細胞増殖を加速する。 MRIスキャンは、脳腫瘍を診断する最も一般的な検査の一つとして、体の詳細な画像を提供する。 磁気共鳴イメージングによる脳腫瘍の分節化のプロセスは、診断、治療計画、結果の予測のための貴重なガイドを提供することができる。 そこで本研究では,深層学習による脳腫瘍分画の問題点について考察する。 提案されたアーキテクチャは単純で計算が容易であるが、$iou$ の 0.95 に達することができる。

The brain is a complex organ controlling cognitive process and physical functions. Tumors in the brain are accelerated cell growths affecting the normal function and processes in the brain. MRI scans provides detailed images of the body being one of the most common tests to diagnose brain tumors. The process of segmentation of brain tumors from magnetic resonance imaging can provide a valuable guide for diagnosis, treatment planning and prediction of results. Here we consider the problem brain tumor segmentation using a Deep learning architecture for use in tumor segmentation. Although the proposed architecture is simple and computationally easy to train, it is capable of reaching $IoU$ levels of 0.95.
翻訳日:2022-12-22 21:58:41 公開日:2020-03-17
# 新しいイメージスムーサ法によるマルチスペクトル衛星画像における現象の同定と分類とその環境リモートセンシングへの応用

Identification and Classification of Phenomena in Multispectral Satellite Imagery Using a New Image Smoother Method and its Applications in Environmental Remote Sensing ( http://arxiv.org/abs/2003.08209v1 )

ライセンス: Link先を確認
M. Kiani(参考訳) 本稿では,衛星画像に対する新しい画像平滑化手法とその環境リモートセンシングへの応用について述べる。 この方法は、画像全体の大域的勾配最小化に基づいている。 画像の離散性について、連続最小化問題は離散化される。 有限差分法による微分法を用いて、単純で効率的な5*5画素テンプレートを導出する。 導出テンプレートと異なる帯域の画像との畳み込みにより、様々な画像要素の識別が可能となる。 この方法は非常に高速であり、高精度である。 カスピ海の一部をカバーするイラン北部のケーススタディが提示されている。 この手法と通常のラプラシアンテンプレートとの比較により、画像内の現象をより識別できることが明らかとなった。

In this paper a new method of image smoothing for satellite imagery and its applications in environmental remote sensing are presented. This method is based on the global gradient minimization over the whole image. With respect to the image discrete identity, the continuous minimization problem is discretized. Using the finite difference numerical method of differentiation, a simple yet efficient 5*5-pixel template is derived. Convolution of the derived template with the image in different bands results in the discrimination of various image elements. This method is extremely fast, besides being highly precise. A case study is presented for the northern Iran, covering parts of the Caspian Sea. Comparison of the method with the usual Laplacian template reveals that it is more capable of distinguishing phenomena in the image.
翻訳日:2022-12-22 21:58:33 公開日:2020-03-17
# リモートセンシングにおける最適画像平滑化とその異常検出への応用

Optimal Image Smoothing and Its Applications in Anomaly Detection in Remote Sensing ( http://arxiv.org/abs/2003.08210v1 )

ライセンス: Link先を確認
M. Kiani(参考訳) 本稿では,最適な画像のスムース化に着目する。 最適化は、画像座標系におけるラプラス作用素のノルムの最小化によって行われる。 ラプラス作用素を離散化し、オイラー・ラグランジュ法を用いると、最適スムーズな加重平均スキームが得られる。 衛星画像はこの最適な滑らかさで滑らかにすることができる。 また、非常に高速で、画像の異常を検出するのに使うことができる。 イランのQom地域では、真の異常検出問題が検討されている。 異なるバンドの衛星画像は滑らかになる。 異なるバンドのスムーズな画像とオリジナル画像を比較すると、異常マップが提示される。 提案手法と既存手法との比較により,その領域における異常の検出がより効率的であることが判明した。

This paper is focused on deriving an optimal image smoother. The optimization is done through the minimization of the norm of the Laplace operator in the image coordinate system. Discretizing the Laplace operator and using the method of Euler-Lagrange result in a weighted average scheme for the optimal smoother. Satellite imagery can be smoothed by this optimal smoother. It is also very fast and can be used for detecting the anomalies in the image. A real anomaly detecting problem is considered for the Qom region in Iran. Satellite image in different bands are smoothed. Comparing the smoothed and original images in different bands, the maps of anomalies are presented. Comparison between the derived method and the existing methods reveals that it is more efficient in detecting anomalies in the region.
翻訳日:2022-12-22 21:58:22 公開日:2020-03-17
# catch the ball: 逆ダイナミクス学習による移動マニピュレータの高精度高速動作

Catch the Ball: Accurate High-Speed Motions for Mobile Manipulators via Inverse Dynamics Learning ( http://arxiv.org/abs/2003.07489v1 )

ライセンス: Link先を確認
Ke Dong, Karime Pereida, Florian Shkurti, Angela P. Schoellig(参考訳) 移動マニピュレータは1つ以上のロボットアームを備えたモバイルプラットフォームで構成されており、ワークスペースと器用さが拡張されているため、幅広い課題を抱える。 通常、移動マニピュレータはスローモーションコラボレーティブロボットのシナリオに展開される。 本稿では,高精度な高速動作が要求されるシナリオについて考察する。 2つの主要なコンポーネントを含むこのタスク体制のためのフレームワークを導入する。 (i)逐次擬似計画法(SQP)と擬似計画法(QP)に依存した実時間軌道生成のための二段階運動最適化アルゴリズム (II)学習逆ダイナミクスモデルによる高速動作の正確な追跡に最適化された学習ベースコントローラ。 我々は,多数の高速球捕り実験を通じて移動マニピュレータプラットフォームによるフレームワークの評価を行い,85.33%の成功率を示した。 私たちの知る限りでは、この成功率は既存の関連するシステムの報告されたパフォーマンスを上回り、新しい技術状態を設定します。

Mobile manipulators consist of a mobile platform equipped with one or more robot arms and are of interest for a wide array of challenging tasks because of their extended workspace and dexterity. Typically, mobile manipulators are deployed in slow-motion collaborative robot scenarios. In this paper, we consider scenarios where accurate high-speed motions are required. We introduce a framework for this regime of tasks including two main components: (i) a bi-level motion optimization algorithm for real-time trajectory generation, which relies on Sequential Quadratic Programming (SQP) and Quadratic Programming (QP), respectively; and (ii) a learning-based controller optimized for precise tracking of high-speed motions via a learned inverse dynamics model. We evaluate our framework with a mobile manipulator platform through numerous high-speed ball catching experiments, where we show a success rate of 85.33%. To the best of our knowledge, this success rate exceeds the reported performance of existing related systems and sets a new state of the art.
翻訳日:2022-12-22 21:57:35 公開日:2020-03-17
# 伝達学習に基づくポテンシャル単体フィッション分子の逆設計

Inverse Design of Potential Singlet Fission Molecules using a Transfer Learning Based Approach ( http://arxiv.org/abs/2003.07666v1 )

ライセンス: Link先を確認
Akshay Subramanian (1), Utkarsh Saha (2), Tejasvini Sharma (2), Naveen K. Tailor (2), Soumitra Satapathi (2) ((1) Department of Metallurgical and Materials Engineering, Indian Institute of Technology Roorkee, (2) Department of Physics, Indian Institute of Technology Roorkee)(参考訳) シングルト核分裂は、様々な種類の太陽電池の効率を改善することで知られている最もエキサイティングな現象の1つとして現れ、様々な光電子応用に利用されてきた。 しかし、利用可能な一重項核分裂分子の範囲は、一重項核分裂を受けるため、特定のエネルギー条件を満たす必要がある。 近年, 逆設計による材料探索の進歩により, 幅広い用途の材料予測が可能となり, 適切な材料を発見する上で最も効率的な方法の1つとなった。 大規模なデータセットの操作、分子データセットからの隠れた情報の発見、新しい構造の生成に特に有用である。 しかし、物質科学における構造予測問題において、大きなデータセットに遭遇することは滅多にない。 そこで本研究では、構造的に類似した分子からなるより大規模なchemblデータセットを用いて、学習された特性をsinglet fissionデータセットに転送するトランスファーラーニングに基づくアプローチを用いて、singlet fission分子の逆設計を行った。

Singlet fission has emerged as one of the most exciting phenomena known to improve the efficiencies of different types of solar cells and has found uses in diverse optoelectronic applications. The range of available singlet fission molecules is, however, limited as to undergo singlet fission, molecules have to satisfy certain energy conditions. Recent advances in material search using inverse design has enabled the prediction of materials for a wide range of applications and has emerged as one of the most efficient methods in the discovery of suitable materials. It is particularly helpful in manipulating large datasets, uncovering hidden information from the molecular dataset and generating new structures. However, we seldom encounter large datasets in structure prediction problems in material science. In our work, we put forward inverse design of possible singlet fission molecules using a transfer learning based approach where we make use of a much larger ChEMBL dataset of structurally similar molecules to transfer the learned characteristics to the singlet fission dataset.
翻訳日:2022-12-22 21:56:51 公開日:2020-03-17
# 2面層軌道LSTMモデルによる高精度・低レイテンシ音声認識

High-Accuracy and Low-Latency Speech Recognition with Two-Head Contextual Layer Trajectory LSTM Model ( http://arxiv.org/abs/2003.07482v1 )

ライセンス: Link先を確認
Jinyu Li, Rui Zhao, Eric Sun, Jeremy H. M. Wong, Amit Das, Zhong Meng, and Yifan Gong(参考訳) コミュニティは、通常、long short-term memory(lstm)モデルがクロスエントロピー基準で訓練され、シーケンス識別訓練基準が続く従来のハイブリッドモデルよりもエンド・ツー・エンドモデルを推進し続けるが、従来のハイブリッドモデルは依然として著しく改善できると主張する。 本稿では,高精度かつ低遅延自動音声認識のための従来のハイブリッドLSTM音響モデルの改善に向けた最近の取り組みについて述べる。 高精度化のために,時間的モデリングと対象分類タスクを分離する文脈層トラジェクトリLSTM(cltLSTM)を用い,将来的なコンテキストフレームを組み込んで,正確な音響モデルのための情報を得る。 シーケンスレベルの教師学生学習による学習戦略をさらに改善する。 低レイテンシを実現するために,一方の頭部がゼロレイテンシを持ち,他方の頭部がLSTMに比べて少ないレイテンシを持つ2つの頭部cltLSTMを設計する。 microsoftの匿名化トレーニングデータ6万6千時間でトレーニングを行い、1.8万単語のテストセットで評価すると、提案された2つのヘッドcltlstmモデルは、従来のlstm音響モデルと比較して28.2\%の相対的なwr削減をもたらす。

While the community keeps promoting end-to-end models over conventional hybrid models, which usually are long short-term memory (LSTM) models trained with a cross entropy criterion followed by a sequence discriminative training criterion, we argue that such conventional hybrid models can still be significantly improved. In this paper, we detail our recent efforts to improve conventional hybrid LSTM acoustic models for high-accuracy and low-latency automatic speech recognition. To achieve high accuracy, we use a contextual layer trajectory LSTM (cltLSTM), which decouples the temporal modeling and target classification tasks, and incorporates future context frames to get more information for accurate acoustic modeling. We further improve the training strategy with sequence-level teacher-student learning. To obtain low latency, we design a two-head cltLSTM, in which one head has zero latency and the other head has a small latency, compared to an LSTM. When trained with Microsoft's 65 thousand hours of anonymized training data and evaluated with test sets with 1.8 million words, the proposed two-head cltLSTM model with the proposed training strategy yields a 28.2\% relative WER reduction over the conventional LSTM acoustic model, with a similar perceived latency.
翻訳日:2022-12-22 21:50:27 公開日:2020-03-17
# 評定モデルに基づくエンドツーエンド音声認識

Deliberation Model Based Two-Pass End-to-End Speech Recognition ( http://arxiv.org/abs/2003.07962v1 )

ライセンス: Link先を確認
Ke Hu, Tara N. Sainath, Ruoming Pang, Rohit Prabhavalkar(参考訳) エンドツーエンド(E2E)モデルは、音声認識(ASR)において急速に進歩し、従来のモデルと競合的に機能している。 品質をさらに向上するため,非ストリーミング型リステン,アテント,スペル(LAS)モデルを用いて,適切なレイテンシを維持しながらストリーム仮説を再スコアする2パスモデルが提案されている。 このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。 本研究では,検討ネットワークを用いて,音響学と第一パス仮説の両方に臨むことを提案する。 双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。 提案した検討モデルは,Google Voice Search (VS) タスクにおける LAS の相対的な WER 削減,および固有名詞テストセットでの 23% の削減を実現している。 計算複雑性の面では、検討デコーダはlasデコーダよりも大きなサイズを持つため、第2パスデコーダではより多くの計算が必要となる。

End-to-end (E2E) models have made rapid progress in automatic speech recognition (ASR) and perform competitively relative to conventional models. To further improve the quality, a two-pass model has been proposed to rescore streamed hypotheses using the non-streaming Listen, Attend and Spell (LAS) model while maintaining a reasonable latency. The model attends to acoustics to rescore hypotheses, as opposed to a class of neural correction models that use only first-pass text hypotheses. In this work, we propose to attend to both acoustics and first-pass hypotheses using a deliberation network. A bidirectional encoder is used to extract context information from first-pass hypotheses. The proposed deliberation model achieves 12% relative WER reduction compared to LAS rescoring in Google Voice Search (VS) tasks, and 23% reduction on a proper noun test set. Compared to a large conventional model, our best model performs 21% relatively better for VS. In terms of computational complexity, the deliberation decoder has a larger size than the LAS decoder, and hence requires more computations in second-pass decoding.
翻訳日:2022-12-22 21:50:02 公開日:2020-03-17
# 学習データ増強のための脳腫瘍MR画像の合成

Synthesis of Brain Tumor MR Images for Learning Data Augmentation ( http://arxiv.org/abs/2003.07526v1 )

ライセンス: Link先を確認
Sunho Kim, Byungjai Kim, HyunWook Park(参考訳) 深層ニューラルネットワークを用いた医用画像解析を積極的に研究している。 深層ニューラルネットワークは、データ学習によって訓練される。 ディープニューラルネットワークの正確なトレーニングには、学習データは十分で、品質も良好で、汎用的な特性を持つべきである。 しかし, 医療画像では, 患者採用の難しさ, 専門家による病変注記の負担, 患者のプライバシの侵害などにより, 十分な患者データを得ることは困難である。 一方、健康なボランティアの医療画像を容易に取得することができる。 健康な脳画像を用いて,脳腫瘍のマルチコントラスト磁気共鳴像を合成する。 腫瘍には複雑な特徴があるため、提案手法はそれらを容易に制御可能な同心円に単純化する。 そして、同心円を深層神経ネットワークを通じて様々な現実的な腫瘍の形に変換する。 多くの健康な脳画像が容易に利用できるため、様々な同心円で大量の脳腫瘍画像を合成することができる。 提案手法による拡張データの有用性を評価するために,定性的,定量的な分析を行った。 直感的で興味深い実験結果がhttps://github.com/ksh0660/braintumorで公開されている。

Medical image analysis using deep neural networks has been actively studied. Deep neural networks are trained by learning data. For accurate training of deep neural networks, the learning data should be sufficient, of good quality, and should have a generalized property. However, in medical images, it is difficult to acquire sufficient patient data because of the difficulty of patient recruitment, the burden of annotation of lesions by experts, and the invasion of patients' privacy. In comparison, the medical images of healthy volunteers can be easily acquired. Using healthy brain images, the proposed method synthesizes multi-contrast magnetic resonance images of brain tumors. Because tumors have complex features, the proposed method simplifies them into concentric circles that are easily controllable. Then it converts the concentric circles into various realistic shapes of tumors through deep neural networks. Because numerous healthy brain images are easily available, our method can synthesize a huge number of the brain tumor images with various concentric circles. We performed qualitative and quantitative analysis to assess the usefulness of augmented data from the proposed method. Intuitive and interesting experimental results are available online at https://github.com/KSH0660/BrainTumor
翻訳日:2022-12-22 21:49:41 公開日:2020-03-17
# 自動化に向けた細胞画像解析技術:体系的再考

Cytology Image Analysis Techniques Towards Automation: Systematically Revisited ( http://arxiv.org/abs/2003.07529v1 )

ライセンス: Link先を確認
Shyamali Mitra, Nibaran Das, Soumyajyoti Dey, Sukanta Chakrabarty, Mita Nasipuri, Mrinal Kanti Naskar(参考訳) 細胞診(英: cytology)は、がんまたは炎症性疾患の診断のための細胞の顕微鏡的検査を扱う病理学の分野である。 細胞学の自動化は1950年代初頭に始まり、がんの診断における手作業を減らすことを目的とした。 高い計算能力と改良された標本収集技術を持つインテリジェントな技術ユニットの流入は、その技術の高さを達成するのに役立った。 本研究では, 細胞診の自動化に向けての一歩を踏み出す画像処理技術に注目する。 我々は17種類の細胞学への短いツアーを行い、過去30年間に進化した様々なセグメンテーションおよび/または分類手法を探求し、細胞学における自動化の概念を推し進める。 本論文で詳しく論じているように,これらの研究の大部分は,3種類の細胞学(Cervical, Breast, Lung)に一致している。 この期間に開発されたユーザエンドシステムは、各ドメインの全体的な成長を理解するために要約される。 正確には、最先端の方法論の多様性と、細胞学に基づく商業システムを主流に育む多目的で有能な将来の研究方向を提供するための課題について論じる。

Cytology is the branch of pathology which deals with the microscopic examination of cells for diagnosis of carcinoma or inflammatory conditions. Automation in cytology started in the early 1950s with the aim to reduce manual efforts in diagnosis of cancer. The inflush of intelligent technological units with high computational power and improved specimen collection techniques helped to achieve its technological heights. In the present survey, we focus on such image processing techniques which put steps forward towards the automation of cytology. We take a short tour to 17 types of cytology and explore various segmentation and/or classification techniques which evolved during last three decades boosting the concept of automation in cytology. It is observed, that most of the works are aligned towards three types of cytology: Cervical, Breast and Lung, which are discussed elaborately in this paper. The user-end systems developed during that period are summarized to comprehend the overall growth in the respective domains. To be precise, we discuss the diversity of the state-of-the-art methodologies, their challenges to provide prolific and competent future research directions inbringing the cytology-based commercial systems into the mainstream.
翻訳日:2022-12-22 21:49:24 公開日:2020-03-17
# CycleISP: 改良されたデータ合成による実像復元

CycleISP: Real Image Restoration via Improved Data Synthesis ( http://arxiv.org/abs/2003.07761v1 )

ライセンス: Link先を確認
Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, Ling Shao(参考訳) 大規模データセットの可用性は、深層畳み込みニューラルネットワーク(cnns)の真の可能性を解き放つのに役立った。 しかし、シングルイメージのデノベーション問題では、実際のデータセットをキャプチャすることは許容できないほど高価で面倒な手順である。 その結果, 付加白色ガウス雑音 (awgn) を広く仮定した合成データを用いて, 画像推定アルゴリズムが開発され, 評価されている。 CNNはこれらの合成データセットで素晴らしい結果を得るが、最近のベンチマークデータセットで報告されているように、実際のカメライメージに適用してもうまく機能しない。 これは主に、awgnが信号に依存し、カメライメージングパイプラインによって大きく変換される実際のカメラノイズのモデル化に適していないためである。 本稿では,前向きと逆方向のカメラ画像パイプラインをモデル化するフレームワークを提案する。 これにより,RAW空間とsRGB空間の両方において,現実的な画像ペアを生成できる。 リアルな合成データに基づいて新しい画像認識ネットワークをトレーニングすることにより、実際のカメラベンチマークデータセット上で最先端のパフォーマンスを実現する。 私たちのモデルのパラメータは、生のデノイジングの最良の方法の約5倍小さいです。 さらに,提案手法が,立体映画におけるカラーマッチングなど,画像の異色化問題を超えて一般化することを示す。 ソースコードと事前訓練されたモデルはhttps://github.com/swz30/CycleISPで入手できる。

The availability of large-scale datasets has helped unleash the true potential of deep convolutional neural networks (CNNs). However, for the single-image denoising problem, capturing a real dataset is an unacceptably expensive and cumbersome procedure. Consequently, image denoising algorithms are mostly developed and evaluated on synthetic data that is usually generated with a widespread assumption of additive white Gaussian noise (AWGN). While the CNNs achieve impressive results on these synthetic datasets, they do not perform well when applied on real camera images, as reported in recent benchmark datasets. This is mainly because the AWGN is not adequate for modeling the real camera noise which is signal-dependent and heavily transformed by the camera imaging pipeline. In this paper, we present a framework that models camera imaging pipeline in forward and reverse directions. It allows us to produce any number of realistic image pairs for denoising both in RAW and sRGB spaces. By training a new image denoising network on realistic synthetic data, we achieve the state-of-the-art performance on real camera benchmark datasets. The parameters in our model are ~5 times lesser than the previous best method for RAW denoising. Furthermore, we demonstrate that the proposed framework generalizes beyond image denoising problem e.g., for color matching in stereoscopic cinema. The source code and pre-trained models are available at https://github.com/swz30/CycleISP.
翻訳日:2022-12-22 21:48:50 公開日:2020-03-17
# リモートセンシング画像における海陸セグメンテーションのための新しい深部構造u-net

A novel Deep Structure U-Net for Sea-Land Segmentation in Remote Sensing Images ( http://arxiv.org/abs/2003.07784v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Ruili Wang, Huiyu Zhou, Jie Yang(参考訳) 陸地セグメンテーションは、リモートセンシングにおける多くの重要なアプリケーションにとって重要なプロセスである。 海と土地の複雑で多様な移行により, 遠隔センシング画像の適切な海と土地のセグメンテーションが課題となっている。 陸域分割のためにいくつかの畳み込みニューラルネットワーク(CNN)が開発されたが、これらのCNNの性能は期待された目標とは程遠い。 本稿では,複雑な高密度リモートセンシング画像において,画素単位の海面セグメンテーションのための新しい深層ニューラルネットワーク構造,残密u-net(rdu-net)を提案する。 RDU-Netは、十分な結果を得るために、ダウンサンプリングとアップサンプリングの2つのパスの組み合わせである。 各ダウンサンプリングパスとアップサンプリングパスでは、畳み込み層に加えて、複数の密結合された残留ネットワークブロックが提案され、マルチスケールなコンテキスト情報を体系的に集約する。 各高密度ネットワークブロックは、マルチレベル畳み込み層、短距離接続、およびネットワークにおける特徴の再使用を容易にするアイデンティティマッピング接続を含み、元の画像から階層的特徴をフル活用する。 これらのブロックは、一定の数の接続を持ち、計算コストを最小化しながら、層間距離のバックプロパゲーションを短くし、セグメンテーション結果を大幅に改善することができる。 我々は、Google EarthとISPRSの2つの実際のデータセットについて広範な実験を行い、提案したRDUNetとDense Networksの比較を行った。 実験の結果,RDUNetは陸域分割作業における他の最先端手法よりも優れていた。

Sea-land segmentation is an important process for many key applications in remote sensing. Proper operative sea-land segmentation for remote sensing images remains a challenging issue due to complex and diverse transition between sea and lands. Although several Convolutional Neural Networks (CNNs) have been developed for sea-land segmentation, the performance of these CNNs is far from the expected target. This paper presents a novel deep neural network structure for pixel-wise sea-land segmentation, a Residual Dense U-Net (RDU-Net), in complex and high-density remote sensing images. RDU-Net is a combination of both down-sampling and up-sampling paths to achieve satisfactory results. In each down- and up-sampling path, in addition to the convolution layers, several densely connected residual network blocks are proposed to systematically aggregate multi-scale contextual information. Each dense network block contains multilevel convolution layers, short-range connections and an identity mapping connection which facilitates features re-use in the network and makes full use of the hierarchical features from the original images. These proposed blocks have a certain number of connections that are designed with shorter distance backpropagation between the layers and can significantly improve segmentation results whilst minimizing computational costs. We have performed extensive experiments on two real datasets Google Earth and ISPRS and compare the proposed RDUNet against several variations of Dense Networks. The experimental results show that RDUNet outperforms the other state-of-the-art approaches on the sea-land segmentation tasks.
翻訳日:2022-12-22 21:48:27 公開日:2020-03-17
# 乳腺病理組織におけるミトーシス検出のための仮想染色

Virtual staining for mitosis detection in Breast Histopathology ( http://arxiv.org/abs/2003.07801v1 )

ライセンス: Link先を確認
Caner Mercan, Germonda Reijnen-Mooij, David Tellez Martin, Johannes Lotz, Nick Weiss, Marcel van Gerven, Francesco Ciompi(参考訳) 乳がん組織の組織病理像をh&e染色からphh3にマッピングし,その逆も行うように,生成的逆ネットワークに基づく仮想染色法を提案する。 得られた合成画像を用いてコンボリューショナルニューラルネットワーク (CNN) を構築し, 乳がんの診断およびグレーディングに使用される強力な予後指標である有糸分裂像の自動検出を行った。 そこで本研究では,cnnが合成組織病理画像で訓練したモデルが,実際の画像で訓練されたモデルと同等かそれ以上の性能を発揮するシナリオを提案する。 手動のアノテーションを必要とせずに、トレーニングサンプル数を拡大するアプリケーションの可能性について論じる。

We propose a virtual staining methodology based on Generative Adversarial Networks to map histopathology images of breast cancer tissue from H&E stain to PHH3 and vice versa. We use the resulting synthetic images to build Convolutional Neural Networks (CNN) for automatic detection of mitotic figures, a strong prognostic biomarker used in routine breast cancer diagnosis and grading. We propose several scenarios, in which CNN trained with synthetically generated histopathology images perform on par with or even better than the same baseline model trained with real images. We discuss the potential of this application to scale the number of training samples without the need for manual annotations.
翻訳日:2022-12-22 21:48:01 公開日:2020-03-17
# SAR Tomography at the Limit: Building Height Reconstruction using only 3-5 TanDEM-X Bistatic Interferograms (特集 バイオサイバネティックス)

SAR Tomography at the Limit: Building Height Reconstruction Using Only 3-5 TanDEM-X Bistatic Interferograms ( http://arxiv.org/abs/2003.07803v1 )

ライセンス: Link先を確認
Yilei Shi, Richard Bamler, Yuanyuan Wang, Xiao Xiang Zhu(参考訳) マルチベースライン干渉型合成開口レーダ (insar) 技術は, 市街地の3次元情報検索に有効な手法である。 妥当な再構築を得るためには、20以上のインターフェログラムを使用する必要がある。 したがって,TanDEM-Xデータを用いた大規模3次元都市マッピングでは,都市ごとの平均的な取得数が少ないことが一般的である。 本研究では,SARトモグラフィの非局所フィルタリングをSARトモグラフィインバージョンに統合した,超小型スタックで動作する新しいSARトモグラフィ処理フレームワークを提案する。 このアルゴリズムの適用性は、ドイツのミュンヘン市全域に5つのバイスタティック・インターフェログラムを持つTandDEM-Xマルチベースラインスタックを用いて実証されている。 TanDEM-X raw digital elevation model (DEM) と空中LiDARデータによる結果の体系的比較により,TandEM-X raw DEMの相対的高さ精度は2m以内であり,TandEM-X raw DEMよりも優れていた。 提案アルゴリズムの有望な性能は,高品質な3次元都市マッピングへの第一歩となった。

Multi-baseline interferometric synthetic aperture radar (InSAR) techniques are effective approaches for retrieving the 3-D information of urban areas. In order to obtain a plausible reconstruction, it is necessary to use more than twenty interferograms. Hence, these methods are commonly not appropriate for large-scale 3-D urban mapping using TanDEM-X data where only a few acquisitions are available in average for each city. This work proposes a new SAR tomographic processing framework to work with those extremely small stacks, which integrates the non-local filtering into SAR tomography inversion. The applicability of the algorithm is demonstrated using a TanDEM-X multi-baseline stack with 5 bistatic interferograms over the whole city of Munich, Germany. Systematic comparison of our result with TanDEM-X raw digital elevation models (DEM) and airborne LiDAR data shows that the relative height accuracy of two third buildings is within two meters, which outperforms the TanDEM-X raw DEM. The promising performance of the proposed algorithm paved the first step towards high quality large-scale 3-D urban mapping.
翻訳日:2022-12-22 21:47:47 公開日:2020-03-17
# インタラクティブセグメンテーションにおける99%の精度

Getting to 99% Accuracy in Interactive Segmentation ( http://arxiv.org/abs/2003.07932v1 )

ライセンス: Link先を確認
Marco Forte, Brian Price, Scott Cohen, Ning Xu, Fran\c{c}ois Piti\'e(参考訳) インタラクティブなオブジェクトカットアウトツールは、画像編集ワークフローの基礎である。 最近のディープラーニングベースのインタラクティブセグメンテーションアルゴリズムは複雑な画像の処理において大きな進歩を遂げており、大雑把なバイナリ選択はほんの数クリックで得られる。 しかし、この荒削りな選択が達成されれば、深層学習技術は台頭する傾向にある。 本研究では,現在のアルゴリズムでは各ユーザのインタラクションを十分に活用できないことと,現在のトレーニング/テストデータセットの制限と解釈する。 本稿では,ユーザワークフローをより活用するために,新たなインタラクティブアーキテクチャと新たなトレーニングスキームを提案する。 また、複雑なオブジェクト境界に特化して設計された合成トレーニングデータセットを導入することで、さらに大きな改善が期待できることを示す。 総合的な実験は我々のアプローチをサポートし、ネットワークは芸術パフォーマンスの状態を達成します。

Interactive object cutout tools are the cornerstone of the image editing workflow. Recent deep-learning based interactive segmentation algorithms have made significant progress in handling complex images and rough binary selections can typically be obtained with just a few clicks. Yet, deep learning techniques tend to plateau once this rough selection has been reached. In this work, we interpret this plateau as the inability of current algorithms to sufficiently leverage each user interaction and also as the limitations of current training/testing datasets. We propose a novel interactive architecture and a novel training scheme that are both tailored to better exploit the user workflow. We also show that significant improvements can be further gained by introducing a synthetic training dataset that is specifically designed for complex object boundaries. Comprehensive experiments support our approach, and our network achieves state of the art performance.
翻訳日:2022-12-22 21:40:50 公開日:2020-03-17
# 低分解能リモートセンシング意味セグメンテーションのためのエンドツーエンドフレームワーク

An End-to-end Framework For Low-Resolution Remote Sensing Semantic Segmentation ( http://arxiv.org/abs/2003.07955v1 )

ライセンス: Link先を確認
Matheus Barros Pereira and Jefersson Alex dos Santos(参考訳) リモートセンシングアプリケーション用の高解像度画像は、特に時間幅の広い記録が必要な場合、手頃な価格やアクセシビリティが得られないことが多い。 衛星からの低解像度(LR)画像への容易なアクセスを考えると、多くのリモートセンシングはこの種のデータに依存している。 LR画像は,高精度な画素予測のための高品質なデータを必要とするため,セマンティックセグメンテーションには適さない。 本稿では,LR入力から正確なテーママップを生成するために,超解像とセマンティックセグメンテーションモジュールを結合したエンドツーエンドフレームワークを提案する。 これにより、セマンティックセグメンテーションネットワークが再構成プロセスを実行し、入力イメージを便利なテクスチャで修正することができる。 我々は,このフレームワークを3つのリモートセンシングデータセットで評価する。 その結果,本フレームワークは,LR入力でトレーニングしたネットワークの性能を上回りながら,ネイティブ高解像度データに近いセグメンテーション性能を実現することができることがわかった。

High-resolution images for remote sensing applications are often not affordable or accessible, especially when in need of a wide temporal span of recordings. Given the easy access to low-resolution (LR) images from satellites, many remote sensing works rely on this type of data. The problem is that LR images are not appropriate for semantic segmentation, due to the need for high-quality data for accurate pixel prediction for this task. In this paper, we propose an end-to-end framework that unites a super-resolution and a semantic segmentation module in order to produce accurate thematic maps from LR inputs. It allows the semantic segmentation network to conduct the reconstruction process, modifying the input image with helpful textures. We evaluate the framework with three remote sensing datasets. The results show that the framework is capable of achieving a semantic segmentation performance close to native high-resolution data, while also surpassing the performance of a network trained with LR inputs.
翻訳日:2022-12-22 21:39:58 公開日:2020-03-17
# 深部特徴型老化による小児顔の発達促進

Child Face Age-Progression via Deep Feature Aging ( http://arxiv.org/abs/2003.08788v1 )

ライセンス: Link先を確認
Debayan Deb, Divyansh Aggarwal, Anil K. Jain(参考訳) 行方不明の子供の顔画像のギャラリーが与えられると、最先端の顔認識システムは、後年回復した子供(プロ)を識別するのに不足する。 顔マッチング装置によって出力される深部顔特徴を老化できる機能老化モジュールを提案する。 また、老化顔合成画像空間における老化促進をガイドし、明示的なトレーニングを必要とせず、任意の顔マッチング者の縦顔認識性能を向上させる。 10年以上の時間経過(行方不明児は10年以上後に見つかる)のため、提案された年齢差モジュールはFaceNetのクローズドセットの識別精度を16.53%から21.44%に改善し、CosFaceは60.72%から66.12%に改善した。 提案手法は,一般の高齢化データセットでは94.91%,fg-netでは99.58%,cacd-vsでは99.50%という,最先端のアプローチを95.91%のランク1識別率で上回っている。 これらの結果から,高齢化は,子どもの人身売買や誘拐の被害者となる可能性がある幼児を識別する能力を高めることが示唆された。

Given a gallery of face images of missing children, state-of-the-art face recognition systems fall short in identifying a child (probe) recovered at a later age. We propose a feature aging module that can age-progress deep face features output by a face matcher. In addition, the feature aging module guides age-progression in the image space such that synthesized aged faces can be utilized to enhance longitudinal face recognition performance of any face matcher without requiring any explicit training. For time lapses larger than 10 years (the missing child is found after 10 or more years), the proposed age-progression module improves the closed-set identification accuracy of FaceNet from 16.53% to 21.44% and CosFace from 60.72% to 66.12% on a child celebrity dataset, namely ITWCC. The proposed method also outperforms state-of-the-art approaches with a rank-1 identification rate of 95.91%, compared to 94.91%, on a public aging dataset, FG-NET, and 99.58%, compared to 99.50%, on CACD-VS. These results suggest that aging face features enhances the ability to identify young children who are possible victims of child trafficking or abduction.
翻訳日:2022-12-22 21:39:32 公開日:2020-03-17
# 能力認識システムにおける自律性を最適化する学習

Learning to Optimize Autonomy in Competence-Aware Systems ( http://arxiv.org/abs/2003.07745v1 )

ライセンス: Link先を確認
Connor Basich, Justin Svegliato, Kyle Hollins Wray, Stefan Witwicki, Joydeep Biswas, Shlomo Zilberstein(参考訳) 半自律システム(SAS)への関心は、時折人間に依存する領域に自律システムを展開するパラダイムとして急速に成長している。 このパラダイムにより、サービスロボットや自動運転車はさまざまなレベルの自律性を有し、人間の判断を必要とする状況において安全性を提供することができる。 本稿では,オンライン上で学習・更新される自律の内省モデルを提案し,エージェントが任意の状況下で自律的に行動できる程度を判断する。 我々は、さまざまなレベルの自律性と利用可能な人間のフィードバックにおいて、自身の習熟度を明示的にモデル化する能力認識システム(CAS)を定義する。 CASは、全体の効率を最大化し、人的援助のコストを要因として、経験に基づいて自律性のレベルを調整することを学ぶ。 我々はCASの収束特性を解析し、ロボットの配送や自律走行の分野で実験結果を提供し、アプローチの利点を実証する。

Interest in semi-autonomous systems (SAS) is growing rapidly as a paradigm to deploy autonomous systems in domains that require occasional reliance on humans. This paradigm allows service robots or autonomous vehicles to operate at varying levels of autonomy and offer safety in situations that require human judgment. We propose an introspective model of autonomy that is learned and updated online through experience and dictates the extent to which the agent can act autonomously in any given situation. We define a competence-aware system (CAS) that explicitly models its own proficiency at different levels of autonomy and the available human feedback. A CAS learns to adjust its level of autonomy based on experience to maximize overall efficiency, factoring in the cost of human assistance. We analyze the convergence properties of CAS and provide experimental results for robot delivery and autonomous driving domains that demonstrate the benefits of the approach.
翻訳日:2022-12-22 21:38:55 公開日:2020-03-17
# EventSR: エンドツーエンドの逆学習による非同期イベントからイメージ再構築,リカバリ,スーパーリゾリューションへ

EventSR: From Asynchronous Events to Image Reconstruction, Restoration, and Super-Resolution via End-to-End Adversarial Learning ( http://arxiv.org/abs/2003.07640v1 )

ライセンス: Link先を確認
Lin Wang, Tae-Kyun Kim, Kuk-Jin Yoon(参考訳) イベントカメラは強度の変化を感知し、従来のカメラよりも多くの利点がある。 イベントカメラを活用するために,イベントストリームからの強度画像の再構成手法が提案されている。 しかし、出力は依然として低解像度(LR)、ノイズ、非現実的である。 低品質の出力は、高空間分解能(HR)と高時間分解能、ダイナミックレンジ、動きのぼけのないイベントカメラの幅広い応用に起因している。 我々は,GT HR 画像やダウンサンプリングカーネルが存在しない場合,LR イベントから高精細画像の再構成と超解像化の問題を考察する。 この課題に対処するため,イベントストリームからLR画像を再構成し,画質を向上し,EventSRと呼ばれる拡張イメージを増幅する,新たなエンドツーエンドパイプラインを提案する。 実際のGT画像がないため,本手法は主に教師なしであり,敵対学習を展開させる。 eventrをトレーニングするには、実世界とシミュレーションシーンの両方を含むオープンデータセットを作成します。 両方のデータセットを使用することでネットワーク性能が向上し、各フェーズにおけるネットワークアーキテクチャとさまざまな損失関数が画質の向上に役立つ。 パイプライン全体は3つのフェーズでトレーニングされる。 各フェーズは、主に3つのタスクのうちの1つだが、前フェーズのネットワークは、エンドツーエンドで各損失関数によって微調整される。 実験結果から,EventSRはシミュレーションデータと実世界データの両方のイベントから高品質なSRイメージを再構成することがわかった。

Event cameras sense intensity changes and have many advantages over conventional cameras. To take advantage of event cameras, some methods have been proposed to reconstruct intensity images from event streams. However, the outputs are still in low resolution (LR), noisy, and unrealistic. The low-quality outputs stem broader applications of event cameras, where high spatial resolution (HR) is needed as well as high temporal resolution, dynamic range, and no motion blur. We consider the problem of reconstructing and super-resolving intensity images from LR events, when no ground truth (GT) HR images and down-sampling kernels are available. To tackle the challenges, we propose a novel end-to-end pipeline that reconstructs LR images from event streams, enhances the image qualities and upsamples the enhanced images, called EventSR. For the absence of real GT images, our method is primarily unsupervised, deploying adversarial learning. To train EventSR, we create an open dataset including both real-world and simulated scenes. The use of both datasets boosts up the network performance, and the network architectures and various loss functions in each phase help improve the image qualities. The whole pipeline is trained in three phases. While each phase is mainly for one of the three tasks, the networks in earlier phases are fine-tuned by respective loss functions in an end-to-end manner. Experimental results show that EventSR reconstructs high-quality SR images from events for both simulated and real-world data.
翻訳日:2022-12-22 21:32:17 公開日:2020-03-17
# M$^5$L:RGBT追跡のためのマルチモーダルマルチマージン・メトリック・ラーニング

M$^5$L: Multi-Modal Multi-Margin Metric Learning for RGBT Tracking ( http://arxiv.org/abs/2003.07650v1 )

ライセンス: Link先を確認
Zhengzheng Tu, Chun Lin, Chenglong Li, Jin Tang and Bin Luo(参考訳) RGBTトラッキングの過程で紛らわしいサンプルを分類するのは、非常に難しい問題です。 既存の手法では, 正値と負値の境界を拡大することのみに焦点が当てられているが, サンプルの構造情報を損なう可能性がある。例えば, 混乱する正値のサンプルは, 通常の正値のサンプルよりもアンカーに近づき, この問題に対処するために, 新たにM$^5$Lというマルチモーダルマルチマージン・メトリック・ラーニング・フレームワークを提案する。 特に,性能向上に最も重要な役割を果たしている混乱したサンプルを識別するために,マルチマージン構造損失を設計する。 To alleviate this problem, we additionally enlarge the boundaries between confusing positive samples and normal ones, between confusing negative samples and normal ones with predefined margins, by exploiting the structured information of all samples in each modality.Moreover, a cross-modality constraint is employed to reduce the difference between modalities and push positive samples closer to the anchor than negative ones from two modalities.In addition, to achieve quality-aware RGB and thermal feature fusion, we introduce the modality attentions and learn them using a feature fusion module in our network. 大規模データセットに対する大規模な実験により、我々のフレームワークは追跡性能をはっきりと改善し、最先端のRGBTトラッカーよりも優れています。

Classifying the confusing samples in the course of RGBT tracking is a quite challenging problem, which hasn't got satisfied solution. Existing methods only focus on enlarging the boundary between positive and negative samples, however, the structured information of samples might be harmed, e.g., confusing positive samples are closer to the anchor than normal positive samples.To handle this problem, we propose a novel Multi-Modal Multi-Margin Metric Learning framework, named M$^5$L for RGBT tracking in this paper. In particular, we design a multi-margin structured loss to distinguish the confusing samples which play a most critical role in tracking performance boosting. To alleviate this problem, we additionally enlarge the boundaries between confusing positive samples and normal ones, between confusing negative samples and normal ones with predefined margins, by exploiting the structured information of all samples in each modality.Moreover, a cross-modality constraint is employed to reduce the difference between modalities and push positive samples closer to the anchor than negative ones from two modalities.In addition, to achieve quality-aware RGB and thermal feature fusion, we introduce the modality attentions and learn them using a feature fusion module in our network. Extensive experiments on large-scale datasets testify that our framework clearly improves the tracking performance and outperforms the state-of-the-art RGBT trackers.
翻訳日:2022-12-22 21:31:52 公開日:2020-03-17
# scribbleアノテーションによるweaklysupervised salient object detection

Weakly-Supervised Salient Object Detection via Scribble Annotations ( http://arxiv.org/abs/2003.07685v1 )

ライセンス: Link先を確認
Jing Zhang, Xin Yu, Aixuan Li, Peipei Song, Bowen Liu and Yuchao Dai(参考訳) ピクセル単位の濃密なラベル付けに比べて、スクリブルによるデータのラベル付けはずっと簡単で、1枚の画像にラベルをつけるのに1$\sim$2秒しかかからない。 しかし,scribbleラベルを用いた物体検出の研究は行われていない。 本稿では,これらのアノテーションから塩分を学習するための弱教師付き塩分物体検出モデルを提案する。 そこで我々はまず,S-DUTSデータセットというスクリブルを用いて,既存の大規模サルエントオブジェクト検出データセットを解放する。 オブジェクト構造と詳細情報はスクリブルによって識別されないため、スクリブルラベルを用いた直接トレーニングは境界位置の低いサリエンシマップにつながる。 この問題を軽減するために,対象のエッジを明示的にローカライズする補助エッジ検出タスクと,復元対象の構造範囲に制約を課すゲート構造認識損失を提案する。 さらに,スクリブルアノテーションを反復的に統合するスクリブルブースティングスキームを設計し,高品質なサリエンシマップの学習を監督する。 既存のサリエンシー評価指標は予測の構造的アライメントを無視するので、サリエンシーマップランキング指標は人間の知覚に適合しないかもしれない。 本稿では,人間の知覚とより整合した,予測された唾液度マップの構造アライメントを測定するための新しい尺度である「唾液度構造測定」を提案する。 6つのベンチマークデータセットに対する大規模な実験により、我々の手法は既存の弱教師付き/非教師付き手法を上回るだけでなく、いくつかの完全に教師付き状態モデルと同等であることが示された。 私たちのコードとデータはhttps://github.com/jingzhang617/scribble_saliencyで公開されている。

Compared with laborious pixel-wise dense labeling, it is much easier to label data by scribbles, which only costs 1$\sim$2 seconds to label one image. However, using scribble labels to learn salient object detection has not been explored. In this paper, we propose a weakly-supervised salient object detection model to learn saliency from such annotations. In doing so, we first relabel an existing large-scale salient object detection dataset with scribbles, namely S-DUTS dataset. Since object structure and detail information is not identified by scribbles, directly training with scribble labels will lead to saliency maps of poor boundary localization. To mitigate this problem, we propose an auxiliary edge detection task to localize object edges explicitly, and a gated structure-aware loss to place constraints on the scope of structure to be recovered. Moreover, we design a scribble boosting scheme to iteratively consolidate our scribble annotations, which are then employed as supervision to learn high-quality saliency maps. As existing saliency evaluation metrics neglect to measure structure alignment of the predictions, the saliency map ranking metric may not comply with human perception. We present a new metric, termed saliency structure measure, to measure the structure alignment of the predicted saliency maps, which is more consistent with human perception. Extensive experiments on six benchmark datasets demonstrate that our method not only outperforms existing weakly-supervised/unsupervised methods, but also is on par with several fully-supervised state-of-the-art models. Our code and data is publicly available at https://github.com/JingZhang617/Scribble_Saliency.
翻訳日:2022-12-22 21:31:27 公開日:2020-03-17
# $F$, $B$, Alpha Matting

$F$, $B$, Alpha Matting ( http://arxiv.org/abs/2003.07711v1 )

ライセンス: Link先を確認
Marco Forte and Fran\c{c}ois Piti\'e(参考訳) オブジェクトをカットし、画像マッチングとして知られる不透明マスクを推定することは、多くの画像編集アプリケーションにおいて重要なタスクである。 深層学習アプローチは、セグメントネットワークのエンコーダデコーダアーキテクチャを適用することで大きな進歩を遂げた。 しかし、既存のネットワークのほとんどはアルファマットのみを予測し、後処理法は透明領域の原色と背景色を復元するために使用される必要がある。 近年,前景の色を推定する手法が2つあるが,計算コストとメモリコストが大幅に向上している。 本稿では,前景や背景の色を予測するために,アルファマッティングネットワークの低コストな修正を提案する。 本研究では,トレーニング体制のバリエーションについて検討し,共同予測のための既存および新規な損失関数を幅広く検討する。 本手法は, アルファマットおよび複合色品質のadobe composition-1kデータセットにおいて, 技術性能の向上を実現する。 また、alphamatting.comのオンライン評価において、現在最も優れたパフォーマンス方法である。

Cutting out an object and estimating its opacity mask, known as image matting, is a key task in many image editing applications. Deep learning approaches have made significant progress by adapting the encoder-decoder architecture of segmentation networks. However, most of the existing networks only predict the alpha matte and post-processing methods must then be used to recover the original foreground and background colours in the transparent regions. Recently, two methods have shown improved results by also estimating the foreground colours, but at a significant computational and memory cost. In this paper, we propose a low-cost modification to alpha matting networks to also predict the foreground and background colours. We study variations of the training regime and explore a wide range of existing and novel loss functions for the joint prediction. Our method achieves the state of the art performance on the Adobe Composition-1k dataset for alpha matte and composite colour quality. It is also the current best performing method on the alphamatting.com online evaluation.
翻訳日:2022-12-22 21:30:58 公開日:2020-03-17
# 非トリミングビデオストリームからの新たなオンラインアクション検出フレームワーク

A Novel Online Action Detection Framework from Untrimmed Video Streams ( http://arxiv.org/abs/2003.07734v1 )

ライセンス: Link先を確認
Da-Hye Yoon, Nam-Gyu Cho, Seong-Whan Lee(参考訳) ビデオストリームからのオンラインの時間的動作のローカライズは、コンピュータビジョンにおいて難しい問題である。 それは故に挑戦している 一 未トリミング映像において、背景シーンを含む複数のアクション・インスタンスが出現しうること。 二 オンラインの設定においては、過去及び現在に関する情報のみを利用できる。 そのため、従来の行動検出手法によって活用されたトレーニングデータの平均動作時間などの時間的先行は、人間の行動のクラス内変動が大きいため、このタスクには適していない。 本稿では,アクションを時間的に順序付けられたサブクラスの集合として考慮し,将来的なフレーム生成ネットワークを活用して,上記の問題に関連する限られた情報問題に対処する,新しいオンライン行動検出フレームワークを提案する。 さらに,提案手法が人間の行動のクラス内における高い変化を学べるように,動画の長さを変えてデータを強化する。 オンラインの時間的行動ローカライズシナリオにおいて, THUMOS'14とActivityNetという2つのベンチマークデータセットを用いて評価を行い, オフライン環境で提案した最先端手法に匹敵する性能を示す。

Online temporal action localization from an untrimmed video stream is a challenging problem in computer vision. It is challenging because of i) in an untrimmed video stream, more than one action instance may appear, including background scenes, and ii) in online settings, only past and current information is available. Therefore, temporal priors, such as the average action duration of training data, which have been exploited by previous action detection methods, are not suitable for this task because of the high intra-class variation in human actions. We propose a novel online action detection framework that considers actions as a set of temporally ordered subclasses and leverages a future frame generation network to cope with the limited information issue associated with the problem outlined above. Additionally, we augment our data by varying the lengths of videos to allow the proposed method to learn about the high intra-class variation in human actions. We evaluate our method using two benchmark datasets, THUMOS'14 and ActivityNet, for an online temporal action localization scenario and demonstrate that the performance is comparable to state-of-the-art methods that have been proposed for offline settings.
翻訳日:2022-12-22 21:30:05 公開日:2020-03-17
# ビデオゲームテストのためのモンテカルロ木探索アルゴリズムの強化

Enhancing the Monte Carlo Tree Search Algorithm for Video Game Testing ( http://arxiv.org/abs/2003.07813v1 )

ライセンス: Link先を確認
Sinan Ariyurek, Aysu Betin-Can, Elif Surer(参考訳) 本稿では,いくつかのモンテカルロ木探索(mcts)がビデオゲームテストに与える影響について検討する。 MCTSの変更はゲームプレイで非常に研究されているが、バグ発見への影響は空白である。 これまでの研究ではバグ発見に焦点をあて、人工的および人間的なテスト目標を導入し、これらのテスト目標をsarsaおよびmctsエージェントでバグ発見に使用しました。 本研究では,MCTSエージェントをゲームテスト用にいくつかの改良を加えて拡張する。 さらに,新しいツリー再利用戦略を提案する。 3つのテストベッドゲームで、それぞれ4レベル、合計45のバグを含むこれらの修正を実験する。 我々は、General Video Game Artificial Intelligence(GVG-AI)フレームワークを使用して、テストベッドゲームを作成し、GVG-AIフレームワークを使用して427人のテスタートラジェクトリを収集する。 提案した修正は, エージェントのバグ発見性能に対する影響評価, 2つの異なる計算予算下での成功度の測定, 人型エージェントの人間的類似度に対する影響評価の3つの部分で分析した。 その結果,MCTSの修正により,エージェントのバグ発見性能が向上した。

In this paper, we study the effects of several Monte Carlo Tree Search (MCTS) modifications for video game testing. Although MCTS modifications are highly studied in game playing, their impacts on finding bugs are blank. We focused on bug finding in our previous study where we introduced synthetic and human-like test goals and we used these test goals in Sarsa and MCTS agents to find bugs. In this study, we extend the MCTS agent with several modifications for game testing purposes. Furthermore, we present a novel tree reuse strategy. We experiment with these modifications by testing them on three testbed games, four levels each, that contain 45 bugs in total. We use the General Video Game Artificial Intelligence (GVG-AI) framework to create the testbed games and collect 427 human tester trajectories using the GVG-AI framework. We analyze the proposed modifications in three parts: we evaluate their effects on bug finding performances of agents, we measure their success under two different computational budgets, and we assess their effects on human-likeness of the human-like agent. Our results show that MCTS modifications improve the bug finding performance of the agents.
翻訳日:2022-12-22 21:23:56 公開日:2020-03-17
# DEPARA:Deep Attribution Graph for Deep Knowledge Transferability

DEPARA: Deep Attribution Graph for Deep Knowledge Transferability ( http://arxiv.org/abs/2003.07496v1 )

ライセンス: Link先を確認
Jie Song, Yixin Chen, Jingwen Ye, Xinchao Wang, Chengchao Shen, Feng Mao, Mingli Song(参考訳) 異種タスクのPRE訓練深層ニューラルネットワーク(PR-DNN)に符号化された知識間の本質的な相互接続を探索することにより、各タスクから他のタスクへの知識伝達を可能にし、後者のトレーニング労力を削減する。 本稿では,PR-DNNから学んだ知識の伝達可能性を検討するために,DreP Attribution gRAph (DEPARA)を提案する。 DEPARAでは、ノードは入力に対応し、PR-DNNの出力に関してベクトル化された属性マップで表現される。 エッジは入力間の関連性を表し、PR-DNNから抽出された特徴の類似性によって測定される。 2つのPR-DNNの知識伝達性は、対応するDEPARAの類似性によって測定される。 DePARAを転送学習における重要かつ未研究の2つの問題(事前学習モデル選択と層選択)に適用する。 これらの問題を解決するために,提案手法の有効性と優越性を示すため,広範な実験を行った。 この論文で結果を再現するコード、データ、モデルは、 \url{https://github.com/zju-vipa/depara}で利用可能である。

Exploring the intrinsic interconnections between the knowledge encoded in PRe-trained Deep Neural Networks (PR-DNNs) of heterogeneous tasks sheds light on their mutual transferability, and consequently enables knowledge transfer from one task to another so as to reduce the training effort of the latter. In this paper, we propose the DEeP Attribution gRAph (DEPARA) to investigate the transferability of knowledge learned from PR-DNNs. In DEPARA, nodes correspond to the inputs and are represented by their vectorized attribution maps with regards to the outputs of the PR-DNN. Edges denote the relatedness between inputs and are measured by the similarity of their features extracted from the PR-DNN. The knowledge transferability of two PR-DNNs is measured by the similarity of their corresponding DEPARAs. We apply DEPARA to two important yet under-studied problems in transfer learning: pre-trained model selection and layer selection. Extensive experiments are conducted to demonstrate the effectiveness and superiority of the proposed method in solving both these problems. Code, data and models reproducing the results in this paper are available at \url{https://github.com/zju-vipa/DEPARA}.
翻訳日:2022-12-22 21:23:01 公開日:2020-03-17
# 注意誘導ポーズ推定のための拡張パラレルピラミドネット

Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation ( http://arxiv.org/abs/2003.07516v1 )

ライセンス: Link先を確認
Luanxuan Hou and Jie Cao and Yuan Zhao and Haifeng Shen and Yiping Meng and Ran He and Jieping Ye(参考訳) 人間のポーズ推定の目標は、画像から各人物の身体部分または関節位置を決定することである。 これは幅広いアプリケーションにおいて難しい問題です。 本稿では,注目部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。 技術的には、情報の損失を補うために並列ピラミッド構造が提案されている。 逆補償のための並列構造の設計を考察する。 一方、全体的な計算複雑性は増加しない。 さらに,並列ピラミッド構造によって生成された異なるスケール特徴マップから重み付け特徴を抽出するために,注意部分モジュール(apm)演算子を定義する。 アップサンプリング演算子による精製と比較すると、APMはチャネル間の関係をよりよく捉えることができる。 最後に,推定精度をさらに向上させるために,微分可能な自動データ拡張手法を提案する。 我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。 提案手法の有効性を検証する実験を行った。 特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。

The target of human pose estimation is to determine body part or joint locations of each person from an image. This is a challenging problems with wide applications. To address this issue, this paper proposes an augmented parallel-pyramid net with attention partial module and differentiable auto-data augmentation. Technically, a parallel pyramid structure is proposed to compensate the loss of information. We take the design of parallel structure for reverse compensation. Meanwhile, the overall computational complexity does not increase. We further define an Attention Partial Module (APM) operator to extract weighted features from different scale feature maps generated by the parallel pyramid structure. Compared with refining through upsampling operator, APM can better capture the relationship between channels. At last, we proposed a differentiable auto data augmentation method to further improve estimation accuracy. We define a new pose search space where the sequences of data augmentations are formulated as a trainable and operational CNN component. Experiments corroborate the effectiveness of our proposed method. Notably, our method achieves the top-1 accuracy on the challenging COCO keypoint benchmark and the state-of-the-art results on the MPII datasets.
翻訳日:2022-12-22 21:22:43 公開日:2020-03-17
# オブジェクト検出器におけるシブリングヘッドの再検討

Revisiting the Sibling Head in Object Detector ( http://arxiv.org/abs/2003.07540v1 )

ライセンス: Link先を確認
Guanglu Song, Yu Liu, Xiaogang Wang(参考訳) Fast RCNN~\cite{girshick2015fast} で最初にデノマイトされた 'shared head for classification and localization' (兄弟頭)' は、過去5年間、オブジェクト検出コミュニティのファッションをリードしてきた。 本稿では,2つの対象関数間の空間的不整合がトレーニング過程を著しく損なうことを観察するが,この不整合はタスク認識空間不整合(TSD)と呼ばれる非常に単純な演算子によって解決できる。 分類と回帰を考慮すると、TSDは2つの非絡み合った提案を生成して空間次元から分離し、共有提案によって推定する。 これは自然界の洞察に触発され、例えば、ある高度領域の特徴は分類のための豊富な情報を持っているのに対して、境界付近の特徴は境界ボックス回帰(bounding box regression)に適している可能性がある。 驚いたことに、このシンプルなデザインはMS COCOとGoogle OpenImageの両方ですべてのバックボーンとモデルを約3%向上させることができる。 さらに,不整合と共有提案の間の性能マージンを拡大し,mAPを約1%増加させるプログレッシブ制約を提案する。 現在シングルモデル検出器の上限を大きなマージン(resnet-101はmap 49.4、senet154は51.2)で破っており、google openimage challenge 2019における私たちの1位ソリューションのコアモデルです。

The ``shared head for classification and localization'' (sibling head), firstly denominated in Fast RCNN~\cite{girshick2015fast}, has been leading the fashion of the object detection community in the past five years. This paper provides the observation that the spatial misalignment between the two object functions in the sibling head can considerably hurt the training process, but this misalignment can be resolved by a very simple operator called task-aware spatial disentanglement (TSD). Considering the classification and regression, TSD decouples them from the spatial dimension by generating two disentangled proposals for them, which are estimated by the shared proposal. This is inspired by the natural insight that for one instance, the features in some salient area may have rich information for classification while these around the boundary may be good at bounding box regression. Surprisingly, this simple design can boost all backbones and models on both MS COCO and Google OpenImage consistently by ~3% mAP. Further, we propose a progressive constraint to enlarge the performance margin between the disentangled and the shared proposals, and gain ~1% more mAP. We show the \algname{} breaks through the upper bound of nowadays single-model detector by a large margin (mAP 49.4 with ResNet-101, 51.2 with SENet154), and is the core model of our 1st place solution on the Google OpenImage Challenge 2019.
翻訳日:2022-12-22 21:22:25 公開日:2020-03-17
# KPNet: 最小の顔検出器を目指す

KPNet: Towards Minimal Face Detector ( http://arxiv.org/abs/2003.07543v1 )

ライセンス: Link先を確認
Guanglu Song, Yu Liu, Yuhang Zang, Xiaogang Wang, Biao Leng, Qingsheng Yuan(参考訳) 最小のニューラルネットワークの小さな受容場と能力は、検出器のバックボーンとして使用する場合のパフォーマンスを制限する。 そこで本研究では,汎用的な顔の出現特性が,小型で浅いニューラルネットワークが背景から検証できるほど判別可能であることを見出した。 我々の背後にある重要な障壁は 1)顔境界ボックスの曖昧な定義と 2)アンカーボックスまたは受容フィールドのトリッキーな設計。 共同顔検出とアライメントのためのほとんどのトップダウン手法とは異なり、提案したKPNetはボトムアップ方式で顔全体の代わりに小さな顔キーポイントを検出する。 それはまず、よく設計された細粒度スケール近似とスケール適応ソフトargmax演算子によって、低解像度の画像から顔のランドマークを予測する。 最後に、正確な顔境界ボックスは、どのように定義しても、キーポイントから推測することができる。 複雑なヘッドアーキテクチャや巧妙なネットワーク設計がなければ、KPNetは一般的な顔検出およびアライメントベンチマークの最先端の精度を、GPU上で1000fpsで実行でき、ほとんどのモダンなフロントエンドチップでリアルタイムに実行することができる、わずか$\sim1M$パラメータで達成する。

The small receptive field and capacity of minimal neural networks limit their performance when using them to be the backbone of detectors. In this work, we find that the appearance feature of a generic face is discriminative enough for a tiny and shallow neural network to verify from the background. And the essential barriers behind us are 1) the vague definition of the face bounding box and 2) tricky design of anchor-boxes or receptive field. Unlike most top-down methods for joint face detection and alignment, the proposed KPNet detects small facial keypoints instead of the whole face by in a bottom-up manner. It first predicts the facial landmarks from a low-resolution image via the well-designed fine-grained scale approximation and scale adaptive soft-argmax operator. Finally, the precise face bounding boxes, no matter how we define it, can be inferred from the keypoints. Without any complex head architecture or meticulous network designing, the KPNet achieves state-of-the-art accuracy on generic face detection and alignment benchmarks with only $\sim1M$ parameters, which runs at 1000fps on GPU and is easy to perform real-time on most modern front-end chips.
翻訳日:2022-12-22 21:21:58 公開日:2020-03-17
# 1st Place Solutions for OpenImage2019 -- オブジェクト検出とインスタンスのセグメンテーション

1st Place Solutions for OpenImage2019 -- Object Detection and Instance Segmentation ( http://arxiv.org/abs/2003.07557v1 )

ライセンス: Link先を確認
Yu Liu, Guanglu Song, Yuhang Zang, Yan Gao, Enze Xie, Junjie Yan, Chen Change Loy, Xiaogang Wang(参考訳) この記事では,検出トラックの‘MMfruit’とセグメンテーショントラックの‘MMfruitSeg’という2つのチャンピオンチームのソリューションについて,OpenImage Challenge 2019で紹介する。 一般に、物体検出器では、バックボーンの端の共有機能は分類と回帰の両方に適さないことが知られており、これは単一ステージ検出器と高速RCNN \cite{ren2015faster} ベースの検出器の性能を大幅に制限している。 このコンペティションでは、共有機能がある場合でも、ひとつのオブジェクト内の異なる位置が2つのタスクに対して完全に矛盾するパフォーマンスを持つことが観察される。 例えば、サルエントな位置の特徴は分類に適していますが、オブジェクトエッジの周りの特徴は回帰に適しています。 このことから着想を得たdh(decoupling head)は,自己学習した最適特徴抽出によって対象の分類と回帰を解消し,大きな改善をもたらす。 さらに,ソフトNMSアルゴリズムを adj-NMS に調整し,安定した性能向上を実現する。 最後に,境界ボックスの位置と信頼度を投票することで,適切に設計されたアンサンブル戦略を提案する。 私たちはまた、いくつかのトレーニング/会議戦略と小さな改善をもたらすトリックの袋も導入します。 さまざまなバックボーン、ヘッド、3+2の専門家モデルを備えた28のグローバルモデルをトレーニングし、集約し、パブリックとプライベートの両方のリードボード上で、OpenImage 2019 Object Detection Challengeで1位を獲得します。 このような良いインスタンス境界ボックスを考えると、単純なインスタンスレベルのセマンティクスセグメンテーションパイプラインを更に設計し、セグメンテーションチャレンジの第1位を達成する。

This article introduces the solutions of the two champion teams, `MMfruit' for the detection track and `MMfruitSeg' for the segmentation track, in OpenImage Challenge 2019. It is commonly known that for an object detector, the shared feature at the end of the backbone is not appropriate for both classification and regression, which greatly limits the performance of both single stage detector and Faster RCNN \cite{ren2015faster} based detector. In this competition, we observe that even with a shared feature, different locations in one object has completely inconsistent performances for the two tasks. \textit{E.g. the features of salient locations are usually good for classification, while those around the object edge are good for regression.} Inspired by this, we propose the Decoupling Head (DH) to disentangle the object classification and regression via the self-learned optimal feature extraction, which leads to a great improvement. Furthermore, we adjust the soft-NMS algorithm to adj-NMS to obtain stable performance improvement. Finally, a well-designed ensemble strategy via voting the bounding box location and confidence is proposed. We will also introduce several training/inferencing strategies and a bag of tricks that give minor improvement. Given those masses of details, we train and aggregate 28 global models with various backbones, heads and 3+2 expert models, and achieves the 1st place on the OpenImage 2019 Object Detection Challenge on the both public and private leadboards. Given such good instance bounding box, we further design a simple instance-level semantic segmentation pipeline and achieve the 1st place on the segmentation challenge.
翻訳日:2022-12-22 21:21:36 公開日:2020-03-17
# GFTE:グラフベースの財務表抽出

GFTE: Graph-based Financial Table Extraction ( http://arxiv.org/abs/2003.07560v1 )

ライセンス: Link先を確認
Yiren Li, Zheng Huang, Junchi Yan, Yi Zhou, Fan Ye and Xianhui Liu(参考訳) タブラリデータは情報表現の重要な形態であり、情報検索と比較を容易にするための標準構造でデータを整理することができる。 しかし、金融業界や他の多くの分野において、しばしば非構造化のデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像で表されるが、直接抽出することは困難である。 本稿では,非構造化デジタルファイルからの深層学習に基づくテーブル抽出を容易にするため,FinTabという中国語の標準データセットを公開し,多種多様の財務表とそれに対応する構造表現をJSONで記述する。 さらに,新しいグラフベースの畳み込みニューラルネットワークモデルGFTEを,今後の比較のためのベースラインとして提案する。 GFTEは画像特徴、位置特徴、テキスト特徴を統合して正確なエッジ予測を行い、全体的な良い結果を得る。

Tabular data is a crucial form of information expression, which can organize data in a standard structure for easy information retrieval and comparison. However, in financial industry and many other fields tables are often disclosed in unstructured digital files, e.g. Portable Document Format (PDF) and images, which are difficult to be extracted directly. In this paper, to facilitate deep learning based table extraction from unstructured digital files, we publish a standard Chinese dataset named FinTab, which contains more than 1,600 financial tables of diverse kinds and their corresponding structure representation in JSON. In addition, we propose a novel graph-based convolutional neural network model named GFTE as a baseline for future comparison. GFTE integrates image feature, position feature and textual feature together for precise edge prediction and reaches overall good results.
翻訳日:2022-12-22 21:20:52 公開日:2020-03-17
# スケルトンに基づく行動認識のためのフィードバックグラフ畳み込みネットワーク

Feedback Graph Convolutional Network for Skeleton-based Action Recognition ( http://arxiv.org/abs/2003.07564v1 )

ライセンス: Link先を確認
Hao Yang, Dan Yan, Li Zhang, Dong Li, YunDa Sun, ShaoDi You, Stephen J. Maybank(参考訳) スケルトンに基づく行動認識は、骨格データが他のモダリティよりもダイナミックな状況と複雑な背景に対して堅牢であるため、コンピュータビジョンにおいて大きな注目を集めている。 近年,多くの研究者がGCN(Graph Convolutional Network)を用いて骨格配列の時空間的特徴をエンドツーエンドの最適化によってモデル化している。 しかし、従来のGCNはフィードフォワードネットワークであり、低層層では高層層のセマンティック情報にアクセスできない。 本稿では,FGCN(Feedback Graph Convolutional Network)という新しいネットワークを提案する。 これは、GCNとアクション認識にフィードバックメカニズムを導入する最初の作業である。 従来のGCNと比較して、FGCNは、(1)粗大な進行過程における行動認識のための時空間的特徴を抽出する多段階時空間サンプリング戦略、(2)高密度な接続に基づくフィードバックグラフ畳み込みブロック(FGCB)を提案し、GCNにフィードバック接続を導入する。 低レベル層に高レベルな意味的特徴を伝達し、段階的に時間的情報を流し、行動認識のための大域的空間-時間的特徴を段階的にモデル化する。 初期の段階では、モデルはアクションに関する部分的な情報を受け取る。 当然、その予測は比較的粗い。 粗い予測は、正確な予測のために後段の機能学習を導く前処理として扱われる。 データセット、NTU-RGB+D、NTU-RGB+D120、ノースウェスタンUCLAの大規模な実験は、提案されたFGCNが行動認識に有効であることを示した。 3つのデータセットで最先端のパフォーマンスを達成する。

Skeleton-based action recognition has attracted considerable attention in computer vision since skeleton data is more robust to the dynamic circumstance and complicated background than other modalities. Recently, many researchers have used the Graph Convolutional Network (GCN) to model spatial-temporal features of skeleton sequences by an end-to-end optimization. However, conventional GCNs are feedforward networks which are impossible for low-level layers to access semantic information in the high-level layers. In this paper, we propose a novel network, named Feedback Graph Convolutional Network (FGCN). This is the first work that introduces the feedback mechanism into GCNs and action recognition. Compared with conventional GCNs, FGCN has the following advantages: (1) a multi-stage temporal sampling strategy is designed to extract spatial-temporal features for action recognition in a coarse-to-fine progressive process; (2) A dense connections based Feedback Graph Convolutional Block (FGCB) is proposed to introduce feedback connections into the GCNs. It transmits the high-level semantic features to the low-level layers and flows temporal information stage by stage to progressively model global spatial-temporal features for action recognition; (3) The FGCN model provides early predictions. In the early stages, the model receives partial information about actions. Naturally, its predictions are relatively coarse. The coarse predictions are treated as the prior to guide the feature learning of later stages for a accurate prediction. Extensive experiments on the datasets, NTU-RGB+D, NTU-RGB+D120 and Northwestern-UCLA, demonstrate that the proposed FGCN is effective for action recognition. It achieves the state-of-the-art performance on the three datasets.
翻訳日:2022-12-22 21:20:37 公開日:2020-03-17
# 大行列のスパース分解のための統計的導出除算器

Statistically Guided Divide-and-Conquer for Sparse Factorization of Large Matrix ( http://arxiv.org/abs/2003.07898v1 )

ライセンス: Link先を確認
Kun Chen, Ruipeng Dong, Wanwan Xu, Zemin Zheng(参考訳) 大きな行列のスパース分解は、現代の統計的学習において基礎的である。 特に、スパース特異値分解とその変種は、多変量回帰、因子分析、双クラスタリング、ベクトル時系列モデリングなどに利用されてきた。 この因子化の魅力は、サンプルと変数の間の、あるいは応答と予測者の間の、高度に解釈可能な潜在関連ネットワークを発見する力によるものである。 しかし、既存の手法の多くは一般的な性能保証のないアドホックか計算集約的であり、大規模な研究には適さない。 我々は,統計問題をスパース因子回帰として定式化し,分割・解法で解く。 分割の第1段階では、タスクをco-sparse unit-rank estimation (cure) 問題に単純化するための逐次的および並列的アプローチを考察し、一般に採用されているデフレ法の統計的基礎を確立する。 分割の第2段階では,簡単なインクリメンタル更新のシーケンスからなる段階的学習手法を革新し,治療のソリューションパス全体を効率的に追跡する。 このアルゴリズムは交互な凸探索よりも計算複雑性がずっと低く,ステップサイズの選択により,統計的精度と計算効率との柔軟かつ原理的なトレードオフが可能となる。 我々の研究は、非凸問題に対して段階的に学習を可能にする最初の試みであり、そのアイデアは多くのマルチ凸問題に適用できる。 広範なシミュレーション研究と遺伝学への応用により,本手法の有効性と拡張性が実証された。

The sparse factorization of a large matrix is fundamental in modern statistical learning. In particular, the sparse singular value decomposition and its variants have been utilized in multivariate regression, factor analysis, biclustering, vector time series modeling, among others. The appeal of this factorization is owing to its power in discovering a highly-interpretable latent association network, either between samples and variables or between responses and predictors. However, many existing methods are either ad hoc without a general performance guarantee, or are computationally intensive, rendering them unsuitable for large-scale studies. We formulate the statistical problem as a sparse factor regression and tackle it with a divide-and-conquer approach. In the first stage of division, we consider both sequential and parallel approaches for simplifying the task into a set of co-sparse unit-rank estimation (CURE) problems, and establish the statistical underpinnings of these commonly-adopted and yet poorly understood deflation methods. In the second stage of division, we innovate a contended stagewise learning technique, consisting of a sequence of simple incremental updates, to efficiently trace out the whole solution paths of CURE. Our algorithm has a much lower computational complexity than alternating convex search, and the choice of the step size enables a flexible and principled tradeoff between statistical accuracy and computational efficiency. Our work is among the first to enable stagewise learning for non-convex problems, and the idea can be applicable in many multi-convex problems. Extensive simulation studies and an application in genetics demonstrate the effectiveness and scalability of our approach.
翻訳日:2022-12-22 21:13:48 公開日:2020-03-17
# マルチラベル自然言語処理によるMIMIC-III患者ノートからの診断・手順コード同定

Multi-label natural language processing to identify diagnosis and procedure codes from MIMIC-III inpatient notes ( http://arxiv.org/abs/2003.07507v1 )

ライセンス: Link先を確認
A.K. Bhavani Singh, Mounika Guntu, Ananth Reddy Bhimireddy, Judy W. Gichoya, Saptarshi Purkayastha(参考訳) 米国では、医療用コードや請求書のサービスを含む管理コストに対して、病院支出の25%または200億ドル以上が費やされている。 患者の記録数が増えるにつれて、実行されたコードの手作業による割り当てが圧倒的になり、時間がかかり、エラーが発生しやすい。 自然言語処理は、非構造化臨床ノートからのコード/ラベルの抽出を自動化し、人間のコーダが時間の節約、生産性の向上、医学的コーディングエラーの検証を可能にする。 本研究の目的は,マルチラベル分類を行い,臨床ノートから適切な診断・処置コードを特定することである。 MIMIC-IIIデータベースから要介護患者の非特定データを用いて,全入院患者の47.45%,74.12%を対象とする10例(トップ10)と50例(トップ50)を選択した。 変換器 (BERT) による最先端の双方向エンコーダ表現を実装し, 80%のデータで言語モデルを微調整し, 残りの20%で検証した。 全体の精度は87.08%、f1スコアは85.82%、aucはトップ10コードで91.76%であった。 トップ50のコードでは、モデル全体の精度は93.76%、f1スコアは92.24%、aucは91%であった。 従来の研究と比較すると,本モデルは臨床テキストからコードを予測するのに優れている。 我々はMIMIC-BERTの知識発見プロセスを他の臨床ノートに一般化するためのアプローチについて議論する。 これにより、ヒューマンコーダは時間の節約、バックログの防止、コーディングエラーによる追加コストの削減に役立ちます。

In the United States, 25% or greater than 200 billion dollars of hospital spending accounts for administrative costs that involve services for medical coding and billing. With the increasing number of patient records, manual assignment of the codes performed is overwhelming, time-consuming and error-prone, causing billing errors. Natural language processing can automate the extraction of codes/labels from unstructured clinical notes, which can aid human coders to save time, increase productivity, and verify medical coding errors. Our objective is to identify appropriate diagnosis and procedure codes from clinical notes by performing multi-label classification. We used de-identified data of critical care patients from the MIMIC-III database and subset the data to select the ten (top-10) and fifty (top-50) most common diagnoses and procedures, which covers 47.45% and 74.12% of all admissions respectively. We implemented state-of-the-art Bidirectional Encoder Representations from Transformers (BERT) to fine-tune the language model on 80% of the data and validated on the remaining 20%. The model achieved an overall accuracy of 87.08%, an F1 score of 85.82%, and an AUC of 91.76% for top-10 codes. For the top-50 codes, our model achieved an overall accuracy of 93.76%, an F1 score of 92.24%, and AUC of 91%. When compared to previously published research, our model outperforms in predicting codes from the clinical text. We discuss approaches to generalize the knowledge discovery process of our MIMIC-BERT to other clinical notes. This can help human coders to save time, prevent backlogs, and additional costs due to coding errors.
翻訳日:2022-12-22 21:12:36 公開日:2020-03-17
# ソーシャルメディア上でのメンタルヘルス予測のための深層学習手法の適用

Adapting Deep Learning Methods for Mental Health Prediction on Social Media ( http://arxiv.org/abs/2003.07634v1 )

ライセンス: Link先を確認
Ivan Sekuli\'c and Michael Strube(参考訳) メンタルヘルスは個人の幸福にとって大きな課題となる。 ソーシャルメディアのような豊かな資源のテキスト分析は、病気のより深い理解に寄与し、早期発見の手段を提供する。 我々は,学習モデルを用いてソーシャルメディア利用者のメンタルステータスを検知し,従来のアプローチからタスクへ移行するという課題に取り組む。 ユーザが9つの異なる障害のうちの1つに苦しむかどうかを予測するバイナリ分類タスクでは、階層的な注意ネットワークが以前設定された4つの障害のベンチマークを上回っている。 さらに,モデルの制約を探索し,モデルの単語レベルの注意重みを検査することにより,分類に関連する句を分析する。

Mental health poses a significant challenge for an individual's well-being. Text analysis of rich resources, like social media, can contribute to deeper understanding of illnesses and provide means for their early detection. We tackle a challenge of detecting social media users' mental status through deep learning-based models, moving away from traditional approaches to the task. In a binary classification task on predicting if a user suffers from one of nine different disorders, a hierarchical attention network outperforms previously set benchmarks for four of the disorders. Furthermore, we explore the limitations of our model and analyze phrases relevant for classification by inspecting the model's word-level attention weights.
翻訳日:2022-12-22 21:11:49 公開日:2020-03-17
# ディープニューラルネットワークと組合せ最適化を用いた生理信号の分割と最適領域選択

Segmentation and Optimal Region Selection of Physiological Signals using Deep Neural Networks and Combinatorial Optimization ( http://arxiv.org/abs/2003.07981v1 )

ライセンス: Link先を確認
Jorge Oliveira, Margarida Carvalho, Diogo Marcelo Nogueira, Miguel Coimbra(参考訳) 心電図や心電図などの生理学的信号は、ノイズ源によってしばしば破損する。 通常、人工知能アルゴリズムはその品質に関係なく信号を解析する。 一方、医師は完全な直交戦略を用いる。 彼らは記録全体を評価せず、基本波と異常波が容易に検出されるセグメントを探索し、その後に予測を試みる。 この事実に触発されて、利用者が定義した基準に従って、後処理段階の最適なセグメントを自動的に選択する新しいアルゴリズムを提案する。 このプロセスでは、ニューラルネットワークを使用して各サンプルの出力状態確率分布を計算する。 上記の量を用いてグラフを設計する一方、状態遷移の制約は物理的にグラフに課され、ユーザによって提案された可能性関数を最大化するレコードのサブセットを取得するために一連の制約が使用される。 開発したフレームワークは2つのアプリケーションでテストされ検証される。 いずれの場合も、心臓音のセグメンテーションでは、文献の標準的なアプローチに比べて感度が2.4%向上するなど、システム性能が著しく向上する。

Physiological signals, such as the electrocardiogram and the phonocardiogram are very often corrupted by noisy sources. Usually, artificial intelligent algorithms analyze the signal regardless of its quality. On the other hand, physicians use a completely orthogonal strategy. They do not assess the entire recording, instead they search for a segment where the fundamental and abnormal waves are easily detected, and only then a prognostic is attempted. Inspired by this fact, a new algorithm that automatically selects an optimal segment for a post-processing stage, according to a criteria defined by the user is proposed. In the process, a Neural Network is used to compute the output state probability distribution for each sample. Using the aforementioned quantities, a graph is designed, whereas state transition constraints are physically imposed into the graph and a set of constraints are used to retrieve a subset of the recording that maximizes the likelihood function, proposed by the user. The developed framework is tested and validated in two applications. In both cases, the system performance is boosted significantly, e.g in heart sound segmentation, sensitivity increases 2.4% when compared to the standard approaches in the literature.
翻訳日:2022-12-22 21:04:43 公開日:2020-03-17
# ノイズロバスト骨格に基づく行動認識のための予測符号化グラフ畳み込みネットワーク

Predictively Encoded Graph Convolutional Network for Noise-Robust Skeleton-based Action Recognition ( http://arxiv.org/abs/2003.07514v1 )

ライセンス: Link先を確認
Jongmin Yu, Yongsang Yoon, and Moongu Jeon(参考訳) スケルトンに基づく行動認識では、ノードや接続といったグラフィカルなコンポーネントを用いて人体骨格をモデル化するグラフ畳み込みネットワーク(GCN)が、近年顕著なパフォーマンスを実現している。 しかしながら、現在の骨格に基づく行動認識の最先端の手法は、完全に観察された骨格が提供されるという仮定で通常機能する。 捕獲された骨格が不完全かノイズである可能性は常にあるので、実際のシナリオでこの仮定を適用するのは問題になるかもしれない。 本研究では,骨格特徴の雑音情報に対して頑健な骨格に基づく行動認識手法を提案する。 提案手法の重要な洞察は,予測的符号化手法を用いて,正常骨格と雑音骨格の相互情報を最大化することによりモデルを訓練することである。 我々は,NTU-RGB+DとKineetics-Skeletonデータセットを用いた骨格型行動認識の包括的実験を行った。 実験の結果,スケルトン標本が従来の手法に比べてノイズが多い場合,優れた性能が得られることがわかった。

In skeleton-based action recognition, graph convolutional networks (GCNs), which model human body skeletons using graphical components such as nodes and connections, have achieved remarkable performance recently. However, current state-of-the-art methods for skeleton-based action recognition usually work on the assumption that the completely observed skeletons will be provided. This may be problematic to apply this assumption in real scenarios since there is always a possibility that captured skeletons are incomplete or noisy. In this work, we propose a skeleton-based action recognition method which is robust to noise information of given skeleton features. The key insight of our approach is to train a model by maximizing the mutual information between normal and noisy skeletons using a predictive coding manner. We have conducted comprehensive experiments about skeleton-based action recognition with defected skeletons using NTU-RGB+D and Kinetics-Skeleton datasets. The experimental results demonstrate that our approach achieves outstanding performance when skeleton samples are noised compared with existing state-of-the-art methods.
翻訳日:2022-12-22 21:03:53 公開日:2020-03-17
# iNALU:改良されたニューラル算術論理ユニット

iNALU: Improved Neural Arithmetic Logic Unit ( http://arxiv.org/abs/2003.07629v1 )

ライセンス: Link先を確認
Daniel Schl\"or, Markus Ring, Andreas Hotho(参考訳) ニューラルネットワークは、様々なタスクを学ぶために数学的関係を捉える必要がある。 彼らはこれらの関係を暗黙的に近似するので、しばしばうまく一般化しない。 最近提案されたneural arithmetic logic unit (nalu)は、ネットワークの単位によって数学的関係を明示的に表現し、和、減算、乗算などの演算を学ぶことができる新しいニューラルネットワークである。 NALUは様々な下流タスクでうまく機能することが示されているが、深いネットワークに対して負の入力値の乗算や分割ができないことや、トレーニング安定性の問題など、設計上の欠点が深い。 これらの問題に対処し、改良されたモデルアーキテクチャを提案する。 基礎演算の学習からより複雑な関数まで,様々な環境で経験的にモデルを評価する。 実験により,我々のモデルは安定性の問題を解き,算術精度と収束性により元のNALUモデルより優れていることが示された。

Neural networks have to capture mathematical relationships in order to learn various tasks. They approximate these relations implicitly and therefore often do not generalize well. The recently proposed Neural Arithmetic Logic Unit (NALU) is a novel neural architecture which is able to explicitly represent the mathematical relationships by the units of the network to learn operations such as summation, subtraction or multiplication. Although NALUs have been shown to perform well on various downstream tasks, an in-depth analysis reveals practical shortcomings by design, such as the inability to multiply or divide negative input values or training stability issues for deeper networks. We address these issues and propose an improved model architecture. We evaluate our model empirically in various settings from learning basic arithmetic operations to more complex functions. Our experiments indicate that our model solves stability issues and outperforms the original NALU model in means of arithmetic precision and convergence.
翻訳日:2022-12-22 20:55:41 公開日:2020-03-17
# AutoCogniSys: IoTによるコンテキスト認識自動認知ヘルスアセスメント

AutoCogniSys: IoT Assisted Context-Aware Automatic Cognitive Health Assessment ( http://arxiv.org/abs/2003.07492v1 )

ライセンス: Link先を確認
Mohammad Arif Ul Alam, Nirmalya Roy, Sarah Holmes, Aryya Gangopadhyay, Elizabeth Galik(参考訳) 高齢者では認知障害が流行している。 最近の小さなウェアラブルと環境機器の出現、すなわちIoT(Internet of Things)は、高齢者の継続的な機能的および認知的健康評価のための十分なプラットフォームを提供する。 本稿では,コンテキスト認識型自動認知健康評価システムautocognisysの設計,実装,評価を行い,環境センサと連動して,ウェアラブル生理的(電気的活動,光電容積)センサと物理的(加速度計,物体)センサのセンシング能力を組み合わせた。 適切な信号処理と機械学習手法をデザインし,高齢者の自然な生活環境における認知的健康評価システムを開発する。 2つのデータセットを使ってアプローチを検証する。 一 生活活動に関する自然主義的センサデータ及び退職者コミュニティセンターで採用した22人の高齢者の精神的覚醒に関するデータストリームで、カスタマイズした安価なIoTシステム(IRB #HP-00064387)を用いて、各自のアパートに個別に居住する。 (ii)感情検出のための公開データセット。 AutoCogniSysのパフォーマンスは最大である。 93%の精度で認知状態を評価することができた。

Cognitive impairment has become epidemic in older adult population. The recent advent of tiny wearable and ambient devices, a.k.a Internet of Things (IoT) provides ample platforms for continuous functional and cognitive health assessment of older adults. In this paper, we design, implement and evaluate AutoCogniSys, a context-aware automated cognitive health assessment system, combining the sensing powers of wearable physiological (Electrodermal Activity, Photoplethysmography) and physical (Accelerometer, Object) sensors in conjunction with ambient sensors. We design appropriate signal processing and machine learning techniques, and develop an automatic cognitive health assessment system in a natural older adults living environment. We validate our approaches using two datasets: (i) a naturalistic sensor data streams related to Activities of Daily Living and mental arousal of 22 older adults recruited in a retirement community center, individually living in their own apartments using a customized inexpensive IoT system (IRB #HP-00064387) and (ii) a publicly available dataset for emotion detection. The performance of AutoCogniSys attests max. 93\% of accuracy in assessing cognitive health of older adults.
翻訳日:2022-12-22 20:55:11 公開日:2020-03-17
# 説明可能な知識実現システムの基礎

Foundations of Explainable Knowledge-Enabled Systems ( http://arxiv.org/abs/2003.07520v1 )

ライセンス: Link先を確認
Shruthi Chari, Daniel M. Gruen, Oshani Seneviratne, Deborah L. McGuinness(参考訳) 説明可能性(Explainability)は、人工知能の初期から重要な目標だった。 説明を作るためのいくつかのアプローチが開発されている。 しかし、これらのアプローチの多くは、当時の人工知能システムの能力と密結合していた。 AI対応システムが時々重要な環境で普及しているため、エンドユーザーや意思決定者に説明できる必要がある。 本稿では,知識対応システムに着目し,エキスパートシステム,認知アシスタント,意味的応用,機械学習領域にまたがる,説明可能な人工知能システムの歴史的概要を紹介する。 さらに,過去のアプローチの強みを借用し,ユーザとコンテキストに焦点を当てた説明を行うために必要なギャップを特定することで,説明と説明可能な知識対応システムのための新たな定義を提案する。

Explainability has been an important goal since the early days of Artificial Intelligence. Several approaches for producing explanations have been developed. However, many of these approaches were tightly coupled with the capabilities of the artificial intelligence systems at the time. With the proliferation of AI-enabled systems in sometimes critical settings, there is a need for them to be explainable to end-users and decision-makers. We present a historical overview of explainable artificial intelligence systems, with a focus on knowledge-enabled systems, spanning the expert systems, cognitive assistants, semantic applications, and machine learning domains. Additionally, borrowing from the strengths of past approaches and identifying gaps needed to make explanations user- and context-focused, we propose new definitions for explanations and explainable knowledge-enabled systems.
翻訳日:2022-12-22 20:54:52 公開日:2020-03-17
# 説明可能な知識対応システムの方向性

Directions for Explainable Knowledge-Enabled Systems ( http://arxiv.org/abs/2003.07523v1 )

ライセンス: Link先を確認
Shruthi Chari, Daniel M. Gruen, Oshani Seneviratne, Deborah L. McGuinness(参考訳) 説明可能な人工知能の分野への関心は数十年にわたって高まり、近年は加速している。 人工知能モデルが複雑化し、しばしば不透明になるにつれて、複雑な機械学習技術が取り入れられ、説明可能性もより重要になっている。 近年,信頼性,理解性,明示的証明性,文脈認識性を考慮し,ユーザ中心の視点で説明可能性を調査し,対処している。 本章では,人工知能と密接な関連分野における説明文献の調査を活用し,これまでの研究成果を活かして,今日の人工知能応用における説明ニーズの拡大を反映した説明タイプを創り出す。 それぞれの型を定義し、このスタイルの説明の必要性を動機付けるサンプル質問を提供します。 この一連の説明タイプは、要求の生成と優先順位付けにおける将来のシステムデザイナーの助けとなり、さらにユーザと状況ニーズに合致した説明を生成するのに役立つと信じています。

Interest in the field of Explainable Artificial Intelligence has been growing for decades and has accelerated recently. As Artificial Intelligence models have become more complex, and often more opaque, with the incorporation of complex machine learning techniques, explainability has become more critical. Recently, researchers have been investigating and tackling explainability with a user-centric focus, looking for explanations to consider trustworthiness, comprehensibility, explicit provenance, and context-awareness. In this chapter, we leverage our survey of explanation literature in Artificial Intelligence and closely related fields and use these past efforts to generate a set of explanation types that we feel reflect the expanded needs of explanation for today's artificial intelligence applications. We define each type and provide an example question that would motivate the need for this style of explanation. We believe this set of explanation types will help future system designers in their generation and prioritization of requirements and further help generate explanations that are better aligned to users' and situational needs.
翻訳日:2022-12-22 20:54:41 公開日:2020-03-17
# 誤り発生結果の公平な推測

Fair inference on error-prone outcomes ( http://arxiv.org/abs/2003.07621v1 )

ライセンス: Link先を確認
Laura Boeschoten, Erik-Jan van Kesteren, Ayoub Bagheri, Daniel L. Oberski(参考訳) 教師あり学習における公平な推論は重要かつ活発な研究領域であり、根拠の真理目標を予測する際の公平性基準を評価し考慮するための有用な方法が数多く存在する。 しかし、最近の研究で示されているように、ターゲットラベルがエラーになりやすい場合、測定誤差から潜在的な予測の不公平さが生じる可能性がある。 本稿では,誤差の高いプロキシターゲットを使用する場合,フェアネス基準の評価と校正を行う既存の手法が真のターゲット変数に拡張されないことを示す。 この問題を解決するために,本論文では,一方の対実的公正文学に見られるようなフェアML手法と,他方の統計文献に見られる測定モデルという,既存の2つの文献の組み合わせによる枠組みを提案する。 これらのアプローチとその関係からフレームワークについて論じる。 医療決定問題では,測定誤差を考慮に入れた潜在変数モデルを用いることで,これまで検出された不公平さを排除できることがわかった。

Fair inference in supervised learning is an important and active area of research, yielding a range of useful methods to assess and account for fairness criteria when predicting ground truth targets. As shown in recent work, however, when target labels are error-prone, potential prediction unfairness can arise from measurement error. In this paper, we show that, when an error-prone proxy target is used, existing methods to assess and calibrate fairness criteria do not extend to the true target variable of interest. To remedy this problem, we suggest a framework resulting from the combination of two existing literatures: fair ML methods, such as those found in the counterfactual fairness literature on the one hand, and, on the other, measurement models found in the statistical literature. We discuss these approaches and their connection resulting in our framework. In a healthcare decision problem, we find that using a latent variable model to account for measurement error removes the unfairness detected previously.
翻訳日:2022-12-22 20:54:11 公開日:2020-03-17
# 部分ラベル情報を用いたNullspace Tuningの価値

The Value of Nullspace Tuning Using Partial Label Information ( http://arxiv.org/abs/2003.07921v1 )

ライセンス: Link先を確認
Colin B. Hansen, Vishwesh Nath, Diego A. Mesa, Yuankai Huo, Bennett A. Landman, Thomas A. Lasko(参考訳) 半教師付き学習では、ラベルなし例からの情報はラベル付き例から学習したモデルを改善するために使用される。 しかし、一部の学習問題では、ラベル情報の一部がラベルのない例から推測され、モデルをさらに改善するために使われることがある。 特に、トレーニング例のサブセットがラベル自体が欠落しているにもかかわらず同じラベルを持っていることが分かっている場合に、部分的なラベル情報が存在する。 モデルにそのようなすべての例に同じラベルを付けるように促すことで、パフォーマンスを向上させることができる。 同じラベルを持つ任意の一対の例の差分ベクトルは、線型モデルのヌル空間にあるはずなので、この励ましを \emph{Nullspace Tuning} と呼ぶ。 本稿では,よく特性化された公開データセットに対する注意深い比較フレームワークを用いて,部分ラベル情報の利用の利点について検討する。 部分ラベルによって提供される付加情報は、良い半教師付き手法よりもテストエラーを通常2倍から5.5倍に減少させることを示す。 また、最新かつ最先端のMixMatchメソッドにNullspace Tuningを追加することで、テストエラーを最大1.8に削減できることを示す。

In semi-supervised learning, information from unlabeled examples is used to improve the model learned from labeled examples. But in some learning problems, partial label information can be inferred from otherwise unlabeled examples and used to further improve the model. In particular, partial label information exists when subsets of training examples are known to have the same label, even though the label itself is missing. By encouraging a model to give the same label to all such examples, we can potentially improve its performance. We call this encouragement \emph{Nullspace Tuning} because the difference vector between any pair of examples with the same label should lie in the nullspace of a linear model. In this paper, we investigate the benefit of using partial label information using a careful comparison framework over well-characterized public datasets. We show that the additional information provided by partial labels reduces test error over good semi-supervised methods usually by a factor of 2, up to a factor of 5.5 in the best case. We also show that adding Nullspace Tuning to the newer and state-of-the-art MixMatch method decreases its test error by up to a factor of 1.8.
翻訳日:2022-12-22 20:46:48 公開日:2020-03-17
# 非線形回帰モデルによる入力データからの予測の改善

Improving predictions by nonlinear regression models from outlying input data ( http://arxiv.org/abs/2003.07926v1 )

ライセンス: Link先を確認
William W. Hsieh(参考訳) 機械学習/統計手法を環境科学に適用する場合、非線形回帰(NLR)モデルはリニア回帰(LR)よりもわずかに良く、時には悪いだけである。 この欠点の理由は、NLRモデルがモデルトレーニングで使用される領域外にある入力データを与えられた場合、LRよりもはるかに悪い予測をすることができるためである。 連続的非有界変数は環境科学において広く使われており、新しい入力データがトレーニング領域のはるかに外にあることは珍しくない。 6つの環境データセットにおいて,実験データ中の入力は,トレーニング入力データからのマハラノビス距離に基づいて,"outliers"と"non-outliers"に分類された。 予測スコア(平均絶対誤差、スピアマン相関)は、非外乱ではLRを上回り、しばしば外乱ではLRを下回ることを示した。 Occam's Razor (OR) に基づく手法が提案され、線形外挿法が外挿器の非線形外挿法の代わりに用いられた。 外接領域への線形外挿は非外接領域内のNLRモデルに基づいていた。 この NLR$_{\mathrm{OR}}$ アプローチは、NLR による非常に低い外挿の発生を減らし、外れ値に対して NLR と LR を上回る傾向にあった。 結論として、入力テストデータは異常値として表示されるべきである。 外れ値については、信頼できないNLR予測をNLR$_{\mathrm{OR}}$またはLR予測に置き換えるか、あるいは"信頼できない予測"警告を発行することで置き換えることができる。

When applying machine learning/statistical methods to the environmental sciences, nonlinear regression (NLR) models often perform only slightly better and occasionally worse than linear regression (LR). The proposed reason for this conundrum is that NLR models can give predictions much worse than LR when given input data which lie outside the domain used in model training. Continuous unbounded variables are widely used in environmental sciences, whence not uncommon for new input data to lie far outside the training domain. For six environmental datasets, inputs in the test data were classified as "outliers" and "non-outliers" based on the Mahalanobis distance from the training input data. The prediction scores (mean absolute error, Spearman correlation) showed NLR to outperform LR for the non-outliers, but often underperform LR for the outliers. An approach based on Occam's Razor (OR) was proposed, where linear extrapolation was used instead of nonlinear extrapolation for the outliers. The linear extrapolation to the outlier domain was based on the NLR model within the non-outlier domain. This NLR$_{\mathrm{OR}}$ approach reduced occurrences of very poor extrapolation by NLR, and it tended to outperform NLR and LR for the outliers. In conclusion, input test data should be screened for outliers. For outliers, the unreliable NLR predictions can be replaced by NLR$_{\mathrm{OR}}$ or LR predictions, or by issuing a "no reliable prediction" warning.
翻訳日:2022-12-22 20:46:28 公開日:2020-03-17
# 野生における多視点画像を用いた3次元人文学習

Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the Wild ( http://arxiv.org/abs/2003.07581v1 )

ライセンス: Link先を確認
Umar Iqbal and Pavlo Molchanov and Jan Kautz(参考訳) 1つの大きな課題は、正確な3Dポーズを付加した制約のない画像を含むトレーニングデータの取得である。 本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、未ラベルのマルチビューデータから3Dポーズを推定することを学ぶ。 マルチビュー整合性を用いた弱教師あり学習を可能にする新しいエンドツーエンド学習フレームワークを提案する。 マルチビューの一貫性はデジェネレーションソリューションになりやすいため、2.5次元ポーズ表現を採用し、トレーニングされたモデルの予測が一貫性があり、すべてのカメラビューで実現可能な場合にのみ最小化できる、新しい目的関数を提案する。 提案手法は2つの大規模データセット(Human3.6MとMPII-INF-3DHP)において,半/弱教師付き手法の最先端性能を実現する。

One major challenge for monocular 3D human pose estimation in-the-wild is the acquisition of training data that contains unconstrained images annotated with accurate 3D poses. In this paper, we address this challenge by proposing a weakly-supervised approach that does not require 3D annotations and learns to estimate 3D poses from unlabeled multi-view data, which can be acquired easily in in-the-wild environments. We propose a novel end-to-end learning framework that enables weakly-supervised training using multi-view consistency. Since multi-view consistency is prone to degenerated solutions, we adopt a 2.5D pose representation and propose a novel objective function that can only be minimized when the predictions of the trained model are consistent and plausible across all camera views. We evaluate our proposed approach on two large scale datasets (Human3.6M and MPII-INF-3DHP) where it achieves state-of-the-art performance among semi-/weakly-supervised methods.
翻訳日:2022-12-22 20:45:39 公開日:2020-03-17
# 確率的潜在空間モデルに基づく映像データの異常検出

Anomaly Detection in Video Data Based on Probabilistic Latent Space Models ( http://arxiv.org/abs/2003.07623v1 )

ライセンス: Link先を確認
Giulia Slavic, Damian Campo, Mohamad Baydoun, Pablo Marin, David Martin, Lucio Marcenaro, Carlo Regazzoni(参考訳) 本稿では,ビデオデータの異常を検出する手法を提案する。 可変オートエンコーダ(VAE)は、ビデオフレームの寸法を減少させ、低次元の知覚データ(例えば位置決め、操舵角)に匹敵する潜時空間情報を生成し、自動運転車のための一貫したマルチモーダルアーキテクチャの開発を可能にする。 離散的および連続的推論レベルで定義される適応マルコフジャンプ粒子フィルタを用いて、次のフレームを予測し、新しいビデオシーケンスにおける異常を検出する。 本手法は,半自律車両が閉じた環境で一連のタスクを実行する様々なビデオシナリオで評価する。

This paper proposes a method for detecting anomalies in video data. A Variational Autoencoder (VAE) is used for reducing the dimensionality of video frames, generating latent space information that is comparable to low-dimensional sensory data (e.g., positioning, steering angle), making feasible the development of a consistent multi-modal architecture for autonomous vehicles. An Adapted Markov Jump Particle Filter defined by discrete and continuous inference levels is employed to predict the following frames and detecting anomalies in new video sequences. Our method is evaluated on different video scenarios where a semi-autonomous vehicle performs a set of tasks in a closed environment.
翻訳日:2022-12-22 20:45:26 公開日:2020-03-17
# ハイパープレーンでトレーニングされたConvNetのアレンジメント

Hyperplane Arrangements of Trained ConvNets Are Biased ( http://arxiv.org/abs/2003.07797v1 )

ライセンス: Link先を確認
Matteo Gamba, Stefan Carlsson, Hossein Azizpour, M{\aa}rten Bj\"orkman(参考訳) 畳み込み層によって誘導される超平面配置の実験的研究により, 畳み込み層のプレアクティベーション空間において, 訓練されたConvNetsが学習した関数の幾何学的性質について検討した。 トレーニングネットワークの重みに関する統計を導入し、局所的な配置を研究し、それらをトレーニングダイナミクスに関連付ける。 訓練されたコンブネットは、通常の超平面配置に対する統計的に有意な偏りを示す。 さらに, CIFAR10, CIFAR100, ImageNetでトレーニングしたアーキテクチャにおいて, バイアスのある構成を示すレイヤが, 検証性能に重要であることがわかった。

We investigate the geometric properties of the functions learned by trained ConvNets in the preactivation space of their convolutional layers, by performing an empirical study of hyperplane arrangements induced by a convolutional layer. We introduce statistics over the weights of a trained network to study local arrangements and relate them to the training dynamics. We observe that trained ConvNets show a significant statistical bias towards regular hyperplane configurations. Furthermore, we find that layers showing biased configurations are critical to validation performance for the architectures considered, trained on CIFAR10, CIFAR100 and ImageNet.
翻訳日:2022-12-22 20:45:14 公開日:2020-03-17
# Construe: 時系列の説明に基づく解釈のためのソフトウェアソリューション

Construe: a software solution for the explanation-based interpretation of time series ( http://arxiv.org/abs/2003.07596v1 )

ライセンス: Link先を確認
Tomas Teijeiro and Paulo Felix(参考訳) 本稿では,帰納的推論に基づく時系列解釈のための汎用フレームワークのソフトウェア実装について述べる。 このソフトウェアは時系列の最良の説明を推論するためのデータモデルとアルゴリズムのセットを提供し、結果として時系列の基礎となるプロセスの複数の抽象化レベルが説明される。 概念実証として、心電図(ECG)領域の総合的な知識ベースが提供され、心電図解析のツールとして直接使用できる。 このツールは、心拍分類や心房細動の検出など、いくつかの注目すべき問題で有効に検証されている。

This paper presents a software implementation of a general framework for time series interpretation based on abductive reasoning. The software provides a data model and a set of algorithms to make inference to the best explanation of a time series, resulting in a description in multiple abstraction levels of the processes underlying the time series. As a proof of concept, a comprehensive knowledge base for the electrocardiogram (ECG) domain is provided, so it can be used directly as a tool for ECG analysis. This tool has been successfully validated in several noteworthy problems, such as heartbeat classification or atrial fibrillation detection.
翻訳日:2022-12-22 20:44:23 公開日:2020-03-17
# 実用的混合精度ニューラルネットワークのビット幅探索

Efficient Bitwidth Search for Practical Mixed Precision Neural Network ( http://arxiv.org/abs/2003.07577v1 )

ライセンス: Link先を確認
Yuhang Li, Wei Wang, Haoli Bai, Ruihao Gong, Xin Dong, and Fengwei Yu(参考訳) ネットワーク量子化は、ディープニューラルネットワークを圧縮して加速する最も広く使われている方法の1つである。 近年,異なる層からの重みとアクティベーションを異なる精度で定量化し,全体的な性能を向上させる試みが提案されている。 しかし、各層の重みと活性化に最適なビット幅(すなわち精度)を見つけることは困難である。 一方、一般的なハードウェアプラットフォーム上で異なる精度の重み付けとアクティベーションを効率的に行う方法はまだ不明である。 本稿では,この2つの問題を解決するために,まず,異なる量子化ビット幅に対してメタ重みを再利用する効率的なビット幅探索(ebs)アルゴリズムを提案する。 次に,異なる精度の重みとアクティベーションをバイナリ行列に変換し,混合精度畳み込みを効率的かつ実用的なものにする二分分解アルゴリズムを提案する。 CIFAR10とImageNetデータセットの実験結果から、手作りの均一ビット幅と他の混合精度技術よりも精度の高い混合QNNが得られた。

Network quantization has rapidly become one of the most widely used methods to compress and accelerate deep neural networks. Recent efforts propose to quantize weights and activations from different layers with different precision to improve the overall performance. However, it is challenging to find the optimal bitwidth (i.e., precision) for weights and activations of each layer efficiently. Meanwhile, it is yet unclear how to perform convolution for weights and activations of different precision efficiently on generic hardware platforms. To resolve these two issues, in this paper, we first propose an Efficient Bitwidth Search (EBS) algorithm, which reuses the meta weights for different quantization bitwidth and thus the strength for each candidate precision can be optimized directly w.r.t the objective without superfluous copies, reducing both the memory and computational cost significantly. Second, we propose a binary decomposition algorithm that converts weights and activations of different precision into binary matrices to make the mixed precision convolution efficient and practical. Experiment results on CIFAR10 and ImageNet datasets demonstrate our mixed precision QNN outperforms the handcrafted uniform bitwidth counterparts and other mixed precision techniques.
翻訳日:2022-12-22 20:37:48 公開日:2020-03-17
# ラベルと特徴協調による部分的マルチラベル学習

Partial Multi-label Learning with Label and Feature Collaboration ( http://arxiv.org/abs/2003.07578v1 )

ライセンス: Link先を確認
Tingting Yu, Guoxian Yu, Jun Wang, Maozu Guo(参考訳) 部分的マルチラベル学習(PML)は、各トレーニングインスタンスが候補ラベルのセットで注釈付けされているシナリオをモデル化する。 PML問題は実世界のシナリオでは実用的であり、正確なラベル付きサンプルを得るのは難しい。 いくつかのPMLソリューションは、候補ラベルに隠された無関係なラベルによって引き起こされる問題と戦うために提案されているが、一般に、特徴空間における滑らかさの仮定やラベル空間における低ランクの仮定に焦点を合わせ、特徴とラベル間の負の情報を無視している。 特に、2つのインスタンスが、特徴の類似性に関係なく、候補ラベルとほとんど重複している場合、それらの基底ラベルは類似するべきである。 PMLデータに対する信頼性の高い予測器を実現するために,PML-LFC (Partial Multi-label Learning with Label and Feature Collaboration) と呼ばれる新しい手法を提案する。 PML-LFCは、ラベルと特徴空間の両方の類似性を用いて、各インスタンスの関連ラベルの信頼値を推定し、推定された信頼値で所望の予測器を訓練する。 PML-LFCは、相互強化方法で予測子と潜在ラベル行列を統一モデルで達成し、それらを最適化するための代替最適化手順を開発する。 合成と実世界の両方のデータセットに関する大規模な実証研究は、PML-LFCの優位性を示している。

Partial multi-label learning (PML) models the scenario where each training instance is annotated with a set of candidate labels, and only some of the labels are relevant. The PML problem is practical in real-world scenarios, as it is difficult and even impossible to obtain precisely labeled samples. Several PML solutions have been proposed to combat with the prone misled by the irrelevant labels concealed in the candidate labels, but they generally focus on the smoothness assumption in feature space or low-rank assumption in label space, while ignore the negative information between features and labels. Specifically, if two instances have largely overlapped candidate labels, irrespective of their feature similarity, their ground-truth labels should be similar; while if they are dissimilar in the feature and candidate label space, their ground-truth labels should be dissimilar with each other. To achieve a credible predictor on PML data, we propose a novel approach called PML-LFC (Partial Multi-label Learning with Label and Feature Collaboration). PML-LFC estimates the confidence values of relevant labels for each instance using the similarity from both the label and feature spaces, and trains the desired predictor with the estimated confidence values. PML-LFC achieves the predictor and the latent label matrix in a reciprocal reinforce manner by a unified model, and develops an alternative optimization procedure to optimize them. Extensive empirical study on both synthetic and real-world datasets demonstrates the superiority of PML-LFC.
翻訳日:2022-12-22 20:37:27 公開日:2020-03-17
# 仮想スクリーニングのためのグラフニューラルネットワークの予測信頼性に関する総合的研究

A comprehensive study on the prediction reliability of graph neural networks for virtual screening ( http://arxiv.org/abs/2003.07611v1 )

ライセンス: Link先を確認
Soojung Yang, Kyung Hoon Lee, and Seongok Ryu(参考訳) ディープニューラルネットワークに基づく予測モデルは、高速で正確な仮想スクリーニングシステムで注目を集めている。 仮想スクリーニングにおける意思決定では、より望ましい化合物をフィルタリングできるため、分類システムの出力を確率として解釈することが有用である。 しかし、過剰パラメータ問題や不適切な正規化を持つモデルでは確率論的解釈は正しくなく、信頼できない予測と意思決定に繋がる。 本稿では,分子特性に対するニューラル予測モデルの信頼性,特にスパースデータポイントと不均衡分布を訓練する場合に懸念する。 本研究は,信頼度の高いモデルの訓練ガイドラインの提案を目的として,以下の列車原理に関する方法論的詳細とアブレーション研究を行う。 モデルアーキテクチャ,正規化手法,損失関数が予測性能および分類結果の信頼性に及ぼす影響について検討した。 さらに,仮想スクリーニングシナリオにおけるモデルの予測信頼性を評価する。 この結果から,データ不均衡な状況において高い成功率を達成するためには,正則化と推論手法の正しい選択が重要であることが明らかになった。 全ての実験は、モデルトレーニングにおける外部ランダム性を緩和し、結果の正確な比較を可能にするため、単一の統一モデル実装の下で実施された。

Prediction models based on deep neural networks are increasingly gaining attention for fast and accurate virtual screening systems. For decision makings in virtual screening, researchers find it useful to interpret an output of classification system as probability, since such interpretation allows them to filter out more desirable compounds. However, probabilistic interpretation cannot be correct for models that hold over-parameterization problems or inappropriate regularizations, leading to unreliable prediction and decision making. In this regard, we concern the reliability of neural prediction models on molecular properties, especially when models are trained with sparse data points and imbalanced distributions. This work aims to propose guidelines for training reliable models, we thus provide methodological details and ablation studies on the following train principles. We investigate the effects of model architectures, regularization methods, and loss functions on the prediction performance and reliability of classification results. Moreover, we evaluate prediction reliability of models on virtual screening scenario. Our result highlights that correct choice of regularization and inference methods is evidently important to achieve high success rate, especially in data imbalanced situation. All experiments were performed under a single unified model implementation to alleviate external randomness in model training and to enable precise comparison of results.
翻訳日:2022-12-22 20:37:00 公開日:2020-03-17
# 非パラメトリックデコンボリューションモデル

Nonparametric Deconvolution Models ( http://arxiv.org/abs/2003.07718v1 )

ライセンス: Link先を確認
Allison J.B. Chaney, Archit Verma, Young-suk Lee, Barbara E. Engelhardt(参考訳) 非パラメトリックデコンボリューションモデル (nonparametric deconvolution model, ndms) とは、不均一粒子の特徴よりも各観測値が平均となるデータの集合に対するベイズ型非パラメトリックモデルである。 例えば、これらの種類のデータは、選挙中に見出され、各投票者が特定の投票者コホートまたは人口統計(要素)の一部である各候補者または投票手段(特徴)にまたがって、個々の市民の投票の地区レベルの投票集計(観察)を観察する。 階層的ディリクレ法と同様に、NDMは2段階のディリクレ法を用いて、データを未知の潜在因子で説明し、各観測はこれらの潜伏因子の重み付け平均としてモデル化される。 既存のモデルとは異なり、ndmは観測ごとに因子分布が局所的にどのように変化するかを回復する。 これにより、NDMはそれぞれの観測をその構成因子に分解し、それぞれの観測に特有の因子分布がどのように異なるかを説明し、対応する大域的要因から逸脱する。 本稿では,このモデル群に対する変分推論手法を提案し,その性能をシミュレーションデータとカリフォルニア州の投票データを用いて検討する。 ローカルな要因を含むことで,グローバルな要因の推定が向上し,データ探索のための新たな足場が提供される。

We describe nonparametric deconvolution models (NDMs), a family of Bayesian nonparametric models for collections of data in which each observation is the average over the features from heterogeneous particles. For example, these types of data are found in elections, where we observe precinct-level vote tallies (observations) of individual citizens' votes (particles) across each of the candidates or ballot measures (features), where each voter is part of a specific voter cohort or demographic (factor). Like the hierarchical Dirichlet process, NDMs rely on two tiers of Dirichlet processes to explain the data with an unknown number of latent factors; each observation is modeled as a weighted average of these latent factors. Unlike existing models, NDMs recover how factor distributions vary locally for each observation. This uniquely allows NDMs both to deconvolve each observation into its constituent factors, and also to describe how the factor distributions specific to each observation vary across observations and deviate from the corresponding global factors. We present variational inference techniques for this family of models and study its performance on simulated data and voting data from California. We show that including local factors improves estimates of global factors and provides a novel scaffold for exploring data.
翻訳日:2022-12-22 20:36:26 公開日:2020-03-17
# 変分オートエンコーダの異常グローバル最適化の特性と回避

Characterizing and Avoiding Problematic Global Optima of Variational Autoencoders ( http://arxiv.org/abs/2003.07756v1 )

ライセンス: Link先を確認
Yaniv Yacoby, Weiwei Pan, Finale Doshi-Velez(参考訳) 変分自己エンコーダ (VAEs) は2つの成分からなる深部生成潜在変数モデルである: 分布 p(z) を潜時空間に変換してデータ分布 p(x) を捕捉する生成モデルと、各データ点について潜在的潜時符号を推測する推論モデル(Kingma and Welling, 2013)。 1) 学習された生成モデルは観測されたデータ分布をキャプチャするが、潜在コードを無視してそれを処理し、結果としてデータを表現しないコード(例えば、van den oord et al. (2017), kim et al. (2018)); (2) 学習された潜在コードの集合は、以前のp(z)と一致しない。 このミスマッチは、学習された生成モデルがp(z)からのサンプル(例えばmakhzani et al. (2015), tomczak and welling (2017))で現実的なデータを生成することができないことを意味する。 本稿では,vae訓練目標のグローバルオプティマがしばしば望ましくない解に対応しているという事実から,両者の問題点が浮き彫りになることを示す。 我々の分析は、(1) 生成モデルが識別不能である、(2) 生成モデルが存在する、それぞれが異なる(そして潜在的に望ましくない)性質を持つ、そして(2) VAE の目的のバイアスは、データを説明するのが不適切なが、容易に近似できる後部を持つ、生成モデルを好む、という2つの結果に基づいている。 そこで本研究では,新しい推論法であるlibiを提案する。 合成データセットでは,従来の手法では困難であった場合のモデリング仮定をよりよく満足するデータ分布と推論モデルを取得する生成モデルが学習可能であることを示す。

Variational Auto-encoders (VAEs) are deep generative latent variable models consisting of two components: a generative model that captures a data distribution p(x) by transforming a distribution p(z) over latent space, and an inference model that infers likely latent codes for each data point (Kingma and Welling, 2013). Recent work shows that traditional training methods tend to yield solutions that violate modeling desiderata: (1) the learned generative model captures the observed data distribution but does so while ignoring the latent codes, resulting in codes that do not represent the data (e.g. van den Oord et al. (2017); Kim et al. (2018)); (2) the aggregate of the learned latent codes does not match the prior p(z). This mismatch means that the learned generative model will be unable to generate realistic data with samples from p(z)(e.g. Makhzani et al. (2015); Tomczak and Welling (2017)). In this paper, we demonstrate that both issues stem from the fact that the global optima of the VAE training objective often correspond to undesirable solutions. Our analysis builds on two observations: (1) the generative model is unidentifiable - there exist many generative models that explain the data equally well, each with different (and potentially unwanted) properties and (2) bias in the VAE objective - the VAE objective may prefer generative models that explain the data poorly but have posteriors that are easy to approximate. We present a novel inference method, LiBI, mitigating the problems identified in our analysis. On synthetic datasets, we show that LiBI can learn generative models that capture the data distribution and inference models that better satisfy modeling assumptions when traditional methods struggle to do so.
翻訳日:2022-12-22 20:36:04 公開日:2020-03-17
# 3次元骨格に基づく人の動き予測のための動的マルチスケールグラフニューラルネットワーク

Dynamic Multiscale Graph Neural Networks for 3D Skeleton-Based Human Motion Prediction ( http://arxiv.org/abs/2003.08802v1 )

ライセンス: Link先を確認
Maosen Li, Siheng Chen, Yangheng Zhao, Ya Zhang, Yanfeng Wang, Qi Tian(参考訳) 本研究では3次元骨格に基づく人体動作を予測するために,新しい動的マルチスケールグラフニューラルネットワーク(DMGNN)を提案する。 DMGNNの中核となる考え方は、運動特徴学習のための人体の内部関係を包括的にモデル化するために、マルチスケールグラフを使用することである。 この多スケールグラフは、トレーニング中に適応し、ネットワーク層をまたいで動的である。 このグラフに基づいて,個々のスケールの特徴を抽出し,スケールにまたがる特徴を融合する多スケールグラフ計算ユニット(mgcu)を提案する。 モデル全体がアクションカテゴリに依存しず、エンコーダ/デコーダフレームワークに従う。 エンコーダは動きの特徴を学習するための一連のMGCUから構成される。 デコーダは、グラフベースのゲートリカレントユニットを使用して将来のポーズを生成する。 大規模な実験により、提案されたDMGNNはHuman 3.6MとCMU Mocapのデータセットの短期的および長期的予測において最先端の手法よりも優れていた。 さらに,解析可能なマルチスケールグラフについても検討する。 コードはhttps://github.com/limaosen0/DMGNNからダウンロードできる。

We propose novel dynamic multiscale graph neural networks (DMGNN) to predict 3D skeleton-based human motions. The core idea of DMGNN is to use a multiscale graph to comprehensively model the internal relations of a human body for motion feature learning. This multiscale graph is adaptive during training and dynamic across network layers. Based on this graph, we propose a multiscale graph computational unit (MGCU) to extract features at individual scales and fuse features across scales. The entire model is action-category-agnostic and follows an encoder-decoder framework. The encoder consists of a sequence of MGCUs to learn motion features. The decoder uses a proposed graph-based gate recurrent unit to generate future poses. Extensive experiments show that the proposed DMGNN outperforms state-of-the-art methods in both short and long-term predictions on the datasets of Human 3.6M and CMU Mocap. We further investigate the learned multiscale graphs for the interpretability. The codes could be downloaded from https://github.com/limaosen0/DMGNN.
翻訳日:2022-12-22 20:29:17 公開日:2020-03-17
# 深達度検出に基づく乳癌組織像の組織学的解析

Deep Object Detection based Mitosis Analysis in Breast Cancer Histopathological Images ( http://arxiv.org/abs/2003.08803v1 )

ライセンス: Link先を確認
Anabia Sohail, Muhammad Ahsan Mukhtar, Asifullah Khan, Muhammad Mohsin Zafar, Aneela Zameer, Saranjam Khan(参考訳) 子宮内膜核検出のための乳腺組織生検の実験的評価は,腫瘍グレーディングや癌進行において重要な予後指標であると考えられる。 しかし、自動ミオティック核検出は、ピクセルレベルのアノテーションが利用できないこと、ミオティック核の異なる形態構成、そのスパース表現、非ミオティック核との密接な類似性など、いくつかの問題を引き起こす。 これらの課題は、自動検出モデルの精度を損なうため、単一フェーズでの検出が困難になる。 本研究は乳癌組織像におけるミトコンドリア核同定のためのエンドツーエンド検出システムを提案する。 ディープオブジェクト検出に基づくMask R-CNNは、最初は最大リコールで候補ミトティック領域を選択するミトティック核検出に適応する。 しかし、第2段階では、これらの候補領域は、精度を向上させるために多目的損失関数によって洗練される。 提案モデルの性能は, TUPAC16データセット上の2段階検出モデル(Fスコア0.701)と比較して, 有意な精度(0.86)を有する有糸分裂核の識別能力の向上(Fスコア0.86)を示す。 有望な結果は、深部物体検出に基づくモデルが弱い注釈データから分裂核の特徴を学習する可能性を示唆し、病理組織学的画像における他の核体の同定に適応できることを示唆している。

Empirical evaluation of breast tissue biopsies for mitotic nuclei detection is considered an important prognostic biomarker in tumor grading and cancer progression. However, automated mitotic nuclei detection poses several challenges because of the unavailability of pixel-level annotations, different morphological configurations of mitotic nuclei, their sparse representation, and close resemblance with non-mitotic nuclei. These challenges undermine the precision of the automated detection model and thus make detection difficult in a single phase. This work proposes an end-to-end detection system for mitotic nuclei identification in breast cancer histopathological images. Deep object detection-based Mask R-CNN is adapted for mitotic nuclei detection that initially selects the candidate mitotic region with maximum recall. However, in the second phase, these candidate regions are refined by multi-object loss function to improve the precision. The performance of the proposed detection model shows improved discrimination ability (F-score of 0.86) for mitotic nuclei with significant precision (0.86) as compared to the two-stage detection models (F-score of 0.701) on TUPAC16 dataset. Promising results suggest that the deep object detection-based model has the potential to learn the characteristic features of mitotic nuclei from weakly annotated data and suggests that it can be adapted for the identification of other nuclear bodies in histopathological images.
翻訳日:2022-12-22 20:29:02 公開日:2020-03-17
# セルフアテンションを用いたウェアラブルセンサデータからのヒューマンアクティビティ認識

Human Activity Recognition from Wearable Sensor Data Using Self-Attention ( http://arxiv.org/abs/2003.09018v1 )

ライセンス: Link先を確認
Saif Mahmud, M Tanjid Hasan Tonmoy, Kishor Kumar Bhaumik, A K M Mahbubur Rahman, M Ashraful Amin, Mohammad Shoyaib, Muhammad Asif Hossain Khan, Amin Ahsan Ali(参考訳) 身振りセンサデータからの人間の活動認識は、時系列信号の空間的および時間的依存関係をキャプチャする上で固有の課題となる。 この点において、活動認識のための既存の再帰的または畳み込み的またはそれらのハイブリッドモデルは、センサ読取シーケンスの特徴空間から時空間を捉えるのに苦労する。 この複雑な問題に対処するために,再帰的アーキテクチャを先導し,異なるタイプの注意機構を用いて,分類に使用される高次元特徴表現を生成する自己注意型ニューラルネットワークモデルを提案する。 我々は,PAMAP2,Opportunity,Skoda,USC-HADの4つの一般的なHARデータセットに対して,広範な実験を行った。 本モデルでは,最近の最先端モデルと比較して,ベンチマーク試験対象者および被検者残量評価において有意な性能改善を達成している。 また,このモデルが生成するセンサアテンションマップは,センサのモダリティと配置の重要性を把握し,異なるアクティビティクラスを予測できることを観察した。

Human Activity Recognition from body-worn sensor data poses an inherent challenge in capturing spatial and temporal dependencies of time-series signals. In this regard, the existing recurrent or convolutional or their hybrid models for activity recognition struggle to capture spatio-temporal context from the feature space of sensor reading sequence. To address this complex problem, we propose a self-attention based neural network model that foregoes recurrent architectures and utilizes different types of attention mechanisms to generate higher dimensional feature representation used for classification. We performed extensive experiments on four popular publicly available HAR datasets: PAMAP2, Opportunity, Skoda and USC-HAD. Our model achieve significant performance improvement over recent state-of-the-art models in both benchmark test subjects and Leave-one-subject-out evaluation. We also observe that the sensor attention maps produced by our model is able capture the importance of the modality and placement of the sensors in predicting the different activity classes.
翻訳日:2022-12-22 20:28:39 公開日:2020-03-17
# 制御を諦める: 強化学習エージェントとしてのニューロン

Giving Up Control: Neurons as Reinforcement Learning Agents ( http://arxiv.org/abs/2003.11642v1 )

ライセンス: Link先を確認
Jordan Ott(参考訳) 人工知能は歴史的に、専門家が設計した計画、ヒューリスティック、手作りのアプローチに依存してきた。 その間 知性の創造を追求しようと 主張していました このアプローチは、インテリジェンスが複雑なシステム内のダイナミクスから生まれることを認識できない。 脳内のニューロンは局所的な規則によって制御され、単一のニューロンやニューロン群が他のニューロンを調整または制御しない。 この局所的な構造は、知性が出現する適切なダイナミクスをもたらす。 ニューロンの集団は、資源、抑制、活動表現のために隣人と競争しなければならない。 同時に、彼らは協力しなければなりませんので、人口と生物は高いレベルの機能を実行できます。 そこで我々は,モデルニューロンを強化学習エージェントとして導入する。 各ニューロンが独立したアクターと見なされる場合、自己関心を最大化しようとする。 このように学習をフレーミングすることで、インテリジェントなシステムを構築するためのまったく新しいアプローチへの扉を開くのです。

Artificial Intelligence has historically relied on planning, heuristics, and handcrafted approaches designed by experts. All the while claiming to pursue the creation of Intelligence. This approach fails to acknowledge that intelligence emerges from the dynamics within a complex system. Neurons in the brain are governed by local rules, where no single neuron, or group of neurons, coordinates or controls the others. This local structure gives rise to the appropriate dynamics in which intelligence can emerge. Populations of neurons must compete with their neighbors for resources, inhibition, and activity representation. At the same time, they must cooperate, so the population and organism can perform high-level functions. To this end, we introduce modeling neurons as reinforcement learning agents. Where each neuron may be viewed as an independent actor, trying to maximize its own self-interest. By framing learning in this way, we open the door to an entirely new approach to building intelligent systems.
翻訳日:2022-12-22 20:28:24 公開日:2020-03-17
# ニューラルネットワークの検証:プルーニングによるスケーラビリティの向上

Verification of Neural Networks: Enhancing Scalability through Pruning ( http://arxiv.org/abs/2003.07636v1 )

ライセンス: Link先を確認
Dario Guidotti and Francesco Leofante and Luca Pulina and Armando Tacchella(参考訳) ディープニューラルネットワークの検証は、さまざまなドメインの成功事例や、想定されるアプリケーションの安全性とセキュリティに関する懸念から、近年の関心の高まりを目撃している。 このようなネットワークの複雑さと規模は、安全性とセキュリティクリティカルなコンテキストにおけるディープネットワークの採用を緩和する、自動形式検証技術にとって難しい。 本稿では,実利的なニューラルネットワークを扱うための最先端の検証ツールの実現に注目する。 本稿では,ネットワークプルーニングに基づく新たなトレーニングパイプラインを提案し,精度とロバストさのバランスを保ちつつ,結果のネットワークを形式解析に利用できるようにする。 プルーニングアルゴリズムと検証ツールのポートフォリオを用いた実験の結果、我々のアプローチは、我々が検討するネットワークの種類と、プルーニングと検証技術の組み合わせで成功しており、それによって深層ニューラルネットワークが正式な接地した手法の範囲に近づいたことが分かりました。

Verification of deep neural networks has witnessed a recent surge of interest, fueled by success stories in diverse domains and by abreast concerns about safety and security in envisaged applications. Complexity and sheer size of such networks are challenging for automated formal verification techniques which, on the other hand, could ease the adoption of deep networks in safety- and security-critical contexts. In this paper we focus on enabling state-of-the-art verification tools to deal with neural networks of some practical interest. We propose a new training pipeline based on network pruning with the goal of striking a balance between maintaining accuracy and robustness while making the resulting networks amenable to formal analysis. The results of our experiments with a portfolio of pruning algorithms and verification tools show that our approach is successful for the kind of networks we consider and for some combinations of pruning and verification techniques, thus bringing deep neural networks closer to the reach of formally-grounded methods.
翻訳日:2022-12-22 20:27:52 公開日:2020-03-17
# タスク非依存型スパイキング中央パターン生成器:学習に基づくアプローチ

Task-Independent Spiking Central Pattern Generator: A Learning-Based Approach ( http://arxiv.org/abs/2003.07477v1 )

ライセンス: Link先を確認
Elie Aljalbout and Florian Walter and Florian R\"ohrbein and Alois Knoll(参考訳) Legged locomotionは、ロボット工学の分野では難しい課題だが、本質的には比較的単純な作業だ。 これは生物学的手法をこの問題の解決策として使う動機となっている。 中央パターン生成装置は、ヒトおよび一部の動物種における移動に責任があると考えられるニューラルネットワークである。 ロボット工学については、そのようなシステムを再現し、同様の目的のために使用するための多くの試みがなされた。 興味深い設計モデルは、スパイクニューラルネットワークに基づいている。 このモデルは、工学に限らず、神経科学にも応用できるため、この研究の主要な焦点となっている。 本稿では,タスクに依存しず,生物学的に実現可能であり,学習方法に依存する中央パターン生成器を構築するための新しい汎用フレームワークを提案する。 提案手法の能力と特性は, シミュレーションだけでなく, ロボット実験においても評価される。 使用済みのロボットは、異なる速度で安定した歩行を行い、同じ歩行サイクルで速度を変えることができたため、非常に有望だ。

Legged locomotion is a challenging task in the field of robotics but a rather simple one in nature. This motivates the use of biological methodologies as solutions to this problem. Central pattern generators are neural networks that are thought to be responsible for locomotion in humans and some animal species. As for robotics, many attempts were made to reproduce such systems and use them for a similar goal. One interesting design model is based on spiking neural networks. This model is the main focus of this work, as its contribution is not limited to engineering but also applicable to neuroscience. This paper introduces a new general framework for building central pattern generators that are task-independent, biologically plausible, and rely on learning methods. The abilities and properties of the presented approach are not only evaluated in simulation but also in a robotic experiment. The results are very promising as the used robot was able to perform stable walking at different speeds and to change speed within the same gait cycle.
翻訳日:2022-12-22 20:20:21 公開日:2020-03-17
# Heat and Blur: 敵の事例に対する効果的かつ迅速な防御

Heat and Blur: An Effective and Fast Defense Against Adversarial Examples ( http://arxiv.org/abs/2003.07573v1 )

ライセンス: Link先を確認
Haya Brama and Tal Grinshpoun(参考訳) ニューラルネットワーク(NN)の多くの分野、特に生命クリティカルなシステムへの取り込みは、敵の例(AE)に対する脆弱性によって抑制されている。 既存の防衛方法はNNの堅牢性を高めることができるが、しばしば特別なアーキテクチャや訓練手順を必要とし、既に訓練されたモデルとは無関係である。 本稿では,特徴の可視化と入力修正を組み合わせた簡易な防御手法を提案する。 複数の解釈可能性法を見直して, aesがnnsの計算に与える影響について新たな知見を得た。 そこで我々は,入力が逆方向であっても,その「真の」物体に関する情報がNNの活動内に保存されていることを仮定し,その情報を関連ヒートマップ形式で抽出できる特徴可視化版を提案する。 次に、これらの熱マップを防衛の基盤として使用し、敵効果が巨大なぼやけによって損なわれる。 また,攻撃と防御の両方の効果をより徹底的かつ記述的に把握し,imagenetデータセットに対するvgg19結果を用いた防御の有効性と提案評価測定の有用性を実証する新たな評価指標を提供する。

The growing incorporation of artificial neural networks (NNs) into many fields, and especially into life-critical systems, is restrained by their vulnerability to adversarial examples (AEs). Some existing defense methods can increase NNs' robustness, but they often require special architecture or training procedures and are irrelevant to already trained models. In this paper, we propose a simple defense that combines feature visualization with input modification, and can, therefore, be applicable to various pre-trained networks. By reviewing several interpretability methods, we gain new insights regarding the influence of AEs on NNs' computation. Based on that, we hypothesize that information about the "true" object is preserved within the NN's activity, even when the input is adversarial, and present a feature visualization version that can extract that information in the form of relevance heatmaps. We then use these heatmaps as a basis for our defense, in which the adversarial effects are corrupted by massive blurring. We also provide a new evaluation metric that can capture the effects of both attacks and defenses more thoroughly and descriptively, and demonstrate the effectiveness of the defense and the utility of the suggested evaluation measurement with VGG19 results on the ImageNet dataset.
翻訳日:2022-12-22 20:19:53 公開日:2020-03-17
# 大きくて、猫が食べた! 有用なディープエージェント言語の提案

Rat big, cat eaten! Ideas for a useful deep-agent protolanguage ( http://arxiv.org/abs/2003.11922v1 )

ライセンス: Link先を確認
Marco Baroni(参考訳) 独自の言語ライクなコミュニケーションプロトコルを開発するディープエージェントコミュニティは、AIのホット(あるいは少なくとも暖かい)トピックである。 このようなエージェントは、人間の言語と同じくらい複雑なプロトコルが進化するずっと前に、機械と機械の相互作用シナリオで非常に有用かもしれない。 ここで、深層エージェントが有用な原語を話す段階にできるだけ早く到達したいのであれば、重点を置くべき小さな優先順位セットを提案します。

Deep-agent communities developing their own language-like communication protocol are a hot (or at least warm) topic in AI. Such agents could be very useful in machine-machine and human-machine interaction scenarios long before they have evolved a protocol as complex as human language. Here, I propose a small set of priorities we should focus on, if we want to get as fast as possible to a stage where deep agents speak a useful protolanguage.
翻訳日:2022-12-22 20:19:33 公開日:2020-03-17
# Author2Vec: ユーザ埋め込みを生成するフレームワーク

Author2Vec: A Framework for Generating User Embedding ( http://arxiv.org/abs/2003.11627v1 )

ライセンス: Link先を確認
Xiaodong Wu, Weizhe Lin, Zhilin Wang, and Elena Rastorgueva(参考訳) オンラインフォーラムやソーシャルメディアプラットフォームは、毎日うるさいが価値のあるデータを提供している。 本稿では,ニューラルネットワークを用いた新しいユーザ埋め込みシステム Author2Vec を提案する。 このモデルはBERT(Bidirectional Encoder Representations from Transformers)によって生成された文表現と、教師なし事前学習対象であるオーサシップ分類を取り入れ、有用なユーザ固有のプロパティをエンコードするより良いユーザ埋め込みを生成する。 このユーザ埋め込みシステムは,10kのRedditユーザのポストデータに基づいて事前学習され,抑うつ検出とパーソナリティ分類という2つのユーザ分類ベンチマークで分析・評価された。 我々は, author2Vec が有用なユーザ属性を符号化し, 生成したユーザ埋め込みが, さらなる微調整を伴わずに下流分類タスクにおいて良好に動作することを示す。

Online forums and social media platforms provide noisy but valuable data every day. In this paper, we propose a novel end-to-end neural network-based user embedding system, Author2Vec. The model incorporates sentence representations generated by BERT (Bidirectional Encoder Representations from Transformers) with a novel unsupervised pre-training objective, authorship classification, to produce better user embedding that encodes useful user-intrinsic properties. This user embedding system was pre-trained on post data of 10k Reddit users and was analyzed and evaluated on two user classification benchmarks: depression detection and personality classification, in which the model proved to outperform traditional count-based and prediction-based methods. We substantiate that Author2Vec successfully encoded useful user attributes and the generated user embedding performs well in downstream classification tasks without further finetuning.
翻訳日:2022-12-22 20:19:25 公開日:2020-03-17
# MR再構成のための深部ニューラルネットワークの表現性向上のための幾何学的アプローチ

Geometric Approaches to Increase the Expressivity of Deep Neural Networks for MR Reconstruction ( http://arxiv.org/abs/2003.07740v1 )

ライセンス: Link先を確認
Eunju Cha, Gyutaek Oh, Jong Chul Ye(参考訳) 近年,加速磁気共鳴画像(MRI)取得による画像再構成のために,ディープラーニング手法が広く研究されている。 これらの手法は, 圧縮センシングMRI (CS-MRI) と比較して大きな性能向上をもたらすが, ネットワーク複雑性と性能のトレードオフのバランスをとるために, 適切なネットワークアーキテクチャを選択するかは明らかになっていない。 近年、エンコーダ・デコーダ畳み込みニューラルネットワーク(cnn)は、与えられた入力画像に対するreluアクティベーションパターンによって特定表現が決定される分割線形基底的表現として解釈できることが示された。 これにより、表現性または表現力は分割線形領域の数によって決定される。 この幾何学的理解の延長として,本論文では,アテンションモジュールを用いたブートストラップとサブネットワークアグリゲーションを用いた体系的幾何学的アプローチを提案する。 本手法は, エンドツーエンドで訓練可能なk空間領域と画像領域の両方で実装することができる。 実験の結果, 提案手法は複雑度が向上し, 復元性能が著しく向上することがわかった。

Recently, deep learning approaches have been extensively investigated to reconstruct images from accelerated magnetic resonance image (MRI) acquisition. Although these approaches provide significant performance gain compared to compressed sensing MRI (CS-MRI), it is not clear how to choose a suitable network architecture to balance the trade-off between network complexity and performance. Recently, it was shown that an encoder-decoder convolutional neural network (CNN) can be interpreted as a piecewise linear basis-like representation, whose specific representation is determined by the ReLU activation patterns for a given input image. Thus, the expressivity or the representation power is determined by the number of piecewise linear regions. As an extension of this geometric understanding, this paper proposes a systematic geometric approach using bootstrapping and subnetwork aggregation using an attention module to increase the expressivity of the underlying neural network. Our method can be implemented in both k-space domain and image domain that can be trained in an end-to-end manner. Experimental results show that the proposed schemes significantly improve reconstruction performance with negligible complexity increases.
翻訳日:2022-12-22 20:18:54 公開日:2020-03-17
# リモートセンシング物体検出のための深層能動学習

Deep Active Learning for Remote Sensing Object Detection ( http://arxiv.org/abs/2003.08793v1 )

ライセンス: Link先を確認
Zhenshen Qu, Jingda Du, Yong Cao, Qiuyu Guan and Pengbo Zhao(参考訳) 近年、cnnオブジェクト検出器はリモートセンシング画像において高い精度を達成しているが、アノテーションに多大な労力と時間を要する。 本稿では,アノテーションや検出のためのより多くの情報を持つ画像を選択できる不確実性に基づく能動学習を提案する。 本手法は,物体の分類の不確かさを分析し,不確かさを判定するだけでなく,不確かさを判定する。 さらに、リモートセンシングデータセットの2つの困難を克服するために、2つの余分な重み、すなわち、画像のオブジェクト量のクラス不均衡と差をもたらす。 我々は,centernetをオブジェクト検出器としてdotaデータセット上でアクティブラーニングアルゴリズムを実験する。 半画像のみによる全監督と同じレベルのパフォーマンスを実現する。 55%のイメージと、信頼性の低いイメージに対する重み付けで、完全な監督をオーバーライドしています。

Recently, CNN object detectors have achieved high accuracy on remote sensing images but require huge labor and time costs on annotation. In this paper, we propose a new uncertainty-based active learning which can select images with more information for annotation and detector can still reach high performance with a fraction of the training images. Our method not only analyzes objects' classification uncertainty to find least confident objects but also considers their regression uncertainty to declare outliers. Besides, we bring out two extra weights to overcome two difficulties in remote sensing datasets, class-imbalance and difference in images' objects amount. We experiment our active learning algorithm on DOTA dataset with CenterNet as object detector. We achieve same-level performance as full supervision with only half images. We even override full supervision with 55% images and augmented weights on least confident images.
翻訳日:2022-12-22 20:17:57 公開日:2020-03-17