このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210514となっている論文です。

PDF登録状況(公開日: 20210514)

TitleAuthorsAbstract論文公表日・翻訳日
# X線画像からのリアルタイムCOVID19診断のためのハイブリッドシンコサインとエクストリーム学習マシンによる深部畳み込みニューラルネットワークの進化

Evolving Deep Convolutional Neural Network by Hybrid Sine-Cosine and Extreme Learning Machine for Real-time COVID19 Diagnosis from X-Ray Images ( http://arxiv.org/abs/2105.14192v1 )

ライセンス: Link先を確認
Wu Chao, Mohammad Khishe, Mokhtar Mohammadi, Sarkhel H. Taher Karim, Tarik A. Rashid(参考訳) 世界的なcovid-19パンデミックは、多くのコミュニティの生活と健康に大きな影響を与えている。 感染した患者の早期発見は、COVID19と戦うのに有効である。 放射線画像(X線画像)は、おそらく患者を診断する最速の方法である。 これにより、深層畳み込みニューラルネットワーク(cnns)は、covid-19陽性症例の診断に応用できると考えられる。 深層CNNの複雑なアーキテクチャのため、リアルタイムのトレーニングとテストは難しい問題となっている。 本稿では,最後の完全接続層ではなく,ELM(Extreme Learning Machine)を用いることを提案する。 しかし、EMMの教師付きセクションのパラメータの確率的チューニングは最終的なモデルの信頼性を損なう。 したがって、この問題に対処し、ネットワーク信頼性を維持するために、sine-cosineアルゴリズムを用いてelmのパラメータをチューニングした。 設計されたネットワークはcovid-19-xray-5kデータセット上でベンチマークされ、結果はcanonical deep cnn、cuckoo searchにより最適化されたelm、genetic algorithmによって最適化されたelm、h whale optimizationアルゴリズムによって最適化されたelmによって検証される。 提案手法は、COVID-Xray-5kデータセットで98.83%の最終的な精度で比較ベンチマークを上回り、正準深度CNNと比較して相対誤差が2.33%減少した。 さらに重要なのは、ネットワークのトレーニング時間は0.0421ミリ秒であり、3100画像の全体的な検出テスト時間は2.721秒である。

The COVID19 pandemic globally and significantly has affected the life and health of many communities. The early detection of infected patients is effective in fighting COVID19. Using radiology (X-Ray) images is perhaps the fastest way to diagnose the patients. Thereby, deep Convolutional Neural Networks (CNNs) can be considered as applicable tools to diagnose COVID19 positive cases. Due to the complicated architecture of a deep CNN, its real-time training and testing become a challenging problem. This paper proposes using the Extreme Learning Machine (ELM) instead of the last fully connected layer to address this deficiency. However, the parameters' stochastic tuning of ELM's supervised section causes the final model unreliability. Therefore, to cope with this problem and maintain network reliability, the sine-cosine algorithm was utilized to tune the ELM's parameters. The designed network is then benchmarked on the COVID-Xray-5k dataset, and the results are verified by a comparative study with canonical deep CNN, ELM optimized by cuckoo search, ELM optimized by genetic algorithm, and ELM optimized by whale optimization algorithm. The proposed approach outperforms comparative benchmarks with a final accuracy of 98.83% on the COVID-Xray-5k dataset, leading to a relative error reduction of 2.33% compared to a canonical deep CNN. Even more critical, the designed network's training time is only 0.9421 milliseconds and the overall detection test time for 3100 images is 2.721 seconds.
翻訳日:2021-06-06 08:50:50 公開日:2021-05-14
# unleashing the tiger: 分割学習に対する推論攻撃

Unleashing the Tiger: Inference Attacks on Split Learning ( http://arxiv.org/abs/2012.02670v3 )

ライセンス: Link先を確認
Dario Pasquini, Giuseppe Ateniese and Massimo Bernaschi(参考訳) リソース消費を最小限に抑えてピークパフォーマンスを実現する新しい機械学習フレームワークであるSplit Learningのセキュリティについて検討する。 本稿では,クライアントのプライベートトレーニングセットの再構築を目的とした汎用攻撃戦略を導入することで,プロトコルの脆弱性を明らかにし,その固有のセキュリティを実証する。 より顕著に、悪意のあるサーバは分散モデルの学習プロセスを積極的にハイジャックし、クライアントのデータに対する推論攻撃を可能にする安全でない状態にすることができる。 攻撃の異なる適応を実装し、さまざまなデータセットでテストし、現実的な脅威シナリオ内でテストします。 我々の攻撃は、分割学習プロトコルのセキュリティ向上を目的とした、最近提案された防御手法を克服できることを示す。 最後に,前回考案したフェデレーション学習への攻撃を拡張することで,悪意のあるクライアントに対するプロトコルの不セキュリティを説明している。 結果を再現できるように、私たちはhttps://github.com/p asquini-dario/SplitN N_FSHA.comでコードを公開しました。

We investigate the security of Split Learning -- a novel collaborative machine learning framework that enables peak performance by requiring minimal resources consumption. In the present paper, we expose vulnerabilities of the protocol and demonstrate its inherent insecurity by introducing general attack strategies targeting the reconstruction of clients' private training sets. More prominently, we show that a malicious server can actively hijack the learning process of the distributed model and bring it into an insecure state that enables inference attacks on clients' data. We implement different adaptations of the attack and test them on various datasets as well as within realistic threat scenarios. We demonstrate that our attack is able to overcome recently proposed defensive techniques aimed at enhancing the security of the split learning protocol. Finally, we also illustrate the protocol's insecurity against malicious clients by extending previously devised attacks for Federated Learning. To make our results reproducible, we made our code available at https://github.com/p asquini-dario/SplitN N_FSHA.
翻訳日:2021-05-22 20:32:34 公開日:2021-05-14
# (参考訳) 深層学習を用いた画像キャプション生成の実証分析 [全文訳有]

Empirical Analysis of Image Caption Generation using Deep Learning ( http://arxiv.org/abs/2105.09906v1 )

ライセンス: CC BY 4.0
Aditya Bhattacharya, Eshwar Shamanna Girishekar, Padmakar Anil Deshpande(参考訳) 自動キャプションは、コンピュータビジョンと自然言語処理による作業の融合を含むディープラーニングの応用の1つであり、典型的にはエンコーダ-デコーダアーキテクチャを用いて実行される。 本稿では,ResNet101,DenseNet1 21,VGG19をベースとしたCNNエンコーダと,アテンションをベースとしたLSTMデコーダを探索するマルチモーダル画像キャプションネットワークの実装と実験を行った。 我々は,ビームサイズと事前学習語埋め込みの効果について検討し,ベースラインCNNエンコーダやRNNデコーダアーキテクチャと比較した。 目標は、BLEU、CIDEr、ROUGE、METEORなど、さまざまな評価指標を用いて、各アプローチのパフォーマンスを分析することである。 また,視覚注意マップ(vam)を用いて,生成キャプションの各単語の予測に最大寄与のある画像の一部をハイライトするモデル説明可能性についても検討した。

Automated image captioning is one of the applications of Deep Learning which involves fusion of work done in computer vision and natural language processing, and it is typically performed using Encoder-Decoder architectures. In this project, we have implemented and experimented with various flavors of multi-modal image captioning networks where ResNet101, DenseNet121 and VGG19 based CNN Encoders and Attention based LSTM Decoders were explored. We have studied the effect of beam size and the use of pretrained word embeddings and compared them to baseline CNN encoder and RNN decoder architecture. The goal is to analyze the performance of each approach using various evaluation metrics including BLEU, CIDEr, ROUGE and METEOR. We have also explored model explainability using Visual Attention Maps (VAM) to highlight parts of the images which has maximum contribution for predicting each word of the generated caption.
翻訳日:2021-05-22 02:06:00 公開日:2021-05-14
# 時間間隔解析と専門知識に基づく順序図を用いた強化量子質量関数

Fortified quantum mass function utilizing ordinal pictorial check based on time interval analysis and expertise ( http://arxiv.org/abs/2105.08781v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 情報管理は、全く新しい時代、量子時代に入った。 しかし、真に有用な量子情報を抽出し、直感的で意思決定が容易な形式に移すのに十分な理論が欠けている。 したがって、質量関数の量子モデルに基づいて、得られた判定が十分高い精度を維持するために、要塞化された二重チェックシステムを提案する。 また、実生活の状況を考慮すると、すべては観測可能な時間間隔で行われ、その後、時間間隔の概念がチェックシステムのフレームに導入される。 提案手法は,不確実な量子情報の処理に非常に有用である。 また,提案手法の合理性と正当性を検証するための応用も提案されている。

Information management has enter a completely new era, quantum era. However, there exists a lack of sufficient theory to extract truly useful quantum information and transfer it to a form which is intuitive and straightforward for decision making. Therefore, based on the quantum model of mass function, a fortified dual check system is proposed to ensure the judgment generated retains enough high accuracy. Moreover, considering the situations in real life, everything takes place in an observable time interval, then the concept of time interval is introduced into the frame of the check system. The proposed model is very helpful in disposing uncertain quantum information in this paper. And some applications are provided to verify the rationality and correctness of the proposed method.
翻訳日:2021-05-20 18:30:53 公開日:2021-05-14
# 長期文書から可変深度論理文書階層を抽出する:方法,評価,応用

Extracting Variable-Depth Logical Document Hierarchy from Long Documents: Method, Evaluation, and Application ( http://arxiv.org/abs/2105.09297v1 )

ライセンス: Link先を確認
Rongyu Cao and Yixuan Cao and Ganbin Zhou and Ping Luo(参考訳) 本稿では,長文から可変深度「論理文書階層」を抽出する問題,すなわち,認識された「物理文書オブジェクト」を階層構造に整理する問題について検討する。 論理文書階層の発見は多くの下流アプリケーションをサポートするための重要なステップである。 しかし、数百から数千ページのページと可変深度階層を含む長いドキュメントは、既存の手法に挑戦する。 これらの課題に対処するため,Hyerarchy extract from Long Document (HELD) というフレームワークを開発し,各物理オブジェクトを現在のツリーの適切な位置に「逐次」挿入する。 各可能な位置が正しいか否かを決定することは二項分類問題として定式化することができる。 提案手法の有効性と効率性をさらに向上するため,挿入位置のトラバース順序,明示的にあるいは暗黙的に抽出する方向,先行ステップでの挿入誤りに対する耐性などを含むHELDの設計変異について検討した。 中国語、英語の金融市場、英語の科学出版物からの数千の長い文書に基づく実証実験では、中国金融、英語の金融、arxivのデータセットにおいて、有効性と効率のトレードオフを達成するには「ルート・トゥ・リーフ」のトラバース順序と明示的な見出し抽出が最適であることが示された。 最後に,論理文書階層を用いて下流通路検索タスクの性能を大幅に向上できることを示す。 まとめると、我々はこの課題を手法、評価、応用の観点から体系的に研究する。

In this paper, we study the problem of extracting variable-depth "logical document hierarchy" from long documents, namely organizing the recognized "physical document objects" into hierarchical structures. The discovery of logical document hierarchy is the vital step to support many downstream applications. However, long documents, containing hundreds or even thousands of pages and variable-depth hierarchy, challenge the existing methods. To address these challenges, we develop a framework, namely Hierarchy Extraction from Long Document (HELD), where we "sequentially" insert each physical object at the proper on of the current tree. Determining whether each possible position is proper or not can be formulated as a binary classification problem. To further improve its effectiveness and efficiency, we study the design variants in HELD, including traversal orders of the insertion positions, heading extraction explicitly or implicitly, tolerance to insertion errors in predecessor steps, and so on. The empirical experiments based on thousands of long documents from Chinese, English financial market and English scientific publication show that the HELD model with the "root-to-leaf" traversal order and explicit heading extraction is the best choice to achieve the tradeoff between effectiveness and efficiency with the accuracy of 0.9726, 0.7291 and 0.9578 in Chinese financial, English financial and arXiv datasets, respectively. Finally, we show that logical document hierarchy can be employed to significantly improve the performance of the downstream passage retrieval task. In summary, we conduct a systematic study on this task in terms of methods, evaluations, and applications.
翻訳日:2021-05-20 18:30:42 公開日:2021-05-14
# (参考訳) 異種システムのための分割アクティブラーニング [全文訳有]

Partitioned Active Learning for Heterogeneous Systems ( http://arxiv.org/abs/2105.08547v1 )

ライセンス: CC BY 4.0
Cheolhei Lee, Kaiwen Wang, Jianguo Wu, Wenjun Cai, and Xiaowei Yue(参考訳) コスト効率が高く、高精度なサロゲートモデリングは、自動化された産業および工学システムの基盤である。 ガウス過程(GP)に結合したアクティブラーニングは複雑なシステムの要求に欠かせないツールであるが、基礎となるシステムにおける不均一性の存在はモデリングプロセスに悪影響を及ぼす可能性がある。 そこで本研究では,pgp(partmented gp)モデルに基づく分断アクティブラーニング戦略を提案する。 当社の戦略は,pgpモデリングの最も有用な設計ポイントを,体系的に2ステップで求める。 グローバル探索方式は, 最も不確定な設計空間を調査し, アクティブラーニングの探索を加速し, ローカルgpモデルによって引き起こされるアクティブラーニング基準を活用している。 また,能動学習の計算コストを軽減するため,提案手法に大量の候補を組み込むことが可能な数値的な対策も提供する。 提案法を数値シミュレーションに適用し, 費用対効果の高い自動胴体形状制御システム (i) と, トライボコロージョン耐性合金の最適設計システム (ii) にサーロゲートモデルが組み込まれるような不均質性を有する実世界の場合に適用した。 その結果,本手法はベンチマーク手法よりも優れていることがわかった。

Cost-effective and high-precision surrogate modeling is a cornerstone of automated industrial and engineering systems. Active learning coupled with Gaussian process (GP) surrogate modeling is an indispensable tool for demanding and complex systems, while the existence of heterogeneity in underlying systems may adversely affect the modeling process. In order to improve the learning efficiency under the regime, we propose the partitioned active learning strategy established upon partitioned GP (PGP) modeling. Our strategy seeks the most informative design point for PGP modeling systematically in twosteps. The global searching scheme accelerates the exploration aspect of active learning by investigating the most uncertain design space, and the local searching exploits the active learning criterion induced by the local GP model. We also provide numerical remedies to alleviate the computational cost of active learning, thereby allowing the proposed method to incorporate a large amount of candidates. The proposed method is applied to numerical simulation and real world cases endowed with heterogeneities in which surrogate models are constructed to embed in (i) the cost-efficient automatic fuselage shape control system; and (ii) the optimal design system of tribocorrosion-resis tant alloys. The results show that our approach outperforms benchmark methods.
翻訳日:2021-05-20 06:47:22 公開日:2021-05-14
# (参考訳) COVID-19臨床データの分析と解釈のための因果学習フレームワーク [全文訳有]

A causal learning framework for the analysis and interpretation of COVID-19 clinical data ( http://arxiv.org/abs/2105.06998v1 )

ライセンス: CC BY-SA 4.0
Elisa Ferrari, Luna Gargani, Greta Barbieri, Lorenzo Ghiadoni, Francesco Faita, Davide Bacciu(参考訳) 本稿では,ベイズ構造学習(bayesian structure learning, bsl)に基づく臨床データ解析のワークフローを提案する。これは,ノイズやバイアスに頑健な教師なし学習アプローチであり,事前の医学的知識を学習プロセスに組み込むことができ,分析された特徴間の因果関係を示すグラフ形式で説明可能な結果を提供する。 このワークフローは、BSLによる患者の結果の主な原因の特定から、BDT(Binary Decision Tree)に基づいた臨床実践に適したツールの実現に至るまでの多段階のアプローチで構成され、病院入所時に既に利用可能な情報で高リスクの患者を認識する。 特徴量の多いCOVID-19データセットに対する我々のアプローチを評価し、提案フレームワークが結果に共同貢献する多要素プロセスのスキーマ的概要を提供することを示す。 本研究は、現在の新型コロナウイルスの病因の理解によって、これらの計算結果がどのように確認されるかについて論じる。 さらに, 年齢, 慢性閉塞性肺疾患の既往歴, 入院時のpao2/fio2比の3つの特徴から, 対象者の85%の結果を正確に予測できるツールが提案されている。 4つの血液検査(クレアチニン、グルコース、po2、ナトリウム)から追加情報を含めると、予測精度は94.5%に上昇する。

We present a workflow for clinical data analysis that relies on Bayesian Structure Learning (BSL), an unsupervised learning approach, robust to noise and biases, that allows to incorporate prior medical knowledge into the learning process and that provides explainable results in the form of a graph showing the causal connections among the analyzed features. The workflow consists in a multi-step approach that goes from identifying the main causes of patient's outcome through BSL, to the realization of a tool suitable for clinical practice, based on a Binary Decision Tree (BDT), to recognize patients at high-risk with information available already at hospital admission time. We evaluate our approach on a feature-rich COVID-19 dataset, showing that the proposed framework provides a schematic overview of the multi-factorial processes that jointly contribute to the outcome. We discuss how these computational findings are confirmed by current understanding of the COVID-19 pathogenesis. Further, our approach yields to a highly interpretable tool correctly predicting the outcome of 85% of subjects based exclusively on 3 features: age, a previous history of chronic obstructive pulmonary disease and the PaO2/FiO2 ratio at the time of arrival to the hospital. The inclusion of additional information from 4 routine blood tests (Creatinine, Glucose, pO2 and Sodium) increases predictive accuracy to 94.5%.
翻訳日:2021-05-20 06:28:50 公開日:2021-05-14
# (参考訳) SMURF:フルイメージ・ワープによる自己学習型マルチフレーム教師なしRAFT [全文訳有]

SMURF: Self-Teaching Multi-Frame Unsupervised RAFT with Full-Image Warping ( http://arxiv.org/abs/2105.07014v1 )

ライセンス: CC BY 4.0
Austin Stone, Daniel Maurer, Alper Ayvaci, Anelia Angelova, Rico Jonschkowski(参考訳) そこで,本研究では,全ベンチマークの精度を3,6\%$から$40\%$(先行最良手法であるuflowより)向上させ,pwc-net や flownet2 のような教師なし手法よりも優れる光フローの教師なし学習法である smurf を提案する。 提案手法は, 教師付き光流, すなわち, アーキテクチャの改善を統合する。 RAFTモデルは、シーケンス対応の自己超越損失、フレーム外動作を処理する技術、そして、推論に2フレームしか必要とせず、マルチフレームのビデオデータから効果的に学習するためのアプローチを含む、教師なし学習のための新しいアイデアを備える。

We present SMURF, a method for unsupervised learning of optical flow that improves state of the art on all benchmarks by $36\%$ to $40\%$ (over the prior best method UFlow) and even outperforms several supervised approaches such as PWC-Net and FlowNet2. Our method integrates architecture improvements from supervised optical flow, i.e. the RAFT model, with new ideas for unsupervised learning that include a sequence-aware self-supervision loss, a technique for handling out-of-frame motion, and an approach for learning effectively from multi-frame video data while still only requiring two frames for inference.
翻訳日:2021-05-20 06:13:33 公開日:2021-05-14
# (参考訳) 放射線治療における自動逆計画法へのハイパーパラメータチューニング手法の適用性の検討 [全文訳有]

A feasibility study of a hyperparameter tuning approach to automated inverse planning in radiotherapy ( http://arxiv.org/abs/2105.07024v1 )

ライセンス: CC BY 4.0
Kelsey Maass and Aleksandr Aravkin and Minsun Kim(参考訳) 放射線治療の逆計画には、治療計画立案者が目的関数の複数のパラメータを変更して臨床的に許容される計画を作成する必要がある。 このプロセスにおける手動のステップのため、プランクオリティは利用可能な計画時間とプランナーのスキルによって大きく異なる。 本研究の目的は,計画品質を維持しつつ,能動的計画時間を短縮する逆計画プロセスを自動化することである。 本稿では,各臓器リスク(oar)目標の限界線量パラメータと重量について,治療計画の有用性を最大化する,自動逆計画のためのハイパーパラメータチューニング手法を提案する。 6例の患者を用いて, 線量パラメータ, ランダムおよびベイズ探索法, 実用機能形態の選択が計画時間および計画品質に及ぼす影響を検討した。 与えられたパラメータに対して、計画はRayStationで最適化され、スクリプティングインターフェイスを使用して配布可能な線量分布を得る。 私たちは、同じ対象範囲を持つすべての計画の標準化を行い、自動生成した計画のオール線量メトリクスと手作業で生成された臨床計画のそれとを比較した。 100個のサンプルを用いて良好な計画品質が得られ、平均計画時間は2.3時間であった。 自動生成計画におけるOAR投与量は、臨床計画よりも76.8%低かった。 oarの投与量が臨床計画より大きい場合、限界線量よりも0.57%以上98.9%以下であり、臨床上許容であることを示している。 難しいケースでは、次元削減戦略が92.9%高いユーティリティを生み出し、元の問題を最適化するのに必要な時間の38.5%しかかからなかった。 本研究は,自動逆計画のためのハイパーパラメータチューニングフレームワークが,手作業で生成した計画と類似あるいは良好な計画品質で,治療プランナーの計画時間を著しく短縮できることを実証する。

Radiotherapy inverse planning requires treatment planners to modify multiple parameters in the objective function to produce clinically acceptable plans. Due to manual steps in this process, plan quality can vary widely depending on planning time available and planner's skills. The purpose of this study is to automate the inverse planning process to reduce active planning time while maintaining plan quality. We propose a hyperparameter tuning approach for automated inverse planning, where a treatment plan utility is maximized with respect to the limit dose parameters and weights of each organ-at-risk (OAR) objective. Using 6 patient cases, we investigated the impact of the choice of dose parameters, random and Bayesian search methods, and utility function form on planning time and plan quality. For given parameters, the plan was optimized in RayStation, using the scripting interface to obtain the dose distributions deliverable. We normalized all plans to have the same target coverage and compared the OAR dose metrics in the automatically generated plans with those in the manually generated clinical plans. Using 100 samples was found to produce satisfactory plan quality, and the average planning time was 2.3 hours. The OAR doses in the automatically generated plans were lower than the clinical plans by up to 76.8%. When the OAR doses were larger than the clinical plans, they were still between 0.57% above and 98.9% below the limit doses, indicating they are clinically acceptable. For a challenging case, a dimensionality reduction strategy produced a 92.9% higher utility using only 38.5% of the time needed to optimize over the original problem. This study demonstrates our hyperparameter tuning framework for automated inverse planning can significantly reduce the treatment planner's planning time with plan quality that is similar to or better than manually generated plans.
翻訳日:2021-05-20 05:59:39 公開日:2021-05-14
# (参考訳) 確率的スケジューリング・割当・在庫補充問題に対するモノトン近似動的プログラミング手法:ドローンおよび電気自動車バッテリースワップステーションへの適用

A Monotone Approximate Dynamic Programming Approach for the Stochastic Scheduling, Allocation, and Inventory Replenishment Problem: Applications to Drone and Electric Vehicle Battery Swap Stations ( http://arxiv.org/abs/2105.07026v1 )

ライセンス: CC BY 4.0
Amin Asadi, Sarah Nurre Pinkley(参考訳) 電気自動車(EV)やドローンを多くの用途に利用することへの関心が高まっている。 しかし、範囲の不安やバッテリー劣化など、バッテリー指向の問題が採用を妨げる。 バッテリー交換ステーションは、全電池の交換を数分で行えるという懸念を軽減する代替手段のひとつだ。 我々は,スワップ需要の不確定な到来,バッテリー劣化,交換を考慮した場合,バッテリー交換ステーションでの動作を導出する問題を考える。 本研究では, 電池交換ステーションの動作を有限地平面マルコフ決定プロセスモデルを用いてモデル化し, 電池の充電, 排出, 交換回数を決定する確率的スケジューリング, 割り当て, 在庫補充問題 (SAIRP) について検討する。 特殊SAIRP症例に対する最適政策における値関数の単調性と単調構造に関する理論的証明を提案する。 次元の呪いのため、回帰を用いた値関数近似をインテリジェントに初期化する新しい単調近似動的プログラミング(ADP)法を開発した。 計算実験では,新しい回帰型単調ADP法と,他の単調ADP法と比較して優れた性能を示す。 さらに,テストにより,ドローンスワップステーションの政策洞察を導出する。

There is a growing interest in using electric vehicles (EVs) and drones for many applications. However, battery-oriented issues, including range anxiety and battery degradation, impede adoption. Battery swap stations are one alternative to reduce these concerns that allow the swap of depleted for full batteries in minutes. We consider the problem of deriving actions at a battery swap station when explicitly considering the uncertain arrival of swap demand, battery degradation, and replacement. We model the operations at a battery swap station using a finite horizon Markov Decision Process model for the stochastic scheduling, allocation, and inventory replenishment problem (SAIRP), which determines when and how many batteries are charged, discharged, and replaced over time. We present theoretical proofs for the monotonicity of the value function and monotone structure of an optimal policy for special SAIRP cases. Due to the curses of dimensionality, we develop a new monotone approximate dynamic programming (ADP) method, which intelligently initializes a value function approximation using regression. In computational tests, we demonstrate the superior performance of the new regression-based monotone ADP method as compared to exact methods and other monotone ADP methods. Further, with the tests, we deduce policy insights for drone swap stations.
翻訳日:2021-05-20 05:38:26 公開日:2021-05-14
# (参考訳) 深層顔認識のためのキューとしての顔属性 [全文訳有]

Face Attributes as Cues for Deep Face Recognition Understanding ( http://arxiv.org/abs/2105.07054v1 )

ライセンス: CC BY 4.0
Matheus Alves Diniz and William Robson Schwartz(参考訳) 深い学習を受けた表現は、顔認識手法の最先端の記述子である。 これらの表現は説明が難しい潜在特徴をエンコードし、その予測の信頼性と解釈可能性に妥協する。 深い特徴を説明するほとんどの試みは、しばしば解釈に開放される可視化技術である。 可視化のみに頼るのではなく、隠れたレイヤの出力を使って顔属性を予測します。 得られた性能は、その属性がネットワークのその層で暗黙的に学習されるかを示す指標である。 可変選択手法を用いて,これらの意味概念が各層内でどのように分布するかを分析し,各属性の関連ニューロンの正確な位置を確立する。 実験によると、各属性の予測に1つの神経出力のみを使用していても、性別、眼鏡、帽子の使用量を96%以上精度で予測できる。 これらのパフォーマンスは、deep supervised face attribute networkが達成したパフォーマンスよりも3ポイント低い。 本実験により, 顔の識別に最適化されたDCNNの内部には, 顔属性をコードする潜在ニューロンが存在することがわかった。

Deeply learned representations are the state-of-the-art descriptors for face recognition methods. These representations encode latent features that are difficult to explain, compromising the confidence and interpretability of their predictions. Most attempts to explain deep features are visualization techniques that are often open to interpretation. Instead of relying only on visualizations, we use the outputs of hidden layers to predict face attributes. The obtained performance is an indicator of how well the attribute is implicitly learned in that layer of the network. Using a variable selection technique, we also analyze how these semantic concepts are distributed inside each layer, establishing the precise location of relevant neurons for each attribute. According to our experiments, gender, eyeglasses and hat usage can be predicted with over 96% accuracy even when only a single neural output is used to predict each attribute. These performances are less than 3 percentage points lower than the ones achieved by deep supervised face attribute networks. In summary, our experiments show that, inside DCNNs optimized for face identification, there exists latent neurons encoding face attributes almost as accurately as DCNNs optimized for these attributes.
翻訳日:2021-05-20 05:37:02 公開日:2021-05-14
# (参考訳) 視覚的類似:深層学習と構成モデル [全文訳有]

Visual analogy: Deep learning versus compositional models ( http://arxiv.org/abs/2105.07065v1 )

ライセンス: CC BY 4.0
Nicholas Ichien, Qing Liu, Shuhao Fu, Keith J. Holyoak, Alan Yuille, Hongjing Lu(参考訳) アナログ推論は、膨大な数の推論問題にディープラーニングモデルを適用することで、スクラッチから解くために学ばなければならないタスクなのだろうか? あるいは、アナログの構造表現間の類似性を計算することで、類似は解決されるのか? 本研究では, 慣れ親しんだ3次元物体(車とそのサブリージョン)の画像から生成した視覚的類似物に対する人間のパフォーマンスと, 代替計算モデルの性能を比較した。 人間の推論者は、すべての問題タイプにおいて上述の精度を達成したが、いくつかの条件(例えば、関連する部分領域がオクルードされたとき)でより多くの誤りを犯した。 これらのアナロジー問題を解決するために直接訓練された2つのディープラーニングモデル(siamese networkとrelational network)と、部分ベースの表現間の関係的類似性を評価する構成モデルの比較を行った。 部分表現に基づく合成モデルは、深層学習モデルではなく、人間の推論と類似した質的な性能を生んだ。

Is analogical reasoning a task that must be learned to solve from scratch by applying deep learning models to massive numbers of reasoning problems? Or are analogies solved by computing similarities between structured representations of analogs? We address this question by comparing human performance on visual analogies created using images of familiar three-dimensional objects (cars and their subregions) with the performance of alternative computational models. Human reasoners achieved above-chance accuracy for all problem types, but made more errors in several conditions (e.g., when relevant subregions were occluded). We compared human performance to that of two recent deep learning models (Siamese Network and Relation Network) directly trained to solve these analogy problems, as well as to that of a compositional model that assesses relational similarity between part-based representations. The compositional model based on part representations, but not the deep learning models, generated qualitative performance similar to that of human reasoners.
翻訳日:2021-05-20 05:27:20 公開日:2021-05-14
# (参考訳) ニューラルネットワークの高速・低透過性フィンガープリント [全文訳有]

High-Robustness, Low-Transferability Fingerprinting of Neural Networks ( http://arxiv.org/abs/2105.07078v1 )

ライセンス: CC BY 4.0
Siyue Wang, Xiao Wang, Pin-Yu Chen, Pu Zhao and Xue Lin(参考訳) 本稿では,モデルプルーニングに対するベースモデルに対する高いロバスト性と,非関連モデルへの低移動性を特徴とする,ディープニューラルネットワークを効果的にフィンガープリントする特徴的例を提案する。 これは、現実的な指紋を生成するために堅牢性と転送可能性の両方を考慮に入れる最初の仕事であり、現在の方法は実用的な仮定を欠き、大きな偽陽性率を引き起こす可能性がある。 そこで本研究では,ロバスト性と伝達性とのトレードオフを改善するために,バニラc例,rc例,ltrc例の3種類の特徴例を提案し,元のベースモデルから指紋を導出する。 そこで本研究では,ロバスト性と伝達性とのトレードオフを適切に特徴付けるために,ロバスト性と伝達性の違いを測定する総合指標である一意性スコアを提案する。

This paper proposes Characteristic Examples for effectively fingerprinting deep neural networks, featuring high-robustness to the base model against model pruning as well as low-transferability to unassociated models. This is the first work taking both robustness and transferability into consideration for generating realistic fingerprints, whereas current methods lack practical assumptions and may incur large false positive rates. To achieve better trade-off between robustness and transferability, we propose three kinds of characteristic examples: vanilla C-examples, RC-examples, and LTRC-example, to derive fingerprints from the original base model. To fairly characterize the trade-off between robustness and transferability, we propose Uniqueness Score, a comprehensive metric that measures the difference between robustness and transferability, which also serves as an indicator to the false alarm problem.
翻訳日:2021-05-20 05:15:15 公開日:2021-05-14
# 結合データメッセージはpoissonプロセスとして振る舞う

Conjunction Data Messages behave as a Poisson Process ( http://arxiv.org/abs/2105.08509v1 )

ライセンス: Link先を確認
Francisco Caldas, Claudia Soares, Cl\'audia Nunes, Marta Guimar\~aes, Mariana Filipe, Rodrigo Ventura(参考訳) 宇宙デブリは宇宙探査において大きな問題である。 国際機関は、軌道上のオブジェクトの大規模なデータベースを継続的に監視し、結合データメッセージ形式で警告を発する。 衛星オペレーターにとって重要な問題は、新しい情報がいつ到着するかを見積もることである。 メッセージ到着プロセスの統計的学習モデルを提案し、(1)次の指定された時間間隔に新しいメッセージが存在するかという2つの重要な質問に答える。 (2) 次のメッセージがいつ、いつ、いつ、どのように不確実になるのか? ベイジアン・ポアソン過程モデルの質問(2)の平均予測誤差は,50kの近接遭遇事象のテストセットにおいて,3時間以上でベースラインよりも小さい。

Space debris is a major problem in space exploration. International bodies continuously monitor a large database of orbiting objects and emit warnings in the form of conjunction data messages. An important question for satellite operators is to estimate when fresh information will arrive so that they can react timely but sparingly with satellite maneuvers. We propose a statistical learning model of the message arrival process, allowing us to answer two important questions: (1) Will there be any new message in the next specified time interval? (2) When exactly and with what uncertainty will the next message arrive? The average prediction error for question (2) of our Bayesian Poisson process model is smaller than the baseline in more than 3 hours in a test set of 50k close encounter events.
翻訳日:2021-05-19 13:51:16 公開日:2021-05-14
# 医用画像分類のためのプライバシー保護領域一般化

Privacy-Preserving Constrained Domain Generalization for Medical Image Classification ( http://arxiv.org/abs/2105.08511v1 )

ライセンス: Link先を確認
Chris Xing Tian, Haoliang Li, Yufei Wang, Shiqi Wang(参考訳) 深層ニューラルネットワーク(dnn)は、医療画像応用において前例のない成功を収めている。 しかし、データセットの可用性の制限や患者のプライバシ保護の厳格な法的・倫理的要件により、大規模なトレーニングデータを用いたDNNによる医用画像分類の幅広い適用が妨げられている。 例えば、あるドメイン(例えば、ある病院からのデータのみ)からDNNを訓練する場合、他のドメイン(例えば、別の病院からのデータ)への一般化能力はほとんど欠落している。 本稿では,プライバシ保護制約付きドメイン一般化手法を開発し,プライバシ保護条件下での一般化能力の向上を目指す。 特に,集中型サーバ側における情報集約プロセスを改善することを提案し,トレーニングされたモデルが"見えない"が関連する医療画像に対してより一般化できることを期待する。 提案手法の理論的および有効性は,提案手法を分布距離測定として広く採用されている最大平均離散性(MMD)と結合することによって説明できる。 2つの難解な医用画像分類タスクの実験結果は,最先端のフェデレーション学習法と比較して,クロスドメイン一般化能力が向上することを示した。

Deep neural networks (DNN) have demonstrated unprecedented success for medical imaging applications. However, due to the issue of limited dataset availability and the strict legal and ethical requirements for patient privacy protection, the broad applications of medical imaging classification driven by DNN with large-scale training data have been largely hindered. For example, when training the DNN from one domain (e.g., with data only from one hospital), the generalization capability to another domain (e.g., data from another hospital) could be largely lacking. In this paper, we aim to tackle this problem by developing the privacy-preserving constrained domain generalization method, aiming to improve the generalization capability under the privacy-preserving condition. In particular, We propose to improve the information aggregation process on the centralized server-side with a novel gradient alignment loss, expecting that the trained model can be better generalized to the "unseen" but related medical images. The rationale and effectiveness of our proposed method can be explained by connecting our proposed method with the Maximum Mean Discrepancy (MMD) which has been widely adopted as the distribution distance measurement. Experimental results on two challenging medical imaging classification tasks indicate that our method can achieve better cross-domain generalization capability compared to the state-of-the-art federated learning methods.
翻訳日:2021-05-19 13:48:54 公開日:2021-05-14
# 非IIDデータのフェデレーション学習における高速収束に向けたノード選択

Node Selection Toward Faster Convergence for Federated Learning on Non-IID Data ( http://arxiv.org/abs/2105.07066v1 )

ライセンス: Link先を確認
Hongda Wu, Ping Wang(参考訳) Federated Learning(FL)は、大量のリソース制限されたノードがデータ共有なしで協調的にモデルをトレーニングできる分散学習パラダイムである。 非独立・同一分布(非i.d.) データサンプルはグローバルとローカルの目的の相違を生じさせ、FLモデルを収束が遅くする。 本稿では,各グローバルラウンドにおける各ノードの局所的更新の最適部分集合を,局所的勾配とグローバル的勾配の関係をチェックすることによって同定・排除することにより,より優れた集約のための最適集約アルゴリズムを提案する。 そこで我々は,最適集約の出力に基づいて選択される各ノードの確率を動的に変化させる確率的ノード選択フレームワーク(FedPNS)を提案する。 FedPNSはより高速なモデル収束を促進するノードを優先的に選択できる。 提案したFedPNS設計の非バイアス性を示し, 一般に採用されているFedAvgアルゴリズムに対するFedPNSの収束率改善を理論的に分析した。 実験結果は,ランダムノード選択のfedavgと比較して,fl収束速度を加速するfedpnの有効性を示す。

Federated Learning (FL) is a distributed learning paradigm that enables a large number of resource-limited nodes to collaboratively train a model without data sharing. The non-independent-and- identically-distribu ted (non-i.i.d.) data samples invoke discrepancy between global and local objectives, making the FL model slow to converge. In this paper, we proposed Optimal Aggregation algorithm for better aggregation, which finds out the optimal subset of local updates of participating nodes in each global round, by identifying and excluding the adverse local updates via checking the relationship between the local gradient and the global gradient. Then, we proposed a Probabilistic Node Selection framework (FedPNS) to dynamically change the probability for each node to be selected based on the output of Optimal Aggregation. FedPNS can preferentially select nodes that propel faster model convergence. The unbiasedness of the proposed FedPNS design is illustrated and the convergence rate improvement of FedPNS over the commonly adopted Federated Averaging (FedAvg) algorithm is analyzed theoretically. Experimental results demonstrate the effectiveness of FedPNS in accelerating the FL convergence rate, as compared to FedAvg with random node selection.
翻訳日:2021-05-18 15:06:34 公開日:2021-05-14
# ファウショットデータセット一般化のためのユニバーサルテンプレートの学習

Learning a Universal Template for Few-shot Dataset Generalization ( http://arxiv.org/abs/2105.07029v1 )

ライセンス: Link先を確認
Eleni Triantafillou, Hugo Larochelle, Richard Zemel and Vincent Dumoulin(参考訳) Few-shot データセットの一般化は、いくつかのデータセットの多様なトレーニングセットが与えられる、よく研究された数発の分類問題の難解な変種であり、いくつかの例だけで新しいデータセットからクラスを学習できる適応可能なモデルのトレーニングを目的としている。 そこで,本稿では,汎用テンプレートを構築するための多種多様なトレーニングセットを提案する。適切なコンポーネントをプラグインすることで,データセットに特化された幅広いモデルを定義できる部分モデルである。 新しい数発の分類問題に対して、我々の手法は普遍的なテンプレートに挿入する少数のパラメータを推測するだけでよい。 我々は,各タスクのパラメータの初期化を生成するネットワークを設計し,その初期化を勾配降下数ステップで微調整する。 提案手法は,従来の手法に比べてパラメータ効率が高く,スケーラブルで適応性が高く,難易度の高いメタデータセットベンチマークで最先端を実現する。

Few-shot dataset generalization is a challenging variant of the well-studied few-shot classification problem where a diverse training set of several datasets is given, for the purpose of training an adaptable model that can then learn classes from new datasets using only a few examples. To this end, we propose to utilize the diverse training set to construct a universal template: a partial model that can define a wide array of dataset-specialized models, by plugging in appropriate components. For each new few-shot classification problem, our approach therefore only requires inferring a small number of parameters to insert into the universal template. We design a separate network that produces an initialization of those parameters for each given task, and we then fine-tune its proposed initialization via a few steps of gradient descent. Our approach is more parameter-efficient, scalable and adaptable compared to previous methods, and achieves the state-of-the-art on the challenging Meta-Dataset benchmark.
翻訳日:2021-05-18 15:02:54 公開日:2021-05-14
# 医療における人-AI連携のためのグラフニューラルネットワークによる解釈可能な薬物相乗効果予測

Interpretable Drug Synergy Prediction with Graph Neural Networks for Human-AI Collaboration in Healthcare ( http://arxiv.org/abs/2105.07082v1 )

ライセンス: Link先を確認
Zehao Dong, Heming Zhang, Yixin Chen, Fuhai Li(参考訳) がん薬物併用療法の抵抗性または感受性の分子機構を誘導的かつ解釈可能な方法で検討する。 深層学習アルゴリズムは薬物シナジー予測問題において広く用いられているが、医療システムにおける人間とaiの協調のための謎めいたシナジー(mos)のメカニズムを調査するために生物学的意味を持つ予測モデルを定式化することは、まだ未解決の問題である。 これらの課題に対処するため,遺伝子と薬物の相互作用を予測するためのディープグラフニューラルネットワークIDSP(Interpretable Deep Signaling Pathways)を提案する。 idspは多層パーセプトロン(mlp)によって遺伝子と薬局の関係、すなわちシグナル相互作用に基づいてエッジの重みを自動的に学習し、誘導的な方法で情報を集約する。 提案アーキテクチャは、重要なシグナル伝達相互作用を検出して解釈可能な薬物相乗効果を予測し、基礎となる分子機構が未知の遺伝子やシグナル伝達経路に遭遇した場合に実装することができる。 我々は,NCI ALMANAC薬物併用スクリーニングデータから,46のコア癌シグナル伝達経路と薬物の組み合わせの遺伝子によって形成されるシグナルネットワーク上でIDWSPをテストする。 実験の結果,1) IDSPは分子機構から学習し,薬品情報の付加を伴わずに予測できること,2) IDSPは伝達タスクと誘導タスクの両方に相乗的予測タスクを実装するのに優れた汎用性と柔軟性を示すことがわかった。 3) idspは、異なるサルエント信号パターン(例えば)を検出することで、解釈可能な結果を生成することができる。 異なる細胞株に対するMoS。

We investigate molecular mechanisms of resistant or sensitive response of cancer drug combination therapies in an inductive and interpretable manner. Though deep learning algorithms are widely used in the drug synergy prediction problem, it is still an open problem to formulate the prediction model with biological meaning to investigate the mysterious mechanisms of synergy (MoS) for the human-AI collaboration in healthcare systems. To address the challenges, we propose a deep graph neural network, IDSP (Interpretable Deep Signaling Pathways), to incorporate the gene-gene as well as gene-drug regulatory relationships in synergic drug combination predictions. IDSP automatically learns weights of edges based on the gene and drug node relations, i.e., signaling interactions, by a multi-layer perceptron (MLP) and aggregates information in an inductive manner. The proposed architecture generates interpretable drug synergy prediction by detecting important signaling interactions, and can be implemented when the underlying molecular mechanism encounters unseen genes or signaling pathways. We test IDWSP on signaling networks formulated by genes from 46 core cancer signaling pathways and drug combinations from NCI ALMANAC drug combination screening data. The experimental results demonstrated that 1) IDSP can learn from the underlying molecular mechanism to make prediction without additional drug chemical information while achieving highly comparable performance with current state-of-art methods; 2) IDSP show superior generality and flexibility to implement the synergy prediction task on both transductive tasks and inductive tasks. 3) IDSP can generate interpretable results by detecting different salient signaling patterns (i.e. MoS) for different cell lines.
翻訳日:2021-05-18 14:59:59 公開日:2021-05-14
# 生成モデルを用いた画像ベースニューラルネットワーク制御器の検証

Verification of Image-based Neural Network Controllers Using Generative Models ( http://arxiv.org/abs/2105.07091v1 )

ライセンス: Link先を確認
Sydney M. Katz, Anthony L. Corso, Christopher A. Strong, Mykel J. Kochenderfer(参考訳) ニューラルネットワークは、画像ベースのセンサーから情報を処理して制御アクションを生成するためによく使用される。 このタスクには有効だが、ニューラルネットワークの複雑な性質により、その出力の検証と予測が難しくなり、安全クリティカルなシステムでの使用が制限される。 このため、最近の研究は、ニューラルネットワークコントローラのクローズドループ性能の保証を得るために、形式的手法と到達可能性分析のテクニックを組み合わせることに重点を置いている。 しかし、これらの手法は画像ベースニューラルネットワークコントローラの高次元かつ複雑な入力空間にスケールしない。 そこで本研究では,gan(generative adversarial network)を訓練し,適切な入力画像に対する状態のマッピングを行う手法を提案する。 生成ネットワークと制御ネットワークを結合することにより、低次元の入力空間を有するネットワークを得る。 この洞察により、既存のクローズドループ検証ツールを使用して、画像ベースコントローラの性能の正式な保証を得ることができる。 本手法は,自律航空機のタクシー問題に対して,画像ベースニューラルネットワークコントローラの安全性保証を行う。 我々は、管制官が機体を滑走路に保持し、機体を滑走路の中央に誘導することを保証する。 私たちが提供する保証は、ジェネレータネットワークでモデル化された入力画像の集合に関するものであるので、ジェネレータが妥当な画像の空間をいかにうまくキャプチャするかを評価するためのリコールメトリックを提供する。

Neural networks are often used to process information from image-based sensors to produce control actions. While they are effective for this task, the complex nature of neural networks makes their output difficult to verify and predict, limiting their use in safety-critical systems. For this reason, recent work has focused on combining techniques in formal methods and reachability analysis to obtain guarantees on the closed-loop performance of neural network controllers. However, these techniques do not scale to the high-dimensional and complicated input space of image-based neural network controllers. In this work, we propose a method to address these challenges by training a generative adversarial network (GAN) to map states to plausible input images. By concatenating the generator network with the control network, we obtain a network with a low-dimensional input space. This insight allows us to use existing closed-loop verification tools to obtain formal guarantees on the performance of image-based controllers. We apply our approach to provide safety guarantees for an image-based neural network controller for an autonomous aircraft taxi problem. We guarantee that the controller will keep the aircraft on the runway and guide the aircraft towards the center of the runway. The guarantees we provide are with respect to the set of input images modeled by our generator network, so we provide a recall metric to evaluate how well the generator captures the space of plausible images.
翻訳日:2021-05-18 14:59:30 公開日:2021-05-14
# 半教師付き容積画像分割のための運動量比較ボクセル回り表現学習

Momentum Contrastive Voxel-wise Representation Learning for Semi-supervised Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2105.07059v1 )

ライセンス: Link先を確認
Chenyu You, Ruihan Zhao, Lawrence Staib, James S. Duncan(参考訳) 医療画像分析におけるセグメンテーションの自動化は、大量の手動ラベル付きデータを必要とする課題である。 しかし、手動で医療データに注釈を付けることはしばしば困難であり、既存の学習ベースのアプローチのほとんどは、効果的な幾何学的制約なしにオブジェクトの境界を正確に記述することができない。 自己指導型学習のサブ領域であるコントラスト学習は、最近、複数のアプリケーション分野において有望な方向として注目されている。 本稿では,空間的制約を持つ新しい対比的voxel-wise representation learning (cvrl)法を提案する。 本フレームワークは,3次元空間コンテキストと豊富な解剖情報を取得することで,グローバル・ローカルな特徴を効果的に学習することができる。 具体的には,3次元画像からグローバルな情報を学習するためのVoxel-to-volumeコントラストアルゴリズムを導入し,ローカルなVoxel-to-voxelコントラストを実行することを提案する。 さらに,弾性的相互作用に基づく能動輪郭モデルを幾何学的正規化項として統合し,エンドツーエンドの学習方法で高速で信頼性の高いオブジェクト記述を可能にする。 Atrial Segmentation Challengeデータセットの結果は,提案手法の優位性を示すものである。

Automated segmentation in medical image analysis is a challenging task that requires a large amount of manually labeled data. However, manually annotating medical data is often laborious, and most existing learning-based approaches fail to accurately delineate object boundaries without effective geometric constraints. Contrastive learning, a sub-area of self-supervised learning, has recently been noted as a promising direction in multiple application fields. In this work, we present a novel Contrastive Voxel-wise Representation Learning (CVRL) method with geometric constraints to learn global-local visual representations for volumetric medical image segmentation with limited annotations. Our framework can effectively learn global and local features by capturing 3D spatial context and rich anatomical information. Specifically, we introduce a voxel-to-volume contrastive algorithm to learn global information from 3D images, and propose to perform local voxel-to-voxel contrast to explicitly make use of local cues in the embedding space. Moreover, we integrate an elastic interaction-based active contour model as a geometric regularization term to enable fast and reliable object delineations in an end-to-end learning manner. Results on the Atrial Segmentation Challenge dataset demonstrate superiority of our proposed scheme, especially in a setting with a very limited number of annotated data.
翻訳日:2021-05-18 14:57:07 公開日:2021-05-14
# MutualNet: 異なるモデル構成からの相互学習による適応型ConvNet

MutualNet: Adaptive ConvNet via Mutual Learning from Different Model Configurations ( http://arxiv.org/abs/2105.07085v1 )

ライセンス: Link先を確認
Taojiannan Yang, Sijie Zhu, Matias Mendieta, Pu Wang, Ravikumar Balakrishnan, Minwoo Lee, Tao Han, Mubarak Shah, Chen Chen(参考訳) 既存のディープニューラルネットワークのほとんどは静的であり、固定された複雑性で推論しかできない。 しかし、リソース予算はさまざまなデバイスで大きく異なります。 1台のデバイスでも、安価な予算は異なるシナリオで変更でき、必要な予算ごとに繰り返しネットワークをトレーニングすることは信じられないほどコストがかかるでしょう。 そこで本研究では,リソース制約の多様なセットで動作可能な単一ネットワークをトレーニングするための,MutualNetと呼ばれる汎用手法を提案する。 提案手法は,様々なネットワーク幅と入力解像度を持つモデル構成のコホートを訓練する。 この相互学習スキームは、モデルが異なる幅分解能な構成で実行できるだけでなく、これらの構成の間でユニークな知識を伝達し、モデル全体がより強力な表現を学習するのに役立つ。 MutualNetは、様々なネットワーク構造(MobileNets, ResNet, 3D Network: SlowFast, X3D)や様々なタスク(画像分類、オブジェクト検出、セグメンテーション、アクション認識など)に適用可能な一般的なトレーニング手法であり、さまざまなデータセットで一貫した改善を実現するために実証されている。 モデルを一度だけトレーニングするので、複数のモデルを独立にトレーニングするよりも、トレーニングコストを大幅に削減できます。 驚くべきことに、動的リソース制約が懸念されない場合、MutualNetは単一のネットワークのパフォーマンスを大幅に向上するためにも使用できる。 要約すると、 mutualnet は静的および適応的、2dおよび3dネットワークの両方の統一的な方法である。 コードと事前訓練されたモデルは、 \url{https://github.com/t aoyang1122/MutualNet }で入手できる。

Most existing deep neural networks are static, which means they can only do inference at a fixed complexity. But the resource budget can vary substantially across different devices. Even on a single device, the affordable budget can change with different scenarios, and repeatedly training networks for each required budget would be incredibly expensive. Therefore, in this work, we propose a general method called MutualNet to train a single network that can run at a diverse set of resource constraints. Our method trains a cohort of model configurations with various network widths and input resolutions. This mutual learning scheme not only allows the model to run at different width-resolution configurations but also transfers the unique knowledge among these configurations, helping the model to learn stronger representations overall. MutualNet is a general training methodology that can be applied to various network structures (e.g., 2D networks: MobileNets, ResNet, 3D networks: SlowFast, X3D) and various tasks (e.g., image classification, object detection, segmentation, and action recognition), and is demonstrated to achieve consistent improvements on a variety of datasets. Since we only train the model once, it also greatly reduces the training cost compared to independently training several models. Surprisingly, MutualNet can also be used to significantly boost the performance of a single network, if dynamic resource constraint is not a concern. In summary, MutualNet is a unified method for both static and adaptive, 2D and 3D networks. Codes and pre-trained models are available at \url{https://github.com/t aoyang1122/MutualNet }.
翻訳日:2021-05-18 14:49:12 公開日:2021-05-14
# 原因と効果:概念に基づくニューラルネットワークの説明

Cause and Effect: Concept-based Explanation of Neural Networks ( http://arxiv.org/abs/2105.07033v1 )

ライセンス: Link先を確認
Mohammad Nokhbeh Zaeem and Majid Komeili(参考訳) 多くのシナリオでは、高いレベルの概念に基づいて人間の決定が説明されます。 本研究では,その内的表現や概念に対するニューロンの活性化を調べることで,ニューラルネットワークの解釈可能性の一歩を踏み出した。 概念は、特定の特徴が共通する一連のサンプルによって特徴づけられる。 概念(またはその否定)とタスククラスの間に因果関係が存在するかをチェックするフレームワークを提案する。 従来の手法では,タスククラスに対する概念の重要性を重視していたが,さらに4つの尺度を導入し,因果関係の順序を定量的に決定する。 実験を通じて,ニューラルネットワークの概念と予測行動の関係を説明する上で,提案手法の有効性を実証する。

In many scenarios, human decisions are explained based on some high-level concepts. In this work, we take a step in the interpretability of neural networks by examining their internal representation or neuron's activations against concepts. A concept is characterized by a set of samples that have specific features in common. We propose a framework to check the existence of a causal relationship between a concept (or its negation) and task classes. While the previous methods focus on the importance of a concept to a task class, we go further and introduce four measures to quantitatively determine the order of causality. Through experiments, we demonstrate the effectiveness of the proposed method in explaining the relationship between a concept and the predictive behaviour of a neural network.
翻訳日:2021-05-18 14:40:17 公開日:2021-05-14
# 状態遷移モデルに基づく特徴ベース解釈型強化学習

Feature-Based Interpretable Reinforcement Learning based on State-Transition Models ( http://arxiv.org/abs/2105.07099v1 )

ライセンス: Link先を確認
Omid Davoodi, Majid Komeili(参考訳) 現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの判断を人間に説明することへの関心が高まっている。 この点で強化学習は例外ではない。 本研究では,強化学習におけるリスクを局所的に説明するための手法を提案する。 我々の手法は状態遷移モデルを作成するためにエージェントと環境の間の以前の相互作用のログのみを必要とする。 連続的または離散的な状態とアクション空間を持つRL環境で動作するように設計されている。 モデルの作成後、任意のエージェントのアクションは、リスクの増加または減少に最も影響を及ぼす特徴や、エージェントの局所性において他の望ましい目的関数の観点から説明することができる。 実験を通じて,提案手法の有効性を実証する。

Growing concerns regarding the operational usage of AI models in the real-world has caused a surge of interest in explaining AI models' decisions to humans. Reinforcement Learning is not an exception in this regard. In this work, we propose a method for offering local explanations on risk in reinforcement learning. Our method only requires a log of previous interactions between the agent and the environment to create a state-transition model. It is designed to work on RL environments with either continuous or discrete state and action spaces. After creating the model, actions of any agent can be explained in terms of the features most influential in increasing or decreasing risk or any other desirable objective function in the locality of the agent. Through experiments, we demonstrate the effectiveness of the proposed method in providing such explanations.
翻訳日:2021-05-18 14:40:06 公開日:2021-05-14
# listen with intent: 音声から意図へのフロントエンドによる音声認識の改善

Listen with Intent: Improving Speech Recognition with Audio-to-Intent Front-End ( http://arxiv.org/abs/2105.07071v1 )

ライセンス: Link先を確認
Swayambhu Nath Ray, Minhua Wu, Anirudh Raju, Pegah Ghahremani, Raghavendra Bilgi, Milind Rao, Harish Arsikere, Ariya Rastrow, Andreas Stolcke, Jasha Droppo(参考訳) 発話の全体的な意図を補完することは、聴取者が個々の単語を認識するのに役立つ。 この事実に触発されて,recurrent neural network-transducer (rnn-t) に基づく自動音声認識 (asr) システムを改善するために,インテント表現を付加情報として明示的に組み込むことが与える影響について,新たな研究を行った。 audio-to-intent(a2i) モデルは、発話の意図を埋め込みまたは後方の形でエンコードし、これらはrnn-tトレーニングおよび推論の補助入力として使用される。 本研究は,50k時間遠距離英語音声コーパスを用いて,発話全体から意図表現を抽出し,最初からRNN-T検索をバイアスに用いた非ストリーミングモードでシステムを実行する場合,相対単語誤り率を5.56%削減することを示した。 一方、RNN-T ASRシステムの追加入力としてフレーム単位のインテント後部を用いるストリーミングシステムは、3.33%の相対WERRが得られる。 ストリーミングシステムのより詳細な分析により,提案手法がメディア再生関連意図(例)に特に有益であることを示す。 PlayMusicIntentのWERR比9.12%)。

Comprehending the overall intent of an utterance helps a listener recognize the individual words spoken. Inspired by this fact, we perform a novel study of the impact of explicitly incorporating intent representations as additional information to improve a recurrent neural network-transducer (RNN-T) based automatic speech recognition (ASR) system. An audio-to-intent (A2I) model encodes the intent of the utterance in the form of embeddings or posteriors, and these are used as auxiliary inputs for RNN-T training and inference. Experimenting with a 50k-hour far-field English speech corpus, this study shows that when running the system in non-streaming mode, where intent representation is extracted from the entire utterance and then used to bias streaming RNN-T search from the start, it provides a 5.56% relative word error rate reduction (WERR). On the other hand, a streaming system using per-frame intent posteriors as extra inputs for the RNN-T ASR system yields a 3.33% relative WERR. A further detailed analysis of the streaming system indicates that our proposed method brings especially good gain on media-playing related intents (e.g. 9.12% relative WERR on PlayMusicIntent).
翻訳日:2021-05-18 14:34:57 公開日:2021-05-14
# SA-GAN: 形状保存型合成CT生成のための構造認識型汎用ネットワーク

SA-GAN: Structure-Aware Generative Adversarial Network for Shape-Preserving Synthetic CT Generation ( http://arxiv.org/abs/2105.07044v1 )

ライセンス: Link先を確認
Hajar Emami, Ming Dong, Siamak Nejad-Davarani, and Carri Glide-Hurst(参考訳) 医用画像合成では、同一患者であっても異なるモダリティの画像間の不整合がモデルトレーニングの課題となり、通常、異なるモダリティが通常異なるタイミングで得られるため、内部状態や組織の変化によって引き起こされる。 本稿では,医用画像生成時の一貫性のない構造の形状と位置を保存できる,新しい深層学習手法である構造認識生成逆ネットワーク(sa-gan)を提案する。 SA-GANは、MRI(MRI)から合成CT(synCT)画像を生成するために用いられる:グローバルストリームはMRIからCT領域への入力を変換し、ローカルストリームは非一貫性の臓器を自動的に分割し、MRI内の位置と形状を維持し、臓器の強度をCTに変換する。 骨盤内データセットの広範な実験を通して,SA-GANはsynCTと臓器のセグメンテーションの両方に対して臨床的に許容できる精度を提供し,内臓器状態の変化を伴う疾患部位におけるMRのみの治療計画を支援することを実証した。

In medical image synthesis, model training could be challenging due to the inconsistencies between images of different modalities even with the same patient, typically caused by internal status/tissue changes as different modalities are usually obtained at a different time. This paper proposes a novel deep learning method, Structure-aware Generative Adversarial Network (SA-GAN), that preserves the shapes and locations of in-consistent structures when generating medical images. SA-GAN is employed to generate synthetic computed tomography (synCT) images from magnetic resonance imaging (MRI) with two parallel streams: the global stream translates the input from the MRI to the CT domain while the local stream automatically segments the inconsistent organs, maintains their locations and shapes in MRI, and translates the organ intensities to CT. Through extensive experiments on a pelvic dataset, we demonstrate that SA-GAN provides clinically acceptable accuracy on both synCTs and organ segmentation and supports MR-only treatment planning in disease sites with internal organ status changes.
翻訳日:2021-05-18 14:32:09 公開日:2021-05-14
# リニアプログラミングを用いたパーシステント・ホモロジーにおける最小サイクル代表者--ユーザガイドを用いた実証的研究

Minimal Cycle Representatives in Persistent Homology using Linear Programming: an Empirical Study with User's Guide ( http://arxiv.org/abs/2105.07025v1 )

ライセンス: Link先を確認
Lu Li, Connor Thompson, Gregory Henselman-Petrusek, Chad Giusti, Lori Ziegelmeier(参考訳) 永続ホモロジークラスのサイクル代表は、データのトポロジ的特徴の記述を提供するのに使うことができる。 しかし、これらの代表の非特異性は曖昧さを生み出し、同じクラスの集合の多くの異なる解釈をもたらす。 この問題を解決する1つのアプローチは、データのコンテキストにおいて意味のある指標に対して代表者の選択を最適化することである。 本研究では,一様重み付きおよび長さ重み付きエッジロスアルゴリズム,および一様重み付きおよび面積重み付き三角形ロスアルゴリズムを含む,一次元の有理係数を持つ連続ホモロジーのホモロジーサイクルベースを構築するための,幾つもの$\ell_1$-minimizatio n最適化手順の有効性と計算コストについて検討する。 標準線形計画法を用いてこれらの最適化を行い、汎用解法を用いて単純境界行列の列ベースを最適化する。 Our key findings are: (i) optimization is effective in reducing the size of cycle representatives, (ii) the computational cost of optimizing a basis of cycle representatives exceeds the cost of computing such a basis in most data sets we consider, (iii) the choice of linear solvers matters a lot to the computation time of optimizing cycles, (iv) the computation time of solving an integer program is not significantly longer than the computation time of solving a linear program for most of the cycle representatives, using the Gurobi linear solver, (v) strikingly, whether requiring integer solutions or not, we almost always obtain a solution with the same cost and almost all solutions found have entries in {-1, 0, 1} and therefore, are also solutions to a restricted $\ell_0$ optimization problem, and (vi) we obtain qualitatively different results for generators in Erd\H{o}s-R\'enyi random clique complexes.

Cycle representatives of persistent homology classes can be used to provide descriptions of topological features in data. However, the non-uniqueness of these representatives creates ambiguity and can lead to many different interpretations of the same set of classes. One approach to solving this problem is to optimize the choice of representative against some measure that is meaningful in the context of the data. In this work, we provide a study of the effectiveness and computational cost of several $\ell_1$-minimizatio n optimization procedures for constructing homological cycle bases for persistent homology with rational coefficients in dimension one, including uniform-weighted and length-weighted edge-loss algorithms as well as uniform-weighted and area-weighted triangle-loss algorithms. We conduct these optimizations via standard linear programming methods, applying general-purpose solvers to optimize over column bases of simplicial boundary matrices. Our key findings are: (i) optimization is effective in reducing the size of cycle representatives, (ii) the computational cost of optimizing a basis of cycle representatives exceeds the cost of computing such a basis in most data sets we consider, (iii) the choice of linear solvers matters a lot to the computation time of optimizing cycles, (iv) the computation time of solving an integer program is not significantly longer than the computation time of solving a linear program for most of the cycle representatives, using the Gurobi linear solver, (v) strikingly, whether requiring integer solutions or not, we almost always obtain a solution with the same cost and almost all solutions found have entries in {-1, 0, 1} and therefore, are also solutions to a restricted $\ell_0$ optimization problem, and (vi) we obtain qualitatively different results for generators in Erd\H{o}s-R\'enyi random clique complexes.
翻訳日:2021-05-18 14:28:32 公開日:2021-05-14
# 畳み込みニューラルネットワークを用いたマルチモデル中期降雨予測

Post-processing Multi-Model Medium-Term Precipitation Forecasts Using Convolutional Neural Networks ( http://arxiv.org/abs/2105.07043v1 )

ライセンス: Link先を確認
Bob de Ruiter(参考訳) 本研究の目的は,畳み込みニューラルネットワーク(CNN)を用いた降水予測の処理後の改善である。 気象後処理で機械学習を使用する場合のように、ピクセル単位の予測を後処理する代わりに、入力予測画像を組み合わせ、完全な畳み込みニューラルネットワークを用いて確率的出力予測画像に変換する。 CNNは正規化ロジスティック回帰を上回りませんでした。 また,アブレーション解析を行った。 グローバル低解像度気象モデルと地域高解像度気象モデルからの入力予測を組み合わせることで、どちらのモデルよりも性能が向上した。

The goal of this study was to improve the post-processing of precipitation forecasts using convolutional neural networks (CNNs). Instead of post-processing forecasts on a per-pixel basis, as is usually done when employing machine learning in meteorological post-processing, input forecast images were combined and transformed into probabilistic output forecast images using fully convolutional neural networks. CNNs did not outperform regularized logistic regression. Additionally, an ablation analysis was performed. Combining input forecasts from a global low-resolution weather model and a regional high-resolution weather model improved performance over either one.
翻訳日:2021-05-18 14:27:41 公開日:2021-05-14
# 複数のカルーセルを用いたレコメンデーションインタフェースにおけるユーザ満足度の測定

Measuring the User Satisfaction in a Recommendation Interface with Multiple Carousels ( http://arxiv.org/abs/2105.07062v1 )

ライセンス: Link先を確認
Nicol\`o Felicioni, Maurizio Ferrari Dacrema, Paolo Cremonesi(参考訳) ビデオオンデマンドおよび音楽ストリーミングサービスでは、いくつかのレコメンデーションリストからなるユーザーインターフェースを採用することが一般的である。 ウィジェットやスワイプ可能なカルーセルは、それぞれ特定の基準やアルゴリズム(例えば)に従って生成される。 最新の、最も人気のある、あなたのために推奨される、編集者の選択など)。 carouselの適切な組み合わせを選択することは、ユーザの満足度に大きな影響を与える。 このユーザインターフェースの重要な側面は、ユーザに対する新しいカルーセルの関連性を測定するために、個々の品質のみを考慮するだけでは不十分である点である。 代わりに、インターフェイスにすでに他のカルーセルが存在することを考慮すべきである。 これは、(i)他のカルーセルをユーザに表示するか、(ii)他のカルーセルに対するカルーセルの相対的な位置に関わらず、各カルーセルを分離して評価する従来のレコメンダシステムの評価プロトコルでは考慮されていない。 そこで本研究では,すでに利用可能なカルーセルの品質にどの程度改善するかに基づいて,推奨カルーセルの品質を測定するカルーセル設定の二次元評価プロトコルを提案する。 評価プロトコルは位置バイアス、すなわち位置バイアスも考慮に入れます。 ユーザーはカルーセルを連続的に探索するのではなく、画面の左上隅に集中する。 映画領域における実験を報告し,カルーセル設定下では,推奨項目のリストを生成するのにどの基準が望ましいかが,一般的に理解されている項目に対して決定されることに注意する。

It is common for video-on-demand and music streaming services to adopt a user interface composed of several recommendation lists, i.e. widgets or swipeable carousels, each generated according to a specific criterion or algorithm (e.g. most recent, top popular, recommended for you, editors' choice, etc.). Selecting the appropriate combination of carousel has significant impact on user satisfaction. A crucial aspect of this user interface is that to measure the relevance a new carousel for the user it is not sufficient to account solely for its individual quality. Instead, it should be considered that other carousels will already be present in the interface. This is not considered by traditional evaluation protocols for recommenders systems, in which each carousel is evaluated in isolation, regardless of (i) which other carousels are displayed to the user and (ii) the relative position of the carousel with respect to other carousels. Hence, we propose a two-dimensional evaluation protocol for a carousel setting that will measure the quality of a recommendation carousel based on how much it improves upon the quality of an already available set of carousels. Our evaluation protocol takes into account also the position bias, i.e. users do not explore the carousels sequentially, but rather concentrate on the top-left corner of the screen. We report experiments on the movie domain and notice that under a carousel setting the definition of which criteria has to be preferred to generate a list of recommended items changes with respect to what is commonly understood.
翻訳日:2021-05-18 14:21:46 公開日:2021-05-14
# (参考訳) 潜在共同設立者によるガウス図形モデル学習 [全文訳有]

Learning Gaussian Graphical Models with Latent Confounders ( http://arxiv.org/abs/2105.06600v1 )

ライセンス: CC BY 4.0
Ke Wang, Alexander Franks, Sang-Yun Oh(参考訳) ガウス図形モデル(GGM)は生物学からファイナンスまで多くの応用においてネットワーク構造を推定するために広く用いられている。 実際、データは、基礎となる真のグラフィカルな構造の推論をバイアスする潜伏した共同創設者によってしばしば腐敗する。 本稿では,潜在変数を持つガウス的グラフィカルモデル (LVGGM) と,PCAをベースとしたコンバウンディング除去 (PCA+GGM) の2つの手法を比較して比較する。 これら2つのアプローチは同じような目標を持っているが、結合に関するさまざまな仮定によって動機づけられている。 本稿では, これら2つのアプローチの関連性について検討し, これら2つのアプローチの強みを組み合わせた新しい手法を提案する。 そこで我々は,PCAに基づく手法の一貫性と収束率を証明し,これらの結果を用いて各手法をいつ使用するかのガイダンスを提供する。 本手法の有効性をシミュレーションと実世界の2つの応用で実証する。

Gaussian Graphical models (GGM) are widely used to estimate the network structures in many applications ranging from biology to finance. In practice, data is often corrupted by latent confounders which biases inference of the underlying true graphical structure. In this paper, we compare and contrast two strategies for inference in graphical models with latent confounders: Gaussian graphical models with latent variables (LVGGM) and PCA-based removal of confounding (PCA+GGM). While these two approaches have similar goals, they are motivated by different assumptions about confounding. In this paper, we explore the connection between these two approaches and propose a new method, which combines the strengths of these two approaches. We prove the consistency and convergence rate for the PCA-based method and use these results to provide guidance about when to use each method. We demonstrate the effectiveness of our methodology using both simulations and in two real-world applications.
翻訳日:2021-05-17 23:40:48 公開日:2021-05-14
# (参考訳) ソーシャルメディアにおけるゼロショットスタンス検出のための逆学習 [全文訳有]

Adversarial Learning for Zero-Shot Stance Detection on Social Media ( http://arxiv.org/abs/2105.06603v1 )

ライセンス: CC BY 4.0
Emily Allaway, Malavika Srikanth, and Kathleen McKeown(参考訳) ソーシャルメディア上のスタンス検出は、日常のスラムニュースやコメントを識別し理解するのに役立ちます。 本研究では,twitter上でのゼロショット姿勢検出のための新しいモデルを提案する。 本モデルは, 計算コストを最小に抑えながら, 多数の未確認テストトピックにおいて最先端の性能を実現する。 さらに,ゼロショット姿勢検出を新たなトピックにも拡張し,ゼロショット移動の今後の方向性を強調する。

Stance detection on social media can help to identify and understand slanted news or commentary in everyday life. In this work, we propose a new model for zero-shot stance detection on Twitter that uses adversarial learning to generalize across topics. Our model achieves state-of-the-art performance on a number of unseen test topics with minimal computational costs. In addition, we extend zero-shot stance detection to new topics, highlighting future directions for zero-shot transfer.
翻訳日:2021-05-17 23:14:45 公開日:2021-05-14
# (参考訳) 機械学習モデルを用いて最適化問題の解を効果的に予測する方法:損失関数からの教訓 [全文訳有]

How to effectively use machine learning models to predict the solutions for optimization problems: lessons from loss function ( http://arxiv.org/abs/2105.06618v1 )

ライセンス: CC0 1.0
Mahdi Abolghasemi, Babak Abbasi, Toktam Babaei, Zahra HosseiniFard(参考訳) 制約最適化と組合せ問題における機械学習の利用は、コンピュータ科学と運用研究のコミュニティにおいて活発な研究領域になりつつある。 本稿では,高度な機械学習手法を用いた制約最適化問題に対する良質な解の予測を目的とする。 これは、より高度なアルゴリズムと決定変数の予測値に関連する様々なコストを調べることによって、大規模確率最適化モデルの解を予測するために機械学習モデルを使用するために、cite{abbasi 2020predicting}の作業を拡張する。 また、最適化問題の解を予測する機械学習モデルにおいて、損失関数とエラー基準の重要性についても検討する。 我々は血液輸血の問題をケーススタディとして用いている。 ケーススタディの結果は、LightGBMが有望なソリューションを提供し、特に平均絶対偏差基準が使用される場合、他の機械学習モデルよりも優れていることを示している。

Using machine learning in solving constraint optimization and combinatorial problems is becoming an active research area in both computer science and operations research communities. This paper aims to predict a good solution for constraint optimization problems using advanced machine learning techniques. It extends the work of \cite{abbasi2020predicting } to use machine learning models for predicting the solution of large-scaled stochastic optimization models by examining more advanced algorithms and various costs associated with the predicted values of decision variables. It also investigates the importance of loss function and error criterion in machine learning models where they are used for predicting solutions of optimization problems. We use a blood transshipment problem as the case study. The results for the case study show that LightGBM provides promising solutions and outperforms other machine learning models used by \cite{abbasi2020predicting } specially when mean absolute deviation criterion is used.
翻訳日:2021-05-17 23:03:23 公開日:2021-05-14
# (参考訳) UAVナビゲーションのための点雲上の静的・動的障害物の同定と回避 [全文訳有]

Identification and Avoidance of Static and Dynamic Obstacles on Point Cloud for UAVs Navigation ( http://arxiv.org/abs/2105.06622v1 )

ライセンス: CC BY 4.0
Han Chen and Peng Lu(参考訳) 効率的な飛行戦略によって未知のシナリオにおけるハイブリッド障害を回避することは、無人航空機の応用にとって重要な課題である。 本稿では,点クラウド入力のみを用いて動的障害と静的障害を区別する手法を提案する。 そこで, 計算効率の良い障害物回避運動計画手法を提案し, 改良された相対速度法と一致している。 このアプローチは、同じフレームワークの静的障害と動的障害の両方を避けることができる。 静的および動的障害の場合、衝突チェックと動きの制約は異なり、1つのフレームワークに効率的に統合される。 さらに,アルゴリズムの性能を向上し,異なるサブモジュール間の時間ギャップに対処する手法をいくつか提示する。 提案手法はリアルタイムにオンボードに実装され,シミュレーションおよびハードウェアテストにおいて広範囲に検証される。 平均的なシングルステップ計算時間は20ミリ秒未満です。

Avoiding hybrid obstacles in unknown scenarios with an efficient flight strategy is a key challenge for unmanned aerial vehicle applications. In this paper, we introduce a technique to distinguish dynamic obstacles from static ones with only point cloud input. Then, a computationally efficient obstacle avoidance motion planning approach is proposed and it is in line with an improved relative velocity method. The approach is able to avoid both static obstacles and dynamic ones in the same framework. For static and dynamic obstacles, the collision check and motion constraints are different, and they are integrated into one framework efficiently. In addition, we present several techniques to improve the algorithm performance and deal with the time gap between different submodules. The proposed approach is implemented to run onboard in real-time and validated extensively in simulation and hardware tests. Our average single step calculating time is less than 20 ms.
翻訳日:2021-05-17 22:44:26 公開日:2021-05-14
# (参考訳) aiを用いたbimの拡張:マルチマシンパス検索ソリューション [全文訳有]

An Extension of BIM Using AI: a Multi Working-Machines Pathfinding Solution ( http://arxiv.org/abs/2105.06635v1 )

ライセンス: CC BY 4.0
Yusheng Xiang, Kailun Liu, Tianqing Su, Jun Li, Shirui Ouyang, Samuel S. Mao, Marcus Geimer(参考訳) マルチワーキングマシンのパスファインディングソリューションにより、より多くのモバイルマシンが作業現場内で同時に動作し、生産性が進化を加速することを期待できる。 現在、建設機械間の潜在的な協力の衝突は、コンクリート工事現場における建設機械投資の量を制限している。 協調問題を解決するため、土木技術者はロジスティックな視点から作業現場を最適化し、コンピュータ科学者は与えられたベンチマークマップにおけるパスファインディングアルゴリズムの性能を向上させる。 そこで本研究では, 多数の機械の協調を可能とし, その間, 作業場の不適切な部分を修正するためのアドバイスを提供する, 最先端のマルチパスフィニングアルゴリズムに基づくアルゴリズムを提案する。 アンローディングやローディングポイントなどのBIMからのロジスティック情報を用いて,建設車両全体の生産性を向上させるために,マルチマシンのためのパスフィニングソリューションを追加した。 前回の研究では、実験は10人未満に限られており、解の収集に要する計算時間は与えられていなかったので、擬似コード、テストマップ、結果のベンチマークを公開しました。 我々のアルゴリズムの最も広範な特徴は、建設現場で緊急を乗り越えるための経路を迅速に再設計できることです。

Multi working-machines pathfinding solution enables more mobile machines simultaneously to work inside of a working site so that the productivity can be expected to increase evolutionary. To date, the potential cooperation conflicts among construction machinery limit the amount of construction machinery investment in a concrete working site. To solve the cooperation problem, civil engineers optimize the working site from a logistic perspective while computer scientists improve pathfinding algorithms' performance on the given benchmark maps. In the practical implementation of a construction site, it is sensible to solve the problem with a hybrid solution; therefore, in our study, we proposed an algorithm based on a cutting-edge multi-pathfinding algorithm to enable the massive number of machines cooperation and offer the advice to modify the unreasonable part of the working site in the meantime. Using the logistic information from BIM, such as unloading and loading point, we added a pathfinding solution for multi machines to improve the whole construction fleet's productivity. In the previous study, the experiments were limited to no more than ten participants, and the computational time to gather the solution was not given; thus, we publish our pseudo-code, our tested map, and benchmark our results. Our algorithm's most extensive feature is that it can quickly replan the path to overcome the emergency on a construction site.
翻訳日:2021-05-17 22:27:55 公開日:2021-05-14
# (参考訳) 不均質センサとウェアラブルを用いた屋内における居住者の行動・エンゲージメント・感情・快適感の理解 [全文訳有]

Understanding occupants' behaviour, engagement, emotion, and comfort indoors with heterogeneous sensors and wearables ( http://arxiv.org/abs/2105.06637v1 )

ライセンス: CC BY 4.0
Nan Gao, Max Marschall, Jane Burry, Simon Watkins, Flora D. Salim(参考訳) オーストラリア,メルボルン郊外のk-12私立学校でフィールドスタディを行った。 まず、2つの屋外気象観測所を用いた5ヶ月の縦断調査と、17の教室の屋内気象観測所と、乗員が制御する室内空調機の通気口の温度センサーの2つがあり、それらは5分間の検層頻度で各教室の個別データセットに照合され、また、乗員の存在に関する追加データも含まれていた。 このデータセットは、居住者が室内空調ユニットを操作する方法の予測モデルを導出するために使用された。 第2に、23人の学生と6人の教師を4週間にわたる横断研究で追跡し、生理的データを記録するためのウェアラブルセンサーと、被験者の体温の快適さ、学習のエンゲージメント、感情、座席の行動について日々の調査を行った。 これは、異質な方法を用いた高校生の日々の行動とエンゲージメントを研究する最初の公開データセットである。 組み合わせたデータは、屋内の気候と大学生の精神状態の関係を分析するために使用できる。

We conducted a field study at a K-12 private school in the suburbs of Melbourne, Australia. The data capture contained two elements: First, a 5-month longitudinal field study In-Gauge using two outdoor weather stations, as well as indoor weather stations in 17 classrooms and temperature sensors on the vents of occupant-controlled room air-conditioners; these were collated into individual datasets for each classroom at a 5-minute logging frequency, including additional data on occupant presence. The dataset was used to derive predictive models of how occupants operate room air-conditioning units. Second, we tracked 23 students and 6 teachers in a 4-week cross-sectional study En-Gage, using wearable sensors to log physiological data, as well as daily surveys to query the occupants' thermal comfort, learning engagement, emotions and seating behaviours. This is the first publicly available dataset studying the daily behaviours and engagement of high school students using heterogeneous methods. The combined data could be used to analyse the relationships between indoor climates and mental states of school students.
翻訳日:2021-05-17 22:01:13 公開日:2021-05-14
# (参考訳) Sketch2Model:ビュー対応3Dモデリング [全文訳有]

Sketch2Model: View-Aware 3D Modeling from Single Free-Hand Sketches ( http://arxiv.org/abs/2105.06663v1 )

ライセンス: CC BY 4.0
Song-Hai Zhang, Yuan-Chen Guo, Qing-Wen Gu(参考訳) 初心者向け高速な3Dモデリングを目的としたフリーハンドスケッチから3Dメッシュを生成する問題について検討する。 単視点復元問題と見なすこともできるが、スケッチのバリエーションと簡潔さによってもたらされる独特の課題がある。 貧弱なスケッチの曖昧さは、スケッチされたオブジェクトの配置を決定するのを難しくする。 本稿では,このような曖昧さを克服するための視点仕様の重要性を論じ,新しい視点認識手法を提案する。 任意の視点で生成プロセスを明示的に条件づけすることにより、予測された視点で、あるいは特定の視点で自動的に妥当な形状を生成し、ユーザの意図の表現に役立てることができる。 様々なデータセットに対する広範囲な評価は、スケッチの曖昧さを解消し、再構築品質を改善するための視点認識設計の有効性を示す。

We investigate the problem of generating 3D meshes from single free-hand sketches, aiming at fast 3D modeling for novice users. It can be regarded as a single-view reconstruction problem, but with unique challenges, brought by the variation and conciseness of sketches. Ambiguities in poorly-drawn sketches could make it hard to determine how the sketched object is posed. In this paper, we address the importance of viewpoint specification for overcoming such ambiguities, and propose a novel view-aware generation approach. By explicitly conditioning the generation process on a given viewpoint, our method can generate plausible shapes automatically with predicted viewpoints, or with specified viewpoints to help users better express their intentions. Extensive evaluations on various datasets demonstrate the effectiveness of our view-aware design in solving sketch ambiguities and improving reconstruction quality.
翻訳日:2021-05-17 21:42:04 公開日:2021-05-14
# (参考訳) XAIハンドブック - 説明可能なAIのための統一フレームワークを目指す [全文訳有]

XAI Handbook: Towards a Unified Framework for Explainable AI ( http://arxiv.org/abs/2105.06677v1 )

ライセンス: CC BY-SA 4.0
Sebastian Palacio, Adriano Lucieri, Mohsin Munir, J\"orn Hees, Sheraz Ahmed, Andreas Dengel(参考訳) 説明可能なAI(XAI)の分野は急速に繁栄し、多産なコミュニティになっている。 しかしながら、この分野における静かで再帰的で認識されている問題は、その用語に関する合意の欠如である。 特に、それぞれの新しい貢献は「説明」や「解釈」といった用語の独自の(そしてしばしば直感的な)バージョンに依存しているようである。 このような不一致は、例えば、方法の比較やバイアスや公正性の制約に対するコンプライアンスの確立など、科学的および規制的な要求を満たすための分野における進歩の強化を妨げている。 我々は,これらの用語の具体的定義を提供するだけでなく,説明や解釈に必要なすべてのステップを概説する理論的枠組みを提案する。 フレームワークはまた、既存のコントリビューションをスコープを計測できるように再コンテキスト化して、他のメソッドと同等にすることができる。 本フレームワークは,説明,解釈可能性,評価指標について,Desiderataに適合していることを示す。 本稿では,lime,shap,mdnetを比較し,その利点と欠点を確立するためにフレームワークをどのように利用するかを示すユースケースを提案する。 最後に,xaiの関連動向と今後の取り組みの提言について,フレームワークの立場から議論する。

The field of explainable AI (XAI) has quickly become a thriving and prolific community. However, a silent, recurrent and acknowledged issue in this area is the lack of consensus regarding its terminology. In particular, each new contribution seems to rely on its own (and often intuitive) version of terms like "explanation" and "interpretation". Such disarray encumbers the consolidation of advances in the field towards the fulfillment of scientific and regulatory demands e.g., when comparing methods or establishing their compliance with respect to biases and fairness constraints. We propose a theoretical framework that not only provides concrete definitions for these terms, but it also outlines all steps necessary to produce explanations and interpretations. The framework also allows for existing contributions to be re-contextualized such that their scope can be measured, thus making them comparable to other methods. We show that this framework is compliant with desiderata on explanations, on interpretability and on evaluation metrics. We present a use-case showing how the framework can be used to compare LIME, SHAP and MDNet, establishing their advantages and shortcomings. Finally, we discuss relevant trends in XAI as well as recommendations for future work, all from the standpoint of our framework.
翻訳日:2021-05-17 21:29:58 公開日:2021-05-14
# (参考訳) オンデバイスニューラルマシン翻訳のための動的マルチブランチ層 [全文訳有]

Dynamic Multi-Branch Layers for On-Device Neural Machine Translation ( http://arxiv.org/abs/2105.06679v1 )

ライセンス: CC BY 4.0
Zhixing Tan, Maosong Sun, Yang Liu(参考訳) 人工知能(AI)の急速な発展に伴い、ニューラルマシン翻訳(NMT)のようなAIアプリケーションをクラウドからスマートフォンのようなモバイルデバイスに移行する傾向にある。 ハードウェアリソースとバッテリの制限により、オンデバイスNTTシステムの性能は十分ではない。 条件付き計算に着想を得て,動的マルチブランチ層を有するオンデバイスNMTシステムの性能向上を提案する。 具体的には、トレーニングと推論中に1つの分岐のみを活性化した層方向動的マルチブランチネットワークを設計する。 すべてのブランチがトレーニング中にアクティベートされるわけではないので、各ブランチに十分なトレーニングを確保するために、共有-プライベート再パラメータ化を提案する。 ほぼ同じ計算コストで、wmt14の英独翻訳タスクで最大1.7 bleu点、トランスフォーマーモデルでwmt20の中国語-英訳タスクで1.8 bleu点をそれぞれ改善した。 複数の分岐を同時に使用する強いベースラインと比較して、提案手法は同じ数のパラメータで最大1.6倍高速である。

With the rapid development of artificial intelligence (AI), there is a trend in moving AI applications such as neural machine translation (NMT) from cloud to mobile devices such as smartphones. Constrained by limited hardware resources and battery, the performance of on-device NMT systems is far from satisfactory. Inspired by conditional computation, we propose to improve the performance of on-device NMT systems with dynamic multi-branch layers. Specifically, we design a layer-wise dynamic multi-branch network with only one branch activated during training and inference. As not all branches are activated during training, we propose shared-private reparameterization to ensure sufficient training for each branch. At almost the same computational cost, our method achieves improvements of up to 1.7 BLEU points on the WMT14 English-German translation task and 1.8 BLEU points on the WMT20 Chinese-English translation task over the Transformer model, respectively. Compared with a strong baseline that also uses multiple branches, the proposed method is up to 1.6 times faster with the same number of parameters.
翻訳日:2021-05-17 21:10:54 公開日:2021-05-14
# (参考訳) 線形収束を用いた通信効率の分散最適化のための革新圧縮 [全文訳有]

Innovation Compression for Communication-effici ent Distributed Optimization with Linear Convergence ( http://arxiv.org/abs/2105.06697v1 )

ライセンス: CC BY-SA 4.0
Jiaqi Zhang, Keyou You, Lihua Xie(参考訳) ピアツーピアネットワーク上での分散最適化における通信コスト削減には,情報圧縮が不可欠である。 本稿では,強い凸最適化問題を解決するために,通信効率のよい線形収束分散(COLD)アルゴリズムを提案する。 決定ベクトルとその推定値の差であるイノベーションベクトルを圧縮することで、coldは$\delta$-contracted compressorのクラスに対して線形収束を達成することができる。 圧縮が収束率にどのように影響するかを明示的に定量化し、COLDが非圧縮バージョンと同じ速度で一致することを示す。 二元量子化器を含むより広い種類の圧縮機に対応するため、さらに新しい力学スケーリング機構を設計、線形収束ダイナコールを得る。 重要となるのは, 定量化コンセンサス問題に対する既存結果の厳格な改善である。 数値実験は、異なる圧縮機の下で両方のアルゴリズムの利点を実証する。

Information compression is essential to reduce communication cost in distributed optimization over peer-to-peer networks. This paper proposes a communication-effici ent linearly convergent distributed (COLD) algorithm to solve strongly convex optimization problems. By compressing innovation vectors, which are the differences between decision vectors and their estimates, COLD is able to achieve linear convergence for a class of $\delta$-contracted compressors. We explicitly quantify how the compression affects the convergence rate and show that COLD matches the same rate of its uncompressed version. To accommodate a wider class of compressors that includes the binary quantizer, we further design a novel dynamical scaling mechanism and obtain the linearly convergent Dyna-COLD. Importantly, our results strictly improve existing results for the quantized consensus problem. Numerical experiments demonstrate the advantages of both algorithms under different compressors.
翻訳日:2021-05-17 20:59:24 公開日:2021-05-14
# (参考訳) 相関から未知の学習:タンパク質間相互作用予測のためのグラフニューラルネットワーク [全文訳有]

Learning Unknown from Correlations: Graph Neural Network for Inter-novel-protein Interaction Prediction ( http://arxiv.org/abs/2105.06709v1 )

ライセンス: CC BY 4.0
Guofeng Lv, Zhiqiang Hu, Yanguang Bi, Shaoting Zhang(参考訳) 多型蛋白質-タンパク質相互作用(ppi)の研究は、系統的な観点からの生物学的過程の理解と疾患メカニズムの解明に基礎を置いている。 既存のメソッドは、未発見のデータセットでテストされた場合、大幅なパフォーマンス低下に苦しむ。 本稿では,この問題について検討し,その原因は主にタンパク質間相互作用の予測性能の低下によるものであることを示す。 しかし、現在の評価では、ノベル-タンパク質間相互作用は見過ごされており、指導的評価は行わない。 その結果,評価手法と方法論の両方からこの問題に対処することを提案する。 まず,タンパク質間相互作用を完全に尊重し,データセット間で一貫した評価を行う新しい評価フレームワークを設計する。 第2に,タンパク質間の相関関係は新規タンパク質の解析に有用な情報を提供しなければならないと論じ,これに基づいて,タンパク質間の相互作用を予測するグラフニューラルネットワーク(GNN-PPI)を提案する。 異なるスケールの実世界のデータセットに対する実験結果から、GNN-PPIは最先端のPPI予測法、特にノーベルタンパク質間相互作用予測において著しく優れていることが示された。

The study of multi-type Protein-Protein Interaction (PPI) is fundamental for understanding biological processes from a systematic perspective and revealing disease mechanisms. Existing methods suffer from significant performance degradation when tested in unseen dataset. In this paper, we investigate the problem and find that it is mainly attributed to the poor performance for inter-novel-protein interaction prediction. However, current evaluations overlook the inter-novel-protein interactions, and thus fail to give an instructive assessment. As a result, we propose to address the problem from both the evaluation and the methodology. Firstly, we design a new evaluation framework that fully respects the inter-novel-protein interactions and gives consistent assessment across datasets. Secondly, we argue that correlations between proteins must provide useful information for analysis of novel proteins, and based on this, we propose a graph neural network based method (GNN-PPI) for better inter-novel-protein interaction prediction. Experimental results on real-world datasets of different scales demonstrate that GNN-PPI significantly outperforms state-of-the-art PPI prediction methods, especially for the inter-novel-protein interaction prediction.
翻訳日:2021-05-17 19:37:47 公開日:2021-05-14
# (参考訳) グラフ表現学習のための特徴ビューとトポロジビュー間の相互情報最大化 [全文訳有]

Maximizing Mutual Information Across Feature and Topology Views for Learning Graph Representations ( http://arxiv.org/abs/2105.06715v1 )

ライセンス: CC BY 4.0
Xiaolong Fan, Maoguo Gong, Yue Wu, Hao Li(参考訳) 近年,教師なしグラフ表現学習の強力な方法として,相互情報の最大化が出現している。 既存のメソッドは通常、トポロジービューから情報をキャプチャするが、機能ビューは無視する。 この問題を回避するために,特徴とトポロジの観点で相互情報の最大化を利用する新しい手法を提案する。 具体的には、まずマルチビュー表現学習モジュールを使用して、グラフ上の特徴ビューとトポロジビューをまたいだローカル情報とグローバル情報の両方をよりよくキャプチャする。 特徴空間と位相空間で共有される情報をモデル化するために,相互情報最大化と再構成損失最小化を用いた共通表現学習モジュールを開発する。 同じ視点からグラフ表現間の多様性を明確に促進するために、同じ視点から表現間の距離を拡大する不一致正規化を導入する。 合成および実世界のデータセットの実験は、特徴ビューとトポロジービューを統合する効果を示す。 特に,従来の教師付き手法と比較して,教師なし表現および線形評価プロトコルにおいて,提案手法は同等あるいはそれ以上の性能を達成できる。

Recently, maximizing mutual information has emerged as a powerful method for unsupervised graph representation learning. The existing methods are typically effective to capture information from the topology view but ignore the feature view. To circumvent this issue, we propose a novel approach by exploiting mutual information maximization across feature and topology views. Specifically, we first utilize a multi-view representation learning module to better capture both local and global information content across feature and topology views on graphs. To model the information shared by the feature and topology spaces, we then develop a common representation learning module using mutual information maximization and reconstruction loss minimization. To explicitly encourage diversity between graph representations from the same view, we also introduce a disagreement regularization to enlarge the distance between representations from the same view. Experiments on synthetic and real-world datasets demonstrate the effectiveness of integrating feature and topology views. In particular, compared with the previous supervised methods, our proposed method can achieve comparable or even better performance under the unsupervised representation and linear evaluation protocol.
翻訳日:2021-05-17 19:22:22 公開日:2021-05-14
# (参考訳) RC2020報告:バイアス表現による非バイアス表現の学習 [全文訳有]

RC2020 Report: Learning De-biased Representations with Biased Representations ( http://arxiv.org/abs/2105.06724v1 )

ライセンス: CC BY 4.0
Rwiddhi Chakraborty and Shubhayu Das(参考訳) ML Reproducibility Challenge 2020の一環として,BahngらによるICML 2020の論文 "Learning De-biased Representations with Biased Representations" ; を調査した。 本報告では,画像認識の応用領域,特にデータセットのバイアスed mnistとimagenetにおける作業の再現を試みた結果について報告する。 我々は、ReBiasをVanilla、Biased、RUBi(著者が実施した)といった他の手法と比較し、論文の主張の有効性に関する議論で結論づける。 偏りのあるMNISTデータセットの結果を、論文で報告された元の値の1%以内に再現することができた。 著者同様、平均3回以上の結果を報告します。 しかし、後段では、偏りのあるMNISTデータセットに関して、論文の中心的な主張を弱めるように見えるいくつかの追加結果を提供する。 元の論文のように、ImageNetの結果を再現することはできなかったが、著者とのコミュニケーションに基づいて、同じ理由について議論した。 この研究は、ReBiasを自身の研究目的に利用しようとする他の研究者にとって有用であり、プロセスで遭遇する可能性のある落とし穴について助言する。

As part of the ML Reproducibility Challenge 2020, we investigated the ICML 2020 paper "Learning De-biased Representations with Biased Representations" ; by Bahng et al., where the authors formalize and attempt to tackle the so called "cross bias generalization" problem with a new approach they introduce called ReBias. This report contains results of our attempts at reproducing the work in the application area of Image Recognition, specifically on the datasets biased MNIST and ImageNet. We compare ReBias with other methods - Vanilla, Biased, RUBi (as implemented by the authors), and conclude with a discussion concerning the validity of the claims made by the paper. We were able to reproduce results reported for the biased MNIST dataset to within 1% of the original values reported in the paper. Like the authors, we report results averaged over 3 runs. However, in a later section, we provide some additional results that appear to weaken the central claim of the paper with regards to the biased MNIST dataset. We were not able to reproduce results for ImageNet as in the original paper, but based on communication with the authors, provide a discussion as to the reasons for the same. This work attempts to be useful to other researchers aiming to use ReBias for their own research purposes, advising on certain possible pitfalls that may be encountered in the process.
翻訳日:2021-05-17 19:03:27 公開日:2021-05-14
# (参考訳) 概念埋め込みを用いたDNN活性化におけるサイズ不変性の検証 [全文訳有]

Verification of Size Invariance in DNN Activations using Concept Embeddings ( http://arxiv.org/abs/2105.06727v1 )

ライセンス: CC BY 4.0
Gesina Schwalbe(参考訳) ディープニューラルネットワーク(DNN)の利点は、医療用車や自動運転などの安全上重要なアプリケーションに注目されている。 しかし、DNNの内部表現に関する定量的な洞察は必須である。 これに対する1つのアプローチは概念分析であり、dnnの内部表現と直感的な意味概念のマッピングを確立することを目的としている。 これは、歩行者検出の検証に有用な人体部分のようなサブオブジェクトである。 我々の知る限りでは、概念分析はまだ大規模な物体検出器には適用されていない。 したがって、この研究はまず、サブオブジェクトのポストホックセグメンテーションのためのnet2vecアプローチ(arxiv:1801.03454)の大幅な改善を示唆する。 その実践的適用性は,Mask R-CNNモデル(arXiv:1703.06870):( 1)身体部分の類似性の整合性,(2)人物の画素の大きさに関する身体部分の内部表現の不変性を含む,3つの標準ネットワークの模範的評価により,新しい概念データセット上で実証される。 これらの結果から,身体部位の表現はほとんどがサイズ不変であり,異なるサイズカテゴリの情報を早期にインテリジェントに融合する可能性が示唆された。

The benefits of deep neural networks (DNNs) have become of interest for safety critical applications like medical ones or automated driving. Here, however, quantitative insights into the DNN inner representations are mandatory. One approach to this is concept analysis, which aims to establish a mapping between the internal representation of a DNN and intuitive semantic concepts. Such can be sub-objects like human body parts that are valuable for validation of pedestrian detection. To our knowledge, concept analysis has not yet been applied to large object detectors, specifically not for sub-parts. Therefore, this work first suggests a substantially improved version of the Net2Vec approach (arXiv:1801.03454) for post-hoc segmentation of sub-objects. Its practical applicability is then demonstrated on a new concept dataset by two exemplary assessments of three standard networks, including the larger Mask R-CNN model (arXiv:1703.06870): (1) the consistency of body part similarity, and (2) the invariance of internal representations of body parts with respect to the size in pixels of the depicted person. The findings show that the representation of body parts is mostly size invariant, which may suggest an early intelligent fusion of information in different size categories.
翻訳日:2021-05-17 18:52:12 公開日:2021-05-14
# (参考訳) 畳み込みニューラルネットワークを用いた顔年齢推定 [全文訳有]

Facial Age Estimation using Convolutional Neural Networks ( http://arxiv.org/abs/2105.06746v1 )

ライセンス: CC BY 4.0
Adrian Kj{\ae}rran and Christian Bakke Venner{\o}d and Erling Stray Bugge(参考訳) 本論文は,ノルウェー科学技術大学における機械学習の学生プロジェクトの一部である。 本稿では,5つの畳み込み層と3つの完全連結層を有する深層畳み込みニューラルネットワークを用いて,画像に基づいて個体の年齢を推定する。 モデルはスクラッチからトレーニングされ、3つの異なるデータセットの組み合わせがトレーニングデータとして使用される。 これらのデータセットはAPPAデータセット、UTKデータセット、IMDBデータセットである。 画像はプロプライエタリな顔認識ソフトウェアを使って前処理された。 我々のモデルはホールドアウトテストセットとAdienceベンチマークの両方で評価される。 テストセットにおいて,本モデルは52%のカテゴリ精度を達成している。 adienceベンチマークでは,本モデルが他の先行モデルに比べ,30%の精度と46%の精度で劣っていることを証明した。 さらにスクリプトが作成され、ユーザーはウェブカメラを使って年齢を直接見積もることができる。 スクリプトは、他のすべてのコードとともに、GitHubリポジトリ、 AgeNetにあります。

This paper is a part of a student project in Machine Learning at the Norwegian University of Science and Technology. In this paper, a deep convolutional neural network with five convolutional layers and three fully-connected layers is presented to estimate the ages of individuals based on images. The model is in its entirety trained from scratch, where a combination of three different datasets is used as training data. These datasets are the APPA dataset, UTK dataset, and the IMDB dataset. The images were preprocessed using a proprietary face-recognition software. Our model is evaluated on both a held-out test set, and on the Adience benchmark. On the test set, our model achieves a categorical accuracy of 52%. On the Adience benchmark, our model proves inferior compared with other leading models, with an exact accuray of 30%, and an one-off accuracy of 46%. Furthermore, a script was created, allowing users to estimate their age directly using their web camera. The script, alongside all other code, is located in our GitHub repository: AgeNet.
翻訳日:2021-05-17 18:41:45 公開日:2021-05-14
# (参考訳) 野生のブラインド画像品質モデルにおけるトラブルシューティング [全文訳有]

Troubleshooting Blind Image Quality Models in the Wild ( http://arxiv.org/abs/2105.06747v1 )

ライセンス: CC BY 4.0
Zhihua Wang and Haotao Wang and Tianlong Chen and Zhangyang Wang and Kede Ma(参考訳) 近年,グループ最大分化コンペティション(gMAD)は,視線画像品質評価(BIQA)モデルの改善に活用されている。 このようなアプローチを"最高のパフォーマンス(best-performing)&qu ot;biqaモデルのトラブルシュートに適用する場合,私たちは,実用的な課題に直面しています。 近年のディープモデルの難解なサンプルがネットワークプルーニングによって露出されることにインスパイアされた我々は、ターゲットモデルのプルーニングバージョンをランダムにアンサンブルして改善すべき「自己競合者」の集合を構築した。 様々な障害は、自己gMAD競合を通じて効率的に識別できる。 次に、人間の評価したgMADセット上で、ターゲットと刈り取られた変種の両方を微調整する。 これにより、すべてのモデルがそれぞれの失敗から学び、次のgMADコンテストに備えることができます。 実験結果から,BIQAモデルを野生で効率的にトラブルシュートし,一般化性を向上させた。

Recently, the group maximum differentiation competition (gMAD) has been used to improve blind image quality assessment (BIQA) models, with the help of full-reference metrics. When applying this type of approach to troubleshoot "best-performing" ; BIQA models in the wild, we are faced with a practical challenge: it is highly nontrivial to obtain stronger competing models for efficient failure-spotting. Inspired by recent findings that difficult samples of deep models may be exposed through network pruning, we construct a set of "self-competitors,&qu ot; as random ensembles of pruned versions of the target model to be improved. Diverse failures can then be efficiently identified via self-gMAD competition. Next, we fine-tune both the target and its pruned variants on the human-rated gMAD set. This allows all models to learn from their respective failures, preparing themselves for the next round of self-gMAD competition. Experimental results demonstrate that our method efficiently troubleshoots BIQA models in the wild with improved generalizability.
翻訳日:2021-05-17 18:31:09 公開日:2021-05-14
# (参考訳) 変圧器による長期臨床文書の分類 [全文訳有]

Classifying Long Clinical Documents with Pre-trained Transformers ( http://arxiv.org/abs/2105.06752v1 )

ライセンス: CC BY 4.0
Xin Su, Timothy Miller, Xiyu Ding, Majid Afshar and Dmitriy Dligach(参考訳) オートマチック・フェノタイピング(Automatic phenotyping)は、予め定義された基準に適合する患者のコホートを特定するタスクである。 表現型付けは通常、数千のトークンを含む長い臨床文書を分類する。 同時に、最近の最先端のトランスフォーマーベースの事前訓練言語モデルでは、入力を数百トークン(例)に制限している。 BERTのトークンは512個)。 臨床テキストの文書レベル表現に事前学習文エンコーダを組み込むためのいくつかの戦略を評価し,事前学習のない階層的トランスフォーマーがタスク事前学習モデルと競合することを見出した。

Automatic phenotyping is a task of identifying cohorts of patients that match a predefined set of criteria. Phenotyping typically involves classifying long clinical documents that contain thousands of tokens. At the same time, recent state-of-art transformer-based pre-trained language models limit the input to a few hundred tokens (e.g. 512 tokens for BERT). We evaluate several strategies for incorporating pre-trained sentence encoders into document-level representations of clinical text, and find that hierarchical transformers without pre-training are competitive with task pre-trained models.
翻訳日:2021-05-17 18:17:52 公開日:2021-05-14
# (参考訳) 長期短期記憶rnn [全文訳有]

Long Short-term Memory RNN ( http://arxiv.org/abs/2105.06756v1 )

ライセンス: CC BY 4.0
Christian Bakke Venner{\o}d and Adrian Kj{\ae}rran and Erling Stray Bugge(参考訳) 本論文は,2020年秋のノルウェー科学技術大学における機械学習プロジェクトに基づいている。 このプロジェクトは、過去5年間の科学コミュニティにおける時系列予測手法の最新の展開に関する文献レビューから始まった。 本論文は,本研究の本質的側面を概説する。 さらに,本論文ではLSTMセルのアーキテクチャを導入し,異なるコンポーネントが協調してセルのメモリを変更して出力を予測する方法について説明する。 また,LSTMによる前方反復計算に必要な公式や基礎も提供する。 そこで本研究では,時系列領域と自然言語処理(NLP)領域で示されるLSTMの強みと弱みを強調する実践的応用と研究について述べる。 最後に,ARIMAの概要と指数的平滑化を概説した時系列予測のための統計手法について述べる。 それにもかかわらず、LSTMは複雑なアーキテクチャと見なすことができるため、読者は多層パーセプトロン、アクティベーション関数、オーバーフィット、バックプロパゲーション、バイアス、オーバーフィット、アンダーフィットなど、基本的な機械学習の側面についてある程度の知識を持っていると仮定する。

This paper is based on a machine learning project at the Norwegian University of Science and Technology, fall 2020. The project was initiated with a literature review on the latest developments within time-series forecasting methods in the scientific community over the past five years. The paper summarizes the essential aspects of this research. Furthermore, in this paper, we introduce an LSTM cell's architecture, and explain how different components go together to alter the cell's memory and predict the output. Also, the paper provides the necessary formulas and foundations to calculate a forward iteration through an LSTM. Then, the paper refers to some practical applications and research that emphasize the strength and weaknesses of LSTMs, shown within the time-series domain and the natural language processing (NLP) domain. Finally, alternative statistical methods for time series predictions are highlighted, where the paper outline ARIMA and exponential smoothing. Nevertheless, as LSTMs can be viewed as a complex architecture, the paper assumes that the reader has some knowledge of essential machine learning aspects, such as the multi-layer perceptron, activation functions, overfitting, backpropagation, bias, over- and underfitting, and more.
翻訳日:2021-05-17 18:11:11 公開日:2021-05-14
# (参考訳) DialSumm: 実生活シナリオの対話要約データセット [全文訳有]

DialSumm: A Real-Life Scenario Dialogue Summarization Dataset ( http://arxiv.org/abs/2105.06762v1 )

ライセンス: CC BY 4.0
Yulong Chen, Yang Liu, Liang Chen and Yue Zhang(参考訳) 大規模データセットの提案により、ニュース要約のためのディープニューラルモデルの研究が容易になった。 ディープラーニングは音声対話の要約にも有用であり、顧客のサービス管理や薬物の追跡など、さまざまな現実的なシナリオに役立てることができる。 そこで本稿では,大規模ラベル付き対話要約データセットであるDialSummを提案する。 我々は、最先端のニューラルネットワークを用いたDialSummの実証分析を行う。 実験結果から,話し言葉,特別な談話構造,コアとエリプシス,プラグマティクス,社会的コモンセンスといった,特定の表現学習技術に対処するために必要な対話要約において,ユニークな課題が示された。

Proposal of large-scale datasets has facilitated research on deep neural models for news summarization. Deep learning can also be potentially useful for spoken dialogue summarization, which can benefit a range of real-life scenarios including customer service management and medication tracking. To this end, we propose DialSumm, a large-scale labeled dialogue summarization dataset. We conduct empirical analysis on DialSumm using state-of-the-art neural summarizers. Experimental results show unique challenges in dialogue summarization, such as spoken terms, special discourse structures, coreferences and ellipsis, pragmatics and social commonsense, which require specific representation learning technologies to better deal with.
翻訳日:2021-05-17 17:59:56 公開日:2021-05-14
# (参考訳) 新型ウイルスの自動診断のためのデュアルアテンション残差ネットワーク [全文訳有]

Dual-Attention Residual Network for Automatic Diagnosis of COVID-19 ( http://arxiv.org/abs/2105.06779v1 )

ライセンス: CC BY 4.0
Jun Shi, Huite Yi, Xiaoyu Hao, Hong An, Wei Wei(参考訳) 新型コロナウイルスの世界的なパンデミック(covid-19)は、公衆衛生と経済に深刻な脅威をもたらしている。 新型コロナウイルスの迅速かつ正確な診断は、病気のさらなる拡散を防ぎ、死亡率を減らすために重要である。 胸部CTは肺炎などの肺疾患の早期診断に有効なツールである。 しかし、一部の早期患者は画像に陰性な所見がある可能性があるため、CTからCOVID-19を検出することは人為的な誤りを招きやすい。 そこで本研究では,他の肺炎患者や一般人のCT画像からCOVID-19を自動的に検出する新たな残留ネットワークを提案する。 具体的には,改良された3d resnet18をバックボーンネットワークとして使用し,チャネルワイズ・アテンション (ca) と深度ワイズ・アテンション (da) モジュールを備え,診断性能をさらに向上させる。 大規模オープンソースデータセットを用いた実験の結果, 94.7%の精度, 93.73%の感度, 98.28%の特異性, 95.26%のf1-score, 受信機動作特性曲線 (auc) 下の0.99の領域でcovid-19を他の2クラスと区別できることがわかった。 これらの結果から,本手法が臨床医の早期診断支援に役立つ可能性が示唆された。

The ongoing global pandemic of Coronavirus Disease 2019 (COVID-19) has posed serious threat to public health and the economy. Rapid and accurate diagnosis of COVID-19 is crucial to prevent the further spread of the disease and reduce its mortality. Chest computed tomography (CT) is an effective tool for the early diagnosis of lung diseases including pneumonia. However, detecting COVID-19 from CT is demanding and prone to human errors as some early-stage patients may have negative findings on images. In this study, we propose a novel residual network to automatically identify COVID-19 from other common pneumonia and normal people using CT images. Specifically, we employ the modified 3D ResNet18 as the backbone network, which is equipped with both channel-wise attention (CA) and depth-wise attention (DA) modules to further improve the diagnostic performance. Experimental results on the large open-source dataset show that our method can differentiate COVID-19 from the other two classes with 94.7% accuracy, 93.73% sensitivity, 98.28% specificity, 95.26% F1-score, and an area under the receiver operating characteristic curve (AUC) of 0.99, outperforming baseline methods. These results demonstrate that the proposed method could potentially assist the clinicians in performing a quick diagnosis to fight COVID-19.
翻訳日:2021-05-17 17:43:55 公開日:2021-05-14
# (参考訳) 正規決定過程における効果的なPAC強化学習 [全文訳有]

Efficient PAC Reinforcement Learning in Regular Decision Processes ( http://arxiv.org/abs/2105.06784v1 )

ライセンス: CC BY 4.0
Alessandro Ronca and Giuseppe De Giacomo(参考訳) 近年,非マルコフ決定過程の形式として,規則的決定過程が提案されている。 規則的な決定プロセスは(通常の言語のように)歴史全体に依存する遷移関数と報酬関数によって特徴づけられる。 実際には、遷移関数と報酬関数の両方を有限トランスデューサと見なすことができる。 正規決定過程における強化学習について検討する。 我々の主な貢献は、決定過程を記述したパラメータの集合において、多項式時間で最適に近いポリシーをPAC学習できることである。 特定されたパラメータの集合は最小限であり、通常の決定プロセスの難しさを合理的に捉えていると論じる。

Recently regular decision processes have been proposed as a well-behaved form of non-Markov decision process. Regular decision processes are characterised by a transition function and a reward function that depend on the whole history, though regularly (as in regular languages). In practice both the transition and the reward functions can be seen as finite transducers. We study reinforcement learning in regular decision processes. Our main contribution is to show that a near-optimal policy can be PAC-learned in polynomial time in a set of parameters that describe the underlying decision process. We argue that the identified set of parameters is minimal and it reasonably captures the difficulty of a regular decision process.
翻訳日:2021-05-17 17:35:02 公開日:2021-05-14
# (参考訳) Agree to Disagree: Identical Architecturesを用いたディープラーニングモデルが特定の説明を生み出すとき [全文訳有]

Agree to Disagree: When Deep Learning Models With Identical Architectures Produce Distinct Explanations ( http://arxiv.org/abs/2105.06791v1 )

ライセンス: CC BY 4.0
Matthew Watson (1), Bashar Awwad Shiekh Hasan (1), Noura Al Moubayed (1) ((1) Durham University, Durham, UK)(参考訳) ニューラルネットワークの深層学習は、モデルが専門的精度レベルに達したり、超えたりすることで、医療において徐々に顕著になっている。 しかし、これらの成功談は、いくつかの病状や患者のサブグループに対するモデルの透明性の欠如とバイアスに関する報告によって語られる。 説明可能なメソッドは、これらの懸念の多くを軽減するためのゲートウェイと考えられている。 本研究では,生成した説明が,分類タスクとモデル構造に垂直なモデルトレーニングの変化に揮発することを示す。 これは、ヘルスケアのためのディープラーニングモデルの信頼性に関するさらなる疑問を提起する。 主に、モデルがデータ内の背後にある因果関係をキャプチャするか、あるいは説明手法によって見えるようにした散発的な相関に依存するかです。 ディープニューラルネットワークにおける説明可能性法の出力は、ランダムシードやトレーニングセットのシャッフルなど、ハイパーパラメータの変化によって大きく変化することが示されている。 我々は,MIMIC-CXRデータセットの特定問題を強調するために,説明整合性の尺度を導入する。 同じモデルの説明はありますが、異なるトレーニングセットアップでは一貫性が低く、平均で約33%です。 反対に、カーネルメソッドは直交的な変更に対して堅牢であり、説明一貫性は94%である。 モデル説明の現在の傾向は、実際の医療アプリケーションにモデルを展開するリスクを軽減するには不十分である。

Deep Learning of neural networks has progressively become more prominent in healthcare with models reaching, or even surpassing, expert accuracy levels. However, these success stories are tainted by concerning reports on the lack of model transparency and bias against some medical conditions or patients' sub-groups. Explainable methods are considered the gateway to alleviate many of these concerns. In this study we demonstrate that the generated explanations are volatile to changes in model training that are perpendicular to the classification task and model structure. This raises further questions about trust in deep learning models for healthcare. Mainly, whether the models capture underlying causal links in the data or just rely on spurious correlations that are made visible via explanation methods. We demonstrate that the output of explainability methods on deep neural networks can vary significantly by changes of hyper-parameters, such as the random seed or how the training set is shuffled. We introduce a measure of explanation consistency which we use to highlight the identified problems on the MIMIC-CXR dataset. We find explanations of identical models but with different training setups have a low consistency: $\approx$ 33% on average. On the contrary, kernel methods are robust against any orthogonal changes, with explanation consistency at 94%. We conclude that current trends in model explanation are not sufficient to mitigate the risks of deploying models in real life healthcare applications.
翻訳日:2021-05-17 16:56:28 公開日:2021-05-14
# (参考訳) Quantified Sleep: 観測N-of-1研究のための機械学習技術

Quantified Sleep: Machine learning techniques for observational n-of-1 studies ( http://arxiv.org/abs/2105.06811v1 )

ライセンス: CC BY 4.0
Gianluca Truda(参考訳) 本稿では,観察量化自己(qs)研究に統計的学習手法を適用し,睡眠品質の記述モデルを構築した。 合計472日間の睡眠データはouraのリングで収集され、ライフスタイル、環境、心理的データと組み合わせられた。 このようなn-of-1 qsプロジェクトは、異種データソース、値の欠如、高次元、動的フィードバックループ、人間のバイアスなど、多くの課題を提起している。 本稿では、これらの課題を、堅牢な記述モデルを生成するエンドツーエンドQSパイプラインで直接解決する。 睡眠の質は、高いノイズと多くの弱い要因により、qs研究において最も難しいモデリング対象の1つである。 本論文からのアプローチが他のn-of-1QSプロジェクトに一般化されるように睡眠品質が選択された。 データタイプ、サンプル頻度、スキーマ - イベントログ、天気予報、地理空間データなど - のさまざまなクラスの機能の組み合わせとエンジニアリングのためのテクニックが提示されている。 異常値,正規性,(自動)相関,定常性,欠如データの統計解析や,特徴の相関群を識別するための階層的クラスタリング手法について詳述した。 不足したデータは、複数の多変量計算アルゴリズムを含む知識ベースと統計技術の組み合わせで克服された。 歴史情報を取り入れつつ、時系列を独立した観察の集まりに分解するために「マルコフ展開」が提示される。 最後のモデルは2つの方法で解釈された。内部の$\beta$-parametersを検査し、SHAPフレームワークを使用する。 これら2つの解釈技術を組み合わせて16の予測的特徴のリストを作成し、観察的研究が介入qs研究を設計する際に考慮すべき特徴の数を大幅に狭めることを示した。

This paper applies statistical learning techniques to an observational Quantified-Self (QS) study to build a descriptive model of sleep quality. A total of 472 days of my sleep data was collected with an Oura ring and combined with lifestyle, environmental, and psychological data. Such n-of-1 QS projects pose a number of challenges: heterogeneous data sources; missing values; high dimensionality; dynamic feedback loops; human biases. This paper directly addresses these challenges with an end-to-end QS pipeline that produces robust descriptive models. Sleep quality is one of the most difficult modelling targets in QS research, due to high noise and a large number of weakly-contributing factors. Sleep quality was selected so that approaches from this paper would generalise to most other n-of-1 QS projects. Techniques are presented for combining and engineering features for the different classes of data types, sample frequencies, and schema - including event logs, weather, and geo-spatial data. Statistical analyses for outliers, normality, (auto)correlation, stationarity, and missing data are detailed, along with a proposed method for hierarchical clustering to identify correlated groups of features. The missing data was overcome using a combination of knowledge-based and statistical techniques, including several multivariate imputation algorithms. "Markov unfolding" is presented for collapsing the time series into a collection of independent observations, whilst incorporating historical information. The final model was interpreted in two ways: by inspecting the internal $\beta$-parameters, and using the SHAP framework. These two interpretation techniques were combined to produce a list of the 16 most-predictive features, demonstrating that an observational study can greatly narrow down the number of features that need to be considered when designing interventional QS studies.
翻訳日:2021-05-17 16:47:14 公開日:2021-05-14
# (参考訳) Sparsity-Probe:ディープラーニングモデルの解析ツール [全文訳有]

Sparsity-Probe: Analysis tool for Deep Learning Models ( http://arxiv.org/abs/2105.06849v1 )

ライセンス: CC BY 4.0
Ido Ben-Shaul and Shai Dekel(参考訳) 本稿では,機械学習に基づくディープラーニングアーキテクチャ解析のためのプローブと近似理論原理を提案する。 深層学習アーキテクチャとトレーニングセットが与えられた場合、トレーニングセットの幾何学的特徴を定量化することにより、トレーニング中または訓練後の中間層のパフォーマンスを分析することができる。 Sparsity Probeは、与えられたアーキテクチャに深さを追加し、パフォーマンスの低い層等を補助的なテストデータセットなしで検出するコントリビューションを計測する方法を示します。

We propose a probe for the analysis of deep learning architectures that is based on machine learning and approximation theoretical principles. Given a deep learning architecture and a training set, during or after training, the Sparsity Probe allows to analyze the performance of intermediate layers by quantifying the geometrical features of representations of the training set. We show how the Sparsity Probe enables measuring the contribution of adding depth to a given architecture, to detect under-performing layers, etc., all this without any auxiliary test data set.
翻訳日:2021-05-17 16:45:11 公開日:2021-05-14
# (参考訳) 要素群を用いた深層学習に基づくRISチャネル外挿 [全文訳有]

Deep Learning Based RIS Channel Extrapolation with Element-grouping ( http://arxiv.org/abs/2105.06850v1 )

ライセンス: CC BY 4.0
Shunbo Zhang, Shun Zhang, Feifei Gao, Jianpeng Ma, Octavia A. Dobre(参考訳) reconfigurable intelligent surface (ris) は将来の無線通信ネットワークにとって革命的な技術であると考えられている。 本書では,多数の受動RIS要素により,カスケードチャネルの獲得が困難な課題であると考えられる。 パイロットオーバヘッドを低減するため,一つのグループの各要素が同じ反射係数を共有し,同じチャネル条件を持つと仮定する要素群化戦略を採用する。 本稿では,要素群戦略によるチャネル干渉を分析し,さらに2つの深層学習ネットワークを設計する。 第1は干渉を排除して部分チャネルを洗練させることを目標とし、第2は精製された部分チャネルから全チャネルを外挿しようとする。 2つのネットワークをカスケードし、共同でトレーニングします。 シミュレーションの結果,提案手法は干渉除去を伴わない従来の要素群法に比べて大きな利得を示した。

Reconfigurable intelligent surface (RIS) is considered as a revolutionary technology for future wireless communication networks. In this letter, we consider the acquisition of the cascaded channels, which is a challenging task due to the massive number of passive RIS elements. To reduce the pilot overhead, we adopt the element-grouping strategy, where each element in one group shares the same reflection coefficient and is assumed to have the same channel condition. We analyze the channel interference caused by the element-grouping strategy and further design two deep learning based networks. The first one aims to refine the partial channels by eliminating the interference, while the second one tries to extrapolate the full channels from the refined partial channels. We cascade the two networks and jointly train them. Simulation results show that the proposed scheme provides significant gain compared to the conventional element-grouping method without interference elimination.
翻訳日:2021-05-17 16:25:15 公開日:2021-05-14
# (参考訳) ブラインド超解像のエンドツーエンド交互最適化 [全文訳有]

End-to-end Alternating Optimization for Blind Super Resolution ( http://arxiv.org/abs/2105.06878v1 )

ライセンス: CC BY 4.0
Zhengxiong Luo, Yan Huang, Shang Li, Liang Wang and Tieniu Tan(参考訳) 従来の方法では、ブラインド超解像(SR)問題を2つの逐次ステップに分解する: \textit{i}) 与えられた低解像度(LR)画像からぼやけたカーネルを推定し、推定されたカーネルに基づいてSRイメージを復元する。 この2段階のソリューションは、2つの独立に訓練されたモデルを含む。 第1ステップの小さな推定誤差は、第2ステップの厳しい性能低下を引き起こす可能性がある。 一方,最初のステップではLR画像からの限られた情報しか利用できないため,高精度なボケカーネルの予測が困難である。 これらの問題に対して,これら2つのステップを別々に考えるのではなく,ボケカーネルを推定し,sr画像を1つのモデルで復元する交互最適化アルゴリズムを採用する。 具体的には、2つの畳み込みニューラルモジュール、すなわち \textit{Restorer} と \textit{Estimator} を設計する。 \textit{restorer}は予測したカーネルに基づいてsrイメージを復元し、 \textit{estimator}は復元されたsrイメージの助けを借りてぼやけカーネルを推定する。 これら2つのモジュールを交換し、このプロセスを展開してエンドツーエンドのトレーニング可能なネットワークを形成します。 このようにして、 \textit{estimator} は lr と sr のイメージからの情報を利用するので、ぼかしカーネルの推定が容易になる。 より重要なことに、 \textit{restorer} は基底核の代わりに \textit{estimator} によって推定されるカーネルで訓練されるので、 \textit{restorer} は \textit{estimator} の推定誤差に耐性がある。 合成データセットと実世界の画像の大規模な実験により、我々のモデルは最先端の手法を大きく上回り、はるかに高速でより視覚的に好ましい結果が得られることが示された。 ソースコードは \url{https://github.com/g reatlog/dan.git} で入手できる。

Previous methods decompose the blind super-resolution (SR) problem into two sequential steps: \textit{i}) estimating the blur kernel from given low-resolution (LR) image and \textit{ii}) restoring the SR image based on the estimated kernel. This two-step solution involves two independently trained models, which may not be well compatible with each other. A small estimation error of the first step could cause a severe performance drop of the second one. While on the other hand, the first step can only utilize limited information from the LR image, which makes it difficult to predict a highly accurate blur kernel. Towards these issues, instead of considering these two steps separately, we adopt an alternating optimization algorithm, which can estimate the blur kernel and restore the SR image in a single model. Specifically, we design two convolutional neural modules, namely \textit{Restorer} and \textit{Estimator}. \textit{Restorer} restores the SR image based on the predicted kernel, and \textit{Estimator} estimates the blur kernel with the help of the restored SR image. We alternate these two modules repeatedly and unfold this process to form an end-to-end trainable network. In this way, \textit{Estimator} utilizes information from both LR and SR images, which makes the estimation of the blur kernel easier. More importantly, \textit{Restorer} is trained with the kernel estimated by \textit{Estimator}, instead of the ground-truth kernel, thus \textit{Restorer} could be more tolerant to the estimation error of \textit{Estimator}. Extensive experiments on synthetic datasets and real-world images show that our model can largely outperform state-of-the-art methods and produce more visually favorable results at a much higher speed. The source code is available at \url{https://github.com/g reatlog/DAN.git}.
翻訳日:2021-05-17 16:14:29 公開日:2021-05-14
# (参考訳) ベイジアン階層的混合クラスタリングの後方規則化 [全文訳有]

Posterior Regularisation on Bayesian Hierarchical Mixture Clustering ( http://arxiv.org/abs/2105.06903v1 )

ライセンス: CC BY 4.0
Weipeng Huang, Tin Lok James Ng, Nishma Laitonjam, Neil J. Hurley(参考訳) ベイジアン階層混合クラスタリング(BHMC)モデルを用いた最近の推論フレームワークについて検討した。 このフレームワークは、元のモデルの弱点を克服するためにベイズモデルに余分な制約を加える簡単な方法を促進する。 ベイズモデルのパラメータの探索空間を、発見された解の特徴に一定の制約を課す形式主義によって狭める。 本稿では,クラスタの分離を強化するために,階層のすべてのレベルにおいてノードに最大値制約を課すために,後続正規化を適用した。 本稿では,このフレームワークがBHMCとどのように統合されているかを示す。

We study a recent inferential framework, named posterior regularisation, on the Bayesian hierarchical mixture clustering (BHMC) model. This framework facilitates a simple way to impose extra constraints on a Bayesian model to overcome some weakness of the original model. It narrows the search space of the parameters of the Bayesian model through a formalism that imposes certain constraints on the features of the found solutions. In this paper, in order to enhance the separation of clusters, we apply posterior regularisation to impose max-margin constraints on the nodes at every level of the hierarchy. This paper shows how the framework integrates with BHMC and achieves the expected improvements over the original Bayesian model.
翻訳日:2021-05-17 15:47:07 公開日:2021-05-14
# (参考訳) 貯留層計算システムにおける階層アーキテクチャ [全文訳有]

Hierarchical Architectures in Reservoir Computing Systems ( http://arxiv.org/abs/2105.06923v1 )

ライセンス: CC BY 4.0
John Moon, Wei D. Lu (University of Michigan)(参考訳) Reservoir Computing(RC)は、リカレントニューラルネットワークを、リカレント接続とトレーニング可能な線形ネットワークを備えた固定ネットワークに分離することで、トレーニングコストの低い効率的な時間データ処理を提供する。 固定ネットワークの品質は貯水池と呼ばれ、RCシステムの性能を決定する最も重要な要素である。 本稿では, 階層型貯水池構造が貯水池の特性およびRCシステムの性能に及ぼす影響について検討する。 深層ニューラルネットワークと類似して、データ変換の非線形性を高次元空間に拡張し、貯水池が捉えた時間情報の多様性を拡大する効率的な方法である。 これらの深部貯水池システムは、単に貯水池の大きさや貯水池の数を増やすよりも性能が良い。 低周波成分は主に深部貯留層構造後期のサブ貯留層によって捉えられ、深部ニューラルネットワーク後期の層によってより抽象的な情報が抽出されるという観察と同様である。 貯水池の総規模が固定された場合, 個別貯水池の小型化能力の低下により, 貯水池数と各貯水池の大きさとのトレードオフを慎重に検討する必要がある。 深層貯留層構造の性能向上は、ハードウェアシステムにおけるrcシステム実装の難しさを軽減する。

Reservoir computing (RC) offers efficient temporal data processing with a low training cost by separating recurrent neural networks into a fixed network with recurrent connections and a trainable linear network. The quality of the fixed network, called reservoir, is the most important factor that determines the performance of the RC system. In this paper, we investigate the influence of the hierarchical reservoir structure on the properties of the reservoir and the performance of the RC system. Analogous to deep neural networks, stacking sub-reservoirs in series is an efficient way to enhance the nonlinearity of data transformation to high-dimensional space and expand the diversity of temporal information captured by the reservoir. These deep reservoir systems offer better performance when compared to simply increasing the size of the reservoir or the number of sub-reservoirs. Low frequency components are mainly captured by the sub-reservoirs in later stage of the deep reservoir structure, similar to observations that more abstract information can be extracted by layers in the late stage of deep neural networks. When the total size of the reservoir is fixed, tradeoff between the number of sub-reservoirs and the size of each sub-reservoir needs to be carefully considered, due to the degraded ability of individual sub-reservoirs at small sizes. Improved performance of the deep reservoir structure alleviates the difficulty of implementing the RC system on hardware systems.
翻訳日:2021-05-17 15:28:42 公開日:2021-05-14
# (参考訳) 深層学習SVT:より良いMSEを得るために特異値しきい値の展開 [全文訳有]

Deep learned SVT: Unrolling singular value thresholding to obtain better MSE ( http://arxiv.org/abs/2105.06934v1 )

ライセンス: CC BY 4.0
Siva Shanmugam, Sheetal Kalyani(参考訳) アフィン階数最小化問題は、低階数行列の成分の線形結合を観測し、これらの測定値から行列を推定する低階数行列完備化問題の一般化版である。 そこで本研究では,singular value thresholding (svt) アルゴリズムと呼ばれる一般的な反復アルゴリズムを用いて,学習されたsvt (lsvt) と呼ばれる一般化行列補完を行うことにより,学習可能なディープニューラルネットワークを提案する。 提案手法は,固定層(例えばT)を持つ LSVT において, SVT が繰り返し回数を固定した SVT よりも少ない平均二乗誤差 (MSE) で行列を再構成し, SVT アルゴリズムで慎重に選択する必要があるパラメータに対して, より堅牢であることを示す。

Affine rank minimization problem is the generalized version of low rank matrix completion problem where linear combinations of the entries of a low rank matrix are observed and the matrix is estimated from these measurements. We propose a trainable deep neural network by unrolling a popular iterative algorithm called the singular value thresholding (SVT) algorithm to perform this generalized matrix completion which we call Learned SVT (LSVT). We show that our proposed LSVT with fixed layers (say T) reconstructs the matrix with lesser mean squared error (MSE) compared with that incurred by SVT with fixed (same T) number of iterations and our method is much more robust to the parameters which need to be carefully chosen in SVT algorithm.
翻訳日:2021-05-17 15:13:33 公開日:2021-05-14
# (参考訳) Plot and Rework: ストーリーテリングのためのストーリーラインのモデリング [全文訳有]

Plot and Rework: Modeling Storylines for Visual Storytelling ( http://arxiv.org/abs/2105.06950v1 )

ライセンス: CC BY 4.0
Chi-Yang Hsu, Yun-Wei Chu, Ting-Hao (Kenneth) Huang, Lun-Wei Ku(参考訳) コヒーレントで魅力的なストーリーを書くのは簡単ではありません。 創造的な作家は彼らの知識と世界観を使い、無関係な要素を結合してコヒーレントなストーリーラインを作り、完璧に向けて反復的に作業し、再作業する。 しかし、VIST(Automated Visual Storytelling)モデルでは、ストーリーを作成しようとする場合、外部知識と反復生成が不十分である。 本稿では,入力画像列をストーリーグラフとして表現するフレームワークであるPR-VISTを紹介する。 PR-VISTはこの道を進み、反復的なトレーニングプロセスを通じて最終ストーリーを生成することを学ぶ。 このフレームワークは、自動評価と人間評価の両方において、多様性、一貫性、人間性において優れたストーリーを生み出す。 アブレーション研究は、プロットとリワークの両方がモデルの優位性に貢献していることを示している。

Writing a coherent and engaging story is not easy. Creative writers use their knowledge and worldview to put disjointed elements together to form a coherent storyline, and work and rework iteratively toward perfection. Automated visual storytelling (VIST) models, however, make poor use of external knowledge and iterative generation when attempting to create stories. This paper introduces PR-VIST, a framework that represents the input image sequence as a story graph in which it finds the best path to form a storyline. PR-VIST then takes this path and learns to generate the final story via an iterative training process. This framework produces stories that are superior in terms of diversity, coherence, and humanness, per both automatic and human evaluations. An ablation study shows that both plotting and reworking contribute to the model's superiority.
翻訳日:2021-05-17 15:03:30 公開日:2021-05-14
# (参考訳) ガウス型エントロピー・リスク・バンディットのトンプソンサンプリング [全文訳有]

Thompson Sampling for Gaussian Entropic Risk Bandits ( http://arxiv.org/abs/2105.06960v1 )

ライセンス: CC BY 4.0
Ming Liang Ang, Eloise Y. Y. Lim, Joel Q. L. Chang(参考訳) マルチアームバンディット(英: multi-armed bandit、MAB)は、探検と探査のトレードオフを示すユビキタスな意思決定問題である。 標準定式化は意思決定のリスクを除外する。 リスクを意識して、報酬を最大化する基本的な目的を複雑にする。 本稿では,このリスク尺度の下でのトンプソンサンプリングに基づくアルゴリズムの性能を,ertとそれに対応するインスタンス依存下限に対する後悔の限界を提供することにより,エントロピーリスク(er)の測定と検討する。

The multi-armed bandit (MAB) problem is a ubiquitous decision-making problem that exemplifies exploration-exploita tion tradeoff. Standard formulations exclude risk in decision making. Risknotably complicates the basic reward-maximising objectives, in part because there is no universally agreed definition of it. In this paper, we consider an entropic risk (ER) measure and explore the performance of a Thompson sampling-based algorithm ERTS under this risk measure by providing regret bounds for ERTS and corresponding instance dependent lower bounds.
翻訳日:2021-05-17 14:50:01 公開日:2021-05-14
# (参考訳) 相対的なクロース表現の因果関係が合意予測に及ぼす影響を否定する対人的介入 [全文訳有]

Counterfactual Interventions Reveal the Causal Effect of Relative Clause Representations on Agreement Prediction ( http://arxiv.org/abs/2105.06965v1 )

ライセンス: CC BY 4.0
Shauli Ravfogel, Grusha Prasad, Tal Linzen, Yoav Goldberg(参考訳) 言語モデルが構文的に複雑な文を処理する場合、これらの文に存在する抽象構文情報は英語の文法と一致しているか、それともヒューリスティックのセットのみに依存しているのか? 本稿では,この問題に対処する手法AlterRepを提案する。 文中の任意の言語的特徴に対して、alterrepは、この特徴がどのようにエンコードされるかを変更しながら、元の表現の他のすべての側面をそのままにすることで、偽の表現を生成することができる。 そして、異なる文におけるこれらの反事実表現を用いてモデルの単語予測の変化を測定することにより、モデルが言語的特徴を使用する文脈について(もしあれば)因果的結論を導き出すことができる。 この手法を用いて,BERT が相対節(RC)をいかに情報に当てはめているかを調べることで,言語戦略を用いた合意予測において,BERT が RC に関する情報を使用することがわかった。 また,特定のRCサブタイプに対して生成された反事実表現が,他のRCサブタイプを含む文の数値予測に影響を及ぼし,RC境界に関する情報がBERTの表現に抽象的に符号化されたことを示唆した。

When language models process syntactically complex sentences, do they use abstract syntactic information present in these sentences in a manner that is consistent with the grammar of English, or do they rely solely on a set of heuristics? We propose a method to tackle this question, AlterRep. For any linguistic feature in the sentence, AlterRep allows us to generate counterfactual representations by altering how this feature is encoded, while leaving all other aspects of the original representation intact. Then, by measuring the change in a models' word prediction with these counterfactual representations in different sentences, we can draw causal conclusions about the contexts in which the model uses the linguistic feature (if any). Applying this method to study how BERT uses relative clause (RC) span information, we found that BERT uses information about RC spans during agreement prediction using the linguistically strategy. We also found that counterfactual representations generated for a specific RC subtype influenced the number prediction in sentences with other RC subtypes, suggesting that information about RC boundaries was encoded abstractly in BERT's representation.
翻訳日:2021-05-17 14:07:30 公開日:2021-05-14
# (参考訳) シームズネットワークを用いた小型ギャラリーのオープンセット顔認識 [全文訳有]

Open-set Face Recognition for Small Galleries Using Siamese Networks ( http://arxiv.org/abs/2105.06967v1 )

ライセンス: CC BY 4.0
Gabriel Salomon, Alceu Britto, Rafael H. Vareto, William R. Schwartz, David Menotti(参考訳) 顔認識はバイオメトリックスの最も重要で探求された分野の1つである。 現実世界のアプリケーションでは、顔認識手法は通常、トレーニングフェーズ(オープンセットのシナリオ)中に全てのプローブ個人が見られたわけではないシナリオを扱う必要がある。 したがって、すべての顔が事前に知られているわけではない空間における個人を特定することを扱うため、オープンセットの顔認識は関心を増す。 これは、アクセス認証のようないくつかのアプリケーションで有用であり、ギャラリーに以前登録された少数の個人だけが許可されている。 本研究は, オープンセット顔認識への新しいアプローチとして, アイデンティティ検索ではなく, 小規模のギャラリーと登録検出に着目した手法を提案する。 フェースプローブがギャラリーに登録されているかどうかを検証ライクなアプローチで検出するモデルを学習するために,シームズネットワークアーキテクチャを提案する。 pubfig83、frgcv1およびlfwデータセットで実施した実験において、小規模のギャラリーで有望な結果が得られた。 HFCNやHPLSのような最先端の手法はFRGCv1よりも優れていた。 また,lfw上の小ギャラリー実験に新たな評価プロトコルが導入された。

Face recognition has been one of the most relevant and explored fields of Biometrics. In real-world applications, face recognition methods usually must deal with scenarios where not all probe individuals were seen during the training phase (open-set scenarios). Therefore, open-set face recognition is a subject of increasing interest as it deals with identifying individuals in a space where not all faces are known in advance. This is useful in several applications, such as access authentication, on which only a few individuals that have been previously enrolled in a gallery are allowed. The present work introduces a novel approach towards open-set face recognition focusing on small galleries and in enrollment detection, not identity retrieval. A Siamese Network architecture is proposed to learn a model to detect if a face probe is enrolled in the gallery based on a verification-like approach. Promising results were achieved for small galleries on experiments carried out on Pubfig83, FRGCv1 and LFW datasets. State-of-the-art methods like HFCN and HPLS were outperformed on FRGCv1. Besides, a new evaluation protocol is introduced for experiments in small galleries on LFW.
翻訳日:2021-05-17 13:49:21 公開日:2021-05-14
# (参考訳) Omnimatte: オブジェクトの関連とビデオへの影響 [全文訳有]

Omnimatte: Associating Objects and Their Effects in Video ( http://arxiv.org/abs/2105.06993v1 )

ライセンス: CC BY 4.0
Erika Lu, Forrester Cole, Tali Dekel, Andrew Zisserman, William T. Freeman, Michael Rubinstein(参考訳) コンピュータビジョンは、画像やビデオのオブジェクトのセグメンテーションに益々有効であるが、シャドウ、反射、発煙などのオブジェクトに関連するシーン効果は見過ごされている。 このようなシーン効果を識別し、それらを生成するオブジェクトと関連付けることは、視覚シーンの基本的な理解を改善するために重要であり、また、ビデオ内のオブジェクトの削除、複製、拡張といった様々なアプリケーションを支援することもできる。 そこで本研究では,映像中の物体とそれらの効果を自動的に関連付けるという,この新たな問題を解決するための一歩を踏み出した。 1つ以上の被写体の時間に通常のビデオと粗いセグメンテーションマスクが与えられた場合、各被写体のオムニマットを推定する。 我々のモデルは、手動のラベルを使わずに、自己監督的な方法でのみ訓練され、任意のオブジェクトや様々な効果に対して、オムニマトを自動生成する。 被験者(車、動物、人間)と複雑な効果(煙や反射など半透明な要素から被写体に付随する物体のような完全に不透明な効果まで)の相互作用を含む実世界ビデオに結果を示す。

Computer vision is increasingly effective at segmenting objects in images and videos; however, scene effects related to the objects---shadows, reflections, generated smoke, etc---are typically overlooked. Identifying such scene effects and associating them with the objects producing them is important for improving our fundamental understanding of visual scenes, and can also assist a variety of applications such as removing, duplicating, or enhancing objects in video. In this work, we take a step towards solving this novel problem of automatically associating objects with their effects in video. Given an ordinary video and a rough segmentation mask over time of one or more subjects of interest, we estimate an omnimatte for each subject---an alpha matte and color image that includes the subject along with all its related time-varying scene elements. Our model is trained only on the input video in a self-supervised manner, without any manual labels, and is generic---it produces omnimattes automatically for arbitrary objects and a variety of effects. We show results on real-world videos containing interactions between different types of subjects (cars, animals, people) and complex effects, ranging from semi-transparent elements such as smoke and reflections, to fully opaque effects such as objects attached to the subject.
翻訳日:2021-05-17 13:38:55 公開日:2021-05-14
# (参考訳) BERTバスターズ:BERTをディスラプトする外層ノーム次元 [全文訳有]

BERT Busters: Outlier LayerNorm Dimensions that Disrupt BERT ( http://arxiv.org/abs/2105.06990v1 )

ライセンス: CC BY 4.0
Olga Kovaleva, Saurabh Kulshreshtha, Anna Rogers and Anna Rumshisky(参考訳) 複数の研究によると、BERTはプルーニングに対して極めて堅牢であるが、下流のタスク全体においてそのコンポーネントが高い重要性を維持している場合はほとんどない。 学習前のTransformerエンコーダは,この知恵とは対照的に,出力層正規化における非常に少数のスケーリング係数とバイアス(モデル重みの0.0001%)の除去により,驚くほど脆弱であることを示す。 これらは、事前訓練の初期に出現し、モデル全体で同じ次元の位置に一貫して現れる高次正規化パラメータである。 bertファミリーの6つのモデルすべてに存在し、mlmのパープレキシティと下流のタスクパフォーマンスを著しく低下させ、取り除いた。 以上の結果から,通常よりも層正規化が重要な役割を担っていることが示唆された。

Multiple studies have shown that BERT is remarkably robust to pruning, yet few if any of its components retain high importance across downstream tasks. Contrary to this received wisdom, we demonstrate that pre-trained Transformer encoders are surprisingly fragile to the removal of a very small number of scaling factors and biases in the output layer normalization (<0.0001% of model weights). These are high-magnitude normalization parameters that emerge early in pre-training and show up consistently in the same dimensional position throughout the model. They are present in all six models of BERT family that we examined and removing them significantly degrades both the MLM perplexity and the downstream task performance. Our results suggest that layer normalization plays a much more important role than usually assumed.
翻訳日:2021-05-17 13:14:31 公開日:2021-05-14
# ビデオ質問応答のための関係認識階層的注意フレームワーク

Relation-aware Hierarchical Attention Framework for Video Question Answering ( http://arxiv.org/abs/2105.06160v2 )

ライセンス: Link先を確認
Fangtao Li, Ting Bai, Chenyu Cao, Zihe Liu, Chenghao Yan, Bin Wu(参考訳) Video Question Answering (VideoQA)は、質問とビデオの両方の深い理解を必要とするため、難しいビデオ理解タスクである。 これまでの研究は主に、高度な視覚および言語埋め込みの抽出に重点を置いており、手作りの繊細なネットワークでそれらを融合している。 しかし,既存のほとんどの手法では無視される時間とともに,問題に対する異なるフレーム,オブジェクト,モダリティの関連性が異なる。 オブジェクト間の動的関係と相互作用に関する理解の欠如は、VideoQAタスクに大きな課題をもたらします。 この問題に対処するために,ビデオ中のオブジェクトの静的および動的関係を学習するためのrha(relation-aware hierarchical attention)フレームワークを提案する。 特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。 次に、グラフベースの関係エンコーダを用いて、視覚オブジェクト間の静的関係を抽出する。 異なる映像フレームにおけるマルチモーダルオブジェクトの動的変化を捉えるために,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダル特徴を融合させ,応答を予測する。 我々は大規模なビデオQAデータセットで広範な実験を行い、実験結果からRHAが最先端の手法よりも優れていることが示された。

Video Question Answering (VideoQA) is a challenging video understanding task since it requires a deep understanding of both question and video. Previous studies mainly focus on extracting sophisticated visual and language embeddings, fusing them by delicate hand-crafted networks. However, the relevance of different frames, objects, and modalities to the question are varied along with the time, which is ignored in most of existing methods. Lacking understanding of the the dynamic relationships and interactions among objects brings a great challenge to VideoQA task. To address this problem, we propose a novel Relation-aware Hierarchical Attention (RHA) framework to learn both the static and dynamic relations of the objects in videos. In particular, videos and questions are embedded by pre-trained models firstly to obtain the visual and textual features. Then a graph-based relation encoder is utilized to extract the static relationship between visual objects. To capture the dynamic changes of multimodal objects in different video frames, we consider the temporal, spatial, and semantic relations, and fuse the multimodal features by hierarchical attention mechanism to predict the answer. We conduct extensive experiments on a large scale VideoQA dataset, and the experimental results demonstrate that our RHA outperforms the state-of-the-art methods.
翻訳日:2021-05-17 12:57:59 公開日:2021-05-14
# SaRoCo:新しいルーマニアのニュース記事のコーパスでサファイアを検出する

SaRoCo: Detecting Satire in a Novel Romanian Corpus of News Articles ( http://arxiv.org/abs/2105.06456v2 )

ライセンス: Link先を確認
Ana-Cristina Rogoz, Mihaela Gaman, Radu Tudor Ionescu(参考訳) 本稿では,ルーマニアニュースにおける風刺検出のためのコーパスを提案する。 我々は、複数の現実および風刺的なニュースソースから55,608件のニュース記事を収集し、言語に関係なく、ルーマニア語で唯一風刺検出のための最大のコーパスの1つを作成した。 本稿では,テストニュース記事と異なる情報源に属するニュース記事のトレーニングを行うためのテキストサンプルを公式に分割し,過度な適合のため,モデルがハイパフォーマンスを達成できないことを保証する。 2つの最先端のディープニューラルモデルで実験を行い、その結果、新しいコーパスの強力なベースラインが出来上がった。 その結果,ルーマニア語における風刺検出の機械レベルの精度は,人間レベルの精度(87%)に比べ非常に低く,今後の研究に十分な改善の余地を残していることがわかった。

In this work, we introduce a corpus for satire detection in Romanian news. We gathered 55,608 public news articles from multiple real and satirical news sources, composing one of the largest corpora for satire detection regardless of language and the only one for the Romanian language. We provide an official split of the text samples, such that training news articles belong to different sources than test news articles, thus ensuring that models do not achieve high performance simply due to overfitting. We conduct experiments with two state-of-the-art deep neural models, resulting in a set of strong baselines for our novel corpus. Our results show that the machine-level accuracy for satire detection in Romanian is quite low (under 73% on the test set) compared to the human-level accuracy (87%), leaving enough room for improvement in future research.
翻訳日:2021-05-17 12:57:38 公開日:2021-05-14
# ミャンマー音声認識のためのCTCに基づくエンドツーエンド手法の探索

Exploring CTC Based End-to-End Techniques for Myanmar Speech Recognition ( http://arxiv.org/abs/2105.06253v2 )

ライセンス: Link先を確認
Khin Me Me Chit, Laet Laet Lin(参考訳) 本研究では,ミャンマー語における接続型時間分類(CTC)に基づくエンドツーエンド自動音声認識(ASR)モデルについて検討する。 畳み込み層を追加・ドロップするモデルのトポロジーに一連の実験を行い、双方向長短期記憶層(BLSTM)の深度を異なるラベル符号化法を用いて検討した。 実験はミャンマーの音声コーパスを26時間近く使用して低リソースシナリオで実施した。 最良のモデルは4.72%の文字誤り率(CER)と12.38%の音節誤り率(SER)を達成する。

In this work, we explore a Connectionist Temporal Classification (CTC) based end-to-end Automatic Speech Recognition (ASR) model for the Myanmar language. A series of experiments is presented on the topology of the model in which the convolutional layers are added and dropped, different depths of bidirectional long short-term memory (BLSTM) layers are used and different label encoding methods are investigated. The experiments are carried out in low-resource scenarios using our recorded Myanmar speech corpus of nearly 26 hours. The best model achieves character error rate (CER) of 4.72% and syllable error rate (SER) of 12.38% on the test set.
翻訳日:2021-05-17 12:57:22 公開日:2021-05-14
# TransferI2I:小さなデータセットからの画像間変換のためのトランスファー学習

TransferI2I: Transfer Learning for Image-to-Image Translation from Small Datasets ( http://arxiv.org/abs/2105.06219v2 )

ライセンス: Link先を確認
Yaxing Wang, Hector Laria Mantecon, Joost van de Weijer, Laura Lopez-Fuentes, Bogdan Raducanu(参考訳) 画像から画像への変換(I2I)は近年成熟しており、高品質なリアルな画像を生成することができる。 しかし、現在の成功にもかかわらず、小さなドメインに適用する場合、依然として重要な課題に直面している。 既存の方法はi2i翻訳に転送学習を使用するが、それでも数百万のパラメータをスクラッチから学習する必要がある。 この欠点は、小さなドメインへの適用を厳しく制限する。 本稿では,I2I翻訳のための新しいトランスファー学習(TransferI2I)を提案する。 学習プロセスを画像生成ステップとI2I翻訳ステップに分離する。 最初のステップでは、ソースターゲットの初期化とアダプタ層の自己初期化という2つの新しい手法を提案する。 前者は、ソースおよびターゲットデータに対して事前訓練された生成モデル(例えばstylegan)を微調整する。 後者では、データを必要としないネットワークパラメータを初期化することができる。 これらの技術は、I2I翻訳ステップのより優れた初期化を提供する。 さらに,小データセットからでも深部I2Iシステムのトレーニングを容易にする補助的なGANを導入する。 3つのデータセット(Animal face, Birds, Foods)の広範な実験では、既存の手法よりも優れており、mFIDは25以上の点を持つ複数のデータセットで改善されている。

Image-to-image (I2I) translation has matured in recent years and is able to generate high-quality realistic images. However, despite current success, it still faces important challenges when applied to small domains. Existing methods use transfer learning for I2I translation, but they still require the learning of millions of parameters from scratch. This drawback severely limits its application on small domains. In this paper, we propose a new transfer learning for I2I translation (TransferI2I). We decouple our learning process into the image generation step and the I2I translation step. In the first step we propose two novel techniques: source-target initialization and self-initialization of the adaptor layer. The former finetunes the pretrained generative model (e.g., StyleGAN) on source and target data. The latter allows to initialize all non-pretrained network parameters without the need of any data. These techniques provide a better initialization for the I2I translation step. In addition, we introduce an auxiliary GAN that further facilitates the training of deep I2I systems even from small datasets. In extensive experiments on three datasets, (Animal faces, Birds, and Foods), we show that we outperform existing methods and that mFID improves on several datasets with over 25 points.
翻訳日:2021-05-17 12:57:11 公開日:2021-05-14
# FeTS (Feerated tumor Segmentation) の挑戦

The Federated Tumor Segmentation (FeTS) Challenge ( http://arxiv.org/abs/2105.05874v2 )

ライセンス: Link先を確認
Sarthak Pati, Ujjwal Baid, Maximilian Zenk, Brandon Edwards, Micah Sheller, G. Anthony Reina, Patrick Foley, Alexey Gruzdev, Jason Martin, Shadi Albarqouni, Yong Chen, Russell Taki Shinohara, Annika Reinke, David Zimmerer, John B. Freymann, Justin S. Kirby, Christos Davatzikos, Rivka R. Colen, Aikaterini Kotrotsou, Daniel Marcus, Mikhail Milchenko, Arash Nazer, Hassan Fathallah-Shaykh, Roland Wiest, Andras Jakab, Marc-Andre Weber, Abhishek Mahajan, Lena Maier-Hein, Jens Kleesiek, Bjoern Menze, Klaus Maier-Hein, Spyridon Bakas(参考訳) 本論文は,FeTS(Federated tumor Segmentation)の2021年の課題として,フェデレートラーニングに関する最初の課題について述べる。 しかし、「実世界の」臨床データに対する実際の参加(勝利でさえ)アルゴリズムのパフォーマンスは、課題に含まれるデータは、通常、少数の機関で非常に制御された設定で取得されるため、しばしば不明である。 このような課題において、ますます多くの機関からデータを集めるという明らかな解決策は、プライバシーと所有権のハードルのためにうまくスケールしない。 これらの懸念を和らげるために,我々は,内在性異質性(外観,形状,組織学)脳腫瘍(グリオーマ)の分節モデルの開発と評価に向け,FeTSチャレンジ2021を提案する。 具体的には、FeTS 2021チャレンジでは、BraTS 2020チャレンジから取得した多施設磁気共鳴イメージング(MRI)スキャンと、現実世界のフェデレーション(https://www.fets.ai /)のコラボレーティブネットワークに含まれる様々なリモート独立機関を用いている。 fetsチャレンジのゴールは、1)複数の地理的に異なる機関からの連合学習によって知識を得たコンセンサスモデルのトレーニングに対する最適な重み集約アプローチの特定、2)脳腫瘍のセグメンテーションモデルの「野生」における一般化可能性の連合評価、の2つのタスクによって直接表現される。 トレーニングデータセットの一部ではない機関分布のデータについて。

This manuscript describes the first challenge on Federated Learning, namely the Federated Tumor Segmentation (FeTS) challenge 2021. International challenges have become the standard for validation of biomedical image analysis methods. However, the actual performance of participating (even the winning) algorithms on "real-world" clinical data often remains unclear, as the data included in challenges are usually acquired in very controlled settings at few institutions. The seemingly obvious solution of just collecting increasingly more data from more institutions in such challenges does not scale well due to privacy and ownership hurdles. Towards alleviating these concerns, we are proposing the FeTS challenge 2021 to cater towards both the development and the evaluation of models for the segmentation of intrinsically heterogeneous (in appearance, shape, and histology) brain tumors, namely gliomas. Specifically, the FeTS 2021 challenge uses clinically acquired, multi-institutional magnetic resonance imaging (MRI) scans from the BraTS 2020 challenge, as well as from various remote independent institutions included in the collaborative network of a real-world federation (https://www.fets.ai /). The goals of the FeTS challenge are directly represented by the two included tasks: 1) the identification of the optimal weight aggregation approach towards the training of a consensus model that has gained knowledge via federated learning from multiple geographically distinct institutions, while their data are always retained within each institution, and 2) the federated evaluation of the generalizability of brain tumor segmentation models "in the wild", i.e. on data from institutional distributions that were not part of the training datasets.
翻訳日:2021-05-17 12:56:43 公開日:2021-05-14
# HeunNet: Heunのメソッドを使ってResNetを拡張する

HeunNet: Extending ResNet using Heun's Methods ( http://arxiv.org/abs/2105.06168v2 )

ライセンス: Link先を確認
Mehrdad Maleki and Mansura Habiba and Barak A. Pearlmutter(参考訳) ディープニューラルネットワークのためのResNet(Residual Network)アーキテクチャとODEのためのEulerソルバとの間には類似性がある。 各層が行う変換は、ODEを解く際のオイラーステップに似ている。 We consider the Heun Method, which with a single predictor-corrector cycle, and complete the analogy, building a predictor-corrector variant of ResNet, which we called a HeunNet。 HeunNetの手法がEulerの手法よりも正確であるように、実験により、HeunNetはバニラ再帰ニューラルネットワークや他のResNetの変種と比較して、低計算時間(トレーニングとテストの両方)で高い精度を達成することが示された。

There is an analogy between the ResNet (Residual Network) architecture for deep neural networks and an Euler solver for an ODE. The transformation performed by each layer resembles an Euler step in solving an ODE. We consider the Heun Method, which involves a single predictor-corrector cycle, and complete the analogy, building a predictor-corrector variant of ResNet, which we call a HeunNet. Just as Heun's method is more accurate than Euler's, experiments show that HeunNet achieves high accuracy with low computational (both training and test) time compared to both vanilla recurrent neural networks and other ResNet variants.
翻訳日:2021-05-17 12:56:13 公開日:2021-05-14
# 文脈対応翻訳モデルは適切な注意を払うか?

Do Context-Aware Translation Models Pay the Right Attention? ( http://arxiv.org/abs/2105.06977v1 )

ライセンス: Link先を確認
Kayo Yin, Patrick Fernandes, Danish Pruthi, Aditi Chaudhary, Andr\'e F. T. Martins, Graham Neubig(参考訳) コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。 結果として、解決のために文脈を必要とする代名詞と多義語を不正確に曖昧にする。 本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。 モデルは同じ文脈に多くの注意を払っていますか? それらを明示的にトレーニングすればどうでしょう? そこで本研究では,14K翻訳の文脈語をサポートする英語・フランス語のデータセットであるSCAT(Supporting Context for Ambiguous Translations)を紹介する。 SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。 さらに,モデルの注意点とSCATからの支持状況との整合度を測定し,両者の合意を促進するための注意戦略を適用した。

Context-aware machine translation models are designed to leverage contextual information, but often fail to do so. As a result, they inaccurately disambiguate pronouns and polysemous words that require context for resolution. In this paper, we ask several questions: What contexts do human translators use to resolve ambiguous words? Are models paying large amounts of attention to the same context? What if we explicitly train them to do so? To answer these questions, we introduce SCAT (Supporting Context for Ambiguous Translations), a new English-French dataset comprising supporting context words for 14K translations that professional translators found useful for pronoun disambiguation. Using SCAT, we perform an in-depth analysis of the context used to disambiguate, examining positional and lexical characteristics of the supporting words. Furthermore, we measure the degree of alignment between the model's attention scores and the supporting context from SCAT, and apply a guided attention strategy to encourage agreement between the two.
翻訳日:2021-05-17 12:55:58 公開日:2021-05-14
# プロキシターゲットを持つ多数のクラスへのアンサンブル分布蒸留のスケーリング

Scaling Ensemble Distribution Distillation to Many Classes with Proxy Targets ( http://arxiv.org/abs/2105.06987v1 )

ライセンス: Link先を確認
Max Ryabinin, Andrey Malinin, Mark Gales(参考訳) 機械学習モデルのアンサンブルは、システム性能の改善と、堅牢で解釈可能な不確実性推定をもたらすが、その推論コストは、しばしば違法に高い。 emph{ensemble distribution distillation} は、1つのモデルがアンサンブルの予測性能と不確実性の両方を効率的に捉えることができるアプローチである。 分類では、最大確率基準を通じてアンサンブルメンバーの出力分布の上のディリクレ分布を訓練することで達成される。 理論上は原則だが、クラス数が非常に高い大規模タスクに適用すると、この基準は収束性に乏しい。 本研究では,この効果を分析し,確率の低いディリクレ対数様条件クラスが,高確率クラスよりも大きな勾配を生じさせることを示した。 これによりモデルは、アンサンブルのテールクラス確率の分布に焦点を合わせることができる。 アンサンブルから派生した \emph{Proxy-Dirichlet} ターゲットに対する逆 KL 分割を最小化する新たな学習目標を提案する。 この損失は,1000および40,000のクラスを含むImageNetおよびWMT17 En-Deデータセットにおいて,理論的および実証的に,Ensemble Distribution Distillationの勾配問題を解消する。

Ensembles of machine learning models yield improved system performance as well as robust and interpretable uncertainty estimates; however, their inference costs may often be prohibitively high. \emph{Ensemble Distribution Distillation} is an approach that allows a single model to efficiently capture both the predictive performance and uncertainty estimates of an ensemble. For classification, this is achieved by training a Dirichlet distribution over the ensemble members' output distributions via the maximum likelihood criterion. Although theoretically principled, this criterion exhibits poor convergence when applied to large-scale tasks where the number of classes is very high. In our work, we analyze this effect and show that the Dirichlet log-likelihood criterion classes with low probability induce larger gradients than high-probability classes. This forces the model to focus on the distribution of the ensemble tail-class probabilities. We propose a new training objective that minimizes the reverse KL-divergence to a \emph{Proxy-Dirichlet} target derived from the ensemble. This loss resolves the gradient issues of Ensemble Distribution Distillation, as we demonstrate both theoretically and empirically on the ImageNet and WMT17 En-De datasets containing 1000 and 40,000 classes, respectively.
翻訳日:2021-05-17 12:55:42 公開日:2021-05-14
# 接地テキスト生成のための共同検索と生成訓練

Joint Retrieval and Generation Training for Grounded Text Generation ( http://arxiv.org/abs/2105.06597v1 )

ライセンス: Link先を確認
Yizhe Zhang, Siqi Sun, Xiang Gao, Yuwei Fang, Chris Brockett, Michel Galley, Jianfeng Gao, Bill Dolan(参考訳) GPT-3のような大規模事前学習の進歩により、与えられたプロンプトから高品質なテキストを生成することができる。 しかし、このような生成システムは、しばしば幻覚的な事実の問題に悩まされ、本質的に有用な外部情報を組み込むように設計されていない。 グラウンドドジェネレーションモデルは改善を提供するように見えるが、そのトレーニングは通常、コンテキストに対応するドキュメントが提供される稀な並列データに依存している。 本稿では,この制約を緩和するための枠組みとして,言語モデル信号を用いた接地生成器と文書検索器の協調学習を提案する。 モデルは、生成時に最高のユーティリティでドキュメントを取得することを学習し、それらを出力に注意深く組み合わせる。 提案手法は,外部参照を活用することで,文末生成と対話生成の両面で,より情報に富んだ興味深いテキストを生成できることを実証する。

Recent advances in large-scale pre-training such as GPT-3 allow seemingly high quality text to be generated from a given prompt. However, such generation systems often suffer from problems of hallucinated facts, and are not inherently designed to incorporate useful external information. Grounded generation models appear to offer remedies, but their training typically relies on rarely-available parallel data where corresponding documents are provided for context. We propose a framework that alleviates this data constraint by jointly training a grounded generator and document retriever on the language model signal. The model learns to retrieve the documents with the highest utility in generation and attentively combines them in the output. We demonstrate that by taking advantage of external references our approach can produce more informative and interesting text in both prose and dialogue generation.
翻訳日:2021-05-17 12:55:21 公開日:2021-05-14
# 関係予測器を用いたニューラルシンボリックコモンセンス推論

Neural-Symbolic Commonsense Reasoner with Relation Predictors ( http://arxiv.org/abs/2105.06717v1 )

ライセンス: Link先を確認
Farhad Moghimifar, Lizhen Qu, Yue Zhuo, Gholamreza Haffari, Mahsa Baktashmotlagh(参考訳) Commonsense reasoningは、Commonsense Knowledge Graphs (CKG)から取得した一連のCommonsense factsを統合することを目的としており、通常の状況に関する結論を引き出す。 コモンセンス知識の動的性質は、新しい状況でマルチホップ推論が可能なモデルを仮定する。 この機能はまた、新しいイベント間の関係を予測するのにそのような推論プロセスが必要な大規模なスパースナレッジグラフを持つことになる。 しかし、この領域の既存のアプローチは、CKGを限られた事実の集合として考えることで制限されているため、新しい目に見えない状況や出来事の推論には適さない。 本稿では,大規模動的ckg上での推論が可能なニューラルシンボリック推論器を提案する。 CKGに対する推論の論理ルールは、我々のモデルによって学習される。 解釈可能な説明を提供するのに加えて、学習された論理ルールは、新しく導入されたイベントへの予測を一般化するのに役立ちます。 CKGにおけるリンク予測の課題に関する実験結果から,最先端モデルよりも優れた結果が得られた。

Commonsense reasoning aims to incorporate sets of commonsense facts, retrieved from Commonsense Knowledge Graphs (CKG), to draw conclusion about ordinary situations. The dynamic nature of commonsense knowledge postulates models capable of performing multi-hop reasoning over new situations. This feature also results in having large-scale sparse Knowledge Graphs, where such reasoning process is needed to predict relations between new events. However, existing approaches in this area are limited by considering CKGs as a limited set of facts, thus rendering them unfit for reasoning over new unseen situations and events. In this paper, we present a neural-symbolic reasoner, which is capable of reasoning over large-scale dynamic CKGs. The logic rules for reasoning over CKGs are learned during training by our model. In addition to providing interpretable explanation, the learned logic rules help to generalise prediction to newly introduced events. Experimental results on the task of link prediction on CKGs prove the effectiveness of our model by outperforming the state-of-the-art models.
翻訳日:2021-05-17 12:55:07 公開日:2021-05-14
# テキスト分類のための文脈埋め込み空間の外部正規化

Out-of-Manifold Regularization in Contextual Embedding Space for Text Classification ( http://arxiv.org/abs/2105.06750v1 )

ライセンス: Link先を確認
Seonghyeon Lee, Dongha Lee and Hwanjo Yu(参考訳) トレーニング済みの重みを持つニューラルネットワーク(BERT)に関する最近の研究は、入力語(またはそれらの文脈)から計算された埋め込みベクトルが位置する低次元の部分空間に主に焦点を当てている。 本研究では,単語を通してアクセスできない「アウト・オブ・マニフォールド(out-of-manifold)」と呼ばれる空間の残りの部分の探索と規則化のための新しいアプローチを提案する。 具体的には,実際に観測された単語から得られた2つの埋め込みに基づいて,ネットワークの微調整に利用する。 判別器は、入力埋め込みが多様体内にあるか否かを検出するように訓練され、同時に、ジェネレータは、判別器によって容易に外形として識別できる新しい埋め込みを生成するように最適化される。 これら2つのモジュールは、統一されたエンドツーエンドの方法で協調して、アウトオブマニフォールドを定式化することに成功した。 各種テキスト分類ベンチマークの広範な評価は,本手法の有効性と,その拡張を目的とした既存のデータ拡張手法との整合性を示すものである。

Recent studies on neural networks with pre-trained weights (i.e., BERT) have mainly focused on a low-dimensional subspace, where the embedding vectors computed from input words (or their contexts) are located. In this work, we propose a new approach to finding and regularizing the remainder of the space, referred to as out-of-manifold, which cannot be accessed through the words. Specifically, we synthesize the out-of-manifold embeddings based on two embeddings obtained from actually-observed words, to utilize them for fine-tuning the network. A discriminator is trained to detect whether an input embedding is located inside the manifold or not, and simultaneously, a generator is optimized to produce new embeddings that can be easily identified as out-of-manifold by the discriminator. These two modules successfully collaborate in a unified and end-to-end manner for regularizing the out-of-manifold. Our extensive evaluation on various text classification benchmarks demonstrates the effectiveness of our approach, as well as its good compatibility with existing data augmentation techniques which aim to enhance the manifold.
翻訳日:2021-05-17 12:54:50 公開日:2021-05-14
# 異常検出におけるadversarial discriminative transferの重要性

Importance Weighted Adversarial Discriminative Transfer for Anomaly Detection ( http://arxiv.org/abs/2105.06649v1 )

ライセンス: Link先を確認
Cangning Fan, Fangyi Zhang, Peng Liu, Xiuyu Sun, Hao Li, Ting Xiao, Wei Zhao, Xianglong Tang(参考訳) 異常検出のための以前の転送方法は、一般的にソースまたはターゲットドメインのラベル付きデータの可用性を前提としている。 しかし、大規模なラベル付きデータが高価すぎる多くの実アプリケーションでは、そのような仮定は有効ではない。 そこで本稿では,対象ドメインにラベル付き正規/異常データがなく,関連するソースドメインからの正規データのみが存在するケースにおいて,異常検出知識を教師なしで転送するための重み付き対向オートエンコーダ方式を提案する。 具体的には、ソース領域とターゲット領域の両方で正規データの分布を調整することを学習するが、ターゲット領域における異常データの分布は変わらない。 このようにして、対象領域内の正常データと異常データの分布との間に明らかなギャップが生じ、ドメイン内の異常検出を可能にする。 複数の合成データセットに対する大規模な実験とUCSDベンチマークにより,本手法の有効性が示された。 コードはhttps://github.com/f ancangning/anomaly_d etection_transferで入手できる。

Previous transfer methods for anomaly detection generally assume the availability of labeled data in source or target domains. However, such an assumption is not valid in most real applications where large-scale labeled data are too expensive. Therefore, this paper proposes an importance weighted adversarial autoencoder-based method to transfer anomaly detection knowledge in an unsupervised manner, particularly for a rarely studied scenario where a target domain has no labeled normal/abnormal data while only normal data from a related source domain exist. Specifically, the method learns to align the distributions of normal data in both source and target domains, but leave the distribution of abnormal data in the target domain unchanged. In this way, an obvious gap can be produced between the distributions of normal and abnormal data in the target domain, therefore enabling the anomaly detection in the domain. Extensive experiments on multiple synthetic datasets and the UCSD benchmark demonstrate the effectiveness of our approach. The code is available at https://github.com/f ancangning/anomaly_d etection_transfer.
翻訳日:2021-05-17 12:53:56 公開日:2021-05-14
# メタRLにおける隠れ状態と隠れタスクの遠絡信念の推定

Estimating Disentangled Belief about Hidden State and Hidden Task for Meta-RL ( http://arxiv.org/abs/2105.06660v1 )

ライセンス: Link先を確認
Kei Akuzawa, Yusuke Iwasawa, Yutaka Matsuo(参考訳) meta-reinforcement learning (meta-rl)アルゴリズムの設計にはかなりの関心がある。 meta-rlでは、現在のタスクの仕様(報酬関数など)がエージェントから隠されている。 さらに、センサーノイズや現実的な環境の制限により、各タスクに状態が隠されている。 そのため、メタRLエージェントは、少ない経験量に基づいて隠れたタスクと状態の両方を指定するという課題に直面している。 そこで本研究では,タスクと状態がグローバルかつ局所的な特徴と見なせる帰納的バイアスを生かして,タスクと状態に関する不整合信念を推定することを提案する。 具体的には,グローバル変数とローカル変数がそれぞれタスクと状態に対応する環境モデルとして,ディープニューラルネットワークによってパラメータ化された階層的状態空間モデル(HSSM)を訓練する。 hssmは後方分布の解析的な計算、すなわち信念を許さないので、それを近似するために償却推論を用いる。 信念が得られたら、モデルフリー政策の観察を、効率的に政策を訓練する信念で強化することができる。 また、タスク情報と状態情報は因子化・解釈可能であるため、階層的性質を考慮しない先行手法と比較して下流政策訓練が容易となる。 GridWorld環境における実証的な検証は、HSSMが隠されたタスクを分離し、情報を記述できることを確認する。 次に,MuJoCo環境におけるメタRLエージェントとHSSMを比較し,トレーニングデータが少ないこと,最終性能が高いことを確認する。

There is considerable interest in designing meta-reinforcement learning (meta-RL) algorithms, which enable autonomous agents to adapt new tasks from small amount of experience. In meta-RL, the specification (such as reward function) of current task is hidden from the agent. In addition, states are hidden within each task owing to sensor noise or limitations in realistic environments. Therefore, the meta-RL agent faces the challenge of specifying both the hidden task and states based on small amount of experience. To address this, we propose estimating disentangled belief about task and states, leveraging an inductive bias that the task and states can be regarded as global and local features of each task. Specifically, we train a hierarchical state-space model (HSSM) parameterized by deep neural networks as an environment model, whose global and local latent variables correspond to task and states, respectively. Because the HSSM does not allow analytical computation of posterior distribution, i.e., belief, we employ amortized inference to approximate it. After the belief is obtained, we can augment observations of a model-free policy with the belief to efficiently train the policy. Moreover, because task and state information are factorized and interpretable, the downstream policy training is facilitated compared with the prior methods that did not consider the hierarchical nature. Empirical validations on a GridWorld environment confirm that the HSSM can separate the hidden task and states information. Then, we compare the meta-RL agent with the HSSM to prior meta-RL methods in MuJoCo environments, and confirm that our agent requires less training data and reaches higher final performance.
翻訳日:2021-05-17 12:53:40 公開日:2021-05-14
# 分布強化学習のための効率的探索による非減少分位関数ネットワーク

Non-decreasing Quantile Function Network with Efficient Exploration for Distributional Reinforcement Learning ( http://arxiv.org/abs/2105.06696v1 )

ライセンス: Link先を確認
Fan Zhou, Zhoufan Zhu, Qi Kuang, Liwen Zhang(参考訳) 流通強化学習(distributional reinforcement learning, drl)はここ数年、広く検討されてきたが、人々がまだ対処しようとしている2つのオープン質問がある。 一つは、学習された分位関数の妥当性を保証する方法、もう一つは、分布情報の効率的な活用方法である。 本稿では,これら2つの分野の深層研究を促進するために,新たな視点を提供する。 まず、得られた量子関数の推定値の単調性を保証するための非減少量子関数ネットワーク(NDQFN)を提案し、次いで、量子関数全体の分布を利用するDRLのための分布予測誤差(DPE)と呼ばれる一般的な探索フレームワークを設計する。 本稿では,本手法の理論的必要性を論じるだけでなく,特にハード探索ゲームにおいて,Atari 2600 Gamesの競技者との比較により,実際に達成した性能向上を示す。

Although distributional reinforcement learning (DRL) has been widely examined in the past few years, there are two open questions people are still trying to address. One is how to ensure the validity of the learned quantile function, the other is how to efficiently utilize the distribution information. This paper attempts to provide some new perspectives to encourage the future in-depth studies in these two fields. We first propose a non-decreasing quantile function network (NDQFN) to guarantee the monotonicity of the obtained quantile estimates and then design a general exploration framework called distributional prediction error (DPE) for DRL which utilizes the entire distribution of the quantile function. In this paper, we not only discuss the theoretical necessity of our method but also show the performance gain it achieves in practice by comparing with some competitors on Atari 2600 Games especially in some hard-explored games.
翻訳日:2021-05-17 12:53:13 公開日:2021-05-14
# 決定の合理化:学習と推論の調整に関する実験

Discovering the Rationale of Decisions: Experiments on Aligning Learning and Reasoning ( http://arxiv.org/abs/2105.06758v1 )

ライセンス: Link先を確認
Cor Steging, Silja Renooij, Bart Verheij(参考訳) AIと法学では、正義を追求する際、意思決定支援のために設計されたシステムは説明可能であるべきである。 これらのシステムが公平で責任を負うためには、正しい判断をし、健全で透明な合理性を使って判断するべきです。 本稿では,専門的ソフトウェア開発における単体テストと同様に,専用テストケースを用いたモデル非依存的理性評価のための知識駆動手法を提案する。 本手法は,フィクションやノンフィクションの法的設定から,人工データセットから既知の知識構造を抽出する機械学習実験に適用する。 本手法により,ブラックボックス機械学習システムの理論的根拠を,どの要素が学習されているかを評価することで解析できることを示す。 また,理論評価の結果に基づいて,テーラーメイドのトレーニングデータを用いて合理性を調整できることを示した。

In AI and law, systems that are designed for decision support should be explainable when pursuing justice. In order for these systems to be fair and responsible, they should make correct decisions and make them using a sound and transparent rationale. In this paper, we introduce a knowledge-driven method for model-agnostic rationale evaluation using dedicated test cases, similar to unit-testing in professional software development. We apply this new method in a set of machine learning experiments aimed at extracting known knowledge structures from artificial datasets from fictional and non-fictional legal settings. We show that our method allows us to analyze the rationale of black-box machine learning systems by assessing which rationale elements are learned or not. Furthermore, we show that the rationale can be adjusted using tailor-made training data based on the results of the rationale evaluation.
翻訳日:2021-05-17 12:52:56 公開日:2021-05-14
# QAConv: インフォーマティブな会話に関する質問への回答

QAConv: Question Answering on Informative Conversations ( http://arxiv.org/abs/2105.06912v1 )

ライセンス: Link先を確認
Chien-Sheng Wu, Andrea Madotto, Wenhao Liu, Pascale Fung, Caiming Xiong(参考訳) 本稿では,会話を知識源として利用するQAデータセットであるQAConvを紹介する。 ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。 オープンドメインやタスク指向の対話とは異なり、これらの会話は通常、長く、複雑で、非同期であり、強いドメイン知識を伴う。 計34,204組のQAペアを収集し,それぞれ10,259件の質問を人手による質問と機械による質問から抽出した。 長い会話をチャンクに分割し、質問生成器と対話要約器を補助ツールとして使用し、マルチホップ質問を収集する。 データセットには、接地されたチャンクが提供されるか、大きな会話プールから取得されるかによって、チャンクモードとフルモードの2つのテストシナリオがある。 実験の結果、既存のQAデータセットでトレーニングされた最先端のQAシステムはゼロショット能力に制限があり、我々の疑問は解決不可能であると予測する傾向がある。 我々のコーパス上の細調整システムは、それぞれチャンクモードとフルモードの両方で23.6%と13.6%の大幅な改善を達成できる。

This paper introduces QAConv, a new question answering (QA) dataset that uses conversations as a knowledge source. We focus on informative conversations including business emails, panel discussions, and work channels. Unlike open-domain and task-oriented dialogues, these conversations are usually long, complex, asynchronous, and involve strong domain knowledge. In total, we collect 34,204 QA pairs, including span-based, free-form, and unanswerable questions, from 10,259 selected conversations with both human-written and machine-generated questions. We segment long conversations into chunks, and use a question generator and dialogue summarizer as auxiliary tools to collect multi-hop questions. The dataset has two testing scenarios, chunk mode and full mode, depending on whether the grounded chunk is provided or retrieved from a large conversational pool. Experimental results show that state-of-the-art QA systems trained on existing QA datasets have limited zero-shot ability and tend to predict our questions as unanswerable. Fine-tuning such systems on our corpus can achieve significant improvement up to 23.6% and 13.6% in both chunk mode and full mode, respectively.
翻訳日:2021-05-17 12:52:44 公開日:2021-05-14
# Monash Time Series Forecasting Archive

Monash Time Series Forecasting Archive ( http://arxiv.org/abs/2105.06643v1 )

ライセンス: Link先を確認
Rakshitha Godahewa, Christoph Bergmeir, Geoffrey I. Webb, Rob J. Hyndman, Pablo Montero-Manso(参考訳) 今日では多くの企業や産業が、重要な研究領域を予測している時系列データに頼っている。 時系列の集合で訓練されたグローバルな予測モデルは、孤立した時系列で動作する従来の単変量予測モデルと比較して、正確な予測を提供する大きな可能性を示している。 しかし、現在、様々なデータセットで新しいグローバル予測アルゴリズムの性能を評価するために、研究コミュニティが利用可能な類似情報源からの時系列のデータセットを含む予測のための包括的な時系列アーカイブは存在しない。 本稿では,様々な領域から利用可能な20の時系列データセットを含む包括的時系列予測アーカイブを提案する。 また、特徴分析を行うことで、データセットを特徴付け、類似点と相違点を識別する。 さらに,このアーカイブを用いて予測アルゴリズムのベンチマークを行う研究者の利益のために,8つのエラーメトリクスにわたる全データセットを対象とした標準ベースライン予測手法の性能を示す。

Many businesses and industries nowadays rely on large quantities of time series data making time series forecasting an important research area. Global forecasting models that are trained across sets of time series have shown a huge potential in providing accurate forecasts compared with the traditional univariate forecasting models that work on isolated series. However, there are currently no comprehensive time series archives for forecasting that contain datasets of time series from similar sources available for the research community to evaluate the performance of new global forecasting algorithms over a wide variety of datasets. In this paper, we present such a comprehensive time series forecasting archive containing 20 publicly available time series datasets from varied domains, with different characteristics in terms of frequency, series lengths, and inclusion of missing values. We also characterise the datasets, and identify similarities and differences among them, by conducting a feature analysis. Furthermore, we present the performance of a set of standard baseline forecasting methods over all datasets across eight error metrics, for the benefit of researchers using the archive to benchmark their forecasting algorithms.
翻訳日:2021-05-17 12:52:06 公開日:2021-05-14
# ベイズ深層学習の優先順位:レビュー

Priors in Bayesian Deep Learning: A Review ( http://arxiv.org/abs/2105.06868v1 )

ライセンス: Link先を確認
Vincent Fortuin(参考訳) 前者の選択はベイズ推論ワークフローにおいて最も重要な部分の1つであるが、最近のベイズ深層学習モデルは標準ガウスのような非形式的な先行にしばしば逆戻りしている。 本稿では,ベイズ深層学習における事前選択の重要性を強調するとともに,(深い)ガウス過程,変分オートエンコーダ,ベイズニューラルネットワークに対して提案されている異なる事前選択について概説する。 データからこれらのモデルの事前学習方法についても概説する。 ベイズ深層学習の実践者に、モデルの事前仕様についてより慎重に考える動機を与え、その点についてインスピレーションを与えたいと思っています。

While the choice of prior is one of the most critical parts of the Bayesian inference workflow, recent Bayesian deep learning models have often fallen back on uninformative priors, such as standard Gaussians. In this review, we highlight the importance of prior choices for Bayesian deep learning and present an overview of different priors that have been proposed for (deep) Gaussian processes, variational autoencoders, and Bayesian neural networks. We also outline different methods of learning priors for these models from data. We hope to motivate practitioners in Bayesian deep learning to think more carefully about the prior specification for their models and to provide them with some inspiration in this regard.
翻訳日:2021-05-17 12:51:50 公開日:2021-05-14
# リアルな限界分布を持つ合成データを得るための深層生成法の適用

Adapting deep generative approaches for getting synthetic data with realistic marginal distributions ( http://arxiv.org/abs/2105.06907v1 )

ライセンス: Link先を確認
Kiana Farhadyar, Federico Bonofiglio, Daniela Zoeller and Harald Binder(参考訳) 合成データ生成は、プライバシー保護などの多様なアプリケーションに非常に関心がある。 可変オートエンコーダ(VAE)のような深層生成モデルは、元のデータからこのような合成データセットを作成するための一般的なアプローチである。 vaesの成功にもかかわらず、バイモーダル分布と歪曲限界分布に関しては制限がある。 これらは、VAEの潜在表現に典型的に使用される正規性仮定によって促進される一元対称分布から逸脱する。 潜在空間に他の分布を仮定する拡張があるが、多くの異なる分布を持つデータに対する柔軟性は一般的には向上しない。 そこで,本研究では,プリトランスフォーメーションを元の変数のレベルで利用することにより,バイモーダルデータとスキューデータに対処する新しい手法であるPTVAEを提案する。 データセットの各変数に対するパラメータ最適化によって、データを正規分布に近づけるために、2種類の変換が使用される。 本手法の性能を合成データ生成のための他の最先端手法と比較する。 視覚的な比較に加えて, 定量的評価に有用性測定を用いる。 その結果、PTVAEアプローチはバイモーダルデータとスキューデータの両方において他よりも優れていることがわかった。 さらに、このアプローチの単純さにより、VAEの他の拡張と組み合わせて使用することができる。

Synthetic data generation is of great interest in diverse applications, such as for privacy protection. Deep generative models, such as variational autoencoders (VAEs), are a popular approach for creating such synthetic datasets from original data. Despite the success of VAEs, there are limitations when it comes to the bimodal and skewed marginal distributions. These deviate from the unimodal symmetric distributions that are encouraged by the normality assumption typically used for the latent representations in VAEs. While there are extensions that assume other distributions for the latent space, this does not generally increase flexibility for data with many different distributions. Therefore, we propose a novel method, pre-transformation variational autoencoders (PTVAEs), to specifically address bimodal and skewed data, by employing pre-transformations at the level of original variables. Two types of transformations are used to bring the data close to a normal distribution by a separate parameter optimization for each variable in a dataset. We compare the performance of our method with other state-of-the-art methods for synthetic data generation. In addition to the visual comparison, we use a utility measurement for a quantitative evaluation. The results show that the PTVAE approach can outperform others in both bimodal and skewed data generation. Furthermore, the simplicity of the approach makes it usable in combination with other extensions of VAE.
翻訳日:2021-05-17 12:51:39 公開日:2021-05-14
# bnnpriors: 事前分布が異なるベイズ型ニューラルネットワーク推論のためのライブラリ

BNNpriors: A library for Bayesian neural network inference with different prior distributions ( http://arxiv.org/abs/2105.06964v1 )

ライセンス: Link先を確認
Vincent Fortuin, Adri\`a Garriga-Alonso, Mark van der Wilk, Laurence Aitchison(参考訳) ベイズニューラルネットワークは、キャリブレーションされた不確実性推定が不可欠であり、しばしば高い予測性能をもたらす多くのアプリケーションで大きな可能性を示してきた。 しかし、重量よりも優れた事前分布を選択することは依然として困難である。 等方性ガウス前駆体は、しばしば単純さのため、実際に選択されるが、真の前駆的信念をよく反映せず、準最適性能につながる可能性がある。 新しいライブラリであるbnnpriorsは,重畳型,階層型,混合型など,さまざまな事前定義のあるベイズ型ニューラルネットワーク上で,最先端のマルコフ連鎖モンテカルロ推論を可能にする。 さらに、新しいカスタムプリエントの設計と実装を容易にするモジュラーアプローチも踏襲している。 ベイズニューラルネットワークにおけるコールド後部効果の性質に関する基礎的な発見を促進し、将来の研究とこの分野の実践的応用を触媒することを期待している。

Bayesian neural networks have shown great promise in many applications where calibrated uncertainty estimates are crucial and can often also lead to a higher predictive performance. However, it remains challenging to choose a good prior distribution over their weights. While isotropic Gaussian priors are often chosen in practice due to their simplicity, they do not reflect our true prior beliefs well and can lead to suboptimal performance. Our new library, BNNpriors, enables state-of-the-art Markov Chain Monte Carlo inference on Bayesian neural networks with a wide range of predefined priors, including heavy-tailed ones, hierarchical ones, and mixture priors. Moreover, it follows a modular approach that eases the design and implementation of new custom priors. It has facilitated foundational discoveries on the nature of the cold posterior effect in Bayesian neural networks and will hopefully catalyze future research as well as practical applications in this area.
翻訳日:2021-05-17 12:51:17 公開日:2021-05-14
# サイバーセキュリティにおける異常検出--教師なし・グラフベース・教師付き学習手法-

Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and Supervised Learning Methods in Adversarial Environments ( http://arxiv.org/abs/2105.06742v1 )

ライセンス: Link先を確認
David A. Bierbrauer and Alexander Chang and Will Kritzer and Nathaniel D. Bastian(参考訳) 異常検出のための機械学習は、サイバーセキュリティの分野で広く研究されている。 今日の運用環境に固有ののは、機械学習モデルを回避しようとする敵対的機械学習の実践である。 本研究では,ネットワーク侵入検知システム設定における教師なし学習とグラフに基づく異常検出の可能性を検討するとともに,異常検出問題の教師付き学習にアンサンブルアプローチを活用する。 我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。 その結果,教師なしおよびグラフに基づく手法は,教師付き積み重ねアンサンブル法による異常検出において,2段階の精度で優れていた。 このモデルは、第1レベルの3つの異なる分類器で構成され、続いて第2レベルのネイブベイズまたは決定木分類器が続く。 我々のモデルは、テストされたレベル2の分類器全体にわたる悪意のあるサンプルに対して、0.97以上のF1スコアを維持している。 ネイブ・ベイズは平均1.12秒の最高レベル2の分類器であり、決定木は最高スコア0.98を維持している。

Machine learning for anomaly detection has become a widely researched field in cybersecurity. Inherent to today's operating environment is the practice of adversarial machine learning, which attempts to circumvent machine learning models. In this work, we examine the feasibility of unsupervised learning and graph-based methods for anomaly detection in the network intrusion detection system setting, as well as leverage an ensemble approach to supervised learning of the anomaly detection problem. We incorporate a realistic adversarial training mechanism when training our supervised models to enable strong classification performance in adversarial environments. Our results indicate that the unsupervised and graph-based methods were outperformed in detecting anomalies (malicious activity) by the supervised stacking ensemble method with two levels. This model consists of three different classifiers in the first level, followed by either a Naive Bayes or Decision Tree classifier for the second level. We see that our model maintains an F1-score above 0.97 for malicious samples across all tested level two classifiers. Notably, Naive Bayes is the fastest level two classifier averaging 1.12 seconds while Decision Tree maintains the highest AUC score of 0.98.
翻訳日:2021-05-17 12:51:00 公開日:2021-05-14
# ディープニューラルネットワークの対向防御のための有能な特徴外振器

Salient Feature Extractor for Adversarial Defense on Deep Neural Networks ( http://arxiv.org/abs/2105.06807v1 )

ライセンス: Link先を確認
Jinyin Chen, Ruoxi Chen, Haibin Zheng, Zhaoyan Ming, Wenrong Jiang and Chen Cui(参考訳) 近年、コンピュータビジョンの分野でディープラーニングモデルによって達成された前例のない成功を目撃している。 しかし、慎重に敵の例を作るための脆弱性も研究者の注目を集めている。 逆行例がモデルによって元のデータセットから学習された非ロバスト特徴(non-robust feature)に起因しているという観測に動機づけられ,サルエント特徴(sf)と自明特徴(tf)の概念を提案する。 前者はクラス関連の特徴を表し、後者はモデルを誤解させるために通常採用される。 本稿では,これら2つの特徴を生成的対向ネットワークモデルと組み合わせて抽出し,新たな検出・防御手法であるSalient Feature extractor(SFE)を提案する。 具体的には、入力のsfとtfの差を分離比較することにより検出を実現する。 同時に、防衛目的に到達するためにsfを再識別することで正しいラベルを得る。 MNIST、CIFAR-10、ImageNetデータセット上で、SFEはベースラインと比較して有効性と効率性を示す。 さらに,防御および検出過程の解釈可能な理解を提供する。

Recent years have witnessed unprecedented success achieved by deep learning models in the field of computer vision. However, their vulnerability towards carefully crafted adversarial examples has also attracted the increasing attention of researchers. Motivated by the observation that adversarial examples are due to the non-robust feature learned from the original dataset by models, we propose the concepts of salient feature(SF) and trivial feature(TF). The former represents the class-related feature, while the latter is usually adopted to mislead the model. We extract these two features with coupled generative adversarial network model and put forward a novel detection and defense method named salient feature extractor (SFE) to defend against adversarial attacks. Concretely, detection is realized by separating and comparing the difference between SF and TF of the input. At the same time, correct labels are obtained by re-identifying SF to reach the purpose of defense. Extensive experiments are carried out on MNIST, CIFAR-10, and ImageNet datasets where SFE shows state-of-the-art results in effectiveness and efficiency compared with baselines. Furthermore, we provide an interpretable understanding of the defense and detection process.
翻訳日:2021-05-17 12:50:41 公開日:2021-05-14
# 言語間伝達法の費用便益分析

A cost-benefit analysis of cross-lingual transfer methods ( http://arxiv.org/abs/2105.06813v1 )

ライセンス: Link先を確認
Guilherme Moraes Rosa, Luiz Henrique Bonifacio, Leandro Rodrigues de Souza, Roberto Lotufo and Rodrigo Nogueira(参考訳) 言語間移動の効果的な方法は、ある言語の教師付きデータセット上でバイリンガルまたは多言語モデルを微調整し、それをゼロショットで他の言語上で評価することである。 トレーニング時間や推論時間での例の翻訳も有効な代替手段である。 しかし、これらの方法にかかわるコストは、文献にはほとんど触れられていない。 本研究では,その効果(正確性など),開発コスト,展開コスト,および推論時の遅延の観点から,言語横断法を分析した。 3つのタスクに対する実験から,最高のクロスランガル手法がタスク依存性が高いことが示唆された。 最後に,ゼロショット法と翻訳法を組み合わせることで,本研究で使用した3つのデータセットのうち2つにおいて最先端の処理を実現する。 これらの結果から,対象言語におけるトレーニングデータのラベル付けの必要性を疑問視する。 コード、モデル、翻訳データセットはhttps://github.com/u nicamp-dl/cross-ling ual-analysisで入手できる。

An effective method for cross-lingual transfer is to fine-tune a bilingual or multilingual model on a supervised dataset in one language and evaluating it on another language in a zero-shot manner. Translating examples at training time or inference time are also viable alternatives. However, there are costs associated with these methods that are rarely addressed in the literature. In this work, we analyze cross-lingual methods in terms of their effectiveness (e.g., accuracy), development and deployment costs, as well as their latencies at inference time. Our experiments on three tasks indicate that the best cross-lingual method is highly task-dependent. Finally, by combining zero-shot and translation methods, we achieve the state-of-the-art in two of the three datasets used in this work. Based on these results, we question the need for manually labeled training data in a target language. Code, models and translated datasets are available at https://github.com/u nicamp-dl/cross-ling ual-analysis
翻訳日:2021-05-17 12:50:21 公開日:2021-05-14
# 学生成績予測における公平性とアルゴリズム的公平性

Towards Equity and Algorithmic Fairness in Student Grade Prediction ( http://arxiv.org/abs/2105.06604v1 )

ライセンス: Link先を確認
Weijie Jiang, Zachary A. Pardos(参考訳) 人種に関するAIの教育的成果と公正性は、教育における重要性の増大のトピックである。 本研究では,高等教育における学年予測の実証的評価,カリキュラム設計の改善のための重要な課題,学力支援のための計画介入,学生への授業指導等について論じる。 公平性を目標として,ラベルバランシングとインスタンスバランシングの2つの戦略を試行し,アルゴリズムのパフォーマンスの違いを最小限に抑えることを試みた。 逆学習アプローチとグレードラベルのバランスが組み合わさって,最も公平な結果が得られることが分かりました。 教育成果の公平性を目標として,歴史的に保存されていないグループにおける予測性能の向上と,それらのグループを過去の成果に逆比例してサンプリングすることに成功するための戦略を試した。 AIを注入した技術は、キャンパスでますます普及しているので、私たちの方法論は、繊細な学生属性に関するパフォーマンストレードオフを検討するためのフレームワークの必要性を埋め、機関がAIリソースを公平で公正な方法で実施できるようにする。

Equity of educational outcome and fairness of AI with respect to race have been topics of increasing importance in education. In this work, we address both with empirical evaluations of grade prediction in higher education, an important task to improve curriculum design, plan interventions for academic support, and offer course guidance to students. With fairness as the aim, we trial several strategies for both label and instance balancing to attempt to minimize differences in algorithm performance with respect to race. We find that an adversarial learning approach, combined with grade label balancing, achieved by far the fairest results. With equity of educational outcome as the aim, we trial strategies for boosting predictive performance on historically underserved groups and find success in sampling those groups in inverse proportion to their historic outcomes. With AI-infused technology supports increasingly prevalent on campuses, our methodologies fill a need for frameworks to consider performance trade-offs with respect to sensitive student attributes and allow institutions to instrument their AI resources in ways that are attentive to equity and fairness.
翻訳日:2021-05-17 12:49:41 公開日:2021-05-14
# SATに基づく決定リストの厳密な説明

SAT-Based Rigorous Explanations for Decision Lists ( http://arxiv.org/abs/2105.06782v1 )

ライセンス: Link先を確認
Alexey Ignatiev and Joao Marques-Silva(参考訳) 決定リスト(DL)は機械学習(ML)の分類問題に対して幅広い用途を見つけ、多くのMLフレームワークで実装されている。 DLはしばしば解釈可能と見なされる。 しかし,最近の決定木 (DT) の結果に基づいて,解釈性はいくつかのDLの明確な目標であると主張する。 その結果、dlsのいくつかの用途では、(リゴラスな)説明を計算することが重要である。 残念ながら、DTの場合と明らかに対照的に、本論文では、DLの計算説明は計算的に困難であることを示す。 そこで本研究では,DLの帰納的説明 (AXps) とコントラスト的説明 (CXps) に対する命題的符号化を提案する。 さらに,説明を列挙するマルコ的手法の実用性について検討した。 実験結果から, SATオーラクルの使用は, 実運用で使用されるDLに対して極めて効率的な解であり, 説明の完全列挙が可能であることが示唆された。

Decision lists (DLs) find a wide range of uses for classification problems in Machine Learning (ML), being implemented in a number of ML frameworks. DLs are often perceived as interpretable. However, building on recent results for decision trees (DTs), we argue that interpretability is an elusive goal for some DLs. As a result, for some uses of DLs, it will be important to compute (rigorous) explanations. Unfortunately, and in clear contrast with the case of DTs, this paper shows that computing explanations for DLs is computationally hard. Motivated by this result, the paper proposes propositional encodings for computing abductive explanations (AXps) and contrastive explanations (CXps) of DLs. Furthermore, the paper investigates the practical efficiency of a MARCO-like approach for enumerating explanations. The experimental results demonstrate that, for DLs used in practical settings, the use of SAT oracles offers a very efficient solution, and that complete enumeration of explanations is most often feasible.
翻訳日:2021-05-17 12:49:23 公開日:2021-05-14
# COVID-Net CXR-2:胸部X線画像からのCOVID-19検出のための深部畳み込みニューラルネットワーク設計

COVID-Net CXR-2: An Enhanced Deep Convolutional Neural Network Design for Detection of COVID-19 Cases from Chest X-ray Images ( http://arxiv.org/abs/2105.06640v1 )

ライセンス: Link先を確認
Maya Pavlova, Naomi Terhljan, Audrey G. Chung, Andy Zhao, Siddharth Surana, Hossein Aboutalebi, Hayden Gunraj, Ali Sabri, Amer Alaref, and Alexander Wong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中で流行し続けている中、胸部X線画像(CXR)をRT-PCR検査の補完的スクリーニング戦略として利用し続けている。 COVID-Netオープンソースイニシアチブの一環として、元のCOVID-Netよりも多量で多様な患者を用いて構築されたCXR画像から、COVID-19検出のための深層畳み込みニューラルネットワーク設計のCOVID-Net CXR-2を紹介する。 そこで本研究では,少なくとも51カ国の患者16,656人の多国籍コホートから得られた19,203個のcxr画像からなるベンチマークデータセットを新たに導入し,オープンアクセス形式で最大かつ最も多様なcovid-19 cxrデータセットとした。 COVID-Net CXR-2ネットワークは、それぞれ95.5%/97.0%の感度と正の予測値を達成し、透明で責任ある方法で監査された。 説明可能性に基づくパフォーマンス検証は, 意思決定行動の深い洞察を得るために, 臨床関連因子を有効活用し, 信頼性の向上に有効であった。 また,10年以上の経験を持つ放射線技師2名による放射線検査の結果,CXR-2による重要な要因は,放射線学の解釈と一致していることが判明した。 プロダクション対応ソリューションではないが、COVID-Net CXR-2のオープンソースでオープンアクセス可能なリリースと、それぞれのCXRベンチマークデータセットが、研究者、臨床科学者、市民科学者にパンデミックとの戦いの進展とイノベーションを加速させることを期待している。

As the COVID-19 pandemic continues to devastate globally, the use of chest X-ray (CXR) imaging as a complimentary screening strategy to RT-PCR testing continues to grow given its routine clinical use for respiratory complaint. As part of the COVID-Net open source initiative, we introduce COVID-Net CXR-2, an enhanced deep convolutional neural network design for COVID-19 detection from CXR images built using a greater quantity and diversity of patients than the original COVID-Net. To facilitate this, we also introduce a new benchmark dataset composed of 19,203 CXR images from a multinational cohort of 16,656 patients from at least 51 countries, making it the largest, most diverse COVID-19 CXR dataset in open access form. The COVID-Net CXR-2 network achieves sensitivity and positive predictive value of 95.5%/97.0%, respectively, and was audited in a transparent and responsible manner. Explainability-drive n performance validation was used during auditing to gain deeper insights in its decision-making behaviour and to ensure clinically relevant factors are leveraged for improving trust in its usage. Radiologist validation was also conducted, where select cases were reviewed and reported on by two board-certified radiologists with over 10 and 19 years of experience, respectively, and showed that the critical factors leveraged by COVID-Net CXR-2 are consistent with radiologist interpretations. While not a production-ready solution, we hope the open-source, open-access release of COVID-Net CXR-2 and the respective CXR benchmark dataset will encourage researchers, clinical scientists, and citizen scientists to accelerate advancements and innovations in the fight against the pandemic.
翻訳日:2021-05-17 12:49:07 公開日:2021-05-14
# ロボットピックアップにおける国内廃棄物検出と把握ポイント

Domestic waste detection and grasping points for robotic picking up ( http://arxiv.org/abs/2105.06825v1 )

ライセンス: Link先を確認
Victor De Gea and Santiago T. Puente and Pablo Gil(参考訳) 本稿では,位置とロボットの把握に応用したAIシステムを提案する。 mask-rcnnに基づくディープラーニングネットワークをトレーニングするためのパラメータスタディに基づいて,5つの異なるクラスを使用して,屋内および屋外環境における廃棄場所を学習し,新たな廃棄物データセットを生成する。 最初はaiシステムが環境のrgbdデータを取得し、続いてニューラルネットワークを使用してオブジェクトを検出する。 その後、ネットワーク結果と深さチャネルを用いて3次元オブジェクト形状を算出する。 最後に、この形状は2本指グリッパーでロボットアームの把持を計算するために使用される。 リサイクル戦略を改善するため, 廃棄物をグループに分類することを目的とする。

This paper presents an AI system applied to location and robotic grasping. Experimental setup is based on a parameter study to train a deep-learning network based on Mask-RCNN to perform waste location in indoor and outdoor environment, using five different classes and generating a new waste dataset. Initially the AI system obtain the RGBD data of the environment, followed by the detection of objects using the neural network. Later, the 3D object shape is computed using the network result and the depth channel. Finally, the shape is used to compute grasping for a robot arm with a two-finger gripper. The objective is to classify the waste in groups to improve a recycling strategy.
翻訳日:2021-05-17 12:48:32 公開日:2021-05-14
# 合成X線画像超解像のための周波数領域制約

A Frequency Domain Constraint for Synthetic X-ray Image Super Resolution ( http://arxiv.org/abs/2105.06887v1 )

ライセンス: Link先を確認
Qing Ma, Jae Chul Koh, WonSook Lee(参考訳) 合成X線画像は、画像案内システムやVRシミュレーションに有用である。 しかし,ctスキャン解像度の制限,計算資源需要の増大,アルゴリズムの複雑さなどにより,高品質な任意画像合成x線画像のリアルタイム作成は困難である。 我々の目標は、低解像度のim-ageをアップサンプリングすることで、高分解能の合成x線画像をリアルタイムに生成することである。 参照ベーススーパーレゾリューション(RefSR)は近年よく研究されており、従来のSingle Image Su-per-Resolution(SI SR)よりも強力であることが証明されている。 RefSRは参照画像を利用して細部を生成できるが、必然的にいくつかのアーティファクトやノイズを発生させる。 本稿では,周波数領域(TTSR-FD)を用いたテクスチャトランスフォーマーを提案する。 本稿では,refsr結果の品質をさらに向上するための制約として周波数領域損失を導入する。 これにより、リアルタイム合成x線画像誘導手順vrシミュレーションシステムが可能になる。 我々の知る限りでは、超解像の分野における損失関数の一部として周波数領域を利用する最初の論文である。 我々は,合成X線画像データセット上でTTSR-FDを評価し,最先端の結果を得た。

Synthetic X-ray images can be helpful for image guiding systems and VR simulations. However, it is difficult to produce high-quality arbitrary view synthetic X-ray images in real-time due to limited CT scanning resolution, high computation resource demand or algorithm complexity. Our goal is to generate high-resolution synthetic X-ray images in real-time by upsampling low-resolution im-ages. Reference-based Super Resolution (RefSR) has been well studied in recent years and has been proven to be more powerful than traditional Single Image Su-per-Resolution (SISR). RefSR can produce fine details by utilizing the reference image but it still inevitably generates some artifacts and noise. In this paper, we propose texture transformer super-resolution with frequency domain (TTSR-FD). We introduce frequency domain loss as a constraint to further improve the quality of the RefSR results with fine details and without obvious artifacts. This makes a real-time synthetic X-ray image-guided procedure VR simulation system possible. To the best of our knowledge, this is the first paper utilizing the frequency domain as part of the loss functions in the field of super-resolution. We evaluated TTSR-FD on our synthetic X-ray image dataset and achieved state-of-the-art results.
翻訳日:2021-05-17 12:48:21 公開日:2021-05-14
# DaLAJ - スウェーデン語のアクセプティビリティ判断のためのデータセット: フォーマット、ベースライン、共有

DaLAJ - a dataset for linguistic acceptability judgments for Swedish: Format, baseline, sharing ( http://arxiv.org/abs/2105.06681v1 )

ライセンス: Link先を確認
Elena Volodina, Yousuf Ali Mohammed, Julia Klezl(参考訳) 本稿では,スウェーデン語における言語受容性判断のためのデータセットである dalaj 1.0 について述べる。 DaLAJはSweLLの第2言語学習データに基づいており、様々なレベルの熟練度に関するエッセイで構成されている。 GDPR規則に拘わらず、データセットを自由に利用できるようにするために、文スクランブルした学習者エッセイを持ち、学習者に関するメタデータの一部を削除し、各文は母国語に関する情報とエッセイが書かれたコースのレベルのみを保持する。 本研究では,DALAJ文のベースとして学習言語の正規化バージョンを使用し,文毎の誤りを1つだけ保持する。 文中の個々の補正タグについて、同じ文を繰り返します。 DaLAJ 1.0では、4つのエラーカテゴリ(SweLLで利用可能な35のうち)を使用しました。 バイナリ分類の基準値から,BERT埋め込みによるDaLAJ 1.0の精度は58%であった。 データセットはSwishGlue (Swe)に含まれる。 SuperLim) ベンチマーク。 以下に、データセットのフォーマット、最初の実験、私たちの洞察、選択したデータ共有アプローチのモチベーションについて説明する。

We present DaLAJ 1.0, a Dataset for Linguistic Acceptability Judgments for Swedish, comprising 9 596 sentences in its first version; and the initial experiment using it for the binary classification task. DaLAJ is based on the SweLL second language learner data, consisting of essays at different levels of proficiency. To make sure the dataset can be freely available despite the GDPR regulations, we have sentence-scrambled learner essays and removed part of the metadata about learners, keeping for each sentence only information about the mother tongue and the level of the course where the essay has been written. We use the normalized version of learner language as the basis for the DaLAJ sentences, and keep only one error per sentence. We repeat the same sentence for each individual correction tag used in the sentence. For DaLAJ 1.0 we have used four error categories (out of 35 available in SweLL), all connected to lexical or word-building choices. Our baseline results for the binary classification show an accuracy of 58% for DaLAJ 1.0 using BERT embeddings. The dataset is included in the SwedishGlue (Swe. SuperLim) benchmark. Below, we describe the format of the dataset, first experiments, our insights and the motivation for the chosen approach to data sharing.
翻訳日:2021-05-17 12:47:23 公開日:2021-05-14
# Locate and Label:Nested Named Entity Recognitionのための2段階同定器

Locate and Label: A Two-stage Identifier for Nested Named Entity Recognition ( http://arxiv.org/abs/2105.06804v1 )

ライセンス: Link先を確認
Yongliang Shen, Xinyin Ma, Zeqi Tan, Shuai Zhang, Wen Wang and Weiming Lu(参考訳) 名前付きエンティティ認識(NER)は自然言語処理においてよく研究されているタスクである。 従来のNER研究は平らなエンティティのみを扱い、ネストされたエンティティを無視する。 スパンベースの手法は、エンティティ認識をスパン分類タスクとして扱う。 これらの手法はネストしたnerを扱う固有の能力を持っているが、高い計算コスト、境界情報の無知、エンティティと部分的に一致するスパンの過小利用、長いエンティティ認識の困難に苦しんでいる。 これらの問題に対処するため、我々は2段階のエンティティ識別子を提案する。 まず、種スパンのフィルタリングと境界回帰によってスパン提案を生成し、その後、境界調整されたスパン提案に対応するカテゴリをラベル付けします。 本手法は,訓練中のエンティティの境界情報と部分マッチングスパンを効果的に活用する。 境界回帰により、任意の長さの実体を理論的にカバーできるため、長い実体を認識する能力が向上する。 さらに、多くの低品質の種子が第1段階でろ過され、推論の時間的複雑さが減少する。 ネストnerデータセットを用いた実験により,提案手法が先行する最先端モデルを上回ることを示した。

Named entity recognition (NER) is a well-studied task in natural language processing. Traditional NER research only deals with flat entities and ignores nested entities. The span-based methods treat entity recognition as a span classification task. Although these methods have the innate ability to handle nested NER, they suffer from high computational cost, ignorance of boundary information, under-utilization of the spans that partially match with entities, and difficulties in long entity recognition. To tackle these issues, we propose a two-stage entity identifier. First we generate span proposals by filtering and boundary regression on the seed spans to locate the entities, and then label the boundary-adjusted span proposals with the corresponding categories. Our method effectively utilizes the boundary information of entities and partially matched spans during training. Through boundary regression, entities of any length can be covered theoretically, which improves the ability to recognize long entities. In addition, many low-quality seed spans are filtered out in the first stage, which reduces the time complexity of inference. Experiments on nested NER datasets demonstrate that our proposed method outperforms previous state-of-the-art models.
翻訳日:2021-05-17 12:47:01 公開日:2021-05-14
# 大規模対話データセットを用いた共感応答の生成

Generating Empathetic Responses with a Large Scale Dialog Dataset ( http://arxiv.org/abs/2105.06829v1 )

ライセンス: Link先を確認
Yubo Xie, Pearl Pu(参考訳) 共感的応答生成の課題は、前回の対話の後、構文的に正しく感情的に適切な応答を生成することである。 既存のモデルは、応答生成を導くために事前に定義された感情情報を直接取り入れるか、あるいは決定論的ルールを使って反応感情を決定し、人間の会話で捉えた微妙な感情の相互作用を無視している。 高度な言語モデルが出現すると、自然言語ダイアログで捉えたニュアンス的な感情の交換を学ぶことができる。 感情と対話の意図の範囲を完全に調査するには、会話における人間の感情的相互作用の一般的な理解に光を当てるのに十分な量のデータセットをキュレートすることが重要です。 本稿では,各発話に32の感情と9つの意図カテゴリのラベルを付ける大規模対話データセットのキュレーション過程について詳述する。 次に,6,000以上のヒト評価インスタンスのベースラインと比較して,多ターン共感ダイアログモデルの構築方法を示す。

The task of empathetic response generation aims at generating syntactically correct and, more importantly, emotionally appropriate responses following previous dialog turns. Existing models either directly incorporate pre-defined emotion information to guide the response generation, or use deterministic rules to decide the response emotion, ignoring the subtle emotion interactions captured in human conversations. With the advent of advanced language models, it is possible to learn the nuanced emotional exchanges captured in natural language dialogs. To fully explore the range of emotions and dialog intents, it is important to curate a dataset large enough to shed light on the general understanding of human emotional interactions in our conversations. In this paper, we describe in detail the curation process of a large-scale dialog dataset where each utterance is labeled with one of 32 emotions and 9 intent categories. We then show how to build a multi-turn empathetic dialog model that performs well compared to its baselines over 6,000 human evaluated instances.
翻訳日:2021-05-17 12:46:45 公開日:2021-05-14
# 空間構成の推論によるナビゲーションに向けて

Towards Navigation by Reasoning over Spatial Configurations ( http://arxiv.org/abs/2105.06839v1 )

ライセンス: Link先を確認
Yue Zhang, Quan Guo, Parisa Kordjamshidi(参考訳) エージェントが環境を観察しながら自然言語の指示に従うようなナビゲーション問題に対処する。 言語理解に重点を置き,ナビゲーション指示を視覚知覚に接地する上で,空間的意味論の重要性を示す。 本稿では,空間構成の要素を利用したニューラルエージェントを提案し,ナビゲーションエージェントの推論能力への影響について検討する。 さらに、逐次実行順序をモデル化し、視覚オブジェクトを命令中の空間構成にアラインする。 我々のニューラルエージェントは、目に見えない環境における強いベースラインを改善し、目に見えない環境における競争性能を示す。 さらに, 実験により, 空間的意味要素の明示的なモデル化により, モデルの基底化と空間的推論が向上することを示した。

We deal with the navigation problem where the agent follows natural language instructions while observing the environment. Focusing on language understanding, we show the importance of spatial semantics in grounding navigation instructions into visual perceptions. We propose a neural agent that uses the elements of spatial configurations and investigate their influence on the navigation agent's reasoning ability. Moreover, we model the sequential execution order and align visual objects with spatial configurations in the instruction. Our neural agent improves strong baselines on the seen environments and shows competitive performance on the unseen environments. Additionally, the experimental results demonstrate that explicit modeling of spatial semantic elements in the instructions can improve the grounding and spatial reasoning of the model.
翻訳日:2021-05-17 12:46:29 公開日:2021-05-14
# ありがとう、BART! Rewarding Pre-Trained Models improves Formality Style Transfer

Thank you BART! Rewarding Pre-Trained Models Improves Formality Style Transfer ( http://arxiv.org/abs/2105.06947v1 )

ライセンス: Link先を確認
Huiyuan Lai, Antonio Toral, Malvina Nissim(参考訳) 並列データの共有により、形式的なスタイルの転送モデルがコンテンツの保存にあまり成功しない。 本稿では, 微調整事前学習言語(GPT-2)とシーケンス・ツー・シーケンス(BART)モデルによってコンテンツ保存が促進され, 限られた並列データでも実現可能であることを示す。 タスクの2つの中核的な側面であるスタイルとコンテンツをターゲットにした報酬でこれらのモデルを強化します。

Scarcity of parallel data causes formality style transfer models to have scarce success in preserving content. We show that fine-tuning pre-trained language (GPT-2) and sequence-to-sequence (BART) models boosts content preservation, and that this is possible even with limited amounts of parallel data. Augmenting these models with rewards that target style and content --the two core aspects of the task-- we achieve a new state-of-the-art.
翻訳日:2021-05-17 12:46:18 公開日:2021-05-14
# EASE: 説明付き抽出抽象要約

EASE: Extractive-Abstracti ve Summarization with Explanations ( http://arxiv.org/abs/2105.06982v1 )

ライセンス: Link先を確認
Haoran Li, Arash Einolghozati, Srinivasan Iyer, Bhargavi Paranjape, Yashar Mehdad, Sonal Gupta, Marjan Ghazvininejad(参考訳) 現在の抽象的な要約システムは抽出システムよりも優れているが、その普及は解釈可能性の欠如によって抑制されている。 両世界の最善を尽くすために,エビデンスに基づくテキスト生成のための抽出・要約フレームワークであるeasyを提案し,文書要約に適用する。 本稿では,エンド・ツー・エンドの方法での抽出と抽象化を共同で訓練した情報ボトルネック原理に基づく説明可能な要約システムを提案する。 人間は2段階の枠組みを使って長い文書をまとめる(jing and mckeown, 2000)という以前の研究に触発されて、まずは事前定義された量の証拠を説明として抽出し、その証拠のみを用いて要約を生成する。 自動評価と人的評価を用いて, 生成した要約の質を著しく損なうことなく, 簡単なベースラインよりも, フレームワークからの説明の方が適切であることを示す。

Current abstractive summarization systems outperform their extractive counterparts, but their widespread adoption is inhibited by the inherent lack of interpretability. To achieve the best of both worlds, we propose EASE, an extractive-abstracti ve framework for evidence-based text generation and apply it to document summarization. We present an explainable summarization system based on the Information Bottleneck principle that is jointly trained for extraction and abstraction in an end-to-end fashion. Inspired by previous research that humans use a two-stage framework to summarize long documents (Jing and McKeown, 2000), our framework first extracts a pre-defined amount of evidence spans as explanations and then generates a summary using only the evidence. Using automatic and human evaluations, we show that explanations from our framework are more relevant than simple baselines, without substantially sacrificing the quality of the generated summary.
翻訳日:2021-05-17 12:46:09 公開日:2021-05-14
# ロボットエージェントのためのアプライアンス関係の構築 -レビュー-

Building Affordance Relations for Robotic Agents - A Review ( http://arxiv.org/abs/2105.06706v1 )

ライセンス: Link先を確認
Paola Ard\'on, \`Eric Pairet, Katrin S. Lohan, Subramanian Ramamoorthy, Ronald P. A. Petrick(参考訳) Affordancesは、エージェントがオブジェクトでアクションを実行する可能性を記述する。 代価概念の意義は心理学や認知科学など様々な観点から研究されてきたが、これらのアプローチが人工知能(ai)ベースのシステムやロボット工学への直接移転を可能にするには必ずしも十分ではない。 しかし、aiエージェントが行動に対する知覚を効果的に橋渡しできる大きな可能性を示すため、アフォーアンスの概念を実践的に採用するために多くの努力がなされている。 本研究は,ロボットタスクにおけるアプライアンスの概念を用いた戦略の共通点をレビューし,自律性を改善するためのメカニズムとしてアプライアンスを含めるためのガイダンスを提供する。 この目的のために, 余剰関係の表現を構築するための共通設計選択と, 未確認シナリオに直面したエージェントの一般化能力への影響について概説する。 最後に、AIエージェントの能力を改善する可能性を持つ余裕を含む、さまざまな興味深い研究方向を特定し、議論する。

Affordances describe the possibilities for an agent to perform actions with an object. While the significance of the affordance concept has been previously studied from varied perspectives, such as psychology and cognitive science, these approaches are not always sufficient to enable direct transfer, in the sense of implementations, to artificial intelligence (AI)-based systems and robotics. However, many efforts have been made to pragmatically employ the concept of affordances, as it represents great potential for AI agents to effectively bridge perception to action. In this survey, we review and find common ground amongst different strategies that use the concept of affordances within robotic tasks, and build on these methods to provide guidance for including affordances as a mechanism to improve autonomy. To this end, we outline common design choices for building representations of affordance relations, and their implications on the generalisation capabilities of an agent when facing previously unseen scenarios. Finally, we identify and discuss a range of interesting research directions involving affordances that have the potential to improve the capabilities of an AI agent.
翻訳日:2021-05-17 12:45:52 公開日:2021-05-14
# 人間計画における心的表現の制御

Control of mental representations in human planning ( http://arxiv.org/abs/2105.06948v1 )

ライセンス: Link先を確認
Mark K. Ho, David Abel, Carlos G. Correa, Michael L. Littman, Jonathan D. Cohen, Thomas L. Griffiths(参考訳) 人間の認知の最も顕著な特徴の1つは、計画する能力である。 人間の計画の2つの側面は、その効率性、複雑な環境においても、そして変化する環境においても柔軟性である。 なぜなら、最適な計画を直接計算することは、わずかに複雑なタスクであっても難解であり、認知資源が限られているにもかかわらず、人々は無数の日常的な問題を解決することに成功したからだ。 心理学、経済学、人工知能の標準的な説明では、これは人々がタスクの精神的な表現を持ち、その表現を計画するためにヒューリスティックを使用するからである。 しかし、このアプローチは一般にメンタル表現が固定されていると仮定する。 ここでは、メンタル表現は制御可能であり、それによって問題をより容易に推論できるように、適応的に単純化する機会が得られることを提案する。 我々はこのプロセスの形式的モデルを構築し、一連の大規模で登録された行動実験において、コンストラクトがオンライン認知制御の対象であることと、表現の複雑さと計画と行動のための有用性を最適にバランスする価値誘導コンストラクトを形成することの両方を示している。 これらの結果は,問題の戦略的知覚と認識が,限られた認知資源の有効利用を促進することを示す。

One of the most striking features of human cognition is the capacity to plan. Two aspects of human planning stand out: its efficiency, even in complex environments, and its flexibility, even in changing environments. Efficiency is especially impressive because directly computing an optimal plan is intractable, even for modestly complex tasks, and yet people successfully solve myriad everyday problems despite limited cognitive resources. Standard accounts in psychology, economics, and artificial intelligence have suggested this is because people have a mental representation of a task and then use heuristics to plan in that representation. However, this approach generally assumes that mental representations are fixed. Here, we propose that mental representations can be controlled and that this provides opportunities to adaptively simplify problems so they can be more easily reasoned about -- a process we refer to as construal. We construct a formal model of this process and, in a series of large, pre-registered behavioral experiments, show both that construal is subject to online cognitive control and that people form value-guided construals that optimally balance the complexity of a representation and its utility for planning and acting. These results demonstrate how strategically perceiving and conceiving problems facilitates the effective use of limited cognitive resources.
翻訳日:2021-05-17 12:45:34 公開日:2021-05-14
# TriPose:ビデオによる三角測量による3D人物位置推定

TriPose: A Weakly-Supervised 3D Human Pose Estimation via Triangulation from Video ( http://arxiv.org/abs/2105.06599v1 )

ライセンス: Link先を確認
Mohsen Gholami, Ahmad Rezaei, Helge Rhodin, Rabab Ward and Z. Jane Wang(参考訳) ビデオから3Dのポーズを推定することは難しい問題だ。 3Dヒューマンポーズアノテーションの欠如は、教師付きトレーニングと、目に見えないデータセットの一般化の大きな障害である。 本研究では、3Dアノテーションや校正カメラを必要としない弱教師付きトレーニングスキームを提案し,この問題に対処する。 提案手法は時間情報と三角測量に依存する。 複数のビューからの2Dポーズを入力として、まず相対カメラの向きを推定し、三角測量により3Dポーズを生成する。 三角測量は高い2次元人間の関節信頼度を持つ視点にのみ適用される。 生成された3Dポーズは、2Dポーズから3Dポーズを推定するリカレントリフトネットワーク(RLN)のトレーニングに使用される。 さらに,推定3次元ポーズに対するマルチビュー再投影損失を適用し,マルチビューから推定した3次元ポーズの一貫性を強制する。 したがって,本手法は制約を緩和し,訓練にはマルチビュービデオのみが必要となるため,実環境の設定に便利である。 推論では、rlnは単にシングルビュービデオを必要とする。 提案手法は、Human3.6M と MPI-INF-3DHP という2つの挑戦的なデータセットに関する先行研究より優れている。 コードと事前訓練されたモデルが公開される。

Estimating 3D human poses from video is a challenging problem. The lack of 3D human pose annotations is a major obstacle for supervised training and for generalization to unseen datasets. In this work, we address this problem by proposing a weakly-supervised training scheme that does not require 3D annotations or calibrated cameras. The proposed method relies on temporal information and triangulation. Using 2D poses from multiple views as the input, we first estimate the relative camera orientations and then generate 3D poses via triangulation. The triangulation is only applied to the views with high 2D human joint confidence. The generated 3D poses are then used to train a recurrent lifting network (RLN) that estimates 3D poses from 2D poses. We further apply a multi-view re-projection loss to the estimated 3D poses and enforce the 3D poses estimated from multi-views to be consistent. Therefore, our method relaxes the constraints in practice, only multi-view videos are required for training, and is thus convenient for in-the-wild settings. At inference, RLN merely requires single-view videos. The proposed method outperforms previous works on two challenging datasets, Human3.6M and MPI-INF-3DHP. Codes and pretrained models will be publicly available.
翻訳日:2021-05-17 12:44:51 公開日:2021-05-14
# 顔行動単位検出のためのメタ補助学習

Meta Auxiliary Learning for Facial Action Unit Detection ( http://arxiv.org/abs/2105.06620v1 )

ライセンス: Link先を確認
Yong Li, Shiguang Shan(参考訳) 顔動作単位(au)検出におけるディープニューラルネットワークの成功にもかかわらず、優れたパフォーマンスは正確なauアノテーションを持つ多数のトレーニングイメージに依存する。 しかし、AUのラベル付けは時間がかかり、高価で、エラーを起こしやすい。 AU検出と顔表情認識(FER)は2つの非常に相関したタスクであり,顔表情(FE)は比較的簡単に注釈を付けることができるので,マルチタスクでAU検出とFERを学習することを検討する。 しかし、マルチタスクシナリオにおける負の転送のため、AU検出タスクの性能を常に向上することはできない。 そこで本研究では,feサンプルの適応度を学習し,関連するfeサンプルを自動的に選択するメタ補助学習手法(mal)を提案する。 学習したサンプル重み付けは、2つの側面から負の伝達を緩和する: 1)各タスクの損失を自動的にバランスさせ、2)大きな不確実性を持つfeサンプルの重みを抑制する。 いくつかの人気のあるAUデータセットの実験結果から、MALは最先端のマルチタスクおよび補助学習手法と比較して、AU検出性能を一貫して改善することを示した。 MALは、主AU検出タスクと意味的関連性に応じて、補助FEサンプルの適応重量を自動的に推定する。

Despite the success of deep neural networks on facial action unit (AU) detection, better performance depends on a large number of training images with accurate AU annotations. However, labeling AU is time-consuming, expensive, and error-prone. Considering AU detection and facial expression recognition (FER) are two highly correlated tasks, and facial expression (FE) is relatively easy to annotate, we consider learning AU detection and FER in a multi-task manner. However, the performance of the AU detection task cannot be always enhanced due to the negative transfer in the multi-task scenario. To alleviate this issue, we propose a Meta Auxiliary Learning method (MAL) that automatically selects highly related FE samples by learning adaptative weights for the training FE samples in a meta learning manner. The learned sample weights alleviate the negative transfer from two aspects: 1) balance the loss of each task automatically, and 2) suppress the weights of FE samples that have large uncertainties. Experimental results on several popular AU datasets demonstrate MAL consistently improves the AU detection performance compared with the state-of-the-art multi-task and auxiliary learning methods. MAL automatically estimates adaptive weights for the auxiliary FE samples according to their semantic relevance with the primary AU detection task.
翻訳日:2021-05-17 12:44:32 公開日:2021-05-14
# クロスロードゾーンによる都市規模多カメラ車両追跡

City-Scale Multi-Camera Vehicle Tracking Guided by Crossroad Zones ( http://arxiv.org/abs/2105.06623v1 )

ライセンス: Link先を確認
Chong Liu and Yuqi Zhang and Hao Luo and Jiasheng Tang and Weihua Chen and Xianzhe Xu and Fan Wang and Hao Li and Yi-Dong Shen(参考訳) Multi-Target Multi-Camera Trackingは幅広い応用があり、多くの高度な推測と予測の基礎となっている。 本稿では,2021年AIシティチャレンジ(AICITY21)におけるトラック3マルチカメラ車両追跡タスクのソリューションについて述べる。 本稿では,クロスロードゾーンで案内されるマルチターゲットマルチカメラ車両追跡フレームワークを提案する。 1) 目標と外観の特徴を抽出するために, 成熟度検出と車両再識別モデルを使用する。 2) 改良型JDETracker (検出モジュールなし) を用いて単カメラ車両を追跡し, 単カメラトラックレットを生成する。 3) 交差道路の特性により, トラックレットフィルタ戦略と方向に基づく時空間マスクが提案されている。 (4)マルチカメラ・トラックレットマッチングのための隣接カメラにおけるサブクラスタリングの提案 以上の手法により,IDF1スコアが0.8095となり,トップボードにランクインした。 https://github.com/L CFractal/AIC21-MTMC。

Multi-Target Multi-Camera Tracking has a wide range of applications and is the basis for many advanced inferences and predictions. This paper describes our solution to the Track 3 multi-camera vehicle tracking task in 2021 AI City Challenge (AICITY21). This paper proposes a multi-target multi-camera vehicle tracking framework guided by the crossroad zones. The framework includes: (1) Use mature detection and vehicle re-identification models to extract targets and appearance features. (2) Use modified JDETracker (without detection module) to track single-camera vehicles and generate single-camera tracklets. (3) According to the characteristics of the crossroad, the Tracklet Filter Strategy and the Direction Based Temporal Mask are proposed. (4) Propose Sub-clustering in Adjacent Cameras for multi-camera tracklets matching. Through the above techniques, our method obtained an IDF1 score of 0.8095, ranking first on the leaderboard. The code have released: https://github.com/L CFractal/AIC21-MTMC.
翻訳日:2021-05-17 12:44:13 公開日:2021-05-14
# バイオメトリックス:信頼はするが検証する

Biometrics: Trust, but Verify ( http://arxiv.org/abs/2105.06625v1 )

ライセンス: Link先を確認
Anil K. Jain, Debayan Deb and Joshua J. Engelsma(参考訳) 過去20年間、生体認証は世界中の様々なアプリケーションに爆発的に普及してきた。 この増殖は、生体認証システムがエンドユーザに与える高いレベルの認証精度とユーザ利便性に起因する可能性がある。 しかし,生体認証システムの成功にともなって,生体認証システムの様々なサブモジュールに関連する問題や懸念が数多く存在し,その使用に不信感の要素を生み出している。 i)システム認識性能に関する質問、ii)セキュリティ(詐欺攻撃、敵意攻撃、テンプレート再構成攻撃、人口統計情報漏洩)、iii)システムのすべてのユーザに対するバイアスと公平性に関する不確実性、iv)ほとんどの認識システムによってなされた一見ブラックボックスな判断の説明可能性、v)データ集中化とユーザのプライバシーに関する懸念。 本稿では,前述のオープン・ディビジョンの課題について概観する。 我々はこれらの懸念に対処するために実施されている調査を行い、さらなる注意を要する課題を強調した。 最後に、生体認証システム設計の課題に対して、生体認証コミュニティがどのように対処できるかについての洞察を提供し、信頼性、公正性、セキュリティを向上する。

Over the past two decades, biometric recognition has exploded into a plethora of different applications around the globe. This proliferation can be attributed to the high levels of authentication accuracy and user convenience that biometric recognition systems afford end-users. However, in-spite of the success of biometric recognition systems, there are a number of outstanding problems and concerns pertaining to the various sub-modules of biometric recognition systems that create an element of mistrust in their use - both by the scientific community and also the public at large. Some of these problems include: i) questions related to system recognition performance, ii) security (spoof attacks, adversarial attacks, template reconstruction attacks and demographic information leakage), iii) uncertainty over the bias and fairness of the systems to all users, iv) explainability of the seemingly black-box decisions made by most recognition systems, and v) concerns over data centralization and user privacy. In this paper, we provide an overview of each of the aforementioned open-ended challenges. We survey work that has been conducted to address each of these concerns and highlight the issues requiring further attention. Finally, we provide insights into how the biometric community can address core biometric recognition systems design issues to better instill trust, fairness, and security for all.
翻訳日:2021-05-17 12:44:00 公開日:2021-05-14
# 少数ショットセマンティクスセグメンテーションのための注意深いプロトタイプ推論

Attentional Prototype Inference for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2105.06668v1 )

ライセンス: Link先を確認
Haoliang Sun, Xiankai Lu, Haochen Wang, Yilong Yin, Xiantong Zhen, Cees G. M. Snoek, and Ling Shao(参考訳) 本稿では,数発のセマンティックセグメンテーションを提案する。 既存のプロトタイプベースの手法は大きな成功を収めているが、限定的なラベル付き例による不確実性と曖昧さに苦しめられている。 本研究では,少数ショットセマンティックセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。 我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。 プロトタイプの確率論的モデリングは、限られたデータやクラス内の変化に起因する固有の不確実性を扱うことにより、モデルの一般化能力を高める。 モデルをさらに強化するために,各クエリ画像のアテンションマップを表す局所潜在変数を導入する。 提案モデルの最適化は,amortized inference networkによって確立された変分ベイズ推定問題として定式化されており,本提案手法は最先端手法よりも,少なくとも競争性が高く,しばしば優れた性能が得られる3つのベンチマークについて広範な実験を行っている。 また,本手法の有効性について考察するために,包括的解析とアブレーション研究を行った。

This paper aims to address few-shot semantic segmentation. While existing prototype-based methods have achieved considerable success, they suffer from uncertainty and ambiguity caused by limited labelled examples. In this work, we propose attentional prototype inference (API), a probabilistic latent variable framework for few-shot semantic segmentation. We define a global latent variable to represent the prototype of each object category, which we model as a probabilistic distribution. The probabilistic modeling of the prototype enhances the model's generalization ability by handling the inherent uncertainty caused by limited data and intra-class variations of objects. To further enhance the model, we introduce a local latent variable to represent the attention map of each query image, which enables the model to attend to foreground objects while suppressing background. The optimization of the proposed model is formulated as a variational Bayesian inference problem, which is established by amortized inference networks.We conduct extensive experiments on three benchmarks, where our proposal obtains at least competitive and often better performance than state-of-the-art methods. We also provide comprehensive analyses and ablation studies to gain insight into the effectiveness of our method for few-shot semantic segmentation.
翻訳日:2021-05-17 12:43:38 公開日:2021-05-14
# ReGINA - 人間の行動認識におけるグラフ畳み込みネットワークの推論

REGINA - Reasoning Graph Convolutional Networks in Human Action Recognition ( http://arxiv.org/abs/2105.06711v1 )

ライセンス: Link先を確認
Bruno Degardin, Vasco Lopes and Hugo Proen\c{c}a(参考訳) 人体骨格の運動学は、行動認識において貴重な情報を明らかにすることが知られている。 近年,グラフ畳み込みネットワーク (GCNs) を用いた時空間グラフのモデル化により,最先端の性能向上が図られている。 しかし、GCNベースのアプローチは生の骨格データからのみ学習し、独自の構造情報を抽出することが期待されている。 本稿では,人間の行動認識におけるグラフ畳み込みネットワークの推論法を提案する。 その根拠は、学習プロセスを容易にするために手作りの機能によって得られた骨格データに関するさらなる知識をGCNに提供し、エンドツーエンドで完全にトレーニングできることを保証することである。 課題は、最新のGCN技術によって抽出された重要な情報である連続フレーム間のダイナミクスに関する補完的な情報を取得することである。 また,提案手法は既存のGCNベースの手法と容易に統合でき,肯定的に検討する。 本実験は、よく知られた行動認識データセットを用いて実施され、REGINAが他のGCNベースのアプローチに組み込んだ場合、元の手法に関する調整を伴わずに、パフォーマンスの向上に寄与することが結論付けられた。 再現性については、REGINAコードとすべての実験がhttps://github.com/D egardinBruno.comで公開される。

It is known that the kinematics of the human body skeleton reveals valuable information in action recognition. Recently, modeling skeletons as spatio-temporal graphs with Graph Convolutional Networks (GCNs) has been reported to solidly advance the state-of-the-art performance. However, GCN-based approaches exclusively learn from raw skeleton data, and are expected to extract the inherent structural information on their own. This paper describes REGINA, introducing a novel way to REasoning Graph convolutional networks IN Human Action recognition. The rationale is to provide to the GCNs additional knowledge about the skeleton data, obtained by handcrafted features, in order to facilitate the learning process, while guaranteeing that it remains fully trainable in an end-to-end manner. The challenge is to capture complementary information over the dynamics between consecutive frames, which is the key information extracted by state-of-the-art GCN techniques. Moreover, the proposed strategy can be easily integrated in the existing GCN-based methods, which we also regard positively. Our experiments were carried out in well known action recognition datasets and enabled to conclude that REGINA contributes for solid improvements in performance when incorporated to other GCN-based approaches, without any other adjustment regarding the original method. For reproducibility, the REGINA code and all the experiments carried out will be publicly available at https://github.com/D egardinBruno.
翻訳日:2021-05-17 12:43:18 公開日:2021-05-14
# 信頼誘導型適応ゲートと2値差分法による映像有向物体検出

Confidence-guided Adaptive Gate and Dual Differential Enhancement for Video Salient Object Detection ( http://arxiv.org/abs/2105.06714v1 )

ライセンス: Link先を確認
Peijia Chen, Jianhuang Lai, Guangcong Wang, Huajun Zhou(参考訳) ビデオサルエント物体検出(VSOD)は、ビデオシーケンスに隠された空間的手がかりと時間的手がかりの両方を活用することにより、最も魅力的な物体の探索と分割を目的としている。 しかし、空間的および時間的手がかりは、しばしば、低コントラストの前景、速い動き、複数の動く物体など、現実世界のシナリオでは信頼できない。 このような問題に対処するために、信頼誘導適応ゲート(CAG)モジュールとDDEモジュールを含む空間的および時間的手がかりから利用可能な情報を適応的にキャプチャする新しいフレームワークを提案する。 RGBの特徴と光フローの特徴の両方について、CAGはIoUが監督する信頼度スコアを予測と地上の真実の間に推定し、ゲート機構で情報を再分類する。 ddeは微分特徴表現を取り込み、空間的および時間的情報を豊かにし、融合特徴を生成する。 4つの広く利用されているデータセットの実験結果から,提案手法の有効性が示された。

Video salient object detection (VSOD) aims to locate and segment the most attractive object by exploiting both spatial cues and temporal cues hidden in video sequences. However, spatial and temporal cues are often unreliable in real-world scenarios, such as low-contrast foreground, fast motion, and multiple moving objects. To address these problems, we propose a new framework to adaptively capture available information from spatial and temporal cues, which contains Confidence-guided Adaptive Gate (CAG) modules and Dual Differential Enhancement (DDE) modules. For both RGB features and optical flow features, CAG estimates confidence scores supervised by the IoU between predictions and the ground truths to re-calibrate the information with a gate mechanism. DDE captures the differential feature representation to enrich the spatial and temporal information and generate the fused features. Experimental results on four widely used datasets demonstrate the effectiveness of the proposed method against thirteen state-of-the-art methods.
翻訳日:2021-05-17 12:42:55 公開日:2021-05-14
# エジプトミイラのマイクロトモグラフィー画像の自動分割

Automated segmentation of microtomography imaging of Egyptian mummies ( http://arxiv.org/abs/2105.06738v1 )

ライセンス: Link先を確認
Marc Tanti, Camille Berruyer, Paul Tafforeau, Adrian Muscat, Reuben Farrugia, Kenneth Scerri, Gianluca Valentino, V. Armando Sol\'e and Johann A. Briffa(参考訳) 伝播位相コントラスト・シンクロトロン・マイクロトモグラフィー(ppc-sr${\mu}$ct)は、非侵襲的かつ非破壊的な遺跡の内部構造へのアクセスのための金の標準である。 この分析では、仮想標本を別々の部品や材料に分割する必要がある。 マイクロトモグラフィー画像の自動分割(ASEMI)プロジェクトでは,手動分割サンプルを用いて機械学習モデルのチューニングとトレーニングを行い,これらのボリューム画像を自動分割するツールを開発した。 古代エジプトの動物ミイラの4つの標本について、手作業で分割したスライスと比較すると、全体的な精度は94-98%に達し、より少ない複雑さでディープラーニング(97-99%)を使った市販ソフトウェアの結果に近づいた。 セグメント化されたアウトプットを定性的に分析した結果,ディープラーニングのユーザビリティの面では,これらのテクニックの利用を正当化する結果が得られた。

Propagation Phase Contrast Synchrotron Microtomography (PPC-SR${\mu}$CT) is the gold standard for non-invasive and non-destructive access to internal structures of archaeological remains. In this analysis, the virtual specimen needs to be segmented to separate different parts or materials, a process that normally requires considerable human effort. In the Automated SEgmentation of Microtomography Imaging (ASEMI) project, we developed a tool to automatically segment these volumetric images, using manually segmented samples to tune and train a machine learning model. For a set of four specimens of ancient Egyptian animal mummies we achieve an overall accuracy of 94-98% when compared with manually segmented slices, approaching the results of off-the-shelf commercial software using deep learning (97-99%) at much lower complexity. A qualitative analysis of the segmented output shows that our results are close in term of usability to those from deep learning, justifying the use of these techniques.
翻訳日:2021-05-17 12:42:36 公開日:2021-05-14
# 個人行動ラベルのない骨格からの集団活動の学習

Learning Group Activities from Skeletons without Individual Action Labels ( http://arxiv.org/abs/2105.06754v1 )

ライセンス: Link先を確認
Fabio Zappardino and Tiberio Uricchio and Lorenzo Seidenari and Alberto Del Bimbo(参考訳) 人間の行動を理解するためには、個々の行動を単に認識するだけでなく、複雑な集団活動や相互作用をモデル化する必要がある。 階層モデルはグループアクティビティ認識の最良の結果を得るが、アクターレベルでの個々のアクションアノテーションをきめ細かいものにする必要がある。 本稿では,骨格データのみを用いて,グループアクティビティラベルのみをシーケンスレベルで使用して,最先端の最先端システムをトレーニングできることを示す。 実験の結果,個別の行動監督なしに訓練したモデルの性能は低かった。 一方,擬似ラベルは任意の事前学習された特徴抽出器から計算可能であり,最終的な性能が同等であることを示す。 最後に、慎重に設計されたリーンポーズのみのアーキテクチャは、自己監督型であっても、より複雑なマルチモーダルアプローチに比べて高い競合性を示している。

To understand human behavior we must not just recognize individual actions but model possibly complex group activity and interactions. Hierarchical models obtain the best results in group activity recognition but require fine grained individual action annotations at the actor level. In this paper we show that using only skeletal data we can train a state-of-the art end-to-end system using only group activity labels at the sequence level. Our experiments show that models trained without individual action supervision perform poorly. On the other hand we show that pseudo-labels can be computed from any pre-trained feature extractor with comparable final performance. Finally our carefully designed lean pose only architecture shows highly competitive results versus more complex multimodal approaches even in the self-supervised variant.
翻訳日:2021-05-17 12:42:15 公開日:2021-05-14
# マルチタスクグラフ畳み込みニューラルネットワークによるマンモグラムの石灰化形態と分布解析

Multi-task Graph Convolutional Neural Network for Calcification Morphology and Distribution Analysis in Mammograms ( http://arxiv.org/abs/2105.06822v1 )

ライセンス: Link先を確認
Hao Du, Melissa Min-Szu Yao, Liangyu Chen, Wing P. Chan, and Mengling Feng(参考訳) クラスター内の微小石灰化の形態と分布は、放射線技師が乳癌を診断する上で最も重要な特徴である。 しかし, 放射線技師がこれらの特徴を識別することは困難であり, 自動的特徴付けのための効果的な解決策も欠如している。 本研究では,マルチタスクディープグラフ畳み込みネットワーク (GCN) を用いたマンモグラムの形状と微細石灰化分布の自動解析手法を提案する。 提案手法は形態と分布特性をノードとグラフの分類問題に変換し,同時に表現を学習する。 広範な実験を通じて,提案するマルチタスクgcnをベースラインと比較し,大幅に改善することを示す。 さらに、達成された改善は臨床理解に関連し、強化することができる。 我々は,医用画像のより強固な理解のためのグラフ学習の可能性を示すマイクロ石灰化キャラクタリゼーションにおけるgcnsの応用を初めて検討した。

The morphology and distribution of microcalcifications in a cluster are the most important characteristics for radiologists to diagnose breast cancer. However, it is time-consuming and difficult for radiologists to identify these characteristics, and there also lacks of effective solutions for automatic characterization. In this study, we proposed a multi-task deep graph convolutional network (GCN) method for the automatic characterization of morphology and distribution of microcalcifications in mammograms. Our proposed method transforms morphology and distribution characterization into node and graph classification problem and learns the representations concurrently. Through extensive experiments, we demonstrate significant improvements with the proposed multi-task GCN comparing to the baselines. Moreover, the achieved improvements can be related to and enhance clinical understandings. We explore, for the first time, the application of GCNs in microcalcification characterization that suggests the potential of graph learning for more robust understanding of medical images.
翻訳日:2021-05-17 12:42:04 公開日:2021-05-14
# VICE: ニューラルネットワークエラーの視覚的識別と補正

VICE: Visual Identification and Correction of Neural Circuit Errors ( http://arxiv.org/abs/2105.06861v1 )

ライセンス: Link先を確認
Felix Gonda, Xueying Wang, Johanna Beyer, Markus Hadwiger, Jeff W. Lichtman, and Hanspeter Pfister(参考訳) 単一シナプスの分解能にあるニューロンの連結グラフは、科学者に健康と疾患の神経系を理解するためのツールを提供する。 脳の電子顕微鏡(EM)データセットにおける自動画像分割とシナプス予測の最近の進歩は、ナノメートルスケールでニューロンの再構築を可能にした。 しかし、自動セグメンテーションは、しばしば大きなニューロンを正しくセグメンテーションするのに苦労し、出力を証明するために人間の努力を必要とする。 一般的な証明には、大きなボリュームを検査してピクセルレベルでのセグメンテーションエラーを補正する。 本稿では,接続関連エラーに着目して,実証読解を効率化する分析フレームワークの設計と実装について述べる。 我々は、高度にインタラクティブな3Dビジュアライゼーションによる証明読影を駆動する自動エラー検出とシナプスクラスタリングにより、これを実現する。 特に、我々の戦略は、基本レベルの完全性を確保するために単一のセルの局所回路を実証することに集中している。 当社のフレームワークの有用性をユーザスタディで実証し,ユーザからの定量的かつ主観的なフィードバックを報告する。 全体として、ユーザーはこのフレームワークをより効果的に証明し、グラフの進化を理解し、エラー訂正戦略を共有する。

A connectivity graph of neurons at the resolution of single synapses provides scientists with a tool for understanding the nervous system in health and disease. Recent advances in automatic image segmentation and synapse prediction in electron microscopy (EM) datasets of the brain have made reconstructions of neurons possible at the nanometer scale. However, automatic segmentation sometimes struggles to segment large neurons correctly, requiring human effort to proofread its output. General proofreading involves inspecting large volumes to correct segmentation errors at the pixel level, a visually intensive and time-consuming process. This paper presents the design and implementation of an analytics framework that streamlines proofreading, focusing on connectivity-related errors. We accomplish this with automated likely-error detection and synapse clustering that drives the proofreading effort with highly interactive 3D visualizations. In particular, our strategy centers on proofreading the local circuit of a single cell to ensure a basic level of completeness. We demonstrate our framework's utility with a user study and report quantitative and subjective feedback from our users. Overall, users find the framework more efficient for proofreading, understanding evolving graphs, and sharing error correction strategies.
翻訳日:2021-05-17 12:41:50 公開日:2021-05-14
# 医用画像における自己監督学習のロバスト性の評価

Evaluating the Robustness of Self-Supervised Learning in Medical Imaging ( http://arxiv.org/abs/2105.06986v1 )

ライセンス: Link先を確認
Fernando Navarro, Christopher Watanabe, Suprosanna Shit, Anjany Sekuboyina, Jan C. Peeken, Stephanie E. Combs and Bjoern H. Menze(参考訳) 自己監督は、小さな注釈付きデータセット上でターゲットタスクを訓練する際の効果的な学習戦略であることを示した。 現在の研究は、目的とするタスクの有意義で再利用可能な表現を学ぶために、新しいプリテキストタスクを作成することに重点を置いているが、これらの取り組みは、完全な教師付き学習に比べて限界的なパフォーマンス向上をもたらす。 一方,自己指導型ネットワークの堅牢性についてはほとんど注目されていない。 本研究では,自己教師あり学習による学習ネットワークが,医用画像の文脈における完全教師あり学習と比較して,堅牢性と一般化性に優れていることを示す。 X線およびCTにおける多臓器分画による肺炎検出実験は、頑健な特徴表現を学習するための自己監督の隠れた利点を露呈する一貫した結果をもたらす。

Self-supervision has demonstrated to be an effective learning strategy when training target tasks on small annotated data-sets. While current research focuses on creating novel pretext tasks to learn meaningful and reusable representations for the target task, these efforts obtain marginal performance gains compared to fully-supervised learning. Meanwhile, little attention has been given to study the robustness of networks trained in a self-supervised manner. In this work, we demonstrate that networks trained via self-supervised learning have superior robustness and generalizability compared to fully-supervised learning in the context of medical imaging. Our experiments on pneumonia detection in X-rays and multi-organ segmentation in CT yield consistent results exposing the hidden benefits of self-supervision for learning robust feature representations.
翻訳日:2021-05-17 12:41:30 公開日:2021-05-14
# 自動非線形ビデオ編集転送

Automatic Non-Linear Video Editing Transfer ( http://arxiv.org/abs/2105.06988v1 )

ライセンス: Link先を確認
Nathan Frey, Peggy Chi, Weilong Yang, Irfan Essa(参考訳) 本稿では,ソースビデオ中の編集スタイルを抽出し,一致した映像に編集を適用する自動手法を提案する。 コンピュータビジョンに基づく手法では,各入力映像セグメントのフレーミング,コンテンツタイプ,再生速度,照明について検討する。 これらの特徴を組み合わせることで、プロが編集したビデオから視覚的・時間的スタイルを自動的に生の映像に転送する効果的な方法を示す。 提案手法を実世界ビデオを用いて評価し,様々な編集スタイル(被写体,カメラの動作,照明など)の合計3872本のビデオ撮影を行った。 結果の集合をレビューした調査参加者からのフィードバックを報告する。

We propose an automatic approach that extracts editing styles in a source video and applies the edits to matched footage for video creation. Our Computer Vision based techniques considers framing, content type, playback speed, and lighting of each input video segment. By applying a combination of these features, we demonstrate an effective method that automatically transfers the visual and temporal styles from professionally edited videos to unseen raw footage. We evaluated our approach with real-world videos that contained a total of 3872 video shots of a variety of editing styles, including different subjects, camera motions, and lighting. We reported feedback from survey participants who reviewed a set of our results.
翻訳日:2021-05-17 12:41:15 公開日:2021-05-14
# 強化学習による順序付けに基づく因果発見

Ordering-Based Causal Discovery with Reinforcement Learning ( http://arxiv.org/abs/2105.06631v1 )

ライセンス: Link先を確認
Xiaoqiang Wang, Yali Du, Shengyu Zhu, Liangjun Ke, Zhitang Chen, Jianye Hao and Jun Wang(参考訳) 多くの経験的科学において、変数の集合間の因果関係を発見することは長年の疑問である。 近年,強化学習 (rl) は観測データから因果発見に有望な結果を得ている。 しかし、有向グラフの空間を探索し、暗黙の罰則によって非巡回性を強制することは非効率であり、既存のRL法を小さな問題に制限する傾向がある。 本研究では、RLを順序付けに基づくパラダイムに組み込むことにより、因果発見のための新しいRLベースのアプローチを提案する。 具体的には、注文探索問題を多段階マルコフ決定プロセスとして定式化し、エンコーダデコーダアーキテクチャを用いて注文生成プロセスを実装し、最後にRLを用いて提案したモデルの最適化を行う。 生成された順序は変数選択を使用して処理され、最終的な因果グラフを得る。 提案手法の一貫性と計算複雑性を分析し,事前学習モデルを用いて学習を高速化できることを実証的に示す。 合成データと実データの両方を用いた実験結果から,提案手法は既存のRL法よりも性能が向上していることがわかった。

It is a long-standing question to discover causal relations among a set of variables in many empirical sciences. Recently, Reinforcement Learning (RL) has achieved promising results in causal discovery from observational data. However, searching the space of directed graphs and enforcing acyclicity by implicit penalties tend to be inefficient and restrict the existing RL-based method to small scale problems. In this work, we propose a novel RL-based approach for causal discovery, by incorporating RL into the ordering-based paradigm. Specifically, we formulate the ordering search problem as a multi-step Markov decision process, implement the ordering generating process with an encoder-decoder architecture, and finally use RL to optimize the proposed model based on the reward mechanisms designed for~each ordering. A generated ordering would then be processed using variable selection to obtain the final causal graph. We analyze the consistency and computational complexity of the proposed method, and empirically show that a pretrained model can be exploited to accelerate training. Experimental results on both synthetic and real data sets shows that the proposed method achieves a much improved performance over existing RL-based method.
翻訳日:2021-05-17 12:40:50 公開日:2021-05-14
# 秘密共有によるプライバシー保護ロジスティック回帰

Privacy-preserving Logistic Regression with Secret Sharing ( http://arxiv.org/abs/2105.06869v1 )

ライセンス: Link先を確認
Ali Reza Ghavamipour, Fatih Turkmen, Xiaoqian Jian(参考訳) ロジスティック回帰(LR)は、多くの医療データ分類タスクにおいて、バイナリ結果のモデリングに広く用いられている分類法である。 様々なデータカストディアンと管轄区域からデータセットを収集し結合する研究は、それらの分析目標をサポートする統計力の増加から過度に恩恵を受ける可能性がある。 しかし、これらの様々なソースからのデータを組み合わせることで、対処すべき重要なプライバシー上の懸念が生じる。 本稿では,Newton-Raphson法による秘密共有型プライバシー保護ロジスティック回帰プロトコルを提案する。 提案手法は,複数のデータホルダが所有するデータを分析するセキュリティ設定の異なるセキュアマルチパーティ計算(mpc)に基づいている。 合成データと実世界のデータセットの両方について実験を行い、それらの効率と精度を通常のロジスティック回帰モデルと比較した。 実験の結果,提案プロトコルは効率的で精度が高いことがわかった。 本研究では,ロジスティック回帰モデルの連合学習を,プライバシ保存方式で単純化する反復的アルゴリズムを提案する。 提案手法は,複数ソースからのロジスティック回帰を安全にトレーニングするための大規模データセットを処理可能であることを示す。

Logistic regression (LR) is a widely used classification method for modeling binary outcomes in many medical data classification tasks. Research that collects and combines datasets from various data custodians and jurisdictions can excessively benefit from the increased statistical power to support their analyzing goals. However, combining data from these various sources creates significant privacy concerns that need to be addressed. In this paper, we proposed secret sharing-based privacy-preserving logistic regression protocols using the Newton-Raphson method. Our proposed approaches are based on secure Multi-Party Computation (MPC) with different security settings to analyze data owned by several data holders. We conducted experiments on both synthetic data and real-world datasets and compared the efficiency and accuracy of them with those of an ordinary logistic regression model. Experimental results demonstrate that the proposed protocols are highly efficient and accurate. This study introduces iterative algorithms to simplify the federated training a logistic regression model in a privacy-preserving manner. Our implementation results show that our improved method can handle large datasets used in securely training a logistic regression from multiple sources.
翻訳日:2021-05-17 12:40:29 公開日:2021-05-14
# モデル非依存的グローバル説明の情報理論進化

Information-theoreti c Evolution of Model Agnostic Global Explanations ( http://arxiv.org/abs/2105.06956v1 )

ライセンス: Link先を確認
Sukriti Verma, Nikaash Puri, Piyush Gupta, Balaji Krishnamurthy(参考訳) ブラックボックス機械学習モデルの人間の解釈可能なルールによる振る舞いを説明することは重要な研究分野である。 近年,モデル行動の局所的説明に焦点が当てられている。 特定の予測だけでなく、視覚、自然言語、強化学習、データサイエンスの分野をまたがってグローバルに展開する。 本稿では,数値および/またはカテゴリーデータに基づいて学習した分類モデルの挙動をグローバルに説明するための規則を導出する新しいモデル非依存アプローチを提案する。 提案手法は,情報理論に基づく適合関数を最適化し,グローバルなモデル動作を説明するルールを構築する進化的アルゴリズムにより,特定のインスタンスのモデル動作を説明する上で重要な条件を抽出する。 当社のアプローチは,さまざまなデータセットに対する既存のアプローチよりも優れています。 さらに,分布シフトのシナリオ下での解釈の質を評価するためのパラメータを提案する。 このパラメータは、以前は見つからなかったデータ分布のモデル挙動を解釈がいかに正確に予測できるかを評価する。 我々は,既存のモデル解釈手法が分散ロバスト性を欠いていることを示す。 最後に,この解釈を学習するために使用するデータセットに分布サンプルを付加することにより,分布シフトのシナリオにおいて,解釈の質が向上し,堅牢性が向上することを示す。 私たちの論文で使われているデータセットはすべてオープンで公開されています。 私たちのアプローチは、主要なデジタルマーケティングスイートにデプロイされています。

Explaining the behavior of black box machine learning models through human interpretable rules is an important research area. Recent work has focused on explaining model behavior locally i.e. for specific predictions as well as globally across the fields of vision, natural language, reinforcement learning and data science. We present a novel model-agnostic approach that derives rules to globally explain the behavior of classification models trained on numerical and/or categorical data. Our approach builds on top of existing local model explanation methods to extract conditions important for explaining model behavior for specific instances followed by an evolutionary algorithm that optimizes an information theory based fitness function to construct rules that explain global model behavior. We show how our approach outperforms existing approaches on a variety of datasets. Further, we introduce a parameter to evaluate the quality of interpretation under the scenario of distributional shift. This parameter evaluates how well the interpretation can predict model behavior for previously unseen data distributions. We show how existing approaches for interpreting models globally lack distributional robustness. Finally, we show how the quality of the interpretation can be improved under the scenario of distributional shift by adding out of distribution samples to the dataset used to learn the interpretation and thereby, increase robustness. All of the datasets used in our paper are open and publicly available. Our approach has been deployed in a leading digital marketing suite of products.
翻訳日:2021-05-17 12:39:59 公開日:2021-05-14
# 暗号通貨市場における収益取引戦略作成における3つの異なる機械学習手法の適用

Application of Three Different Machine Learning Methods on Strategy Creation for Profitable Trades on Cryptocurrency Markets ( http://arxiv.org/abs/2105.06827v1 )

ライセンス: Link先を確認
Mohsen Asgari, Hossein Khasteh(参考訳) AIとデータ駆動ソリューションは、パフォーマンスと有望な結果の異なる分野に適用されている。 本研究では,k-Nearest Neighbours,eXtreme Gradient Boosting,Random Forestの3つの暗号市場の方向検出問題に適用する。 入力データには価格データと技術指標が含まれています。 これらの分類器を使って、これらの市場での取引戦略をデザインします。 未確認データに対するテスト結果は、投資家が市場を搾取し利益を得るためのエキスパートシステムを構築する上で、このアプローチの大きな可能性を示している。 66日間の最高利益は1800ドル投資当たり860ドルだ。 また、これらのアプローチの限界と、効率的市場仮説に対する潜在的な影響についても論じる。

AI and data driven solutions have been applied to different fields with outperforming and promising results. In this research work we apply k-Nearest Neighbours, eXtreme Gradient Boosting and Random Forest classifiers to direction detection problem of three cryptocurrency markets. Our input data includes price data and technical indicators. We use these classifiers to design a strategy to trade in those markets. Our test results on unseen data shows a great potential for this approach in helping investors with an expert system to exploit the market and gain profit. Our highest gain for an unseen 66 day span is 860 dollars per 1800 dollars investment. We also discuss limitations of these approaches and their potential impact to Efficient Market Hypothesis.
翻訳日:2021-05-17 12:39:38 公開日:2021-05-14
# 組織ネットワークの多様性の計測について

On Measuring the Diversity of Organizational Networks ( http://arxiv.org/abs/2105.06929v1 )

ライセンス: Link先を確認
Zeinab S. Jalali, Krishnaram Kenthapadi, and Sucheta Soundarajan(参考訳) ソーシャルネットワークとプロフェッショナルネットワークにおける従業員の相互作用パターンは、従業員や組織全体の成功に重要な役割を果たす。 しかし、多くの分野では、少数民族の深刻な下層表現があり、その上、少数民族はネットワークの他の部分から分離されるか、互いに孤立することがある。 諸分野におけるマイノリティ集団の表現を増大させる問題はよく研究されているが、数だけではダイバーシフィケーションは不十分であり、社会的関係も考慮すべきである。 そこで本研究では,多様性と全体的な適合性を最大化するために,一連の雇用候補者をソーシャルネットワークのポジションに割り当てる問題を考察し,このようなマッチングを見つけるための新しいアルゴリズムであるFair Employee Assignment(FairEA)を提案する。 FairEAからのアウトプットは、雇用と割り当てのプラクティスを評価したい組織によるベンチマークとして使用することができる。 実ネットワークと合成ネットワークにおいて、FairEAは高い適合性、高多様性のマッチングを見つけるのに有効であることを示す。

The interaction patterns of employees in social and professional networks play an important role in the success of employees and organizations as a whole. However, in many fields there is a severe under-representation of minority groups; moreover, minority individuals may be segregated from the rest of the network or isolated from one another. While the problem of increasing the representation of minority groups in various fields has been well-studied, diver- sification in terms of numbers alone may not be sufficient: social relationships should also be considered. In this work, we consider the problem of assigning a set of employment candidates to positions in a social network so that diversity and overall fitness are maximized, and propose Fair Employee Assignment (FairEA), a novel algorithm for finding such a matching. The output from FairEA can be used as a benchmark by organizations wishing to evaluate their hiring and assignment practices. On real and synthetic networks, we demonstrate that FairEA does well at finding high-fitness, high-diversity matchings.
翻訳日:2021-05-17 12:39:27 公開日:2021-05-14
# ハイパースペクトル異常検出のための固有確率分布の探索

Exploring the Intrinsic Probability Distribution for Hyperspectral Anomaly Detection ( http://arxiv.org/abs/2105.06775v1 )

ライセンス: Link先を確認
Shaoqi Yu, Xiaorun Li, Shuhan Chen, Liaoying Zhao(参考訳) 近年,ニューラルネットワークを用いた異常検出手法は,従来の手法に比べて強力な再構成能力を持つため,高スペクトルリモートセンシング領域において注目されている。 しかし、異常の確率分布が明示的にモデル化されていないため、復元誤差を利用して潜在空間に隠れた実際の確率分布統計は発見されない。 この問題に対処するため,本論文では,高スペクトル異常検出のための原データにおける背景と異常の両方の固有分布を探索する新しい確率分布表現検出器(PDRD)を提案する。 まず,多変量ガウス分布を持つ超スペクトルデータを確率論的観点から表現する。 次に,局所統計と得られた分布を組み合わせることで,空間情報を活用する。 最後に、修正されたワッサースタイン距離を演算して検出マップを取得することにより、テスト画素の対応する分布とチェビシェフ近傍の画素の平均期待との差を測定する。 提案手法の性能を評価するために, 4つの実データを用いた実験を行った。 実験により,提案手法の精度と効率を最先端検出法と比較した。

In recent years, neural network-based anomaly detection methods have attracted considerable attention in the hyperspectral remote sensing domain due to the powerful reconstruction ability compared with traditional methods. However, actual probability distribution statistics hidden in the latent space are not discovered by exploiting the reconstruction error because the probability distribution of anomalies is not explicitly modeled. To address the issue, we propose a novel probability distribution representation detector (PDRD) that explores the intrinsic distribution of both the background and the anomalies in original data for hyperspectral anomaly detection in this paper. First, we represent the hyperspectral data with multivariate Gaussian distributions from a probabilistic perspective. Then, we combine the local statistics with the obtained distributions to leverage the spatial information. Finally, the difference between the corresponding distributions of the test pixel and the average expectation of the pixels in the Chebyshev neighborhood is measured by computing the modified Wasserstein distance to acquire the detection map. We conduct the experiments on four real data sets to evaluate the performance of our proposed method. Experimental results demonstrate the accuracy and efficiency of our proposed method compared to the state-of-the-art detection methods.
翻訳日:2021-05-17 12:39:11 公開日:2021-05-14
# 言語操作型ビデオアクターセグメンテーションのための協調的空間時間モデリング

Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation ( http://arxiv.org/abs/2105.06818v1 )

ライセンス: Link先を確認
Tianrui Hui, Shaofei Huang, Si Liu, Zihan Ding, Guanbin Li, Wenguan Wang, Jizhong Han, Fei Wang(参考訳) 言語クエリ付きビデオアクタセグメンテーションは、対象フレーム内の自然言語クエリによって記述されたアクションを実行するアクタのピクセルレベルのマスクを予測することを目的としている。 既存の手法では、ビデオクリップ上の3D CNNを汎用エンコーダとして採用し、ターゲットフレームの混合時空間特徴を抽出する。 3D畳み込みは、どのアクターがクエリされたアクションを実行しているかを認識するのに役立つが、隣接するフレームから不正確な空間情報も必然的に導入し、ターゲットフレームの特徴を混乱させ、不正確なセグメンテーションをもたらす。 そこで本稿では,映像クリップ上の3次元時間エンコーダを含む協調型空間エンコーダ・デコーダフレームワークと,対象フレーム上の2次元空間エンコーダを用いて,クエリされたアクタを正確に分割する手法を提案する。 このデコーダでは,2つのエンコーダから空間的特徴と時間的特徴を柔軟に統合するlgfsモジュールが提案されている。 また,2つのエンコーダの各段階において,空間的特徴と時間的関係を持つ言語的特徴を動的に組み換えるクロスモーダル適応変調(cmam)モジュールを提案する。 提案手法は,従来の手法に比べて計算オーバーヘッドの少ない2つのベンチマークにおいて,新しい最先端性能を実現する。

Language-queried video actor segmentation aims to predict the pixel-level mask of the actor which performs the actions described by a natural language query in the target frames. Existing methods adopt 3D CNNs over the video clip as a general encoder to extract a mixed spatio-temporal feature for the target frame. Though 3D convolutions are amenable to recognizing which actor is performing the queried actions, it also inevitably introduces misaligned spatial information from adjacent frames, which confuses features of the target frame and yields inaccurate segmentation. Therefore, we propose a collaborative spatial-temporal encoder-decoder framework which contains a 3D temporal encoder over the video clip to recognize the queried actions, and a 2D spatial encoder over the target frame to accurately segment the queried actors. In the decoder, a Language-Guided Feature Selection (LGFS) module is proposed to flexibly integrate spatial and temporal features from the two encoders. We also propose a Cross-Modal Adaptive Modulation (CMAM) module to dynamically recombine spatial- and temporal-relevant linguistic features for multimodal feature interaction in each stage of the two encoders. Our method achieves new state-of-the-art performance on two popular benchmarks with less computational overhead than previous approaches.
翻訳日:2021-05-17 12:38:55 公開日:2021-05-14
# 未知の自然照明下での屋外シーンの表面反射特性の予測

Predicting Surface Reflectance Properties of Outdoor Scenes Under Unknown Natural Illumination ( http://arxiv.org/abs/2105.06820v1 )

ライセンス: Link先を確認
Farhan Rahman Wasee, Alen Joy, Charalambos Poullis(参考訳) 屋外照明条件下での物体の外観の推定とモデル化は複雑なプロセスである。 照明の推定や照明に関する研究はいくつかあるが、屋外の物体やシーンの反射特性の推定に焦点を絞ったものはほとんどない。 本稿は, 自然照明下での屋外シーンの表面反射特性を予測するための完全な枠組みを提案する。 一意に、この問題をBRDFの入射光と出射視方向を含む2つの構成成分に再キャストする: (i) 画像中に捉えた面点の放射率と出射視方向を集約して反射率マップに符号化し、 (ii) 任意の光方向の単位球のレンダリングの反射率マップに基づいてトレーニングされたニューラルネットワークは、シーンの各面の反射率特性を表す低パラメータ反射モデルを推定する。 本モデルは現象学と物理に基づく散乱モデルの組み合わせに基づいており,新しい視点からシーンをリライトすることができる。 本稿では, 反射特性の予測によるレンダリングにより, 反射特性から切り離せないテクスチャを用いた場合と, 視覚的に類似した外観が得られることを示す。

Estimating and modelling the appearance of an object under outdoor illumination conditions is a complex process. Although there have been several studies on illumination estimation and relighting, very few of them focus on estimating the reflectance properties of outdoor objects and scenes. This paper addresses this problem and proposes a complete framework to predict surface reflectance properties of outdoor scenes under unknown natural illumination. Uniquely, we recast the problem into its two constituent components involving the BRDF incoming light and outgoing view directions: (i) surface points' radiance captured in the images, and outgoing view directions are aggregated and encoded into reflectance maps, and (ii) a neural network trained on reflectance maps of renders of a unit sphere under arbitrary light directions infers a low-parameter reflection model representing the reflectance properties at each surface in the scene. Our model is based on a combination of phenomenological and physics-based scattering models and can relight the scenes from novel viewpoints. We present experiments that show that rendering with the predicted reflectance properties results in a visually similar appearance to using textures that cannot otherwise be disentangled from the reflectance properties.
翻訳日:2021-05-17 12:38:32 公開日:2021-05-14
# マンガ修復のためのエイリアシング

Exploiting Aliasing for Manga Restoration ( http://arxiv.org/abs/2105.06830v1 )

ライセンス: Link先を確認
Minshan Xie, Menghan Xia, Tien-Tsin Wong(参考訳) 人気芸能の形式として、マンガは細部まで細部を細部まで細部まで刻み込む。 しかし、インターネット上のマンガリソースは通常、不適切なスキャン/リスケーリング解像度のためにスクリーントーンアーティファクトを表示する。 本稿では,劣化したものから高品質なビオナールマンガを復元する革新的な2段階手法を提案する。 以上より,バイトン系スクリーントーンのダウンサンプリングによって引き起こされるエイリアスが,元の解像度やスクリーントーンを推定するための情報的手がかりとして利用できることを示す。 まず, 空間投票方式を用いたスケール推定ネットワーク(SE-Net)を用いて, 劣化マンガの目標解像度を推定する。 そして, 目標解像度において, 劣化度に応じて, マンガ復元ネットワーク(MR-Net)を用いて, 領域ワイドのスクリーントーンを識別的に復元する。 具体的には、元のスクリーントンはパターン識別可能な領域で直接復元され、視覚的に可視なスクリーントンはパターン認識領域で合成される。 合成データの定量的評価と実例の視覚的評価は,本手法の有効性を示す。

As a popular entertainment art form, manga enriches the line drawings details with bitonal screentones. However, manga resources over the Internet usually show screentone artifacts because of inappropriate scanning/rescaling resolution. In this paper, we propose an innovative two-stage method to restore quality bitonal manga from degraded ones. Our key observation is that the aliasing induced by downsampling bitonal screentones can be utilized as informative clues to infer the original resolution and screentones. First, we predict the target resolution from the degraded manga via the Scale Estimation Network (SE-Net) with spatial voting scheme. Then, at the target resolution, we restore the region-wise bitonal screentones via the Manga Restoration Network (MR-Net) discriminatively, depending on the degradation degree. Specifically, the original screentones are directly restored in pattern-identifiable regions, and visually plausible screentones are synthesized in pattern-agnostic regions. Quantitative evaluation on synthetic data and visual assessment on real-world cases illustrate the effectiveness of our method.
翻訳日:2021-05-17 12:38:08 公開日:2021-05-14
# fit4cad:cadモデルに単純な幾何学的プリミティブを適合させるためのポイントクラウドベンチマーク

Fit4CAD: A point cloud benchmark for fitting simple geometric primitives in CAD models ( http://arxiv.org/abs/2105.06858v1 )

ライセンス: Link先を確認
Chiara Romanengo, Andrea Raffo, Yifan Qie, Nabil Anwer, Bianca Falcidieno(参考訳) CADモデルを表す点雲に単純な幾何学的プリミティブを適合させる手法の評価と比較のためのベンチマークであるFit4CADを提案する。 このベンチマークは、メソッド開発者と最高のパフォーマンスツールを特定したい人の両方を支援する。 Fit4CADデータセットは、225個の高品質な点雲で構成され、それぞれCADモデルをサンプリングして得られた。 これらの要素は既存のプラットフォームとデータセットを使って作成され、ベンチマークを容易に拡張できる。 データセットはすでにトレーニングセットとテストセットに分割されています。 異なるプリミティブフィッティング法の性能と精度を評価するため、様々な測定方法が定義される。 本研究では,Fit4CADの有効利用を実証するために,プリミティブなフィッティング問題に対するアプローチの2つの異なるカテゴリに属する2つの手法,すなわちプリミティブな成長フレームワークに基づくクラスタリング法とHough変換に基づくパラメトリック手法で検証した。

We propose Fit4CAD, a benchmark for the evaluation and comparison of methods for fitting simple geometric primitives in point clouds representing CAD models. This benchmark is meant to help both method developers and those who want to identify the best performing tools. The Fit4CAD dataset is composed by 225 high quality point clouds, each of which has been obtained by sampling a CAD model. The way these elements were created by using existing platforms and datasets makes the benchmark easily expandable. The dataset is already split into a training set and a test set. To assess performance and accuracy of the different primitive fitting methods, various measures are defined. To demonstrate the effective use of Fit4CAD, we have tested it on two methods belonging to two different categories of approaches to the primitive fitting problem: a clustering method based on a primitive growing framework and a parametric method based on the Hough transform.
翻訳日:2021-05-17 12:37:54 公開日:2021-05-14
# グラフを横断するメタインダクティブノード分類

Meta-Inductive Node Classification across Graphs ( http://arxiv.org/abs/2105.06725v1 )

ライセンス: Link先を確認
Zhihao Wen, Yuan Fang, Zemin Liu(参考訳) グラフ上の半教師付きノード分類は重要な研究課題であり、ソーシャルネットワーク上のコンテンツ分類やeコマースクエリグラフ上のクエリ意図分類といった情報検索における多くの実世界の応用がある。 従来のアプローチは概ねトランスダクティブだが、最近のグラフニューラルネットワーク(gnn)はノードの特徴とネットワーク構造を統合することで、同じ特徴空間で新しいノードや新しいグラフに適用可能な帰納的ノード分類モデルを可能にする。 しかし、グラフ間の違いは同じ領域内のグラフにも存在する。 したがって、グラフ間の差を無視しながら、すべての新しいグラフを処理するための1つのグローバルモデル(例えば、最先端のGNN)のトレーニングは、最適なパフォーマンスをもたらす。 本稿では,グラフ間の帰納的ノード分類の問題について検討する。 既存の一モデル適合アプローチとは異なり、メタ学習パラダイムの下で各グラフへの帰納モデルをカスタマイズするMI-GNNと呼ばれる新しいメタ帰納的フレームワークを提案する。 すなわち、mi-gnnは帰納的モデルを直接学習しない;新しいグラフ上で半教師付きノード分類のモデルを訓練する方法の一般的な知識を学ぶ。 グラフ間の差に対処するため、MI-GNNはグラフレベルとタスクレベルの両方で二重適応機構を採用している。 より具体的には、グラフレベルの差に対応する前にグラフを学び、グラフ上に条件付けられたタスクレベルの差に対応するためのタスクを学習します。 5つの実世界のグラフコレクションに関する広範な実験により,提案モデルの有効性が示された。

Semi-supervised node classification on graphs is an important research problem, with many real-world applications in information retrieval such as content classification on a social network and query intent classification on an e-commerce query graph. While traditional approaches are largely transductive, recent graph neural networks (GNNs) integrate node features with network structures, thus enabling inductive node classification models that can be applied to new nodes or even new graphs in the same feature space. However, inter-graph differences still exist across graphs within the same domain. Thus, training just one global model (e.g., a state-of-the-art GNN) to handle all new graphs, whilst ignoring the inter-graph differences, can lead to suboptimal performance. In this paper, we study the problem of inductive node classification across graphs. Unlike existing one-model-fits-all approaches, we propose a novel meta-inductive framework called MI-GNN to customize the inductive model to each graph under a meta-learning paradigm. That is, MI-GNN does not directly learn an inductive model; it learns the general knowledge of how to train a model for semi-supervised node classification on new graphs. To cope with the differences across graphs, MI-GNN employs a dual adaptation mechanism at both the graph and task levels. More specifically, we learn a graph prior to adapt for the graph-level differences, and a task prior to adapt for the task-level differences conditioned on a graph. Extensive experiments on five real-world graph collections demonstrate the effectiveness of our proposed model.
翻訳日:2021-05-17 12:37:01 公開日:2021-05-14
# ネットワークスライス配置のためのヒューリスティック支援深部強化学習手法

A Heuristically Assisted Deep Reinforcement Learning Approach for Network Slice Placement ( http://arxiv.org/abs/2105.06741v1 )

ライセンス: Link先を確認
Jose Jurandir Alves Esteves, Amina Boubendir, Fabrice Guillemin, and Pierre Sens(参考訳) 仮想基板ネットワークから資源を割り当てる問題に対するネットワークスライス配置は、多目的整数線形計画法(ILP)問題として定式化できる最適化問題である。 しかし、このような継続的タスクの複雑さに対処し、最適性と自動化を求めるためには、機械学習(ML)技術の使用が有望なアプローチとして現れる。 本稿では,深層強化学習(drl)に基づくハイブリッド配置ソリューションと,2つの選択原理のパワーに基づく最適化ヒューリスティックを提案する。 DRLアルゴリズムは、高速学習には非同期アドバンテージアクター批判(A3C)アルゴリズム、物理基板ネットワークからの特徴抽出を自動化するためにグラフ畳み込みネットワーク(GCN)を用いる。 提案したHuristically-Assiste d DRL (HA-DRL) は,評価結果の証拠として,他の最先端アプローチと比較して学習プロセスの高速化と資源利用率の向上を可能にする。

Network Slice placement with the problem of allocation of resources from a virtualized substrate network is an optimization problem which can be formulated as a multiobjective Integer Linear Programming (ILP) problem. However, to cope with the complexity of such a continuous task and seeking for optimality and automation, the use of Machine Learning (ML) techniques appear as a promising approach. We introduce a hybrid placement solution based on Deep Reinforcement Learning (DRL) and a dedicated optimization heuristic based on the Power of Two Choices principle. The DRL algorithm uses the so-called Asynchronous Advantage Actor Critic (A3C) algorithm for fast learning, and Graph Convolutional Networks (GCN) to automate feature extraction from the physical substrate network. The proposed Heuristically-Assist ed DRL (HA-DRL) allows to accelerate the learning process and gain in resource usage when compared against other state-of-the-art approaches as the evaluation results evidence.
翻訳日:2021-05-17 12:36:35 公開日:2021-05-14
# 流体構造相互作用の分割深層学習

Partitioned Deep Learning of Fluid-Structure Interaction ( http://arxiv.org/abs/2105.06785v1 )

ライセンス: Link先を確認
Amin Totounferoush, Axel Schumacher and Miriam Schulte(参考訳) 本稿では、流体構造相互作用(FSI)問題を学習するための分割ニューラルネットワークベースのフレームワークを提案する。 我々はシミュレーションドメインを流体ドメインと固体ドメインの2つの小さなサブドメインに分解し、それぞれに独立したニューラルネットワークを組み込む。 ライブラリは、境界データ通信、データマッピング、方程式結合を扱う2つのネットワークを結合するために使用される。 シミュレーションデータは、両方のニューラルネットワークのトレーニングに使用される。 畳み込みニューラルネットワークとリカレントニューラルネットワーク(CNNとRNN)を組み合わせることで、空間的および時間的接続性を考慮します。 準ニュートン法はFSI結合収束を加速するために用いられる。 提案手法は, 弾性管内の1次元流れを数値シミュレーションする従来の数値計算手法と, 実験結果の一致が非常に良好である。 この研究は、ニューラルネットワークを用いてFSI結合収束を高速化するための予備ステップであり、古典的数値解法の各時間ステップに正確な初期推定を与える。

We present a partitioned neural network-based framework for learning of fluid-structure interaction (FSI) problems. We decompose the simulation domain into two smaller sub-domains, i.e., fluid and solid domains, and incorporate an independent neural network for each. A library is used to couple the two networks which takes care of boundary data communication, data mapping and equation coupling. Simulation data are used for training of the both neural networks. We use a combination of convolutional and recurrent neural networks (CNN and RNN) to account for both spatial and temporal connectivity. A quasi-Newton method is used to accelerate the FSI coupling convergence. We observe a very good agreement between the results of the presented framework and the classical numerical methods for simulation of 1d fluid flow inside an elastic tube. This work is a preliminary step for using neural networks to speed-up the FSI coupling convergence by providing an accurate initial guess in each time step for classical numerical solvers
翻訳日:2021-05-17 12:36:17 公開日:2021-05-14
# マーティンガレスの主張と予測の進化

Threshold Martingales and the Evolution of Forecasts ( http://arxiv.org/abs/2105.06834v1 )

ライセンス: Link先を確認
Dean P. Foster and Robert A. Stine(参考訳) 本稿では,進化する予測分布の2つの性質を特徴付けるマルティンゲールについて述べる。 将来のイベントの理想的な予測は、マーチンガレットとして振る舞う。 ここで導入されたしきい値は、しきい値以下の予測分布の比率を測定する。 キャリブレーションに加えて、しきい値マーティンゲールは、初期予測分布の量子量によって決定される合計に蓄積される二次変動を持つ。 基礎モデルにおけるキャリブレーションまたはタルボラティリティ信号問題からの逸脱 キャリブレーション調整はよく知られており、より小さな平均二乗誤差を保証しながらボラティリティを向上させるマルチンゲールフィルタを導入することで、これらの強化を行う。 このように、後処理は、元の予測入力モデルを再考することなく、キャリブレーションとボラティリティの問題を修正することができる。 まず、シミュレーションモデルから予測し、次にプロバスケットボールの試合で勝者を予測するモデルに適用する。

This paper introduces a martingale that characterizes two properties of evolving forecast distributions. Ideal forecasts of a future event behave as martingales, sequen- tially updating the forecast to leverage the available information as the future event approaches. The threshold martingale introduced here measures the proportion of the forecast distribution lying below a threshold. In addition to being calibrated, a threshold martingale has quadratic variation that accumulates to a total determined by a quantile of the initial forecast distribution. Deviations from calibration or to- tal volatility signal problems in the underlying model. Calibration adjustments are well-known, and we augment these by introducing a martingale filter that improves volatility while guaranteeing smaller mean squared error. Thus, post-processing can rectify problems with calibration and volatility without revisiting the original forecast- ing model. We apply threshold martingales first to forecasts from simulated models and then to models that predict the winner in professional basketball games.
翻訳日:2021-05-17 12:36:02 公開日:2021-05-14
# 非定常音源分離のための仮説検証手法

A Hypothesis Testing Approach to Nonstationary Source Separation ( http://arxiv.org/abs/2105.06958v1 )

ライセンス: Link先を確認
Reza Sameni, Christian Jutten(参考訳) 盲点と半盲点の多変量観測から非定常信号の抽出は、繰り返し発生する問題である。 マルチチャネルデータの2階以上の累積行列/テンソルの正確なあるいは近似的な関節対角化に基づいて,この問題に対して多数のアルゴリズムが開発された。 連立対角化アルゴリズムの研究が盛んに行われているが、対角化行列/テンソル集合の選択は非常に問題に特化している。 本稿では,非定常性同定のための様々な手法について検討し,仮説検証に基づく新しい汎用フレームワークを提案し,非定常成分の半盲点分離に対する分類・クラスタリングの観点から考察する。 提案法を非侵襲的胎児心電図抽出に応用した。

The extraction of nonstationary signals from blind and semi-blind multivariate observations is a recurrent problem. Numerous algorithms have been developed for this problem, which are based on the exact or approximate joint diagonalization of second or higher order cumulant matrices/tensors of multichannel data. While a great body of research has been dedicated to joint diagonalization algorithms, the selection of the diagonalized matrix/tensor set remains highly problem-specific. Herein, various methods for nonstationarity identification are reviewed and a new general framework based on hypothesis testing is proposed, which results in a classification/clust ering perspective to semi-blind source separation of nonstationary components. The proposed method is applied to noninvasive fetal ECG extraction, as case study.
翻訳日:2021-05-17 12:35:48 公開日:2021-05-14
# すべてを解決するための1つのネットワーク:MRイメージングパイプラインのための連続マルチタスク共同学習ネットワークフレームワーク

One Network to Solve Them All: A Sequential Multi-Task Joint Learning Network Framework for MR Imaging Pipeline ( http://arxiv.org/abs/2105.06653v1 )

ライセンス: Link先を確認
Zhiwen Wang, Wenjun Xia, Zexin Lu, Yongqiang Huang, Yan Liu, Hu Chen, Jiliu Zhou, and Yi Zhang(参考訳) 磁気共鳴画像(MRI)の取得、再構成、セグメント化は通常、MRIワークフローの慣行において独立に処理される。 これらの課題には重大な関連性があることに気付くことは容易であり、この手順はこれらの潜在的な接続を人工的に遮断し、最終診断において臨床的に重要な情報が失われる可能性がある。 これらの潜在的な関係をさらなる性能向上に結び付けるため、連続的なマルチタスク共同学習ネットワークモデルを提案し、これらのタスク間の相互影響を同時に探求することを目的として、複合エンドツーエンドパイプラインを異なる方法で訓練する。 1)深部サンプリングパターン学習モジュールは,所定のサンプリングレートで$k$空間サンプリングパターンを最適化する;2)深部再構成モジュールは,学習したサンプリングパターンを用いてアンダーサンプルデータからMRイメージを再構成する;3)深部分割モジュールは,前のモジュールから再構成したMR画像を符号化し,興味のある組織を分割する。 提案モデルでは,各タスクが相互に有益となるような,対話的かつ循環的なタスク間の関係を抽出する。 提案手法は,再構成とセグメント化の両面から,他のSOTA手法よりも優れた性能を示すMBBデータセット上で検証されている。

Magnetic resonance imaging (MRI) acquisition, reconstruction, and segmentation are usually processed independently in the conventional practice of MRI workflow. It is easy to notice that there are significant relevances among these tasks and this procedure artificially cuts off these potential connections, which may lead to losing clinically important information for the final diagnosis. To involve these potential relations for further performance improvement, a sequential multi-task joint learning network model is proposed to train a combined end-to-end pipeline in a differentiable way, aiming at exploring the mutual influence among those tasks simultaneously. Our design consists of three cascaded modules: 1) deep sampling pattern learning module optimizes the $k$-space sampling pattern with predetermined sampling rate; 2) deep reconstruction module is dedicated to reconstructing MR images from the undersampled data using the learned sampling pattern; 3) deep segmentation module encodes MR images reconstructed from the previous module to segment the interested tissues. The proposed model retrieves the latently interactive and cyclic relations among those tasks, from which each task will be mutually beneficial. The proposed framework is verified on MRB dataset, which achieves superior performance on other SOTA methods in terms of both reconstruction and segmentation.
翻訳日:2021-05-17 12:35:38 公開日:2021-05-14
# ハードウェア効率の良い音声トリガー検出と偽トリガー除去のためのストリーミングトランス

Streaming Transformer for Hardware Efficient Voice Trigger Detection and False Trigger Mitigation ( http://arxiv.org/abs/2105.06598v1 )

ライセンス: Link先を確認
Vineet Garg, Wonil Chang, Siddharth Sigtia, Saurabh Adya, Pramod Simha, Pranay Dighe, Chandra Dhir(参考訳) 本稿では,2段階音声トリガ検出(VTD)と偽トリガ緩和(FTM)タスクのための統一的でハードウェアの効率的なアーキテクチャを提案する。 音声アシスタントの2段階VTDシステムは、興味の引き起こしフレーズと音響的に類似した音声セグメントに誤作動する可能性がある。 FTMシステムはポストトリガ音声コンテキストを用いてそのようなアクティベーションをキャンセルする。 従来のFTMシステムは、デバイス上で得られる計算コストの高い音声認識格子に依存している。 本稿では,音声チャンクを段階的に処理し,VTDタスクとFTMタスクの両方を音響的特徴のみで実行するストリーミングトランスフォーマー(TF)エンコーダアーキテクチャを提案する。 提案した関節モデルは,所定の誤報率でVTDタスクに対して,平均18%のfalse reject rate(FRR)を減少させる。 さらに,本モデルでは,トリガー後音声を1秒間追加することにより,誤動作の95%を抑制する。 最後に、デバイス上での測定では、実行時のメモリが32%削減され、推論時間が56%削減された。

We present a unified and hardware efficient architecture for two stage voice trigger detection (VTD) and false trigger mitigation (FTM) tasks. Two stage VTD systems of voice assistants can get falsely activated to audio segments acoustically similar to the trigger phrase of interest. FTM systems cancel such activations by using post trigger audio context. Traditional FTM systems rely on automatic speech recognition lattices which are computationally expensive to obtain on device. We propose a streaming transformer (TF) encoder architecture, which progressively processes incoming audio chunks and maintains audio context to perform both VTD and FTM tasks using only acoustic features. The proposed joint model yields an average 18% relative reduction in false reject rate (FRR) for the VTD task at a given false alarm rate. Moreover, our model suppresses 95% of the false triggers with an additional one second of post-trigger audio. Finally, on-device measurements show 32% reduction in runtime memory and 56% reduction in inference time compared to non-streaming version of the model.
翻訳日:2021-05-17 12:34:44 公開日:2021-05-14
# 変分オートエンコーダを用いたdosとddos対策

DoS and DDoS Mitigation Using Variational Autoencoders ( http://arxiv.org/abs/2105.06899v1 )

ライセンス: Link先を確認
Eirik Molde B{\aa}rli, Anis Yazidi, Enrique Herrera Viedma, H{\aa}rek Haugerud(参考訳) dosとddos攻撃は過去10年間で規模と数が増えており、これらの攻撃を軽減する既存のソリューションは一般的に非効率である。 他の種類の悪意のあるサイバー攻撃と比較して、DoSとDDoS攻撃は特に戦うのが難しい。 自らを正当なトラフィックとして隠す能力によって、パケットやフローレベルでこのようなタイプの攻撃を検出する方法の開発は、難しい作業であることが証明されている。 本稿では,通常のトラフィックと悪意のあるトラフィックを区別するインテリジェントなセキュリティソリューションのコンポーネントとして機能する,変分オートエンコーダの可能性を検討する。 ネットワークトラフィックフローから潜在表現を学習する変分オートエンコーダの能力に基づく2つの手法を提案する。 第1の方法は、トラヒックトレースから学習した変分オートエンコーダから得られる潜在エンコーダに基づく分類器を用いる。 第二の方法はむしろ異常検出法であり、変分オートエンコーダを使用して専ら正当なトラフィックの抽象的な特徴表現を学ぶ。 そして、変分オートエンコーダの再構成損失に依存して異常をフィルタリングする。 提案手法のどちらも、類似した特徴空間を持つ2つの異なるデータセットで徹底的にテストされている。 その結果, 2つの手法は有望であり, 分類器に基づく手法は, 異常ベースの手法よりもわずかに優れていることがわかった。 %) の精度で個別の交通流を検出でき, テストデータの精度はわずかに低かった。 2つ目の方法は、変分オートエンコーダがネットワークトラフィックフローから異常を十分にフィルターできるよう、さらなる調整を必要とする。

DoS and DDoS attacks have been growing in size and number over the last decade and existing solutions to mitigate these attacks are in general inefficient. Compared to other types of malicious cyber attacks, DoS and DDoS attacks are particularly more challenging to combat. With their ability to mask themselves as legitimate traffic, developing methods to detect these types of attacks on a packet or flow level, has proven to be a difficult task. In this paper, we explore the potential of Variational Autoencoders to serve as a component within an intelligent security solution that differentiates between normal and malicious traffic. Two methods based on the ability of Variational Autoencoders to learn latent representations from network traffic flows are proposed. The first method resorts to a classifier based on the latent encodings obtained from Variational Autoencoders learned from traffic traces. The second method is rather an anomaly detection method where the Variational Autoencoder is used to learn the abstract feature representations of exclusively legitimate traffic. Then anomalies are filtered out by relying on the reconstruction loss of the Variational Autoencoder. Both of the proposed methods have been thoroughly tested on two separate datasets with a similar feature space. The results show that both methods are promising, with a slight superiority of the classifier based method over the anomaly based one. %that the first method is able to successfully detect individual traffic flows with high precision on the training and validation data, slightly less successfully on the test data. For the second method, the Variational Autoencoder will require further adjustments to be able to sufficiently filter out anomalies from network traffic flows.
翻訳日:2021-05-17 12:34:28 公開日:2021-05-14
# 拡張畳み込みネットワークを用いた脳波からの音声明瞭度予測

Predicting speech intelligibility from EEG using a dilated convolutional network ( http://arxiv.org/abs/2105.06844v1 )

ライセンス: Link先を確認
Bernd Accou, Mohammad Jalilpour Monesi, Hugo Van hamme and Tom Francart(参考訳) 目的: 現在、行動的音声理解テストのみが利用可能であり、アクティブな参加を必要とする。 特定の人口に当てはまらないため、客観的な発話の了解度が要求される。 近年、脳画像データを用いて刺激と脳反応の関係が確立されている。 線形モデルは、音声の知性と関連づけられるが、サブジェクトごとの訓練が必要である。 そこで本研究では,拡張畳み込みを取り入れた深層学習モデルを提案する。 方法: 入力セグメント長, 脳波周波数帯域, 受容野の大きさの関数としてモデルの性能を評価し, ベースラインモデルと比較した。 次に,ホールドアウトデータとファインタニングの性能評価を行った。 最後に,我々のモデルの精度と最先端の行動MATRIXテストの関連性を確立した。 結果: このモデルは入力セグメント長毎 (p$\leq10^{-9}$) のベースラインを大きく上回り、セタ帯域 (p$\leq0.001$) を除くすべての脳波周波数帯域と125~ms以上の受容磁場サイズ (p$\leq0.05$) のベースラインを上回った。 さらに、ファインタニングは保持されたデータセットの精度(p$\leq0.05$)を大きく向上させた。 最後に,行動MATRIXテストを用いて推定した音声受信閾値と目的法との間に有意な相関(r=0.59,p=0.0154)が認められた。 結論:提案する拡張畳み込みモデルは,音声の明瞭さの指標として使用できる。 意義: 本手法は, 被験者の脳波から発声閾値を予測する最初の方法であり, 客観的な音声明瞭度測定に寄与する。

Objective: Currently, only behavioral speech understanding tests are available, which require active participation of the person. As this is infeasible for certain populations, an objective measure of speech intelligibility is required. Recently, brain imaging data has been used to establish a relationship between stimulus and brain response. Linear models have been successfully linked to speech intelligibility but require per-subject training. We present a deep-learning-based model incorporating dilated convolutions that can be used to predict speech intelligibility without subject-specific (re)training. Methods: We evaluated the performance of the model as a function of input segment length, EEG frequency band and receptive field size while comparing it to a baseline model. Next, we evaluated performance on held-out data and finetuning. Finally, we established a link between the accuracy of our model and the state-of-the-art behavioral MATRIX test. Results: The model significantly outperformed the baseline for every input segment length (p$\leq10^{-9}$), for all EEG frequency bands except the theta band (p$\leq0.001$) and for receptive field sizes larger than 125~ms (p$\leq0.05$). Additionally, finetuning significantly increased the accuracy (p$\leq0.05$) on a held-out dataset. Finally, a significant correlation (r=0.59, p=0.0154) was found between the speech reception threshold estimated using the behavioral MATRIX test and our objective method. Conclusion: Our proposed dilated convolutional model can be used as a proxy for speech intelligibility. Significance: Our method is the first to predict the speech reception threshold from EEG for unseen subjects, contributing to objective measures of speech intelligibility.
翻訳日:2021-05-17 12:34:04 公開日:2021-05-14