このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210731)

# (参考訳) 新型コロナウイルス(covid-19)パンデミックにおける文レベルのプロパガンダ検出 [全文訳有]

Detecting Propaganda on the Sentence Level during the COVID-19 Pandemic ( http://arxiv.org/abs/2108.12269v1 )

ライセンス: CC BY 4.0
Rong-Ching Chang, Chu-Hsing Lin(参考訳) ソーシャルメディア上での偽情報、陰謀、疑わしい内容、外国の敵による情報操作の拡散は、新型コロナウイルスのパンデミックに伴い急増している。 このような悪質なサイバー攻撃は、社会的分極、健康危機、財産喪失を引き起こす可能性がある。 本稿では、Redditで訓練された微調整のコンテキスト埋め込みを用いて、新型コロナウイルスの流行がパンデミックと認識された2020年3月、こうしたユーザーアカウントのプロパガンダとターゲット問題の検出に取り組む。 その結果、中国寄りのグループは中立派より35倍から115倍もツイートしていることがわかった。 同時に中立なグループは、よりポジティブなコンテンツや、新型コロナウイルスの状況に対する警告をツイートしていた。 親中国派は、必ずしも中国と関係のない政治問題に関して、より多くの対応言葉を使っていた。

The spread of misinformation, conspiracy, and questionable content and information manipulation by foreign adversaries on social media has surged along with the COVID-19 pandemic. Such malicious cyber-enabled actions may cause increasing social polarization, health crises, and property loss. In this paper, using fine-tuned contextualized embedding trained on Reddit, we tackle the detection of the propaganda of such user accounts and their targeted issues on Twitter during March 2020 when the COVID-19 epidemic became recognized as a pandemic. Our result shows that the pro-China group appeared to be tweeting 35 to 115 times more than the neutral group. At the same time, neutral groups were tweeting more positive-attitude content and voicing alarm for the COVID-19 situation. The pro-China group was also using more call-for-action words on political issues not necessarily China-related.
翻訳日:2021-09-05 13:45:36 公開日:2021-07-31
# (参考訳) バングラデシュにおける糖尿病網膜症スクリーニングのための畳み込みネット [全文訳有]

Convolutional Nets for Diabetic Retinopathy Screening in Bangladeshi Patients ( http://arxiv.org/abs/2108.04358v1 )

ライセンス: CC BY 4.0
Ayaan Haque, Ipsita Sutradhar, Mahziba Rahman, Mehedi Hasan, Malabika Sarker(参考訳) 糖尿病はバングラデシュで最も多い慢性疾患の1つであり、結果として糖尿病網膜症(DR)が流行している。 糖尿病によって引き起こされる眼疾患であるdrは、早期に同定され治療されないと盲目になる可能性がある。 残念なことに、drの診断には医療訓練を受けた専門家が必要だが、バングラデシュには人口に比べて専門職が限られている。 さらに、スクリーニングプロセスは高価であり、多くの人がタイムリーかつ適切な診断を受けるのを妨げている。 この問題に対処するために、DRの異なるステージをスクリーニングするディープラーニングアルゴリズムを導入し、最新のCNNアーキテクチャを用いて網膜眼底画像に基づいて患者を診断する。 本稿では,バングラデシュ患者を対象としたDR診断およびスクリーニングのためのアルゴリズムの実験的検討を行った。 本研究は,バングラデシュの病院およびフィールドスタディにおける実際の患者の網膜画像データを分離したプールを用いて検証を行った。 以上の結果から,バングラデシュの2つの検証セットにおいて,領域外であるパブリックデータセット上でトレーニングしても,バングラデシュの眼のスクリーニングに有効であり,drのステージを精度よく決定でき,全体の精度は92.27\%と93.02\%であることがわかった。 その結果, 精度が高く, 分類基準も高いため, 実際の臨床状況や応用にアルゴリズムを応用できることが確認された。 このアルゴリズムは、バングラデシュの農村部に住む患者に対して、プロのスクリーニングへのアクセスが制限されているdrishtiというアプリケーションで実装されている。

Diabetes is one of the most prevalent chronic diseases in Bangladesh, and as a result, Diabetic Retinopathy (DR) is widespread in the population. DR, an eye illness caused by diabetes, can lead to blindness if it is not identified and treated in its early stages. Unfortunately, diagnosis of DR requires medically trained professionals, but Bangladesh has limited specialists in comparison to its population. Moreover, the screening process is often expensive, prohibiting many from receiving timely and proper diagnosis. To address the problem, we introduce a deep learning algorithm which screens for different stages of DR. We use a state-of-the-art CNN architecture to diagnose patients based on retinal fundus imagery. This paper is an experimental evaluation of the algorithm we developed for DR diagnosis and screening specifically for Bangladeshi patients. We perform this validation study using separate pools of retinal image data of real patients from a hospital and field studies in Bangladesh. Our results show that the algorithm is effective at screening Bangladeshi eyes even when trained on a public dataset which is out of domain, and can accurately determine the stage of DR as well, achieving an overall accuracy of 92.27\% and 93.02\% on two validation sets of Bangladeshi eyes. The results confirm the ability of the algorithm to be used in real clinical settings and applications due to its high accuracy and classwise metrics. Our algorithm is implemented in the application Drishti, which is used to screen for DR in patients living in rural areas in Bangladesh, where access to professional screening is limited.
翻訳日:2021-08-15 11:55:25 公開日:2021-07-31
# タスクアメニビリティのメタ強化学習を用いた適応画像品質評価

Adaptable image quality assessment using meta-reinforcement learning of task amenability ( http://arxiv.org/abs/2108.04359v1 )

ライセンス: Link先を確認
Shaheer U. Saeed, Yunguan Fu, Vasilis Stavrinides, Zachary M. C. Baum, Qianye Yang, Mirabela Rusu, Richard E. Fan, Geoffrey A. Sonn, J. Alison Noble, Dean C. Barratt, Yipeng Hu(参考訳) 多くの医用画像解析タスクの性能は画像データ品質に強く関連している。 主観的(人間に基づく)画像品質評価(IQA)に頼るのではなく、現代のディープラーニングアルゴリズムを開発する場合、タスクアメニビリティはタスク固有の画像品質の客観的尺度を提供する可能性がある。 タスクアメナビリティを予測するために、分類やセグメンテーションニューラルネットワークなどの同時最適化タスク予測器と共に強化学習(rl)を使用して、icaエージェントを訓練する。 本研究では、IQAエージェントとタスク予測器の両方の適合性を高めるために、トランスファー学習または適応戦略を開発し、それらが高品質な専門家による訓練データに依存しないようにする。 提案手法は,メタ強化学習(meta-RL)フレームワークにおいて,タスクの順応性に関する元のRL問題を再構成する。 このアルゴリズムは,異なる画像,ラベル,適応可能なタスク予測器を含む,独自のマルコフ決定プロセス環境を備えた,画像品質の異なる定義へのエージェントの効率的な適応を容易にする。 本研究は,非専門家のタスクラベルに事前学習したIQAエージェントが,少数の専門家ラベルのみを用いて,専門家のタスクラベルによって定義されたタスクアメニビリティを予測できることを示す。 249人の前立腺癌患者から得られた6644個の超音波画像を用いて,画像分類および分節化タスクを行った結果,提案手法は,19.7%,29.6%のコンセンサスラベルの少ないデータを用いて適応可能であり,それと同等の iqa とタスク性能を達成できることがわかった。

The performance of many medical image analysis tasks are strongly associated with image data quality. When developing modern deep learning algorithms, rather than relying on subjective (human-based) image quality assessment (IQA), task amenability potentially provides an objective measure of task-specific image quality. To predict task amenability, an IQA agent is trained using reinforcement learning (RL) with a simultaneously optimised task predictor, such as a classification or segmentation neural network. In this work, we develop transfer learning or adaptation strategies to increase the adaptability of both the IQA agent and the task predictor so that they are less dependent on high-quality, expert-labelled training data. The proposed transfer learning strategy re-formulates the original RL problem for task amenability in a meta-reinforcement learning (meta-RL) framework. The resulting algorithm facilitates efficient adaptation of the agent to different definitions of image quality, each with its own Markov decision process environment including different images, labels and an adaptable task predictor. Our work demonstrates that the IQA agents pre-trained on non-expert task labels can be adapted to predict task amenability as defined by expert task labels, using only a small set of expert labels. Using 6644 clinical ultrasound images from 249 prostate cancer patients, our results for image classification and segmentation tasks show that the proposed IQA method can be adapted using data with as few as respective 19.7% and 29.6% expert-reviewed consensus labels and still achieve comparable IQA and task performance, which would otherwise require a training dataset with 100% expert labels.
翻訳日:2021-08-15 11:31:28 公開日:2021-07-31
# ニューラルネットワークにおける審美的評価の仮説

A Hypothesis for the Aesthetic Appreciation in Neural Networks ( http://arxiv.org/abs/2108.02646v1 )

ライセンス: Link先を確認
Xu Cheng, Xin Wang, Haotian Xue, Zhengyang Liang, Quanshi Zhang(参考訳) 本稿では,ニューラルネットワークが有能な概念を強化し,感覚的概念を捨てる,という美的評価の仮説を提案する。 この仮説を検証するために、画像に含まれる健全な概念と感覚的な概念を表現するために多変量相互作用を用いる。 さらに,画像をより美しいものに修正するための一連の操作を設計する。 実験では,修正された画像は原画像よりもある程度美的であることが判明した。

This paper proposes a hypothesis for the aesthetic appreciation that aesthetic images make a neural network strengthen salient concepts and discard inessential concepts. In order to verify this hypothesis, we use multi-variate interactions to represent salient concepts and inessential concepts contained in images. Furthermore, we design a set of operations to revise images towards more beautiful ones. In experiments, we find that the revised images are more aesthetic than the original ones to some extent.
翻訳日:2021-08-08 11:08:27 公開日:2021-07-31
# 欠落性拡張:生成的インプテーションモデルを改善するための一般的なアプローチ

Missingness Augmentation: A General Approach for Improving Generative Imputation Models ( http://arxiv.org/abs/2108.02566v1 )

ライセンス: Link先を確認
Yufeng Wang, Dan Li, Cong Xu, Min Yang(参考訳) データインプテーションタスクの大幅な進歩にもかかわらず、新しいインプテーションモデルの設計はますます面倒なものになっているが、それに対応する利益は比較的小さい。 既存のモデルを利用してインプテーションの品質をさらに改善できる、単純だが一般的なアプローチはありますか? 本稿では,この懸念に対処し,これらのモデルの性能向上を図るために,既存の多くの生成的計算フレームワークに適用可能な,ミスネス増強(MA)と呼ばれる新しい汎用データ拡張手法を提案する。 maの場合、各トレーニング期間の前に、ジェネレータの出力を使用して不完全なサンプルをフライで拡張し、拡張されたサンプルに対して特別な再構成損失を判断します。 この再構成損失と元の損失は、モデルの最終最適化目標を構成する。 MAは非常に効率的であり、元のモデルの構造を変更する必要はないことは注目に値する。 実験の結果、maは様々なデータセット上で最近開発された多くの生成的インプテーションモデルの性能を著しく改善できることが示されている。 私たちのコードはhttps://github.com/W Yu-Feng/Missingness- Augmentationで公開されています。

Despite tremendous progress in missing data imputation task, designing new imputation models has become more and more cumbersome but the corresponding gains are relatively small. Is there any simple but general approach that can exploit the existing models to further improve the quality of the imputation? In this article, we aim to respond to this concern and propose a novel general data augmentation method called Missingness Augmentation (MA), which can be applied in many existing generative imputation frameworks to further improve the performance of these models. For MA, before each training epoch, we use the outputs of the generator to expand the incomplete samples on the fly, and then determine a special reconstruction loss for these augmented samples. This reconstruction loss plus the original loss constitutes the final optimization objective of the model. It is noteworthy that MA is very efficient and does not need to change the structure of the original model. Experimental results demonstrate that MA can significantly improve the performance of many recently developed generative imputation models on a variety of datasets. Our code is available at https://github.com/W Yu-Feng/Missingness- Augmentation.
翻訳日:2021-08-08 11:08:19 公開日:2021-07-31
# (参考訳) 新型コロナウイルスCTスキャンデータセットにおけるドメインシフトのためのオンライン教師なし学習 [全文訳有]

Online unsupervised Learning for domain shift in COVID-19 CT scan datasets ( http://arxiv.org/abs/2108.02002v1 )

ライセンス: CC BY 4.0
Nicolas Ewen and Naimul Khan(参考訳) ニューラルネットワークは、トレーニングに大量の専門家アノテートデータを必要とすることが多い。 医用画像のプロセスで変更が行われると、トレーニングされたネットワークも同じように動作せず、画像のプロセスごとに大量の専門家アノテーションを取得するのに時間がかかり、コストがかかる。 オンライン教師なし学習は、入力データにドメインシフトがあり、アノテーションが欠如している状況に対処するために提案された手法である。 本研究の目的は、オンラインの教師なし学習が、新しいデータにアノテーションがない場合に、新型コロナウイルスのCTスキャン分類モデルが少しのドメインシフトに適応するのに役立つかどうかを調べることである。 合計6つの実験が、異なる量のドメインシフトを持つ3つのテストデータセットを用いて行われる。 これらの実験は、オンラインの教師なし学習戦略のパフォーマンスをベースラインと比較し、異なるドメインシフトにおける戦略のパフォーマンスを比較した。 オンライン教師なし学習のコードは、このリンクで見ることができる。

Neural networks often require large amounts of expert annotated data to train. When changes are made in the process of medical imaging, trained networks may not perform as well, and obtaining large amounts of expert annotations for each change in the imaging process can be time consuming and expensive. Online unsupervised learning is a method that has been proposed to deal with situations where there is a domain shift in incoming data, and a lack of annotations. The aim of this study is to see whether online unsupervised learning can help COVID-19 CT scan classification models adjust to slight domain shifts, when there are no annotations available for the new data. A total of six experiments are performed using three test datasets with differing amounts of domain shift. These experiments compare the performance of the online unsupervised learning strategy to a baseline, as well as comparing how the strategy performs on different domain shifts. Code for online unsupervised learning can be found at this link: https://github.com/M ewtwo/online-unsuper vised-learning
翻訳日:2021-08-06 02:33:14 公開日:2021-07-31
# (参考訳) コンピュータビジョンにおけるデータの現状--人間のアノテーションはディープラーニングモデル開発に不可欠である [全文訳有]

On The State of Data In Computer Vision: Human Annotations Remain Indispensable for Developing Deep Learning Models ( http://arxiv.org/abs/2108.00114v1 )

ライセンス: CC BY 4.0
Zeyad Emam, Andrew Kondrich, Sasha Harrison, Felix Lau, Yushi Wang, Aerin Kim, Elliot Branson(参考訳) 高品質なラベル付きデータセットは、機械学習(ml)の開発、特にディープラーニング(dl)の開発を促進する上で重要な役割を果たす。 しかし、2012年にImageNetデータセットとAlexNetモデルが出現して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。 そのため、コンピュータビジョンコミュニティの出版物のうち、imagenetよりも桁違いに大きいデータセットの教師付き学習に取り組むものはごく少数である。 本稿では,このような大規模データセットが異なるビジョンタスクにおけるモデル性能に与える影響を研究するコンピュータビジョン研究領域を調査した。 これらの効果に関するコミュニティの現在の理解を要約し、大規模なデータセットによるトレーニングに関するオープンな疑問を強調します。 In particular, we tackle: (a) The largest datasets currently used in computer vision research and the interesting takeaways from training on such datasets; (b) The effectiveness of pre-training on large datasets; (c) Recent advancements and hurdles facing synthetic datasets; (d) An overview of double descent and sample non-monotonicity phenomena; and finally, (e) A brief discussion of lifelong/continual learning and how it fares compared to learning from huge labeled datasets in an offline setting. 全体として、ディープラーニングのための最適化の研究は、トレーニングルーチンを完璧にし、DLモデルをデータ空腹を減らすことに焦点を当て、合成データセットの研究は、データラベリングのコストを相殺することを目的としている。 しかし、今のところ、非合成ラベル付きデータの取得はパフォーマンス向上に不可欠である。

High-quality labeled datasets play a crucial role in fueling the development of machine learning (ML), and in particular the development of deep learning (DL). However, since the emergence of the ImageNet dataset and the AlexNet model in 2012, the size of new open-source labeled vision datasets has remained roughly constant. Consequently, only a minority of publications in the computer vision community tackle supervised learning on datasets that are orders of magnitude larger than Imagenet. In this paper, we survey computer vision research domains that study the effects of such large datasets on model performance across different vision tasks. We summarize the community's current understanding of those effects, and highlight some open questions related to training with massive datasets. In particular, we tackle: (a) The largest datasets currently used in computer vision research and the interesting takeaways from training on such datasets; (b) The effectiveness of pre-training on large datasets; (c) Recent advancements and hurdles facing synthetic datasets; (d) An overview of double descent and sample non-monotonicity phenomena; and finally, (e) A brief discussion of lifelong/continual learning and how it fares compared to learning from huge labeled datasets in an offline setting. Overall, our findings are that research on optimization for deep learning focuses on perfecting the training routine and thus making DL models less data hungry, while research on synthetic datasets aims to offset the cost of data labeling. However, for the time being, acquiring non-synthetic labeled data remains indispensable to boost performance.
翻訳日:2021-08-05 05:39:01 公開日:2021-07-31
# (参考訳) 物理インフォームドダイナスタイルモデルに基づく動的制御のための深部強化学習 [全文訳有]

Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for Dynamic Control ( http://arxiv.org/abs/2108.00128v1 )

ライセンス: CC BY 4.0
Xin-Yang Liu and Jian-Xun Wang(参考訳) モデルベース強化学習(mbrl)は,環境の予測モデルを学ぶことによって,モデルフリーなアルゴリズムよりもはるかに高いサンプル効率を持つと考えられる。 しかし、MBRLの性能は学習モデルの品質に大きく依存しており、通常はブラックボックス方式で構築され、データ分布以外の予測精度が劣る可能性がある。 学習モデルの欠陥は、ポリシーが完全に最適化されるのを防ぐ可能性がある。 この問題を緩和するためにいくつかの不確実性分析に基づく対策が提案されているが、モデルバイアスは依然としてMBRLにとって大きな課題である。 本研究では,支配法則が(部分的に)知られている環境の物理の先行知識を活用することを提案する。 特に,モデル学習と政策探索に制御方程式と物理的制約を活用できる,物理に変形したmbrlフレームワークを開発した。 環境の事前情報を組み込むことにより,学習モデルの品質が著しく向上し,必要な環境との相互作用が大幅に低減され,サンプル効率と学習性能が向上する。 環境は標準常微分方程式(英語版)と部分微分方程式(英語版)によって制御される。

Model-based reinforcement learning (MBRL) is believed to have much higher sample efficiency compared to model-free algorithms by learning a predictive model of the environment. However, the performance of MBRL highly relies on the quality of the learned model, which is usually built in a black-box manner and may have poor predictive accuracy outside of the data distribution. The deficiencies of the learned model may prevent the policy from being fully optimized. Although some uncertainty analysis-based remedies have been proposed to alleviate this issue, model bias still poses a great challenge for MBRL. In this work, we propose to leverage the prior knowledge of underlying physics of the environment, where the governing laws are (partially) known. In particular, we developed a physics-informed MBRL framework, where governing equations and physical constraints are utilized to inform the model learning and policy search. By incorporating the prior information of the environment, the quality of the learned model can be notably improved, while the required interactions with the environment are significantly reduced, leading to better sample efficiency and learning performance. The effectiveness and merit have been demonstrated over a handful of classic control problems, where the environments are governed by canonical ordinary/partial differential equations.
翻訳日:2021-08-05 05:17:20 公開日:2021-07-31
# (参考訳) クエリ指向多文書要約におけるマニフォールドランキングにおけるクエリ拡張の利用 [全文訳有]

Using Query Expansion in Manifold Ranking for Query-Oriented Multi-Document Summarization ( http://arxiv.org/abs/2108.01441v1 )

ライセンス: CC BY-SA 4.0
Quanye Jia, Rui Liu and Jianying Lin(参考訳) 多様体のランク付けはクエリ指向のマルチドキュメント要約にうまく適用されている。 文間の関係を利用するだけでなく、与えられたクエリと文の関係も利用する。 しかし、元のクエリの情報はしばしば不十分である。 そこで本研究では,この問題を解くために,多様体ランキングに組み合わされたクエリ拡張手法を提案する。 本手法は,問合せ語自身と知識ベースワードネットの情報を利用して同義語で問合せを展開するだけでなく,問合せ集合の情報を用いて様々な方法で問合せを展開する(拡張,分散展開,テキストランク拡大)。 従来の問合せ拡張法と比較して,複数の問合せ拡張法を組み合わせることにより,問合せ情報の表現性が向上すると同時に,マニホールドランキングに有用な試みを行う。 さらに,単語の重複度と単語間の近接度を用いて文間の類似度を算出する。 DUC 2006 と DUC2007 のデータセットを用いて実験を行い,提案手法がシステム性能を大幅に向上し,最先端システムに匹敵するシステムを実現することを示す。

Manifold ranking has been successfully applied in query-oriented multi-document summarization. It not only makes use of the relationships among the sentences, but also the relationships between the given query and the sentences. However, the information of original query is often insufficient. So we present a query expansion method, which is combined in the manifold ranking to resolve this problem. Our method not only utilizes the information of the query term itself and the knowledge base WordNet to expand it by synonyms, but also uses the information of the document set itself to expand the query in various ways (mean expansion, variance expansion and TextRank expansion). Compared with the previous query expansion methods, our method combines multiple query expansion methods to better represent query information, and at the same time, it makes a useful attempt on manifold ranking. In addition, we use the degree of word overlap and the proximity between words to calculate the similarity between sentences. We performed experiments on the datasets of DUC 2006 and DUC2007, and the evaluation results show that the proposed query expansion method can significantly improve the system performance and make our system comparable to the state-of-the-art systems.
翻訳日:2021-08-05 04:52:12 公開日:2021-07-31
# (参考訳) 強化学習によるリアルタイムステアリング用直流モータの学習 [全文訳有]

Learning to Control Direct Current Motor for Steering in Real Time via Reinforcement Learning ( http://arxiv.org/abs/2108.00138v1 )

ライセンス: CC BY 4.0
Thomas Watson, Bibek Poudel(参考訳) モデルフリー技術は、大量のデータと計算を犠牲にして複雑なシステムの最適制御に成功した。 しかし,データ使用量や計算負荷を最小限に抑えながら,短時間で制御方針を得ることが望まれることが多い。 そこで本研究では,実ハードウェアと実世界のインタラクションから構築したシミュレーション環境の両方において,ゴルフカートの位置制御を行うnfqアルゴリズムを用いた。 コントローラは、制御課題に挑戦する環境不確実性や固有の非線形性の存在下で、一連の電圧信号を適用することを学習する。 シミュレーションでは4分,実際のハードウェアでは11分でコントロールを成功させることができたのです。

Model free techniques have been successful at optimal control of complex systems at an expense of copious amounts of data and computation. However, it is often desired to obtain a control policy in a short period of time with minimal data use and computational burden. To this end, we make use of the NFQ algorithm for steering position control of a golf cart in both a real hardware and a simulated environment that was built from real-world interaction. The controller learns to apply a sequence of voltage signals in the presence of environmental uncertainties and inherent non-linearities that challenge the the control task. We were able to increase the rate of successful control under four minutes in simulation and under 11 minutes in real hardware.
翻訳日:2021-08-05 04:39:20 公開日:2021-07-31
# (参考訳) 失読者再同定のための知識蒸留によるポーズ誘導型特徴学習 [全文訳有]

Pose-Guided Feature Learning with Knowledge Distillation for Occluded Person Re-Identification ( http://arxiv.org/abs/2108.00139v1 )

ライセンス: CC BY 4.0
Kecheng Zheng, Cuiling Lan, Wenjun Zeng, Jiawei Liu, Zhizheng Zhang, Zheng-Jun Zha(参考訳) occluded person re-identification(re id)は、人物画像と咬合とのマッチングを目的としている。 画像間のミスアライメント問題を悪化させる重大な閉塞のため、基本的には難しい。 ポーズ推定器を組み込むコストがかかると、多くの作品がトレーニングとテストの両方における不一致を軽減するためにポーズ情報を導入している。 低推論複雑性を保ちながら高い精度を達成するために,ポーズ情報を活用してセマンティクスに整合した特徴の学習を規則化するPose-Guided Feature Learning with Knowledge Distillation (PGFL-KD) というネットワークを提案する。 PGFL-KDはメインブランチ(MB)と2つのポーズ誘導ブランチ(Shaieno)、フォアグラウンド強化ブランチ(FEB)、ボディ部分セマンティクス整列ブランチ(SAB)から構成される。 FEBは、障害物や背景の干渉(前景の特徴アライメント)を除いて、目に見える身体部分の特徴を強調することを目指している。 SABは、異なるチャネルグループに対して、ボディ部分のセマンティクスが整合した表現を持つように、異なるボディ部分に集中するよう促している。 テスト時のポーズ情報への依存を取り除くため,MBを正規化し,知識蒸留とインタラクションベーストレーニングを通じて,FEBとSABのメリットを学習する。 occluded, partial, and holistic reidタスクに関する広範な実験により,提案するネットワークの有効性が示された。

Occluded person re-identification (ReID) aims to match person images with occlusion. It is fundamentally challenging because of the serious occlusion which aggravates the misalignment problem between images. At the cost of incorporating a pose estimator, many works introduce pose information to alleviate the misalignment in both training and testing. To achieve high accuracy while preserving low inference complexity, we propose a network named Pose-Guided Feature Learning with Knowledge Distillation (PGFL-KD), where the pose information is exploited to regularize the learning of semantics aligned features but is discarded in testing. PGFL-KD consists of a main branch (MB), and two pose-guided branches, \ieno, a foreground-enhanced branch (FEB), and a body part semantics aligned branch (SAB). The FEB intends to emphasise the features of visible body parts while excluding the interference of obstructions and background (\ieno, foreground feature alignment). The SAB encourages different channel groups to focus on different body parts to have body part semantics aligned representation. To get rid of the dependency on pose information when testing, we regularize the MB to learn the merits of the FEB and SAB through knowledge distillation and interaction-based training. Extensive experiments on occluded, partial, and holistic ReID tasks show the effectiveness of our proposed network.
翻訳日:2021-08-05 04:31:18 公開日:2021-07-31
# (参考訳) マルチモーダル脳ネットワーク解析のための多重グラフネットワーク [全文訳有]

Multiplex Graph Networks for Multimodal Brain Network Analysis ( http://arxiv.org/abs/2108.00158v1 )

ライセンス: CC BY 4.0
Zhaoming Kong, Lichao Sun, Hao Peng, Liang Zhan, Yong Chen, Lifang He(参考訳) 本稿では,マルチモーダル脳ネットワーク解析のための簡易かつ効果的な多重グラフ畳み込みネットワーク(GCN)モデルMGNetを提案する。 提案手法はテンソル表現をmultiplex gcnモデルに統合し,マルチモーダル脳ネットワークの集合の潜在構造を抽出し,マルチモーダルデータのための共通空間の直感的な「グラッピング」を可能にする。 マルチモーダル表現は、特定のグラフ構造をキャプチャするために多重GCNで生成される。 実世界の2つの課題(hivと双極性障害)で分類作業を行い,本提案手法は競争ベンチマーク法と比較して最先端の性能を示す。 本研究は, 客観的評価とは別に, ネットワーク理論において, 異なるモダリティにおける人間コネクトームの理解に重要な意味を持つ可能性がある。 コードはhttps://github.com/Z haomingKong/MGNetsで入手できる。

In this paper, we propose MGNet, a simple and effective multiplex graph convolutional network (GCN) model for multimodal brain network analysis. The proposed method integrates tensor representation into the multiplex GCN model to extract the latent structures of a set of multimodal brain networks, which allows an intuitive 'grasping' of the common space for multimodal data. Multimodal representations are then generated with multiplex GCNs to capture specific graph structures. We conduct classification task on two challenging real-world datasets (HIV and Bipolar disorder), and the proposed MGNet demonstrates state-of-the-art performance compared to competitive benchmark methods. Apart from objective evaluations, this study may bear special significance upon network theory to the understanding of human connectome in different modalities. The code is available at https://github.com/Z haomingKong/MGNets.
翻訳日:2021-08-05 04:08:11 公開日:2021-07-31
# (参考訳) 屋内ナビゲーションのための空間セマンティクスをキャプチャする学習埋め込み [全文訳有]

Learning Embeddings that Capture Spatial Semantics for Indoor Navigation ( http://arxiv.org/abs/2108.00159v1 )

ライセンス: CC BY 4.0
Vidhi Jain, Prakhar Agarwal, Shishir Patil, Katia Sycara(参考訳) 検索およびナビゲーションタスクにドメイン固有の事前を組み込むことで、エンドツーエンドのトレーニングポリシよりも一般化とサンプルの複雑さが改善される。 本研究では,空間的意味的優先順位をキャプチャするオブジェクト埋め込みが,構造化された環境における検索やナビゲーションのタスクをどのように導くかを検討する。 人類は、検出された大きな物体の空間的意味論に基づいて、本や見えない家のプレートのような物体を検索できることを知っている。 例えば、本は本棚やテーブルの上に置かれることが多いが、皿は食器洗い機や食器洗い機にある可能性が高い。 本稿では,事前学習された言語モデルと複数関係知識ベースを物体埋め込みとして活用し,ロボットにこのような空間的意味認識を組み込む手法を提案する。 屋内環境における問合せ対象の検索にこれらのオブジェクト埋め込みを用いることを実証する。 室内シミュレータ(AI2Thor)における埋め込み性能の測定を行った。 また,Success Rate (SR) とPath Length (SPL) の重み付けにより,各種の事前訓練埋込量を評価した。

Incorporating domain-specific priors in search and navigation tasks has shown promising results in improving generalization and sample complexity over end-to-end trained policies. In this work, we study how object embeddings that capture spatial semantic priors can guide search and navigation tasks in a structured environment. We know that humans can search for an object like a book, or a plate in an unseen house, based on the spatial semantics of bigger objects detected. For example, a book is likely to be on a bookshelf or a table, whereas a plate is likely to be in a cupboard or dishwasher. We propose a method to incorporate such spatial semantic awareness in robots by leveraging pre-trained language models and multi-relational knowledge bases as object embeddings. We demonstrate using these object embeddings to search a query object in an unseen indoor environment. We measure the performance of these embeddings in an indoor simulator (AI2Thor). We further evaluate different pre-trained embedding onSuccess Rate(SR) and success weighted by Path Length(SPL).
翻訳日:2021-08-05 03:53:54 公開日:2021-07-31
# (参考訳) スパース正規化による雑音ラベルの学習

Learning with Noisy Labels via Sparse Regularization ( http://arxiv.org/abs/2108.00192v1 )

ライセンス: CC BY 4.0
Xiong Zhou, Xianming Liu, Chenyang Wang, Deming Zhai, Junjun Jiang, Xiangyang Ji(参考訳) ノイズの多いラベルによる学習は、正確なディープニューラルネットワークをトレーニングするための重要かつ困難なタスクである。 クロスエントロピー(Cross Entropy, CE)など、一般的に使われている損失関数は、ノイズラベルへの過度なオーバーフィットに悩まされている。 対称条件を満たすロバストな損失関数はこの問題を改善するために調整されたが、不適合効果に遭遇した。 本稿では,ネットワーク出力を固定ベクトル上の置換集合に制限することにより,\textbf{any loss to noise labels} を強固にできることを理論的に証明する。 固定ベクトルが 1-hot の場合、出力を 1-hot に制限するだけでよいが、ほとんどどこでも勾配がゼロとなり、勾配に基づく最適化が困難になる。 本研究では,ネットワークの出力分布をシャープに強制するネットワーク出力のシャープ化操作と,ネットワーク出力のスパース化を促進する$\ell_p$-norm(p\le 1$)正規化からなる1ホット制約を近似するスパース正規化戦略を導入する。 この単純なアプローチは、任意の損失関数のロバスト性を保証するが、適合能力を妨げることはない。 提案手法は,ノイズラベルやクラス不均衡が存在する場合,よく使われる損失関数の性能を著しく向上させ,最先端の手法よりも優れることを示す。 コードはhttps://github.com/h itcszx/lnl_srで入手できる。

Learning with noisy labels is an important and challenging task for training accurate deep neural networks. Some commonly-used loss functions, such as Cross Entropy (CE), suffer from severe overfitting to noisy labels. Robust loss functions that satisfy the symmetric condition were tailored to remedy this problem, which however encounter the underfitting effect. In this paper, we theoretically prove that \textbf{any loss can be made robust to noisy labels} by restricting the network output to the set of permutations over a fixed vector. When the fixed vector is one-hot, we only need to constrain the output to be one-hot, which however produces zero gradients almost everywhere and thus makes gradient-based optimization difficult. In this work, we introduce the sparse regularization strategy to approximate the one-hot constraint, which is composed of network output sharpening operation that enforces the output distribution of a network to be sharp and the $\ell_p$-norm ($p\le 1$) regularization that promotes the network output to be sparse. This simple approach guarantees the robustness of arbitrary loss functions while not hindering the fitting ability. Experimental results demonstrate that our method can significantly improve the performance of commonly-used loss functions in the presence of noisy labels and class imbalance, and outperform the state-of-the-art methods. The code is available at https://github.com/h itcszx/lnl_sr.
翻訳日:2021-08-05 03:47:43 公開日:2021-07-31
# (参考訳) boosted triplet comparisonsを用いた主観的画質評価

Subjective Image Quality Assessment with Boosted Triplet Comparisons ( http://arxiv.org/abs/2108.00201v1 )

ライセンス: CC0 1.0
Hui Men, Hanhe Lin, Mohsen Jenadeleh, Dietmar Saupe(参考訳) 主観的全参照画像品質評価では、基準画像の知覚的画質と歪みバージョンの違いを、しばしば劣化カテゴリー評価(DCR)を用いて評価する。 しかし、DCRは、この順序尺度の格付けカテゴリーの違いは知覚的に等しくなく、観察者はカテゴリについて異なる理解を持つ可能性があるため、批判されている。 歪んだ画像の対比較(pc)と、スケール値のサーストン的再構成は、これらの問題を克服する。 さらに、PCはDCRよりも敏感であり、正確な知覚解釈を表現する分数的、ただ目立った差分(JND)単位でスケール値を提供することができる。 それでも、ほぼ同じ品質の画像の比較は困難である。 より一般的な三重項比較(TC)に埋め込まれた強化技術を導入し、感度をさらに高める。 ブースティングは歪んだ画像のアーティファクトを増幅し、ズームによる視覚的表現を拡大し、フレッカリング効果によって歪みの可視性を高めたり、あるいは上記を組み合わせる。 実験の結果,7種類の歪みに対する強化TCの有効性が示された。 私たちは3倍の質問に対して170万以上の回答をクラウドソースしました。 詳細な分析により, 画像の相対的品質値の精度を犠牲にすることなく, 識別能力を高め, 主観評価回数を削減できることが示された。 提案手法は,画像品質データセットの微細化を図り,歪みレベルが向上すると同時に,高品質な主観的アノテーションを備える。 また、TCLとアノテーション付きデータセットであるKonFiG-IQAの10のソースイメージを含むThurstonianスケール再構築の詳細を、12または30のレベルで7つの歪みタイプを使用して処理し、3つのJNDユニットに均一に空間化している。

In subjective full-reference image quality assessment, differences between perceptual image qualities of the reference image and its distorted versions are evaluated, often using degradation category ratings (DCR). However, the DCR has been criticized since differences between rating categories on this ordinal scale might not be perceptually equidistant, and observers may have different understandings of the categories. Pair comparisons (PC) of distorted images, followed by Thurstonian reconstruction of scale values, overcome these problems. In addition, PC is more sensitive than DCR, and it can provide scale values in fractional, just noticeable difference (JND) units that express a precise perceptional interpretation. Still, the comparison of images of nearly the same quality can be difficult. We introduce boosting techniques embedded in more general triplet comparisons (TC) that increase the sensitivity even more. Boosting amplifies the artefacts of distorted images, enlarges their visual representation by zooming, increases the visibility of the distortions by a flickering effect, or combines some of the above. Experimental results show the effectiveness of boosted TC for seven types of distortion. We crowdsourced over 1.7 million responses to triplet questions. A detailed analysis shows that boosting increases the discriminatory power and allows to reduce the number of subjective ratings without sacrificing the accuracy of the resulting relative image quality values. Our technique paves the way to fine-grained image quality datasets, allowing for more distortion levels, yet with high-quality subjective annotations. We also provide the details for Thurstonian scale reconstruction from TC and our annotated dataset, KonFiG-IQA, containing 10 source images, processed using 7 distortion types at 12 or even 30 levels, uniformly spaced over a span of 3 JND units.
翻訳日:2021-08-05 03:46:44 公開日:2021-07-31
# (参考訳) ランダムニューラルネットワークの分離能力

The Separation Capacity of Random Neural Networks ( http://arxiv.org/abs/2108.00207v1 )

ライセンス: CC BY 4.0
Sjoerd Dirksen, Martin Genzel, Laurent Jacques, Alexander Stollenwerk(参考訳) ランダムウェイトを持つニューラルネットワークは、多くのディープラーニングアルゴリズムの初期化や、完全に学習されたニューラルネットワークの計算コストの安い代替として、さまざまな機械学習アプリケーションに現れる。 本稿では,ランダムニューラルネットワークが2つのクラス$\mathcal{x}^-, \mathcal{x}^+ \subset \mathbb{r}^d$(正距離)を線形に分離可能な条件下で,ランダムニューラルネットワークの理論的理解を強化する。 標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。 重要なことに、必要なニューロンの数は、基底集合 $\mathcal{X}^-, \mathcal{X}^+$ の幾何学的性質と、それらの相互配置に明示的に関連付けられる。 このインスタンス固有の視点は、データが低複雑さ構造を持つ非病理学的状況において、通常の次元(層の外周幅)の呪いを克服することができる。 我々は, 相互複雑性という新たな概念(ガウス平均幅の局所化版に基づく)によって, データの関連構造を定量化し, 健全かつ情報的分離を保証する。 我々は、近似、記憶、一般化に関する関連する作業と結果を結びつける。

Neural networks with random weights appear in a variety of machine learning applications, most prominently as the initialization of many deep learning algorithms and as a computationally cheap alternative to fully learned neural networks. In the present article we enhance the theoretical understanding of random neural nets by addressing the following data separation problem: under what conditions can a random neural network make two classes $\mathcal{X}^-, \mathcal{X}^+ \subset \mathbb{R}^d$ (with positive distance) linearly separable? We show that a sufficiently large two-layer ReLU-network with standard Gaussian weights and uniformly distributed biases can solve this problem with high probability. Crucially, the number of required neurons is explicitly linked to geometric properties of the underlying sets $\mathcal{X}^-, \mathcal{X}^+$ and their mutual arrangement. This instance-specific viewpoint allows us to overcome the usual curse of dimensionality (exponential width of the layers) in non-pathological situations where the data carries low-complexity structure. We quantify the relevant structure of the data in terms of a novel notion of mutual complexity (based on a localized version of Gaussian mean width), which leads to sound and informative separation guarantees. We connect our result with related lines of work on approximation, memorization, and generalization.
翻訳日:2021-08-05 03:43:20 公開日:2021-07-31
# (参考訳) swarm intelligenceに基づく植物根系アルゴリズムによる1次元生体医学的信号特徴工学 [全文訳有]

A Plant Root System Algorithm Based on Swarm Intelligence for One-dimensional Biomedical Signal Feature Engineering ( http://arxiv.org/abs/2108.00214v1 )

ライセンス: CC BY 4.0
Rui Gong, Kazunori Hase(参考訳) これまでに研究応用から臨床応用へ移行したバイオメディカルシグナルはほとんどない。 これは主に非定常信号の診断能力に対する信頼の欠如によるものである。 臨床診断のレベルに達するためには,高品質な信号特徴を用いた分類が必要である。 近年、機械学習、特にディープラーニングはかなりの進歩を遂げているが、機能工学の分野では進歩がかなり限られている。 本研究では,グループインテリジェンスに基づく特徴抽出アルゴリズムを提案し,これをPlant Root System (PRS)アルゴリズムと呼ぶ。 重要となるのは,このprsアルゴリズムが生成する特徴と従来の特徴との相関が低く,prs機能の追加により,広く使用されているいくつかの分類器の精度が大幅に向上していることである。 提案アルゴリズムを用いて臨床診断により多くの生体信号を適用することが可能であることが期待される。

To date, very few biomedical signals have transitioned from research applications to clinical applications. This is largely due to the lack of trust in the diagnostic ability of non-stationary signals. To reach the level of clinical diagnostic application, classification using high-quality signal features is necessary. While there has been considerable progress in machine learning in recent years, especially deep learning, progress has been quite limited in the field of feature engineering. This study proposes a feature extraction algorithm based on group intelligence which we call a Plant Root System (PRS) algorithm. Importantly, the correlation between features produced by this PRS algorithm and traditional features is low, and the accuracy of several widely-used classifiers was found to be substantially improved with the addition of PRS features. It is expected that more biomedical signals can be applied to clinical diagnosis using the proposed algorithm.
翻訳日:2021-08-05 03:42:11 公開日:2021-07-31
# (参考訳) Recommenderシステムにおける強化学習によるシーケンス適応 [全文訳有]

Sequence Adaptation via Reinforcement Learning in Recommender Systems ( http://arxiv.org/abs/2108.01442v1 )

ライセンス: CC BY 4.0
Stefanos Antaris, Dimitrios Rafailidis(参考訳) ユーザが異なるシーケンシャルパターンを持つという事実を考慮すると、最先端のレコメンデーション戦略の主な欠点は、モデルのトレーニングに入力としてユーザとイテムインタラクションの固定シーケンス長が必要であることである。 これはレコメンデーションの精度を制限し、実際にはユーザーはシーケンシャルなレコメンデーションで異なるトレンドに従う。 したがって、ベースライン戦略は重要なシーケンシャルなインタラクションを無視したり、ユーザーのシーケンシャルな振る舞いに応じて冗長なインタラクションを持つモデルにノイズを加えることができる。 そこで本研究では,SARモデルを提案する。SARモデルはシーケンスパターンを学習するだけでなく,パーソナライズされた方法でユーザ同士のインタラクションのシーケンス長を調整する。 まず,ユーザの状態表現を一定の時間ステップで考慮し,rlエージェントが最適なシーケンス長をアクションとして計算しようとするアクタ-クリティックフレームワークを設計する。 さらに,コンピテンシーレコメンデーションの精度を批評家ネットワークの期待累積報酬と整合させると共に,アクターネットワークとのシーケンス長をパーソナライズした方法で適応させるように,共同損失関数を最適化する。 実世界の4つのデータセットに対する実験により,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。 最後に、実装をhttps://github.com/s tefanosantaris/sarで公開しています。

Accounting for the fact that users have different sequential patterns, the main drawback of state-of-the-art recommendation strategies is that a fixed sequence length of user-item interactions is required as input to train the models. This might limit the recommendation accuracy, as in practice users follow different trends on the sequential recommendations. Hence, baseline strategies might ignore important sequential interactions or add noise to the models with redundant interactions, depending on the variety of users' sequential behaviours. To overcome this problem, in this study we propose the SAR model, which not only learns the sequential patterns but also adjusts the sequence length of user-item interactions in a personalized manner. We first design an actor-critic framework, where the RL agent tries to compute the optimal sequence length as an action, given the user's state representation at a certain time step. In addition, we optimize a joint loss function to align the accuracy of the sequential recommendations with the expected cumulative rewards of the critic network, while at the same time we adapt the sequence length with the actor network in a personalized manner. Our experimental evaluation on four real-world datasets demonstrates the superiority of our proposed model over several baseline approaches. Finally, we make our implementation publicly available at https://github.com/s tefanosantaris/sar.
翻訳日:2021-08-05 03:33:03 公開日:2021-07-31
# (参考訳) フィリピン語教科書の読解困難度評価のための多言語的特徴 [全文訳有]

Diverse Linguistic Features for Assessing Reading Difficulty of Educational Filipino Texts ( http://arxiv.org/abs/2108.00241v1 )

ライセンス: CC BY 4.0
Joseph Marvin Imperial, Ethel Ong(参考訳) 質と効果的な学習,フラレンシー,理解を確保するためには,読解資料の難易度を適切に把握する必要がある。 本稿では,最も多様な言語的特徴を用いた教育用フィリピン語テキストの自動可読性評価モデルの開発について述べる。 その結果,従来型および音節パターンに基づく予測器からなる特徴集合の最適組み合わせを用いた場合,ランダムフォレストモデルによる精度は62.7%,66.1%であった。

In order to ensure quality and effective learning, fluency, and comprehension, the proper identification of the difficulty levels of reading materials should be observed. In this paper, we describe the development of automatic machine learning-based readability assessment models for educational Filipino texts using the most diverse set of linguistic features for the language. Results show that using a Random Forest model obtained a high performance of 62.7% in terms of accuracy, and 66.1% when using the optimal combination of feature sets consisting of traditional and syllable pattern-based predictors.
翻訳日:2021-08-05 03:22:04 公開日:2021-07-31
# (参考訳) sydog:2次元ポーズ推定を改善する合成犬データセット [全文訳有]

SyDog: A Synthetic Dog Dataset for Improved 2D Pose Estimation ( http://arxiv.org/abs/2108.00249v1 )

ライセンス: CC BY 4.0
Moira Shooter, Charles Malleson, Adrian Hilton (University of Surrey)(参考訳) 動物のポーズを推定することは、生体力学、神経科学、民族学、ロボット工学、エンターテイメント産業などの基本分野である動物運動の理解を促進する。 人間のポーズ推定モデルは、利用可能な膨大なトレーニングデータのために高いパフォーマンスを達成している。 動物のポーズデータセットの欠如により、動物のポーズ推定に同じ結果を達成することは困難である。 この問題を解決するために,ゲームエンジンであるunityを使って生成された,基底真理のポーズとバウンディングボックス座標を含む犬の合成データセットであるsydogを紹介する。 sydogでトレーニングされたポーズ推定モデルは、純粋に実データに基づいてトレーニングされたモデルよりも優れたパフォーマンスを達成し、画像の労働集約的なラベル付けの必要性を大幅に削減できることを実証する。 動物運動研究のためのトレーニングおよび評価ベンチマークとしてSyDogデータセットをリリースする。

Estimating the pose of animals can facilitate the understanding of animal motion which is fundamental in disciplines such as biomechanics, neuroscience, ethology, robotics and the entertainment industry. Human pose estimation models have achieved high performance due to the huge amount of training data available. Achieving the same results for animal pose estimation is challenging due to the lack of animal pose datasets. To address this problem we introduce SyDog: a synthetic dataset of dogs containing ground truth pose and bounding box coordinates which was generated using the game engine, Unity. We demonstrate that pose estimation models trained on SyDog achieve better performance than models trained purely on real data and significantly reduce the need for the labour intensive labelling of images. We release the SyDog dataset as a training and evaluation benchmark for research in animal motion.
翻訳日:2021-08-05 03:15:11 公開日:2021-07-31
# (参考訳) 効率的な宝くじ発見 [全文訳有]

Provably Efficient Lottery Ticket Discovery ( http://arxiv.org/abs/2108.00259v1 )

ライセンス: CC BY 4.0
Cameron R. Wolfe, Qihan Wang, Junhyung Lyle Kim, Anastasios Kyrillidis(参考訳) 抽選券仮説(LTH)は、ランダムに初期化され、密度の高いニューラルネットワークには、同じ量の独立性を訓練された場合、密度の高いネットワークのパフォーマンスにマッチする(スパース)サブネットが含まれていると主張している。 LTHは効率的なネットワークアーキテクチャを発見するのに有用であるが、3段階のプロセスであるプレトレーニング、プルーニング、再トレーニングは計算コストがかかる。 幸運なことに、"early-bird"チケットは、最小限の事前トレーニングでニューラルネットワーク内で発見でき、効率的なlthインスパイアされたトレーニング手順が作成できる。 しかし、この現象の理論的基礎は存在しない。 我々は,入賞チケットの発見に要する事前学習回数の分析的境界を導出し,そのような早期バードチケットがいつ,なぜ存在するのかを理論的に理解する。 グリーディな前方選択プルーニング戦略を採用することで、プルーニングされたネットワークの性能と、その派生した密集したネットワークの損失を直接接続し、ハイパフォーマンスなサブネットワークが存在することを保証した、事前トレーニングされたイテレーションの数のしきい値を明らかにする。 我々は、MNISTでトレーニングされた多層パーセプトロン(MLP)や、CIFAR10とImageNetでトレーニングされたいくつかの深層畳み込みニューラルネットワーク(CNN)アーキテクチャを含む、さまざまなアーキテクチャやデータセットにおける理論的結果の有効性を実証する。

The lottery ticket hypothesis (LTH) claims that randomly-initialized , dense neural networks contain (sparse) subnetworks that, when trained an equal amount in isolation, can match the dense network's performance. Although LTH is useful for discovering efficient network architectures, its three-step process -- pre-training, pruning, and re-training -- is computationally expensive, as the dense model must be fully pre-trained. Luckily, "early-bird" tickets can be discovered within neural networks that are minimally pre-trained, allowing for the creation of efficient, LTH-inspired training procedures. Yet, no theoretical foundation of this phenomenon exists. We derive an analytical bound for the number of pre-training iterations that must be performed for a winning ticket to be discovered, thus providing a theoretical understanding of when and why such early-bird tickets exist. By adopting a greedy forward selection pruning strategy, we directly connect the pruned network's performance to the loss of the dense network from which it was derived, revealing a threshold in the number of pre-training iterations beyond which high-performing subnetworks are guaranteed to exist. We demonstrate the validity of our theoretical results across a variety of architectures and datasets, including multi-layer perceptrons (MLPs) trained on MNIST and several deep convolutional neural network (CNN) architectures trained on CIFAR10 and ImageNet.
翻訳日:2021-08-05 03:12:40 公開日:2021-07-31
# (参考訳) Speech2Affective Gestures: 対人感情表現学習による音声合成 [全文訳有]

Speech2AffectiveGest ures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning ( http://arxiv.org/abs/2108.00262v1 )

ライセンス: CC BY 4.0
Uttaran Bhattacharya and Elizabeth Childs and Nicholas Rewkowski and Dinesh Manocha(参考訳) そこで本稿では, 感情表現を適切に表現し, 3次元ポーズを合成する生成的対人ネットワークを提案する。 本ネットワークは,入力音声とシードポーズから符号化された特徴の組込み空間からジェスチャを合成するジェネレータと,合成されたポーズシーケンスと実3Dポーズシーケンスを識別する識別器とから構成される。 我々は,入力音声から出力されるメル周波数ケプストラム係数とテキストの書き起こしを利用して,所望の感情と関連する感情の手がかりを学習する。 マルチスケール空間時間グラフ畳み込みを用いた情緒的エンコーダを設計し,3次元ポーズ列を潜在ポーズに基づく情緒的特徴に変換する。 私たちは、私たちのジェネレータの両方で、感情エンコーダを使って、種子のポーズから感情的な特徴を学び、ジェスチャー合成をガイドし、私たちの識別器は、適切な感情的な表現を含むように、合成されたジェスチャーを強制します。 音声からのジェスチャー合成のための2つのベンチマークデータセット、TED Gesture DatasetとGENEA Challenge 2020 Datasetについて広範な評価を行った。 最良ベースラインと比較して,平均絶対関節誤差を10~33%,平均加速度差を8~58%,Fr'echet Gesture Distanceを21~34%改善した。 また, 被験者の約15.28%が, 合成したジェスチャーの方が分かりやすいと回答し, 被験者の約16.32%は, ジェスチャーが発話に合った感情表現を持っていると感じた。

We present a generative adversarial network to synthesize 3D pose sequences of co-speech upper-body gestures with appropriate affective expressions. Our network consists of two components: a generator to synthesize gestures from a joint embedding space of features encoded from the input speech and the seed poses, and a discriminator to distinguish between the synthesized pose sequences and real 3D pose sequences. We leverage the Mel-frequency cepstral coefficients and the text transcript computed from the input speech in separate encoders in our generator to learn the desired sentiments and the associated affective cues. We design an affective encoder using multi-scale spatial-temporal graph convolutions to transform 3D pose sequences into latent, pose-based affective features. We use our affective encoder in both our generator, where it learns affective features from the seed poses to guide the gesture synthesis, and our discriminator, where it enforces the synthesized gestures to contain the appropriate affective expressions. We perform extensive evaluations on two benchmark datasets for gesture synthesis from the speech, the TED Gesture Dataset and the GENEA Challenge 2020 Dataset. Compared to the best baselines, we improve the mean absolute joint error by 10--33%, the mean acceleration difference by 8--58%, and the Fr\'echet Gesture Distance by 21--34%. We also conduct a user study and observe that compared to the best current baselines, around 15.28% of participants indicated our synthesized gestures appear more plausible, and around 16.32% of participants felt the gestures had more appropriate affective expressions aligned with the speech.
翻訳日:2021-08-05 01:56:03 公開日:2021-07-31
# (参考訳) 交通事故の早期予測のための説明可能な人工知能(XAI)を目指して [全文訳有]

Towards explainable artificial intelligence (XAI) for early anticipation of traffic accidents ( http://arxiv.org/abs/2108.00273v1 )

ライセンス: CC BY 4.0
Muhammad Monjurul Karim, Yu Li, Ruwen Qin(参考訳) 交通事故予測は、安全保証運転体験を提供するための自動運転システム(ADS)の重要な機能である。 事故予測モデルは、事故の発生前に迅速かつ正確に事故を予測することを目的としている。 既存の人工知能(AI)モデルでは、事故の予測には、意思決定に関する人間解釈可能な説明が欠けている。 これらのモデルはよく機能するが、ADSユーザーにはブラックボックスのままであり、信頼を得るのは難しい。 そこで本稿では,ダッシュカム映像データから交通事故の早期予測のための時空間的特徴を学習するGRU(Gated Recurrent Unit)ネットワークを提案する。 事故予知決定の視覚的説明として,Grad-CAMというポストホックアテンション機構をネットワークに統合し,サリエンシマップを生成する。 目追跡装置は、人間の注意マップを生成するための人間の目固定点をキャプチャする。 ネットワーク生成塩分マップの解説性は,人間の注意度マップと比較して評価した。 パブリッククラッシュデータセットの質的かつ定量的な結果は、提案された説明可能なネットワークが平均4.57秒前に事故を予測できることを確認した。 さらに, ポストホックアテンションに基づくXAI手法の評価と比較を行った。 本研究で選択されたgrad-camは,クラッシュ予測決定を説明するために,高品質で人間に解釈可能なサリエンシーマップ(正規化スキャンパスサリエンシー 1.42)を生成できることを確認した。 重要なのは、提案するaiモデルは、人間にインスパイアされたデザインで、事故予測で人間を上回ることができることだ。

Traffic accident anticipation is a vital function of Automated Driving Systems (ADSs) for providing a safety-guaranteed driving experience. An accident anticipation model aims to predict accidents promptly and accurately before they occur. Existing Artificial Intelligence (AI) models of accident anticipation lack a human-interpretable explanation of their decision-making. Although these models perform well, they remain a black-box to the ADS users, thus difficult to get their trust. To this end, this paper presents a Gated Recurrent Unit (GRU) network that learns spatio-temporal relational features for the early anticipation of traffic accidents from dashcam video data. A post-hoc attention mechanism named Grad-CAM is integrated into the network to generate saliency maps as the visual explanation of the accident anticipation decision. An eye tracker captures human eye fixation points for generating human attention maps. The explainability of network-generated saliency maps is evaluated in comparison to human attention maps. Qualitative and quantitative results on a public crash dataset confirm that the proposed explainable network can anticipate an accident on average 4.57 seconds before it occurs, with 94.02% average precision. In further, various post-hoc attention-based XAI methods are evaluated and compared. It confirms that the Grad-CAM chosen by this study can generate high-quality, human-interpretable saliency maps (with 1.42 Normalized Scanpath Saliency) for explaining the crash anticipation decision. Importantly, results confirm that the proposed AI model, with a human-inspired design, can outperform humans in the accident anticipation.
翻訳日:2021-08-05 01:30:33 公開日:2021-07-31
# (参考訳) センサレスフリーハンド3次元超音波再構成における自己条件と形状 [全文訳有]

Self Context and Shape Prior for Sensorless Freehand 3D Ultrasound Reconstruction ( http://arxiv.org/abs/2108.00274v1 )

ライセンス: CC BY 4.0
Mingyuan Luo, Xin Yang, Xiaoqiong Huang, Yuhao Huang, Yuxin Zou, Xindi Hu, Nishant Ravikumar, Alejandro F Frangi, Dong Ni(参考訳) 3D超音波(US)はその豊富な診断情報に広く使われている。 しかし、その限られた視野から批判されている。 3d freehand us reconstructionは、広い範囲とフリーフォームスキャンを提供することで、この問題に対処できることを約束している。 既存のディープラーニングベースの手法は、スキルシーケンスの基本ケースのみに焦点を当て、モデルはトレーニングデータに大きく依存する。 実際の臨床実践のシーケンスは多様なスキルの混合であり、複雑な走査経路を持っている。 さらに、深層モデルは、トレーニングケースに限らず、より堅牢性を高めるための事前知識を備えたテストケースに適応すべきです。 本稿では,複雑なスキルシーケンスを考慮したセンサレス3次元us再構成法を提案する。 私たちの貢献は3倍です。 まず, 微分可能再構成アルゴリズムの設計により, 新たなオンライン学習フレームワークを考案する。 セクションシーケンスから再構築ボリュームへのエンドツーエンド最適化を実現する。 次に,テストデータ自体によって再構成された文脈情報を探索し,モデルの知覚を促進するために,自己教師あり学習法を開発した。 第三に, 形状の先行効果に着想を得て, 復元ボリュームに先行して解剖学的形状の学習を強化するための逆訓練も導入する。 テストデータのコンテキストと構造的手がかりをマイニングすることで、オンライン学習手法は複雑なスキルシーケンスを扱うモデルを動かすことができる。 ヒップ US および胎児 US データセットの発達的異形成実験の結果,本手法はシフトエラーや経路類似性に関して,最先端の手法よりも優れていることがわかった。

3D ultrasound (US) is widely used for its rich diagnostic information. However, it is criticized for its limited field of view. 3D freehand US reconstruction is promising in addressing the problem by providing broad range and freeform scan. The existing deep learning based methods only focus on the basic cases of skill sequences, and the model relies on the training data heavily. The sequences in real clinical practice are a mix of diverse skills and have complex scanning paths. Besides, deep models should adapt themselves to the testing cases with prior knowledge for better robustness, rather than only fit to the training cases. In this paper, we propose a novel approach to sensorless freehand 3D US reconstruction considering the complex skill sequences. Our contribution is three-fold. First, we advance a novel online learning framework by designing a differentiable reconstruction algorithm. It realizes an end-to-end optimization from section sequences to the reconstructed volume. Second, a self-supervised learning method is developed to explore the context information that reconstructed by the testing data itself, promoting the perception of the model. Third, inspired by the effectiveness of shape prior, we also introduce adversarial training to strengthen the learning of anatomical shape prior in the reconstructed volume. By mining the context and structural cues of the testing data, our online learning methods can drive the model to handle complex skill sequences. Experimental results on developmental dysplasia of the hip US and fetal US datasets show that, our proposed method can outperform the start-of-the-art methods regarding the shift errors and path similarities.
翻訳日:2021-08-05 01:17:11 公開日:2021-07-31
# プラズモン誘起透過における非線形波動の学習

Learning Nonlinear Waves in Plasmon-induced Transparency ( http://arxiv.org/abs/2108.01508v1 )

ライセンス: Link先を確認
Jiaxi Cheng(参考訳) プラズモン誘起透過(pit)は、非線形波などの領域で重要な現象を見つける複雑な非線形ダイナミクスを示す。 しかし、そのような非線形解はシュリンガー方程式のパラメータと異なるポテンシャルの選択に敏感に依存する。 この複雑さにもかかわらず、機械学習コミュニティは回帰による複雑なデータセットの予測において顕著な効率性を開発した。 本稿では, プラズモン誘起透過性メタマテリアルシステムにおける非線形ソリトンの複雑な伝播を予測するために, 誘導モデルの解析的, 数値的アプローチを必要とせず, 応用ポテンシャルを持つrecurrent neural network (rnn) 手法を検討する。 本手法は,与えられた初期条件とポテンシャルのみから非線形ソリトンの伝播予測に成功していることを示す。 長い短期記憶(LSTM)人工ニューラルネットワークによるシミュレーションと予測の結果の顕著な一致を実証する。 この研究で提示されたフレームワークは、シュル=オディンガー型方程式、例えばコールド原子系や非線形ファイバー光学における非線形ダイナミクスを用いた量子システムや非線形波におけるrnnの応用に対する新たな展望を開く。

Plasmon-induced transparency (PIT) displays complex nonlinear dynamics that find critical phenomena in areas such as nonlinear waves. However, such a nonlinear solution depends sensitively on the selection of parameters and different potentials in the Schr\"odinger equation. Despite this complexity, the machine learning community has developed remarkable efficiencies in predicting complicated datasets by regression. Here, we consider a recurrent neural network (RNN) approach to predict the complex propagation of nonlinear solitons in plasmon-induced transparency metamaterial systems with applied potentials bypassing the need for analytical and numerical approaches of a guiding model. We demonstrate the success of this scheme on the prediction of the propagation of the nonlinear solitons solely from a given initial condition and potential. We prove the prominent agreement of results in simulation and prediction by long short-term memory (LSTM) artificial neural networks. The framework presented in this work opens up a new perspective for the application of RNN in quantum systems and nonlinear waves using Schr\"odinger-type equations, for example, the nonlinear dynamics in cold-atom systems and nonlinear fiber optics.
翻訳日:2021-08-04 13:51:43 公開日:2021-07-31
# (参考訳) 心理的インフォームドによるソーシャルメディアの抑うつの分析 [全文訳有]

A Psychologically Informed Part-of-Speech Analysis of Depression in Social Media ( http://arxiv.org/abs/2108.00279v1 )

ライセンス: CC BY 4.0
Ana-Maria Bucur, Ioana R. Podin\u{a} and Liviu P. Dinu(参考訳) 本研究では,抑うつを伴うソーシャルメディア利用者の言論を幅広く分析する。 心理学の研究によると、うつ病のユーザーは自己中心であり、自分自身に夢中になり、自分の生活や感情についてより反感を抱く傾向にある。 本研究の目的は,大規模データセットと計算手法を用いて談話の定量的探索を行うことである。 我々は、Early Risk Prediction on the Internet Workshop (eRisk) 2018から公開されているうつ病データセットを使用して、音声の特徴とそれに基づくいくつかの指標を抽出する。 その結果, 既往の心理学文献から, うつ病と非うつ病では統計的に有意な差が認められた。 我々の研究は、うつ病の個人がソーシャルメディアプラットフォーム上で自己表現する方法に関する洞察を提供し、より良い情報処理モデルによって精神疾患の監視と予防に役立つ。

In this work, we provide an extensive part-of-speech analysis of the discourse of social media users with depression. Research in psychology revealed that depressed users tend to be self-focused, more preoccupied with themselves and ruminate more about their lives and emotions. Our work aims to make use of large-scale datasets and computational methods for a quantitative exploration of discourse. We use the publicly available depression dataset from the Early Risk Prediction on the Internet Workshop (eRisk) 2018 and extract part-of-speech features and several indices based on them. Our results reveal statistically significant differences between the depressed and non-depressed individuals confirming findings from the existing psychology literature. Our work provides insights regarding the way in which depressed individuals are expressing themselves on social media platforms, allowing for better-informed computational models to help monitor and prevent mental illnesses.
翻訳日:2021-08-04 13:45:05 公開日:2021-07-31
# (参考訳) 戦略同定のための逆強化学習 [全文訳有]

Inverse Reinforcement Learning for Strategy Identification ( http://arxiv.org/abs/2108.00293v1 )

ライセンス: CC BY 4.0
Mark Rucker, Stephen Adams, Roy Hayes, Peter A. Beling(参考訳) 敵対的環境では、一方が相手の戦略を特定することで有利になる。 例えば、戦闘ゲームでは、相手の戦略が過度に攻撃的であると判断された場合、相手の攻撃性を悪用する罠を敷くことができる。 しかし、相手の戦略は必ずしも明確ではなく、その行動の観察から推測する必要があるかもしれない。 本稿では,逆強化学習(irl)を用いて,敵環境における戦略を特定することを提案する。 具体的には,1) 予め定義された3つの戦略から生成されたゲーム戦闘データに対するこの概念の実証,2) 戦略識別を達成するためにIRLを使用するための枠組みについて述べる。 数値実験により,回収した報酬を様々な手法で識別できることが示されている。 本稿では,回収した報酬を視覚的に表示し,教師なし学習を用いてクラスタ化し,教師なし学習者を用いて分類する。

In adversarial environments, one side could gain an advantage by identifying the opponent's strategy. For example, in combat games, if an opponents strategy is identified as overly aggressive, one could lay a trap that exploits the opponent's aggressive nature. However, an opponent's strategy is not always apparent and may need to be estimated from observations of their actions. This paper proposes to use inverse reinforcement learning (IRL) to identify strategies in adversarial environments. Specifically, the contributions of this work are 1) the demonstration of this concept on gaming combat data generated from three pre-defined strategies and 2) the framework for using IRL to achieve strategy identification. The numerical experiments demonstrate that the recovered rewards can be identified using a variety of techniques. In this paper, the recovered reward are visually displayed, clustered using unsupervised learning, and classified using a supervised learner.
翻訳日:2021-08-04 13:33:31 公開日:2021-07-31
# (参考訳) 補間可能アンタングルを用いたフェア表現学習 [全文訳有]

Fair Representation Learning using Interpolation Enabled Disentanglement ( http://arxiv.org/abs/2108.00295v1 )

ライセンス: CC BY 4.0
Akshita Jha, Bhanukiran Vinzamuri, Chandan K. Reddy(参考訳) 現実の問題を解決するための機械学習コミュニティへの関心が高まっているため、これらのブラックボックスモデルによる予測の公平さと監査に注目して、意思決定の背後にある隠れた理由を明らかにすることが重要になっている。 本稿では,2つの課題を解決するための新しい手法を提案する。 (a) 下流タスクにおける学習表現の有用性を確保しつつ,同時に公平な不等角表現を学習できるか, (b) 提案手法がいつ公平かつ正確になるかに関する理論的洞察を提供することができるか。 前者に対応するために,補間可能外乱を用いた公正表現学習法FRIEDを提案する。 我々のアーキテクチャでは、批判に基づく敵対的枠組みを取り入れることで、潜伏空間の補間点をより現実的なものにする。 これにより、データ多様体を効果的にキャプチャし、下流予測タスクにおける学習表現の有用性を高めることができる。 分類器に基づく条件付き相互情報推定を用いたフェアネス精度トレードオフ理論を考案し、後者の課題に対処する。 我々は,FRIEDが表,テキスト,画像データセットなど,異なるモダリティのデータセットに対して有効であることを示す。 FRIEDが学習した表現は、既存のベースラインに比べて全体的に公平であり、下流予測タスクにも正確である。 さらに、FRIEDを現実世界の医療クレームデータセットで評価し、オピオイドのアドディクションパターンに関する有用な洞察を提供する専門家支援モデル監査研究を行う。

With the growing interest in the machine learning community to solve real-world problems, it has become crucial to uncover the hidden reasoning behind their decisions by focusing on the fairness and auditing the predictions made by these black-box models. In this paper, we propose a novel method to address two key issues: (a) Can we simultaneously learn fair disentangled representations while ensuring the utility of the learned representation for downstream tasks, and (b)Can we provide theoretical insights into when the proposed approach will be both fair and accurate. To address the former, we propose the method FRIED, Fair Representation learning using Interpolation Enabled Disentanglement. In our architecture, by imposing a critic-based adversarial framework, we enforce the interpolated points in the latent space to be more realistic. This helps in capturing the data manifold effectively and enhances the utility of the learned representation for downstream prediction tasks. We address the latter question by developing a theory on fairness-accuracy trade-offs using classifier-based conditional mutual information estimation. We demonstrate the effectiveness of FRIED on datasets of different modalities - tabular, text, and image datasets. We observe that the representations learned by FRIED are overall fairer in comparison to existing baselines and also accurate for downstream prediction tasks. Additionally, we evaluate FRIED on a real-world healthcare claims dataset where we conduct an expert aided model auditing study providing useful insights into opioid ad-diction patterns.
翻訳日:2021-08-04 13:20:21 公開日:2021-07-31
# (参考訳) グラフニューラルネットワークによる多変量時系列計算 [全文訳有]

Multivariate Time Series Imputation by Graph Neural Networks ( http://arxiv.org/abs/2108.00298v1 )

ライセンス: CC BY 4.0
Andrea Cini, Ivan Marisca, Cesare Alippi(参考訳) 欠落した値と不完全な時系列を扱うことは、実世界のアプリケーションから来るデータを扱うとき、労力と時間を要する必然的なタスクである。 効果的な時空間表現は、異なる場所のセンサーから得られる情報を利用することで、不特定の時間データを再構築することができる。 しかし、標準手法は、相互接続されたセンサーのネットワークに存在する非線形時間と空間依存性を捉えるのに不足しており、利用可能な(しばしば強い)関係情報を十分に活用していない。 特に、ディープラーニングに基づく最先端の計算手法の多くは、関係性の側面を明示的にモデル化せず、いずれにせよ、構造化時空間データを適切に表現できる処理フレームワークを利用していない。 逆にグラフニューラルネットワークは最近、リレーショナルインダクティブバイアスでシーケンシャルデータを処理するための表現力と拡張性の両方を備えたツールとして人気が高まっている。 本稿では,多変量時系列計算の文脈におけるグラフニューラルネットワークの最初の評価について述べる。 特に,多変量時系列の異なるチャネルにおいて,メッセージパッシングを通じて空間-時間表現を学習し,行方不明データを再構成することを目的とした,grilと呼ばれる新しいグラフニューラルネットワークアーキテクチャを提案する。 予備実験の結果,本モデルは,平均絶対誤差が20%を超える場合が多い関連するベンチマークのインプテーションタスクにおいて,最先端の手法を上回っていることがわかった。

Dealing with missing values and incomplete time series is a labor-intensive and time-consuming inevitable task when handling data coming from real-world applications. Effective spatio-temporal representations would allow imputation methods to reconstruct missing temporal data by exploiting information coming from sensors at different locations. However, standard methods fall short in capturing the nonlinear time and space dependencies existing within networks of interconnected sensors and do not take full advantage of the available - and often strong - relational information. Notably, most of state-of-the-art imputation methods based on deep learning do not explicitly model relational aspects and, in any case, do not exploit processing frameworks able to adequately represent structured spatio-temporal data. Conversely, graph neural networks have recently surged in popularity as both expressive and scalable tools for processing sequential data with relational inductive biases. In this work, we present the first assessment of graph neural networks in the context of multivariate time series imputation. In particular, we introduce a novel graph neural network architecture, named GRIL, which aims at reconstructing missing data in the different channels of a multivariate time series by learning spatial-temporal representations through message passing. Preliminary empirical results show that our model outperforms state-of-the-art methods in the imputation task on relevant benchmarks with mean absolute error improvements often higher than 20%.
翻訳日:2021-08-04 13:06:00 公開日:2021-07-31
# (参考訳) 創造的NLGシステムの人的評価:最近の論文の学際的調査 [全文訳有]

Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on Recent Papers ( http://arxiv.org/abs/2108.00308v1 )

ライセンス: CC BY-SA 4.0
Mika H\"am\"al\"ainen and Khalid Alnajjar(参考訳) 我々は,INLG 2020 と ICCC 2020 で発表された創造的自然言語生成に関する論文の中で,人間の評価を調査した。 最も一般的な人間の評価方法は、通常5ポイントのスケールでスケールされたサーベイであるが、他の多くのあまり一般的ではない方法が存在する。 最もよく評価されるパラメータは、意味、構文的正しさ、新規性、関連性、感情的価値などである。 今後の評価の指針は, 生成システムの目標を明確に定義すること, できるだけ具体的な質問をすること, 評価設定を複数の異なる評価設定を用いてテストすること, 評価プロセス全体と潜在的なバイアスを明確に報告すること, そして, 評価結果を最も典型的な統計を報告することよりも, より深い方法で分析することである。

We survey human evaluation in papers presenting work on creative natural language generation that have been published in INLG 2020 and ICCC 2020. The most typical human evaluation method is a scaled survey, typically on a 5 point scale, while many other less common methods exist. The most commonly evaluated parameters are meaning, syntactic correctness, novelty, relevance and emotional value, among many others. Our guidelines for future evaluation include clearly defining the goal of the generative system, asking questions as concrete as possible, testing the evaluation setup, using multiple different evaluation setups, reporting the entire evaluation process and potential biases clearly, and finally analyzing the evaluation results in a more profound way than merely reporting the most typical statistics.
翻訳日:2021-08-04 12:48:13 公開日:2021-07-31
# (参考訳) 密度行列に基づく電子力学の統計的学習法 [全文訳有]

Statistical learning method for predicting density-matrix based electron dynamics ( http://arxiv.org/abs/2108.00318v1 )

ライセンス: CC BY 4.0
Prachi Gupta, Harish S. Bhat, Karnamohit Ranka, Christine M. Isborn(参考訳) 電子密度行列の時系列から分子ハミルトン行列を学習するための統計的手法を開発した。 従来の手法をより広い分子系に拡張し, 物理特性を組み込んで次元を減少させるとともに, リッジ回帰法のような正則化手法をマルチコリニア性に応用した。 学習したハミルトニアンにより、時間依存ハートリーフォック(TDHF)方程式を解くことで、時間内の電子密度を伝播し、フィールドフリーおよびフィールドオンシナリオのダイナミクスを予測することができる。 トレーニングデータに類似したフィールドオフ軌跡と,トレーニングデータ以外のフィールドオン軌跡の双方について,予測力学と基底真理の密接な定量的一致を観察する。

We develop a statistical method to learn a molecular Hamiltonian matrix from a time-series of electron density matrices. We extend our previous method to larger molecular systems by incorporating physical properties to reduce dimensionality, while also exploiting regularization techniques like ridge regression for addressing multicollinearity. With the learned Hamiltonian we can solve the Time-Dependent Hartree-Fock (TDHF) equation to propagate the electron density in time, and predict its dynamics for field-free and field-on scenarios. We observe close quantitative agreement between the predicted dynamics and ground truth for both field-off trajectories similar to the training data, and field-on trajectories outside of the training data.
翻訳日:2021-08-04 12:33:06 公開日:2021-07-31
# (参考訳) 微分プライベート確率凸最適化の高速化 [全文訳有]

Faster Rates of Differentially Private Stochastic Convex Optimization ( http://arxiv.org/abs/2108.00331v1 )

ライセンス: CC BY 4.0
Jinyan Su and Di Wang(参考訳) 本稿では,微分的にプライベートな確率凸最適化(dp-sco)の問題を再検討し,一般凸関数と強凸関数のこれまでの結果よりも高速な特殊種類の関数に対して過剰な集団リスクを与える。 本論文の第1部では,人口リスク関数がtysbakovノイズ条件 (tnc) を満たす場合について,パラメータ$\theta>1$ で検討する。 具体的には、損失関数に関するいくつかの穏やかな仮定の下で、出力が$\tilde{O}((\frac{1}{\sqrt{n}}+\frac{\sqrt{d\log \frac{1}{\delta}}}{n\epsilon})^\frac{\theta}{\theta-1})$ for $(\epsilon, \delta)$-DP if $\theta\geq 2$ ここで$n$はサンプルサイズであり、$d$は空間の次元である。 次に、非効率な問題に対処し、$\text{Poly}(\log n)$ factor で上限を改善し、既知の $\bar{\theta}$ に対して $\theta\geq \bar{\theta}>1$ の場合に拡張する。 次に、パラメータ$\theta>1$のtncを満たす人口関数の過剰な人口リスクは、$\omega((\frac{d}{n\epsilon})^\frac{\theta}{\theta-1}) $と$\omega((\frac{\sqrt{d\log \frac{1}{\delta}}}{n\epsilon})^\frac{\theta}{\theta-1})$で、$\epsilon$-dpと$(\epsilon, \delta)$-dpで常に低いことを示す。 第2部では,人口リスク関数が強い凸である特別な場合に焦点を当てる。 以前の研究とは異なり、損失関数は「非負」であり、人口リスクの最適値は「十分小さい」と仮定する。 これらの仮定により、サンプルサイズ$n$が十分大きい場合、任意の$\tau\geq 1$ in $(\epsilon,\delta)$- DPモデルに対して、出力が$O(\frac{d\log\frac{1}{\delta}}{n^2\epsilon^2}+\frac{1}{n^{\tau}})の上限を達成できる新しい方法を提案する。

In this paper, we revisit the problem of Differentially Private Stochastic Convex Optimization (DP-SCO) and provide excess population risks for some special classes of functions that are faster than the previous results of general convex and strongly convex functions. In the first part of the paper, we study the case where the population risk function satisfies the Tysbakov Noise Condition (TNC) with some parameter $\theta>1$. Specifically, we first show that under some mild assumptions on the loss functions, there is an algorithm whose output could achieve an upper bound of $\tilde{O}((\frac{1}{\sqrt{n}}+\frac{\sqrt{d\log \frac{1}{\delta}}}{n\epsilon})^\frac{\theta}{\theta-1})$ for $(\epsilon, \delta)$-DP when $\theta\geq 2$, here $n$ is the sample size and $d$ is the dimension of the space. Then we address the inefficiency issue, improve the upper bounds by $\text{Poly}(\log n)$ factors and extend to the case where $\theta\geq \bar{\theta}>1$ for some known $\bar{\theta}$. Next we show that the excess population risk of population functions satisfying TNC with parameter $\theta>1$ is always lower bounded by $\Omega((\frac{d}{n\epsilon})^\frac{\theta}{\theta-1}) $ and $\Omega((\frac{\sqrt{d\log \frac{1}{\delta}}}{n\epsilon})^\frac{\theta}{\theta-1})$ for $\epsilon$-DP and $(\epsilon, \delta)$-DP, respectively. In the second part, we focus on a special case where the population risk function is strongly convex. Unlike the previous studies, here we assume the loss function is {\em non-negative} and {\em the optimal value of population risk is sufficiently small}. With these additional assumptions, we propose a new method whose output could achieve an upper bound of $O(\frac{d\log\frac{1}{\delta}}{n^2\epsilon^2}+\frac{1}{n^{\tau}})$ for any $\tau\geq 1$ in $(\epsilon,\delta)$- DP model if the sample size $n$ is sufficiently large.
翻訳日:2021-08-04 12:20:29 公開日:2021-07-31
# (参考訳) DNN特徴バックボーンの再考による逆ロバストとドメイン一般化可能なステレオマッチングに向けて [全文訳有]

Towards Adversarially Robust and Domain Generalizable Stereo Matching by Rethinking DNN Feature Backbones ( http://arxiv.org/abs/2108.00335v1 )

ライセンス: CC BY 4.0
Kelvin Cheng, Christopher Healey, Tianfu Wu(参考訳) ステレオマッチングは、最近Deep Neural Networks (DNN)を使用して顕著な進歩をみせた。 でも どれぐらい頑丈なの? DNNが壊滅的な性能低下を伴う敵意の脆弱性に悩まされることはよく知られているが、ステレオマッチングの状況はさらに悪化している。 本稿ではまず,ホワイトボックス攻撃の一種が最先端の手法に失敗する可能性を示す。 この攻撃はステレオマッチングにおいて提案した立体拘束型射影勾配降下法(PGD)によって学習される。 この観察は、DNNベースのステレオマッチングの展開に対する深刻な懸念を引き起こす。 逆境の脆弱性と並行して、DNNベースのステレオマッチングは一般的に、現実のパイプラインへのシミュレーションの下で訓練される。 本稿では,学習可能なDNNベースの特徴バックボーンを,完全に取り除いたり,左参照画像にのみ適用することで,逆ロスや領域一般化可能なステレオマッチングに再考する。 原入力ステレオ画像の古典的マルチスケール・サーチ変換(ローカルバイナリ・パターン)を用いてマッチングコストを計算し、次いでマッチング問題を解いたHourglassヘッドサブネットワークを積み重ねる。 実験では,提案手法をSceneFlowデータセットとKITTI2015ベンチマークで検証した。 これは、最先端の方法に匹敵する精度を保ちながら、逆のロバスト性を大幅に改善する。 また、微調整を行わない場合、シミュレーション(SceneFlow)からリアル(KITTI)データセットへの一般化性も向上する。

Stereo matching has recently witnessed remarkable progress using Deep Neural Networks (DNNs). But, how robust are they? Although it has been well-known that DNNs often suffer from adversarial vulnerability with a catastrophic drop in performance, the situation is even worse in stereo matching. This paper first shows that a type of weak white-box attacks can fail state-of-the-art methods. The attack is learned by a proposed stereo-constrained projected gradient descent (PGD) method in stereo matching. This observation raises serious concerns for the deployment of DNN-based stereo matching. Parallel to the adversarial vulnerability, DNN-based stereo matching is typically trained under the so-called simulation to reality pipeline, and thus domain generalizability is an important problem. This paper proposes to rethink the learnable DNN-based feature backbone towards adversarially-robust and domain generalizable stereo matching, either by completely removing it or by applying it only to the left reference image. It computes the matching cost volume using the classic multi-scale census transform (i.e., local binary pattern) of the raw input stereo images, followed by a stacked Hourglass head sub-network solving the matching problem. In experiments, the proposed method is tested in the SceneFlow dataset and the KITTI2015 benchmark. It significantly improves the adversarial robustness, while retaining accuracy performance comparable to state-of-the-art methods. It also shows better generalizability from simulation (SceneFlow) to real (KITTI) datasets when no fine-tuning is used.
翻訳日:2021-08-04 11:04:22 公開日:2021-07-31
# (参考訳) exemplar reconstruction を用いたオープンセット分類器の学習 [全文訳有]

Learning Few-shot Open-set Classifiers using Exemplar Reconstruction ( http://arxiv.org/abs/2108.00340v1 )

ライセンス: CC BY 4.0
Sayak Nag, Dripta S. Raychaudhuri, Sujoy Paul, Amit K. Roy-Chowdhury(参考訳) 本研究では,未確認のカテゴリ (オープンセット分類) からサンプルを識別する方法の問題点について検討する。 ごく少数のサンプルを持つクラスのよい抽象化を学ぶことの難しさは、未発見のカテゴリからサンプルを検出するのを極めて困難にしている。 多くの開集合数ショット分類法は、オープンクラス標本の均一な確率を示すためにソフトマックススコアを正規化しているが、このアプローチはしばしば不正確である。 その代わり,オープンクラスサンプルを共同で検出するメタラーニング手法を提案するとともに,メトリクスベースの分類によるクラスからサンプルを分類する手法を提案する。 クラスの代表として機能する例は、トレーニングデータセットで提供されるか、フィーチャードメインで見積もられる。 Reconstructing Exemplar based Few-shot Open-set Classifier (ReFOCS) と名付けられた我々のフレームワークは、さまざまなデータセットでテストされており、実験結果は、我々の手法を新しい最先端技術として明確に強調している。

We study the problem of how to identify samples from unseen categories (open-set classification) when there are only a few samples given from the seen categories (few-shot setting). The challenge of learning a good abstraction for a class with very few samples makes it extremely difficult to detect samples from the unseen categories; consequently, open-set recognition has received minimal attention in the few-shot setting. Most open-set few-shot classification methods regularize the softmax score to indicate uniform probability for open class samples but we argue that this approach is often inaccurate, especially at a fine-grained level. Instead, we propose a novel exemplar reconstruction-based meta-learning strategy for jointly detecting open class samples, as well as, categorizing samples from seen classes via metric-based classification. The exemplars, which act as representatives of a class, can either be provided in the training dataset or estimated in the feature domain. Our framework, named Reconstructing Exemplar based Few-shot Open-set ClaSsifier (ReFOCS), is tested on a wide variety of datasets and the experimental results clearly highlight our method as the new state of the art.
翻訳日:2021-08-04 10:45:05 公開日:2021-07-31
# クリニカル推論のための胸部ImaGenomeデータセット

Chest ImaGenome Dataset for Clinical Reasoning ( http://arxiv.org/abs/2108.00316v1 )

ライセンス: Link先を確認
Joy T. Wu, Nkechinyere N. Agu, Ismini Lourentzou, Arjun Sharma, Joseph A. Paguio, Jasper S. Yao, Edward C. Dee, William Mitchell, Satyananda Kashyap, Andrea Giovannini, Leo A. Celi, Mehdi Moradi(参考訳) 近年,胸部X線(CXR)画像からの放射線学的所見の自動検出が進んでいるが,局所的なラベル付きデータセットの欠如による説明可能性の定量的評価は困難である。 肺炎や気胸などの特定の発見のために、専門家がラベル付けした少数の小規模データセットを除いて、これまでのCXRディープラーニングモデルのほとんどは、テキストレポートから抽出されたグローバルな"弱"ラベルに基づいてトレーニングされている。 コンピュータビジョンコミュニティにおけるVisual Genomeの取り組みに触発された私たちは,シーングラフデータ構造を備えた最初のChest ImaGenomeデータセットを構築した。 ローカルアノテーションは、ジョイントルールベースの自然言語処理(NLP)とアトラスベースのバウンディングボックス検出パイプラインを使用して自動生成される。 CXRオントロジーを構築した放射線学者を通して、各CXRのアノテーションは解剖学的中心のシーングラフとして接続され、画像レベルの推論やマルチモーダル融合用途に有用である。 i)29ドルのcxr解剖学的位置(バウンディングボックス座標を持つオブジェクト)とその属性の間の関係アノテーションの1,256ドルの組み合わせ(画像毎のシーングラフとして構成される) 67,000ドル以上の局所的な比較関係(改良、悪化、変更なし) ii) 500ドルのユニークな患者からの手動で注釈付き金の標準シーングラフデータセット。

Despite the progress in automatic detection of radiologic findings from chest X-ray (CXR) images in recent years, a quantitative evaluation of the explainability of these models is hampered by the lack of locally labeled datasets for different findings. With the exception of a few expert-labeled small-scale datasets for specific findings, such as pneumonia and pneumothorax, most of the CXR deep learning models to date are trained on global "weak" labels extracted from text reports, or trained via a joint image and unstructured text learning strategy. Inspired by the Visual Genome effort in the computer vision community, we constructed the first Chest ImaGenome dataset with a scene graph data structure to describe $242,072$ images. Local annotations are automatically produced using a joint rule-based natural language processing (NLP) and atlas-based bounding box detection pipeline. Through a radiologist constructed CXR ontology, the annotations for each CXR are connected as an anatomy-centered scene graph, useful for image-level reasoning and multimodal fusion applications. Overall, we provide: i) $1,256$ combinations of relation annotations between $29$ CXR anatomical locations (objects with bounding box coordinates) and their attributes, structured as a scene graph per image, ii) over $670,000$ localized comparison relations (for improved, worsened, or no change) between the anatomical locations across sequential exams, as well as ii) a manually annotated gold standard scene graph dataset from $500$ unique patients.
翻訳日:2021-08-03 15:42:54 公開日:2021-07-31
# Word2Pix:ビジュアルグラウンドにおけるWord to Pixel Cross Attention Transformer

Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding ( http://arxiv.org/abs/2108.00205v1 )

ライセンス: Link先を確認
Heng Zhao, Joey Tianyi Zhou and Yew-Soon Ong(参考訳) 視覚的特徴と融合する前に、言語クエリを1つの全体論的文としてエンコードする。 このような定式化は、言語を視覚的注意に向ける場合、問合せ文の各単語を同等に扱わないため、文の埋め込みには重要でないが、視覚的な接地には重要でない単語を無視する傾向がある。 本稿では,word2pixを提案する。word2pixは,エンコーダ・デコーダトランスフォーマアーキテクチャに基づく,単語からピクセルへの注意を通して,テキストから視覚特徴の対応を学習できる1段階のビジュアルグラウンドネットワークである。 クエリ文からの各単語の埋め込みは、単一の全体文埋め込みではなく、個別に視覚画素に参画することで同様に処理される。 このようにして、各単語には、複数のトランスフォーマーデコーダ層を通じて参照対象に対して注意を向ける言語を調整するための等価な機会が与えられる。 本稿では,RefCOCO,RefCOCO+およびRefCOCOgデータセットに関する実験を行い,提案したWord2Pixは既存のワンステージ手法よりも優れた性能を示す。 その結果、word2pixは2段階の視覚的接地モデルを超え、一方、エンド・ツー・エンドのトレーニングとリアルタイムの推論速度という1段階のパラダイムの利点を損なうことが判明した。

Current one-stage methods for visual grounding encode the language query as one holistic sentence embedding before fusion with visual feature. Such a formulation does not treat each word of a query sentence on par when modeling language to visual attention, therefore prone to neglect words which are less important for sentence embedding but critical for visual grounding. In this paper we propose Word2Pix: a one-stage visual grounding network based on encoder-decoder transformer architecture that enables learning for textual to visual feature correspondence via word to pixel attention. The embedding of each word from the query sentence is treated alike by attending to visual pixels individually instead of single holistic sentence embedding. In this way, each word is given equivalent opportunity to adjust the language to vision attention towards the referent target through multiple stacks of transformer decoder layers. We conduct the experiments on RefCOCO, RefCOCO+ and RefCOCOg datasets and the proposed Word2Pix outperforms existing one-stage methods by a notable margin. The results obtained also show that Word2Pix surpasses two-stage visual grounding models, while at the same time keeping the merits of one-stage paradigm namely end-to-end training and real-time inference speed intact.
翻訳日:2021-08-03 15:42:06 公開日:2021-07-31
# 知識埋め込みによる感情認識のための事前学習言語モデルの拡張

Using Knowledge-Embedded Attention to Augment Pre-trained Language Models for Fine-Grained Emotion Recognition ( http://arxiv.org/abs/2108.00194v1 )

ライセンス: Link先を確認
Varsha Suresh, Desmond C. Ong(参考訳) 現代の感情認識システムは、少数の感情のみを認識するように訓練されており、それによって人々が日常的に経験し表現する幅広い感情を捉えることができない。 より共感的な相互作用に取り組むためには、未来のAIは、より多様な感情を区別して、‘textit{fine-fine-fine} 感情認識を行う必要がある。 本稿では,事前学習した自己意識モデルに外部知識を導入することで,感情認識の微粒化に焦点をあてる。 本稿では,感情辞書からの知識を用いて,事前学習したELECTRAモデルとBERTモデルからの文脈表現を増強する知識埋め込み注意(KEA)を提案する。 私たちの結果とエラー解析は、いくつかのデータセットで以前のモデルよりも優れており、恐怖や恐怖のような、信頼性の高い感情を区別できる。

Modern emotion recognition systems are trained to recognize only a small set of emotions, and hence fail to capture the broad spectrum of emotions people experience and express in daily life. In order to engage in more empathetic interactions, future AI has to perform \textit{fine-grained} emotion recognition, distinguishing between many more varied emotions. Here, we focus on improving fine-grained emotion recognition by introducing external knowledge into a pre-trained self-attention model. We propose Knowledge-Embedded Attention (KEA) to use knowledge from emotion lexicons to augment the contextual representations from pre-trained ELECTRA and BERT models. Our results and error analyses outperform previous models on several datasets, and is better able to differentiate closely-confusable emotions, such as afraid and terrified.
翻訳日:2021-08-03 15:39:42 公開日:2021-07-31
# ユーザ指紋によるオピニオン予測

Opinion Prediction with User Fingerprinting ( http://arxiv.org/abs/2108.00270v1 )

ライセンス: Link先を確認
Kishore Tumarada, Yifan Zhang, Dr. Fan Yang, Dr. Eduard Dragut, Dr. Omprakash Gnawali, and Dr. Arjun Mukherjee(参考訳) オピニオン予測は、市場調査や状況認識といった様々な現実世界の応用を持つ新興研究分野である。 我々は、意見予測問題に対する2つのアプローチを同定する。 1つはトピックに基づく感情分析と時系列モデリング、もう1つはテキストの静的埋め込みを用いる。 後者のアプローチは、ユーザ指紋を生成することによって、ユーザ固有のソリューションを求める。 このようなアプローチは、目に見えないコンテンツに対するユーザの反応を予測するのに役立つ。 本研究では,ユーザの読み履歴を条件としたユーザのコメントのコンテキスト埋め込みを利用した動的フィンガープリント手法を提案する。 BERTの変種をリカレントニューラルネットワークと統合して予測を生成する。 その結果、マイクロf1-scoreは従来のアプローチと比較して最大13\%改善した。 実験結果から, 動的履歴の増大に対する予測精度の向上, 記事の性質がパフォーマンスに与える影響など, これまで知られていなかった新たな知見が得られ, さらなる研究の基盤が築かれた。

Opinion prediction is an emerging research area with diverse real-world applications, such as market research and situational awareness. We identify two lines of approaches to the problem of opinion prediction. One uses topic-based sentiment analysis with time-series modeling, while the other uses static embedding of text. The latter approaches seek user-specific solutions by generating user fingerprints. Such approaches are useful in predicting user's reactions to unseen content. In this work, we propose a novel dynamic fingerprinting method that leverages contextual embedding of user's comments conditioned on relevant user's reading history. We integrate BERT variants with a recurrent neural network to generate predictions. The results show up to 13\% improvement in micro F1-score compared to previous approaches. Experimental results show novel insights that were previously unknown such as better predictions for an increase in dynamic history length, the impact of the nature of the article on performance, thereby laying the foundation for further research.
翻訳日:2021-08-03 15:39:27 公開日:2021-07-31
# Greedy Networkが拡大

Greedy Network Enlarging ( http://arxiv.org/abs/2108.00177v1 )

ライセンス: Link先を確認
Chuanjian Liu, Kai Han, An Xiao, Yiping Deng, Wei Zhang, Chunjing Xu, Yunhe Wang(参考訳) 近年の深層畳み込みニューラルネットワークの研究は、アーキテクチャ設計の単純なパラダイム、すなわち、よりMACの多いモデルが、EfficientNetやRegNetのようなより精度の高いモデルを提示している。 これらの研究は、サンプリングと統計的手法により1つの統一規則でモデルのすべての段階を拡大しようとする。 しかし、いくつかのネットワークアーキテクチャはMACやアキュラシーに類似しているが、異なる段階の計算に対するアロケーションは、かなり異なる。 本稿では,ステージレベルの幅,深さ,解像度を改良し,CNNモデルの容量を拡大することを提案する。 最上位のCNNが上位のCNNの適切なサブコンポーネントであるという仮定の下で,計算のリアルタイム化に基づく強欲なネットワーク拡大手法を提案する。 異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。 EfficientNetでは,本手法が元のスケーリング手法の性能を一貫して上回っている。 特に,本手法をGhostNetに適用することにより,600Mと4.4BのMACで,最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。

Recent studies on deep convolutional neural networks present a simple paradigm of architecture design, i.e., models with more MACs typically achieve better accuracy, such as EfficientNet and RegNet. These works try to enlarge all the stages in the model with one unified rule by sampling and statistical methods. However, we observe that some network architectures have similar MACs and accuracies, but their allocations on computations for different stages are quite different. In this paper, we propose to enlarge the capacity of CNN models by improving their width, depth and resolution on stage level. Under the assumption that the top-performing smaller CNNs are a proper subcomponent of the top-performing larger CNNs, we propose an greedy network enlarging method based on the reallocation of computations. With step-by-step modifying the computations on different stages, the enlarged network will be equipped with optimal allocation and utilization of MACs. On EfficientNet, our method consistently outperforms the performance of the original scaling method. In particular, with application of our method on GhostNet, we achieve state-of-the-art 80.9% and 84.3% ImageNet top-1 accuracies under the setting of 600M and 4.4B MACs, respectively.
翻訳日:2021-08-03 15:38:21 公開日:2021-07-31
# 不均一軌道予測のための無限近傍相互作用

Unlimited Neighborhood Interaction for Heterogeneous Trajectory Prediction ( http://arxiv.org/abs/2108.00238v1 )

ライセンス: Link先を確認
Fang Zheng, Le Wang, Sanping Zhou, Wei Tang, Zhenxing Niu, Nanning Zheng, Gang Hua(参考訳) エージェント間の複雑な社会的相互作用を理解することは、軌道予測の重要な課題である。 既存の手法では、対方向のトラフィックエージェント間の相互作用やローカルエリアでの相互作用を考慮するが、インタラクションの性質は無限であり、未知のエージェントと非ローカルエリアを同時に含んでいる。 さらに、同じカテゴリーのエージェント間の均質な軌道予測のみに焦点を当て、異なるカテゴリのトラフィックエージェントに対する人々の多様な反応パターンを無視している。 これらの問題に対処するために,マルチプライカテゴリにおける異種エージェントの軌跡を予測できる,シンプルで効果的なUnlimited Neighborhood Interaction Network (UNIN)を提案する。 具体的には、提案する無限近傍相互作用モジュールは、相互作用に関わるすべてのエージェントの融合特徴を同時に生成し、任意のエージェントと任意の範囲の相互作用領域に適応する。 一方,カテゴリ間相互作用とエージェント-エージェント間相互作用を得るため,階層型グラフアテンションモジュールを提案する。 最後に、将来の軌跡を生成するためにガウス混合モデルのパラメータを推定する。 ベンチマークデータセットの広範な実験結果から,本手法は最先端手法よりも大幅に性能が向上することが示された。

Understanding complex social interactions among agents is a key challenge for trajectory prediction. Most existing methods consider the interactions between pairwise traffic agents or in a local area, while the nature of interactions is unlimited, involving an uncertain number of agents and non-local areas simultaneously. Besides, they only focus on homogeneous trajectory prediction, namely those among agents of the same category, while neglecting people's diverse reaction patterns toward traffic agents in different categories. To address these problems, we propose a simple yet effective Unlimited Neighborhood Interaction Network (UNIN), which predicts trajectories of heterogeneous agents in multiply categories. Specifically, the proposed unlimited neighborhood interaction module generates the fused-features of all agents involved in an interaction simultaneously, which is adaptive to any number of agents and any range of interaction area. Meanwhile, a hierarchical graph attention module is proposed to obtain category-tocategory interaction and agent-to-agent interaction. Finally, parameters of a Gaussian Mixture Model are estimated for generating the future trajectories. Extensive experimental results on benchmark datasets demonstrate a significant performance improvement of our method over the state-ofthe-art methods.
翻訳日:2021-08-03 15:38:01 公開日:2021-07-31
# grain: 多様化した影響最大化によるグラフニューラルネットワークのデータ効率向上

Grain: Improving Data Efficiency of Graph Neural Networks via Diversified Influence Maximization ( http://arxiv.org/abs/2108.00219v1 )

ライセンス: Link先を確認
Wentao Zhang, Zhi Yang, Yexin Wang, Yu Shen, Yang Li, Liang Wang, Bin Cui(参考訳) アクティブラーニングやコアセット選択といったデータ選択手法は、大規模データセットにおけるディープラーニングモデルのデータ効率を改善する上で有用なツールである。 しかし、近年のディープラーニングモデルは、独立した分散データから、ソーシャルネットワーク、eコマースユーザ・イテムグラフ、ナレッジグラフといったグラフ構造化データへと前進している。 この進化は、既存のデータ選択方法が設計されているモデルを超えたグラフニューラルネットワーク(GNN)の出現につながった。 そこで,gnnのデータ選択と社会的影響の最大化を結びつけることで,新たな視点を開く効率的なフレームワークであるgrainを提案する。 gnnの共通パターンを利用することで、grainは、新しい特徴伝播の概念、新しい影響と多様性関数による多様化した影響最大化目的、および近似保証を持つ欲望アルゴリズムを統一フレームワークに導入する。 公開データセットに関する実証研究により、GrainはGNNのデータ選択(アクティブラーニングとコアセットの選択を含む)の性能と効率を著しく改善することが示された。 我々の知る限りでは、これは2つのほぼ平行な研究スレッド、データ選択、社会的影響の最大化を、GNNの設定において橋渡しする最初の試みであり、データ効率を改善するための新しい方法を生み出している。

Data selection methods, such as active learning and core-set selection, are useful tools for improving the data efficiency of deep learning models on large-scale datasets. However, recent deep learning models have moved forward from independent and identically distributed data to graph-structured data, such as social networks, e-commerce user-item graphs, and knowledge graphs. This evolution has led to the emergence of Graph Neural Networks (GNNs) that go beyond the models existing data selection methods are designed for. Therefore, we present Grain, an efficient framework that opens up a new perspective through connecting data selection in GNNs with social influence maximization. By exploiting the common patterns of GNNs, Grain introduces a novel feature propagation concept, a diversified influence maximization objective with novel influence and diversity functions, and a greedy algorithm with an approximation guarantee into a unified framework. Empirical studies on public datasets demonstrate that Grain significantly improves both the performance and efficiency of data selection (including active learning and core-set selection) for GNNs. To the best of our knowledge, this is the first attempt to bridge two largely parallel threads of research, data selection, and social influence maximization, in the setting of GNNs, paving new ways for improving data efficiency.
翻訳日:2021-08-03 15:36:08 公開日:2021-07-31
# マッチング帯域における純粋探索とレグレット最小化

Pure Exploration and Regret Minimization in Matching Bandits ( http://arxiv.org/abs/2108.00230v1 )

ライセンス: Link先を確認
Flore Sentenac, Jialin Yi, Cl\'ement Calauz\`enes, Vianney Perchet, Milan Vojnovic(参考訳) 重み付きグラフにおける最適マッチングを見つけることは標準組合せ問題である。 ペアか完全マッチングのいずれかが順次サンプリングされる半帯域バージョンについて検討する。 隣接行列上の rank-1 の仮定を活用し、標本の複雑さとオフ・ザ・シェルフアルゴリズムの後悔を減少させ、頂点数(ポリログ項まで)の線形依存性に達することを証明できる。

Finding an optimal matching in a weighted graph is a standard combinatorial problem. We consider its semi-bandit version where either a pair or a full matching is sampled sequentially. We prove that it is possible to leverage a rank-1 assumption on the adjacency matrix to reduce the sample complexity and the regret of off-the-shelf algorithms up to reaching a linear dependency in the number of vertices (up to poly log terms).
翻訳日:2021-08-03 15:35:22 公開日:2021-07-31
# crossformer: クロススケール注意に基づく多用途視覚トランスフォーマ

CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention ( http://arxiv.org/abs/2108.00154v1 )

ライセンス: Link先を確認
Wenxiao Wang, Lu Yao, Long Chen, Deng Cai, Xiaofei He and Wei Liu(参考訳) トランスフォーマーは視覚的なタスクの処理に大きく進歩した。 しかし、既存の視覚変換器は、視覚入力にとって重要な能力を持っていない。 この問題の理由は2つある: 1) 各層の入力埋め込みは、クロススケールな特徴のない等スケールである; (2) 視覚変換器は、自己保持モジュールのコストを下げるために、埋め込みの小さな特徴を犠牲にする。 この欠陥を解消するために,クロススケール埋め込み層 (cel) とlong short distance attention (lsda) を提案する。 特にCELは、それぞれの埋め込みを異なるスケールの複数のパッチでブレンドし、モデルにクロススケールな埋め込みを提供する。 LSDAは自己保持モジュールを短距離で長距離のモジュールに分割し、コストを下げるが、小さな機能と大規模な機能の両方を埋め込みに保持する。 これら2つの設計を通して、我々は大規模に注目する。 また,視覚変換器の動的位置偏差を可変サイズ画像に適用するための動的位置偏差を提案する。 これらのモジュールに基づいて、CrossFormerというビジョンアーキテクチャを構築します。 実験の結果、CrossFormerはいくつかの代表的な視覚タスク、特にオブジェクトの検出とセグメンテーションにおいて、他のトランスフォーマーよりも優れていた。 コードがリリースされた。 https://github.com/c heerss/CrossFormer。

Transformers have made much progress in dealing with visual tasks. However, existing vision transformers still do not possess an ability that is important to visual input: building the attention among features of different scales. The reasons for this problem are two-fold: (1) Input embeddings of each layer are equal-scale without cross-scale features; (2) Some vision transformers sacrifice the small-scale features of embeddings to lower the cost of the self-attention module. To make up this defect, we propose Cross-scale Embedding Layer (CEL) and Long Short Distance Attention (LSDA). In particular, CEL blends each embedding with multiple patches of different scales, providing the model with cross-scale embeddings. LSDA splits the self-attention module into a short-distance and long-distance one, also lowering the cost but keeping both small-scale and large-scale features in embeddings. Through these two designs, we achieve cross-scale attention. Besides, we propose dynamic position bias for vision transformers to make the popular relative position bias apply to variable-sized images. Based on these proposed modules, we construct our vision architecture called CrossFormer. Experiments show that CrossFormer outperforms other transformers on several representative visual tasks, especially object detection and segmentation. The code has been released: https://github.com/c heerss/CrossFormer.
翻訳日:2021-08-03 15:34:13 公開日:2021-07-31
# 条件付きバーズ計量による領域適応

Conditional Bures Metric for Domain Adaptation ( http://arxiv.org/abs/2108.00302v1 )

ライセンス: Link先を確認
You-Wei Luo and Chuan-Xian Ren(参考訳) 近年,分類指向移行において重要な問題として,教師なしドメイン適応(UDA)が注目されている。 従来のuda法は、ラベル分布の識別情報を無視しながら、異なるドメインのマージン分布が移動すると仮定している。 これにより、実アプリケーションの分類性能が劣化する。 本研究では,現在の条件付き不変量モデルに対する大きな関心事である条件付き分布シフト問題に着目する。 我々は,まだ探索されていない条件分布のカーネル共分散埋め込みを求める。 理論的には,条件分布の不一致を特徴付ける条件付きカーネルバーズ(ckb)メトリックを提案し,暗黙的カーネル特徴マップを導入することなく,ckbメトリックの経験的推定を導出する。 知識伝達機構を理解するための解釈可能なアプローチを提供する。 経験的推定の確立された一貫性理論は収束の理論的保証を与える。 UDAの条件不変性と識別的特徴を学習するために,条件分布マッチングネットワークを提案する。 広範な実験と解析により,提案モデルの有効性が示された。

As a vital problem in classification-orien ted transfer, unsupervised domain adaptation (UDA) has attracted widespread attention in recent years. Previous UDA methods assume the marginal distributions of different domains are shifted while ignoring the discriminant information in the label distributions. This leads to classification performance degeneration in real applications. In this work, we focus on the conditional distribution shift problem which is of great concern to current conditional invariant models. We aim to seek a kernel covariance embedding for conditional distribution which remains yet unexplored. Theoretically, we propose the Conditional Kernel Bures (CKB) metric for characterizing conditional distribution discrepancy, and derive an empirical estimation for the CKB metric without introducing the implicit kernel feature map. It provides an interpretable approach to understand the knowledge transfer mechanism. The established consistency theory of the empirical estimation provides a theoretical guarantee for convergence. A conditional distribution matching network is proposed to learn the conditional invariant and discriminative features for UDA. Extensive experiments and analysis show the superiority of our proposed model.
翻訳日:2021-08-03 15:33:49 公開日:2021-07-31
# ECLARE:ラベルグラフ相関を用いた極端分類

ECLARE: Extreme Classification with Label Graph Correlations ( http://arxiv.org/abs/2108.00261v1 )

ライセンス: Link先を確認
Anshul Mittal, Noveen Sachdeva, Sheshansh Agrawal, Sumeet Agarwal, Purushottam Kar, Manik Varma(参考訳) deep extreme classification (xc)は、非常に大きなラベルセットから最も関連するラベルのサブセットでデータポイントをタグ付けできるディープアーキテクチャのトレーニングを目指している。 xcの中核的な用途は、トレーニング中にほとんど見られないラベルを予測することにある。 このような珍しいラベルは、ユーザーを喜ばせ驚かせるパーソナライズドレコメンデーションの鍵を握っている。 しかし、レアラベルの多さとレアラベルあたりのトレーニングデータの少なさは、統計的および計算上の重大な課題をもたらす。 最先端の深層XC手法は、ラベルのテキスト記述を組み込むことで、この問題を解決しようとするが、問題に適切に対処しない。 本稿では,ラベルテキストだけでなくラベル相関も組み込んだスケーラブルなディープラーニングアーキテクチャECLAREを提案し,数ミリ秒以内の正確なリアルタイム予測を実現する。 ECLAREのコアコントリビューションには、数百万のラベルのスケールでラベル相関グラフとともに、ディープモデルをトレーニングするためのフラガーアーキテクチャとスケーラブルなテクニックが含まれている。 特にeclareは、公開ベンチマークデータセットとbing検索エンジンから派生した関連する製品推奨タスク用のプロプライエタリなデータセットの両方において、2~14%高い精度の予測を提供する。 ECLAREのコードはhttps://github.com/E xtreme-classificatio n/ECLAREで公開されている。

Deep extreme classification (XC) seeks to train deep architectures that can tag a data point with its most relevant subset of labels from an extremely large label set. The core utility of XC comes from predicting labels that are rarely seen during training. Such rare labels hold the key to personalized recommendations that can delight and surprise a user. However, the large number of rare labels and small amount of training data per rare label offer significant statistical and computational challenges. State-of-the-art deep XC methods attempt to remedy this by incorporating textual descriptions of labels but do not adequately address the problem. This paper presents ECLARE, a scalable deep learning architecture that incorporates not only label text, but also label correlations, to offer accurate real-time predictions within a few milliseconds. Core contributions of ECLARE include a frugal architecture and scalable techniques to train deep models along with label correlation graphs at the scale of millions of labels. In particular, ECLARE offers predictions that are 2 to 14% more accurate on both publicly available benchmark datasets as well as proprietary datasets for a related products recommendation task sourced from the Bing search engine. Code for ECLARE is available at https://github.com/E xtreme-classificatio n/ECLARE.
翻訳日:2021-08-03 15:32:22 公開日:2021-07-31
# RLTutor:仮想学生と下層相互作用のモデル化による強化学習に基づく適応型チュータシステム

RLTutor: Reinforcement Learning Based Adaptive Tutoring System by Modeling Virtual Student with Fewer Interactions ( http://arxiv.org/abs/2108.00268v1 )

ライセンス: Link先を確認
Yoshiki Kubotani and Yoshihiro Fukuhara and Shigeo Morishima(参考訳) 教育分野における大きな課題は、学習項目を各学生に適切な間隔で提示し、記憶を時間とともに保持するレビュースケジュールを提供することである。 近年,学生の知識状態に基づく適応的指導を実現するために,項目レビューを逐次意思決定問題として定式化することが試みられている。 強化学習は,高記憶率を維持するための学習戦略の数学的モデルの実現に役立つことが報告されている。 しかし,強化学習による最適化には多数のインタラクションが必要であり,実際の学生には直接適用できない。 本研究では,学生の仮想モデルを構築し,実際の指導対象との相互作用を最小限に抑え,指導戦略を最適化する枠組みを提案する。 さらに,数理モデルを用いた実際の指示を考慮した実験を行い,モデルの性能が従来の指導法に匹敵することを確認した。 本フレームワークは,実験で使用した数理モデルを直接人間の学生に置き換えることができ,e-learningシステムにおける理論指導最適化と実践的応用のバッファーとして機能する。

A major challenge in the field of education is providing review schedules that present learned items at appropriate intervals to each student so that memory is retained over time. In recent years, attempts have been made to formulate item reviews as sequential decision-making problems to realize adaptive instruction based on the knowledge state of students. It has been reported previously that reinforcement learning can help realize mathematical models of students learning strategies to maintain a high memory rate. However, optimization using reinforcement learning requires a large number of interactions, and thus it cannot be applied directly to actual students. In this study, we propose a framework for optimizing teaching strategies by constructing a virtual model of the student while minimizing the interaction with the actual teaching target. In addition, we conducted an experiment considering actual instructions using the mathematical model and confirmed that the model performance is comparable to that of conventional teaching methods. Our framework can directly substitute mathematical models used in experiments with human students, and our results can serve as a buffer between theoretical instructional optimization and practical applications in e-learning systems.
翻訳日:2021-08-03 15:31:15 公開日:2021-07-31
# 機械学習のためのバイレベル最適化:アルゴリズム設計と収束解析

Bilevel Optimization for Machine Learning: Algorithm Design and Convergence Analysis ( http://arxiv.org/abs/2108.00330v1 )

ライセンス: Link先を確認
Kaiyi Ji(参考訳) バイレベル最適化は、メタラーニング、ハイパーパラメータ最適化、ネットワークアーキテクチャ検索など、さまざまな機械学習アプリケーションにおいて強力なフレームワークとなっている。 1 問題に基づく二段階最適化は、与えられた損失関数の最小値を見つけるために内部レベルの問題を定式化し、2) アルゴリズムに基づく二段階最適化は、内部レベルの解が固定アルゴリズムの出力である。 最初のクラスでは、近似的暗黙的微分 (AID) と反復的微分 (ITD) による過次推定のために2種類の勾配に基づくアルゴリズムが提案されている。 第2クラスのアルゴリズムには、一般的なモデルに依存しないメタラーニング(MAML)や、ほとんど内部ループ(ANIL)がない。 しかし、二値最適化アルゴリズムの収束率と基本的限界はよく研究されていない。 この論文は、上記の2つのクラスにおける双レベルアルゴリズムの総合収束速度解析を提供する。 さらに,効率とスケーラビリティを向上した二段階最適化のためのアルゴリズム設計を提案する。 問題に基づく定式化では、AIDおよびITDに基づく2レベルアルゴリズムの収束率解析を行う。 そこで我々は,ゆるやかな仮定で形状収束解析を行う加速バイレベルアルゴリズムを開発した。 また,二値最適化のための最初の下限を提供し,一定の条件下での上限を一致させることで最適性を確立する。 最後に, 複雑性が低く, 効率が向上した新しい確率的二段階最適化アルゴリズムを提案する。 アルゴリズムに基づく定式化のために,多段階mamlとanilの理論的収束法を開発し,それらの複雑度に対するパラメータ選択と損失ジオメトリの影響を特徴付ける。

Bilevel optimization has become a powerful framework in various machine learning applications including meta-learning, hyperparameter optimization, and network architecture search. There are generally two classes of bilevel optimization formulations for machine learning: 1) problem-based bilevel optimization, whose inner-level problem is formulated as finding a minimizer of a given loss function; and 2) algorithm-based bilevel optimization, whose inner-level solution is an output of a fixed algorithm. For the first class, two popular types of gradient-based algorithms have been proposed for hypergradient estimation via approximate implicit differentiation (AID) and iterative differentiation (ITD). Algorithms for the second class include the popular model-agnostic meta-learning (MAML) and almost no inner loop (ANIL). However, the convergence rate and fundamental limitations of bilevel optimization algorithms have not been well explored. This thesis provides a comprehensive convergence rate analysis for bilevel algorithms in the aforementioned two classes. We further propose principled algorithm designs for bilevel optimization with higher efficiency and scalability. For the problem-based formulation, we provide a convergence rate analysis for AID- and ITD-based bilevel algorithms. We then develop acceleration bilevel algorithms, for which we provide shaper convergence analysis with relaxed assumptions. We also provide the first lower bounds for bilevel optimization, and establish the optimality by providing matching upper bounds under certain conditions. We finally propose new stochastic bilevel optimization algorithms with lower complexity and higher efficiency in practice. For the algorithm-based formulation, we develop a theoretical convergence for general multi-step MAML and ANIL, and characterize the impact of parameter selections and loss geometries on the their complexities.
翻訳日:2021-08-03 15:29:47 公開日:2021-07-31
# 時間変動ネットワークのための分散学習:スケーラブルな設計

Distributed Learning for Time-varying Networks: A Scalable Design ( http://arxiv.org/abs/2108.00231v1 )

ライセンス: Link先を確認
Jian Wang, Yourui Huangfu, Rong Li, Yiqun Ge, Jun Wang(参考訳) ワイヤレス・ネットワークは、"onnection of things"から"connection of intelligence"へとトレンドをなしている。 通信ネットワークに広がるデータとデバイス上で強化されたコンピューティング能力によって、分散学習は産業コミュニティと学術コミュニティの両方でホットな話題となっている。 フェデレート学習やフェデレート蒸留など多くのフレームワークが提案されている。 しかし、無線ネットワークの特徴によって生じる時間変化トポロジーのような障害をうまく処理する人はほとんどいない。 本稿では,スケーラブルなディープニューラルネットワーク(DNN)設計に基づく分散学習フレームワークを提案する。 学習タスクの置換等価性と不変性を利用して、異なるクライアントのスケールの異なるDNNを2つの基本パラメータサブ行列に基づいて構築することができる。 さらに、これらの2つのサブ行列に基づいてモデルアグリゲーションを行い、学習収束と性能を向上させる。 最後に,提案フレームワークの利点をベースラインと比較し,シミュレーションにより検証する。

The wireless network is undergoing a trend from "onnection of things" to "connection of intelligence". With data spread over the communication networks and computing capability enhanced on the devices, distributed learning becomes a hot topic in both industrial and academic communities. Many frameworks, such as federated learning and federated distillation, have been proposed. However, few of them takes good care of obstacles such as the time-varying topology resulted by the characteristics of wireless networks. In this paper, we propose a distributed learning framework based on a scalable deep neural network (DNN) design. By exploiting the permutation equivalence and invariance properties of the learning tasks, the DNNs with different scales for different clients can be built up based on two basic parameter sub-matrices. Further, model aggregation can also be conducted based on these two sub-matrices to improve the learning convergence and performance. Finally, simulation results verify the benefits of the proposed framework by compared with some baselines.
翻訳日:2021-08-03 15:25:29 公開日:2021-07-31
# 有病率バイアスのベイズ解析--不均衡データからの学習と予測

Bayesian analysis of the prevalence bias: learning and predicting from imbalanced data ( http://arxiv.org/abs/2108.00250v1 )

ライセンス: Link先を確認
Loic Le Folgoc and Vasileios Baltatzis and Amir Alansary and Sujal Desai and Anand Devaraj and Sam Ellis and Octavio E. Martinez Manzanera and Fahdi Kanavati and Arjun Nair and Julia Schnabel and Ben Glocker(参考訳) データセットがターゲット人口の現実的な近似であることは滅多にない。 例えば、有病率は誤って表現され、画像の品質は臨床基準以上である。 このミスマッチはサンプリングバイアスとして知られている。 サンプリングバイアスは、機械学習モデルにとって大きな障害である。 それらは、実験室と現実世界のモデルパフォーマンスの間に大きなギャップをもたらします。 私たちの仕事は流行バイアスの解決策です。 有病率バイアスは、データ収集時に導入した訓練データセットにおける病理の感染率とサンプリング率との差であり、練習バッチの再バランスによるものである。 本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。 具体的には、バイアス補正損失関数とバイアス補正予測規則はベイズリスク最小化の原理に基づいて導出される。 損失は、情報ゲインに直接関連している。 ヒューリスティックなトレーニング損失に代わる原則的な代替手段を提供し、サマリー曲線から操作点を選択することでテスト時間手順を補完する。 確率的バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。

Datasets are rarely a realistic approximation of the target population. Say, prevalence is misrepresented, image quality is above clinical standards, etc. This mismatch is known as sampling bias. Sampling biases are a major hindrance for machine learning models. They cause significant gaps between model performance in the lab and in the real world. Our work is a solution to prevalence bias. Prevalence bias is the discrepancy between the prevalence of a pathology and its sampling rate in the training dataset, introduced upon collecting data or due to the practioner rebalancing the training batches. This paper lays the theoretical and computational framework for training models, and for prediction, in the presence of prevalence bias. Concretely a bias-corrected loss function, as well as bias-corrected predictive rules, are derived under the principles of Bayesian risk minimization. The loss exhibits a direct connection to the information gain. It offers a principled alternative to heuristic training losses and complements test-time procedures based on selecting an operating point from summary curves. It integrates seamlessly in the current paradigm of (deep) learning using stochastic backpropagation and naturally with Bayesian models.
翻訳日:2021-08-03 15:25:16 公開日:2021-07-31
# 医学画像におけるマージン認識型クラス内ノベルティ同定

Margin-Aware Intra-Class Novelty Identification for Medical Images ( http://arxiv.org/abs/2108.00117v1 )

ライセンス: Link先を確認
Xiaoyuan Guo, Judy Wawira Gichoya, Saptarshi Purkayastha and Imon Banerjee(参考訳) 従来の異常検出法はクラス間変異の検出に重点を置いているが、医療画像の新規性同定はクラス内検出問題の本質である。 例えば、正常な胸部x線と共通の肺異常を訓練した機械学習モデルでは、訓練中のモデルによって希少な肺疾患と知覚されない特発性肺線維症を発見し、フラグを付けることが期待されている。 医用画像解析におけるクラス内変異と関連するトレーニングデータの欠如は、既存の異常検出方法に大きな課題をもたらす。 この課題に対処するために、自動エンコーダと分類器を併用して新規性識別を行うハイブリッドモデル、TEND(Transform-based Embedding Learning for Novelty Detection)を提案する。 画像特徴抽出器として事前学習されたオートエンコーダでは、変換された対応語から配信データの特徴埋め込みを偽の分散入力として識別する。 分離を強化するために、距離目標を最適化し、2つのクラス間のマージンを強制する。 自然画像データセットと医用画像データセットの両方の広範な実験結果を示し,その方法が最先端のアプローチよりも優れていることを示す。

Traditional anomaly detection methods focus on detecting inter-class variations while medical image novelty identification is inherently an intra-class detection problem. For example, a machine learning model trained with normal chest X-ray and common lung abnormalities, is expected to discover and flag idiopathic pulmonary fibrosis which a rare lung disease and unseen by the model during training. The nuances from intra-class variations and lack of relevant training data in medical image analysis pose great challenges for existing anomaly detection methods. To tackle the challenges, we propose a hybrid model - Transformation-based Embedding learning for Novelty Detection (TEND) which without any out-of-distribution training data, performs novelty identification by combining both autoencoder-based and classifier-based method. With a pre-trained autoencoder as image feature extractor, TEND learns to discriminate the feature embeddings of in-distribution data from the transformed counterparts as fake out-of-distribution inputs. To enhance the separation, a distance objective is optimized to enforce a margin between the two classes. Extensive experimental results on both natural image datasets and medical image datasets are presented and our method out-performs state-of-the-art approaches.
翻訳日:2021-08-03 15:23:03 公開日:2021-07-31
# マニフォールドインスパイアされた単一画像補間

Manifold-Inspired Single Image Interpolation ( http://arxiv.org/abs/2108.00145v1 )

ライセンス: Link先を確認
Lantao Yu, Kuida Liu, Michael T. Orchard(参考訳) 多様体モデルでは、自然画像パッチは高次元の状態空間に埋め込まれた低次元多様体上に存在し、各パッチとその類似パッチはリニアアフィン部分空間上に位置する。 多様体モデルは、自然画像のよく知られた性質である半局所的類似性と密接に関連しており、ほとんどの自然画像パッチでは、その空間近傍に類似したパッチがいくつか見られる。 単一画像補間法における多くのアプローチは、2つの排他的部分による半局所的類似性を利用するために多様体モデルを用いており、i) 探索された類似パッチ上で各対象パッチの類似パッチを探索し、i) 対象パッチと測定された入力ピクセルを用いて目標パッチを推定する。 残念ながら、入力画像のエイリアス化は、両方の部分で難しい。 これらの課題に明示的に対処する研究はほとんどなく、アドホックなソリューションのみが提案されている。 まず,難易度を克服するために,従来の手法では取り除けない重度のエイリアス領域におけるエイリアス除去のための,慎重に設計された適応手法を提案する。 この手法は、強いエイリアスが存在する場合でも、同様のパッチの信頼できる識別を可能にする。 この課題を克服するために,補間画像の初期化を導くためにエイリアシング除去画像を使用し,多様体モデルに基づく補間画像を洗練するための漸進的スキームを開発することを提案する。 実験により,提案手法は輪郭に沿った滑らかさとプロファイル間のシャープさの両方でエッジを再構築し,既存のモデルベース手法よりも平均ピーク信号-雑音比(PSNR)が有意に高いことを示す。

Manifold models consider natural-image patches to be on a low-dimensional manifold embedded in a high dimensional state space and each patch and its similar patches to approximately lie on a linear affine subspace. Manifold models are closely related to semi-local similarity, a well-known property of natural images, referring to that for most natural-image patches, several similar patches can be found in its spatial neighborhood. Many approaches to single image interpolation use manifold models to exploit semi-local similarity by two mutually exclusive parts: i) searching each target patch's similar patches and ii) operating on the searched similar patches, the target patch and the measured input pixels to estimate the target patch. Unfortunately, aliasing in the input image makes it challenging for both parts. A very few works explicitly deal with those challenges and only ad-hoc solutions are proposed. To overcome the challenge in the first part, we propose a carefully-designed adaptive technique to remove aliasing in severely aliased regions, which cannot be removed from traditional techniques. This technique enables reliable identification of similar patches even in the presence of strong aliasing. To overcome the challenge in the second part, we propose to use the aliasing-removed image to guide the initialization of the interpolated image and develop a progressive scheme to refine the interpolated image based on manifold models. Experimental results demonstrate that our approach reconstructs edges with both smoothness along contours and sharpness across profiles, and achieves an average Peak Signal-to-Noise Ratio (PSNR) significantly higher than existing model-based approaches.
翻訳日:2021-08-03 15:22:42 公開日:2021-07-31
# T$_k$ML-AP:Top-k$ Multi-Label Learningへの対抗攻撃

T$_k$ML-AP: Adversarial Attacks to Top-$k$ Multi-Label Learning ( http://arxiv.org/abs/2108.00146v1 )

ライセンス: Link先を確認
Shu Hu, Lipeng Ke, Xin Wang, Siwei Lyu(参考訳) 入力から最大$k$のラベルを返すtop-$k$ multi-label learningには、画像アノテーション、ドキュメント分析、web検索エンジンなど、多くの実用的なアプリケーションがある。 しかし, 対人摂動攻撃に対するそのようなアルゴリズムの脆弱性については, これまで広く研究されていない。 本研究では,tkml-ap (top-k$ multi-label learning-based image annotation systems) を攻撃できる手法を開発した。 本手法は, 新規損失関数に基づいて, 上位$kのランキング関係を明示的に検討する。 PASCAL VOC や MS COCO などの大規模ベンチマークデータセットを用いた評価実験により,攻撃対象と攻撃対象の双方において,最先端のTop-the-the-art-k$マルチラベル学習手法の性能を低下させる方法の有効性が示された。

Top-$k$ multi-label learning, which returns the top-$k$ predicted labels from an input, has many practical applications such as image annotation, document analysis, and web search engine. However, the vulnerabilities of such algorithms with regards to dedicated adversarial perturbation attacks have not been extensively studied previously. In this work, we develop methods to create adversarial perturbations that can be used to attack top-$k$ multi-label learning-based image annotation systems (TkML-AP). Our methods explicitly consider the top-$k$ ranking relation and are based on novel loss functions. Experimental evaluations on large-scale benchmark datasets including PASCAL VOC and MS COCO demonstrate the effectiveness of our methods in reducing the performance of state-of-the-art top-$k$ multi-label learning methods, under both untargeted and targeted attacks.
翻訳日:2021-08-03 15:22:14 公開日:2021-07-31
# オブジェクト照明編集のためのシーン推論

Scene Inference for Object Illumination Editing ( http://arxiv.org/abs/2108.00150v1 )

ライセンス: Link先を確認
Zhongyun Bao, Chengjiang Long, Gang Fu, Daquan Liu, Yuanzhen Li, Jiaming Wu, Chunxia Xiao(参考訳) 前景オブジェクトと背景シーンとのシームレスな照明統合は、コンピュータビジョンと拡張現実コミュニティにおいて重要な課題であるが難しい課題である。 しかし、我々の知る限り、照明のシームレスな統合タスクを満たす高品質なデータセットは公開されていないため、この研究の方向性の発達を著しく妨げている。 この目的のために、物理ベースのレンダリング手法を用いて、シームレスな照明統合タスクのためのリッチな照明情報を提供する、大規模で高品質なIHデータセットを作成する。 さらに,複数タスクの協調ネットワークである深層学習に基づくSI-GAN手法を提案する。これはマルチスケールの注意機構と対角学習戦略をフル活用して,挿入された前景オブジェクトと対応する背景環境とのマッピング関係を直接推論し,並列ネットワークにおける照度交換機構に従ってオブジェクトの照度を編集する。 これにより、3次元幾何情報を明示的に推定することなくシームレスな照明統合を実現することができる。 インターネットから収集したデータセットと実世界の画像の両方に関する総合的な実験により,提案手法は,画像に基づくオブジェクト照明編集に実用的かつ効果的なソリューションを提供し,最先端手法に対する提案手法の優位性を検証する。

The seamless illumination integration between a foreground object and a background scene is an important but challenging task in computer vision and augmented reality community. However, to our knowledge, there is no publicly available high-quality dataset that meets the illumination seamless integration task, which greatly hinders the development of this research direction. To this end, we apply a physically-based rendering method to create a large-scale, high-quality dataset, named IH dataset, which provides rich illumination information for seamless illumination integration task. In addition, we propose a deep learning-based SI-GAN method, a multi-task collaborative network, which makes full use of the multi-scale attention mechanism and adversarial learning strategy to directly infer mapping relationship between the inserted foreground object and corresponding background environment, and edit object illumination according to the proposed illumination exchange mechanism in parallel network. By this means, we can achieve the seamless illumination integration without explicit estimation of 3D geometric information. Comprehensive experiments on both our dataset and real-world images collected from the Internet show that our proposed SI-GAN provides a practical and effective solution for image-based object illumination editing, and validate the superiority of our method against state-of-the-art methods.
翻訳日:2021-08-03 15:21:59 公開日:2021-07-31
# 動的3次元自発的マイクロ表現データベースの構築と評価

A Dynamic 3D Spontaneous Micro-expression Database: Establishment and Evaluation ( http://arxiv.org/abs/2108.00166v1 )

ライセンス: Link先を確認
Fengping Wang, Jie Li, Chun Qi, Yun Zhang, Danmin Miao(参考訳) マイクロ表現は自発的で無意識な顔の動きであり、人々の真の内的感情を示し、関連する心理テストの分野で大きな可能性を秘めている。 顔は3d変形対象であるため、表情の発生は顔の空間的変形を喚起するが、利用可能なデータベースで制限されるのは2dビデオであり、マイクロ表現の3d空間情報の記述が欠如している。 そこで,我々は2次元映像列と3次元点雲列を含む新しいマイクロ表現データベースを提案する。 データベースには229のマイクロ表現シーケンスが含まれており、これらのサンプルは、映像コンテンツと参加者の自己報告を組み合わせた非客観的手法と同様に、顔行動符号化システムに基づく客観的手法を用いて分類された。 3つの直交平面と曲率ディスクリプタの局所的二乗パターンを用いて顔2Dおよび3Dの特徴を抽出し,両特徴のベースライン評価を行い,その融合結果をLeft-one-subject-out (LOSO)法と10倍のクロスバリデーション法で行った。 最も優れた核融合性能は、非目的分類では58.84%と73.03%、客観的分類では66.36%と77.42%であり、いずれもlpp-top機能のみを使用した場合に比べて性能が向上した。

Micro-expressions are spontaneous, unconscious facial movements that show people's true inner emotions and have great potential in related fields of psychological testing. Since the face is a 3D deformation object, the occurrence of an expression can arouse spatial deformation of the face, but limited by the available databases are 2D videos, which lack the description of 3D spatial information of micro-expressions. Therefore, we proposed a new micro-expression database containing 2D video sequences and 3D point clouds sequences. The database includes 259 micro-expressions sequences, and these samples were classified using the objective method based on facial action coding system, as well as the non-objective method that combines video contents and participants' self-reports. We extracted facial 2D and 3D features using local binary patterns on three orthogonal planes and curvature descriptors, respectively, and performed baseline evaluations of the two features and their fusion results with leave-one-subject-ou t(LOSO) and 10-fold cross-validation methods. The best fusion performances were 58.84% and 73.03% for non-objective classification and 66.36% and 77.42% for objective classification, both of which have improved performance compared to using LBP-TOP features only.The database offers original and cropped micro-expression samples, which will facilitate the exploration and research on 3D Spatio-temporal features of micro-expressions.
翻訳日:2021-08-03 15:21:39 公開日:2021-07-31
# 個人再識別のための事例レベルの空間時間パターンの学習

Learning Instance-level Spatial-Temporal Patterns for Person Re-identification ( http://arxiv.org/abs/2108.00171v1 )

ライセンス: Link先を確認
Min Ren and Lingxiao He and Xingyu Liao and Wu Liu and Yunlong Wang and Tieniu Tan(参考訳) 人物再識別(Re-ID)は、非関節カメラで歩行者をマッチングすることを目的としている。 ほとんどのRe-ID法は視覚表現学習や画像検索として定式化しており,その精度は検索空間に大きく影響している。 空間時空間情報は、無関係な負のサンプルをフィルタリングし、Re-ID精度を大幅に改善することが証明されている。 しかし、既存の時空間人物Re-ID法はまだ粗く、時空間情報を十分に活用していない。 本稿では,Re-IDの精度を向上させるために,新しいインスタンスレベルおよび空間時間ディスタングル型Re-ID法(InSTD)を提案する。 提案手法では,移動方向などのパーソナライズされた情報を検索空間を狭めるために明示的に考慮する。 また、空間-時間移動確率はジョイント分布から辺縁分布に異なっており、外れ値もよくモデル化できる。 豊富な実験分析が行われ,その優越性が示され,より深い知見が得られた。 提案手法は市場1501で90.8%,DukeMTMC-reIDで89.1%,ベースライン82.2%,72.7%から改善した。 さらに、人物の再識別のためのより良いベンチマークを提供するため、本稿ではDukeMTMC-reIDのクリーン化データリストをリリースする。

Person re-identification (Re-ID) aims to match pedestrians under dis-joint cameras. Most Re-ID methods formulate it as visual representation learning and image search, and its accuracy is consequently affected greatly by the search space. Spatial-temporal information has been proven to be efficient to filter irrelevant negative samples and significantly improve Re-ID accuracy. However, existing spatial-temporal person Re-ID methods are still rough and do not exploit spatial-temporal information sufficiently. In this paper, we propose a novel Instance-level and Spatial-Temporal Disentangled Re-ID method (InSTD), to improve Re-ID accuracy. In our proposed framework, personalized information such as moving direction is explicitly considered to further narrow down the search space. Besides, the spatial-temporal transferring probability is disentangled from joint distribution to marginal distribution, so that outliers can also be well modeled. Abundant experimental analyses are presented, which demonstrates the superiority and provides more insights into our method. The proposed method achieves mAP of 90.8% on Market-1501 and 89.1% on DukeMTMC-reID, improving from the baseline 82.2% and 72.7%, respectively. Besides, in order to provide a better benchmark for person re-identification, we release a cleaned data list of DukeMTMC-reID with this paper: https://github.com/R enMin1991/cleaned-Du keMTMC-reID/
翻訳日:2021-08-03 15:21:12 公開日:2021-07-31
# 敵防衛に先立つ深層画像の深層化:新しい再構築型防衛フレームワーク

Delving into Deep Image Prior for Adversarial Defense: A Novel Reconstruction-based Defense Framework ( http://arxiv.org/abs/2108.00180v1 )

ライセンス: Link先を確認
Li Ding, Yongwei Wang, Xin Ding, Kaiwen Yuan, Ping Wang, Hua Huang, Z. Jane Wang(参考訳) ディープラーニングに基づく画像分類モデルは、画像のクリーニングに意図的に製作されたノイズを注入することにより、敵の攻撃に弱いことを示す。 本研究は,非訓練的かつ攻撃非依存な方法で敵の攻撃を防御するために,深部画像先行 (dip) を探索し,新規かつ効果的な再構築ベースの防御枠組みを提案する。 既存の再構築ベースの防御とは根本的に異なり、提案手法はモデル決定プロセスを解析し、明確に防御に組み込む。 逆画像が与えられた場合、まず、ディップ最適化中に再構成された画像をモデル決定空間にマッピングし、そこでクロスバウンダリ画像を検出し、オンバウンダリ画像をさらにローカライズする。 そして、逆方向に沿ったオンバウンダリ画像を対向画像に摂動することにより、対向ノイズを浄化する。 最後に、on-manifoldイメージを縫い合わせることで、被害者分類器によって正確に予測できる画像を構築する。 広汎な実験により,提案手法は,白箱攻撃と防衛意識攻撃の両面において,既存の最先端の再構築手法よりも優れていることが示された。 さらに,提案手法は,対向画像再構成時に高い画質を維持することができる。

Deep learning based image classification models are shown vulnerable to adversarial attacks by injecting deliberately crafted noises to clean images. To defend against adversarial attacks in a training-free and attack-agnostic manner, this work proposes a novel and effective reconstruction-based defense framework by delving into deep image prior (DIP). Fundamentally different from existing reconstruction-based defenses, the proposed method analyzes and explicitly incorporates the model decision process into our defense. Given an adversarial image, firstly we map its reconstructed images during DIP optimization to the model decision space, where cross-boundary images can be detected and on-boundary images can be further localized. Then, adversarial noise is purified by perturbing on-boundary images along the reverse direction to the adversarial image. Finally, on-manifold images are stitched to construct an image that can be correctly predicted by the victim classifier. Extensive experiments demonstrate that the proposed method outperforms existing state-of-the-art reconstruction-based methods both in defending white-box attacks and defense-aware attacks. Moreover, the proposed method can maintain a high visual quality during adversarial image reconstruction.
翻訳日:2021-08-03 15:20:44 公開日:2021-07-31
# 熱赤外追跡のための非教師なしクロスモーダル蒸留

Unsupervised Cross-Modal Distillation for Thermal Infrared Tracking ( http://arxiv.org/abs/2108.00187v1 )

ライセンス: Link先を確認
Jingxian Sun, Lichao Zhang, Yufei Zha, Abel Gonzalez-Garcia, Peng Zhang, Wei Huang, and Yanning Zhang(参考訳) 畳み込みニューラルネットワークによって学習されるターゲット表現は、熱赤外(TIR)トラッキングにおいて重要な役割を果たす。 現在、トップパフォーマンスのTIRトラッカーのほとんどは、RGBデータに基づいてトレーニングされたモデルによって学習された表現を使用している。 しかし、この表現は、TIRモダリティ自体の情報を考慮しておらず、TIRトラッキングの性能を制限している。 そこで本研究では,無ラベルのRGB-TIRデータに対して,クロスモーダル蒸留(CMD)を用いたRGBモダリティからTIRモダリティの表現を抽出する手法を提案する。 ベースライントラッカの2ブランチアーキテクチャ、すなわちそのメリットを活用しています。 DiMPは、トラッカーの2つのコンポーネントで動作するクロスモーダル蒸留用である。 具体的には、あるブランチを教師モジュールとして使用し、モデルによって学習された表現を他のブランチに蒸留する。 RGBモダリティの強力なモデルにより、クロスモーダル蒸留は、TIRトラッキングを促進するためのTIR固有の表現を学ぶことができる。 提案手法は汎用的で独立したコンポーネントとして,様々なベースライントラッカに組み込むことができる。 さらに、対のRGB画像とTIR画像のセマンティックコヒーレンスを、クロスモーダルな知識伝達のための蒸留損失の教師付き信号として利用する。 実際には、教師なしの方法でトレーニングするために、同じ意味を持つペアRGB-TIRパッチを生成するために、3つの異なるアプローチが検討されている。 ラベルなしのトレーニングデータのさらに大きな規模に拡張するのは簡単です。 LSOTB-TIRデータセットとTB-TIRデータセットの大規模な実験により,提案手法はRGBモダリティからTIR固有のターゲット表現を効果的に学習することを示した。 我々のトラッカーは、それぞれ2.3%の成功、2.7%の精度、2.5%の正規化精度の絶対ゲインを達成して、ベースライントラッカーよりも優れている。

The target representation learned by convolutional neural networks plays an important role in Thermal Infrared (TIR) tracking. Currently, most of the top-performing TIR trackers are still employing representations learned by the model trained on the RGB data. However, this representation does not take into account the information in the TIR modality itself, limiting the performance of TIR tracking. To solve this problem, we propose to distill representations of the TIR modality from the RGB modality with Cross-Modal Distillation (CMD) on a large amount of unlabeled paired RGB-TIR data. We take advantage of the two-branch architecture of the baseline tracker, i.e. DiMP, for cross-modal distillation working on two components of the tracker. Specifically, we use one branch as a teacher module to distill the representation learned by the model into the other branch. Benefiting from the powerful model in the RGB modality, the cross-modal distillation can learn the TIR-specific representation for promoting TIR tracking. The proposed approach can be incorporated into different baseline trackers conveniently as a generic and independent component. Furthermore, the semantic coherence of paired RGB and TIR images is utilized as a supervised signal in the distillation loss for cross-modal knowledge transfer. In practice, three different approaches are explored to generate paired RGB-TIR patches with the same semantics for training in an unsupervised way. It is easy to extend to an even larger scale of unlabeled training data. Extensive experiments on the LSOTB-TIR dataset and PTB-TIR dataset demonstrate that our proposed cross-modal distillation method effectively learns TIR-specific target representations transferred from the RGB modality. Our tracker outperforms the baseline tracker by achieving absolute gains of 2.3% Success, 2.7% Precision, and 2.5% Normalized Precision respectively.
翻訳日:2021-08-03 15:20:21 公開日:2021-07-31
# 意味対応のためのマルチスケールマッチングネットワーク

Multi-scale Matching Networks for Semantic Correspondence ( http://arxiv.org/abs/2108.00211v1 )

ライセンス: Link先を確認
Dongyang Zhao, Ziyang Song, Zhenghao Ji, Gangming Zhao, Weifeng Ge and Yizhou Yu(参考訳) 深い特徴は、過去の様々な作品において正確な密接な意味対応を構築する上で強力であることが証明されている。 しかし、畳み込みニューラルネットワークのマルチスケールとピラミッド階層は、意味対応のための識別ピクセルレベルの特徴を学ぶためによく研究されていない。 本稿では,隣接する画素間のセマンティックな違いに敏感なマルチスケールマッチングネットワークを提案する。 我々は、粗大なマッチング戦略に従い、深層畳み込みニューラルネットワークのマルチスケール階層と結合したトップダウン機能とマッチング強化スキームを構築する。 機能拡張の間、イントラスケールエンハンスメントは、複数のレイヤから同じ解像度のフィーチャーマップをローカルなセルフアテンションとクロススケールエンハンスメントを通じて融合させ、トップダウン階層に沿って高分解能のフィーチャーマップを暗示する。 さらに、異なるスケールで補足的マッチングの詳細を学習し、異なるセマンティックレベルの特徴によって全体のマッチングスコアが徐々に洗練される。 我々のマルチスケールマッチングネットワークは、学習可能なパラメータの少ないエンドツーエンドで容易に訓練できる。 実験の結果,提案手法は計算効率の高い3つのベンチマークにおいて最先端の性能が得られることがわかった。

Deep features have been proven powerful in building accurate dense semantic correspondences in various previous works. However, the multi-scale and pyramidal hierarchy of convolutional neural networks has not been well studied to learn discriminative pixel-level features for semantic correspondence. In this paper, we propose a multi-scale matching network that is sensitive to tiny semantic differences between neighboring pixels. We follow the coarse-to-fine matching strategy and build a top-down feature and matching enhancement scheme that is coupled with the multi-scale hierarchy of deep convolutional neural networks. During feature enhancement, intra-scale enhancement fuses same-resolution feature maps from multiple layers together via local self-attention and cross-scale enhancement hallucinates higher-resolution feature maps along the top-down hierarchy. Besides, we learn complementary matching details at different scales thus the overall matching score is refined by features of different semantic levels gradually. Our multi-scale matching network can be trained end-to-end easily with few additional learnable parameters. Experimental results demonstrate that the proposed method achieves state-of-the-art performance on three popular benchmarks with high computational efficiency.
翻訳日:2021-08-03 15:19:53 公開日:2021-07-31
# HR-Crime:サーベイランスビデオにおける人間関連異常検出

HR-Crime: Human-Related Anomaly Detection in Surveillance Videos ( http://arxiv.org/abs/2108.00246v1 )

ライセンス: Link先を確認
Kayleigh Boekhoudt, Alina Matei, Maya Aghaei and Estefan\'ia Talavera(参考訳) 監視設定によって捕捉される異常の自動検出は、その他の労力のかかるアプローチをスピードアップするために不可欠である。 現在までに、UCF-Crimeは異常の自動視覚分析のための最大のデータセットであり、様々なカテゴリの現実の犯罪シーンで構成されている。 本稿では,人間関連異常検出タスクに適したUCF-CrimeデータセットのサブセットであるHR-Crimeを紹介する。 我々は,人間関連異常検出のための特徴抽出パイプラインを構築するために,最先端の技術に頼っている。 さらに,hr-crimeのベースライン異常検出解析を行った。 HR-Crimeと開発中の特徴抽出パイプラインと抽出された特徴は、この分野のさらなる研究のために公開される。

The automatic detection of anomalies captured by surveillance settings is essential for speeding the otherwise laborious approach. To date, UCF-Crime is the largest available dataset for automatic visual analysis of anomalies and consists of real-world crime scenes of various categories. In this paper, we introduce HR-Crime, a subset of the UCF-Crime dataset suitable for human-related anomaly detection tasks. We rely on state-of-the-art techniques to build the feature extraction pipeline for human-related anomaly detection. Furthermore, we present the baseline anomaly detection analysis on the HR-Crime. HR-Crime as well as the developed feature extraction pipeline and the extracted features will be publicly available for further research in the field.
翻訳日:2021-08-03 15:19:33 公開日:2021-07-31
# Infinite Width Neural Networksを用いたマトリックス補完のためのシンプルで高速で柔軟なフレームワーク

Simple, Fast, and Flexible Framework for Matrix Completion with Infinite Width Neural Networks ( http://arxiv.org/abs/2108.00131v1 )

ライセンス: Link先を確認
Adityanarayanan Radhakrishnan, George Stefanakis, Mikhail Belkin, Caroline Uhler(参考訳) 行列補完問題は、レコメンデーションシステム、コンピュータビジョン、ゲノミクスを含む多くのアプリケーションで発生する。 より大きなニューラルネットワークは多くのアプリケーションで成功しているが、かなりの計算コストがかかる。 驚くべきことに、ニューラルネットワークの幅を無限大にすることで、計算性能が向上する。 本研究では,単純で高速で柔軟な行列補完のための無限幅ニューラルネットワークフレームワークを開発する。 単純さとスピードは、ニューラルネットワークの無限幅限界とニューラルタンジェントカーネル(NTK)として知られるカーネルの接続から生まれる。 特に,完全連結および畳み込みニューラルネットワークによる行列補完のためのNTKを導出する。 この柔軟性は、半教師付き学習に似た、ターゲットマトリックスの座標間の関係をエンコーディングする機能に先立つものである。 本手法の有効性は,仮想薬物スクリーニングと画像インペインティング/リコンストラクションの競争結果を通じて実証された。 標準ハードウェア上でフレームワークにアクセスできるようにpythonの実装も提供しています。

Matrix completion problems arise in many applications including recommendation systems, computer vision, and genomics. Increasingly larger neural networks have been successful in many of these applications, but at considerable computational costs. Remarkably, taking the width of a neural network to infinity allows for improved computational performance. In this work, we develop an infinite width neural network framework for matrix completion that is simple, fast, and flexible. Simplicity and speed come from the connection between the infinite width limit of neural networks and kernels known as neural tangent kernels (NTK). In particular, we derive the NTK for fully connected and convolutional neural networks for matrix completion. The flexibility stems from a feature prior, which allows encoding relationships between coordinates of the target matrix, akin to semi-supervised learning. The effectiveness of our framework is demonstrated through competitive results for virtual drug screening and image inpainting/reconstru ction. We also provide an implementation in Python to make our framework accessible on standard hardware to a broad audience.
翻訳日:2021-08-03 15:12:55 公開日:2021-07-31
# StudyMe: ユーザー中心のN-of-1トライアルのための新しいモバイルアプリ

StudyMe: A New Mobile App for User-Centric N-of-1 Trials ( http://arxiv.org/abs/2108.00320v1 )

ライセンス: Link先を確認
Alexander M. Zenner, Erwin B\"ottinger, Stefan Konigorski(参考訳) N-of-1臨床試験は、個人が個人の健康目標に対する介入の効果を体系的に評価できる多種多様な自己実験である。 N-of-1試験のためのいくつかのツールが存在するが、ユーザー中心の試験を行う非専門家はサポートしていない。 本研究では,https://play.google .com/store/apps/deta ils?id=health.studyu.meから無償で利用可能なオープンソースのモバイルアプリケーションであるstudymeを提案する。 また,studymeの開発を知らせる研究も紹介する。 272人の参加者を対象に行った調査で、個人は様々な個人の健康面に興味を持ち、その改善方法に関するユニークな考えを持っていることがわかった。 中間ユーザテストを用いた反復型ユーザ中心開発プロセスでは,n-of-1試行概念を伝えるための教育的部分も備えたstudiomeを開発した。 studymeの最終的な実証評価では、すべての参加者がstudymeを使って独自の試行を成功させ、非常に優れたユーザビリティ評価を達成した。 その結果,StudioMeは,日常生活における健康関連介入や行動修正をパーソナライズするために,個人が体系的な科学指向のアプローチを適用できるようにするための重要なステップとなることが示唆された。

N-of-1 trials are multi-crossover self-experiments that allow individuals to systematically evaluate the effect of interventions on their personal health goals. Although several tools for N-of-1 trials exist, none support non-experts in conducting their own user-centric trials. In this study we present StudyMe, an open-source mobile application that is freely available from https://play.google. com/store/apps/detai ls?id=health.studyu.me and offers users flexibility and guidance in configuring every component of their trials. We also present research that informed the development of StudyMe. Through an initial survey with 272 participants, we learned that individuals are interested in a variety of personal health aspects and have unique ideas on how to improve them. In an iterative, user-centered development process with intermediate user tests we developed StudyMe that also features an educational part to communicate N-of-1 trial concepts. A final empirical evaluation of StudyMe showed that all participants were able to create their own trials successfully using StudyMe and the app achieved a very good usability rating. Our findings suggest that StudyMe provides a significant step towards enabling individuals to apply a systematic science-oriented approach to personalize health-related interventions and behavior modifications in their everyday lives.
翻訳日:2021-08-03 15:10:00 公開日:2021-07-31
# 多層確率ブロックモデルにおける構造増幅

Structure Amplification on Multi-layer Stochastic Block Models ( http://arxiv.org/abs/2108.00127v1 )

ライセンス: Link先を確認
Xiaodong Xin, Kun He, Jialu Bao, Bart Selman, John E. Hopcroft(参考訳) 社会的、生物学的、工学的システムの複雑さの多くは、多くの基本的な構成要素をつなぐ複雑な相互作用のネットワークから生じる。 ネットワーク分析ツールは、そのようなネットワークの潜在構造であるコミュニティを明らかにするのに成功している。 しかしながら、最も興味深い構造の一部は、より支配的な構造によって隠蔽されているため、明らかにすることが困難である。 本稿では,複雑なネットワークにおいて,機能的隠蔽構造の層を多数発見するHICODEと呼ばれる一般的な構造増幅手法を提案する。 HICODEは、ランダム化によって支配的な構造を徐々に弱め、隠れた機能を出現させ、以前の手法がほとんど発見しなかった現実世界のネットワークに隠された構造を明らかにする。 本研究では,隠れたコミュニティ構造に関する包括的かつ体系的な理論的分析を行う。 以下では,多層確率ブロックモデルを定義し,隠れ構造の存在が支配的構造の検出を等価なランダムノイズと比較して困難にする理由をモデルを用いて理論的に支援する。 次に, 繰り返し還元法は, 隠蔽構造の発見を促進するとともに, 支配構造の検出品質を高めるのに有効であることを示す。

Much of the complexity of social, biological, and engineered systems arises from a network of complex interactions connecting many basic components. Network analysis tools have been successful at uncovering latent structure termed communities in such networks. However, some of the most interesting structure can be difficult to uncover because it is obscured by the more dominant structure. Our previous work proposes a general structure amplification technique called HICODE that uncovers many layers of functional hidden structure in complex networks. HICODE incrementally weakens dominant structure through randomization allowing the hidden functionality to emerge, and uncovers these hidden structure in real-world networks that previous methods rarely uncover. In this work, we conduct a comprehensive and systematic theoretical analysis on the hidden community structure. In what follows, we define multi-layer stochastic block model, and provide theoretical support using the model on why the existence of hidden structure will make the detection of dominant structure harder compared with equivalent random noise. We then provide theoretical proofs that the iterative reducing methods could help promote the uncovering of hidden structure as well as boosting the detection quality of dominant structure.
翻訳日:2021-08-03 15:08:19 公開日:2021-07-31
# HiFT:空中追跡のための階層型特徴変換器

HiFT: Hierarchical Feature Transformer for Aerial Tracking ( http://arxiv.org/abs/2108.00202v1 )

ライセンス: Link先を確認
Ziang Cao, Changhong Fu, Junjie Ye, Bowen Li, and Yiming Li(参考訳) 既存のシャム系追跡法は、類似度マップに基づいて対象オブジェクトの分類と回帰を実行する。 しかし、それらは最終畳み込み層からの1つのマップを使用し、複雑なシナリオにおける局所化の精度を低下させるか、複数のマップを分離して意思決定し、空中移動プラットフォームに難解な計算を導入する。 そこで本研究では,航空追跡のための効率的かつ効果的な階層型特徴変換器 (HiFT) を提案する。 多層畳み込み層によって生成された階層的類似性マップを特徴変換器に入力し、空間的(浅層)と意味論的(深層)の相互融合を実現する。 その結果、グローバルな文脈情報を収集し、ターゲット探索を容易にするだけでなく、トランスフォーマーを用いたエンドツーエンドアーキテクチャにより、マルチレベルの特徴間の相互依存性を効率よく学習し、強力な識別性を持つ追跡調整された特徴空間を発見できる。 4つの航空ベンチマークの総合的な評価は、HiFTの有効性を証明している。 航空プラットフォームにおける実世界のテストは、リアルタイムの速度で実用性を強く検証した。 私たちのコードはhttps://github.com/v ision4robotics/HiFT. comから入手可能です。

Most existing Siamese-based tracking methods execute the classification and regression of the target object based on the similarity maps. However, they either employ a single map from the last convolutional layer which degrades the localization accuracy in complex scenarios or separately use multiple maps for decision making, introducing intractable computations for aerial mobile platforms. Thus, in this work, we propose an efficient and effective hierarchical feature transformer (HiFT) for aerial tracking. Hierarchical similarity maps generated by multi-level convolutional layers are fed into the feature transformer to achieve the interactive fusion of spatial (shallow layers) and semantics cues (deep layers). Consequently, not only the global contextual information can be raised, facilitating the target search, but also our end-to-end architecture with the transformer can efficiently learn the interdependencies among multi-level features, thereby discovering a tracking-tailored feature space with strong discriminability. Comprehensive evaluations on four aerial benchmarks have proven the effectiveness of HiFT. Real-world tests on the aerial platform have strongly validated its practicability with a real-time speed. Our code is available at https://github.com/v ision4robotics/HiFT.
翻訳日:2021-08-03 15:07:40 公開日:2021-07-31
# BoA-PTA, ベイズ最適化による誤りなしSPICE解法

BoA-PTA, A Bayesian Optimization Accelerated Error-Free SPICE Solver ( http://arxiv.org/abs/2108.00257v1 )

ライセンス: Link先を確認
Wei W. Xing, Xiang Jin, Yi Liu, Dan Niu, Weishen Zhao, Zhou Jin(参考訳) IC設計における最大の課題の1つは計算コストのかかるSPICEシミュレーションを繰り返し実行することである。 近年,疑似過渡解析(PTA)が最も有望な継続SPICEソルバの1つであることが示されている。 しかし、PTA効率は挿入された擬似パラメータの影響が大きい。 そこで本研究では,ベイズ最適化高速化ptaであるboa-ptaを提案する。 さらに,本手法では事前計算データやオフライントレーニングは不要である。 加速フレームワークは、進行中の繰り返しシミュレーションを即座に高速化するか、全く異なる回路の新しいシミュレーションを改善するために実装できる。 BoA-PTAは、ディープラーニング、ガウス過程、ベイズ最適化、非定常単調変換、パラメータ化による変分推論など、最先端の機械学習技術を備えている。 boa-ptaを43のベンチマーク回路で評価し,平均2.3倍(最大3.5倍)の速度アップを示した。

One of the greatest challenges in IC design is the repeated executions of computationally expensive SPICE simulations, particularly when highly complex chip testing/verification is involved. Recently, pseudo transient analysis (PTA) has shown to be one of the most promising continuation SPICE solver. However, the PTA efficiency is highly influenced by the inserted pseudo-parameters. In this work, we proposed BoA-PTA, a Bayesian optimization accelerated PTA that can substantially accelerate simulations and improve convergence performance without introducing extra errors. Furthermore, our method does not require any pre-computation data or offline training. The acceleration framework can either be implemented to speed up ongoing repeated simulations immediately or to improve new simulations of completely different circuits. BoA-PTA is equipped with cutting-edge machine learning techniques, e.g., deep learning, Gaussian process, Bayesian optimization, non-stationary monotonic transformation, and variational inference via parameterization. We assess BoA-PTA in 43 benchmark circuits against other SOTA SPICE solvers and demonstrate an average 2.3x (maximum 3.5x) speed-up over the original CEPTA.
翻訳日:2021-08-03 15:01:39 公開日:2021-07-31
# トランスクリプトームプロファイルからの候補バイオマーカー発見のためのハイブリッドアンサンブル特徴選択設計

A Hybrid Ensemble Feature Selection Design for Candidate Biomarkers Discovery from Transcriptome Profiles ( http://arxiv.org/abs/2108.00290v1 )

ライセンス: Link先を確認
Felipe Colombelli, Thayne Woycinck Kowalski, Mariana Recamonde-Mendoza(参考訳) 遺伝子発現データからの疾患バイオマーカーの発見は、特にデータレベルでの摂動を伴うアンサンブルFS(EFS)戦略(ホモジニアス、Hom-EFS)やメソッドレベル(ヘテロジニアス、Het-EFS)を用いて、特徴選択(FS)法によって大きく進歩した。 本稿では,生体マーカーの安定性と予測能力を向上させるために,両タイプの摂動を探索するハイブリッドESS(Hyb-EFS)の設計を提案する。 これによってhyb-efsは、単一のデータセット、単一のアルゴリズム、またはそれらの特定の組み合わせによる優れたパフォーマンスの関連を破壊することを目的としており、ゲノムバイオマーカーの再現性の向上に特に興味深い。 4種類の癌に関するマイクロアレイデータに対するアプローチの有効性について検討し,他のアンサンブルおよび単一FSアプローチとの比較を行った。 実験では, Wx, Symmetrical Uncertainty (SU), Gain Ratio (GR), Characteristics Direction (GeoDE), ReliefFの5種類のFS法を用いた。 その結果,Hyb-EFS と Het-EFS のアプローチは,多くの単一 FS と Hom-EFS で異なるデータセット間で観測される大きな性能変動を減らした。 また、Hyb-EFSはドメイン内のHet-EFSの安定性を改善した。 その結果,Hyb-EFSとHyb-EFSは高い性能のセレクタ (Wx, GR, SU) で構成され,Hyb-EFSとHet-EFSは等価なヘテロジニアス設計と最高のHom-EFS (Hom-Wx) を超越した。 興味深いことに、私たちのHyb-EFSが生成するランキングは、がん関連遺伝子や経路に顕著に富み、生物学的に高い評価を得た。 そこで本実験は,マイクロアレイデータから候補バイオマーカーを発見するためのハイブリッドESF設計の可能性を示した。 最後に、ユーザフレンドリなアプリケーションとプレーンなPythonパッケージとして、他のドメインで同様の分析をサポートするためのオープンソースフレームワークを提供します。

The discovery of disease biomarkers from gene expression data has been greatly advanced by feature selection (FS) methods, especially using ensemble FS (EFS) strategies with perturbation at the data level (i.e., homogeneous, Hom-EFS) or method level (i.e., heterogeneous, Het-EFS). Here we proposed a Hybrid EFS (Hyb-EFS) design that explores both types of perturbation to improve the stability and the predictive power of candidate biomarkers. With this, Hyb-EFS aims to disrupt associations of good performance with a single dataset, single algorithm, or a specific combination of both, which is particularly interesting for better reproducibility of genomic biomarkers. We investigated the adequacy of our approach for microarray data related to four types of cancer, carrying out an extensive comparison with other ensemble and single FS approaches. Five FS methods were used in our experiments: Wx, Symmetrical Uncertainty (SU), Gain Ratio (GR), Characteristic Direction (GeoDE), and ReliefF. We observed that the Hyb-EFS and Het-EFS approaches attenuated the large performance variation observed for most single FS and Hom-EFS across distinct datasets. Also, the Hyb-EFS improved upon the stability of the Het-EFS within our domain. Comparing the Hyb-EFS and Het-EFS composed of the top-performing selectors (Wx, GR, and SU), our hybrid approach surpassed the equivalent heterogeneous design and the best Hom-EFS (Hom-Wx). Interestingly, the rankings produced by our Hyb-EFS reached greater biological plausibility, with a notably high enrichment for cancer-related genes and pathways. Thus, our experiments suggest the potential of the proposed Hybrid EFS design in discovering candidate biomarkers from microarray data. Finally, we provide an open-source framework to support similar analyses in other domains, both as a user-friendly application and a plain Python package.
翻訳日:2021-08-03 15:01:20 公開日:2021-07-31
# 日常環境におけるウェアラブルセンサによる個人ストレスモニタリング

Personalized Stress Monitoring using Wearable Sensors in Everyday Settings ( http://arxiv.org/abs/2108.00144v1 )

ライセンス: Link先を確認
Ali Tazarv, Sina Labbaf, Stephanie M. Reich, Nikil Dutt, Amir M. Rahmani, Marco Levorato(参考訳) ストレスは幅広い精神的・身体的健康問題に寄与するので、ストレスの客観的評価は行動学や生理学研究に不可欠である。 コントロールされた環境におけるストレスレベルを評価する研究はいくつかあるが、日常的な環境における客観的ストレス評価は、文脈的要因の確立と自己報告の限定的な遵守によって生じる課題のために、まだほとんど未検討のままである。 本稿では,心拍数(hr)と心拍変動(hrv)に基づく日常生活環境におけるストレスレベルの客観的な予測について,よりスマートなウェアラブルデバイスで広く使用可能な,低コストで使いやすいフォトプレシモグラフィ(ppg)センサを用いて検討する。 本稿では、ラベル付けのためのデータサンプルの調整可能なコレクションをサポートする、個人化されたストレス監視のための階層化システムアーキテクチャと、ラベル付けのためのリアルタイムデータのストリームから情報化サンプルを選択する方法を提案する。 本研究では,14名のボランティアのストレスレベルを1~3ヶ月の自記式アンケートで把握し,機械学習手法を用いてHRとHRVに基づくストレス検出を行った。 データセットが日常設定の困難な環境で収集されていることを考慮し、有望な予備的な結果を観察する。 二重応力検出器は、かなり正確で、マクロF1スコアが最大%76のストレスフル対非ストレスフルサンプルを検出することができる。 我々の研究は、医療専門家にパーソナライズされた介入を提供するための、コンテキスト対応のパーソナライズされたモデルを生成する、より高度なラベリング戦略の基盤となる。

Since stress contributes to a broad range of mental and physical health problems, the objective assessment of stress is essential for behavioral and physiological studies. Although several studies have evaluated stress levels in controlled settings, objective stress assessment in everyday settings is still largely under-explored due to challenges arising from confounding contextual factors and limited adherence for self-reports. In this paper, we explore the objective prediction of stress levels in everyday settings based on heart rate (HR) and heart rate variability (HRV) captured via low-cost and easy-to-wear photoplethysmography (PPG) sensors that are widely available on newer smart wearable devices. We present a layered system architecture for personalized stress monitoring that supports a tunable collection of data samples for labeling, and present a method for selecting informative samples from the stream of real-time data for labeling. We captured the stress levels of fourteen volunteers through self-reported questionnaires over periods of between 1-3 months, and explored binary stress detection based on HR and HRV using Machine Learning Methods. We observe promising preliminary results given that the dataset is collected in the challenging environments of everyday settings. The binary stress detector is fairly accurate and can detect stressful vs non-stressful samples with a macro-F1 score of up to \%76. Our study lays the groundwork for more sophisticated labeling strategies that generate context-aware, personalized models that will empower health professionals to provide personalized interventions.
翻訳日:2021-08-03 14:56:40 公開日:2021-07-31
# Recommenderシステムにおける透過的アルゴリズム探索に関する実証分析

An Empirical analysis on Transparent Algorithmic Exploration in Recommender Systems ( http://arxiv.org/abs/2108.00151v1 )

ライセンス: Link先を確認
Kihwan Kim(参考訳) すべてのレコメンデーションのための学習アルゴリズムは、短期的な満足のためにユーザの好みの部分的知識を活用することと、長期的カバレッジのために追加のユーザ嗜好を探索することの間に、必然的で重要なトレードオフに直面します。 推奨システムの長期的成功には探索が不可欠であるが,ユーザの満足度を低下させるリスクとして検討されている。 リスクの原因は、探索のために選択されたアイテムがユーザの関心事と頻繁にミスマッチするためである。 このリスクを軽減するため、レコメンデータシステムは、レコメンデーションリストの探索のために選択された混合アイテムを持ち、リコメンデーションとしてアイテムを嫌悪し、アイテムに対するフィードバックを導き、ユーザの追加の好みを発見する。 このミックスインアプローチは、多くのレコメンデーターで広く使われているが、ミックスインアプローチの有効性を評価したり、ユーザーを騙さずにユーザーフィードバックを引き出す新しいアプローチを提案する研究は稀である。 そこで本研究では,提案手法と従来のミックスイン方式との比較を行い,新たなフィードバック誘発法を提案する。 そこで我々は,探索対象の項目を提示するレコメンデータインタフェースを設計し,94人のMTurk労働者を対象に実験を行った。 以上の結果から,ユーザインターフェースによる探索対象に対するフィードバックは大幅に増加した。 さらに,新しいインターフェースは,新規性,多様性,透明性,信頼,満足度の観点から従来のミックスインインターフェースよりも優れていると評価した。 最後に、パス分析は、新しいインターフェイスのみにおいて、探索がユーザ中心の評価メトリクスの増加を引き起こしたことを示している。 本研究は,ユーザのフィードバック信号に基づく学習アルゴリズムを活用し,ユーザエクスペリエンスを向上し,より多くのフィードバックデータを集めるインタフェースの設計方法を提案する。

All learning algorithms for recommendations face inevitable and critical trade-off between exploiting partial knowledge of a user's preferences for short-term satisfaction and exploring additional user preferences for long-term coverage. Although exploration is indispensable for long success of a recommender system, the exploration has been considered as the risk to decrease user satisfaction. The reason for the risk is that items chosen for exploration frequently mismatch with the user's interests. To mitigate this risk, recommender systems have mixed items chosen for exploration into a recommendation list, disguising the items as recommendations to elicit feedback on the items to discover the user's additional tastes. This mix-in approach has been widely used in many recommenders, but there is rare research, evaluating the effectiveness of the mix-in approach or proposing a new approach for eliciting user feedback without deceiving users. In this work, we aim to propose a new approach for feedback elicitation without any deception and compare our approach to the conventional mix-in approach for evaluation. To this end, we designed a recommender interface that reveals which items are for exploration and conducted a within-subject study with 94 MTurk workers. Our results indicated that users left significantly more feedback on items chosen for exploration with our interface. Besides, users evaluated that our new interface is better than the conventional mix-in interface in terms of novelty, diversity, transparency, trust, and satisfaction. Finally, path analysis show that, in only our new interface, exploration caused to increase user-centric evaluation metrics. Our work paves the way for how to design an interface, which utilizes learning algorithm based on users' feedback signals, giving better user experience and gathering more feedback data.
翻訳日:2021-08-03 14:56:13 公開日:2021-07-31
# 増分プロセスディスカバリ中のサブモデル凍結:拡張バージョン

Freezing Sub-Models During Incremental Process Discovery: Extended Version ( http://arxiv.org/abs/2108.00215v1 )

ライセンス: Link先を確認
Daniel Schuster, Sebastiaan J. van Zelst and Wil M. P. van der Aalst(参考訳) プロセス発見は、観察されたプロセスの振る舞いからプロセスモデルを学ぶことを目的としている。 ユーザの視点では、ほとんどの発見アルゴリズムはブラックボックスのように動作する。 パラメータチューニングの他に、ユーザーとアルゴリズムの間には相互作用がない。 インタラクティブなプロセスディスカバリにより、ユーザはドメイン知識を活用でき、発見プロセスをガイドできる。 これまでは、ユーザが選択したプロセスの振る舞いによってモデルが漸進的に拡張される、インクリメンタルな発見アプローチが導入された。 本稿では,開発中のモデルにおけるモデル部品の凍結を可能にする新しい手法を提案する。 凍結したサブモデルは、モデルに新しい振る舞いを追加するときにインクリメンタルなアプローチによって変更されない。 これにより、ユーザーは発見アルゴリズムを制御できる。 実験により,凍結したサブモデルにより高品質なモデルが得られることが示された。

Process discovery aims to learn a process model from observed process behavior. From a user's perspective, most discovery algorithms work like a black box. Besides parameter tuning, there is no interaction between the user and the algorithm. Interactive process discovery allows the user to exploit domain knowledge and to guide the discovery process. Previously, an incremental discovery approach has been introduced where a model, considered to be under construction, gets incrementally extended by user-selected process behavior. This paper introduces a novel approach that additionally allows the user to freeze model parts within the model under construction. Frozen sub-models are not altered by the incremental approach when new behavior is added to the model. The user can thus steer the discovery algorithm. Our experiments show that freezing sub-models can lead to higher quality models.
翻訳日:2021-08-03 14:55:41 公開日:2021-07-31
# bootstrapを用いたオンライン学習からのサンプル抽出

Debiasing Samples from Online Learning Using Bootstrap ( http://arxiv.org/abs/2108.00236v1 )

ライセンス: Link先を確認
Ningyuan Chen, Xuefeng Gao, Yi Xiong(参考訳) 近年,オンライン学習実験のサンプル平均値が平均報酬を推定する際に偏りがあることが文献で示されている。 バイアスを正すために、重要サンプリングや二重ロバストな推定子を含むオフポリシー評価手法は、通常、未知の報酬分布と適応方針のためにこの設定では使用できない確率スコアを計算する。 本稿では,ブートストラップを用いてサンプルを脱バイアスする手法を提供するが,報奨分布の知識は一切必要としない。 数値実験により、Explore-Then-Commit (ETC)、UPB、トンプソンサンプリング、および$\epsilon$-greedyなどの一般的なマルチアームバンディットアルゴリズムによって生成されるサンプルの効果的なバイアス低減が示されている。 また,実世界とブートストラップ世界におけるバイアス崩壊率の漸近収束を含む,ETCアルゴリズムの手順に関する理論的正当性も分析し,提供する。

It has been recently shown in the literature that the sample averages from online learning experiments are biased when used to estimate the mean reward. To correct the bias, off-policy evaluation methods, including importance sampling and doubly robust estimators, typically calculate the propensity score, which is unavailable in this setting due to unknown reward distribution and the adaptive policy. This paper provides a procedure to debias the samples using bootstrap, which doesn't require the knowledge of the reward distribution at all. Numerical experiments demonstrate the effective bias reduction for samples generated by popular multi-armed bandit algorithms such as Explore-Then-Commit (ETC), UCB, Thompson sampling and $\epsilon$-greedy. We also analyze and provide theoretical justifications for the procedure under the ETC algorithm, including the asymptotic convergence of the bias decay rate in the real and bootstrap worlds.
翻訳日:2021-08-03 14:55:31 公開日:2021-07-31
# (参考訳) 山西省における脳卒中リスク評価の多目的最適化と説明 [全文訳有]

Multi-objective optimization and explanation for stroke risk assessment in Shanxi province ( http://arxiv.org/abs/2107.14060v2 )

ライセンス: CC BY 4.0
Jing Ma, Yiyang Sun, Junjie Liu, Huaxiong Huang, Xiaoshuang Zhou and Shixin Xu(参考訳) ストロークは中国で最大の死因である(Zhou et al)。 2019年)。 山西省のデータセットは、患者の4つの状態におけるリスクを識別するために使用され、SHAP DeepExplainerを通じて状態遷移傾向を提供する。 不均衡なサンプルセットの精度を向上させるために、二次的インタラクティブな特徴の選択と付加を柔軟に行うことで、QIDNNモデルが最初に提案される。 実験結果から、7つのインタラクティブな特徴を持つQIDNNモデルは8.25 %$の最先端精度を実現することがわかった。 血圧、身体的不活性、喫煙、体重、総コレステロールは5つの重要な特徴である。 そして、最も緊急な状態である攻撃状態を高いリコールのために、多目的最適化の恩恵を受ける補助目的として、ストローク発生予測を行う。 予測精度は向上し、攻撃状態のリコールは、同じ特徴を持つQIDNN (67.93\%$) と比較して24.9\%$ (84.83\%$) 改善された。 本論文の予測モデルと解析ツールは, 理論上最適化された予測手法を提供するだけでなく, 患者毎のリスク状態と遷移方向の帰属説明を提供し, 医師が疾患を分析し, 診断するための好適なツールとなった。

Stroke is the top leading causes of death in China (Zhou et al. The Lancet 2019). A dataset from Shanxi Province is used to identify the risk of each patient's at four states low/medium/high/atta ck and provide the state transition tendency through a SHAP DeepExplainer. To improve the accuracy on an imbalance sample set, the Quadratic Interactive Deep Neural Network (QIDNN) model is first proposed by flexible selecting and appending of quadratic interactive features. The experimental results showed that the QIDNN model with 7 interactive features achieve the state-of-art accuracy $83.25\%$. Blood pressure, physical inactivity, smoking, weight and total cholesterol are the top five important features. Then, for the sake of high recall on the most urgent state, attack state, the stroke occurrence prediction is taken as an auxiliary objective to benefit from multi-objective optimization. The prediction accuracy was promoted, meanwhile the recall of the attack state was improved by $24.9\%$ (to $84.83\%$) compared to QIDNN (from $67.93\%$) with same features. The prediction model and analysis tool in this paper not only gave the theoretical optimized prediction method, but also provided the attribution explanation of risk states and transition direction of each patient, which provided a favorable tool for doctors to analyze and diagnose the disease.
翻訳日:2021-08-03 10:59:36 公開日:2021-07-31
# DCT2net:画像復調のための解釈可能な浅層CNN

DCT2net: an interpretable shallow CNN for image denoising ( http://arxiv.org/abs/2107.14803v1 )

ライセンス: Link先を確認
S\'ebastien Herbreteau and Charles Kervrann(参考訳) この研究は、よく知られたDCT画像復調アルゴリズムに着目し、画像からのノイズ除去の問題に取り組む。 後者は信号処理に由来するもので、長年にわたってよく研究されてきた。 非常に単純であるが、現在でもbm3dのような最先端の「伝統的な」デノイジングアルゴリズムの重要な部分で使われている。 しかし数年前から、深層畳み込みニューラルネットワーク(cnn)は従来のニューラルネットワークよりも優れており、信号処理手法は魅力的ではない。 本稿では,DCTデノイザを浅いCNNと見なすことができ,その元の線形変換を教師付き方式で勾配降下により調整し,性能を大幅に向上させることができることを示す。 これにより、DCT2netと呼ばれる完全に解釈可能なCNNが誕生する。 DCT2netによって引き起こされる残った遺物に対処するため,DCTとDCT2netのハイブリッドソリューションが提案され,DCT2netは静止しない画像パッチを処理するために選択され,DCTはスムーズなパッチに最適である。 人工ノイズ画像の実験では、2層DCT2netがBM3Dに匹敵する結果を示し、DnCNNアルゴリズムは1ダース以上の層で構成されている。

This work tackles the issue of noise removal from images, focusing on the well-known DCT image denoising algorithm. The latter, stemming from signal processing, has been well studied over the years. Though very simple, it is still used in crucial parts of state-of-the-art "traditional" denoising algorithms such as BM3D. Since a few years however, deep convolutional neural networks (CNN) have outperformed their traditional counterparts, making signal processing methods less attractive. In this paper, we demonstrate that a DCT denoiser can be seen as a shallow CNN and thereby its original linear transform can be tuned through gradient descent in a supervised manner, improving considerably its performance. This gives birth to a fully interpretable CNN called DCT2net. To deal with remaining artifacts induced by DCT2net, an original hybrid solution between DCT and DCT2net is proposed combining the best that these two methods can offer; DCT2net is selected to process non-stationary image patches while DCT is optimal for piecewise smooth patches. Experiments on artificially noisy images demonstrate that two-layer DCT2net provides comparable results to BM3D and is as fast as DnCNN algorithm composed of more than a dozen of layers.
翻訳日:2021-08-02 13:05:23 公開日:2021-07-31