このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220112となっている論文です。

PDF登録状況(公開日: 20220112)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) NeuraHealthNLP:ディープラーニングと自然言語処理による電子健康記録における未診断認知障害検出のための自動スクリーニングパイプライン

NeuraHealthNLP: An Automated Screening Pipeline to Detect Undiagnosed Cognitive Impairment in Electronic Health Records with Deep Learning and Natural Language Processing ( http://arxiv.org/abs/2202.00478v1 )

ライセンス: CC BY 4.0
Tanish Tyagi(参考訳) 認知症関連障害(CI)は世界中で5500万人以上に影響を与え、3秒ごとに1件の新しい症例のペースで急速に増加している。 臨床治験の再発では早期診断が重要であるが、認知症患者の75%は世界中で診断されず、低所得国では90%に達する。 現在の診断方法は非常に複雑で、医療ノートのマニュアルレビュー、多くの認知検査、高価な脳スキャン、脊髄液検査などが含まれる。 ciに関連する情報はehrs(electronic health records)にしばしば含まれ、早期診断のための重要な手がかりとなるが、専門家による手作業によるレビューは退屈で誤りやすい。 このプロジェクトでは、EHRにおける未検出CIのスケーラブルで高速な発見を可能にする、最先端の自動スクリーニングパイプラインが新たに開発されている。 EHRの複雑な言語構造から言語コンテキストを理解するため、8,656のシーケンスからなるデータベースを構築し、注意に基づくディープラーニング自然言語処理モデルを訓練し、シーケンスを分類した。 シーケンスレベル分類器を用いてロジスティック回帰に基づく患者レベル予測モデルを開発した。 深層学習システムは93%の精度を達成し, AUC = 0.98 で, 早期診断, 認知症関連診断コード, 認知症関連薬剤の診断を行った。 これらの患者は、発見も発見も遅すぎただろう。 EHRスクリーニングパイプラインは、ブラウザにEHRをアップロードするだけで、自動化されたリアルタイムCIスクリーニングのためのWebアプリケーションであるNeuraHealthNLPにデプロイされた。 NeuraHealthNLPは安価で、より速く、よりアクセスしやすく、テキストベースの分析や機械学習アプローチを含む現在の臨床手法より優れています。 医療サービスが少ない地域では早期診断が可能だが、インターネットや携帯電話サービスにアクセスできる。

Dementia related cognitive impairment (CI) affects over 55 million people worldwide and is growing rapidly at the rate of one new case every 3 seconds. With a recurring failure of clinical trials, early diagnosis is crucial, but 75% of dementia cases go undiagnosed globally with up to 90% in low-and-middle-incom e countries. Current diagnostic methods are notoriously complex, involving manual review of medical notes, numerous cognitive tests, expensive brain scans or spinal fluid tests. Information relevant to CI is often found in the electronic health records (EHRs) and can provide vital clues for early diagnosis, but a manual review by experts is tedious and error prone. This project develops a novel state-of-the-art automated screening pipeline for scalable and high-speed discovery of undetected CI in EHRs. To understand the linguistic context from complex language structures in EHR, a database of 8,656 sequences was constructed to train attention-based deep learning natural language processing model to classify sequences. A patient level prediction model based on logistic regression was developed using the sequence level classifier. The deep learning system achieved 93% accuracy and AUC = 0.98 to identify patients who had no earlier diagnosis, dementia-related diagnosis code, or dementia-related medications in their EHR. These patients would have otherwise gone undetected or detected too late. The EHR screening pipeline was deployed in NeuraHealthNLP, a web application for automated and real-time CI screening by simply uploading EHRs in a browser. NeuraHealthNLP is cheaper, faster, more accessible, and outperforms current clinical methods including text-based analytics and machine learning approaches. It makes early diagnosis viable in regions with scarce health care services but accessible internet or cellular services.
翻訳日:2022-02-06 12:58:21 公開日:2022-01-12
# (参考訳) bertモデルを用いたcovid-19ワクチンの抗ワクチンツイートの時間間隔の増加の検出 [全文訳有]

Detection of Increased Time Intervals of Anti-Vaccine Tweets for COVID-19 Vaccine with BERT Model ( http://arxiv.org/abs/2202.00477v1 )

ライセンス: CC BY 4.0
\"Ulk\"u Tuncer K\"u\c{c}\"ukta\c{s}, Fatih Uysal, F{\i}rat Hardala\c{c}, \.Ismail Biri(参考訳) Covid-19に対する最も効果的な解決策は、様々なワクチンの開発である。 ワクチンの不信は、この治療法の迅速かつ効果的な使用を妨げる。 社会の思想を表現する手段の一つがソーシャルメディアである。 ソーシャルメディアで予防接種が増加する期間を決定することは、施設が予防接種と闘うための戦略を決定するのに役立つ。 人間の労働で入力されたすべてのツイートの記録と追跡は非効率なので、さまざまな自動化ソリューションが必要です。 本研究では,ディープラーニングに基づく自然言語処理(nlp)モデルであるトランスフォーマ(bert)モデルからの双方向エンコーダ表現を用いた。 ニュース、無関係、抗ワクチン、ワクチンサポーターの4つのカテゴリに分類された1506のツイートのデータセットにおいて、モデルは25エポックで5e-6の学習率で訓練された。 抗ワクチンツイートが集中する間隔を決定するために、トレーニングされたモデルを用いて652840ツイートが属するカテゴリを決定した。 決定されたカテゴリの経時的変化を可視化し、変化を引き起こす可能性のあるイベントを決定づけた。 モデルトレーニングの結果,テストデータセットでは0.81,AUC値はそれぞれ0.99,0.91,0.92,0.92であった。 本モデルでは, 文献研究とは違って, 反ワクチンツイートの頻度を時間間隔で測定・可視化することで, 組織が戦略決定に利用できるデータを提供する補助システムを構築している。

The most effective of the solutions against Covid-19 is the various vaccines developed. Distrust of vaccines can hinder the rapid and effective use of this remedy. One of the means of expressing the thoughts of society is social media. Determining the time intervals during which anti-vaccination increases in social media can help institutions determine the strategy to be used in combating anti-vaccination. Recording and tracking every tweet entered with human labor would be inefficient, so various automation solutions are needed. In this study, The Bidirectional Encoder Representations from Transformers (BERT) model, which is a deep learning-based natural language processing (NLP) model, was used. In a dataset of 1506 tweets divided into four different categories as news, irrelevant, anti-vaccine, and vaccine supporters, the model was trained with a learning rate of 5e-6 for 25 epochs. To determine the intervals in which anti-vaccine tweets are concentrated, the categories to which 652840 tweets belong were determined by using the trained model. The change of the determined categories overtime was visualized and the events that could cause the change were determined. As a result of model training, in the test dataset, the f-score of 0.81 and AUC values for different classes were obtained as 0.99,0.91, 0.92, 0.92, respectively. In this model, unlike the studies in the literature, an auxiliary system is designed that provides data that institutions can use when determining their strategy by measuring and visualizing the frequency of anti-vaccine tweets in a time interval, different from detecting and censoring such tweets.
翻訳日:2022-02-06 12:57:09 公開日:2022-01-12
# (参考訳) トピックモデリングを用いたcovid-19関連ストレス要因の検討 [全文訳有]

Exploring COVID-19 Related Stressors Using Topic Modeling ( http://arxiv.org/abs/2202.00476v1 )

ライセンス: CC BY 4.0
Yue Tong Leung, Farzad Khalvati(参考訳) 新型コロナウイルスのパンデミックは、ほぼ2年間、さまざまな国の人々の生活に影響を与えてきた。 パンデミックによるライフスタイルの変化は、個人の心理社会的ストレスの原因となり、メンタルヘルスの問題につながる可能性がある。 高品質なメンタルヘルスサポートを提供するには、医療機関はcovid-19特定のストレス要因を特定し、それらのストレス要因の流行傾向に気付く必要がある。 本研究では,自然言語処理(nlp)をソーシャルメディアに応用し,新型コロナウイルスのパンデミック時の心理社会的ストレスを識別し,パンデミックの異なる段階でのストレス発生傾向を分析することを目的とした。 我々は2020年2月14日から2021年7月19日まで,subreddit \rCOVID19_ Supportから9266件のReddit投稿のデータセットを得た。 サブレディットで言及されたトピックを特定するために,LDA(Latent Dirichlet Allocation)トピックモデルと語彙法を用いた。 その結果,ソーシャルメディアプラットフォーム上で議論されているコビッド新型コロナウイルス関連ストレス要因の傾向を可視化するダッシュボードが提示された。 その結果、covid-19のさまざまな段階で、パンデミック関連ストレス因子の感染状況に関する洞察が得られるかもしれない。 この研究で活用されるNLP技術は、将来イベント特異的ストレス要因の分析にも応用できる。

The COVID-19 pandemic has affected lives of people from different countries for almost two years. The changes on lifestyles due to the pandemic may cause psychosocial stressors for individuals, and have a potential to lead to mental health problems. To provide high quality mental health supports, healthcare organization need to identify the COVID-19 specific stressors, and notice the trends of prevalence of those stressors. This study aims to apply natural language processing (NLP) on social media data to identify the psychosocial stressors during COVID-19 pandemic, and to analyze the trend on prevalence of stressors at different stages of the pandemic. We obtained dataset of 9266 Reddit posts from subreddit \rCOVID19_support, from 14th Feb ,2020 to 19th July 2021. We used Latent Dirichlet Allocation (LDA) topic model and lexicon methods to identify the topics that were mentioned on the subreddit. Our result presented a dashboard to visualize the trend of prevalence of topics about covid-19 related stressors being discussed on social media platform. The result could provide insights about the prevalence of pandemic related stressors during different stages of COVID-19. The NLP techniques leveraged in this study could also be applied to analyze event specific stressors in the future.
翻訳日:2022-02-06 12:41:30 公開日:2022-01-12
# マルチセット書き換えシステムに関する生化学空間言語

Biochemical Space Language in Relation to Multiset Rewriting Systems ( http://arxiv.org/abs/2201.08817v1 )

ライセンス: Link先を確認
Matej Troj\'ak, David \v{S}afr\'anek, Lubo\v{s} Brim(参考訳) 本報告は、生化学空間言語(bcsl)とマルチセット書き換えシステム(mrs)に関するものである。 BCSLモデルでは、セマンティクスは遷移系で定義されるが、MSSでは一連の実行系で定義される。 本稿では,BCSL と MRS を,遷移系が一組のランとどのように関連しているかを示し,その結果,各 BCSL モデルに対して,同一のランの集合を表すような MRS を構築する方法を示す。 このステップの動機は、より一般的な書き換えシステムの文脈でBCSLを確立し、それらに示される特性の恩恵を得ることである。 最後に, MRS に規定された規則を BCSL モデルで適用可能であることを示す。

This technical report relates Biochemical Space Language (BCSL) to Multiset rewriting systems (MRS). For a BCSL model, the semantics are defined in terms of transition systems, while for an MRS, they are defined in terms of a set of runs. In this report, we relate BCSL to MRS by first showing how the transition system is related to a set of runs and consequently showing how for every BCSL model, an MRS can be constructed such that both represent the same set of runs. The motivation of this step is to establish BCSL in the context of a more general rewriting system and benefit from properties shown for them. Finally, we show that regulations defined for MRS can be consequently used in the BCSL model.
翻訳日:2022-01-30 11:35:33 公開日:2022-01-12
# (参考訳) ロスランドスケープには特異点があります [全文訳有]

There is a Singularity in the Loss Landscape ( http://arxiv.org/abs/2201.06964v1 )

ライセンス: CC0 1.0
Mark Lowell(参考訳) ニューラルネットワークが広く採用されているにもかかわらず、そのトレーニングダイナミクスはいまだによく分かっていない。 実験により、データセットのサイズが大きくなるにつれて、損失の勾配の大きさが無界となる点が形成されることを示した。 勾配降下は、パラメータ空間におけるこの特異点に近いネットワークを急速に引き起こし、その近くでさらなる訓練が行われる。 この特異性は、安定性のエッジのトレーニングやトップ部分空間における勾配の集中といった、ニューラルネットワーク損失関数のヘシアンで最近観測された様々な現象を説明する。 ネットワークが特異点に近づくと、トップ部分空間は勾配の大部分を構成するにもかかわらず学習にほとんど寄与しない。

Despite the widespread adoption of neural networks, their training dynamics remain poorly understood. We show experimentally that as the size of the dataset increases, a point forms where the magnitude of the gradient of the loss becomes unbounded. Gradient descent rapidly brings the network close to this singularity in parameter space, and further training takes place near it. This singularity explains a variety of phenomena recently observed in the Hessian of neural network loss functions, such as training on the edge of stability and the concentration of the gradient in a top subspace. Once the network approaches the singularity, the top subspace contributes little to learning, even though it constitutes the majority of the gradient.
翻訳日:2022-01-23 20:06:34 公開日:2022-01-12
# (参考訳) Generative Adversarial Networks を用いたデータセンターにおける多変量予測によるデータ拡張 [全文訳有]

Data augmentation through multivariate scenario forecasting in Data Centers using Generative Adversarial Networks ( http://arxiv.org/abs/2201.06147v1 )

ライセンス: CC BY 4.0
Jaime P\'erez, Patricia Arroba and Jos\'e M. Moya(参考訳) クラウドパラダイムは、既存のエネルギー効率技術が高原に達する重要なポイントであり、データセンター施設でのコンピューティングリソースの需要は指数関数的に増加を続けている。 人工知能に基づくグローバルなエネルギー効率戦略を実現する上での大きな課題は、アルゴリズムを供給するために大量のデータが必要であることです。 現在、あらゆる最適化戦略はデータから始まる必要があります。 しかし、大量のデータにアクセスしている企業は、セキュリティを損なう可能性があるため、共有しないことを決めている。 本稿では,データセンター内のシナリオ予測に基づく時系列データ拡張手法を提案する。 そこで我々は,GAN(Generative Adversarial Networks)という強力な生成アルゴリズムを実装する。 GANを使用することで、多変量データと異なる性質(例えばカテゴリ)のデータを扱うことができます。 一方,データセンタの運用管理を散発的異常の発生に適応させることは,システム内の障害の発生頻度が減少するため複雑である。 そこで本研究では,オンデマンド・アノマリーを導入することで,生成データの変動性を高める手法を提案する。 運用中のデータセンタから収集した実データを用いて検証を行い,数時間の予測でランダムシナリオの予測を成功させた。 私たちの研究は、データセンターで消費されるエネルギーを最適化するのに役立ちます。

The Cloud paradigm is at a critical point in which the existing energy-efficiency techniques are reaching a plateau, while the computing resources demand at Data Center facilities continues to increase exponentially. The main challenge in achieving a global energy efficiency strategy based on Artificial Intelligence is that we need massive amounts of data to feed the algorithms. Nowadays, any optimization strategy must begin with data. However, companies with access to these large amounts of data decide not to share them because it could compromise their security. This paper proposes a time-series data augmentation methodology based on synthetic scenario forecasting within the Data Center. For this purpose, we will implement a powerful generative algorithm: Generative Adversarial Networks (GANs). The use of GANs will allow us to handle multivariate data and data from different natures (e.g., categorical). On the other hand, adapting Data Centers' operational management to the occurrence of sporadic anomalies is complicated due to the reduced frequency of failures in the system. Therefore, we also propose a methodology to increase the generated data variability by introducing on-demand anomalies. We validated our approach using real data collected from an operating Data Center, successfully obtaining forecasts of random scenarios with several hours of prediction. Our research will help to optimize the energy consumed in Data Centers, although the proposed methodology can be employed in any similar time-series-like problem.
翻訳日:2022-01-23 19:56:38 公開日:2022-01-12
# PyHHMM: 異種隠れマルコフモデルのためのPythonライブラリ

PyHHMM: A Python Library for Heterogeneous Hidden Markov Models ( http://arxiv.org/abs/2201.06968v1 )

ライセンス: Link先を確認
Fernando Moreno-Pino, Emese S\"ukei, Pablo M. Olmos, and Antonio Art\'es-Rodr\'iguez(参考訳) Heterogeneous-Hidden Markov Models (HHMM)のオブジェクト指向Python実装であるPyHHMMを紹介する。 HMMの基本機能、例えば、異なる初期化アルゴリズムや古典的な観測モデル、すなわち連続および多重極性などに加えて、PyHHMMは、同種のフレームワークでサポートされていない特徴(異種観測モデル、データ推論の欠如、異なるモデル順序選択基準、および半教師付きトレーニング)を強調している。 これらの特徴は、シーケンシャルデータを扱う研究者のための機能豊富な実装をもたらす。 pyhhmmはnumpy、scipy、scikit-learn、seaborn pythonパッケージに依存しており、apache-2.0ライセンス下で配布されている。 PyHHMMのソースコードはGithub(https://githu b.com/fmorenopino/He terogeneousHMM)で公開されている。 使用例やモデルの理論的説明を含む詳細なドキュメント(https://pyhhmm.read thedocs.io/en/latest )が公開されている。 パッケージはPython Package Index(PyPI)経由で'pip install pyhmm'経由でインストールできる。

We introduce PyHHMM, an object-oriented open-source Python implementation of Heterogeneous-Hidden Markov Models (HHMMs). In addition to HMM's basic core functionalities, such as different initialization algorithms and classical observations models, i.e., continuous and multinoulli, PyHHMM distinctively emphasizes features not supported in similar available frameworks: a heterogeneous observation model, missing data inference, different model order selection criterias, and semi-supervised training. These characteristics result in a feature-rich implementation for researchers working with sequential data. PyHHMM relies on the numpy, scipy, scikit-learn, and seaborn Python packages, and is distributed under the Apache-2.0 License. PyHHMM's source code is publicly available on Github (https://github.com/ fmorenopino/Heteroge neousHMM) to facilitate adoptions and future contributions. A detailed documentation (https://pyhhmm.read thedocs.io/en/latest ), which covers examples of use and models' theoretical explanation, is available. The package can be installed through the Python Package Index (PyPI), via 'pip install pyhhmm'.
翻訳日:2022-01-23 17:57:13 公開日:2022-01-12
# 周波数領域指数関数型リンクネットワークフィルタの研究

Study of Frequency domain exponential functional link network filters ( http://arxiv.org/abs/2201.05501v1 )

ライセンス: Link先を確認
T. Yu, S. Tana, R. C. de Lamareb, and Y. Yu(参考訳) 指数関数リンクネットワーク(EFLN)フィルタは、非線形モデリング能力の強化により、大きな関心を集めている。 しかし、計算複雑性は、EFLNベースのフィルタの次元成長とともに劇的に増大する。 本稿では,新しい周波数領域指数関数型リンクネットワーク(FDEFLN)フィルタを提案する。 このアイデアは、サンプルを拡張入力データのブロックに整理し、時間領域から周波数領域に変換し、オーバーラップセーブ法で周波数領域におけるフィルタリングおよび適応手順を実行する。 FDEFLNに基づく非線形アクティブノイズ制御(NANC)システムも開発され、周波数領域指数フィルタ最小平均二乗(FDEFsLMS)アルゴリズムが開発された。 さらに, アルゴリズムの安定性, 定常性能, 計算複雑性を解析した。 最後に, 非線形システム同定, 音響エコーキャンセラ, nanc実装において, 提案するfdeflnアルゴリズムを補う数値実験がいくつか行われ, 計算効率が大幅に向上した。

The exponential functional link network (EFLN) filter has attracted tremendous interest due to its enhanced nonlinear modeling capability. However, the computational complexity will dramatically increase with the dimension growth of the EFLN-based filter. To improve the computational efficiency, we propose a novel frequency domain exponential functional link network (FDEFLN) filter in this paper. The idea is to organize the samples in blocks of expanded input data, transform them from time domain to frequency domain, and thus execute the filtering and adaptation procedures in frequency domain with the overlap-save method. A FDEFLN-based nonlinear active noise control (NANC) system has also been developed to form the frequency domain exponential filtered-s least mean-square (FDEFsLMS) algorithm. Moreover, the stability, steady-state performance and computational complexity of algorithms are analyzed. Finally, several numerical experiments corroborate the proposed FDEFLN-based algorithms in nonlinear system identification, acoustic echo cancellation and NANC implementations, which demonstrate much better computational efficiency.
翻訳日:2022-01-17 15:31:55 公開日:2022-01-12
# ハイブリッドモデルデータ駆動方式を用いた長距離多チャンネル光ファイバ伝送の高速・高精度波形モデリング

Fast and accurate waveform modeling of long-haul multi-channel optical fiber transmission using a hybrid model-data driven scheme ( http://arxiv.org/abs/2201.05502v1 )

ライセンス: Link先を確認
Hang Yang, Zekun Niu, Haochen Zhao, Shilin Xiao, Weisheng Hu and Lilin Yi(参考訳) 光ファイバにおける光伝搬のモデル化は、非線形schr\"odinger方程式(nlse)の高速かつ高精度な解法であり、現代の通信システムの基盤である光ファイバ通信の研究の進展とシステム設計を可能にする。 スプリットステップフーリエ法(SSFM)を用いた従来のファイバーチャネルのモデリングは、非常に時間を要するため、長波長分割多重化(WDM)光ファイバー通信システムにおいて困難であると考えられてきた。 本稿では, チャネル線形効果をnlseモデル駆動法でモデル化し, 非線形効果をデータ駆動型深層学習法でモデル化する長波長wdmファイバチャネルをモデル化するために, 分散(fdd)波形モデリング方式を提案する。 一方,提案手法では,1スパンのファイバ距離にのみ焦点を合わせ,再帰的にモデルを送信することで必要な伝送距離を達成する。 提案手法は,様々な光打ち上げ能力,変調形式,チャネル数,伝送距離に対して高い精度,高速な計算速度,堅牢な一般化能力を有することを示す。 41チャネル1040kmのファイバ伝送のためのFDD波形モデリングスキームの総実行時間は、入力条件毎にSSFMを使用して2時間以上たった3分であり、計算時間の98%削減を実現している。 システムパラメータの調整によるマルチラウンド最適化を考えると,複雑性の低減が重要である。 その結果, 非線形ファイバモデリングは著しく改善し, nlse様偏微分方程式や光ファイバー物理問題の解の新たな展望が開けた。

The modeling of optical wave propagation in optical fiber is a task of fast and accurate solving the nonlinear Schr\"odinger equation (NLSE), and can enable the research progress and system design of optical fiber communications, which are the infrastructure of modern communication systems. Traditional modeling of fiber channels using the split-step Fourier method (SSFM) has long been regarded as challenging in long-haul wavelength division multiplexing (WDM) optical fiber communication systems because it is extremely time-consuming. Here we propose a linear-nonlinear feature decoupling distributed (FDD) waveform modeling scheme to model long-haul WDM fiber channel, where the channel linear effects are modelled by the NLSE-derived model-driven methods and the nonlinear effects are modelled by the data-driven deep learning methods. Meanwhile, the proposed scheme only focuses on one-span fiber distance fitting, and then recursively transmits the model to achieve the required transmission distance. The proposed modeling scheme is demonstrated to have high accuracy, high computing speeds, and robust generalization abilities for different optical launch powers, modulation formats, channel numbers and transmission distances. The total running time of FDD waveform modeling scheme for 41-channel 1040-km fiber transmission is only 3 minutes versus more than 2 hours using SSFM for each input condition, which achieves a 98% reduction in computing time. Considering the multi-round optimization by adjusting system parameters, the complexity reduction is significant. The results represent a remarkable improvement in nonlinear fiber modeling and open up novel perspectives for solution of NLSE-like partial differential equations and optical fiber physics problems.
翻訳日:2022-01-17 15:31:37 公開日:2022-01-12
# 第4回オンラインレコメンダシステムとユーザモデリングワークショップの開催報告 -- ORSUM 2021

Proceedings of the 4th Workshop on Online Recommender Systems and User Modeling -- ORSUM 2021 ( http://arxiv.org/abs/2201.05156v1 )

ライセンス: Link先を確認
Jo\~ao Vinagre, Al\'ipio M\'ario Jorge, Marie Al-Ghossein, Albert Bifet(参考訳) 現代のオンラインサービスは、非常に高速な速度でデータを継続的に生成します。 この連続的なデータのフローは、コンテンツ(投稿、ニュース、製品、コメントなど)だけでなく、評価、ビュー、読み込み、クリックといったユーザーからのフィードバックや、コンテキストデータ(ユーザデバイス、空間データ、時間データ、ユーザタスク、アクティビティ、天気など)を含む。 コンテンツ、コンテキスト、ユーザの好み、意図の継続的かつ潜在的に高速な変更を考えると、バッチでトレーニングするように設計されたシステムやアルゴリズムでは、これは圧倒的に多い。 したがって、オンラインサービスの本質的ダイナミクスに透過的に適応できるオンライン手法を検討することが重要である。 データストリームから学習するインクリメンタルモデルは、動的で複雑な環境で生成されたデータの継続的なフローを扱う自然の能力を考えると、レコメンデータシステムコミュニティで注目を集めている。 ユーザーモデリングとパーソナライゼーションは、モデルをインクリメンタルかつオンラインに維持できるアルゴリズムの恩恵を受ける。 本ワークショップの目的は,ユーザのモデリング,レコメンデーション,パーソナライゼーション,評価,再現性,プライバシ,説明可能性といった多面的な側面に対する,オンライン的かつ適応的なアプローチに関心を持つ研究者や実践者のコミュニティを集結させることである。

Modern online services continuously generate data at very fast rates. This continuous flow of data encompasses content -- e.g., posts, news, products, comments --, but also user feedback -- e.g., ratings, views, reads, clicks --, together with context data -- user device, spatial or temporal data, user task or activity, weather. This can be overwhelming for systems and algorithms designed to train in batches, given the continuous and potentially fast change of content, context and user preferences or intents. Therefore, it is important to investigate online methods able to transparently adapt to the inherent dynamics of online services. Incremental models that learn from data streams are gaining attention in the recommender systems community, given their natural ability to deal with the continuous flows of data generated in dynamic, complex environments. User modeling and personalization can particularly benefit from algorithms capable of maintaining models incrementally and online. The objective of this workshop is to foster contributions and bring together a growing community of researchers and practitioners interested in online, adaptive approaches to user modeling, recommendation and personalization, and their implications regarding multiple dimensions, such as evaluation, reproducibility, privacy and explainability.
翻訳日:2022-01-17 14:37:05 公開日:2022-01-12
# (参考訳) 変分オートエンコーダにおけるニューラルodeを用いた生成時系列モデル [全文訳有]

Generative time series models using Neural ODE in Variational Autoencoders ( http://arxiv.org/abs/2201.04630v1 )

ライセンス: CC BY 4.0
M. L. Garsdal, V. S{\o}gaard, S. M. S{\o}rensen(参考訳) 本稿では,生成時系列モデリングのための変分オートエンコーダ設定にニューラル正規微分方程式を実装した。 https://github.com/s imonmoesorensen/neur al-ode-project 結果が最初に再現され、ベースラインのLong-Short Term Memory AutoEncoderと比較して再構築された。 このモデルはLSTMエンコーダで拡張され、バネ振動の形で時系列からなるより複雑なデータに挑戦された。 このモデルはpromiseを示し、ベースラインモデルよりも小さいrmseで全ての複雑なデータに対する真の軌道を再構築することができた。 しかし、デコーダ内の既知のデータに対する時系列の動的な挙動をキャプチャすることはできたが、springデータのあらゆる複雑さに対して、真の軌道に従う外挿を生成できなかった。 最終的な実験では、68日間のソーラー発電データも提示され、ごくわずかなデータでもベースラインと同様に再構築することができた。 最後に,モデルのトレーニング時間をベースラインと比較した。 その結果、少量のデータでは、ノードメソッドはベースラインよりもトレーニングが著しく遅く、より多くのデータでは、ノードメソッドはトレーニング時に等しく、あるいは高速であることが判明した。 本論文は,本論文における作業に対する多くの自然な拡張を記述した将来的な作業セクションで終了し,ベースラインモデルの補間や,より具体的なモデル設定のテストなど,入力データの重要性についてさらに検討する例を示した。

In this paper, we implement Neural Ordinary Differential Equations in a Variational Autoencoder setting for generative time series modeling. An object-oriented approach to the code was taken to allow for easier development and research and all code used in the paper can be found here: https://github.com/s imonmoesorensen/neur al-ode-project The results were initially recreated and the reconstructions compared to a baseline Long-Short Term Memory AutoEncoder. The model was then extended with a LSTM encoder and challenged by more complex data consisting of time series in the form of spring oscillations. The model showed promise, and was able to reconstruct true trajectories for all complexities of data with a smaller RMSE than the baseline model. However, it was able to capture the dynamic behavior of the time series for known data in the decoder but was not able to produce extrapolations following the true trajectory very well for any of the complexities of spring data. A final experiment was carried out where the model was also presented with 68 days of solar power production data, and was able to reconstruct just as well as the baseline, even when very little data is available. Finally, the models training time was compared to the baseline. It was found that for small amounts of data the NODE method was significantly slower at training than the baseline, while for larger amounts of data the NODE method would be equal or faster at training. The paper is ended with a future work section which describes the many natural extensions to the work presented in this paper, with examples being investigating further the importance of input data, including extrapolation in the baseline model or testing more specific model setups.
翻訳日:2022-01-15 04:08:43 公開日:2022-01-12
# (参考訳) 磁気共鳴画像脳スキャンによるパーキンソン病の早期診断とその特徴 [全文訳有]

Early Diagnosis of Parkinsons Disease by Analyzing Magnetic Resonance Imaging Brain Scans and Patient Characteristics ( http://arxiv.org/abs/2201.04631v1 )

ライセンス: CC BY 4.0
Sabrina Zhu(参考訳) パーキンソン病(英: Parkinsons disease, PD)は、運動能力に影響を及ぼし、震えや剛性などの症状を含む慢性疾患である。 現在の診断法では、患者の評価を用いて症状を評価し、時にはMRIやMRIで診断する。 しかし、症状の変化は不正確な評価を引き起こし、MRIスキャンの分析には経験豊富な専門家が必要である。 本研究では,パーキンソン病進行マーカーイニシアチブデータベースの症状データとmriデータを組み合わせて,深層学習によるpd重症度を正確に診断することを提案する。 臨床データの両形態を完全に活用するために新しいハイブリッドモデルアーキテクチャが実装され、症状のみに基づくモデルとMRIスキャンのみに基づくモデルも開発された。 症状に基づくモデルは、完全に接続されたディープラーニングニューラルネットワークを統合し、MRIスキャンとハイブリッドモデルは、転送学習に基づく畳み込みニューラルネットワークを統合する。 2値分類のみを行う代わりに、全てのモデルが患者を5つの重篤なカテゴリーに分類し、ステージ0は健康な患者、ステージ4とステージ5はPDの患者を代表している。 症状のみ、MRIスキャンのみ、ハイブリッドモデルはそれぞれ0.77、0.68、0.94の精度を達成した。 ハイブリッドモデルは精度が高く、リコールスコアは 0.94 と 0.95 であった。 実際の臨床例では、患者は他のモデルと誤って分類されたが、ハイブリッドによって正しく分類された。 また、5つの重症度ステージをまたいで一貫性があり、正確な早期検出を示す。 これは、症状データとMRIスキャンと、このような大規模な機械学習アプローチを組み合わせた最初のレポートである。

Parkinsons disease, PD, is a chronic condition that affects motor skills and includes symptoms like tremors and rigidity. The current diagnostic procedure uses patient assessments to evaluate symptoms and sometimes a magnetic resonance imaging or MRI scan. However, symptom variations cause inaccurate assessments, and the analysis of MRI scans requires experienced specialists. This research proposes to accurately diagnose PD severity with deep learning by combining symptoms data and MRI data from the Parkinsons Progression Markers Initiative database. A new hybrid model architecture was implemented to fully utilize both forms of clinical data, and models based on only symptoms and only MRI scans were also developed. The symptoms based model integrates a fully connected deep learning neural network, and the MRI scans and hybrid models integrate transfer learning based convolutional neural networks. Instead of performing only binary classification, all models diagnose patients into five severity categories, with stage zero representing healthy patients and stages four and five representing patients with PD. The symptoms only, MRI scans only, and hybrid models achieved accuracies of 0.77, 0.68, and 0.94, respectively. The hybrid model also had high precision and recall scores of 0.94 and 0.95. Real clinical cases confirm the strong performance of the hybrid, where patients were classified incorrectly with both other models but correctly by the hybrid. It is also consistent across the five severity stages, indicating accurate early detection. This is the first report to combine symptoms data and MRI scans with a machine learning approach on such a large scale.
翻訳日:2022-01-15 04:00:58 公開日:2022-01-12
# (参考訳) AI安全における臨界の概念 [全文訳有]

The Concept of Criticality in AI Safety ( http://arxiv.org/abs/2201.04632v1 )

ライセンス: CC BY 4.0
Yitzhak Spielberg, Amos Azaria(参考訳) AIエージェントが行動と人間の価値観を一致させなければ、深刻な害を引き起こす可能性がある。 価値アライメント問題を解決する一つの方法は、エージェントのすべてのアクションを監視する人間のオペレータを含むことである。 このソリューションが最大限の安全性を保証しているにもかかわらず、人間オペレーターがエージェントにすべての注意を捧げる必要があるため、非常に非効率である。 本稿では,オペレータが監視タスクを無視することなく,他の活動に携わることができる,より効率的なソリューションを提案する。 我々のアプローチでは、AIエージェントは、クリティカルアクション、すなわち潜在的に有害なアクションに対してのみ、オペレータから許可を要求する。 本稿では,AIの安全性に関する批判行動の概念を紹介し,行動臨界度を測定するモデルの構築方法について論じる。 また,操作者のフィードバックを使ってエージェントをより賢くする方法についても論じる。

When AI agents don't align their actions with human values they may cause serious harm. One way to solve the value alignment problem is by including a human operator who monitors all of the agent's actions. Despite the fact, that this solution guarantees maximal safety, it is very inefficient, since it requires the human operator to dedicate all of his attention to the agent. In this paper, we propose a much more efficient solution that allows an operator to be engaged in other activities without neglecting his monitoring task. In our approach the AI agent requests permission from the operator only for critical actions, that is, potentially harmful actions. We introduce the concept of critical actions with respect to AI safety and discuss how to build a model that measures action criticality. We also discuss how the operator's feedback could be used to make the agent smarter.
翻訳日:2022-01-15 03:50:01 公開日:2022-01-12
# (参考訳) AI支援教育における課題難解の啓発 [全文訳有]

Revelation of Task Difficulty in AI-aided Education ( http://arxiv.org/abs/2201.04633v1 )

ライセンス: CC BY 4.0
Yitzhak Spielberg, Amos Azaria(参考訳) 学生が与えられたタスクを実行するように依頼されると、そのタスクの難しさを主観的に見積もることが、彼女のパフォーマンスに強い影響を与える。 タスクの難しさがパフォーマンスとモチベーションに与える影響について、豊富な文献がある。 しかし、前回の研究では特に注目されなかった課題難易度の影響、すなわち学生に対する課題の真の難易度を明らかにすることの影響について、密接に関係している別の話題がある。 本報告では,作業課題の難しさが学生のパフォーマンス,モチベーション,自己効力感,主観的課題価値に与える影響を,作業者に対して検討した。 さらに,ai支援教育における実験結果の意義について考察する。 具体的には,課題の難易度を予測するaiシステムと,課題の難易度をいつ明かすべきかを判断するaiシステムである。

When a student is asked to perform a given task, her subjective estimate of the difficulty of that task has a strong influence on her performance. There exists a rich literature on the impact of perceived task difficulty on performance and motivation. Yet, there is another topic that is closely related to the subject of the influence of perceived task difficulty that did not receive any attention in previous research - the influence of revealing the true difficulty of a task to the student. This paper investigates the impact of revealing the task difficulty on the student's performance, motivation, self-efficacy and subjective task value via an experiment in which workers are asked to solve matchstick riddles. Furthermore, we discuss how the experiment results might be relevant for AI-aided education. Specifically, we elaborate on the question of how a student's learning experience might be improved by supporting her with two types of AI systems: an AI system that predicts task difficulty and an AI system that determines when task difficulty should be revealed and when not.
翻訳日:2022-01-15 03:43:01 公開日:2022-01-12
# (参考訳) 深層強化学習による季節的需要とリードタイムの不確実性を有するマルチケロンサプライチェーン

Multi-echelon Supply Chains with Uncertain Seasonal Demands and Lead Times Using Deep Reinforcement Learning ( http://arxiv.org/abs/2201.04651v1 )

ライセンス: CC BY 4.0
Julio C\'esar Alves and Geraldo Robson Mateus(参考訳) 複数エキロン系サプライチェーンにおける生産計画と流通の問題に対処する。 問題を確率的かつ非線形にする不確実な要求とリードタイムについて検討する。 マルコフ決定過程の定式化と非線形計画モデルを提案する。 逐次的な意思決定問題として、深層強化学習(rl)は可能なソリューションアプローチである。 この種の技術は近年、人工知能と最適化コミュニティから多くの注目を集めている。 異なる分野におけるDeep RLアプローチによる良好な結果を考えると,運用研究分野の課題に応用することへの関心が高まっている。 我々は、不確実性、規則的、季節的要求、定常的、確率的リード時間を考慮するために、Deep RL技術、すなわちPPO2を用いている。 異なるシナリオで実験を行い、アルゴリズムの適合性をよりよく評価する。 線形化モデルに基づくエージェントをベースラインとして使用する。 実験の結果, PPO2はこの種の問題に対して, 競合的かつ適切なツールであることがわかった。 PPO2は、要求が季節的かどうかに関わらず、確率的リードタイム(7.3-11.2%)の全てのシナリオにおいてベースラインよりも優れている。 一定のリード時間を持つシナリオでは、不確実な要求がノンシーズン(2.2-4.7%)である場合、PPO2エージェントの方が優れている。 その結果、シナリオの不確実性が大きいほど、この種のアプローチの生存可能性が高くなることがわかった。

We address the problem of production planning and distribution in multi-echelon supply chains. We consider uncertain demands and lead times which makes the problem stochastic and non-linear. A Markov Decision Process formulation and a Non-linear Programming model are presented. As a sequential decision-making problem, Deep Reinforcement Learning (RL) is a possible solution approach. This type of technique has gained a lot of attention from Artificial Intelligence and Optimization communities in recent years. Considering the good results obtained with Deep RL approaches in different areas there is a growing interest in applying them in problems from the Operations Research field. We have used a Deep RL technique, namely Proximal Policy Optimization (PPO2), to solve the problem considering uncertain, regular and seasonal demands and constant or stochastic lead times. Experiments are carried out in different scenarios to better assess the suitability of the algorithm. An agent based on a linearized model is used as a baseline. Experimental results indicate that PPO2 is a competitive and adequate tool for this type of problem. PPO2 agent is better than baseline in all scenarios with stochastic lead times (7.3-11.2%), regardless of whether demands are seasonal or not. In scenarios with constant lead times, the PPO2 agent is better when uncertain demands are non-seasonal (2.2-4.7%). The results show that the greater the uncertainty of the scenario, the greater the viability of this type of approach.
翻訳日:2022-01-15 03:30:59 公開日:2022-01-12
# (参考訳) BigDatasetGAN: Pixel 対応アノテーションによる ImageNet の合成 [全文訳有]

BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations ( http://arxiv.org/abs/2201.04684v1 )

ライセンス: CC BY 4.0
Daiqing Li, Huan Ling, Seung Wook Kim, Karsten Kreis, Adela Barriuso, Sanja Fidler, Antonio Torralba(参考訳) 画像にピクセル単位のラベルを付けることは、時間とコストのかかるプロセスである。 最近、DatasetGANは、GAN(Generative Adversarial Network)を通じて、手動でラベル付けされたGAN生成イメージの小さなセットを活用することで、大きなラベル付きデータセットを合成する、有望な代替手段を披露した。 ここでは、DatasetGANをクラス多様性のImageNetスケールにスケールする。 我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。 BigGANの上に効果的な機能セグメンテーションアーキテクチャをトレーニングすることで、BigGANをラベル付きデータセットジェネレータにする。 さらに、VQGANは、すでにアノテーション付きデータを活用して、データセットジェネレータとして機能することを示す。 我々は8k実画像の追加セットをラベル付けし、セグメンテーション性能を様々な設定で評価することで、新しいimagenetベンチマークを作成する。 広範なアブレーション研究を通じて、ピクセル毎のタスクで異なる教師付きおよび自己教師付きバックボーンモデルをトレーニングするために、大規模なデータセットを活用することで大きな成果が得られた。 さらに, 合成データセットを事前トレーニングに使用すると, PASCAL-VOC, MS-COCO, Cityscapes, 胸部X線などの下流データセットの標準的なImageNet事前トレーニングやタスク(検出, セグメンテーション)の改善が期待できる。 私たちのベンチマークは公開され、この挑戦的なタスクのリーダーボードを維持します。 プロジェクトページ: https://nv-tlabs.git hub.io/big-datasetga n/

Annotating images with pixel-wise labels is a time-consuming and costly process. Recently, DatasetGAN showcased a promising alternative - to synthesize a large labeled dataset via a generative adversarial network (GAN) by exploiting a small set of manually labeled, GAN-generated images. Here, we scale DatasetGAN to ImageNet scale of class diversity. We take image samples from the class-conditional generative model BigGAN trained on ImageNet, and manually annotate 5 images per class, for all 1k classes. By training an effective feature segmentation architecture on top of BigGAN, we turn BigGAN into a labeled dataset generator. We further show that VQGAN can similarly serve as a dataset generator, leveraging the already annotated data. We create a new ImageNet benchmark by labeling an additional set of 8k real images and evaluate segmentation performance in a variety of settings. Through an extensive ablation study we show big gains in leveraging a large generated dataset to train different supervised and self-supervised backbone models on pixel-wise tasks. Furthermore, we demonstrate that using our synthesized datasets for pre-training leads to improvements over standard ImageNet pre-training on several downstream datasets, such as PASCAL-VOC, MS-COCO, Cityscapes and chest X-ray, as well as tasks (detection, segmentation). Our benchmark will be made public and maintain a leaderboard for this challenging task. Project Page: https://nv-tlabs.git hub.io/big-datasetga n/
翻訳日:2022-01-15 03:29:49 公開日:2022-01-12
# (参考訳) リカレント強化学習暗号エージェント [全文訳有]

The Recurrent Reinforcement Learning Crypto Agent ( http://arxiv.org/abs/2201.04699v1 )

ライセンス: CC BY 4.0
Gabriel Borrageiro, Nick Firoozye, Paolo Barucca(参考訳) デジタル資産取引エージェントとしてのオンライントランスファー学習の応用を実証する。 このエージェントは、エコー状態ネットワークの形式で強力な特徴空間表現を使用しており、その出力は、直接的かつ反復的な強化学習エージェントに利用可能である。 エージェントは、BitMEX上でXBTUSD(Bitcoin対US$)の永久スワップデリバティブ契約を交換することを学ぶ。 5分間のサンプルデータで日中取引することを学び、過剰なオーバートレーディングを避け、資金調達利益を捉え、市場の方向性を予測することもできる。 われわれの暗号エージェントは、総リターンが350%、取引コストが1株当たり約5年で、うち71%が利益の源泉だ、と認識している。 年間情報の比率は1.46である。

We demonstrate an application of online transfer learning as a digital assets trading agent. This agent makes use of a powerful feature space representation in the form of an echo state network, the output of which is made available to a direct, recurrent reinforcement learning agent. The agent learns to trade the XBTUSD (Bitcoin versus US dollars) perpetual swap derivatives contract on BitMEX. It learns to trade intraday on five minutely sampled data, avoids excessive over-trading, captures a funding profit and is also able to predict the direction of the market. Overall, our crypto agent realises a total return of 350%, net of transaction costs, over roughly five years, 71% of which is down to funding profit. The annualised information ratio that it achieves is 1.46.
翻訳日:2022-01-15 02:50:05 公開日:2022-01-12
# (参考訳) 天文音源検出・偏向のための部分属性インスタンス分割 [全文訳有]

Partial-Attribution Instance Segmentation for Astronomical Source Detection and Deblending ( http://arxiv.org/abs/2201.04714v1 )

ライセンス: CC BY 4.0
Ryan Hausen, Brant Robertson(参考訳) 天文学的源分解(英: astronomical source deblending)とは、個々の恒星や銀河(源)が複数の、おそらく重複する源からなる画像への寄与を分離する過程である。 天文学の情報源は幅広い大きさと明るさを示し、画像にかなりの重複が見られる可能性がある。 天体画像データは、高ダイナミックレンジ、低信号対雑音比、非伝統的な画像フォーマットのため、既成のコンピュータビジョンアルゴリズムにさらに挑戦することができる。 これらの課題により、ソースデブレイディングは天文学研究のオープン領域となり、本研究では、ソース検出とデブレイディングを可能にする部分帰属インスタンスセグメンテーションと呼ばれる新しいアプローチを導入する。 本手法の実証として,新しいニューラルネットワークの実装を提案する。

Astronomical source deblending is the process of separating the contribution of individual stars or galaxies (sources) to an image comprised of multiple, possibly overlapping sources. Astronomical sources display a wide range of sizes and brightnesses and may show substantial overlap in images. Astronomical imaging data can further challenge off-the-shelf computer vision algorithms owing to its high dynamic range, low signal-to-noise ratio, and unconventional image format. These challenges make source deblending an open area of astronomical research, and in this work, we introduce a new approach called Partial-Attribution Instance Segmentation that enables source detection and deblending in a manner tractable for deep learning models. We provide a novel neural network implementation as a demonstration of the method.
翻訳日:2022-01-15 02:36:38 公開日:2022-01-12
# (参考訳) Local2Global: グラフ上で表現学習をスケールするための分散アプローチ [全文訳有]

Local2Global: A distributed approach for scaling representation learning on graphs ( http://arxiv.org/abs/2201.04729v1 )

ライセンス: CC BY 4.0
Lucas G. S. Jeub, Giovanni Colavizza, Xiaowen Dong, Marya Bazzi, Mihai Cucuringu(参考訳) 本稿では,グラフ表現学習における分散型「ローカル2言語」アプローチを提案する。 local2globalアプローチでは、まず入力グラフを重複するサブグラフ(あるいは"パッチ")に分割し、各パッチのローカル表現を独立してトレーニングします。 第2のステップでは、局所表現を大域的に一貫した表現に組み合わせ、グループ同期を通じてパッチからの情報を用いて局所表現を最良に整列する剛体運動の集合を推定する。 既存の作業に対するローカル2グロバルの重要な特徴は、パッチが分散トレーニング中にしばしばコストのかかるパラメータ同期を必要とせずに独立してトレーニングされることである。 これによりローカル2グロバルは、入力グラフがメモリに収まらず、分散的に保存されるような大規模産業アプリケーションにスケールすることができる。 異なる大きさのデータセットにlocal2globalを適用し,エッジリコンストラクションと半教師付き分類において,スケールと精度のトレードオフが良好であることを示す。 また、異常検出の下流タスクについても検討し、ローカル2globalを使ってサイバーセキュリティネットワークの異常を強調できることを示す。

We propose a decentralised "local2global"' approach to graph representation learning, that one can a-priori use to scale any embedding technique. Our local2global approach proceeds by first dividing the input graph into overlapping subgraphs (or "patches") and training local representations for each patch independently. In a second step, we combine the local representations into a globally consistent representation by estimating the set of rigid motions that best align the local representations using information from the patch overlaps, via group synchronization. A key distinguishing feature of local2global relative to existing work is that patches are trained independently without the need for the often costly parameter synchronization during distributed training. This allows local2global to scale to large-scale industrial applications, where the input graph may not even fit into memory and may be stored in a distributed manner. We apply local2global on data sets of different sizes and show that our approach achieves a good trade-off between scale and accuracy on edge reconstruction and semi-supervised classification. We also consider the downstream task of anomaly detection and show how one can use local2global to highlight anomalies in cybersecurity networks.
翻訳日:2022-01-15 02:29:44 公開日:2022-01-12
# ニューラルネットワークカーネルと記憶容量問題について

On neural network kernels and the storage capacity problem ( http://arxiv.org/abs/2201.04669v1 )

ライセンス: Link先を確認
Jacob A. Zavatone-Veth and Cengiz Pehlevan(参考訳) 本稿では,広層木状ニューラルネットワークにおける記憶容量問題と,広層ニューラルネットワークのカーネル限界に関する文献群との関係について再検討する。 具体的には、統計力学の文献で研究されている「効率的な順序パラメータ」は、無限幅ニューラルネットワークガウス過程カーネルと全く同じである。 この対応は、幅広い2層ニューラルネットワークの表現性とトレーサビリティを接続する。

In this short note, we reify the connection between work on the storage capacity problem in wide two-layer treelike neural networks and the rapidly-growing body of literature on kernel limits of wide neural networks. Concretely, we observe that the "effective order parameter" studied in the statistical mechanics literature is exactly equivalent to the infinite-width Neural Network Gaussian Process Kernel. This correspondence connects the expressivity and trainability of wide two-layer neural networks.
翻訳日:2022-01-14 15:14:00 公開日:2022-01-12
# 機械学習アルゴリズムを用いた脳腫瘍の検出

Detection of brain tumors using machine learning algorithms ( http://arxiv.org/abs/2201.04703v1 )

ライセンス: Link先を確認
Horacio Corral, Javier Melchor, Balam Sotelo, Jorge Vera(参考訳) 機械学習技術を用いて脳腫瘍の存在を検出するため,NMR画像の処理が可能なアルゴリズムを開発した。

An algorithm capable of processing NMR images was developed for analysis using machine learning techniques to detect the presence of brain tumors.
翻訳日:2022-01-14 15:13:54 公開日:2022-01-12
# ネットワーク用無線エッジにおけるマルチモーダルセンサデータの深層学習

Deep Learning on Multimodal Sensor Data at the Wireless Edge for Vehicular Network ( http://arxiv.org/abs/2201.04712v1 )

ライセンス: Link先を確認
Batool Salehi, Guillem Reus-Muns, Debashri Roy, Zifeng Wang, Tong Jian, Jennifer Dy, Stratis Ioannidis, and Kaushik Chowdhury(参考訳) 車両シナリオにおけるミリ波リンクのビーム選択は、全ての候補ビーム対間の徹底的な探索が短時間で完了できないため、難しい問題である。 我々は,LiDARやカメラ画像,GPSなどのセンサから収集したマルチモーダルデータを活用することで,ビーム選択の高速化によってこの問題を解決する。 本稿では,モバイルエッジコンピューティングセンター(MEC)において,ローカルだけでなくローカルでも実行可能な,個別のモダリティと分散融合型ディープラーニング(F-DL)アーキテクチャを提案する。 また,上述のf-dlアーキテクチャの出力次元を決定するために,実用的なビーム探索,mec処理,センサ対mecデータ配信遅延オーバーヘッドを考慮した最適化問題を定式化し,解決する。 市販の合成データと自家製データを用いた広範な評価の結果, 従来のrfのみのビームスイーピングに比べて, ビーム選択速度が95%, 96%向上したことがわかった。 f-dlはまた、トップ10ビーム対の予測において20-22%の精度で最先端技術を上回る。

Beam selection for millimeter-wave links in a vehicular scenario is a challenging problem, as an exhaustive search among all candidate beam pairs cannot be assuredly completed within short contact times. We solve this problem via a novel expediting beam selection by leveraging multimodal data collected from sensors like LiDAR, camera images, and GPS. We propose individual modality and distributed fusion-based deep learning (F-DL) architectures that can execute locally as well as at a mobile edge computing center (MEC), with a study on associated tradeoffs. We also formulate and solve an optimization problem that considers practical beam-searching, MEC processing and sensor-to-MEC data delivery latency overheads for determining the output dimensions of the above F-DL architectures. Results from extensive evaluations conducted on publicly available synthetic and home-grown real-world datasets reveal 95% and 96% improvement in beam selection speed over classical RF-only beam sweeping, respectively. F-DL also outperforms the state-of-the-art techniques by 20-22% in predicting top-10 best beam pairs.
翻訳日:2022-01-14 15:13:52 公開日:2022-01-12
# 機械学習がスペクトル共有セキュリティを満たすとき:方法論と課題

When Machine Learning Meets Spectrum Sharing Security: Methodologies and Challenges ( http://arxiv.org/abs/2201.04677v1 )

ライセンス: Link先を確認
Qun Wang, Haijian Sun, Rose Qingyang Hu, Arupjyoti Bhuyan(参考訳) インターネット接続システムの指数的成長は、効率的なスペクトル共有(SS)ソリューションを必要とするスペクトル不足問題など、多くの課題を引き起こしている。 複雑な動的SSシステムは、さまざまな潜在的なセキュリティとプライバシの問題に晒され、適応性、信頼性、スケーラブルな保護メカニズムが要求される。 これらの問題に対処するために機械学習(ML)ベースの手法が頻繁に提案されている。 本稿では,MLベースのSS手法の最近の開発状況,最も重要なセキュリティ問題,およびそれに対応する防御機構について,包括的に調査する。 特に、MLベースの認知無線ネットワーク(CRN)、MLベースのデータベース支援SSネットワーク、MLベースのLTE-Uネットワーク、MLベースの環境後方散乱ネットワーク、その他のMLベースのSSソリューションなど、様々な重要な側面において、SS通信システムの性能向上のための最先端手法について詳しく述べる。 また,物理層からのセキュリティ問題や,プライマリユーザエミュレーション(pue)攻撃,スペクトルセンシングデータ改ざん(ssdf)攻撃,ジャミング攻撃,盗聴攻撃,プライバシ問題など,mlアルゴリズムに基づく防御戦略も提示する。 最後に、MLベースのSSのオープンチャレンジに関する広範な議論も行われる。 この総合的なレビューは、ますます複雑なSSとそのセキュリティ問題に対処するための新興MLの可能性を探究するための基盤を提供し、促進することを目的としている。

The exponential growth of internet connected systems has generated numerous challenges, such as spectrum shortage issues, which require efficient spectrum sharing (SS) solutions. Complicated and dynamic SS systems can be exposed to different potential security and privacy issues, requiring protection mechanisms to be adaptive, reliable, and scalable. Machine learning (ML) based methods have frequently been proposed to address those issues. In this article, we provide a comprehensive survey of the recent development of ML based SS methods, the most critical security issues, and corresponding defense mechanisms. In particular, we elaborate the state-of-the-art methodologies for improving the performance of SS communication systems for various vital aspects, including ML based cognitive radio networks (CRNs), ML based database assisted SS networks, ML based LTE-U networks, ML based ambient backscatter networks, and other ML based SS solutions. We also present security issues from the physical layer and corresponding defending strategies based on ML algorithms, including Primary User Emulation (PUE) attacks, Spectrum Sensing Data Falsification (SSDF) attacks, jamming attacks, eavesdropping attacks, and privacy issues. Finally, extensive discussions on open challenges for ML based SS are also given. This comprehensive review is intended to provide the foundation for and facilitate future studies on exploring the potential of emerging ML for coping with increasingly complex SS and their security problems.
翻訳日:2022-01-14 15:10:32 公開日:2022-01-12
# パラメータ下ニューラルネットワークにおけるMSE勾配最適化の入射バイアス

Implicit Bias of MSE Gradient Optimization in Underparameterized Neural Networks ( http://arxiv.org/abs/2201.04738v1 )

ライセンス: Link先を確認
Benjamin Bowman and Guido Montufar(参考訳) 勾配流による平均二乗誤差を最適化する際の関数空間におけるニューラルネットワークのダイナミクスについて検討する。 ネットワークは, 固有値に対応する速度で, ニューラルタンジェントカーネル(NTK)によって決定される積分作用素$T_{K^\infty}$の固有関数を学習することを示した。 例えば、球面 $S^{d - 1}$ 上の均一分布データと回転不変量分布に対して、$T_{K^\infty}$ の固有函数は球面調和である。 本研究の結果は, 偏光状態のスペクトルバイアスを記述したものと解釈できる。 証明は「ダンプされた偏差」という概念を用いており、NTKの偏差は減衰係数の出現による大きな固有値を持つ固有方向に対してより少ない。 過パラメータ化体制の他に、減衰偏差点を用いて、過パラメータ化環境における経験的リスクのダイナミクスを追跡し、文献における特定の結果を拡張することができる。 減衰偏差は、二乗誤差を最適化する際のダイナミクスの単純で統一的な視点を与えると結論づける。

We study the dynamics of a neural network in function space when optimizing the mean squared error via gradient flow. We show that in the underparameterized regime the network learns eigenfunctions of an integral operator $T_{K^\infty}$ determined by the Neural Tangent Kernel (NTK) at rates corresponding to their eigenvalues. For example, for uniformly distributed data on the sphere $S^{d - 1}$ and rotation invariant weight distributions, the eigenfunctions of $T_{K^\infty}$ are the spherical harmonics. Our results can be understood as describing a spectral bias in the underparameterized regime. The proofs use the concept of "Damped Deviations", where deviations of the NTK matter less for eigendirections with large eigenvalues due to the occurence of a damping factor. Aside from the underparameterized regime, the damped deviations point-of-view can be used to track the dynamics of the empirical risk in the overparameterized setting, allowing us to extend certain results in the literature. We conclude that damped deviations offers a simple and unifying perspective of the dynamics when optimizing the squared error.
翻訳日:2022-01-14 14:07:50 公開日:2022-01-12
# 条件付き生成モデルインバージョンによる逆ロバスト分類

Adversarially Robust Classification by Conditional Generative Model Inversion ( http://arxiv.org/abs/2201.04733v1 )

ライセンス: Link先を確認
Mitra Alirezaei, Tolga Tasdizen(参考訳) ほとんどの敵の攻撃防御方法は難解な勾配に依存している。 これらの方法は勾配に基づく攻撃に対する防御に成功しているが、勾配を使わない攻撃や修正した勾配を近似して使用する攻撃によって容易に回避できる。 敵の訓練のような勾配を遠ざけない防御は存在するが、これらのアプローチは一般的にその大きさのような攻撃を想定している。 本稿では,攻撃の事前知識を仮定することなく,勾配を曖昧にせず,構造的に堅牢な分類モデルを提案する。 提案手法では,非摂動型自然画像に訓練された条件付きジェネレータを「反転」し,クエリ画像に最も近いサンプルを生成するクラスを探索する最適化問題として分類を行う。 敵の攻撃に対する脆さの潜在的源はフィードフォワード分類器の高次元から低次元の性質であり、敵は入力空間の小さな摂動を発見でき、出力空間に大きな変化をもたらすと仮定する。 一方、生成モデルは典型的には低次元から高次元の写像である。 本手法はDefense-GANと関係があるが,フィードフォワード分類器の代わりに条件付き生成モデルとモデル内の逆変換を用いることは重要な違いである。 難解な勾配を生成することが示されるDefense-GANとは異なり,本手法は勾配を難読化しない。 我々は,本モデルがブラックボックス攻撃に対して極めて堅牢であることを示し,自然に訓練されたフィードフォワード分類器と比較して,ホワイトボックス攻撃に対するロバスト性を改善した。

Most adversarial attack defense methods rely on obfuscating gradients. These methods are successful in defending against gradient-based attacks; however, they are easily circumvented by attacks which either do not use the gradient or by attacks which approximate and use the corrected gradient. Defenses that do not obfuscate gradients such as adversarial training exist, but these approaches generally make assumptions about the attack such as its magnitude. We propose a classification model that does not obfuscate gradients and is robust by construction without assuming prior knowledge about the attack. Our method casts classification as an optimization problem where we "invert" a conditional generator trained on unperturbed, natural images to find the class that generates the closest sample to the query image. We hypothesize that a potential source of brittleness against adversarial attacks is the high-to-low-dimensio nal nature of feed-forward classifiers which allows an adversary to find small perturbations in the input space that lead to large changes in the output space. On the other hand, a generative model is typically a low-to-high-dimensio nal mapping. While the method is related to Defense-GAN, the use of a conditional generative model and inversion in our model instead of the feed-forward classifier is a critical difference. Unlike Defense-GAN, which was shown to generate obfuscated gradients that are easily circumvented, we show that our method does not obfuscate gradients. We demonstrate that our model is extremely robust against black-box attacks and has improved robustness against white-box attacks compared to naturally trained, feed-forward classifiers.
翻訳日:2022-01-14 14:07:11 公開日:2022-01-12
# グラフニューラルネットワークは文書検索にどのように役立つか:概念マップ生成によるCORD19の事例研究

How Can Graph Neural Networks Help Document Retrieval: A Case Study on CORD19 with Concept Map Generation ( http://arxiv.org/abs/2201.04672v1 )

ライセンス: Link先を確認
Hejie Cui, Jiaying Lu, Yao Ge, Carl Yang(参考訳) グラフニューラルネットワーク(GNN)は、不規則なデータ上での学習を表現する強力なツールの集まりであり、様々な下流タスクにおいて優位性を示している。 非構造化テキストを概念マップとして表現することで、gnnを文書検索などのタスクに活用することができる。 GNNが文書検索にどのように役立つかに興味を持ち、大規模多分野データセット CORD-19 を実証研究する。 GINやGATのような複雑な構造指向GNNの代わりに,提案したセマンティクス指向グラフ関数は,BM25検索した候補に基づいて,より優れた,より安定した性能を実現する。 本研究の知見は,文書検索や分類といったテキスト推論タスクに適切な意味論的帰納的バイアスを持つ効果的なgnnを開発するための,今後の作業のガイドラインとなる。 このケーススタディのコードは、https://github.com/H ennyJie/GNN-DocRetri eval.comで公開されている。

Graph neural networks (GNNs), as a group of powerful tools for representation learning on irregular data, have manifested superiority in various downstream tasks. With unstructured texts represented as concept maps, GNNs can be exploited for tasks like document retrieval. Intrigued by how can GNNs help document retrieval, we conduct an empirical study on a large-scale multi-discipline dataset CORD-19. Results show that instead of the complex structure-oriented GNNs such as GINs and GATs, our proposed semantics-oriented graph functions achieve better and more stable performance based on the BM25 retrieved candidates. Our insights in this case study can serve as a guideline for future work to develop effective GNNs with appropriate semantics-oriented inductive biases for textual reasoning tasks like document retrieval and classification. All code for this case study is available at https://github.com/H ennyJie/GNN-DocRetri eval.
翻訳日:2022-01-14 14:04:50 公開日:2022-01-12
# 準ポリリノミカル時間における観測可能なPMDPの計画

Planning in Observable POMDPs in Quasipolynomial Time ( http://arxiv.org/abs/2201.04735v1 )

ライセンス: Link先を確認
Noah Golowich, Ankur Moitra, and Dhruv Rohatgi(参考訳) 部分的に観察可能なマルコフ決定過程(POMDPs)は、エージェントの現在の状態に対する不確実性を考慮した強化学習の自然な一般モデルである。 POMDPの文献では、問題の計算が困難であるにもかかわらず、パラメータが知られているときに最適なポリシーを演算するプランニングオラクルへのアクセスを仮定するのが慣例である。 既存の計画アルゴリズムのほとんどすべてが指数関数的に実行されるか、保証可能な性能保証を欠いているか、あるいはあらゆる可能なポリシーの下で遷移ダイナミクスに強い仮定を課す必要がある。 この作業では、計画の問題を再検討し、次のような質問をする。 計画を簡単にする自然で動機づけられた仮定はありますか? 我々の主な成果は、観測可能なPOMDPを計画するための準ポリノミカル時間アルゴリズムである。 具体的には、状態のよく区切られた分布が観測上のよく区切られた分布をもたらすと仮定し、各段階において観測は少なくとも何らかの意味を持つと仮定する。 重要なことに、この仮定はPOMDPの遷移力学に制限を課さないが、しかしながら、準簡潔な記述をほぼ最適に記述することは、一般には正しくない(標準的な硬さの仮定では)。 我々の分析は、フィルタ安定性のための新しい定量的境界、すなわち潜伏状態の最適フィルタがその初期化を忘れる速度に基づいている。 さらに,観測可能なPOMDPの指数時間仮説に基づく計画の整合性を証明する。

Partially Observable Markov Decision Processes (POMDPs) are a natural and general model in reinforcement learning that take into account the agent's uncertainty about its current state. In the literature on POMDPs, it is customary to assume access to a planning oracle that computes an optimal policy when the parameters are known, even though the problem is known to be computationally hard. Almost all existing planning algorithms either run in exponential time, lack provable performance guarantees, or require placing strong assumptions on the transition dynamics under every possible policy. In this work, we revisit the planning problem and ask: are there natural and well-motivated assumptions that make planning easy? Our main result is a quasipolynomial-time algorithm for planning in (one-step) observable POMDPs. Specifically, we assume that well-separated distributions on states lead to well-separated distributions on observations, and thus the observations are at least somewhat informative in each step. Crucially, this assumption places no restrictions on the transition dynamics of the POMDP; nevertheless, it implies that near-optimal policies admit quasi-succinct descriptions, which is not true in general (under standard hardness assumptions). Our analysis is based on new quantitative bounds for filter stability -- i.e. the rate at which an optimal filter for the latent state forgets its initialization. Furthermore, we prove matching hardness for planning in observable POMDPs under the Exponential Time Hypothesis.
翻訳日:2022-01-14 14:04:16 公開日:2022-01-12
# uniformer: 時空間表現学習のための統一トランスフォーマー

Uniformer: Unified Transformer for Efficient Spatiotemporal Representation Learning ( http://arxiv.org/abs/2201.04676v1 )

ライセンス: Link先を確認
Kunchang Li, Yali Wang, Peng Gao, Guanglu Song, Yu Liu, Hongsheng Li, Yu Qiao(参考訳) 高次元ビデオからリッチでマルチスケールな時空間意味学を学ぶことは、局所的冗長性が大きく、ビデオフレーム間の複雑なグローバル依存のため難しい課題である。 この研究の最近の進歩は、主に3次元畳み込みニューラルネットワークと視覚トランスフォーマによるものである。 3D畳み込みは、局所的なコンテキストを効率的に集約して、小さな3D地区からの局所的冗長性を抑えることができるが、受容野が限られているため、グローバルな依存を捉える能力に欠ける。 あるいは、視覚変換器は、各層内の全てのトークン間の盲点類似性比較による局所冗長性の低減に制限を設けながら、自己保持機構による長距離依存性を効果的に捕捉することができる。 そこで本研究では,3次元畳み込みと時空間自己付着の利点を,簡潔なトランスフォーマットにシームレスに統合し,計算と精度のバランスを両立させる新しい統一トランス(uniformer)を提案する。 従来の変圧器とは異なり、我々の関係集約器は、浅層と深層でそれぞれ局所的および大域的トークン親和性を学ぶことにより、時空間冗長性と依存性の両方に取り組むことができる。 我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。 ImageNet-1K事前トレーニングのみで、我々のUniFormerはKineetics-400/Kineti cs-600で82.9%/84.8%のTop-1精度を達成した。 Some-Something V1 と V2 では、UniFormer がそれぞれ 60.9% と 71.2% の最先端性能を実現している。 コードはhttps://github.com/S ense-X/UniFormer.com で入手できる。

It is a challenging task to learn rich and multi-scale spatiotemporal semantics from high-dimensional videos, due to large local redundancy and complex global dependency between video frames. The recent advances in this research have been mainly driven by 3D convolutional neural networks and vision transformers. Although 3D convolution can efficiently aggregate local context to suppress local redundancy from a small 3D neighborhood, it lacks the capability to capture global dependency because of the limited receptive field. Alternatively, vision transformers can effectively capture long-range dependency by self-attention mechanism, while having the limitation on reducing local redundancy with blind similarity comparison among all the tokens in each layer. Based on these observations, we propose a novel Unified transFormer (UniFormer) which seamlessly integrates merits of 3D convolution and spatiotemporal self-attention in a concise transformer format, and achieves a preferable balance between computation and accuracy. Different from traditional transformers, our relation aggregator can tackle both spatiotemporal redundancy and dependency, by learning local and global token affinity respectively in shallow and deep layers. We conduct extensive experiments on the popular video benchmarks, e.g., Kinetics-400, Kinetics-600, and Something-Something V1&V2. With only ImageNet-1K pretraining, our UniFormer achieves 82.9%/84.8% top-1 accuracy on Kinetics-400/Kinetic s-600, while requiring 10x fewer GFLOPs than other state-of-the-art methods. For Something-Something V1 and V2, our UniFormer achieves new state-of-the-art performances of 60.9% and 71.2% top-1 accuracy respectively. Code is available at https://github.com/S ense-X/UniFormer.
翻訳日:2022-01-14 13:57:54 公開日:2022-01-12
# 視覚障害者と視覚障害者のシーンインタラクションのための人間行動のセマンティックラベリング

Semantic Labeling of Human Action For Visually Impaired And Blind People Scene Interaction ( http://arxiv.org/abs/2201.04706v1 )

ライセンス: Link先を確認
Leyla Benhamida, Slimane Larabi(参考訳) 本研究の目的は,視覚障害者と視覚障害者のための触覚装置の開発に寄与し,周囲の人々の行動を理解し,それらと対話することにある。 まず、rgb-d系列からの人間の行動認識の最先端手法に基づいて、kinectが提供するスケルトン情報を用い、不連続で統一された多スケールグラフ畳み込みモデル(ms-g3d)を用いて、動作の認識を行う。 このモデルを実環境でテストし、いくつかの制約と制限を見つけました。 次に,ms-g3dのスケルトンモダリティとcnnの深さモダリティとの融合を適用し,その限界を回避した。 第3に、認識されたアクションは意味的にラベル付けされ、タッチセンスによって認識可能な出力デバイスにマッピングされる。

The aim of this work is to contribute to the development of a tactile device for visually impaired and blind persons in order to let them to understand actions of the surrounding people and to interact with them. First, based on the state-of-the-art methods of human action recognition from RGB-D sequences, we use the skeleton information provided by Kinect, with the disentangled and unified multi-scale Graph Convolutional (MS-G3D) model to recognize the performed actions. We tested this model on real scenes and found some of constraints and limitations. Next, we apply a fusion between skeleton modality with MS-G3D and depth modality with CNN in order to bypass the discussed limitations. Third, the recognized actions are labeled semantically and will be mapped into an output device perceivable by the touch sense.
翻訳日:2022-01-14 13:57:17 公開日:2022-01-12
# Toddler-Guidance Learning: 臨界期がマルチモーダルAIエージェントに与える影響

Toddler-Guidance Learning: Impacts of Critical Period on Multimodal AI Agents ( http://arxiv.org/abs/2201.04990v1 )

ライセンス: Link先を確認
Junseok Park, Kwanyoung Park, Hyunseok Oh, Ganghun Lee, Minsu Lee, Youngki Lee, Byoung-Tak Zhang(参考訳) 臨界期は、幼児の脳がスパルトで発達する段階である。 子どもの認知発達を促進するためには, 適切な指導が重要である。 しかし、AIエージェントの訓練にもそのような臨界期間が存在するかどうかは不明である。 ヒトの幼児と同様、適切な指導とマルチモーダルインタラクションはAIエージェントのトレーニング効率を著しく向上させる可能性がある。 この仮説を検証するため、AIエージェントの学習に臨界周期の概念を適用し、AIエージェントの仮想環境における臨界周期を調査する。 強化学習(RL)フレームワークにおける臨界期間とトドラー指導学習を形式化する。 次に,幼児の学習特性を模倣するvecaツールキットを用いた幼児型環境を構築した。 本研究は,弱いメンター指導(軽度報酬),適度なメンター指導(ヘルパー・リワード),メンター演示(行動クローン)の3つの個別レベルの相互相互作用について検討した。 また,幼児の視点を完全に反映した3万枚の現実画像からなるEAVEデータセットも導入した。 我々は、AIエージェントに対する臨界期間の影響を、ユニモーダル学習とマルチモーダル学習の両方において、どのように、いつ最も指導されるかという2つの視点から評価する。 実験の結果, 指導指導が適度で, 訓練期間が100万, 200万のユニモーダルエージェントとマルチモーダルエージェントの両方で顕著な改善が見られた。 EAVEデータセットの転送学習を用いてこれらの結果を検証し、同じ臨界期間における性能向上とガイダンスを求める。

Critical periods are phases during which a toddler's brain develops in spurts. To promote children's cognitive development, proper guidance is critical in this stage. However, it is not clear whether such a critical period also exists for the training of AI agents. Similar to human toddlers, well-timed guidance and multimodal interactions might significantly enhance the training efficiency of AI agents as well. To validate this hypothesis, we adapt this notion of critical periods to learning in AI agents and investigate the critical period in the virtual environment for AI agents. We formalize the critical period and Toddler-guidance learning in the reinforcement learning (RL) framework. Then, we built up a toddler-like environment with VECA toolkit to mimic human toddlers' learning characteristics. We study three discrete levels of mutual interaction: weak-mentor guidance (sparse reward), moderate mentor guidance (helper-reward), and mentor demonstration (behavioral cloning). We also introduce the EAVE dataset consisting of 30,000 real-world images to fully reflect the toddler's viewpoint. We evaluate the impact of critical periods on AI agents from two perspectives: how and when they are guided best in both uni- and multimodal learning. Our experimental results show that both uni- and multimodal agents with moderate mentor guidance and critical period on 1 million and 2 million training steps show a noticeable improvement. We validate these results with transfer learning on the EAVE dataset and find the performance advancement on the same critical period and the guidance.
翻訳日:2022-01-14 13:08:54 公開日:2022-01-12
# 会話の人的評価はオープンな問題である:対話エージェントの評価のための様々な方法の感度の比較

Human Evaluation of Conversations is an Open Problem: comparing the sensitivity of various methods for evaluating dialogue agents ( http://arxiv.org/abs/2201.04723v1 )

ライセンス: Link先を確認
Eric Michael Smith, Orion Hsu, Rebecca Qian, Stephen Roller, Y-Lan Boureau, Jason Weston(参考訳) 会話AIの改善の中心は、会話を評価するためのオープンな問題である。 自動測定の問題はよく知られている(Liu et al., 2016 arXiv:1603.08023)。 残念なことに、人間の評価を行う方法もまたオープンな問題であり、異なるデータ収集手法は、人間の合意や統計的感度のレベルが異なるため、人間のアノテーション時間と労働コストが異なる。 本研究では,5つの異なるcrowdworkerに基づく人格評価手法を比較し,モデルの種類によって異なる方法が最適であることを見出した。 このことは領域のオープンな問題を浮き彫りにするが、我々の分析はいつどの領域を使うべきか、将来の可能性についてアドバイスを導き出す。

At the heart of improving conversational AI is the open problem of how to evaluate conversations. Issues with automatic metrics are well known (Liu et al., 2016, arXiv:1603.08023), with human evaluations still considered the gold standard. Unfortunately, how to perform human evaluations is also an open problem: differing data collection methods have varying levels of human agreement and statistical sensitivity, resulting in differing amounts of human annotation hours and labor costs. In this work we compare five different crowdworker-based human evaluation methods and find that different methods are best depending on the types of models compared, with no clear winner across the board. While this highlights the open problems in the area, our analysis leads to advice of when to use which one, and possible future directions.
翻訳日:2022-01-14 13:08:00 公開日:2022-01-12
# 最適圧縮VCクラス

Optimally compressing VC classes ( http://arxiv.org/abs/2201.04131v2 )

ライセンス: Link先を確認
Zachary Chase(参考訳) Littlestone と Warmuth の予想を解くと、VC-dimension $d$ の任意の概念クラスは、サンプル圧縮スキームが$d$ であることを示す。

Resolving a conjecture of Littlestone and Warmuth, we show that any concept class of VC-dimension $d$ has a sample compression scheme of size $d$.
翻訳日:2022-01-14 12:40:02 公開日:2022-01-12
# (参考訳) PhysNLU:物理における自然言語理解と説明コヒーレンスを評価するための言語資源 [全文訳有]

PhysNLU: A Language Resource for Evaluating Natural Language Understanding and Explanation Coherence in Physics ( http://arxiv.org/abs/2201.04275v1 )

ライセンス: CC BY 4.0
Jordan Meadows, Zili Zhou, Andre Freitas(参考訳) 言語モデルが物理学研究を支援するためには、まず数学的および自然言語の言説の表現を符号化し、正しい順序付けとステートメントの関連性を伴う一貫性のある説明につながる必要がある。 本稿では, 文の順序, 位置, 部分予測, 談話のコヒーレンスに関して, 言語モデルの性能を評価するために開発されたデータセットの集合について述べる。 データの分析により、物理学の談話でもっともよく見られる方程式や分節、および方程式や式の文レベルの頻度が明らかになる。 本稿では,現代言語モデルが物理学におけるコヒーレンス関連課題によってどのように挑戦されるかを示すベースラインを示す。

In order for language models to aid physics research, they must first encode representations of mathematical and natural language discourse which lead to coherent explanations, with correct ordering and relevance of statements. We present a collection of datasets developed to evaluate the performance of language models in this regard, which measure capabilities with respect to sentence ordering, position, section prediction, and discourse coherence. Analysis of the data reveals equations and sub-disciplines which are most common in physics discourse, as well as the sentence-level frequency of equations and expressions. We present baselines which demonstrate how contemporary language models are challenged by coherence related tasks in physics, even when trained on mathematical natural language objectives.
翻訳日:2022-01-13 21:12:17 公開日:2022-01-12
# (参考訳) ビデオ認識用マルチビュートランスフォーマ [全文訳有]

Multiview Transformers for Video Recognition ( http://arxiv.org/abs/2201.04288v1 )

ライセンス: CC BY 4.0
Shen Yan, Xuehan Xiong, Anurag Arnab, Zhichao Lu, Mi Zhang, Chen Sun, Cordelia Schmid(参考訳) ビデオ理解には、短い微粒な動きから長い期間にわたる出来事まで、複数の時空間分解における推論が必要である。 トランスフォーマーアーキテクチャは最近最先端のアーキテクチャを進歩させたが、異なる時空間分解能を明示的にモデル化していない。 この目的のために,MTV(Multiview Transformer for Video Recognition)を提案する。 本モデルは,入力映像の異なるビューを表現するエンコーダと,ビュー間の情報を融合する横接続からなる。 そこで本研究では,mtvがモデルサイズにまたがる精度と計算コストの点で,単一視点のモデルよりも一貫して優れた性能を示す。 さらに,5つの標準データセットで最新の結果を達成し,大規模事前トレーニングによりさらに改善する。 コードと事前トレーニング済みのチェックポイントをリリースします。

Video understanding requires reasoning at multiple spatiotemporal resolutions -- from short fine-grained motions to events taking place over longer durations. Although transformer architectures have recently advanced the state-of-the-art, they have not explicitly modelled different spatiotemporal resolutions. To this end, we present Multiview Transformers for Video Recognition (MTV). Our model consists of separate encoders to represent different views of the input video with lateral connections to fuse information across views. We present thorough ablation studies of our model and show that MTV consistently performs better than single-view counterparts in terms of accuracy and computational cost across a range of model sizes. Furthermore, we achieve state-of-the-art results on five standard datasets, and improve even further with large-scale pretraining. We will release code and pretrained checkpoints.
翻訳日:2022-01-13 20:59:22 公開日:2022-01-12
# (参考訳) 英文学大コーパスにおける文章の話題・感情・識字性・創造性・美の計算分析

Computational analyses of the topics, sentiments, literariness, creativity and beauty of texts in a large Corpus of English Literature ( http://arxiv.org/abs/2201.04356v1 )

ライセンス: CC BY 4.0
Arthur M. Jacobs and Annette Kinder(参考訳) Gutenberg Literary English Corpus (GLEC, Jacobs, 2018a)は、デジタル人文科学、計算言語学、神経認知詩学の研究のための豊富なテキストデータソースを提供する。 本研究では,GLECにおける文学カテゴリーの差異と著者間の差異について考察する。 3つの研究成果を報告します i)glecの6つのテキストカテゴリ(子供及び若者、エッセイ、小説、劇、詩、物語)の話題及び感情分析とその100人を超える著者 二 GLEC(例えば、ジェーン・オーステンの六つの小説)における著作の識字性、創造性及び書籍美の指標としての意味複雑性の新しい尺度 三 意味的複雑性の新しい特徴を用いたテキスト分類及び著者認識に関する二の実験 テキストのリテラリティ、文内ばらつき、段階的な距離(van Cranenburgh et al., 2019)を推定する2つの新しい尺度のデータによると、戯曲はGLECで最も文学的なテキストであり、続いて詩や小説が続く。 テキストクリエイティビティの新たな指標(Gray et al., 2016)の計算により、詩と戯曲は最も創造的なカテゴリーであり、最も創造的な作家はみな詩人である(ミルトン、ポープ、キーツ、バイロン、ワーズワース)。 また,言語芸術の美の認知指標(Kintsch, 2012)をGLECの著作に対して計算し,エマがオーステンの小説の中で理論的に最も美しいものであることを予測した。 最後に,これら意味的複雑性の新たな尺度が,.75から.97の範囲の予測精度を持つテキスト分類と著者認識の重要な特徴であることを示す。 私たちのデータは、心理学を読むための文学や実験の将来の計算および実証研究への道を開き、他の書籍コーパスの分析と検証のための複数のベースラインとベンチマークを提供します。

The Gutenberg Literary English Corpus (GLEC, Jacobs, 2018a) provides a rich source of textual data for research in digital humanities, computational linguistics or neurocognitive poetics. In this study we address differences among the different literature categories in GLEC, as well as differences between authors. We report the results of three studies providing i) topic and sentiment analyses for six text categories of GLEC (i.e., children and youth, essays, novels, plays, poems, stories) and its >100 authors, ii) novel measures of semantic complexity as indices of the literariness, creativity and book beauty of the works in GLEC (e.g., Jane Austen's six novels), and iii) two experiments on text classification and authorship recognition using novel features of semantic complexity. The data on two novel measures estimating a text's literariness, intratextual variance and stepwise distance (van Cranenburgh et al., 2019) revealed that plays are the most literary texts in GLEC, followed by poems and novels. Computation of a novel index of text creativity (Gray et al., 2016) revealed poems and plays as the most creative categories with the most creative authors all being poets (Milton, Pope, Keats, Byron, or Wordsworth). We also computed a novel index of perceived beauty of verbal art (Kintsch, 2012) for the works in GLEC and predict that Emma is the theoretically most beautiful of Austen's novels. Finally, we demonstrate that these novel measures of semantic complexity are important features for text classification and authorship recognition with overall predictive accuracies in the range of .75 to .97. Our data pave the way for future computational and empirical studies of literature or experiments in reading psychology and offer multiple baselines and benchmarks for analysing and validating other book corpora.
翻訳日:2022-01-13 20:36:27 公開日:2022-01-12
# (参考訳) 参照型超解法における粗結合型パッチマッチとマルチスケールダイナミックアグリゲーション [全文訳有]

Coarse-to-Fine Embedded PatchMatch and Multi-Scale Dynamic Aggregation for Reference-based Super-Resolution ( http://arxiv.org/abs/2201.04358v1 )

ライセンス: CC BY 4.0
Bin Xia, Yapeng Tian, Yucheng Hang, Wenming Yang, Qingmin Liao, Jie Zhou(参考訳) 参照ベーススーパーレゾリューション(RefSR)は、外部参照(Ref)画像を用いた現実的なテクスチャの生成において大きな進歩を遂げている。 しかし、既存のRefSR法では、入力サイズに関して2次計算資源を消費する高品質な対応マッチングが得られ、適用範囲が制限される。 さらに、これらのアプローチは、通常、低解像度(LR)画像とRef画像の間のスケールのずれに悩まされる。 本稿では,CFE-PatchMatch(Coar se-to-Fine Embedded PatchMatch)やMSDA(Multi-Scale Dynamic Aggregation)モジュールなど,参照型スーパーリゾリューションのためのAMSA(Accelerated Multi-Scale Aggregation Network)を提案する。 マッチング効率を向上させるために,ランダムなサンプル伝播を伴う新しい組込みパッチマックスキームを設計し,漸近的線形計算コストを伴うエンドツーエンドトレーニングを入力サイズに含む。 CFE-PatchMatchを構成する組込みPatchMacthに対して,計算コストの削減と収束の高速化を図る。 複数スケールにわたる参照情報をフル活用し,不整合性を高めるため,動的アグリゲーションとマルチスケールアグリゲーションからなるMSDAモジュールを開発した。 動的アグリゲーションは特徴を動的に集約することで小規模のアグリゲーションを補正し、マルチスケールアグリゲーションはマルチスケール情報を用いて大規模アグリゲーションにロバスト性をもたらす。 実験結果から,AMSAは定量評価と定性評価の両面において,最先端手法よりも優れた性能を示した。

Reference-based super-resolution (RefSR) has made significant progress in producing realistic textures using an external reference (Ref) image. However, existing RefSR methods obtain high-quality correspondence matchings consuming quadratic computation resources with respect to the input size, limiting its application. Moreover, these approaches usually suffer from scale misalignments between the low-resolution (LR) image and Ref image. In this paper, we propose an Accelerated Multi-Scale Aggregation network (AMSA) for Reference-based Super-Resolution, including Coarse-to-Fine Embedded PatchMatch (CFE-PatchMatch) and Multi-Scale Dynamic Aggregation (MSDA) module. To improve matching efficiency, we design a novel Embedded PatchMacth scheme with random samples propagation, which involves end-to-end training with asymptotic linear computational cost to the input size. To further reduce computational cost and speed up convergence, we apply the coarse-to-fine strategy on Embedded PatchMacth constituting CFE-PatchMatch. To fully leverage reference information across multiple scales and enhance robustness to scale misalignment, we develop the MSDA module consisting of Dynamic Aggregation and Multi-Scale Aggregation. The Dynamic Aggregation corrects minor scale misalignment by dynamically aggregating features, and the Multi-Scale Aggregation brings robustness to large scale misalignment by fusing multi-scale information. Experimental results show that the proposed AMSA achieves superior performance over state-of-the-art approaches on both quantitative and qualitative evaluations.
翻訳日:2022-01-13 20:34:28 公開日:2022-01-12
# (参考訳) 局所性による下顎前突の予防:局所的混合 [全文訳有]

Preventing Manifold Intrusion with Locality: Local Mixup ( http://arxiv.org/abs/2201.04368v1 )

ライセンス: CC BY 4.0
Raphael Baena, Lucas Drumetz, Vincent Gripon(参考訳) mixupは、入力サンプルと関連する出力を線形に補間するデータ依存正規化手法である。 標準的な機械学習データセットでトレーニングする場合、精度が向上することが示されている。 しかし、著者らはmixupが分散の仮想サンプルや拡張トレーニングセットの矛盾さえも生成し、潜在的に逆効果をもたらす可能性があることを指摘した。 本稿では,損失を計算する際に,遠方の入力サンプルを重み付けする局所的混合法を提案する。 制約のある設定では、Local Mixupがバイアスと分散の間のトレードオフを生み出し、極端なケースがバニラトレーニングと古典的なMixupに還元されます。 標準化されたコンピュータビジョンベンチマークを用いて、ローカルミックスアップによってテスト精度が向上することを示す。

Mixup is a data-dependent regularization technique that consists in linearly interpolating input samples and associated outputs. It has been shown to improve accuracy when used to train on standard machine learning datasets. However, authors have pointed out that Mixup can produce out-of-distribution virtual samples and even contradictions in the augmented training set, potentially resulting in adversarial effects. In this paper, we introduce Local Mixup in which distant input samples are weighted down when computing the loss. In constrained settings we demonstrate that Local Mixup can create a trade-off between bias and variance, with the extreme cases reducing to vanilla training and classical Mixup. Using standardized computer vision benchmarks , we also show that Local Mixup can improve test accuracy.
翻訳日:2022-01-13 20:21:31 公開日:2022-01-12
# (参考訳) 逆向きにロバストなディープイメージデノイングを目指して [全文訳有]

Towards Adversarially Robust Deep Image Denoising ( http://arxiv.org/abs/2201.04397v1 )

ライセンス: CC BY 4.0
Hanshu Yan, Jingfeng Zhang, Jiashi Feng, Masashi Sugiyama, Vincent Y. F. Tan(参考訳) 本研究は,DID(Deep Image Denoiser, ディープ・イメージ・デノイザ)の逆方向の強靭性,すなわち, 逆方向の摂動によって劣化した雑音の観測から, DIDが基底の真実をどの程度回復できるかを系統的に検討する。 まず,DIDの頑健性を評価するために,観測に基づくゼロ平均攻撃({\sc ObsAtk})という新たな敵攻撃を提案する。 既存のDIDは, {\sc ObsAtk} が生成する対向雑音に弱い。 次に, DIDの強化を図るために, 対向学習戦略, ハイブリッド対向訓練({\sc HAT})を提案する。 結果、didは様々な種類の合成音と逆音を効果的に除去することができる。 また,DIDのロバスト性は,実世界の雑音に対する一般化能力に有益であることも明らかにした。 実際、HATをトレーニングしたDIDは、実際のノイズデータをトレーニングすることなく、現実世界のノイズから高品質なクリーンなイメージを復元することができる。 Set68、PolyU、SIDDなどのベンチマークデータセットに関する大規模な実験は、 {\sc ObsAtk} と {\sc HAT} の有効性を裏付けるものである。

This work systematically investigates the adversarial robustness of deep image denoisers (DIDs), i.e, how well DIDs can recover the ground truth from noisy observations degraded by adversarial perturbations. Firstly, to evaluate DIDs' robustness, we propose a novel adversarial attack, namely Observation-based Zero-mean Attack ({\sc ObsAtk}), to craft adversarial zero-mean perturbations on given noisy images. We find that existing DIDs are vulnerable to the adversarial noise generated by {\sc ObsAtk}. Secondly, to robustify DIDs, we propose an adversarial training strategy, hybrid adversarial training ({\sc HAT}), that jointly trains DIDs with adversarial and non-adversarial noisy data to ensure that the reconstruction quality is high and the denoisers around non-adversarial data are locally smooth. The resultant DIDs can effectively remove various types of synthetic and adversarial noise. We also uncover that the robustness of DIDs benefits their generalization capability on unseen real-world noise. Indeed, {\sc HAT}-trained DIDs can recover high-quality clean images from real-world noise even without training on real noisy data. Extensive experiments on benchmark datasets, including Set68, PolyU, and SIDD, corroborate the effectiveness of {\sc ObsAtk} and {\sc HAT}.
翻訳日:2022-01-13 20:07:32 公開日:2022-01-12
# (参考訳) gateformer: 入力ゲートトランスフォーマーでニュースフィードのレコメンデーションを高速化 [全文訳有]

GateFormer: Speeding Up News Feed Recommendation with Input Gated Transformers ( http://arxiv.org/abs/2201.04406v1 )

ライセンス: CC BY 4.0
Peitian Zhang, Zheng liu(参考訳) ニュースフィードの推薦は重要なウェブサービスである。 近年,プレトレーニング言語モデル (PLM) は,推薦品質の向上に強く応用されている。 しかし、これらの深層モデルの利用は、説明可能性の欠如や既存の逆インデックスシステムと互換性がないなど、多くの面で制限されている。 ユーザ側の情報のエンコーディングには膨大な計算コストがかかるため、PLMベースのレコメンデーションは非効率である。 効率的なトランスフォーマーや蒸留PLMで計算を高速化することはできるが、非常に長いニュース閲覧履歴に関連付けられているアクティブユーザーに対してタイムリーなレコメンデーションを行うには十分ではない。 本研究では,効率的なニュースレコメンデーション問題に対して,独特の視点から取り組む。 入力全体(つまり、ユーザがこれまで閲覧したニュース記事のコレクション)に頼るのではなく、ユーザの関心は、それらの代表キーワードだけで完全にキャプチャできる、と主張する。 そこで本研究では,トランスフォーマタに入力データを入力する前にゲートするゲートフォーマを提案する。 ゲーティングモジュールはパーソナライズされ、軽量でエンドツーエンドの学習が可能であり、情報入力の正確かつ効率的なフィルタリングを行うことができる。 gateformerは実験で非常に印象的なパフォーマンスを達成し、既存の加速度アプローチを精度と効率の両方で上回っている。 また、驚くべきことに、元の入力を10倍圧縮しても、gateformerはsomaメソッドと同等のパフォーマンスを維持することができます。

News feed recommendation is an important web service. In recent years, pre-trained language models (PLMs) have been intensively applied to improve the recommendation quality. However, the utilization of these deep models is limited in many aspects, such as lack of explainability and being incompatible with the existing inverted index systems. Above all, the PLMs based recommenders are inefficient, as the encoding of user-side information will take huge computation costs. Although the computation can be accelerated with efficient transformers or distilled PLMs, it is still not enough to make timely recommendations for the active users, who are associated with super long news browsing histories. In this work, we tackle the efficient news recommendation problem from a distinctive perspective. Instead of relying on the entire input (i.e., the collection of news articles a user ever browsed), we argue that the user's interest can be fully captured merely with those representative keywords. Motivated by this, we propose GateFormer, where the input data is gated before feeding into transformers. The gating module is made personalized, lightweight and end-to-end learnable, such that it may perform accurate and efficient filtering of informative user input. GateFormer achieves highly impressive performances in experiments, where it notably outperforms the existing acceleration approaches in both accuracy and efficiency. We also surprisingly find that even with over 10-fold compression of the original input, GateFormer is still able to maintain on-par performances with the SOTA methods.
翻訳日:2022-01-13 19:49:01 公開日:2022-01-12
# (参考訳) 逆学習を用いたMRI画像からのMGMTプロモーターメチル化の最適化予測 [全文訳有]

Optimizing Prediction of MGMT Promoter Methylation from MRI Scans using Adversarial Learning ( http://arxiv.org/abs/2201.04416v1 )

ライセンス: CC BY 4.0
Sauman Das(参考訳) glioblastoma multiforme(gbm)は、al脳および中枢神経系(cns)癌の約48%を形成する悪性脳がんである。 GBMにより毎年13,000人以上が死亡し、早期診断システムを持つことが予測可能で効果的な治療につながると推定されている。 GBM診断後の最も一般的な治療法は化学療法であり、急速分裂した細胞をアポトーシスに送ることで機能する。 しかし、mgmtプロモーター配列がメチル化されるとこの治療は有効ではなく、患者の生存率を低下させる深刻な副作用を引き起こす。 したがって、非侵襲的磁気共鳴画像(MRI)ベース機械学習(ML)モデルを用いてMGMTプロモーターメチル化状態の同定が重要である。 これは、最近国際カグル競技に使用されたBrain tumor Segmentation (BraTS) 2021データセットを用いて達成されている。 2つの放射能モデルと2つのCNNモデルという4つの主要モデルを開発した。 我々は、すべてのMRIスキャンのスライス厚を正規化するために使用される中間状態発生器と呼ばれる新しいMLモデルを構築した。 さらなる改善により,我々の最高のモデルでは,平均クロスバリデーション精度が6%向上したKaggleモデルよりもパフォーマンスが大幅に向上した(p < 0.05$)。 この改善は、治療オプションとしてよりインフォームドな化学療法の選択につながり、毎年 gbm の患者数千人の寿命を延ばす可能性がある。

Glioblastoma Multiforme (GBM) is a malignant brain cancer forming around 48% of al brain and Central Nervous System (CNS) cancers. It is estimated that annually over 13,000 deaths occur in the US due to GBM, making it crucial to have early diagnosis systems that can lead to predictable and effective treatment. The most common treatment after GBM diagnosis is chemotherapy, which works by sending rapidly dividing cells to apoptosis. However, this form of treatment is not effective when the MGMT promoter sequence is methylated, and instead leads to severe side effects decreasing patient survivability. Therefore, it is important to be able to identify the MGMT promoter methylation status through non-invasive magnetic resonance imaging (MRI) based machine learning (ML) models. This is accomplished using the Brain Tumor Segmentation (BraTS) 2021 dataset, which was recently used for an international Kaggle competition. We developed four primary models - two radiomic models and two CNN models - each solving the binary classification task with progressive improvements. We built a novel ML model termed as the Intermediate State Generator which was used to normalize the slice thicknesses of all MRI scans. With further improvements, our best model was able to achieve performance significantly ($p < 0.05$) better than the best performing Kaggle model with a 6% increase in average cross-validation accuracy. This improvement could potentially lead to a more informed choice of chemotherapy as a treatment option, prolonging lives of thousands of patients with GBM each year.
翻訳日:2022-01-13 19:35:00 公開日:2022-01-12
# (参考訳) ポッドキャスト短文メタデータのトピックモデリング [全文訳有]

Topic Modeling on Podcast Short-Text Metadata ( http://arxiv.org/abs/2201.04419v1 )

ライセンス: CC BY 4.0
Francisco B. Valero and Marion Baranes and Elena V. Epure(参考訳) Podcastは、大規模なストリーミングプラットフォームを通じて、プロダクション手段の幅広いアクセシビリティと大規模配信のために、非常に消費されているオンラインコンテンツとして登場した。 分類システムと情報アクセス技術は、通常、ポッドキャストコレクションを整理またはナビゲートする主要な方法としてトピックを使用する。 しかし、割り当てられた編集ジャンルは広範で異種または誤解を招くか、データ難易度(例えば、短いメタデータテキスト、騒がしい書き起こし)があるため、ポッドキャストにトピックを付けることは依然として非常に問題となる。 本稿では,ポッドキャストのメタデータやタイトル,説明から関連するトピックを,短いテキストのトピックモデリング手法を用いて発見する可能性を評価する。 また,非負行列分解(nmf)トピックモデリングフレームワークにおいて,ポッドキャストメタデータにしばしば現れる名前付きエンティティ(nes)を活用する新たな戦略を提案する。 SpotifyとiTunesの既存の2つのデータセットと、ポッドキャストのカタログを提供するオンラインサービスからの新たなデータセットであるDeezerに関する実験は、提案したドキュメント表現であるNEiCEが、ベースラインよりもトピックコヒーレンスが改善されていることを示しています。 実験結果の再現性に関するコードをリリースする。

Podcasts have emerged as a massively consumed online content, notably due to wider accessibility of production means and scaled distribution through large streaming platforms. Categorization systems and information access technologies typically use topics as the primary way to organize or navigate podcast collections. However, annotating podcasts with topics is still quite problematic because the assigned editorial genres are broad, heterogeneous or misleading, or because of data challenges (e.g. short metadata text, noisy transcripts). Here, we assess the feasibility to discover relevant topics from podcast metadata, titles and descriptions, using topic modeling techniques for short text. We also propose a new strategy to leverage named entities (NEs), often present in podcast metadata, in a Non-negative Matrix Factorization (NMF) topic modeling framework. Our experiments on two existing datasets from Spotify and iTunes and Deezer, a new dataset from an online service providing a catalog of podcasts, show that our proposed document representation, NEiCE, leads to improved topic coherence over the baselines. We release the code for experimental reproducibility of the results.
翻訳日:2022-01-13 19:18:40 公開日:2022-01-12
# (参考訳) 文書に記述された地理的移動の識別 [全文訳有]

Differentiating Geographic Movement Described in Text Documents ( http://arxiv.org/abs/2201.04427v1 )

ライセンス: CC BY 4.0
Scott Pezanowski, Alan M. MacEachren, Prasenjit Mitra(参考訳) 文書に記載されている動きを理解することは、人々の移動、野生動物、商品等についての地理的・文脈的な豊富な情報を含むため重要である。 本研究は,テキストにおける運動記述の理解向上にいくつかの貢献をしている。 まず,テキストに記述された地理的動きの解釈が,一般的な空間的用語や,その動きを不明瞭にする言語構造,時間的参照やグループ化などによっていかに困難かを示す。 次に,これらの課題を克服するためのステップとして,人間の動作記述を他の動作記述と区別するために使用する動作記述(テキスト)の複数の重要な特徴を識別する実験について報告する。 実験結果に基づき,テキスト文書に記述された動きを用いた計算解析を推奨する。 本研究は,テキスト記述形式における地理的移動に関する未使用情報の重要な特徴の理解の向上に寄与する。

Understanding movement described in text documents is important since text descriptions of movement contain a wealth of geographic and contextual information about the movement of people, wildlife, goods, and much more. Our research makes several contributions to improve our understanding of movement descriptions in text. First, we show how interpreting geographic movement described in text is challenging because of general spatial terms, linguistic constructions that make the thing(s) moving unclear, and many types of temporal references and groupings, among others. Next, as a step to overcome these challenges, we report on an experiment with human subjects through which we identify multiple important characteristics of movement descriptions (found in text) that humans use to differentiate one movement description from another. Based on our empirical results, we provide recommendations for computational analysis using movement described in text documents. Our findings contribute towards an improved understanding of the important characteristics of the underused information about geographic movement that is in the form of text descriptions.
翻訳日:2022-01-13 19:01:55 公開日:2022-01-12
# (参考訳) 創薬のためのバイオメディカルネットワークを用いた自己教師あり表現学習のマルチタスク共同戦略 [全文訳有]

Multi-task Joint Strategies of Self-supervised Representation Learning on Biomedical Networks for Drug Discovery ( http://arxiv.org/abs/2201.04437v1 )

ライセンス: CC BY-SA 4.0
Xiaoqi Wang, Yingjie Cheng, Yaning Yang, Fei Li, Shaoliang Peng(参考訳) バイオメディカルネットワーク上での自己監督型表現学習(SSL)は、生物学的または臨床表現型が欠如している薬物発見の新しい機会を提供する。 しかし、複数のSSLモデルを効果的に組み合わせるのは難しい。 そこで,我々はmssl2drugという薬物発見のための生物医学ネットワーク上での自己教師付き表現学習のマルチタスク共同戦略を提案する。 バイオメディカルな異種ネットワークにおける構造,意味,属性など,さまざまなモダリティ機能にインスパイアされた6つの基本的なSSLタスクを設計する。 さらに,2つの創薬シナリオにおいて,グラフ注目に基づく対向型マルチタスク学習フレームワークを用いて,複数のタスクの15の組合せを評価する。 結果は2つの重要な発見を示唆している。 1)マルチモーダルタスクの組み合わせは他のマルチタスクジョイント戦略と比較して最高のパフォーマンスを達成する。 2) ローカルおよびグローバルSSLタスクの協調トレーニングにより,ランダムタスクの組み合わせよりも高い性能が得られる。 したがって、マルチモーダル・ローカル・グローバルの組み合わせ戦略は、薬物発見のためのマルチタスクSSLのガイドラインとみなすことができる。

Self-supervised representation learning (SSL) on biomedical networks provides new opportunities for drug discovery which is lack of available biological or clinic phenotype. However, how to effectively combine multiple SSL models is challenging and rarely explored. Therefore, we propose multi-task joint strategies of self-supervised representation learning on biomedical networks for drug discovery, named MSSL2drug. We design six basic SSL tasks that are inspired by various modality features including structures, semantics, and attributes in biomedical heterogeneous networks. In addition, fifteen combinations of multiple tasks are evaluated by a graph attention-based adversarial multi-task learning framework in two drug discovery scenarios. The results suggest two important findings. (1) The combinations of multimodal tasks achieve the best performance compared to other multi-task joint strategies. (2) The joint training of local and global SSL tasks yields higher performance than random task combinations. Therefore, we conjecture that the multimodal and local-global combination strategies can be regarded as a guideline for multi-task SSL to drug discovery.
翻訳日:2022-01-13 18:40:32 公開日:2022-01-12
# (参考訳) 時系列データのためのドメイン内およびドメイン間転送学習 -その機能はどの程度転送可能か?

Intra-domain and cross-domain transfer learning for time series data -- How transferable are the features? ( http://arxiv.org/abs/2201.04449v1 )

ライセンス: CC BY 4.0
Erik Otovi\'c, Marko Njirjak, Dario Jozinovi\'c, Goran Mau\v{s}a, Alberto Michelini, Ivan \v{S}tajduhar(参考訳) 実際、機械学習モデルをうまくトレーニングするのに十分な大きさのタグ付きデータのデータセットを収集することは、非常に必要であり、時には不可能である。 本研究の目的は、時系列データの異なる領域とどの条件下での転送可能かを評価することである。 伝達学習の効果は,モデルの予測性能と学習時の収束率の観点から観察される。 実験では,1500と9000のデータインスタンスの削減したデータセットを用いて実環境を再現した。 同じスケールダウンデータセットを使用して、トランスファー学習でトレーニングされたものと、ゼロからトレーニングされたものという、2つの機械学習モデルをトレーニングしました。 実験には4つの機械学習モデルが使用された。 同じ適用領域(地震学)と、相互に異なる適用領域(地震学、言論、医学、金融)の間で知識の移転が行われた。 トレーニング中のモデルの予測性能と収束率を観察する。 得られた結果の妥当性を確認するため,実験を7回繰り返し,統計的検証を行い,結果の意義を確認した。 本研究の一般的な結論は、トランスファー学習はモデルの予測性能や収束率に悪影響を及ぼす可能性が非常に高いということである。 収集されたデータはより詳細に分析され、どのソースとターゲットドメインが知識の転送に適合しているかを決定する。 また,対象データセットのサイズとモデルとハイパーパラメータの選択がトランスファー学習に与える影響について分析した。

In practice, it is very demanding and sometimes impossible to collect datasets of tagged data large enough to successfully train a machine learning model, and one possible solution to this problem is transfer learning. This study aims to assess how transferable are the features between different domains of time series data and under which conditions. The effects of transfer learning are observed in terms of predictive performance of the models and their convergence rate during training. In our experiment, we use reduced data sets of 1,500 and 9,000 data instances to mimic real world conditions. Using the same scaled-down datasets, we trained two sets of machine learning models: those that were trained with transfer learning and those that were trained from scratch. Four machine learning models were used for the experiment. Transfer of knowledge was performed within the same domain of application (seismology), as well as between mutually different domains of application (seismology, speech, medicine, finance). We observe the predictive performance of the models and the convergence rate during the training. In order to confirm the validity of the obtained results, we repeated the experiments seven times and applied statistical tests to confirm the significance of the results. The general conclusion of our study is that transfer learning is very likely to either increase or not negatively affect the predictive performance of the model or its convergence rate. The collected data is analysed in more details to determine which source and target domains are compatible for transfer of knowledge. We also analyse the effect of target dataset size and the selection of model and its hyperparameters on the effects of transfer learning.
翻訳日:2022-01-13 18:17:08 公開日:2022-01-12
# (参考訳) biaffineの談話依存性解析 [全文訳有]

Biaffine Discourse Dependency Parsing ( http://arxiv.org/abs/2201.04450v1 )

ライセンス: CC BY 4.0
Yingxue Fu(参考訳) 本稿では,バイファインモデルを用いてニューラル談話係り受け解析を行い,ベースラインパーサと比較して大幅な性能向上を実現する。 タスク中の eisner アルゴリズムと chu-liu-edmonds アルゴリズムを比較し,chu-liu-edmonds アルゴリズムがより深い木を生成し,より優れた性能を実現することを見出した。 また, パーサの最大経路長, 葉ノードの平均比率で, パーサの出力構造を評価し, パーサが生成する依存性木が金の木に近接していることを見出した。 コーパスは非射影構造を許容するので、コーパスの非射影性の複雑さを分析し、このコーパス内の依存構造が最大で1つ、最大でエッジ次数を持つことを見つける。

We provide a study of using the biaffine model for neural discourse dependency parsing and achieve significant performance improvement compared with the baseline parsers. We compare the Eisner algorithm and the Chu-Liu-Edmonds algorithm in the task and find that using the Chu-Liu-Edmonds algorithm generates deeper trees and achieves better performance. We also evaluate the structure of the output of the parser with average maximum path length and average proportion of leaf nodes and find that the dependency trees generated by the parser are close to the gold trees. As the corpus allows non-projective structures, we analyze the complexity of non-projectivity of the corpus and find that the dependency structures in this corpus have gap degree at most one and edge degree at most one.
翻訳日:2022-01-13 18:16:04 公開日:2022-01-12
# (参考訳) SLISEMAP: 説明可能な次元化 [全文訳有]

SLISEMAP: Explainable Dimensionality Reduction ( http://arxiv.org/abs/2201.04455v1 )

ライセンス: CC BY-SA 4.0
Anton Bj\"orklund, Jarmo M\"akel\"a, Kai Puolam\"aki(参考訳) ブラックボックス制御学習モデルの既存の説明方法は、一般に、特定のデータ項目のモデル動作を説明するローカルモデルを構築することで機能する。 グローバルな説明は可能だが、その説明は複雑なモデルに対する忠実度が低い可能性がある。 説明可能なモデルに関する以前の研究のほとんどは、回帰にはあまり関心がなく、分類問題に焦点を当てている。 本稿では,すべてのデータ項目の局所的な説明を同時に見つけ,同じモデルで説明されたデータ項目が近傍に投影されるようなモデル空間の2次元可視化を構築する,新しい多様体可視化手法であるSLISEMAPを提案する。 我々は,GPU最適化PyTorchライブラリを用いて実装した手法のオープンソース実装を提供する。 SLISEMAPは分類モデルと回帰モデルの両方で動作する。 slisemap と最も一般的な次元減少法といくつかの局所的説明法を比較した。 この問題の数学的導出を行い,SLISEMAPはブラックボックスの回帰と分類モデルの説明と理解に使用できる高速で安定した可視化を提供することを示す。

Existing explanation methods for black-box supervised learning models generally work by building local models that explain the models behaviour for a particular data item. It is possible to make global explanations, but the explanations may have low fidelity for complex models. Most of the prior work on explainable models has been focused on classification problems, with less attention on regression. We propose a new manifold visualization method, SLISEMAP, that at the same time finds local explanations for all of the data items and builds a two-dimensional visualization of model space such that the data items explained by the same model are projected nearby. We provide an open source implementation of our methods, implemented by using GPU-optimized PyTorch library. SLISEMAP works both on classification and regression models. We compare SLISEMAP to most popular dimensionality reduction methods and some local explanation methods. We provide mathematical derivation of our problem and show that SLISEMAP provides fast and stable visualizations that can be used to explain and understand black box regression and classification models.
翻訳日:2022-01-13 18:07:08 公開日:2022-01-12
# (参考訳) 検索ヒューリスティックスを用いたBERTの診断 [全文訳有]

Diagnosing BERT with Retrieval Heuristics ( http://arxiv.org/abs/2201.04458v1 )

ライセンス: CC BY 4.0
Arthur C\^amara, Claudia Hauff(参考訳) Word2vecのリリースで2013年に広く普及したワード埋め込みは、NLPエンジニアリングパイプラインのメインステイとなっている。 近年、bert のリリースにより、単語埋め込みは項ベースの埋め込み空間から文脈埋め込み空間へと移行した -- 各項はもはや単一の低次元ベクトルで表されるのではなく、代わりに各項と \emph{its context} がベクトル重みを決定する。 BERTのセットアップとアーキテクチャは、多くの自然言語タスクに適用できるほど一般的なものであることが示されている。 Information Retrieval (IR)では、ニューラルネットワークアーキテクチャやトレーニング体制の大幅なチューニングを必要とするIR問題に対する事前のディープラーニングソリューションとは対照的に、"vanilla BERT"は、従来のIRベースライン(Robust04など)よりも長い抵抗のあったタスクやコーパスを含む、既存の検索アルゴリズムよりはるかに優れていることが示されている。 本稿では,最近提案されているアクシオマティックデータセット解析手法 -- を用いて,検索ヒューリスティック(項マッチングと意味ベースの両方)を生成する診断データセットを作成し,bertが学べるものを探索する。 私たちの期待とは対照的に、最近リリースされたアドホックなトピックを持つ大規模webコーパスに適用されたbertは、探究された公理のいずれかに準拠する。 同時に、bert は従来のクエリの適性検索モデルを 40\% で上回っている。 これは、IRに対する公理的アプローチ(および検索ヒューリスティックスのために作成された診断データセットの拡張)が、現在の形式では大規模コーパスには適用できないことを意味する。 追加 -- 異なる -- 公理が必要である。

Word embeddings, made widely popular in 2013 with the release of word2vec, have become a mainstay of NLP engineering pipelines. Recently, with the release of BERT, word embeddings have moved from the term-based embedding space to the contextual embedding space -- each term is no longer represented by a single low-dimensional vector but instead each term and \emph{its context} determine the vector weights. BERT's setup and architecture have been shown to be general enough to be applicable to many natural language tasks. Importantly for Information Retrieval (IR), in contrast to prior deep learning solutions to IR problems which required significant tuning of neural net architectures and training regimes, "vanilla BERT" has been shown to outperform existing retrieval algorithms by a wide margin, including on tasks and corpora that have long resisted retrieval effectiveness gains over traditional IR baselines (such as Robust04). In this paper, we employ the recently proposed axiomatic dataset analysis technique -- that is, we create diagnostic datasets that each fulfil a retrieval heuristic (both term matching and semantic-based) -- to explore what BERT is able to learn. In contrast to our expectations, we find BERT, when applied to a recently released large-scale web corpus with ad-hoc topics, to \emph{not} adhere to any of the explored axioms. At the same time, BERT outperforms the traditional query likelihood retrieval model by 40\%. This means that the axiomatic approach to IR (and its extension of diagnostic datasets created for retrieval heuristics) may in its current form not be applicable to large-scale corpora. Additional -- different -- axioms are needed.
翻訳日:2022-01-13 17:45:48 公開日:2022-01-12
# (参考訳) マルチクラスフェアネスのためのブラックボックスポストプロセッシング [全文訳有]

Blackbox Post-Processing for Multiclass Fairness ( http://arxiv.org/abs/2201.04461v1 )

ライセンス: CC BY 4.0
Preston Putzel and Scott Lee(参考訳) 分類に標準的な機械学習アプローチを適用すると、異なる集団間で不平等な結果を生み出すことができる。 現実の環境で使用すると、これらの不平等は社会に悪影響を及ぼす可能性がある。 これは近年、機械学習モデルによる公平な分類のための様々なアプローチの開発を動機付けている。 本論文では,マルチクラス設定における公平性を達成するために,ブラックボックス機械学習分類器の予測を変更する問題を考える。 そこで我々は,2進分類の公平性に着目したHardtらによる'ポストプロセッシング'アプローチを,公正なマルチクラス分類の設定にまで拡張する。 提案手法は, 体系的な合成実験により, 公正かつ正確な予測を行うとともに, 公開されている実世界のアプリケーションデータセット上での識別・公正トレードオフを評価する。 全体として,本手法は,クラス数や保護グループ数に対して,データセット内の個体数が高い場合に,精度を低下させ,公平性を高める。

Applying standard machine learning approaches for classification can produce unequal results across different demographic groups. When then used in real-world settings, these inequities can have negative societal impacts. This has motivated the development of various approaches to fair classification with machine learning models in recent years. In this paper, we consider the problem of modifying the predictions of a blackbox machine learning classifier in order to achieve fairness in a multiclass setting. To accomplish this, we extend the 'post-processing' ; approach in Hardt et al. 2016, which focuses on fairness for binary classification, to the setting of fair multiclass classification. We explore when our approach produces both fair and accurate predictions through systematic synthetic experiments and also evaluate discrimination-fairn ess tradeoffs on several publicly available real-world application datasets. We find that overall, our approach produces minor drops in accuracy and enforces fairness when the number of individuals in the dataset is high relative to the number of classes and protected groups.
翻訳日:2022-01-13 17:29:30 公開日:2022-01-12
# (参考訳) トップエロ評価を識別する学習--デュエルバンドのアプローチ [全文訳有]

Learning to Identify Top Elo Ratings: A Dueling Bandits Approach ( http://arxiv.org/abs/2201.04480v1 )

ライセンス: CC BY 4.0
Xue Yan, Yali Du, Binxin Ru, Jun Wang, Haifeng Zhang, Xu Chen(参考訳) elo評価システムは、(チェス)ゲームやスポーツ選手のスキルを評価するために広く採用されている。 近年,コンピュータ化されたAIエージェントの性能評価において,機械学習アルゴリズムにも組み込まれている。 しかしながら、(トッププレイヤーの)エロ格付けの正確な評価は、しばしば多くの競技会を必要とするが、実行にはコストがかかる。 本稿では,トッププレイヤーを対象としたElo評価のサンプル効率を改善するために,効率的なオンラインマッチングスケジューリングアルゴリズムを提案する。 具体的には、上位プレイヤーをデュエル・バンディット・フレームワークを通じて識別・マッチングし、そのバンディット・アルゴリズムを勾配に基づくeloのアップデートに合わせる。 ステップ毎のメモリ容量と時間複雑性を一定に削減できることを,従来の最大化アプローチである$o(t)$ timeと比較した。 我々のアルゴリズムは、競合ラウンドの数で$\tilde{O}(\sqrt{T})$, sublinearという後悔の保証を持ち、非推移ゲームを扱うための多次元エロ評価にまで拡張されている。 本手法は,様々なゲーミングタスクにおいて,コンバージェンス速度と時間効率に優れることを示す。

The Elo rating system is widely adopted to evaluate the skills of (chess) game and sports players. Recently it has been also integrated into machine learning algorithms in evaluating the performance of computerised AI agents. However, an accurate estimation of the Elo rating (for the top players) often requires many rounds of competitions, which can be expensive to carry out. In this paper, to improve the sample efficiency of the Elo evaluation (for top players), we propose an efficient online match scheduling algorithm. Specifically, we identify and match the top players through a dueling bandits framework and tailor the bandit algorithm to the gradient-based update of Elo. We show that it reduces the per-step memory and time complexity to constant, compared to the traditional likelihood maximization approaches requiring $O(t)$ time. Our algorithm has a regret guarantee of $\tilde{O}(\sqrt{T})$, sublinear in the number of competition rounds and has been extended to the multidimensional Elo ratings for handling intransitive games. We empirically demonstrate that our method achieves superior convergence speed and time efficiency on a variety of gaming tasks.
翻訳日:2022-01-13 17:15:02 公開日:2022-01-12
# (参考訳) 画像領域適応とエッジ認識深度推定を用いた単眼単眼内視鏡像の深さ推定 [全文訳有]

Depth Estimation from Single-shot Monocular Endoscope Image Using Image Domain Adaptation And Edge-Aware Depth Estimation ( http://arxiv.org/abs/2201.04485v1 )

ライセンス: CC BY 4.0
Masahiro Oda, Hayato Itoh, Kiyohito Tanaka, Hirotsugu Takabatake, Masaki Mori, Hiroshi Natori, Kensaku Mori(参考訳) 領域適応によるランベルト面の変換とマルチスケールエッジロスを用いた深度推定による単眼単眼単眼内視鏡像からの深度推定法を提案する。 未ペアデータからのランベルト面の変換と深度推定を含む2段階推定法を用いる。 臓器の表面のテクスチャと特異反射により、深さ推定の精度が低下する。 これらのテクスチャや反射を除去すべく,ランベルチアン表面翻訳を内視鏡画像に適用した。 次に,完全畳み込みネットワーク(FCN)を用いて深度を推定する。 FCNのトレーニング中は、推定画像と地上の真理深度画像とのオブジェクトエッジ類似性の改善が、より良い結果を得るために重要である。 我々は,深度推定の精度を向上させるため,マルチスケールエッジロス関数を導入した。 実際の大腸内視鏡画像を用いて,提案手法の定量的評価を行った。 推定深度値は実深度値に比例した。 さらに,畳み込みニューラルネットワークを用いた大腸内視鏡像の解剖学的位置同定に,推定深度画像を適用した。 推定深度画像を用いて,ネットワークの識別精度は69.2%から74.1%に向上した。

We propose a depth estimation method from a single-shot monocular endoscopic image using Lambertian surface translation by domain adaptation and depth estimation using multi-scale edge loss. We employ a two-step estimation process including Lambertian surface translation from unpaired data and depth estimation. The texture and specular reflection on the surface of an organ reduce the accuracy of depth estimations. We apply Lambertian surface translation to an endoscopic image to remove these texture and reflections. Then, we estimate the depth by using a fully convolutional network (FCN). During the training of the FCN, improvement of the object edge similarity between an estimated image and a ground truth depth image is important for getting better results. We introduced a muti-scale edge loss function to improve the accuracy of depth estimation. We quantitatively evaluated the proposed method using real colonoscopic images. The estimated depth values were proportional to the real depth values. Furthermore, we applied the estimated depth images to automated anatomical location identification of colonoscopic images using a convolutional neural network. The identification accuracy of the network improved from 69.2% to 74.1% by using the estimated depth images.
翻訳日:2022-01-13 16:43:04 公開日:2022-01-12
# (参考訳) Dyna-T:Dyna-Qと木に適用される上部信頼境界 [全文訳有]

Dyna-T: Dyna-Q and Upper Confidence Bounds Applied to Trees ( http://arxiv.org/abs/2201.04502v1 )

ライセンス: CC BY 4.0
Tarek Faycal and Claudio Zito(参考訳) 本研究では,Dyna-Tという新しいアルゴリズムについて予備的検討を行う。 強化学習(rl)では、計画エージェントはモデルとして環境を独自の表現を持つ。 環境と相互作用する最適なポリシーを見つけるために、エージェントは試行錯誤の方法で経験を収集する。 経験は、よりよいモデルを学ぶか、価値関数とポリシーを直接改善するために利用できます。 一般的に分離されたdyna-qは、各イテレーションにおいて、モデルからシミュレーションデータを使用してアクションを計画しながら、実際の経験を利用してモデルと値関数を更新するハイブリッドアプローチである。 しかし、計画プロセスは計算コストが高く、状態-作用空間の次元性に強く依存する。 そこで本研究では,オンライン学習プロセスにおいて,模擬経験に基づくアッパー信頼木 (UCT) の構築と最適な行動の探索を提案する。 提案手法の有効性を,Open AIによる3つのテストベッド環境における予備試験のセットで検証した。 Dyna-Qとは対照的に、Dyna-Tはより堅牢なアクション選択戦略を選択することにより、確率環境における最先端のRLエージェントより優れる。

In this work we present a preliminary investigation of a novel algorithm called Dyna-T. In reinforcement learning (RL) a planning agent has its own representation of the environment as a model. To discover an optimal policy to interact with the environment, the agent collects experience in a trial and error fashion. Experience can be used for learning a better model or improve directly the value function and policy. Typically separated, Dyna-Q is an hybrid approach which, at each iteration, exploits the real experience to update the model as well as the value function, while planning its action using simulated data from its model. However, the planning process is computationally expensive and strongly depends on the dimensionality of the state-action space. We propose to build a Upper Confidence Tree (UCT) on the simulated experience and search for the best action to be selected during the on-line learning process. We prove the effectiveness of our proposed method on a set of preliminary tests on three testbed environments from Open AI. In contrast to Dyna-Q, Dyna-T outperforms state-of-the-art RL agents in the stochastic environments by choosing a more robust action selection strategy.
翻訳日:2022-01-13 16:32:20 公開日:2022-01-12
# (参考訳) 気道ラベリングのための構造および位置認識グラフニューラルネットワーク [全文訳有]

Structure and position-aware graph neural network for airway labeling ( http://arxiv.org/abs/2201.04532v1 )

ライセンス: CC BY 4.0
Weiyi Xie, Colin Jacobs, Jean-Paul Charbonnier, Bram van Ginneken(参考訳) 本稿では,与えられた気道木分割の解剖学的分岐をラベル付けするための新しいグラフベースアプローチを提案する。 提案手法は, 分岐特徴を畳み込みニューラルネットワーク(CNN)を用いて抽出し, グラフニューラルネットワークを用いて濃縮する気道木グラフにおいて, 分岐分類問題として気道ラベリングを定式化する。 グラフニューラルネットワークは,各ノードが隣接ノードから情報を集約し,そのノード位置をグラフにエンコードして位置認識することで,構造認識を行う。 慢性閉塞性肺疾患 (COPD) の重症度を指標として, 気道木220本について検討を行った。 その結果,本手法は計算効率が高く,本手法よりも分岐分類性能が著しく向上することが示された。 提案手法の平均精度は, 標準CNN法で得られた83.83\%と比較すると, 全18分枝のラベル付けにおいて91.18\%に達する。 ソースコードはhttps://github.com/D IAGNijmegen/spgnn.co mで公開しました。 提案アルゴリズムはhttps://grand-challe nge.org/algorithms/a irway-anatomical-lab eling/で公開されている。

We present a novel graph-based approach for labeling the anatomical branches of a given airway tree segmentation. The proposed method formulates airway labeling as a branch classification problem in the airway tree graph, where branch features are extracted using convolutional neural networks (CNN) and enriched using graph neural networks. Our graph neural network is structure-aware by having each node aggregate information from its local neighbors and position-aware by encoding node positions in the graph. We evaluated the proposed method on 220 airway trees from subjects with various severity stages of Chronic Obstructive Pulmonary Disease (COPD). The results demonstrate that our approach is computationally efficient and significantly improves branch classification performance than the baseline method. The overall average accuracy of our method reaches 91.18\% for labeling all 18 segmental airway branches, compared to 83.83\% obtained by the standard CNN method. We published our source code at https://github.com/D IAGNijmegen/spgnn. The proposed algorithm is also publicly available at https://grand-challe nge.org/algorithms/a irway-anatomical-lab eling/.
翻訳日:2022-01-13 16:22:37 公開日:2022-01-12
# (参考訳) 損失面暗黙正則化に基づくディープネットワークの一般化境界について

On generalization bounds for deep networks based on loss surface implicit regularization ( http://arxiv.org/abs/2201.04545v1 )

ライセンス: CC BY 4.0
Masaaki Imaizumi, Johannes Schmidt-Hieber(参考訳) 古典的な統計学習理論では、パラメータが多すぎると過剰になり、性能が低下する。 多数のパラメータが存在するにもかかわらず、現代のディープニューラルネットワークはこの発見と矛盾し、ディープラーニングの成功を説明するための大きな問題となっている。 確率勾配降下(SGD)による暗黙の正則化は重要であると考えられているが、その特異な原理はいまだ不明である。 本研究では,局所ミニマ周辺のエネルギー景観の局所形状がガウス勾配雑音を伴うsgdの統計特性にどのように影響するかを考察する。 妥当な仮定の下では、局所幾何学はSGDに低次元部分空間に近づき続けるよう強制し、これは暗黙の正規化を誘発し、ディープニューラルネットワークの一般化誤差により厳密な境界をもたらすと論じる。 ニューラルネットワークの一般化誤差境界を導出するために,まず,局所的ミニマ周辺のスタグネーション集合の概念を導入し,個体群リスクの局所的本質的凸性を課す。 これらの条件下では、SGD のこれらの静止集合に残すべき下界が導出される。 停滞が発生した場合、重み行列のスペクトルノルムを含むディープニューラルネットワークの一般化誤差を導出するが、ネットワークパラメータの数ではない。 技術的には、sgdイテレートにおけるパラメータ値の変化と、局所ミニマ周辺の適切な近傍のエントロピーに基づいて経験的損失関数の局所一様収束を制御することに基づいている。 本研究は,非凸最適化と一般化解析を一様収束で接続する。

The classical statistical learning theory says that fitting too many parameters leads to overfitting and poor performance. That modern deep neural networks generalize well despite a large number of parameters contradicts this finding and constitutes a major unsolved problem towards explaining the success of deep learning. The implicit regularization induced by stochastic gradient descent (SGD) has been regarded to be important, but its specific principle is still unknown. In this work, we study how the local geometry of the energy landscape around local minima affects the statistical properties of SGD with Gaussian gradient noise. We argue that under reasonable assumptions, the local geometry forces SGD to stay close to a low dimensional subspace and that this induces implicit regularization and results in tighter bounds on the generalization error for deep neural networks. To derive generalization error bounds for neural networks, we first introduce a notion of stagnation sets around the local minima and impose a local essential convexity property of the population risk. Under these conditions, lower bounds for SGD to remain in these stagnation sets are derived. If stagnation occurs, we derive a bound on the generalization error of deep neural networks involving the spectral norms of the weight matrices but not the number of network parameters. Technically, our proofs are based on controlling the change of parameter values in the SGD iterates and local uniform convergence of the empirical loss functions based on the entropy of suitable neighborhoods around local minima. Our work attempts to better connect non-convex optimization and generalization analysis with uniform convergence.
翻訳日:2022-01-13 16:03:47 公開日:2022-01-12
# (参考訳) MeTeoR: Metric Temporal Operatorsによるデータログの実践的推論 [全文訳有]

MeTeoR: Practical Reasoning in Datalog with Metric Temporal Operators ( http://arxiv.org/abs/2201.04596v1 )

ライセンス: CC BY 4.0
Dingmin Wang, Pan Hu, Przemys{\l}aw Andrzej Wa{\l}\k{e}ga, Bernardo Cuenca Grau(参考訳) DatalogMTLは、メトリック時間論理の演算子によるDatalogの拡張であり、近年大きな注目を集めている。 表現力の高い知識表現言語であり、時間オントロジーに基づくクエリ応答とストリーム処理の応用に適している。 しかし、datalogmtlの推論は計算の複雑さが高く、実装を困難にし、アプリケーションへの採用を妨げる。 本稿では,具体化(すなわち前方連鎖)とオートマトンに基づく手法を組み合わせた,datalogmtlにおける実用的な推論手法を提案する。 この手法をmeteorという推論器で実装し,lehigh university benchmarkの時間的拡張と実世界の気象データに基づくベンチマークを用いて評価した。 実験の結果,MeTeoRは数千万の時間的事実を含む複雑な時間的規則やデータセットの推論を可能にするスケーラブルなシステムであることがわかった。

DatalogMTL is an extension of Datalog with operators from metric temporal logic which has received significant attention in recent years. It is a highly expressive knowledge representation language that is well-suited for applications in temporal ontology-based query answering and stream processing. Reasoning in DatalogMTL is, however, of high computational complexity, making implementation challenging and hindering its adoption in applications. In this paper, we present a novel approach for practical reasoning in DatalogMTL which combines materialisation (a.k.a. forward chaining) with automata-based techniques. We have implemented this approach in a reasoner called MeTeoR and evaluated its performance using a temporal extension of the Lehigh University Benchmark and a benchmark based on real-world meteorological data. Our experiments show that MeTeoR is a scalable system which enables reasoning over complex temporal rules and datasets involving tens of millions of temporal facts.
翻訳日:2022-01-13 16:02:33 公開日:2022-01-12
# (参考訳) グラフニューラルネットワークを用いたグラフVAMPNetと生体分子の動的モデリングのためのマルコフ過程への変分アプローチ [全文訳有]

GraphVAMPNet, using graph neural networks and variational approach to markov processes for dynamical modeling of biomolecules ( http://arxiv.org/abs/2201.04609v1 )

ライセンス: CC BY 4.0
Mahdi Ghorbani, Samarjeet Prasad, Jeffery B. Klauda, Bernard R. Brooks(参考訳) タンパク質フォールディングやリガンド受容体結合などの生体分子過程の長期的軌跡からデータの低次元表現を見つけることは基本的重要であり、マルコフモデリングのような運動モデルがこれらの系の運動学を記述する上で有用であることが証明されている。 近年,低次元表現と線形力学モデルをエンドツーエンドで学習するために,教師なし機械学習技術であるvampnetが導入された。 VAMPNetはマルコフプロセス(VAMP)に対する変動的アプローチに基づいており、粗い粒度のダイナミクスを学ぶためにニューラルネットワークに依存している。 この貢献により、VAMPNetとグラフニューラルネットワークを組み合わせてエンドツーエンドのフレームワークを生成し、長期間の分子動力学軌道から高レベルダイナミクスと準安定状態の学習を効率的に行う。 この方法はグラフ表現学習の利点を生かし、グラフメッセージパッシング操作を用いてVAMPNetで使用される各データポイントへの埋め込みを生成し、粗い粒度の表現を生成する。 この種の分子表現は、標準のVAMPNetよりも高分解能で解釈可能なマルコフモデルとなり、生体分子過程のより詳細な速度論的研究を可能にした。 我々のGraphVAMPNetアプローチは、異なる準安定状態に分類するための重要な残基を見つけるための注意機構によって強化されている。

Finding low dimensional representation of data from long-timescale trajectories of biomolecular processes such as protein-folding or ligand-receptor binding is of fundamental importance and kinetic models such as Markov modeling have proven useful in describing the kinetics of these systems. Recently, an unsupervised machine learning technique called VAMPNet was introduced to learn the low dimensional representation and linear dynamical model in an end-to-end manner. VAMPNet is based on variational approach to Markov processes (VAMP) and relies on neural networks to learn the coarse-grained dynamics. In this contribution, we combine VAMPNet and graph neural networks to generate an end-to-end framework to efficiently learn high-level dynamics and metastable states from the long-timescale molecular dynamics trajectories. This method bears the advantages of graph representation learning and uses graph message passing operations to generate an embedding for each datapoint which is used in the VAMPNet to generate a coarse-grained representation. This type of molecular representation results in a higher resolution and more interpretable Markov model than the standard VAMPNet enabling a more detailed kinetic study of the biomolecular processes. Our GraphVAMPNet approach is also enhanced with an attention mechanism to find the important residues for classification into different metastable states.
翻訳日:2022-01-13 15:36:53 公開日:2022-01-12
# 深度・自我運動の効果的な自己教師型学習のための熱画像からの自己監督の最大化

Maximizing Self-supervision from Thermal Image for Effective Self-supervised Learning of Depth and Ego-motion ( http://arxiv.org/abs/2201.04387v1 )

ライセンス: Link先を確認
Ukcheol Shin, Kyunghyun Lee, Byeong-Uk Lee, In So Kweon(参考訳) 近年,熱画像からの深度とエゴモーションの自己教師付き学習は,困難なシナリオ下での強い堅牢性と信頼性を示している。 しかし、弱いコントラスト、ぼやけたエッジ、ノイズなどの固有の熱画像特性は、熱画像から効果的な自己スーパービジョンを生成するのを妨げている。 したがって、ほとんどの研究は、明るいRGB画像、生成モデル、ライダー情報などの追加の自己超越源に依存している。 本稿では,熱画像から自己スーパービジョンを縮退させる熱画像特性の詳細な解析を行う。 解析に基づいて, 時間的一貫性を維持しつつ, 全体構造, コントラスト, 詳細などの画像情報を大幅に増加させる効率的な熱画像マッピング手法を提案する。 提案手法は,RGBのガイダンスを付加することなく,従来の最先端ネットワークよりも優れた深度と結果を示す。

Recently, self-supervised learning of depth and ego-motion from thermal images shows strong robustness and reliability under challenging scenarios. However, the inherent thermal image properties such as weak contrast, blurry edges, and noise hinder to generate effective self-supervision from thermal images. Therefore, most research relies on additional self-supervision sources such as well-lit RGB images, generative models, and Lidar information. In this paper, we conduct an in-depth analysis of thermal image characteristics that degenerates self-supervision from thermal images. Based on the analysis, we propose an effective thermal image mapping method that significantly increases image information, such as overall structure, contrast, and details, while preserving temporal consistency. The proposed method shows outperformed depth and pose results than previous state-of-the-art networks without leveraging additional RGB guidance.
翻訳日:2022-01-13 15:22:09 公開日:2022-01-12
# movidnn - ディープニューラルネットワークによるビデオ品質向上評価のためのモバイルプラットフォーム

MoViDNN: A Mobile Platform for Evaluating Video Quality Enhancement with Deep Neural Networks ( http://arxiv.org/abs/2201.04402v1 )

ライセンス: Link先を確認
Ekrem \c{C}etinkaya and Minh Nguyen and Christian Timmerer(参考訳) ディープニューラルネットワーク(DNN)に基づくアプローチは、近年の急速な進歩により、ビデオ品質を改善するために集中的に研究されている。 これらのアプローチは計算コストが高いために主にデスクトップデバイス向けに設計されている。 しかし,近年のモバイルデバイスの性能向上に伴い,dnnベースのアプローチをモバイルデバイス上で実行することが可能となった。 計算能力は必要だが、dnnを利用してモバイルデバイスのビデオ品質を向上させることは、依然として活発な研究分野である。 本稿では,DNNに基づく超解像,デノーミング,デブロッキングなどの画質向上手法を評価するために,オープンソースのモバイルプラットフォームであるMoViDNNを提案する。 提案するプラットフォームは,DNNに基づくアプローチを客観的かつ主観的に評価することができる。 客観的評価では,実行時間,PSNR,SSIMなどの一般的な指標を報告する。 主観評価では平均スコアオピニオン(MOS)が報告される。 提案されたプラットフォームはhttps://github.com/c d-athena/MoViDNNで公開されている。

Deep neural network (DNN) based approaches have been intensively studied to improve video quality thanks to their fast advancement in recent years. These approaches are designed mainly for desktop devices due to their high computational cost. However, with the increasing performance of mobile devices in recent years, it became possible to execute DNN based approaches in mobile devices. Despite having the required computational power, utilizing DNNs to improve the video quality for mobile devices is still an active research area. In this paper, we propose an open-source mobile platform, namely MoViDNN, to evaluate DNN based video quality enhancement methods, such as super-resolution, denoising, and deblocking. Our proposed platform can be used to evaluate the DNN based approaches both objectively and subjectively. For objective evaluation, we report common metrics such as execution time, PSNR, and SSIM. For subjective evaluation, Mean Score Opinion (MOS) is reported. The proposed platform is available publicly at https://github.com/c d-athena/MoViDNN
翻訳日:2022-01-13 15:21:53 公開日:2022-01-12
# 双四元数を用いたグローバル最適多眼手眼校正

Globally Optimal Multi-Scale Monocular Hand-Eye Calibration Using Dual Quaternions ( http://arxiv.org/abs/2201.04473v1 )

ライセンス: Link先を確認
Thomas Wodtko, Markus Horn, Michael Buchholz, Klaus Dietmayer(参考訳) 本研究では,2つの四元数に基づくセンサごとの自我運動からモノクラーハンドアイキャリブレーションのアプローチを提案する。 単分子オードメトリーの非測定スケール翻訳のため、回転と翻訳のキャリブレーションに加えてスケーリング係数を推定する必要がある。 このために、外因性キャリブレーションパラメータを総合的に推定できる二次的制約付き二次プログラムを導出する。 双四元数を用いると、そのコンパクトな表現のため、実行時間が低くなる。 問題の定式化により、同一センサの異なるシーケンスに対して同時に複数のスケーリングを推定できる。 問題の定式化に基づいて,高速局所解とグローバル最適解法の両方を導出する。 最後に、我々のアルゴリズムは、EuRoC MAVデータセットのようなシミュレーションおよび実世界のデータに対する最先端のアプローチと比較して評価される。

In this work, we present an approach for monocular hand-eye calibration from per-sensor ego-motion based on dual quaternions. Due to non-metrically scaled translations of monocular odometry, a scaling factor has to be estimated in addition to the rotation and translation calibration. For this, we derive a quadratically constrained quadratic program that allows a combined estimation of all extrinsic calibration parameters. Using dual quaternions leads to low run-times due to their compact representation. Our problem formulation further allows to estimate multiple scalings simultaneously for different sequences of the same sensor setup. Based on our problem formulation, we derive both, a fast local and a globally optimal solving approach. Finally, our algorithms are evaluated and compared to state-of-the-art approaches on simulated and real-world data, e.g., the EuRoC MAV dataset.
翻訳日:2022-01-13 15:21:37 公開日:2022-01-12
# SensatUrban: 都市規模の測光点雲からセマンティックスを学ぶ

SensatUrban: Learning Semantics from Urban-Scale Photogrammetric Point Clouds ( http://arxiv.org/abs/2201.04494v1 )

ライセンス: Link先を確認
Qingyong Hu, Bo Yang, Sheikh Khalid, Wen Xiao, Niki Trigoni, Andrew Markham(参考訳) 近年の商用深度センサーと3Dスキャナーの可用性と可利用性により、3Dコンピュータビジョンの研究を促進するために3Dデータセット(RGBD、ポイントクラウド)が公表されている。 しかし、既存のデータセットは比較的小さな領域をカバーするか、あるいは限定的な意味的アノテーションを持つ。 都市規模の3Dシーンのきめ細かい理解はまだ初期段階だ。 本稿では,7.6km^2の英国3都市から収集された30億点近い都市規模のUAV測位点クラウドデータセットであるSensatUrbanを紹介する。 データセットの各ポイントは、粒度の細かいセマンティックアノテーションでラベル付けされ、その結果、既存の最大のフォトグラムポイントクラウドデータセットの3倍の大きさのデータセットが生成される。 道路や植生といった一般的なカテゴリに加えて、鉄道、橋、川といった都市レベルのカテゴリもデータセットに含まれています。 このデータセットに基づいて,最先端セグメンテーションアルゴリズムの性能評価のためのベンチマークを更に構築する。 特に、総合的な分析を行い、都市規模のポイントクラウド理解を制限するいくつかの重要な課題を特定します。 データセットはhttp://point-cloud- analysis.cs.ox.ac.uk で利用可能である。

With the recent availability and affordability of commercial depth sensors and 3D scanners, an increasing number of 3D (i.e., RGBD, point cloud) datasets have been publicized to facilitate research in 3D computer vision. However, existing datasets either cover relatively small areas or have limited semantic annotations. Fine-grained understanding of urban-scale 3D scenes is still in its infancy. In this paper, we introduce SensatUrban, an urban-scale UAV photogrammetry point cloud dataset consisting of nearly three billion points collected from three UK cities, covering 7.6 km^2. Each point in the dataset has been labelled with fine-grained semantic annotations, resulting in a dataset that is three times the size of the previous existing largest photogrammetric point cloud dataset. In addition to the more commonly encountered categories such as road and vegetation, urban-level categories including rail, bridge, and river are also included in our dataset. Based on this dataset, we further build a benchmark to evaluate the performance of state-of-the-art segmentation algorithms. In particular, we provide a comprehensive analysis and identify several key challenges limiting urban-scale point cloud understanding. The dataset is available at http://point-cloud-a nalysis.cs.ox.ac.uk.
翻訳日:2022-01-13 15:21:22 公開日:2022-01-12
# 仮想弾性オブジェクト

Virtual Elastic Objects ( http://arxiv.org/abs/2201.04623v1 )

ライセンス: Link先を確認
Hsiao-yu Chen and Edgar Tretschk and Tuur Stuyck and Petr Kadlecek and Ladislav Kavan and Etienne Vouga and Christoph Lassner(参考訳) 仮想弾性オブジェクト(VEOs: Virtual Elastic Objects): 仮想オブジェクトは、現実世界のオブジェクトのように見えるだけでなく、斬新なインタラクションであっても、そのように振る舞う。 オブジェクトに作用する物理的な力を含め、オブジェクトをキャプチャし、忠実に再構築し、レンダリングするだけでなく、発見し、シミュレートすることのできる材料パラメータも必要となる。 VEOを作成するために,圧縮空気流の影響下で物体を捕捉するマルチビューキャプチャシステムを構築した。 モデルフリーでダイナミックなニューラルラジアンスフィールドの最近の進歩に基づいて、物体とそれに対応する変形場を再構成する。 そこで本研究では,これらの変形場を用いて代表材料パラメータを探索し,新しいシミュレーションを行えるようにするために,微分可能な粒子ベースシミュレータを提案する。 シミュレーション対象を描画するために,シミュレーション結果をニューラルネットワーク場と統合する手法を提案する。 この手法は様々なシナリオに適用可能であり、不均質な物質からなる物体を全く異なる形状で扱うことができ、他の仮想物体との相互作用をシミュレートすることができる。 我々は,新たに収集した12個のオブジェクトのデータセットを,様々な力場下で利用し,コミュニティと共有する。

We present Virtual Elastic Objects (VEOs): virtual objects that not only look like their real-world counterparts but also behave like them, even when subject to novel interactions. Achieving this presents multiple challenges: not only do objects have to be captured including the physical forces acting on them, then faithfully reconstructed and rendered, but also plausible material parameters found and simulated. To create VEOs, we built a multi-view capture system that captures objects under the influence of a compressed air stream. Building on recent advances in model-free, dynamic Neural Radiance Fields, we reconstruct the objects and corresponding deformation fields. We propose to use a differentiable, particle-based simulator to use these deformation fields to find representative material parameters, which enable us to run new simulations. To render simulated objects, we devise a method for integrating the simulation results with Neural Radiance Fields. The resulting method is applicable to a wide range of scenarios: it can handle objects composed of inhomogeneous material, with very different shapes, and it can simulate interactions with other virtual objects. We present our results using a newly collected dataset of 12 objects under a variety of force fields, which will be shared with the community.
翻訳日:2022-01-13 15:21:02 公開日:2022-01-12
# 安全平衡

Safe Equilibrium ( http://arxiv.org/abs/2201.04266v1 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) 標準的なゲーム理論解の概念であるナッシュ均衡は、すべてのプレイヤーが合理的に振る舞うことを仮定する。 ナッシュ均衡に従えば、相手が不合理である(あるいは異なるナッシュ均衡からの戦略に従う)なら、非常に低い報酬を得ることができる。 一方、マキシマイン戦略は、すべての敵対するエージェントが、(最善の利益がなくても)私たちの報酬を最小化するためにプレーしていると仮定し、最悪の場合の最大利益を確実にするが、その結果は極めて保守的なプレーとなる。 そこで本稿では, 任意の確率で合理的に振る舞い, 残りの確率で任意に振る舞うような, 安全な平衡という新しい解法を提案する。 有理性パラメータの可能な全ての値に対して)全ての戦略形式ゲームに安全な平衡が存在することを証明し、その計算がPPADハードであることを証明する。 2 と $n$ の両方のゲームで安全な均衡を計算するための厳密なアルゴリズムとスケーラブルな近似アルゴリズムを提案する。

The standard game-theoretic solution concept, Nash equilibrium, assumes that all players behave rationally. If we follow a Nash equilibrium and opponents are irrational (or follow strategies from a different Nash equilibrium), then we may obtain an extremely low payoff. On the other hand, a maximin strategy assumes that all opposing agents are playing to minimize our payoff (even if it is not in their best interest), and ensures the maximal possible worst-case payoff, but results in exceedingly conservative play. We propose a new solution concept called safe equilibrium that models opponents as behaving rationally with a specified probability and behaving potentially arbitrarily with the remaining probability. We prove that a safe equilibrium exists in all strategic-form games (for all possible values of the rationality parameters), and prove that its computation is PPAD-hard. We present exact algorithms for computing a safe equilibrium in both 2 and $n$-player games, as well as scalable approximation algorithms.
翻訳日:2022-01-13 15:20:41 公開日:2022-01-12
# DPCL: 規範仕様のための言語テンプレート

DPCL: a Language Template for Normative Specifications ( http://arxiv.org/abs/2201.04477v1 )

ライセンス: Link先を確認
Giovanni Sileno, Thomas van Binsbergen, Matteo Pascucci, Tom van Engers(参考訳) 規範的アーティファクト(ノルム、契約、ポリシー)を計算処理可能な方法で特定するためのいくつかのソリューションが文献に提示されている。 規範的推論に関連する概念と関係を体系化するために法的核となるオントロジーが提案されている。 しかし、それらの間の解は一般に受け入れられず、共通基盤(表現的、計算的)は特定されておらず、簡単に比較できる。 しかし、これらの取り組みはすべて、規範的指示を表わす同じ動機を共有しているため、それら全てを包含する表現モデルが存在する可能性は高い。 このプレゼンテーションでは、Hahfeld氏の基本的な法的概念のフレームワークを中心にした、高レベルなポリシー(規範、契約などを含む)を指定するためのドメイン固有言語(DSL)であるDPCLを紹介します。 DPCLは主に、アーキテクチャ参照のための情報モデルとして、完全な形式言語ではなく、アーキテクチャ参照のための情報モデルとして見なされなければならない。 この点に関しては、法的な中核オントロジーの方向に進んでいますが、それとは違って、私たちの提案は、論理的なフレームワークにおける一連の公理ではなく、DSLのキャラクタを維持することを目的としています。 ここでは、いくつかの言語機能の概要を紹介する。

Several solutions for specifying normative artefacts (norms, contracts, policies) in a computational processable way have been presented in the literature. Legal core ontologies have been proposed to systematize concepts and relationships relevant to normative reasoning. However, no solution amongst those has achieved general acceptance, and no common ground (representational, computational) has been identified enabling us to easily compare them. Yet, all these efforts share the same motivation of representing normative directives, therefore it is plausible that there may be a representational model encompassing all of them. This presentation will introduce DPCL, a domain-specific language (DSL) for specifying higher-level policies (including norms, contracts, etc.), centred on Hohfeld's framework of fundamental legal concepts. DPCL has to be seen primarily as a "template", i.e. as an informational model for architectural reference, rather than a fully-fledged formal language; it aims to make explicit the general requirements that should be expected in a language for norm specification. In this respect, it goes rather in the direction of legal core ontologies, but differently from those, our proposal aims to keep the character of a DSL, rather than a set of axioms in a logical framework: it is meant to be cross-compiled to underlying languages/tools adequate to the type of target application. We provide here an overview of some of the language features.
翻訳日:2022-01-13 15:20:21 公開日:2022-01-12
# グラディエント型政策学習のための進化的行動選択

Evolutionary Action Selection for Gradient-based Policy Learning ( http://arxiv.org/abs/2201.04286v1 )

ライセンス: Link先を確認
Yan Ma, Tianxing Liu, Bingsheng Wei, Yi Liu, Kang Xu, Wei Li(参考訳) 進化的アルゴリズム(EA)と深層強化学習(DRL)が最近組み合わされ、より良い政策学習のための2つのソリューションの利点が統合された。 しかし、既存のハイブリッド手法では、EAは政策ネットワークを直接訓練するために使われており、これは政策性能に対するサンプルの非効率性と予測不可能な影響をもたらす。 これら2つのアプローチをよりうまく統合し、EAの導入による欠点を避けるため、私たちは、EAとDRLを組み合わせるためのより効率的で合理的な方法の開発に取り組んだ。 本稿では,進化的行動選択遅延型Deep Deterministic Policy Gradient (EAS-TD3)を提案する。 EASでは,政策ネットワークが選択した行動の最適化に重点を置いて,進化的アルゴリズムによる政策学習を導くための高品質な行動の獲得を試みる。 我々は,連続制御タスクに挑戦する実験を複数実施する。 その結果,EAS-TD3は他の最先端手法よりも優れた性能を示した。

Evolutionary Algorithms (EAs) and Deep Reinforcement Learning (DRL) have recently been combined to integrate the advantages of the two solutions for better policy learning. However, in existing hybrid methods, EA is used to directly train the policy network, which will lead to sample inefficiency and unpredictable impact on the policy performance. To better integrate these two approaches and avoid the drawbacks caused by the introduction of EA, we devote ourselves to devising a more efficient and reasonable method of combining EA and DRL. In this paper, we propose Evolutionary Action Selection-Twin Delayed Deep Deterministic Policy Gradient (EAS-TD3), a novel combination of EA and DRL. In EAS, we focus on optimizing the action chosen by the policy network and attempt to obtain high-quality actions to guide policy learning through an evolutionary algorithm. We conduct several experiments on challenging continuous control tasks. The result shows that EAS-TD3 shows superior performance over other state-of-art methods.
翻訳日:2022-01-13 15:19:58 公開日:2022-01-12
# 深層学習による光音響顕微鏡画像のデノイズ化

De-Noising of Photoacoustic Microscopy Images by Deep Learning ( http://arxiv.org/abs/2201.04302v1 )

ライセンス: Link先を確認
Da He, Jiasheng Zhou, Xiaoyu Shang, Jiajia Luo, and Sung-Liang Chen(参考訳) ハイブリッドイメージング技術として、光音響顕微鏡(PAM)イメージングは、レーザー強度の最大許容露光、組織内の超音波の減衰、トランスデューサ固有のノイズによってノイズに悩まされる。 ノイズを低減させる後処理であり、pam画像品質を回復することができる。 しかし、従来の非ノイズ化技術は通常、数学的な優先順位と手動で選択したパラメータに大きく依存しており、様々なノイズ画像に対して不満足で遅い非ノイズ化性能をもたらし、実用的および臨床的な応用を妨げている。 本研究では,PAM画像からの複雑なノイズを数学的に先行しないで除去し,異なる入力画像の設定を手動で選択する深層学習に基づく手法を提案する。 画像の特徴を抽出し、様々なノイズを除去するために注意強化生成逆ネットワークが使用される。 本手法は, ファントム (葉脈) や生体内 (マウス耳血管およびゼブラフィッシュ色素) 実験を含む, 合成データと実データの両方で実証された。 その結果,従来のPAM復調法と比較して,画像の質的,定量的な復元に優れた性能を示した。 さらに、0.016秒のノイズ除去速度は、256\times256$ピクセルの画像に対して達成される。 提案手法は,PAM画像のノイズ除去に有効かつ実用的である。

As a hybrid imaging technology, photoacoustic microscopy (PAM) imaging suffers from noise due to the maximum permissible exposure of laser intensity, attenuation of ultrasound in the tissue, and the inherent noise of the transducer. De-noising is a post-processing method to reduce noise, and PAM image quality can be recovered. However, previous de-noising techniques usually heavily rely on mathematical priors as well as manually selected parameters, resulting in unsatisfactory and slow de-noising performance for different noisy images, which greatly hinders practical and clinical applications. In this work, we propose a deep learning-based method to remove complex noise from PAM images without mathematical priors and manual selection of settings for different input images. An attention enhanced generative adversarial network is used to extract image features and remove various noises. The proposed method is demonstrated on both synthetic and real datasets, including phantom (leaf veins) and in vivo (mouse ear blood vessels and zebrafish pigment) experiments. The results show that compared with previous PAM de-noising methods, our method exhibits good performance in recovering images qualitatively and quantitatively. In addition, the de-noising speed of 0.016 s is achieved for an image with $256\times256$ pixels. Our approach is effective and practical for the de-noising of PAM images.
翻訳日:2022-01-13 15:19:41 公開日:2022-01-12
# タイムリーにランサムウェアの実行を検出する

Detecting Ransomware Execution in a Timely Manner ( http://arxiv.org/abs/2201.04424v1 )

ライセンス: Link先を確認
Anthony Melaragno, William Casey(参考訳) ランサムウェアは1990年代初めから問題となっている。 近年、ランサムウェアは従来の計算資源からサイバー物理システムや産業制御へと広がってきた。 仮想インスタンスがランサムウェアに感染する一連の実験を考案した。 インスタンスを計測し、さまざまなメトリクス(CPU、メモリ、ディスクユーティリティ)でリソース利用データを収集しました。 ランサムウェア実行を識別するための変更点検出と学習方法を設計する。 最後に,最小限のサンプルをトレーニングした場合に,ランサムウェアをタイムリーに効率的に検出する能力を評価し,実証する。 我々の結果は防衛の一歩であり、今後の道のりについてさらにコメントで締めくくります。

Ransomware has been an ongoing issue since the early 1990s. In recent times ransomware has spread from traditional computational resources to cyber-physical systems and industrial controls. We devised a series of experiments in which virtual instances are infected with ransomware. We instrumented the instances and collected resource utilization data across a variety of metrics (CPU, Memory, Disk Utility). We design a change point detection and learning method for identifying ransomware execution. Finally we evaluate and demonstrate its ability to detect ransomware efficiently in a timely manner when trained on a minimal set of samples. Our results represent a step forward for defense, and we conclude with further remarks for the path forward.
翻訳日:2022-01-13 15:19:01 公開日:2022-01-12
# 気をつけろ! トレーニングの関連性は本物

Careful! Training Relevance is Real ( http://arxiv.org/abs/2201.04429v1 )

ライセンス: Link先を確認
Chenbo Shi, Mohsen Emadikhiav, Leonardo Lozano, David Bergman(参考訳) 機械学習と最適化の統合に関する最近の研究が急増している。 この研究ストリーム内の拡張領域の1つは予測モデル埋め込み最適化であり、最適化問題の目的関数に対して事前学習された予測モデルを用いて、予測モデルの特徴が最適化問題の決定変数となる。 この分野における最近の出版物の増加にもかかわらず、この意思決定パイプラインのほとんどが見過ごされている側面は、最適化問題に対するソリューションが予測モデルのトレーニングに使用されるデータと似ていることを保証するための、トレーニングの関連性である。 本稿では,トレーニングの妥当性を高めるために設計された制約を提案し,提案した制約を加えることで,得られたソリューションの品質が著しく向上することを示す。

There is a recent proliferation of research on the integration of machine learning and optimization. One expansive area within this research stream is predictive-model embedded optimization, which uses pre-trained predictive models for the objective function of an optimization problem, so that features of the predictive models become decision variables in the optimization problem. Despite a recent surge in publications in this area, one aspect of this decision-making pipeline that has been largely overlooked is training relevance, i.e., ensuring that solutions to the optimization problem should be similar to the data used to train the predictive models. In this paper, we propose constraints designed to enforce training relevance, and show through a collection of experimental results that adding the suggested constraints significantly improves the quality of solutions obtained.
翻訳日:2022-01-13 15:18:53 公開日:2022-01-12
# 厳密な学習とテスト理論

Exact learning and test theory ( http://arxiv.org/abs/2201.04506v1 )

ライセンス: Link先を確認
Mikhail Moshkov(参考訳) 本稿では、厳密な学習とテスト理論の結果に基づいて、各要素の無限集合と要素集合上に定義される2値関数(属性)の無限集合からなる任意の無限二元情報システムについて研究する。 我々は,情報システム上の問題の概念を有限個の属性によって記述する: 与えられた要素に対して,これらの属性の値を認識する必要がある。 問題解決のアルゴリズムとして,2種類の決定木を考える。 (i)適切な仮説(正確な学習からの適切な同値クエリの類似)のみを使用すること、及び (二)属性と適切な仮説の両方を用いる。 時間的複雑さとして、決定木の深さを研究する。 最悪の場合、問題記述における属性数の増加に伴い、両方のタイプの決定木の最小深さは、上から定数で区切られるか、対数として成長するか、あるいは線形に成長する。 これらの結果と、より早く得られた属性と任意の仮説に基づいて、無限のバイナリ情報システムの集合を7つの複雑性クラスに分割する。

In this paper, based on results of exact learning and test theory, we study arbitrary infinite binary information systems each of which consists of an infinite set of elements and an infinite set of two-valued functions (attributes) defined on the set of elements. We consider the notion of a problem over information system, which is described by a finite number of attributes: for a given element, we should recognize values of these attributes. As algorithms for problem solving, we consider decision trees of two types: (i) using only proper hypotheses (an analog of proper equivalence queries from exact learning), and (ii) using both attributes and proper hypotheses. As time complexity, we study the depth of decision trees. In the worst case, with the growth of the number of attributes in the problem description, the minimum depth of decision trees of both types either is bounded from above by a constant or grows as a logarithm, or linearly. Based on these results and results obtained earlier for attributes and arbitrary hypotheses, we divide the set of all infinite binary information systems into seven complexity classes.
翻訳日:2022-01-13 15:18:40 公開日:2022-01-12
# 通信効率およびストラグラー耐性分散sgdのための適応ワーカーグルーピング

Adaptive Worker Grouping For Communication-Effici ent and Straggler-Tolerant Distributed SGD ( http://arxiv.org/abs/2201.04301v1 )

ライセンス: Link先を確認
Feng Zhu, Jingjing Zhang, Osvaldo Simeone and Xin Wang(参考訳) パラメータサーバ設定における確率勾配降下(SGD)の分散実装において,ウォールクロック収束時間と通信負荷が重要なパフォーマンス指標である。 近年,作業者の適応選択による通信負荷軽減手法として,通信適応分散Adam (CADA) が提案されている。 CADAは、ストラグラーの存在下での壁面収束時間において性能劣化する。 本稿では,グループ化方式のCADA (G-CADA) を提案する。この方式は,通信負荷を低減する上でのCADAの利点を保ちつつ,作業者の追加記憶コストを犠牲にしてトラグラーのロバスト性を高める。 G-CADAは、労働者を同じデータシャードを割り当てられた労働者のグループに分割する。 グループは各イテレーションでアダプティブにスケジュールされ、サーバは選択されたグループで最速のワーカーを待つのみである。 本稿では,G-CADAのウォールクロック時間に対する有意な利得と,他のベンチマーク方式に対する通信負荷と計算負荷について解析および実験を行った。

Wall-clock convergence time and communication load are key performance metrics for the distributed implementation of stochastic gradient descent (SGD) in parameter server settings. Communication-adapti ve distributed Adam (CADA) has been recently proposed as a way to reduce communication load via the adaptive selection of workers. CADA is subject to performance degradation in terms of wall-clock convergence time in the presence of stragglers. This paper proposes a novel scheme named grouping-based CADA (G-CADA) that retains the advantages of CADA in reducing the communication load, while increasing the robustness to stragglers at the cost of additional storage at the workers. G-CADA partitions the workers into groups of workers that are assigned the same data shards. Groups are scheduled adaptively at each iteration, and the server only waits for the fastest worker in each selected group. We provide analysis and experimental results to elaborate the significant gains on the wall-clock time, as well as communication load and computation load, of G-CADA over other benchmark schemes.
翻訳日:2022-01-13 15:17:53 公開日:2022-01-12
# ECGミスマッチ計算におけるコスト関数の滑らか性と連続性

Smoothness and continuity of cost functionals for ECG mismatch computation ( http://arxiv.org/abs/2201.04487v1 )

ライセンス: Link先を確認
Thomas Grandits and Simone Pezzuto and Gernot Plank(参考訳) 心臓電気生理学の分野は、心拍の電気的特性を抽象化し、記述し、最終的にモデル化しようとする。 近年の心電気生理学の進歩により、モデルはかつてないほど強力で記述的になっている。 しかし、逆電気生理学的モデリングの分野、すなわち心電図のような電気的測定からモデルを作成するためには、シミュレーションされた心電図w.r.t.モデルパラメータの滑らかさのあまり研究されていない分野を探求する必要がある。 本稿では,生理的パラメータからシミュレートされたECGにどのように着くかを記述するパイプライン全体の滑らかさについて論じる。 このようなパイプラインを用いることで、簡易な理想化左室モデルのテストベンチを作成し、滑らかなコスト汎関数による効率的な逆モデリングのための最も重要な要素を実証する。 このような知識は、将来の最適化と機械学習手法における逆モデルの設計と作成において重要である。

The field of cardiac electrophysiology tries to abstract, describe and finally model the electrical characteristics of a heartbeat. With recent advances in cardiac electrophysiology, models have become more powerful and descriptive as ever. However, to advance to the field of inverse electrophysiological modeling, i.e. creating models from electrical measurements such as the ECG, the less investigated field of smoothness of the simulated ECGs w.r.t. model parameters need to be further explored. The present paper discusses smoothness in terms of the whole pipeline which describes how from physiological parameters, we arrive at the simulated ECG. Employing such a pipeline, we create a test-bench of a simplified idealized left ventricle model and demonstrate the most important factors for efficient inverse modeling through smooth cost functionals. Such knowledge will be important for designing and creating inverse models in future optimization and machine learning methods.
翻訳日:2022-01-13 15:17:35 公開日:2022-01-12
# サンプル増幅の統計的複雑性について

On the Statistical Complexity of Sample Amplification ( http://arxiv.org/abs/2201.04315v1 )

ライセンス: Link先を確認
Brian Axelrod, Shivam Garg, Yanjun Han, Vatsal Sharan, Gregory Valiant(参考訳) 未知の分布から引き出された$n$ i.i.d.サンプルを$P$とすれば、$P$から引き出された$n+m$と区別できない、より大きな$n+m$サンプルをいつ作成できるのか? (axelrod et al. 2019)はこの問題をサンプル増幅問題として定式化し、離散分布とガウスの位置モデルに対する最適増幅手順を与えた。 しかしながら、これらの手順と関連する下限は、特定の分布クラスに合わせて調整されており、サンプル増幅に関する一般的な統計的理解はいまだにほとんど失われていない。 本研究では,一般に適用可能な増幅手順,下限手法,既存統計概念との接続を導出することにより,サンプル増幅問題を強固な統計的基礎に配置する。 本手法は指数関数群を含む大規模分布に適用し,サンプル増幅と分布学習の厳密な関係を確立する。

Given $n$ i.i.d. samples drawn from an unknown distribution $P$, when is it possible to produce a larger set of $n+m$ samples which cannot be distinguished from $n+m$ i.i.d. samples drawn from $P$? (Axelrod et al. 2019) formalized this question as the sample amplification problem, and gave optimal amplification procedures for discrete distributions and Gaussian location models. However, these procedures and associated lower bounds are tailored to the specific distribution classes, and a general statistical understanding of sample amplification is still largely missing. In this work, we place the sample amplification problem on a firm statistical foundation by deriving generally applicable amplification procedures, lower bound techniques and connections to existing statistical notions. Our techniques apply to a large class of distributions including the exponential family, and establish a rigorous connection between sample amplification and distribution learning.
翻訳日:2022-01-13 15:17:18 公開日:2022-01-12
# (参考訳) econet:scribbleベースのインタラクティブセグメンテーションのための効率的な畳み込みオンラインラウンスネットワーク [全文訳有]

ECONet: Efficient Convolutional Online Likelihood Network for Scribble-based Interactive Segmentation ( http://arxiv.org/abs/2201.04584v1 )

ライセンス: CC BY 4.0
Muhammad Asad, Lucas Fidon, Tom Vercauteren(参考訳) CT画像におけるCOVID-19関連肺病変の自動分離には,大量の注記量が必要である。 アノテーションは専門家の知識を義務付けており、完全な手動セグメンテーションメソッドを通じて取得するのに時間を要する。 さらに、肺病変は患者間の変化が大きく、健康な肺組織と類似した外観を持つ病変もある。 これは、データラベリングに既存の半自動インタラクティブセグメンテーション技術を適用する際の課題である。 これらの課題に対処するために,アノテータがスクリブルベースのインタラクションを提供する間,オンラインで学習できる効率的な畳み込みニューラルネットワーク(cnns)を提案する。 ユーザインタラクションを通じてラベル付けされたサンプルのみからの学習を高速化するため、ネットワークのトレーニングにはパッチベースのアプローチが使用される。 さらに,重み付きクロスエントロピー損失を用いて,ユーザインタラクションによるクラス不均衡に対処する。 オンライン推論において、学習したネットワークは完全な畳み込みアプローチを用いて入力ボリューム全体に適用される。 提案法を最先端法と比較し,covid-19関連肺病変に注釈を付け,diceスコアを16%向上させるとともに,実行時間を3$\times$で短縮し,スクリブルベースのラベル付きボクセルを9000未満で使用する方法と比較した。 オンライン学習の側面から,我々のアプローチはユーザ入力に迅速に適応し,高品質なセグメンテーションラベルを生み出す。 ソースコードは受理次第公開される予定だ。

Automatic segmentation of lung lesions associated with COVID-19 in CT images requires large amount of annotated volumes. Annotations mandate expert knowledge and are time-intensive to obtain through fully manual segmentation methods. Additionally, lung lesions have large inter-patient variations, with some pathologies having similar visual appearance as healthy lung tissues. This poses a challenge when applying existing semi-automatic interactive segmentation techniques for data labelling. To address these challenges, we propose an efficient convolutional neural networks (CNNs) that can be learned online while the annotator provides scribble-based interaction. To accelerate learning from only the samples labelled through user-interactions, a patch-based approach is used for training the network. Moreover, we use weighted cross-entropy loss to address the class imbalance that may result from user-interactions. During online inference, the learned network is applied to the whole input volume using a fully convolutional approach. We compare our proposed method with state-of-the-art and show that it outperforms existing methods on the task of annotating lung lesions associated with COVID-19, achieving 16% higher Dice score while reducing execution time by 3$\times$ and requiring 9000 lesser scribbles-based labelled voxels. Due to the online learning aspect, our approach adapts quickly to user input, resulting in high quality segmentation labels. Source code will be made available upon acceptance.
翻訳日:2022-01-13 15:15:46 公開日:2022-01-12
# 3DMgNetによるアルツハイマー病の予測

Predicting Alzheimer's Disease Using 3DMgNet ( http://arxiv.org/abs/2201.04370v1 )

ライセンス: Link先を確認
Yelu Gao, Huang Huang, Lian Zhang(参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、脳の可逆性神経変性疾患である。 アルツハイマー病の診断には、医師の作業負荷を増加させるだけでなく、診断の結果が主観的になるような、臨床的に診断を評価するための一連の尺度が必要となることが多い。 したがって、アルツハイマー病では、早期診断マーカーを見つけるための画像診断が最優先事項となっている。 本稿では,アルツハイマー病(AD)の診断を目的とした,マルチグリッド・畳み込みニューラルネットワークの統合フレームワークである3DMgNetアーキテクチャを提案する。 モデルはオープンデータセット(adniデータセット)を使用してトレーニングされ、私たちの小さなデータセットでテストされます。 最後に、adとncの分類において92.133%の精度を達成し、モデルパラメータを大幅に削減した。

Alzheimer's disease (AD) is an irreversible neurode generative disease of the brain.The disease may causes memory loss, difficulty communicating and disorientation. For the diagnosis of Alzheimer's disease, a series of scales are often needed to evaluate the diagnosis clinically, which not only increases the workload of doctors, but also makes the results of diagnosis highly subjective. Therefore, for Alzheimer's disease, imaging means to find early diagnostic markers has become a top priority. In this paper, we propose a novel 3DMgNet architecture which is a unified framework of multigrid and convolutional neural network to diagnose Alzheimer's disease (AD). The model is trained using an open dataset (ADNI dataset) and then test with a smaller dataset of ours. Finally, the model achieved 92.133% accuracy for AD vs NC classification and significantly reduced the model parameters.
翻訳日:2022-01-13 15:02:05 公開日:2022-01-12
# 未知変数を持つ2アーマガウス帯域における加算逆確率推定器を用いた最適固定予算ベストアーム同定

Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse Probability Estimator in Two-Armed Gaussian Bandits with Unknown Variances ( http://arxiv.org/abs/2201.04469v1 )

ライセンス: Link先を確認
Masahiro Kato and Kaito Ariu and Masaaki Imaizumi and Masatoshi Uehara and Masahiro Nomura and and Chao Qin(参考訳) 未知の分散を持つ2本腕ガウスバンドの固定予算最良アーム識別問題を考える。 複雑性の最も厳密な下界と下界に適合する性能保証アルゴリズムは、分散が不明で、アルゴリズムがアームドローの最適割合に無関係である場合、長い間開いている問題であった。 本稿では,アームドローの推定目標割当確率に追従したランダムサンプリング(rs)によるサンプリング規則と,因果推論文献でよく用いられる拡張逆確率重み付け(aipw)推定器を用いた推奨規則を含む戦略を提案する。 当社の戦略をRS-AIPW戦略と呼ぶ。 理論解析において,我々はまず,第2モーメントが平均収束するときに使用可能なマルティンガレスに対する大きな偏差原理を導出し,提案する戦略に適用する。 そこで,提案手法は標本サイズが無限大になり,両腕間の隙間がゼロとなる場合に,Kaufmann et al. (2016) による下界を達成するという意味で,漸近的に最適であることを示す。

We consider the fixed-budget best arm identification problem in two-armed Gaussian bandits with unknown variances. The tightest lower bound on the complexity and an algorithm whose performance guarantee matches the lower bound have long been open problems when the variances are unknown and when the algorithm is agnostic to the optimal proportion of the arm draws. In this paper, we propose a strategy comprising a sampling rule with randomized sampling (RS) following the estimated target allocation probabilities of arm draws and a recommendation rule using the augmented inverse probability weighting (AIPW) estimator, which is often used in the causal inference literature. We refer to our strategy as the RS-AIPW strategy. In the theoretical analysis, we first derive a large deviation principle for martingales, which can be used when the second moment converges in mean, and apply it to our proposed strategy. Then, we show that the proposed strategy is asymptotically optimal in the sense that the probability of misidentification achieves the lower bound by Kaufmann et al. (2016) when the sample size becomes infinitely large and the gap between the two arms goes to zero.
翻訳日:2022-01-13 15:01:27 公開日:2022-01-12
# 動的視聴覚ナビゲーション:未熟な3d環境における未聴音音源の捕捉

Dynamical Audio-Visual Navigation: Catching Unheard Moving Sound Sources in Unmapped 3D Environments ( http://arxiv.org/abs/2201.04279v1 )

ライセンス: Link先を確認
Abdelrahman Younes(参考訳) 最近の視聴覚ナビゲーションの研究は、ノイズのないオーディオ環境において単一の静的な音をターゲットにしており、未聴音への一般化に苦慮している。 本稿では,身体化されたaiエージェントが不注意な環境下で移動音源を捕捉し,ノイズを発生させるダイナミックな音声・ビジュアルナビゲーションベンチマークを提案する。 本研究では,バイノーラル音声信号と空間占有マップから空間視情報を融合して,新しい複雑なタスク設定のためのロバストなナビゲーションポリシを学習するために必要な機能をエンコードするマルチモーダルアーキテクチャに基づく,エンドツーエンドの強化学習手法を提案する。 静的および動的オーディオ視覚ナビゲーションベンチマークでは、3Dスキャンされた実世界のデータセットであるReplicaとMatterport3Dの2つの難易度シナリオにおいて、我々のアプローチが現在の最先端技術より優れ、未聴音へのより良い一般化と、ノイズの多いシナリオに対するロバスト性が向上していることを実証した。 私たちの新しいベンチマークはhttp://dav-nav.cs.un i-freiburg.deで公開されます。

Recent work on audio-visual navigation targets a single static sound in noise-free audio environments and struggles to generalize to unheard sounds. We introduce the novel dynamic audio-visual navigation benchmark in which an embodied AI agent must catch a moving sound source in an unmapped environment in the presence of distractors and noisy sounds. We propose an end-to-end reinforcement learning approach that relies on a multi-modal architecture that fuses the spatial audio-visual information from a binaural audio signal and spatial occupancy maps to encode the features needed to learn a robust navigation policy for our new complex task settings. We demonstrate that our approach outperforms the current state-of-the-art with better generalization to unheard sounds and better robustness to noisy scenarios on the two challenging 3D scanned real-world datasets Replica and Matterport3D, for the static and dynamic audio-visual navigation benchmarks. Our novel benchmark will be made available at http://dav-nav.cs.un i-freiburg.de.
翻訳日:2022-01-13 15:01:05 公開日:2022-01-12
# PromptBERT: PromptによるBERT文の埋め込みを改善する

PromptBERT: Improving BERT Sentence Embeddings with Prompts ( http://arxiv.org/abs/2201.04337v1 )

ライセンス: Link先を確認
Ting Jiang, Shaohan Huang, Zihan Zhang, Deqing Wang, Fuzhen Zhuang, Furu Wei, Haizhen Huang, Liangjie Zhang, Qi Zhang(参考訳) 文意味的類似性に対する原文BERTの低性能は、これまで広く議論されてきた。 文埋め込みのコサイン類似度が高いというよりも,静的トークン埋め込みバイアスと非効率的なbert層が主な原因であることがわかった。 そこで本研究では,トークン埋め込みのバイアスを低減し,元のBERT層をより効率的にする,プロンプトベースの文埋め込み手法を提案する。 文埋め込みタスクを補間問題として再構成することにより,本手法は元のBERTの性能を大幅に向上させる。 本稿では,2つのプロンプト表現法と3つのプロンプト検索法について論じる。 さらに,教師なし設定と教師なし設定とのパフォーマンスギャップを大幅に短縮するテンプレート認知技術による,教師なし学習の新たな目標を提案する。 実験では,非微調整と微調整の両方で評価を行った。 非微調整のメソッドでさえ、STSタスクにおける教師なしのConSERTのような細調整のメソッドよりも優れている。 我々の微調整手法は教師なし設定と教師なし設定の両方において最先端のSimCSEよりも優れている。 SimCSEと比較して、教師なし設定でBERTとRoBERTaの2.29点と2.58点の改善を実現した。

The poor performance of the original BERT for sentence semantic similarity has been widely discussed in previous works. We find that unsatisfactory performance is mainly due to the static token embeddings biases and the ineffective BERT layers, rather than the high cosine similarity of the sentence embeddings. To this end, we propose a prompt based sentence embeddings method which can reduce token embeddings biases and make the original BERT layers more effective. By reformulating the sentence embeddings task as the fillin-the-blanks problem, our method significantly improves the performance of original BERT. We discuss two prompt representing methods and three prompt searching methods for prompt based sentence embeddings. Moreover, we propose a novel unsupervised training objective by the technology of template denoising, which substantially shortens the performance gap between the supervised and unsupervised setting. For experiments, we evaluate our method on both non fine-tuned and fine-tuned settings. Even a non fine-tuned method can outperform the fine-tuned methods like unsupervised ConSERT on STS tasks. Our fine-tuned method outperforms the state-of-the-art method SimCSE in both unsupervised and supervised settings. Compared to SimCSE, we achieve 2.29 and 2.58 points improvements on BERT and RoBERTa respectively under the unsupervised setting.
翻訳日:2022-01-13 15:00:44 公開日:2022-01-12
# データ破損は自然言語理解モデルにどのように影響するか? GLUEデータセットに関する研究

How Does Data Corruption Affect Natural Language Understanding Models? A Study on GLUE datasets ( http://arxiv.org/abs/2201.04467v1 )

ライセンス: Link先を確認
Aarne Talman, Marianna Apidianaki, Stergios Chatzikyriakidis, J\"org Tiedemann(参考訳) 自然言語理解(NLU)研究における中心的な疑問は、高性能がモデルの強力な推論能力を示すかどうかである。 本稿では,事前学習された言語モデルが,特定の腐敗変換を行うデータに晒されるような,広範な制御実験を行う。 これらの変換は、特定の単語クラスのインスタンスを取り除き、しばしば非意味的な文に繋がる。 この結果から,モデルが細調整されたり,破損したデータでテストされた場合,ほとんどのGLUEタスクのパフォーマンスは高いことが示唆された。 提案するデータ変換は,特定のデータセットがモデルの言語理解能力を評価するための適切なテストベッドを構成する程度を評価する診断ツールとして使用できる。

A central question in natural language understanding (NLU) research is whether high performance demonstrates the models' strong reasoning capabilities. We present an extensive series of controlled experiments where pre-trained language models are exposed to data that have undergone specific corruption transformations. The transformations involve removing instances of specific word classes and often lead to non-sensical sentences. Our results show that performance remains high for most GLUE tasks when the models are fine-tuned or tested on corrupted data, suggesting that the models leverage other cues for prediction even in non-sensical contexts. Our proposed data transformations can be used as a diagnostic tool for assessing the extent to which a specific dataset constitutes a proper testbed for evaluating models' language understanding capabilities.
翻訳日:2022-01-13 14:58:22 公開日:2022-01-12
# グローバルセキュリティシステムのコンポーネントとしての映像インテリジェンス

Video Intelligence as a component of a Global Security system ( http://arxiv.org/abs/2201.04349v1 )

ライセンス: Link先を確認
Dominique Verdejo, Eunika Mercier-Laurent (CRESTIC)(参考訳) 本稿では,ビデオ監視コンポーネントに着目した,ビデオ分析からグローバルセキュリティシステムへの私たちの研究の進化について述べる。 実際、ビデオ監視はコモディティ・セキュリティ・ツールから、テロが現代の都市部を襲ったときの犯人を追跡する最も効率的な方法へと進化してきた。 カメラの数が急増するにつれて、ビデオストリームに流れる膨大なデータを利用して、ビデオ証拠への迅速なアクセス、リアルタイムイベントの監視のための行動可能なインテリジェンス、そしてオペレーターの監視作業を支援するための予測能力の実現が期待できる。 本研究は、映像インテリジェンスキャプチャー、自動データ抽出、インテリジェントな都市ビデオ監視のための教師付き機械学習のためのハイブリッドプラットフォームを探索し、グローバルセキュリティシステムの他のコンポーネントへの拡張について論じる。 この研究に知識管理の原則を適用することで、効率的な情報の実装や、現場の人や運用センターに支援を提供する経験共有意思決定支援システムの実現が容易になる。 この作品の独創性は、「共通の」人間機械と機械から機械への翻訳とセキュリティオントロジーの作成である。

This paper describes the evolution of our research from video analytics to a global security system with focus on the video surveillance component. Indeed video surveillance has evolved from a commodity security tool up to the most efficient way of tracking perpetrators when terrorism hits our modern urban centers. As number of cameras soars, one could expect the system to leverage the huge amount of data carried through the video streams to provide fast access to video evidences, actionable intelligence for monitoring real-time events and enabling predictive capacities to assist operators in their surveillance tasks. This research explores a hybrid platform for video intelligence capture, automated data extraction, supervised Machine Learning for intelligently assisted urban video surveillance; Extension to other components of a global security system are discussed. Applying Knowledge Management principles in this research helps with deep problem understanding and facilitates the implementation of efficient information and experience sharing decision support systems providing assistance to people on the field as well as in operations centers. The originality of this work is also the creation of "common" human-machine and machine to machine language and a security ontology.
翻訳日:2022-01-13 14:57:43 公開日:2022-01-12
# 効率的な映像表現のための神経残留流れ場

Neural Residual Flow Fields for Efficient Video Representations ( http://arxiv.org/abs/2201.04329v1 )

ライセンス: Link先を確認
Daniel Rho, Junwoo Cho, Jong Hwan Ko, Eunbyung Park(参考訳) 入射神経表現(INR)は、画像、ビデオ、3D形状などの信号を表現するための強力なパラダイムとして登場した。 詳細を表現できる能力を示しているが、データ表現としての効率は広く研究されていない。 INRでは、データはニューラルネットワークのパラメータの形式で格納され、汎用最適化アルゴリズムは一般に信号の空間的および時間的冗長性を利用しない。 本稿では,データ冗長性を明示的に取り除き,ビデオの表現と圧縮を行う新しいINR手法を提案する。 生のRGB色を格納する代わりに,映像フレームの移動情報と映像再構成に必要な残差を用いて,NRFF(Neural Residual Flow Fields)を提案する。 通常、原信号よりも滑らかで複雑な動き情報を維持するためには、はるかに少ないパラメータを必要とする。 さらに冗長な画素値の再利用はネットワークパラメータの効率をさらに向上させる。 実験結果から,提案手法はベースライン法よりも有意差で優れた性能を示した。 コードはhttps://github.com/d aniel03c1/eff_video_ representationで入手できる。

Implicit neural representation (INR) has emerged as a powerful paradigm for representing signals, such as images, videos, 3D shapes, etc. Although it has shown the ability to represent fine details, its efficiency as a data representation has not been extensively studied. In INR, the data is stored in the form of parameters of a neural network and general purpose optimization algorithms do not generally exploit the spatial and temporal redundancy in signals. In this paper, we suggest a novel INR approach to representing and compressing videos by explicitly removing data redundancy. Instead of storing raw RGB colors, we propose Neural Residual Flow Fields (NRFF), using motion information across video frames and residuals that are necessary to reconstruct a video. Maintaining the motion information, which is usually smoother and less complex than the raw signals, requires far fewer parameters. Furthermore, reusing redundant pixel values further improves the network parameter efficiency. Experimental results have shown that the proposed method outperforms the baseline methods by a significant margin. The code is available in https://github.com/d aniel03c1/eff_video_ representation.
翻訳日:2022-01-13 14:56:46 公開日:2022-01-12
# MDS-Net:マルチスケール深度階層型モノクロ3次元物体検出アルゴリズム

MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object Detection Algorithm ( http://arxiv.org/abs/2201.04341v1 )

ライセンス: Link先を確認
Zhouzhen Xie, Yuying Song, Jingxuan Wu, Zecheng Li, Chunyi Song, Zhiwei Xu(参考訳) 深度情報がないため、自律運転では単眼3次元物体検出は非常に困難である。 本稿では, アンカーフリー法を用いて1画素当たりの3次元物体を検出する, マルチスケール深度層化に基づく1段モノクロ3次元物体検出アルゴリズムを提案する。 提案するMDS-Netでは,物体の深度と画像サイズの間の数学的モデルを確立することにより,ネットワークの深度予測能力を向上させるために,新しい深度に基づく成層構造を開発した。 次に、新たな角度損失関数を開発し、角度予測の精度をさらに向上し、トレーニングの収束速度を高める。 最適化されたソフトNMSが後処理の段階で最終的に適用され、候補ボックスの信頼性が調整される。 KITTIベンチマークの実験では、MDS-Netはリアルタイム要件を満たしながら、既存のモノクル3D検出方法よりも3D検出やBEV検出タスクに優れていた。

Monocular 3D object detection is very challenging in autonomous driving due to the lack of depth information. This paper proposes a one-stage monocular 3D object detection algorithm based on multi-scale depth stratification, which uses the anchor-free method to detect 3D objects in a per-pixel prediction. In the proposed MDS-Net, a novel depth-based stratification structure is developed to improve the network's ability of depth prediction by establishing mathematical models between depth and image size of objects. A new angle loss function is then developed to further improve the accuracy of the angle prediction and increase the convergence speed of training. An optimized soft-NMS is finally applied in the post-processing stage to adjust the confidence of candidate boxes. Experiments on the KITTI benchmark show that the MDS-Net outperforms the existing monocular 3D detection methods in 3D detection and BEV detection tasks while fulfilling real-time requirements.
翻訳日:2022-01-13 14:56:28 公開日:2022-01-12
# SCSNet: カラー化と超解像同時学習のための効率的なパラダイム

SCSNet: An Efficient Paradigm for Learning Simultaneously Image Colorization and Super-Resolution ( http://arxiv.org/abs/2201.04364v1 )

ライセンス: Link先を確認
Jiangning Zhang, Chao Xu, Jian Li, Yue Han, Yabiao Wang, Ying Tai and Yong Liu(参考訳) 低解像度グレースケールの画像を復元する実践的な応用では、ターゲットデバイスに対して画像色付け、超高解像度、ダウサンプリングの3つのプロセスを実行する必要がある。 しかし、このパイプラインは独立プロセスでは冗長で非効率であり、いくつかの内部機能は共有されていた可能性がある。 そこで,この目的を達成するために, {S}imultanely Image {C}olorization and {S}uper- resolution (SCS) を実現するための効率的なパラダイムを提案し,エンドツーエンドの SCSNet を提案する。 提案手法は,ソース画像と参照画像間の特徴マップを集約するプラグイン&プレイ型<emph{Pyramid Valve Cross Attention} (PVCAttn) モジュールを用いた色情報学習用カラー化ブランチと,設計した<emph{Continuous Pixel Mapping} (CPM) モジュールを用いて連続倍率で高解像度画像を予測するための色情報とテクスチャ情報の統合用スーパーレゾリューションブランチとから構成される。 さらに,本scsnetは,実用上より柔軟である自動モードと参照モードの両方をサポートする。 例えば、FIDを1.8$\downarrow$と5.1$\downarrow$で減らし、現在の自動モードと参照モードのベストスコアと比較すると、より少ないパラメータ($\times$2$\downarro w$以上)と高速ランニング速度($\times$3$\uparrow$ 以上)で生成する手法の優位性を示す。

In the practical application of restoring low-resolution gray-scale images, we generally need to run three separate processes of image colorization, super-resolution, and dows-sampling operation for the target device. However, this pipeline is redundant and inefficient for the independent processes, and some inner features could have been shared. Therefore, we present an efficient paradigm to perform {S}imultaneously Image {C}olorization and {S}uper-resolution (SCS) and propose an end-to-end SCSNet to achieve this goal. The proposed method consists of two parts: colorization branch for learning color information that employs the proposed plug-and-play \emph{Pyramid Valve Cross Attention} (PVCAttn) module to aggregate feature maps between source and reference images; and super-resolution branch for integrating color and texture information to predict target images, which uses the designed \emph{Continuous Pixel Mapping} (CPM) module to predict high-resolution images at continuous magnification. Furthermore, our SCSNet supports both automatic and referential modes that is more flexible for practical application. Abundant experiments demonstrate the superiority of our method for generating authentic images over state-of-the-art methods, e.g., averagely decreasing FID by 1.8$\downarrow$ and 5.1 $\downarrow$ compared with current best scores for automatic and referential modes, respectively, while owning fewer parameters (more than $\times$2$\downarrow $) and faster running speed (more than $\times$3$\uparrow$) .
翻訳日:2022-01-13 14:55:10 公開日:2022-01-12
# OCSampler:シングルステップサンプリングで動画を1クリックに圧縮

OCSampler: Compressing Videos to One Clip with Single-step Sampling ( http://arxiv.org/abs/2201.04388v1 )

ライセンス: Link先を確認
Jintao Lin, Haodong Duan, Kai Chen, Dahua Lin, Limin Wang(参考訳) 本稿では,コンパクトで効果的な映像表現を1つの短いクリップで探索し,効率的な映像認識を行うocsamplerというフレームワークを提案する。 最近の研究は、フレームを重要度に応じて1つずつ選択することで、フレームサンプリングを逐次決定タスクとして定式化することを好む一方で、単一のステップでビデオ全体を表現するための情報フレームを選択するために、インスタンス固有のビデオ凝縮ポリシーを学習する新たなパラダイムを提案する。 我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。 したがって、これらのポリシーは1ステップ以内に単純で効果的なポリシーネットワークと共に軽量のスキムネットワークから導かれる。 さらに,提案手法をフレーム数予算で拡張することにより,フレーム数が少なく,高い信頼度で正確な予測を行うことが可能となる。 ActivityNet、Mini-Kinetics、FCVID、Mini-Sports1Mの4つのベンチマーク実験では、OCSamplerが従来の手法よりも精度、理論的計算コスト、実際の推論速度で有効であることを実証した。 また,分類器,サンプルフレーム,検索空間にまたがる一般化力を評価した。 特に、アクティブネット上で76.9%のマップと21.7gflopsを達成し、1つのtitan xp gpu上で123.9ビデオ/秒という驚くべきスループットを実現しました。

In this paper, we propose a framework named OCSampler to explore a compact yet effective video representation with one short clip for efficient video recognition. Recent works prefer to formulate frame sampling as a sequential decision task by selecting frames one by one according to their importance, while we present a new paradigm of learning instance-specific video condensation policies to select informative frames for representing the entire video only in a single step. Our basic motivation is that the efficient video recognition task lies in processing a whole sequence at once rather than picking up frames sequentially. Accordingly, these policies are derived from a light-weighted skim network together with a simple yet effective policy network within one step. Moreover, we extend the proposed method with a frame number budget, enabling the framework to produce correct predictions in high confidence with as few frames as possible. Experiments on four benchmarks, i.e., ActivityNet, Mini-Kinetics, FCVID, Mini-Sports1M, demonstrate the effectiveness of our OCSampler over previous methods in terms of accuracy, theoretical computational expense, actual inference speed. We also evaluate its generalization power across different classifiers, sampled frames, and search spaces. Especially, we achieve 76.9% mAP and 21.7 GFLOPs on ActivityNet with an impressive throughput: 123.9 Videos/s on a single TITAN Xp GPU.
翻訳日:2022-01-13 14:54:36 公開日:2022-01-12
# 可視性を超えて:クロススペクトル顔認識に関する調査

Beyond the Visible: A Survey on Cross-spectral Face Recognition ( http://arxiv.org/abs/2201.04435v1 )

ライセンス: Link先を確認
David Anghelone, Cunjian Chen, Arun Ross, Antitza Dantcheva(参考訳) クロススペクトル顔認識(CFR)は、個人を認識することを目的としており、顔画像の比較は、例えば赤外線と可視光など、異なる知覚モードに由来する。 CFRは、モダリティギャップに関連する顔の外観の顕著な変化により、古典的な顔認識よりも本質的に困難であるが、限られた照明や難解な照明のシナリオや、プレゼンテーションアタックの存在において優れている。 畳み込みニューラルネットワーク(CNN)に関連する人工知能の最近の進歩は、CFRの大幅な性能向上をもたらした。 これを受けて、この調査の貢献は3倍になる。 本稿では,まずCFRを定式化し,さらに具体的な応用を提示することにより,異なるスペクトルで捉えた顔画像を比較することを目的としたCFRの概要を示す。 第2に,認識に適したスペクトル帯域を探索し,近年のcfr手法について考察し,深層ニューラルネットワークに着目した。 特に,異種特徴とデータセットを抽出・比較するために提案されている手法を再検討する。 異なるスペクトルと関連するアルゴリズムの強度と限界を列挙する。 最後に,研究課題と今後の研究方針について論じる。

Cross-spectral face recognition (CFR) is aimed at recognizing individuals, where compared face images stem from different sensing modalities, for example infrared vs. visible. While CFR is inherently more challenging than classical face recognition due to significant variation in facial appearance associated to a modality gap, it is superior in scenarios with limited or challenging illumination, as well as in the presence of presentation attacks. Recent advances in artificial intelligence related to convolutional neural networks (CNNs) have brought to the fore a significant performance improvement in CFR. Motivated by this, the contributions of this survey are three-fold. We provide an overview of CFR, targeted to compare face images captured in different spectra, by firstly formalizing CFR and then presenting concrete related applications. Secondly, we explore suitable spectral bands for recognition and discuss recent CFR-methods, placing emphasis on deep neural networks. In particular we revisit techniques that have been proposed to extract and compare heterogeneous features, as well as datasets. We enumerate strengths and limitations of different spectra and associated algorithms. Finally, we discuss research challenges and future lines of research.
翻訳日:2022-01-13 14:54:11 公開日:2022-01-12
# わずかに注釈付きオブジェクト検出:領域に基づく半教師付きアプローチ

Sparsely Annotated Object Detection: A Region-based Semi-supervised Approach ( http://arxiv.org/abs/2201.04620v1 )

ライセンス: Link先を確認
Sai Saketh Rambhatla, Saksham Suri, Rama Chellappa, Abhinav Shrivastava(参考訳) 研究によると、トレーニングデータがアノテーションを欠いている場合、オブジェクト検出の性能が著しく低下している。 現代の手法では、擬似ラベルの形で、または訓練中の未ラベルボックスの勾配を再検討することによって、基幹構文アノテーションの欠如に対するプロキシに焦点を当てている。 本研究は, 簡潔な注釈付き物体検出の定式化について再考する。 領域レベルでの半教師付き物体検出問題として,少ない注釈付き物体検出が考えられる。 この知見に基づいて,ラベルのないフォアグラウンドオブジェクトを含む領域を自動的に識別する領域ベースの半教師付きアルゴリズムを提案する。 そこで,本アルゴリズムは,半教師付き手法で一般的な手法であるラベル付きおよびラベルなし前景領域を異なる方法で処理する。 提案手法の有効性を評価するため,PASCAL-VOC と COCO のデータセットに少ないアノテートを施した5つのスプリットに対して徹底的な実験を行った。 さらに,本手法の強靭性と幅広い適用性を示す標準半教師付き設定において,本手法が競合性能を達成することを示す。

Research shows a noticeable drop in performance of object detectors when the training data has missing annotations, i.e. sparsely annotated data. Contemporary methods focus on proxies for missing ground-truth annotations either in the form of pseudo-labels or by re-weighing gradients for unlabeled boxes during training. In this work, we revisit the formulation of sparsely annotated object detection. We observe that sparsely annotated object detection can be considered a semi-supervised object detection problem at a region level. Building on this insight, we propose a region-based semi-supervised algorithm, that automatically identifies regions containing unlabeled foreground objects. Our algorithm then processes the labeled and un-labeled foreground regions differently, a common practice in semi-supervised methods. To evaluate the effectiveness of the proposed approach, we conduct exhaustive experiments on five splits commonly used by sparsely annotated approaches on the PASCAL-VOC and COCO datasets and achieve state-of-the-art performance. In addition to this, we show that our approach achieves competitive performance on standard semi-supervised setups demonstrating the strength and broad applicability of our approach.
翻訳日:2022-01-13 14:53:52 公開日:2022-01-12
# ローカルニュースデータを用いた米国におけるテロ攻撃予測

Predicting Terrorist Attacks in the United States using Localized News Data ( http://arxiv.org/abs/2201.04292v1 )

ライセンス: Link先を確認
Steven J. Krieg, Christian W. Smith, Rusha Chatterjee, Nitesh V. Chawla(参考訳) 米国では毎年数十件のテロ攻撃が相次ぎ、死亡者やその他の重大な被害を招いている。 これらの攻撃をよりよく理解し、緩和する目的に向けて、テロ攻撃が特定の日付と特定の状態において起こるかどうかを予測するために、ローカライズされたニュースデータから学習する一連の機械学習モデルを提案する。 最も優れたモデルであるランダムフォレスト(Random Forest)は、2015年から2018年にかけてテロリズムによって最も影響を受けていた5州のうち4州で、受信機動作特性の下の特徴空間の新たな変動長移動平均表現から .667$ を学習する。我々の重要な発見は、テロリズムを連続的なプロセスではなく、独立したイベントの集合としてモデル化することである。特に、イベントがまばらで異質な場合には、実りあるアプローチである。 さらに,位置の違いを考慮した局所モデルの必要性も強調した。 機械学習の観点から,ランダムフォレストモデルは,マルチモーダル,ノイズ,不均衡のデータセットにおいて,いくつかの深層モデルよりも優れており,このような文脈における特徴表現手法の有効性が実証された。 また,その予測は,攻撃の時間的ギャップと,攻撃の観測特性に対して比較的堅牢であることを示す。 最後に、ノイズの多い機能空間と少量のデータを含むモデル性能を制限する要因を分析した。 これらの貢献は、アメリカ以降のテロに対する取り組みにおいて、機械学習を使用するための重要な基盤を提供する。

Dozens of terrorist attacks are perpetrated in the United States every year, often causing fatalities and other significant damage. Toward the end of better understanding and mitigating these attacks, we present a set of machine learning models that learn from localized news data in order to predict whether a terrorist attack will occur on a given calendar date and in a given state. The best model--a Random Forest that learns from a novel variable-length moving average representation of the feature space--achieves area under the receiver operating characteristic scores $> .667$ on four of the five states that were impacted most by terrorism between 2015 and 2018. Our key findings include that modeling terrorism as a set of independent events, rather than as a continuous process, is a fruitful approach--especially when the events are sparse and dissimilar. Additionally, our results highlight the need for localized models that account for differences between locations. From a machine learning perspective, we found that the Random Forest model outperformed several deep models on our multimodal, noisy, and imbalanced data set, thus demonstrating the efficacy of our novel feature representation method in such a context. We also show that its predictions are relatively robust to time gaps between attacks and observed characteristics of the attacks. Finally, we analyze factors that limit model performance, which include a noisy feature space and small amount of available data. These contributions provide an important foundation for the use of machine learning in efforts against terrorism in the United States and beyond.
翻訳日:2022-01-13 14:53:31 公開日:2022-01-12
# 分類問題における効率的かつ適応的なグラニュラーボール生成法

An Efficient and Adaptive Granular-ball Generation Method in Classification Problem ( http://arxiv.org/abs/2201.04343v1 )

ライセンス: Link先を確認
Shuyin Xia, Xiaochuan Dai, Guoyin Wang, Xinbo Gao, Elisabeth Giem(参考訳) グラニュラーボールコンピューティングは、グラニュラーコンピューティングのための効率的で堅牢でスケーラブルな学習方法である。 粒球計算の基礎は粒球生成法である。 本稿では,$k$-means の代わりにディビジョンを用いた粒状球生成を高速化する方法を提案する。 既存の方法と同様の精度を確保しつつ、粒状球生成の効率を大幅に向上させることができる。 また,粒状球の重なり除去と他の要因を考慮し,粒状球生成の新しい適応法を提案する。 これにより、パラメータフリーで真の意味で完全に適応したグラニュラーボール生成プロセスが実現される。 さらに,本論文ではまず,グラニュラーボール被覆の数学的モデルについて述べる。 実データを用いた実験により,提案する2つの粒状球生成法が,適応性や加速度性を実現しつつ,既存の手法と類似性を持つことを実証した。

Granular-ball computing is an efficient, robust, and scalable learning method for granular computing. The basis of granular-ball computing is the granular-ball generation method. This paper proposes a method for accelerating the granular-ball generation using the division to replace $k$-means. It can greatly improve the efficiency of granular-ball generation while ensuring the accuracy similar to the existing method. Besides, a new adaptive method for the granular-ball generation is proposed by considering granular-ball's overlap eliminating and some other factors. This makes the granular-ball generation process of parameter-free and completely adaptive in the true sense. In addition, this paper first provides the mathematical models for the granular-ball covering. The experimental results on some real data sets demonstrate that the proposed two granular-ball generation methods have similar accuracies with the existing method while adaptiveness or acceleration is realized.
翻訳日:2022-01-13 14:52:58 公開日:2022-01-12
# 繰り返しシーケンスに対するDeep Symbolic Regression

Deep Symbolic Regression for Recurrent Sequences ( http://arxiv.org/abs/2201.04600v1 )

ライセンス: Link先を確認
St\'ephane d'Ascoli, Pierre-Alexandre Kamienny, Guillaume Lample, Fran\c{c}ois Charton(参考訳) シンボリック回帰、すなわちその値の観測から関数を予測することは、難しいタスクとしてよく知られている。 本稿では,機械学習の文献にはほとんど取り組まれていないヒトIQテストにおける典型的な課題である整数や浮動小数点数列の関数や再帰関係を推論するためにトランスフォーマーを訓練する。 我々は,OEIS配列のサブセット上で整数モデルを評価し,再帰予測のために組み込みのMathematica関数より優れていることを示す。 また、我々のフロートモデルは、例えば、$\operatorname{bessel0}(x)\approx \frac{\sin(x)+\cos(x)}{\sqrt{\pi x}}$ および $1.644934\approx \pi^2/6$ のようなボキャブラリ関数と定数の有益な近似を与えることができる。 私たちのモデルのインタラクティブなデモはhttps://bit.ly/3niE5 FSで公開されています。

Symbolic regression, i.e. predicting a function from the observation of its values, is well-known to be a challenging task. In this paper, we train Transformers to infer the function or recurrence relation underlying sequences of integers or floats, a typical task in human IQ tests which has hardly been tackled in the machine learning literature. We evaluate our integer model on a subset of OEIS sequences, and show that it outperforms built-in Mathematica functions for recurrence prediction. We also demonstrate that our float model is able to yield informative approximations of out-of-vocabulary functions and constants, e.g. $\operatorname{bessel0}(x)\approx \frac{\sin(x)+\cos(x)}{\sqrt{\pi x}}$ and $1.644934\approx \pi^2/6$. An interactive demonstration of our models is provided at https://bit.ly/3niE5 FS.
翻訳日:2022-01-13 14:51:18 公開日:2022-01-12
# マルチビューサブスペースクラスタリングのためのきめ細かいグラフ学習

Fine-grained Graph Learning for Multi-view Subspace Clustering ( http://arxiv.org/abs/2201.04604v1 )

ライセンス: Link先を確認
Yidi Wang, Xiaobing Pei, Haoxi Zhan(参考訳) マルチビューサブスペースクラスタリングは従来,高次元情報を取得するために異種特徴記述の統合に重点を置いてきた。 一般的な戦略の1つは、異なるビューから共通のサブスペースを生成し、クラスタリングにグラフベースのアプローチを適用することである。 しかし,これらの手法の性能には,マルチビュー融合パターンと,融合プロセスとクラスタリングタスクの関連という2つの制約がある。 これらの問題に対処するために,我々は,異なるビュー間の局所構造の一貫性を把握し,すべてのビューを従来の重み付け正規化よりも繊細に統合する,きめ細かなグラフ学習による,新しいマルチビューサブスペースクラスタリングフレームワークを提案する。 文献における他のモデルとは異なり、グラフ融合を行い、共有クラスタ構造を共に学習するために、点レベルグラフ正規化とスペクトルクラスタリングの再構成を導入する。 5つの実世界のデータセットに対する大規模な実験により、提案フレームワークはSOTAアルゴリズムに匹敵する性能を示した。

Multi-view subspace clustering has conventionally focused on integrating heterogeneous feature descriptions to capture higher-dimensional information. One popular strategy is to generate a common subspace from different views and then apply graph-based approaches to deal with clustering. However, the performance of these methods is still subject to two limitations, namely the multiple views fusion pattern and the connection between the fusion process and clustering tasks. To address these problems, we propose a novel multi-view subspace clustering framework via fine-grained graph learning, which can tell the consistency of local structures between different views and integrate all views more delicately than previous weight regularizations. Different from other models in the literature, the point-level graph regularization and the reformulation of spectral clustering are introduced to perform graphs fusion and learn the shared cluster structure together. Extensive experiments on five real-world datasets show that the proposed framework has comparable performance to the SOTA algorithms.
翻訳日:2022-01-13 14:50:55 公開日:2022-01-12
# グラフ表現と表面畳み込みによる膝軟骨欠損の評価

Knee Cartilage Defect Assessment by Graph Representation and Surface Convolution ( http://arxiv.org/abs/2201.04318v1 )

ライセンス: Link先を確認
Zixu Zhuang, Liping Si, Sheng Wang, Kai Xuan, Xi Ouyang, Yiqiang Zhan, Zhong Xue, Lichi Zhang, Dinggang Shen, Weiwu Yao, Qian Wang(参考訳) 変形性膝関節症(OA)は最も一般的な変形性関節症であり、障害の原因となっている。 軟骨欠損は、MRI(MRI)で観察される膝OAの徴候であると考えられている。 膝関節軟骨欠損の早期発見と評価は膝OAから患者の保護に重要である。 このようにして、畳み込みニューラルネットワーク(CNN)を膝関節MRIに適用することにより、膝軟骨欠損の評価に多くの試みがなされている。 軟骨は薄い湾曲した層であり、膝mriのボクセルのごく一部のみが軟骨欠損の評価に寄与することを示し、異種走査プロトコルは臨床におけるcnnの実現可能性にさらに挑戦し、cnnベースの膝軟骨評価の結果は解釈可能性に欠ける。 これらの課題に対処するために,膝関節MRIの軟骨構造と外観を,高度に多様な臨床データを扱うことができるグラフ表現にモデル化する。 次に, 軟骨グラフ表現に導かれ, 自己照査機構を備えた非ユークリッド型深層学習ネットワークを設計し, 局所的および大域的な軟骨の特徴を抽出し, 最終評価を可視化結果で導出する。 包括的実験により, 膝関節軟骨欠損評価において, 簡便な3次元可視化が有用であることがわかった。

Knee osteoarthritis (OA) is the most common osteoarthritis and a leading cause of disability. Cartilage defects are regarded as major manifestations of knee OA, which are visible by magnetic resonance imaging (MRI). Thus early detection and assessment for knee cartilage defects are important for protecting patients from knee OA. In this way, many attempts have been made on knee cartilage defect assessment by applying convolutional neural networks (CNNs) to knee MRI. However, the physiologic characteristics of the cartilage may hinder such efforts: the cartilage is a thin curved layer, implying that only a small portion of voxels in knee MRI can contribute to the cartilage defect assessment; heterogeneous scanning protocols further challenge the feasibility of the CNNs in clinical practice; the CNN-based knee cartilage evaluation results lack interpretability. To address these challenges, we model the cartilages structure and appearance from knee MRI into a graph representation, which is capable of handling highly diverse clinical data. Then, guided by the cartilage graph representation, we design a non-Euclidean deep learning network with the self-attention mechanism, to extract cartilage features in the local and global, and to derive the final assessment with a visualized result. Our comprehensive experiments show that the proposed method yields superior performance in knee cartilage defect assessment, plus its convenient 3D visualization for interpretability.
翻訳日:2022-01-13 14:49:51 公開日:2022-01-12
# (参考訳) エピソディック・マルチエージェント強化学習における報酬再分配に対するエージェント・時間的注意 [全文訳有]

Agent-Temporal Attention for Reward Redistribution in Episodic Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2201.04612v1 )

ライセンス: CC BY 4.0
Baicen Xiao, Bhaskar Ramasubramanian, Radha Poovendran(参考訳) 本稿では,マルチエージェント強化学習(marl:multi-agent reinforcement learning)タスクについて考察する。 この報酬の遅れの性質は、エージェントの中間段階における行動の質を評価する能力に影響を及ぼす。 本稿では,報酬の時間的再分配を学習して報酬信号を求める手法の開発に焦点をあてる。 このようなmarl問題を解決するには,(1)エピソードの長さに沿った状態の相対的重要度(長い時間),(2)特定の時間ステップにおける個々のエージェントの状態の相対的重要度(平均的エージェント)の2つの課題に対処する必要がある。 本稿では,episodic multi-agent reinforcement learning (arel) における報酬分配に対するエージェント・テンポラルな注意点について紹介する。 ARELは注意機構を用いて、軌跡に沿った状態遷移に対する行動の影響(時間的注意)と、各時間的注意(エージェント注意)において各エージェントが他のエージェントにどのように影響するかを特徴づける。 ARELによって予測される再分散報酬は密集しており、任意のMARLアルゴリズムと統合することができる。 粒子世界環境とStarCraft Multi-Agent Challengeの課題に対するARELの評価を行った。 ARELは、現在最先端の3つの報酬再分配方法と比較して、Particle Worldの報酬が増加し、StarCraftの勝利率が向上した。 私たちのコードはhttps://github.com/b aicenxiao/arelで入手できます。

This paper considers multi-agent reinforcement learning (MARL) tasks where agents receive a shared global reward at the end of an episode. The delayed nature of this reward affects the ability of the agents to assess the quality of their actions at intermediate time-steps. This paper focuses on developing methods to learn a temporal redistribution of the episodic reward to obtain a dense reward signal. Solving such MARL problems requires addressing two challenges: identifying (1) relative importance of states along the length of an episode (along time), and (2) relative importance of individual agents' states at any single time-step (among agents). In this paper, we introduce Agent-Temporal Attention for Reward Redistribution in Episodic Multi-Agent Reinforcement Learning (AREL) to address these two challenges. AREL uses attention mechanisms to characterize the influence of actions on state transitions along trajectories (temporal attention), and how each agent is affected by other agents at each time-step (agent attention). The redistributed rewards predicted by AREL are dense, and can be integrated with any given MARL algorithm. We evaluate AREL on challenging tasks from the Particle World environment and the StarCraft Multi-Agent Challenge. AREL results in higher rewards in Particle World, and improved win rates in StarCraft compared to three state-of-the-art reward redistribution methods. Our code is available at https://github.com/b aicenxiao/AREL.
翻訳日:2022-01-13 14:48:35 公開日:2022-01-12
# 騒音に対するロバストなコントラスト学習

Robust Contrastive Learning against Noisy Views ( http://arxiv.org/abs/2201.04309v1 )

ライセンス: Link先を確認
Ching-Yao Chuang, R Devon Hjelm, Xin Wang, Vibhav Vineet, Neel Joshi, Antonio Torralba, Stefanie Jegelka, Yale Song(参考訳) 対照的な学習は、ポジティブなペアには、画像のパッチやビデオの共起マルチモーダル信号など、インスタンスに関する特定の基礎情報を共有する関連するビューが含まれるという仮定に依存している。 しかし、もしこの仮定に違反したら? この文献は、対照的な学習は、ノイズの多い視点、例えば明らかな共有情報を持たない偽陽性ペアの存在下で、最適でない表現を生み出すことを示唆している。 本研究では,ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。 我々は、雑音二分分類のためのロバストな対称損失への接続を示し、ワッサーシュタイン距離測定に基づく相互情報の最大化のための新しいコントラスト境界を確立することにより、厳密な理論的正当化を提供する。 提案された損失は、完全なモダリティ非依存であり、インフォメーションロスの簡易なドロップイン置換であり、既存のコントラストフレームワークに簡単に適用できる。 提案手法は,様々な実世界のノイズパターンを示す画像,ビデオ,グラフのコントラスト学習ベンチマークに対して,一貫した改善を提供する。

Contrastive learning relies on an assumption that positive pairs contain related views, e.g., patches of an image or co-occurring multimodal signals of a video, that share certain underlying information about an instance. But what if this assumption is violated? The literature suggests that contrastive learning produces suboptimal representations in the presence of noisy views, e.g., false positive pairs with no apparent shared information. In this work, we propose a new contrastive loss function that is robust against noisy views. We provide rigorous theoretical justifications by showing connections to robust symmetric losses for noisy binary classification and by establishing a new contrastive bound for mutual information maximization based on the Wasserstein distance measure. The proposed loss is completely modality-agnostic and a simple drop-in replacement for the InfoNCE loss, which makes it easy to apply to existing contrastive frameworks. We show that our approach provides consistent improvements over the state-of-the-art on image, video, and graph contrastive learning benchmarks that exhibit a variety of real-world noise patterns.
翻訳日:2022-01-13 14:20:41 公開日:2022-01-12
# get your foes fooled: iomtデータに対するモデル反転攻撃に対する防御のための近位勾配分割学習

Get your Foes Fooled: Proximal Gradient Split Learning for Defense against Model Inversion Attacks on IoMT data ( http://arxiv.org/abs/2201.04569v1 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Ik Hyun Lee, Kapal Dev, Muhammad Aslam Jarwar, Nawab Muhammad Faseeh Qureshi(参考訳) 過去10年間、人工知能(AI)、特にディープラーニングネットワークが、IoT(Internet of Medical Things, IoMT)エコシステムに急速に採用されてきた。 しかし近年, 深層学習ネットワークは, IoMTがデータ盗難に脆弱であるだけでなく, 医療診断の操作にも悪影響を及ぼすことが示されている。 本研究は, 生のIoMTデータやモデルパラメータにノイズを加えることで, 医学的推測に関する全体的な性能を低下させるだけでなく, 勾配法からの深部漏洩などにも有効ではない。 本研究では,モデル反転攻撃に対する防御のための近勾配分割学習(PSGL)手法を提案する。 提案手法は,クライアント側でディープニューラルネットワークトレーニングプロセスを行う場合,IoMTデータを意図的に攻撃する。 本稿では,勾配マップの復元に近似勾配法を用い,認識性能を向上させるための決定レベル融合戦略を提案する。 大規模分析の結果,PGSLはモデル反転攻撃に対する効果的な防御機構を提供するだけでなく,公開データセットの認識性能の向上にも有効であることがわかった。 我々は17.9$\%$と36.9$\%$$の精度を、それぞれ再構成された画像と敵対的な画像に対して報告する。

The past decade has seen a rapid adoption of Artificial Intelligence (AI), specifically the deep learning networks, in Internet of Medical Things (IoMT) ecosystem. However, it has been shown recently that the deep learning networks can be exploited by adversarial attacks that not only make IoMT vulnerable to the data theft but also to the manipulation of medical diagnosis. The existing studies consider adding noise to the raw IoMT data or model parameters which not only reduces the overall performance concerning medical inferences but also is ineffective to the likes of deep leakage from gradients method. In this work, we propose proximal gradient split learning (PSGL) method for defense against the model inversion attacks. The proposed method intentionally attacks the IoMT data when undergoing the deep neural network training process at client side. We propose the use of proximal gradient method to recover gradient maps and a decision-level fusion strategy to improve the recognition performance. Extensive analysis show that the PGSL not only provides effective defense mechanism against the model inversion attacks but also helps in improving the recognition performance on publicly available datasets. We report 17.9$\%$ and 36.9$\%$ gains in accuracy over reconstructed and adversarial attacked images, respectively.
翻訳日:2022-01-13 14:20:22 公開日:2022-01-12
# rgrecsys:レコメンダシステムのロバスト性評価のためのツールキット

RGRecSys: A Toolkit for Robustness Evaluation of Recommender Systems ( http://arxiv.org/abs/2201.04399v1 )

ライセンス: Link先を確認
Zohreh Ovaisi, Shelby Heinecke, Jia Li, Yongfeng Zhang, Elena Zheleva, Caiming Xiong(参考訳) ロバスト機械学習は、さまざまな不完全なデータに耐性のあるモデルの開発に焦点を当てる、ますます重要なトピックである。 オンライン技術におけるレコメンダシステムの普及により、研究者はデータスパーシティとプロファイルインジェクション攻撃に焦点を当てたいくつかの堅牢性研究を行った。 代わりに、サブポピュレーション、トランスフォーメーション、分散格差、アタック、データ空間といった複数の次元を包含するリコメンダシステムに対するロバストネスのより包括的な見方を提案する。 ユーザが異なるレコメンダシステムモデルを比較することができるライブラリはいくつかあるが、異なるシナリオ下でレコメンダシステムモデルの包括的な堅牢性評価のためのソフトウェアライブラリはない。 私たちの主な貢献として、ロバストネス評価ツールキットであるロバストネスジム(rgrecsys -https://www.github. com/salesforce/rgrec sys)を紹介します。

Robust machine learning is an increasingly important topic that focuses on developing models resilient to various forms of imperfect data. Due to the pervasiveness of recommender systems in online technologies, researchers have carried out several robustness studies focusing on data sparsity and profile injection attacks. Instead, we propose a more holistic view of robustness for recommender systems that encompasses multiple dimensions - robustness with respect to sub-populations, transformations, distributional disparity, attack, and data sparsity. While there are several libraries that allow users to compare different recommender system models, there is no software library for comprehensive robustness evaluation of recommender system models under different scenarios. As our main contribution, we present a robustness evaluation toolkit, Robustness Gym for RecSys (RGRecSys -- https://www.github.c om/salesforce/RGRecS ys), that allows us to quickly and uniformly evaluate the robustness of recommender system models.
翻訳日:2022-01-13 14:19:59 公開日:2022-01-12
# 深部ニューラルネットワークにおける大きなランダム行列の固有値分布:直交の場合

Eigenvalue Distribution of Large Random Matrices Arising in Deep Neural Networks: Orthogonal Case ( http://arxiv.org/abs/2201.04543v1 )

ライセンス: Link先を確認
Leonid Pastur(参考訳) 本論文は、ニューラルネットワークの入力出力ヤコビアンの無限幅の限界における特異値の分布を扱っている。 ヤコビアン (Jacobian) は無作為行列の積であり、独立長方行列は近辺の重み行列の対応する列に依存する対角行列と交互である。 この問題はガウスの重みと偏りについて \cite{Pe-Co:18} において考慮され、ハール分布直交行列とガウスの偏りである重みについても検討された。 自由確率論に基づくと、これらの場合、無限幅(行列サイズ)の極限におけるヤコビアンの特異値分布は、ヤコビアンの特別なランダムだがウェイト独立な対角行列の類似と一致し、ランダム行列理論でよく知られている。 この主張は、非常に一般的な重みとバイアスのクラス(ガウスを含む)に対して、ランダム行列理論のテクニックのバージョンを使用することで、厳密に証明された。 本稿では、ランダムなハール分布重み行列とガウスバイアスの主張を正当化するために、この手法の別のバージョンを用いる。

The paper deals with the distribution of singular values of the input-output Jacobian of deep untrained neural networks in the limit of their infinite width. The Jacobian is the product of random matrices where the independent rectangular weight matrices alternate with diagonal matrices whose entries depend on the corresponding column of the nearest neighbor weight matrix. The problem was considered in \cite{Pe-Co:18} for the Gaussian weights and biases and also for the weights that are Haar distributed orthogonal matrices and Gaussian biases. Basing on a free probability argument, it was claimed that in these cases the singular value distribution of the Jacobian in the limit of infinite width (matrix size) coincides with that of the analog of the Jacobian with special random but weight independent diagonal matrices, the case well known in random matrix theory. The claim was rigorously proved in \cite{Pa-Sl:21} for a quite general class of weights and biases with i.i.d. (including Gaussian) entries by using a version of the techniques of random matrix theory. In this paper we use another version of the techniques to justify the claim for random Haar distributed weight matrices and Gaussian biases.
翻訳日:2022-01-13 14:19:36 公開日:2022-01-12
# 特徴量変換と局所運動位相による人体移動のリアルタイムモデリング

Real-Time Style Modelling of Human Locomotion via Feature-Wise Transformations and Local Motion Phases ( http://arxiv.org/abs/2201.04439v1 )

ライセンス: Link先を確認
Ian Mason, Sebastian Starke, Taku Komura(参考訳) リアルタイムアニメーションシステムにおけるキャラクタの動作方法の制御は,有用なアプリケーションでは難しい課題である。 既存のスタイル転送システムは、参照コンテンツモーションクリップへのアクセスを必要とするが、リアルタイムシステムでは、将来のモーションコンテンツは未知であり、ユーザ入力で変更できない。 本稿では,アニメーション合成ネットワークを用いて,局所的な動き相に基づく動作内容のモデル化を行うスタイルモデリングシステムを提案する。 追加のスタイル変調ネットワークは、リアルタイムにスタイルを変調するために特徴的変換を使用する。 提案手法を評価するために,400万フレーム以上のスタイリッシュなロコモーションデータを含む新しいスタイルモデリングデータセット100styleを,既存のシステムに対して多くの課題を呈する100種類のスタイルで作成し,公開する。 これらのスタイルをモデル化するために、局所位相計算を接触のない定式化で拡張する。 リアルタイムスタイルモデリングのための他の手法と比較して,動作品質を改善しつつ,そのスタイル表現においてより堅牢で効率的なシステムを示す。

Controlling the manner in which a character moves in a real-time animation system is a challenging task with useful applications. Existing style transfer systems require access to a reference content motion clip, however, in real-time systems the future motion content is unknown and liable to change with user input. In this work we present a style modelling system that uses an animation synthesis network to model motion content based on local motion phases. An additional style modulation network uses feature-wise transformations to modulate style in real-time. To evaluate our method, we create and release a new style modelling dataset, 100STYLE, containing over 4 million frames of stylised locomotion data in 100 different styles that present a number of challenges for existing systems. To model these styles, we extend the local phase calculation with a contact-free formulation. In comparison to other methods for real-time style modelling, we show our system is more robust and efficient in its style representation while improving motion quality.
翻訳日:2022-01-13 14:01:36 公開日:2022-01-12
# (参考訳) fairedit: 欲望グラフ編集によるグラフニューラルネットワークの公平性維持 [全文訳有]

FairEdit: Preserving Fairness in Graph Neural Networks through Greedy Graph Editing ( http://arxiv.org/abs/2201.03681v2 )

ライセンス: CC BY 4.0
Donald Loveland, Jiayi Pan, Aaresh Farrokh Bhathena, Yiyang Lu(参考訳) グラフニューラルネットワーク(GNN)は、基礎となるデータがグラフである予測モデリングタスクに優れていることが証明されている。 しかしながら、GNNは人間中心のアプリケーションで広く使われているため、公平性の問題が持ち上がっている。 エッジ削除は、GNNの公平性を促進するのによく使われる手法であるが、データが本質的に公正な接続を欠いていることを考慮しない。 本研究では,公平性を促進するために,削除を伴うエッジ付加法について検討する。 本稿では,エッジ編集を行うためのモデル非依存な2つのアルゴリズムを提案する。 FairEditは、フェアネス損失の勾配情報を利用して効率の良いエッジ編集を行い、フェアネスを改善するエッジを見つける。 FairEditは、多くのデータセットやGNNメソッドの標準トレーニングよりも優れており、多くの最先端メソッドと互換性があり、FairEditが多くのドメインやモデルにまたがって公正性を向上させる能力を示している。

Graph Neural Networks (GNNs) have proven to excel in predictive modeling tasks where the underlying data is a graph. However, as GNNs are extensively used in human-centered applications, the issue of fairness has arisen. While edge deletion is a common method used to promote fairness in GNNs, it fails to consider when data is inherently missing fair connections. In this work we consider the unexplored method of edge addition, accompanied by deletion, to promote fairness. We propose two model-agnostic algorithms to perform edge editing: a brute force approach and a continuous approximation approach, FairEdit. FairEdit performs efficient edge editing by leveraging gradient information of a fairness loss to find edges that improve fairness. We find that FairEdit outperforms standard training for many data sets and GNN methods, while performing comparably to many state-of-the-art methods, demonstrating FairEdit's ability to improve fairness across many domains and models.
翻訳日:2022-01-13 12:50:42 公開日:2022-01-12
# (参考訳) ディープフェイス認識に対する類似性に基づくグレイボックス逆攻撃

Similarity-based Gray-box Adversarial Attack Against Deep Face Recognition ( http://arxiv.org/abs/2201.04011v2 )

ライセンス: CC BY 4.0
Hanrui Wang, Shuo Wang, Zhe Jin, Yandan Wang, Cunjian Chen, Massimo Tistarell(参考訳) 敵対的攻撃手法の大半は、システムの全知識が明らかにされると、深い顔認識に対して良好に機能する(\emph{white-box})。 しかし、このような手法は攻撃者に顔テンプレートが未知のグレーボックス設定ではうまく機能しない。 本研究では,新たに開発された目的関数を持つ類似性に基づく灰色の箱対向攻撃(SGADV)手法を提案する。 SGADVは、相似性スコアを使用して、最適化された敵の例、すなわち類似性に基づく敵攻撃を生成する。 このテクニックは、ホワイトボックスとグレーボックスの両方で、異なる類似度スコアを使用して真正または偽のユーザを決定する認証システムに対して適用される。 SGADVの有効性を検証するため,LFW,CelebA,CelebA-H Qの顔データセットに対して,ホワイトボックスとグレーボックスの両方でFaceNetとInsightFaceの深層顔認識モデルに対して広範な実験を行った。 提案手法は,グレーボックス設定において既存の攻撃手法よりも有意に優れていた。 したがって,本手法の類似性ベースアプローチは,非認証のためのグレイボックス攻撃シナリオに十分対応できる可能性が示唆された。

The majority of adversarial attack techniques perform well against deep face recognition when the full knowledge of the system is revealed (\emph{white-box}). However, such techniques act unsuccessfully in the gray-box setting where the face templates are unknown to the attackers. In this work, we propose a similarity-based gray-box adversarial attack (SGADV) technique with a newly developed objective function. SGADV utilizes the dissimilarity score to produce the optimized adversarial example, i.e., similarity-based adversarial attack. This technique applies to both white-box and gray-box attacks against authentication systems that determine genuine or imposter users using the dissimilarity score. To validate the effectiveness of SGADV, we conduct extensive experiments on face datasets of LFW, CelebA, and CelebA-HQ against deep face recognition models of FaceNet and InsightFace in both white-box and gray-box settings. The results suggest that the proposed method significantly outperforms the existing adversarial attack techniques in the gray-box setting. We hence summarize that the similarity-base approaches to develop the adversarial example could satisfactorily cater to the gray-box attack scenarios for de-authentication.
翻訳日:2022-01-13 12:40:26 公開日:2022-01-12
# 乱流データ圧縮のための物理式ベクトル量子化オートエンコーダ

A Physics-Informed Vector Quantized Autoencoder for Data Compression of Turbulent Flow ( http://arxiv.org/abs/2201.03617v2 )

ライセンス: Link先を確認
Mohammadreza Momenifar, Enmao Diao, Vahid Tarokh, Andrew D. Bragg(参考訳) 乱流のシミュレーションによる大規模データの解析は、メモリ集約的であり、かなりのリソースを必要とする。 この大きな課題は、データ圧縮技術の必要性を強調している。 本研究では,ベクトル量子化に基づく物理インフォームド深層学習手法を適用し,3次元乱流のシミュレーションからデータの離散的,低次元表現を生成する。 ディープラーニングフレームワークは畳み込み層で構成されており、非圧縮性の保持や速度勾配のグローバル統計特性など、フローに対する物理的制約を取り入れている。 モデルの精度は、統計的・比較的類似度と物理的類似度を用いて評価される。 トレーニングデータセットは、非圧縮性、統計的に定常な等方性乱流の直接数値シミュレーションから生成される。 この損失データ圧縮方式の性能は, 定常, 等方性乱流の非検出データのみならず, 減衰する等方性乱流のデータ, テイラー-グリーン渦流によって評価される。 圧縮率 (CR) を圧縮データサイズと圧縮データサイズとの比として定義すると, ベクトル量子化に基づくモデルでは, 平均二乗誤差 (MSE) が$O(10^{-3})$で CR $=85$ となり, 流れの統計を忠実に再現する予測が可能となる。 圧縮を連続的に行う従来のオートエンコーダに基づく最近の研究と比較して,本モデルはcrを30ドル以上改善し,mseを1桁削減する。 当社の圧縮モデルは,高速で高品質,低オーバヘッドエンコーディングと大規模データのデコードが必要な状況において,魅力的なソリューションです。

Analyzing large-scale data from simulations of turbulent flows is memory intensive, requiring significant resources. This major challenge highlights the need for data compression techniques. In this study, we apply a physics-informed Deep Learning technique based on vector quantization to generate a discrete, low-dimensional representation of data from simulations of three-dimensional turbulent flows. The deep learning framework is composed of convolutional layers and incorporates physical constraints on the flow, such as preserving incompressibility and global statistical characteristics of the velocity gradients. The accuracy of the model is assessed using statistical, comparison-based similarity and physics-based metrics. The training data set is produced from Direct Numerical Simulation of an incompressible, statistically stationary, isotropic turbulent flow. The performance of this lossy data compression scheme is evaluated not only with unseen data from the stationary, isotropic turbulent flow, but also with data from decaying isotropic turbulence, and a Taylor-Green vortex flow. Defining the compression ratio (CR) as the ratio of original data size to the compressed one, the results show that our model based on vector quantization can offer CR $=85$ with a mean square error (MSE) of $O(10^{-3})$, and predictions that faithfully reproduce the statistics of the flow, except at the very smallest scales where there is some loss. Compared to the recent study based on a conventional autoencoder where compression is performed in a continuous space, our model improves the CR by more than $30$ percent, and reduces the MSE by an order of magnitude. Our compression model is an attractive solution for situations where fast, high quality and low-overhead encoding and decoding of large data are required.
翻訳日:2022-01-13 12:21:52 公開日:2022-01-12