このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210718となっている論文です。

PDF登録状況(公開日: 20210718)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 脳はコンピュータであり、脳である:神経科学の内部的議論と計算的メタファーの社会的意義 [全文訳有]

The brain is a computer is a brain: neuroscience's internal debate and the social significance of the Computational Metaphor ( http://arxiv.org/abs/2107.14042v1 )

ライセンス: CC BY 4.0
Alexis T. Baria (1) and Keith Cross (2) ((1) Society of Spoken Art, New York, USA, (2) University of Hawai`i at Manoa, Honolulu, USA)(参考訳) 計算メタファー(Computational Metaphor)は、脳をコンピュータと比較し、その逆も、神経科学と人工知能(AI)において最も顕著なメタファーである。 その適切性は、科学と技術の進歩に有用かどうかに関して、どちらの分野でも議論されている。 しかし、おそらくあまり注目されていないのは、計算メタファーが研究室の外でどのように使われているか、特に社会のAIとの相互作用をどう形作るかである。 このように、AIが人種差別、性差別、能力主義に果たした役割について最近公表された懸念は、「人工知性」という用語は誤りであり、これらの計算システムを記述するために新しい語彙が必要であることを示唆している。 したがって、神経科学者から滅多に聞かれる計算メタファーには、重要な疑問がある:それは誰を助けるのか、誰に害を与えるのか? このエッセイは、神経科学のコミュニティに、この分野で最も議論を呼んでいるメタファーの社会的意味を考えるよう呼びかけている。

The Computational Metaphor, comparing the brain to the computer and vice versa, is the most prominent metaphor in neuroscience and artificial intelligence (AI). Its appropriateness is highly debated in both fields, particularly with regards to whether it is useful for the advancement of science and technology. Considerably less attention, however, has been devoted to how the Computational Metaphor is used outside of the lab, and particularly how it may shape society's interactions with AI. As such, recently publicized concerns over AI's role in perpetuating racism, genderism, and ableism suggest that the term "artificial intelligence" is misplaced, and that a new lexicon is needed to describe these computational systems. Thus, there is an essential question about the Computational Metaphor that is rarely asked by neuroscientists: whom does it help and whom does it harm? This essay invites the neuroscience community to consider the social implications of the field's most controversial metaphor.
翻訳日:2021-08-01 13:16:44 公開日:2021-07-18
# ヘテロジニアス組込みデバイスにおけるフェデレーション動作認識

Federated Action Recognition on Heterogeneous Embedded Devices ( http://arxiv.org/abs/2107.12147v1 )

ライセンス: Link先を確認
Pranjal Jain, Shreyas Goenka, Saurabh Bagchi, Biplab Banerjee, Somali Chaterji(参考訳) フェデレーション学習は、データを共有することなく、多数のデバイスが共同でモデルを学ぶことを可能にする。 本研究では,限られた計算能力を持つクライアントが行動認識を行うことを可能にする。 まず,大規模データセット上で知識蒸留を行い,中央サーバでモデル圧縮を行う。 これにより、モデルは複雑な特徴を学習し、モデル微調整の初期化として機能する。 より小さなデータセットに存在する限られたデータは、アクション認識モデルが複雑な時空間的特徴を学ぶのに十分ではないため、微調整が必要である。 既存のクライアントは、コンピューティングリソースに不均一なことが多いため、非同期フェデレーション最適化を使用して、さらに収束境界を示します。 中央サーバでの微調整(クライアントなし)と同期フェデレーション平均化を用いた(ヘテロジェンスな)クライアントの微調整の2つのベースラインアプローチと比較した。 非同期学習戦略は、同期学習と比較してトレーニング時間を40%削減する一方、上述の2つのベースラインに匹敵する精度で動作認識を行うことができる異種組み込みデバイスのテストベッドを実証的に示す。

Federated learning allows a large number of devices to jointly learn a model without sharing data. In this work, we enable clients with limited computing power to perform action recognition, a computationally heavy task. We first perform model compression at the central server through knowledge distillation on a large dataset. This allows the model to learn complex features and serves as an initialization for model fine-tuning. The fine-tuning is required because the limited data present in smaller datasets is not adequate for action recognition models to learn complex spatio-temporal features. Because the clients present are often heterogeneous in their computing resources, we use an asynchronous federated optimization and we further show a convergence bound. We compare our approach to two baseline approaches: fine-tuning at the central server (no clients) and fine-tuning using (heterogeneous) clients using synchronous federated averaging. We empirically show on a testbed of heterogeneous embedded devices that we can perform action recognition with comparable accuracy to the two baselines above, while our asynchronous learning strategy reduces the training time by 40%, relative to synchronous learning.
翻訳日:2021-08-01 11:04:46 公開日:2021-07-18
# 透磁率予測のための多孔質媒体のポイントクラウド深層学習

Point-Cloud Deep Learning of Porous Media for Permeability Prediction ( http://arxiv.org/abs/2107.14038v1 )

ライセンス: Link先を確認
Ali Kashefi and Tapan Mukerji(参考訳) デジタル画像から多孔質媒体の透過性を予測するための新しいディープラーニングフレームワークを提案する。 畳み込みニューラルネットワークとは異なり、画像の体積全体を入力としてネットワークに供給するのではなく、固体行列と細孔空間の境界を点雲としてモデル化し、ポイントネットアーキテクチャに基づいたニューラルネットワークに入力として供給する。 このアプローチは、グラフィックス処理ユニットのメモリ制限の課題と、バッチサイズとコンバージェンスの選択による影響を克服する。 畳み込みニューラルネットワークと比較して、提案したディープラーニング手法は、ネットワーク入力のサイズを大幅に削減するため、より大きなバッチサイズを選択する自由を提供する。 具体的には、pointnetの分類ブランチを使用して、回帰タスクに調整します。 テストケースとして、2次元および3次元の合成デジタルロック画像を考える。 ニューラルネットワークのさまざまなコンポーネントが性能に与える影響について検討する。 当社のディープラーニング戦略と,さまざまな観点からの畳み込みニューラルネットワーク,特に最大バッチサイズを比較した。 本研究は,実世界の岩石試料の透水性と,トレーニングで使用した試料と統計的に異なる合成デジタル岩石の透過性を予測することにより,ネットワークの一般化性を検証した。 このネットワークは、高い予測精度を持つ格子ボルツマンソルバよりも数千倍の速度でデジタル岩の透過性を予測している。

We propose a novel deep learning framework for predicting permeability of porous media from their digital images. Unlike convolutional neural networks, instead of feeding the whole image volume as inputs to the network, we model the boundary between solid matrix and pore spaces as point clouds and feed them as inputs to a neural network based on the PointNet architecture. This approach overcomes the challenge of memory restriction of graphics processing units and its consequences on the choice of batch size, and convergence. Compared to convolutional neural networks, the proposed deep learning methodology provides freedom to select larger batch sizes, due to reducing significantly the size of network inputs. Specifically, we use the classification branch of PointNet and adjust it for a regression task. As a test case, two and three dimensional synthetic digital rock images are considered. We investigate the effect of different components of our neural network on its performance. We compare our deep learning strategy with a convolutional neural network from various perspectives, specifically for maximum possible batch size. We inspect the generalizability of our network by predicting the permeability of real-world rock samples as well as synthetic digital rocks that are statistically different from the samples used during training. The network predicts the permeability of digital rocks a few thousand times faster than a Lattice Boltzmann solver with a high level of prediction accuracy.
翻訳日:2021-08-01 11:03:40 公開日:2021-07-18
# (参考訳) 解釈可能なsincnetベースのディープラーニングによる脳波脳活動からの感情認識 [全文訳有]

Interpretable SincNet-based Deep Learning for Emotion Recognition from EEG brain activity ( http://arxiv.org/abs/2107.10790v1 )

ライセンス: CC BY 4.0
Juan Manuel Mayor-Torres, Mirco Ravanelli, Sara E. Medina-DeVilliers, Matthew D. Lerner and Giuseppe Riccardi(参考訳) ディープラーニングのような機械学習手法は、医療領域において有望な結果を示す。 しかし、これらのアルゴリズムの解釈可能性の欠如は、医療的意思決定支援システムの適用を阻害する可能性がある。 本稿では,SincNetと呼ばれる解釈可能な深層学習手法について検討する。 SincNetは、トレーニング可能なシンク関数を通じて、カスタマイズされたバンドパスフィルタを効率的に学習する畳み込みニューラルネットワークである。 本研究では、SincNetを用いて自閉症スペクトラム障害(ASD)患者の神経活動を分析し、神経振動活動の特徴的差異を経験する。 特に,脳波信号を用いたASD患者の感情を検出する新しいSincNetベースのニューラルネットワークを提案する。 学習したフィルタは容易に検査でき、脳波スペクトルのどの部分が感情予測に使われているかを検出することができる。 当社のシステムは, ASD患者によく見られる高額な$\alpha$ (9-13 Hz) と$\beta$ (13-30 Hz) の帯域抑制を自動的に学習することがわかった。 この結果は感情認識に関する最近の神経科学研究と一致しており、これらのバンド抑圧とasd患者の行動障害との関連性を見出した。 SincNetの解釈性の向上は、感情認識の性能を犠牲にすることなく達成される。

Machine learning methods, such as deep learning, show promising results in the medical domain. However, the lack of interpretability of these algorithms may hinder their applicability to medical decision support systems. This paper studies an interpretable deep learning technique, called SincNet. SincNet is a convolutional neural network that efficiently learns customized band-pass filters through trainable sinc-functions. In this study, we use SincNet to analyze the neural activity of individuals with Autism Spectrum Disorder (ASD), who experience characteristic differences in neural oscillatory activity. In particular, we propose a novel SincNet-based neural network for detecting emotions in ASD patients using EEG signals. The learned filters can be easily inspected to detect which part of the EEG spectrum is used for predicting emotions. We found that our system automatically learns the high-$\alpha$ (9-13 Hz) and $\beta$ (13-30 Hz) band suppression often present in individuals with ASD. This result is consistent with recent neuroscience studies on emotion recognition, which found an association between these band suppressions and the behavioral deficits observed in individuals with ASD. The improved interpretability of SincNet is achieved without sacrificing performance in emotion recognition.
翻訳日:2021-07-24 01:33:37 公開日:2021-07-18
# (参考訳) BERTとGANを用いた株価予測 [全文訳有]

Stock price prediction using BERT and GAN ( http://arxiv.org/abs/2107.09055v1 )

ライセンス: CC BY 4.0
Priyank Sonkiya, Vikas Bajpai and Anukriti Bansal(参考訳) 株式市場は近年、人気の高い話題となっている。 インフレ率の上昇により、人々は貯蓄よりも株式や商品市場や他の分野に投資せざるを得なくなった。 さらに、時系列データに基づいて予測を行うディープラーニングモデルの能力は、何度も証明されてきた。 技術指標による株式市場の技術分析は、トレーダーや投資家の間では最も一般的な実践である。 もうひとつの側面は、投資意欲を示す投資家の感情分析である。 さまざまなテクニックが、基本的な機械学習とニューラルネットワークを含む世界中の人々によって使用されている。 基本的な線形回帰から高度なニューラルネットワークまで、人々は株式市場を予測するためのあらゆる可能なテクニックを実験してきた。 最近の出来事から、ニュースや見出しが株式市場や仮想通貨に与える影響は明らかです。 本稿では,株価予測のための最先端手法の提案を行う。 まず、ニュースの感情分析と、NASDAQに掲載されているApple Inc.の見出しは、Google for Natural Language Processing (NLP)による事前訓練されたトランスフォーマーモデルであるBERTのバージョンを使用して実行される。 その後、GAN(Generative Adversarial Network)は、Apple Inc.の株価を、技術指標、さまざまな国の株価指数、いくつかの商品、歴史的価格と評価スコアを用いて予測する。 比較は、Long Short Term Memory (LSTM)、Gated Recurrent Units (GRU)、vanilla GAN、Auto-Regressive Integrated Average (ARIMA)モデルといったベースラインモデルで行う。

The stock market has been a popular topic of interest in the recent past. The growth in the inflation rate has compelled people to invest in the stock and commodity markets and other areas rather than saving. Further, the ability of Deep Learning models to make predictions on the time series data has been proven time and again. Technical analysis on the stock market with the help of technical indicators has been the most common practice among traders and investors. One more aspect is the sentiment analysis - the emotion of the investors that shows the willingness to invest. A variety of techniques have been used by people around the globe involving basic Machine Learning and Neural Networks. Ranging from the basic linear regression to the advanced neural networks people have experimented with all possible techniques to predict the stock market. It's evident from recent events how news and headlines affect the stock markets and cryptocurrencies. This paper proposes an ensemble of state-of-the-art methods for predicting stock prices. Firstly sentiment analysis of the news and the headlines for the company Apple Inc, listed on the NASDAQ is performed using a version of BERT, which is a pre-trained transformer model by Google for Natural Language Processing (NLP). Afterward, a Generative Adversarial Network (GAN) predicts the stock price for Apple Inc using the technical indicators, stock indexes of various countries, some commodities, and historical prices along with the sentiment scores. Comparison is done with baseline models like - Long Short Term Memory (LSTM), Gated Recurrent Units (GRU), vanilla GAN, and Auto-Regressive Integrated Moving Average (ARIMA) model.
翻訳日:2021-07-22 02:56:45 公開日:2021-07-18
# エゴセントリックビデオにおける行動予測のためのマルチモーダル時間畳み込みネットワーク

Multi-Modal Temporal Convolutional Network for Anticipating Actions in Egocentric Videos ( http://arxiv.org/abs/2107.09504v1 )

ライセンス: Link先を確認
Olga Zatsarynna, Yazan Abu Farha and Juergen Gall(参考訳) 人間の行動を予測することは、自動運転車やロボットアシスタントのような信頼性の高いインテリジェントエージェントの開発に対処する必要がある重要なタスクである。 予測手法の設計には高い精度で将来の予測を行う能力が不可欠であるが、推論を行う速度はそれほど重要ではない。 正確だが十分な速度ではないメソッドは、決定プロセスに高いレイテンシをもたらす。 これにより、基礎となるシステムの反応時間が増加する。 これは、反応時間が重要である自律運転のようなドメインに問題を引き起こす。 本研究では,時間的畳み込みに基づく簡易かつ効果的なマルチモーダルアーキテクチャを提案する。 我々のアプローチは、時間的畳み込み層の階層を積み重ね、高速な予測を保証するために繰り返しの層に依存しない。 さらに,rgb,フロー,オブジェクト間の対相互作用をキャプチャするマルチモーダル融合機構についても紹介する。 EPIC-Kitchens-55 と EPIC-Kitchens-100 の2つの大規模なエゴセントリックビデオデータセットの結果から,本手法は最先端のアプローチに匹敵する性能を示しながら,より高速であることを示す。

Anticipating human actions is an important task that needs to be addressed for the development of reliable intelligent agents, such as self-driving cars or robot assistants. While the ability to make future predictions with high accuracy is crucial for designing the anticipation approaches, the speed at which the inference is performed is not less important. Methods that are accurate but not sufficiently fast would introduce a high latency into the decision process. Thus, this will increase the reaction time of the underlying system. This poses a problem for domains such as autonomous driving, where the reaction time is crucial. In this work, we propose a simple and effective multi-modal architecture based on temporal convolutions. Our approach stacks a hierarchy of temporal convolutional layers and does not rely on recurrent layers to ensure a fast prediction. We further introduce a multi-modal fusion mechanism that captures the pairwise interactions between RGB, flow, and object modalities. Results on two large-scale datasets of egocentric videos, EPIC-Kitchens-55 and EPIC-Kitchens-100, show that our approach achieves comparable performance to the state-of-the-art approaches while being significantly faster.
翻訳日:2021-07-21 14:57:58 公開日:2021-07-18
# (参考訳) 雑音による理解誤りの軽減に向けた語彙パラフレーズの可能性の検討 [全文訳有]

Exploring the Potential of Lexical Paraphrases for Mitigating Noise-Induced Comprehension Errors ( http://arxiv.org/abs/2107.08337v1 )

ライセンス: CC BY 4.0
Anupama Chingacham, Vera Demberg, Dietrich Klakow(参考訳) ノイズの多い環境での聴くことは、通常の聴覚閾値を持つ個人でも難しい。 音声信号はノイズによって隠蔽することができ、これは聞き手の側で単語の誤認識を招き、メッセージを理解するのが全体的な困難である。 補聴器の難聴を軽減するため,Lombard音声のような音声変調手法を用いてノイズロバスト発話を生成し,音声合成システムに類似したソリューションを開発した。 本研究では,意図する意味を表現するために,ノイズロバストな語彙パラフレーズを選択する代替解を提案する。 以上の結果から,語彙的パラフレーズは雑音の知覚性が異なることが明らかとなった。 文脈における同義語の理解性を評価し,その同義語よりも誤聴しにくい語彙単位を選択することで,snr -5 dbでは37%,babble noiseではsnr 0 dbでは21%の理解率を得た。

Listening in noisy environments can be difficult even for individuals with a normal hearing thresholds. The speech signal can be masked by noise, which may lead to word misperceptions on the side of the listener, and overall difficulty to understand the message. To mitigate hearing difficulties on listeners, a co-operative speaker utilizes voice modulation strategies like Lombard speech to generate noise-robust utterances, and similar solutions have been developed for speech synthesis systems. In this work, we propose an alternate solution of choosing noise-robust lexical paraphrases to represent an intended meaning. Our results show that lexical paraphrases differ in their intelligibility in noise. We evaluate the intelligibility of synonyms in context and find that choosing a lexical unit that is less risky to be misheard than its synonym introduced an average gain in comprehension of 37% at SNR -5 dB and 21% at SNR 0 dB for babble noise.
翻訳日:2021-07-21 05:12:37 公開日:2021-07-18
# (参考訳) 敵対的mdpにおける政策最適化:拡張ボーナスによる探索の改善

Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses ( http://arxiv.org/abs/2107.08346v1 )

ライセンス: CC0 1.0
Haipeng Luo, Chen-Yu Wei, Chung-Wei Lee(参考訳) 政策最適化は強化学習において広く使われている手法である。 しかし、その局所探索の性質から、大域的最適性に関する理論的保証は、大域的探索の難しさを克服するマルコフ決定過程(MDP)の余分な仮定に依存することが多い。 このような仮定の必要性をなくすため,本研究では,グローバル探索を容易にするために,政策更新に拡張ボーナスを追加する汎用ソリューションを開発した。 本手法のパワーと汎用性を示すために,敵対的損失と包帯的フィードバックを伴い,最先端技術の改善と一般化を図った複数のエピソードMDP設定に適用する。 特に表の場合、$\widetilde{\mathcal{O}}(\sqrt{T})$ regret where $T$ is the number of episodes, improve the $\widetilde{\mathcal{O}}({T}^{2/3})$ regret bound by Shani et al。 (2020). 状態の数が無限であるとき、状態-作用値がいくつかの低次元特徴において線型であるという仮定の下で、シミュレータの助けを借りて$\widetilde{\mathcal{O}}({T}^{2/3})$ regretを取得し、Neu と Olkhovskaya (2020) の結果と一致する。 シミュレータが利用できない場合、さらに線形 MDP の設定を考え、$\widetilde{\mathcal{O}}({T}^{14/15})$ regret を得る。

Policy optimization is a widely-used method in reinforcement learning. Due to its local-search nature, however, theoretical guarantees on global optimality often rely on extra assumptions on the Markov Decision Processes (MDPs) that bypass the challenge of global exploration. To eliminate the need of such assumptions, in this work, we develop a general solution that adds dilated bonuses to the policy update to facilitate global exploration. To showcase the power and generality of this technique, we apply it to several episodic MDP settings with adversarial losses and bandit feedback, improving and generalizing the state-of-the-art. Specifically, in the tabular case, we obtain $\widetilde{\mathcal{O}}(\sqrt{T})$ regret where $T$ is the number of episodes, improving the $\widetilde{\mathcal{O}}({T}^{2/3})$ regret bound by Shani et al. (2020). When the number of states is infinite, under the assumption that the state-action values are linear in some low-dimensional features, we obtain $\widetilde{\mathcal{O}}({T}^{2/3})$ regret with the help of a simulator, matching the result of Neu and Olkhovskaya (2020) while importantly removing the need of an exploratory policy that their algorithm requires. When a simulator is unavailable, we further consider a linear MDP setting and obtain $\widetilde{\mathcal{O}}({T}^{14/15})$ regret, which is the first result for linear MDPs with adversarial losses and bandit feedback.
翻訳日:2021-07-21 05:00:38 公開日:2021-07-18
# (参考訳) データ駆動型ソフトウェア脆弱性評価と優先順位付けに関する調査

A Survey on Data-driven Software Vulnerability Assessment and Prioritization ( http://arxiv.org/abs/2107.08364v1 )

ライセンス: CC BY 4.0
Triet H. M. Le, Huaming Chen, M. Ali Babar(参考訳) ソフトウェア脆弱性(svs)は複雑さと規模が増大し、多くのソフトウェアシステムにとって大きなセキュリティリスクとなっている。 SV評価と優先順位付けは,実践者が様々なSV特性に基づいて最適なSV緩和計画を策定する上で有効である。 SVデータソースの急増と機械学習やディープラーニングのようなデータ駆動技術は、SVの評価と優先順位付けを次のレベルに引き上げた。 本調査は過去の研究成果を分類し,データ駆動型SV評価と優先順位付けのベストプラクティスを強調した。 また、現在の制限についても議論し、この問題に対処するための潜在的な解決策を提案する。

Software Vulnerabilities (SVs) are increasing in complexity and scale, posing great security risks to many software systems. Given the limited resources in practice, SV assessment and prioritization help practitioners devise optimal SV mitigation plans based on various SV characteristics. The surge in SV data sources and data-driven techniques such as Machine Learning and Deep Learning have taken SV assessment and prioritization to the next level. Our survey provides a taxonomy of the past research efforts and highlights the best practices for data-driven SV assessment and prioritization. We also discuss the current limitations and propose potential solutions to address such issues.
翻訳日:2021-07-21 04:59:17 公開日:2021-07-18
# (参考訳) HVACとマイクログリッドの協調設計による知的制御 [全文訳有]

Co-designing Intelligent Control of Building HVACs and Microgrids ( http://arxiv.org/abs/2107.08378v1 )

ライセンス: CC BY 4.0
Rumia Masburah and Sayan Sinha and Rajib Lochan Jana, Soumyajit Dey, Qi Zhu(参考訳) 建設負荷は先進国で生産されるエネルギーの約40%を消費し、その大部分は温度制御インフラの構築に費やされている。 再生可能資源ベースのマイクログリッドは、よりグリーンで安価な代替手段を提供する。 このコミュニケーションは, 運用コストの最小化による有効温度制御を目的とし, HVAC(暖房, 換気, 空調システム)の動作とマイクログリッドの同時設計の可能性を探るものである。 そこで我々は,Deep Reinforcement Learning (DRL) 技術を用いて,マイクログリッドおよびHVACシステムモデルに関する情報に基づいて,様々な抽象化レベルの制御設計を試みる。 完全に決定されたシステムモデルから、完全に未知のパラメータ設定を持つシステムまで、モデル情報を考慮した制御アーキテクチャを提供し、設計基準に対するDRLの利点を示す。

Building loads consume roughly 40% of the energy produced in developed countries, a significant part of which is invested towards building temperature-control infrastructure. Therein, renewable resource-based microgrids offer a greener and cheaper alternative. This communication explores the possible co-design of microgrid power dispatch and building HVAC (heating, ventilation and air conditioning system) actuations with the objective of effective temperature control under minimised operating cost. For this, we attempt control designs with various levels of abstractions based on information available about microgrid and HVAC system models using the Deep Reinforcement Learning (DRL) technique. We provide control architectures that consider model information ranging from completely determined system models to systems with fully unknown parameter settings and illustrate the advantages of DRL for the design prescriptions.
翻訳日:2021-07-21 04:58:25 公開日:2021-07-18
# (参考訳) GuideBoot: 深いコンテキストバンドのためのガイド付きブートストラップ [全文訳有]

GuideBoot: Guided Bootstrap for Deep Contextual Bandits ( http://arxiv.org/abs/2107.08383v1 )

ライセンス: CC BY 4.0
Feiyang Pan, Haoming Li, Xiang Ao, Wei Wang, Yanrong Kang, Ao Tan and Qing He(参考訳) 探索・探索(E&E)ジレンマは、文脈的帯域幅アルゴリズムが提案されているオンライン広告のようなインタラクティブシステムの中核にある。 ベイズ的アプローチは原則的不確実性推定を伴うガイド付き探索を提供するが、適用性は過度に単純化された仮定のために制限されることが多い。 一方、非ベイジアンブートストラップ法は、深い報酬モデルを用いて複雑な問題に適用できるが、探索行動への明確なガイダンスは欠如している。 複雑な深層バンディットの実用的な方法を開発することは、いまだにほとんど解決されていない。 本稿では,両世界のベストを結合したガイド付きブートストラップ(guideboot)を提案する。 guidebootは、予測の不確実性に応じてノイズが追加される偽のラベルで、実際のサンプルとノイズサンプルの両方で複数のモデルをトレーニングすることで、探索行動に対する明確なガイダンスを提供する。 提案手法は, ランダムに選択された1つのモデルのみを利用することで, 決定をオンザフライで行うことができるが, トンプソンサンプリングの非ベイズ近似とみなすことができ, 有効である。 さらに、実際のアプリケーションで好まれるストリーミングデータからのみ学習可能なオンラインバージョンにも拡張しています。 総合的タスクと大規模広告環境の両方に対する大規模な実験により, GuideBootは従来の最先端手法に対して大幅な改善が達成された。

The exploration/exploita tion (E&E) dilemma lies at the core of interactive systems such as online advertising, for which contextual bandit algorithms have been proposed. Bayesian approaches provide guided exploration with principled uncertainty estimation, but the applicability is often limited due to over-simplified assumptions. Non-Bayesian bootstrap methods, on the other hand, can apply to complex problems by using deep reward models, but lacks clear guidance to the exploration behavior. It still remains largely unsolved to develop a practical method for complex deep contextual bandits. In this paper, we introduce Guided Bootstrap (GuideBoot for short), combining the best of both worlds. GuideBoot provides explicit guidance to the exploration behavior by training multiple models over both real samples and noisy samples with fake labels, where the noise is added according to the predictive uncertainty. The proposed method is efficient as it can make decisions on-the-fly by utilizing only one randomly chosen model, but is also effective as we show that it can be viewed as a non-Bayesian approximation of Thompson sampling. Moreover, we extend it to an online version that can learn solely from streaming data, which is favored in real applications. Extensive experiments on both synthetic task and large-scale advertising environments show that GuideBoot achieves significant improvements against previous state-of-the-art methods.
翻訳日:2021-07-21 04:46:49 公開日:2021-07-18
# (参考訳) RobustFed:ロバストなフェデレーションラーニングのための真理推論アプローチ [全文訳有]

RobustFed: A Truth Inference Approach for Robust Federated Learning ( http://arxiv.org/abs/2107.08402v1 )

ライセンス: CC BY 4.0
Farnaz Tahmasebian, Jian Lou, and Li Xiong(参考訳) フェデレーション学習(federated learning)は、ローカルトレーニングデータセットのプライバシを維持しながら、中央サーバのオーケストレーションの下で、クライアント(モバイルデバイスや組織など)が協調的にグローバルモデルをトレーニングすることを可能にする、著名なフレームワークである。 しかし、連合学習における集約ステップは、中央サーバがクライアントの振る舞いを管理できないため、敵の攻撃に対して脆弱である。 そこで,グローバルモデルの性能とトレーニングプロセスの収束性は,このような攻撃の影響を受ける。この脆弱性を緩和するために,作業者の信頼性を集約に組み込むことにより,クラウドソーシングにおける真理推論手法に触発された,新しい堅牢な集約アルゴリズムを提案する。 様々な機械学習モデルを用いた3つの実世界のデータセットでソリューションを評価した。 実験結果から,本ソリューションは堅牢なフェデレーション学習を保証し,ノイズの多いデータ攻撃,ビザンチン攻撃,ラベルフリップ攻撃など,さまざまな種類の攻撃に耐性があることが示唆された。

Federated learning is a prominent framework that enables clients (e.g., mobile devices or organizations) to train a collaboratively global model under a central server's orchestration while keeping local training datasets' privacy. However, the aggregation step in federated learning is vulnerable to adversarial attacks as the central server cannot manage clients' behavior. Therefore, the global model's performance and convergence of the training process will be affected under such attacks.To mitigate this vulnerability issue, we propose a novel robust aggregation algorithm inspired by the truth inference methods in crowdsourcing via incorporating the worker's reliability into aggregation. We evaluate our solution on three real-world datasets with a variety of machine learning models. Experimental results show that our solution ensures robust federated learning and is resilient to various types of attacks, including noisy data attacks, Byzantine attacks, and label flipping attacks.
翻訳日:2021-07-21 04:29:08 公開日:2021-07-18
# (参考訳) 小ターゲット検出のための小型生体用イーグルアイビジョンシステム [全文訳有]

A Miniature Biological Eagle-Eye Vision System for Small Target Detection ( http://arxiv.org/abs/2107.08406v1 )

ライセンス: CC BY 4.0
Shutai Wang, Qiang Fu, Yinhao Hu, Chunhua Zhang, Wei He(参考訳) 小さなターゲット検出は難しい問題であることが知られている。 本稿では,eagle-eyeの構造的特徴と生理的メカニズムに着想を得て,小型ターゲット検出のためのミニチュアビジョンシステムを提案する。 まず、ハードウェアプラットフォームが確立され、パンティルト、ショートフォーカスカメラ、ロングフォーカスカメラで構成される。 そして、ワシ眼の視覚的注意機構に基づき、焦点距離の異なるカメラを協調的に制御し、小さな目標検出を実現する。 実験結果から,設計した生体用ワシ目視システムは,適応能力の強い小型目標を正確に検出できることがわかった。

Small target detection is known to be a challenging problem. Inspired by the structural characteristics and physiological mechanism of eagle-eye, a miniature vision system is designed for small target detection in this paper. First, a hardware platform is established, which consists of a pan-tilt, a short-focus camera and a long-focus camera. Then, based on the visual attention mechanism of eagle-eye, the cameras with different focal lengths are controlled cooperatively to achieve small target detection. Experimental results show that the designed biological eagle-eye vision system can accurately detect small targets, which has a strong adaptive ability.
翻訳日:2021-07-21 04:15:13 公開日:2021-07-18
# (参考訳) 異種環境間の転送のための新しい後継機能表現 [全文訳有]

A New Representation of Successor Features for Transfer across Dissimilar Environments ( http://arxiv.org/abs/2107.08426v1 )

ライセンス: CC BY 4.0
Majid Abdolshah, Hung Le, Thommen Karimpanal George, Sunil Gupta, Santu Rana, Svetha Venkatesh(参考訳) 強化学習の移動は通常、タスク間の一般化によって達成される。 多くの研究が報酬関数が変化したときの知識の伝達を研究しているが、彼らは環境のダイナミクスは一貫していると仮定している。 多くの実世界のRL問題は、異なるダイナミクスを持つ環境間の移動を必要とする。 この問題に対処するために,ガウス過程を用いた後継特徴関数をモデル化し,対象の後継特徴関数のノイズ測定としてソース後継特徴関数を扱えるようにする手法を提案する。 我々の理論的解析は、異なるダイナミクスと報酬を持つ環境におけるガウス過程を用いた後続特徴関数のモデル化における有界誤差と同様に、このアプローチの収束を証明している。 本手法をベンチマークデータセットで実証し,現在のベースラインよりも優れていることを示す。

Transfer in reinforcement learning is usually achieved through generalisation across tasks. Whilst many studies have investigated transferring knowledge when the reward function changes, they have assumed that the dynamics of the environments remain consistent. Many real-world RL problems require transfer among environments with different dynamics. To address this problem, we propose an approach based on successor features in which we model successor feature functions with Gaussian Processes permitting the source successor features to be treated as noisy measurements of the target successor feature function. Our theoretical analysis proves the convergence of this approach as well as the bounded error on modelling successor feature functions with Gaussian Processes in environments with both different dynamics and rewards. We demonstrate our method on benchmark datasets and show that it outperforms current baselines.
翻訳日:2021-07-21 04:07:11 公開日:2021-07-18
# (参考訳) ANFIC:Augmented Normalizing Flowsを用いた画像圧縮 [全文訳有]

ANFIC: Image Compression Using Augmented Normalizing Flows ( http://arxiv.org/abs/2107.08470v1 )

ライセンス: CC BY 4.0
Yung-Han Ho, Chih-Chun Chan, Wen-Hsiao Peng, Hsueh-Ming Hang, Marek Domanski(参考訳) 本稿では、ANF(Augmented Normalizing Flows)に基づく、エンドツーエンドの学習画像圧縮システムANFICを紹介する。 ANFは複数の変分オートエンコーダ(VAE)を積み重ねてモデル表現性を高める新しいタイプのフローモデルである。 VAEベースの画像圧縮は主流となり、有望な圧縮性能を示している。 我々の研究は、フローベースのフレームワークでVAEベースの圧縮を活用する最初の試みである。 ANFICは階層的に複数のVAEを積み重ねて拡張することで、さらなる圧縮効率を向上させる。 トレーニング戦略とともにANFの可逆性により、ANFICはエンコーディングやデコードネットワークを変更することなく、幅広い品質レベルをサポートすることができる。 広汎な実験結果から,PSNR-RGBでは,ANFICは最先端の学習画像圧縮と同等以上の性能を示した。 さらに、低レート圧縮からほぼロスレス圧縮まで、vvcイントラコーディングに近い性能を発揮する。 特に、ANFICは1つのモデルで可変レート圧縮の条件付き畳み込みで拡張した場合、最先端の性能を達成する。

This paper introduces an end-to-end learned image compression system, termed ANFIC, based on Augmented Normalizing Flows (ANF). ANF is a new type of flow model, which stacks multiple variational autoencoders (VAE) for greater model expressiveness. The VAE-based image compression has gone mainstream, showing promising compression performance. Our work presents the first attempt to leverage VAE-based compression in a flow-based framework. ANFIC advances further compression efficiency by stacking and extending hierarchically multiple VAE's. The invertibility of ANF, together with our training strategies, enables ANFIC to support a wide range of quality levels without changing the encoding and decoding networks. Extensive experimental results show that in terms of PSNR-RGB, ANFIC performs comparably to or better than the state-of-the-art learned image compression. Moreover, it performs close to VVC intra coding, from low-rate compression up to nearly-lossless compression. In particular, ANFIC achieves the state-of-the-art performance, when extended with conditional convolution for variable rate compression with a single model.
翻訳日:2021-07-21 02:38:34 公開日:2021-07-18
# (参考訳) 大規模状態空間でのMDP解決のための分光特性の爆発について」特集号によせて [全文訳有]

A note on the article "On Exploiting Spectral Properties for Solving MDP with Large State Space" ( http://arxiv.org/abs/2107.08488v1 )

ライセンス: CC BY 4.0
D. Maran(参考訳) 我々は,「大規模状態空間でMDPを解くための分光特性の爆発」という論文の理論的結果を改善し,非現実的な仮定の下で収束することが証明されたアルゴリズムが,実際に常に収束することが保証されていることを示す。

We improve a theoretical result of the article "On Exploiting Spectral Properties for Solving MDP with Large State Space" showing that their algorithm, which was proved to converge under some unrealistic assumptions, is actually guaranteed to converge always.
翻訳日:2021-07-21 02:17:12 公開日:2021-07-18
# (参考訳) ICA解析を用いた機械学習を用いた脳波信号からの上腕運動の分類

Classification of Upper Arm Movements from EEG signals using Machine Learning with ICA Analysis ( http://arxiv.org/abs/2107.08514v1 )

ライセンス: CC BY 4.0
Pranali Kokate, Sidharth Pancholi, Amit M. Joshi(参考訳) Brain-Computer Interface Systemは、認知活動の復号に重要な役割を果たす運動活動の実験領域として、大きく発展している。 脳波信号からの認知運動画像活動の分類は重要な課題である。 そこで,多層パーセプトロンニューラルネットワークを用いて左右動作を分類する一意アルゴリズムを提案した。 手作り統計時間領域とパワースペクトル密度周波数領域の特徴を抽出し、96.02%の精度を得た。 結果はディープラーニングフレームワークと比較された。 精度に加えて、精度、F1スコア、リコールがパフォーマンス指標とされた。 望ましくない信号の干渉は、アルゴリズムの性能に影響を与える脳波信号を汚染する。 そこで, 独立成分分析を駆使して成果物を除去する新しい手法が提案され, 性能が向上した。 適切な特徴ベクトルの選択に従えば、許容できる精度が得られる。 同じ手法が全9科目で使用された。 その結果,9被験者94.72%に対して物体内精度が得られた。 その結果,提案手法は上肢運動を正確に分類するのに有用であることが示唆された。

The Brain-Computer Interface system is a profoundly developing area of experimentation for Motor activities which plays vital role in decoding cognitive activities. Classification of Cognitive-Motor Imagery activities from EEG signals is a critical task. Hence proposed a unique algorithm for classifying left/right-hand movements by utilizing Multi-layer Perceptron Neural Network. Handcrafted statistical Time domain and Power spectral density frequency domain features were extracted and obtained a combined accuracy of 96.02%. Results were compared with the deep learning framework. In addition to accuracy, Precision, F1-Score, and recall was considered as the performance metrics. The intervention of unwanted signals contaminates the EEG signals which influence the performance of the algorithm. Therefore, a novel approach was approached to remove the artifacts using Independent Components Analysis which boosted the performance. Following the selection of appropriate feature vectors that provided acceptable accuracy. The same method was used on all nine subjects. As a result, intra-subject accuracy was obtained for 9 subjects 94.72%. The results show that the proposed approach would be useful to classify the upper limb movements accurately.
翻訳日:2021-07-21 02:14:56 公開日:2021-07-18
# (参考訳) 非iidデータを用いたディープニューラルネットワークの分散連合学習 [全文訳有]

Decentralized federated learning of deep neural networks on non-iid data ( http://arxiv.org/abs/2107.08517v1 )

ライセンス: CC BY-SA 4.0
Noa Onoszko, Gustav Karlsson, Olof Mogren, Edvin Listo Zec(参考訳) 分散環境でパーソナライズされたディープラーニングモデルを学習する非凸問題に対処する。 より具体的には、分散化されたフェデレーション学習、多くのクライアント間でデータが分散され、トレーニングを編成する中央サーバーがないピアツーピア環境について研究する。 実世界のシナリオでは、データ分散はしばしばクライアント間で異質である。 そこで本研究では,非iidクライアントデータを用いたピアツーピアシステムにおいて,モデルを効率的に学習する方法について検討する。 本稿では,類似したデータ分布を持つクライアントが相互に検出し,相互に学習損失を評価し,局所的データ分布に適したモデルを学ぶ,パフォーマンスベースの隣人選択(pens)という手法を提案する。 ベンチマークデータセットを用いた実験により,提案手法は強いベースラインに比べて高い精度を実現できることを示した。

We tackle the non-convex problem of learning a personalized deep learning model in a decentralized setting. More specifically, we study decentralized federated learning, a peer-to-peer setting where data is distributed among many clients and where there is no central server to orchestrate the training. In real world scenarios, the data distributions are often heterogeneous between clients. Therefore, in this work we study the problem of how to efficiently learn a model in a peer-to-peer system with non-iid client data. We propose a method named Performance-Based Neighbor Selection (PENS) where clients with similar data distributions detect each other and cooperate by evaluating their training losses on each other's data to learn a model suitable for the local data distribution. Our experiments on benchmark datasets show that our proposed method is able to achieve higher accuracies as compared to strong baselines.
翻訳日:2021-07-21 02:14:01 公開日:2021-07-18
# (参考訳) 議論のリンク:調査と予測

Argument Linking: A Survey and Forecast ( http://arxiv.org/abs/2107.08523v1 )

ライセンス: CC BY 4.0
William Gantt(参考訳) 意味的役割ラベリング(srl) -- 述語と他の文の構成要素間の意味的関係を識別する -- は、自然言語理解(nlu)においてよく研究されているタスクである。 しかしながら、これらの関係の多くは文書のレベルでのみ明らかであり、ある文における述語の役割は、しばしば別の文における議論によって満たされる。 このより一般的なタスクは暗黙的な意味的役割ラベリングや引数リンクとして知られるが、近年、研究者が情報抽出とnluへの中心性を認識しているため、注目を集めている。 本稿では,議論のリンクに関する文献を調査し,今後の研究に最も利益が期待できる道筋を示す既存アプローチのいくつかの顕著な欠点を明らかにする。

Semantic role labeling (SRL) -- identifying the semantic relationships between a predicate and other constituents in the same sentence -- is a well-studied task in natural language understanding (NLU). However, many of these relationships are evident only at the level of the document, as a role for a predicate in one sentence may often be filled by an argument in a different one. This more general task, known as implicit semantic role labeling or argument linking, has received increased attention in recent years, as researchers have recognized its centrality to information extraction and NLU. This paper surveys the literature on argument linking and identifies several notable shortcomings of existing approaches that indicate the paths along which future research effort could most profitably be spent.
翻訳日:2021-07-21 02:04:04 公開日:2021-07-18
# トップラベル校正

Top-label calibration ( http://arxiv.org/abs/2107.08353v1 )

ライセンス: Link先を確認
Chirag Gupta and Aaditya K. Ramdas(参考訳) マルチクラス分類におけるポストホックキャリブレーションの問題点について検討し,ヒストグラム・バイニングに着目した。 複数の作品は、予測されたクラス(または「トップラベル」)の信頼性に関して校正に焦点を当てている。 信頼度校正(Guo et al., 2017)という一般的な概念は十分に強くない。有意義な方法で校正されていないが、完全に信頼度校正されている予測器が存在する。 本研究では,信頼度校正の直観と単純さを正確に捉えながら,その欠点を解決するトップラベル校正という密接な関連(しかし微妙に異なる)概念を提案する。 我々は,トップラベルのマルチクラスキャリブレーションをバイナリケースに還元するヒストグラムビンニング(HB)アルゴリズムを定式化し,分布仮定なしで理論上の保証をクリーンにし,その実用性について方法論的な研究を行う。 いくつかの予測タスクは、クラス毎や標準キャリブレーションのような、より厳密なマルチクラスキャリブレーションの概念を必要とする。 それぞれの目標に対応する適切なHBアルゴリズムを定式化する。 ディープニューラルネットを用いた実験では、トップラベルとクラスワイズキャリブレーションの両方において、hbの原則付きバージョンが温度スケーリングよりも優れていることが分かりました。 この作業のコードはhttps://github.com/a igen/df-posthoc-cali brationで公開される。

We study the problem of post-hoc calibration for multiclass classification, with an emphasis on histogram binning. Multiple works have focused on calibration with respect to the confidence of just the predicted class (or 'top-label'). We find that the popular notion of confidence calibration [Guo et al., 2017] is not sufficiently strong -- there exist predictors that are not calibrated in any meaningful way but are perfectly confidence calibrated. We propose a closely related (but subtly different) notion, top-label calibration, that accurately captures the intuition and simplicity of confidence calibration, but addresses its drawbacks. We formalize a histogram binning (HB) algorithm that reduces top-label multiclass calibration to the binary case, prove that it has clean theoretical guarantees without distributional assumptions, and perform a methodical study of its practical performance. Some prediction tasks require stricter notions of multiclass calibration such as class-wise or canonical calibration. We formalize appropriate HB algorithms corresponding to each of these goals. In experiments with deep neural nets, we find that our principled versions of HB are often better than temperature scaling, for both top-label and class-wise calibration. Code for this work will be made publicly available at https://github.com/a igen/df-posthoc-cali bration.
翻訳日:2021-07-20 15:21:37 公開日:2021-07-18
# 半教師付き学習によるSentinel-1 SAR画像のフラッドセグメンテーション

Flood Segmentation on Sentinel-1 SAR Imagery with Semi-Supervised Learning ( http://arxiv.org/abs/2107.08369v1 )

ライセンス: Link先を確認
Sayak Paul and Siddha Ganju(参考訳) 洪水は世界中に波及し、数十億ドルの損害を与え、地域社会、生態系、経済を先導した。 開放的な洪水地域を直線化し、洪水レベルを特定することを含む正確な洪水検出は、災害の応答と緩和に役立つ。 しかし,浸水地域への物理的アクセスが制限され,潜在的な浸水地帯に機器を配備する能力が危険になるため,遠隔地での浸水レベル推定は極めて重要である。 局所地形による洪水範囲マッピングの調整は、災害対応チームが考慮できる行動計画を提供することができる。 したがって、センチネル-1のような衛星による遠隔での洪水レベルの推定は修復可能である。 The Emerging Techniques in Computational Intelligence (ETCI) competition on Flood Detectionの参加者は、監視された環境で合成開口レーダ(SAR)画像をトレーニングした後、浸水したピクセルを予測した。 我々は,(1)高信頼ラベル付きデータを利用可能な複数のUNetアーキテクチャのアンサンブルモデルをトレーニングし,(2)ラベル付きテストデータセット上で擬似ラベルや低信頼ラベルを生成し,次いで,生成したラベルと従来利用可能な高信頼ラベル付きデータセットを組み合わせる,という2つの段階を含む循環的アプローチを用いる。 この同化データセットは、次のトレーニングアンサンブルモデルで使用される。 この循環過程は、性能改善が高まるまで繰り返される。 さらに,条件付き確率場を用いて結果の処理を行う。 弊社のアプローチは、ETCIコンペティションのリーダーボードのスコアが0.7654 IoUと高い。 トレーニングされたモデルを含むすべてのコードとともにリリースするこのメソッドは、githubのsentinel-1リリースデータセットのオープンサイエンスベンチマークとしても使用できます。

Floods wreak havoc throughout the world, causing billions of dollars in damages, and uprooting communities, ecosystems and economies. Accurate and robust flood detection including delineating open water flood areas and identifying flood levels can aid in disaster response and mitigation. However, estimating flood levels remotely is of essence as physical access to flooded areas is limited and the ability to deploy instruments in potential flood zones can be dangerous. Aligning flood extent mapping with local topography can provide a plan-of-action that the disaster response team can consider. Thus, remote flood level estimation via satellites like Sentinel-1 can prove to be remedial. The Emerging Techniques in Computational Intelligence (ETCI) competition on Flood Detection tasked participants with predicting flooded pixels after training with synthetic aperture radar (SAR) images in a supervised setting. We use a cyclical approach involving two stages (1) training an ensemble model of multiple UNet architectures with available high and low confidence labeled data and, (2) generating pseudo labels or low confidence labels on the unlabeled test dataset, and then, combining the generated labels with the previously available high confidence labeled dataset. This assimilated dataset is used for the next round of training ensemble models. This cyclical process is repeated until the performance improvement plateaus. Additionally, we post process our results with Conditional Random Fields. Our approach sets a high score on the public leaderboard for the ETCI competition with 0.7654 IoU. Our method, which we release with all the code including trained models, can also be used as an open science benchmark for the Sentinel-1 released dataset on GitHub.
翻訳日:2021-07-20 15:20:21 公開日:2021-07-18
# 医用画像のフェデレーション学習におけるデータ不均一性に関する実験的研究

An Experimental Study of Data Heterogeneity in Federated Learning Methods for Medical Imaging ( http://arxiv.org/abs/2107.08371v1 )

ライセンス: Link先を確認
Liangqiong Qu, Niranjan Balachandar and Daniel L Rubin(参考訳) フェデレーション学習は、複数の機関が、プライバシー保護の方法で、ローカルデータ上で機械学習モデルを協調的にトレーニングすることを可能にする。 しかし、その分散性は、しばしば組織間のデータ分散の著しい不均一性をもたらす。 本稿では,データ不均一性体制の分類が,量スキュー,ラベル分布スキュー,画像取得スキューなどのフェデレーション学習方法に与える影響について検討する。 データの不均一度の増加に伴い,性能が低下することを示す。 本稿では,データ量スキューの重み付き平均値,重み付き損失量,ラベル分布スキューのバッチ正規化平均値など,データの不均一性による性能低下を克服するための緩和策を提案する。 フェデレーション学習手法の最適化により,機関間の不均一性を扱う能力が向上し,実際の臨床応用におけるフェデレーション学習の展開に関する貴重なガイダンスが提供される。

Federated learning enables multiple institutions to collaboratively train machine learning models on their local data in a privacy-preserving way. However, its distributed nature often leads to significant heterogeneity in data distributions across institutions. In this paper, we investigate the deleterious impact of a taxonomy of data heterogeneity regimes on federated learning methods, including quantity skew, label distribution skew, and imaging acquisition skew. We show that the performance degrades with the increasing degrees of data heterogeneity. We present several mitigation strategies to overcome performance drops from data heterogeneity, including weighted average for data quantity skew, weighted loss and batch normalization averaging for label distribution skew. The proposed optimizations to federated learning methods improve their capability of handling heterogeneity across institutions, which provides valuable guidance for the deployment of federated learning in real clinical applications.
翻訳日:2021-07-20 15:19:51 公開日:2021-07-18
# 部分概念クラスにおけるPAC学習可能性の理論

A Theory of PAC Learnability of Partial Concept Classes ( http://arxiv.org/abs/2107.08444v1 )

ライセンス: Link先を確認
Noga Alon and Steve Hanneke and Ron Holzman and Shay Moran(参考訳) 我々は、PAC学習の理論を拡張して、学習プロセスを容易にする特別な特性をデータが満たすような、多様な学習タスクをモデル化する。 例えば、決定境界からのデータの距離がゼロから離れたタスクである。 基本的で単純な考え方は部分的概念を考えることである: これらは空間の特定の部分で定義できない関数である。 部分的概念を学習する際には、部分的概念が定義される点のみにソース分布がサポートされると仮定する。 このようにして、より低い次元の表面やマージン条件に横たわるようなデータ上の仮定を自然に表現することができる。 対照的に、そのような仮定が伝統的なpac理論によって表現できるかどうかは明確ではない。 実際、従来のPAC理論では達成できないような、容易に学習できる部分概念クラスを提示する。 これはまた、Attias、Kontorovich、Mansour 2019によって提起された問題も解決する。 部分概念クラスのPAC学習性を特徴付け,従来のものと根本的に異なるアルゴリズム的景観を明らかにする。 例えば、古典的なPACモデルでは、学習は経験的リスク最小化(Empirical Risk Minimization、ERM)へと導かれる。 対照的に、ERMの原理は部分概念クラスの学習可能性を説明するのに失敗する。 実際、非常に簡単に学習できるクラスを実証するが、それらを学ぶアルゴリズムは、無界なVC次元の仮説空間を使わなければならない。 また、この設定では、サンプル圧縮予想が失敗する。 したがって、この理論は従来の方法では表現できない問題や解決できない問題を特徴としている。 我々はこれを、古典理論が説明できない現実的なシナリオにおける学習可能性の性質に関する洞察を提供する証拠として捉えている。

We extend the theory of PAC learning in a way which allows to model a rich variety of learning tasks where the data satisfy special properties that ease the learning process. For example, tasks where the distance of the data from the decision boundary is bounded away from zero. The basic and simple idea is to consider partial concepts: these are functions that can be undefined on certain parts of the space. When learning a partial concept, we assume that the source distribution is supported only on points where the partial concept is defined. This way, one can naturally express assumptions on the data such as lying on a lower dimensional surface or margin conditions. In contrast, it is not at all clear that such assumptions can be expressed by the traditional PAC theory. In fact we exhibit easy-to-learn partial concept classes which provably cannot be captured by the traditional PAC theory. This also resolves a question posed by Attias, Kontorovich, and Mansour 2019. We characterize PAC learnability of partial concept classes and reveal an algorithmic landscape which is fundamentally different than the classical one. For example, in the classical PAC model, learning boils down to Empirical Risk Minimization (ERM). In stark contrast, we show that the ERM principle fails in explaining learnability of partial concept classes. In fact, we demonstrate classes that are incredibly easy to learn, but such that any algorithm that learns them must use an hypothesis space with unbounded VC dimension. We also find that the sample compression conjecture fails in this setting. Thus, this theory features problems that cannot be represented nor solved in the traditional way. We view this as evidence that it might provide insights on the nature of learnability in realistic scenarios which the classical theory fails to explain.
翻訳日:2021-07-20 15:19:21 公開日:2021-07-18
# GoTube: 継続的深さモデルのスケーラブルな確率的検証

GoTube: Scalable Stochastic Verification of Continuous-Depth Models ( http://arxiv.org/abs/2107.08467v1 )

ライセンス: Link先を確認
Sophie Gruenbacher, Mathias Lechner, Ramin Hasani, Daniela Rus, Thomas A. Henzinger, Scott Smolka, Radu Grosu(参考訳) 本稿では,連続深度モデルとして定式化された時間連続プロセスの挙動ロバスト性を正式に定量化する,新しい確率的検証アルゴリズムを提案する。 このアルゴリズムは、与えられた時間的地平線上でのグローバル最適化(Go)問題の集合を解き、初期状態の球から始まる全てのプロセス実行の集合の密閉(Tube)を構築する。 アルゴリズムをゴチューブと呼んでいます 建設を通じて、GoTubeは境界管が望ましい確率まで保守的であることを保証している。 GoTubeはJAXで実装されており、複雑な継続的深度モデルにスケールするために最適化されている。 時間連続ニューラルネットワークの高度な到達性解析ツールと比較すると、GoTubeは時間ステップ間の過度な近似誤差を確実に蓄積せず、象徴的なテクニックに固有の悪名高いラッピング効果を避けることができる。 我々は,GoTubeが実験の大規模なセットにおいて,初期球の大きさ,速度,時間水平,タスク完了,スケーラビリティにおいて,最先端の検証ツールを大幅に上回ることを示す。 GoTubeは安定しており、これまで可能だった以上の時間的地平線までスケールアップする能力の最先端を設定できる。

We introduce a new stochastic verification algorithm that formally quantifies the behavioral robustness of any time-continuous process formulated as a continuous-depth model. The algorithm solves a set of global optimization (Go) problems over a given time horizon to construct a tight enclosure (Tube) of the set of all process executions starting from a ball of initial states. We call our algorithm GoTube. Through its construction, GoTube ensures that the bounding tube is conservative up to a desired probability. GoTube is implemented in JAX and optimized to scale to complex continuous-depth models. Compared to advanced reachability analysis tools for time-continuous neural networks, GoTube provably does not accumulate over-approximation errors between time steps and avoids the infamous wrapping effect inherent in symbolic techniques. We show that GoTube substantially outperforms state-of-the-art verification tools in terms of the size of the initial ball, speed, time-horizon, task completion, and scalability, on a large set of experiments. GoTube is stable and sets the state-of-the-art for its ability to scale up to time horizons well beyond what has been possible before.
翻訳日:2021-07-20 15:18:56 公開日:2021-07-18
# テキストベースゲームの事前知識としての事前学習言語モデル

Pre-trained Language Models as Prior Knowledge for Playing Text-based Games ( http://arxiv.org/abs/2107.08408v1 )

ライセンス: Link先を確認
Ishika Singh and Gargi Singh and Ashutosh Modi(参考訳) 近年, 人工エージェントが現実世界のシナリオを理解し, 推論できるように, テキストワールドゲームが提案されている。 これらのテキストベースのゲームは、部分的に観察可能な環境で自然言語による理解と相互作用を必要とするため、人工エージェントにとって難しい。 本稿では,Deep RLモデルを用いたトランスフォーマーベース言語モデルを用いて,シンプルなRLをLMフレームワークで提案することにより,エージェントの意味的理解を改善する。 我々は、我々のモデルが人気ゲームであるzork1の既存のエージェントを上回って44.7という最新モデルよりも1.6高いスコアを得る方法を示すために、フレームワークの詳細な研究を行います。 提案手法は,他のテキストゲームにおける最先端モデルと同等に機能する。

Recently, text world games have been proposed to enable artificial agents to understand and reason about real-world scenarios. These text-based games are challenging for artificial agents, as it requires understanding and interaction using natural language in a partially observable environment. In this paper, we improve the semantic understanding of the agent by proposing a simple RL with LM framework where we use transformer-based language models with Deep RL models. We perform a detailed study of our framework to demonstrate how our model outperforms all existing agents on the popular game, Zork1, to achieve a score of 44.7, which is 1.6 higher than the state-of-the-art model. Our proposed approach also performs comparably to the state-of-the-art models on the other set of text games.
翻訳日:2021-07-20 15:18:09 公開日:2021-07-18
# 小規模なトレーニングと大規模プレイ - alphazeroとgnnによるボードゲームをスケールアップ

Train on Small, Play the Large: Scaling Up Board Games with AlphaZero and GNN ( http://arxiv.org/abs/2107.08387v1 )

ライセンス: Link先を確認
Shai Ben-Assayag, Ran El-Yaniv(参考訳) ボードゲームをするのは、人間とAI研究者の両方にとって大きな課題だと考えられている。 複雑なボードゲームは学ぶのは非常に難しいため、人間は通常、小さなボードでプレーすることから始まり、より大きなボード戦略を徐々に習得する。 現在ボードゲームをしているほとんどのニューラルネットワークフレームワークは、このような漸進的な学習も、自動スケールアップ機能を持たない。 この研究では、ボードをグラフとして見て、AlphaZeroフレームワーク内のグラフニューラルネットワークアーキテクチャと、その他の革新的な改善点を組み合わせる。 scalablealphazeroは小さなボード上でインクリメンタルにプレイすることを学び、大きなボードでプレイすることを進めることができます。 私たちのモデルは、ドメイン知識を使わずに、複数のボードサイズで異なる挑戦的なボードゲームをプレイするように、迅速にトレーニングすることができます。 scalablealphazeroの有効性を実証し、例えば、小さなothelloボード上でわずか3日間トレーニングすることで、大きなボード上でalphazeroモデルを破ることができることを示した。

Playing board games is considered a major challenge for both humans and AI researchers. Because some complicated board games are quite hard to learn, humans usually begin with playing on smaller boards and incrementally advance to master larger board strategies. Most neural network frameworks that are currently tasked with playing board games neither perform such incremental learning nor possess capabilities to automatically scale up. In this work, we look at the board as a graph and combine a graph neural network architecture inside the AlphaZero framework, along with some other innovative improvements. Our ScalableAlphaZero is capable of learning to play incrementally on small boards, and advancing to play on large ones. Our model can be trained quickly to play different challenging board games on multiple board sizes, without using any domain knowledge. We demonstrate the effectiveness of ScalableAlphaZero and show, for example, that by training it for only three days on small Othello boards, it can defeat the AlphaZero model on a large board, which was trained to play the large board for $30$ days.
翻訳日:2021-07-20 15:17:31 公開日:2021-07-18
# minecraftにおける教師なしスキル発見とスキル学習

Unsupervised Skill-Discovery and Skill-Learning in Minecraft ( http://arxiv.org/abs/2107.08398v1 )

ライセンス: Link先を確認
Juan Jos\'e Nieto, Roger Creus and Xavier Giro-i-Nieto(参考訳) プレトレーニング強化学習エージェントは,タスク非依存の方法で,有望な結果を示した。 しかし、以前の作品は、ピクセル空間のような高次元状態空間における有意義なスキルの習得や発見に苦慮している。 我々は,教師なしスキル発見と自己教師なし状態表現学習を用いてこの問題にアプローチする。 本研究では,変動的およびコントラスト的手法を用いて,コンパクトな潜在表現を学習する。 情報理論の目的を最大化することにより,RLエージェントが基本的なナビゲーションスキルを習得できることを実証する。 複雑度が異なるMinecraft 3D ピクセルマップで本手法を評価する。 以上の結果から,画素から学習した表現や条件付きポリシーはおもちゃの例では十分だが,現実的で複雑な地図には拡張できないことがわかった。 これらの限界を克服するために,エージェントの相対位置や生のピクセルといった別の入力観測を探索する。

Pre-training Reinforcement Learning agents in a task-agnostic manner has shown promising results. However, previous works still struggle in learning and discovering meaningful skills in high-dimensional state-spaces, such as pixel-spaces. We approach the problem by leveraging unsupervised skill discovery and self-supervised learning of state representations. In our work, we learn a compact latent representation by making use of variational and contrastive techniques. We demonstrate that both enable RL agents to learn a set of basic navigation skills by maximizing an information theoretic objective. We assess our method in Minecraft 3D pixel maps with different complexities. Our results show that representations and conditioned policies learned from pixels are enough for toy examples, but do not scale to realistic and complex maps. To overcome these limitations, we explore alternative input observations such as the relative position of the agent along with the raw pixels.
翻訳日:2021-07-20 15:17:12 公開日:2021-07-18
# 高価なモデルのための圧縮粒子法と天文学・リモートセンシングへの応用

Compressed particle methods for expensive models with application in Astronomy and Remote Sensing ( http://arxiv.org/abs/2107.08465v1 )

ライセンス: Link先を確認
Luca Martino, V\'ictor Elvira, Javier L\'opez-Santiago, Gustau Camps-Valls(参考訳) 多くの推論問題では、複雑でコストのかかるモデルの評価がしばしば必要となる。 この文脈において、ベイズ法はパラメータの逆転、モデル選択、不確かさの定量化を得るために、過去数年間にいくつかの分野で非常に人気がある。 ベイズ推論は(しばしばコストのかかる)後続分布を含む複雑な積分の近似を必要とする。 一般に、この近似はモンテカルロ法(mc法)によって得られる。 対応する手法の計算コストを削減するために、サロゲートモデル(エミュレータとも呼ばれる)がしばしば用いられる。 もう1つのアプローチは、いわゆる近似ベイズ計算(ABC)方式である。 ABCは高価なモデルの評価を必要とせず、そのモデルに従って人工データをシミュレートすることができる。 さらに、ABCでは、実データと人工データの間の適切な距離の選択も必要である。 そこで本研究では,高コストモデルを評価するための新しい手法を提案する。 これらのノードの選択は、いわゆる圧縮モンテカルロ(CMC)方式に基づいている。 提案手法は,いくつかの数値実験において,提案手法の性能に関する実証的な証拠を与える。 2つは天文学と衛星リモートセンシングにおける実世界の応用である。

In many inference problems, the evaluation of complex and costly models is often required. In this context, Bayesian methods have become very popular in several fields over the last years, in order to obtain parameter inversion, model selection or uncertainty quantification. Bayesian inference requires the approximation of complicated integrals involving (often costly) posterior distributions. Generally, this approximation is obtained by means of Monte Carlo (MC) methods. In order to reduce the computational cost of the corresponding technique, surrogate models (also called emulators) are often employed. Another alternative approach is the so-called Approximate Bayesian Computation (ABC) scheme. ABC does not require the evaluation of the costly model but the ability to simulate artificial data according to that model. Moreover, in ABC, the choice of a suitable distance between real and artificial data is also required. In this work, we introduce a novel approach where the expensive model is evaluated only in some well-chosen samples. The selection of these nodes is based on the so-called compressed Monte Carlo (CMC) scheme. We provide theoretical results supporting the novel algorithms and give empirical evidence of the performance of the proposed method in several numerical experiments. Two of them are real-world applications in astronomy and satellite remote sensing.
翻訳日:2021-07-20 15:13:04 公開日:2021-07-18
# エッジCNNアプリケーションのための高性能適応量子化手法

A High-Performance Adaptive Quantization Approach for Edge CNN Applications ( http://arxiv.org/abs/2107.08382v1 )

ライセンス: Link先を確認
Hsu-Hsun Chin, Ren-Song Tsay, Hsin-I Wu(参考訳) 最近の畳み込みニューラルネットワーク(CNN)開発は、様々なアプリケーションに対する最先端モデル精度を推し進めている。 しかしながら、精度の強化は、メモリ帯域幅とストレージ要件のかなりのコストと計算リソースの要求によって実現される。 これまで、量子化手法はエッジデバイスの展開コストを効果的に削減してきたが、現代のcnnの偏りのあるアクティベーションを処理する場合、かなりの情報損失を被っている。 そこで本稿では,タスク損失に基づくスケーリングとシフト係数を動的に調整することにより,バイアス付アクティベーションの問題を解決するための適応型高性能量子化手法を提案する。 提案手法は,イメージネットデータセットを用いた画像分類モデル(ResNet-18/34/50,Mob ileNet-V2,EfficientN et-B0),COCOデータセットを用いたオブジェクト検出モデル(YOLO-V4),TBデータセットを用いた言語モデルで広く評価されている。 その結果、我々の4ビット整数量子化モデル(INT4)は最先端の4ビットモデルよりも精度が良く、場合によっては黄金の完全精度モデルを超えていることがわかった。 最終的な設計は、多くの実用用途のために非常にリソースに制約されたエッジデバイスにうまく展開されている。

Recent convolutional neural network (CNN) development continues to advance the state-of-the-art model accuracy for various applications. However, the enhanced accuracy comes at the cost of substantial memory bandwidth and storage requirements and demanding computational resources. Although in the past the quantization methods have effectively reduced the deployment cost for edge devices, it suffers from significant information loss when processing the biased activations of contemporary CNNs. In this paper, we hence introduce an adaptive high-performance quantization method to resolve the issue of biased activation by dynamically adjusting the scaling and shifting factors based on the task loss. Our proposed method has been extensively evaluated on image classification models (ResNet-18/34/50, MobileNet-V2, EfficientNet-B0) with ImageNet dataset, object detection model (YOLO-V4) with COCO dataset, and language models with PTB dataset. The results show that our 4-bit integer (INT4) quantization models achieve better accuracy than the state-of-the-art 4-bit models, and in some cases, even surpass the golden full-precision models. The final designs have been successfully deployed onto extremely resource-constrained edge devices for many practical applications.
翻訳日:2021-07-20 15:12:50 公開日:2021-07-18
# LSTMを用いたビデオ検出のためのステップサンプリング法

A stepped sampling method for video detection using LSTM ( http://arxiv.org/abs/2107.08471v1 )

ライセンス: Link先を確認
Dengshan Li, Rujing Wang, Chengjun Xie(参考訳) 人間をシミュレートする人工ニューラルネットワークは大きな成功を収める。 人間の記憶のシミュレーションの観点から「繰り返し入力」に基づく段階的なサンプリング手法を提案する。 我々はLSTMモデルにデータを段階的にバッチで繰り返し入力した。 ステップサンプリング器は、LSTM内の時間情報を融合する能力を強化するために使用される。 PyTorchのLSTMビルトインでステップサンプルをテストした。 逐次サンプリング器,バッチサンプリング器などの従来のPyTorchサンプル器と比較して,提案した段差サンプル器のトレーニング損失はモデルのトレーニングにおいてより早く収束し,収束後のトレーニング損失はより安定である。 一方、高いテスト精度を維持することができる。 ステップサンプリングのアルゴリズムを定量化した。

Artificial neural networks that simulate human achieves great successes. From the perspective of simulating human memory method, we propose a stepped sampler based on the "repeated input". We repeatedly inputted data to the LSTM model stepwise in a batch. The stepped sampler is used to strengthen the ability of fusing the temporal information in LSTM. We tested the stepped sampler on the LSTM built-in in PyTorch. Compared with the traditional sampler of PyTorch, such as sequential sampler, batch sampler, the training loss of the proposed stepped sampler converges faster in the training of the model, and the training loss after convergence is more stable. Meanwhile, it can maintain a higher test accuracy. We quantified the algorithm of the stepped sampler.
翻訳日:2021-07-20 15:12:26 公開日:2021-07-18
# DeHumor: Humorを分解するビジュアルアナリティクス

DeHumor: Visual Analytics for Decomposing Humor ( http://arxiv.org/abs/2107.08356v1 )

ライセンス: Link先を確認
Xingbo Wang, Yao Ming, Tongshuang Wu, Haipeng Zeng, Yong Wang, Huamin Qu(参考訳) 重要なコミュニケーションスキルであるにもかかわらず、ユーモアの把握は難しい -- ユーモアをうまく活用するには、エンゲージメントなコンテンツ構築と適切な発声(例えば、一時停止)の混合が必要である。 計算ユーモアに関する以前の研究は、パンチラインのすぐ隣にあるテキストとオーディオの特徴を強調したが、長期的なコンテキスト設定は見落としている。 さらに、理論は通常、個々の具体的なユーモアスニペットを理解するには抽象的すぎる。 このギャップを埋めるために,公言におけるユーモラスな行動を分析する視覚分析システムであるDeHumorを開発した。 具体例のビルディングブロックを直感的に明らかにするために、dehumorは各ユーモラスなビデオをマルチモーダルな特徴に分解し、そのインラインアノテーションをビデオスクリプトに提供する。 具体的には,コンテントの反復を,計算ユーモア理論に導入された機能の補足として導入し,それらをコンテキストリンクグラフで可視化する。 ユーザが学習すべき機能を持つパンチラインを見つけるのを助けるために、コンテンツ(キーワード付き)とユーモアの特徴統計を拡張時間行列に要約する。 スタンドアップコメディ番組やTEDトークのケーススタディでは、DeHumorがユーモアのユーモアのユーモアの様々な構成要素を強調できることを示す。 さらに、コミュニケーションコーチやユーモア研究者との専門家インタビューは、音声コンテンツと発声のマルチモーダルなユーモア分析におけるDeHumorの有効性を示した。

Despite being a critical communication skill, grasping humor is challenging -- a successful use of humor requires a mixture of both engaging content build-up and an appropriate vocal delivery (e.g., pause). Prior studies on computational humor emphasize the textual and audio features immediately next to the punchline, yet overlooking longer-term context setup. Moreover, the theories are usually too abstract for understanding each concrete humor snippet. To fill in the gap, we develop DeHumor, a visual analytical system for analyzing humorous behaviors in public speaking. To intuitively reveal the building blocks of each concrete example, DeHumor decomposes each humorous video into multimodal features and provides inline annotations of them on the video script. In particular, to better capture the build-ups, we introduce content repetition as a complement to features introduced in theories of computational humor and visualize them in a context linking graph. To help users locate the punchlines that have the desired features to learn, we summarize the content (with keywords) and humor feature statistics on an augmented time matrix. With case studies on stand-up comedy shows and TED talks, we show that DeHumor is able to highlight various building blocks of humor examples. In addition, expert interviews with communication coaches and humor researchers demonstrate the effectiveness of DeHumor for multimodal humor analysis of speech content and vocal delivery.
翻訳日:2021-07-20 15:11:08 公開日:2021-07-18
# 欧州中央銀行の統計生産システムにおける説明可能なaiのデシデラタ

Desiderata for Explainable AI in statistical production systems of the European Central Bank ( http://arxiv.org/abs/2107.08045v1 )

ライセンス: Link先を確認
Carlos Mougan Navarro, Georgios Kanellos, Thomas Gottron(参考訳) 説明可能なAIは、アルゴリズムによる意思決定において公正性を確立し、バイアスに対処するための基本的なステップである。 このトピックに関する多くの研究にもかかわらず、ソリューションの利点は概念的あるいは理論的観点から評価され、現実世界のユースケースの有用性は依然として不明である。 本研究では,欧州中央銀行の統計生産システムで経験される一般的な説明可能性の必要性を反映した,説明可能なAIのための明確なユーザ中心のデシラタについて述べる。 我々は,desiderata とarchetypical user role をリンクし,ユーザニーズに対応するためのテクニックや手法の例を示す。 この目的のために、中央銀行における統計データ生産の領域から、中央証券データベースにおける外れ値の検出と、監督銀行データシステムにおけるデータ品質チェックのデータ駆動識別という2つの具体的なユースケースを提供する。

Explainable AI constitutes a fundamental step towards establishing fairness and addressing bias in algorithmic decision-making. Despite the large body of work on the topic, the benefit of solutions is mostly evaluated from a conceptual or theoretical point of view and the usefulness for real-world use cases remains uncertain. In this work, we aim to state clear user-centric desiderata for explainable AI reflecting common explainability needs experienced in statistical production systems of the European Central Bank. We link the desiderata to archetypical user roles and give examples of techniques and methods which can be used to address the user's needs. To this end, we provide two concrete use cases from the domain of statistical data production in central banks: the detection of outliers in the Centralised Securities Database and the data-driven identification of data quality checks for the Supervisory Banking data system.
翻訳日:2021-07-20 15:09:42 公開日:2021-07-18
# グループフェアネスに対するニューラルネットワークの確率的検証

Probabilistic Verification of Neural Networks Against Group Fairness ( http://arxiv.org/abs/2107.08362v1 )

ライセンス: Link先を確認
Bing Sun, Jun Sun, Ting Dai, Lijun Zhang(参考訳) フェアネスは、重要な社会的意味を持つアプリケーションで使用されるニューラルネットワークにとって重要である。 近年、ニューラルネットワークの公正性を改善するための複数の試みがあり、公正性テスト(例えば、個々の識別インスタンスの生成)と公正性トレーニング(例えば、強化トレーニングによる公正性の向上)に焦点を当てている。 本研究では,グループフェアネスのような独立性に基づく公平性に着目し,公平性に対するニューラルネットワークの形式的検証手法を提案する。 提案手法は,音声解析を容易にするために保証される,ユーザが提供するニューラルネットワーク(フィードフォワードニューラルネットワークやリカレントニューラルネットワーク)からマルコフ連鎖を学習するためのアプローチに基づいている。 学習したMarkov Chainは、ニューラルネットワークが公正かどうかの検証(おそらく近似正当性を保証する)を可能にするだけでなく、公正性に違反する理由を理解するための施設感度分析も可能にする。 分析結果から,神経重みは公平性を改善するために最適化できることを実証する。 ベンチマークデータセットでトレーニングされた複数のモデルを用いて評価を行い,実験結果から,本手法は効率的かつ効率的であることが判明した。

Fairness is crucial for neural networks which are used in applications with important societal implication. Recently, there have been multiple attempts on improving fairness of neural networks, with a focus on fairness testing (e.g., generating individual discriminatory instances) and fairness training (e.g., enhancing fairness through augmented training). In this work, we propose an approach to formally verify neural networks against fairness, with a focus on independence-based fairness such as group fairness. Our method is built upon an approach for learning Markov Chains from a user-provided neural network (i.e., a feed-forward neural network or a recurrent neural network) which is guaranteed to facilitate sound analysis. The learned Markov Chain not only allows us to verify (with Probably Approximate Correctness guarantee) whether the neural network is fair or not, but also facilities sensitivity analysis which helps to understand why fairness is violated. We demonstrate that with our analysis results, the neural weights can be optimized to improve fairness. Our approach has been evaluated with multiple models trained on benchmark datasets and the experiment results show that our approach is effective and efficient.
翻訳日:2021-07-20 15:08:37 公開日:2021-07-18
# 因果推論に関する位相的視点

A Topological Perspective on Causal Inference ( http://arxiv.org/abs/2107.08558v1 )

ライセンス: Link先を確認
Duligur Ibeling, Thomas Icard(参考訳) 本稿では、構造因果モデル(SCM)の一般空間上で定義された一連のトポロジを導入することにより、因果推論に関するトポロジ的学習論的視点を示す。 フレームワークの例示として、我々は位相的因果階層定理を証明し、仮定なし因果推論は単純なscmのセットでのみ可能であることを示した。 弱トポロジーにおける開集合と統計的に検証可能な仮説との既知の対応により、有効な因果推論をライセンスするのに十分な帰納的仮定は、原理的に統計的に検証不可能であることを示す。 統計的推論のための無自由ルンチ定理と同様に, 因果推論に対する実質的な仮定の必然性を明らかにする。 我々のトポロジカルアプローチのさらなる利点は、無限個の変数を持つSCMを容易に対応できることである。 最後に、このフレームワークは、代替因果的仮定を探求し、評価するポジティブなプロジェクトに役立つかもしれないと提案する。

This paper presents a topological learning-theoretic perspective on causal inference by introducing a series of topologies defined on general spaces of structural causal models (SCMs). As an illustration of the framework we prove a topological causal hierarchy theorem, showing that substantive assumption-free causal inference is possible only in a meager set of SCMs. Thanks to a known correspondence between open sets in the weak topology and statistically verifiable hypotheses, our results show that inductive assumptions sufficient to license valid causal inferences are statistically unverifiable in principle. Similar to no-free-lunch theorems for statistical inference, the present results clarify the inevitability of substantial assumptions for causal inference. An additional benefit of our topological approach is that it easily accommodates SCMs with infinitely many variables. We finally suggest that the framework may be helpful for the positive project of exploring and assessing alternative causal-inductive assumptions.
翻訳日:2021-07-20 15:08:19 公開日:2021-07-18
# 精度、プライバシ、信頼性に関する差分プライベートベイズニューラルネットワーク

Differentially Private Bayesian Neural Networks on Accuracy, Privacy and Reliability ( http://arxiv.org/abs/2107.08461v1 )

ライセンス: Link先を確認
Qiyiwen Zhang, Zhiqi Bu, Kan Chen, Qi Long(参考訳) ベイジアンニューラルネットワーク(BNN)は、予測における不確実な定量化を可能にし、差分プライバシ(DP)フレームワークで検討されていない通常のニューラルネットワークよりも有利である。 ベイジアンディープラーニングとプライバシ会計の最近の発展を活用して、BNNのプライバシーと精度のトレードオフをより正確に分析することで、この重要なギャップを埋める。 本稿では,同一ネットワークアーキテクチャの重み不確かさを異なる方法で特徴付ける3つのDP-BNN,すなわち,DP-SGLD(雑音勾配法),DP-BBP(利害パラメータの変更),DP-MC Dropout(モデルアーキテクチャ)を提案する。 興味深いことに,dp-sgd と dp-sgld の新たな等価性を示し,非ベイズ型 dp トレーニングが自然に不確実性定量化を可能にすることを示唆する。 しかし、学習速度やバッチサイズなどのハイパーパラメータは、DP-SGDとDP-SGLDでは異なる、あるいは反対の効果を持つ。 プライバシ保証,予測精度,不確実性定量化,キャリブレーション,計算速度,ネットワークアーキテクチャへの一般化性の観点から,dp-bnnの比較を行った。 その結果,プライバシと信頼性の新たなトレードオフが観察された。 非DPおよび非ベイズ的アプローチと比較して、DP-SGLDは強力なプライバシー保証の下で極めて正確であり、現実のタスクにおけるDP-BNNの大きな可能性を示している。

Bayesian neural network (BNN) allows for uncertainty quantification in prediction, offering an advantage over regular neural networks that has not been explored in the differential privacy (DP) framework. We fill this important gap by leveraging recent development in Bayesian deep learning and privacy accounting to offer a more precise analysis of the trade-off between privacy and accuracy in BNN. We propose three DP-BNNs that characterize the weight uncertainty for the same network architecture in distinct ways, namely DP-SGLD (via the noisy gradient method), DP-BBP (via changing the parameters of interest) and DP-MC Dropout (via the model architecture). Interestingly, we show a new equivalence between DP-SGD and DP-SGLD, implying that some non-Bayesian DP training naturally allows for uncertainty quantification. However, the hyperparameters such as learning rate and batch size, can have different or even opposite effects in DP-SGD and DP-SGLD. Extensive experiments are conducted to compare DP-BNNs, in terms of privacy guarantee, prediction accuracy, uncertainty quantification, calibration, computation speed, and generalizability to network architecture. As a result, we observe a new tradeoff between the privacy and the reliability. When compared to non-DP and non-Bayesian approaches, DP-SGLD is remarkably accurate under strong privacy guarantee, demonstrating the great potential of DP-BNN in real-world tasks.
翻訳日:2021-07-20 15:07:21 公開日:2021-07-18
# 関連知識と目標に基づく確率的検索型チャットボット

Proactive Retrieval-based Chatbots based on Relevant Knowledge and Goals ( http://arxiv.org/abs/2107.08329v1 )

ライセンス: Link先を確認
Yutao Zhu, Jian-Yun Nie, Kun Zhou, Pan Du, Hao Jiang, Zhicheng Dou(参考訳) プロアクティブ対話システムは、会話を積極的にリードする能力を有する。 ユーザにのみ反応する一般的なチャットボットとは異なり、プロアクティブな対話システムは、例えば、ユーザーにいくつかのアイテムを推奨するために、いくつかの目標を達成するために使用できる。 背景知識は対話において滑らかで自然な遷移を可能にするために不可欠である。 本稿では,検索型知識接地プロアクティブ対話のためのマルチタスク学習フレームワークを提案する。 使用すべき知識を決定するために,知識予測を補完的なタスクとし,学習を監督するために明示的な信号を使用する。 最終的な応答は、予測された知識、達成の目標、コンテキストに応じて選択される。 実験の結果,知識予測と目標選択の明示的なモデル化は最終応答選択を大幅に改善できることがわかった。 私たちのコードはhttps://github.com/D aoD/KPN/で利用可能です。

A proactive dialogue system has the ability to proactively lead the conversation. Different from the general chatbots which only react to the user, proactive dialogue systems can be used to achieve some goals, e.g., to recommend some items to the user. Background knowledge is essential to enable smooth and natural transitions in dialogue. In this paper, we propose a new multi-task learning framework for retrieval-based knowledge-grounded proactive dialogue. To determine the relevant knowledge to be used, we frame knowledge prediction as a complementary task and use explicit signals to supervise its learning. The final response is selected according to the predicted knowledge, the goal to achieve, and the context. Experimental results show that explicit modeling of knowledge prediction and goal selection can greatly improve the final response selection. Our code is available at https://github.com/D aoD/KPN/.
翻訳日:2021-07-20 15:04:10 公開日:2021-07-18
# 時間応答集合を持つELオントロジーによる行動の推論

Reasoning about actions with EL ontologies with temporal answer sets ( http://arxiv.org/abs/2107.08403v1 )

ライセンス: Link先を確認
Laura Giordano, Alberto Martelli, and Daniele Theseider Dupr\'e(参考訳) 本稿では,軽量な記述論理 EL^\bot で表される存在論的知識を含むドメイン記述による行動の推論のためのアンサーセットプログラミングに基づくアプローチを提案する。 我々は,非決定論的行動と因果規則が分岐に対処し,その拡張が時間的応答集合によって定義される時間的行動理論を考える。 EL^\botナレッジベース(正規形)で拡張されたアクション理論の多項式符号化を時間的アクション理論にすることで、オントロジーに関してアクション一貫性を保証できる条件を提供する。

We propose an approach based on Answer Set Programming for reasoning about actions with domain descriptions including ontological knowledge, expressed in the lightweight description logic EL^\bot. We consider a temporal action theory, which allows for non-deterministic actions and causal rules to deal with ramifications, and whose extensions are defined by temporal answer sets. We provide conditions under which action consistency can be guaranteed with respect to an ontology, by a polynomial encoding of an action theory extended with an EL^\bot knowledge base (in normal form) into a temporal action theory.
翻訳日:2021-07-20 15:02:38 公開日:2021-07-18
# AS-MLP: ビジョンのための軸シフト型MLPアーキテクチャ

AS-MLP: An Axial Shifted MLP Architecture for Vision ( http://arxiv.org/abs/2107.08391v1 )

ライセンス: Link先を確認
Dongze Lian, Zehao Yu, Xing Sun, Shenghua Gao(参考訳) 本稿では,Axial Shifted MLPアーキテクチャ(AS-MLP)を提案する。 MLP-Mixerとは違い,グローバルな空間的特徴が行列変換と1つのトークンミキシングによる情報フローに符号化されているため,局所的な特徴通信に注意が払われる。 特徴写像のチャネルを軸方向にシフトすることで、AS-MLPは異なる軸方向から情報の流れを得ることができ、局所的な依存関係を捉えることができる。 このような操作により、純粋なMLPアーキテクチャを使用して、CNN的なアーキテクチャと同じ局所受容場を実現することができる。 また、畳み込みカーネルの設計と同じように、AS-MLPなどのブロックの受容的フィールドサイズや拡張を設計することもできる。 提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。 このような単純で効果的なアーキテクチャは全てのMLPベースのアーキテクチャより優れており、少し低いFLOPでもトランスフォーマーベースのアーキテクチャ(Swin Transformerなど)と比較して競争性能が優れている。 さらに、AS-MLPは下流タスク(オブジェクト検出やセマンティックセグメンテーションなど)に適用される最初のMLPベースのアーキテクチャである。 実験結果も印象的だ。 提案したAS-MLPは,COCO検証セットで51.5 mAP,ADE20Kデータセットで49.5 MS mIoUを得る。 コードはhttps://github.com/s vip-lab/AS-MLP.comで入手できる。

An Axial Shifted MLP architecture (AS-MLP) is proposed in this paper. Different from MLP-Mixer, where the global spatial feature is encoded for the information flow through matrix transposition and one token-mixing MLP, we pay more attention to the local features communication. By axially shifting channels of the feature map, AS-MLP is able to obtain the information flow from different axial directions, which captures the local dependencies. Such an operation enables us to utilize a pure MLP architecture to achieve the same local receptive field as CNN-like architecture. We can also design the receptive field size and dilation of blocks of AS-MLP, etc, just like designing those of convolution kernels. With the proposed AS-MLP architecture, our model obtains 83.3% Top-1 accuracy with 88M parameters and 15.2 GFLOPs on the ImageNet-1K dataset. Such a simple yet effective architecture outperforms all MLP-based architectures and achieves competitive performance compared to the transformer-based architectures (e.g., Swin Transformer) even with slightly lower FLOPs. In addition, AS-MLP is also the first MLP-based architecture to be applied to the downstream tasks (e.g., object detection and semantic segmentation). The experimental results are also impressive. Our proposed AS-MLP obtains 51.5 mAP on the COCO validation set and 49.5 MS mIoU on the ADE20K dataset, which is competitive compared to the transformer-based architectures. Code is available at https://github.com/s vip-lab/AS-MLP.
翻訳日:2021-07-20 15:00:27 公開日:2021-07-18
# 3次元クラウドインスタンスセグメンテーションのための動的畳み込み

Dynamic Convolution for 3D Point Cloud Instance Segmentation ( http://arxiv.org/abs/2107.08392v1 )

ライセンス: Link先を確認
Tong He, Chunhua Shen, Anton van den Hengel(参考訳) 動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。 これにより、推論において、さまざまな機能やオブジェクトスケールに適応することができる。 例えば、ハイパーパラメータチューニングやヒューリスティックな後処理パイプラインに依存して、単一のシーン内であっても、オブジェクトサイズの避けられない変動を補償する、という方法だ。 ネットワークの表現能力は、同じ意味圏を持つ均質な点を収集し、幾何中心体に対する近接投票を行うことで大幅に向上する。 インスタンスはいくつかの単純な畳み込みレイヤを通じてデコードされ、そこでパラメータは入力に条件付きで生成される。 提案手法は提案なしであり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。 ボトルネック層上に構築された軽量トランスフォーマーにより、計算オーバーヘッドが制限された長い範囲の依存関係をキャプチャできる。 その結果、ScanNetV2、S3DIS、PartNetといったさまざまなデータセット上で、シンプルで効率的で堅牢なアプローチが実現した。 ボクセルおよび点ベースアーキテクチャにおける一貫した改良により,提案手法の有効性が示唆された。 https://git.io/dyco3 d

We propose an approach to instance segmentation from 3D point clouds based on dynamic convolution. This enables it to adapt, at inference, to varying feature and object scales. Doing so avoids some pitfalls of bottom up approaches, including a dependence on hyper-parameter tuning and heuristic post-processing pipelines to compensate for the inevitable variability in object sizes, even within a single scene. The representation capability of the network is greatly improved by gathering homogeneous points that have identical semantic categories and close votes for the geometric centroids. Instances are then decoded via several simple convolution layers, where the parameters are generated conditioned on the input. The proposed approach is proposal-free, and instead exploits a convolution process that adapts to the spatial and semantic characteristics of each instance. A light-weight transformer, built on the bottleneck layer, allows the model to capture long-range dependencies, with limited computational overhead. The result is a simple, efficient, and robust approach that yields strong performance on various datasets: ScanNetV2, S3DIS, and PartNet. The consistent improvements on both voxel- and point-based architectures imply the effectiveness of the proposed method. Code is available at: https://git.io/DyCo3 D
翻訳日:2021-07-20 14:59:58 公開日:2021-07-18
# ポイントワイズ・スーパービジョンを用いた医用シークエンスセグメンテーションのための正・負のアプローチ

A Positive/Unlabeled Approach for the Segmentation of Medical Sequences using Point-Wise Supervision ( http://arxiv.org/abs/2107.08394v1 )

ライセンス: Link先を確認
Laurent Lejeune, Raphael Sznitman(参考訳) 医用画像データを素早くアノテートする能力は、セグメンテーションのためのディープラーニングフレームワークの訓練において重要な役割を果たす。 画像のボリュームやビデオのシーケンスは、それらに注釈を付けると、さらに重荷になる。 そこで本研究では, 医用画像のボリュームや映像をポイントワイズアノテーションのみを用いて効率的に分割する手法を提案する。 これにより、アノテーションを非常に迅速に収集でき、多くのセグメンテーションタスクに適用できる。 提案手法は,スパースポイントワイドアノテーションを用いて,適切なポジティブ/アンラベル対象関数を用いてディープラーニングモデルを訓練する。 本手法では,データ中の正のサンプルの割合をa-prioriと仮定することが多いが,ベイズ推定フレームワークと新たな停止基準を組み合わせることにより,事前推定を効率的に行うための新しい自己教師あり手法を提案する。 本手法は,適切なクラスプリエントを反復的に推定し,様々なオブジェクトタイプやイメージングモダリティに対して高いセグメンテーション品質を与える。 さらに,時空間追跡フレームワークを活用することで,全データ量を活用することで予測を定式化する。 我々は,本手法が同じ問題に適した最先端手法より優れていることを示す。

The ability to quickly annotate medical imaging data plays a critical role in training deep learning frameworks for segmentation. Doing so for image volumes or video sequences is even more pressing as annotating these is particularly burdensome. To alleviate this problem, this work proposes a new method to efficiently segment medical imaging volumes or videos using point-wise annotations only. This allows annotations to be collected extremely quickly and remains applicable to numerous segmentation tasks. Our approach trains a deep learning model using an appropriate Positive/Unlabeled objective function using sparse point-wise annotations. While most methods of this kind assume that the proportion of positive samples in the data is known a-priori, we introduce a novel self-supervised method to estimate this prior efficiently by combining a Bayesian estimation framework and new stopping criteria. Our method iteratively estimates appropriate class priors and yields high segmentation quality for a variety of object types and imaging modalities. In addition, by leveraging a spatio-temporal tracking framework, we regularize our predictions by leveraging the complete data volume. We show experimentally that our approach outperforms state-of-the-art methods tailored to the same problem.
翻訳日:2021-07-20 14:59:38 公開日:2021-07-18
# 機能マイニング:畳み込みニューラルネットワークのための新しいトレーニング戦略

Feature Mining: A Novel Training Strategy for Convolutional Neural Network ( http://arxiv.org/abs/2107.08421v1 )

ライセンス: Link先を確認
Tianshu Xie, Xuan Cheng, Xiaomin Wang, Minghui Liu, Jiali Deng, Ming Liu(参考訳) 本稿では,局所的特徴に対するネットワークの学習を強化することを目的とした,畳み込みニューラルネットワーク(CNN)の新たなトレーニング戦略であるFeature Miningを提案する。 実験により、特徴の異なる部分に含まれる意味は異なるが、ネットワークはフィードフォワードの伝搬中に必然的にローカル情報を失うことが判明した。 局所的特徴の学習を強化するため,特徴マイニングでは,完全特徴を2つの補完的部分に分け,これらの分割特徴を再利用して,より局所的情報をネットワークに提供し,特徴分割と特徴再利用と呼ぶ。 特徴マイニングはパラメータフリーな手法であり、プラグアンドプレイの性質を持ち、任意のcnnモデルに適用することができる。 広範な実験により,本手法の適用性,汎用性,互換性が実証された。

In this paper, we propose a novel training strategy for convolutional neural network(CNN) named Feature Mining, that aims to strengthen the network's learning of the local feature. Through experiments, we find that semantic contained in different parts of the feature is different, while the network will inevitably lose the local information during feedforward propagation. In order to enhance the learning of local feature, Feature Mining divides the complete feature into two complementary parts and reuse these divided feature to make the network learn more local information, we call the two steps as feature segmentation and feature reusing. Feature Mining is a parameter-free method and has plug-and-play nature, and can be applied to any CNN models. Extensive experiments demonstrate the wide applicability, versatility, and compatibility of our method.
翻訳日:2021-07-20 14:59:20 公開日:2021-07-18
# YOLOX:2021年にYOLOシリーズを発売

YOLOX: Exceeding YOLO Series in 2021 ( http://arxiv.org/abs/2107.08430v1 )

ライセンス: Link先を確認
Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun(参考訳) 本報告では、YOLOシリーズの改良を経験し、新しい高性能検出器YOLOXを作成した。 We switch the YOLO detector to an anchor-free manner and conduct other advanced detection techniques, i.e., a decoupled head and the leading label assignment strategy SimOTA to achieve state-of-the-art results across a large scale range of models: For YOLO-Nano with only 0.91M parameters and 1.08G FLOPs, we get 25.3% AP on COCO, surpassing NanoDet by 1.8% AP; for YOLOv3, one of the most widely used detectors in industry, we boost it to 47.3% AP on COCO, outperforming the current best practice by 3.0% AP; for YOLOX-L with roughly the same amount of parameters as YOLOv4-CSP, YOLOv5-L, we achieve 50.0% AP on COCO at a speed of 68.9 FPS on Tesla V100, exceeding YOLOv5-L by 1.8% AP. さらに,単一YOLOX-Lモデルを用いて,第1回ストリーミング知覚チャレンジ(CVPR 2021における自律運転ワークショップ)を受賞した。 このレポートは、実践的な場面で開発者や研究者に有用なエクスペリエンスを提供し、ONNX、TensorRT、NCNN、Openvinoをサポートするデプロイバージョンも提供することを期待しています。 ソースコードはhttps://github.com/M egvii-BaseDetection/ YOLOXにある。

In this report, we present some experienced improvements to YOLO series, forming a new high-performance detector -- YOLOX. We switch the YOLO detector to an anchor-free manner and conduct other advanced detection techniques, i.e., a decoupled head and the leading label assignment strategy SimOTA to achieve state-of-the-art results across a large scale range of models: For YOLO-Nano with only 0.91M parameters and 1.08G FLOPs, we get 25.3% AP on COCO, surpassing NanoDet by 1.8% AP; for YOLOv3, one of the most widely used detectors in industry, we boost it to 47.3% AP on COCO, outperforming the current best practice by 3.0% AP; for YOLOX-L with roughly the same amount of parameters as YOLOv4-CSP, YOLOv5-L, we achieve 50.0% AP on COCO at a speed of 68.9 FPS on Tesla V100, exceeding YOLOv5-L by 1.8% AP. Further, we won the 1st Place on Streaming Perception Challenge (Workshop on Autonomous Driving at CVPR 2021) using a single YOLOX-L model. We hope this report can provide useful experience for developers and researchers in practical scenes, and we also provide deploy versions with ONNX, TensorRT, NCNN, and Openvino supported. Source code is at https://github.com/M egvii-BaseDetection/ YOLOX.
翻訳日:2021-07-20 14:59:05 公開日:2021-07-18
# 心エコー分離のための完全自動機械学習パイプライン

Fully Automated Machine Learning Pipeline for Echocardiogram Segmentation ( http://arxiv.org/abs/2107.08440v1 )

ライセンス: Link先を確認
Hang Duong Thi Thuy, Tuan Nguyen Minh, Phi Nguyen Van, Long Tran Quoc(参考訳) 現在、心臓診断は左室機能評価に大きく依存している。 セグメンテーション深層学習モデルの助けを借りると、左室の評価はよりアクセスしやすく正確になる。 しかし、ディープラーニング技術は依然として2つの大きな障害に直面している。十分なトレーニングデータを取得することの困難さと、品質モデルの開発に費やす時間だ。 通常のデータ取得プロセスでは、ラベルのない画像の大きなプールからランダムにデータセットが選択され、それらの画像に注釈をつけるのに膨大な労力がかかる。 それに加えて、手作りのモデル開発は精力的でコストもかかる。 本稿では,ラベリング作業を容易にするために,アクティブな学習に依存するパイプラインを導入し,ニューラルネットワーク検索のアイデアを活用し,適切なディープラーニングモデルを自動的に設計する。 私たちはこの完全自動機械学習パイプラインをエコー心電図セグメンテーションと呼んでいる。 実験の結果,本手法はトレーニングデータセットの2/5の精度でiou精度が得られ,同じトレーニングデータセットが与えられた場合,手設計モデルと同等の精度が得られた。

Nowadays, cardiac diagnosis largely depends on left ventricular function assessment. With the help of the segmentation deep learning model, the assessment of the left ventricle becomes more accessible and accurate. However, deep learning technique still faces two main obstacles: the difficulty in acquiring sufficient training data and time-consuming in developing quality models. In the ordinary data acquisition process, the dataset was selected randomly from a large pool of unlabeled images for labeling, leading to massive labor time to annotate those images. Besides that, hand-designed model development is laborious and also costly. This paper introduces a pipeline that relies on Active Learning to ease the labeling work and utilizes Neural Architecture Search's idea to design the adequate deep learning model automatically. We called this Fully automated machine learning pipeline for echocardiogram segmentation. The experiment results show that our method obtained the same IOU accuracy with only two-fifths of the original training dataset, and the searched model got the same accuracy as the hand-designed model given the same training dataset.
翻訳日:2021-07-20 14:58:44 公開日:2021-07-18
# 人種差別的(非)ツイートのバイナリーを超えて:covid-19初期のtwitterにおける人種差別的、異性嫌悪的意見の4次元的検出と分析

Beyond a binary of (non)racist tweets: A four-dimensional categorical detection and analysis of racist and xenophobic opinions on Twitter in early Covid-19 ( http://arxiv.org/abs/2107.08347v1 )

ライセンス: Link先を確認
Xin Pei, Deval Mehta(参考訳) この研究は、人種差別論とキセノフォニックテキストの二項分類を超越し、社会科学理論から、人種差別とキセノフォビア検出のための4次元カテゴリー、すなわち、スティグマティゼーション、攻撃性、非難、排除へと導かれる。 ディープラーニング技術を利用することで、このカテゴリー検出は、twitter上の人種差別的および異性嫌悪的表現に反映される創発的トピックのニュアンスに対する洞察を可能にする。 さらに、国内流行から国際公衆衛生緊急事態、そして後に世界的なパンデミックまで、Covid-19の早期発達の段階におけるトピックの動的変化を捉えるために、段階的賢明な分析を適用した。 本研究の主な貢献は,まず方法論の進歩である。 この研究は、社会科学の観点から最先端の計算手法をブリッジすることで、デジタルプラットフォームにおける人種差別的・異端的な議論の根底にある微妙さに関する洞察を得るための、将来の研究に有意義なアプローチを提供する。 第2に、より正確な理解と世論や行動の予測を可能にすることにより、コビッド19の下での人種差別犯罪や社会的排除に対抗する効果的な介入政策の実施の道を開く。

Transcending the binary categorization of racist and xenophobic texts, this research takes cues from social science theories to develop a four dimensional category for racism and xenophobia detection, namely stigmatization, offensiveness, blame, and exclusion. With the aid of deep learning techniques, this categorical detection enables insights into the nuances of emergent topics reflected in racist and xenophobic expression on Twitter. Moreover, a stage wise analysis is applied to capture the dynamic changes of the topics across the stages of early development of Covid-19 from a domestic epidemic to an international public health emergency, and later to a global pandemic. The main contributions of this research include, first the methodological advancement. By bridging the state-of-the-art computational methods with social science perspective, this research provides a meaningful approach for future research to gain insight into the underlying subtlety of racist and xenophobic discussion on digital platforms. Second, by enabling a more accurate comprehension and even prediction of public opinions and actions, this research paves the way for the enactment of effective intervention policies to combat racist crimes and social exclusion under Covid-19.
翻訳日:2021-07-20 14:52:58 公開日:2021-07-18
# 1, 2, 3: 数値翻訳のためのNMTシステムの挙動試験

As Easy as 1, 2, 3: Behavioural Testing of NMT Systems for Numerical Translation ( http://arxiv.org/abs/2107.08357v1 )

ライセンス: Link先を確認
Jun Wang, Chang Xu, Francisco Guzman, Ahmed El-Kishky, Benjamin I. P. Rubinstein, Trevor Cohn(参考訳) 誤訳された数字は、金銭的損失や医療的誤報などの深刻な影響を引き起こす可能性がある。 本研究では,ニューラルマシン翻訳システムの動作テストによる数値テキストへの堅牢性に関する包括的評価を開発する。 システムの性能低下を露呈する効果的なテスト例を提示し,設計することが期待される数値翻訳の多種多様な機能について検討する。 主要な商用システムと最先端の研究モデルは、ハイソース言語やローソース言語など、多くのテスト例で失敗しています。 これまでのNTTシステムでは報告されていない新たなエラーを,我々の知る限りで確認した。 最後に,数値的誤訳を緩和するための戦略について考察する。

Mistranslated numbers have the potential to cause serious effects, such as financial loss or medical misinformation. In this work we develop comprehensive assessments of the robustness of neural machine translation systems to numerical text via behavioural testing. We explore a variety of numerical translation capabilities a system is expected to exhibit and design effective test examples to expose system underperformance. We find that numerical mistranslation is a general issue: major commercial systems and state-of-the-art research models fail on many of our test examples, for high- and low-resource languages. Our tests reveal novel errors that have not previously been reported in NMT systems, to the best of our knowledge. Lastly, we discuss strategies to mitigate numerical mistranslation.
翻訳日:2021-07-20 14:52:32 公開日:2021-07-18
# 散文と詩の区別のためのパターン認識手法

A pattern recognition approach for distinguishing between prose and poetry ( http://arxiv.org/abs/2107.08512v1 )

ライセンス: Link先を確認
Henrique F. de Arruda, Sandro M. Reia, Filipi N. Silva, Diego R. Amancio and Luciano da F. Costa(参考訳) 詩と散文は私たちが生きている現実を理解するのに役立つ芸術的な表現である。 これらのスタイルはそれぞれ、ライムやリズムといった独自の主観的な特性を持ち、人間の目や耳で容易に捉えられる。 人工知能の最近の進歩により、人間と機械の間のギャップは減少し、現在では、かつて人間だけによって行われたタスクをマスターするアルゴリズムが観察されている。 本稿では,音韻特性とリズム特性のみに基づいて詩と散文を区別する自動手法を提案する。 韻律と詩のリズムを比較することに加えて、韻律と電話を時間的シーケンスとして表現し、これらのシーケンスからリズムの特徴を抽出する手順を提案する。 抽出された特徴のセットを用いた検討されたテキストの分類は、ニューラルネットワークを用いて得られた最大精度0.78となった。 興味深いことに、複雑なネットワークに基づくアプローチを用いて、異なるテキスト間の類似性を可視化することにより、詩のパターンが散文よりはるかに多様であることが判明した。 その結果、より豊かで複雑なリズミカルな可能性のセットは、そのモダリティの中に見出される傾向がある。

Poetry and prose are written artistic expressions that help us to appreciate the reality we live. Each of these styles has its own set of subjective properties, such as rhyme and rhythm, which are easily caught by a human reader's eye and ear. With the recent advances in artificial intelligence, the gap between humans and machines may have decreased, and today we observe algorithms mastering tasks that were once exclusively performed by humans. In this paper, we propose an automated method to distinguish between poetry and prose based solely on aural and rhythmic properties. In other to compare prose and poetry rhythms, we represent the rhymes and phones as temporal sequences and thus we propose a procedure for extracting rhythmic features from these sequences. The classification of the considered texts using the set of features extracted resulted in a best accuracy of 0.78, obtained with a neural network. Interestingly, by using an approach based on complex networks to visualize the similarities between the different texts considered, we found that the patterns of poetry vary much more than prose. Consequently, a much richer and complex set of rhythmic possibilities tends to be found in that modality.
翻訳日:2021-07-20 14:52:20 公開日:2021-07-18
# GraphGen-Redux:ラベル付きグラフ生成のための高速で軽量なリカレントモデル

GraphGen-Redux: a Fast and Lightweight Recurrent Model for labeled Graph Generation ( http://arxiv.org/abs/2107.08396v1 )

ライセンス: Link先を確認
Marco Podda and Davide Bacciu(参考訳) ラベル付きグラフ生成の問題は、Deep Learningコミュニティで注目を集めている。 このタスクは、グラフ空間のスパースで離散的な性質のため、難しい。 文献ではいくつかのアプローチが提案されており、そのほとんどがグラフを構造とラベルをエンコードする配列に変換し、それらの配列の分布を自己回帰生成モデルを通じて学ぶ必要がある。 このようなアプローチのファミリの中で、私たちはGraphGenモデルに注目しています。 GraphGenの前処理フェーズは、グラフをDepth-First Search (DFS)コードと呼ばれる独自のエッジシーケンスに変換し、2つの同型グラフが同じDFSコードに割り当てられるようにしている。 DFSコードの各要素はグラフエッジに関連付けられており、具体的には2つのエンドポイント、それぞれのノードラベル、エッジラベルのそれぞれに1つのノード識別子を含むクインタプルである。 GraphGenはこのようなシーケンスを自動回帰的に生成することを学び、各コンポーネントの確率を独立してモデル化する。 有効ではあるが、モデルによってなされた独立性の仮定は、現実のグラフの複雑なラベル依存性を正確に捉えるにはゆるい。 新たなグラフ前処理手法を導入することで,ノードとエッジのラベル付け情報を共同で処理することができる。 GraphGen-Reduxと呼ばれる対応するモデルは、化学および社会グラフの幅広いデータセットにおけるGraphGenの生成性能を改善する。 さらに、バニラ型に比べて約78%のパラメータを使用し、平均で50%のエポックのトレーニングを必要とする。

The problem of labeled graph generation is gaining attention in the Deep Learning community. The task is challenging due to the sparse and discrete nature of graph spaces. Several approaches have been proposed in the literature, most of which require to transform the graphs into sequences that encode their structure and labels and to learn the distribution of such sequences through an auto-regressive generative model. Among this family of approaches, we focus on the GraphGen model. The preprocessing phase of GraphGen transforms graphs into unique edge sequences called Depth-First Search (DFS) codes, such that two isomorphic graphs are assigned the same DFS code. Each element of a DFS code is associated with a graph edge: specifically, it is a quintuple comprising one node identifier for each of the two endpoints, their node labels, and the edge label. GraphGen learns to generate such sequences auto-regressively and models the probability of each component of the quintuple independently. While effective, the independence assumption made by the model is too loose to capture the complex label dependencies of real-world graphs precisely. By introducing a novel graph preprocessing approach, we are able to process the labeling information of both nodes and edges jointly. The corresponding model, which we term GraphGen-Redux, improves upon the generative performances of GraphGen in a wide range of datasets of chemical and social graphs. In addition, it uses approximately 78% fewer parameters than the vanilla variant and requires 50% fewer epochs of training on average.
翻訳日:2021-07-20 14:51:09 公開日:2021-07-18
# 役割指向型ネットワーク埋め込みに関する調査

A Survey on Role-Oriented Network Embedding ( http://arxiv.org/abs/2107.08379v1 )

ライセンス: Link先を確認
Pengfei Jiao, Xuan Guo, Ting Pan, Wang Zhang, Yulong Pei(参考訳) 最近、Network Embedding (NE)は機械学習とデータマイニングにおいて最も魅力的な研究トピックの1つになっている。 NEアプローチは,リンク予測やノードクラスタリング,分類など,さまざまなグラフマイニングタスクにおいて,有望なパフォーマンスを実現している。 様々なNE手法がネットワークの近接に重点を置いている。 それぞれのノードに対するコミュニティ指向の埋め込みを学習し、ネットワーク内の2つのノードが互いに近い場合、対応する表現は類似する。 一方、他のタイプの構造的類似性、すなわち役割に基づく類似性があり、これは概して相補的であり、近接とは全く異なる。 役割に基づく構造的類似性を維持するために、役割指向NEの問題を提起する。 しかし、コミュニティ指向のne問題と比較すると、最近提案されている役割指向の組み込みアプローチはごくわずかである。 ネットワーク解析における役割の重要性や、役割指向NEが光を当てることができる多くのアプリケーションを考えると、既存の役割指向NEメソッドの包括的な概要を提供する必要がある。 本稿ではまず,コミュニティ指向とロール指向のネットワーク埋め込みの違いを明らかにする。 その後、役割指向NEを理解するための一般的なフレームワークと、既存のメソッドをよりよく分類するための2段階分類を提案する。 そこで,提案した分類に従って代表的手法を選定し,その動機,展開,相違点について論じて紹介する。 さらに、これらの手法を、ノード分類やクラスタリング(ロール発見)、トップク類似性探索、可視化など、様々な役割関連タスクにおいて、広く使われている合成および実世界のデータセットを用いて実験的に評価する。

Recently, Network Embedding (NE) has become one of the most attractive research topics in machine learning and data mining. NE approaches have achieved promising performance in various of graph mining tasks including link prediction and node clustering and classification. A wide variety of NE methods focus on the proximity of networks. They learn community-oriented embedding for each node, where the corresponding representations are similar if two nodes are closer to each other in the network. Meanwhile, there is another type of structural similarity, i.e., role-based similarity, which is usually complementary and completely different from the proximity. In order to preserve the role-based structural similarity, the problem of role-oriented NE is raised. However, compared to community-oriented NE problem, there are only a few role-oriented embedding approaches proposed recently. Although less explored, considering the importance of roles in analyzing networks and many applications that role-oriented NE can shed light on, it is necessary and timely to provide a comprehensive overview of existing role-oriented NE methods. In this review, we first clarify the differences between community-oriented and role-oriented network embedding. Afterwards, we propose a general framework for understanding role-oriented NE and a two-level categorization to better classify existing methods. Then, we select some representative methods according to the proposed categorization and briefly introduce them by discussing their motivation, development and differences. Moreover, we conduct comprehensive experiments to empirically evaluate these methods on a variety of role-related tasks including node classification and clustering (role discovery), top-k similarity search and visualization using some widely used synthetic and real-world datasets...
翻訳日:2021-07-20 14:48:22 公開日:2021-07-18
# ベイズ量子回帰における収縮と選択の分離

Decoupling Shrinkage and Selection for the Bayesian Quantile Regression ( http://arxiv.org/abs/2107.08498v1 )

ライセンス: Link先を確認
David Kohns and Tibor Szendrei(参考訳) 本稿では,ベイジアン量子回帰(BQR)に先行して,縮退と縮退を連続的に行うという考え方を拡張した。 手順は次の2つのステップである: 第1ステップでは、アート連続前駆の状態を通じて分位回帰を縮小し、第2ステップでは、適応lassoアルゴリズムの効率的な変種であるsignal adaptive variable selection (savs)アルゴリズムによって後段を分離する。 本稿では,高次元で有効な量的損失関数によってペナルティ化を自動選択するsavsの新しい変種を提案する。 大規模シミュレーションでは,データ内の真のスパーシティの程度に関わらず,非分離回帰の後方よりもバイアスが減少することを示した。 高次元成長リスク運動(GaR)に2段階のアプローチを適用した。 解釈可能な量子特異変数選択結果を出力しながら、未分離後部の予測精度を保持する。 我々の手続きは、変数がマクロ経済に下方リスクをもたらす政策立案者とのコミュニケーションに利用できる。

This paper extends the idea of decoupling shrinkage and sparsity for continuous priors to Bayesian Quantile Regression (BQR). The procedure follows two steps: In the first step, we shrink the quantile regression posterior through state of the art continuous priors and in the second step, we sparsify the posterior through an efficient variant of the adaptive lasso, the signal adaptive variable selection (SAVS) algorithm. We propose a new variant of the SAVS which automates the choice of penalisation through quantile specific loss-functions that are valid in high dimensions. We show in large scale simulations that our selection procedure decreases bias irrespective of the true underlying degree of sparsity in the data, compared to the un-sparsified regression posterior. We apply our two-step approach to a high dimensional growth-at-risk (GaR) exercise. The prediction accuracy of the un-sparsified posterior is retained while yielding interpretable quantile specific variable selection results. Our procedure can be used to communicate to policymakers which variables drive downside risk to the macro economy.
翻訳日:2021-07-20 14:47:42 公開日:2021-07-18
# 新型コロナウイルスの進行予測のための新しい相関損失を持つ注意型マルチスケールゲートリカレントエンコーダ

Attention-based Multi-scale Gated Recurrent Encoder with Novel Correlation Loss for COVID-19 Progression Prediction ( http://arxiv.org/abs/2107.08330v1 )

ライセンス: Link先を確認
Aishik Konwer, Joseph Bae, Gagandeep Singh, Rishabh Gattu, Syed Ali, Jeremy Green, Tej Phatak, Prateek Prasanna(参考訳) 新型コロナウイルス(covid-19)の画像分析は、主に病気の提示や入院時に取得した単一のタイムポイントスキャンによる診断タスクに焦点を当てている。 本研究は,CXRから肺浸潤の進展を予測するための深層学習に基づくアプローチを提案する。 本手法では,まず畳み込みニューラルネットワーク(cnns)を用いて肺領域内および隣接領域および遠隔領域のパッチから特徴抽出を行う。 このフレームワークはさらに、効果的な予測のための相関モジュールを備えたマルチスケールゲートリカレントユニット(gru)を組み込んでいる。 GRUは3つの異なる領域からCNN特徴ベクトルを入力として受け入れ、融合表現を生成する。 相関モジュールは、関連領域と隣接領域の特徴ベクトルの隠れ表現間の相関損失を最小限に抑えつつ、関連領域と遠隔領域との損失を最大化しようとする。 さらに,各エンコーダタイムポイントの出力隠れ状態に対して注意モジュールを用いてコンテキストベクトルを生成する。 このベクトルはデコーダモジュールへの入力として使われ、将来の時刻におけるパッチ重大度グレードを予測する。 最後に,パッチ分類スコアをアンサンブルし,患者毎の成績を算出した。 具体的には,前回の側頭葉cxrからの表現を学習することにより,当日の患者に対するゾーンワイズ疾患の重症度を予測する。 N=93症例の連続CXRスキャンから得られた多施設間データセットについて検討した。 本手法は,このデータセット上での移動学習と放射能特徴に基づくベースラインアプローチより優れている。

COVID-19 image analysis has mostly focused on diagnostic tasks using single timepoint scans acquired upon disease presentation or admission. We present a deep learning-based approach to predict lung infiltrate progression from serial chest radiographs (CXRs) of COVID-19 patients. Our method first utilizes convolutional neural networks (CNNs) for feature extraction from patches within the concerned lung zone, and also from neighboring and remote boundary regions. The framework further incorporates a multi-scale Gated Recurrent Unit (GRU) with a correlation module for effective predictions. The GRU accepts CNN feature vectors from three different areas as input and generates a fused representation. The correlation module attempts to minimize the correlation loss between hidden representations of concerned and neighboring area feature vectors, while maximizing the loss between the same from concerned and remote regions. Further, we employ an attention module over the output hidden states of each encoder timepoint to generate a context vector. This vector is used as an input to a decoder module to predict patch severity grades at a future timepoint. Finally, we ensemble the patch classification scores to calculate patient-wise grades. Specifically, our framework predicts zone-wise disease severity for a patient on a given day by learning representations from the previous temporal CXRs. Our novel multi-institutional dataset comprises sequential CXR scans from N=93 patients. Our approach outperforms transfer learning and radiomic feature-based baseline approaches on this dataset.
翻訳日:2021-07-20 14:45:48 公開日:2021-07-18
# 完全偏光SARと単磁化SAR画像融合ネットワーク

Fully Polarimetric SAR and Single-Polarization SAR Image Fusion Network ( http://arxiv.org/abs/2107.08355v1 )

ライセンス: Link先を確認
Liupeng Lin, Jie Li, Huanfeng Shen, Lingli Zhao, Qiangqiang Yuan, Xinghua Li(参考訳) データ融合技術は、異なるデータの特徴を集約し、複数のデータ利点を持つ製品を得ることを目的としている。 システム制限によるPolSAR画像の分解能の低下を解決するため,高分解能PolSAR(HR-PolSAR)画像を生成するために,完全偏光合成開口レーダ(PolSAR)画像と単偏光合成開口レーダ(SinSAR)画像融合ネットワークを提案する。 低分解能PolSAR(LR-PolSAR)画像の偏光情報と高分解能単一偏光SAR(HR-SinSAR)画像の空間情報を利用するため、関節型LR-PolSAR画像とHR-SinSAR画像の融合フレームワークを提案し、関節型入力データから特徴を抽出するクロスアテンション機構を設計する。 また,この物理イメージング機構に基づいて,制約付きネットワークトレーニングのためのPolSAR偏光損失関数を設計した。 実験の結果,従来のアルゴリズムよりも核融合ネットワークが優れていることが確認された。 平均PSNRは3.6db以上増加し、平均MAEは0.07以下に低下する。 偏光分解と偏光シグネチャの実験は、偏光情報がよく維持されていることを示している。

The data fusion technology aims to aggregate the characteristics of different data and obtain products with multiple data advantages. To solves the problem of reduced resolution of PolSAR images due to system limitations, we propose a fully polarimetric synthetic aperture radar (PolSAR) images and single-polarization synthetic aperture radar SAR (SinSAR) images fusion network to generate high-resolution PolSAR (HR-PolSAR) images. To take advantage of the polarimetric information of the low-resolution PolSAR (LR-PolSAR) image and the spatial information of the high-resolution single-polarization SAR (HR-SinSAR) image, we propose a fusion framework for joint LR-PolSAR image and HR-SinSAR image and design a cross-attention mechanism to extract features from the joint input data. Besides, based on the physical imaging mechanism, we designed the PolSAR polarimetric loss function for constrained network training. The experimental results confirm the superiority of fusion network over traditional algorithms. The average PSNR is increased by more than 3.6db, and the average MAE is reduced to less than 0.07. Experiments on polarimetric decomposition and polarimetric signature show that it maintains polarimetric information well.
翻訳日:2021-07-20 14:45:27 公開日:2021-07-18
# フィルタバックプロジェクション拡張によるCTセグメントのゼロショット領域適応

Zero-Shot Domain Adaptation in CT Segmentation by Filtered Back Projection Augmentation ( http://arxiv.org/abs/2107.08543v1 )

ライセンス: Link先を確認
Talgat Saparov, Anvar Kurmukov, Boris Shirokih, Mikhail Belyaev(参考訳) ドメインシフトは、医療コンピュータビジョンにおける最も健全な課題の1つです。 スキャナーのパラメータやイメージングプロトコルに大きなばらつきがあるため、同一人物と同一スキャナーから取得した画像でさえ大きく異なる可能性がある。 我々は,CTにおける重要な領域シフト因子である再構成過程において,異なる畳み込みカーネルによって引き起こされるCT画像のばらつきに対処する。 畳み込みカーネルの選択はピクセルの粒度、画像の滑らかさ、ノイズレベルに影響を与える。 異なるカーネルを持つ同一のシンノグラムから,滑らかでシャープな画像が再構成され,同一の解剖学的構造を提供するペアct画像のデータセットを解析した。 同一の予測が望ましいが、ペア上の予測間の平均サイスとして測定される一貫性は、わずか 0.54 である。 異なるカーネルによる再構成を模擬したシングラム空間におけるCT画像の簡易かつ驚くほど効率的な拡張手法であるフィルタバックプロジェクション拡張(FBPAug)を提案する。 提案手法をゼロショット領域適応設定に適用し,一貫性が0.54から0.92に向上することを示した。 ソースドメインデータとターゲットドメインデータの特別な準備は必要とせず、公にリリースされたfbpaugは、任意のctベースのタスクにおいてゼロショットドメイン適応のためのプラグイン・アンド・プレイモジュールとして使用できる。

Domain shift is one of the most salient challenges in medical computer vision. Due to immense variability in scanners' parameters and imaging protocols, even images obtained from the same person and the same scanner could differ significantly. We address variability in computed tomography (CT) images caused by different convolution kernels used in the reconstruction process, the critical domain shift factor in CT. The choice of a convolution kernel affects pixels' granularity, image smoothness, and noise level. We analyze a dataset of paired CT images, where smooth and sharp images were reconstructed from the same sinograms with different kernels, thus providing identical anatomy but different style. Though identical predictions are desired, we show that the consistency, measured as the average Dice between predictions on pairs, is just 0.54. We propose Filtered Back-Projection Augmentation (FBPAug), a simple and surprisingly efficient approach to augment CT images in sinogram space emulating reconstruction with different kernels. We apply the proposed method in a zero-shot domain adaptation setup and show that the consistency boosts from 0.54 to 0.92 outperforming other augmentation approaches. Neither specific preparation of source domain data nor target domain data is required, so our publicly released FBPAug can be used as a plug-and-play module for zero-shot domain adaptation in any CT-based task.
翻訳日:2021-07-20 14:45:04 公開日:2021-07-18
# ディープイミティティブ強化学習を用いたビジョンベース自律走行レース

Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement Learning ( http://arxiv.org/abs/2107.08325v1 )

ライセンス: Link先を確認
Peide Cai, Hengli Wang, Huaiyang Huang, Yuxuan Liu, Ming Liu(参考訳) 自動運転車のレースは、ロボット制御領域では難しい課題だ。 従来のモジュラー手法は正確なマッピング、ローカライゼーション、計画を必要とするため、計算的に非効率で環境変化に敏感である。 近年、ディープラーニングに基づくエンドツーエンドシステムは、自動運転/ラッシングの有望な結果を示している。 しかし、これらは分布ミスマッチ問題に苦しむ教師付き模倣学習(IL)や、大量のリスクのある相互作用データを必要とする強化学習(RL)によって一般的に実装されている。 本研究では,視覚入力を用いた自律走行のアジャイル化に成功している,汎用的な深層模倣強化学習手法を提案する。 運転知識はILとモデルベースRLの両方から取得され、エージェントは人間の教師から学び、オフラインの世界モデルと安全に対話することで自己改善を行うことができる。 本アルゴリズムを高信頼運転シミュレーションと実世界の1/20スケールrc-carの両方で検証し,オンボード計算を制限した。 評価の結果,本手法は従来のilおよびrl法よりも,サンプル効率とタスク性能の点で優れていた。 デモビデオはhttps://caipeide.git hub.io/autorace-dirl /で見ることができる。

Autonomous car racing is a challenging task in the robotic control area. Traditional modular methods require accurate mapping, localization and planning, which makes them computationally inefficient and sensitive to environmental changes. Recently, deep-learning-based end-to-end systems have shown promising results for autonomous driving/racing. However, they are commonly implemented by supervised imitation learning (IL), which suffers from the distribution mismatch problem, or by reinforcement learning (RL), which requires a huge amount of risky interaction data. In this work, we present a general deep imitative reinforcement learning approach (DIRL), which successfully achieves agile autonomous racing using visual inputs. The driving knowledge is acquired from both IL and model-based RL, where the agent can learn from human teachers as well as perform self-improvement by safely interacting with an offline world model. We validate our algorithm both in a high-fidelity driving simulation and on a real-world 1/20-scale RC-car with limited onboard computation. The evaluation results demonstrate that our method outperforms previous IL and RL methods in terms of sample efficiency and task performance. Demonstration videos are available at https://caipeide.git hub.io/autorace-dirl /
翻訳日:2021-07-20 14:43:25 公開日:2021-07-18
# 感情音声変換のための改良されたStarGAN:声質向上とデータ拡張

An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice Quality and Data Augmentation ( http://arxiv.org/abs/2107.08361v1 )

ライセンス: Link先を確認
Xiangheng He, Junjie Chen, Georgios Rizos, Bj\"orn W. Schuller(参考訳) Emotional Voice Conversion (EVC) は、その内容と話者識別情報を保存しながら、ソース音声信号の感情スタイルをターゲットスタイルに変換することを目的としている。 これまでの感情変換研究は、保存すべき感情に依存しない情報から感情情報を歪めないため、これらすべてをモノリシックな方法で変換し、低品質の音声を言語的な歪みで生成する。 この歪み問題に対処するために,2つのエンコーダを持つオートエンコーダをGAN(Generative Adversarial Network)のジェネレータとして使用することにより,感情から独立した感情特徴を分離する2段階のトレーニングプロセスとともに,新たなStarGANフレームワークを提案する。 提案モデルは, 客観的評価と主観的評価の両方において, 歪みの観点から好適な結果が得られるため, 提案モデルが歪みを効果的に低減できることを示す。 さらに、エンドツーエンドの音声感情認識のためのデータ拡張実験において、提案したStarGANモデルは、ベースラインのStarGANモデルと比較して、Micro-F1では2%、Macro-F1では5%の増加を達成する。

Emotional Voice Conversion (EVC) aims to convert the emotional style of a source speech signal to a target style while preserving its content and speaker identity information. Previous emotional conversion studies do not disentangle emotional information from emotion-independent information that should be preserved, thus transforming it all in a monolithic manner and generating audio of low quality, with linguistic distortions. To address this distortion problem, we propose a novel StarGAN framework along with a two-stage training process that separates emotional features from those independent of emotion by using an autoencoder with two encoders as the generator of the Generative Adversarial Network (GAN). The proposed model achieves favourable results in both the objective evaluation and the subjective evaluation in terms of distortion, which reveals that the proposed model can effectively reduce distortion. Furthermore, in data augmentation experiments for end-to-end speech emotion recognition, the proposed StarGAN model achieves an increase of 2% in Micro-F1 and 5% in Macro-F1 compared to the baseline StarGAN model, which indicates that the proposed model is more valuable for data augmentation.
翻訳日:2021-07-20 14:43:07 公開日:2021-07-18
# 圧縮モンテカルロと粒子フィルタリングへの応用

Compressed Monte Carlo with application in particle filtering ( http://arxiv.org/abs/2107.08459v1 )

ライセンス: Link先を確認
Luca Martino, V\'ictor Elvira(参考訳) ベイズモデルはこの数年間、信号処理、統計、機械学習などいくつかの分野で非常に人気がある。 ベイズ予想は後続分布を含む複雑な積分の近似を必要とする。 この目的のために、マルコフ・チェイン・モンテカルロや重要サンプリングアルゴリズムのようなモンテカルロ法がよく用いられる。 本研究では,一連のランダムサンプルに含まれる統計情報を圧縮する圧縮MC(C-MC)方式の理論と実践を紹介する。 基本バージョンでは、C-MCは分散還元目的に用いられるよく知られた手法である成層法と厳密に関係している。 決定論的C-MCスキームも提示され、非常に優れた性能を提供する。 圧縮問題は、異なるフィルタリング手法で適用されるモーメントマッチングの手法(通常はガウス二次規則またはシグマ点法)と厳密に関係している。 C-MCは、中央プロセッサとの安価で高速な通信が必要な場合、分散ベイズ推論フレームワークで使用できる。 さらに、C-MCは、この研究で導入された3つの新しいスキームで示されるように、粒子フィルタリングおよび適応ISアルゴリズムにおいて有用である。 6つの数値結果から,提案方式の利点が確認され,対応するベンチマーク手法よりも優れていた。 関連コードも用意されている。

Bayesian models have become very popular over the last years in several fields such as signal processing, statistics, and machine learning. Bayesian inference requires the approximation of complicated integrals involving posterior distributions. For this purpose, Monte Carlo (MC) methods, such as Markov Chain Monte Carlo and importance sampling algorithms, are often employed. In this work, we introduce the theory and practice of a Compressed MC (C-MC) scheme to compress the statistical information contained in a set of random samples. In its basic version, C-MC is strictly related to the stratification technique, a well-known method used for variance reduction purposes. Deterministic C-MC schemes are also presented, which provide very good performance. The compression problem is strictly related to the moment matching approach applied in different filtering techniques, usually called as Gaussian quadrature rules or sigma-point methods. C-MC can be employed in a distributed Bayesian inference framework when cheap and fast communications with a central processor are required. Furthermore, C-MC is useful within particle filtering and adaptive IS algorithms, as shown by three novel schemes introduced in this work. Six numerical results confirm the benefits of the introduced schemes, outperforming the corresponding benchmark methods. A related code is also provided.
翻訳日:2021-07-20 14:41:52 公開日:2021-07-18
# Otimizacao de Redes Neurais atraves de Algoritmos Geneticos Celulares

Otimizacao de Redes Neurais atraves de Algoritmos Geneticos Celulares ( http://arxiv.org/abs/2107.08326v1 )

ライセンス: Link先を確認
Anderson da Silva, Teresa Ludermir(参考訳) 本研究では,セルラー遺伝的アルゴリズム(CGA)を用いて,自動ニューラルネットワーク(ANN)の探索手法を提案する。 この手法の目標は、分類問題に対して優れた性能を持つコンパクトネットワークを見つけることである。 この作業を開発した主な理由は、パフォーマンス評価の高いコンパクトなANNの設定が難しいことを中心にしている。 CGAの使用は、共通の遺伝的アルゴリズム(GA)と同様にRNAの構成要素を求めることを目的としているが、GA個体の位置を与えるために細胞オートマトン(CA)を組み込むことの相違がある。 CAが課している場所は、長期にわたって遺伝的多様性を維持するために、集団内の溶液の拡散を制御することを目的としている。 この遺伝的多様性は、GAの良好な結果を得るために重要である。

This works proposes a methodology to searching for automatically Artificial Neural Networks (ANN) by using Cellular Genetic Algorithm (CGA). The goal of this methodology is to find compact networks whit good performance for classification problems. The main reason for developing this work is centered at the difficulties of configuring compact ANNs with good performance rating. The use of CGAs aims at seeking the components of the RNA in the same way that a common Genetic Algorithm (GA), but it has the differential of incorporating a Cellular Automaton (CA) to give location for the GA individuals. The location imposed by the CA aims to control the spread of solutions in the populations to maintain the genetic diversity for longer time. This genetic diversity is important for obtain good results with the GAs.
翻訳日:2021-07-20 14:39:42 公開日:2021-07-18
# 勾配分解を用いた新しい適応勾配法

A New Adaptive Gradient Method with Gradient Decomposition ( http://arxiv.org/abs/2107.08377v1 )

ライセンス: Link先を確認
Zhou Shao and Tong Lin(参考訳) 適応勾配法、特にアダム型法(Adam, AMSGrad, AdaBound など)は、学習率の要素的スケーリング項で学習プロセスを高速化するために提案されている。 しかし、それらは確率勾配降下(SGD)や運動量を持つSGD(SGDM)のような加速スキームと比較すると、よく一般化される。 本稿では,SGDMのような優れた一般化を同時に達成し,Adam型手法のような高速収束を実現するDecGDという新しい適応手法を提案する。 特に、decgdは現在の勾配をサーロゲート勾配と損失に基づくベクトルを含む2つの項の積に分解する。 本手法は,Adam方式の2乗勾配に代えて,電流損失に基づくベクトルに応じて学習率を適応的に調整する。 decgdの適応学習率の直観は、良い最適化器は、一般的には、損失が減少するにつれて学習率を下げる必要があり、これは学習率減衰スケジューリング技術に似ている。 したがって、DecGDは訓練の初期段階において急速に収束し、損失ベースベクトルに従って効果的な学習率を制御し、より良い一般化につながる。 収束解析は凸と非凸の両方の状況で議論される。 最後に、広く使われているタスクやモデルに対する実験結果から、DECGDはSGDMよりも優れた一般化性能を示し、Adam-type法のような高速収束を示した。

Adaptive gradient methods, especially Adam-type methods (such as Adam, AMSGrad, and AdaBound), have been proposed to speed up the training process with an element-wise scaling term on learning rates. However, they often generalize poorly compared with stochastic gradient descent (SGD) and its accelerated schemes such as SGD with momentum (SGDM). In this paper, we propose a new adaptive method called DecGD, which simultaneously achieves good generalization like SGDM and obtain rapid convergence like Adam-type methods. In particular, DecGD decomposes the current gradient into the product of two terms including a surrogate gradient and a loss based vector. Our method adjusts the learning rates adaptively according to the current loss based vector instead of the squared gradients used in Adam-type methods. The intuition for adaptive learning rates of DecGD is that a good optimizer, in general cases, needs to decrease the learning rates as the loss decreases, which is similar to the learning rates decay scheduling technique. Therefore, DecGD gets a rapid convergence in the early phases of training and controls the effective learning rates according to the loss based vectors which help lead to a better generalization. Convergence analysis is discussed in both convex and non-convex situations. Finally, empirical results on widely-used tasks and models demonstrate that DecGD shows better generalization performance than SGDM and rapid convergence like Adam-type methods.
翻訳日:2021-07-20 14:39:27 公開日:2021-07-18
# 連続的2重注意ネットワークに基づく睡眠ステージング

Sleep Staging Based on Serialized Dual Attention Network ( http://arxiv.org/abs/2107.08442v1 )

ライセンス: Link先を確認
Huafeng Wang (1), Chonggang Lu (1), Qi Zhang (1), Zhimin Hu (1), Xiaodong Yuan (2), Pingshu Zhang (2), Wanquan Liu (3) ((1) School of Information, North China University of Technology,(2) Department of Neurology, Kailuan General Hospital, Tangshan,(3) School of Intelligent Systems Engineering, Sun Yat-sen University)(参考訳) 睡眠ステージングは睡眠障害の診断において重要な役割を担っている。 一般的に、専門家は睡眠段階をPSG(polysomnography) に基づいて手動で分類する。 一方、複数の信号の取得は複雑であり、被験者の睡眠に影響を与える可能性がある。 そのため、自動睡眠ステージングにおける単一チャンネル脳波(EEG)の使用が主流となっている。 文献では,単チャンネル脳波に基づく睡眠ステージリング法が多数提案されており,睡眠ステージングの予備的自動化を実現している。 しかしながら、N1段階におけるこれらの手法のほとんどの性能は一般的には高くない。 本稿では,生の脳波に基づく深層学習モデルSDANを提案する。 1次元畳み込みニューラルネットワーク(CNN)を利用して、生の脳波から特徴を自動的に抽出する。 チャンネルアテンションと空間アテンションを連続的に組み合わせ、キー情報をフィルタリングしてハイライトし、ソフトしきい値を使って冗長な情報を排除する。 さらに,ネットワークの深化に伴う劣化問題を回避するために,残差ネットワークを導入する。 5倍のクロスバリデーションとホールドアウト検証の2つのデータセットを用いて実験を行った。 最終的な平均精度、総合精度、マクロF1スコア、コーエンのカッパ係数は、Sleep-EDFデータセットで96.74%、91.86%、82.64%、0.8742、95.98%、89.96%、79.08%、0.8216に達した。 有意な成績を示したのは,2つのデータセットでそれぞれ54.08%,52.49%のf1スコアを示したn1ステージであった。 その結果,既存手法に比べてネットワークの優位性が向上し,新たな最先端技術がもたらされた。 特に,n1睡眠段階において他の方法と比較して優れた結果を得た。

Sleep staging assumes an important role in the diagnosis of sleep disorders. In general, experts classify sleep stages manually based on polysomnography (PSG), which is quite time-consuming. Meanwhile, the acquisition of multiple signals is complex, which can affect the subject's sleep. Therefore, the use of single-channel electroencephalogram (EEG) for automatic sleep staging has become mainstream. In the literature, a large number of sleep staging methods based on single-channel EEG have been proposed with good results and realize the preliminary automation of sleep staging. However, the performance for most of these methods in the N1 stage is generally not high. In this paper, we propose a deep learning model SDAN based on raw EEG. The method utilises a one-dimensional convolutional neural network (CNN) to automatically extract features from raw EEG. It serially combines the channel attention and spatial attention mechanisms to filter and highlight key information and then uses soft threshold to eliminate redundant information. Additionally, we introduce a residual network to avoid degradation problems caused by network deepening. Experiments were conducted using two datasets with 5-fold cross-validation and hold-out validation method. The final average accuracy, overall accuracy, macro F1 score and Cohen's Kappa coefficient of the model reach 96.74%, 91.86%, 82.64% and 0.8742 on the Sleep-EDF dataset, and 95.98%, 89.96%, 79.08% and 0.8216 on the Sleep-EDFx dataset. Significantly, our model performed superiorly in the N1 stage, with F1 scores of 54.08% and 52.49% on the two datasets respectively. The results show the superiority of our network over the best existing methods, reaching a new state-of-the-art. In particular, the present method achieves excellent results in the N1 sleep stage compared to other methods.
翻訳日:2021-07-20 14:39:03 公開日:2021-07-18
# 階層型ニューラルネットワーク探索のための新しい進化アルゴリズム

A Novel Evolutionary Algorithm for Hierarchical Neural Architecture Search ( http://arxiv.org/abs/2107.08484v1 )

ライセンス: Link先を確認
Aristeidis Chrostoforidis, George Kyriakides, Konstantinos Margaritis(参考訳) 本研究では,グローバルな探索空間に適用可能なニューラルアーキテクチャ探索のための新しい進化的アルゴリズムを提案する。 アルゴリズムのアーキテクチャ表現は、複数の階層的なモジュールでトポロジを整理し、設計プロセスはこの表現を利用して探索空間を探索する。 また,良好なサブ構造の利用を後世に促進するキュレーションシステムも採用している。 本手法をファッション・マンニストとnas-bench101に適用し,比較的少ない世代でそれぞれ93.2\%$と94.8\%$の確率を達成した。

In this work, we propose a novel evolutionary algorithm for neural architecture search, applicable to global search spaces. The algorithm's architectural representation organizes the topology in multiple hierarchical modules, while the design process exploits this representation, in order to explore the search space. We also employ a curation system, which promotes the utilization of well performing sub-structures to subsequent generations. We apply our method to Fashion-MNIST and NAS-Bench101, achieving accuracies of $93.2\%$ and $94.8\%$ respectively in a relatively small number of generations.
翻訳日:2021-07-20 14:38:35 公開日:2021-07-18
# リアクティブ島を学習するためのサポートベクターマシン

Support vector machines for learning reactive islands ( http://arxiv.org/abs/2107.08429v1 )

ライセンス: Link先を確認
Shibabrat Naik, Vladim\'ir Kraj\v{n}\'ak, Stephen Wiggins(参考訳) ハミルトン方程式の軌跡から得られたデータセットに適用可能な機械学習フレームワークを開発した。 目標は、特定の用途に関連する相空間輸送の制御的役割を担う相空間構造を学ぶことである。 我々の焦点は2自由度ハミルトン系の反応島を学習することである。 反応性島は不安定周期軌道の安定かつ不安定な多様体から構成され、遷移ダイナミクスを定量化する役割を担っている。 本稿では,SVM(Support vector Machine)が,位相空間輸送フレームワークの精神である定性的に異なる動的挙動の境界を見つけるためのアプローチを提供するため,この目的のために適切な機械学習フレームワークであることを示す。 不安定な周期軌道とその安定かつ不安定な多様体を最初に計算する必要がなくなるという意味で、我々の方法が反応性のある島を直接発見できることを示す。 我々は動的システムコミュニティにおけるベンチマークシステムであるH'enon-Heiles Hamiltonianシステムにアプローチを適用する。 異なるサンプリングと学習アプローチとその利点と欠点について論じる。

We develop a machine learning framework that can be applied to data sets derived from the trajectories of Hamilton's equations. The goal is to learn the phase space structures that play the governing role for phase space transport relevant to particular applications. Our focus is on learning reactive islands in two degrees-of-freedom Hamiltonian systems. Reactive islands are constructed from the stable and unstable manifolds of unstable periodic orbits and play the role of quantifying transition dynamics. We show that support vector machines (SVM) is an appropriate machine learning framework for this purpose as it provides an approach for finding the boundaries between qualitatively distinct dynamical behaviors, which is in the spirit of the phase space transport framework. We show how our method allows us to find reactive islands directly in the sense that we do not have to first compute unstable periodic orbits and their stable and unstable manifolds. We apply our approach to the H\'enon-Heiles Hamiltonian system, which is a benchmark system in the dynamical systems community. We discuss different sampling and learning approaches and their advantages and disadvantages.
翻訳日:2021-07-20 14:36:43 公開日:2021-07-18
# ニューラルネットワークを用いた時系列エントロピー推定法

A method for estimating the entropy of time series using artificial neural network ( http://arxiv.org/abs/2107.08399v1 )

ライセンス: Link先を確認
Andrei Velichko and Hanif Heidari(参考訳) 時系列の予測可能性と複雑性を測定することは、非線形システムの設計と制御に不可欠なツールである。 時系列の予測可能性と複雑性を分析するために、文献には異なるエントロピー測度が存在する。 しかし、これらの措置は特に短命連続においていくつかの欠点がある。 そこで本研究では,LogNNet 784:25:10ニューラルネットワークモデルを用いて時系列のエントロピーを推定する手法を提案する。 LogNNet貯水池マトリックスは19625個の元素から構成され、時系列要素で満たされている。 その後、MNIST-10データセットに基づいてネットワークをトレーニングし、分類精度を算出する。 精度はエントロピー測度と見なされ、NNetEnで表される。 貯留層内の時系列による入力情報のより複雑な変換は、より高いNNetEn値をもたらす。 多くの実用的な時系列データは19625要素未満である。 この難しさを克服するために, 重複法や伸張法について検討し, 実用化に最も成功した手法を同定した。 入力パラメータとしてLogNNetのトレーニングプロセスにおけるエポック数を考慮する。 ニューラルネットワークの効率性におけるエポック数の影響を調べるために,時系列学習慣性と呼ばれる新しい時系列特性を導入する。 提案手法のロバスト性と効率性を示すために, カオス, 周期, ランダム, バイナリ, 定数時系列に適用した。 NNetEnは既存のエントロピー測度と比較される。 その結果,提案手法は既存手法よりも頑健で精度が高いことがわかった。

Measuring the predictability and complexity of time series is an essential tool in designing and controlling the nonlinear system. There exist different entropy measures in the literature to analyze the predictability and complexity of time series. However, these measures have some drawbacks especially in short time series. To overcome the difficulties, this paper proposes a new method for estimating the entropy of a time series using the LogNNet 784:25:10 neural network model. The LogNNet reservoir matrix consists of 19625 elements which is filled with the time series elements. After that, the network is trained on MNIST-10 dataset and the classification accuracy is calculated. The accuracy is considered as the entropy measure and denoted by NNetEn. A more complex transformation of the input information by the time series in the reservoir leads to higher NNetEn values. Many practical time series data have less than 19625 elements. Some duplicating or stretching methods are investigated to overcome this difficulty and the most successful method is identified for practical applications. The epochs number in the training process of LogNNet is considered as the input parameter. A new time series characteristic called time series learning inertia is introduced to investigate the effect of epochs number in the efficiency of neural network. To show the robustness and efficiency of the proposed method, it is applied on some chaotic, periodic, random, binary and constant time series. The NNetEn is compared with some existing entropy measures. The results show that the proposed method is more robust and accurate than existing methods.
翻訳日:2021-07-20 14:35:25 公開日:2021-07-18
# 壁画: 結果駆動強化学習のためのメタラーニング不確実性認識報酬

MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning ( http://arxiv.org/abs/2107.07184v2 )

ライセンス: Link先を確認
Kevin Li, Abhishek Gupta, Ashwin Reddy, Vitchyr Pong, Aurick Zhou, Justin Yu, Sergey Levine(参考訳) 強化学習における探索は難しい問題であり、最悪の場合、エージェントは州空間のどこにでも隠れる可能性のある高次状態を探す必要がある。 エージェントが成功した結果の例を提示する、より難解なRL問題のクラスを定義できるだろうか? この問題設定では、分類器を訓練して状態が成功するか否かを分類することにより、報酬関数を自動的に得ることができる。 適切に訓練された場合、このような分類器は、良好な状態への進行を促進し、校正された探索ボーナスを提供する、よく形をした客観的な景観を提供することができる。 本研究では,探索を奨励し,肯定的な結果への指示を与えることにより,不確かさを意識した分類器が,強化学習の課題を解決することができることを示す。 そこで本研究では,正規化最大度(NML)分布の計算手法に基づく,これらの校正された不確実性認識分類器の獲得機構を提案する。 そこで本研究では,メタラーニングを用いてnml分布を計算する新しい手法を提案する。 得られたアルゴリズムは,報奨関数を学習するためのカウントベース探索法と先行アルゴリズムの両方に多くの興味深い関係を持ち,目標に対するより効果的なガイダンスを提供する。 我々は,従来の手法では困難あるいは不可能であったナビゲーションやロボット操作の課題を,アルゴリズムが解決できることを実証した。

Exploration in reinforcement learning is a challenging problem: in the worst case, the agent must search for high-reward states that could be hidden anywhere in the state space. Can we define a more tractable class of RL problems, where the agent is provided with examples of successful outcomes? In this problem setting, the reward function can be obtained automatically by training a classifier to categorize states as successful or not. If trained properly, such a classifier can provide a well-shaped objective landscape that both promotes progress toward good states and provides a calibrated exploration bonus. In this work, we show that an uncertainty aware classifier can solve challenging reinforcement learning problems by both encouraging exploration and provided directed guidance towards positive outcomes. We propose a novel mechanism for obtaining these calibrated, uncertainty-aware classifiers based on an amortized technique for computing the normalized maximum likelihood (NML) distribution. To make this tractable, we propose a novel method for computing the NML distribution by using meta-learning. We show that the resulting algorithm has a number of intriguing connections to both count-based exploration methods and prior algorithms for learning reward functions, while also providing more effective guidance towards the goal. We demonstrate that our algorithm solves a number of challenging navigation and robotic manipulation tasks which prove difficult or impossible for prior methods.
翻訳日:2021-07-20 10:46:34 公開日:2021-07-18