このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200917となっている論文です。

PDF登録状況(公開日: 20200917)

TitleAuthorsAbstract論文公表日・翻訳日
# セマンティックロスのエンティティ関係認識への応用

Semantic Loss Application to Entity Relation Recognition ( http://arxiv.org/abs/2006.04031v2 )

ライセンス: Link先を確認
Venkata Sasank Pagolu(参考訳) 通常、エンティティ関係認識システムは、エンティティのタグ付けと関係の識別を別々のタスクとして扱うパイプ線モデルを使うか、関係と実体を同時に識別するジョイントモデルを使用する。 本稿では,これら2つのエンティティ関係認識手法を比較した。 最先端のエンティティ関係認識システムは、しばしば問題の記号的知識や論理的制約を捉えないディープリカレントニューラルネットワークを用いて構築される。 本論文の主な貢献は,新しい損失関数を組み込んだ結合関係抽出のためのエンドツーエンドニューラルネットワークである。 この新たな損失関数は、問題の制約情報を符号化し、モデルのトレーニングを効果的に導く。 この損失関数を既存の典型的な損失関数に追加することは、モデルの性能にプラスの影響を与えることを示す。 このモデルは本当にエンドツーエンドで、機能エンジニアリングを必要とせず、容易に拡張できます。 自然言語理解における記号的知識の獲得の重要性を評価するために,広範囲な実験が行われた。 この損失関数を用いたモデルは、そのモデルよりも優れ、より速く収束している。 本研究の実験的結果は、他の言語理解アプリケーションにこの方法論を用いることを示唆している。

Usually, entity relation recognition systems either use a pipe-lined model that treats the entity tagging and relation identification as separate tasks or a joint model that simultaneously identifies the relation and entities. This paper compares these two general approaches for the entity relation recognition. State-of-the-art entity relation recognition systems are built using deep recurrent neural networks which often does not capture the symbolic knowledge or the logical constraints in the problem. The main contribution of this paper is an end-to-end neural model for joint entity relation extraction which incorporates a novel loss function. This novel loss function encodes the constraint information in the problem to guide the model training effectively. We show that addition of this loss function to the existing typical loss functions has a positive impact over the performance of the models. This model is truly end-to-end, requires no feature engineering and easily extensible. Extensive experimentation has been conducted to evaluate the significance of capturing symbolic knowledge for natural language understanding. Models using this loss function are observed to be outperforming their counterparts and converging faster. Experimental results in this work suggest the use of this methodology for other language understanding applications.
翻訳日:2022-11-24 07:20:45 公開日:2020-09-17
# 機械翻訳としての映像理解

Video Understanding as Machine Translation ( http://arxiv.org/abs/2006.07203v2 )

ライセンス: Link先を確認
Bruno Korbar, Fabio Petroni, Rohit Girdhar, Lorenzo Torresani(参考訳) 大規模なマルチモーダルビデオデータセット、特に音声や転写音声を含むシーケンスの出現により、ビデオ表現の自己教師あり学習への関心が高まっている。 ほとんどの先行研究は、目的をモダリティ間の対比的距離学習問題として定式化している。 しかし, 効果的な学習を実現するためには, 正と負のサンプルを慎重に選択する必要がある。 本研究では,モダリティ間の翻訳問題として目的を定式化する生成的モデリング手法を用いて,負のサンプリングの必要性を解消する。 このような定式化により、コントラッシブなメトリック学習に共通する負のサンプルの大きなバッチを必要とせず、単一の統合フレームワークを用いて、幅広いダウンストリームビデオ理解タスクに取り組むことができる。 大規模なトレーニング用ハウト100Mデータセットを実験し、ビデオ分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)、テキストベースのクリップ検索(YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクに対して、最先端の性能向上を報告した。

With the advent of large-scale multimodal video datasets, especially sequences with audio or transcribed speech, there has been a growing interest in self-supervised learning of video representations. Most prior work formulates the objective as a contrastive metric learning problem between the modalities. To enable effective learning, however, these strategies require a careful selection of positive and negative samples often combined with hand-designed curriculum policies. In this work we remove the need for negative sampling by taking a generative modeling approach that poses the objective as a translation problem between modalities. Such a formulation allows us to tackle a wide variety of downstream video understanding tasks by means of a single unified framework, without the need for large batches of negative samples common in contrastive metric learning. We experiment with the large-scale HowTo100M dataset for training, and report performance gains over the state-of-the-art on several downstream tasks including video classification (EPIC-Kitchens), question answering (TVQA), captioning (TVC, YouCook2, and MSR-VTT), and text-based clip retrieval (YouCook2 and MSR-VTT).
翻訳日:2022-11-22 04:28:36 公開日:2020-09-17
# 顔認識におけるバイアス緩和のためのジェンダーニュートラル顔記述子を目指して

Towards Gender-Neutral Face Descriptors for Mitigating Bias in Face Recognition ( http://arxiv.org/abs/2006.07845v2 )

ライセンス: Link先を確認
Prithviraj Dhar, Joshua Gleason, Hossein Souri, Carlos D. Castillo, Rama Chellappa(参考訳) 最先端のディープネットワークは、顔認識のために訓練されている間、性別情報を暗黙的にエンコードする。 性別はしばしば顔の識別に関して重要な属性と見なされる。 しかし、顔ディスクリプタにおける性別情報の暗黙的なエンコーディングには2つの大きな問題がある: (a) 悪意のあるエージェントがそのようなディスクリプタから顔の性別を予測するためにトレーニングすることができる。 (b) これは、顔認識における性別バイアス、すなわち、男性と女性の顔におけるDCNNの認識精度に有意な違いがあると考えられる。 そこで本稿では,以前に訓練された顔認識ネットワークから得られた顔記述子に存在する性別情報を削減するための,新しい「AGENDA(Adversarial Gender De-biasing Algorithm)」を提案する。 AGENDAは顔記述子の性別予測可能性を著しく低下させる。 その結果,適切な認識性能を維持しつつ,顔認証における性別バイアスを低減できる。

State-of-the-art deep networks implicitly encode gender information while being trained for face recognition. Gender is often viewed as an important attribute with respect to identifying faces. However, the implicit encoding of gender information in face descriptors has two major issues: (a.) It makes the descriptors susceptible to privacy leakage, i.e. a malicious agent can be trained to predict the face gender from such descriptors. (b.) It appears to contribute to gender bias in face recognition, i.e. we find a significant difference in the recognition accuracy of DCNNs on male and female faces. Therefore, we present a novel `Adversarial Gender De-biasing algorithm (AGENDA)' to reduce the gender information present in face descriptors obtained from previously trained face recognition networks. We show that AGENDA significantly reduces gender predictability of face descriptors. Consequently, we are also able to reduce gender bias in face verification while maintaining reasonable recognition performance.
翻訳日:2022-11-21 13:14:08 公開日:2020-09-17
# 相互学習のフェデレーション

Federated Mutual Learning ( http://arxiv.org/abs/2006.16765v3 )

ライセンス: Link先を確認
Tao Shen, Jie Zhang, Xinkang Jia, Fengda Zhang, Gang Huang, Pan Zhou, Kun Kuang, Fei Wu, Chao Wu(参考訳) federated learning(fl)は、分散データ上でディープラーニングモデルを協調的にトレーニングすることを可能にする。 しかし、FL設定には3種類の異種性があり、標準連合学習アルゴリズム(FedAvg)に固有の課題をもたらす。 First, due to the Non-IIDness of data, the global shared model may perform worse than local models that solely trained on their private data; Second, the objective of center server and clients may be different, where center server seeks for a generalized model whereas client pursue a personalized model, and clients may run different tasks; Third, clients may need to design their customized model for various scenes and tasks; In this work, we present a novel federated learning paradigm, named Federated Mutual Leaning (FML), dealing with the three heterogeneities. fmlは、クライアントが汎用モデルとパーソナライズされたモデルを独立して訓練し、プライベートカスタマイズされたモデルを設計できる。 したがって、データの非IID性はもはやバグではなく、クライアントが個人的により良く提供できる機能である。 実験により、FMLは通常のFL設定よりも優れたパフォーマンスを達成でき、クライアントは異なるモデルやタスクでFMLから恩恵を受けることができることがわかった。

Federated learning (FL) enables collaboratively training deep learning models on decentralized data. However, there are three types of heterogeneities in FL setting bringing about distinctive challenges to the canonical federated learning algorithm (FedAvg). First, due to the Non-IIDness of data, the global shared model may perform worse than local models that solely trained on their private data; Second, the objective of center server and clients may be different, where center server seeks for a generalized model whereas client pursue a personalized model, and clients may run different tasks; Third, clients may need to design their customized model for various scenes and tasks; In this work, we present a novel federated learning paradigm, named Federated Mutual Leaning (FML), dealing with the three heterogeneities. FML allows clients training a generalized model collaboratively and a personalized model independently, and designing their private customized models. Thus, the Non-IIDness of data is no longer a bug but a feature that clients can be personally served better. The experiments show that FML can achieve better performance than alternatives in typical FL setting, and clients can be benefited from FML with different models and tasks.
翻訳日:2022-11-16 07:57:57 公開日:2020-09-17
# スマートアシスタント自動化のためのセマンティックWebフレームワーク:COVID-19事例

A Semantic Web Framework for Automated Smart Assistants: COVID-19 Case Study ( http://arxiv.org/abs/2007.00747v2 )

ライセンス: Link先を確認
Yusuf Sermet and Ibrahim Demir(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、知識システムが、異なる背景と技術資源を持つ人々の実質的なグループに正確な情報を伝える必要がある場合に有効であると結論付けた。 しかし、いくつかの課題や障害は、公衆衛生部門や組織によるバーチャルアシスタントの普及を妨げている。 本稿では、基盤となるドメインや技術に関係なく、あらゆるWebプラットフォームに対して音声対応スマートアシスタント(チャットボット)を構築、統合するためのオープンソースのセマンティックWebフレームワークであるInstant Expertを提案する。 このコンポーネントにより、非技術者のドメインエキスパートは、音声認識機能を備えた操作アシスタントをウェブサイトに無力に組み込むことができる。 instant expertは、情報リソースとして頻繁に聞かれる質問ページを自動的に解析、処理、モデリングし、オントロジ駆動推論と動的データ利用のための外部知識エンジンと通信することができる。 提案フレームワークは,高度なWeb技術を活用して再利用性と信頼性を確保するとともに,ディープラーニングとヒューリスティックアルゴリズムを活用した自然言語理解のための推論エンジンである。 CDC(Centers for Disease Control and Prevention, 疾病予防管理センター)データに基づく、新型コロナウイルスのインフォメーションアシスタントを作成するためのユースケースを提示し、このフレームワークの使用とメリットを実証する。

COVID-19 pandemic elucidated that knowledge systems will be instrumental in cases where accurate information needs to be communicated to a substantial group of people with different backgrounds and technological resources. However, several challenges and obstacles hold back the wide adoption of virtual assistants by public health departments and organizations. This paper presents the Instant Expert, an open-source semantic web framework to build and integrate voice-enabled smart assistants (i.e. chatbots) for any web platform regardless of the underlying domain and technology. The component allows non-technical domain experts to effortlessly incorporate an operational assistant with voice recognition capability into their websites. Instant Expert is capable of automatically parsing, processing, and modeling Frequently Asked Questions pages as an information resource as well as communicating with an external knowledge engine for ontology-powered inference and dynamic data utilization. The presented framework utilizes advanced web technologies to ensure reusability and reliability, and an inference engine for natural language understanding powered by deep learning and heuristic algorithms. A use case for creating an informatory assistant for COVID-19 based on the Centers for Disease Control and Prevention (CDC) data is presented to demonstrate the framework's usage and benefits.
翻訳日:2022-11-14 23:47:39 公開日:2020-09-17
# 正規化補正による時間差勾配学習

Gradient Temporal-Difference Learning with Regularized Corrections ( http://arxiv.org/abs/2007.00611v4 )

ライセンス: Link先を確認
Sina Ghiassian, Andrew Patterson, Shivam Garg, Dhawal Gupta, Adam White, Martha White(参考訳) q-learning とtemporal difference (td) の学習は、発散問題や音勾配 td の代替物が存在するにもかかわらず一般的である。 しかし、最近の大規模ニューラルネットワーク学習システムによる研究により、不安定性は以前考えられていたよりも一般的であることが判明した。 実践者は難しいジレンマに直面している: 使いやすくパフォーマンスのよいTD法を選択するか、より健全でチューニングが難しく、非線形関数近似や制御で探索されていないアルゴリズムを選択する。 本稿では,tdrc(regularized corrections)と呼ばれる,使いやすさ,音質,性能のバランスを図る新しい手法を提案する。 TDがうまく機能するとTDと同様に振る舞うが、TDが分岐する場合には音が聞こえる。 予測と制御、線形関数近似と非線形関数近似の両方において、様々な問題にわたるtdrcを実証的に検討し、初めて勾配td法がtdとq-learningのより良い代替になりうることを示した。

It is still common to use Q-learning and temporal difference (TD) learning-even though they have divergence issues and sound Gradient TD alternatives exist-because divergence seems rare and they typically perform well. However, recent work with large neural network learning systems reveals that instability is more common than previously thought. Practitioners face a difficult dilemma: choose an easy to use and performant TD method, or a more complex algorithm that is more sound but harder to tune and all but unexplored with non-linear function approximation or control. In this paper, we introduce a new method called TD with Regularized Corrections (TDRC), that attempts to balance ease of use, soundness, and performance. It behaves as well as TD, when TD performs well, but is sound in cases where TD diverges. We empirically investigate TDRC across a range of problems, for both prediction and control, and for both linear and non-linear function approximation, and show, potentially for the first time, that gradient TD methods could be a better alternative to TD and Q-learning.
翻訳日:2022-11-14 21:41:28 公開日:2020-09-17
# リカレントニューラルネットワークと微分方程式に基づく時空間感染症モデルとCOVID-19への応用

A Recurrent Neural Network and Differential Equation Based Spatiotemporal Infectious Disease Model with Application to COVID-19 ( http://arxiv.org/abs/2007.10929v2 )

ライセンス: Link先を確認
Zhijian Li, Yunling Zheng, Jack Xin, and Guofa Zhou(参考訳) コロナウイルス感染症2019(COVID-19)の流行は世界に大きな影響を与えた。 感染者の感染傾向とリアルタイム予測のモデル化は、疾患の意思決定とコントロールの拡大に役立つ。 しかし、リカレントニューラルネットワーク(RNN)のようなデータ駆動型手法は、時間的に制限された日々のサンプルのために性能が低下する可能性がある。 本研究では,拡散微分方程式(SIR)とRNNに基づく時空間統合モデルを開発する。 前者は簡易化と離散化の後に、ある領域の時間的感染傾向のコンパクトモデルであり、後者は隣り合う領域の効果をモデル化する。 後者は潜在空間情報をキャプチャする。 %は公表されていない。 イタリアの新型コロナウイルス(COVID-19)データをトレーニングし,既存の時間モデル(NN,SIR,ARIMA)を1日,3日,1週間の予測で上回っていることを示す。

The outbreaks of Coronavirus Disease 2019 (COVID-19) have impacted the world significantly. Modeling the trend of infection and real-time forecasting of cases can help decision making and control of the disease spread. However, data-driven methods such as recurrent neural networks (RNN) can perform poorly due to limited daily samples in time. In this work, we develop an integrated spatiotemporal model based on the epidemic differential equations (SIR) and RNN. The former after simplification and discretization is a compact model of temporal infection trend of a region while the latter models the effect of nearest neighboring regions. The latter captures latent spatial information. %that is not publicly reported. We trained and tested our model on COVID-19 data in Italy, and show that it out-performs existing temporal models (fully connected NN, SIR, ARIMA) in 1-day, 3-day, and 1-week ahead forecasting especially in the regime of limited training data.
翻訳日:2022-11-10 14:24:26 公開日:2020-09-17
# 文脈言語モデルのアンサンブルを用いた化学特許における名前付きエンティティ認識

Named entity recognition in chemical patents using ensemble of contextual language models ( http://arxiv.org/abs/2007.12569v2 )

ライセンス: Link先を確認
Jenny Copara and Nona Naderi and Julien Knafou and Patrick Ruch and Douglas Teodoro(参考訳) 化学特許文書は、化学構造、反応式、分子特性など、キー反応と化合物情報を保持する幅広い応用を記述している。 これらの情報エンティティは、ダウンストリームタスクで使用されるテキストパスで最初に識別されるべきである。 テキストマイニングは、情報抽出技術を通じて化学特許から関連情報を抽出する手段を提供する。 化学情報学エルゼビエメルボルン大学チャレンジの情報抽出タスクの一環として, 化学特許における反応情報抽出における文脈化言語モデルの有効性について検討した。 我々は,新しいアンサンブルモデルを提案するために,ジェネリックで特殊化されたコーパスで訓練されたトランスフォーマーアーキテクチャを評価する。 我々の最良のモデルは、多数アンサンブルのアプローチに基づくもので、正確なF1スコアは92.30%、緩和されたF1スコアは96.24%に達する。 その結果, 文脈型言語モデルのアンサンブルは, 化学特許から情報を抽出する有効な方法であることがわかった。

Chemical patent documents describe a broad range of applications holding key reaction and compound information, such as chemical structure, reaction formulas, and molecular properties. These informational entities should be first identified in text passages to be utilized in downstream tasks. Text mining provides means to extract relevant information from chemical patents through information extraction techniques. As part of the Information Extraction task of the Cheminformatics Elsevier Melbourne University challenge, in this work we study the effectiveness of contextualized language models to extract reaction information in chemical patents. We assess transformer architectures trained on a generic and specialised corpora to propose a new ensemble model. Our best model, based on a majority ensemble approach, achieves an exact F1-score of 92.30% and a relaxed F1-score of 96.24%. The results show that ensemble of contextualized language models can provide an effective method to extract information from chemical patents.
翻訳日:2022-11-07 06:40:14 公開日:2020-09-17
# 自己教師付き学習とバックサムマリゼーションを用いた抽象的音声要約にラベルなしデータを活用する

Leverage Unlabeled Data for Abstractive Speech Summarization with Self-Supervised Learning and Back-Summarization ( http://arxiv.org/abs/2007.15296v2 )

ライセンス: Link先を確認
Paul Tardy, Louis de Seynes, Fran\c{c}ois Hernandez, Vincent Nguyen, David Janiszek, Yannick Est\`eve(参考訳) 神経抽象的要約のための教師付きアプローチは、構築にコストがかかる大きな注釈付きコーパスを必要とする。 本稿では,会議音声記録の自動書き起こしに基づいて報告を予測したフランス会議要約タスクを提案する。 このタスクのためのコーパスを構築するには、各ミーティングの(自動的または手動の)書き起こしを取得し、それを対応するマニュアルレポートに分割して調整し、トレーニングに適したトレーニングサンプルを作成する必要がある。 一方で、私たちは大量の非整合データ、特に対応する転写なしでレポートにアクセスできます。 レポートはプロフェッショナルに書かれ、フォーマットがよく、前処理を簡単にします。 この文脈では、2つのアプローチを用いてこの膨大な不整合データを利用する方法を研究する。 (i)対象側デノイジングエンコーダ・デコーダモデルを用いた自己教師付き事前学習 (ii)要約過程の逆転、すなわち、レポートに与えられた書き起こしを予測し、単一のレポートを生成された書き起こしと整合させ、この合成データセットを更なる訓練に使用すること。 本報告では,2つの評価セットに対する2つのアプローチについて,前回のベースライン(アライメントデータのみに基づく)と比較して大きな改善点を報告する。 さらにこの2つを組み合わせることで,2つの評価セットにおいて,+6 ROUGE-1と+5 ROUGE-2の大きなマージンでベースラインを上回り,さらによい結果が得られる。

Supervised approaches for Neural Abstractive Summarization require large annotated corpora that are costly to build. We present a French meeting summarization task where reports are predicted based on the automatic transcription of the meeting audio recordings. In order to build a corpus for this task, it is necessary to obtain the (automatic or manual) transcription of each meeting, and then to segment and align it with the corresponding manual report to produce training examples suitable for training. On the other hand, we have access to a very large amount of unaligned data, in particular reports without corresponding transcription. Reports are professionally written and well formatted making pre-processing straightforward. In this context, we study how to take advantage of this massive amount of unaligned data using two approaches (i) self-supervised pre-training using a target-side denoising encoder-decoder model; (ii) back-summarization i.e. reversing the summarization process by learning to predict the transcription given the report, in order to align single reports with generated transcription, and use this synthetic dataset for further training. We report large improvements compared to the previous baseline (trained on aligned data only) for both approaches on two evaluation sets. Moreover, combining the two gives even better results, outperforming the baseline by a large margin of +6 ROUGE-1 and ROUGE-L and +5 ROUGE-2 on two evaluation sets
翻訳日:2022-11-05 13:57:20 公開日:2020-09-17
# 動作認識のためのBERTを用いた3次元CNNアーキテクチャの後期時間モデリング

Late Temporal Modeling in 3D CNN Architectures with BERT for Action Recognition ( http://arxiv.org/abs/2008.01232v3 )

ライセンス: Link先を確認
M. Esat Kalfaoglu, Sinan Kalkan, A. Aydin Alatan(参考訳) 本研究では,動作認識のための3次元畳み込みと遅延時間モデルを組み合わせる。 この目的のために,3次元畳み込みアーキテクチャの終端にある従来の時間的大域平均プーリング(tgap)層をトランスフォーマ(bert)層からの双方向エンコーダ表現に置き換え,bertの注意機構を用いた時間的情報の利用性を向上させる。 この代替により、ResNeXt、I3D、SlowFast、R(2+1)Dなど、アクション認識のための一般的な3D畳み込みアーキテクチャの性能が向上することを示す。 さらに、HMDB51とUCF101のデータセットのそれぞれ85.10%と98.69%のトップ-1の精度で、最先端の結果を提供する。 コードは公開されている。

In this work, we combine 3D convolution with late temporal modeling for action recognition. For this aim, we replace the conventional Temporal Global Average Pooling (TGAP) layer at the end of 3D convolutional architecture with the Bidirectional Encoder Representations from Transformers (BERT) layer in order to better utilize the temporal information with BERT's attention mechanism. We show that this replacement improves the performances of many popular 3D convolution architectures for action recognition, including ResNeXt, I3D, SlowFast and R(2+1)D. Moreover, we provide the-state-of-the-art results on both HMDB51 and UCF101 datasets with 85.10% and 98.69% top-1 accuracy, respectively. The code is publicly available.
翻訳日:2022-11-03 06:49:40 公開日:2020-09-17
# プロポーショナル・ハザード非負マトリックス因子化による低ランク再組織化による遺伝子クラスターの生存

Low-Rank Reorganization via Proportional Hazards Non-negative Matrix Factorization Unveils Survival Associated Gene Clusters ( http://arxiv.org/abs/2008.03776v2 )

ライセンス: Link先を確認
Zhi Huang, Paul Salama, Wei Shao, Jie Zhang, Kun Huang(参考訳) 精密健康における中心的な目標の1つは、疾患の開始、発生、結果に関連する遺伝子やマーカーを特定するための高次元生物学的データの理解と解釈である。 生存時間を含む時間-事象モデリングを考慮しつつ、複数の解析で遺伝子発現データを活用することに多大な努力がなされているが、多くの伝統的な分析は遺伝子発現データ行列の非負行列分解(nmf)とcox比例ハザードモデルによる生存回帰に注目している。 この研究において、Cox比例ハザードの回帰は生存制約を課すことでNMFと統合される。 これは、フロベニウスのノルムと、死や再発のような事象に対する部分ログの確率を共同で最適化することで達成される。 合成データのシミュレーションの結果,他のアルゴリズムと比較して,生存関連遺伝子クラスターの発見において,提案手法の優位性を示した。 さらに, ヒト癌遺伝子発現データを用いて, 癌遺伝子の重要なクラスターを探索する手法を提案する。 発見された遺伝子クラスターは、豊富な生物学的意義を反映しており、生存関連バイオマーカーの同定に役立ちます。 精度の高い健康とがん治療の目標に向けて,提案アルゴリズムは生存関連遺伝子クラスターの正確な同定による高次元異種ゲノムデータの理解と解釈を支援する。

One of the central goals in precision health is the understanding and interpretation of high-dimensional biological data to identify genes and markers associated with disease initiation, development, and outcomes. Though significant effort has been committed to harness gene expression data for multiple analyses while accounting for time-to-event modeling by including survival times, many traditional analyses have focused separately on non-negative matrix factorization (NMF) of the gene expression data matrix and survival regression with Cox proportional hazards model. In this work, Cox proportional hazards regression is integrated with NMF by imposing survival constraints. This is accomplished by jointly optimizing the Frobenius norm and partial log likelihood for events such as death or relapse. Simulation results on synthetic data demonstrated the superiority of the proposed method, when compared to other algorithms, in finding survival associated gene clusters. In addition, using human cancer gene expression data, the proposed technique can unravel critical clusters of cancer genes. The discovered gene clusters reflect rich biological implications and can help identify survival-related biomarkers. Towards the goal of precision health and cancer treatments, the proposed algorithm can help understand and interpret high-dimensional heterogeneous genomics data with accurate identification of survival-associated gene clusters.
翻訳日:2022-11-01 04:06:34 公開日:2020-09-17
# ARPM-net : Markov Random Field を用いた骨盤CT画像における前立腺および臓器の危険セグメンテーションにおける新しいCNN-based adversarial method

ARPM-net: A novel CNN-based adversarial method with Markov Random Field enhancement for prostate and organs at risk segmentation in pelvic CT images ( http://arxiv.org/abs/2008.04488v4 )

ライセンス: Link先を確認
Zhuangzhuang Zhang, Tianyu Zhao, Hiram Gay, Weixiong Zhang, Baozhou Sun(参考訳) 目的: 骨盤CT画像の多臓器セマンティックセグメンテーションを改善し, 高速化し, 骨盤CT画像の正確な輪郭を生成するために, 新たなCNNベースの逆深層学習法を開発することである。 方法:前立腺癌120例を対象としたCTと構造データセットを振り返って選択し,10倍のクロスバリデーションを行った。 提案するadversarial multi-residual multi-residual pooling markov random field (mrf) enhanced network (arpm-net) は,対向学習方式を実装している。 セグメンテーションネットワークと差別化ネットワークを共同でトレーニングし、予測にはセグメンテーションネットワークのみを使用した。 セグメンテーションネットワークは、新しく設計されたMRFブロックをマルチレジデンシャルなU-netのバリエーションに統合する。 判別器は、元のCTと予測/地上真実の積を入力とし、入力を偽/現実に分類する。 セグメンテーションネットワークと判別器ネットワークとを総合的に訓練したり、セグメンテーションネットワークを粗く訓練した後に判別器を微調整したりすることができる。 マルチスケールプーリング層を導入し,アトラス畳み込み層に比べて少ないメモリでプール時の空間分解能を保った。 適応的損失関数は小または低コントラスト臓器の訓練を強化するために提案された。 モデル付き輪郭の精度はDice similarity coefficient (DSC), Average Hausdorff Distance (AHD), Average Surface Hausdorff Distance (ASHD), relative Volume difference (VD) を用いて測定した。 提案手法は,最先端のディープラーニング手法と比較した。

Purpose: The research is to develop a novel CNN-based adversarial deep learning method to improve and expedite the multi-organ semantic segmentation of CT images, and to generate accurate contours on pelvic CT images. Methods: Planning CT and structure datasets for 120 patients with intact prostate cancer were retrospectively selected and divided for 10-fold cross-validation. The proposed adversarial multi-residual multi-scale pooling Markov Random Field (MRF) enhanced network (ARPM-net) implements an adversarial training scheme. A segmentation network and a discriminator network were trained jointly, and only the segmentation network was used for prediction. The segmentation network integrates a newly designed MRF block into a variation of multi-residual U-net. The discriminator takes the product of the original CT and the prediction/ground-truth as input and classifies the input into fake/real. The segmentation network and discriminator network can be trained jointly as a whole, or the discriminator can be used for fine-tuning after the segmentation network is coarsely trained. Multi-scale pooling layers were introduced to preserve spatial resolution during pooling using less memory compared to atrous convolution layers. An adaptive loss function was proposed to enhance the training on small or low contrast organs. The accuracy of modeled contours was measured with the Dice similarity coefficient (DSC), Average Hausdorff Distance (AHD), Average Surface Hausdorff Distance (ASHD), and relative Volume Difference (VD) using clinical contours as references to the ground-truth. The proposed ARPM-net method was compared to several stateof-the-art deep learning methods.
翻訳日:2022-10-31 12:11:52 公開日:2020-09-17
# グラフコンパイラとコンテナを使用したAIトレーニングデプロイメントの最適化

Optimising AI Training Deployments using Graph Compilers and Containers ( http://arxiv.org/abs/2008.11675v2 )

ライセンス: Link先を確認
Nina Mujkanovic and Karthee Sivalingam and Alfio Lazzaro(参考訳) ディープニューラルネットワーク(DNN)やディープ・ラーニング(DL)に基づく人工知能(AI)アプリケーションは、画像解析や音声認識といった問題の解決に成功して普及している。 DNNのトレーニングは計算集約的であり、ハイパフォーマンスコンピューティング(HPC)がAIの成長の鍵を握っている。 仮想化とコンテナ技術は、クラウドとHPCインフラストラクチャの収束につながった。 多様なハードウェアを備えたこれらのインフラストラクチャは、AIトレーニングワークロードのデプロイと最適化の複雑さを高めます。 HPCやクラウドでのAIトレーニングデプロイメントは、ターゲット固有のライブラリ、グラフコンパイラ、データ移動やIOの改善によって最適化できる。 グラフコンパイラは、ターゲットハードウェア/バックエンドの最適化コードを生成することにより、DNNグラフの実行を最適化することを目指している。 sodalite(horizon 2020プロジェクト)の一部としてmodakツールが開発され、ソフトウェア定義インフラストラクチャにおけるアプリケーションのデプロイを最適化する。 データサイエンティストとパフォーマンスモデリングからの入力を使用して、MODAKは最適なアプリケーションパラメータをターゲットインフラストラクチャにマッピングし、最適化されたコンテナを構築する。 本稿では、MODAKを導入し、コンテナ技術とAI用のグラフコンパイラについてレビューする。 グラフコンパイラとSingularityコンテナを用いたAIトレーニングデプロイメントの最適化について説明する。 MNIST-CNNとResNet50のトレーニングワークロードを使用した評価は、カスタムビルドされた最適化コンテナがDockerHubの公式イメージより優れていることを示している。 また,グラフコンパイラの性能は,対象ハードウェアとニューラルネットワークの複雑さに依存することがわかった。

Artificial Intelligence (AI) applications based on Deep Neural Networks (DNN) or Deep Learning (DL) have become popular due to their success in solving problems likeimage analysis and speech recognition. Training a DNN is computationally intensive and High Performance Computing(HPC) has been a key driver in AI growth. Virtualisation and container technology have led to the convergence of cloud and HPC infrastructure. These infrastructures with diverse hardware increase the complexity of deploying and optimising AI training workloads. AI training deployments in HPC or cloud can be optimised with target-specific libraries, graph compilers, andby improving data movement or IO. Graph compilers aim to optimise the execution of a DNN graph by generating an optimised code for a target hardware/backend. As part of SODALITE (a Horizon 2020 project), MODAK tool is developed to optimise application deployment in software defined infrastructures. Using input from the data scientist and performance modelling, MODAK maps optimal application parameters to a target infrastructure and builds an optimised container. In this paper, we introduce MODAK and review container technologies and graph compilers for AI. We illustrate optimisation of AI training deployments using graph compilers and Singularity containers. Evaluation using MNIST-CNN and ResNet50 training workloads shows that custom built optimised containers outperform the official images from DockerHub. We also found that the performance of graph compilers depends on the target hardware and the complexity of the neural network.
翻訳日:2022-10-24 22:13:47 公開日:2020-09-17
# 実例による型駆動型ニューラルプログラミング

Type-driven Neural Programming by Example ( http://arxiv.org/abs/2008.12613v5 )

ライセンス: Link先を確認
Kiara Grouwstra(参考訳) この論文では、与えられた入力を与えられた出力にマッピングするプログラムを見つけることを目的とした、例によるプログラミング(PBE)について考察する。 pbeは伝統的に形式的アプローチと神経的アプローチの2つに分かれており、形式的アプローチは一般にsatソルバや型のような推論的手法を伴い、一方、神経的アプローチは対応するプログラムでサンプル入力出力をトレーニングし、典型的にはlstms[41]のようなシーケンスベースの機械学習技術を使用する。 この分割の結果、プログラミングの型は、まだニューラルプログラム合成技術に使われていなかった。 本稿では,プログラム型をPBEのためのニューラルプログラム合成手法に組み込む方法を提案する。 本稿では,このアイデアに基づいて,TNSPS(Typed Neuro-Symbolic Program Synthesis)法を導入し,これを関数型プログラミングの文脈で検証することにより,限定サイズのデータセット上でのニューラルシンセサイザーの一般化を実証的に検証する。 tnspsモデルは、入力出力サンプルからの情報と現在のプログラムを組み合わせるツリーベースのニューラルシンセサイザーである、既存のニューロシンボリックプログラム合成(nsps)に基づいており、これらの入力出力サンプルの種類、文法生成ルール、プログラムで拡張したいホールに関する情報をさらに公開しています。 我々はさらに、合成言語としてhaskellの限られたサブセットを使用するドメイン内でデータセットをどのように生成したかを説明します。 最後に、これらのアイデアをさらに深めるのに役立ついくつかの関心事について論じる。 再現性のため、コードを公開しています。

In this thesis we look into programming by example (PBE), which is about finding a program mapping given inputs to given outputs. PBE has traditionally seen a split between formal versus neural approaches, where formal approaches typically involve deductive techniques such as SAT solvers and types, while the neural approaches involve training on sample input-outputs with their corresponding program, typically using sequence-based machine learning techniques such as LSTMs [41]. As a result of this split, programming types had yet to be used in neural program synthesis techniques. We propose a way to incorporate programming types into a neural program synthesis approach for PBE. We introduce the Typed Neuro-Symbolic Program Synthesis (TNSPS) method based on this idea, and test it in the functional programming context to empirically verify type information may help improve generalization in neural synthesizers on limited-size datasets. Our TNSPS model builds upon the existing Neuro-Symbolic Program Synthesis (NSPS), a tree-based neural synthesizer combining info from input-output examples plus the current program, by further exposing information on types of those input-output examples, of the grammar production rules, as well as of the hole that we wish to expand in the program. We further explain how we generated a dataset within our domain, which uses a limited subset of Haskell as the synthesis language. Finally we discuss several topics of interest that may help take these ideas further. For reproducibility, we release our code publicly.
翻訳日:2022-10-24 02:32:30 公開日:2020-09-17
# 医用画像のためのニューラルネットワークにおける知識伝達の評価

Evaluating Knowledge Transfer in Neural Network for Medical Images ( http://arxiv.org/abs/2008.13574v2 )

ライセンス: Link先を確認
Sina Akbarian, Laleh Seyyed-Kalantari, Farzad Khalvati, and Elham Dolatabadi(参考訳) 深層学習と知識伝達技術は医療画像の分野に浸透し、診断イメージングの実践に革命をもたらす重要なアプローチと考えられている。 しかし、大量の注記画像データがないため、深層学習の医療画像タスクへの統合が成功するには依然として課題がある。 この問題に対処するために、慎重に訓練された畳み込みニューラルネットワーク(CNN)教師から学生CNNへ知識を伝達する教師学習フレームワークを提案する。 本研究では,医用撮像装置における知識伝達性能について検討する。 学生ネットワークが小さなデータセット(ターゲットデータセット)上で訓練された場合と教師と生徒のドメインが異なる場合のネットワーク性能について検討した。 CNNモデルの性能は、糖尿病網膜症、CheXpert、ChestX-ray8を含む3つの医療画像データセットで評価される。 その結果,教師の学習フレームワークは,小さな画像データセットの転送学習よりも優れていた。 特に、教師の学習フレームワークは、CNNモデルのOC曲線(AUC)の小さなサンプルであるCheXpert(n=5k)の領域を4%、ChestX-ray8(n=5.6k)の領域を9%改善する。 また,データサイズが小さいことに加えて,移動学習と比較して,医用画像設定における教師学生学習フレームワークの利点も明らかに示す。 教師と学生のネットワークは、診断性能を向上させるだけでなく、データセットが小さい場合の過度な適合を抑えるという大きな約束を果たす。

Deep learning and knowledge transfer techniques have permeated the field of medical imaging and are considered as key approaches for revolutionizing diagnostic imaging practices. However, there are still challenges for the successful integration of deep learning into medical imaging tasks due to a lack of large annotated imaging data. To address this issue, we propose a teacher-student learning framework to transfer knowledge from a carefully pre-trained convolutional neural network (CNN) teacher to a student CNN. In this study, we explore the performance of knowledge transfer in the medical imaging setting. We investigate the proposed network's performance when the student network is trained on a small dataset (target dataset) as well as when teacher's and student's domains are distinct. The performances of the CNN models are evaluated on three medical imaging datasets including Diabetic Retinopathy, CheXpert, and ChestX-ray8. Our results indicate that the teacher-student learning framework outperforms transfer learning for small imaging datasets. Particularly, the teacher-student learning framework improves the area under the ROC Curve (AUC) of the CNN model on a small sample of CheXpert (n=5k) by 4% and on ChestX-ray8 (n=5.6k) by 9%. In addition to small training data size, we also demonstrate a clear advantage of the teacher-student learning framework in the medical imaging setting compared to transfer learning. We observe that the teacher-student network holds a great promise not only to improve the performance of diagnosis but also to reduce overfitting when the dataset is small.
翻訳日:2022-10-23 07:26:46 公開日:2020-09-17
# エッジ推論のためのディープニューラルネットワーク最適化のスケールアップ

Scaling Up Deep Neural Network Optimization for Edge Inference ( http://arxiv.org/abs/2009.00278v3 )

ライセンス: Link先を確認
Bingqian Lu, Jianyi Yang, and Shaolei Ren(参考訳) ディープニューラルネットワーク(DNN)は、携帯電話、ドローン、ロボット、ウェアラブルといったエッジデバイスにますますデプロイされ、統合されている。 DNN推論を直接エッジデバイス(エッジ推論)で実行するためには、DNN設計(ネットワークアーキテクチャや量子化ポリシーなど)を最適化することが不可欠である。 最先端のDNN設計では、最適化プロセスの高速化に性能予測器を活用しているが、デバイス固有の(すなわち1つのターゲットデバイスに対する各予測器)ため、非常に多様なエッジデバイスの存在下ではうまくスケールできない。 さらに、性能予測器でさえ、多くの異なるデバイスでDNNを最適化する場合、オプティマイザ(例えば検索ベースの最適化)は時間がかかる。 本稿では,DNN最適化のスケールアップのための2つのアプローチを提案する。 最初のアプローチでは、プロキシデバイス上に構築されたパフォーマンス予測器を再利用し、パフォーマンスの単調性を利用してDNN最適化をスケールアップする。 第2のアプローチでは、DNNデバイスペアに与えられた結果のパフォーマンス(例えば、推論精度/遅延/エネルギー)を推定できるスケーラブルなパフォーマンス予測器を構築し、デバイスの特徴と最適化パラメータの両方を入力として取り込むニューラルネットワークベースの自動最適化器を使用し、各デバイスに対して長い最適化プロセスを経ずに最適なDNN設計を直接出力する。

Deep neural networks (DNNs) have been increasingly deployed on and integrated with edge devices, such as mobile phones, drones, robots and wearables. To run DNN inference directly on edge devices (a.k.a. edge inference) with a satisfactory performance, optimizing the DNN design (e.g., network architecture and quantization policy) is crucial. While state-of-the-art DNN designs have leveraged performance predictors to speed up the optimization process, they are device-specific (i.e., each predictor for only one target device) and hence cannot scale well in the presence of extremely diverse edge devices. Moreover, even with performance predictors, the optimizer (e.g., search-based optimization) can still be time-consuming when optimizing DNNs for many different devices. In this work, we propose two approaches to scaling up DNN optimization. In the first approach, we reuse the performance predictors built on a proxy device, and leverage the performance monotonicity to scale up the DNN optimization without re-building performance predictors for each different device. In the second approach, we build scalable performance predictors that can estimate the resulting performance (e.g., inference accuracy/latency/energy) given a DNN-device pair, and use a neural network-based automated optimizer that takes both device features and optimization parameters as input and then directly outputs the optimal DNN design without going through a lengthy optimization process for each individual device.
翻訳日:2022-10-23 00:33:56 公開日:2020-09-17
# プール型アクティブラーニングによるシミュレーションケースの自動選択によるエンジニアリング設計の高速化

Accelerating engineering design by automatic selection of simulation cases through Pool-Based Active Learning ( http://arxiv.org/abs/2009.01420v2 )

ライセンス: Link先を確認
J.H. Gaspar Elsas, N.A.G. Casaprima, I.F.M. Menezes(参考訳) 多くのエンジニアリング設計問題に共通するワークフローでは、設計システムの評価をさまざまな条件下で行う必要がある。 これらの条件は通常、複数のパラメータの組み合わせを含む。 単一の候補構成の完全な評価を行うには、数百から数千のシミュレーションを実行する必要がある。 これは計算量的に非常に高価であり、特に設計問題の数学的最適化の場合のように、いくつかの構成を評価する必要がある場合である。 シミュレーションは非常に複雑であるが、多くのケースは互いにわずかに異なるため、一般的には高い冗長性が存在する。 この冗長性は、不均一なシミュレーションを省略することで、完全なシステムの合理的な近似を得るのに必要なシミュレーションの数を削減できる。 シミュレーションが有効な決定は、機械学習技術を用いて行われており、すでに実行されているシミュレーションから、"Yet-to-be-performed"シミュレーションの結果を推定することができる。 本研究では,そのような手法であるアクティブラーニング(active learning)の結果から,オフショアライザー設計のシミュレーションポートフォリオ全体について,従来のものよりも80%小さい部分集合から近似的な結果を得る。 これらの結果は、オフショアライザー設計における大幅なスピードアップを促進することが期待されている。

A common workflow for many engineering design problems requires the evaluation of the design system to be investigated under a range of conditions. These conditions usually involve a combination of several parameters. To perform a complete evaluation of a single candidate configuration, it may be necessary to perform hundreds to thousands of simulations. This can be computationally very expensive, particularly if several configurations need to be evaluated, as in the case of the mathematical optimization of a design problem. Although the simulations are extremely complex, generally, there is a high degree of redundancy in them, as many of the cases vary only slightly from one another. This redundancy can be exploited by omitting some simulations that are uninformative, thereby reducing the number of simulations required to obtain a reasonable approximation of the complete system. The decision of which simulations are useful is made through the use of machine learning techniques, which allow us to estimate the results of "yet-to-be-performed" simulations from the ones that are already performed. In this study, we present the results of one such technique, namely active learning, to provide an approximate result of an entire offshore riser design simulation portfolio from a subset that is 80% smaller than the original one. These results are expected to facilitate a significant speed-up in the offshore riser design.
翻訳日:2022-10-22 08:12:12 公開日:2020-09-17
# 空間的モンテカルロ積分の一般化

A Generalization of Spatial Monte Carlo Integration ( http://arxiv.org/abs/2009.02165v2 )

ライセンス: Link先を確認
Muneki Yasuda and Kei Uchizawa(参考訳) 空間モンテカルロ積分(SMCI)は標準モンテカルロ積分の拡張であり、マルコフ確率場への期待を高精度に近似することができる。 SMCIはペアワイズ・ボルツマン・マシン(PBM)学習に適用され、既存の手法よりも優れた結果を得た。 SMCIの近似レベルは変化し, SMCIの高次近似は低次近似よりも統計的に正確であることが証明された。 しかし、以前の研究で提案されたSMCIは、高次法を高密度システムに適用できないような制限に悩まされている。 この研究は次の2つの異なる貢献をしている。 上記の制限を緩和できる一般化SMCI(Generalized SMCI: Generalized SMCI)が提案され、GSMCIの統計的精度境界が証明された。 これがこの研究の最初の貢献である。 SMCIに基づく新しいPBM学習法を提案する。 提案手法は,学習精度を大幅に向上させる。 これが本研究の第二の貢献である。

Spatial Monte Carlo integration (SMCI) is an extension of standard Monte Carlo integration and can approximate expectations on Markov random fields with high accuracy. SMCI was applied to pairwise Boltzmann machine (PBM) learning, with superior results to those from some existing methods. The approximation level of SMCI can be changed, and it was proved that a higher-order approximation of SMCI is statistically more accurate than a lower-order approximation. However, SMCI as proposed in the previous studies suffers from a limitation that prevents the application of a higher-order method to dense systems. This study makes two different contributions as follows. A generalization of SMCI (called generalized SMCI (GSMCI)) is proposed, which allows relaxation of the above-mentioned limitation; moreover, a statistical accuracy bound of GSMCI is proved. This is the first contribution of this study. A new PBM learning method based on SMCI is proposed, which is obtained by combining SMCI and the persistent contrastive divergence. The proposed learning method greatly improves the accuracy of learning. This is the second contribution of this study.
翻訳日:2022-10-22 01:33:34 公開日:2020-09-17
# 記述論理における難解推論:dl^nの概要

Defeasible reasoning in Description Logics: an overview on DL^N ( http://arxiv.org/abs/2009.04978v2 )

ライセンス: Link先を確認
Piero A. Bonatti, Iliana M. Petrova, Luigi Sauro(参考訳) DL^Nは、記述ロジックを非実現可能な推論能力で拡張する最近のアプローチである。 本稿では,DL^Nについて概説し,その基盤となる知識工学的要件と,DL^Nを連続的セマンティックおよび計算上の欠点から保護する特徴について述べる。 また, DL^Nと他の非単調な意味論を比較し, KLM仮定とDL^Nの関係を明らかにする。

DL^N is a recent approach that extends description logics with defeasible reasoning capabilities. In this paper we provide an overview on DL^N, illustrating the underlying knowledge engineering requirements as well as the characteristic features that preserve DL^N from some recurrent semantic and computational drawbacks. We also compare DL^N with some alternative nonmonotonic semantics, enlightening the relationships between the KLM postulates and DL^N.
翻訳日:2022-10-20 03:37:42 公開日:2020-09-17
# 適合モデルによるクラス近傍の導出

Deducing neighborhoods of classes from a fitted model ( http://arxiv.org/abs/2009.05516v2 )

ライセンス: Link先を確認
Alexander Gerharz, Andreas Groll, Gunther Schauberger(参考訳) 今日の世界では、巨大なデータセットに対する非常に複雑なモデルの要求が着実に増加している。 これらのモデルの問題は、モデルの複雑さを高めることで、それらを理解するのがずっと難しくなります。 emph{interpretable machine learning}の分野は、これらの複雑な(あるいはブラックボックス)モデルにおける解釈可能性の欠如を、これらのモデルをよりよく理解するのに役立つ特定の技術を用いて補おうとしている。 本稿では、分位シフトを用いた分類モデルにおいて、特徴空間の予測クラスへの分割を理解するのに役立つ新しいタイプの解釈可能な機械学習手法を提案する。 この量子シフト法(QSM)がどのような状況で有用かを説明するために、理論的な医学的例と実際のデータ例に適用する。 基本的には、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減らしたりした後の予測の変化を観察する。 操作前後の予測を比較することにより、ある条件下で観察された予測の変化を操作された特徴に関するクラスの近傍と解釈することができる。 コードグラフは観察された変化を可視化するために使用される。

In todays world the request for very complex models for huge data sets is rising steadily. The problem with these models is that by raising the complexity of the models, it gets much harder to interpret them. The growing field of \emph{interpretable machine learning} tries to make up for the lack of interpretability in these complex (or even blackbox-)models by using specific techniques that can help to understand those models better. In this article a new kind of interpretable machine learning method is presented, which can help to understand the partitioning of the feature space into predicted classes in a classification model using quantile shifts. To illustrate in which situations this quantile shift method (QSM) could become beneficial, it is applied to a theoretical medical example and a real data example. Basically, real data points (or specific points of interest) are used and the changes of the prediction after slightly raising or decreasing specific features are observed. By comparing the predictions before and after the manipulations, under certain conditions the observed changes in the predictions can be interpreted as neighborhoods of the classes with regard to the manipulated features. Chordgraphs are used to visualize the observed changes.
翻訳日:2022-10-19 21:16:55 公開日:2020-09-17
# 予測時空間分析におけるDemystifying Deep Learning: a Information-theoretic Framework

Demystifying Deep Learning in Predictive Spatio-Temporal Analytics: An Information-Theoretic Framework ( http://arxiv.org/abs/2009.06304v2 )

ライセンス: Link先を確認
Qi Tan, Yang Liu, Jiming Liu(参考訳) 深層学習は、特に病気予測、気候予測、交通予測など、様々な困難な時空間分析(PSTA)タスクにおいて、データ間の固有の依存関係関係が存在し、複数の時空間スケールで一般的に現れるような、過去数年間で驚くべき成功を収めてきた。 しかし、特定のPSTAタスクと対応するデータセットが与えられた場合、ディープラーニングモデルの望ましい構成を適切に決定し、モデルの学習行動を理論的に分析し、モデルの学習能力を定量的に評価する方法は謎のままである。 そこで本研究では,PSTAの深層学習の能力を明らかにするために,深層学習モデル設計と情報理論解析のための包括的枠組みを提案する。 まず,対話型および統合型接続型ディープリカレントニューラルネットワーク(I$^2$DRNN)モデルを開発した。 I$^2$DRNNは3つのモジュールから構成される: 不均一なソースからのデータを統合する入力モジュール、異なるスケールで情報をキャプチャし、層間をインタラクティブに流れるようにする隠れモジュール、そして様々な隠されたレイヤからの情報の統合的効果をモデル化して出力予測を生成する出力モジュール。 第二に、設計モデルがPSTAタスクのマルチスケール時空間依存性を学習できることを理論的に証明するために、提案モデルの情報ベース学習能力(i-CAP)を調べるための情報理論解析を提供する。 第3に、I$^2$DRNNモデルを検証し、そのi-CAPを確認するために、合成データセットと実世界のPSTAタスクの両方を含む一連の実験を系統的に実施する。 実験の結果,I$^2$DRNNモデルは従来のモデルと最先端モデルの両方より優れており,有意義なマルチスケール時空間依存性を捉えることができることがわかった。

Deep learning has achieved incredible success over the past years, especially in various challenging predictive spatio-temporal analytics (PSTA) tasks, such as disease prediction, climate forecast, and traffic prediction, where intrinsic dependency relationships among data exist and generally manifest at multiple spatio-temporal scales. However, given a specific PSTA task and the corresponding dataset, how to appropriately determine the desired configuration of a deep learning model, theoretically analyze the model's learning behavior, and quantitatively characterize the model's learning capacity remains a mystery. In order to demystify the power of deep learning for PSTA, in this paper, we provide a comprehensive framework for deep learning model design and information-theoretic analysis. First, we develop and demonstrate a novel interactively- and integratively-connected deep recurrent neural network (I$^2$DRNN) model. I$^2$DRNN consists of three modules: an Input module that integrates data from heterogeneous sources; a Hidden module that captures the information at different scales while allowing the information to flow interactively between layers; and an Output module that models the integrative effects of information from various hidden layers to generate the output predictions. Second, to theoretically prove that our designed model can learn multi-scale spatio-temporal dependency in PSTA tasks, we provide an information-theoretic analysis to examine the information-based learning capacity (i-CAP) of the proposed model. Third, to validate the I$^2$DRNN model and confirm its i-CAP, we systematically conduct a series of experiments involving both synthetic datasets and real-world PSTA tasks. The experimental results show that the I$^2$DRNN model outperforms both classical and state-of-the-art models, and is able to capture meaningful multi-scale spatio-temporal dependency.
翻訳日:2022-10-18 11:31:06 公開日:2020-09-17
# 言語プローブ選択に関する情報論的考察

An information theoretic view on selecting linguistic probes ( http://arxiv.org/abs/2009.07364v2 )

ライセンス: Link先を確認
Zining Zhu, Frank Rudzicz(参考訳) 神経表現にエンコードされた言語知識の評価に関心が高まっている。 一般的なアプローチは、内部表現から教師付き分類を行うために診断分類器(probe)をアタッチすることである。 しかし、良いプローブを選ぶ方法が議論されている。 hewitt and liang (2019) は、"知識に富む表現" か、pimentelら (2020) が挑戦した"タスクを学習するプローブ"("the probe learning the task")によって引き起こされるため、診断分類自体における高いパフォーマンスが不十分であることを示した。 この二分法が有効な情報理論であることを示す。 さらに,2つの論文において提案された良好なプローブの構成と選択を行う手法として,*control task* (Hewitt and Liang, 2019) と *control function* (Pimentel et al., 2020) が等価であることがわかった。 経験的に、これらの2つの選択基準は互いに強く同意する結果をもたらす。

There is increasing interest in assessing the linguistic knowledge encoded in neural representations. A popular approach is to attach a diagnostic classifier -- or "probe" -- to perform supervised classification from internal representations. However, how to select a good probe is in debate. Hewitt and Liang (2019) showed that a high performance on diagnostic classification itself is insufficient, because it can be attributed to either "the representation being rich in knowledge", or "the probe learning the task", which Pimentel et al. (2020) challenged. We show this dichotomy is valid information-theoretically. In addition, we find that the methods to construct and select good probes proposed by the two papers, *control task* (Hewitt and Liang, 2019) and *control function* (Pimentel et al., 2020), are equivalent -- the errors of their approaches are identical (modulo irrelevant terms). Empirically, these two selection criteria lead to results that highly agree with each other.
翻訳日:2022-10-18 06:17:02 公開日:2020-09-17
# マスク検出のためのマルチステージCNNアーキテクチャ

Multi-Stage CNN Architecture for Face Mask Detection ( http://arxiv.org/abs/2009.07627v2 )

ライセンス: Link先を確認
Amit Chavda, Jason Dsouza, Sumeet Badgujar, Ankit Damani(参考訳) 2019年末には、新型コロナウイルス感染症(COVID-19)が流行し、2020年になっても何百万人もの命とビジネスに害を与え続けている。 世界がパンデミックから回復し、正常状態に戻る計画がある中、すべての個人、特に対人活動の再開を目指す人々の間で不安の波が広がっている。 研究により、フェイスマスクを着用することでウイルス感染のリスクが大幅に減少し、保護感が得られることが示されている。 しかし、このポリシーの実装を手動で追跡することは不可能である。 テクノロジーが鍵を握っている。 顔のマスクが適切に使われていないインスタンスを検出できるディープラーニングベースのシステムを提案する。 本システムは,マスク面とマスク面を検出可能な2段畳み込みニューラルネットワーク(CNN)アーキテクチャにより構成され,プリインストールされたCCTVカメラと統合可能である。 これは、安全違反の追跡、フェイスマスクの使用促進、安全な作業環境の確保に役立つ。

The end of 2019 witnessed the outbreak of Coronavirus Disease 2019 (COVID-19), which has continued to be the cause of plight for millions of lives and businesses even in 2020. As the world recovers from the pandemic and plans to return to a state of normalcy, there is a wave of anxiety among all individuals, especially those who intend to resume in-person activity. Studies have proved that wearing a face mask significantly reduces the risk of viral transmission as well as provides a sense of protection. However, it is not feasible to manually track the implementation of this policy. Technology holds the key here. We introduce a Deep Learning based system that can detect instances where face masks are not used properly. Our system consists of a dual-stage Convolutional Neural Network (CNN) architecture capable of detecting masked and unmasked faces and can be integrated with pre-installed CCTV cameras. This will help track safety violations, promote the use of face masks, and ensure a safe working environment.
翻訳日:2022-10-18 00:49:00 公開日:2020-09-17
# RDF2Vec Light - 知識グラフ埋め込みのための軽量なアプローチ

RDF2Vec Light -- A Lightweight Approach for Knowledge Graph Embeddings ( http://arxiv.org/abs/2009.07659v2 )

ライセンス: Link先を確認
Jan Portisch, Michael Hladik, Heiko Paulheim(参考訳) 知識グラフ埋め込みアプローチは、グラフのノードとエッジを数学的ベクトルとして表現する。 現在のアプローチは完全な知識グラフ、すなわちすべてのノードとエッジの埋め込みに焦点を当てている。 これはDBpediaやWikidataのような大きなグラフに対して非常に高い計算要求をもたらす。 しかし、ほとんどのダウンストリームアプリケーションシナリオでは、概念のごく一部だけが実際の関心を集めている。 本稿では、サブセットのみのベクトルを生成するRDF2Vecをベースとした軽量な埋め込み方式RDF2Vec Lightを提案する。 この目的のために、RDF2Vec Lightは知識グラフのサブグラフのみを横断して処理する。 提案手法は,ランタイムが大幅に低下し,ハードウェア要件が大幅に削減されたため,それまでの組込みができなかったシナリオで,非常に大きな知識グラフの組込みを適用可能にする。

Knowledge graph embedding approaches represent nodes and edges of graphs as mathematical vectors. Current approaches focus on embedding complete knowledge graphs, i.e. all nodes and edges. This leads to very high computational requirements on large graphs such as DBpedia or Wikidata. However, for most downstream application scenarios, only a small subset of concepts is of actual interest. In this paper, we present RDF2Vec Light, a lightweight embedding approach based on RDF2Vec which generates vectors for only a subset of entities. To that end, RDF2Vec Light only traverses and processes a subgraph of the knowledge graph. Our method allows the application of embeddings of very large knowledge graphs in scenarios where such embeddings were not possible before due to a significantly lower runtime and significantly reduced hardware requirements.
翻訳日:2022-10-17 23:02:23 公開日:2020-09-17
# 量子ブースティングの改良

Improved Quantum Boosting ( http://arxiv.org/abs/2009.08360v1 )

ライセンス: Link先を確認
Adam Izdebski and Ronald de Wolf(参考訳) boostingは、弱い学習者(ランダムより少し良い仮説を生成する)を強い学習者(ランダムよりはるかに良い仮説を生成する)に変換する一般的な方法である。 最近、Arunachalam と Maity は、Freund と Schapire の AdaBoost アルゴリズムと近似カウントのための量子アルゴリズムを組み合わせることで、最初の量子改良を行った。 彼らのブースターは、弱い学習者の仮説クラスのVC次元の関数として古典的なブースティングよりも速いが、弱い学習者の質の関数として悪い。 本稿では,ServedioのSmoothBoostアルゴリズムに基づく,より高速でシンプルな量子ブースティングアルゴリズムを提案する。

Boosting is a general method to convert a weak learner (which generates hypotheses that are just slightly better than random) into a strong learner (which generates hypotheses that are much better than random). Recently, Arunachalam and Maity gave the first quantum improvement for boosting, by combining Freund and Schapire's AdaBoost algorithm with a quantum algorithm for approximate counting. Their booster is faster than classical boosting as a function of the VC-dimension of the weak learner's hypothesis class, but worse as a function of the quality of the weak learner. In this paper we give a substantially faster and simpler quantum boosting algorithm, based on Servedio's SmoothBoost algorithm.
翻訳日:2022-10-17 12:25:07 公開日:2020-09-17
# マトリックスゲームのための座標法

Coordinate Methods for Matrix Games ( http://arxiv.org/abs/2009.08447v1 )

ライセンス: Link先を確認
Yair Carmon, Yujia Jin, Aaron Sidford, Kevin Tian(参考訳) 我々は, 線形プログラミング, 分類, 回帰を含む, $\min_{x \in \mathcal{X}} \max_{y\in\mathcal{Y}} y^\top A x$ という形の双線型サドル点問題を解くための原始双対座標法を開発した。 提案手法は, 既存の全確率部分線形法と分散還元法を, 単体間複雑性とサンプル複雑性の観点から限界に推し進める。 テイラー近似を指数関数と二項ヒープに応用した効率的なデータ構造を設計し, ほぼ一点当たりの複雑性を求める。 我々は,行列成分の反復と等級に依存する動的サンプリング分布を用いて,低分散勾配推定器を用いて試料の複雑性を向上する。 私たちのランタイム境界は、m$ by $n$ matrix $a$のスパーシティ測度に依存する係数によって、既存のプリミティブメソッドのそれを改善する。 例えば、行と列が定数 $\ell_1/\ell_2$ のノルム比を持つ場合、完全確率的な設定では $m+n$ 、分散縮小設定では $\sqrt{m+n}$ の改善を提供する。 本手法を計算幾何学問題、すなわち最小囲い球、最大打ち込み球、線形回帰に適用し、改良された複雑性境界を求める。 要素的に非負行列を持つ線型回帰に対して、我々は$\sqrt{\mathrm{nnz}(A)/(m+n)}$ の係数で正確な勾配法を改善する。

We develop primal-dual coordinate methods for solving bilinear saddle-point problems of the form $\min_{x \in \mathcal{X}} \max_{y\in\mathcal{Y}} y^\top A x$ which contain linear programming, classification, and regression as special cases. Our methods push existing fully stochastic sublinear methods and variance-reduced methods towards their limits in terms of per-iteration complexity and sample complexity. We obtain nearly-constant per-iteration complexity by designing efficient data structures leveraging Taylor approximations to the exponential and a binomial heap. We improve sample complexity via low-variance gradient estimators using dynamic sampling distributions that depend on both the iterates and the magnitude of the matrix entries. Our runtime bounds improve upon those of existing primal-dual methods by a factor depending on sparsity measures of the $m$ by $n$ matrix $A$. For example, when rows and columns have constant $\ell_1/\ell_2$ norm ratios, we offer improvements by a factor of $m+n$ in the fully stochastic setting and $\sqrt{m+n}$ in the variance-reduced setting. We apply our methods to computational geometry problems, i.e. minimum enclosing ball, maximum inscribed ball, and linear regression, and obtain improved complexity bounds. For linear regression with an elementwise nonnegative matrix, our guarantees improve on exact gradient methods by a factor of $\sqrt{\mathrm{nnz}(A)/(m+n)}$.
翻訳日:2022-10-17 12:24:53 公開日:2020-09-17
# SREC: 深層強化学習によるエネルギー制約型UAVネットワークの積極的な自己修復

SREC: Proactive Self-Remedy of Energy-Constrained UAV-Based Networks via Deep Reinforcement Learning ( http://arxiv.org/abs/2009.08528v1 )

ライセンス: Link先を確認
Ran Zhang, Miao Wang, and Lin X. Cai(参考訳) 複数の無人航空機(UAV)のエネルギーを意識した制御は、UAVベースのネットワークにおける主要な研究の1つである。 しかし、uavラインアップが変更されたタイミングでネットワークがどのように反応すべきかに焦点を絞った既存の作業はほとんどない。 本研究では、1つ以上のUAVがエネルギー不足であり、充電を中止しようとしている場合に、エネルギー制約されたUAVネットワークの積極的な自己修復について検討する。 我々は,UAVがネットワークを離脱しようとしているときに,UAVを積極的に移動させる,エネルギーを意識した最適なUAV制御政策を目標としている。 具体的には,少なくとも1つのUAVがネットワークを終了する一定期間のユーザ満足度を最大化するために,深層強化学習(DRL)に基づく自己修復手法SREC-DRLを提案する。 問題の連続状態と動作空間を扱うために,アクター-批判的drl(deep deterministic policy gradient, ddpg)の最先端アルゴリズムを適用することにより,収束安定性が向上した。 数値計算の結果,SREC-DRL法は受動的反応法と比較すると,治療期間中の累積ユーザ満足度スコアが12.12\%以上向上していることがわかった。

Energy-aware control for multiple unmanned aerial vehicles (UAVs) is one of the major research interests in UAV based networking. Yet few existing works have focused on how the network should react around the timing when the UAV lineup is changed. In this work, we study proactive self-remedy of energy-constrained UAV networks when one or more UAVs are short of energy and about to quit for charging. We target at an energy-aware optimal UAV control policy which proactively relocates the UAVs when any UAV is about to quit the network, rather than passively dispatches the remaining UAVs after the quit. Specifically, a deep reinforcement learning (DRL)-based self remedy approach, named SREC-DRL, is proposed to maximize the accumulated user satisfaction scores for a certain period within which at least one UAV will quit the network. To handle the continuous state and action space in the problem, the state-of-the-art algorithm of the actor-critic DRL, i.e., deep deterministic policy gradient (DDPG), is applied with better convergence stability. Numerical results demonstrate that compared with the passive reaction method, the proposed SREC-DRL approach shows a $12.12\%$ gain in accumulative user satisfaction score during the remedy period.
翻訳日:2022-10-17 12:24:06 公開日:2020-09-17
# Force2Vec: 並列フォース指向グラフ埋め込み

Force2Vec: Parallel force-directed graph embedding ( http://arxiv.org/abs/2009.10035v1 )

ライセンス: Link先を確認
Md. Khaledur Rahman, Majedul Haque Sujon, Ariful Azad(参考訳) グラフ埋め込みアルゴリズムはグラフを低次元空間に埋め込み、グラフの固有特性を保存する。 グラフ埋め込みは基本的にグラフの可視化に関連しているが、以前の作業ではこの接続を明示的に利用していなかった。 我々は、機械学習(ML)と可視化タスクの両方に優れるグラフ埋め込み設定において、フォース指向グラフレイアウトモデルを使用するForce2Vecを開発した。 我々は、コア計算を線形代数にマッピングし、現代のプロセッサで利用可能な複数の並列性を活用することで、Force2Vecを高度に並列化する。 結果として得られるアルゴリズムは、既存の手法(平均ではDeepWalkの43倍速い)よりも桁違いに高速で、数時間で数十億のエッジを持つグラフから埋め込みを生成することができる。 既存の手法と比較して、Force2Vecはグラフの可視化に優れており、リンク予測、ノード分類、クラスタリングといったMLタスクにおいて、互換性のある、あるいはより優れた処理を行う。 ソースコードはhttps://github.com/HipGraph/Force2Vec.comで入手できる。

A graph embedding algorithm embeds a graph into a low-dimensional space such that the embedding preserves the inherent properties of the graph. While graph embedding is fundamentally related to graph visualization, prior work did not exploit this connection explicitly. We develop Force2Vec that uses force-directed graph layout models in a graph embedding setting with an aim to excel in both machine learning (ML) and visualization tasks. We make Force2Vec highly parallel by mapping its core computations to linear algebra and utilizing multiple levels of parallelism available in modern processors. The resultant algorithm is an order of magnitude faster than existing methods (43x faster than DeepWalk, on average) and can generate embeddings from graphs with billions of edges in a few hours. In comparison to existing methods, Force2Vec is better in graph visualization and performs comparably or better in ML tasks such as link prediction, node classification, and clustering. Source code is available at https://github.com/HipGraph/Force2Vec.
翻訳日:2022-10-17 12:22:57 公開日:2020-09-17
# テンポラリガイドによる楽曲間移動生成

Temporally Guided Music-to-Body-Movement Generation ( http://arxiv.org/abs/2009.08015v1 )

ライセンス: Link先を確認
Hsuan-Kai Kao and Li Su(参考訳) 本稿では,音楽音声から仮想バイオリニストの3次元スケルトン運動を生成するニューラルネットワークモデルを提案する。 従来の2次元スケルトンデータを生成するリカレントニューラルネットワークモデルから改良されたモデルでは,エンコーダデコーダアーキテクチャと,身体運動シーケンスの複雑なダイナミクスをモデル化するための自己保持機構が組み込まれている。 自己注意モデルの最適化を容易にするため、トレーニング例の有効サイズと境界を決定するためにビートトラッキングを適用した。 デコーダは、右利き動作とボウ攻撃タイミングを強調するために、精製ネットワークとボウ攻撃推論機構を備える。 客観評価と主観評価の両方により,提案モデルが最先端の手法より優れていることが明らかになった。 我々の知る限り、この作品は音楽の身体運動における重要な特徴を考慮した3Dバイオリニストの身体運動を初めて生成する試みである。

This paper presents a neural network model to generate virtual violinist's 3-D skeleton movements from music audio. Improved from the conventional recurrent neural network models for generating 2-D skeleton data in previous works, the proposed model incorporates an encoder-decoder architecture, as well as the self-attention mechanism to model the complicated dynamics in body movement sequences. To facilitate the optimization of self-attention model, beat tracking is applied to determine effective sizes and boundaries of the training examples. The decoder is accompanied with a refining network and a bowing attack inference mechanism to emphasize the right-hand behavior and bowing attack timing. Both objective and subjective evaluations reveal that the proposed model outperforms the state-of-the-art methods. To the best of our knowledge, this work represents the first attempt to generate 3-D violinists' body movements considering key features in musical body movement.
翻訳日:2022-10-17 12:16:07 公開日:2020-09-17
# 血球発生における細胞運命を制御するバイオマーカーの同定

Identification of Biomarkers Controlling Cell Fate In Blood Cell Development ( http://arxiv.org/abs/2009.08296v1 )

ライセンス: Link先を確認
Maryam Nazarieh, Volkhard Helms, Marc P. Hoeppner, Andre Franke(参考訳) 血液細胞系統は、多能性幹細胞または多能性幹細胞から終末分化状態までの連続した発達段階からなる。 人間の生物学において重要であるにもかかわらず、これらの分化過程を管理する調節経路や遺伝子ネットワークはまだ完全には理解されていない。 これは部分的には転写因子(TF)と標的遺伝子との相互作用を規定する問題によるものである。 この問題の進行経路は、分化段階と遺伝子活性をリンクする基盤として利用可能な表現データによって提供される。 本稿では,グローバルレギュレータが細胞系統の分化経路に沿って露出する特徴的発現ピークパターンを同定する新しい階層的アプローチを提案する。 このような単純なパターンに基づき、細胞状態特異的マーカー遺伝子を同定し、その分化を促進するtfsを抽出する。 ステージ特異的キープレーヤ遺伝子の平均発現値の統合は、データセット内の他の遺伝子を同様に識別するために使用される、各系統の異なるピークパターンを生成する。 これらの遺伝子を調節するTFのセットを、細胞運命の生物学的過程を制御する段階特異的なレギュレーターのセットに組み込む。 概念実証として,マウスの血液細胞形成における重要な分化現象をカバーする2つの発現データセットを検討する。

A blood cell lineage consists of several consecutive developmental stages from the pluri- or multipotent stem cell to a state of terminal differentiation. Despite their importance for human biology, the regulatory pathways and gene networks that govern these differentiation processes are not yet fully understood. This is in part due to challenges associated with delineating the interactions between transcription factors (TFs) and their target genes. A possible path forward in this issue is provided by increasingly available expression data as a basis for linking differentiation stages and gene activities. Here, we present a novel hierarchical approach to identify characteristic expression peak patterns that global regulators expose along the differentiation path of cell lineages. Based on such simple patterns, we identify cell state-specific marker genes and extract TFs that likely drive their differentiation. Integration of the mean expression values of stage-specific key player genes yields a distinct peaking pattern for each lineage that is used to identify further genes in the dataset behaving similarly. Incorporating the set of TFs which regulate these genes incurred at a set of stage-specific regulators controlling the biological process of cell fate. As proof of concept, we consider two expression datasets covering key differentiation events in blood cell formation of mice.
翻訳日:2022-10-17 12:15:51 公開日:2020-09-17
# 都市道路網におけるデータ駆動交通状態予測のための特徴工学

Feature Engineering for Data-driven Traffic State Forecast in Urban Road Networks ( http://arxiv.org/abs/2009.08354v1 )

ライセンス: Link先を確認
Felix Rempe, Klaus Bogenberger(参考訳) 都市道路網に適用されるほとんどの交通状況予測アルゴリズムは、ターゲット位置に近いリンクのみを考慮している。 しかし、長期的な予測では、より遠いリンクやネットワークの領域のトラフィック状態も、データ駆動アルゴリズムに貴重な情報を提供すると期待されている。 本稿では,大規模な車両群が収集したネットワーククラスタリングアルゴリズムとFCD(Floating Car)の1年間の期待について検討する。 まず,ミュンヘンの都市ネットワークにおける渋滞発生地域を抽出するために,クラスタリングアルゴリズムを適用した。 これらのクラスタ内の混雑レベルは、統計ツールの助けを借りて分析される。 空間的空間的混雑パターンと群集領域間の相関を同定した。 これらの相関関係は、KNearest Neighbors(KNN)旅行時間予測アルゴリズムに統合される。 他の手法と比較すると、この方法は最良の結果が得られる。 knn予測器の統計的結果と性能は、ネットワーク全体のトラフィックを考慮することは予測者にとって貴重な特徴であり、将来より正確なアルゴリズムを開発するための有望な方法であることを示している。

Most traffic state forecast algorithms when applied to urban road networks consider only the links in close proximity to the target location. However, for longer-term forecasts also the traffic state of more distant links or regions of the network are expected to provide valuable information for a data-driven algorithm. This paper studies these expectations of using a network clustering algorithm and one year of Floating Car (FCD) collected by a large fleet of vehicles. First, a clustering algorithm is applied to the data in order to extract congestion-prone regions in the Munich city network. The level of congestion inside these clusters is analyzed with the help of statistical tools. Clear spatio-temporal congestion patterns and correlations between the clustered regions are identified. These correlations are integrated into a K- Nearest Neighbors (KNN) travel time prediction algorithm. In a comparison with other approaches, this method achieves the best results. The statistical results and the performance of the KNN predictor indicate that the consideration of the network-wide traffic is a valuable feature for predictors and a promising way to develop more accurate algorithms in the future.
翻訳日:2022-10-17 12:15:03 公開日:2020-09-17
# 時系列データにおけるトレンド予測の自動深層学習

Automatic deep learning for trend prediction in time series data ( http://arxiv.org/abs/2009.08510v1 )

ライセンス: Link先を確認
Kouame Hermann Kouassi and Deshendran Moodley(参考訳) 近年,時系列データの傾向を予測するためにディープニューラルネットワーク(DNN)アルゴリズムが研究されている。 多くの実世界のアプリケーションでは、時系列データは動的システムから取得される。 DNNモデルは、新しい観測が利用可能になると更新および再訓練された時に安定したパフォーマンスを提供する必要がある。 本研究では,トレンド予測のためのアルゴリズム選択とハイパーパラメータ最適化プロセスを自動化するための自動機械学習手法について検討する。 本稿では,最近のautomlツール,特にhpbandsterフレームワークが,dnnモデル開発の自動化に効果的に利用できることを示す。 われわれのAutoML実験は、4つのデータセットにわたる手動実験で見つかった構成の平均性能と安定性とをよく比較したモデルを生成する最適構成を発見した。

Recently, Deep Neural Network (DNN) algorithms have been explored for predicting trends in time series data. In many real world applications, time series data are captured from dynamic systems. DNN models must provide stable performance when they are updated and retrained as new observations becomes available. In this work we explore the use of automatic machine learning techniques to automate the algorithm selection and hyperparameter optimisation process for trend prediction. We demonstrate how a recent AutoML tool, specifically the HpBandSter framework, can be effectively used to automate DNN model development. Our AutoML experiments found optimal configurations that produced models that compared well against the average performance and stability levels of configurations found during the manual experiments across four data sets.
翻訳日:2022-10-17 12:14:47 公開日:2020-09-17
# モデルに基づく高齢者の核白内障の有病率分析

Model-based approach for analyzing prevalence of nuclear cataracts in elderly residents ( http://arxiv.org/abs/2009.08005v1 )

ライセンス: Link先を確認
Sachiko Kodera, Akimasa Hirata, Fumiaki Miura, Essam A. Rashed, Natsuko Hatsusaka, Naoki Yamamoto, Eri Kubo, Hiroshi Sasaki(参考訳) 最近の疫学的研究は、皮質白内障の流行は紫外線と密接に関連していると仮定している。 しかし、熱帯地域では温帯地域よりも高齢者の方が核白内障の有病率が高い。 核白内障を引き起こす主要な要因は広く議論されている。 本研究は, 熱帯および温帯の50~60歳の被験者において, 周囲環境への曝露によるレンズの温度上昇を計算的に定量化し, 温度調節の相違について検討した。 熱帯地域の高齢者を対象に, 温熱調節反応モデルを拡張した。 アジアの5都市における異なる気象条件のレンズ温度の経時変化を計算した。 温度は、核白内障の位置と一致するレンズの中と後部を中心に高くなっていた。 レンズ内の高温の持続時間は異なるが、1日あたりの最大温度は同等であった。 核白内障の有病率とレンズの計算累積熱線量との間には強い相関(調整R2 > 0.85)が認められた。 核白内障の有病率を評価するために累積熱線量を用いることを提案する。 気象データから算出された新しい測定値である累積湿球球温度は、異なる都市で実用的評価に有用である。

Recent epidemiological studies have hypothesized that the prevalence of cortical cataracts is closely related to ultraviolet radiation. However, the prevalence of nuclear cataracts is higher in elderly people in tropical areas than in temperate areas. The dominant factors inducing nuclear cataracts have been widely debated. In this study, the temperature increase in the lens due to exposure to ambient conditions was computationally quantified in subjects of 50-60 years of age in tropical and temperate areas, accounting for differences in thermoregulation. A thermoregulatory response model was extended to consider elderly people in tropical areas. The time course of lens temperature for different weather conditions in five cities in Asia was computed. The temperature was higher around the mid and posterior part of the lens, which coincides with the position of the nuclear cataract. The duration of higher temperatures in the lens varied, although the daily maximum temperatures were comparable. A strong correlation (adjusted R2 > 0.85) was observed between the prevalence of nuclear cataract and the computed cumulative thermal dose in the lens. We propose the use of a cumulative thermal dose to assess the prevalence of nuclear cataracts. Cumulative wet-bulb globe temperature, a new metric computed from weather data, would be useful for practical assessment in different cities.
翻訳日:2022-10-17 12:14:28 公開日:2020-09-17
# デジタル人道支援のための機械学習の展開:OpenStreetMapのイメージアノテーションをより効率的にする

Deploying machine learning to assist digital humanitarians: making image annotation in OpenStreetMap more efficient ( http://arxiv.org/abs/2009.08188v1 )

ライセンス: Link先を確認
John E. Vargas-Mu\~noz, Devis Tuia, Alexandre X. Falc\~ao(参考訳) 開発途上国の農村部における人口の配置は,脆弱な地域に影響を与える行動を計画することが重要であることから,人道的マッピング計画の注目を集めている。 近年,航空画像中の建物を検知する手法が提案されている。 しかし、OpenStreetMap (OSM) のようなオープンマッピングサービスにおいて、アノテートされたデータの品質と量は、そのような検出のための正確なモデルのトレーニングには不十分である。 これらの手法は、農村建築情報の更新を支援する可能性があるが、農村建築地図を自動的に更新するほど正確ではない。 そこで本研究では,OSMにおけるボランティアの作業を支援し,最適化するための対話的手法を提案する。 ユーザが選択したタイルのアノテーションを複数のイテレーションで検証・修正するように依頼し、新しい注釈付きデータでモデルを改善する。 シミュレーションおよび実際のユーザアノテーション補正による実験結果から,OSMのボランティアが検証・修正する必要があるデータの量を大幅に削減できることが示唆された。 提案手法は, アノテーションのプロセスをより効率的に行うだけでなく, ボランティアの参加度を向上させることで, 人道的マッピングプロジェクトに役立つ。

Locating populations in rural areas of developing countries has attracted the attention of humanitarian mapping projects since it is important to plan actions that affect vulnerable areas. Recent efforts have tackled this problem as the detection of buildings in aerial images. However, the quality and the amount of rural building annotated data in open mapping services like OpenStreetMap (OSM) is not sufficient for training accurate models for such detection. Although these methods have the potential of aiding in the update of rural building information, they are not accurate enough to automatically update the rural building maps. In this paper, we explore a human-computer interaction approach and propose an interactive method to support and optimize the work of volunteers in OSM. The user is asked to verify/correct the annotation of selected tiles during several iterations and therefore improving the model with the new annotated data. The experimental results, with simulated and real user annotation corrections, show that the proposed method greatly reduces the amount of data that the volunteers of OSM need to verify/correct. The proposed methodology could benefit humanitarian mapping projects, not only by making more efficient the process of annotation but also by improving the engagement of volunteers.
翻訳日:2022-10-17 12:14:08 公開日:2020-09-17
# 距離変換を用いた手書きバングラ文書画像からの単語分割

Word Segmentation from Unconstrained Handwritten Bangla Document Images using Distance Transform ( http://arxiv.org/abs/2009.08037v1 )

ライセンス: Link先を確認
Pawan Kumar Singh, Shubham Sinha, Sagnik Pal Chowdhury, Ram Sarkar, Mita Nasipuri(参考訳) テキスト行と単語への手書き文書画像の分割は、完全な光学文字認識(OCR)システムの開発において、最も重要かつ困難な作業の1つである。 本稿では,未拘束のバングラ手書き文書画像からテキスト単語の自動分割について述べる。 popular distance transform (dt) アルゴリズムは、単語画像の外側境界の特定に応用されている。 この技法は過剰な単語を生成できない。 単純な後処理の手順を適用して、下記の単語イメージを分離する。 提案手法は, CMATERdb1.1.1データベースから取得した50個のランダム画像に対して実験を行った。 満足度は91.88%のセグメンテーション精度で達成され,提案手法の堅牢性を確認する。

Segmentation of handwritten document images into text lines and words is one of the most significant and challenging tasks in the development of a complete Optical Character Recognition (OCR) system. This paper addresses the automatic segmentation of text words directly from unconstrained Bangla handwritten document images. The popular Distance transform (DT) algorithm is applied for locating the outer boundary of the word images. This technique is free from generating the over-segmented words. A simple post-processing procedure is applied to isolate the under-segmented word images, if any. The proposed technique is tested on 50 random images taken from CMATERdb1.1.1 database. Satisfactory result is achieved with a segmentation accuracy of 91.88% which confirms the robustness of the proposed methodology.
翻訳日:2022-10-17 12:06:11 公開日:2020-09-17
# cross you in style:音楽から視覚芸術へのクロスモーダルスタイル移行

Crossing You in Style: Cross-modal Style Transfer from Music to Visual Arts ( http://arxiv.org/abs/2009.08083v1 )

ライセンス: Link先を確認
Cheng-Che Lee, Wan-Yi Lin, Yen-Ting Shih, Pei-Yi Patricia Kuo, Li Su(参考訳) 音楽と視覚のスタイルの伝達は、創造性の実践において難しいが重要なクロスモーダル学習問題である。 従来のイメージスタイル転送問題との大きな違いは、スタイル情報が画像ではなく音楽によって提供されることである。 2つのドメイン間の意味的リンクを通じて、音楽的特徴を視覚コンテンツに適切にマッピングできると仮定すると、音楽の可視化とスタイル転送という2つのステップで音楽-視覚間のスタイル転送問題を解決する。 音楽可視化ネットワークは、条件付き生成対向ネットワークを備えたエンコーダジェネレータアーキテクチャを使用して、音楽データから画像ベースの音楽表現を生成する。 このネットワークは、画像スタイル転送方法と統合され、スタイル転送処理を行う。 WikiArt-IMSLPは、西洋音楽の録音や数十年にわたる絵画を含む、新たにコンパイルされたデータセットである。 このようなラベルを用いて絵画と音楽のセマンティックな関係を学習することにより,提案手法が楽曲から多様なイメージスタイル表現を生成できることを実証し,同時代の特定の芸術形態を提示できることを示す。 主観的テストの結果は、音楽と視覚コンテンツの互換性に対する知覚的品質の改善におけるeraラベルの役割も強調している。

Music-to-visual style transfer is a challenging yet important cross-modal learning problem in the practice of creativity. Its major difference from the traditional image style transfer problem is that the style information is provided by music rather than images. Assuming that musical features can be properly mapped to visual contents through semantic links between the two domains, we solve the music-to-visual style transfer problem in two steps: music visualization and style transfer. The music visualization network utilizes an encoder-generator architecture with a conditional generative adversarial network to generate image-based music representations from music data. This network is integrated with an image style transfer method to accomplish the style transfer process. Experiments are conducted on WikiArt-IMSLP, a newly compiled dataset including Western music recordings and paintings listed by decades. By utilizing such a label to learn the semantic connection between paintings and music, we demonstrate that the proposed framework can generate diverse image style representations from a music piece, and these representations can unveil certain art forms of the same era. Subjective testing results also emphasize the role of the era label in improving the perceptual quality on the compatibility between music and visual content.
翻訳日:2022-10-17 12:06:01 公開日:2020-09-17
# POMP:Pomcpを用いた屋内環境におけるアクティブビジュアル検索のためのオンラインモーションプランニング

POMP: Pomcp-based Online Motion Planning for active visual search in indoor environments ( http://arxiv.org/abs/2009.08140v1 )

ライセンス: Link先を確認
Yiming Wang, Francesco Giuliari, Riccardo Berra, Alberto Castellini, Alessio Del Bue, Alessandro Farinelli, Marco Cristani, Francesco Setti(参考訳) 本稿では,既存の屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーをオンライン設定で学習する問題に焦点をあてる。 提案手法は,エージェント(例えばロボット)とRGB-Dフレームの現在のポーズを入力として使用する。 タスクは、エージェントをターゲットオブジェクトに近づける次の動きを計画することです。 我々は,モンテカルロ計画手法によって解決された部分可観測マルコフ決定過程としてこの問題をモデル化する。 これにより、手元にある既知のシナリオを反復し、環境を探索し、同時にオブジェクトを探すことで、次の動きを決定することができます。 強化学習における現在の技術とは違って、POMPは広範囲で高価なラベル付きデータ(時間と計算)を必要としないため、中小規模のシナリオでAVSを解決する上で非常にアジャイルである。 我々は、環境のフロアマップの情報、通常利用可能な情報、または先駆的な単一の探索ランから容易に抽出できる情報のみを要求する。 提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1を達成し,最先端に近づきながら,必要なトレーニングを伴わない。 さらに,対象検出の品質が理想から欠陥へと変化する場合,本手法のロバスト性を実験的に示す。

In this paper we focus on the problem of learning an optimal policy for Active Visual Search (AVS) of objects in known indoor environments with an online setup. Our POMP method uses as input the current pose of an agent (e.g. a robot) and a RGB-D frame. The task is to plan the next move that brings the agent closer to the target object. We model this problem as a Partially Observable Markov Decision Process solved by a Monte-Carlo planning approach. This allows us to make decisions on the next moves by iterating over the known scenario at hand, exploring the environment and searching for the object at the same time. Differently from the current state of the art in Reinforcement Learning, POMP does not require extensive and expensive (in time and computation) labelled data so being very agile in solving AVS in small and medium real scenarios. We only require the information of the floormap of the environment, an information usually available or that can be easily extracted from an a priori single exploration run. We validate our method on the publicly available AVD benchmark, achieving an average success rate of 0.76 with an average path length of 17.1, performing close to the state of the art but without any training needed. Additionally, we show experimentally the robustness of our method when the quality of the object detection goes from ideal to faulty.
翻訳日:2022-10-17 12:05:40 公開日:2020-09-17
# ラプラシアンフィルタによる単一フレームの劣化

Single Frame Deblurring with Laplacian Filters ( http://arxiv.org/abs/2009.08182v1 )

ライセンス: Link先を確認
Baran Ataman and Esin Guldogan(参考訳) ブラインド・シングル・イメージ・デブロワーリング(Blind single image deblurring)は、問題の性質が不適切であるため、何十年にもわたって挑戦されてきた。 本稿では,ラプラシアンフィルタを用いた単一フレームブラインド洗浄法を提案する。 超解像処理における残差密度ネットワークの強みが証明され,ベースラインアーキテクチャとして選択した。 提案手法をベンチマークデータセット上で,最先端DNN手法を用いて評価した。 提案手法は画像品質の客観的および主観的向上を示す。

Blind single image deblurring has been a challenge over many decades due to the ill-posed nature of the problem. In this paper, we propose a single-frame blind deblurring solution with the aid of Laplacian filters. Utilized Residual Dense Network has proven its strengths in superresolution task, thus we selected it as a baseline architecture. We evaluated the proposed solution with state-of-art DNN methods on a benchmark dataset. The proposed method shows significant improvement in image quality measured objectively and subjectively.
翻訳日:2022-10-17 12:05:18 公開日:2020-09-17
# 生体認証機能を維持したスマートフォンカメラの識別解除

Smartphone Camera De-identification while Preserving Biometric Utility ( http://arxiv.org/abs/2009.08511v1 )

ライセンス: Link先を確認
Sudipta Banerjee and Arun Ross(参考訳) 写真応答不均一(PRNU)の原理は、特定の画像を取得するためにカメラやセンサーを使用したスマートフォンデバイスのアイデンティティーを推論するためにしばしば利用される。 本研究では,スマートフォンカメラを用いて取得した顔画像を摂動するアルゴリズムを設計する。 (a)スマートフォンカメラに関するセンサ固有の詳細を抑圧する(センサ匿名化) (b)異なる装置のセンサパターンを組み込んだもの(センサスプーフィング) (c)摂動画像を用いたバイオメトリックマッチングは影響を受けない(バイオメトリックユーティリティ)。 以上の目的を達成するために離散コサイン変換を用いた簡易な手法を用いる。 MICHE-IおよびOULU-NPUデータセットを用いて、12台のスマートフォンカメラで取得した近眼および顔データを含む実験を行い、PRNUに基づく3種類のセンサ識別方式における非識別アルゴリズムの有効性を実証した。 この研究は、センサーの鑑識と個人のプライバシーに応用されている。

The principle of Photo Response Non Uniformity (PRNU) is often exploited to deduce the identity of the smartphone device whose camera or sensor was used to acquire a certain image. In this work, we design an algorithm that perturbs a face image acquired using a smartphone camera such that (a) sensor-specific details pertaining to the smartphone camera are suppressed (sensor anonymization); (b) the sensor pattern of a different device is incorporated (sensor spoofing); and (c) biometric matching using the perturbed image is not affected (biometric utility). We employ a simple approach utilizing Discrete Cosine Transform to achieve the aforementioned objectives. Experiments conducted on the MICHE-I and OULU-NPU datasets, which contain periocular and facial data acquired using 12 smartphone cameras, demonstrate the efficacy of the proposed de-identification algorithm on three different PRNU-based sensor identification schemes. This work has application in sensor forensics and personal privacy.
翻訳日:2022-10-17 12:04:58 公開日:2020-09-17
# テキストベースメンタルヘルス支援における共感理解への計算的アプローチ

A Computational Approach to Understanding Empathy Expressed in Text-Based Mental Health Support ( http://arxiv.org/abs/2009.08441v1 )

ライセンス: Link先を確認
Ashish Sharma, Adam S. Miner, David C. Atkins, Tim Althoff(参考訳) 共感はメンタルヘルスサポートの成功に不可欠である。 共感の測定は主に同期的で対面的な設定で行われており、非同期なテキストベースのコンテキストには変換できない。 何百万人もの人々がメンタルヘルスサポートにテキストベースのプラットフォームを使っているため、これらのコンテキストにおける共感を理解することは重要です。 本稿では,オンラインメンタルヘルスプラットフォームにおける共感の表現方法を理解するための計算的アプローチを提案する。 テキストベースの会話における共感のコミュニケーションを特徴付ける新しい統一的理論的根拠付きフレームワークを開発した。 この共感フレームワークを用いて10kペア(post, response)のコーパスを収集,共有し,アノテーション(rationales)の証拠を提供する。 マルチタスクのRoBERTaベースのバイエンコーダモデルを構築し、会話の共感を識別し、その予測の根拠を抽出する。 実験は、このアプローチが共感的な会話を効果的に識別できることを実証する。 さらに,このモデルを用いて235kのメンタルヘルスインタラクションを分析し,ユーザが時間とともに自己学習的共感を行わないことを示し,共感トレーニングやフィードバックの機会を明らかにする。

Empathy is critical to successful mental health support. Empathy measurement has predominantly occurred in synchronous, face-to-face settings, and may not translate to asynchronous, text-based contexts. Because millions of people use text-based platforms for mental health support, understanding empathy in these contexts is crucial. In this work, we present a computational approach to understanding how empathy is expressed in online mental health platforms. We develop a novel unifying theoretically-grounded framework for characterizing the communication of empathy in text-based conversations. We collect and share a corpus of 10k (post, response) pairs annotated using this empathy framework with supporting evidence for annotations (rationales). We develop a multi-task RoBERTa-based bi-encoder model for identifying empathy in conversations and extracting rationales underlying its predictions. Experiments demonstrate that our approach can effectively identify empathic conversations. We further apply this model to analyze 235k mental health interactions and show that users do not self-learn empathy over time, revealing opportunities for empathy training and feedback.
翻訳日:2022-10-17 11:56:42 公開日:2020-09-17
# ユークリッド空間とマンハッタン空間における施設配置の戦略実証機構

Strategy Proof Mechanisms for Facility Location in Euclidean and Manhattan Space ( http://arxiv.org/abs/2009.07983v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) 1次元から2次元(以上)、ユークリッド距離やマンハッタン距離における施設配置のメカニズムへの影響について検討した。 基本的な公理的性質は, 基本的公正性である匿名性, 最も重要な効率性の一つであるパレート最適性, エージェントが誤報告のインセンティブを持たないことを保証する戦略実証性, の3つである。 また,このメカニズムがいかに最適な福祉を近似できるかについても考察する。 私たちの結果はやや否定的です。 1次元から2次元(またはそれ以上)に移動すると、これらの公理的性質がより困難になる。 例えば、ユークリッド空間の2つの施設やマンハッタン空間の1つの施設では、匿名のメカニズムやパレートの最適証明、戦略証明などは存在しない。 対照的に、直線上のメカニズムは3つの性質全てで存在し、また2次元(またはそれ以上)に移動すると近似比が増加することも示している。 不可能な結果はすべて最小限です。 3つの公理(匿名性、パレート最適性、戦略証明性)の1つを落とすと、他の2つの公理を複数の機構で満たす。

We study the impact on mechanisms for facility location of moving from one dimension to two (or more) dimensions and Euclidean or Manhattan distances. We consider three fundamental axiomatic properties: anonymity which is a basic fairness property, Pareto optimality which is one of the most important efficiency properties, and strategy proofness which ensures agents do not have an incentive to mis-report. We also consider how well such mechanisms can approximate the optimal welfare. Our results are somewhat negative. Moving from one dimension to two (or more) dimensions often makes these axiomatic properties more difficult to achieve. For example, with two facilities in Euclidean space or with just a single facility in Manhattan space, no mechanism is anonymous, Pareto optimal and strategy proof. By contrast, mechanisms on the line exist with all three properties.We also show that approximation ratios may increase when moving to two (or more) dimensions. All our impossibility results are minimal. If we drop one of the three axioms (anonymity, Pareto optimality or strategy proofness) multiple mechanisms satisfy the other two axioms.
翻訳日:2022-10-17 11:55:58 公開日:2020-09-17
# 容量制限のある施設立地の戦略実証機構

Strategy Proof Mechanisms for Facility Location with Capacity Limits ( http://arxiv.org/abs/2009.07986v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) 実世界の施設配置問題における重要な特徴は、施設の容量制限である。 ここでは,キャパシティ制約が施設配置の戦略証明機構の設計を困難にすることを示すが,その最適解の近似性に対する保証を直観的に改善することができる。

An important feature of many real world facility location problems are capacity limits on the facilities. We show here how capacity constraints make it harder to design strategy proof mechanisms for facility location, but counter-intuitively can improve the guarantees on how well we can approximate the optimal solution.
翻訳日:2022-10-17 11:55:38 公開日:2020-09-17
# eラーニングのためのマルチソースデータマイニング

Multi-source Data Mining for e-Learning ( http://arxiv.org/abs/2009.08791v1 )

ライセンス: Link先を確認
Julie Bu Daher, Armelle Brun and Anne Boyer(参考訳) データマイニングは,大規模なデータセットで興味深い,予期せぬ,あるいは価値のある構造を発見し,それを理解可能な構造に変換する作業だ。 データマイニング分野における様々なアプローチが提案されており、パターンマイニングが最も重要である。 パターンマイニングは、データから興味深い頻繁なパターンを抽出する。 パターンマイニングは、例えばレコメンデーションなど、異なる目的のために使用される、高い関心を持つトピックに成長した。 この領域で最も一般的な課題は、プロセスの複雑さの低減と、パターン内の冗長性の回避である。 これまでパターンマイニングは主に単一のデータソースのマイニングに重点を置いてきた。 しかし、データ量の増加とともに、データ量、ソースの多様性、データの性質が増すにつれ、この領域では、マルチソースおよび異種データのマイニングが新たな課題となっている。 この課題は、興味深い頻繁なパターンを抽出するために、マルチソースデータをマイニングする作業の中心となるものです。

Data mining is the task of discovering interesting, unexpected or valuable structures in large datasets and transforming them into an understandable structure for further use . Different approaches in the domain of data mining have been proposed, among which pattern mining is the most important one. Pattern mining mining involves extracting interesting frequent patterns from data. Pattern mining has grown to be a topic of high interest where it is used for different purposes, for example, recommendations. Some of the most common challenges in this domain include reducing the complexity of the process and avoiding the redundancy within the patterns. So far, pattern mining has mainly focused on the mining of a single data source. However, with the increase in the amount of data, in terms of volume, diversity of sources and nature of data, mining multi-source and heterogeneous data has become an emerging challenge in this domain. This challenge is the main focus of our work where we propose to mine multi-source data in order to extract interesting frequent patterns.
翻訳日:2022-10-17 11:54:53 公開日:2020-09-17
# 医療知識グラフを用いた医療用スニペットの検索と検索

Focused Clinical Query Understanding and Retrieval of Medical Snippets powered through a Healthcare Knowledge Graph ( http://arxiv.org/abs/2009.09086v1 )

ライセンス: Link先を確認
Maulik R. Kamdar, Michael Carroll, Will Dowling, Linda Wogulis, Cailey Fitzgerald, Matt Corkum, Danielle Walsh, David Conrad, Craig E. Stanley, Jr., Steve Ross, Dru Henke, Mevan Samarasinghe(参考訳) 臨床医は、医学や患者医療の実践中に複数の文献から正確な、簡潔で、更新され、信頼できる医療情報を検索し、合成するためのいくつかの重要な障壁に直面している。 この講演では,医療知識グラフを活用した集中型臨床検索サービスの開発を背景として,臨床検索クエリの背後にあるクエリインテントを解釈し,医療文献の多種多様なコーパスから関連するスニペットを取得するための研究を行う。

Clinicians face several significant barriers to search and synthesize accurate, succinct, updated, and trustworthy medical information from several literature sources during the practice of medicine and patient care. In this talk, we will be presenting our research behind the development of a Focused Clinical Search Service, powered by a Healthcare Knowledge Graph, to interpret the query intent behind clinical search queries and retrieve relevant medical snippets from a diverse corpus of medical literature.
翻訳日:2022-10-17 11:54:36 公開日:2020-09-17
# 自律走行車における関節物体検出と距離推定のためのレーダカメラセンサ融合

Radar-Camera Sensor Fusion for Joint Object Detection and Distance Estimation in Autonomous Vehicles ( http://arxiv.org/abs/2009.08428v1 )

ライセンス: Link先を確認
Ramin Nabati, Hairong Qi(参考訳) 本稿では,自律走行シナリオにおける物体検出と距離推定のための新しいレーダーカメラ・センサ融合フレームワークを提案する。 提案アーキテクチャでは,レーダーポイント雲とRGB画像の融合に中間融合方式を用いる。 radar object proposal networkは、radar point cloudを使用して、一連の3dプリエントボックスから3dプロポーザルを生成する。 これらの提案は画像にマッピングされ、オブジェクトネススコア予測とボックスリファインメントのためのRadar Proposal Refinement (RPR)ネットワークに入力される。 RPRネットワークはレーダ情報と画像特徴マップの両方を利用して、正確なオブジェクトの提案と距離推定を生成する。 レーダベースの提案は、修正された地域提案ネットワーク(RPN)によって生成された画像ベースの提案と組み合わせられる。 RPNは、生成された提案毎に距離を推定する距離回帰層を有する。 レーダベースと画像ベースの提案は統合され、次の段階でオブジェクト分類に使用される。 難解なnuScenesデータセットの実験では、2次元物体検出タスクにおいて既存のレーダーカメラ融合手法よりも優れており、同時にオブジェクトの距離を正確に推定する。

In this paper we present a novel radar-camera sensor fusion framework for accurate object detection and distance estimation in autonomous driving scenarios. The proposed architecture uses a middle-fusion approach to fuse the radar point clouds and RGB images. Our radar object proposal network uses radar point clouds to generate 3D proposals from a set of 3D prior boxes. These proposals are mapped to the image and fed into a Radar Proposal Refinement (RPR) network for objectness score prediction and box refinement. The RPR network utilizes both radar information and image feature maps to generate accurate object proposals and distance estimations. The radar-based proposals are combined with image-based proposals generated by a modified Region Proposal Network (RPN). The RPN has a distance regression layer for estimating distance for every generated proposal. The radar-based and image-based proposals are merged and used in the next stage for object classification. Experiments on the challenging nuScenes dataset show our method outperforms other existing radar-camera fusion methods in the 2D object detection task while at the same time accurately estimates objects' distances.
翻訳日:2022-10-17 11:47:09 公開日:2020-09-17
# ビデオを含む文書のマルチモーダル要約

Multi-modal Summarization for Video-containing Documents ( http://arxiv.org/abs/2009.08018v1 )

ライセンス: Link先を確認
Xiyan Fu and Jun Wang and Zhenglu Yang(参考訳) マルチメディアデータの要約は,質問応答やWeb検索など,多くの実世界のアプリケーションの基礎となっているため,ますます重要になっている。 しかし、既存のマルチモーダル要約作業の多くは、ビデオではなく画像から抽出した視覚補完機能を使用しており、豊富な情報を失う。 そこで本稿では,文書とその関連ビデオから要約する,新しいマルチモーダル要約タスクを提案する。 本研究は,両足の注意と遅延融合機構を改良し,異なるモード間のギャップを埋めるベースライン汎用モデルを構築し,テキストとビデオの要約を同時に利用するバイストリーム要約戦略を構築した。 包括的実験により,提案手法はマルチモーダル要約に有用であり,既存の手法よりも優れていることが示された。 さらに,新たなデータセットを収集し,文書やビデオから得られる将来の研究のための新たなリソースを提供する。

Summarization of multimedia data becomes increasingly significant as it is the basis for many real-world applications, such as question answering, Web search, and so forth. Most existing multi-modal summarization works however have used visual complementary features extracted from images rather than videos, thereby losing abundant information. Hence, we propose a novel multi-modal summarization task to summarize from a document and its associated video. In this work, we also build a baseline general model with effective strategies, i.e., bi-hop attention and improved late fusion mechanisms to bridge the gap between different modalities, and a bi-stream summarization strategy to employ text and video summarization simultaneously. Comprehensive experiments show that the proposed model is beneficial for multi-modal summarization and superior to existing methods. Moreover, we collect a novel dataset and it provides a new resource for future study that results from documents and videos.
翻訳日:2022-10-17 11:46:08 公開日:2020-09-17
# 知覚ネットワークにおける抽出集合

Attracting Sets in Perceptual Networks ( http://arxiv.org/abs/2009.08101v1 )

ライセンス: Link先を確認
Robert Prentner(参考訳) この文書は[1]で使用されるモデルの仕様を提供します。 遺伝的アルゴリズムを用いて、ある入力と(ノイズ)ネットワークのアトラクタ間の相互情報を最適化する簡単な方法を提案する。 このネットワークのノードは、"interface theory of perception"で記述された構造の単純化版としてモデル化されている [2]。 したがって、このシステムは「知覚ネットワーク」と呼ばれる。 本稿では,[1] の技術部分の編集版であり,Python 実装である PerceptualNetworks の付属テキストとして機能し,[3] で自由に利用できる。 1. Prentner, R. and Fields, C. . AIメソッドを使用して知覚のための最小モデルを評価する。 OpenPhilosophy 2019, 2, 503-524。 2.ホフマン(d.d.)、プラカシュ(c.)、シン(m.) . 知覚のインターフェイス理論。 サイコノミック・ブレティンとレビュー 2015, 22, 1480-1506。 3. prentner, r。 . 知覚ネットワーク https://github.com/RobertPrentner/PerceptualNetworks (2020年9月17日閲覧)

This document gives a specification for the model used in [1]. It presents a simple way of optimizing mutual information between some input and the attractors of a (noisy) network, using a genetic algorithm. The nodes of this network are modeled as simplified versions of the structures described in the "interface theory of perception" [2]. Accordingly, the system is referred to as a "perceptual network". The present paper is an edited version of technical parts of [1] and serves as accompanying text for the Python implementation PerceptualNetworks, freely available under [3]. 1. Prentner, R., and Fields, C.. Using AI methods to Evaluate a Minimal Model for Perception. OpenPhilosophy 2019, 2, 503-524. 2. Hoffman, D. D., Prakash, C., and Singh, M.. The Interface Theory of Perception. Psychonomic Bulletin and Review 2015, 22, 1480-1506. 3. Prentner, R.. PerceptualNetworks. https://github.com/RobertPrentner/PerceptualNetworks. (accessed September 17 2020)
翻訳日:2022-10-17 11:41:43 公開日:2020-09-17
# FastGCRNNに基づく都市交通流予測

Urban Traffic Flow Forecast Based on FastGCRNN ( http://arxiv.org/abs/2009.08087v1 )

ライセンス: Link先を確認
Ya Zhang, Mingming Lu, Haifeng Li(参考訳) 交通予測は、都市交通ネットワークにおけるインテリジェント交通システムの適用にとって重要な前提条件である。 既存の研究は、GCRNが芸術作品の状況であるRNNとCNN/GCNを採用し、交通流の時間的および空間的相関を特徴づけている。 しかし,計算量が多いため,大規模道路網にGCRNを適用することは困難である。 そこで本研究では,道路網を幾何グラフに抽象化し,高速グラフ畳み込みリカレントニューラルネットワーク(fastgcrnn)を構築し,トラヒックフローの時空間依存性をモデル化する。 具体的には、FastGCNユニットを使用して、重要サンプリングによる計算複雑性を低減し、グラフ内の道路と周辺道路のトポロジ的関係を効率的に把握し、GRUユニットを組み合わせてトラフィックフローの時間的依存性を捉え、Encoder-Decoderフレームワークに基づいた時空間特徴をSeq2Seqに埋め込む。 大規模トラフィックデータセットの実験により,提案手法は比較的高い精度を維持しながら,計算複雑性とメモリ消費を大幅に削減できることを示した。

Traffic forecasting is an important prerequisite for the application of intelligent transportation systems in urban traffic networks. The existing works adopted RNN and CNN/GCN, among which GCRN is the state of art work, to characterize the temporal and spatial correlation of traffic flows. However, it is hard to apply GCRN to the large scale road networks due to high computational complexity. To address this problem, we propose to abstract the road network into a geometric graph and build a Fast Graph Convolution Recurrent Neural Network (FastGCRNN) to model the spatial-temporal dependencies of traffic flow. Specifically, We use FastGCN unit to efficiently capture the topological relationship between the roads and the surrounding roads in the graph with reducing the computational complexity through importance sampling, combine GRU unit to capture the temporal dependency of traffic flow, and embed the spatiotemporal features into Seq2Seq based on the Encoder-Decoder framework. Experiments on large-scale traffic data sets illustrate that the proposed method can greatly reduce computational complexity and memory consumption while maintaining relatively high accuracy.
翻訳日:2022-10-17 11:41:07 公開日:2020-09-17
# 不確実性下での手続き目標の非互換性を扱う

Dealing with Incompatibilities among Procedural Goals under Uncertainty ( http://arxiv.org/abs/2009.08776v1 )

ライセンス: Link先を確認
Mariela Morveli-Espinoza, Juan Carlos Nieves, Ayslan Trevizan Possebom, and Cesar Augusto Tacla(参考訳) 合理的なエージェントを考えることで、互換性のないエージェントのセットから目標を選択する問題に焦点を合わせます。 カステルフランキとパリエリが導入した3つの非互換性、すなわち端末、楽器(または資源に基づく)、超流動性を考える。 我々は,その前提が不確実性に浸透している構造的議論によって,エージェントの計画を表現する。 これらの議論の強さを測り、互換性のある目標の集合を決定する。 本稿では,これらの議論の強みを計算するための2つの新しい方法を提案する。 1つは論理的強度値で、3次元ベクトルで表され、各引数に関連付けられた確率的間隔から計算される。 ベクトルは間隔の精度、その位置、精度と位置の組み合わせを表す。 構造化された議論の強さのこの種の表現と取り扱いは、以前にも芸術の状況によって定義されていなかった。 議論の強みを計算する第2の方法は、計画のコスト(必要な資源を考慮)と、計画に関連する目標の選好に基づいている。 構造化された議論の強度を測定する新しいアプローチを考えると、Dungの抽象的議論理論に基づく計画と目標の選択のための意味論を提案する。 最後に,提案の理論的評価を行う。

By considering rational agents, we focus on the problem of selecting goals out of a set of incompatible ones. We consider three forms of incompatibility introduced by Castelfranchi and Paglieri, namely the terminal, the instrumental (or based on resources), and the superfluity. We represent the agent's plans by means of structured arguments whose premises are pervaded with uncertainty. We measure the strength of these arguments in order to determine the set of compatible goals. We propose two novel ways for calculating the strength of these arguments, depending on the kind of incompatibility that exists between them. The first one is the logical strength value, it is denoted by a three-dimensional vector, which is calculated from a probabilistic interval associated with each argument. The vector represents the precision of the interval, the location of it, and the combination of precision and location. This type of representation and treatment of the strength of a structured argument has not been defined before by the state of the art. The second way for calculating the strength of the argument is based on the cost of the plans (regarding the necessary resources) and the preference of the goals associated with the plans. Considering our novel approach for measuring the strength of structured arguments, we propose a semantics for the selection of plans and goals that is based on Dung's abstract argumentation theory. Finally, we make a theoretical evaluation of our proposal.
翻訳日:2022-10-17 11:40:27 公開日:2020-09-17
# MoPro: Momentum Prototypesを使ったWeb上の教師付き学習

MoPro: Webly Supervised Learning with Momentum Prototypes ( http://arxiv.org/abs/2009.07995v1 )

ライセンス: Link先を確認
Junnan Li, Caiming Xiong, Steven C.H. Hoi(参考訳) 本稿では,教師あり学習の注釈不明瞭性や,自己教師あり学習の計算不明瞭性に支障をきたさない webly-supervised representation learning 法を提案する。 既存のウェブ教師あり表現学習では,学習データに有意なノイズを考慮せずに,バニラ教師あり学習法が採用されているが,ラベルノイズを用いた学習手法は,実世界の大規模雑音にはあまり効果がない。 そこで本研究では,オンラインラベルノイズ補正,分散サンプル除去,表現学習を実現する簡易なコントラスト学習手法であるmoproを提案する。 MoProは、弱いラベル付きノイズデータセットであるWebVisionで最先端のパフォーマンスを達成する。 MoProはまた、事前訓練されたモデルが下流の画像分類と検出タスクに転送されるときに、優れたパフォーマンスを示す。 これは imagenet の教師付き事前トレーニングモデルよりも +10.5 高く、imagenet ラベル付きサンプルの 1\% で微調整された場合、最高の自己教師付き事前トレーニングモデル +17.3 よりも優れている。 さらに、MoProは分散シフトに対して堅牢である。 コードと事前トレーニングされたモデルはhttps://github.com/salesforce/moproで入手できる。

We propose a webly-supervised representation learning method that does not suffer from the annotation unscalability of supervised learning, nor the computation unscalability of self-supervised learning. Most existing works on webly-supervised representation learning adopt a vanilla supervised learning method without accounting for the prevalent noise in the training data, whereas most prior methods in learning with label noise are less effective for real-world large-scale noisy data. We propose momentum prototypes (MoPro), a simple contrastive learning method that achieves online label noise correction, out-of-distribution sample removal, and representation learning. MoPro achieves state-of-the-art performance on WebVision, a weakly-labeled noisy dataset. MoPro also shows superior performance when the pretrained model is transferred to down-stream image classification and detection tasks. It outperforms the ImageNet supervised pretrained model by +10.5 on 1-shot classification on VOC, and outperforms the best self-supervised pretrained model by +17.3 when finetuned on 1\% of ImageNet labeled samples. Furthermore, MoPro is more robust to distribution shifts. Code and pretrained models are available at https://github.com/salesforce/MoPro.
翻訳日:2022-10-17 11:40:07 公開日:2020-09-17
# 両眼視に基づく無人車両の高精度目標位置決めシステム

High-precision target positioning system for unmanned vehicles based on binocular vision ( http://arxiv.org/abs/2009.08040v1 )

ライセンス: Link先を確認
Xianqi He, Zirui Li, Xufeng Yin, Jianwei Gong, Cheng Gong(参考訳) 無人車両はしばしば作業中に高い精度で目標を見つける必要がある。 無人材料処理ワークショップでは, 作業物を正確に把握するために, 作業物の高精度な姿勢推定を行う必要がある。 本稿では,両眼視に基づく高精度の無人車両目標位置決めシステムを提案する。 このシステムは、地域ベースのステレオマッチングアルゴリズムを用いて不一致マップを取得し、ransacアルゴリズムを用いて位置と姿勢の特徴を抽出し、6自由度円筒形のワークの位置と姿勢の推定を行う。 本報告では,システムの効果を検証するために,シリンダの出力結果の精度と計算時間を異なるポーズで収集する。 実験データによると、システムの位置精度は0.61~1.17mm、角精度は1.95~5.13{\deg}であり、精度の高い位置決め効果が得られる。

Unmanned vehicles often need to locate targets with high precision during work. In the unmanned material handling workshop, the unmanned vehicle needs to perform high-precision pose estimation of the workpiece to accurately grasp the workpiece. In this context, this paper proposes a high-precision unmanned vehicle target positioning system based on binocular vision. The system uses a region-based stereo matching algorithm to obtain a disparity map, and uses the RANSAC algorithm to extract position and posture features, which achives the estimation of the position and attitude of a six-degree-of-freedom cylindrical workpiece. In order to verify the effect of the system, this paper collects the accuracy and calculation time of the output results of the cylinder in different poses. The experimental data shows that the position accuracy of the system is 0.61~1.17mm and the angular accuracy is 1.95~5.13{\deg}, which can achieve better high-precision positioning effect.
翻訳日:2022-10-17 11:38:29 公開日:2020-09-17
# グラフ畳み込みネットワークによる構造からのイメージ検索

Image Retrieval for Structure-from-Motion via Graph Convolutional Network ( http://arxiv.org/abs/2009.08049v1 )

ライセンス: Link先を確認
Shen Yan, Yang Pen, Shiming Lai, Yu Liu, Maojun Zhang(参考訳) sfm(structure-from-motion)の従来の画像検索技術は反復パターンを効果的に認識する限界に苦しむため,高精度かつ高リコールで十分なマッチングペアを作成できない。 本稿では,グラフ畳み込みネットワーク(GCN)に基づく新しい検索手法を提案する。 画像検索タスクをグラフデータ中のノードバイナリ分類問題として定式化し,そのシーンがクエリ画像と重なり合う場合,ノードを正にマークする。 重要なアイデアは、クエリ画像周辺の特徴空間のローカルコンテキストが、この画像とその隣人とのマッチング可能な関係に関する豊富な情報を含んでいることである。 問合せ画像を取り巻くサブグラフを入力データとして構築することにより、問合せ画像と重なり合う領域を持つか否かを学習可能なGCNを採用する。 実験により,高度にあいまいで重複したシーンの難易度の高いデータセットにおいて,提案手法が著しく有効であることを示す。 また,最先端のマッチング検索手法と比較して,提案手法は再現の精度と完全性を犠牲にすることなく,無駄なマッチングを著しく削減する。

Conventional image retrieval techniques for Structure-from-Motion (SfM) suffer from the limit of effectively recognizing repetitive patterns and cannot guarantee to create just enough match pairs with high precision and high recall. In this paper, we present a novel retrieval method based on Graph Convolutional Network (GCN) to generate accurate pairwise matches without costly redundancy. We formulate image retrieval task as a node binary classification problem in graph data: a node is marked as positive if it shares the scene overlaps with the query image. The key idea is that we find that the local context in feature space around a query image contains rich information about the matchable relation between this image and its neighbors. By constructing a subgraph surrounding the query image as input data, we adopt a learnable GCN to exploit whether nodes in the subgraph have overlapping regions with the query photograph. Experiments demonstrate that our method performs remarkably well on the challenging dataset of highly ambiguous and duplicated scenes. Besides, compared with state-of-the-art matchable retrieval methods, the proposed approach significantly reduces useless attempted matches without sacrificing the accuracy and completeness of reconstruction.
翻訳日:2022-10-17 11:38:15 公開日:2020-09-17
# 敵攻撃に対するオンライン代替電源

Online Alternate Generator against Adversarial Attacks ( http://arxiv.org/abs/2009.08110v1 )

ライセンス: Link先を確認
Haofeng Li, Yirui Zeng, Guanbin Li, Liang Lin, Yizhou Yu(参考訳) コンピュータビジョンの分野は、深層畳み込みニューラルネットワークの発展によって近年の現象的な進歩を目撃している。 しかし、ディープラーニングモデルは、実際の画像に準知覚ノイズを追加することで合成される敵の例に敏感である。 既存の防衛方法は、攻撃対象のネットワークを再訓練し、既知の敵攻撃によって設定された列車を増強する必要がある。 上記の問題を克服するために,対象ネットワークのパラメータへのアクセスや修正を必要としない,携帯型防衛手法であるオンライン代替電源を提案する。 提案手法は,入力画像のスクラッチから別の画像をオンライン合成することで,対向雑音の除去や破壊を行う。 攻撃者が悪用する事前学習パラメータを避けるために,推定段階で生成器と合成画像を交互に更新する。 実験の結果,提案手法は,グレイボックス攻撃に対する最先端防御モデルよりも優れていた。

The field of computer vision has witnessed phenomenal progress in recent years partially due to the development of deep convolutional neural networks. However, deep learning models are notoriously sensitive to adversarial examples which are synthesized by adding quasi-perceptible noises on real images. Some existing defense methods require to re-train attacked target networks and augment the train set via known adversarial attacks, which is inefficient and might be unpromising with unknown attack types. To overcome the above issues, we propose a portable defense method, online alternate generator, which does not need to access or modify the parameters of the target networks. The proposed method works by online synthesizing another image from scratch for an input image, instead of removing or destroying adversarial noises. To avoid pretrained parameters exploited by attackers, we alternately update the generator and the synthesized image at the inference stage. Experimental results demonstrate that the proposed defensive scheme and method outperforms a series of state-of-the-art defending models against gray-box adversarial attacks.
翻訳日:2022-10-17 11:37:54 公開日:2020-09-17
# vax-a-net: 敵のパッチ攻撃に対するトレーニング時間防御

Vax-a-Net: Training-time Defence Against Adversarial Patch Attacks ( http://arxiv.org/abs/2009.08194v1 )

ライセンス: Link先を確認
T. Gittings, S. Schneider and J. Collomosse(参考訳) 本稿では,敵対的パッチアタック(APA)に対する畳み込みニューラルネットワーク(CNN)の免疫技術であるVax-a-Netを提案する。 APAは視覚的に過剰な局所領域(パッチ)を画像に挿入し、誤分類を引き起こす。 apasで使用するパッチを合成するために同時に学習する条件付きジェネレーショナル・アドバーサリアン・ネットワーク(gan)アーキテクチャを導入するとともに、これらの攻撃を利用して事前訓練されたターゲットcnnを適応させ、それらに対する感受性を低減させる。 このアプローチでは、事前訓練されたモデルに対してapasに対するレジリエンスを付与することができるが、apaメソッドの収束が遅いため、従来の敵対的トレーニングでは実用的ではない。 本稿では,この保護を既存のAPAに対して防御する上での伝達性を示し,その有効性を示す。

We present Vax-a-Net; a technique for immunizing convolutional neural networks (CNNs) against adversarial patch attacks (APAs). APAs insert visually overt, local regions (patches) into an image to induce misclassification. We introduce a conditional Generative Adversarial Network (GAN) architecture that simultaneously learns to synthesise patches for use in APAs, whilst exploiting those attacks to adapt a pre-trained target CNN to reduce its susceptibility to them. This approach enables resilience against APAs to be conferred to pre-trained models, which would be impractical with conventional adversarial training due to the slow convergence of APA methods. We demonstrate transferability of this protection to defend against existing APAs, and show its efficacy across several contemporary CNN architectures.
翻訳日:2022-10-17 11:37:15 公開日:2020-09-17
# ラベル平滑化と逆ロバスト性

Label Smoothing and Adversarial Robustness ( http://arxiv.org/abs/2009.08233v1 )

ライセンス: Link先を確認
Chaohao Fu, Hongbin Chen, Na Ruan, Weijia Jia(参考訳) 最近の研究では、現在の敵対的攻撃手法は欠陥があり、意図的に設計された防御に遭遇すると簡単に失敗することが示されている。 モデルの詳細を少し変更しても攻撃は無効になることもある。 ラベル平滑化によるトレーニングモデルでは,ほとんどの勾配に基づく攻撃において,極めて精度が向上することが確認できた。 例えば、CIFAR-10でラベルスムースにトレーニングされたWideResNetモデルのロバストな精度は、PGD攻撃で75%に達する。 微妙な頑健さの根底にある理由を理解するために,ラベルの平滑化と敵の頑健さの関係を検討する。 ラベルの平滑化を訓練したネットワークの特性に関する理論的解析と各種攻撃下での性能検証を行った。 ラベル平滑化によって生じるロバスト性は, 防御効果が揮発性であることから不完全であり, 自然学習モデルからの攻撃を防御できないことを示す。 本研究は,モデルのロバスト性を適切に評価する方法を,研究コミュニティに再検討させる。

Recent studies indicate that current adversarial attack methods are flawed and easy to fail when encountering some deliberately designed defense. Sometimes even a slight modification in the model details will invalidate the attack. We find that training model with label smoothing can easily achieve striking accuracy under most gradient-based attacks. For instance, the robust accuracy of a WideResNet model trained with label smoothing on CIFAR-10 achieves 75% at most under PGD attack. To understand the reason underlying the subtle robustness, we investigate the relationship between label smoothing and adversarial robustness. Through theoretical analysis about the characteristics of the network trained with label smoothing and experiment verification of its performance under various attacks. We demonstrate that the robustness produced by label smoothing is incomplete based on the fact that its defense effect is volatile, and it cannot defend attacks transferred from a naturally trained model. Our study enlightens the research community to rethink how to evaluate the model's robustness appropriately.
翻訳日:2022-10-17 11:36:59 公開日:2020-09-17
# ニューラルマシン翻訳のためのコードスイッチング事前学習

Code-switching pre-training for neural machine translation ( http://arxiv.org/abs/2009.08088v1 )

ライセンス: Link先を確認
Zhen Yang, Bojie Hu, Ambyera Han, Shen Huang and Qi Ju(参考訳) 本稿では,ニューラルネットワーク翻訳(NMT)のためのCSP(Code-Switching Pre-training)と呼ばれる事前学習手法を提案する。 入力文の断片をランダムにマスキングする従来の事前学習法とは異なり、提案したCSPはソース文の単語をターゲット言語で翻訳語にランダムに置き換える。 具体的には、まず、ソースとターゲット言語間の教師なし単語埋め込みマッピングを用いて辞書誘導を行い、抽出された翻訳辞書に従って入力文中の単語を翻訳語にランダムに置き換える。 CSPはエンコーダ-デコーダフレームワークを採用しており、エンコーダはコード混合文を入力とし、デコーダは入力文の置換断片を予測する。 このようにして、CSPは、ソースおよびターゲット単言語コーパスから抽出された言語間アライメント情報の大部分を明示的に記述することにより、NMTモデルを事前訓練することができる。 また,[マスク]のような人工記号による事前のファイントゥン差を緩和する。 提案手法の有効性を検証するため, 教師なし・教師なしNMT実験を行った。 実験の結果,cspはプレトレーニングや他のプレトレーニング手法を使わずに,ベースラインよりも大幅に改善できることがわかった。

This paper proposes a new pre-training method, called Code-Switching Pre-training (CSP for short) for Neural Machine Translation (NMT). Unlike traditional pre-training method which randomly masks some fragments of the input sentence, the proposed CSP randomly replaces some words in the source sentence with their translation words in the target language. Specifically, we firstly perform lexicon induction with unsupervised word embedding mapping between the source and target languages, and then randomly replace some words in the input sentence with their translation words according to the extracted translation lexicons. CSP adopts the encoder-decoder framework: its encoder takes the code-mixed sentence as input, and its decoder predicts the replaced fragment of the input sentence. In this way, CSP is able to pre-train the NMT model by explicitly making the most of the cross-lingual alignment information extracted from the source and target monolingual corpus. Additionally, we relieve the pretrain-finetune discrepancy caused by the artificial symbols like [mask]. To verify the effectiveness of the proposed method, we conduct extensive experiments on unsupervised and supervised NMT. Experimental results show that CSP achieves significant improvements over baselines without pre-training or with other pre-training methods.
翻訳日:2022-10-17 09:10:41 公開日:2020-09-17
# エンドツーエンドのニューラルネットワークイベントコリファレンス解決

End-to-End Neural Event Coreference Resolution ( http://arxiv.org/abs/2009.08153v1 )

ライセンス: Link先を確認
Yaojie Lu and Hongyu Lin and Jialong Tang and Xianpei Han and Le Sun(参考訳) 従来のイベントコアシステムは通常、パイプラインフレームワークと手作りの機能に依存しており、しばしばエラーの伝搬問題に直面し、一般化能力に乏しい。 本稿では,エンド・ツー・エンドのイベントコリファレンス手法であるe3cニューラルネットワークを提案する。イベント検出とイベントコリファレンス解決タスクを共同でモデル化し,生のテキストから特徴を自動的に抽出することを学ぶ。 さらに,イベント参照は多種多様であり,イベントコリファレンスは長距離かつ意味依存的な決定によって複雑に制御されるため,e3cニューラルネットワークでは,型誘導イベントコリファレンス機構がさらに提案されている。 実験により,本手法は2つの標準データセットに対して新しい最先端性能を実現することを示す。

Traditional event coreference systems usually rely on pipeline framework and hand-crafted features, which often face error propagation problem and have poor generalization ability. In this paper, we propose an End-to-End Event Coreference approach -- E3C neural network, which can jointly model event detection and event coreference resolution tasks, and learn to extract features from raw text automatically. Furthermore, because event mentions are highly diversified and event coreference is intricately governed by long-distance, semantic-dependent decisions, a type-guided event coreference mechanism is further proposed in our E3C neural network. Experiments show that our method achieves new state-of-the-art performance on two standard datasets.
翻訳日:2022-10-17 09:10:20 公開日:2020-09-17
# SemEval-2020 Task 5におけるISCAS:非現実的ステートメントモデリングのための事前学習型トランスフォーマ

ISCAS at SemEval-2020 Task 5: Pre-trained Transformers for Counterfactual Statement Modeling ( http://arxiv.org/abs/2009.08171v1 )

ライセンス: Link先を確認
Yaojie Lu and Annan Li and Hongyu Lin and Xianpei Han and Le Sun(参考訳) ISCASはSemEval 2020 Task 5の2つのサブタスクに参加した。 本稿では, 予め学習した変圧器をベースとするシステムについて述べる。 最初のサブタスクでは、偽造文を検出するための変換器ベースの分類器を訓練する。 第2のサブタスクでは,クエリに基づく質問応答問題として先行抽出と結果抽出を定式化する。 2つのサブシステムが評価で3位となった。 我々のシステムはhttps://github.com/casnlu/ISCAS-SemEval 2020Task5で公開されています。

ISCAS participated in two subtasks of SemEval 2020 Task 5: detecting counterfactual statements and detecting antecedent and consequence. This paper describes our system which is based on pre-trained transformers. For the first subtask, we train several transformer-based classifiers for detecting counterfactual statements. For the second subtask, we formulate antecedent and consequence extraction as a query-based question answering problem. The two subsystems both achieved third place in the evaluation. Our system is openly released at https://github.com/casnlu/ISCAS-SemEval2020Task5.
翻訳日:2022-10-17 09:10:08 公開日:2020-09-17
# DSC IIT-ISM at SemEval-2020 Task 6: Boosting BERT with Dependencies for Definition extract

DSC IIT-ISM at SemEval-2020 Task 6: Boosting BERT with Dependencies for Definition Extraction ( http://arxiv.org/abs/2009.08180v1 )

ライセンス: Link先を確認
Aadarsh Singh, Priyanshu Kumar and Aman Sinha(参考訳) 定義抽出における変換器(BERT)からの双方向エンコーダ表現の性能について検討する。 さらに,BERT と Text Level Graph Convolutional Network の結合モデルを提案する。 提案モデルでは,文が定義を含むか否かを分類する共有タスクであるDeftEval(SemEval 2020のタスク6)において,BERTよりも優れた結果が得られ,詳細な調整言語モデルによるBERTに匹敵する結果が得られる(Subtask 1)。

We explore the performance of Bidirectional Encoder Representations from Transformers (BERT) at definition extraction. We further propose a joint model of BERT and Text Level Graph Convolutional Network so as to incorporate dependencies into the model. Our proposed model produces better results than BERT and achieves comparable results to BERT with fine tuned language model in DeftEval (Task 6 of SemEval 2020), a shared task of classifying whether a sentence contains a definition or not (Subtask 1).
翻訳日:2022-10-17 09:09:58 公開日:2020-09-17
# もしwikipediaがなかったら? 大規模ニュースコーパスからのドメイン非依存用語抽出

What if we had no Wikipedia? Domain-independent Term Extraction from a Large News Corpus ( http://arxiv.org/abs/2009.08240v1 )

ライセンス: Link先を確認
Yonatan Bilu, Shai Gretz, Edo Cohen and Noam Slonim(参考訳) 過去20年で最も印象的な人間の努力の1つは、wikipediaである自由でアクセス可能なフォーマットで人間の知識の収集と分類である。 この研究で我々は、この知識の領域に入り、ウィキペディアに独自のページを持つのにふさわしい用語は何なのかを尋ねる。 これはwikipedia編集者の独特な選択というよりも、人間の談話や議論の自然な産物なのか? 具体的には、このような「wikiにふさわしい」用語を巨大なニュースコーパスで特定し、それが実際のwikipediaエントリに依存することなく、あるいは最小限でできるかどうかを確認することを目的としています。 5つすべてに対してベースライン結果を提供し、それらをベンチマークするための関連するデータセットを提供する。 我々の研究はドメイン固有の自動用語抽出問題に新たな光を当て、その問題はまだドメインに依存しない変種である。

One of the most impressive human endeavors of the past two decades is the collection and categorization of human knowledge in the free and accessible format that is Wikipedia. In this work we ask what makes a term worthy of entering this edifice of knowledge, and having a page of its own in Wikipedia? To what extent is this a natural product of on-going human discourse and discussion rather than an idiosyncratic choice of Wikipedia editors? Specifically, we aim to identify such "wiki-worthy" terms in a massive news corpus, and see if this can be done with no, or minimal, dependency on actual Wikipedia entries. We suggest a five-step pipeline for doing so, providing baseline results for all five, and the relevant datasets for benchmarking them. Our work sheds new light on the domain-specific Automatic Term Extraction problem, with the problem at hand being a domain-independent variant of it.
翻訳日:2022-10-17 09:09:46 公開日:2020-09-17
# 対話型要約の評価: 拡張ベースのフレームワーク

Evaluating Interactive Summarization: an Expansion-Based Framework ( http://arxiv.org/abs/2009.08380v1 )

ライセンス: Link先を確認
Ori Shapira, Ramakanth Pasunuru, Hadar Ronen, Mohit Bansal, Yael Amsterdamer, Ido Dagan(参考訳) ユーザがマルチドキュメントサマリと対話できるようにすることは、サマリ結果の改善とカスタマイズに有望な方向だ。 インタラクティブな要約のための異なるアイデアがこれまでの研究で提案されているが、これらの解は高度にばらつきがあり、相容れない。 本稿では,対話型セッションに沿って情報を蓄積することを考慮した,拡張型インタラクティブ要約のためのエンドツーエンド評価フレームワークを開発する。 本フレームワークは,標準に基づく実際のユーザセッションの収集と評価方法を含むが,インタラクションの反映に適応する。 すべてのソリューションは、ベンチマークとして公開され、インタラクティブな要約における将来の開発の比較を可能にします。 我々は、この目的のために開発したベースライン実装を評価し比較することにより、ベンチマークの一部として機能するフレームワークの使用を実証する。 これらのシステムの広範な実験と分析は、設計の選択を動機付け、フレームワークの存続性をサポートします。

Allowing users to interact with multi-document summarizers is a promising direction towards improving and customizing summary results. Different ideas for interactive summarization have been proposed in previous work but these solutions are highly divergent and incomparable. In this paper, we develop an end-to-end evaluation framework for expansion-based interactive summarization, which considers the accumulating information along an interactive session. Our framework includes a procedure of collecting real user sessions and evaluation measures relying on standards, but adapted to reflect interaction. All of our solutions are intended to be released publicly as a benchmark, allowing comparison of future developments in interactive summarization. We demonstrate the use of our framework by evaluating and comparing baseline implementations that we developed for this purpose, which will serve as part of our benchmark. Our extensive experimentation and analysis of these systems motivate our design choices and support the viability of our framework.
翻訳日:2022-10-17 09:09:32 公開日:2020-09-17
# 通信ネットワークにおける交通予測のための時空間ハイブリッドグラフ畳み込みネットワーク

Spatio-Temporal Hybrid Graph Convolutional Network for Traffic Forecasting in Telecommunication Networks ( http://arxiv.org/abs/2009.09849v1 )

ライセンス: Link先を確認
Marcus Kalander, Min Zhou, Chengzhi Zhang, Hanling Yi, Lujia Pan(参考訳) 通信ネットワークは現代社会において重要な役割を担っている。 5gネットワークが登場し、これらのシステムはより多様化し、統合され、インテリジェントになっています。 このようなシステムにおいて,交通予測は重要な要素の1つであるが,複雑な時空間依存性のため,特に困難である。 本研究では,セルラーネットワークの側面と基地局間の相互作用からこの問題を考察する。 密集した都市圏から収集したデータをもとに,セルネットワークトラフィックの特性を徹底的に調査し,依存関係の複雑度を明らかにした。 具体的には、トラフィックは動的および静的な空間依存性と多様な周期時間パターンの両方を示す。 これらの複雑さに対処するために,STHGCN(Spatio-Temporal Hybrid Graph Convolutional Network)という,効果的なディープラーニングベースのアプローチを提案する。 grusを使って時間依存をモデル化し、空間的近接性、機能的類似性、最近の傾向類似性という3つの視点からハイブリッドgcnを介して複雑な空間依存を捉える。 通信ネットワークから収集した実世界の交通データセットについて広範な実験を行った。 実験結果は,従来の手法と最先端のディープラーニングモデルの両方を一貫して上回りながら,より堅牢で安定であることを示す。

Telecommunication networks play a critical role in modern society. With the arrival of 5G networks, these systems are becoming even more diversified, integrated, and intelligent. Traffic forecasting is one of the key components in such a system, however, it is particularly challenging due to the complex spatial-temporal dependency. In this work, we consider this problem from the aspect of a cellular network and the interactions among its base stations. We thoroughly investigate the characteristics of cellular network traffic and shed light on the dependency complexities based on data collected from a densely populated metropolis area. Specifically, we observe that the traffic shows both dynamic and static spatial dependencies as well as diverse cyclic temporal patterns. To address these complexities, we propose an effective deep-learning-based approach, namely, Spatio-Temporal Hybrid Graph Convolutional Network (STHGCN). It employs GRUs to model the temporal dependency, while capturing the complex spatial dependency through a hybrid-GCN from three perspectives: spatial proximity, functional similarity, and recent trend similarity. We conduct extensive experiments on real-world traffic datasets collected from telecommunication networks. Our experimental results demonstrate the superiority of the proposed model in that it consistently outperforms both classical methods and state-of-the-art deep learning models, while being more robust and stable.
翻訳日:2022-10-17 09:02:46 公開日:2020-09-17
# shapeassembly: 3次元形状構造合成のためのプログラム生成のための学習

ShapeAssembly: Learning to Generate Programs for 3D Shape Structure Synthesis ( http://arxiv.org/abs/2009.08026v1 )

ライセンス: Link先を確認
R. Kenny Jones, Theresa Barton, Xianghao Xu, Kai Wang, Ellen Jiang, Paul Guerrero, Niloy J. Mitra, and Daniel Ritchie(参考訳) 3D形状の生成モデルは魅力的な代替手段を提供する。 プロシージャ表現は、高品質で編集可能な結果を提供するが、執筆が困難であり、しばしば多様性が制限された出力を生成する。 十分なデータがあれば、あらゆる種類の形状を生成することができるが、出力にはアーティファクトがあり、その表現は編集できない。 本稿では,新しい3次元形状合成のための両世界の最善を達成するための一歩を踏み出す。 3次元形状構造のためのドメイン固有な"アセンブリ言語"であるshapeassemblyを提案する。 shapeassemblyプログラムは、キューブイド部分のプロキシを宣言し、互いに階層的で対称的な方法でアタッチすることで形を作る。 その関数は自由変数でパラメータ化され、1つのプログラム構造が関連する形状の族をキャプチャすることができる。 PartNetデータセットの既存の形状構造からShapeAssemblyプログラムを抽出する方法を示す。 次に、新しいShapeAssemblyプログラムを書くことを学習する深層生成モデル、階層的シーケンスVAEを訓練する。 プログラムは解釈可能で編集可能な変数のサブセットをキャプチャする。 深層モデルは、手続き的に表現するのが難しい形状コレクション間の相関をキャプチャする。 提案手法は, 生成したプログラムから出力される形状と, 最近の形状構造合成モデルとを比較して評価する。 我々の生成した形状は、他の方法よりも可塑性で物理的に有益であることがわかった。 さらに、これらのモデルの潜在空間を評価し、我々の方がより構造が良く、よりスムーズな補間ができることを見出します。 アプリケーションとして、生成モデルと微分可能なプログラムインタプリタを用いて、ポイントクラウドのような非構造化幾何学に形状プログラムを推論し、適合させる。

Manually authoring 3D shapes is difficult and time consuming; generative models of 3D shapes offer compelling alternatives. Procedural representations are one such possibility: they offer high-quality and editable results but are difficult to author and often produce outputs with limited diversity. On the other extreme are deep generative models: given enough data, they can learn to generate any class of shape but their outputs have artifacts and the representation is not editable. In this paper, we take a step towards achieving the best of both worlds for novel 3D shape synthesis. We propose ShapeAssembly, a domain-specific "assembly-language" for 3D shape structures. ShapeAssembly programs construct shapes by declaring cuboid part proxies and attaching them to one another, in a hierarchical and symmetrical fashion. Its functions are parameterized with free variables, so that one program structure is able to capture a family of related shapes. We show how to extract ShapeAssembly programs from existing shape structures in the PartNet dataset. Then we train a deep generative model, a hierarchical sequence VAE, that learns to write novel ShapeAssembly programs. The program captures the subset of variability that is interpretable and editable. The deep model captures correlations across shape collections that are hard to express procedurally. We evaluate our approach by comparing shapes output by our generated programs to those from other recent shape structure synthesis models. We find that our generated shapes are more plausible and physically-valid than those of other methods. Additionally, we assess the latent spaces of these models, and find that ours is better structured and produces smoother interpolations. As an application, we use our generative model and differentiable program interpreter to infer and fit shape programs to unstructured geometry, such as point clouds.
翻訳日:2022-10-17 09:02:10 公開日:2020-09-17
# 微分物理学を用いた映像からの物理パラメータの同定

Learning to Identify Physical Parameters from Video Using Differentiable Physics ( http://arxiv.org/abs/2009.08292v1 )

ライセンス: Link先を確認
Rama Krishna Kandukuri, Jan Achterhold, Michael M\"oller, J\"org St\"uckler(参考訳) 近年,映像表現学習がコンピュータビジョンに注目されている。 ビデオ予測モデルは、しばしば入力フレームからエンコードされ、画像にデコードされるビデオの潜在表現を学習する。 アクションが条件付きであっても、純粋にディープラーニングベースのアーキテクチャは、物理的に解釈可能な潜在空間を欠いている。 本研究では,動作条件映像表現ネットワーク内の微分可能な物理エンジンを用いて,物理的潜在表現を学習する。 本稿では,ネットワークを学習し,物理的特性を識別するための教師付き自己教師型学習手法を提案する。 後者は空間トランスフォーマーを使って物理的状態を画像にデコードする。 実験におけるシミュレーションシナリオは, 物体の押・滑動・衝突を想定し, 物理特性の可観測性も解析した。 実験では,ネットワークが画像の符号化を学習し,シミュレーションシナリオで映像と映像との摩擦や動作シーケンスなどの物理的特性を識別できることを実証する。 我々は, 教師付きおよび自己教師付き手法の精度を評価し, 状態軌跡から直接学習するシステム同定ベースラインと比較する。 また,入力画像や動作から将来の映像フレームを予測する能力についても示す。

Video representation learning has recently attracted attention in computer vision due to its applications for activity and scene forecasting or vision-based planning and control. Video prediction models often learn a latent representation of video which is encoded from input frames and decoded back into images. Even when conditioned on actions, purely deep learning based architectures typically lack a physically interpretable latent space. In this study, we use a differentiable physics engine within an action-conditional video representation network to learn a physical latent representation. We propose supervised and self-supervised learning methods to train our network and identify physical properties. The latter uses spatial transformers to decode physical states back into images. The simulation scenarios in our experiments comprise pushing, sliding and colliding objects, for which we also analyze the observability of the physical properties. In experiments we demonstrate that our network can learn to encode images and identify physical properties like mass and friction from videos and action sequences in the simulated scenarios. We evaluate the accuracy of our supervised and self-supervised methods and compare it with a system identification baseline which directly learns from state trajectories. We also demonstrate the ability of our method to predict future video frames from input images and actions.
翻訳日:2022-10-17 09:01:43 公開日:2020-09-17
# 電子顕微鏡ボリュームにおける微小管追跡

Microtubule Tracking in Electron Microscopy Volumes ( http://arxiv.org/abs/2009.08371v1 )

ライセンス: Link先を確認
Nils Eckstein and Julia Buhmann and Matthew Cook and Jan Funke(参考訳) 電子顕微鏡ボリュームにおける微小管追跡法を提案する。 提案手法はまず, 微小管に属する可能性のある粗いボクセルの集合を同定する。 以前の研究と同様に、これらのボクセル間の潜在的なエッジを列挙し、候補グラフで表現する。 微小管構造に生物前処理を組み込んだ制約付き最適化問題を解くことにより、候補グラフのノードとエッジを選択することにより、微小管の軌跡が見つかる。 そこで本研究では,従来の手法に比べて3桁の高速化と53%の精度向上(1.2 x 4 x 4$\mu$mのショウジョウバエ神経組織での評価)を実現する,新しい整数線形計画法を提案する。 また, 分散トラッキングを可能にし, 大規模電子顕微鏡ボリュームの処理に必要となる, ブロックワイズ方式による最適化問題を解く手法を提案する。 最後に、私たちは、CREMIデータセット(https://github.com/nilsec/micron)に、30 x 1000 x 1000 のボクセルブロック (1.2 x 4 x 4$\mu$m) の高密度アノテーションを付加した8つのマイクロチューブブロックからなる、マイクロタブ追跡のためのベンチマークデータセットをリリースする。

We present a method for microtubule tracking in electron microscopy volumes. Our method first identifies a sparse set of voxels that likely belong to microtubules. Similar to prior work, we then enumerate potential edges between these voxels, which we represent in a candidate graph. Tracks of microtubules are found by selecting nodes and edges in the candidate graph by solving a constrained optimization problem incorporating biological priors on microtubule structure. For this, we present a novel integer linear programming formulation, which results in speed-ups of three orders of magnitude and an increase of 53% in accuracy compared to prior art (evaluated on three 1.2 x 4 x 4$\mu$m volumes of Drosophila neural tissue). We also propose a scheme to solve the optimization problem in a block-wise fashion, which allows distributed tracking and is necessary to process very large electron microscopy volumes. Finally, we release a benchmark dataset for microtubule tracking, here used for training, testing and validation, consisting of eight 30 x 1000 x 1000 voxel blocks (1.2 x 4 x 4$\mu$m) of densely annotated microtubules in the CREMI data set (https://github.com/nilsec/micron).
翻訳日:2022-10-17 09:01:22 公開日:2020-09-17
# 高分解能衛星画像と等価地勢を用いたインフォーマル集落の人口マッピング

Population Mapping in Informal Settlements with High-Resolution Satellite Imagery and Equitable Ground-Truth ( http://arxiv.org/abs/2009.08410v1 )

ライセンス: Link先を確認
Konstantin Klemmer, Godwin Yeboah, Jo\~ao Porto de Albuquerque, Stephen A Jarvis(参考訳) 本研究では,高分解能衛星画像を用いて,低所得都市における密集した非公式集落の人口推定のための汎用的枠組みを提案する。 正確な人口推計は、例えば医療状況において、政府機関やNGOによる効率的な資源配分にとって重要な要素である。 我々は,地域コミュニティと協調して収集される公平な地平データを利用する。訓練と地域マッピングを通じて,地域住民は独自のドメイン知識を提供しながら,データに関するエージェンシーも維持する。 このプラクティスは、より厳格な接地的アプローチによって生じるかもしれないモデリングパイプラインに潜在的なバイアスを前方へ持ち込むのを避けることができます。 私たちは、機械学習コミュニティ内で進行中の議論に関して、私たちのアプローチをコンテキスト化し、現実世界の機械学習アプリケーションをより包括的で公平で説明責任のあるものにすることを目指しています。 資源集約的な地上生成プロセスのため、トレーニングデータは限られています。 本研究では,フレキシブルかつカスタマイズ可能な空間分解能を実現するグリッド人口推定モデルを提案する。 ナイジェリアの3つの実験現場でパイプラインをテストし、トレーニング済みと微調整の視覚ネットワークを使ってデータの分散を克服した。 本研究は,実世界の課題に共通ベンチマークモデルを移すことの難しさを浮き彫りにした。 我々はこれを議論し、前進を提案します。

We propose a generalizable framework for the population estimation of dense, informal settlements in low-income urban areas--so called 'slums'--using high-resolution satellite imagery. Precise population estimates are a crucial factor for efficient resource allocations by government authorities and NGO's, for instance in medical emergencies. We utilize equitable ground-truth data, which is gathered in collaboration with local communities: Through training and community mapping, the local population contributes their unique domain knowledge, while also maintaining agency over their data. This practice allows us to avoid carrying forward potential biases into the modeling pipeline, which might arise from a less rigorous ground-truthing approach. We contextualize our approach in respect to the ongoing discussion within the machine learning community, aiming to make real-world machine learning applications more inclusive, fair and accountable. Because of the resource intensive ground-truth generation process, our training data is limited. We propose a gridded population estimation model, enabling flexible and customizable spatial resolutions. We test our pipeline on three experimental site in Nigeria, utilizing pre-trained and fine-tune vision networks to overcome data sparsity. Our findings highlight the difficulties of transferring common benchmark models to real-world tasks. We discuss this and propose steps forward.
翻訳日:2022-10-17 09:00:56 公開日:2020-09-17
# 顔を処理するための連結集約コード(改訂版)

A Linked Aggregate Code for Processing Faces (Revised Version) ( http://arxiv.org/abs/2009.08281v1 )

ライセンス: Link先を確認
Michael Lyons and Kazunori Morikawa(参考訳) 視覚系の生物学に触発された顔表現のモデルは、顔の類似性の知覚に関する実験データと比較される。 顔表現モデルでは、顔を覆う格子に局所的に結合した第1次視覚野(v1)細胞応答を用い、2つの顔画像の対応する点における形状とテクスチャの比較を可能にする。 比較的類似した顔のセットが刺激として使用されると、このリンクアグリゲートコード(LAC)は類似性判定実験で人間のパフォーマンスを予測した。 知覚可能なカテゴリの顔を使用すると、性別や人種などの次元は、トレーニングなしでLACモデルから現れた。 混合カテゴリー課題におけるLAC類似度尺度の次元構造は, 心理的に妥当な特徴を示すとともに, モデルと人間類似度判定の相違も強調した。 人間の判断は、LACモデルでは共有されなかった人種的知覚バイアスを示した。 その結果、lacに基づく類似度尺度は、顔知覚におけるバイアスの発達を含む、高次視覚領域における顔表現のさらなるモデリング研究の出発点となる可能性が示唆された。

A model of face representation, inspired by the biology of the visual system, is compared to experimental data on the perception of facial similarity. The face representation model uses aggregate primary visual cortex (V1) cell responses topographically linked to a grid covering the face, allowing comparison of shape and texture at corresponding points in two facial images. When a set of relatively similar faces was used as stimuli, this Linked Aggregate Code (LAC) predicted human performance in similarity judgment experiments. When faces of perceivable categories were used, dimensions such as apparent sex and race emerged from the LAC model without training. The dimensional structure of the LAC similarity measure for the mixed category task displayed some psychologically plausible features but also highlighted differences between the model and the human similarity judgements. The human judgements exhibited a racial perceptual bias that was not shared by the LAC model. The results suggest that the LAC based similarity measure may offer a fertile starting point for further modelling studies of face representation in higher visual areas, including studies of the development of biases in face perception.
翻訳日:2022-10-17 08:53:53 公開日:2020-09-17
# 進化的選択的模倣:実証のない模倣学習による解釈可能なエージェント

Evolutionary Selective Imitation: Interpretable Agents by Imitation Learning Without a Demonstrator ( http://arxiv.org/abs/2009.08403v1 )

ライセンス: Link先を確認
Roy Eliya, J. Michael Herrmann(参考訳) エージェントを進化戦略 (ES) で訓練する方法を提案し, サンプルの集合を反復的に改良して模倣する: ランダムな集合から始めると, イテレーション毎に, サンプルのサブセットを, これまでに発見された最良の軌道からサンプルに置き換える。 このセットの評価手順は、教師付き学習を通じて、ランダムに初期化されたニューラルネットワーク(NN)を訓練し、そのセットを模倣し、取得した環境に対するポリシーを実行する。 したがって,本手法は,進化するデータサブセットを模倣する効果を表わす適合関数に基づくesである。 これは、ポリシーの重みを直接反復する他のES技術とは対照的である。 エージェントが学習のために選択したサンプルを観察することにより、NN学習よりもエージェントの進化戦略をより明示的に解釈し、評価することができる。 実験では,わずか数千のパラメータを持つNNを用いて,25個のサンプルからなる進化的に選択されたセットを模倣して,OpenAI Gym環境のBipedalwalker-v3を解くエージェントを訓練した。 我々はさらに,Procgen ゲーム Plunder 上で本手法を検証し,提案手法が他のESやポリシー勾配法に代わる解釈可能で,小さく,頑健で効果的な代替手段であることを示す。

We propose a new method for training an agent via an evolutionary strategy (ES), in which we iteratively improve a set of samples to imitate: Starting with a random set, in every iteration we replace a subset of the samples with samples from the best trajectories discovered so far. The evaluation procedure for this set is to train, via supervised learning, a randomly initialised neural network (NN) to imitate the set and then execute the acquired policy against the environment. Our method is thus an ES based on a fitness function that expresses the effectiveness of imitating an evolving data subset. This is in contrast to other ES techniques that iterate over the weights of the policy directly. By observing the samples that the agent selects for learning, it is possible to interpret and evaluate the evolving strategy of the agent more explicitly than in NN learning. In our experiments, we trained an agent to solve the OpenAI Gym environment Bipedalwalker-v3 by imitating an evolutionarily selected set of only 25 samples with a NN with only a few thousand parameters. We further test our method on the Procgen game Plunder and show here as well that the proposed method is an interpretable, small, robust and effective alternative to other ES or policy gradient methods.
翻訳日:2022-10-17 08:53:08 公開日:2020-09-17
# ディープラーニングとソフトウェアエンジニアリング: 研究の現状と今後の方向性

Deep Learning & Software Engineering: State of Research and Future Directions ( http://arxiv.org/abs/2009.08525v1 )

ライセンス: Link先を確認
Prem Devanbu, Matthew Dwyer, Sebastian Elbaum, Michael Lowry, Kevin Moran, Denys Poshyvanyk, Baishakhi Ray, Rishabh Singh, and Xiangyu Zhang(参考訳) 現在、Deep Learning (DL)とSoftware Engineering (SE)の交差点にある研究の変革の可能性を考えると、NSFが主催するコミュニティワークショップは、カリフォルニア州サンディエゴで開催された第34回IEEE/ACM International Conference on Automated Software Engineering (ASE'19)と共同で実施された。 本ワークショップの目的は,横断的研究の優先度の高い分野を概説することであった。 今後の作業に向けた多くのエキサイティングな方向性が特定されている一方で,本報告では,ワークショップで議論された優先度の高い分野を代表する研究領域を概説する。 このレポートの意図は、SE & DLの交差点にある将来の作業のガイドとなる可能性のあるロードマップとして機能することである。

Given the current transformative potential of research that sits at the intersection of Deep Learning (DL) and Software Engineering (SE), an NSF-sponsored community workshop was conducted in co-location with the 34th IEEE/ACM International Conference on Automated Software Engineering (ASE'19) in San Diego, California. The goal of this workshop was to outline high priority areas for cross-cutting research. While a multitude of exciting directions for future work were identified, this report provides a general summary of the research areas representing the areas of highest priority which were discussed at the workshop. The intent of this report is to serve as a potential roadmap to guide future work that sits at the intersection of SE & DL.
翻訳日:2022-10-17 08:52:46 公開日:2020-09-17
# primes,log-lossスコアと(no)プライバシー

On Primes, Log-Loss Scores and (No) Privacy ( http://arxiv.org/abs/2009.08559v1 )

ライセンス: Link先を確認
Abhinav Aggarwal, Zekun Xu, Oluwaseyi Feyisetan, Nathanael Teissier(参考訳) メンバーシップ推論攻撃は、顧客データでトレーニングされたモデルを敵のクエリに暴露する脆弱性を悪用する。 最近提案された機密データセットからのプライバシー漏洩を測定する監査ツールの実装では、推測攻撃をシミュレートするためにログロススコアのようなより洗練された集約を公開し、敵の予測に基づいてプライバシー漏洩全体の評価を行う。 本稿では,この追加情報により,単一のクエリにおいて,任意のデータポイントのメンバシップを完全精度で推測することができ,完全なメンバシッププライバシ侵害を引き起こすことを実証する。 我々のアプローチは、攻撃モデルのトレーニングや、敵とのサイド知識へのアクセスを妨げます。 さらに,本アルゴリズムは攻撃対象のモデルに依存せず,記憶や過度に適合しないモデルにおいても完全なメンバシップ推論を可能にする。 特に,統計集約からの情報漏洩の程度と,その利用方法についての知見を提供する。

Membership Inference Attacks exploit the vulnerabilities of exposing models trained on customer data to queries by an adversary. In a recently proposed implementation of an auditing tool for measuring privacy leakage from sensitive datasets, more refined aggregates like the Log-Loss scores are exposed for simulating inference attacks as well as to assess the total privacy leakage based on the adversary's predictions. In this paper, we prove that this additional information enables the adversary to infer the membership of any number of datapoints with full accuracy in a single query, causing complete membership privacy breach. Our approach obviates any attack model training or access to side knowledge with the adversary. Moreover, our algorithms are agnostic to the model under attack and hence, enable perfect membership inference even for models that do not memorize or overfit. In particular, our observations provide insight into the extent of information leakage from statistical aggregates and how they can be exploited.
翻訳日:2022-10-17 08:51:07 公開日:2020-09-17
# ベイズ最適化による森林目録サンプリングにおけるリモートセンシングデータの利用

Utilizing remote sensing data in forest inventory sampling via Bayesian optimization ( http://arxiv.org/abs/2009.08420v1 )

ライセンス: Link先を確認
Jonne Pohjankukka, Sakari Tuominen, Jukka Heikkonen(参考訳) 大面積の森林在庫では、サンプリングされるデータの量とデータ収集のコストとの間のトレードオフが必要である。 サンプリングベースの在庫を扱う場合、必ずしも非常に大きなデータサンプルを持つことは不可能である。 したがって, 最適人口パラメータ推定を実現するためには, サンプリング設計を最適化する必要がある。 それとは対照的に、森林在庫変数と相関するリモートセンシング(RS)データの可用性は、通常、はるかに高い。 RSとサンプルフィールド計測データの組み合わせは、しばしば森林在庫パラメーター推定を改善するために使用される。 また,目録サンプリングにおけるrsデータの利用について検討することも合理的であり,森林変数の推定をさらに改善することができる。 本研究では,森林在庫サンプル選択におけるRSデータを用いたベイズ最適化に基づくデータサンプリング手法を提案する。 提案手法は,RSと在庫データ間の学習関数関係を新しいサンプリング決定に適用する。 フィンランドのオーランド地域から得られた合成データと測定データの両方を用いて, 模擬サンプリング実験を行い, 評価を行った。 提案手法は,単純なランダムサンプリング法と局所ピボット法という2つの基本手法に対してベンチマークを行う。 シミュレーション実験の結果は,RSと在庫データとの関数関係が,利用可能なトレーニングデータから正しく学習された場合に,提案手法のMSE値の観点から最もよい結果を示す。

In large-area forest inventories a trade-off between the amount of data to be sampled and the costs of collecting the data is necessary. It is not always possible to have a very large data sample when dealing with sampling-based inventories. It is therefore necessary to optimize the sampling design in order to achieve optimal population parameter estimation. On the contrary, the availability of remote sensing (RS) data correlated with the forest inventory variables is usually much higher. The combination of RS and the sampled field measurement data is often used for improving the forest inventory parameter estimation. In addition, it is also reasonable to study the utilization of RS data in inventory sampling, which can further improve the estimation of forest variables. In this study, we propose a data sampling method based on Bayesian optimization which uses RS data in forest inventory sample selection. The presented method applies the learned functional relationship between the RS and inventory data in new sampling decisions. We evaluate our method by conducting simulated sampling experiments with both synthetic data and measured data from the Aland region in Finland. The proposed method is benchmarked against two baseline methods: simple random sampling and the local pivotal method. The results of the simulated experiments show the best results in terms of MSE values for the proposed method when the functional relationship between RS and inventory data is correctly learned from the available training data.
翻訳日:2022-10-17 08:44:48 公開日:2020-09-17
# 一人以上の」ショットラーニング:M<NサンプルからNクラスを学ぶ

'Less Than One'-Shot Learning: Learning N Classes From M<N Samples ( http://arxiv.org/abs/2009.08449v1 )

ライセンス: Link先を確認
Ilia Sucholutsky, Matthias Schonlau(参考訳) ディープニューラルネットワークは大きなトレーニングセットを必要とするが、高い計算コストと長いトレーニング時間に苦しむ。 ほぼ同じ精度を維持しながら、より小さなトレーニングセットでのトレーニングは、非常に有益である。 数少ない学習設定では、モデルは、そのクラスから少数のサンプルしか与えていない新しいクラスを学ばなければならない。 ワンショット学習(one-shot learning)は、モデルが1つの例から新しいクラスを学ばなければならない、最小限の学習の極端な形態である。 我々は、モデルが$m<n$の例しか与えていない新しいクラスを学ばなければならない`less than one'-shot学習タスクを提案し、ソフトラベルの助けを借りて実現可能であることを示す。 我々は,k-nearest近傍の分類器のソフトラベル一般化を用いて,'less than one'-shot learning設定で生成可能な複雑な意思決定環境を探索する。 我々はこれらの意思決定環境を分析し、$M<N$ソフトラベルサンプルを用いて$N$クラスを分離するための理論的下限を導出し、その結果のシステムの堅牢性を調べる。

Deep neural networks require large training sets but suffer from high computational cost and long training times. Training on much smaller training sets while maintaining nearly the same accuracy would be very beneficial. In the few-shot learning setting, a model must learn a new class given only a small number of samples from that class. One-shot learning is an extreme form of few-shot learning where the model must learn a new class from a single example. We propose the `less than one'-shot learning task where models must learn $N$ new classes given only $M<N$ examples and we show that this is achievable with the help of soft labels. We use a soft-label generalization of the k-Nearest Neighbors classifier to explore the intricate decision landscapes that can be created in the `less than one'-shot learning setting. We analyze these decision landscapes to derive theoretical lower bounds for separating $N$ classes using $M<N$ soft-label samples and investigate the robustness of the resulting systems.
翻訳日:2022-10-17 08:44:29 公開日:2020-09-17
# 19世紀の書籍における生産技術分類への深層学習アプローチ

Deep Learning Approaches to Classification of Production Technology for 19th Century Books ( http://arxiv.org/abs/2009.08219v1 )

ライセンス: Link先を確認
Chanjong Im, Junaid Ghauri, John Rothman, Thomas Mandl(参考訳) 文化研究は、書籍産業における知識の普及過程と社会的・技術的実践を理解することに専念している。 19世紀の児童書の研究はコンピュータシステムによって支援されている。 特に、デジタル画像処理の進歩は、書籍の視覚成分の分析と定量化に絶好の機会をもたらすように思われる。 19世紀の書籍におけるイラストレーションの制作技術は、木や銅の版画からリソグラフィーへの転換が特徴である。 本稿では,生産技術に基づく画像の分類を目的とした分類実験について報告する。 人間にとっても難しい分類課題では、分類品質は70%程度にしか達しない。 我々は、さらなるエラーソースを分析し、低性能の原因を特定する。

Cultural research is dedicated to understanding the processes of knowledge dissemination and the social and technological practices in the book industry. Research on children books in the 19th century can be supported by computer systems. Specifically, the advances in digital image processing seem to offer great opportunities for analyzing and quantifying the visual components in the books. The production technology for illustrations in books in the 19th century was characterized by a shift from wood or copper engraving to lithography. We report classification experiments which intend to classify images based on the production technology. For a classification task that is also difficult for humans, the classification quality reaches only around 70%. We analyze some further error sources and identify reasons for the low performance.
翻訳日:2022-10-17 08:43:37 公開日:2020-09-17
# データ分布保存による深部部分表現の学習

Learning a Deep Part-based Representation by Preserving Data Distribution ( http://arxiv.org/abs/2009.08246v1 )

ライセンス: Link先を確認
Anyong Qin and Zhaowei Shang and Zhuolin Tan and Taiping Zhang and Yuan Yan Tang(参考訳) 教師なし次元減少は、高次元データ認識問題において一般的に用いられる技法の1つである。 非負の重みを制約するディープオートエンコーダネットワークは、データの低次元部分ベースの表現を学習することができる。 一方、各データクラスタの固有の構造は、クラス内サンプルの分布によって説明できる。 すると、元の高次元データ空間に埋め込まれた本質的な構造を完璧に保存できる新しい低次元表現を学びたいと考える。 本稿では,データ分布を保存することで,深い部分に基づく表現を学習し,新しいアルゴリズムを分散保存ネットワーク埋め込み (dpne) と呼ぶ。 DPNEでは、まず、$k$-nearest 近傍のカーネル密度推定を用いて元の高次元データの分布を推定し、上記の分布を尊重する部分的表現を求める。 実世界のデータセットにおける実験結果から,提案アルゴリズムはクラスタ精度とAMIの点で優れた性能を示した。 その結果、原データの多様体構造は低次元特徴空間で十分に保存できることが判明した。

Unsupervised dimensionality reduction is one of the commonly used techniques in the field of high dimensional data recognition problems. The deep autoencoder network which constrains the weights to be non-negative, can learn a low dimensional part-based representation of data. On the other hand, the inherent structure of the each data cluster can be described by the distribution of the intraclass samples. Then one hopes to learn a new low dimensional representation which can preserve the intrinsic structure embedded in the original high dimensional data space perfectly. In this paper, by preserving the data distribution, a deep part-based representation can be learned, and the novel algorithm is called Distribution Preserving Network Embedding (DPNE). In DPNE, we first need to estimate the distribution of the original high dimensional data using the $k$-nearest neighbor kernel density estimation, and then we seek a part-based representation which respects the above distribution. The experimental results on the real-world data sets show that the proposed algorithm has good performance in terms of cluster accuracy and AMI. It turns out that the manifold structure in the raw data can be well preserved in the low dimensional feature space.
翻訳日:2022-10-17 08:43:29 公開日:2020-09-17
# 3次元物体検出のためのグラフニューラルネットワークの動的エッジ重み付け

Dynamic Edge Weights in Graph Neural Networks for 3D Object Detection ( http://arxiv.org/abs/2009.08253v1 )

ライセンス: Link先を確認
Sumesh Thakur and Jiju Peethambaran(参考訳) 堅牢で正確な3D検出システムは、自動運転車の不可欠な部分である。 伝統的に、ほとんどの3Dオブジェクト検出アルゴリズムは、ボクセルグリッドや鳥の目視(BEV)を使用して3Dポイントクラウドを処理することに重点を置いている。 しかし、最近の研究は、グラフニューラルネットワーク(GNN)を3Dオブジェクト検出への有望なアプローチとして活用することを実証している。 本稿では,LiDARスキャンにおける物体検出のための注意に基づく特徴集約手法をGNNで提案する。 我々はまず,アルゴリズム性能を向上するだけでなく,センサから遠ざかっても物体の最大幾何学的特徴を維持できる距離対応ダウンサンプリング方式を用いる。 また、gnnの各層において、ノード毎の入力特徴を対応する高レベル特徴にマッピングする線形変換とは別に、第1リング近傍の異なるノードに対して異なる重みを指定することにより、ノード毎の注目をマスキングする。 マスクされた注意は、各ノードの下位の近傍グラフ構造を暗黙的に説明し、またコストのかかるマトリックス操作の必要性をなくし、性能を損なうことなく検出精度を向上させる。 kittiデータセットを用いた実験により, 3次元物体検出に匹敵する結果が得られた。

A robust and accurate 3D detection system is an integral part of autonomous vehicles. Traditionally, a majority of 3D object detection algorithms focus on processing 3D point clouds using voxel grids or bird's eye view (BEV). Recent works, however, demonstrate the utilization of the graph neural network (GNN) as a promising approach to 3D object detection. In this work, we propose an attention based feature aggregation technique in GNN for detecting objects in LiDAR scan. We first employ a distance-aware down-sampling scheme that not only enhances the algorithmic performance but also retains maximum geometric features of objects even if they lie far from the sensor. In each layer of the GNN, apart from the linear transformation which maps the per node input features to the corresponding higher level features, a per node masked attention by specifying different weights to different nodes in its first ring neighborhood is also performed. The masked attention implicitly accounts for the underlying neighborhood graph structure of every node and also eliminates the need of costly matrix operations thereby improving the detection accuracy without compromising the performance. The experiments on KITTI dataset show that our method yields comparable results for 3D object detection.
翻訳日:2022-10-17 08:43:11 公開日:2020-09-17
# ラベル雑音下での効率的な学習のための雑音同時学習

Noisy Concurrent Training for Efficient Learning under Label Noise ( http://arxiv.org/abs/2009.08325v1 )

ライセンス: Link先を確認
Fahad Sarfraz, Elahe Arani and Bahram Zonooz(参考訳) ディープニューラルネットワーク(dnn)はラベルノイズ下で効果的に学習できず、一般化性能に影響を与えるランダムラベルを記憶することが示されている。 我々は,単独で学習すること,ワンホット符号化ラベルを唯一の監督源として使用すること,および標準訓練手順の主な欠点として記憶を阻害するための正規化の欠如を考える。 そこで本研究では,協調学習を活用し,2モデル間のコンセンサスを追加の監督源として活用する,雑音を伴う同時学習(nct)を提案する。 さらに,脳内における試行錯誤正規化手法であるtarget variabilityを提案し,dnnにおける記憶と過一般化の抑止力として,各バッチ内のトレーニングサンプルのラベルをランダムに変更することを含む。 ターゲットの変動性は各モデルに独立して適用され、分岐を保ち、確認バイアスを回避する。 DNNは、ノイズの多いラベルを記憶する前に、まず単純なパターンの学習を優先する傾向にあるため、トレーニングが進むにつれて、2つのモデルがコンセンサスにますます依存する動的な学習方式を採用する。 nctはまた、後段の記憶を避けるために目標変動を徐々に増加させる。 提案手法の有効性を,合成および実世界の雑音のベンチマークデータセットで示す。

Deep neural networks (DNNs) fail to learn effectively under label noise and have been shown to memorize random labels which affect their generalization performance. We consider learning in isolation, using one-hot encoded labels as the sole source of supervision, and a lack of regularization to discourage memorization as the major shortcomings of the standard training procedure. Thus, we propose Noisy Concurrent Training (NCT) which leverages collaborative learning to use the consensus between two models as an additional source of supervision. Furthermore, inspired by trial-to-trial variability in the brain, we propose a counter-intuitive regularization technique, target variability, which entails randomly changing the labels of a percentage of training samples in each batch as a deterrent to memorization and over-generalization in DNNs. Target variability is applied independently to each model to keep them diverged and avoid the confirmation bias. As DNNs tend to prioritize learning simple patterns first before memorizing the noisy labels, we employ a dynamic learning scheme whereby as the training progresses, the two models increasingly rely more on their consensus. NCT also progressively increases the target variability to avoid memorization in later stages. We demonstrate the effectiveness of our approach on both synthetic and real-world noisy benchmark datasets.
翻訳日:2022-10-17 08:42:22 公開日:2020-09-17
# 不確実性下におけるベイズ最適化における平均変動解析

Mean-Variance Analysis in Bayesian Optimization under Uncertainty ( http://arxiv.org/abs/2009.08166v1 )

ライセンス: Link先を確認
Shogo Iwazaki, Yu Inatsu, Ichiro Takeuchi(参考訳) 複数のリスク対策のトレードオフを検討する必要がある不確実な環境において、アクティブラーニング(AL)を考える。 このような不確実な環境におけるAL問題として,ベイズ最適化(MVA-BO)における平均変動解析について検討する。 平均分散分析は金融工学の分野で開発され、投資の不確実性の平均と分散のトレードオフを考慮した意思決定に用いられてきた。 本稿では,不確実成分を用いたBO設定に着目し,不確実成分の平均分散トレードオフに対するマルチタスク,マルチオブジェクト,制約付き最適化シナリオを検討する。 対象のブラックボックス関数がガウス過程(GP)によってモデル化された場合、2つのリスク測度の境界を導出し、リスク測度境界に基づいて上記の3つの問題それぞれに対してALアルゴリズムを提案する。 理論的解析と数値実験により提案アルゴリズムの有効性を示す。

We consider active learning (AL) in an uncertain environment in which trade-off between multiple risk measures need to be considered. As an AL problem in such an uncertain environment, we study Mean-Variance Analysis in Bayesian Optimization (MVA-BO) setting. Mean-variance analysis was developed in the field of financial engineering and has been used to make decisions that take into account the trade-off between the average and variance of investment uncertainty. In this paper, we specifically focus on BO setting with an uncertain component and consider multi-task, multi-objective, and constrained optimization scenarios for the mean-variance trade-off of the uncertain component. When the target blackbox function is modeled by Gaussian Process (GP), we derive the bounds of the two risk measures and propose AL algorithm for each of the above three problems based on the risk measure bounds. We show the effectiveness of the proposed AL algorithms through theoretical analysis and numerical experiments.
翻訳日:2022-10-17 08:35:21 公開日:2020-09-17
# 精度に制限のある多目的動的プログラミング

Multi-objective dynamic programming with limited precision ( http://arxiv.org/abs/2009.08198v1 )

ライセンス: Link先を確認
L. Mandow, J. L. P\'erez de la Cruz, N. Pozas(参考訳) 本稿では,多目的マルコフ決定過程に対する全解の集合を近似する問題に対処する。 興味深い場合のほとんどにおいて、解の数は指数関数的、あるいは無限であることを示している。 この難しさを克服するために,Whiteの多目的値イテレーション動的プログラミングアルゴリズムに基づく限定的精度アプローチを用いて,全ての解の集合を近似することを提案する。 計算された解の数が扱いやすいことを証明し、得られた解が真のパレート前線のよい近似であることを実験的に示す。

This paper addresses the problem of approximating the set of all solutions for Multi-objective Markov Decision Processes. We show that in the vast majority of interesting cases, the number of solutions is exponential or even infinite. In order to overcome this difficulty we propose to approximate the set of all solutions by means of a limited precision approach based on White's multi-objective value-iteration dynamic programming algorithm. We prove that the number of calculated solutions is tractable and show experimentally that the solutions obtained are a good approximation of the true Pareto front.
翻訳日:2022-10-17 08:35:07 公開日:2020-09-17
# 患者の医療状況のグラフ表現 : デジタル双生児に向けて

Graph representation forecasting of patient's medical conditions: towards a digital twin ( http://arxiv.org/abs/2009.08299v1 )

ライセンス: Link先を確認
Pietro Barbiero, Ramon Vi\~nas Torn\'e, Pietro Li\'o(参考訳) 目的: 近代医学は、患者にパーソナライズされた、体系的で正確な治療計画を提供することを目的とした、待機と反応、治療の規律から、予防的で学際的な科学に移行する必要がある。 この研究の目的は、機械学習アプローチと機械計算モデリングの統合が、有機体全体を全体と見なす確率論的シミュレーションを実行するための信頼性の高いインフラをいかに生み出すかを示すことである。 方法: 先進的なAIアプローチを構成し, 数学的モデリングを統合した一般的なフレームワークを提案し, 現状と今後の生理的条件に対するパノラマ的な視点を提供する。 提案アーキテクチャは、臨床関連エンドポイント(血圧など)を予測するグラフニューラルネットワーク(GNN)と、転写可積分性の概念の証明を提供する生成逆ネットワーク(GAN)に基づいている。 結果: 各種組織におけるACE2の過剰発現が心血管機能に及ぼす影響について検討した。 分子データを用いて構成可能な大規模な臨床モデルを統合し、局所的およびグローバルな臨床パラメータを駆動し、患者の生理状態の進化を表す将来の軌跡を導出する概念を実証する。 意義:我々は,計算患者のグラフ表現は,AIとマルチスケール計算モデルを統合する上で重要な技術的課題を解決する可能性があると論じる。 この研究は、ヘルスケアのデジタル双子への一歩だと信じています。

Objective: Modern medicine needs to shift from a wait and react, curative discipline to a preventative, interdisciplinary science aiming at providing personalised, systemic and precise treatment plans to patients. The aim of this work is to present how the integration of machine learning approaches with mechanistic computational modelling could yield a reliable infrastructure to run probabilistic simulations where the entire organism is considered as a whole. Methods: We propose a general framework that composes advanced AI approaches and integrates mathematical modelling in order to provide a panoramic view over current and future physiological conditions. The proposed architecture is based on a graph neural network (GNNs) forecasting clinically relevant endpoints (such as blood pressure) and a generative adversarial network (GANs) providing a proof of concept of transcriptomic integrability. Results: We show the results of the investigation of pathological effects of overexpression of ACE2 across different signalling pathways in multiple tissues on cardiovascular functions. We provide a proof of concept of integrating a large set of composable clinical models using molecular data to drive local and global clinical parameters and derive future trajectories representing the evolution of the physiological state of the patient. Significance: We argue that the graph representation of a computational patient has potential to solve important technological challenges in integrating multiscale computational modelling with AI. We believe that this work represents a step forward towards a healthcare digital twin.
翻訳日:2022-10-17 08:34:03 公開日:2020-09-17
# ラベル粘着性およびよく形成した対数クレームの生成

Generating Label Cohesive and Well-Formed Adversarial Claims ( http://arxiv.org/abs/2009.08205v1 )

ライセンス: Link先を確認
Pepa Atanasova, Dustin Wright, and Isabelle Augenstein(参考訳) 敵攻撃は、訓練されたモデルの重大な脆弱性と欠陥を明らかにする。 これは個々のn-gramであり、攻撃中のクラスのインスタンスに付加されると、モデルを騙してターゲットクラスを予測することができる。 しかし、ファクトチェックのような推論タスクでは、これらのトリガーは挿入されるインスタンスの意味を意図せずに反転させることが多い。 さらに、このような攻撃は、既存のサンプルにトリガーを結合させるため、意味的に非意味な入力を生成する。 本稿では,真理の意味を保存し,意味的に有効な事実チェックシステムに対する敵意攻撃を発生させる方法について検討する。 本稿では,ファクトチェックモデルの目標クラス損失と補助自然言語推論モデルの含意クラス損失を最小化することにより,ユニバーサルトリガ生成に使用されるHotFlip攻撃アルゴリズムを拡張した。 次に条件付き言語モデルをトレーニングして、見つけたユニバーサルトリガーを含む意味的に有効なステートメントを生成する。 生成した攻撃は, クレームの方向性と意味的妥当性を従来よりも向上させる。

Adversarial attacks reveal important vulnerabilities and flaws of trained models. One potent type of attack are universal adversarial triggers, which are individual n-grams that, when appended to instances of a class under attack, can trick a model into predicting a target class. However, for inference tasks such as fact checking, these triggers often inadvertently invert the meaning of instances they are inserted in. In addition, such attacks produce semantically nonsensical inputs, as they simply concatenate triggers to existing samples. Here, we investigate how to generate adversarial attacks against fact checking systems that preserve the ground truth meaning and are semantically valid. We extend the HotFlip attack algorithm used for universal trigger generation by jointly minimising the target class loss of a fact checking model and the entailment class loss of an auxiliary natural language inference model. We then train a conditional language model to generate semantically valid statements, which include the found universal triggers. We find that the generated attacks maintain the directionality and semantic validity of the claim better than previous work.
翻訳日:2022-10-17 08:27:13 公開日:2020-09-17
# RoBERTa, BERT, DistilBERTの組成と語彙的意味論:CoQAを例として

Compositional and Lexical Semantics in RoBERTa, BERT and DistilBERT: A Case Study on CoQA ( http://arxiv.org/abs/2009.08257v1 )

ライセンス: Link先を確認
Ieva Stali\=unait\.e and Ignacio Iacobacci(参考訳) 多くのNLPタスクは、文脈化された単語埋め込みから知識を伝達することの恩恵を受けているが、どのような種類の知識が転送されるかは不完全である。 本稿では,会話質問回答(CoQA)タスクの文脈における言語モデルによる言語現象の種類について検討する。 本稿では,基本演算(フレーズ数),構成意味論(ネゲーションとセマンティックロールラベル),語彙意味論(サプライサルとアンタニミー)などを用いて,微調整されたRoBERTa,BERT,DistilBERTモデルの問題領域を同定する。 マルチタスク学習によって言語知識が強化されると、モデルの性能が向上する。 強化されたモデルのアンサンブルは、F1スコア全体で2.2から2.7ポイント、最も難しい質問クラスでは42.1ポイントまで上昇する。 その結果,RoBERTa,BERT,DistilBERTの合成情報と語彙情報の表現能力の差異が認められた。

Many NLP tasks have benefited from transferring knowledge from contextualized word embeddings, however the picture of what type of knowledge is transferred is incomplete. This paper studies the types of linguistic phenomena accounted for by language models in the context of a Conversational Question Answering (CoQA) task. We identify the problematic areas for the finetuned RoBERTa, BERT and DistilBERT models through systematic error analysis - basic arithmetic (counting phrases), compositional semantics (negation and Semantic Role Labeling), and lexical semantics (surprisal and antonymy). When enhanced with the relevant linguistic knowledge through multitask learning, the models improve in performance. Ensembles of the enhanced models yield a boost between 2.2 and 2.7 points in F1 score overall, and up to 42.1 points in F1 on the hardest question classes. The results show differences in ability to represent compositional and lexical information between RoBERTa, BERT and DistilBERT.
翻訳日:2022-10-17 08:26:57 公開日:2020-09-17
# ヘテロジニアスネットワーク埋め込みのための階層型注意

Layer-stacked Attention for Heterogeneous Network Embedding ( http://arxiv.org/abs/2009.08072v1 )

ライセンス: Link先を確認
Nhat Tran, Jean Gao(参考訳) 異種ネットワークは、さまざまな方法で相互作用するさまざまなタイプのエンティティをモデル化できる堅牢なデータ抽象化である。 このような異質性は、豊富な意味的情報をもたらすが、オブジェクト間の異質な関係、特に高次間接関係を集約する非自明な課題を呈する。 ヘテロジニアスネットワーク上での表現学習のための最近のグラフニューラルネットワークアプローチでは、しばしば直接リンクに基づく予測に最適化されるアテンションメカニズムが採用されている。 さらに、深層モデルを構築することによって、ほとんどのディープラーニング手法は高次情報を集約することができるが、そのようなスキームは解釈可能性の度合いを減少させる可能性がある。 これらの課題を克服するために、各層で上位のメタ関係を自動的に分解し、各ノードの関連する異種近傍構造を抽出するアーキテクチャ、Layer-stacked ATTention Embedding (LATTE)を探索する。 さらに、階層表現を順次積み重ねることで、学習ノード埋め込みは、異なる近傍範囲の異なるタイプのノードに対して、より解釈可能な集約スキームを提供する。 我々は、複数のベンチマークヘテロジニアスネットワークデータセットの実験を行った。 トランスダクティブノード分類タスクとインダクティブノード分類タスクの両方において、LATTEは、軽量モデルを提供しながら、既存のアプローチと比較して最先端のパフォーマンスを実現することができる。 大規模な実験的分析と可視化により、このフレームワークは異種ネットワークに関する情報的洞察を抽出する能力を示すことができる。

The heterogeneous network is a robust data abstraction that can model entities of different types interacting in various ways. Such heterogeneity brings rich semantic information but presents nontrivial challenges in aggregating the heterogeneous relationships between objects - especially those of higher-order indirect relations. Recent graph neural network approaches for representation learning on heterogeneous networks typically employ the attention mechanism, which is often only optimized for predictions based on direct links. Furthermore, even though most deep learning methods can aggregate higher-order information by building deeper models, such a scheme can diminish the degree of interpretability. To overcome these challenges, we explore an architecture - Layer-stacked ATTention Embedding (LATTE) - that automatically decomposes higher-order meta relations at each layer to extract the relevant heterogeneous neighborhood structures for each node. Additionally, by successively stacking layer representations, the learned node embedding offers a more interpretable aggregation scheme for nodes of different types at different neighborhood ranges. We conducted experiments on several benchmark heterogeneous network datasets. In both transductive and inductive node classification tasks, LATTE can achieve state-of-the-art performance compared to existing approaches, all while offering a lightweight model. With extensive experimental analyses and visualizations, the framework can demonstrate the ability to extract informative insights on heterogeneous networks.
翻訳日:2022-10-17 08:24:37 公開日:2020-09-17
# 多次元スケーリング,sammonマッピング,isomap:チュートリアルと調査

Multidimensional Scaling, Sammon Mapping, and Isomap: Tutorial and Survey ( http://arxiv.org/abs/2009.08136v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) 多次元スケーリング(MDS)は、最初の基本多様体学習手法の1つである。 古典的MDS、カーネル古典的MDS、計量的MDS、非計量的MDSなどに分類される。 Sammon Mapping と Isomap はそれぞれ、メートル法 MDS とカーネル古典 MDS の特別な場合と見なすことができる。 本チュートリアルおよび調査論文では,MDS,Sammon Mapping,Isomapの理論を詳述する。 MDSのすべてのカテゴリについて説明する。 次に、sammonマッピング、isomapおよびkernel isomapについて説明する。 固有関数とカーネルマッピングを用いたMDSとIsomapのサンプル外埋め込みを提案する。 次に、Nystrom近似とそのランドマークMDSおよびランドマークIsomapにおける使用法をビッグデータ埋め込みに導入する。 また,これらの手法による埋め込みのシミュレーションを行う。

Multidimensional Scaling (MDS) is one of the first fundamental manifold learning methods. It can be categorized into several methods, i.e., classical MDS, kernel classical MDS, metric MDS, and non-metric MDS. Sammon mapping and Isomap can be considered as special cases of metric MDS and kernel classical MDS, respectively. In this tutorial and survey paper, we review the theory of MDS, Sammon mapping, and Isomap in detail. We explain all the mentioned categories of MDS. Then, Sammon mapping, Isomap, and kernel Isomap are explained. Out-of-sample embedding for MDS and Isomap using eigenfunctions and kernel mapping are introduced. Then, Nystrom approximation and its use in landmark MDS and landmark Isomap are introduced for big data embedding. We also provide some simulations for illustrating the embedding by these methods.
翻訳日:2022-10-17 08:17:47 公開日:2020-09-17
# 効率的な深層ニューラルネットワークのための包括的フィルタプルーニング

Holistic Filter Pruning for Efficient Deep Neural Networks ( http://arxiv.org/abs/2009.08169v1 )

ライセンス: Link先を確認
Lukas Enderich and Fabian Timm and Wolfram Burgard(参考訳) ディープニューラルネットワーク(DNN)は通常、ランダム初期化によって適切な初期重みを得る可能性を高めるために過パラメータ化される。 その結果、訓練されたDNNには多くの冗長性があり、複雑さを減らし、一般化する能力を向上させるためにモデルから切り離すことができる。 フィルタプルーニングによって達成された構造的スパーシティは、重みとアクティベーションのテンソルサイズを直接減少させ、特に複雑さを減らすのに有効である。 本稿では,dnn訓練のための新しい手法であるhfp(holistic filter pruning)を提案し,パラメータ数と乗算数の両方について正確なpruning率を指定することを可能にする。 各フォワードパスの後、現在のモデルの複雑さを計算し、所望のターゲットサイズと比較する。 勾配降下により、所望の目標サイズが満たされるような個別の層にプルーニング予算を割り当てる大域的解を求めることができる。 各種実験において,CIFAR-10 と ImageNet のトレーニングと最先端性能について考察した(HFP は ImageNet 上の ResNet-50 の乗算の60% を精度に有意な損失を伴わずに達成している)。 当社のシンプルで強力なプルーニングアプローチは、低コストアプリケーションにおけるDNNのユーザにとって貴重な貢献になると考えています。

Deep neural networks (DNNs) are usually over-parameterized to increase the likelihood of getting adequate initial weights by random initialization. Consequently, trained DNNs have many redundancies which can be pruned from the model to reduce complexity and improve the ability to generalize. Structural sparsity, as achieved by filter pruning, directly reduces the tensor sizes of weights and activations and is thus particularly effective for reducing complexity. We propose "Holistic Filter Pruning" (HFP), a novel approach for common DNN training that is easy to implement and enables to specify accurate pruning rates for the number of both parameters and multiplications. After each forward pass, the current model complexity is calculated and compared to the desired target size. By gradient descent, a global solution can be found that allocates the pruning budget over the individual layers such that the desired target size is fulfilled. In various experiments, we give insights into the training and achieve state-of-the-art performance on CIFAR-10 and ImageNet (HFP prunes 60% of the multiplications of ResNet-50 on ImageNet with no significant loss in the accuracy). We believe our simple and powerful pruning approach to constitute a valuable contribution for users of DNNs in low-cost applications.
翻訳日:2022-10-17 08:17:36 公開日:2020-09-17
# 記述規則を用いたゼロショットマルチドメインダイアログ状態追跡

Zero-shot Multi-Domain Dialog State Tracking Using Descriptive Rules ( http://arxiv.org/abs/2009.13275v1 )

ライセンス: Link先を確認
Edgar Altszyler, Pablo Brusco, Nikoletta Basiou, John Byrnes and Dimitra Vergyri(参考訳) 本研究では、最先端のニューラルネットワークに記述論理ルールを組み込むことで、新たなトレーニングデータを導入することなく、未知ラベルの扱い方を学ぶことができるフレームワークを提案する。 ルールはアーキテクチャを変更することなく既存のネットワークに統合され、設計されたルールに従わないネットワークの状態にペナルティを課すネットワークの損失関数に追加の用語によって行われる。 研究の例として、このフレームワークは既存のニューラルベースDialog State Trackerに適用される。 実験により, 論理規則の導入により, 未知ラベルの予測が可能となり, 元のシステムの予測能力が低下しないことを示した。

In this work, we present a framework for incorporating descriptive logical rules in state-of-the-art neural networks, enabling them to learn how to handle unseen labels without the introduction of any new training data. The rules are integrated into existing networks without modifying their architecture, through an additional term in the network's loss function that penalizes states of the network that do not obey the designed rules. As a case of study, the framework is applied to an existing neural-based Dialog State Tracker. Our experiments demonstrate that the inclusion of logical rules allows the prediction of unseen labels, without deteriorating the predictive capacity of the original system.
翻訳日:2022-10-17 08:15:39 公開日:2020-09-17
# 会員推論攻撃に対するモデル感受性を特徴付けるファノの不等式の拡張

An Extension of Fano's Inequality for Characterizing Model Susceptibility to Membership Inference Attacks ( http://arxiv.org/abs/2009.08097v1 )

ライセンス: Link先を確認
Sumit Kumar Jha, Susmit Jha, Rickard Ewetz, Sunny Raj, Alvaro Velasquez, Laura L. Pullum, Ananthram Swami(参考訳) ディープニューラルネットワークは、攻撃者が特定の入力データがモデルのトレーニングに使われたかどうかを検出することを目的としているメンバーシップ推論攻撃に弱いことが示されている。 これらの攻撃は、プライベートまたはプロプライエタリなデータをリークする可能性がある。 本稿では,ニューラルネットワークにおけるメンバシップ推論攻撃の成功確率を,その入力とそのアクティベーション間の相互情報を用いて境界化することができることを理論的に確立するために,ファノの不等式を新たに拡張した。 これにより、相互情報を用いてDNNモデルのメンバシップ推論攻撃に対する感受性を測定することができる。 実験評価の結果,cifar-10,svhn,gtsrbモデルでは,dnnモデルの相互情報とメンバーシップ推論攻撃に対する感受性の相関が0.966,0.996,0.955であった。

Deep neural networks have been shown to be vulnerable to membership inference attacks wherein the attacker aims to detect whether specific input data were used to train the model. These attacks can potentially leak private or proprietary data. We present a new extension of Fano's inequality and employ it to theoretically establish that the probability of success for a membership inference attack on a deep neural network can be bounded using the mutual information between its inputs and its activations. This enables the use of mutual information to measure the susceptibility of a DNN model to membership inference attacks. In our empirical evaluation, we show that the correlation between the mutual information and the susceptibility of the DNN model to membership inference attacks is 0.966, 0.996, and 0.955 for CIFAR-10, SVHN and GTSRB models, respectively.
翻訳日:2022-10-17 08:10:04 公開日:2020-09-17
# 都市内リコメンデーションのための混合エキスパートニューラルネットワークを用いたクロスモーダルアライメント

Cross-Modal Alignment with Mixture Experts Neural Network for Intral-City Retail Recommendation ( http://arxiv.org/abs/2009.09926v1 )

ライセンス: Link先を確認
Po Li, Lei Li, Yan Fu, Jun Rong, Yu Zhang(参考訳) 本稿では,世界中のコロナウイルス(COVID-19)パンデミックの発生に伴う5時間以内の配送サービスを実現することを目的とした,都市内小売業におけるニューラルネットワーク(CameNN)レコメンデーションモデルを用いたクロスモーダルアライメントを提案する。 本稿では,画像からテキストへのアライメント(ITA)タスク,テキストから画像へのアライメント(TIA)タスク,CVR予測タスクの3つのタスクを備えたマルチタスクモデルであるCameNNを提案する。 我々は,事前学習したbertを用いてテキスト埋め込みとインセプションv4を生成し,画像パッチ埋め込みを生成する(各画像は同じ画素の小さなパッチに分割され,各パッチを画像トークンとして扱う)。 ソフトマックスゲーティングネットワークは、各トランスフォーマーの専門家出力の重みを学習し、入力に条件付けられた専門家のサブセットのみを選択する。 次に、共有ボット層としてトランスフォーマーエンコーダを適用し、すべての入力特徴の共有インタラクションを学習する。 次に、タスクの異なる側面をモデル化するために、トランスフォーマーエキスパート(MoE)の混合層が実装される。 MoE層の上に各タスクをタスクタワーとしてトランスフォーマー層を配置し,タスク固有の情報を学習する。 実際の単語イントラシティデータセットでは、実験によってcamnnがベースラインを上回っており、画像とテキスト表現の大幅な改善を達成している。 実際に,中国における主要な都市内プラットフォームの一つである都市内推薦システムにおいて,CmeNNをCVR予測に適用した。

In this paper, we introduce Cross-modal Alignment with mixture experts Neural Network (CameNN) recommendation model for intral-city retail industry, which aims to provide fresh foods and groceries retailing within 5 hours delivery service arising for the outbreak of Coronavirus disease (COVID-19) pandemic around the world. We propose CameNN, which is a multi-task model with three tasks including Image to Text Alignment (ITA) task, Text to Image Alignment (TIA) task and CVR prediction task. We use pre-trained BERT to generate the text embedding and pre-trained InceptionV4 to generate image patch embedding (each image is split into small patches with the same pixels and treat each patch as an image token). Softmax gating networks follow to learn the weight of each transformer expert output and choose only a subset of experts conditioned on the input. Then transformer encoder is applied as the share-bottom layer to learn all input features' shared interaction. Next, mixture of transformer experts (MoE) layer is implemented to model different aspects of tasks. At top of the MoE layer, we deploy a transformer layer for each task as task tower to learn task-specific information. On the real word intra-city dataset, experiments demonstrate CameNN outperform baselines and achieve significant improvements on the image and text representation. In practice, we applied CameNN on CVR prediction in our intra-city recommender system which is one of the leading intra-city platforms operated in China.
翻訳日:2022-10-17 08:08:06 公開日:2020-09-17
# Deep Collective Learning:Deep Neural Networksにおける最適入力と重みの学習

Deep Collective Learning: Learning Optimal Inputs and Weights Jointly in Deep Neural Networks ( http://arxiv.org/abs/2009.07988v1 )

ライセンス: Link先を確認
Xiang Deng and Zhongfei (Mark) Zhang(参考訳) ディープラーニングおよびコンピュータビジョン文学において、視覚データは、任意の学習タスクに対してエンドツーエンドのディープニューラルネットワーク(DNN)に入力されるとき、常に手動設計の符号化スキーム(例えば、RGB画像は、各チャネルで0から255までの整数として表現される)で表現される。 手動で設計した入力が、異なるタスクに対するDNNトレーニングに適しているかを大胆に疑問視し、DNNの重みを学習しながら、DNNへの入力がエンドツーエンドで最適に学習できるかどうかを検討する。 本稿では,DNNの重みとDNNへの入力を同時に学習することを目的とした,深層学習のパラダイムを提案する。 集団学習は暗黙的にも自然言語処理で広く用いられてきたが、コンピュータビジョンではほとんど研究されていない。 そこで我々は,コンピュータビジョンにおける深層集合学習のソリューションとして,ルックアップビジョンネットワーク(Lookup-VNets)を提案する。 これは各チャンネルの各色をルックアップテーブル内のベクトルと関連付けることで達成される。 コンピュータビジョンにおける学習インプットは、既存の文献ではほとんど研究されていないため、画像分類タスクに関する様々な実験を通して、この問題のいくつかの側面を探求する。 CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet (ILSVRC2012) という4つのベンチマークデータセットの実験結果から, Lookup-VNet の驚くべき特徴がいくつか示され, Lookup-VNet の利点と将来性を示した。

It is well observed that in deep learning and computer vision literature, visual data are always represented in a manually designed coding scheme (eg., RGB images are represented as integers ranging from 0 to 255 for each channel) when they are input to an end-to-end deep neural network (DNN) for any learning task. We boldly question whether the manually designed inputs are good for DNN training for different tasks and study whether the input to a DNN can be optimally learned end-to-end together with learning the weights of the DNN. In this paper, we propose the paradigm of {\em deep collective learning} which aims to learn the weights of DNNs and the inputs to DNNs simultaneously for given tasks. We note that collective learning has been implicitly but widely used in natural language processing while it has almost never been studied in computer vision. Consequently, we propose the lookup vision networks (Lookup-VNets) as a solution to deep collective learning in computer vision. This is achieved by associating each color in each channel with a vector in lookup tables. As learning inputs in computer vision has almost never been studied in the existing literature, we explore several aspects of this question through varieties of experiments on image classification tasks. Experimental results on four benchmark datasets, i.e., CIFAR-10, CIFAR-100, Tiny ImageNet, and ImageNet (ILSVRC2012) have shown several surprising characteristics of Lookup-VNets and have demonstrated the advantages and promise of Lookup-VNets and deep collective learning.
翻訳日:2022-10-17 08:06:58 公開日:2020-09-17
# 教師なし機械学習における次の大きな意味:幼児学習から学ぶ5つの教訓

The Next Big Thing(s) in Unsupervised Machine Learning: Five Lessons from Infant Learning ( http://arxiv.org/abs/2009.08497v1 )

ライセンス: Link先を確認
Lorijn Zaadnoordijk, Tarek R. Besold, Rhodri Cusack(参考訳) 教師なしのディープラーニングの人気が高まった後、ラベル付きデータセットへの依存を減らし、利用可能な膨大な量の未学習データを活用したいという欲求は、教師なしの学習アルゴリズムへの新たな関心を呼び起こした。 歪んだ潜在表現の同定やコントラスト学習、クラスタリング最適化といったアプローチによる性能改善にもかかわらず、教師なし機械学習の性能は仮説化されたポテンシャルに劣っている。 機械学習は以前、神経科学と認知科学からインスピレーションを受け、大きな成功を収めた。 しかし、これは主に、ラベルへのアクセスと大量の事前知識を持つ成人学習者に基づいている。 教師なし機械学習を推し進めるために、幼児認知の発達科学が、教師なし学習の次世代アプローチを解き放つ鍵となるかもしれないと論じる。 概念的には、人間の幼児の学習は、人工的な教師なし学習に最も近い生物学的な並列性である。 機械学習とは対照的に、これらの新しい表現は、比較的少数の例から素早く学習される。 さらに、幼児は様々なタスクや状況において柔軟かつ効率的に使用できる堅牢な表現を学ぶ。 幼児の学習の質と速さを可能にする5つの重要な要因を特定し,これらが機械学習で既に活用されている範囲を評価し,教師なし学習におけるそれまで認識されていなかったパフォーマンスレベルを,これらの要因がいかに高めることができるかを提案する。

After a surge in popularity of supervised Deep Learning, the desire to reduce the dependence on curated, labelled data sets and to leverage the vast quantities of unlabelled data available recently triggered renewed interest in unsupervised learning algorithms. Despite a significantly improved performance due to approaches such as the identification of disentangled latent representations, contrastive learning, and clustering optimisations, the performance of unsupervised machine learning still falls short of its hypothesised potential. Machine learning has previously taken inspiration from neuroscience and cognitive science with great success. However, this has mostly been based on adult learners with access to labels and a vast amount of prior knowledge. In order to push unsupervised machine learning forward, we argue that developmental science of infant cognition might hold the key to unlocking the next generation of unsupervised learning approaches. Conceptually, human infant learning is the closest biological parallel to artificial unsupervised learning, as infants too must learn useful representations from unlabelled data. In contrast to machine learning, these new representations are learned rapidly and from relatively few examples. Moreover, infants learn robust representations that can be used flexibly and efficiently in a number of different tasks and contexts. We identify five crucial factors enabling infants' quality and speed of learning, assess the extent to which these have already been exploited in machine learning, and propose how further adoption of these factors can give rise to previously unseen performance levels in unsupervised learning.
翻訳日:2022-10-17 08:00:52 公開日:2020-09-17
# マルチモーダルなミーム分類 : 調査とオープンリサーチ問題

A Multimodal Memes Classification: A Survey and Open Research Issues ( http://arxiv.org/abs/2009.08395v1 )

ライセンス: Link先を確認
Tariq Habib Afridi, Aftab Alam, Muhammad Numan Khan, Jawad Khan, Young-Koo Lee(参考訳) ミームはグラフィックとテキストが重なり合っており、それらのうちの1つが欠落すると疑わしい概念が提示される。 それは主に、ジョーク、皮肉、動機づけなどの形でソーシャルメディアプラットフォームに広まっている。 自然言語処理(NLP)におけるBERTの成功の後、研究者は、ミーム分類、画像キャプション、視覚質問回答(VQA)など、視覚言語学(VL)のマルチモーダル問題に傾倒した。 残念ながら、多くのミームが毎日ソーシャルメディアプラットフォームにアップロードされ、誤った情報や憎しみを抑えるために自動検閲を必要とする。 近年,この問題は研究者や実践者の注目を集めている。 他のVLデータセットで顕著に実行された最先端の手法は、ミーム分類で失敗する傾向にある。 この文脈において、この研究は、一般にVLマルチモーダル問題と最先端解に基づいて、ミーム分類に関する包括的な研究を行うことを目的としている。 本稿では,VL問題に対する一般化された枠組みを提案する。 VL問題に関する初期および次世代の研究について紹介する。 最後に,いくつかのオープン研究課題と課題を特定し,考察する。 本研究は,ミーム分類に関する先進的な分類手法の一般的な見解を,我々の知識の最も優れたものに提示する最初の研究である。 本研究は,機械学習(ml)研究コミュニティに対して,ミーム分類手法の実装と強化のための明確なロードマップを提供する。

Memes are graphics and text overlapped so that together they present concepts that become dubious if one of them is absent. It is spread mostly on social media platforms, in the form of jokes, sarcasm, motivating, etc. After the success of BERT in Natural Language Processing (NLP), researchers inclined to Visual-Linguistic (VL) multimodal problems like memes classification, image captioning, Visual Question Answering (VQA), and many more. Unfortunately, many memes get uploaded each day on social media platforms that need automatic censoring to curb misinformation and hate. Recently, this issue has attracted the attention of researchers and practitioners. State-of-the-art methods that performed significantly on other VL dataset, tends to fail on memes classification. In this context, this work aims to conduct a comprehensive study on memes classification, generally on the VL multimodal problems and cutting edge solutions. We propose a generalized framework for VL problems. We cover the early and next-generation works on VL problems. Finally, we identify and articulate several open research issues and challenges. This is the first study that presents the generalized view of the advanced classification techniques concerning memes classification to the best of our knowledge. We believe this study presents a clear road-map for the Machine Learning (ML) research community to implement and enhance memes classification techniques.
翻訳日:2022-10-17 08:00:25 公開日:2020-09-17
# 貯水池計算における離散時間符号とランダム性

Discrete-time signatures and randomness in reservoir computing ( http://arxiv.org/abs/2010.14615v1 )

ライセンス: Link先を確認
Christa Cuchiero, Lukas Gonon, Lyudmila Grigoryeva, Juan-Pablo Ortega, and Josef Teichmann(参考訳) 貯留層計算現象の幾何学的性質に関する新たな説明を行った。 貯留層計算は、ランダムに選択されたリカレントニューラルネットワークと訓練された線形読み出し層で入出力系を近似する可能性として文献で理解されている。 光は、ボルテラ級数展開を生成する状態空間系のランダム射影として強普遍的貯水池系と呼ばれるものを構築することでこの現象に当てはまる。 この方法では、元のシステムに対して対数的に減少する次元でランダムに生成された係数を持つ状態-アフィン貯水池系が得られる。 この貯水池システムは、異なるフィルタごとに異なる線形読み出しを訓練するだけで、フェージングメモリフィルタクラスの任意の要素を近似することができる。 投射された貯水池システムの生成に必要な確率分布の明示表現を記述し、コミット近似誤差のバウンダリを提供する。

A new explanation of geometric nature of the reservoir computing phenomenon is presented. Reservoir computing is understood in the literature as the possibility of approximating input/output systems with randomly chosen recurrent neural systems and a trained linear readout layer. Light is shed on this phenomenon by constructing what is called strongly universal reservoir systems as random projections of a family of state-space systems that generate Volterra series expansions. This procedure yields a state-affine reservoir system with randomly generated coefficients in a dimension that is logarithmically reduced with respect to the original system. This reservoir system is able to approximate any element in the fading memory filters class just by training a different linear readout for each different filter. Explicit expressions for the probability distributions needed in the generation of the projected reservoir system are stated and bounds for the committed approximation error are provided.
翻訳日:2022-10-17 08:00:02 公開日:2020-09-17
# GeneraLight:メタ強化学習による交通信号制御の環境一般化

GeneraLight: Improving Environment Generalization of Traffic Signal Control via Meta Reinforcement Learning ( http://arxiv.org/abs/2009.08052v1 )

ライセンス: Link先を確認
Chang Liu, Huichu Zhang, Weinan Zhang, Guanjie Zheng, Yong Yu(参考訳) 交通渋滞の問題は現代都市にとって常に懸念されていた。 近年、交通渋滞を軽減するため、研究者は強化学習(RL)を用いて、より優れた交通信号制御(TSC)アルゴリズムを開発した。 しかし、ほとんどのrlモデルは、同じトラフィックフロー環境でトレーニングされ、テストされ、深刻な過剰フィッティング問題を引き起こす。 実世界の交通流環境は変化し続けるため、一般化能力の欠如により、これらのモデルはほとんど適用できない。 さらに、アクセス可能なトラフィックフローデータの数が限られているため、モデルの一般化能力をテストするのがさらに困難になる。 本稿では,wasserstein生成ネットワークに基づく新しいトラヒックフロー生成器の設計を行い,十分な多様性と品質を備えたトラヒックフローを生成し,適切なトレーニングとテスト環境の構築に利用する。 次に,tscモデルの一般化能力を向上させるためのメタrl tscフレームワークgeneralightを提案する。 GeneraLightは、フロークラスタリングとモデルに依存しないメタラーニングのアイデアを組み合わせることで、一般化のパフォーマンスを向上する。 我々は、複数の実世界のデータセットに対して広範な実験を行い、異なるトラフィックフローへの一般化におけるGeneraLightの優れた性能を示す。

The heavy traffic congestion problem has always been a concern for modern cities. To alleviate traffic congestion, researchers use reinforcement learning (RL) to develop better traffic signal control (TSC) algorithms in recent years. However, most RL models are trained and tested in the same traffic flow environment, which results in a serious overfitting problem. Since the traffic flow environment in the real world keeps varying, these models can hardly be applied due to the lack of generalization ability. Besides, the limited number of accessible traffic flow data brings extra difficulty in testing the generalization ability of the models. In this paper, we design a novel traffic flow generator based on Wasserstein generative adversarial network to generate sufficient diverse and quality traffic flows and use them to build proper training and testing environments. Then we propose a meta-RL TSC framework GeneraLight to improve the generalization ability of TSC models. GeneraLight boosts the generalization performance by combining the idea of flow clustering and model-agnostic meta-learning. We conduct extensive experiments on multiple real-world datasets to show the superior performance of GeneraLight on generalizing to different traffic flows.
翻訳日:2022-10-17 07:57:46 公開日:2020-09-17