このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211031となっている論文です。

PDF登録状況(公開日: 20211031)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 機械学習による癌予知:中皮腫 [全文訳有]

Predicting Cancer Using Supervised Machine Learning: Mesothelioma ( http://arxiv.org/abs/2111.01912v1 )

ライセンス: CC BY 4.0
Avishek Choudhury(参考訳) 背景: 胸膜中皮腫 (Pleural Mesothelioma, PM) は異常な悪性腫瘍であり, 肺胸膜癌に急速に進展する。 胸膜中皮腫(英: pleural mesothelioma)は、アメリカ合衆国で毎年診断される中皮腫の約75%を占める、一般的な中皮腫の一種である。 PM診断に伴うリスクと制約を考えると,早期診断は患者の健康に不可欠である。 目的:本研究では,MPMの早期診断と予後に最適な適合モデルを提案する人工知能アルゴリズムを用いた。 方法: トルコ, ディクル大学, および応用多層型パーセプトロン (mlp), 投票型パーセプトロン (vp), clojure分類器 (cc), カーネルロジスティック回帰 (klr), 確率勾配有意なsgd), アダプティブ・ブースティング (adaboost), ホッフィンディングツリー (vfdt), サポートベクターマシン (s-pegasos) のサブグレード・ソルバ (primal estimated sub-gradient solver) によって収集された臨床データをふりかえりに検索した。 それぞれの分類精度、f測定、精度、リコール、ルート平均二乗誤差、レシーバ特性曲線(ROC)、精度-リコール曲線(PRC)に基づいて、ペアTテスト(補正)を0.05の精度で比較、評価した。 結果: フェーズ1, SGD, AdaBoost。 M1,KLR,MLP,VFDTは最高性能測定値で最適結果を生成する。 フェーズ2では、分類精度71.29%のadaboostが、他のアルゴリズムよりも優れていた。 C-reactive protein, platelet count, duration of symptoms, gender, and pleural proteinが中皮腫の診断に最も有用であった。 結論: 生検および想像検査から得られたデータは中皮腫の強い予測因子であるが, 高いコストを伴っているが, 最適な精度で中皮腫を同定できる。

Background: Pleural Mesothelioma (PM) is an unusual, belligerent tumor that rapidly develops into cancer in the pleura of the lungs. Pleural Mesothelioma is a common type of Mesothelioma that accounts for about 75% of all Mesothelioma diagnosed yearly in the U.S. Diagnosis of Mesothelioma takes several months and is expensive. Given the risk and constraints associated with PM diagnosis, early identification of this ailment is essential for patient health. Objective: In this study, we use artificial intelligence algorithms recommending the best fit model for early diagnosis and prognosis of MPM. Methods: We retrospectively retrieved patients clinical data collected by Dicle University, Turkey, and applied multilayered perceptron (MLP), voted perceptron (VP), Clojure classifier (CC), kernel logistic regression (KLR), stochastic gradient decent SGD), adaptive boosting (AdaBoost), Hoeffding tree (VFDT), and primal estimated sub-gradient solver for support vector machine (s-Pegasos). We evaluated the models, compared and tested using paired T-test (corrected) at 0.05 significance based on their respective classification accuracy, f-measure, precision, recall, root mean squared error, receivers characteristic curve (ROC), and precision-recall curve (PRC). Results: In phase-1, SGD, AdaBoost. M1, KLR, MLP, VFDT generate optimal results with the highest possible performance measures. In phase 2, AdaBoost, with a classification accuracy of 71.29%, outperformed all other algorithms. C-reactive protein, platelet count, duration of symptoms, gender, and pleural protein were found to be the most relevant predictors that can prognosticate Mesothelioma. Conclusion: This study confirms that data obtained from Biopsy and imagining tests are strong predictors of Mesothelioma but are associated with a high cost; however, they can identify Mesothelioma with optimal accuracy.
翻訳日:2021-11-05 01:54:13 公開日:2021-10-31
# 感性と文のタイプに基づくYouTubeコメントの分類

Classifying YouTube Comments Based on Sentiment and Type of Sentence ( http://arxiv.org/abs/2111.01908v1 )

ライセンス: Link先を確認
Rhitabrat Pokharel and Dixit Bhatta(参考訳) YouTubeチャンネルが大きくなると、各ビデオは膨大な量のコメントを集め、視聴者から直接フィードバックを得られる。 これらのコメントは視聴者の期待を理解し、チャンネルのエンゲージメントを改善する主要な手段だ。 しかし、コメントはチャンネルとコンテンツに関する一般的なユーザの意見の集まりを表すだけである。 多くのコメントは貧弱で、自明で、不適切な綴りや文法上の誤りがある。 結果として、コンテンツクリエイターが最も興味を持つコメントを特定するのは退屈な仕事です。 本稿では、感情と文のタイプに基づいて、生のコメントを異なるカテゴリに分けて抽出し、視聴者の関心を増すための関連コメントを見つけるのに役立つ。 既存の研究では、テキストコーパス上の同じ文タイプ(例えば、質問の種類)における感情分析(肯定的および否定的)またはサブタイプの分類に焦点を当てている。 これらはYouTubeコメントのような従来のテキストコーパスに限られている。 我々は、よく知られた統計測度と機械学習モデルを用いて、YouTubeコメントからのテキスト抽出と分類の課題に対処する。 統計的尺度と機械学習モデルの組み合わせをクロス検証と$f_1$スコアを用いて評価する。 その結果,従来の手法を組み込んだアプローチは分類作業において良好に機能し,コンテンツクリエーターのチャンネルへのエンゲージメント向上を支援する可能性を検証することができた。

As a YouTube channel grows, each video can potentially collect enormous amounts of comments that provide direct feedback from the viewers. These comments are a major means of understanding viewer expectations and improving channel engagement. However, the comments only represent a general collection of user opinions about the channel and the content. Many comments are poorly constructed, trivial, and have improper spellings and grammatical errors. As a result, it is a tedious job to identify the comments that best interest the content creators. In this paper, we extract and classify the raw comments into different categories based on both sentiment and sentence types that will help YouTubers find relevant comments for growing their viewership. Existing studies have focused either on sentiment analysis (positive and negative) or classification of sub-types within the same sentence types (e.g., types of questions) on a text corpus. These have limited application on non-traditional text corpus like YouTube comments. We address this challenge of text extraction and classification from YouTube comments using well-known statistical measures and machine learning models. We evaluate each combination of statistical measure and the machine learning model using cross validation and $F_1$ scores. The results show that our approach that incorporates conventional methods performs well on the classification task, validating its potential in assisting content creators increase viewer engagement on their channel.
翻訳日:2021-11-04 14:03:17 公開日:2021-10-31
# (参考訳) 階層的決定アンサンブル-法医学検査における不確実な人間-AI協調のための推論枠組み

Hierarchical Decision Ensembles- An inferential framework for uncertain Human-AI collaboration in forensic examinations ( http://arxiv.org/abs/2111.01131v1 )

ライセンス: CC BY-SA 4.0
Ganesh Krishnan, Heike Hofmann(参考訳) 銃器やツールマークのような証拠の法医学的検証は、伝統的に2つの質問事項の類似性に関する視覚的かつ主観的な評価を伴う。 統計モデルは、この主観性を克服し、エラー率の指定を可能にするために使用される。 これらのモデルは概して非常に複雑であり、分析の異なるレベルで抽象的な結果を生み出す。 このような測定値や複雑な結果を検査者に提示することは困難であり、検査官は結果を正確に解釈するための実質的な統計訓練を持っていない。 これは統計モデリングにおける不信を生じさせ、より大きな分野が求めているより客観的な尺度の受け入れ率を低下させる。 モデルとその出力を評価するための推論フレームワークを提案する。 このフレームワークは、ドメイン固有の知識と予測モデル結果のギャップを埋めることによって、鑑識専門家の信頼を調整し、鑑識者が予測モデルのクレームを批判的に評価しながら検証できるようにするように設計されている。

Forensic examination of evidence like firearms and toolmarks, traditionally involves a visual and therefore subjective assessment of similarity of two questioned items. Statistical models are used to overcome this subjectivity and allow specification of error rates. These models are generally quite complex and produce abstract results at different levels of the analysis. Presenting such metrics and complicated results to examiners is challenging, as examiners generally do not have substantial statistical training to accurately interpret results. This creates distrust in statistical modelling and lowers the rate of acceptance of more objective measures that the discipline at large is striving for. We present an inferential framework for assessing the model and its output. The framework is designed to calibrate trust in forensic experts by bridging the gap between domain specific knowledge and predictive model results, allowing forensic examiners to validate the claims of the predictive model while critically assessing results.
翻訳日:2021-11-04 03:02:06 公開日:2021-10-31
# (参考訳) モデル校正の観点からの知識蒸留の再考 [全文訳有]

Rethinking the Knowledge Distillation From the Perspective of Model Calibration ( http://arxiv.org/abs/2111.01684v1 )

ライセンス: CC BY 4.0
Lehan Yang, Jincen Song(参考訳) 近年、知識蒸留の大幅な改善が見られ、教師モデルのモデルの有効性を維持しつつ、より効率的な生徒モデルを生成することができる。 より正確な教師は、能力のミスマッチのためにより良い教師を作る必要はない。 本稿では,モデルキャリブレーションの観点からその現象を分析することを目的とする。 より大規模な教師モデルは自信過剰である可能性があり,学生モデルは効果的に模倣できない。 教師モデルの簡易モデルキャリブレーションを行った結果,教師モデルのサイズは,生徒モデルの性能と正の相関を示した。

Recent years have witnessed dramatically improvements in the knowledge distillation, which can generate a compact student model for better efficiency while retaining the model effectiveness of the teacher model. Previous studies find that: more accurate teachers do not necessary make for better teachers due to the mismatch of abilities. In this paper, we aim to analysis the phenomenon from the perspective of model calibration. We found that the larger teacher model may be too over-confident, thus the student model cannot effectively imitate. While, after the simple model calibration of the teacher model, the size of the teacher model has a positive correlation with the performance of the student model.
翻訳日:2021-11-04 02:59:46 公開日:2021-10-31
# インテリジェントレーザースペックル分類(ilsc)による皮膚細胞構造に対するcovid-19ワクチン接種効果の経時的観察

Progressive observation of Covid-19 vaccination effects on skin-cellular structures by use of Intelligent Laser Speckle Classification (ILSC) ( http://arxiv.org/abs/2111.01682v1 )

ライセンス: Link先を確認
Ahmet Orun, Fatih Kurugollu(参考訳) 我々は、高度に確立されたインテリジェントレーザースペックル分類(ilsc)技術を用いて、皮膚細胞ネットワークおよび特性に対する新型コロナウイルスアストラゼネカワクチンの予防接種効果を進行的に観察し、早期・後期・非ワクチン者等のレーザースペックル皮膚画像サンプリングにより、3つの異なる被験者グループを識別した。 その結果, 最適化ベイズネットワークと連動したilsc技術は, 予防接種者および非予防接種者の皮膚変化を分類し, 1ヶ月間の皮膚細胞特性の進行的発達を検知できることがわかった。

We have made a progressive observation of Covid-19 Astra Zeneca Vaccination effect on Skin cellular network and properties by use of well established Intelligent Laser Speckle Classification (ILSC) image based technique and managed to distinguish between three different subjects groups via their laser speckle skin image samplings such as early-vaccinated, late-vaccinated and non-vaccinated individuals. The results have proven that the ILSC technique in association with the optimised Bayesian network is capable of classifying skin changes of vaccinated and non-vaccinated individuals and also of detecting progressive development made on skin cellular properties for a month period.
翻訳日:2021-11-03 14:13:46 公開日:2021-10-31
# (参考訳) FANS: デバイス上でのSLUにASRとNLUを融合させる [全文訳有]

FANS: Fusing ASR and NLU for on-device SLU ( http://arxiv.org/abs/2111.00400v1 )

ライセンス: CC BY 4.0
Martin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann, Ariya Rastrow(参考訳) 音声言語理解(slu)システムは、音声入力コマンドを意図とスロットタグと値のペアとしてエンコードされる意味論に変換する。 現在のほとんどのSLUシステムは、2つのニューラルモデルのカスケードをデプロイしており、1つは入力されたオーディオをトランスクリプト(ASR)にマッピングし、2つはインテントとスロットをトランスクリプト(NLU)から予測する。 本稿では,asrオーディオエンコーダをマルチタスクnluデコーダに融合し,入力音声から意図やスロットタグ,スロット値を直接推測し,書き起こしの必要性を回避した,新しいエンドツーエンドsluモデルであるfanを紹介する。 FANSは共有オーディオエンコーダと3つのデコーダで構成され、そのうち2つは非nullスロットタグとスロット値を並列かつ自動回帰的に予測するSeq-to-seqデコーダである。 FANSニューラルエンコーダとデコーダアーキテクチャは柔軟性があり、LSTM、自己注意、参加者の異なる組み合わせを利用することができます。 実験の結果, ICER と IRER の誤差は, 社内の SLU データセットで比較した場合, ICER と IRER の誤差を 30% と 7% に, パブリックな SLU データセットでは 0.86 % と 2 % に削減できることがわかった。

Spoken language understanding (SLU) systems translate voice input commands to semantics which are encoded as an intent and pairs of slot tags and values. Most current SLU systems deploy a cascade of two neural models where the first one maps the input audio to a transcript (ASR) and the second predicts the intent and slots from the transcript (NLU). In this paper, we introduce FANS, a new end-to-end SLU model that fuses an ASR audio encoder to a multi-task NLU decoder to infer the intent, slot tags, and slot values directly from a given input audio, obviating the need for transcription. FANS consists of a shared audio encoder and three decoders, two of which are seq-to-seq decoders that predict non null slot tags and slot values in parallel and in an auto-regressive manner. FANS neural encoder and decoders architectures are flexible which allows us to leverage different combinations of LSTM, self-attention, and attenders. Our experiments show compared to the state-of-the-art end-to-end SLU models, FANS reduces ICER and IRER errors relatively by 30 % and 7 %, respectively, when tested on an in-house SLU dataset and by 0.86 % and 2 % absolute when tested on a public SLU dataset.
翻訳日:2021-11-03 10:31:55 公開日:2021-10-31
# (参考訳) 4次畳み込みニューラルネットワークを用いた音声感情認識 [全文訳有]

Speech Emotion Recognition Using Quaternion Convolutional Neural Networks ( http://arxiv.org/abs/2111.00404v1 )

ライセンス: CC BY 4.0
Aneesh Muppidi and Martin Radfar(参考訳) 音声認識は広く普及している技術だが、音声信号から感情を推測することは依然として課題である。 そこで本研究では,音声信号のメルスペクトル特徴をRGB四元数領域に符号化した,QCNNに基づく音声感情認識(SER)モデルを提案する。 我々のQCNNに基づくSERモデルは、Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS, 8-classes) データセットにおいて、我々の知識、最先端の成果に対して、他の実測手法よりも優れていることを示す。 QCNNはまた、Interactive Emotional Dyadic Motion Capture (IEMOCAP 4-classes)とBerlin EMO-DB (7-classes)データセットの最先端メソッドと同等の結果を得る。 具体的には、RAVDESS、IEMOCAP、EMO-DBデータセットの精度は77.87\%、70.46\%、88.78\%である。 さらに,四元単位構造は内部依存性をエンコードし,他の手法に比べてモデルサイズを大幅に削減できることを示した。

Although speech recognition has become a widespread technology, inferring emotion from speech signals still remains a challenge. To address this problem, this paper proposes a quaternion convolutional neural network (QCNN) based speech emotion recognition (SER) model in which Mel-spectrogram features of speech signals are encoded in an RGB quaternion domain. We show that our QCNN based SER model outperforms other real-valued methods in the Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS, 8-classes) dataset, achieving, to the best of our knowledge, state-of-the-art results. The QCNN also achieves comparable results with the state-of-the-art methods in the Interactive Emotional Dyadic Motion Capture (IEMOCAP 4-classes) and Berlin EMO-DB (7-classes) datasets. Specifically, the model achieves an accuracy of 77.87\%, 70.46\%, and 88.78\% for the RAVDESS, IEMOCAP, and EMO-DB datasets, respectively. In addition, our results show that the quaternion unit structure is better able to encode internal dependencies to reduce its model size significantly compared to other methods.
翻訳日:2021-11-03 10:17:35 公開日:2021-10-31
# (参考訳) Google Trendsを住民行動のプロキシとして利用して建設エネルギー消費を予測する [全文訳有]

Using Google Trends as a proxy for occupant behavior to predict building energy consumption ( http://arxiv.org/abs/2111.00426v1 )

ライセンス: CC BY 4.0
Chun Fu and Clayton Miller(参考訳) 近年、大量のエネルギーデータと高度な機械学習アルゴリズムが利用可能になり、建築エネルギー予測の研究が急増している。 しかし, エネルギー予測モデルの1つの変数, 占有行動は, 予測性能には不可欠であるが, それぞれの建物から収集するのに時間を要する。 本研究では,Google Trendsプラットフォーム上でのトピックの検索量(例えば,教育,Microsoft Excel)を,利用者の行動と建物利用のプロキシとして利用するアプローチを提案する。 まず, エネルギーメータデータとGoogle Trends検索語の関係を調査し, 建物占有率を推定した。 ASHRAE Great Energy Predictor III(GEPIII)コンペティションデータセットに基づいて,これらの用語の傾向の前後の予測誤差を比較し,分析した。 その結果、高い相関性を持つGoogle Trendsデータは、建物のサブセット全体のRMSLEエラーを、GEPIIIコンペティションの上位5チームのパフォーマンスのレベルに効果的に低減できることを示した。 特に、休日のrmsleエラー低減とサイト固有のスケジュールの日数をそれぞれ20-30%と2-5%削減する。 これらの結果は、サイト固有のスケジュールとホリデースケジュールを自動的に特定することによって、google trendsを使って建物の一部のエネルギー予測を改善する可能性を示している。

In recent years, the availability of larger amounts of energy data and advanced machine learning algorithms has created a surge in building energy prediction research. However, one of the variables in energy prediction models, occupant behavior, is crucial for prediction performance but hard-to-measure or time-consuming to collect from each building. This study proposes an approach that utilizes the search volume of topics (e.g., education} or Microsoft Excel) on the Google Trends platform as a proxy of occupant behavior and use of buildings. Linear correlations were first examined to explore the relationship between energy meter data and Google Trends search terms to infer building occupancy. Prediction errors before and after the inclusion of the trends of these terms were compared and analyzed based on the ASHRAE Great Energy Predictor III (GEPIII) competition dataset. The results show that highly correlated Google Trends data can effectively reduce the overall RMSLE error for a subset of the buildings to the level of the GEPIII competition's top five winning teams' performance. In particular, the RMSLE error reduction during public holidays and days with site-specific schedules are respectively reduced by 20-30% and 2-5%. These results show the potential of using Google Trends to improve energy prediction for a portion of the building stock by automatically identifying site-specific and holiday schedules.
翻訳日:2021-11-03 10:06:55 公開日:2021-10-31
# (参考訳) 連合学習における効率的な受動メンバーシップ推論攻撃 [全文訳有]

Efficient passive membership inference attack in federated learning ( http://arxiv.org/abs/2111.00430v1 )

ライセンス: CC BY 4.0
Oualid Zari, Chuan Xu, Giovanni Neglia(参考訳) クロスデバイス・フェデレーション・ラーニング(FL)では、モバイルなどのクライアントがサーバと連携してグローバルな機械学習モデルをトレーニングし、データをローカルに保持する。 しかし、最近の研究によると、クライアントのプライベート情報は、クライアントとサーバの間で交換されたメッセージを盗聴する相手に開示することができる。 例えば、敵は、受動的メンバーシップ推論攻撃と呼ばれる特定のデータインスタンスを所有しているかどうかを推測することができる。 本稿では,既存の手法よりも計算能力とメモリをはるかに少なくする新しい受動的推論攻撃を提案する。 私たちの実験結果は、cifar100データセット(4ドル以上のパーセンテージポイント)において、3桁のメモリスペースと5桁の計算で高い精度を達成していることを示している。

In cross-device federated learning (FL) setting, clients such as mobiles cooperate with the server to train a global machine learning model, while maintaining their data locally. However, recent work shows that client's private information can still be disclosed to an adversary who just eavesdrops the messages exchanged between the client and the server. For example, the adversary can infer whether the client owns a specific data instance, which is called a passive membership inference attack. In this paper, we propose a new passive inference attack that requires much less computation power and memory than existing methods. Our empirical results show that our attack achieves a higher accuracy on CIFAR100 dataset (more than $4$ percentage points) with three orders of magnitude less memory space and five orders of magnitude less calculations.
翻訳日:2021-11-03 09:47:52 公開日:2021-10-31
# (参考訳) シミュレーションに基づく最適化のためのアクタクリティカル法 [全文訳有]

An Actor-Critic Method for Simulation-Based Optimization ( http://arxiv.org/abs/2111.00435v1 )

ライセンス: CC BY 4.0
Kuo Li, Qing-Shan Jia, Jiaqi Yan(参考訳) 実現可能な空間から最適設計を選択するためのシミュレーションに基づく最適化問題に着目する。 シミュレーションモデルは有限サンプルでクエリできるが、その内部処理ルールは最適化プロセスでは利用できない。 我々は,このサンプリングプロセスを方針探索問題として定式化し,強化学習(rl)の観点から解を与える。 具体的には Actor-Critic (AC) フレームワークが適用され、アクターは未知の設計の性能を予測する代理モデルとして機能し、アクターはサンプリングポリシーを符号化する。 更新ルールを設計し,実現可能な空間がそれぞれ連続かつ個別である場合の2つのアルゴリズムを提案する。 提案されたアルゴリズムの有効性を検証するために設計された実験は、直感的にアルゴリズムを説明する2つのおもちゃの例と、大規模問題の有効性を検証する2つのより複雑なタスク、すなわち敵攻撃タスクとRLタスクである。 その結果,提案アルゴリズムはこれらの問題に対処できることがわかった。 特に,RLタスクでは,タスクをシミュレーションモデルとして扱い,ポリシ生成プロセスの最適化によって解決することで,ロボット制御に対する新たな視点を提供する一方で,既存の作業はポリシ自体を直接最適化する。

We focus on a simulation-based optimization problem of choosing the best design from the feasible space. Although the simulation model can be queried with finite samples, its internal processing rule cannot be utilized in the optimization process. We formulate the sampling process as a policy searching problem and give a solution from the perspective of Reinforcement Learning (RL). Concretely, Actor-Critic (AC) framework is applied, where the Actor serves as a surrogate model to predict the performance on unknown designs, whereas the actor encodes the sampling policy to be optimized. We design the updating rule and propose two algorithms for the cases where the feasible spaces are continuous and discrete respectively. Some experiments are designed to validate the effectiveness of proposed algorithms, including two toy examples, which intuitively explain the algorithms, and two more complex tasks, i.e., adversarial attack task and RL task, which validate the effectiveness in large-scale problems. The results show that the proposed algorithms can successfully deal with these problems. Especially note that in the RL task, our methods give a new perspective to robot control by treating the task as a simulation model and solving it by optimizing the policy generating process, while existing works commonly optimize the policy itself directly.
翻訳日:2021-11-03 09:40:58 公開日:2021-10-31
# (参考訳) 分散型マルチエージェント強化学習:オフポリティ法 [全文訳有]

Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method ( http://arxiv.org/abs/2111.00438v1 )

ライセンス: CC BY 4.0
Kuo Li, Qing-Shan Jia(参考訳) 本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。 私たちの設定では、グローバルステート、アクション、報酬は完全に監視可能であると仮定され、ローカルポリシーは各エージェントによってプライバシとして保護されるため、他の人と共有することはできない。 通信グラフがあり、エージェントは隣人と情報を交換することができる。 エージェントは個々の決定を行い、より高い報酬を得るために協力します。 そこで我々はまず,分散型アクター批判(AC)設定を提案する。 次に,政策評価と政策改善アルゴリズムをそれぞれ,離散的かつ連続的な状態空間マルコフ決定プロセス(MDP)のために設計する。 さらに、政策評価のプロセスと政策改善のプロセスの交互化によって政策が強化されることを保証する離散空間の場合、収束分析を行う。 アルゴリズムの有効性を検証するために、実験を設計・比較し、q-learning \cite{watkins1992q} や maddpg \cite{lowe2017multi} など以前のアルゴリズムと比較する。 その結果,学習速度と最終性能の両面から,アルゴリズムの性能が向上した。 さらに、アルゴリズムはオフポリシー方式で実行することができ、オンポリシーアルゴリズムに比べてデータ効率が大幅に向上する。

We discuss the problem of decentralized multi-agent reinforcement learning (MARL) in this work. In our setting, the global state, action, and reward are assumed to be fully observable, while the local policy is protected as privacy by each agent, and thus cannot be shared with others. There is a communication graph, among which the agents can exchange information with their neighbors. The agents make individual decisions and cooperate to reach a higher accumulated reward. Towards this end, we first propose a decentralized actor-critic (AC) setting. Then, the policy evaluation and policy improvement algorithms are designed for discrete and continuous state-action-space Markov Decision Process (MDP) respectively. Furthermore, convergence analysis is given under the discrete-space case, which guarantees that the policy will be reinforced by alternating between the processes of policy evaluation and policy improvement. In order to validate the effectiveness of algorithms, we design experiments and compare them with previous algorithms, e.g., Q-learning \cite{watkins1992q} and MADDPG \cite{lowe2017multi}. The results show that our algorithms perform better from the aspects of both learning speed and final performance. Moreover, the algorithms can be executed in an off-policy manner, which greatly improves the data efficiency compared with on-policy algorithms.
翻訳日:2021-11-03 09:29:48 公開日:2021-10-31
# (参考訳) 局所3次元ディープディスクリプタを用いたループクロージャ検出 [全文訳有]

Loop closure detection using local 3D deep descriptors ( http://arxiv.org/abs/2111.00440v1 )

ライセンス: CC BY 4.0
Youjie Zhou, Yiming Wang, Fabio Poiesi, Qi Qin and Yi Wan(参考訳) 本稿では,局所的3次元ディープディスクリプタ(l3ds)を用いた同時局所化とマッピングにおけるループクロージャ検出の簡易かつ効果的な手法を提案する。 L3Dは、深層学習アルゴリズムを用いてデータから学習した点雲から抽出したパッチのコンパクト表現が出現している。 ループ候補点クラウドを推定された相対的なポーズで登録した後,相互にネアレスト-neighbourディスクリプタに対応する点間の距離誤差を計算し,ループ検出のための新しい重なり尺度を提案する。 この新手法により,ループを高精度に検出し,小さな重なりの場合には6自由度ポーズを推定できる。 l3dベースのループクロージャアプローチとlidarデータに対する最近のアプローチを比較し,最新ループクロージャ検出精度を実現する。 さらに,最新のエッジベースSLAMシステムであるRESLAMにループクロージャアプローチを組み込んで,実世界のRGBD-TUMと合成ICLデータセットの評価を行う。 提案手法により、RESLAMは元のループ閉鎖戦略と比較して、より高精度なローカライゼーションを実現することができる。

We present a simple yet effective method to address loop closure detection in simultaneous localisation and mapping using local 3D deep descriptors (L3Ds). L3Ds are emerging compact representations of patches extracted from point clouds that are learned from data using a deep learning algorithm. We propose a novel overlap measure for loop detection by computing the metric error between points that correspond to mutually-nearest-nei ghbour descriptors after registering the loop candidate point cloud by its estimated relative pose. This novel approach enables us to accurately detect loops and estimate six degrees-of-freedom poses in the case of small overlaps. We compare our L3D-based loop closure approach with recent approaches on LiDAR data and achieve state-of-the-art loop closure detection accuracy. Additionally, we embed our loop closure approach in RESLAM, a recent edge-based SLAM system, and perform the evaluation on real-world RGBD-TUM and synthetic ICL datasets. Our approach enables RESLAM to achieve a better localisation accuracy compared to its original loop closure strategy.
翻訳日:2021-11-03 09:12:01 公開日:2021-10-31
# (参考訳) DAdaQuant:コミュニケーション効率向上のための二重適応量子化 [全文訳有]

DAdaQuant: Doubly-adaptive quantization for communication-effici ent Federated Learning ( http://arxiv.org/abs/2111.00465v1 )

ライセンス: CC BY 4.0
Robert H\"onig, Yiren Zhao, Robert Mullins(参考訳) フェデレーション学習(federated learning, fl)は、複数のクライアントからのデータをプライバシ保存方式でサーバ上でトレーニングするための強力なテクニックである。 flでは、サーバがモデルをすべてのクライアントに送信し、モデルをローカルにトレーニングし、それをサーバに送信する。 サーバは更新されたモデルを集約し、数ラウンドのプロセスを繰り返します。 特に更新されたローカルモデルをクライアントからサーバに送信する場合、flは大きな通信コストを発生させる。 近年,モデルパラメータを定量化してfl通信を効率的に圧縮するアルゴリズムが提案されている。 これらのアルゴリズムは通常、圧縮係数を制御する量子化レベルを持つ。 量子化レベルの動的適応はモデル品質を犠牲にすることなく圧縮を促進することができる。 まず,トレーニングが進むにつれて量子化レベルを増加させる時間適応量子化アルゴリズムを提案する。 次に、各クライアントに最適な量子化レベルをラウンド毎に割り当てるクライアント適応量子化アルゴリズムを提案する。 最後に、両アルゴリズムを2倍適応量子化アルゴリズムであるDAdaQuantに結合する。 我々の実験によると、DAdaQuantはクライアント$\rightarrow$server圧縮を一貫して改善し、最強の非適応ベースラインを最大2.8\times$で上回っている。

Federated Learning (FL) is a powerful technique for training a model on a server with data from several clients in a privacy-preserving manner. In FL, a server sends the model to every client, who then train the model locally and send it back to the server. The server aggregates the updated models and repeats the process for several rounds. FL incurs significant communication costs, in particular when transmitting the updated local models from the clients back to the server. Recently proposed algorithms quantize the model parameters to efficiently compress FL communication. These algorithms typically have a quantization level that controls the compression factor. We find that dynamic adaptations of the quantization level can boost compression without sacrificing model quality. First, we introduce a time-adaptive quantization algorithm that increases the quantization level as training progresses. Second, we introduce a client-adaptive quantization algorithm that assigns each individual client the optimal quantization level at every round. Finally, we combine both algorithms into DAdaQuant, the doubly-adaptive quantization algorithm. Our experiments show that DAdaQuant consistently improves client$\rightarrow$s erver compression, outperforming the strongest non-adaptive baselines by up to $2.8\times$.
翻訳日:2021-11-03 08:54:22 公開日:2021-10-31
# (参考訳) IGCN: 2D/3Dデフォルマブル登録のための画像間畳み込みネットワーク [全文訳有]

IGCN: Image-to-graph Convolutional Network for 2D/3D Deformable Registration ( http://arxiv.org/abs/2111.00484v1 )

ライセンス: CC BY 4.0
Megumi Nakao, Mitsuhiro Nakamura, Tetsuya Matsuda(参考訳) 治療中の単射像に基づく臓器形状再構成は、例えば、画像誘導放射線治療や外科的ガイダンスにおいて幅広い臨床範囲を有する。 単一視点2次元投影画像に対する3次元臓器メッシュの変形可能な登録を実現する画像間畳み込みネットワークを提案する。 この枠組みにより、2次元投影画像から変位マップ、サンプリングされたper-vertex特徴からメッシュ構造の幾何学的制約を満たす3次元変位の2種類の変換を同時に訓練することができる。 放射線治療に応用すると仮定すると, 肝, 胃, 十二指腸, 腎臓, 膵癌を対象としていない複数の腹部臓器に対して, 2d/3d変形可能な登録性能が検証される。 実験の結果,多臓器間の関係を考慮した形状予測は,臨床で許容できる精度でデジタル再構成されたx線写真から呼吸運動と変形を予測できることがわかった。

Organ shape reconstruction based on a single-projection image during treatment has wide clinical scope, e.g., in image-guided radiotherapy and surgical guidance. We propose an image-to-graph convolutional network that achieves deformable registration of a 3D organ mesh for a single-viewpoint 2D projection image. This framework enables simultaneous training of two types of transformation: from the 2D projection image to a displacement map, and from the sampled per-vertex feature to a 3D displacement that satisfies the geometrical constraint of the mesh structure. Assuming application to radiation therapy, the 2D/3D deformable registration performance is verified for multiple abdominal organs that have not been targeted to date, i.e., the liver, stomach, duodenum, and kidney, and for pancreatic cancer. The experimental results show shape prediction considering relationships among multiple organs can be used to predict respiratory motion and deformation from digitally reconstructed radiographs with clinically acceptable accuracy.
翻訳日:2021-11-03 08:33:28 公開日:2021-10-31
# (参考訳) FinCausal 2021におけるDSC-IitisM: POSタグと注意に基づく文脈表現の組み合わせによる財務文書の因果関係の特定 [全文訳有]

DSC-IITISM at FinCausal 2021: Combining POS tagging with Attention-based Contextual Representations for Identifying Causal Relationships in Financial Documents ( http://arxiv.org/abs/2111.00490v1 )

ライセンス: CC BY 4.0
Gunjan Haldar, Aman Mittal and Pradyumna Gupta(参考訳) 因果検出は自然言語処理と言語学研究の分野で多くの注目を集めている。 情報検索、イベント予測、質問応答、財務分析、市場調査において重要な応用がある。 本研究では,変換器を用いて財務文書の因果関係を同定し抽出する手法について検討する。 そこで本研究では,POSタグとBIOスキームを組み合わせる手法を提案する。 ベストメソッドはFinCausal 2021 WorkshopにおけるFinCausal-2021共有タスクにおけるブラインドテストにおけるF1スコア0.9551、Exact Matchスコア0.8777を達成する。

Causality detection draws plenty of attention in the field of Natural Language Processing and linguistics research. It has essential applications in information retrieval, event prediction, question answering, financial analysis, and market research. In this study, we explore several methods to identify and extract cause-effect pairs in financial documents using transformers. For this purpose, we propose an approach that combines POS tagging with the BIO scheme, which can be integrated with modern transformer models to address this challenge of identifying causality in a given text. Our best methodology achieves an F1-Score of 0.9551, and an Exact Match Score of 0.8777 on the blind test in the FinCausal-2021 Shared Task at the FinCausal 2021 Workshop.
翻訳日:2021-11-03 08:13:07 公開日:2021-10-31
# (参考訳) PnPOOD : プラグ・アンド・プレイデータによるテキスト分類のためのアウトオフ分布検出 [全文訳有]

PnPOOD : Out-Of-Distribution Detection for Text Classification via Plug andPlay Data Augmentation ( http://arxiv.org/abs/2111.00506v1 )

ライセンス: CC BY 4.0
Mrinal Rawat, Ramya Hebbalaguppe, Lovekesh Vig(参考訳) Out-of-distriion (OOD) 検出はコンピュータビジョンにおいてよく研究されているが、OOD検出によるNLP分類の試みは比較的少ない。 本稿では,これらの試みはOOD問題を完全に解決するものではなく,データ漏洩やモデルのキャリブレーションに悩まされる可能性があることを論じる。 本稿では,最近提案されたPlug and Play Language Model (Dathathri et al., 2020) を用いて,OOD検出を行うデータ拡張手法であるPnPOODを提案する。 本手法は, クラス境界に近い高品質な識別サンプルを生成し, 精度の高いOOD検出を行う。 本モデルがoodサンプル検出の先行モデルを上回ることを実証し,20のニュースグループテキストとスタンフォード・センチメント・ツリーバンクデータセット (lang, 1995; socheret al., 2013) において,キャリブレーション誤差が低いことを示した。 さらに、OOD検出に先立つ試みで使用されるデータセットによる重要なデータ漏洩問題を強調し、同じ問題に悩まされないOOD検出のための新しいデータセットで結果を共有する。

While Out-of-distribution (OOD) detection has been well explored in computer vision, there have been relatively few prior attempts in OOD detection for NLP classification. In this paper we argue that these prior attempts do not fully address the OOD problem and may suffer from data leakage and poor calibration of the resulting models. We present PnPOOD, a data augmentation technique to perform OOD detection via out-of-domain sample generation using the recently proposed Plug and Play Language Model (Dathathri et al., 2020). Our method generates high quality discriminative samples close to the class boundaries, resulting in accurate OOD detection at test time. We demonstrate that our model outperforms prior models on OOD sample detection, and exhibits lower calibration error on the 20 newsgroup text and Stanford Sentiment Treebank dataset (Lang, 1995; Socheret al., 2013). We further highlight an important data leakage issue with datasets used in prior attempts at OOD detection, and share results on a new dataset for OOD detection that does not suffer from the same problem.
翻訳日:2021-11-03 08:07:01 公開日:2021-10-31
# (参考訳) 衛星画像を用いた建物損傷評価のための畳み込み型シアムニューラルネットワーク [全文訳有]

Fully convolutional Siamese neural networks for buildings damage assessment from satellite images ( http://arxiv.org/abs/2111.00508v1 )

ライセンス: CC BY 4.0
Eugene Khvedchenya and Tatiana Gabruseva(参考訳) 災害後の被害評価は,災害復旧のための援助や力を最適に分配するために必要である。 このプロセスには、関心のある地域のための衛星画像の取得、建物のローカライゼーション、自然や都市による建物への被害量の分類が含まれる。 自然災害の場合、特定の建物が被害を受けたかどうかを判断するために、この地域の平方キロメートルを処理します。 本研究は,災害前後における同一地域の衛星画像の自動比較のための計算手法を開発し,建物内の被害の異なるレベルを分類する。 我々のソリューションはエンコーダ-デコーダアーキテクチャを備えたSiameseニューラルネットワークに基づいている。 エンコーダ,デコーダ,損失関数,拡張,および2つのイメージを結合するいくつかの手法を比較した。 このソリューションは、建築被害評価コンペティションにおけるコンピュータビジョンの最良の結果の1つを達成した。

Damage assessment after natural disasters is needed to distribute aid and forces to recovery from damage dealt optimally. This process involves acquiring satellite imagery for the region of interest, localization of buildings, and classification of the amount of damage caused by nature or urban factors to buildings. In case of natural disasters, this means processing many square kilometers of the area to judge whether a particular building had suffered from the damaging factors. In this work, we develop a computational approach for an automated comparison of the same region's satellite images before and after the disaster, and classify different levels of damage in buildings. Our solution is based on Siamese neural networks with encoder-decoder architecture. We include an extensive ablation study and compare different encoders, decoders, loss functions, augmentations, and several methods to combine two images. The solution achieved one of the best results in the Computer Vision for Building Damage Assessment competition.
翻訳日:2021-11-03 07:54:15 公開日:2021-10-31
# (参考訳) 労働中の胎児の妥協の分類--信号処理と心電図の特徴工学 [全文訳有]

Classification of fetal compromise during labour: signal processing and feature engineering of the cardiotocograph ( http://arxiv.org/abs/2111.00517v1 )

ライセンス: CC BY 4.0
M. O'Sullivan, T. Gabruseva, G. Boylan, M. O'Riordan, G. Lightbody, W. Marnane(参考訳) 心電図(ctg)は、労働中の胎児のモニタリングに用いられる主要なツールである。 CTGの解釈には動的パターン認識がリアルタイムに必要である。 サーバ間およびサーバ内不一致の高いタスクとして認識されている。 機械学習は、客観的かつ信頼性の高いCTGアセスメントへの実行可能なパスを提供する。 本研究では, 自己回帰移動平均モデル(arma)を用いた臨床専門知識とシステム制御理論に基づいて新しいctg特徴を開発し, 胎児心拍数の収縮に対する応答を特徴付ける。 これらの特徴を機械学習モデルで評価し、胎児の妥協の同定における有効性を評価する。 ARMAは胎児の妥協を検知する主要な特徴にランク付けされている。 さらに、機械学習モデルにおける臨床的要因や信号品質測定に基づくプルーニングデータを含むことにより、分類器の性能が向上した。

Cardiotocography (CTG) is the main tool used for fetal monitoring during labour. Interpretation of CTG requires dynamic pattern recognition in real time. It is recognised as a difficult task with high inter- and intra-observer disagreement. Machine learning has provided a viable path towards objective and reliable CTG assessment. In this study, novel CTG features are developed based on clinical expertise and system control theory using an autoregressive moving-average (ARMA) model to characterise the response of the fetal heart rate to contractions. The features are evaluated in a machine learning model to assess their efficacy in identifying fetal compromise. ARMA features ranked amongst the top features for detecting fetal compromise. Additionally, including clinical factors in the machine learning model and pruning data based on a signal quality measure improved the performance of the classifier.
翻訳日:2021-11-03 07:43:34 公開日:2021-10-31
# (参考訳) FinEAS:センチメントのファイナンシャル・埋め込み分析 [全文訳有]

FinEAS: Financial Embedding Analysis of Sentiment ( http://arxiv.org/abs/2111.00526v1 )

ライセンス: CC BY 4.0
Asier Guti\'errez-Fandi\~no, Miquel Noguer i Alonso, Petter Kolm, Jordi Armengol-Estap\' ;e(参考訳) 本研究では,FinEAS(Financial Embedding Analysis of Sentiment)と呼ばれる新たな言語表現モデルを導入する。 金融市場では、ニュースと投資家の感情がセキュリティ価格の重要な要因である。 したがって、金融感情分析に現代NLPアプローチの能力を活用することは、市場参加者や規制当局にとって有用なパターンやトレンドを特定する上で重要な要素である。 近年,BERTのような大規模トランスフォーマーベース言語モデルからの伝達学習を利用する手法は,ラベル付きデータセットを用いた感情分析を含むテキスト分類タスクにおいて,最先端の結果を達成している。 研究者はこれらのアプローチを金融文書に迅速に採用してきたが、この分野のベストプラクティスは確立されていない。 本研究では,標準的なBERTモデルからの教師付き微調整文の埋め込みに基づく財務感情分析の新しいモデルを提案する。 提案手法は,バニラBERT,LSTM,ファイナンシャルドメイン固有BERTであるFinBERTと比較して,大幅に改善されている。

We introduce a new language representation model in finance called Financial Embedding Analysis of Sentiment (FinEAS). In financial markets, news and investor sentiment are significant drivers of security prices. Thus, leveraging the capabilities of modern NLP approaches for financial sentiment analysis is a crucial component in identifying patterns and trends that are useful for market participants and regulators. In recent years, methods that use transfer learning from large Transformer-based language models like BERT, have achieved state-of-the-art results in text classification tasks, including sentiment analysis using labelled datasets. Researchers have quickly adopted these approaches to financial texts, but best practices in this domain are not well-established. In this work, we propose a new model for financial sentiment analysis based on supervised fine-tuned sentence embeddings from a standard BERT model. We demonstrate our approach achieves significant improvements in comparison to vanilla BERT, LSTM, and FinBERT, a financial domain specific BERT.
翻訳日:2021-11-03 07:35:51 公開日:2021-10-31
# (参考訳) 顔から歩行へ:歩行パターンからのジェンダー情報の弱教師付き学習

From Face to Gait: Weakly-Supervised Learning of Gender Information from Walking Patterns ( http://arxiv.org/abs/2111.00538v1 )

ライセンス: CC BY 4.0
Andy Catruna, Adrian Cosma, Ion Emilian Radoi(参考訳) ビデオから人口統計情報を取得することは、さまざまな現実世界のアプリケーションにとって価値がある。 性別推論に顔の特徴を利用するアプローチは、抑制された環境では非常に成功したが、被写体がカメラに向き合っていない場合や、カメラからの距離や解像度が悪いため顔がはっきりしない場合、ほとんどの現実世界のシナリオでは機能しない。 歩行の仕方に基づいて性別情報を学習するための弱教師付き手法を提案する。 最先端の顔分析モデルを用いて,前景の歩行順序を自動注釈化し,歩行に基づくラベル伝搬を活用し,目立たない角度に一般化する。 以上の結果から,f1スコアが91%の顔分析モデルと同等以上の性能を示し,被写体がカメラに向き合わなかったり顔が邪魔されたりするため,顔分析が実現不可能となるシナリオを一般化することに成功した。

Obtaining demographics information from video is valuable for a range of real-world applications. While approaches that leverage facial features for gender inference are very successful in restrained environments, they do not work in most real-world scenarios when the subject is not facing the camera, has the face obstructed or the face is not clear due to distance from the camera or poor resolution. We propose a weakly-supervised method for learning gender information of people based on their manner of walking. We make use of state-of-the art facial analysis models to automatically annotate front-view walking sequences and generalise to unseen angles by leveraging gait-based label propagation. Our results show on par or higher performance with facial analysis models with an F1 score of 91% and the ability to successfully generalise to scenarios in which facial analysis is unfeasible due to subjects not facing the camera or having the face obstructed.
翻訳日:2021-11-03 07:27:13 公開日:2021-10-31
# (参考訳) 文埋め込みを用いたラウンドトリップ翻訳による品質推定 [全文訳有]

Quality Estimation Using Round-trip Translation with Sentence Embeddings ( http://arxiv.org/abs/2111.00554v1 )

ライセンス: CC BY 4.0
Nathan Crone, Adam Power, John Weldon(参考訳) 機械翻訳システムの品質を推定することは、この分野の研究者にとって現在進行中の課題である。 従来, 品質評価尺度としてラウンドトリップ翻訳を用いた試みは失敗したが, 品質評価の有効な方法であるかどうかについては異論が多い。 本稿では,これまでの落とし穴を解決するシステムを提案するため,往復翻訳を再検討する。 本手法は,最近の言語表現学習の進歩を利用して,原文とラウンドトリップ文の類似度をより正確に評価する。 実験によると、我々のアプローチは現在のartメソッドのパフォーマンスには達していないが、一部の言語ペアにとって効果的なアプローチである可能性がある。

Estimating the quality of machine translation systems has been an ongoing challenge for researchers in this field. Many previous attempts at using round-trip translation as a measure of quality have failed, and there is much disagreement as to whether it can be a viable method of quality estimation. In this paper, we revisit round-trip translation, proposing a system which aims to solve the previous pitfalls found with the approach. Our method makes use of recent advances in language representation learning to more accurately gauge the similarity between the original and round-trip translated sentences. Experiments show that while our approach does not reach the performance of current state of the art methods, it may still be an effective approach for some language pairs.
翻訳日:2021-11-03 07:26:16 公開日:2021-10-31
# (参考訳) ハミルトンニューラルネットワークによる勾配学習は可能か? [全文訳有]

Can we learn gradients by Hamiltonian Neural Networks? ( http://arxiv.org/abs/2111.00565v1 )

ライセンス: CC BY-SA 4.0
Aleksandr Timofeev, Andrei Afonin, Yehao Liu(参考訳) 本研究では,ODEニューラルネットワークに基づくメタラーナを提案し,勾配を学習する。 このアプローチにより、オプティマイザは与えられたタスクに対する自動帰納バイアスを誘導するよりも柔軟になる。 最も単純なハミルトニアンニューラルネットワークを用いて,人工タスクのためのlstmと最適化されたreluアクティベーションを持つmnistデータセットに基づくメタリーナーよりも優れることを示す。 さらに、人工タスクの古典的な最適化手法を超越し、MNISTに匹敵する結果を得る。

In this work, we propose a meta-learner based on ODE neural networks that learns gradients. This approach makes the optimizer is more flexible inducing an automatic inductive bias to the given task. Using the simplest Hamiltonian Neural Network we demonstrate that our method outperforms a meta-learner based on LSTM for an artificial task and the MNIST dataset with ReLU activations in the optimizee. Furthermore, it also surpasses the classic optimization methods for the artificial task and achieves comparable results for MNIST.
翻訳日:2021-11-03 07:16:49 公開日:2021-10-31
# (参考訳) タスクベースソースコード関連質問に対するテキスト分類 [全文訳有]

Text Classification for Task-based Source Code Related Questions ( http://arxiv.org/abs/2111.00580v1 )

ライセンス: CC BY 4.0
Sairamvinay Vijayaraghavan, Jinxiao Song, David Tomassi, Siddhartha Punj, Jailan Sabet(参考訳) 開発者のために小さなタスクのコードを自動的に生成するという大きな要求がある。 StackOverflowのようなWebサイトは、開発者がコーディングしたいタスクに対する完全な回答を提供する小さなスニペットでソリューションを提供することによって、単純化された方法を提供する。 自然言語処理と特に質問応答システムは、これらのタスクの解決と作業に非常に役立ちます。 本稿では,2次元のディープラーニングモデルであるseq2seqと,pythonのインテント(自然言語)とコードスニペットを取り込むバイナリ分類器を開発した。 Seq2Seqモデルでは、インテントとコード発話の両方をトレーニングし、インテントを表すエンコーダから隠れたレイヤを埋め込んだ結果と、コードシーケンスのデコーダの隠れたレイヤ埋め込みを用いて比較することにしました。 そして、これらの埋め込みを組み合わせることで、単純なバイナリニューラルネットワーク分類モデルをトレーニングし、seq2seqモデルから予測されたコードシーケンスによって意図が正しく応答されているかどうかを予測します。 隠れ状態層の埋め込みは、構築された語彙からの通常の標準埋め込みよりも若干優れていた。 簡単なタスクコードスニペットベースのペアからなるStaQCデータベースに加えて,CoNaLaデータセット上でテストを行った。 経験的に、Pythonのコードスニペットに事前トレーニング済みの埋め込みを使用することは、seq2seqモデルからの隠れ状態コンテキストベクターよりもコンテキストベースが少ないことが確認できます。

There is a key demand to automatically generate code for small tasks for developers. Websites such as StackOverflow provide a simplistic way by offering solutions in small snippets which provide a complete answer to whatever task question the developer wants to code. Natural Language Processing and particularly Question-Answering Systems are very helpful in resolving and working on these tasks. In this paper, we develop a two-fold deep learning model: Seq2Seq and a binary classifier that takes in the intent (which is in natural language) and code snippets in Python. We train both the intent and the code utterances in the Seq2Seq model, where we decided to compare the effect of the hidden layer embedding from the encoder for representing the intent and similarly, using the decoder's hidden layer embeddings for the code sequence. Then we combine both these embeddings and then train a simple binary neural network classifier model for predicting if the intent is correctly answered by the predicted code sequence from the seq2seq model. We find that the hidden state layer's embeddings perform slightly better than regular standard embeddings from a constructed vocabulary. We experimented with our tests on the CoNaLa dataset in addition to the StaQC database consisting of simple task-code snippet-based pairs. We empirically establish that using additional pre-trained embeddings for code snippets in Python is less context-based in comparison to using hidden state context vectors from seq2seq models.
翻訳日:2021-11-03 07:09:51 公開日:2021-10-31
# (参考訳) fMRIデータに適用したテンソルSVDに基づく分類アルゴリズム [全文訳有]

A Tensor SVD-based Classification Algorithm Applied to fMRI Data ( http://arxiv.org/abs/2111.00587v1 )

ライセンス: CC BY 4.0
Katherine Keegan, Tanvi Vishwanath, Yihua Xu(参考訳) 多次元データの豊富さを分析するために,テンソルベースのフレームワークを開発した。 伝統的に、行列特異値分解(svd)はベクトル化データを含む行列から最も支配的な特徴を抽出するために用いられる。 SVDは行列として適切に表現できるデータに対して非常に有用であるが、ベクトル化のこのステップにより、データに固有の高次元の関係を失う。 効率的な多次元特徴抽出を容易にするために,行列SVDのテンソルアナログであるt-SVDMを用いた投影型分類アルゴリズムを用いる。 我々の研究は、t-SVDMフレームワークと分類アルゴリズムを拡張し、最初は位数3のテンソルを任意の次元に拡張した。 次に、このアルゴリズムをStarPlus fMRIデータセットを用いて分類タスクに適用する。 数値実験により, fmri分類には, 最善の等価行列ベースアプローチよりも優れたテンソルベースアプローチが存在することが示された。 以上の結果から,選択したテンソルフレームワークの利点を示し,パラメータの有用な選択への洞察を提供し,より複雑な画像データの分類のためにさらに開発できる可能性が示唆された。 私たちは、pythonの実装をhttps://github.com/e lizabethnewman/tenso r-fmriで提供します。

To analyze the abundance of multidimensional data, tensor-based frameworks have been developed. Traditionally, the matrix singular value decomposition (SVD) is used to extract the most dominant features from a matrix containing the vectorized data. While the SVD is highly useful for data that can be appropriately represented as a matrix, this step of vectorization causes us to lose the high-dimensional relationships intrinsic to the data. To facilitate efficient multidimensional feature extraction, we utilize a projection-based classification algorithm using the t-SVDM, a tensor analog of the matrix SVD. Our work extends the t-SVDM framework and the classification algorithm, both initially proposed for tensors of order 3, to any number of dimensions. We then apply this algorithm to a classification task using the StarPlus fMRI dataset. Our numerical experiments demonstrate that there exists a superior tensor-based approach to fMRI classification than the best possible equivalent matrix-based approach. Our results illustrate the advantages of our chosen tensor framework, provide insight into beneficial choices of parameters, and could be further developed for classification of more complex imaging data. We provide our Python implementation at https://github.com/e lizabethnewman/tenso r-fmri.
翻訳日:2021-11-03 07:02:19 公開日:2021-10-31
# (参考訳) ラプラシアン制約付き精密行列推定--存在と高次元整合性 [全文訳有]

Laplacian Constrained Precision Matrix Estimation: Existence and High Dimensional Consistency ( http://arxiv.org/abs/2111.00590v1 )

ライセンス: CC BY 4.0
Eduardo Pavez(参考訳) 本稿では,スタインの損失を最小限に抑えて,高次元ラプラシアン制約精度行列を推定する問題を考察する。 我々は、あるデータ依存グラフが接続されているかどうかを確認するために、この推定器の存在に必要な十分な条件を得る。 また、対称性付きスタイン損失の下での高次元設定における一貫性も証明する。 誤差率はグラフの間隔や他の種類の構造に依存しず、ラプラシアの制約は高次元の整合性に十分であることを示す。 本証明はグラフラプラシアンの性質を活用し,有効なグラフ抵抗に基づく推定器のキャラクタリゼーションを行う。 理論的な主張を数値実験で検証する。

This paper considers the problem of estimating high dimensional Laplacian constrained precision matrices by minimizing Stein's loss. We obtain a necessary and sufficient condition for existence of this estimator, that boils down to checking whether a certain data dependent graph is connected. We also prove consistency in the high dimensional setting under the symmetryzed Stein loss. We show that the error rate does not depend on the graph sparsity, or other type of structure, and that Laplacian constraints are sufficient for high dimensional consistency. Our proofs exploit properties of graph Laplacians, and a characterization of the proposed estimator based on effective graph resistances. We validate our theoretical claims with numerical experiments.
翻訳日:2021-11-03 06:32:41 公開日:2021-10-31
# (参考訳) 電子健康記録を用いた低表現型デリリウム患者の教師なし学習 [全文訳有]

Unsupervised Learning to Subphenotype Delirium Patients from Electronic Health Records ( http://arxiv.org/abs/2111.00592v1 )

ライセンス: CC BY 4.0
Yiqing Zhao, Yuan Luo(参考訳) デリリウムは、緊急時に発症する脳機能障害であり、死亡率の上昇と関連している。 患者の医療状況に応じて、その提示やリスク要因が異なる可能性があるため、検出・監視は困難である。 本研究では, 集中治療iv(mimic-iv)データのための医療情報マートを用いて, デリリウム集団内のサブタイプを同定し, グループ別予測モデルを構築した。 我々は,デリリウム集団内にクラスターが存在することを示した。 また,サブグループ特異的予測モデルにおいても特徴の差が見られた。 本研究は, 重質疾患を有するICU患者や救急外来患者に対して, デリリウムサブグループ毎の既存のデリリウム予測モデルを再検討し, デリリウム検出とモニタリングの精度を向上させることができる。

Delirium is a common acute onset brain dysfunction in the emergency setting and is associated with higher mortality. It is difficult to detect and monitor since its presentations and risk factors can be different depending on the underlying medical condition of patients. In our study, we aimed to identify subtypes within the delirium population and build subgroup-specific predictive models to detect delirium using Medical Information Mart for Intensive Care IV (MIMIC-IV) data. We showed that clusters exist within the delirium population. Differences in feature importance were also observed for subgroup-specific predictive models. Our work could recalibrate existing delirium prediction models for each delirium subgroup and improve the precision of delirium detection and monitoring for ICU or emergency department patients who had highly heterogeneous medical conditions.
翻訳日:2021-11-03 06:00:46 公開日:2021-10-31
# (参考訳) TorchXRayVision:胸部X線データセットとモデルのライブラリ [全文訳有]

TorchXRayVision: A library of chest X-ray datasets and models ( http://arxiv.org/abs/2111.00595v1 )

ライセンス: CC BY 4.0
Joseph Paul Cohen, Joseph D. Viviano, Paul Bertin, Paul Morrison, Parsa Torabian, Matteo Guarrera, Matthew P Lungren, Akshay Chaudhari, Rupert Brooks, Mohammad Hashir, Hadrien Bertrand(参考訳) TorchXRayVisionは胸部X線データセットとディープラーニングモデルを扱うためのオープンソースソフトウェアライブラリである。 広く利用可能な胸部x線データセットの共通インターフェースと共通の前処理チェーンを提供する。 さらに、異なるデータの組み合わせに基づいて訓練された異なるアーキテクチャを持つ分類と表現の学習モデルがライブラリを通じて利用可能であり、ベースラインや特徴抽出として機能する。

TorchXRayVision is an open source software library for working with chest X-ray datasets and deep learning models. It provides a common interface and common pre-processing chain for a wide set of publicly available chest X-ray datasets. In addition, a number of classification and representation learning models with different architectures, trained on different data combinations, are available through the library to serve as baselines or feature extractors.
翻訳日:2021-11-03 05:41:19 公開日:2021-10-31
# (参考訳) 空間ナビゲーションのための分散神経力学制御モデルのベイズ最適化 [全文訳有]

Bayesian optimization of distributed neurodynamical controller models for spatial navigation ( http://arxiv.org/abs/2111.00599v1 )

ライセンス: CC BY 4.0
Armin Hadzic, Grace M. Hwang, Kechen Zhang, Kevin M. Schultz and Joseph D. Monaco(参考訳) マルチエージェント群を制御する動的システムモデルは、弾力性のある分散ナビゲーションアルゴリズムへの進歩を実証している。 我々は以前,神経スワーム制御(neuroswarms controller)を導入した。この機構は,アトラクタ・ダイナミクスや位相同期など,神経ネットワークの相互作用をアナロジーとしてモデル化したもので,海馬の場所細胞回路内での移動を理論化したものである。 この複雑さは、従来のスウォームモデルの研究に一般的に用いられる安定性、制御可能性、性能の線形解析を妨げている。 さらに,対象の複雑さ,モデルパラメータの次元性,シミュレーションに基づくサンプリングの計算コストなど,手動やグリッド探索による動的コントローラのチューニングは不十分であることが多い。 本稿では,ベイズ最適化(BayesOpt)に基づく自律マルチエージェントシステムの動的コントローラモデルをチューニングするためのフレームワークを提案する。 提案手法はタスク依存客観的関数を用いて,ガウス過程(GP)を代理モデルとして訓練し,動的制御モデルのパラメータ空間の適応的かつ効率的な探索を実現する。 本研究では,時間的圧力下で空間分布した報酬を協調的に局所化し,捕獲するニューロシュワルムの行動を選択する目的関数について検討した。 異なる測地におけるシミュレーションのためのスコアを組み合わせることにより,各環境のタスク性能を一般化した。 検索性能を検証するために,highvsの高次元クラスタリングを比較した。 Uniform Manifold Approximation and Projection (UMAP) 埋め込みにおけるサンプル軌跡の可視化による低次パラメータポイント。 本研究は, 動的スウォームコントローラを含む複雑なシステムの自己組織行動能力の適応的, サンプル効率評価により, 神経科学理論の応用領域への変換を加速できることを示す。

Dynamical systems models for controlling multi-agent swarms have demonstrated advances toward resilient, decentralized navigation algorithms. We previously introduced the NeuroSwarms controller, in which agent-based interactions were modeled by analogy to neuronal network interactions, including attractor dynamics and phase synchrony, that have been theorized to operate within hippocampal place-cell circuits in navigating rodents. This complexity precludes linear analyses of stability, controllability, and performance typically used to study conventional swarm models. Further, tuning dynamical controllers by hand or grid search is often inadequate due to the complexity of objectives, dimensionality of model parameters, and computational costs of simulation-based sampling. Here, we present a framework for tuning dynamical controller models of autonomous multi-agent systems based on Bayesian Optimization (BayesOpt). Our approach utilizes a task-dependent objective function to train Gaussian Processes (GPs) as surrogate models to achieve adaptive and efficient exploration of a dynamical controller model's parameter space. We demonstrate this approach by studying an objective function selecting for NeuroSwarms behaviors that cooperatively localize and capture spatially distributed rewards under time pressure. We generalized task performance across environments by combining scores for simulations in distinct geometries. To validate search performance, we compared high-dimensional clustering for high- vs. low-likelihood parameter points by visualizing sample trajectories in Uniform Manifold Approximation and Projection (UMAP) embeddings. Our findings show that adaptive, sample-efficient evaluation of the self-organizing behavioral capacities of complex systems, including dynamical swarm controllers, can accelerate the translation of neuroscientific theory to applied domains.
翻訳日:2021-11-03 05:23:24 公開日:2021-10-31
# (参考訳) スマートシティアプリケーションのための説明可能な人工知能: セキュアで信頼できるプラットフォーム [全文訳有]

Explainable Artificial Intelligence for Smart City Application: A Secure and Trusted Platform ( http://arxiv.org/abs/2111.00601v1 )

ライセンス: CC BY 4.0
M. Humayn Kabir, Khondokar Fida Hasan, Mohammad Kamrul Hasan, Keyvan Ansari(参考訳) 人工知能(AI)は、未来を形作る破壊的な技術の1つである。 交通、教育、医療、公共ガバナンス、電力システムなど、主要なスマートシティソリューションにおけるデータ駆動決定の応用が増えている。 同時に、サイバーの脅威、攻撃、損害、不正アクセスから重要なサイバーインフラストラクチャを保護することで人気を集めている。 しかし、これらの従来のai技術(例えばディープラーニング)の重要な問題の一つは、複雑さと高度化の急速な進歩が、解釈不能なブラックボックスになったことだ。 多くの場合、システムの予期せぬ、あるいは予測不能なアウトプットを制御し、信頼する決定とバイアスを理解することは非常に難しい。 意思決定の解釈可能性に対する制御の喪失は、多くのデータ駆動自動化アプリケーションにとって重要な問題となっている。 しかし、システムのセキュリティと信頼性にどのように影響するか? この章では、サイバーセキュリティにおける機械学習の応用に関する包括的な研究を行い、この問題に対処するための説明可能性の必要性を示す。 この章ではまず、スマートシティベースのソリューションにおけるサイバーセキュリティアプリケーションのためのAI技術のブラックボックス問題について論じる。 その後、新しい技術パラダイムである説明可能な人工知能(XAI)を考えると、この章ではブラックボックスからホワイトボックスへの移行について論じる。 この章では、スマートシティにおける異なる自律システムの適用におけるaiベースの技術の解釈可能性、透明性、理解可能性、説明可能性に関する移行要件についても論じる。 最後に、将来の課題と機会を示す前に、従来のAI技術よりも説明可能性を提供する商用XAIプラットフォームを紹介した。

Artificial Intelligence (AI) is one of the disruptive technologies that is shaping the future. It has growing applications for data-driven decisions in major smart city solutions, including transportation, education, healthcare, public governance, and power systems. At the same time, it is gaining popularity in protecting critical cyber infrastructure from cyber threats, attacks, damages, or unauthorized access. However, one of the significant issues of those traditional AI technologies (e.g., deep learning) is that the rapid progress in complexity and sophistication propelled and turned out to be uninterpretable black boxes. On many occasions, it is very challenging to understand the decision and bias to control and trust systems' unexpected or seemingly unpredictable outputs. It is acknowledged that the loss of control over interpretability of decision-making becomes a critical issue for many data-driven automated applications. But how may it affect the system's security and trustworthiness? This chapter conducts a comprehensive study of machine learning applications in cybersecurity to indicate the need for explainability to address this question. While doing that, this chapter first discusses the black-box problems of AI technologies for Cybersecurity applications in smart city-based solutions. Later, considering the new technological paradigm, Explainable Artificial Intelligence (XAI), this chapter discusses the transition from black-box to white-box. This chapter also discusses the transition requirements concerning the interpretability, transparency, understandability, and Explainability of AI-based technologies in applying different autonomous systems in smart cities. Finally, it has presented some commercial XAI platforms that offer explainability over traditional AI technologies before presenting future challenges and opportunities.
翻訳日:2021-11-03 05:05:05 公開日:2021-10-31
# (参考訳) 大規模言語モデルにおける共通理解の体系的研究 [全文訳有]

A Systematic Investigation of Commonsense Understanding in Large Language Models ( http://arxiv.org/abs/2111.00607v1 )

ライセンス: CC BY 4.0
Xiang Lorraine Li, Adhi Kuncoro, Cyprien de Masson d'Autume, Phil Blunsom, Aida Nematzadeh(参考訳) 大きな言語モデルは、ゼロショット設定で多くの自然言語処理(nlp)タスクで印象的なパフォーマンスを示している。 これらのモデルが4つのcommonsenseベンチマークに対してモデルを評価することによって、nlpアプリケーションの重要なコンポーネントであるcommonsense理解を示すかどうかを問う。 大規模言語モデルの印象的なゼロショットパフォーマンスは、ベンチマークにおけるデータセットバイアスの存在によるものです。 また,ゼロショット性能はハイパーパラメータの選択や,事前学習したデータセットとベンチマークの類似性に敏感であることを示した。 さらに,数ショット設定でのモデル評価では,大幅な改善は見られなかった。 最後に,従来の研究とは対照的に,明示的なコモンセンス知識を活用することで,大幅な改善が得られないことを見出した。

Large language models have shown impressive performance on many natural language processing (NLP) tasks in a zero-shot setting. We ask whether these models exhibit commonsense understanding -- a critical component of NLP applications -- by evaluating models against four commonsense benchmarks. We find that the impressive zero-shot performance of large language models is mostly due to existence of dataset bias in our benchmarks. We also show that the zero-shot performance is sensitive to the choice of hyper-parameters and similarity of the benchmark to the pre-training datasets. Moreover, we did not observe substantial improvements when evaluating models in a few-shot setting. Finally, in contrast to previous work, we find that leveraging explicit commonsense knowledge does not yield substantial improvement.
翻訳日:2021-11-03 04:45:33 公開日:2021-10-31
# (参考訳) リーマン多様体に基づく時空間特徴を用いた侵入検出 [全文訳有]

Intrusion Detection using Spatial-Temporal features based on Riemannian Manifold ( http://arxiv.org/abs/2111.00626v1 )

ライセンス: CC BY 4.0
Amardeep Singh and Julian Jang-Jaccard(参考訳) ネットワークトラフィックデータは、異なるネットワークプロトコルの下で異なるデータバイトパケットの組み合わせである。 これらのトラフィックパケットは複雑な時変非線形関係を持つ。 既存の最先端手法は、相関関係に基づいて特徴を複数のサブセットに融合させ、空間的特徴と時間的特徴を抽出するハイブリッド分類技術を用いて、この問題に対処する。 これはしばしば、ネットワークトラフィックのリアルタイム処理を制限する高い計算コストと手動サポートを必要とする。 そこで本稿では,ネットワークトラフィックデータの空間的特性を抽出し,悪質なネットワークトラフィックの挙動を検出する,共分散行列に基づく新しい特徴抽出手法を提案する。 提案手法における共分散行列は、異なるネットワークトラフィック値間の相互関係を自然にエンコードするだけでなく、リーマン多様体に属するよく定義された幾何学を持つ。 リーマン多様体は、悪意のあるネットワークトラフィックを検出するための識別的特徴の抽出を容易にする距離メトリクスが組み込まれている。 NSL-KDD と UNSW-NB15 のデータセット上でのモデル評価を行い,提案手法が従来の手法や既存のデータセットよりも優れていることを示す。

Network traffic data is a combination of different data bytes packets under different network protocols. These traffic packets have complex time-varying non-linear relationships. Existing state-of-the-art methods rise up to this challenge by fusing features into multiple subsets based on correlations and using hybrid classification techniques that extract spatial and temporal characteristics. This often requires high computational cost and manual support that limit them for real-time processing of network traffic. To address this, we propose a new novel feature extraction method based on covariance matrices that extract spatial-temporal characteristics of network traffic data for detecting malicious network traffic behavior. The covariance matrices in our proposed method not just naturally encode the mutual relationships between different network traffic values but also have well-defined geometry that falls in the Riemannian manifold. Riemannian manifold is embedded with distance metrics that facilitate extracting discriminative features for detecting malicious network traffic. We evaluated our model on NSL-KDD and UNSW-NB15 datasets and showed our proposed method significantly outperforms the conventional method and other existing studies on the dataset.
翻訳日:2021-11-03 04:24:53 公開日:2021-10-31
# DNN音響モデルを用いた複数話者音声認識の再検討

Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model ( http://arxiv.org/abs/2111.00009v1 )

ライセンス: Link先を確認
Martin Kocour, Kate\v{r}ina \v{Z}mol\'ikov\'a, Lucas Ondel, J\'an \v{S}vec, Marc Delcroix, Tsubasa Ochiai, Luk\'a\v{s} Burget, Jan \v{C}ernock\'y(参考訳) 典型的なマルチトーカー音声認識システムでは、ニューラルネットワークに基づく音響モデルは各話者のセノン状態後部を予測する。 これらは後に、各話者固有の出力ストリームに個別に適用されるシングルトーカーデコーダによって使用される。 本研究では,このようなスキームは準最適であり,すべての話者を協調的に復号する原理的解法を提案する。 本研究では,全ての話者の関節後部状態を予測するために音響モデルを改良し,話者への音声信号の一部の帰属に関する不確実性を表現する。 我々は、この不確実性と高レベルの言語情報を利用する共同デコーダを採用する。 本研究では,複数話者音声認識システムにおける因子生成モデルにおける復号化アルゴリズムについて検討する。 これらの初期の研究とは対照的に、GMM音響モデルをDNNに置き換え、モデリング能力を高め、推論の一部を単純化する。 混合TIDIGITSデータセットにおける概念実験の実証において,共同復号化の利点を示す。

In typical multi-talker speech recognition systems, a neural network-based acoustic model predicts senone state posteriors for each speaker. These are later used by a single-talker decoder which is applied on each speaker-specific output stream separately. In this work, we argue that such a scheme is sub-optimal and propose a principled solution that decodes all speakers jointly. We modify the acoustic model to predict joint state posteriors for all speakers, enabling the network to express uncertainty about the attribution of parts of the speech signal to the speakers. We employ a joint decoder that can make use of this uncertainty together with higher-level language information. For this, we revisit decoding algorithms used in factorial generative models in early multi-talker speech recognition systems. In contrast with these early works, we replace the GMM acoustic model with DNN, which provides greater modeling power and simplifies part of the inference. We demonstrate the advantage of joint decoding in proof of concept experiments on a mixed-TIDIGITS dataset.
翻訳日:2021-11-02 18:04:55 公開日:2021-10-31
# 規則保証付き制約付き線形二次レギュレータの安全適応型学習制御

Safe Adaptive Learning-based Control for Constrained Linear Quadratic Regulators with Regret Guarantees ( http://arxiv.org/abs/2111.00411v1 )

ライセンス: Link先を確認
Yingying Li, Subhro Das, Jeff Shamma, Na Li(参考訳) 本研究では,2次コスト関数を持つ未知の線形系の状態・動作の安全性制約を考慮した適応制御について検討する。 この問題の課題は、安全性、探索、性能、計算の間の緊張から生じる。 これらの課題に対処するために,適切な条件下で実現可能性と制約満足度を高い確率で保証する多項式時間アルゴリズムを提案する。 このアルゴリズムは単一の軌道上で実装され,システム再起動は不要である。 さらに,学習アルゴリズムの後悔点を,既知のモデル情報を用いた最適安全線形制御器と比較した。 提案したアルゴリズムは、$\tilde O(T^{2/3})$ regretを達成でき、$T$はステージの数であり、$\tilde O(\cdot)$は$T$の対数項を吸収する。

We study the adaptive control of an unknown linear system with a quadratic cost function subject to safety constraints on both the states and actions. The challenges of this problem arise from the tension among safety, exploration, performance, and computation. To address these challenges, we propose a polynomial-time algorithm that guarantees feasibility and constraint satisfaction with high probability under proper conditions. Our algorithm is implemented on a single trajectory and does not require system restarts. Further, we analyze the regret of our learning algorithm compared to the optimal safe linear controller with known model information. The proposed algorithm can achieve a $\tilde O(T^{2/3})$ regret, where $T$ is the number of stages and $\tilde O(\cdot)$ absorbs some logarithmic terms of $T$.
翻訳日:2021-11-02 18:03:07 公開日:2021-10-31
# ウェアラブルセンサを用いた人間の活動認識における深層学習 : 進歩の展望

Deep Learning in Human Activity Recognition with Wearable Sensors: A Review on Advances ( http://arxiv.org/abs/2111.00418v1 )

ライセンス: Link先を確認
Shibo Zhang, Yaxuan Li, Shen Zhang, Farzad Shahabi, Stephen Xia, Yu Deng and Nabil Alshurafa(参考訳) モバイルおよびウェアラブルデバイスは、私たちの日常生活を計測し改善するアクティビティトラッキング、ウェルネスモニタリング、人間とコンピュータのインタラクションなど、数多くのアプリケーションを可能にしている。 これらのアプリケーションの多くは、多くのモバイルおよびウェアラブルデバイスで見られる大量の低消費電力センサーを活用して、ヒューマンアクティビティ認識(har)を実行することで実現されている。 近年、ディープラーニングはモバイルおよびウェアラブルデバイスにおけるHARの境界を大きく押し上げている。 本稿では,ウェアラブルをベースとしたHARの深層学習手法を導入し,現在の進歩,動向,課題を包括的に分析した既存の研究を体系的に分類し,要約する。 深層学習に基づくHARのための最先端フロンティアと今後の方向性も提示する。

Mobile and wearable devices have enabled numerous applications, including activity tracking, wellness monitoring, and human-computer interaction, that measure and improve our daily lives. Many of these applications are made possible by leveraging the rich collection of low-power sensors found in many mobile and wearable devices to perform human activity recognition (HAR). Recently, deep learning has greatly pushed the boundaries of HAR on mobile and wearable devices. This paper systematically categorizes and summarizes existing work that introduces deep learning methods for wearables-based HAR and provides a comprehensive analysis of the current advancements, developing trends, and major challenges. We also present cutting-edge frontiers and future directions for deep learning--based HAR.
翻訳日:2021-11-02 18:02:54 公開日:2021-10-31
# グラフニューラルネットワークに基づくスケジューリング : 一般化干渉モデルによるスループットの向上

Graph Neural Network based scheduling : Improved throughput under a generalized interference model ( http://arxiv.org/abs/2111.00459v1 )

ライセンス: Link先を確認
S. Ramakrishnan, Jaswanthi Mandalapu, Subrahmanya Swamy Peruru, Bhavesh Jain, Eitan Altman(参考訳) 本研究では,アドホックネットワークのためのグラフ畳み込みニューラルネットワーク(GCN)に基づくスケジューリングアルゴリズムを提案する。 特に, $k$- tolerance conflict graph model と呼ばれる一般化された干渉モデルを検討し,よく知られたmax-weight schedulingアルゴリズムの効率的な近似を設計する。 この研究で注目すべき特徴は、ニューラルネットワークをトレーニングするためにラベル付きデータセット(NP-hard to compute)を必要としないことである。 代わりに、既存のグリーディアプローチを利用した損失関数を設計し、グリーディアプローチの性能を向上させるGCNを訓練する。 我々の広範な数値実験により、gcnアプローチを用いることで、従来の欲望アプローチの性能を大幅に向上できることが示された。

In this work, we propose a Graph Convolutional Neural Networks (GCN) based scheduling algorithm for adhoc networks. In particular, we consider a generalized interference model called the $k$-tolerant conflict graph model and design an efficient approximation for the well-known Max-Weight scheduling algorithm. A notable feature of this work is that the proposed method do not require labelled data set (NP-hard to compute) for training the neural network. Instead, we design a loss function that utilises the existing greedy approaches and trains a GCN that improves the performance of greedy approaches. Our extensive numerical experiments illustrate that using our GCN approach, we can significantly ($4$-$20$ percent) improve the performance of the conventional greedy approach.
翻訳日:2021-11-02 18:02:09 公開日:2021-10-31
# 高次元データのための深部再帰埋め込み

Deep Recursive Embedding for High-Dimensional Data ( http://arxiv.org/abs/2111.00622v1 )

ライセンス: Link先を確認
Zixia Zhou, Xinrui Zu, Yuanyuan Wang, Boudewijn P.F. Lelieveldt, Qian Tao(参考訳) 高次元データを低次元多様体に埋め込むことは理論値と実用値の両方である。 本稿では,高次元データ埋め込みのための深層ニューラルネットワーク(dnn)と数学誘導埋め込みルールを組み合わせることを提案する。 本稿では,高次元空間から低次元空間へのパラメトリックマッピングを学習できる汎用的深層埋め込みネットワーク(den)フレームワークについて紹介する。 さらに,遅延データ表現を用いた埋め込み性能の向上を目的として,dre(deep recursive embedded)と呼ばれる再帰的戦略を提案する。 我々は,異なるアーキテクチャと損失関数によるDREの柔軟性を実証し,t分散確率的隣接埋め込み (t-SNE) と一様多様体近似および投影 (UMAP) の2つの最もポピュラーな埋め込み法と比較した。 提案手法はサンプル外データをマッピングし,極めて大規模なデータセットにスケールすることができる。 各種公開データセットを用いた実験により, 局所的およびグローバルな構造保存の観点から, 組込み性能が向上した。

Embedding high-dimensional data onto a low-dimensional manifold is of both theoretical and practical value. In this paper, we propose to combine deep neural networks (DNN) with mathematics-guided embedding rules for high-dimensional data embedding. We introduce a generic deep embedding network (DEN) framework, which is able to learn a parametric mapping from high-dimensional space to low-dimensional space, guided by well-established objectives such as Kullback-Leibler (KL) divergence minimization. We further propose a recursive strategy, called deep recursive embedding (DRE), to make use of the latent data representations for boosted embedding performance. We exemplify the flexibility of DRE by different architectures and loss functions, and benchmarked our method against the two most popular embedding methods, namely, t-distributed stochastic neighbor embedding (t-SNE) and uniform manifold approximation and projection (UMAP). The proposed DRE method can map out-of-sample data and scale to extremely large datasets. Experiments on a range of public datasets demonstrated improved embedding performance in terms of local and global structure preservation, compared with other state-of-the-art embedding methods.
翻訳日:2021-11-02 17:30:26 公開日:2021-10-31
# 心拍数と呼吸数推定のためのデュアルアテンションネットワーク

Dual Attention Network for Heart Rate and Respiratory Rate Estimation ( http://arxiv.org/abs/2111.00390v1 )

ライセンス: Link先を確認
Yuzhuo Ren, Braeden Syrnyk, Niranjan Avadhanam(参考訳) 心拍数と呼吸速度の測定は多くの病気を診断するための重要なステップである。 非接触型カメラを用いた生理的測定は、非接触型方法によって感染リスクが軽減されるため、フィンガーチップオキシメータなどのコンタクト機器よりも、遠隔医療においてよりアクセスしやすく便利である。 しかし, 環境照明の変化, 頭部運動, 表情などにより, 遠隔の生理的信号測定が困難である。 また、システムの複雑さとレイテンシを減らすために、心拍数と呼吸数の両方を推定できる統一ネットワークを持つことも望ましい。 本研究では,dual attention network (dan) と呼ばれる空間的注意とチャネル的注意を利用する畳み込みニューラルネットワークを提案し,カメラ映像を入力として心拍数と呼吸数を同時推定する。 以上の結果から,本システムは心拍数および呼吸速度測定精度を大幅に向上させることが示された。

Heart rate and respiratory rate measurement is a vital step for diagnosing many diseases. Non-contact camera based physiological measurement is more accessible and convenient in Telehealth nowadays than contact instruments such as fingertip oximeters since non-contact methods reduce risk of infection. However, remote physiological signal measurement is challenging due to environment illumination variations, head motion, facial expression, etc. It's also desirable to have a unified network which could estimate both heart rate and respiratory rate to reduce system complexity and latency. We propose a convolutional neural network which leverages spatial attention and channel attention, which we call it dual attention network (DAN) to jointly estimate heart rate and respiratory rate with camera video as input. Extensive experiments demonstrate that our proposed system significantly improves heart rate and respiratory rate measurement accuracy.
翻訳日:2021-11-02 17:26:13 公開日:2021-10-31
# FastCover: ソーシャルネットワークにおけるマルチホップ影響最大化のための教師なし学習フレームワーク

FastCover: An Unsupervised Learning Framework for Multi-Hop Influence Maximization in Social Networks ( http://arxiv.org/abs/2111.00463v1 )

ライセンス: Link先を確認
Runbo Ni, Xueyan Li, Fangqi Li, Xiaofeng Gao, Guihai Chen(参考訳) ソーシャルネットワークで影響力のあるユーザーを見つけることは、多くの有用なアプリケーションにおいて根本的な問題である。 ソーシャルネットワークをグラフとして見ていると、各ホップが影響拡散のステップを示すネットワーク内の所定のホップ数内に位置する隣人の数によって、一組のユーザの影響を測定することができる。 本稿では,IM の問題を予算制約付き d-hop 支配集合問題 (kdDSP) に還元する。 我々は、効率的な欲求戦略を教師なしで学習することでkdDSPを解決するための統合機械学習(ML)フレームワークであるFastCoverを提案する。 このフレームワークの重要なコンポーネントの1つとして、新しいグラフニューラルネットワーク(gnn)アーキテクチャであるgraph reversed attention network(grat)を開発し、隣人間の拡散プロセスをキャプチャする。 組合せ最適化問題のための多くのヒューリスティックアルゴリズムや並行mlフレームワークとは異なり、fastcoverはgnnの1つの前方伝播で計算されたノードのスコアからシードセット全体を決定し、グラフサイズで時間複雑性の準線形を持つ。 合成グラフと現実世界のソーシャルネットワークの実験により、fastcoverは並列アルゴリズムによってレンダリングされた優れた、あるいは同等の品質のソリューションを見つけ、1000倍以上のスピードアップを達成している。

Finding influential users in social networks is a fundamental problem with many possible useful applications. Viewing the social network as a graph, the influence of a set of users can be measured by the number of neighbors located within a given number of hops in the network, where each hop marks a step of influence diffusion. In this paper, we reduce the problem of IM to a budget-constrained d-hop dominating set problem (kdDSP). We propose a unified machine learning (ML) framework, FastCover, to solve kdDSP by learning an efficient greedy strategy in an unsupervised way. As one critical component of the framework, we devise a novel graph neural network (GNN) architecture, graph reversed attention network (GRAT), that captures the diffusion process among neighbors. Unlike most heuristic algorithms and concurrent ML frameworks for combinatorial optimization problems, FastCover determines the entire seed set from the nodes' scores computed with only one forward propagation of the GNN and has a time complexity quasi-linear in the graph size. Experiments on synthetic graphs and real-world social networks demonstrate that FastCover finds solutions with better or comparable quality rendered by the concurrent algorithms while achieving a speedup of over 1000x.
翻訳日:2021-11-02 17:07:51 公開日:2021-10-31
# 切り離したハイパープリアーデコーダによる学習画像圧縮

Learned Image Compression with Separate Hyperprior Decoders ( http://arxiv.org/abs/2111.00485v1 )

ライセンス: Link先を確認
Zhao Zan, Chao Liu, Heming Sun, Xiaoyang Zeng, and Yibo Fan(参考訳) 学習した画像圧縮技術は近年大きく進歩している。 本稿では, 3次ガウスモデルが2次モデルに崩壊する場合において, 性能ボトルネックは1つのハイパープライアデコーダを使用することにあることを示す。 そこで,我々は3つのハイパープリオデコーダを用いて,混合パラメータの復号過程を離散ガウス混合確率で分離し,より正確なパラメータ推定を実現することを提案する。 実験により,MS-SSIMにより最適化された手法は,最先端手法と比較して平均3.36%のBDレート削減を実現した。 提案手法の符号化時間とFLOPへの寄与は無視できない。

Learned image compression techniques have achieved considerable development in recent years. In this paper, we find that the performance bottleneck lies in the use of a single hyperprior decoder, in which case the ternary Gaussian model collapses to a binary one. To solve this, we propose to use three hyperprior decoders to separate the decoding process of the mixed parameters in discrete Gaussian mixture likelihoods, achieving more accurate parameters estimation. Experimental results demonstrate the proposed method optimized by MS-SSIM achieves on average 3.36% BD-rate reduction compared with state-of-the-art approach. The contribution of the proposed method to the coding time and FLOPs is negligible.
翻訳日:2021-11-02 16:55:30 公開日:2021-10-31
# 77ghzレーダを用いた開放搬送・隠蔽物体検出の学習

Learning to Detect Open Carry and Concealed Object with 77GHz Radar ( http://arxiv.org/abs/2111.00551v1 )

ライセンス: Link先を確認
Xiangyu Gao, Hui Liu, Sumit Roy, Guanbin Xing, Ali Alansari, Youchen Luo(参考訳) 有害な搬送物の検出は、インテリジェントな監視システムにおいて重要な役割を担い、例えば空港のセキュリティにおいて広く応用されている。 本稿では,搬送物体検出問題に対して,77GHzmm波レーダを用いた比較的未探索領域に着目した。 提案システムは,物が衣服やバッグで隠された状態で,包丁,電話,ナイフの3つのクラスをリアルタイムで検出することができる。 この機能は、画像キューブのローカライズと生成のための初期信号処理と、ディープラーニングに基づく予測ネットワークとオブジェクトを検出するマルチショット後処理モジュールによって実現される。 自作のレーダーカメラテストベッドとデータセットを用いて,オープンキャリーおよび隠蔽物体の検出におけるシステム性能の検証実験を行った。 さらに、異なる入力、要因、パラメータがシステム性能に与える影響を分析し、システムの直感的な理解を提供する。 このシステムは77GHzレーダーによる搬送物体の検出を目的とした、他の将来の研究のための最初のベースラインとなる。

Detecting harmful carried objects plays a key role in intelligent surveillance systems and has widespread applications, for example, in airport security. In this paper, we focus on the relatively unexplored area of using low-cost 77GHz mmWave radar for the carried objects detection problem. The proposed system is capable of real-time detecting three classes of objects - laptop, phone, and knife - under open carry and concealed cases where objects are hidden with clothes or bags. This capability is achieved by initial signal processing for localization and generating range-azimuth-elevat ion image cubes, followed by a deep learning-based prediction network and a multi-shot post-processing module for detecting objects. Extensive experiments for validating the system performance on detecting open carry and concealed objects have been presented with a self-built radar-camera testbed and dataset. Additionally, the influence of different input, factors, and parameters on system performance is analyzed, providing an intuitive understanding of the system. This system would be the very first baseline for other future works aiming to detect carried objects using 77GHz radar.
翻訳日:2021-11-02 16:53:39 公開日:2021-10-31
# 構造化状態空間を用いた長い列の効率的なモデリング

Efficiently Modeling Long Sequences with Structured State Spaces ( http://arxiv.org/abs/2111.00396v1 )

ライセンス: Link先を確認
Albert Gu, Karan Goel, Christopher R\'e(参考訳) シーケンスモデリングの中心的な目標は、さまざまなモダリティやタスク、特に長距離依存性のシーケンスデータに対処する単一の原則モデルを設計することである。 RNN、CNN、Transformerといった従来のモデルは、長い依存関係をキャプチャするための特殊なバリエーションを持っているが、それでも10000ドル以上の非常に長いシーケンスにスケールするのに苦労している。 最近の有望なアプローチでは、基本状態空間モデル (SSM) \(x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) \) をシミュレートし、状態行列 \(A \) の適切な選択に対して、このシステムは数学的かつ経験的に長距離依存を扱うことができることを示した。 しかし、この手法は計算とメモリの要求を禁止しており、一般的なシーケンスモデリングソリューションとして実現できない。 本稿では,ssmの新しいパラメータ化に基づく構造化状態空間(s4)系列モデルを提案し,その理論的な強みを保ちつつ,従来の手法よりもはるかに効率的に計算できることを示す。 本手法は,低ランク補正を条件付けし,安定に対角化可能とし,コーシーカーネルのよく検討された計算量にssmを還元することを含む。 S4は、さまざまな確立されたベンチマークで強力な経験的結果を得る。 (i)データ拡張や補助損失のないシーケンシャルCIFAR-10における91\%の精度が、より大きな2次元ResNetと同等である。 (ii) 画像および言語モデリングタスクにおけるTransformerとのギャップを著しく埋めると同時に、60\times$高速に生成する。 (iii)Long Range ArenaベンチマークのすべてのタスクにおいてSoTAは、すべての前の作業が失敗する長さ16kのPath-Xタスクを解決しつつ、すべての競合他社と同じくらい効率的である。

A central goal of sequence modeling is designing a single principled model that can address sequence data across a range of modalities and tasks, particularly on long-range dependencies. Although conventional models including RNNs, CNNs, and Transformers have specialized variants for capturing long dependencies, they still struggle to scale to very long sequences of $10000$ or more steps. A promising recent approach proposed modeling sequences by simulating the fundamental state space model (SSM) \( x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) \), and showed that for appropriate choices of the state matrix \( A \), this system could handle long-range dependencies mathematically and empirically. However, this method has prohibitive computation and memory requirements, rendering it infeasible as a general sequence modeling solution. We propose the Structured State Space (S4) sequence model based on a new parameterization for the SSM, and show that it can be computed much more efficiently than prior approaches while preserving their theoretical strengths. Our technique involves conditioning \( A \) with a low-rank correction, allowing it to be diagonalized stably and reducing the SSM to the well-studied computation of a Cauchy kernel. S4 achieves strong empirical results across a diverse range of established benchmarks, including (i) 91\% accuracy on sequential CIFAR-10 with no data augmentation or auxiliary losses, on par with a larger 2-D ResNet, (ii) substantially closing the gap to Transformers on image and language modeling tasks, while performing generation $60\times$ faster (iii) SoTA on every task from the Long Range Arena benchmark, including solving the challenging Path-X task of length 16k that all prior work fails on, while being as efficient as all competitors.
翻訳日:2021-11-02 16:23:25 公開日:2021-10-31
# CIKM 2021 AnalyticCupにおける自動ハイパーパラメータ最適化チャレンジ

Automated Hyperparameter Optimization Challenge at CIKM 2021 AnalyticCup ( http://arxiv.org/abs/2111.00513v1 )

ライセンス: Link先を確認
Huaijun Jiang, Yu Shen, Yang Li(参考訳) 本稿では,QQ Browser 2021 AI Algorithm Competiton (ACM CIKM 2021 AnalyticCup Track 2)におけるハイパーパラメータの自動最適化問題に対処する手法について述べる。 競争組織はブラックボックス最適化のための匿名化されたリアルな産業タスクとデータセットを提供する。 当社のオープンソースパッケージopenboxに基づいて,コンフィギュレーションサンプリングとヒューリスティックな早期停止戦略のために,ベイズ最適化フレームワークを採用しています。 予選と決勝でそれぞれ0.0938291と0.918753の結果で1位を獲得した。

In this paper, we describe our method for tackling the automated hyperparameter optimization challenge in QQ Browser 2021 AI Algorithm Competiton (ACM CIKM 2021 AnalyticCup Track 2). The competition organizers provide anonymized realistic industrial tasks and datasets for black-box optimization. Based on our open-sourced package OpenBox, we adopt the Bayesian optimization framework for configuration sampling and a heuristic early stopping strategy. We won first place in both the preliminary and final contests with the results of 0.938291 and 0.918753, respectively.
翻訳日:2021-11-02 16:22:48 公開日:2021-10-31
# JEDAIが意思決定AIを解説

JEDAI Explains Decision-Making AI ( http://arxiv.org/abs/2111.00585v1 )

ライセンス: Link先を確認
Trevor Angle, Naman Shah, Pulkit Verma, Siddharth Srivastava(参考訳) 本稿では,非AI専門家を対象としたアウトリーチと教育活動を目的としたAIシステムであるJEDAIについて述べる。 JEDAIは、統合されたタスクと動作計画と説明可能なAIから研究アイデアを新しく合成する。 JEDAIは、ユーザーがロボットによって実行可能であることを保証しながら、高レベルで直感的な計画を作成するのに役立つ。 また、エラーに関するカスタマイズされた説明を提供し、AI計画の理解の向上と、基盤となるロボットシステムの限界と能力も提供する。

This paper presents JEDAI, an AI system designed for outreach and educational efforts aimed at non-AI experts. JEDAI features a novel synthesis of research ideas from integrated task and motion planning and explainable AI. JEDAI helps users create high-level, intuitive plans while ensuring that they will be executable by the robot. It also provides users customized explanations about errors and helps improve their understanding of AI planning as well as the limits and capabilities of the underlying robot system.
翻訳日:2021-11-02 16:17:43 公開日:2021-10-31
# 階層的注意メンバーシップによるグラフ埋め込み

Graph Embedding with Hierarchical Attentive Membership ( http://arxiv.org/abs/2111.00604v1 )

ライセンス: Link先を確認
Lu Lin, Ethan Blaser and Hongning Wang(参考訳) グラフ構造の活用は、グラフで有用な情報を保持するノードの表現を効果的に学習する鍵である。 グラフの顕著な性質は、ノードの潜在階層的なグループ化がグローバルな視点に存在し、各ノードはその隣接ノードによって構成されるコンテキストに基づいて特定のグループへのメンバシップを示すことである。 ほとんどの先行研究は、近傍構造をモデル化する際、そのような潜伏群と異なる群へのノードのメンバーシップを無視している。 したがって、グラフ内の異なるコンテキスト下でのノードの包括的な理解を提供するには足りません。 本稿では,各ノードの潜在メンバシップを隣り合うコンテキストに基づいて動的に検出する,グラフ埋め込みのための階層的注意メンバシップモデルを提案する。 ノード埋め込みを生成するために隣接する状態を集約する際、グループレベルと個別レベルの注目の両方が実行される。 本稿では,各ノードの推論されたメンバシップを明示的に正規化するための構造的制約を導入する。 提案手法は,ノード分類とリンク予測タスクに関する最先端のグラフ埋め込みソリューション群を,引用ネットワークやソーシャルネットワークを含む多種多様なグラフで上回った。 定性的な評価は、学習したノードの埋め込みと推論されたメンバシップを視覚化し、メンバーシップ階層の概念を証明し、グラフに説明可能な埋め込み学習を可能にする。

The exploitation of graph structures is the key to effectively learning representations of nodes that preserve useful information in graphs. A remarkable property of graph is that a latent hierarchical grouping of nodes exists in a global perspective, where each node manifests its membership to a specific group based on the context composed by its neighboring nodes. Most prior works ignore such latent groups and nodes' membership to different groups, not to mention the hierarchy, when modeling the neighborhood structure. Thus, they fall short of delivering a comprehensive understanding of the nodes under different contexts in a graph. In this paper, we propose a novel hierarchical attentive membership model for graph embedding, where the latent memberships for each node are dynamically discovered based on its neighboring context. Both group-level and individual-level attentions are performed when aggregating neighboring states to generate node embeddings. We introduce structural constraints to explicitly regularize the inferred memberships of each node, such that a well-defined hierarchical grouping structure is captured. The proposed model outperformed a set of state-of-the-art graph embedding solutions on node classification and link prediction tasks in a variety of graphs including citation networks and social networks. Qualitative evaluations visualize the learned node embeddings along with the inferred memberships, which proved the concept of membership hierarchy and enables explainable embedding learning in graphs.
翻訳日:2021-11-02 16:17:36 公開日:2021-10-31
# 臨床実証エンジン:臨床ドメイン非依存的意思決定支援基盤のための概念実証

Clinical Evidence Engine: Proof-of-Concept For A Clinical-Domain-Agno stic Decision Support Infrastructure ( http://arxiv.org/abs/2111.00621v1 )

ライセンス: Link先を確認
Bojian Hou and Hao Zhang and Gur Ladizhinsky and Gur Ladizhinsky and Stephen Yang and Volodymyr Kuleshov and Fei Wang and Qian Yang(参考訳) 難読学習アルゴリズムと複雑なデータセットは、現代臨床意思決定支援システム(CDSS)をますます特徴付けている。 その結果、臨床医は診断や治療の難しい判断に直面する際にCDSS勧告を簡単かつ迅速に精査することはできない。 過信または過信が頻繁に行われる。 従来の研究では、DSTデータ入力とアルゴリズム機構を説明することによって、このような評価を支援することを検討してきた。 本論文は, バイオメディカル文献から, 正確な科学的証拠を提示する, 異なるアプローチを探求する。 本稿では, 概念実証システム, 臨床エビデンスエンジンについて, 3つの領域(心臓血管疾患, 自閉症, 癌)にまたがるこのアプローチの技術的および設計可能性を示す。 このシステムは、BioBERTを活用すれば、長期にわたる臨床問題に基づく臨床試験報告を効果的に識別することができる(例えば、「ポビドンヨードアルコールで治療した場合、動脈カテーテルを必要とする集中治療室の成人患者におけるカテーテル感染リスク」など)。 この能力により、システムは、臨床医またはcdssの診断/治療仮説に関連する臨床試験を識別することができる。 さらに、臨床エビデンスエンジンは、患者集団(例えば、動脈カテーテルを必要とする集中治療ユニットの成人患者)、介入(ポビドンヨードアルコール)、結果(カテーテル感染リスク)を含む、臨床試験の抽象的な部分を特定することができる。 この能力は、臨床医が治療を受けられる可能性を開く。 1) 臨床試験と臨床上の問題との一致を迅速に決定し、 2) 広く読まれることなく, 裁判の結果と文脈を理解する。 この可能性を実証するために、システムの2つの例を挙げる。 ドメインに依存しない意思決定支援基盤として、DSTやアルゴリズムに限らず、DSTの説明を設計するという考え方について議論する。

Abstruse learning algorithms and complex datasets increasingly characterize modern clinical decision support systems (CDSS). As a result, clinicians cannot easily or rapidly scrutinize the CDSS recommendation when facing a difficult diagnosis or treatment decision in practice. Over-trust or under-trust are frequent. Prior research has explored supporting such assessments by explaining DST data inputs and algorithmic mechanisms. This paper explores a different approach: Providing precisely relevant, scientific evidence from biomedical literature. We present a proof-of-concept system, Clinical Evidence Engine, to demonstrate the technical and design feasibility of this approach across three domains (cardiovascular diseases, autism, cancer). Leveraging Clinical BioBERT, the system can effectively identify clinical trial reports based on lengthy clinical questions (e.g., "risks of catheter infection among adult patients in intensive care unit who require arterial catheters, if treated with povidone iodine-alcohol"). This capability enables the system to identify clinical trials relevant to diagnostic/treatment hypotheses -- a clinician's or a CDSS's. Further, Clinical Evidence Engine can identify key parts of a clinical trial abstract, including patient population (e.g., adult patients in intensive care unit who require arterial catheters), intervention (povidone iodine-alcohol), and outcome (risks of catheter infection). This capability opens up the possibility of enabling clinicians to 1) rapidly determine the match between a clinical trial and a clinical question, and 2) understand the result and contexts of the trial without extensive reading. We demonstrate this potential by illustrating two example use scenarios of the system. We discuss the idea of designing DST explanations not as specific to a DST or an algorithm, but as a domain-agnostic decision support infrastructure.
翻訳日:2021-11-02 16:17:15 公開日:2021-10-31
# DPNET: 軽量自己注意型効率的なオブジェクト検出のためのデュアルパスネットワーク

DPNET: Dual-Path Network for Efficient Object Detectioj with Lightweight Self-Attention ( http://arxiv.org/abs/2111.00500v1 )

ライセンス: Link先を確認
Huimin Shi, Quan Zhou, Yinghao Ni, Xiaofu Wu and Longin Jan Latecki(参考訳) オブジェクト検出は、パフォーマンスを満足させるのにかなりの計算コストがかかり、エッジデバイスにデプロイするのは不都合である。 本稿では, 計算コストと検出精度のトレードオフに対処するため, 軽量な自己着脱を伴う効率的な物体検出のためのdpnetと呼ばれるデュアルパスネットワークを提案する。 backboneでは、単一の入出力軽量セルフアテンションモジュール(lsam)が、異なる位置間のグローバルな相互作用をエンコードするように設計されている。 lsamは、機能ピラミッドネットワーク(fpn)のマルチインプットバージョンにも拡張され、2つのパスでクロスレゾリューションの依存関係をキャプチャするために使用される。 COCOデータセットの大規模な実験により,本手法は最先端の検知結果が得られることを示した。 より具体的には、DPNetはCOCOテストデブで29.0%のAPを取得し、320x320画像に対して1.14 GFLOPsと2.27Mモデルサイズしか得られない。

Object detection often costs a considerable amount of computation to get satisfied performance, which is unfriendly to be deployed in edge devices. To address the trade-off between computational cost and detection accuracy, this paper presents a dual path network, named DPNet, for efficient object detection with lightweight self-attention. In backbone, a single input/output lightweight self-attention module (LSAM) is designed to encode global interactions between different positions. LSAM is also extended into a multiple-inputs version in feature pyramid network (FPN), which is employed to capture cross-resolution dependencies in two paths. Extensive experiments on the COCO dataset demonstrate that our method achieves state-of-the-art detection results. More specifically, DPNet obtains 29.0% AP on COCO test-dev, with only 1.14 GFLOPs and 2.27M model size for a 320x320 image.
翻訳日:2021-11-02 15:37:45 公開日:2021-10-31
# drbanet:境界補助付き意味セグメンテーションのための軽量なデュアルレゾリューションネットワーク

DRBANET: A Lightweight Dual-Resolution Network for Semantic Segmentation with Boundary Auxiliary ( http://arxiv.org/abs/2111.00509v1 )

ライセンス: Link先を確認
Linjie Wang, Quan Zhou, Chenfeng Jiang, Xiaofu Wu, and Longin Jan Latecki(参考訳) 画像の詳細とセマンティクスをエンコードできる強力な能力により、近年、多くの軽量なデュアルレゾリューションネットワークが提案されている。 しかし、その多くは境界情報の利点を無視している。 本稿では,境界情報を用いてセマンティックセグメンテーション結果を洗練することを目的とした,DRBANetと呼ばれる軽量なデュアルレゾリューションネットワークを提案する。 DRBANetは、高分解能分岐(HRB)と低分解能分岐(LRB)を含む二重並列アーキテクチャを採用している。 具体的には、HRBは主に、より大きな受容場を持つ特徴表現を学習する効率的な反転ブートネックモジュール(EIBM)からなる。 lrbは一連のeibmと非常に軽量なピラミッドプーリングモジュール(elppm)で構成されており、elppmは階層的な残差接続を通じてマルチスケールのコンテキストをキャプチャするために利用される。 最後に、境界監督ヘッドは、HRB内のオブジェクト境界をキャプチャするために設計されている。 CityscapesとCamVidデータセットの大規模な実験により,セグメント化精度と実行効率のトレードオフが期待できることを示した。

Due to the powerful ability to encode image details and semantics, many lightweight dual-resolution networks have been proposed in recent years. However, most of them ignore the benefit of boundary information. This paper introduces a lightweight dual-resolution network, called DRBANet, aiming to refine semantic segmentation results with the aid of boundary information. DRBANet adopts dual parallel architecture, including: high resolution branch (HRB) and low resolution branch (LRB). Specifically, HRB mainly consists of a set of Efficient Inverted Bottleneck Modules (EIBMs), which learn feature representations with larger receptive fields. LRB is composed of a series of EIBMs and an Extremely Lightweight Pyramid Pooling Module (ELPPM), where ELPPM is utilized to capture multi-scale context through hierarchical residual connections. Finally, a boundary supervision head is designed to capture object boundaries in HRB. Extensive experiments on Cityscapes and CamVid datasets demonstrate that our method achieves promising trade-off between segmentation accuracy and running efficiency.
翻訳日:2021-11-02 15:37:31 公開日:2021-10-31
# 野生家族認識(rfiw):第5版

Recognizing Families In the Wild (RFIW): The 5th Edition ( http://arxiv.org/abs/2111.00598v1 )

ライセンス: Link先を確認
Joseph P. Robinson, Can Qin, Ming Shao, Matthew A. Turk, Rama Chellappa, and Yun Fu(参考訳) 第16回IEEE International Conference on Automatic Face and Gesture Recognition (FG)と共同で開催されているRFIW(Recognizing Families In the Wild)は、大規模かつ多トラックの視覚的親和性評価である。 RFIWの5回目の版で、学者を惹きつけ、専門家を集め、新しい作品を出版し、今後の展望を議論する努力を継続します。 本稿では,今年のrfiwにおける3つの課題に対する提案を要約する。具体的には,キンシップ検証,3つのサブジェクト検証,家族メンバーの検索と検索の結果について検討する。 我々は、RFIWの問題を考察するとともに、現在の取り組みを共有し、将来有望な方向性を推奨する。

Recognizing Families In the Wild (RFIW), held as a data challenge in conjunction with the 16th IEEE International Conference on Automatic Face and Gesture Recognition (FG), is a large-scale, multi-track visual kinship recognition evaluation. This is our fifth edition of RFIW, for which we continue the effort to attract scholars, bring together professionals, publish new work, and discuss prospects. In this paper, we summarize submissions for the three tasks of this year's RFIW: specifically, we review the results for kinship verification, tri-subject verification, and family member search and retrieval. We take a look at the RFIW problem, as well as share current efforts and make recommendations for promising future directions.
翻訳日:2021-11-02 15:37:12 公開日:2021-10-31
# グラフツリーニューラルネットワーク

Graph Tree Neural Networks ( http://arxiv.org/abs/2111.00424v1 )

ライセンス: Link先を確認
Seokjun Kim, Jaeeun Jang, Hee-seok Jung, Hyeoncheol Kim(参考訳) グラフニューラルネットワーク(GNN)は、最近、様々な分野で優れたパフォーマンスを示している。 本稿では,既存のネットワークの問題を解決するために,人間のニューラルネットワークの構造を解析し,グラフツリーニューラルネットワーク(gtnn)を提案する。 GTNNでは、情報ユニットはグラフの形式と関連付けられ、その後再び大きな情報の単位となり、他の情報ユニットと関係を持つ。 この時点で、情報の単位はニューロンの集合であり、GTNNでベクトルとして表現することができる。 単一のグラフで開始点と終了点を定義することは困難であり、ツリーは兄弟ノード間の関係を表現できない。 しかし、グラフツリーは、リーフノードとルートノードをその開始点と終了点、および兄弟ノード間の関係として表現することができる。 深さ優先畳み込み(DFC)は、葉ノードから根ノードへの相互作用結果をボトムアップアプローチで符号化し、深さ第一畳み込み(DFD)は根ノードから葉ノードへの相互作用結果をトップダウンアプローチで復号する。 GTNNはデータ駆動学習であり、ツリーの深さに応じて畳み込みの回数が変化する。 さらに、異なるタイプの特徴を同時に学習することも可能である。 本稿では,グラフツリー再帰型ニューラルネットワーク(GTR),グラフツリー再帰型アテンションネットワーク(GTRA),グラフツリー再帰型オートエンコーダ(GTRAE)を用いた教師なし,半教師付き学習を紹介する。 ソースコードデータセットで簡単なトイテストを実施しました。

Graph neural networks (GNNs) have recently shown good performance in various fields. In this paper, we propose graph tree neural networks (GTNNs) designed to solve the problems of existing networks by analyzing the structure of human neural networks. In GTNNs, information units are related to the form of a graph and then they become a bigger unit of information again and have a relationship with other information units. At this point, the unit of information is a set of neurons, and we can express it as a vector with GTNN. Defining the starting and ending points in a single graph is difficult, and a tree cannot express the relationship among sibling nodes. However, a graph tree can be expressed using leaf and root nodes as its starting and ending points and the relationship among sibling nodes. Depth-first convolution (DFC) encodes the interaction result from leaf nodes to the root node in a bottom-up approach, and depth-first deconvolution (DFD) decodes the interaction result from the root node to the leaf nodes in a top-down approach. GTNN is data-driven learning in which the number of convolutions varies according to the depth of the tree. Moreover, learning features of different types together is possible. Supervised, unsupervised, and semi-supervised learning using graph tree recursive neural network (GTR) , graph tree recursive attention networks (GTRAs), and graph tree recursive autoencoders (GTRAEs) are introduced in this paper. We experimented with a simple toy test with source code dataset.
翻訳日:2021-11-02 15:19:03 公開日:2021-10-31
# panet:動的受容場を有する視点認識ネットワークと自己蒸留監視による群衆数計測

PANet: Perspective-Aware Network with Dynamic Receptive Fields and Self-Distilling Supervision for Crowd Counting ( http://arxiv.org/abs/2111.00406v1 )

ライセンス: Link先を確認
Xiaoshuang Chen, Yiru Zhao, Yu Qin, Fei Jiang, Mingyuan Tao, Xiansheng Hua, Hongtao Lu(参考訳) 群衆カウントは、群衆密度分布を学習し、画像中の物体(例えば人)の数を推定することを目的としている。 データポイントの分布に大きな影響を与える視点効果は、群衆カウントにおいて重要な役割を果たす。 本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。 対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。 このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。 ガウスカーネルを用いて教師付き情報として密度マップを生成する従来の研究とは異なり、自己蒸留監督(SDS)訓練法を提案する。 第1の訓練段階から接地トラス密度マップを精製し、第2の訓練段階においてモデルに視点情報を蒸留する。 上海工科大学 part_a および part_b, ucf_qnrf, ucf_cc_50 データセットにおける実験結果から, 提案する panet が最先端手法よりも高いマージンを示した。

Crowd counting aims to learn the crowd density distributions and estimate the number of objects (e.g. persons) in images. The perspective effect, which significantly influences the distribution of data points, plays an important role in crowd counting. In this paper, we propose a novel perspective-aware approach called PANet to address the perspective problem. Based on the observation that the size of the objects varies greatly in one image due to the perspective effect, we propose the dynamic receptive fields (DRF) framework. The framework is able to adjust the receptive field by the dilated convolution parameters according to the input image, which helps the model to extract more discriminative features for each local region. Different from most previous works which use Gaussian kernels to generate the density map as the supervised information, we propose the self-distilling supervision (SDS) training method. The ground-truth density maps are refined from the first training stage and the perspective information is distilled to the model in the second stage. The experimental results on ShanghaiTech Part_A and Part_B, UCF_QNRF, and UCF_CC_50 datasets demonstrate that our proposed PANet outperforms the state-of-the-art methods by a large margin.
翻訳日:2021-11-02 15:14:42 公開日:2021-10-31
# 単一画像デフォーカス劣化のためのガウスカーネル混合ネットワーク

Gaussian Kernel Mixture Network for Single Image Defocus Deblurring ( http://arxiv.org/abs/2111.00454v1 )

ライセンス: Link先を確認
Yuhui Quan, Zicong Wu and Hui Ji(参考訳) Defocus blurは画像によく見られるブラー効果の一種であり、空間的に変化する量のために除去が困難である。 本稿では,1つの画像からデフォーカスのぼかしを取り除くためのエンドツーエンドのディープラーニング手法を提案する。 まず,空間変動型デフォーカスボローカーネルを線形パラメトリックな効率よく表現し,既存のモデルよりも高精度な画素ワイドガウス核混合(GKM)モデルを提案する。 そして、GKMベースのデブロアリングの固定点反復をアンロールすることで、GKMNetと呼ばれるディープニューラルネットワークを開発する。 gkmnetは軽量なスケールリカレントアーキテクチャ上に構築されており、スケールリカレントアテンションモジュールを用いてgkmの混合係数を推定し、デフォーカスデブラリングを行う。 大規模な実験により、GKMNetは既存のデフォーカスデブロリング法を著しく上回るだけでなく、モデル複雑性と計算効率の点でその優位性も示している。

Defocus blur is one kind of blur effects often seen in images, which is challenging to remove due to its spatially variant amount. This paper presents an end-to-end deep learning approach for removing defocus blur from a single image, so as to have an all-in-focus image for consequent vision tasks. First, a pixel-wise Gaussian kernel mixture (GKM) model is proposed for representing spatially variant defocus blur kernels in an efficient linear parametric form, with higher accuracy than existing models. Then, a deep neural network called GKMNet is developed by unrolling a fixed-point iteration of the GKM-based deblurring. The GKMNet is built on a lightweight scale-recurrent architecture, with a scale-recurrent attention module for estimating the mixing coefficients in GKM for defocus deblurring. Extensive experiments show that the GKMNet not only noticeably outperforms existing defocus deblurring methods, but also has its advantages in terms of model complexity and computational efficiency.
翻訳日:2021-11-02 15:14:21 公開日:2021-10-31
# 放送スポーツ映像理解のための遠隔教師付き意味テキスト検出と認識

Distantly Supervised Semantic Text Detection and Recognition for Broadcast Sports Videos Understanding ( http://arxiv.org/abs/2111.00629v1 )

ライセンス: Link先を確認
Avijit Shah, Topojoy Biswas, Sathish Ramadoss, Deven Santosh Shah(参考訳) マルチプレイヤースポーツ放送ビデオにおけるキープレイヤーとアクションの包括的理解は難しい課題である。 ニュースや金融ビデオとは異なり、スポーツビデオはテキストが限られている。 マルチプレイヤースポーツのアクション認識とプレイヤーの検出の両方が堅牢に研究されているが、ビデオフレームのコンテキストテキストを理解することはスポーツビデオ理解の最も影響のある方法の1つだ。 本研究では,スポーツ時計における極めて正確な意味的テキスト検出と認識について検討し,課題を提起する。 スポーツ時計のユニークな特性を観察し,汎用の事前学習型検出器や認識器の活用を困難にし,外部知識に適合する程度で文章を正確に理解できるようにする。 本稿では,スポーツクロックのデータセットを自動構築する遠隔監視手法を提案する。 適切なデータ拡張と、最先端のテキスト検出および認識モデルアーキテクチャを組み合わせることで、極めて正確なセマンティックテキストを抽出する。 最後に、このシステムを産業環境でスケールアップするための計算アーキテクチャパイプラインを共有し、その結果を検証するための堅牢なデータセットを提案する。

Comprehensive understanding of key players and actions in multiplayer sports broadcast videos is a challenging problem. Unlike in news or finance videos, sports videos have limited text. While both action recognition for multiplayer sports and detection of players has seen robust research, understanding contextual text in video frames still remains one of the most impactful avenues of sports video understanding. In this work we study extremely accurate semantic text detection and recognition in sports clocks, and challenges therein. We observe unique properties of sports clocks, which makes it hard to utilize general-purpose pre-trained detectors and recognizers, so that text can be accurately understood to the degree of being used to align to external knowledge. We propose a novel distant supervision technique to automatically build sports clock datasets. Along with suitable data augmentations, combined with any state-of-the-art text detection and recognition model architectures, we extract extremely accurate semantic text. Finally, we share our computational architecture pipeline to scale this system in industrial setting and proposed a robust dataset for the same to validate our results.
翻訳日:2021-11-02 15:02:46 公開日:2021-10-31
# 可視化:同時音声翻訳における欠落要因

Visualization: the missing factor in Simultaneous Speech Translation ( http://arxiv.org/abs/2111.00514v1 )

ライセンス: Link先を確認
Sara Papi, Matteo Negri, Marco Turchi(参考訳) 同時音声翻訳(SimulST)は、部分的なインクリメンタル音声入力に対して出力生成を行うタスクである。 近年、国際ライブ会議やストリーミング講義など、音声・視覚コンテンツへのアクセスを容易にする言語横断的なアプリケーションシナリオの普及により、SimulSTの人気が高まっている。 本稿では,これまでのSimulSTシステムの特徴を分析し,その強度と弱点について考察する。 次に,システムの有効性を適切に評価するために必要な評価フレームワークに注目する。 この目的のために、ユーザエクスペリエンスの観点からも、より広範なパフォーマンス分析の必要性を高めます。 シミュレーションシステムは、品質/レイテンシの測定だけでなく、例えば、採用されている可視化戦略のタスク指向のメトリクス会計によって評価されるべきである。 これを踏まえて,コミュニティが達成した目標と,いまだに欠けているものを強調する。

Simultaneous speech translation (SimulST) is the task in which output generation has to be performed on partial, incremental speech input. In recent years, SimulST has become popular due to the spread of cross-lingual application scenarios, like international live conferences and streaming lectures, in which on-the-fly speech translation can facilitate users' access to audio-visual content. In this paper, we analyze the characteristics of the SimulST systems developed so far, discussing their strengths and weaknesses. We then concentrate on the evaluation framework required to properly assess systems' effectiveness. To this end, we raise the need for a broader performance analysis, also including the user experience standpoint. SimulST systems, indeed, should be evaluated not only in terms of quality/latency measures, but also via task-oriented metrics accounting, for instance, for the visualization strategy adopted. In light of this, we highlight which are the goals achieved by the community and what is still missing.
翻訳日:2021-11-02 14:59:20 公開日:2021-10-31
# 最小記述長リカレントニューラルネットワーク

Minimum Description Length Recurrent Neural Networks ( http://arxiv.org/abs/2111.00600v1 )

ライセンス: Link先を確認
Nur Lan, Michal Geyer, Emmanuel Chemla, Roni Katzir(参考訳) ニューラルネットワークをトレーニングして、最小記述長(Minimum Description Length)スコアを最適化し、ネットワークの複雑さとタスクの精度のバランスをとる。 この目的関数でトレーニングされたネットワークは、コンテクストフリー言語を超えたケースを含む、カウントなどのメモリ課題を含むタスクをマスターする。 これらの学習者は、例えば$a^nb^n$, $a^nb^nc^n$, $a^nb^{2n}$, $a^nb^mc^{n+m}$の文法をマスターし、加算を行う。 100%の精度で、時には100%の信頼性で行う。 ネットワークも小さく、内部構造は透明である。 したがって、与えられたテストセットだけでなく、任意の入力シーケンスに対して、それらの完全精度が成り立つという公式な証明を与える。

We train neural networks to optimize a Minimum Description Length score, i.e., to balance between the complexity of the network and its accuracy at a task. We show that networks trained with this objective function master tasks involving memory challenges such as counting, including cases that go beyond context-free languages. These learners master grammars for, e.g., $a^nb^n$, $a^nb^nc^n$, $a^nb^{2n}$, and $a^nb^mc^{n+m}$, and they perform addition. They do so with 100% accuracy, sometimes also with 100% confidence. The networks are also small and their inner workings are transparent. We thus provide formal proofs that their perfect accuracy holds not only on a given test set, but for any input sequence.
翻訳日:2021-11-02 14:59:05 公開日:2021-10-31
# 計算効率の高い一級話題決定のためのコニカル分類

Conical Classification For Computationally Efficient One-Class Topic Determination ( http://arxiv.org/abs/2111.00375v1 )

ライセンス: Link先を確認
Sameer Khanna(参考訳) インターネットのサイズが大きくなるにつれて、テキストベースの情報も膨大になる。 多くのアプリケーション空間において、特定のトピックに関連するテキストを分離し識別するのが最重要です。 一級分類はそのような分析に理想的であるが、高い予測力を持つ効率的なアプローチに関する研究が比較的不足している。 テキストを表すベクトル空間モデルの正の線形結合として、特定したい文書の範囲を表現できることに留意して、ある文書が特定のトピックであるかどうかを計算的に効率的に識別できるコニカル分類を提案する。 また,二極分離の修正版であるNormal Exclusionを提案する。 分析では、我々のアプローチはデータセットに高い予測力を持つだけでなく、計算の高速化も示しています。

As the Internet grows in size, so does the amount of text based information that exists. For many application spaces it is paramount to isolate and identify texts that relate to a particular topic. While one-class classification would be ideal for such analysis, there is a relative lack of research regarding efficient approaches with high predictive power. By noting that the range of documents we wish to identify can be represented as positive linear combinations of the Vector Space Model representing our text, we propose Conical classification, an approach that allows us to identify if a document is of a particular topic in a computationally efficient manner. We also propose Normal Exclusion, a modified version of Bi-Normal Separation that makes it more suitable within the one-class classification context. We show in our analysis that our approach not only has higher predictive power on our datasets, but is also faster to compute.
翻訳日:2021-11-02 14:56:30 公開日:2021-10-31
# ednetデータセット上での深い知識追跡モデル解釈

Interpreting Deep Knowledge Tracing Model on EdNet Dataset ( http://arxiv.org/abs/2111.00419v1 )

ライセンス: Link先を確認
Deliang Wang, Yu Lu, Qinggang Meng, Penghe Chen(参考訳) より深い学習技術が知識追跡領域に導入され、知識追跡モデルの解釈可能性の問題が研究者の注意を喚起した。 KTモデルの構築と解釈に関するこれまでの研究(Lu et al. 2020)では,比較的小型のASSISTmentデータセット(Feng,Heffernan,Koed inger 2009)が採用されている。 本研究では,EdNet(Choi et al. 2020)と呼ばれる大規模かつ新たに利用可能なデータセット上で,同様のタスクを実行する。 予備実験の結果,解釈手法の有効性が示され,さらに多くの質問や課題が検討され,達成される。

With more deep learning techniques being introduced into the knowledge tracing domain, the interpretability issue of the knowledge tracing models has aroused researchers' attention. Our previous study(Lu et al. 2020) on building and interpreting the KT model mainly adopts the ASSISTment dataset(Feng, Heffernan, and Koedinger 2009),, whose size is relatively small. In this work, we perform the similar tasks but on a large and newly available dataset, called EdNet(Choi et al. 2020). The preliminary experiment results show the effectiveness of the interpreting techniques, while more questions and tasks are worthy to be further explored and accomplished.
翻訳日:2021-11-02 14:56:16 公開日:2021-10-31
# smart(sampling) augment:セマンティックセグメンテーションのための最適かつ効率的なデータ拡張

Smart(Sampling)Augme nt: Optimal and Efficient Data Augmentation for Semantic Segmentation ( http://arxiv.org/abs/2111.00487v1 )

ライセンス: Link先を確認
Misgana Negassi, Diane Wagner, Alexander Reiterer(参考訳) データ拡張手法は、ニューラルネットワークの性能を改善するために拡張データでデータセットを豊かにする。 近年,拡張戦略を自動設計する自動データ拡張手法が登場している。 既存の研究は画像分類とオブジェクト検出に重点を置いているが、セマンティックイメージセグメンテーションに関する最初の研究を行い、新しいアプローチとして \textit{SmartAugment} と \textit{SmartSamplingAugment } を紹介している。 smartaugmentはベイズ最適化を使用して、拡張戦略の豊富な空間を探索し、私たちが検討するすべてのセマンティックセグメンテーションタスクにおいて、新たな最先端のパフォーマンスを達成します。 SmartSamplingAugment は、固定的な拡張戦略を備えたシンプルなパラメータフリーのアプローチで、既存のリソース集約型アプローチとパフォーマンスを競い合い、安価な最先端データ拡張手法を上回っている。 さらに、データ拡張ハイパーパラメータの影響、相互作用、重要性を分析し、SmartAugmentとSmartSamplingAugment の設計選択を確認するアブレーション研究を実施します。 最後に、再現性のためのソースコードを提供し、さらなる研究を促進する。

Data augmentation methods enrich datasets with augmented data to improve the performance of neural networks. Recently, automated data augmentation methods have emerged, which automatically design augmentation strategies. Existing work focuses on image classification and object detection, whereas we provide the first study on semantic image segmentation and introduce two new approaches: \textit{SmartAugment} and \textit{SmartSamplingAugment }. SmartAugment uses Bayesian Optimization to search over a rich space of augmentation strategies and achieves a new state-of-the-art performance in all semantic segmentation tasks we consider. SmartSamplingAugment , a simple parameter-free approach with a fixed augmentation strategy competes in performance with the existing resource-intensive approaches and outperforms cheap state-of-the-art data augmentation methods. Further, we analyze the impact, interaction, and importance of data augmentation hyperparameters and perform ablation studies, which confirm our design choices behind SmartAugment and SmartSamplingAugment . Lastly, we will provide our source code for reproducibility and to facilitate further research.
翻訳日:2021-11-02 14:35:35 公開日:2021-10-31
# セマンティクスセグメンテーションのための不偏・不等角表現の学習

Learning Debiased and Disentangled Representations for Semantic Segmentation ( http://arxiv.org/abs/2111.00531v1 )

ライセンス: Link先を確認
Sanghyeok Chu, Dongwan Kim, Bohyung Han(参考訳) 深いニューラルネットワークは、絡み合った特徴表現を持つバイアス付きモデルを学ぶことができ、様々な下流タスクのサブパーパフォーマンスにつながる可能性がある。 これは、データの多様性の欠如が傾向を悪化させる低表現クラスでは特に当てはまる。 この制限は、主に分類タスクで対処されてきたが、セマンティックセグメンテーションを含むより複雑な予測問題に現れる可能性のある追加の課題についてはほとんど研究されていない。 そこで本研究では,意味的セグメンテーションのためのモデルに依存しない,確率的な学習手法を提案する。 各クラスについて、まず、高度に絡み合った特徴写像からクラス固有の情報を抽出する。 そして、特徴空間における特徴選択プロセスにより、ランダムにサンプリングされたクラスに関連する情報を抑圧する。 各トレーニングイテレーションで特定のクラス情報をランダムに排除することにより、クラス間の機能依存を効果的に減らし、モデルがより偏りと絡み合った特徴表現を学習することができる。 提案手法で訓練したモデルでは,複数のセマンティックセマンティックセマンティクスベンチマークにおいて強い結果が得られた。

Deep neural networks are susceptible to learn biased models with entangled feature representations, which may lead to subpar performances on various downstream tasks. This is particularly true for under-represented classes, where a lack of diversity in the data exacerbates the tendency. This limitation has been addressed mostly in classification tasks, but there is little study on additional challenges that may appear in more complex dense prediction problems including semantic segmentation. To this end, we propose a model-agnostic and stochastic training scheme for semantic segmentation, which facilitates the learning of debiased and disentangled representations. For each class, we first extract class-specific information from the highly entangled feature map. Then, information related to a randomly sampled class is suppressed by a feature selection process in the feature space. By randomly eliminating certain class information in each training iteration, we effectively reduce feature dependencies among classes, and the model is able to learn more debiased and disentangled feature representations. Models trained with our approach demonstrate strong results on multiple semantic segmentation benchmarks, with especially notable performance gains on under-represented classes.
翻訳日:2021-11-02 14:35:14 公開日:2021-10-31
# PIE:擬似非可逆エンコーダ

PIE: Pseudo-Invertible Encoder ( http://arxiv.org/abs/2111.00619v1 )

ライセンス: Link先を確認
Jan Jetze Beitler, Ivan Sosnovik, Arnold Smeulders(参考訳) 我々は高次元データからの情報圧縮の問題を考える。 非可逆変換による圧縮の問題を考える研究は多いが、非可逆圧縮の重要性を強調している。 我々は疑似単射的アーキテクチャを持つ確率に基づく新しいオートエンコーダのクラスを導入し、これを疑似可逆エンコーダと呼ぶ。 私たちは彼らの原理を理論的に説明します。 MNISTのガウス的擬似非可逆エンコーダの評価を行い,本モデルが生成した画像のシャープさにおいてWAEとVAEより優れていることを示す。

We consider the problem of information compression from high dimensional data. Where many studies consider the problem of compression by non-invertible transformations, we emphasize the importance of invertible compression. We introduce new class of likelihood-based autoencoders with pseudo bijective architecture, which we call Pseudo Invertible Encoders. We provide the theoretical explanation of their principles. We evaluate Gaussian Pseudo Invertible Encoder on MNIST, where our model outperforms WAE and VAE in sharpness of the generated images.
翻訳日:2021-11-02 14:34:54 公開日:2021-10-31
# クロスコリレーションを組み込んだ完全畳み込みネットワークに基づくロバストな単画素粒子画像速度測定

A robust single-pixel particle image velocimetry based on fully convolutional networks with cross-correlation embedded ( http://arxiv.org/abs/2111.00395v1 )

ライセンス: Link先を確認
Qi Gao, Hongtao Lin, Han Tu, Haoran Zhu, Runjie Wei, Guoping Zhang, Xueming Shao(参考訳) 粒子画像速度測定(PIV)は実験流体力学において必須である。 本研究では,ディープラーニング手法と従来の相互相関法を相乗的に組み合わせた新しい速度場推定パラダイムを提案する。 具体的には,超解像計算を実現するために,粗速度推定を最適化し補正するために深層学習法を用いる。 また,クロス相関法は,大きめの問合せ窓との粗い相関に基づく初期速度場を提供する。 参考として、粗い速度推定は提案アルゴリズムの堅牢性を向上させるのに役立つ。 組込み相互相関を持つ完全な畳み込みネットワークはCC-FCNと呼ばれる。 CC-FCNは2種類の入力層を持ち、1つは粒子画像用であり、もう1つは粗い解像度と相互相関を用いて計算された初期速度場用である。 まず, 2つのピラミッドモジュールが粒子像の特徴と初期速度場をそれぞれ抽出する。 そして、融合モジュールはこれらの機能を適切に融合する。 最後に、CC-FCNは一連のデコンボリューション層を通じて超分解能計算を行い、単画素速度場を得る。 教師付き学習戦略を考慮し, 地中流体運動を含む合成データセットを生成し, ネットワークパラメータを学習する。 合成および実実験的なPIVデータセットは、精度、精度、空間分解能、堅牢性の観点からトレーニングされたニューラルネットワークをテストするために使用される。 実験の結果,CC-FCNのこれらの特性は,他のPIVアルゴリズムと比較してさらに改善されていることがわかった。 提案モデルにより,PIV実験の競争力およびロバストな評価が可能となった。

Particle image velocimetry (PIV) is essential in experimental fluid dynamics. In the current work, we propose a new velocity field estimation paradigm, which achieves a synergetic combination of the deep learning method and the traditional cross-correlation method. Specifically, the deep learning method is used to optimize and correct a coarse velocity guess to achieve a super-resolution calculation. And the cross-correlation method provides the initial velocity field based on a coarse correlation with a large interrogation window. As a reference, the coarse velocity guess helps with improving the robustness of the proposed algorithm. This fully convolutional network with embedded cross-correlation is named as CC-FCN. CC-FCN has two types of input layers, one is for the particle images, and the other is for the initial velocity field calculated using cross-correlation with a coarse resolution. Firstly, two pyramidal modules extract features of particle images and initial velocity field respectively. Then the fusion module appropriately fuses these features. Finally, CC-FCN achieves the super-resolution calculation through a series of deconvolution layers to obtain the single-pixel velocity field. As the supervised learning strategy is considered, synthetic data sets including ground-truth fluid motions are generated to train the network parameters. Synthetic and real experimental PIV data sets are used to test the trained neural network in terms of accuracy, precision, spatial resolution and robustness. The test results show that these attributes of CC-FCN are further improved compared with those of other tested PIV algorithms. The proposed model could therefore provide competitive and robust estimations for PIV experiments.
翻訳日:2021-11-02 14:33:43 公開日:2021-10-31
# バイオメディカルイメージセグメンテーションのためのニューラルネットワーク過信処理のためのDice損失の校正

Calibrating the Dice loss to handle neural network overconfidence for biomedical image segmentation ( http://arxiv.org/abs/2111.00528v1 )

ライセンス: Link先を確認
Michael Yeung, Leonardo Rundo, Yang Nan, Evis Sala, Carola-Bibiane Sch\"onlieb, Guang Yang(参考訳) Dice similarity coefficient (DSC) は、バイオメディカルイメージセグメンテーションにおいて、クラス不均衡に対するロバスト性のために広く用いられている計量と損失関数である。 しかし、dscの損失は低い校正であり、生体医学や臨床において有用に解釈できない自信過剰な予測をもたらすことが知られている。 性能はディープニューラルネットワークによって生成されたセグメンテーションを評価するために使われる唯一の指標であり、校正はしばしば無視される。 しかし、キャリブレーションは生体医学や臨床医学への翻訳において重要であり、科学者や臨床医による解釈の予測をモデル化するための重要な文脈情報を提供する。 本研究では, バイオメディカルイメージセグメンテーションの新たな課題として, キャリブレーションの低さを挙げる。 dsc++の損失(dsc++ loss)は、自信過剰で誤った予測に関連するペナルティを選択的に調節するものである。 スタンドアロンの損失関数として、DSC++の損失は、十分に検証された5つのオープンソースのバイオメディカルイメージングデータセットにおいて、従来のDSC損失よりも大幅に改善されたキャリブレーションを達成する。 同様に、DSC++の損失を4つのDSCベースの損失関数に統合すると、大幅に改善される。 最後に,バイオメディカル・臨床の課題に適合するモデル予測に適応する重要な後処理技術である精度・リコールバイアスの調整を可能にすることを明らかにするために,ソフトマックスしきい値を用いた。 DSC++の損失はDSCの大きな制限を克服し、バイオメディカルおよび臨床実践で使用するディープラーニングセグメンテーションモデルのトレーニングに適した損失関数を提供する。

The Dice similarity coefficient (DSC) is both a widely used metric and loss function for biomedical image segmentation due to its robustness to class imbalance. However, it is well known that the DSC loss is poorly calibrated, resulting in overconfident predictions that cannot be usefully interpreted in biomedical and clinical practice. Performance is often the only metric used to evaluate segmentations produced by deep neural networks, and calibration is often neglected. However, calibration is important for translation into biomedical and clinical practice, providing crucial contextual information to model predictions for interpretation by scientists and clinicians. In this study, we identify poor calibration as an emerging challenge of deep learning based biomedical image segmentation. We provide a simple yet effective extension of the DSC loss, named the DSC++ loss, that selectively modulates the penalty associated with overconfident, incorrect predictions. As a standalone loss function, the DSC++ loss achieves significantly improved calibration over the conventional DSC loss across five well-validated open-source biomedical imaging datasets. Similarly, we observe significantly improved when integrating the DSC++ loss into four DSC-based loss functions. Finally, we use softmax thresholding to illustrate that well calibrated outputs enable tailoring of precision-recall bias, an important post-processing technique to adapt the model predictions to suit the biomedical or clinical task. The DSC++ loss overcomes the major limitation of the DSC, providing a suitable loss function for training deep learning segmentation models for use in biomedical and clinical practice.
翻訳日:2021-11-02 14:32:42 公開日:2021-10-31
# バイオメディカルイメージセグメンテーションのための境界不確かさを損失関数に組み込む

Incorporating Boundary Uncertainty into loss functions for biomedical image segmentation ( http://arxiv.org/abs/2111.00533v1 )

ライセンス: Link先を確認
Michael Yeung, Guang Yang, Evis Sala, Carola-Bibiane Sch\"onlieb, Leonardo Rundo(参考訳) 手動セグメンテーションは、自動画像セグメンテーションタスクでニューラルネットワークを評価するためのゴールドスタンダードとして使用される。 形状、色、テクスチャにはかなり異質性があるため、生物医学的な画像では物体境界の区切りが特に困難であり、その結果、層間および層内変異は顕著である。 ソフトラベルや距離ペナルティ項のようなアプローチは、基底真理に大域的変換を適用し、不確実性に関して損失関数を再定義する。 しかし、グローバルな操作は計算コストが高く、どちらのアプローチも不確実な手動アノテーションを正確に反映していない。 本稿では,オブジェクト境界に対するソフトラベリングを制限するために形態素演算を用いる境界不確実性を提案し,基底真理ラベルにおける不確かさの適切な表現を提供し,体系的な手動セグメンテーションエラーが存在する場合のロバストなモデルトレーニングを可能にする。 境界不確かさをDice損失と組み合わせることで,ソフトラベリングや距離重み付きペナルティと比較して,3つのバイオメディカルイメージングデータセットの精度向上を実現した。 境界不確実性はセグメント化過程をより正確に反映するだけでなく、セグメント化エラーに対して効率的で堅牢であり、より良い一般化を示す。

Manual segmentation is used as the gold-standard for evaluating neural networks on automated image segmentation tasks. Due to considerable heterogeneity in shapes, colours and textures, demarcating object boundaries is particularly difficult in biomedical images, resulting in significant inter and intra-rater variability. Approaches, such as soft labelling and distance penalty term, apply a global transformation to the ground truth, redefining the loss function with respect to uncertainty. However, global operations are computationally expensive, and neither approach accurately reflects the uncertainty underlying manual annotation. In this paper, we propose the Boundary Uncertainty, which uses morphological operations to restrict soft labelling to object boundaries, providing an appropriate representation of uncertainty in ground truth labels, and may be adapted to enable robust model training where systematic manual segmentation errors are present. We incorporate Boundary Uncertainty with the Dice loss, achieving consistently improved performance across three well-validated biomedical imaging datasets compared to soft labelling and distance-weighted penalty. Boundary Uncertainty not only more accurately reflects the segmentation process, but it is also efficient, robust to segmentation errors and exhibits better generalisation.
翻訳日:2021-11-02 14:32:16 公開日:2021-10-31
# 焦点注意ネットワーク:バイオメディカルイメージセグメンテーションにおける注意の最適化

Focal Attention Networks: optimising attention for biomedical image segmentation ( http://arxiv.org/abs/2111.00534v1 )

ライセンス: Link先を確認
Michael Yeung, Leonardo Rundo, Evis Sala, Carola-Bibiane Sch\"onlieb, Guang Yang(参考訳) 近年,バイオメディカルイメージセグメンテーションのためのディープラーニングアーキテクチャへの関心が高まっている。 注意機構のモジュール設計により、U-Netのような畳み込みニューラルネットワークアーキテクチャへの柔軟な統合が可能になる。 注意が適切かどうか、使用すべき注意の種類、および注意モジュールを組み込むためのネットワーク内の場所が、現在見過ごされている重要な考慮事項である。 本稿では,注意の変調における焦点パラメータの役割について検討し,損失関数とネットワークにおける注意の関連を明らかにする。 焦点距離ペナルティ項を組み込むことにより、境界に基づく損失を含む統一焦点損失フレームワークを拡張する。 さらに, 簡易かつ解釈可能な, データセット, モデル固有のヒューリスティックを開発し, 焦点パラメータを絞り出しブロックとアテンションゲートに統合し, 3つのよく評価された生体医用イメージングデータセットにおいて, 注意モジュール数が少なく, 最適な性能を実現する。

In recent years, there has been increasing interest to incorporate attention into deep learning architectures for biomedical image segmentation. The modular design of attention mechanisms enables flexible integration into convolutional neural network architectures, such as the U-Net. Whether attention is appropriate to use, what type of attention to use, and where in the network to incorporate attention modules, are all important considerations that are currently overlooked. In this paper, we investigate the role of the Focal parameter in modulating attention, revealing a link between attention in loss functions and networks. By incorporating a Focal distance penalty term, we extend the Unified Focal loss framework to include boundary-based losses. Furthermore, we develop a simple and interpretable, dataset and model-specific heuristic to integrate the Focal parameter into the Squeeze-and-Excitati on block and Attention Gate, achieving optimal performance with fewer number of attention modules on three well-validated biomedical imaging datasets, suggesting judicious use of attention modules results in better performance and efficiency.
翻訳日:2021-11-02 14:31:54 公開日:2021-10-31
# ワンショット学習に基づくオープンソースのホットワード検出エンジンEfficientWord-Net

EfficientWord-Net: An Open Source Hotword Detection Engine based on One-shot Learning ( http://arxiv.org/abs/2111.00379v1 )

ライセンス: Link先を確認
Chidhambararajan R, Aman Rangaur, Sibi Chakkaravarthy Sethuraman(参考訳) Siri、Google Assistant、Alexaなどの音声アシスタントは、ホームオートメーションのために世界中で広く使われているが、これらは"Hey Alexa!"や"Ok Google!"、"Hey Siri!"といったアクションを実行するために、ホットワードとして知られる特別なフレーズを使用する必要がある。 これらのホットワードは、ユーザが発するホットワードを検出することを目的とした軽量リアルタイムエンジンによって検出される。 本稿では,ユーザが発するホットワードを1つまたは数個のトレーニングサンプルでリアルタイムに検出するワンショット学習に基づくホットワード検出エンジンの設計と実装について述べる。 既存のシステムに新しいホットワードを追加するプロセスは、膨大な量の正負のトレーニングサンプルを必要とし、モデルがすべてのホットワードを再トレーニングする必要があるため、このアプローチは既存の実装と比較して効率的である。 これにより、既存の実装は計算とコストの面で非効率になる。 本論文で提案するアーキテクチャの精度は94.51%である。

Voice assistants like Siri, Google Assistant, Alexa etc. are used widely across the globe for home automation, these require the use of special phrases also known as hotwords to wake it up and perform an action like "Hey Alexa!", "Ok Google!" and "Hey Siri!" etc. These hotwords are detected with lightweight real-time engines whose purpose is to detect the hotwords uttered by the user. This paper presents the design and implementation of a hotword detection engine based on one-shot learning which detects the hotword uttered by the user in real-time with just one or few training samples of the hotword. This approach is efficient when compared to existing implementations because the process of adding a new hotword in the existing systems requires enormous amounts of positive and negative training samples and the model needs to retrain for every hotword. This makes the existing implementations inefficient in terms of computation and cost. The architecture proposed in this paper has achieved an accuracy of 94.51%.
翻訳日:2021-11-02 14:31:11 公開日:2021-10-31
# 分散トレーニングにおけるラベルの探索と保護

Revealing and Protecting Labels in Distributed Training ( http://arxiv.org/abs/2111.00556v1 )

ライセンス: Link先を確認
Trung Dang, Om Thakkar, Swaroop Ramaswamy, Rajiv Mathews, Peter Chin, Fran\c{c}oise Beaufays(参考訳) 連合学習のような分散学習パラダイムは、しばしばネットワーク上のモデル更新や勾配の伝達を伴い、それによってプライベートデータの伝達を避ける。 しかし、これらの勾配からトレーニングデータに関するセンシティブな情報を明らかにすることが可能である。 先行研究は、ラベルが特定のモデルの最後の層(例えばResNet)から解析的に明らかにできること、あるいはモデルの現状に関する追加の知識をグラディエントマッチング(Zhu et al'19)を用いてモデル入力と共同で再構築できることを実証している。 本研究では,最終層の勾配とラベルマッピングへのidのみから,トレーニングサンプルのラベル集合を検出する手法を提案する。 本手法は複数のドメインにわたる多種多様なモデルアーキテクチャに適用できる。 本手法は,画像分類と自動音声認識の2つの領域におけるモデル学習の有効性を示す。 さらに,本手法と併用することにより,既存の再建手法の有効性が向上することを示す。 逆に,勾配量子化とスパーシフィケーションは攻撃の成功を著しく減少させることを実証する。

Distributed learning paradigms such as federated learning often involve transmission of model updates, or gradients, over a network, thereby avoiding transmission of private data. However, it is possible for sensitive information about the training data to be revealed from such gradients. Prior works have demonstrated that labels can be revealed analytically from the last layer of certain models (e.g., ResNet), or they can be reconstructed jointly with model inputs by using Gradients Matching [Zhu et al'19] with additional knowledge about the current state of the model. In this work, we propose a method to discover the set of labels of training samples from only the gradient of the last layer and the id to label mapping. Our method is applicable to a wide variety of model architectures across multiple domains. We demonstrate the effectiveness of our method for model training in two domains - image classification, and automatic speech recognition. Furthermore, we show that existing reconstruction techniques improve their efficacy when used in conjunction with our method. Conversely, we demonstrate that gradient quantization and sparsification can significantly reduce the success of the attack.
翻訳日:2021-11-02 14:30:56 公開日:2021-10-31
# サブワード言語単位を用いた音声領域における言語モデリング

Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units ( http://arxiv.org/abs/2111.00610v1 )

ライセンス: Link先を確認
Anurag Katakkar, Alan W Black(参考訳) テキストデータのための言語モデル (LM) は、言語生成やその他の下流タスクにおける有用性について広く研究されている。 しかし、音声領域における純粋に言語モデリングはいまだに未探索のトピックであり、従来の音声 LM は言語の分布面を学習するための補助テキスト LM に依存することが多い。 英語では、これらのLMは単語を原子単位として扱い、音声領域における言語モデリングに固有の課題をもたらす。 本稿では,音節や音素を含む言語単位をベースとして,CBOWモデルにインスパイアされた新しいLSTMに基づく生成音声LMを提案する。 これにより、単一のメルスペクトログラムフレームや単語全体とは対照的に、データセット内の発話間の音響的一貫性が向上する。 限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。 補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。 また,本実験では,これらのモデルの訓練対象である平均二乗誤り(Mean Squared Error,MSE)と,音声品質の真の目標とのミスマッチを含む,生成音声の訓練における,よく知られた課題と不十分な課題を強調した。 検証損失とメルケプストラム歪み(mel cepstral strain, mcd)は,生成音声品質と強く相関しないが,perplexity や next-token-predictio n accuracy といった従来のテキスト言語モデリング指標が有意である可能性が示唆された。

Language models (LMs) for text data have been studied extensively for their usefulness in language generation and other downstream tasks. However, language modelling purely in the speech domain is still a relatively unexplored topic, with traditional speech LMs often depending on auxiliary text LMs for learning distributional aspects of the language. For the English language, these LMs treat words as atomic units, which presents inherent challenges to language modelling in the speech domain. In this paper, we propose a novel LSTM-based generative speech LM that is inspired by the CBOW model and built on linguistic units including syllables and phonemes. This offers better acoustic consistency across utterances in the dataset, as opposed to single melspectrogram frames, or whole words. With a limited dataset, orders of magnitude smaller than that required by contemporary generative models, our model closely approximates babbling speech. We show the effect of training with auxiliary text LMs, multitask learning objectives, and auxiliary articulatory features. Through our experiments, we also highlight some well known, but poorly documented challenges in training generative speech LMs, including the mismatch between the supervised learning objective with which these models are trained such as Mean Squared Error (MSE), and the true objective, which is speech quality. Our experiments provide an early indication that while validation loss and Mel Cepstral Distortion (MCD) are not strongly correlated with generated speech quality, traditional text language modelling metrics like perplexity and next-token-predictio n accuracy might be.
翻訳日:2021-11-02 14:30:39 公開日:2021-10-31
# 拘束型MDPにおける政策最適化の高速グローバル収束

Fast Global Convergence of Policy Optimization for Constrained MDPs ( http://arxiv.org/abs/2111.00552v1 )

ライセンス: Link先を確認
Tao Liu, Ruida Zhou, Dileep Kalathil, P. R. Kumar, Chao Tian(参考訳) 我々は強化学習における安全性の問題に取り組む。 我々はこの問題を、無限水平制約付きマルコフ決定プロセスフレームワークで解決する。 既存の結果は、勾配に基づく手法は最適性ギャップと制約違反の両方で$\mathcal{o}(1/\sqrt{t})$大域収束率を達成できることを示した。 最適性ギャップと制約違反の両方に対して、より高速な収束率$\mathcal{O}(\log(T)/T)$の自然ポリシー勾配に基づくアルゴリズムを示す。 スレーターの条件が満たされ事前条件が知られているとき、同じ収束率を維持しながら十分大きなT$に対してゼロ制約違反がさらに保証される。

We address the issue of safety in reinforcement learning. We pose the problem in a discounted infinite-horizon constrained Markov decision process framework. Existing results have shown that gradient-based methods are able to achieve an $\mathcal{O}(1/\sqrt{T})$ global convergence rate both for the optimality gap and the constraint violation. We exhibit a natural policy gradient-based algorithm that has a faster convergence rate $\mathcal{O}(\log(T)/T)$ for both the optimality gap and the constraint violation. When Slater's condition is satisfied and known a priori, zero constraint violation can be further guaranteed for a sufficiently large $T$ while maintaining the same convergence rate.
翻訳日:2021-11-02 14:28:12 公開日:2021-10-31
# 厳密な凸損失下でのイソトニック回帰による校正アルゴリズム

Efficient, Anytime Algorithms for Calibration with Isotonic Regression under Strictly Convex Losses ( http://arxiv.org/abs/2111.00468v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 推定器出力の最適単調変換を用いて推定値の校正を行い,性能向上を図る。 まず,従来の二乗誤差設定を重み付き変種を用いて検討し,最適な単音変換が一意な階段関数の形式であることを示す。 さらに, この階段の挙動は, 一般の厳密な凸損失関数に対して保存されることを示した。 それらの最適モノトン変換もまた一意であり、最小損失を達成する単一の階段変換が存在する。 本稿では,特定の損失設定に対して最適な変換を求める線形時間空間アルゴリズムを提案する。 提案アルゴリズムは, これまでに観測されたサンプルの最適変換を線形空間で検出し, サンプルが順に到着する時刻を補正するオンライン実装である。 また、関数が個別に最適化する自明でない場合にも結果を拡張し、線形空間と擬線形時間複雑性を持つ任意のアルゴリズムを提案する。

We investigate the calibration of estimations to increase performance with an optimal monotone transform on the estimator outputs. We start by studying the traditional square error setting with its weighted variant and show that the optimal monotone transform is in the form of a unique staircase function. We further show that this staircase behavior is preserved for general strictly convex loss functions. Their optimal monotone transforms are also unique, i.e., there exist a single staircase transform that achieves the minimum loss. We propose a linear time and space algorithm that can find such optimal transforms for specific loss settings. Our algorithm has an online implementation where the optimal transform for the samples observed so far are found in linear space and amortized time when the samples arrive in an ordered fashion. We also extend our results to cases where the functions are not trivial to individually optimize and propose an anytime algorithm, which has linear space and pseudo-linearithmic time complexity.
翻訳日:2021-11-02 14:26:39 公開日:2021-10-31
# スマートフォン用セルフアテンション・モバイルネットを用いた画像傾き補正の簡易化

A Simple Approach to Image Tilt Correction with Self-Attention MobileNet for Smartphones ( http://arxiv.org/abs/2111.00398v1 )

ライセンス: Link先を確認
Siddhant Garg, Debi Prasanna Mohanty, Siva Prasad Thota, Sukumar Moharana(参考訳) 私たちの仕事の主な貢献は2倍です。 まず,SA-MobileNetと呼ばれるセルフアテンション・モビリティ・ネットワークを提案し,画像特徴間の長距離依存性を標準の畳み込みカーネルで処理する代わりにモデル化する。 sa-mobilenet は mobilenetv3 モデルの逆ボトルネックブロックと統合されたセルフアテンションモジュールを含み、画像特徴のチャネル毎の注意と空間的注意の両方をモデル化すると同時に、低リソースデバイス向けの新しいセルフアテンションアーキテクチャも導入する。 次に,画像傾き検出のための新しい訓練パイプラインを提案する。 本研究では,入力画像の傾きが1~2度の範囲の狭い範囲で複数角度の予測を行うマルチラベルシナリオにおいて,この問題を扱う。 このプロセスは、複数ラベル学習における2階法または高階法の計算オーバーヘッドを伴わないラベル間の暗黙の相関を誘導する。 新たなアプローチとアーキテクチャを組み合わせることで,MobileNetV3モデルと比較して,モバイルデバイス上での画像傾斜角を検出するための最先端の結果を提示する。 最後に、sa-mobilenetはsun397、nyu-v1、ade20kのデータセットのmobilenetv3よりも6.42%、10.51%、9.09%、snapdragon 750オクタコアの少なくとも4ミリ秒高速である。

The main contributions of our work are two-fold. First, we present a Self-Attention MobileNet, called SA-MobileNet Network that can model long-range dependencies between the image features instead of processing the local region as done by standard convolutional kernels. SA-MobileNet contains self-attention modules integrated with the inverted bottleneck blocks of the MobileNetV3 model which results in modeling of both channel-wise attention and spatial attention of the image features and at the same time introduce a novel self-attention architecture for low-resource devices. Secondly, we propose a novel training pipeline for the task of image tilt detection. We treat this problem in a multi-label scenario where we predict multiple angles for a tilted input image in a narrow interval of range 1-2 degrees, depending on the dataset used. This process induces an implicit correlation between labels without any computational overhead of the second or higher-order methods in multi-label learning. With the combination of our novel approach and the architecture, we present state-of-the-art results on detecting the image tilt angle on mobile devices as compared to the MobileNetV3 model. Finally, we establish that SA-MobileNet is more accurate than MobileNetV3 on SUN397, NYU-V1, and ADE20K datasets by 6.42%, 10.51%, and 9.09% points respectively, and faster by at least 4 milliseconds on Snapdragon 750 Octa-core.
翻訳日:2021-11-02 14:08:47 公開日:2021-10-31
# R-BERT-CNN : 医学文献からの薬物・標的相互作用の抽出

R-BERT-CNN: Drug-target interactions extraction from biomedical literature ( http://arxiv.org/abs/2111.00611v1 )

ライセンス: Link先を確認
Jehad Aldahdooh, Ziaurrehman Tanoli, Jing Tang(参考訳) 本稿では,BioCreative VII チャレンジの薬物プロット課題への取り組みについて紹介する。 薬物-標的相互作用(DTI)は、しばしば実験記事から手動で抽出される薬物の発見と再精製に重要である。 このような膨大な知識ベースからdtisを手作業で抽出するpubmedのバイオメディカル記事は32万以上ある。 この問題を解決するために,薬物とタンパク質の相互作用を10種類抽出することを目的としたトラック1のソリューションを提供する。 本研究では,最先端の言語モデルであるBioMed-RoBERTaと畳み込みニューラルネットワーク(CNN)を組み合わせたEnsemble Classifierモデルを適用し,これらの関係を抽出した。 BioCreative VII DrugProt test corpusでは,クラス不均衡にもかかわらず,マイクロF1スコアは55.67%(BioCreative VI ChemProt test corpusでは63%)で,他の提案よりも優れた性能を示した。 その結果,様々なDTIの抽出における深層学習の可能性が示唆された。

In this research, we present our work participation for the DrugProt task of BioCreative VII challenge. Drug-target interactions (DTIs) are critical for drug discovery and repurposing, which are often manually extracted from the experimental articles. There are >32M biomedical articles on PubMed and manually extracting DTIs from such a huge knowledge base is challenging. To solve this issue, we provide a solution for Track 1, which aims to extract 10 types of interactions between drug and protein entities. We applied an Ensemble Classifier model that combines BioMed-RoBERTa, a state of art language model, with Convolutional Neural Networks (CNN) to extract these relations. Despite the class imbalances in the BioCreative VII DrugProt test corpus, our model achieves a good performance compared to the average of other submissions in the challenge, with the micro F1 score of 55.67% (and 63% on BioCreative VI ChemProt test corpus). The results show the potential of deep learning in extracting various types of DTIs.
翻訳日:2021-11-02 14:04:20 公開日:2021-10-31
# 時間的モーメント局在に対する階層的残差推論

Hierarchical Deep Residual Reasoning for Temporal Moment Localization ( http://arxiv.org/abs/2111.00417v1 )

ライセンス: Link先を確認
Ziyang Ma, Xianjing Han, Xuemeng Song, Yiran Cui, Liqiang Nie(参考訳) 非トリミングビデオにおける時間的モーメントローカライゼーション(TML)はマルチメディア分野における課題であり、文クエリによって記述されたビデオのアクティビティの開始点と終了点をローカライズすることを目的としている。 既存の手法では,映像表現と文表現の相関関係の抽出や,その融合方法の検討が主である。 これらの著作は主に映像と文を粗末に理解し、文章が様々な意味論から理解できるという事実を無視し、意味論におけるモーメントの定位に影響する支配的な単語は行動と対象参照である。 この目的のために,ビデオと文を異なる意味を持つマルチレベル表現に分解し,よりきめ細かい局所化を実現する階層的深層残響推論(HDRR)モデルを提案する。 さらに,異なる解像度の映像と異なる長さの文章が理解の困難さを考慮し,機能融合のための単純かつ効果的なres-bigrusを設計し,その有用な情報を自己適応的に把握する。 Charades-STAおよびActivityNet-Captions データセットで実施された大規模な実験は、他の最先端手法と比較してHDRRモデルの優位性を示している。

Temporal Moment Localization (TML) in untrimmed videos is a challenging task in the field of multimedia, which aims at localizing the start and end points of the activity in the video, described by a sentence query. Existing methods mainly focus on mining the correlation between video and sentence representations or investigating the fusion manner of the two modalities. These works mainly understand the video and sentence coarsely, ignoring the fact that a sentence can be understood from various semantics, and the dominant words affecting the moment localization in the semantics are the action and object reference. Toward this end, we propose a Hierarchical Deep Residual Reasoning (HDRR) model, which decomposes the video and sentence into multi-level representations with different semantics to achieve a finer-grained localization. Furthermore, considering that videos with different resolution and sentences with different length have different difficulty in understanding, we design the simple yet effective Res-BiGRUs for feature fusion, which is able to grasp the useful information in a self-adapting manner. Extensive experiments conducted on Charades-STA and ActivityNet-Captions datasets demonstrate the superiority of our HDRR model compared with other state-of-the-art methods.
翻訳日:2021-11-02 13:58:54 公開日:2021-10-31
# テンプレートフィリングによるクロスドメイン推論

Cross-Domain Reasoning via Template Filling ( http://arxiv.org/abs/2111.00539v1 )

ライセンス: Link先を確認
Dheeraj Rajagopal, Vivek Khetan, Bogdan Sacaleanu, Anatole Gershman, Andrew Fano, Eduard Hovy(参考訳) 本稿では,シーケンスモデルがクロスドメイン推論を行う能力について検討する。 そこで本研究では,シーケンシャル・ツー・シーケンシャル・モデルによるクロスドメイン推論を実現するためのプロンプト・テンプレート・フィルング・アプローチを提案する。 また,コモンセンスと健康および幸福なドメインに関するケーススタディを提示し,プロンプト・テンプレート・フィルが事前学習されたシーケンスをドメイン間のシーケンスモデルにどのように適用するかについて検討する。 事前学習したエンコーダ・デコーダモデルによる実験により,現在のモデルではクロスドメイン推論が難しいことが示された。 ドメイン間推論のための詳細な誤り解析と今後の研究への道筋を示す。

In this paper, we explore the ability of sequence to sequence models to perform cross-domain reasoning. Towards this, we present a prompt-template-fill ing approach to enable sequence to sequence models to perform cross-domain reasoning. We also present a case-study with commonsense and health and well-being domains, where we study how prompt-template-fill ing enables pretrained sequence to sequence models across domains. Our experiments across several pretrained encoder-decoder models show that cross-domain reasoning is challenging for current models. We also show an in-depth error analysis and avenues for future research for reasoning across domains
翻訳日:2021-11-02 13:22:36 公開日:2021-10-31
# ソーシャルチャットボットにおける推論駆動対話管理へのアプローチ

An Approach to Inference-Driven Dialogue Management within a Social Chatbot ( http://arxiv.org/abs/2111.00570v1 )

ライセンス: Link先を確認
Sarah E. Finch, James D. Finch, Daniil Huryn, William Hutsell, Xiaoyuan Huang, Han He, Jinho D. Choi(参考訳) 本稿では,論理推論に基づく対話管理手法を実装したチャットボットを提案する。 会話を一連の応答生成タスクにフレーミングする代わりに、話者が情報を共有して新しい知識をリアルタイムで合成する協調的推論プロセスとして会話をモデル化する。 当社のチャットボットパイプラインは、このモデリングを3つの幅広いステージで実現します。 第1段階は、ユーザの発話を象徴的述語表現に変換する。 次に、この構造化表現をより大きな知識ベースと組み合わせて、効率的なグラフマッチングを用いて新しい述語を合成する。 第3段階と最終段階において、我々のボットは述語の小さなサブセットを選択し、それらを英語の応答に変換する。 このアプローチは、ユーザ入力の潜在的なセマンティクス、柔軟なイニシアティブの取り込み、対話コンテキストに新しく一貫性のある応答を理解するのに役立ちます。

We present a chatbot implementing a novel dialogue management approach based on logical inference. Instead of framing conversation a sequence of response generation tasks, we model conversation as a collaborative inference process in which speakers share information to synthesize new knowledge in real time. Our chatbot pipeline accomplishes this modelling in three broad stages. The first stage translates user utterances into a symbolic predicate representation. The second stage then uses this structured representation in conjunction with a larger knowledge base to synthesize new predicates using efficient graph matching. In the third and final stage, our bot selects a small subset of predicates and translates them into an English response. This approach lends itself to understanding latent semantics of user inputs, flexible initiative taking, and responses that are novel and coherent with the dialogue context.
翻訳日:2021-11-02 13:22:25 公開日:2021-10-31
# どうしたの? 発話レベルによる全体的な対話品質の説明

What Went Wrong? Explaining Overall Dialogue Quality through Utterance-Level Impacts ( http://arxiv.org/abs/2111.00572v1 )

ライセンス: Link先を確認
James D. Finch, Sarah E. Finch, Jinho D. Choi(参考訳) 対話システムのユーザエクスペリエンスの向上には、会話ログの読み込み、統計分析の実行、システム欠陥の相対的重要性の監視など、開発者の集中的な作業が必要になることが多い。 本稿では,ユーザ・システム間相互作用と対話品質の関係を学習する会話ログの自動解析手法を提案する。 発話レベルの品質予測に関する先行研究とは異なり,提案手法は発話レベルのアノテーションを使わずに,ユーザ評価全体から各インタラクションの影響を学習し,経験的証拠と低コストで結果モデルの結論を導出する。 本モデルは,チャットボット設定における対話品質と強い相関関係を持つインタラクションを同定する。 実験の結果, モデルによる自動分析は, 専門家の判断と一致し, 発話レベルの品質予測の弱教師付き学習が, 極めて達成可能であることを示す最初の方法となった。

Improving user experience of a dialogue system often requires intensive developer effort to read conversation logs, run statistical analyses, and intuit the relative importance of system shortcomings. This paper presents a novel approach to automated analysis of conversation logs that learns the relationship between user-system interactions and overall dialogue quality. Unlike prior work on utterance-level quality prediction, our approach learns the impact of each interaction from the overall user rating without utterance-level annotation, allowing resultant model conclusions to be derived on the basis of empirical evidence and at low cost. Our model identifies interactions that have a strong correlation with the overall dialogue quality in a chatbot setting. Experiments show that the automated analysis from our model agrees with expert judgments, making this work the first to show that such weakly-supervised learning of utterance-level quality prediction is highly achievable.
翻訳日:2021-11-02 13:22:10 公開日:2021-10-31
# 選択的分類による取引

Trading via Selective Classification ( http://arxiv.org/abs/2110.14914v2 )

ライセンス: Link先を確認
Nestoras Chalkidis, Rahul Savani(参考訳) 資産の価格が上昇または低下するかどうかを予測しようとする二分分類器は、その予測に従う取引戦略を自然に生じ、したがって常に市場での地位を持つ。 選択的分類は、バイナリまたは多クラス分類器を拡張して、特定の入力に対する予測を行わないようにし、その結果の選択的分類器の精度と入力特徴空間の範囲とのトレードオフを可能にする。 選択型分類器は、その分類器が停止したときの取引位置を取らない取引戦略を引き起こす。 取引戦略設計における二元および三元選択分類の適用について検討する。 三次分類では、価格の上昇または下降のクラスに加えて、どちらの方向にも比較的小さな価格移動に対応する三次クラスを含み、分類器に方向予測を避ける別の方法を与える。 我々は、ロジスティック回帰、ランダム森林、フィードフォワード、リカレントニューラルネットワークの4つの分類アプローチに基づいて、二進法、三進法、選択法、選択法、非選択型分類器の評価と比較を行う。 次に、これらの分類器を商品先物市場でバックテストを行う取引戦略に変換する。 実験の結果,取引の選択的分類の可能性が示された。

A binary classifier that tries to predict if the price of an asset will increase or decrease naturally gives rise to a trading strategy that follows the prediction and thus always has a position in the market. Selective classification extends a binary or many-class classifier to allow it to abstain from making a prediction for certain inputs, thereby allowing a trade-off between the accuracy of the resulting selective classifier against coverage of the input feature space. Selective classifiers give rise to trading strategies that do not take a trading position when the classifier abstains. We investigate the application of binary and ternary selective classification to trading strategy design. For ternary classification, in addition to classes for the price going up or down, we include a third class that corresponds to relatively small price moves in either direction, and gives the classifier another way to avoid making a directional prediction. We use a walk-forward train-validate-test approach to evaluate and compare binary and ternary, selective and non-selective classifiers across several different feature sets based on four classification approaches: logistic regression, random forests, feed-forward, and recurrent neural networks. We then turn these classifiers into trading strategies for which we perform backtests on commodity futures markets. Our empirical results demonstrate the potential of selective classification for trading.
翻訳日:2021-11-02 11:20:03 公開日:2021-10-31