このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211109となっている論文です。

PDF登録状況(公開日: 20211109)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 未来の教師のためのデジタル学習のデリバリを促進するAIベースのソリューション [全文訳有]

An AI-based Solution for Enhancing Delivery of Digital Learning for Future Teachers ( http://arxiv.org/abs/2112.01229v1 )

ライセンス: CC BY 4.0
Yong-Bin Kang, Abdur Rahim Mohammad Forkan, Prem Prakash Jayaraman, Natalie Wieland, Elizabeth Kolliasl, Hung Du, Steven Thomson, Yuan-Fang Li(参考訳) パンデミックによって急速にデジタル学習がシフトしてきたが、デジタルツールやプラットフォームがユビキタスに利用可能になったことで、デジタル学習はよりアクセスしやすくなっている。 デジタル学習と教育のスケールにおいて不可欠かつ最も難しい部分の1つは、学習者の知識と能力を評価することである。 教育者は講義を録音したり、何千人もの学習者に届けることができるデジタルコンテンツを作成できるが、学習者の評価は非常に時間がかかる。 本稿では,事前に記録されたビデオ講義から質問を自動的に生成する人工知能(AI)ベースのソリューションVidVersityQGを提案する。 このソリューションは、ビデオから推測された文脈的および意味的情報に基づいて、さまざまな種類の評価質問(短い回答、複数の選択、真/偽、空白の質問を記入する)を自動的に生成することができる。 提案されたソリューションは、AI生成された質問を修正/編集する機能を提供する、人間中心のアプローチを採用している。 このアプローチは、教育におけるAIの使用と実践における教師の信頼と関与を促進する。 このaiベースのソリューションは、7人の経験豊富な教師と複数のドメインの117の教育ビデオによって質問を生成できるという正確さで評価されました。 VidVersityQGソリューションはビデオから高品質な質問を自動生成する有望な結果を示し、手動質問生成における教育者の時間と労力を大幅に削減した。

There has been a recent and rapid shift to digital learning hastened by the pandemic but also influenced by ubiquitous availability of digital tools and platforms now, making digital learning ever more accessible. An integral and one of the most difficult part of scaling digital learning and teaching is to be able to assess learner's knowledge and competency. An educator can record a lecture or create digital content that can be delivered to thousands of learners but assessing learners is extremely time consuming. In the paper, we propose an Artificial Intelligence (AI)-based solution namely VidVersityQG for generating questions automatically from pre-recorded video lectures. The solution can automatically generate different types of assessment questions (including short answer, multiple choice, true/false and fill in the blank questions) based on contextual and semantic information inferred from the videos. The proposed solution takes a human-centred approach, wherein teachers are provided the ability to modify/edit any AI generated questions. This approach encourages trust and engagement of teachers in the use and implementation of AI in education. The AI-based solution was evaluated for its accuracy in generating questions by 7 experienced teaching professionals and 117 education videos from multiple domains provided to us by our industry partner VidVersity. VidVersityQG solution showed promising results in generating high-quality questions automatically from video thereby significantly reducing the time and effort for educators in manual question generation.
翻訳日:2021-12-06 04:42:58 公開日:2021-11-09
# (参考訳) 構造的特徴と非構造的臨床ノートを用いた敗血症患者の致死率の早期予測 [全文訳有]

Early Prediction of Mortality in Critical Care Setting in Sepsis Patients Using Structured Features and Unstructured Clinical Notes ( http://arxiv.org/abs/2112.01230v1 )

ライセンス: CC BY 4.0
Jiyoung Shin, Yikuan Li, Yuan Luo(参考訳) 敗血症は、特に集中治療室(icu)患者において、死亡の重要な原因である。 敗血症患者の生存率を改善するには早期死亡を識別する新しい方法の開発が不可欠である。 MIMIC-IIIデータベースを用いて,人口統計,生理計測,臨床ノートを統合した。 敗血症患者の病院死亡リスクと30日間死亡リスクを予測するために,いくつかの機械学習モデルを構築し,応用した。 臨床ノートから臨床的に意味のある単語表現と埋め込みを生成した。 教師付き学習分類器とディープラーニングアーキテクチャを用いて予測モデルを構築した。 構造的特徴と非構造的特徴の両方を用いた構成は, 0.512。 以上の結果から,ICU導入後の敗血症患者の死亡リスクを診断するために,構造的特徴と非構造的特徴を統合したアプローチが有効であることが示唆された。

Sepsis is an important cause of mortality, especially in intensive care unit (ICU) patients. Developing novel methods to identify early mortality is critical for improving survival outcomes in sepsis patients. Using the MIMIC-III database, we integrated demographic data, physiological measurements and clinical notes. We built and applied several machine learning models to predict the risk of hospital mortality and 30-day mortality in sepsis patients. From the clinical notes, we generated clinically meaningful word representations and embeddings. Supervised learning classifiers and a deep learning architecture were used to construct prediction models. The configurations that utilized both structured and unstructured clinical features yielded competitive F-measure of 0.512. Our results showed that the approaches integrating both structured and unstructured clinical features can be effectively applied to assist clinicians in identifying the risk of mortality in sepsis patients upon admission to the ICU.
翻訳日:2021-12-06 04:26:15 公開日:2021-11-09
# (参考訳) ディープパーソナライズアテンションニューラルネットワークによる次世代予測の改善 [全文訳有]

Improving Next-Application Prediction with Deep Personalized-Attenti on Neural Network ( http://arxiv.org/abs/2111.11296v1 )

ライセンス: CC BY 4.0
Jun Zhu, Gautier Viaud, C\'eline Hudelot(参考訳) 近年,E-Recruitment プラットフォームの普及と優位性により,求人推薦システムの研究が盛んに行われている。 本稿では,多くの実践的応用がある次のジョブアプリケーション問題に取り組む。 特に、求職者のキャリア選好を改善するために、次項目の推薦アプローチを活用し、適用可能な次の関連する求人(略してジョブを参照)を発見することを提案する。 提案手法はPersonalized-Attenti on Next-Application Prediction (PANAP) と呼ばれる3つのモジュールから構成される。 最初のモジュールは、テキストコンテンツとメタデータ属性から、教師なしの方法でジョブ表現を学習する。 第2のモジュールは、ジョブシークター表現を学習する。 これには、学習したキャリア選好表現における各ジョブの重要性を、特定の求職者のプロファイルに適応させるパーソナライズ・アテンション機構が含まれる。 注意機構は学習した表現にいくつかの解釈可能性をもたらす。 次に、3番目のモジュールは、表現の類似性に基づいて、Next-Application PredictionタスクをトップK検索プロセスとしてモデル化する。 また,採用領域における求職者の嗜好に影響を与える重要な要因として地理的位置があげられる。 そこで我々は, 負のサンプリング戦略の観点から, 地理的位置がモデル性能に与える影響を考察した。 CareerBuilder12データセットの公開実験は、私たちのアプローチに対する関心を示しています。

Recently, due to the ubiquity and supremacy of E-recruitment platforms, job recommender systems have been largely studied. In this paper, we tackle the next job application problem, which has many practical applications. In particular, we propose to leverage next-item recommendation approaches to consider better the job seeker's career preference to discover the next relevant job postings (referred to jobs for short) they might apply for. Our proposed model, named Personalized-Attenti on Next-Application Prediction (PANAP), is composed of three modules. The first module learns job representations from textual content and metadata attributes in an unsupervised way. The second module learns job seeker representations. It includes a personalized-attenti on mechanism that can adapt the importance of each job in the learned career preference representation to the specific job seeker's profile. The attention mechanism also brings some interpretability to learned representations. Then, the third module models the Next-Application Prediction task as a top-K search process based on the similarity of representations. In addition, the geographic location is an essential factor that affects the preferences of job seekers in the recruitment domain. Therefore, we explore the influence of geographic location on the model performance from the perspective of negative sampling strategies. Experiments on the public CareerBuilder12 dataset show the interest in our approach.
翻訳日:2021-11-28 20:04:58 公開日:2021-11-09
# (参考訳) 補足的アンサンブル学習 [全文訳有]

Complementary Ensemble Learning ( http://arxiv.org/abs/2111.08449v1 )

ライセンス: CC BY 4.0
Hung Nguyen and Morris Chang(参考訳) 機械学習(ml)タスクの高性能を実現するためには、ディープラーニングベースのモデルは、データから分布全体を暗黙的に捉えなければならない。 したがって、大量のトレーニングサンプルが必要であり、データは実際の分布、特に画像やビデオのような高次元データを完全に提示することが期待されている。 しかし実際には、データは通常様々なスタイルで収集され、中には代表者が不足しているものもある。 これはモデルの予測の不確実性を招き、MLタスクのパフォーマンスを著しく低下させる可能性がある。 本稿では,モデルの不確実性に着目し,この問題を包括的に研究する。 そこで我々は,最先端のディープラーニングモデルの性能を向上させるための,シンプルだが効率的な手法を考案した。 具体的には,最先端モデルの不確かさを補完する補助モデルを訓練する。 その結果、これらのモデルを組み立てることで、前述のデータタイプのmlタスク性能を大幅に向上することができる。 ベンチマークデータセットのML分類精度をわずかに改善する(例:MNISTの0.2%)が、提案手法は制限データ(例:Eardrumの1.3%、ChestXrayの3.5%)を大幅に改善する。

To achieve high performance of a machine learning (ML) task, a deep learning-based model must implicitly capture the entire distribution from data. Thus, it requires a huge amount of training samples, and data are expected to fully present the real distribution, especially for high dimensional data, e.g., images, videos. In practice, however, data are usually collected with a diversity of styles, and several of them have insufficient number of representatives. This might lead to uncertainty in models' prediction, and significantly reduce ML task performance. In this paper, we provide a comprehensive study on this problem by looking at model uncertainty. From this, we derive a simple but efficient technique to improve performance of state-of-the-art deep learning models. Specifically, we train auxiliary models which are able to complement state-of-the-art model uncertainty. As a result, by assembling these models, we can significantly improve the ML task performance for types of data mentioned earlier. While slightly improving ML classification accuracy on benchmark datasets (e.g., 0.2% on MNIST), our proposed method significantly improves on limited data (i.e., 1.3% on Eardrum and 3.5% on ChestXray).
翻訳日:2021-11-21 15:58:58 公開日:2021-11-09
# 材料データマイニングのための顕微鏡画像解析におけるデータプライバシ保護

Data privacy protection in microscopic image analysis for material data mining ( http://arxiv.org/abs/2111.07892v1 )

ライセンス: Link先を確認
Boyuan Ma and Xiang Yin and Xiaojuan Ban and Haiyou Huang and Neng Zhang and Hao Wang and Weihua Xue(参考訳) 材料データマイニングの最近の進歩は、大規模データセットで訓練された高容量モデルによって推進されている。 しかし、人間の努力と専門知識の量のために、実験データを集めるのは非常にコストがかかる。 そのため、材料研究者は、容易に個人データを開示することを避け、データアイランドの問題を引き起こし、高品質なモデルを訓練するために大量のデータを集めることは困難である。 本研究では,データプライバシ保護に基づく材料微細構造画像特徴抽出アルゴリズムであるFedTransferを提案する。 主な貢献は次のとおりである。 1) 多結晶微細構造画像分割タスクにフェデレート学習アルゴリズムを導入し、異なるユーザデータをフル活用して機械学習を行い、データの島を破り、ユーザデータのプライバシーとセキュリティを確保する条件下でモデル一般化能力を向上させる。 2)スタイル転送に基づくデータ共有戦略を提案する。 ユーザの機密性に緊急でない画像のスタイル情報を共有することにより、異なるユーザのデータ分散の違いによるパフォーマンスペナルティを低減することができる。

Recent progress in material data mining has been driven by high-capacity models trained on large datasets. However, collecting experimental data has been extremely costly owing to the amount of human effort and expertise required. Therefore, material researchers are often reluctant to easily disclose their private data, which leads to the problem of data island, and it is difficult to collect a large amount of data to train high-quality models. In this study, a material microstructure image feature extraction algorithm FedTransfer based on data privacy protection is proposed. The core contributions are as follows: 1) the federated learning algorithm is introduced into the polycrystalline microstructure image segmentation task to make full use of different user data to carry out machine learning, break the data island and improve the model generalization ability under the condition of ensuring the privacy and security of user data; 2) A data sharing strategy based on style transfer is proposed. By sharing style information of images that is not urgent for user confidentiality, it can reduce the performance penalty caused by the distribution difference of data among different users.
翻訳日:2021-11-21 14:56:47 公開日:2021-11-09
# 超音波スキャンの人間の実演から学ぶ

Learning Ultrasound Scanning Skills from Human Demonstrations ( http://arxiv.org/abs/2111.09739v1 )

ライセンス: Link先を確認
Xutian Deng, Ziwei Lei, Yi Wang and Miao Li(参考訳) 近年,医療用超音波が普及し,ロボット超音波が話題になってきた。 しかし、超音波医師から超音波スキルをモデル化し、伝達することは依然として難しい課題である。 本稿では,人間の実演から超音波スキャン技術を取得するための学習フレームワークを提案する。 まず,超音波画像,プローブポーズ,接触力の相互作用の観点から,超音波スキャン技術は高次元マルチモーダルモデルにカプセル化される。 モデルのパラメータは、熟練したソノグラフィーのデモンストレーションから収集したデータを用いて学習される。 第2に,新生ソノグラフィーやロボットアームを誘導する体外超音波スキャンプロセスを調整するための,学習モデルを用いたサンプリングベースの戦略を提案する。 最後に,提案フレームワークのロバスト性は,ソノグラフによる実データ実験によって検証される。

Recently, the robotic ultrasound system has become an emerging topic owing to the widespread use of medical ultrasound. However, it is still a challenging task to model and to transfer the ultrasound skill from an ultrasound physician. In this paper, we propose a learning-based framework to acquire ultrasound scanning skills from human demonstrations. First, the ultrasound scanning skills are encapsulated into a high-dimensional multi-modal model in terms of interactions among ultrasound images, the probe pose and the contact force. The parameters of the model are learned using the data collected from skilled sonographers' demonstrations. Second, a sampling-based strategy is proposed with the learned model to adjust the extracorporeal ultrasound scanning process to guide a newbie sonographer or a robot arm. Finally, the robustness of the proposed framework is validated with the experiments on real data from sonographers.
翻訳日:2021-11-21 14:55:33 公開日:2021-11-09
# (参考訳) Metagenome2Vec: スケーラブルメタゲノム解析のためのコンテキスト表現の構築 [全文訳有]

Metagenome2Vec: Building Contextualized Representations for Scalable Metagenome Analysis ( http://arxiv.org/abs/2111.08001v1 )

ライセンス: CC BY 4.0
Sathyanarayanan N. Aakur, Vineela Indla, Vennela Indla, Sai Narayanan, Arunkumar Bagavathi, Vishalini Laguduva Ramnath, Akhilesh Ramachandran(参考訳) 次世代メタゲノムシークエンシングの進歩は、新しい病原体感染症のポイント・オブ・ケアの診断に革命をもたらす可能性がある。 メタゲノム配列の量が多いことから,臨床試料からメタゲノム配列を解析・分別するためのスケーラブルなフレームワークが必要である。 なぜなら、家族内の病原体は、非常に類似したゲノム構造(90%以上)を持つことができ、制限されたラベル付きデータを持つ新しい病原体配列のセグメンテーションと同定を可能にするためである。 本稿では,メタゲノームデータと局所的なコンテクスト化特性を自己教師付き表現学習によって捉える,文脈化表現であるmetagenome2vecを提案する。 その結果,100以上のラベル配列を有する臨床検体から6 (6) 関連病原体の検出に有用であることが判明した。 シミュレーションおよび臨床メタジェノムデータに関する広範囲な実験により、提案された表現は、新規病原体を非監督的な環境でセグメント化するためのアノテーションを超えて一般化可能な構成特性をコードすることを示した。

Advances in next-generation metagenome sequencing have the potential to revolutionize the point-of-care diagnosis of novel pathogen infections, which could help prevent potential widespread transmission of diseases. Given the high volume of metagenome sequences, there is a need for scalable frameworks to analyze and segment metagenome sequences from clinical samples, which can be highly imbalanced. There is an increased need for learning robust representations from metagenome reads since pathogens within a family can have highly similar genome structures (some more than 90%) and hence enable the segmentation and identification of novel pathogen sequences with limited labeled data. In this work, we propose Metagenome2Vec - a contextualized representation that captures the global structural properties inherent in metagenome data and local contextualized properties through self-supervised representation learning. We show that the learned representations can help detect six (6) related pathogens from clinical samples with less than 100 labeled sequences. Extensive experiments on simulated and clinical metagenome data show that the proposed representation encodes compositional properties that can generalize beyond annotations to segment novel pathogens in an unsupervised setting.
翻訳日:2021-11-21 14:49:38 公開日:2021-11-09
# FILIP: きめ細かい対話型言語イメージの事前訓練

FILIP: Fine-grained Interactive Language-Image Pre-Training ( http://arxiv.org/abs/2111.07783v1 )

ライセンス: Link先を確認
Lewei Yao, Runhui Huang, Lu Hou, Guansong Lu, Minzhe Niu, Hang Xu, Xiaodan Liang, Zhenguo Li, Xin Jiang, Chunjing Xu(参考訳) 教師なしの大規模視覚言語事前学習は、様々な下流タスクに有望な進歩を見せている。 既存の方法は、十分な情報を見落としている各モダリティのグローバルな特徴の類似性や、視覚的およびテキスト的トークンに対するクロス/セルフアテンションを用いたよりきめ細かい相互作用をモデル化する。 しかし、クロス・セルフ・アテンションはトレーニングと推論の両方において効率が劣る。 本稿では,視覚トークンとテキストトークン間のトークン毎の最大類似性を用いてコントラスト目標を導出するクロスモーダル・レイト・インタラクション機構により,より詳細なアライメントを実現するための,大規模細粒度対話型言語画像事前学習(filip)を提案する。 FILIPは、画像パッチとテキストワード間のよりきめ細かい表現性を、コントラスト損失のみを修正し、同時に、推論時にオフラインで画像とテキスト表現をプリコンプリートし、大規模なトレーニングと推論の両方を効率よく行うことができる。 さらに,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。 実験によると、filipはゼロショット画像分類や画像テキスト検索を含む複数の下流視覚言語タスクで最先端のパフォーマンスを達成している。 ワードパッチアライメントの可視化は、filipが有望なローカライゼーション機能で有意義な細かな特徴を学習できることをさらに示している。

Unsupervised large-scale vision-language pre-training has shown promising advances on various downstream tasks. Existing methods often model the cross-modal interaction either via the similarity of the global feature of each modality which misses sufficient information, or finer-grained interactions using cross/self-attention upon visual and textual tokens. However, cross/self-attention suffers from inferior efficiency in both training and inference. In this paper, we introduce a large-scale Fine-grained Interactive Language-Image Pre-training (FILIP) to achieve finer-level alignment through a cross-modal late interaction mechanism, which uses a token-wise maximum similarity between visual and textual tokens to guide the contrastive objective. FILIP successfully leverages the finer-grained expressiveness between image patches and textual words by modifying only contrastive loss, while simultaneously gaining the ability to pre-compute image and text representations offline at inference, keeping both large-scale training and inference efficient. Furthermore, we construct a new large-scale image-text pair dataset called FILIP300M for pre-training. Experiments show that FILIP achieves state-of-the-art performance on multiple downstream vision-language tasks including zero-shot image classification and image-text retrieval. The visualization on word-patch alignment further shows that FILIP can learn meaningful fine-grained features with promising localization ability.
翻訳日:2021-11-21 14:30:15 公開日:2021-11-09
# 最小化器と畳み込みフィルタについて:カテゴリー解析におけるcnnの不当な有効性に対する部分的正当化

On minimizers and convolutional filters: a partial justification for the unreasonable effectiveness of CNNs in categorical sequence analysis ( http://arxiv.org/abs/2111.08452v1 )

ライセンス: Link先を確認
Yun William Yu(参考訳) 最小化と畳み込みニューラルネットワーク(cnns)は、2つの非常に異なる手法であり、どちらも生物学的シーケンスの解析に使われている。 対面値では、メソッドは完全に異なるように思える。 最小化器はローリングウィンドウにミニワイズハッシュを使用して、ウィンドウ毎に単一の重要なk-mer機能を抽出する。 CNNは、ランダムに初期化された畳み込みフィルタの幅広い配列から始まり、プール操作と組み合わせて、さらに複数のニューラルネットワーク層を追加して、フィルタ自体と、それらのフィルタを使ってシーケンスを分類する方法を学ぶ。 この原稿では、最小化器と畳み込みフィルタの間には、理論的に深い関係があることを数学的に分析して示します -- つまり、カテゴリアルファベット上の列に対して、最大プール付き畳み込みフィルタのランダムガウス初期化は、より異なるk-merに偏ったランダムハッシュ関数から最小値を選択することに等価です。 これは、分類配列解析におけるCNNの理不尽な有効性に関する部分的な説明を提供する。

Minimizers and convolutional neural networks (CNNs) are two quite distinct popular techniques that have both been employed to analyze biological sequences. At face value, the methods seem entirely dissimilar. Minimizers use min-wise hashing on a rolling window to extract a single important k-mer feature per window. CNNs start with a wide array of randomly initialized convolutional filters, paired with a pooling operation, and then multiple additional neural layers to learn both the filters themselves and how those filters can be used to classify the sequence. In this manuscript, I demonstrate through a careful mathematical analysis of hash function properties that there are deep theoretical connections between minimizers and convolutional filters -- in short, for sequences over a categorical alphabet, random Gaussian initialization of convolutional filters with max-pooling is equivalent to choosing minimizers from a random hash function biased towards more distinct k-mers. This provides a partial explanation for the unreasonable effectiveness of CNNs in categorical sequence analysis.
翻訳日:2021-11-21 14:29:27 公開日:2021-11-09
# rapidread:大規模獣医のための最先端放射線学aiのグローバル展開

RapidRead: Global Deployment of State-of-the-art Radiology AI for a Large Veterinary Teleradiology Practice ( http://arxiv.org/abs/2111.08165v1 )

ライセンス: Link先を確認
Michael Fitzke, Conrad Stack, Andre Dourson, Rodrigo M. B. Santana, Diane Wilson, Lisa Ziemer, Arjun Soin, Matthew P. Lungren, Paul Fisher, Mark Parkinson(参考訳) この研究は、広範囲の発見と異常からイヌとネコの無線画像を評価するディープラーニングベースのAIシステムの開発と実際の展開について説明する。 我々は,nlp由来のラベルと,250万以上のx線画像を用いた自己教師付きトレーニングを組み合わせた,新しい半教師付き学習手法について述べる。 最後に,システムアーキテクチャ,リアルタイム性能評価,データドリフト検出を含むモデルの臨床展開について述べる。

This work describes the development and real-world deployment of a deep learning-based AI system for evaluating canine and feline radiographs across a broad range of findings and abnormalities. We describe a new semi-supervised learning approach that combines NLP-derived labels with self-supervised training leveraging more than 2.5 million x-ray images. Finally we describe the clinical deployment of the model including system architecture, real-time performance evaluation and data drift detection.
翻訳日:2021-11-21 14:28:42 公開日:2021-11-09
# (参考訳) 自然災害後の建築環境の変化係数の作成 [全文訳有]

Creating A Coefficient of Change in the Built Environment After a Natural Disaster ( http://arxiv.org/abs/2111.04462v2 )

ライセンス: CC BY 4.0
Karla Saldana Ochoa(参考訳) 本研究では,深層学習ワークフローを用いて組込み環境の損傷を定量化する新しい手法を提案する。 自動クローラーのおかげで、世界中の50の震源の自然災害前後の航空画像がGoogle Earthから取得され、1ピクセルあたり2mの空間解像度を持つ1万の航空画像データベースが生成される。 本研究は,Seg-Netアルゴリズムを用いて,衛星画像から構築した環境のセマンティックセマンティックセグメンテーションを行う。 イメージセグメンテーションでは、Seg-Netは最も人気があり一般的なCNNアーキテクチャの一つである。 Seg-Netアルゴリズムは、セグメンテーションで92%の精度に達した。 分節化後,両症例間の差を変化率として比較した。 このような変化係数は、都市環境の被害を数値的に表し、建築環境全体の被害を定量化する必要があった。 このような指標は、政府が影響を受けた世帯の数と、おそらく住宅被害の程度を見積もることができる。

This study proposes a novel method to assess damages in the built environment using a deep learning workflow to quantify it. Thanks to an automated crawler, aerial images from before and after a natural disaster of 50 epicenters worldwide were obtained from Google Earth, generating a 10,000 aerial image database with a spatial resolution of 2 m per pixel. The study utilizes the algorithm Seg-Net to perform semantic segmentation of the built environment from the satellite images in both instances (prior and post-natural disasters). For image segmentation, Seg-Net is one of the most popular and general CNN architectures. The Seg-Net algorithm used reached an accuracy of 92% in the segmentation. After the segmentation, we compared the disparity between both cases represented as a percentage of change. Such coefficient of change represents the damage numerically an urban environment had to quantify the overall damage in the built environment. Such an index can give the government an estimate of the number of affected households and perhaps the extent of housing damage.
翻訳日:2021-11-14 15:54:28 公開日:2021-11-09
# (参考訳) HARPO:オンライン行動広告を転載する学習 [全文訳有]

HARPO: Learning to Subvert Online Behavioral Advertising ( http://arxiv.org/abs/2111.05792v1 )

ライセンス: CC BY 4.0
Jiang Zhang, Konstantinos Psounis, Muhammad Haroon, Zubair Shafiq(参考訳) オンライン行動広告と関連する追跡パラファーナリアは、真のプライバシーの脅威となる。 残念ながら、既存のプライバシー強化ツールは、オンライン広告やトラッキングに対して必ずしも効果的ではない。 本稿では,難読化によるオンライン行動広告を覆い隠すための,原則的学習に基づくアプローチであるHarpoを提案する。 Harpoは強化学習を使用して、実際のページ訪問を偽ページで適応的にインターリーブし、ユーザのブラウジングプロファイルのトラッカーのビューを歪ませる。 オンライン行動広告における実世界のユーザプロファイリングおよび広告ターゲティングモデルに対するharpoの評価を行う。 結果は、Harpoが40%以上の不正な関心セグメントと6倍高い入札値をトリガーすることで、プライバシーを改善していることを示している。 Harpoは、同じオーバーヘッドに対して、既存の難読化ツールを最大16倍パフォーマンスします。 Harpoはまた、既存の難読化ツールよりも敵検出のステルス性を向上させることができる。 Harpoは、難読化を利用してオンライン行動広告を覆す最先端の技術を有意義に推進する

Online behavioral advertising, and the associated tracking paraphernalia, poses a real privacy threat. Unfortunately, existing privacy-enhancing tools are not always effective against online advertising and tracking. We propose Harpo, a principled learning-based approach to subvert online behavioral advertising through obfuscation. Harpo uses reinforcement learning to adaptively interleave real page visits with fake pages to distort a tracker's view of a user's browsing profile. We evaluate Harpo against real-world user profiling and ad targeting models used for online behavioral advertising. The results show that Harpo improves privacy by triggering more than 40% incorrect interest segments and 6x higher bid values. Harpo outperforms existing obfuscation tools by as much as 16x for the same overhead. Harpo is also able to achieve better stealthiness to adversarial detection than existing obfuscation tools. Harpo meaningfully advances the state-of-the-art in leveraging obfuscation to subvert online behavioral advertising
翻訳日:2021-11-12 03:57:04 公開日:2021-11-09
# (参考訳) 慣性センサによるヒューマンアクティビティの分類:機械学習によるアプローチ [全文訳有]

Classifying Human Activities with Inertial Sensors: A Machine Learning Approach ( http://arxiv.org/abs/2111.05333v1 )

ライセンス: CC BY 4.0
Hamza Ali Imran, Saad Wazir, Usman Iftikhar, Usama Latif(参考訳) HAR(Human Activity Recognition)は、現在進行中の研究課題である。 医療サポート、スポーツ、フィットネス、ソーシャルネットワーキング、ヒューマン・コンピュータ・インタフェース、シニア・ケア、エンターテイメント、監視などの分野に応用されている。 伝統的にコンピュータビジョンの手法はharに採用されており、秘密やプライバシー、環境要因の影響、モビリティの低下、ランニングコストの上昇、オクルージョンなど多くの問題がある。 センサー、特に慣性センサーの使用の新たな傾向が最近現れている。 従来のコンピュータビジョンアルゴリズムに代わるものとして、センサデータを使用する利点はいくつかある。 コンピュータビジョンアルゴリズムの限界の多くは、センサーデータを利用したアクティビティ分類のためのディープニューラルネットワーク(DNN)と機械学習(ML)アプローチなど、文献に記録されている。 スマートフォンの慣性センサデータを用いて,人間活動認識のための機械学習と深層学習のアプローチを検討した。 どのアプローチがこのアプリケーションに適しているかを特定するためです。

Human Activity Recognition (HAR) is an ongoing research topic. It has applications in medical support, sports, fitness, social networking, human-computer interfaces, senior care, entertainment, surveillance, and the list goes on. Traditionally, computer vision methods were employed for HAR, which has numerous problems such as secrecy or privacy, the influence of environmental factors, less mobility, higher running costs, occlusion, and so on. A new trend in the use of sensors, especially inertial sensors, has lately emerged. There are several advantages of employing sensor data as an alternative to traditional computer vision algorithms. Many of the limitations of computer vision algorithms have been documented in the literature, including research on Deep Neural Network (DNN) and Machine Learning (ML) approaches for activity categorization utilizing sensor data. We examined and analyzed different Machine Learning and Deep Learning approaches for Human Activity Recognition using inertial sensor data of smartphones. In order to identify which approach is best suited for this application.
翻訳日:2021-11-12 03:26:29 公開日:2021-11-09
# (参考訳) PIMIP: 病理情報管理と統合のためのオープンソースプラットフォーム [全文訳有]

PIMIP: An Open Source Platform for Pathology Information Management and Integration ( http://arxiv.org/abs/2111.05794v1 )

ライセンス: CC BY 4.0
Jialun Wu, Anyu Mao, Xinrui Bao, Haichuan Zhang, Zeyu Gao, Chunbao Wang, Tieliang Gong, and Chen Li(参考訳) デジタル病理学は、医療分野における人工知能の発展に重要な役割を果たしている。 デジタル病理プラットフォームは、病的資源をデジタル化・ネットワーク化することができ、時間と空間の制限なく、視覚的データの永久保存と同期ブラウジング処理を実現することができる。 様々な病理学の分野で広く用いられている。 しかし,デジタル病理領域の管理と解析,および関連する患者の情報の管理と構造記述を支援するオープンで普遍的なデジタル病理プラットフォームはいまだに存在しない。 ほとんどのプラットフォームは、画像の閲覧、アノテーション、分析、テキスト情報管理を統合できない。 上記の問題を解決するために,包括的で拡張可能なプラットフォームPIMIPを提案する。 我々のPIMIPは,デジタル病理領域の可視化に基づく画像アノテーション機能を開発した。 アノテーション機能はマルチユーザ協調アノテーションとマルチデバイスアノテーションをサポートし,アノテーションタスクの自動化を実現する。 注記課題では、専門家の病理医に指導を依頼した。 画像解析のための機械学習モジュールを提案する。 収集したデータには、地方病院の公開データと臨床例が含まれていた。 当社のプラットフォームは、より臨床的で、臨床用途に適しています。 画像データに加えて,テキスト情報の管理と表示も構成した。 私たちのプラットフォームは包括的です プラットフォームフレームワークは、ユーザが独立して機械学習モジュールを追加するのをサポートするモジュール方式で構築されています。

Digital pathology plays a crucial role in the development of artificial intelligence in the medical field. The digital pathology platform can make the pathological resources digital and networked, and realize the permanent storage of visual data and the synchronous browsing processing without the limitation of time and space. It has been widely used in various fields of pathology. However, there is still a lack of an open and universal digital pathology platform to assist doctors in the management and analysis of digital pathological sections, as well as the management and structured description of relevant patient information. Most platforms cannot integrate image viewing, annotation and analysis, and text information management. To solve the above problems, we propose a comprehensive and extensible platform PIMIP. Our PIMIP has developed the image annotation functions based on the visualization of digital pathological sections. Our annotation functions support multi-user collaborative annotation and multi-device annotation, and realize the automation of some annotation tasks. In the annotation task, we invited a professional pathologist for guidance. We introduce a machine learning module for image analysis. The data we collected included public data from local hospitals and clinical examples. Our platform is more clinical and suitable for clinical use. In addition to image data, we also structured the management and display of text information. So our platform is comprehensive. The platform framework is built in a modular way to support users to add machine learning modules independently, which makes our platform extensible.
翻訳日:2021-11-12 03:19:18 公開日:2021-11-09
# (参考訳) DataWords: テキスト、構造化データ、説明との対比 [全文訳有]

DataWords: Getting Contrarian with Text, Structured Data and Explanations ( http://arxiv.org/abs/2111.05384v1 )

ライセンス: CC BY 4.0
Stephen I. Gallant and Mirza Nasir Hossain(参考訳) 当社の目標は,フリーテキストと構造化データを組み合わせた分類モデルの構築です。 これを実現するために、構造化されたデータをテキスト、DataWordsで表現し、類似のデータ項目を同じ文にマッピングする。 これにより、テキストモデリングアルゴリズムのみを使用して、テキストと構造化データの混合をモデル化することができる。 いくつか例を挙げると、まず抽出ツール(エンティティ認識)を実行し、次に出力をデータワードに変換し、元のテキストにデータワードを追加することで、テキストの分類性能を改善することができる。 このアプローチにより、自由テキストと構造化データの両方の観点から推論の説明も作成できます。

Our goal is to build classification models using a combination of free-text and structured data. To do this, we represent structured data by text sentences, DataWords, so that similar data items are mapped into the same sentence. This permits modeling a mixture of text and structured data by using only text-modeling algorithms. Several examples illustrate that it is possible to improve text classification performance by first running extraction tools (named entity recognition), then converting the output to DataWords, and adding the DataWords to the original text -- before model building and classification. This approach also allows us to produce explanations for inferences in terms of both free text and structured data.
翻訳日:2021-11-12 03:06:22 公開日:2021-11-09
# (参考訳) 線形識別ラプラス近似によるガウス過程メタFew-shot分類学習 [全文訳有]

Gaussian Process Meta Few-shot Classifier Learning via Linear Discriminant Laplace Approximation ( http://arxiv.org/abs/2111.05392v1 )

ライセンス: CC BY 4.0
Minyoung Kim, Timothy Hospedales(参考訳) メタラーニングの少ショット分類は、最近大きな注目を集めた機械学習における新たな問題であり、少数のラベル付きデータで新しいタスクに迅速に適応できるモデルを学ぶことを目的としている。 ベイジアン・ガウス過程 (GP) のアプローチでは, GP を前もってメタ学習し, GP 予測モデルによる新しいタスクへの適応を後部推論から行う。 ラプラスの後方近似を採用するが、MAPソリューションを見つけるための反復勾配ステップを回避するために、MAPソリューションのサロゲートとして新しい線形判別分析(LDA)プラグインを導入する。 本質的には、マップ解はlda推定値に近似するが、gpを事前に考慮し、ldaの共有分散パラメータを推定するために事前ノルム調整を採用することにより、調整された推定値がgp先行値に一致することを保証する。 これにより、閉形式で微分可能なGP後部と予測分布が可能となり、高速なメタトレーニングが可能になる。 これまでのアプローチよりも大幅に改善されている。

The meta learning few-shot classification is an emerging problem in machine learning that received enormous attention recently, where the goal is to learn a model that can quickly adapt to a new task with only a few labeled data. We consider the Bayesian Gaussian process (GP) approach, in which we meta-learn the GP prior, and the adaptation to a new task is carried out by the GP predictive model from the posterior inference. We adopt the Laplace posterior approximation, but to circumvent the iterative gradient steps for finding the MAP solution, we introduce a novel linear discriminant analysis (LDA) plugin as a surrogate for the MAP solution. In essence, the MAP solution is approximated by the LDA estimate, but to take the GP prior into account, we adopt the prior-norm adjustment to estimate LDA's shared variance parameters, which ensures that the adjusted estimate is consistent with the GP prior. This enables closed-form differentiable GP posteriors and predictive distributions, thus allowing fast meta training. We demonstrate considerable improvement over the previous approaches.
翻訳日:2021-11-12 02:56:23 公開日:2021-11-09
# (参考訳) 文書レベル関係抽出のための論理ルールの学習 [全文訳有]

Learning Logic Rules for Document-level Relation Extraction ( http://arxiv.org/abs/2111.05407v1 )

ライセンス: CC BY-SA 4.0
Dongyu Ru and Changzhi Sun and Jiangtao Feng and Lin Qiu and Hao Zhou and Weinan Zhang and Yong Yu and Lei Li(参考訳) ドキュメントレベルの関係抽出は、ドキュメント全体のエンティティ間の関係を識別することを目的としている。 それまでは、(グラフ)ニューラルネットワークを通じて学習された暗黙の強力な表現に大きく依存していたため、モデルの透明性が損なわれた。 本稿では,この課題に対処するために,論理ルールの学習による文書レベルの関係抽出のための新しい確率モデルであるLogiREを提案する。 LogiREはロジックルールを潜在変数として扱い、ルールジェネレータと関係抽出器という2つのモジュールで構成される。 ルール生成器は、最終予測に潜在的に寄与する論理ルールを生成し、関係抽出器は、生成された論理ルールに基づいて最終予測を出力する。 これらの2つのモジュールは、期待最大化(EM)アルゴリズムで効率的に最適化できる。 ニューラルネットワークにロジックルールを導入することで、LogiREは長距離依存関係を明示的にキャプチャし、解釈を良くすることができる。 実証的な結果から、LogiREは関係性能(1.8 F1スコア)と論理一貫性(3.3論理スコア以上)において、いくつかの強いベースラインを著しく上回っている。 私たちのコードはhttps://github.com/r udongyu/logireで利用可能です。

Document-level relation extraction aims to identify relations between entities in a whole document. Prior efforts to capture long-range dependencies have relied heavily on implicitly powerful representations learned through (graph) neural networks, which makes the model less transparent. To tackle this challenge, in this paper, we propose LogiRE, a novel probabilistic model for document-level relation extraction by learning logic rules. LogiRE treats logic rules as latent variables and consists of two modules: a rule generator and a relation extractor. The rule generator is to generate logic rules potentially contributing to final predictions, and the relation extractor outputs final predictions based on the generated logic rules. Those two modules can be efficiently optimized with the expectation-maximiza tion (EM) algorithm. By introducing logic rules into neural networks, LogiRE can explicitly capture long-range dependencies as well as enjoy better interpretation. Empirical results show that LogiRE significantly outperforms several strong baselines in terms of relation performance (1.8 F1 score) and logical consistency (over 3.3 logic score). Our code is available at https://github.com/r udongyu/LogiRE.
翻訳日:2021-11-12 02:41:03 公開日:2021-11-09
# (参考訳) 畳み込みニューラルネットワークのダイナミクス:グラフの視点から [全文訳有]

Convolutional Neural Network Dynamics: A Graph Perspective ( http://arxiv.org/abs/2111.05410v1 )

ライセンス: CC BY 4.0
Fatemeh Vahedian, Ruiyu Li, Puja Trivedi, Di Jin, Danai Koutra(参考訳) 幅広いアプリケーションにおけるニューラルネットワーク(NN)の成功により、これらのモデルの基盤となる学習力学を理解することへの関心が高まっている。 本稿では,グラフの観点からnnsのグラフ構造とその性能との関係を調べることにより,学習ダイナミクスの単なる説明にとどまらない。 具体的には、(1)ニューラルネットワーク学習過程を時間進化グラフ(すなわち、エポック上の一連の静的グラフスナップショット)として表現し、(2)トレーニングフェーズ中のNNの構造変化を簡単な時間的要約で捉え、(3)構造的要約を利用して、下位NNの分類や回帰タスクにおける精度を予測する。 NNの動的グラフ表現については,強力なNNモデルの鍵となる完全連結層と畳み込み層の構造表現について検討する。 解析の結果,重み付け度や固有ベクトル中心性といったグラフ統計の単純な要約は,NNの性能を正確に予測するために,ほんの少しのエポックしか利用できないことがわかった。 例えば、LeNetアーキテクチャの5つのトレーニングエポックに基づいて構築された時間進化グラフの重み付け次数に基づく要約は、93%以上の分類精度を達成する。 私たちの発見は、LeNet、VGG、AlexNet、ResNetなど、さまざまなNNアーキテクチャに一貫性があります。

The success of neural networks (NNs) in a wide range of applications has led to increased interest in understanding the underlying learning dynamics of these models. In this paper, we go beyond mere descriptions of the learning dynamics by taking a graph perspective and investigating the relationship between the graph structure of NNs and their performance. Specifically, we propose (1) representing the neural network learning process as a time-evolving graph (i.e., a series of static graph snapshots over epochs), (2) capturing the structural changes of the NN during the training phase in a simple temporal summary, and (3) leveraging the structural summary to predict the accuracy of the underlying NN in a classification or regression task. For the dynamic graph representation of NNs, we explore structural representations for fully-connected and convolutional layers, which are key components of powerful NN models. Our analysis shows that a simple summary of graph statistics, such as weighted degree and eigenvector centrality, over just a few epochs can be used to accurately predict the performance of NNs. For example, a weighted degree-based summary of the time-evolving graph that is constructed based on 5 training epochs of the LeNet architecture achieves classification accuracy of over 93%. Our findings are consistent for different NN architectures, including LeNet, VGG, AlexNet and ResNet.
翻訳日:2021-11-12 02:03:11 公開日:2021-11-09
# (参考訳) MNet-Sim: 文の類似性を評価する多層セマンティック類似ネットワーク [全文訳有]

MNet-Sim: A Multi-layered Semantic Similarity Network to Evaluate Sentence Similarity ( http://arxiv.org/abs/2111.05412v1 )

ライセンス: CC BY 4.0
Manuela Nayantara Jeyaraj, Dharshana Kasthurirathna(参考訳) 類似性は、それが考慮される領域によって異なる比較主観的測度である。 文書分類、パターン認識、チャットボット質問応答、感情分析などのNLPアプリケーションでは、文対の正確な類似点を特定することが重要な研究領域となっている。 類似性を評価する既存のモデルでは、文脈比較に基づく効果的な類似性計算の限界、中心的理論による局所化、非意味的比較の欠如が欠点であることが証明されている。 そこで本稿では,ネットワーク科学の原理に基づく文の類似度スコア,重み付き関係エッジ,提案される拡張ノード類似度計算式に基づいて,複数の類似度尺度に基づく多層意味類似度ネットワークモデルを提案する。 提案した多層ネットワークモデルは,既存の最先端モデルに対して評価および検証を行い,文類似性を評価する上で,より良い性能を示すことを示した。

Similarity is a comparative-subjecti ve measure that varies with the domain within which it is considered. In several NLP applications such as document classification, pattern recognition, chatbot question-answering, sentiment analysis, etc., identifying an accurate similarity score for sentence pairs has become a crucial area of research. In the existing models that assess similarity, the limitation of effectively computing this similarity based on contextual comparisons, the localization due to the centering theory, and the lack of non-semantic textual comparisons have proven to be drawbacks. Hence, this paper presents a multi-layered semantic similarity network model built upon multiple similarity measures that render an overall sentence similarity score based on the principles of Network Science, neighboring weighted relational edges, and a proposed extended node similarity computation formula. The proposed multi-layered network model was evaluated and tested against established state-of-the-art models and is shown to have demonstrated better performance scores in assessing sentence similarity.
翻訳日:2021-11-12 01:45:54 公開日:2021-11-09
# (参考訳) ウォルト・ホイットマンの草の葉の立体的変化に対する計算的アプローチ [全文訳有]

A Computational Approach to Walt Whitman's Stylistic Changes in Leaves of Grass ( http://arxiv.org/abs/2111.05414v1 )

ライセンス: CC BY 4.0
Jieyan Zhu(参考訳) 本研究は、ウォルト・ホイットマンの著作『草の葉』におけるスタイリスティックな変化を計算学的観点から分析し、ホイットマンに関する標準的な文学的批判と関係づけるものである。 コーパスは1855年の初版から1891-92年の「死の床」まで、草の葉の7つの版から成り立っている。 最も単純なテクトメトリー手法である単語周波数のカウントから始めて、単語選択における一貫した変化を見出す。 マクロ・e型分析により、ホイットマンの特定の起源の単語に対する嗜好が高まり、草の葉の語彙的複雑さが増大していることが分かる。 教師なし学習アルゴリズムである主成分分析は、tf-idfベクトルの次元を2次元に減らし、スタイリスティックな変化を簡単に見ることができる。 最後に、感情分析は、ホイットマンの執筆キャリアを通しての感情状態の進化を示している。

This study analyzes Walt Whitman's stylistic changes in his phenomenal work Leaves of Grass from a computational perspective and relates findings to standard literary criticism on Whitman. The corpus consists of all 7 editions of Leaves of Grass, ranging from the earliest 1855 edition to the 1891-92 "deathbed" edition. Starting from counting word frequencies, the simplest stylometry technique, we find consistent shifts in word choice. Macro-etymological analysis reveals Whitman's increasing preference for words of specific origins, which is correlated to the increasing lexical complexity in Leaves of Grass. Principal component analysis, an unsupervised learning algorithm, reduces the dimensionality of tf-idf vectors to 2 dimensions, providing a straightforward view of stylistic changes. Finally, sentiment analysis shows the evolution of Whitman's emotional state throughout his writing career.
翻訳日:2021-11-12 01:33:20 公開日:2021-11-09
# (参考訳) bicephalous convolutional autoencoderによる3次元スパースtpcの効率的なデータ圧縮 [全文訳有]

Efficient Data Compression for 3D Sparse TPC via Bicephalous Convolutional Autoencoder ( http://arxiv.org/abs/2111.05423v1 )

ライセンス: CC BY 4.0
Yi Huang, Yihui Ren, Shinjae Yoo, Jin Huang(参考訳) 大規模実験施設におけるリアルタイムデータ収集と分析は、高エネルギー物理学、核物理学、宇宙論など、複数の分野において大きな課題となる。 これを解決するために、リアルタイムデータ圧縮のための機械学習(ML)ベースの手法が注目されている。 しかし、CIFARやImageNetのような比較的小型で連続的な自然画像データとは異なり、科学的データは高間隔(多くの零点)と非ガウス値分布の高速度で3次元のデータボリュームとして現れることが多い。 これにより、一般的なML圧縮手法や従来のデータ圧縮手法、サブ最適化を直接適用することができる。 これらの障害に対処するため、この研究は二重ヘッドオートエンコーダを導入し、空間と回帰を同時に解決する。 本手法は,MGARD,SZ,ZFPなどの従来のデータ圧縮手法と比較して圧縮忠実度と比の両方の利点を示す。 同様の忠実性を達成するため、従来の方法の中で最高の演奏者はBCAEの圧縮比の半分しか到達できない。 さらに、BCAE法に関する徹底的なアブレーション研究は、専用セグメンテーションデコーダが再構成を改善することを示している。

Real-time data collection and analysis in large experimental facilities present a great challenge across multiple domains, including high energy physics, nuclear physics, and cosmology. To address this, machine learning (ML)-based methods for real-time data compression have drawn significant attention. However, unlike natural image data, such as CIFAR and ImageNet that are relatively small-sized and continuous, scientific data often come in as three-dimensional data volumes at high rates with high sparsity (many zeros) and non-Gaussian value distribution. This makes direct application of popular ML compression methods, as well as conventional data compression methods, suboptimal. To address these obstacles, this work introduces a dual-head autoencoder to resolve sparsity and regression simultaneously, called \textit{Bicephalous Convolutional AutoEncoder} (BCAE). This method shows advantages both in compression fidelity and ratio compared to traditional data compression methods, such as MGARD, SZ, and ZFP. To achieve similar fidelity, the best performer among the traditional methods can reach only half the compression ratio of BCAE. Moreover, a thorough ablation study of the BCAE method shows that a dedicated segmentation decoder improves the reconstruction.
翻訳日:2021-11-12 01:19:52 公開日:2021-11-09
# (参考訳) DistIR: 効率的なニューラルネットワーク配信のための中間表現とシミュレータ [全文訳有]

DistIR: An Intermediate Representation and Simulator for Efficient Neural Network Distribution ( http://arxiv.org/abs/2111.05426v1 )

ライセンス: CC BY 4.0
Keshav Santhanam, Siddharth Krishna, Ryota Tomioka, Tim Harris, Matei Zaharia(参考訳) ディープニューラルネットワーク(DNN)モデルとデータセットの急速なサイズ拡大により、データ、テンソルモデル、パイプライン並列性、ハイブリッドの組み合わせなど、さまざまな分散戦略が生まれている。 これらの戦略はそれぞれ独自のトレードオフを提供し、異なるモデルとハードウェアトポロジで最適なパフォーマンスを示す。 検索スペースがコンビネータ的に拡大し、クラスタ上でデバッグやテストを行うのにコストがかかるため、所定のセットアップのための最適な戦略を選択することは難しい。 本研究では,分散DNN計算のための表現型中間表現であるDistIRを提案する。 これにより、物理ハードウェア上で実行することなく、トップパフォーマンス戦略を自動的に識別できる。 以前の作業とは異なり、distirは任意のスケジュールでパイプライン並列性を含む多くの分散戦略を自然に表現できる。 我々は,mlpトレーニングとgpt-2推論モデルの評価から,distirとそのシミュレータが1000以上の構成の複雑な分散空間上で高速グリッド検索を実現することを示し,特定のレジームに対して最適化時間を1桁削減した。

The rapidly growing size of deep neural network (DNN) models and datasets has given rise to a variety of distribution strategies such as data, tensor-model, pipeline parallelism, and hybrid combinations thereof. Each of these strategies offers its own trade-offs and exhibits optimal performance across different models and hardware topologies. Selecting the best set of strategies for a given setup is challenging because the search space grows combinatorially, and debugging and testing on clusters is expensive. In this work we propose DistIR, an expressive intermediate representation for distributed DNN computation that is tailored for efficient analyses, such as simulation. This enables automatically identifying the top-performing strategies without having to execute on physical hardware. Unlike prior work, DistIR can naturally express many distribution strategies including pipeline parallelism with arbitrary schedules. Our evaluation on MLP training and GPT-2 inference models demonstrates how DistIR and its simulator enable fast grid searches over complex distribution spaces spanning up to 1000+ configurations, reducing optimization time by an order of magnitude for certain regimes.
翻訳日:2021-11-12 01:09:12 公開日:2021-11-09
# (参考訳) 未知:悲観的オフライン強化学習の扱い [全文訳有]

Dealing with the Unknown: Pessimistic Offline Reinforcement Learning ( http://arxiv.org/abs/2111.05440v1 )

ライセンス: CC BY 4.0
Jinning Li, Chen Tang, Masayoshi Tomizuka, Wei Zhan(参考訳) 強化学習(rl)は、エージェントがその運用環境と積極的に相互作用することによってポリシーを学習できる領域において有効であることが示されている。 しかし、エージェントが静的データセットを通じてのみポリシーを更新できるオフライン設定にrlスキームを変更すると、オフライン強化学習における大きな問題の1つ、すなわち分散シフトが現れます。 本稿では,PessORLアルゴリズムを用いて,エージェントを値関数を操作することで慣れ親しんだ領域に積極的に誘導する手法を提案する。 我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に焦点を合わせ、学習データセットに欠落している状態において、故意に高い値をペナルティ化するので、学習された悲観的値関数が状態空間内の真値を低くする。 我々は,PassORL アルゴリズムを様々なベンチマークタスクで評価し,OOD 動作のみを考慮した手法と比較して,OOD 状態を明示的に処理することで性能が向上することを示した。

Reinforcement Learning (RL) has been shown effective in domains where the agent can learn policies by actively interacting with its operating environment. However, if we change the RL scheme to offline setting where the agent can only update its policy via static datasets, one of the major issues in offline reinforcement learning emerges, i.e. distributional shift. We propose a Pessimistic Offline Reinforcement Learning (PessORL) algorithm to actively lead the agent back to the area where it is familiar by manipulating the value function. We focus on problems caused by out-of-distribution (OOD) states, and deliberately penalize high values at states that are absent in the training dataset, so that the learned pessimistic value function lower bounds the true value anywhere within the state space. We evaluate the PessORL algorithm on various benchmark tasks, where we show that our method gains better performance by explicitly handling OOD states, when compared to those methods merely considering OOD actions.
翻訳日:2021-11-12 00:37:15 公開日:2021-11-09
# (参考訳) 反応制御と予測学習による行動局在のアクティブビジョンに向けて [全文訳有]

Towards Active Vision for Action Localization with Reactive Control and Predictive Learning ( http://arxiv.org/abs/2111.05448v1 )

ライセンス: CC BY 4.0
Shubham Trehan, Sathyanarayanan N. Aakur(参考訳) アクションローカライゼーションのような視覚イベント知覚タスクは、主に静的オブザーバの下で教師付き学習設定、すなわち、カメラは静的であり、アルゴリズムでは制御できない。 それらはしばしば、textit{annotated}トレーニングデータの品質、量、多様性によって制限され、ドメイン外のサンプルに一般化されないことが多い。 本研究では,アクティブカメラの幾何学的・物理的パラメータを制御しつつ,アクションのローカライズを目標とするアクティブアクションローカライズの問題に対処し,データをトレーニングすることなく動作を視野内に保持する。 予測学習とリアクティブ制御を組み合わせたエネルギーベースのメカニズムを定式化し,実環境においてスパースあるいは非存在となり得る報酬なしでアクティブな行動局在化を行う。 シミュレーション環境と実環境の両方において,アクティブオブジェクトトラッキングとアクティブアクションローカライズという2つのタスクで広範な実験を行った。 提案手法は,明示的な報酬やトレーニングを伴わずに,ストリーミング形式で異なるタスクや環境に一般化できることを実証する。 提案手法は教師なしのベースラインよりも優れており,強化学習の訓練者に比べて競争性能が高いことを示す。

Visual event perception tasks such as action localization have primarily focused on supervised learning settings under a static observer, i.e., the camera is static and cannot be controlled by an algorithm. They are often restricted by the quality, quantity, and diversity of \textit{annotated} training data and do not often generalize to out-of-domain samples. In this work, we tackle the problem of active action localization where the goal is to localize an action while controlling the geometric and physical parameters of an active camera to keep the action in the field of view without training data. We formulate an energy-based mechanism that combines predictive learning and reactive control to perform active action localization without rewards, which can be sparse or non-existent in real-world environments. We perform extensive experiments in both simulated and real-world environments on two tasks - active object tracking and active action localization. We demonstrate that the proposed approach can generalize to different tasks and environments in a streaming fashion, without explicit rewards or training. We show that the proposed approach outperforms unsupervised baselines and obtains competitive performance compared to those trained with reinforcement learning.
翻訳日:2021-11-12 00:14:54 公開日:2021-11-09
# (参考訳) DP-REC: プライベート&コミュニケーション効率の良いフェデレーションラーニング [全文訳有]

DP-REC: Private & Communication-Effici ent Federated Learning ( http://arxiv.org/abs/2111.05454v1 )

ライセンス: CC BY 4.0
Aleksei Triastcyn, Matthias Reisser, Christos Louizos(参考訳) ニューラルネットワークのフェデレーショントレーニングにおいて、プライバシと通信効率は重要な課題であり、それらを組み合わせることは依然としてオープンな問題である。 本研究では,高度に圧縮された通信と差分プライバシー(DP)を統一する手法を開発する。 フェデレーション設定に対する相対エントロピー符号化(rec)に基づく圧縮手法を提案する。 RECに小さな修正を加えて、証明可能な差分学習アルゴリズムDP-RECを取得し、そのプライバシー保証の計算方法を示す。 実験の結果,DP-RECは通信コストを大幅に削減し,プライバシー保証は最先端技術に匹敵することがわかった。

Privacy and communication efficiency are important challenges in federated training of neural networks, and combining them is still an open problem. In this work, we develop a method that unifies highly compressed communication and differential privacy (DP). We introduce a compression technique based on Relative Entropy Coding (REC) to the federated setting. With a minor modification to REC, we obtain a provably differentially private learning algorithm, DP-REC, and show how to compute its privacy guarantees. Our experiments demonstrate that DP-REC drastically reduces communication costs while providing privacy guarantees comparable to the state-of-the-art.
翻訳日:2021-11-12 00:00:04 公開日:2021-11-09
# 量子機械学習におけるカーネル帯域幅の重要性

Importance of Kernel Bandwidth in Quantum Machine Learning ( http://arxiv.org/abs/2111.05451v1 )

ライセンス: Link先を確認
Ruslan Shaydulin and Stefan M. Wild(参考訳) 量子カーネル法は、機械学習問題に量子コンピュータを適用するための有望な方法と考えられている。 しかし、近年の結果は、ハイパーパラメーターが機械学習手法の性能決定に果たす中心的な役割を見落としている。 本研究では,量子カーネルの帯域幅を最適化することで,ランダムな推定から古典的手法との競合まで,カーネル手法の性能が向上することを示す。 ハイパーパラメータ最適化がなければ、量子カーネルの値は量子ビット数で指数関数的に減少し、量子カーネル法の性能が量子ビット数で低下する最近の観測の背後にある原因である。 これらの負の結果を再現し、複数の量子カーネルと古典的データセットを用いた広範な数値実験により、カーネル帯域幅が最適化された場合、その代わりに量子ビット数の増加により性能が向上することを示す。 古典カーネルと量子カーネルの帯域幅の接続を図り、どちらの場合も類似の挙動を示す。

Quantum kernel methods are considered a promising avenue for applying quantum computers to machine learning problems. However, recent results overlook the central role hyperparameters play in determining the performance of machine learning methods. In this work we show how optimizing the bandwidth of a quantum kernel can improve the performance of the kernel method from a random guess to being competitive with the best classical methods. Without hyperparameter optimization, kernel values decrease exponentially with qubit count, which is the cause behind recent observations that the performance of quantum kernel methods decreases with qubit count. We reproduce these negative results and show, through extensive numerical experiments using multiple quantum kernels and classical datasets, that if the kernel bandwidth is optimized, the performance instead improves with growing qubit count. We draw a connection between the bandwidth of classical and quantum kernels and show analogous behavior in both cases.
翻訳日:2021-11-11 15:27:13 公開日:2021-11-09
# BMIトラジェクトリを用いた慢性疾患のリスクの同定

Identifying the Risks of Chronic Diseases Using BMI Trajectories ( http://arxiv.org/abs/2111.05385v1 )

ライセンス: Link先を確認
Md Mozaharul Mottalib, Jessica C Jones-Smith, Bethany Sheridan, and Rahmatollah Beheshti(参考訳) 肥満は、糖尿病、がん、脳卒中などの様々な慢性疾患のリスクを増大させる主要な健康問題である。 横断的BMI記録で同定される肥満の役割は研究されているが,BMI軌跡の役割は明らかにされていない。 本研究では,大規模かつ地理的に多様なEHRデータセットから抽出したBMIトラジェクトリを用いて,6年間に約200万人の患者の健康状態を把握し,個人が18の主要な慢性疾患を発症するリスクをサブタイプ化する機械学習アプローチを用いた。 k-meansクラスタリング法を用いて患者をサブグループに分類するために,BMIトラジェクトリに基づく9つの新しい解釈可能なエビデンスに基づく変数を定義する。 各クラスタの特徴を, 人口動態, 社会経済的, 生理的測定変数の観点から徹底的に検討し, クラスタ内の患者の特徴を特定する。 実験では,肥満と糖尿病,高血圧,アルツハイマー病,認知症との直接的な関係が再確立され,慢性疾患のいくつかは既存の知識体系に適合し補完的であることが判明した。

Obesity is a major health problem, increasing the risk of various major chronic diseases, such as diabetes, cancer, and stroke. While the role of obesity identified by cross-sectional BMI recordings has been heavily studied, the role of BMI trajectories is much less explored. In this study, we use a machine learning approach to subtype individuals' risk of developing 18 major chronic diseases by using their BMI trajectories extracted from a large and geographically diverse EHR dataset capturing the health status of around two million individuals for a period of six years. We define nine new interpretable and evidence-based variables based on the BMI trajectories to cluster the patients into subgroups using the k-means clustering method. We thoroughly review each clusters' characteristics in terms of demographic, socioeconomic, and physiological measurement variables to specify the distinct properties of the patients in the clusters. In our experiments, direct relationship of obesity with diabetes, hypertension, Alzheimer's, and dementia have been re-established and distinct clusters with specific characteristics for several of the chronic diseases have been found to be conforming or complementary to the existing body of knowledge.
翻訳日:2021-11-11 15:00:03 公開日:2021-11-09
# 人工知能システムの信頼性に関する統計的展望

Statistical Perspectives on Reliability of Artificial Intelligence Systems ( http://arxiv.org/abs/2111.05391v1 )

ライセンス: Link先を確認
Yili Hong and Jiayi Lian and Li Xu and Jie Min and Yueyao Wang and Laura J. Freeman and Xinwei Deng(参考訳) 人工知能(AI)システムは、多くの地域で人気が高まっている。 それでも、ai技術はまだ開発段階にあり、多くの問題に対処する必要がある。 これらのうち、AIシステムの信頼性を実証し、AIシステムが一般大衆の信頼を得て利用できるようにする必要がある。 本稿では,AIシステムの信頼性に関する統計的視点を提供する。 他の考慮事項と異なり、AIシステムの信頼性は時間次元に焦点を当てている。 つまり、システムは意図した期間にその設計機能を実行することができる。 システムの構造、信頼性のメトリクス、障害原因の分析、信頼性評価、テスト計画の5つのコンポーネントを含む、AI信頼性研究のためのいわゆるSMART統計フレームワークを紹介します。 信頼性データ分析とソフトウェア信頼性における従来の手法を概観し、AIシステムの信頼性モデリングと評価のためにこれらの既存手法をどのように変換できるかを論じる。 また,ai信頼性のモデル化と分析における最近の進歩を概説するとともに,分散検出,トレーニングセットの効果,敵対的攻撃,モデル精度,不確実性定量化など,この分野における統計的研究課題を概説するとともに,これらのトピックがai信頼性とどのように関連するかを例示的に論じる。 最後に,ai信頼性評価のためのデータ収集とテスト計画と,ai信頼性向上のためのシステム設計の改善方法について述べる。 その論文はいくつかの結論で締めくくっている。

Artificial intelligence (AI) systems have become increasingly popular in many areas. Nevertheless, AI technologies are still in their developing stages, and many issues need to be addressed. Among those, the reliability of AI systems needs to be demonstrated so that the AI systems can be used with confidence by the general public. In this paper, we provide statistical perspectives on the reliability of AI systems. Different from other considerations, the reliability of AI systems focuses on the time dimension. That is, the system can perform its designed functionality for the intended period. We introduce a so-called SMART statistical framework for AI reliability research, which includes five components: Structure of the system, Metrics of reliability, Analysis of failure causes, Reliability assessment, and Test planning. We review traditional methods in reliability data analysis and software reliability, and discuss how those existing methods can be transformed for reliability modeling and assessment of AI systems. We also describe recent developments in modeling and analysis of AI reliability and outline statistical research challenges in this area, including out-of-distribution detection, the effect of the training set, adversarial attacks, model accuracy, and uncertainty quantification, and discuss how those topics can be related to AI reliability, with illustrative examples. Finally, we discuss data collection and test planning for AI reliability assessment and how to improve system designs for higher AI reliability. The paper closes with some concluding remarks.
翻訳日:2021-11-11 14:56:09 公開日:2021-11-09
# どちらが重要か? 潜在ダイナミクス学習のためのベンチマークモデル

Which priors matter? Benchmarking models for learning latent dynamics ( http://arxiv.org/abs/2111.05458v1 )

ライセンス: Link先を確認
Aleksandar Botev and Andrew Jaegle and Peter Wirnsberger and Daniel Hennes and Irina Higgins(参考訳) 学習ダイナミクスは、ロボット工学や自動運転など、機械学習(ml)の多くの重要な応用の中心にある。 これらの設定では、MLアルゴリズムは通常、基礎となる状態にアクセスすることなく、画像のような高次元の観測を用いて物理系を推論する必要がある。 近年,画像からの物理的推論の課題に対処するため,古典力学の先行をMLモデルに統合する手法が提案されている。 この研究では、これらのモデルの現在の能力について、そっと見ていきます。 そこで本研究では,広い範囲のダイナミックスを示す物理系に基づく可視化観測を行う17のデータセットからなるスイートを提案する。 我々は、いくつかの強力なベースラインと共に、物理的にインスパイアされたメソッドの主要なクラスを徹底的かつ詳細な比較を行う。 物理プライオリティを組み込んだモデルは、しばしば望ましい性質を持つ潜在空間を学習するが、これらの手法が標準技術によって著しく改善されないことを実証する。 それでも、連続的および時間的可逆なダイナミクスの使用は、すべてのクラスのモデルに恩恵をもたらす。

Learning dynamics is at the heart of many important applications of machine learning (ML), such as robotics and autonomous driving. In these settings, ML algorithms typically need to reason about a physical system using high dimensional observations, such as images, without access to the underlying state. Recently, several methods have proposed to integrate priors from classical mechanics into ML models to address the challenge of physical reasoning from images. In this work, we take a sober look at the current capabilities of these models. To this end, we introduce a suite consisting of 17 datasets with visual observations based on physical systems exhibiting a wide range of dynamics. We conduct a thorough and detailed comparison of the major classes of physically inspired methods alongside several strong baselines. While models that incorporate physical priors can often learn latent spaces with desirable properties, our results demonstrate that these methods fail to significantly improve upon standard techniques. Nonetheless, we find that the use of continuous and time-reversible dynamics benefits models of all classes.
翻訳日:2021-11-11 14:28:52 公開日:2021-11-09
# Relaxed Cross-Modal Temporal Synchronicity を用いた自己監督型音声画像表現学習

Self-Supervised Audio-Visual Representation Learning with Relaxed Cross-Modal Temporal Synchronicity ( http://arxiv.org/abs/2111.05329v1 )

ライセンス: Link先を確認
Pritam Sarkar and Ali Etemad(参考訳) 音声視覚表現を学習するための自己教師型フレームワークであるCrissCrossを提案する。 我々のフレームワークでは、モダル内および標準の「同期」相互関係の学習に加えて、CrissCrossは「非同期」相互関係の学習も行っている。 音声と視覚の同期性を緩和することにより,ネットワークは強い時間不変表現を学習することを示す。 実験の結果,時間的相互同期の緩和による音響と視覚の両モードの強化が性能を最適化することがわかった。 提案するフレームワークを事前トレーニングするために、サイズ、速度-音、速度-400、オーディオセットの異なる3つのデータセットを使用する。 学習された表現は、アクション認識、音声分類、検索など、多くの下流タスクで評価される。 CrissCrossは、行動認識(UCF101とHMDB51)と音声分類(ESC50)に関する最先端のパフォーマンスを示す。 コードと事前訓練されたモデルは公開されます。

We present CrissCross, a self-supervised framework for learning audio-visual representations. A novel notion is introduced in our framework whereby in addition to learning the intra-modal and standard 'synchronous' cross-modal relations, CrissCross also learns 'asynchronous' cross-modal relationships. We show that by relaxing the temporal synchronicity between the audio and visual modalities, the network learns strong time-invariant representations. Our experiments show that strong augmentations for both audio and visual modalities with relaxation of cross-modal temporal synchronicity optimize performance. To pretrain our proposed framework, we use 3 different datasets with varying sizes, Kinetics-Sound, Kinetics-400, and AudioSet. The learned representations are evaluated on a number of downstream tasks namely action recognition, sound classification, and retrieval. CrissCross shows state-of-the-art performances on action recognition (UCF101 and HMDB51) and sound classification (ESC50). The codes and pretrained models will be made publicly available.
翻訳日:2021-11-11 14:27:36 公開日:2021-11-09
# 生成的空間時間因子化を用いたオブジェクト中心表現学習

Object-Centric Representation Learning with Generative Spatial-Temporal Factorization ( http://arxiv.org/abs/2111.05393v1 )

ライセンス: Link先を確認
Li Nanbo, Muhammad Ahmed Raza, Hu Wenbin, Zhaole Sun, Robert B. Fisher(参考訳) 複雑なシーンの構造的理解と抽象化を実現するためには,オブジェクト中心のシーン表現の学習が不可欠である。 しかし、教師なしオブジェクト中心表現学習の現在のアプローチは、定常オブザーバ仮定か静的シーン仮定のいずれかに基づいて構築されているため、しばしばそうである。 一 単視点空間の曖昧さに苦しむこと、又は 二 動シーンから不正又は不正確な対象表現を推定すること。 そこで本研究では,多視点オブジェクト中心表現学習のスコープをダイナミックシーンに拡大するdymon(dynamics-aware multi-object network)を提案する。 マルチビュー・ダイナミック・シーンデータを用いてDyMONを訓練し、観察者の動きとシーンオブジェクトのダイナミックスの絡み合った影響を、観察列から分解し、任意の時間(時間的クエリ)および任意の視点(空間的クエリ)でレンダリングに適したシーンオブジェクト空間表現を構築する。 また,因子化されたシーン表現(w.r.t. object)が,空間と時間によって独立したクエリをサポートすることを示した。

Learning object-centric scene representations is essential for attaining structural understanding and abstraction of complex scenes. Yet, as current approaches for unsupervised object-centric representation learning are built upon either a stationary observer assumption or a static scene assumption, they often: i) suffer single-view spatial ambiguities, or ii) infer incorrectly or inaccurately object representations from dynamic scenes. To address this, we propose Dynamics-aware Multi-Object Network (DyMON), a method that broadens the scope of multi-view object-centric representation learning to dynamic scenes. We train DyMON on multi-view-dynamic-s cene data and show that DyMON learns -- without supervision -- to factorize the entangled effects of observer motions and scene object dynamics from a sequence of observations, and constructs scene object spatial representations suitable for rendering at arbitrary times (querying across time) and from arbitrary viewpoints (querying across space). We also show that the factorized scene representations (w.r.t. objects) support querying about a single object by space and time independently.
翻訳日:2021-11-11 14:27:18 公開日:2021-11-09
# 最適輸送によるグラフマッチング

Graph Matching via Optimal Transport ( http://arxiv.org/abs/2111.05366v1 )

ライセンス: Link先を確認
Ali Saad-Eldin, Benjamin D. Pedigo, Carey E. Priebe, Joshua T. Vogelstein(参考訳) グラフマッチング問題は、隣接不一致の数を最小限に抑える2つのグラフのノード間のアライメントを求める。 グラフマッチングの解決は、オペレーションリサーチやコンピュータビジョン、神経科学などへの応用によって、ますます重要になっています。 しかし、現在の最先端アルゴリズムは、非常に大きなグラフのマッチングには非効率であるが、精度は良い。 これらのアルゴリズムの主な計算ボトルネックは線形割当問題であり、各イテレーションで解かなければならない。 本稿では,近年の最適移動の分野における進歩を活かし,線形割当てアルゴリズムの活用に取って代わる。 我々は,最先端グラフマッチング近似アルゴリズム "faq" (vogelstein, 2015) の改良として,その線形和割当てステップを cuturi (2013) の光速最適輸送法に置き換えた goat を提案する。 この修正は、スピードと経験的マッチングの精度を改善する。 このアプローチの有効性は、シミュレーションデータと実データ例のマッチンググラフで示される。

The graph matching problem seeks to find an alignment between the nodes of two graphs that minimizes the number of adjacency disagreements. Solving the graph matching is increasingly important due to it's applications in operations research, computer vision, neuroscience, and more. However, current state-of-the-art algorithms are inefficient in matching very large graphs, though they produce good accuracy. The main computational bottleneck of these algorithms is the linear assignment problem, which must be solved at each iteration. In this paper, we leverage the recent advances in the field of optimal transport to replace the accepted use of linear assignment algorithms. We present GOAT, a modification to the state-of-the-art graph matching approximation algorithm "FAQ" (Vogelstein, 2015), replacing its linear sum assignment step with the "Lightspeed Optimal Transport" method of Cuturi (2013). The modification provides improvements to both speed and empirical matching accuracy. The effectiveness of the approach is demonstrated in matching graphs in simulated and real data examples.
翻訳日:2021-11-11 14:25:12 公開日:2021-11-09
# 高スペクトル画像におけるロバスト深層学習に基づく意味器官のセグメンテーション

Robust deep learning-based semantic organ segmentation in hyperspectral images ( http://arxiv.org/abs/2111.05408v1 )

ライセンス: Link先を確認
Silvia Seidlitz (1 and 2) and Jan Sellner (1 and 2), Jan Odenthal (3), Berkin \"Ozdemir (3 and 4), Alexander Studier-Fischer (3 and 4), Samuel Kn\"odler (3 and 4), Leonardo Ayala (1 and 4), Tim Adler (1 and 6), Hannes G. Kenngott (2 and 3), Minu Tizabi (1), Martin Wagner (2 and 3 and 4), Felix Nickel (2 and 3 and 4), Beat P. M\"uller-Stich (3 and 4), Lena Maier-Hein (1 and 2 and 4 and 5 and 6) ((1) Computer Assisted Medical Interventions (CAMI), German Cancer Research Center (DKFZ), Heidelberg, Germany, (2) Helmholtz Information and Data Science School for Health, Karlsruhe/Heidelberg , Germany, (3) Department of General, Visceral, and Transplantation Surgery, Heidelberg University Hospital, Heidelberg, Germany, (4) Medical Faculty, Heidelberg University, Heidelberg, Germany, (5) HIP Helmholtz Imaging Platform, German Cancer Research Center (DKFZ), Heidelberg, Germany, (6) Faculty of Mathematics and Computer Science, Heidelberg University, Germany)(参考訳) 意味的イメージセグメンテーションは、手術における文脈認識と自律ロボット工学にとって重要な前提条件である。 現状は,低侵襲手術中に取得した従来のrgb映像データに焦点を当てているが,スペクトル画像データに基づく全シーン意味セグメンテーションは,現在ほとんど注目されていない。 このギャップに対処するために、我々は、オープンな手術環境で取得したブタのハイパースペクトルイメージング(HSI)データに基づく以下の研究課題について検討している。(1) ニューラルネットワークに基づく完全自動臓器分割のためのHSIデータの適切な表現とは何か、特にデータの空間的粒度(ピクセル対スーパーピクセル対パッチ対フルイメージ)について? 2) 意味器官のセグメンテーションを行う場合,RGBデータや処理されたHSIデータ(例えば酸素化などの組織パラメータ)と比較して,HSIデータを使用するメリットはあるか? 20匹の豚の506個のhsi画像に基づく包括的な検証研究によれば、合計19のクラスでアノテートされ、入力データの空間的コンテキストによって、ディープラーニングベースのセグメンテーション性能が一貫して向上している。 未処理のhsiデータでは、rgbデータやカメラプロバイダからの処理データよりもアドバンテージがあり、ニューラルネットワークへの入力のサイズを小さくすることでアドバンテージが向上する。 最大性能 (HSI) は0.89(標準偏差 (SD) 0.04) の平均サイス類似係数 (DSC) を得たが、これは波長間変動 (DSC: 0.89 (SD 0.07)) の範囲にある。 HSIは従来の画像よりも多くの利点があり,機能的組織情報を復元する能力など,完全自動手術シーン理解のための強力な画像モダリティとなる可能性が示唆された。

Semantic image segmentation is an important prerequisite for context-awareness and autonomous robotics in surgery. The state of the art has focused on conventional RGB video data acquired during minimally invasive surgery, but full-scene semantic segmentation based on spectral imaging data and obtained during open surgery has received almost no attention to date. To address this gap in the literature, we are investigating the following research questions based on hyperspectral imaging (HSI) data of pigs acquired in an open surgery setting: (1) What is an adequate representation of HSI data for neural network-based fully automated organ segmentation, especially with respect to the spatial granularity of the data (pixels vs. superpixels vs. patches vs. full images)? (2) Is there a benefit of using HSI data compared to other modalities, namely RGB data and processed HSI data (e.g. tissue parameters like oxygenation), when performing semantic organ segmentation? According to a comprehensive validation study based on 506 HSI images from 20 pigs, annotated with a total of 19 classes, deep learning-based segmentation performance increases - consistently across modalities - with the spatial context of the input data. Unprocessed HSI data offers an advantage over RGB data or processed data from the camera provider, with the advantage increasing with decreasing size of the input to the neural network. Maximum performance (HSI applied to whole images) yielded a mean dice similarity coefficient (DSC) of 0.89 (standard deviation (SD) 0.04), which is in the range of the inter-rater variability (DSC of 0.89 (SD 0.07)). We conclude that HSI could become a powerful image modality for fully-automatic surgical scene understanding with many advantages over traditional imaging, including the ability to recover additional functional tissue information.
翻訳日:2021-11-11 14:24:43 公開日:2021-11-09
# 心エコー図による早期心筋梗塞の検出

Early Myocardial Infarction Detection over Multi-view Echocardiography ( http://arxiv.org/abs/2111.05790v1 )

ライセンス: Link先を確認
Aysen Degerli, Serkan Kiranyaz, Tahir Hamid, Rashid Mazhar, and Moncef Gabbouj(参考訳) 心筋梗塞 (mi) は、冠状動脈が心筋に供給される障害によって生じる、世界の主要な死亡原因である。 MIの早期診断とその局在化は早期治療による心筋損傷の程度を軽減できる。 冠動脈閉塞後,虚血性心筋セグメントの局所壁運動異常(RWMA)が最初期の変化である。 心エコー図は任意のrwmaを評価するための基本的なツールである。 左心室壁 (LV) の運動を1例の心エコー図でのみ評価すると, 左心室壁の視認が困難であったため, MIの診断に難渋する可能性がある。 そこで本研究では,mi検出のために合計11の心筋セグメントを解析できるfuse apical 4-chamber (a4c) とapical 2-chamber (a2c) ビューを提案する。 提案手法は, 心内膜境界を抽出・追跡し, 心筋セグメント変位を計算する能動ポリノミアル (APs) によるLV壁の運動を推定する。 これらの特徴はA4CとA2Cのビュー変位から抽出され、MIを検出するために融合して分類器に供給される。 この研究の主な貢献は 1)A4CビューとA2Cビューの両方を合計260枚の心エコー記録に含め、新しいベンチマークデータセットを作成し、研究コミュニティに公開している。 2) 機械学習に基づくアプローチによるしきい値ベースAPの先行作業の性能向上 3)a4cとa2cの情報を融合したマルチビュー心エコー法による先駆的mi検出法 実験の結果,マルチビュー心エコー法によるMI検出では90.91%の感度と86.36%の精度が得られた。

Myocardial infarction (MI) is the leading cause of mortality in the world that occurs due to a blockage of the coronary arteries feeding the myocardium. An early diagnosis of MI and its localization can mitigate the extent of myocardial damage by facilitating early therapeutic interventions. Following the blockage of a coronary artery, the regional wall motion abnormality (RWMA) of the ischemic myocardial segments is the earliest change to set in. Echocardiography is the fundamental tool to assess any RWMA. Assessing the motion of the left ventricle (LV) wall only from a single echocardiography view may lead to missing the diagnosis of MI as the RWMA may not be visible on that specific view. Therefore, in this study, we propose to fuse apical 4-chamber (A4C) and apical 2-chamber (A2C) views in which a total of 11 myocardial segments can be analyzed for MI detection. The proposed method first estimates the motion of the LV wall by Active Polynomials (APs), which extract and track the endocardial boundary to compute myocardial segment displacements. The features are extracted from the A4C and A2C view displacements, which are fused and fed into the classifiers to detect MI. The main contributions of this study are 1) creation of a new benchmark dataset by including both A4C and A2C views in a total of 260 echocardiography recordings, which is publicly shared with the research community, 2) improving the performance of the prior work of threshold-based APs by a Machine Learning based approach, and 3) a pioneer MI detection approach via multi-view echocardiography by fusing the information of A4C and A2C views. Experimental results show that the proposed method achieves 90.91% sensitivity and 86.36% precision for MI detection over multi-view echocardiography.
翻訳日:2021-11-11 14:07:47 公開日:2021-11-09
# AR/VRヘッドセット搭載エゴセントリックカメラによる人体3次元再構築のためのパイプライン

Pipeline for 3D reconstruction of the human body from AR/VR headset mounted egocentric cameras ( http://arxiv.org/abs/2111.05409v1 )

ライセンス: Link先を確認
Shivam Grover, Kshitij Sidana and Vanita Jain(参考訳) 本稿では,自己中心的視点から全身を3次元的に再構築する新しいパイプラインを提案する。 遠心的視点からの人体の3次元再構築は、視野が歪み、カメラから遠く離れた体部が遮蔽されているため、難しい課題である。 例えば、VRヘッドセットの下に設置されたカメラからのビューがある。 この課題を達成するために,まず条件付きGANを用いて,エゴセントリックな視点を全身の第三者の視点に翻訳する。 これにより画像の理解性が向上し、オクルージョンに適応する。 生成された3人称ビューは、体の3Dメッシュを生成する3D再構成モジュールを介してさらに送信される。 また、被験者の3人称フルボディビューを取得し、メッシュに適用するためのテクスチャマップを生成するネットワークをトレーニングします。 生成されたメッシュは、かなり現実的なボディパーセンテージを持ち、リアルタイムアニメーションやゲームでのポーズ転送など、さらなる応用を可能にする。 このアプローチは、モバイルヒューマンテレプレゼンスの新たな領域の鍵となる可能性がある。

In this paper, we propose a novel pipeline for the 3D reconstruction of the full body from egocentric viewpoints. 3-D reconstruction of the human body from egocentric viewpoints is a challenging task as the view is skewed and the body parts farther from the cameras are occluded. One such example is the view from cameras installed below VR headsets. To achieve this task, we first make use of conditional GANs to translate the egocentric views to full body third-person views. This increases the comprehensibility of the image and caters to occlusions. The generated third-person view is further sent through the 3D reconstruction module that generates a 3D mesh of the body. We also train a network that can take the third person full-body view of the subject and generate the texture maps for applying on the mesh. The generated mesh has fairly realistic body proportions and is fully rigged allowing for further applications such as real-time animation and pose transfer in games. This approach can be key to a new domain of mobile human telepresence.
翻訳日:2021-11-11 14:07:17 公開日:2021-11-09
# フレキシブルマルチモーダルトランスフォーマーを用いた集中治療室における臨床成績のマルチタスク予測

Multi-Task Prediction of Clinical Outcomes in the Intensive Care Unit using Flexible Multimodal Transformers ( http://arxiv.org/abs/2111.05431v1 )

ライセンス: Link先を確認
Benjamin Shickel, Patrick J. Tighe, Azra Bihorac, Parisa Rashidi(参考訳) トランスフォーマーモデルアーキテクチャに基づく最近のディープラーニング研究では、コンピュータビジョンと自然言語処理ドメインを中心に、さまざまなドメインやタスクにおける最先端のパフォーマンスが実証されている。 最近の研究では、電子健康記録データを用いた臨床業務用トランスフォーマーを実装しているが、範囲、柔軟性、包括性に制限がある。 本研究では,医療分野特有のデータ属性を生かした既存のワークフローの新たな変更をいくつか導入した,フレキシブルトランスフォーマティブなeer埋め込みパイプラインと予測モデルフレームワークを提案する。 集中治療室のケーススタディにおいて,我々はフレキシブルデザインの実現可能性について紹介した。このモデルでは,複数回の再発と患者の死亡に関連する7つの臨床結果を正確に予測する。

Recent deep learning research based on Transformer model architectures has demonstrated state-of-the-art performance across a variety of domains and tasks, mostly within the computer vision and natural language processing domains. While some recent studies have implemented Transformers for clinical tasks using electronic health records data, they are limited in scope, flexibility, and comprehensiveness. In this study, we propose a flexible Transformer-based EHR embedding pipeline and predictive model framework that introduces several novel modifications of existing workflows that capitalize on data attributes unique to the healthcare domain. We showcase the feasibility of our flexible design in a case study in the intensive care unit, where our models accurately predict seven clinical outcomes pertaining to readmission and patient mortality over multiple future time horizons.
翻訳日:2021-11-11 14:05:22 公開日:2021-11-09
# ラベル雑音下におけるロバスト学習のための制約付きインスタンスとクラス重み付け

Constrained Instance and Class Reweighting for Robust Learning under Label Noise ( http://arxiv.org/abs/2111.05428v1 )

ライセンス: Link先を確認
Abhishek Kumar, Ehsan Amid(参考訳) 深層ニューラルネットワークは教師付き学習において素晴らしいパフォーマンスを示しており、提供されるトレーニングデータに適合する能力を備えている。 しかし、その性能はトレーニングデータの品質に大きく依存しており、ノイズの存在下では劣化することが多い。 個々のインスタンスとクラスラベルに重要度重みを割り当てることを目的として,ラベルノイズに取り組むための原則的アプローチを提案する。 本手法は,これらの重み付けに対して単純な閉形式更新をもたらす制約付き最適化問題のクラスを定式化する。 提案した最適化問題は、データセット全体の重み付けを保存および更新する必要がなくなるミニバッチ毎に解決される。 我々の最適化フレームワークは、ラベルノイズ(ラベルブートストラッピングなど)に対処するための既存のラベルスムーズなヒューリスティックに関する理論的視点も提供する。 提案手法を複数のベンチマークデータセット上で評価し,ラベルノイズの有無でかなりの性能向上を示す。

Deep neural networks have shown impressive performance in supervised learning, enabled by their ability to fit well to the provided training data. However, their performance is largely dependent on the quality of the training data and often degrades in the presence of noise. We propose a principled approach for tackling label noise with the aim of assigning importance weights to individual instances and class labels. Our method works by formulating a class of constrained optimization problems that yield simple closed form updates for these importance weights. The proposed optimization problems are solved per mini-batch which obviates the need of storing and updating the weights over the full dataset. Our optimization framework also provides a theoretical perspective on existing label smoothing heuristics for addressing label noise (such as label bootstrapping). We evaluate our method on several benchmark datasets and observe considerable performance gains in the presence of label noise.
翻訳日:2021-11-11 14:04:23 公開日:2021-11-09
# (参考訳) TaCL: Token-Aware Contrastive Learning によるBERT事前学習の改善 [全文訳有]

TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning ( http://arxiv.org/abs/2111.04198v2 )

ライセンス: CC BY 4.0
Yixuan Su and Fangyu Liu and Zaiqiao Meng and Lei Shu and Ehsan Shareghi and Nigel Collier(参考訳) BERTやRoBERTaのような仮面言語モデル(MLM)は、ここ数年で自然言語理解の分野に革命をもたらした。 しかし、既存の事前訓練されたmlmsは、しばしば表現空間全体の狭い部分集合を占めるトークン表現の異方性分布を出力する。 このようなトークン表現は、特に異なるトークンの識別意味の意味を要求されるタスクにとって理想的ではない。 本研究では,トークン表現の等方的,差別的な分布をBERTが学習することを奨励する,新たな事前学習手法であるTaCL(Token-aware Contrastive Learning)を提案する。 TaCLは完全に教師なしで、追加のデータを必要としない。 我々は、幅広い英語と中国語のベンチマークで我々のアプローチを広範囲にテストした。 その結果、TaCLはBERTモデルよりも一貫性があり、注目すべき改善をもたらすことがわかった。 さらに,このアプローチのメリットと内部動作を明らかにするために,詳細な分析を行う。

Masked language models (MLMs) such as BERT and RoBERTa have revolutionized the field of Natural Language Understanding in the past few years. However, existing pre-trained MLMs often output an anisotropic distribution of token representations that occupies a narrow subset of the entire representation space. Such token representations are not ideal, especially for tasks that demand discriminative semantic meanings of distinct tokens. In this work, we propose TaCL (Token-aware Contrastive Learning), a novel continual pre-training approach that encourages BERT to learn an isotropic and discriminative distribution of token representations. TaCL is fully unsupervised and requires no additional data. We extensively test our approach on a wide range of English and Chinese benchmarks. The results show that TaCL brings consistent and notable improvements over the original BERT model. Furthermore, we conduct detailed analysis to reveal the merits and inner-workings of our approach.
翻訳日:2021-11-11 13:10:27 公開日:2021-11-09
# 乳がんサブタイプ分類のための深層学習モデル

Deep Learning Based Model for Breast Cancer Subtype Classification ( http://arxiv.org/abs/2111.03923v2 )

ライセンス: Link先を確認
Sheetal Rajpal, Virendra Kumar, Manoj Agarwal, Naveen Kumar(参考訳) 乳がんは長い間、女性の間で大きな死因となっている。 遺伝子発現データを記録できるRNAシークエンシングツールが利用可能になったことにより、診断、治療、予後が可能になった。 本研究は,乳がんの4つのサブタイプ(Basal,Her2,LumA,Lum B)の分類における遺伝子発現データの利用に焦点を当てた。 ステージ1では,自己エンコーダを用いて次元を減少させる深層学習モデルを提案する。 オートエンコーダを用いて、特徴セットのサイズを20,530の遺伝子発現値から500に縮小する。 このエンコードされた表現は、患者を乳がんの4つの分子サブタイプに分類するために第2段階のディープニューラルネットワークに渡される。 ステージ1とステージ2の組み合わせネットワークをデプロイすることで,tga乳がんデータセット上で平均10倍のテスト精度0.907を達成することができた。 提案されたフレームワークは、分類精度のためにboxplotで示されているように、10の異なる実行でかなり堅牢である。 文献で報告された関連研究と比較して,我々は競争的な結果を得た。 その結果,提案する2段階のディープラーニングモデルでは,乳がんの4つのサブタイプを正確に分類することが可能であり,コンパクト表現を推定するオートエンコーダの能力と,乳がんを正しく分類するニューラルネットワーク分類器の能力が強調された。

Breast cancer has long been a prominent cause of mortality among women. Diagnosis, therapy, and prognosis are now possible, thanks to the availability of RNA sequencing tools capable of recording gene expression data. Molecular subtyping being closely related to devising clinical strategy and prognosis, this paper focuses on the use of gene expression data for the classification of breast cancer into four subtypes, namely, Basal, Her2, LumA, and LumB. In stage 1, we suggested a deep learning-based model that uses an autoencoder to reduce dimensionality. The size of the feature set is reduced from 20,530 gene expression values to 500 by using an autoencoder. This encoded representation is passed to the deep neural network of the second stage for the classification of patients into four molecular subtypes of breast cancer. By deploying the combined network of stages 1 and 2, we have been able to attain a mean 10-fold test accuracy of 0.907 on the TCGA breast cancer dataset. The proposed framework is fairly robust throughout 10 different runs, as shown by the boxplot for classification accuracy. Compared to related work reported in the literature, we have achieved a competitive outcome. In conclusion, the proposed two-stage deep learning-based model is able to accurately classify four breast cancer subtypes, highlighting the autoencoder's capacity to deduce the compact representation and the neural network classifier's ability to correctly label breast cancer patients.
翻訳日:2021-11-11 12:04:42 公開日:2021-11-09
# (参考訳) グリッド世界の規則的決定過程 [全文訳有]

Regular Decision Processes for Grid Worlds ( http://arxiv.org/abs/2111.03647v2 )

ライセンス: CC BY 4.0
Nicky Lenaers and Martijn van Otterlo(参考訳) マルコフ決定プロセスは一般に不確実性下での逐次意思決定に使用される。 しかし、多くの面において、制約のある仕様や安全な仕様からタスクや報酬構造における様々な時間的(非マルコフ的)依存まで、拡張が必要である。 この目的のために、近年、強化学習と時間論理の組み合わせ、すなわち、堅牢な検証と保証を備えた柔軟な行動学習手法の組み合わせに注目が集まっている。 本稿では,最近導入された非マルコフ報酬関数と遷移関数の両方をサポートする規則的決定過程について実験的に検討する。 特に、正規決定プロセスのためのツールチェーン、オンライン、インクリメンタルラーニングに関連するアルゴリズム拡張、モデルフリーおよびモデルベースソリューションアルゴリズムの実証的評価、そして正規だが非マルコフ的グリッドワールドにおける応用を提供する。

Markov decision processes are typically used for sequential decision making under uncertainty. For many aspects however, ranging from constrained or safe specifications to various kinds of temporal (non-Markovian) dependencies in task and reward structures, extensions are needed. To that end, in recent years interest has grown into combinations of reinforcement learning and temporal logic, that is, combinations of flexible behavior learning methods with robust verification and guarantees. In this paper we describe an experimental investigation of the recently introduced regular decision processes that support both non-Markovian reward functions as well as transition functions. In particular, we provide a tool chain for regular decision processes, algorithmic extensions relating to online, incremental learning, an empirical evaluation of model-free and model-based solution algorithms, and applications in regular, but non-Markovian, grid worlds.
翻訳日:2021-11-11 07:40:17 公開日:2021-11-09
# (参考訳) トランスフォーマーを用いたt2 mriにおけるリンパ節の検出 [全文訳有]

Lymph Node Detection in T2 MRI with Transformers ( http://arxiv.org/abs/2111.04885v1 )

ライセンス: CC BY 4.0
Tejas Sudharshan Mathai, Sungwon Lee, Daniel C. Elton, Thomas C. Shen, Yifan Peng, Zhiyong Lu, and Ronald M. Summers(参考訳) T2 Magnetic Resonance Imaging (MRI) におけるリンパ節の同定は, リンパ増殖疾患の評価において, 放射線技師が行う重要なステップである。 ノードのサイズはステージングにおいて重要な役割を担い、放射線学者は拡散強調画像(DWI)のような追加のコントラスト配列を用いることがある。 しかし、リンパ節はT2 MRIスキャンに多彩な外観を持ち、転移の進行が困難である。 さらに、放射線医は忙しい日により小さな転移性リンパ節を見逃すことが多い。 これらの問題に対処するために,detr( detection transformer)ネットワークを用いて疑わしい転移リンパ節を局在化し,異なるスキャナーと検査プロトコルで取得されたt2 mriスキャンに挑戦する。 偽陽性 (fp) は境界ボックス融合法で減少し, 精度65.41\%, 感度91.66\%で画像4fpで得られた。 私たちの知る限りでは,t2 mriスキャンにおけるリンパ節検出の現状を改善した。

Identification of lymph nodes (LN) in T2 Magnetic Resonance Imaging (MRI) is an important step performed by radiologists during the assessment of lymphoproliferative diseases. The size of the nodes play a crucial role in their staging, and radiologists sometimes use an additional contrast sequence such as diffusion weighted imaging (DWI) for confirmation. However, lymph nodes have diverse appearances in T2 MRI scans, making it tough to stage for metastasis. Furthermore, radiologists often miss smaller metastatic lymph nodes over the course of a busy day. To deal with these issues, we propose to use the DEtection TRansformer (DETR) network to localize suspicious metastatic lymph nodes for staging in challenging T2 MRI scans acquired by different scanners and exam protocols. False positives (FP) were reduced through a bounding box fusion technique, and a precision of 65.41\% and sensitivity of 91.66\% at 4 FP per image was achieved. To the best of our knowledge, our results improve upon the current state-of-the-art for lymph node detection in T2 MRI scans.
翻訳日:2021-11-10 23:32:07 公開日:2021-11-09
# (参考訳) ニューラルネットワークアンサンブルを用いたCTスキャンにおけるユニバーサル病変検出 [全文訳有]

Universal Lesion Detection in CT Scans using NeuralNetwork Ensembles ( http://arxiv.org/abs/2111.04886v1 )

ライセンス: CC BY 4.0
Tarun Mattikalli, Tejas Sudharshan Mathai, and Ronald M. Summers(参考訳) 臨床において、放射線科医は転移性疾患と非転移性疾患を区別する場合の病変の大きさに依存する。 病変サイズ測定の前提条件は、腫瘍スプライドの下流評価を促進するため、その検出である。 しかし、ctスキャンでは病変の大きさや外観が異なり、放射線科医は多忙な臨床日に小さな病変を見逃すことが多い。 これらの課題を克服するために,nih deeplesionデータセットに存在する疑わしい病変を識別するための最先端検出ニューラルネットワークの利用を提案する。 さらに,false positives (fp) を最小化し,検出精度を向上させるバウンディングボックス融合技術も導入した。 最後に, 画像毎の65.17%の精度と91.67%の感度で, 病変の局在を推定するための最良の検出モデルのアンサンブルを構築した。 本研究は,CT検査における病変検出法の現状を改善または維持する。

In clinical practice, radiologists are reliant on the lesion size when distinguishing metastatic from non-metastaticlesion s. A prerequisite for lesion sizing is their detection, as it promotes the downstream assessment of tumorspread. However, lesions vary in their size and appearance in CT scans, and radiologists often miss small lesionsduring a busy clinical day. To overcome these challenges, we propose the use of state-of-the-art detection neuralnetworks to flag suspicious lesions present in the NIH DeepLesion dataset for sizing. Additionally, we incorporatea bounding box fusion technique to minimize false positives (FP) and improve detection accuracy. Finally, toresemble clinical usage, we constructed an ensemble of the best detection models to localize lesions for sizingwith a precision of 65.17% and sensitivity of 91.67% at 4 FP per image. Our results improve upon or maintainthe performance of current state-of-the-art methods for lesion detection in challenging CT scans.
翻訳日:2021-11-10 23:26:35 公開日:2021-11-09
# (参考訳) $\ell_2$ Normを超える線形回帰のためのアクティブサンプリング

Active Sampling for Linear Regression Beyond the $\ell_2$ Norm ( http://arxiv.org/abs/2111.04888v1 )

ライセンス: CC BY 4.0
Cameron Musco, Christopher Musco, David P. Woodruff, Taisuke Yasuda(参考訳) 対象ベクトル $b\in\mathbb{R}^n$ の少数のエントリのみを問合せし、近小数点を $\min_{x\in\mathbb{R}^d}\|Ax-b\|$ に出力する線形回帰のアクティブサンプリングアルゴリズムについて検討する。 任意の$0<p<\infty$ に対して$\ell_p$ のノルム回帰に対して、lewisの重みサンプリングに基づくアルゴリズムを与え、$(1+\epsilon)$ の近似解を$\tilde{o}(d^{\max(1,{p/2})}/\mathrm{poly}(\epsilon))$ のクエリで出力する。 我々はこの$d$への依存が対数的要因まで最適であることを示す。 その結果、chen と derezi\'{n}ski は、$\ell_1$ のノルムに対してほぼ最適境界を与え、$p\in(1,2)$ で$\ell_p$ の回帰に対して準最適境界を与えた。 また、多項式成長度が最大となる損失関数に対して、最初の全感度上限である$o(d^{\max\{1,p/2\}}\log^2 n)$を提供する。 これはTukan、Maalouf、Feldmanの最近の結果を改善する。 これを $\ell_p$ 回帰結果の手法と組み合わせることで、 $\tilde O(d^{1+\max\{1,p/2\}}/\mathrm{poly}(\epsilon))$ クエリのアクティブ回帰アルゴリズムが得られ、Chen と Derezi\'{n}ski の別のオープンな質問に答える。 ハマー損失の重要な特別な場合に対して、我々はさらに $\tilde O(d^{(1+\sqrt2)/2}/\epsilon^c)$ と $\tilde O(d^{4-2\sqrt 2}/\epsilon^c)$ の非活性サンプル複雑性へのバウンドを改善し、クラークソンとウッドラフによるハマー回帰に対する以前の$d^4$バウンドを改善する。 我々の感度境界はさらに意味を持ち、orliczノルム部分空間埋め込みやロバスト部分空間近似など、感度サンプリングを用いて様々な結果を改善する。 最後に、我々のアクティブサンプリング結果は、$\ell_p$ノルムごとにクロネッカー積回帰に対する最初の部分線形時間アルゴリズムを与える。

We study active sampling algorithms for linear regression, which aim to query only a small number of entries of a target vector $b\in\mathbb{R}^n$ and output a near minimizer to $\min_{x\in\mathbb{R}^d}\|Ax-b\|$, where $A\in\mathbb{R}^{n \times d}$ is a design matrix and $\|\cdot\|$ is some loss function. For $\ell_p$ norm regression for any $0<p<\infty$, we give an algorithm based on Lewis weight sampling that outputs a $(1+\epsilon)$ approximate solution using just $\tilde{O}(d^{\max(1,{p/2})}/\mathrm{poly}(\epsilon))$ queries to $b$. We show that this dependence on $d$ is optimal, up to logarithmic factors. Our result resolves a recent open question of Chen and Derezi\'{n}ski, who gave near optimal bounds for the $\ell_1$ norm, and suboptimal bounds for $\ell_p$ regression with $p\in(1,2)$. We also provide the first total sensitivity upper bound of $O(d^{\max\{1,p/2\}}\log^2 n)$ for loss functions with at most degree $p$ polynomial growth. This improves a recent result of Tukan, Maalouf, and Feldman. By combining this with our techniques for the $\ell_p$ regression result, we obtain an active regression algorithm making $\tilde O(d^{1+\max\{1,p/2\}}/\mathrm{poly}(\epsilon))$ queries, answering another open question of Chen and Derezi\'{n}ski. For the important special case of the Huber loss, we further improve our bound to an active sample complexity of $\tilde O(d^{(1+\sqrt2)/2}/\epsilon^c)$ and a non-active sample complexity of $\tilde O(d^{4-2\sqrt 2}/\epsilon^c)$, improving a previous $d^4$ bound for Huber regression due to Clarkson and Woodruff. Our sensitivity bounds have further implications, improving a variety of previous results using sensitivity sampling, including Orlicz norm subspace embeddings and robust subspace approximation. Finally, our active sampling results give the first sublinear time algorithms for Kronecker product regression under every $\ell_p$ norm.
翻訳日:2021-11-10 23:21:46 公開日:2021-11-09
# (参考訳) 局所一般化線形関数近似を用いた安全政策最適化 [全文訳有]

Safe Policy Optimization with Local Generalized Linear Function Approximations ( http://arxiv.org/abs/2111.04894v1 )

ライセンス: CC BY 4.0
Akifumi Wachi, Yunyue Wei, Yanan Sui(参考訳) 安全探索は、安全クリティカルシステムに強化学習(RL)を適用する鍵となる。 既存の安全探査手法は, 規則性を考慮した安全を保証しており, 大規模現実問題に適用することは困難である。 本稿では,センサによって得られる局所的特徴と一般線形関数近似を用いた環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。 我々はその安全性と最適性を理論的に保証する。 実験によって 我々のアルゴリズムが 1)サンプルの複雑さと計算コストの面でより効率的である。 2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用できる。 3) 従来の深部RL法と比較すると, 試料効率と安全性は良好であった。

Safe exploration is a key to applying reinforcement learning (RL) in safety-critical systems. Existing safe exploration methods guaranteed safety under the assumption of regularity, and it has been difficult to apply them to large-scale real problems. We propose a novel algorithm, SPO-LF, that optimizes an agent's policy while learning the relation between a locally available feature obtained by sensors and environmental reward/safety using generalized linear function approximations. We provide theoretical guarantees on its safety and optimality. We experimentally show that our algorithm is 1) more efficient in terms of sample complexity and computational cost and 2) more applicable to large-scale problems than previous safe RL methods with theoretical guarantees, and 3) comparably sample-efficient and safer compared with existing advanced deep RL methods with safety constraints.
翻訳日:2021-11-10 23:19:47 公開日:2021-11-09
# (参考訳) 長期分類のためのラベル認識分布校正 [全文訳有]

Label-Aware Distribution Calibration for Long-tailed Classification ( http://arxiv.org/abs/2111.04901v1 )

ライセンス: CC BY 4.0
Chaozheng Wang, Shuzheng Gao, Cuiyun Gao, Pengyun Wang, Wenjie Pei, Lujia Pan, Zenglin Xu(参考訳) 現実世界のデータは通常、ロングテール分布を示す。 不均衡なデータのトレーニングは、ニューラルネットワークがヘッドクラスでうまく機能する一方で、テールクラスでははるかに悪化する傾向にある。 テールクラスのトレーニングインスタンスの厳密なスパース性は、トレーニング中に偏りのある分布推定をもたらす主な課題である。 データの再サンプリングやテールクラスの新しいトレーニングインスタンスの合成など、多くの努力が課題の改善に費やされている。 しかし、テールクラスの分布を校正するために、ヘッドクラスからテールクラスへ移行可能な知識を利用した先行研究は行われていない。 本稿では,類似のヘッドクラスによってテールクラスを豊かにすることができると仮定し,ラベル・アウェア分布校正 LADC という新しい分布校正手法を提案する。 LADCは関連するヘッドクラスから統計を転送し、テールクラスの分布を推測する。 校正分布からのサンプリングはさらに、分類器の再バランスを容易にする。 画像とテキストのロングテールデータセットによる実験では、LADCが既存の手法よりも大幅に優れており、可視化により、LADCがより正確な分布推定を提供することを示す。

Real-world data usually present long-tailed distributions. Training on imbalanced data tends to render neural networks perform well on head classes while much worse on tail classes. The severe sparseness of training instances for the tail classes is the main challenge, which results in biased distribution estimation during training. Plenty of efforts have been devoted to ameliorating the challenge, including data re-sampling and synthesizing new training instances for tail classes. However, no prior research has exploited the transferable knowledge from head classes to tail classes for calibrating the distribution of tail classes. In this paper, we suppose that tail classes can be enriched by similar head classes and propose a novel distribution calibration approach named as label-Aware Distribution Calibration LADC. LADC transfers the statistics from relevant head classes to infer the distribution of tail classes. Sampling from calibrated distribution further facilitates re-balancing the classifier. Experiments on both image and text long-tailed datasets demonstrate that LADC significantly outperforms existing methods.The visualization also shows that LADC provides a more accurate distribution estimation.
翻訳日:2021-11-10 22:53:17 公開日:2021-11-09
# (参考訳) FPM: 大規模ファンデーション事前訓練言語モデルのコレクション [全文訳有]

FPM: A Collection of Large-scale Foundation Pre-trained Language Models ( http://arxiv.org/abs/2111.04909v1 )

ライセンス: CC BY 4.0
Dezhou Shen(参考訳) 言語モデリングにおける最近の研究は、大規模なトランスフォーマーモデルのトレーニングが、自然言語処理アプリケーションの最新の開発を促進することを示している。 しかし、現在の効果的なモデルを統一する作業はほとんどない。 本研究では,現行の有効なモデル構造を用いて,現在の主流技術を通じたモデルセットをローンチする。 将来的にはこれが基本モデルになると思います。 中国語では、GPT-2[9]モデルを使用して、103億のパラメータ言語モデルを中国語データセットでトレーニングし、特に対話データに基づく29億のパラメータ言語モデルを訓練し、BERTモデルは中国語データセットで495万のパラメータでトレーニングし、Transformerモデルは中国語データセットで56億のパラメータを持つ言語モデルを訓練した。 英語では、対応する訓練も行われている。 gpt-2モデルを使用して、英語データセット上で640億のパラメータを持つ言語モデルをトレーニングし、bert[3]モデルは英語データセット上で124億のパラメータを持つ言語モデルをトレーニングし、特にシングルカードトレーニング技術に基づく6億8800万のパラメータをトレーニングした。 CLUE[13]により評価されたTNEWS分類タスクにおいて,BERT-CモデルはALBERT-xxlargeの59.46%の精度,59.99%の精度,0.53%の精度を示した。 glue[11]によって評価されたqqp分類タスクでは、78.95%の精度が72.1%のbert-largeの精度を上回り、6.85%の増加となった。 ERNIEの現在の精度と比較すると、GLUEの75.2%の評価では3.75%上昇した。

Recent work in language modeling has shown that training large-scale Transformer models has promoted the latest developments in natural language processing applications. However, there is very little work to unify the current effective models. In this work, we use the current effective model structure to launch a model set through the current most mainstream technology. We think this will become the basic model in the future. For Chinese, using the GPT-2[9] model, a 10.3 billion parameter language model was trained on the Chinese dataset, and, in particular, a 2.9 billion parameter language model based on dialogue data was trained; the BERT model was trained on the Chinese dataset with 495 million parameters; the Transformer model has trained a language model with 5.6 billion parameters on the Chinese dataset. In English, corresponding training work has also been done. Using the GPT-2 model, a language model with 6.4 billion parameters was trained on the English dataset; the BERT[3] model trained a language model with 1.24 billion parameters on the English dataset, and in particular, it trained a 688 million parameter based on single card training technology Language model; Transformer model trained a language model with 5.6 billion parameters on the English dataset. In the TNEWS classification task evaluated by CLUE[13], the BERT-C model exceeded the 59.46% accuracy of ALBERT-xxlarge with an accuracy rate of 59.99%, an increase of 0.53%. In the QQP classification task evaluated by GLUE[11], the accuracy rate of 78.95% surpassed the accuracy rate of BERT-Large of 72.1%, an increase of 6.85%. Compared with the current accuracy rate of ERNIE, the first place in the GLUE evaluation of 75.2%, an increase of 3.75%.
翻訳日:2021-11-10 22:41:25 公開日:2021-11-09
# (参考訳) 留意点とマルチスケール特徴融合を用いた手術器具のリアルタイムインスタンス分割 [全文訳有]

Real-time Instance Segmentation of Surgical Instruments using Attention and Multi-scale Feature Fusion ( http://arxiv.org/abs/2111.04911v1 )

ライセンス: CC BY 4.0
Juan Carlos Angeles-Ceron, Gilberto Ochoa-Ruiz, Leonardo Chang, Sharib Ali(参考訳) 精密機器のセグメンテーションは、外科医がより容易に体をナビゲートし、患者の安全を高めるのに役立つ。 手術器具のリアルタイム正確な追跡は, 最小侵襲型コンピュータ支援手術において重要な役割を担っているが, 主に課題である。 1)複雑な手術環境,及び 2)最適精度と速度の両立したモデル設計。 ディープラーニングは、大規模な手術シーン環境から複雑な環境を学ぶ機会を与え、これらの機器を現実世界のシナリオで配置する。 Robust Medical Instrument Segmentation 2019 Challenge (ROBUST-MIS)は、1万フレーム以上の手術器具を異なる臨床環境で提供する。 本稿では,畳み込みブロックアテンションモジュールを補完する軽量単段インスタンスセグメンテーションモデルを用いて,高速かつ高精度な推論を実現する。 データ拡張と最適なアンカーローカライゼーション戦略により、精度をさらに向上する。 私たちの知る限り、これはリアルタイムパフォーマンスと精度向上の両方に明示的に焦点をあてた最初の作業です。 ROBUST-MISチャレンジでは,地域単位のMI_DSCと距離単位のMI_NSDを44%以上改善した。 また、最終アプローチの異なるが競合的なバリエーションでリアルタイムパフォーマンス(60フレーム/秒)を実演しています。

Precise instrument segmentation aid surgeons to navigate the body more easily and increase patient safety. While accurate tracking of surgical instruments in real-time plays a crucial role in minimally invasive computer-assisted surgeries, it is a challenging task to achieve, mainly due to 1) complex surgical environment, and 2) model design with both optimal accuracy and speed. Deep learning gives us the opportunity to learn complex environment from large surgery scene environments and placements of these instruments in real world scenarios. The Robust Medical Instrument Segmentation 2019 challenge (ROBUST-MIS) provides more than 10,000 frames with surgical tools in different clinical settings. In this paper, we use a light-weight single stage instance segmentation model complemented with a convolutional block attention module for achieving both faster and accurate inference. We further improve accuracy through data augmentation and optimal anchor localisation strategies. To our knowledge, this is the first work that explicitly focuses on both real-time performance and improved accuracy. Our approach out-performed top team performances in the ROBUST-MIS challenge with over 44% improvement on both area-based metric MI_DSC and distance-based metric MI_NSD. We also demonstrate real-time performance (> 60 frames-per-second) with different but competitive variants of our final approach.
翻訳日:2021-11-10 22:27:08 公開日:2021-11-09
# (参考訳) AI対応のRSEワークフォースの構築 [全文訳有]

Building an AI-ready RSE Workforce ( http://arxiv.org/abs/2111.04916v1 )

ライセンス: CC BY 4.0
Ying Zhang (1), Matthew A. Gitzendanner (1), Dan S. Maxwell (1), Justin W. Richardson (1), Kaleb E. Smith (2), Eric A. Stubbs (1), Brian J. Stucky (1), Jingchao Zhang (2), Erik Deumens (1) ((1) University of Florida, (2) NVIDIA)(参考訳) 人工知能は世界中の産業や学術研究に変化をもたらしており、研究ソフトウェア開発も例外ではない。 機械学習とディープラーニングは、新しいアルゴリズム設計パラダイムからソフトウェア開発プロセスまで、研究ソフトウェア開発ライフサイクルのあらゆる側面に適用されている。 本稿では,AIが研究ソフトウェア開発と技術者に提示した今日の課題と機会,そしてフロリダ大学における新たなAI時代の労働力を準備するためのアプローチについて論じる。

Artificial Intelligence has been transforming industries and academic research across the globe, and research software development is no exception. Machine learning and deep learning are being applied in every aspect of the research software development lifecycles, from new algorithm design paradigms to software development processes. In this paper, we discuss our views on today's challenges and opportunities that AI has presented on research software development and engineers, and the approaches we, at the University of Florida, are taking to prepare our workforce for the new era of AI.
翻訳日:2021-11-10 21:49:42 公開日:2021-11-09
# (参考訳) DSBERT:BERTを用いた教師なし対話構造学習 [全文訳有]

DSBERT:Unsupervised Dialogue Structure learning with BERT ( http://arxiv.org/abs/2111.04933v1 )

ライセンス: CC BY 4.0
Bingkun Chen, Shaobing Dai, Shenghua Zheng, Lei Liao, Yang Li(参考訳) 教師なし対話構造学習は自然言語処理において重要かつ有意義なタスクである。 抽出された対話構造とプロセスは、人間の対話の分析に役立ち、対話システムの設計と評価において重要な役割を果たす。 従来の対話システムでは、専門家が手動で対話構造を設計する必要がある。 しかし、教師なし対話構造学習により、対話構造が自動的に得られ、開発者が対話プロセスを構築するコストを削減できる。 学習された対話構造は、下流タスクシステムの対話生成を促進し、対話ロボットの応答の論理と一貫性を向上させるために利用することができ、本論文では、バートをベースとした教師なし対話構造学習アルゴリズムDSBERTを提案する。 従来のSOTAモデルであるVRNNとSVRNNとは異なり、BERTとAutoEncoderを組み合わせることで、コンテキスト情報を効果的に組み合わせることができる。 モデルが局所最適解に陥るのを防止し、対話状態の分布をより均一かつ合理的にするため、対話構造学習に使用できる3つのバランスの取れた損失関数も提案する。 実験の結果,DSBERTは実構造に近い対話構造を生成でき,意味の異なる文を識別し,異なる隠れ状態にマッピングすることができることがわかった。

Unsupervised dialogue structure learning is an important and meaningful task in natural language processing. The extracted dialogue structure and process can help analyze human dialogue, and play a vital role in the design and evaluation of dialogue systems. The traditional dialogue system requires experts to manually design the dialogue structure, which is very costly. But through unsupervised dialogue structure learning, dialogue structure can be automatically obtained, reducing the cost of developers constructing dialogue process. The learned dialogue structure can be used to promote the dialogue generation of the downstream task system, and improve the logic and consistency of the dialogue robot's reply.In this paper, we propose a Bert-based unsupervised dialogue structure learning algorithm DSBERT (Dialogue Structure BERT). Different from the previous SOTA models VRNN and SVRNN, we combine BERT and AutoEncoder, which can effectively combine context information. In order to better prevent the model from falling into the local optimal solution and make the dialogue state distribution more uniform and reasonable, we also propose three balanced loss functions that can be used for dialogue structure learning. Experimental results show that DSBERT can generate a dialogue structure closer to the real structure, can distinguish sentences with different semantics and map them to different hidden states.
翻訳日:2021-11-10 21:46:16 公開日:2021-11-09
# (参考訳) アクティブラーニング理解のためのインタラクティブ可視化ツール [全文訳有]

An Interactive Visualization Tool for Understanding Active Learning ( http://arxiv.org/abs/2111.04936v1 )

ライセンス: CC BY-SA 4.0
Zihan Wang, Jialin Lu, Oliver Snow, Martin Ester(参考訳) 最近の人工知能と機械学習の進歩にもかかわらず、最先端の手法の多くは説明可能性と透明性の欠如に苦しんでいる。 機械学習モデルによる予測を解釈し、これらのモデルを正確に評価する能力は極めて重要である。 本稿では,アクティブラーニングの学習過程を明らかにするためのインタラクティブな可視化ツールを提案する。 このツールは、興味深いデータポイントのサンプルを選択し、異なるクエリ段階でそれらの予測値がどのように変化するかを確認し、アクティブな学習がいつどのように機能するかをよりよく理解することができる。 さらに、ユーザはこのツールを使用して、異なるアクティブな学習戦略を同時に比較し、ある戦略が特定の文脈で他の戦略より優れている理由を調べることができる。 いくつかの予備実験により、可視化パネルが様々なアクティブな学習実験に利用でき、ユーザが適切なモデルを評価するのに役立つことを示す。

Despite recent progress in artificial intelligence and machine learning, many state-of-the-art methods suffer from a lack of explainability and transparency. The ability to interpret the predictions made by machine learning models and accurately evaluate these models is crucially important. In this paper, we present an interactive visualization tool to elucidate the training process of active learning. This tool enables one to select a sample of interesting data points, view how their prediction values change at different querying stages, and thus better understand when and how active learning works. Additionally, users can utilize this tool to compare different active learning strategies simultaneously and inspect why some strategies outperform others in certain contexts. With some preliminary experiments, we demonstrate that our visualization panel has a great potential to be used in various active learning experiments and help users evaluate their models appropriately.
翻訳日:2021-11-10 21:33:28 公開日:2021-11-09
# (参考訳) 事象抽出によるアメリカのヘイト犯罪傾向予測 [全文訳有]

American Hate Crime Trends Prediction with Event Extraction ( http://arxiv.org/abs/2111.04951v1 )

ライセンス: CC BY 4.0
Songqiao Han, Hailiang Huang, Jiangwei Liu, Shengsheng Xiao(参考訳) ソーシャルメディアプラットフォームは、ヘイトスピーチを含む言論の場を提供する可能性があり、さらに悪いことに、ヘイト犯罪の伝播メカニズムとして機能する可能性がある。 FBIのUniform Crime Reporting(UCR)プログラムはヘイトクライムデータを収集し、統計レポートを毎年リリースしている。 これらの統計は、国家的憎悪犯罪の傾向を決定する情報を提供する。 この統計は、法執行機関に価値ある全体主義的かつ戦略的洞察を与えることもできるし、特定の立法について議員を正当化することもできる。 しかし、レポートは大部分が来年リリースされ、すぐに多くのニーズに遅れている。 最近の研究は主にソーシャルメディアのテキストにおけるヘイトスピーチの検出や、確認された犯罪の影響に関する実証研究に焦点を当てている。 本稿は,まずテキストマイニング技術を用いてnew york timesのニュースからヘイトクライムイベントを抽出し,その結果を用いて米国の全国レベルおよび州レベルのヘイトクライムトレンドの予測を容易にする枠組みを提案する。 実験の結果, 本手法は, 時系列法や回帰法と比較して, 予測性能を大幅に向上できることがわかった。 我々の枠組みは、国家レベルおよび国家レベルのヘイトクライムトレンド予測の方法を広げる。

Social media platforms may provide potential space for discourses that contain hate speech, and even worse, can act as a propagation mechanism for hate crimes. The FBI's Uniform Crime Reporting (UCR) Program collects hate crime data and releases statistic report yearly. These statistics provide information in determining national hate crime trends. The statistics can also provide valuable holistic and strategic insight for law enforcement agencies or justify lawmakers for specific legislation. However, the reports are mostly released next year and lag behind many immediate needs. Recent research mainly focuses on hate speech detection in social media text or empirical studies on the impact of a confirmed crime. This paper proposes a framework that first utilizes text mining techniques to extract hate crime events from New York Times news, then uses the results to facilitate predicting American national-level and state-level hate crime trends. Experimental results show that our method can significantly enhance the prediction performance compared with time series or regression methods without event-related factors. Our framework broadens the methods of national-level and state-level hate crime trends prediction.
翻訳日:2021-11-10 21:27:18 公開日:2021-11-09
# (参考訳) FDG-PET画像を用いた早期アルツハイマー病診断のためのバイリニアプールとメートル法学習ネットワーク [全文訳有]

Bilinear pooling and metric learning network for early Alzheimer's disease identification with FDG-PET images ( http://arxiv.org/abs/2111.04985v1 )

ライセンス: CC BY 4.0
Wenju Cui, Caiying Yan, Zhuangzhi Yan, Yunsong Peng, Yilin Leng, Chenlu Liu, Shuangqing Chen, Xi Jiang(参考訳) FDG-PETは軽度認知障害(MCI)とアルツハイマー病(AD)の患者において脳代謝の変化を示す。 CAD(Computer-Aided-d iagnosis)技術によるFDG-PET由来のバイオマーカーは、正常制御(NC)、MCI、ADを正確に診断できることが証明されている。 しかし,FDG-PET画像による早期MCI(EMCI)と後期MCI(LMCI)の同定はいまだに不十分である。 FDG-PET画像における領域間表現機能の研究は,fMRIおよびDTI画像に基づく研究と比較して不十分である。 さらに,異なる個体の変動性を考慮すると,両クラスとも非常に類似した硬いサンプルによって分類性能が制限される。 そこで本研究では,地域間表現の特徴を抽出し,埋め込み空間を構築することでハードサンプルを識別できる,新しい双線形プーリング・メトリック学習ネットワーク(BMNet)を提案する。 提案手法を検証するため,ADNIから998個のFDG-PET画像を収集した。 一般的な前処理手順に従って、FDG-PET画像から自動解剖学的ランドマーク(AAL)テンプレートに従って90個の特徴を抽出し、提案ネットワークに送信する。 複数の2クラス分類に対して5倍のクロスバリデーション実験を行った。 実験によると、ほとんどのメトリクスは、それぞれベースラインモデルに双線型プーリングモジュールとメトリック損失を追加することで改善されている。 具体的には、EMCIとLMCIの分類タスクにおいて、三重項損失を加えて6.38%の特異性が向上し、双線形プールモジュールを使用した後に負予測値(NPV)が3.45%向上する。

FDG-PET reveals altered brain metabolism in individuals with mild cognitive impairment (MCI) and Alzheimer's disease (AD). Some biomarkers derived from FDG-PET by computer-aided-diagn osis (CAD) technologies have been proved that they can accurately diagnosis normal control (NC), MCI, and AD. However, the studies of identification of early MCI (EMCI) and late MCI (LMCI) with FDG-PET images are still insufficient. Compared with studies based on fMRI and DTI images, the researches of the inter-region representation features in FDG-PET images are insufficient. Moreover, considering the variability in different individuals, some hard samples which are very similar with both two classes limit the classification performance. To tackle these problems, in this paper, we propose a novel bilinear pooling and metric learning network (BMNet), which can extract the inter-region representation features and distinguish hard samples by constructing embedding space. To validate the proposed method, we collect 998 FDG-PET images from ADNI. Following the common preprocessing steps, 90 features are extracted from each FDG-PET image according to the automatic anatomical landmark (AAL) template and then sent into the proposed network. Extensive 5-fold cross-validation experiments are performed for multiple two-class classifications. Experiments show that most metrics are improved after adding the bilinear pooling module and metric losses to the Baseline model respectively. Specifically, in the classification task between EMCI and LMCI, the specificity improves 6.38% after adding the triple metric loss, and the negative predictive value (NPV) improves 3.45% after using the bilinear pooling module.
翻訳日:2021-11-10 21:10:20 公開日:2021-11-09
# (参考訳) エッジの超低電力キーワードスポッティング [全文訳有]

Ultra-Low Power Keyword Spotting at the Edge ( http://arxiv.org/abs/2111.04988v1 )

ライセンス: CC BY 4.0
Mehmet Gorkem Ulkar, Osman Erman Okman(参考訳) 音声がこれらのデバイスと対話する最も効率的な方法の1つであるため、キーワードスポッティング(KWS)は、私たちを取り巻く多くのインテリジェントデバイスにとって必須の要素となっている。 KWSソリューションの正確さと性能が研究者の主な焦点であり、ディープラーニングのおかげで、この領域でかなりの進歩を遂げた。 しかし、KWSがIoTデバイスに普及するにつれて、エネルギー効率はパフォーマンス以外の非常に重要な要件となる。 ハードウェアとニューラルネットワーク(nn)モデルアーキテクチャの両方でパワー最適化を求めるkwsソリューションは、問題のアーキテクチャ側が主に考慮されている文献において、多くのソリューションよりも有利であると考えています。 そこで本研究では,超低消費電力CNN加速器MAX78000のエンド・ツー・エンドエネルギー効率を考慮した最適化KWS CNNモデルを設計した。 ハードウェアとモデル最適化の組み合わせにより、12クラスに対して96.3\%の精度を実現し、推論あたり251 uJしか消費しない。 我々は,本研究の成果を,他のスモールフットプリントニューラルネットワークベースのKWSソリューションと比較した。 さらに、電力最適化アームcortex-m4fにおけるモデルエネルギー消費量を共有し、明快さのために選択したハードウェアの有効性を表現した。

Keyword spotting (KWS) has become an indispensable part of many intelligent devices surrounding us, as audio is one of the most efficient ways of interacting with these devices. The accuracy and performance of KWS solutions have been the main focus of the researchers, and thanks to deep learning, substantial progress has been made in this domain. However, as the use of KWS spreads into IoT devices, energy efficiency becomes a very critical requirement besides the performance. We believe KWS solutions that would seek power optimization both in the hardware and the neural network (NN) model architecture are advantageous over many solutions in the literature where mostly the architecture side of the problem is considered. In this work, we designed an optimized KWS CNN model by considering end-to-end energy efficiency for the deployment at MAX78000, an ultra-low-power CNN accelerator. With the combined hardware and model optimization approach, we achieve 96.3\% accuracy for 12 classes while only consuming 251 uJ per inference. We compare our results with other small-footprint neural network-based KWS solutions in the literature. Additionally, we share the energy consumption of our model in power-optimized ARM Cortex-M4F to depict the effectiveness of the chosen hardware for the sake of clarity.
翻訳日:2021-11-10 20:53:54 公開日:2021-11-09
# (参考訳) RAVE: 高速かつ高品質なニューラルオーディオ合成のための変分オートエンコーダ [全文訳有]

RAVE: A variational autoencoder for fast and high-quality neural audio synthesis ( http://arxiv.org/abs/2111.05011v1 )

ライセンス: CC BY 4.0
Antoine Caillon and Philippe Esling(参考訳) 音声に応用された深層生成モデルは、多くの音声および音楽関連タスクにおける最先端の広いマージンで改善されている。 しかし、生の波形モデリングは本質的に難しい作業であるため、音声生成モデルは計算集約的か、サンプリング率が低いか、制御や可能な信号の性質を制限するのに複雑である。 これらのモデルの中で、変分オートエンコーダ(VAE)は潜伏変数を露出させることで生成を制御するが、通常は合成品質が低い。 本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。 本稿では,新しい2段階学習手法,すなわち表現学習と対人微調整を導入する。 遅延空間の学習後解析を用いることで、再構成の忠実度と表現のコンパクトさを直接制御できることを示す。 原波形のマルチバンド分解を利用することで,本モデルが初めて48khzオーディオ信号を生成できると同時に,標準ラップトップcpuの20倍の速度で動作可能であることを示す。 定量的および定性的な主観的実験の両方を用いて合成品質を評価し,既存モデルと比較してアプローチの優位性を示す。 最後に,音色伝達と信号圧縮に対するモデルの適用について述べる。 ソースコードとオーディオの例はすべて公開されています。

Deep generative models applied to audio have improved by a large margin the state-of-the-art in many speech and music related tasks. However, as raw waveform modelling remains an inherently difficult task, audio generative models are either computationally intensive, rely on low sampling rates, are complicated to control or restrict the nature of possible signals. Among those models, Variational AutoEncoders (VAE) give control over the generation by exposing latent variables, although they usually suffer from low synthesis quality. In this paper, we introduce a Realtime Audio Variational autoEncoder (RAVE) allowing both fast and high-quality audio waveform synthesis. We introduce a novel two-stage training procedure, namely representation learning and adversarial fine-tuning. We show that using a post-training analysis of the latent space allows a direct control between the reconstruction fidelity and the representation compactness. By leveraging a multi-band decomposition of the raw waveform, we show that our model is the first able to generate 48kHz audio signals, while simultaneously running 20 times faster than real-time on a standard laptop CPU. We evaluate synthesis quality using both quantitative and qualitative subjective experiments and show the superiority of our approach compared to existing models. Finally, we present applications of our model for timbre transfer and signal compression. All of our source code and audio examples are publicly available.
翻訳日:2021-11-10 20:31:10 公開日:2021-11-09
# (参考訳) 意味的パースタスク間の転送による合成一般化のための学習 [全文訳有]

Learning to Generalize Compositionally by Transferring Across Semantic Parsing Tasks ( http://arxiv.org/abs/2111.05013v1 )

ライセンス: CC BY 4.0
Wang Zhu, Peter Shaw, Tal Linzen, Fei Sha(参考訳) ニューラルネットワークモデルは、しばしば不整合なドメインや分布にあまり一般化しない。 NLPでは、この問題は特に、モデルが作曲を一般化する、すなわち、よく知られた単語と構成の新たな組み合わせを期待する場合に生じる。 モデルの表象とタスク固有の層は、構成性を必要とするミスマッチされた分割をうまく一般化するように、事前調整されたタスクに基づいて戦略的に訓練される。 本手法を意味解析に応用し,3つの異なるデータセット,cogs,geoquery,scanを用いて,事前調整および目標タスクとして交互に使用する。 本手法は, 微調整時に行う対象タスクのテストセットに基づいて, ベースラインに対する合成一般化を著しく改善する。 アブレーション研究は,提案アルゴリズムにおける主要なステップの有用性を特徴とし,仮説を支持する。

Neural network models often generalize poorly to mismatched domains or distributions. In NLP, this issue arises in particular when models are expected to generalize compositionally, that is, to novel combinations of familiar words and constructions. We investigate learning representations that facilitate transfer learning from one compositional task to another: the representation and the task-specific layers of the models are strategically trained differently on a pre-finetuning task such that they generalize well on mismatched splits that require compositionality. We apply this method to semantic parsing, using three very different datasets, COGS, GeoQuery and SCAN, used alternately as the pre-finetuning and target task. Our method significantly improves compositional generalization over baselines on the test set of the target task, which is held out during fine-tuning. Ablation studies characterize the utility of the major steps in the proposed algorithm and support our hypothesis.
翻訳日:2021-11-10 20:19:06 公開日:2021-11-09
# (参考訳) GDCA:デュアルディスクリミネータとチャネルアテンションを用いたGANを用いた単一画像超解像 [全文訳有]

GDCA: GAN-based single image super resolution with Dual discriminators and Channel Attention ( http://arxiv.org/abs/2111.05014v1 )

ライセンス: CC BY 4.0
Thanh Nguyen, Hieu Hoang, Chang D. Yoo(参考訳) SISR(Single Image Super-Resolution)は、非常に活発な研究分野である。 本稿では,二元判別器を用いたGAN手法を用いてSISRに対処し,注意機構を組み込んだ。 実験の結果,GDCAは従来の手法と比較して,シャープで高精細な画像を生成することができた。

Single Image Super-Resolution (SISR) is a very active research field. This paper addresses SISR by using a GAN-based approach with dual discriminators and incorporating it with an attention mechanism. The experimental results show that GDCA can generate sharper and high pleasing images compare to other conventional methods.
翻訳日:2021-11-10 19:59:14 公開日:2021-11-09
# (参考訳) 集束クローリングのための新しいアウトリンクの予測 [全文訳有]

Prediction of new outlinks for focused crawling ( http://arxiv.org/abs/2111.05062v1 )

ライセンス: CC BY 4.0
Thi Kim Nhung Dang (1), Doina Bucur (1), Berk Atil (2), Guillaume Pitel (3), Frank Ruis (1), Hamidreza Kadkhodaei (1), and Nelly Litvak (1 and 4) ((1) University of Twente, The Netherlands, (2) Bogazici University, Turkey, (3) Exensa, France, (4) Eindhoven University of Technology, The Netherlands)(参考訳) 新しいハイパーリンクを発見することで、Webクローラーはインデックス化されていない新しいページを見つけることができる。 これは集中型クローラーにとって特に重要である。ウェブの特定の部分の包括的な分析を提供し、コンテンツの変更の発見よりも新しいページの発見を優先するためである。 文献では、ハイパーリンクとコンテンツの変化は、通常同時に考慮されている。 しかしながら、これらの2つのタイプの変更が必ずしも関連しているわけではないことを示す証拠もある。 さらに、変更の予測に関する多くの研究は、ページの長い履歴が利用可能であると仮定している。 本研究の目的は,新しいリンクを短時間の履歴を用いて効果的に検出する手法を提供することである。 この目的のために、私たちは1週間の間隔で10クロールのデータセットを使用します。 私たちの研究は3つの部分からなる。 まず,新しいアウトリンク数の実験的特性を解析することにより,データに対する洞察を得る。 これらの特性は、平均して時間とともに安定しているが、対象ページ(内部リンクと外部リンク)のドメイン内外へのハイパーリンクの出現には大きな差がある。 次に、リンク変更率、新しいリンクの存在、新しいリンクの数という3つのターゲットに対する統計モデルを提供する。 これらのモデルには、文献で以前に使われた機能と、本書で導入された新機能が含まれている。 特徴間の相関を解析し,その情報性について検討する。 注目すべき発見は、ターゲットページの履歴が利用できない場合、我々の新機能は、関連するページの履歴を表すもので、ターゲットページの新規リンクに対して最も予測的であることである。 最後に,集中型クローラのガイドラインとしてランク付け手法を提案し,新しいページを効率よく発見し,対応するターゲットに対して優れた性能を実現する。

Discovering new hyperlinks enables Web crawlers to find new pages that have not yet been indexed. This is especially important for focused crawlers because they strive to provide a comprehensive analysis of specific parts of the Web, thus prioritizing discovery of new pages over discovery of changes in content. In the literature, changes in hyperlinks and content have been usually considered simultaneously. However, there is also evidence suggesting that these two types of changes are not necessarily related. Moreover, many studies about predicting changes assume that long history of a page is available, which is unattainable in practice. The aim of this work is to provide a methodology for detecting new links effectively using a short history. To this end, we use a dataset of ten crawls at intervals of one week. Our study consists of three parts. First, we obtain insight in the data by analyzing empirical properties of the number of new outlinks. We observe that these properties are, on average, stable over time, but there is a large difference between emergence of hyperlinks towards pages within and outside the domain of a target page (internal and external outlinks, respectively). Next, we provide statistical models for three targets: the link change rate, the presence of new links, and the number of new links. These models include the features used earlier in the literature, as well as new features introduced in this work. We analyze correlation between the features, and investigate their informativeness. A notable finding is that, if the history of the target page is not available, then our new features, that represent the history of related pages, are most predictive for new links in the target page. Finally, we propose ranking methods as guidelines for focused crawlers to efficiently discover new pages, which achieve excellent performance with respect to the corresponding targets.
翻訳日:2021-11-10 19:55:52 公開日:2021-11-09
# (参考訳) イベント抽出によるニューラルニュース推薦 [全文訳有]

Neural News Recommendation with Event Extraction ( http://arxiv.org/abs/2111.05068v1 )

ライセンス: CC BY 4.0
Songqiao Han, Hailiang Huang, Jiangwei Liu(参考訳) オンラインニュースレコメンデーションの重要な課題は、ユーザーが興味のある記事を見つけるのを助けることだ。 従来のニュースレコメンデーション手法では、ニュースやユーザ表現をエンコードするには不十分な単一ニュース情報を使用することが多い。 近年の研究では、複数のチャンネルニュース情報(タイトル、カテゴリ、ボディなど)を使用して、ニュースやユーザ表現を強化する。 しかし、これらの手法は、コンテキストに含まれる高度な情報を深く掘り下げることなく、多視点埋め込みを融合する様々な注意機構のみを使用する。 これらの方法では、単語レベルでニュースコンテンツをエンコードし、リコメンデーションネットワークでアテンションパラメータを共同でトレーニングすることで、モデルのトレーニングにより多くのコーパスが必要になる。 本稿では,これらの欠点を克服するためのイベント抽出に基づくニュースレコメンデーション(eenr)フレームワークを提案する。 EENRはまた、リコメンデーションネットワークのその後の部分のパラメータを減らすために、2段階戦略を使用している。 第1段階では外部コーパスによるイベント抽出モジュールのトレーニングを行い、第2段階ではトレーニングされたモデルをニュースレコメンデーションデータセットに適用し、イベントタイプ、ロール、引数を含むイベントレベルの情報を予測します。 次に、イベント情報、ニュースタイトル、カテゴリを含む複数のチャネル情報を融合して、ニュースとユーザをエンコードします。 実世界のデータセットに関する広範な実験は、eenrメソッドがニュースレコメンデーションのパフォーマンスを効果的に改善できることを示しています。 最後に,ニュースコンテンツに代えて,より高度な抽象レベル情報を活用する理由についても検討する。

A key challenge of online news recommendation is to help users find articles they are interested in. Traditional news recommendation methods usually use single news information, which is insufficient to encode news and user representation. Recent research uses multiple channel news information, e.g., title, category, and body, to enhance news and user representation. However, these methods only use various attention mechanisms to fuse multi-view embeddings without considering deep digging higher-level information contained in the context. These methods encode news content on the word level and jointly train the attention parameters in the recommendation network, leading to more corpora being required to train the model. We propose an Event Extraction-based News Recommendation (EENR) framework to overcome these shortcomings, utilizing event extraction to abstract higher-level information. EENR also uses a two-stage strategy to reduce parameters in subsequent parts of the recommendation network. We train the Event Extraction module by external corpora in the first stage and apply the trained model to the news recommendation dataset to predict event-level information, including event types, roles, and arguments, in the second stage. Then we fuse multiple channel information, including event information, news title, and category, to encode news and users. Extensive experiments on a real-world dataset show that our EENR method can effectively improve the performance of news recommendations. Finally, we also explore the reasonability of utilizing higher abstract level information to substitute news body content.
翻訳日:2021-11-10 19:30:08 公開日:2021-11-09
# (参考訳) コンフォーマティアセスメントと市場後モニタリング: 欧州AI規制案における監査の役割の指針

Conformity Assessments and Post-market Monitoring: A Guide to the Role of Auditing in the Proposed European AI Regulation ( http://arxiv.org/abs/2111.05071v1 )

ライセンス: CC BY 4.0
Jakob Mokander, Maria Axente, Federico Casolari, Luciano Floridi(参考訳) 提案されている欧州人工知能法(AIA)は、主要な世界経済が実施するAIの一般的な法的枠組みを精査する最初の試みである。 したがってAIAは、AIシステムがどのように規制される(そしてすべきである)かについてのより大きな議論において、参照ポイントとなる可能性が高い。 本稿では、AIAで提案されている2つの主要な実施メカニズムについて、ハイリスクなAIシステムのプロバイダが行うであろう適合性評価と、ハイリスクなAIシステムのパフォーマンスを生涯にわたって文書化するために提供者が確立しなければならないポストマーケット監視計画について述べる。 我々はAIAを、言い換えれば、AI監査を行うためのヨーロッパ規模のエコシステムを確立するための提案と解釈することができると論じる。 私たちの分析には2つの大きな貢献がある。 まず、AI監査に関する既存の文献から借用された用語でAIAに含まれる実施メカニズムを説明することにより、AIシステムの提供者は、実際にAIAで設定された要件にどのように準拠しているかを理解するのに役立つ。 第2に、監査の観点からAIAを検討することにより、AIAに概説されている規制アプローチをさらに洗練させる方法について、これまでの研究から移行可能な教訓を提供する。 我々は、修正(または単に明確化)が役立つAIAの7つの側面を強調した。 とりわけ、曖昧な概念を検証可能な基準に翻訳し、内部チェックに基づく適合性評価に関する制度的保護を強化することが必要である。

The proposed European Artificial Intelligence Act (AIA) is the first attempt to elaborate a general legal framework for AI carried out by any major global economy. As such, the AIA is likely to become a point of reference in the larger discourse on how AI systems can (and should) be regulated. In this article, we describe and discuss the two primary enforcement mechanisms proposed in the AIA: the conformity assessments that providers of high-risk AI systems are expected to conduct, and the post-market monitoring plans that providers must establish to document the performance of high-risk AI systems throughout their lifetimes. We argue that AIA can be interpreted as a proposal to establish a Europe-wide ecosystem for conducting AI auditing, albeit in other words. Our analysis offers two main contributions. First, by describing the enforcement mechanisms included in the AIA in terminology borrowed from existing literature on AI auditing, we help providers of AI systems understand how they can prove adherence to the requirements set out in the AIA in practice. Second, by examining the AIA from an auditing perspective, we seek to provide transferable lessons from previous research about how to refine further the regulatory approach outlined in the AIA. We conclude by highlighting seven aspects of the AIA where amendments (or simply clarifications) would be helpful. These include, above all, the need to translate vague concepts into verifiable criteria and to strengthen the institutional safeguards concerning conformity assessments based on internal checks.
翻訳日:2021-11-10 19:14:34 公開日:2021-11-09
# (参考訳) 計算機ビジョンと数学的手法による工場機械の残量 [全文訳有]

Residual Quantity in Percentage of Factory Machines Using ComputerVision and Mathematical Methods ( http://arxiv.org/abs/2111.05080v1 )

ライセンス: CC BY-SA 4.0
Seunghyeon Kim, Jihoon Ryoo, Dongyeob Lee, Youngho Kim(参考訳) AI開発が推し進めて以来、コンピュータービジョンは繁栄している。 ディープラーニング技術を使うことは、コンピュータ科学者が解決策と考える最も一般的な方法だった。 しかし、ディープラーニング技術は手動処理よりも性能が低い傾向にある。 ディープラーニングは、必ずしもコンピュータビジョンに関連する問題に対する答えではない。

Computer vision has been thriving since AI development was gaining thrust. Using deep learning techniques has been the most popular way which computer scientists thought the solution of. However, deep learning techniques tend to show lower performance than manual processing. Using deep learning is not always the answer to a problem related to computer vision.
翻訳日:2021-11-10 19:13:00 公開日:2021-11-09
# (参考訳) フローガイダンスによる画像再スケーリングの限界へのアプローチ [全文訳有]

Approaching the Limit of Image Rescaling via Flow Guidance ( http://arxiv.org/abs/2111.05133v1 )

ライセンス: CC BY 4.0
Shang Li, Guixuan Zhang, Zhengxiong Luo, Jie Liu, Zhi Zeng, Shuwu Zhang(参考訳) イメージのダウンスケーリングとアップスケーリングは2つの基本的な再スケーリング操作である。 画像がダウンスケールされると、情報の喪失により、アップスケーリングによって再構築することが困難になる。 これら2つのプロセスの互換性を向上し、再構成性能を向上させるため、いくつかの取り組みでは、ダウンスケール(エンコードされた)低解像度(LR)画像が元の視覚的外観を保たなければならないという制約を伴って、共同符号化復号タスクとしてモデル化する。 この制約を実装するために、ほとんどのメソッドは、オリジナルの高解像度(HR)画像の双対的にダウンスケールされたLRバージョンで監視することで、ダウンスケーリングモジュールを誘導する。 しかし、このバイコビックLR誘導は、その後のアップスケーリング(デコード)に最適であり、最終的な再構築性能を制限する可能性がある。 本稿では、LR誘導を直接適用する代わりに、ダウンスケーリング中にダウンスケールされた表現を視覚的に可視な画像に変換し、アップスケーリング中に再変換する逆流誘導モジュール(FGM)を提案する。 FGMの可逆性から見れば、縮小された表現はLR誘導を排除でき、ダウンスケーリング・アップスケーリングのプロセスを妨げない。 これにより、ダウンスケーリングモジュールの制限を取り除き、ダウンスケーリングおよびアップスケーリングモジュールをエンドツーエンドで最適化できます。 このようにして、これらの2つのモジュールはHR再建性能を最大化するために協力することができる。 大規模な実験により, 提案手法は, ダウンスケール画像と再構成画像の両方において, 最先端(SotA)の性能を達成できることが実証された。

Image downscaling and upscaling are two basic rescaling operations. Once the image is downscaled, it is difficult to be reconstructed via upscaling due to the loss of information. To make these two processes more compatible and improve the reconstruction performance, some efforts model them as a joint encoding-decoding task, with the constraint that the downscaled (i.e. encoded) low-resolution (LR) image must preserve the original visual appearance. To implement this constraint, most methods guide the downscaling module by supervising it with the bicubically downscaled LR version of the original high-resolution (HR) image. However, this bicubic LR guidance may be suboptimal for the subsequent upscaling (i.e. decoding) and restrict the final reconstruction performance. In this paper, instead of directly applying the LR guidance, we propose an additional invertible flow guidance module (FGM), which can transform the downscaled representation to the visually plausible image during downscaling and transform it back during upscaling. Benefiting from the invertibility of FGM, the downscaled representation could get rid of the LR guidance and would not disturb the downscaling-upscalin g process. It allows us to remove the restrictions on the downscaling module and optimize the downscaling and upscaling modules in an end-to-end manner. In this way, these two modules could cooperate to maximize the HR reconstruction performance. Extensive experiments demonstrate that the proposed method can achieve state-of-the-art (SotA) performance on both downscaled and reconstructed images.
翻訳日:2021-11-10 19:08:02 公開日:2021-11-09
# (参考訳) APIエコノミーをテストするためのシーケンシャルドリフト検出 [全文訳有]

Using sequential drift detection to test the API economy ( http://arxiv.org/abs/2111.05136v1 )

ライセンス: CC BY 4.0
Samuel Ackerman, Parijat Dube, Eitan Farchi(参考訳) APIエコノミーは、ビジネスモデルや機能において重要な要素として、ソフトウェアアプリケーションが相互に通信可能なAPI(先進的なプログラミングインターフェース)マイクロサービスの広範な統合を指す。 このようなシステムが利用できる可能性のある方法の数は膨大です。 したがって、使用パターンを監視し、システムがこれまで使われなかった方法で使用されたときに識別することが望ましい。 これはシステムアナリストに警告を与え、システムの中断のない動作を保証することができる。 この作業では、ヒストグラムとAPI使用のコールグラフの両方を分析し、システムの利用パターンがシフトしたかどうかを判断する。 非パラメトリック統計解析とベイズ列解析の応用をこの問題と比較した。 これは、繰り返し行われる統計テストの問題を克服し、警告の統計的意義を保証する方法で行われる。 この技術はシミュレーションされ、試験され、様々なシナリオにおける漂流の検出に有効であることが証明された。 また,監視開始から遅延時に分布ドリフトが発生した場合に,より迅速に応答できるように,メモリを減少させる手法の変更についても述べる。

The API economy refers to the widespread integration of API (advanced programming interface) microservices, where software applications can communicate with each other, as a crucial element in business models and functions. The number of possible ways in which such a system could be used is huge. It is thus desirable to monitor the usage patterns and identify when the system is used in a way that was never used before. This provides a warning to the system analysts and they can ensure uninterrupted operation of the system. In this work we analyze both histograms and call graph of API usage to determine if the usage patterns of the system has shifted. We compare the application of nonparametric statistical and Bayesian sequential analysis to the problem. This is done in a way that overcomes the issue of repeated statistical tests and insures statistical significance of the alerts. The technique was simulated and tested and proven effective in detecting the drift in various scenarios. We also mention modifications to the technique to decrease its memory so that it can respond more quickly when the distribution drift occurs at a delay from when monitoring begins.
翻訳日:2021-11-10 18:53:17 公開日:2021-11-09
# (参考訳) 深層学習を用いた形態素解析-拡張版 [全文訳有]

Tackling Morphological Analogies Using Deep Learning -- Extended Version ( http://arxiv.org/abs/2111.05147v1 )

ライセンス: CC BY 4.0
Safa Alsaidi, Amandine Decker, Esteban Marquer, Pierre-Alexandre Murena, Miguel Couceiro(参考訳) 解析的比例は「A は B へ、C は D へ」という形の言明である。 それらは、学習、伝達、説明可能性に関する懸念に対処する論理的なフレームワークを提供し、人工知能や自然言語処理で有用な応用を見つける推論ツールを構成する。 本稿では,形態学における類似検出と分解能の2つの問題に対処する。 複数のシンボリックアプローチが形態学におけるアナロジーの問題に取り組み、競争性能を達成する。 データ駆動型戦略がこれらのモデルより優れていることを示す。 本稿では,ディープラーニングを用いた形態素アナロジーの検出と解法を提案する。 アナログ比例の構造特性を符号化し、単語の形態的特徴を捉えた特別に設計された埋め込みモデルに依存する。 我々は,複数の言語に対するアナロジー検出と解決において,モデルの競合性能を示す。 トレーニングデータのバランスをとることの影響を分析し,入力摂動に対する我々のアプローチの堅牢性を評価する。

Analogical proportions are statements of the form "A is to B as C is to D". They constitute an inference tool that provides a logical framework to address learning, transfer, and explainability concerns and that finds useful applications in artificial intelligence and natural language processing. In this paper, we address two problems, namely, analogy detection and resolution in morphology. Multiple symbolic approaches tackle the problem of analogies in morphology and achieve competitive performance. We show that it is possible to use a data-driven strategy to outperform those models. We propose an approach using deep learning to detect and solve morphological analogies. It encodes structural properties of analogical proportions and relies on a specifically designed embedding model capturing morphological characteristics of words. We demonstrate our model's competitive performance on analogy detection and resolution over multiple languages. We provide an empirical study to analyze the impact of balancing training data and evaluate the robustness of our approach to input perturbation.
翻訳日:2021-11-10 18:36:23 公開日:2021-11-09
# (参考訳) インシシデントモデルの訓練について [全文訳有]

On Training Implicit Models ( http://arxiv.org/abs/2111.05177v1 )

ライセンス: CC BY 4.0
Zhengyang Geng and Xin-Yu Zhang and Shaojie Bai and Yisen Wang and Zhouchen Lin(参考訳) 本稿では無限層の暗黙的モデルの学習に着目する。 特に、以前の研究は暗黙の微分を採用し、後方伝播の正確な勾配を解いた。 しかし、トレーニングにこれほど正確だが高価な勾配を計算する必要があるのか? 本研究では,ファントム勾配と呼ばれる暗黙的モデルに対する新しい勾配推定法を提案する。 1) 正確な勾配の計算に費用がかかること,及び 2) 暗黙的なモデルトレーニングに実証的に好ましい更新方向を提供する。 我々は、損失景観の上昇方向が発見できる条件を理論的に解析し、減衰アンローリングとノイマン級数に基づくファントム勾配の2つの特異なインスタンス化を提供する。 大規模タスクの実験では、これらの軽量ファントム勾配は暗黙のモデルのトレーニングにおいて、約1.7倍の後方通過を著しく加速し、ImageNetの正確な勾配に基づいてアプローチよりもパフォーマンスを向上させる。

This paper focuses on training implicit models of infinite layers. Specifically, previous works employ implicit differentiation and solve the exact gradient for the backward propagation. However, is it necessary to compute such an exact but expensive gradient for training? In this work, we propose a novel gradient estimate for implicit models, named phantom gradient, that 1) forgoes the costly computation of the exact gradient; and 2) provides an update direction empirically preferable to the implicit model training. We theoretically analyze the condition under which an ascent direction of the loss landscape could be found, and provide two specific instantiations of the phantom gradient based on the damped unrolling and Neumann series. Experiments on large-scale tasks demonstrate that these lightweight phantom gradients significantly accelerate the backward passes in training implicit models by roughly 1.7 times, and even boost the performance over approaches based on the exact gradient on ImageNet.
翻訳日:2021-11-10 18:19:15 公開日:2021-11-09
# (参考訳) MLHarness:MLCommons用のスケーラブルなベンチマークシステム [全文訳有]

MLHarness: A Scalable Benchmarking System for MLCommons ( http://arxiv.org/abs/2111.05231v1 )

ライセンス: CC BY 4.0
Yen-Hsiang Chang, Jianhao Pu, Wen-mei Hwu, Jinjun Xiong(参考訳) 様々なインテリジェントなソリューションに機械学習(ml)とディープラーニング(dl)が採用されるにつれて、ml/dlモデルの一般的な尺度セットと大規模なオープンデータセットを共通開発プラクティスとリソースの下で標準化することがますます重要になってきており、人々が共通の基盤でモデルの質とパフォーマンスをベンチマークし比較できるようになっている。 MLCommonsは最近、業界と学界の両方からこのような取り組みを組織化するための推進力として登場した。 標準化されたベンチマークとして広く採用されているが、MLCommons InferenceにはML/DLモデルが限られている(実際には合計7モデル)。 これは、研究コミュニティから多くの新しいml/dlモデルがあり、様々な入力と出力のモダリティで幅広い問題を解決するため、mlcommons推論のベンチマーク結果の汎用性を著しく制限している。 To address such a limitation, we propose MLHarness, a scalable benchmarking harness system for MLCommons Inference with three distinctive features: (1) it codifies the standard benchmark process as defined by MLCommons Inference including the models, datasets, DL frameworks, and software and hardware systems; (2) it provides an easy and declarative approach for model developers to contribute their models and datasets to MLCommons Inference; and (3) it includes the support of a wide range of models with varying inputs/outputs modalities so that we can scalably benchmark these models across different datasets, frameworks, and hardware systems. このハーネスシステムはMLModelScopeシステム上で開発されており、コミュニティにオープンソース化される予定である。 実験結果は,mlcommons推論ベンチマークにおいて,このハーネスシステムの優れた柔軟性とスケーラビリティを示す。

With the society's growing adoption of machine learning (ML) and deep learning (DL) for various intelligent solutions, it becomes increasingly imperative to standardize a common set of measures for ML/DL models with large scale open datasets under common development practices and resources so that people can benchmark and compare models quality and performance on a common ground. MLCommons has emerged recently as a driving force from both industry and academia to orchestrate such an effort. Despite its wide adoption as standardized benchmarks, MLCommons Inference has only included a limited number of ML/DL models (in fact seven models in total). This significantly limits the generality of MLCommons Inference's benchmarking results because there are many more novel ML/DL models from the research community, solving a wide range of problems with different inputs and outputs modalities. To address such a limitation, we propose MLHarness, a scalable benchmarking harness system for MLCommons Inference with three distinctive features: (1) it codifies the standard benchmark process as defined by MLCommons Inference including the models, datasets, DL frameworks, and software and hardware systems; (2) it provides an easy and declarative approach for model developers to contribute their models and datasets to MLCommons Inference; and (3) it includes the support of a wide range of models with varying inputs/outputs modalities so that we can scalably benchmark these models across different datasets, frameworks, and hardware systems. This harness system is developed on top of the MLModelScope system, and will be open sourced to the community. Our experimental results demonstrate the superior flexibility and scalability of this harness system for MLCommons Inference benchmarking.
翻訳日:2021-11-10 17:48:36 公開日:2021-11-09
# (参考訳) 異常標本選択による因果推論のための一般的なカーネルリッジ回帰

Generalized Kernel Ridge Regression for Causal Inference with Missing-at-Random Sample Selection ( http://arxiv.org/abs/2111.05277v1 )

ライセンス: CC BY 4.0
Rahul Singh(参考訳) 本研究では,非パラメトリック線量応答曲線と半パラメトリック処理効果に対するカーネルリッジ回帰推定器を提案する。 私は、選択は治療におけるランダムな条件と十分に豊富な観察された共変量体と同程度に良く、そこでは共変量体が治療を許容されるか、治療によって引き起こされる。 本稿では, カーネル行列演算による閉形式解の手法, インクリメント, 分布の推定を行い, 処理と共変体を離散的, 連続的, 低, 高, 無限次元にすることができることを示した。 連続治療の場合、有限サンプルレートで均一な一貫性が証明される。 離散処理の場合,ルートnの整合性,ガウス近似,半パラメトリック効率を証明した。

I propose kernel ridge regression estimators for nonparametric dose response curves and semiparametric treatment effects in the setting where an analyst has access to a selected sample rather than a random sample; only for select observations, the outcome is observed. I assume selection is as good as random conditional on treatment and a sufficiently rich set of observed covariates, where the covariates are allowed to cause treatment or be caused by treatment -- an extension of missingness-at-rando m (MAR). I propose estimators of means, increments, and distributions of counterfactual outcomes with closed form solutions in terms of kernel matrix operations, allowing treatment and covariates to be discrete or continuous, and low, high, or infinite dimensional. For the continuous treatment case, I prove uniform consistency with finite sample rates. For the discrete treatment case, I prove root-n consistency, Gaussian approximation, and semiparametric efficiency.
翻訳日:2021-11-10 17:12:20 公開日:2021-11-09
# (参考訳) STDPを用いたイベントデータにおける教師なしスパイキングインスタンスセグメンテーション [全文訳有]

Unsupervised Spiking Instance Segmentation on Event Data using STDP ( http://arxiv.org/abs/2111.05283v1 )

ライセンス: CC BY 4.0
Paul Kirkland, Davide L. Manna, Alex Vincente-Sola and Gaetano Di Caterina(参考訳) ニューラルネットワークのスパイキング(SNN)とニューロモーフィックエンジニアリングの分野は、機械学習(ML)とコンピュータビジョン(CV)の問題へのアプローチにパラダイムシフトをもたらした。 このパラダイムシフトは、イベントベースのセンシングと処理の適応に由来する。 イベントベースの視覚センサは、シーンに動的に関連付けられたスパースおよび非同期イベントを生成することができる。 空間情報だけでなく、捕捉すべき時間情報の高忠実性も付与する。 一方、従来の高フレームレートアプローチの余分なオーバーヘッドと冗長性を避ける。 しかし、このパラダイムの変化により、従来のCVとMLの多くの技術は、これらの事象に基づく時空間視覚ストリームには適用できない。 このような限られた数の認識、検出、分割のアプローチが存在する。 本稿では,物体認識のために訓練されたスパイク時間依存塑性トレーニングスパイキング畳み込みニューラルネットワークの重みだけを用いて,インスタンスセグメンテーションを行う新しい手法を提案する。 これは、ネットワークの内部特徴表現の空間的および時間的側面を利用して、この新しい識別能力を追加する。 顔検出のための単一クラス無教師ネットワークを,多人数の顔認識とインスタンスセグメンテーションネットワークに変換することで,その新機能を強調した。

Spiking Neural Networks (SNN) and the field of Neuromorphic Engineering has brought about a paradigm shift in how to approach Machine Learning (ML) and Computer Vision (CV) problem. This paradigm shift comes from the adaption of event-based sensing and processing. An event-based vision sensor allows for sparse and asynchronous events to be produced that are dynamically related to the scene. Allowing not only the spatial information but a high-fidelity of temporal information to be captured. Meanwhile avoiding the extra overhead and redundancy of conventional high frame rate approaches. However, with this change in paradigm, many techniques from traditional CV and ML are not applicable to these event-based spatial-temporal visual streams. As such a limited number of recognition, detection and segmentation approaches exist. In this paper, we present a novel approach that can perform instance segmentation using just the weights of a Spike Time Dependent Plasticity trained Spiking Convolutional Neural Network that was trained for object recognition. This exploits the spatial and temporal aspects of the network's internal feature representations adding this new discriminative capability. We highlight the new capability by successfully transforming a single class unsupervised network for face detection into a multi-person face recognition and instance segmentation network.
翻訳日:2021-11-10 17:11:17 公開日:2021-11-09
# (参考訳) ダイナミックアクティブ・カメラ・ビジョン・センサ(デイビス)のフィードバックを用いたリアルタイムスリップ防止 [全文訳有]

Using The Feedback of Dynamic Active-Pixel Vision Sensor (Davis) to Prevent Slip in Real Time ( http://arxiv.org/abs/2111.05308v1 )

ライセンス: CC BY 4.0
Armin Masoumian, Pezhman kazemi, Mohammad Chehreghani Montazer, Hatem A. Rashwan, Domenec Puig Valls(参考訳) 本研究の目的は, リアルタイムフィードバックにおけるすべりおよび接触力の検出手法について述べることである。 このアプローチでは、DAVISカメラは高速なプロセス速度と高解像度のために視覚触覚センサとして使用される。 バクスターロボットのグリッパーの精度と応答を比較するために, 形状, 大きさ, 重量, 材質の異なる4つの物体に対して200実験を行った。 高度なアプローチは、力感受性抵抗 (FSR402) を用いて検証される。 DAVISカメラで捉えたイベントは、特定のアルゴリズムで処理され、スリップを検出するのを助けるバクスターロボットにフィードバックを提供する。

The objective of this paper is to describe an approach to detect the slip and contact force in real-time feedback. In this novel approach, the DAVIS camera is used as a vision tactile sensor due to its fast process speed and high resolution. Two hundred experiments were performed on four objects with different shapes, sizes, weights, and materials to compare the accuracy and response of the Baxter robot grippers to avoid slipping. The advanced approach is validated by using a force-sensitive resistor (FSR402). The events captured with the DAVIS camera are processed with specific algorithms to provide feedback to the Baxter robot aiding it to detect the slip.
翻訳日:2021-11-10 16:54:18 公開日:2021-11-09
# (参考訳) 倒立振子のPID・ファジィ制御系の設計と解析 [全文訳有]

Designing and Analyzing the PID and Fuzzy Control System for an Inverted Pendulum ( http://arxiv.org/abs/2111.05309v1 )

ライセンス: CC BY 4.0
Armin Masoumian, Pezhman kazemi, Mohammad Chehreghani Montazer, Hatem A. Rashwan, Domenec Puig Valls(参考訳) 逆振子(inverted pendulum)は、安定性と平衡を達成するためにモーターを用いて制御する必要がある非線形不均衡系である。 倒立振り子(inverted pendulum)はレゴで組み立てられ、さまざまな機能を完成させるプログラム可能なロボットであるLego Mindstorm NXTを使用している。 本稿では,倒立振子の初期設計を提案し,レゴマインドストームnxtと互換性のある異なるセンサの性能について検討した。 さらに,システム維持に必要な安定性を実現するためのコンピュータビジョンの能力についても検討した。 逆振り子(英: inverted pendulum)は、カートを移動させるための自動調整PID制御を生成するファジィロジックコントローラを用いて制御できる従来のカートである。 ファジィ論理とPIDはMATLABとSimulinkでシミュレートされ、そのプログラムはLabVIEWソフトウェアで開発されている。

The inverted pendulum is a non-linear unbalanced system that needs to be controlled using motors to achieve stability and equilibrium. The inverted pendulum is constructed with Lego and using the Lego Mindstorm NXT, which is a programmable robot capable of completing many different functions. In this paper, an initial design of the inverted pendulum is proposed and the performance of different sensors, which are compatible with the Lego Mindstorm NXT was studied. Furthermore, the ability of computer vision to achieve the stability required to maintain the system is also investigated. The inverted pendulum is a conventional cart that can be controlled using a Fuzzy Logic controller that produces a self-tuning PID control for the cart to move on. The fuzzy logic and PID are simulated in MATLAB and Simulink, and the program for the robot is developed in the LabVIEW software.
翻訳日:2021-11-10 16:48:15 公開日:2021-11-09
# (参考訳) パラメータ化量子回路の損失景観におけるモード接続 [全文訳有]

Mode connectivity in the loss landscape of parameterized quantum circuits ( http://arxiv.org/abs/2111.05311v1 )

ライセンス: CC BY 4.0
Kathleen E. Hamilton and Emily Lynn and Raphael C. Pooser(参考訳) パラメータ化量子回路(PQC)の変分訓練は、近時雑音型中間スケール量子(NISQ)デバイスで使用される多くのワークフローを支える。 これは、パラメータ化されたアンサッツを訓練するために関連するコスト関数を最小化するハイブリッド量子古典的アプローチである。 本稿では,PQCトレーニングで導入されたニューラルネットワークの質的損失ランドスケープ特性と,PQCトレーニングにおける損失ランドスケープ特性を調べるために,cipe{goodfellow2014qualit atively,li2017visual izing}で使用される接続性のテストを適用する。 パラメータ化された回転ゲートと絡み合うゲートの交互層からなる二層回路ansatzを用いて,簡単な回帰タスクで訓練したpqcsの結果を示す。 複数の回路は、確率的勾配降下、量子自然勾配、adamの3ドルの異なるバッチ勾配最適化器で訓練される。 私たちは、トレーニングワークフローの収束を早める可能性のある、ランドスケープの大きな機能を特定します。

Variational training of parameterized quantum circuits (PQCs) underpins many workflows employed on near-term noisy intermediate scale quantum (NISQ) devices. It is a hybrid quantum-classical approach that minimizes an associated cost function in order to train a parameterized ansatz. In this paper we adapt the qualitative loss landscape characterization for neural networks introduced in \cite{goodfellow2014qualit atively,li2017visual izing} and tests for connectivity used in \cite{draxler2018essential ly} to study the loss landscape features in PQC training. We present results for PQCs trained on a simple regression task, using the bilayer circuit ansatz, which consists of alternating layers of parameterized rotation gates and entangling gates. Multiple circuits are trained with $3$ different batch gradient optimizers: stochastic gradient descent, the quantum natural gradient, and Adam. We identify large features in the landscape that can lead to faster convergence in training workflows.
翻訳日:2021-11-10 16:41:31 公開日:2021-11-09
# 深層学習によるRIS支援MU-MISOネットワークの時変チャネル予測

Time-Varying Channel Prediction for RIS-Assisted MU-MISO Networks via Deep Learning ( http://arxiv.org/abs/2111.04971v1 )

ライセンス: Link先を確認
Wangyang Xu, Jiancheng An, Yongjun Xu, Chongwen Huang, Lu Gan, and Chau Yuen(参考訳) シャドウフェージングや障害物ブロッキングの影響を軽減するため、再構成可能な知的表面(ris)は、ハードウェアコストの低減と消費電力の低減により、再構成可能なパッシブ要素を制御し、無線通信の信号伝送品質を向上させる有望な技術となっている。 しかし、RISの受動的要素が多数存在するため、RISアシストシステムでは、正確で低レイテンシで低オーバヘッドチャネル状態情報(CSI)の取得が大きな課題となっている。 本稿では,CSIを必要とする3段階のジョイントチャネル分解および予測フレームワークを提案する。 提案フレームワークは,基地局(BS)-RISチャネルが準静的であり,RIS-user 機器(UE)チャネルが高速な2時間特性を利用する。 具体的には、第1段階では、BSの特定のアンテナとRISの間のチャネルを推定するためにフルデュープレックス技術を使用し、チャネル分解における重要なスケーリング曖昧性問題に対処する。 次に、スパース接続長短期記憶(SCLSTM)と呼ばれる新しいディープニューラルネットワークを設計し、それぞれ第2段と第3段のSCLSTMに基づくアルゴリズムを提案する。 このアルゴリズムは、BS-RISチャネルとRIS-UEチャネルを同時にカスケードチャネルから分解し、RIS-UEチャネルの時間的関係を捕捉して予測する。 シミュレーションの結果,提案手法は従来のチャネル推定アルゴリズムよりもパイロットオーバヘッドが低く,SCLSTMに基づくアルゴリズムはより正確かつ効果的にCSIを取得できることがわかった。

To mitigate the effects of shadow fading and obstacle blocking, reconfigurable intelligent surface (RIS) has become a promising technology to improve the signal transmission quality of wireless communications by controlling the reconfigurable passive elements with less hardware cost and lower power consumption. However, accurate, low-latency and low-pilot-overhead channel state information (CSI) acquisition remains a considerable challenge in RIS-assisted systems due to the large number of RIS passive elements. In this paper, we propose a three-stage joint channel decomposition and prediction framework to require CSI. The proposed framework exploits the two-timescale property that the base station (BS)-RIS channel is quasi-static and the RIS-user equipment (UE) channel is fast time-varying. Specifically, in the first stage, we use the full-duplex technique to estimate the channel between a BS's specific antenna and the RIS, addressing the critical scaling ambiguity problem in the channel decomposition. We then design a novel deep neural network, namely, the sparse-connected long short-term memory (SCLSTM), and propose a SCLSTM-based algorithm in the second and third stages, respectively. The algorithm can simultaneously decompose the BS-RIS channel and RIS-UE channel from the cascaded channel and capture the temporal relationship of the RIS-UE channel for prediction. Simulation results show that our proposed framework has lower pilot overhead than the traditional channel estimation algorithms, and the proposed SCLSTM-based algorithm can also achieve more accurate CSI acquisition robustly and effectively.
翻訳日:2021-11-10 16:22:26 公開日:2021-11-09
# 自己教師型音声モデルに対する会員推測攻撃

Membership Inference Attacks Against Self-supervised Speech Models ( http://arxiv.org/abs/2111.05113v1 )

ライセンス: Link先を確認
Wei-Cheng Tseng, Wei-Tsung Kao, Hung-yi Lee(参考訳) 近年,自己教師型学習(SSL)の概念を連続音声に適用する動きが注目されている。 大量の未ラベル音声で事前トレーニングされたSSLモデルは、幅広い音声処理タスクの恩恵を受ける汎用表現を生成することができる。 しかし、ユビキタスな展開にもかかわらず、これらのモデルの潜在的なプライバシーリスクは十分に調査されていない。 本稿では,複数のSSL音声モデルに対して,ブラックボックスアクセス下でのMIAを用いた最初のプライバシ解析を行う。 実験の結果,これらの事前学習モデルでは,発話レベルと話者レベルの両方において,メンバシップ情報漏えいの影響を受けやすいことがわかった。 さらに,ミアの成功に寄与する因子を理解するため,いくつかのアブレーション研究を行った。

Recently, adapting the idea of self-supervised learning (SSL) on continuous speech has started gaining attention. SSL models pre-trained on a huge amount of unlabeled audio can generate general-purpose representations that benefit a wide variety of speech processing tasks. Despite their ubiquitous deployment, however, the potential privacy risks of these models have not been well investigated. In this paper, we present the first privacy analysis on several SSL speech models using Membership Inference Attacks (MIA) under black-box access. The experiment results show that these pre-trained models are vulnerable to MIA and prone to membership information leakage with high adversarial advantage scores in both utterance-level and speaker-level. Furthermore, we also conduct several ablation studies to understand the factors that contribute to the success of MIA.
翻訳日:2021-11-10 16:21:58 公開日:2021-11-09
# CAESynth:条件付きオートエンコーダによるリアルタイム音色補間とピッチ制御

CAESynth: Real-Time Timbre Interpolation and Pitch Control with Conditional Autoencoders ( http://arxiv.org/abs/2111.05174v1 )

ライセンス: Link先を確認
Aaron Valero Puche and Sukhan Lee(参考訳) 本稿では,条件付きオートエンコーダに基づく新しい音声シンセサイザーであるcaesynthを提案する。 CAESynthは、ピッチを独立に制御しながら、共有潜在特徴空間の参照音を補間することにより、リアルタイムで音色を合成する。 音色分類の精度に基づく条件付きオートエンコーダの訓練と、ピッチ内容の逆正規化により、潜在空間における音色分布が、音色補間やピッチコンディショニングにおいてより効果的で安定になることを示す。 提案手法は,楽譜作成だけでなく,環境音と新しい音色を混合した混合現実における聴力の探索にも応用できる。 そこで我々は,CAESynthが音色補間と独立かつ正確なピッチ制御によって,環境音による音質・高忠実な音声合成を実現する実験を行った。 Pythonの実装と生成されたサンプルはオンラインで共有される。

In this paper, we present a novel audio synthesizer, CAESynth, based on a conditional autoencoder. CAESynth synthesizes timbre in real-time by interpolating the reference sounds in their shared latent feature space, while controlling a pitch independently. We show that training a conditional autoencoder based on accuracy in timbre classification together with adversarial regularization of pitch content allows timbre distribution in latent space to be more effective and stable for timbre interpolation and pitch conditioning. The proposed method is applicable not only to creation of musical cues but also to exploration of audio affordance in mixed reality based on novel timbre mixtures with environmental sounds. We demonstrate by experiments that CAESynth achieves smooth and high-fidelity audio synthesis in real-time through timbre interpolation and independent yet accurate pitch control for musical cues as well as for audio affordance with environmental sound. A Python implementation along with some generated samples are shared online.
翻訳日:2021-11-10 16:21:46 公開日:2021-11-09
# 偏微分方程式に対する機械学習のカスタムメイド基底関数

Machine-learning custom-made basis functions for partial differential equations ( http://arxiv.org/abs/2111.05307v1 )

ライセンス: Link先を確認
Brek Meuris, Saad Qadeer, Panos Stinis(参考訳) スペクトル法は偏微分方程式(PDE)を解くための科学計算の重要な部分である。 しかしながら、それらの適用性と有効性は、PDEの解を拡張するために使用される基底関数の選択に大きく依存する。 過去10年間、ディープラーニングの出現は、複雑な関数の効率的な表現を提供する強力な競争相手と見なされてきた。 本稿では,深層ニューラルネットワークとスペクトル法を組み合わせてPDEを解く手法を提案する。 特に,深層操作ネットワーク(deeponet)と呼ばれる深層学習手法を用いて,pdesの解の拡張を行う候補関数を同定する。 我々は,deeponet によって提供される候補関数を出発点として,次のような性質を持つ関数の集合を構成する手法を考案した。 2)正則であり、かつ 3)それらは階層的、すなわちフーリエ級数や直交多項式に似ている。 我々は,カスタムメイド基底関数の好適な性質を利用して近似能力の研究を行い,線形および非線形時間依存型pdesの解の拡張に用いた。

Spectral methods are an important part of scientific computing's arsenal for solving partial differential equations (PDEs). However, their applicability and effectiveness depend crucially on the choice of basis functions used to expand the solution of a PDE. The last decade has seen the emergence of deep learning as a strong contender in providing efficient representations of complex functions. In the current work, we present an approach for combining deep neural networks with spectral methods to solve PDEs. In particular, we use a deep learning technique known as the Deep Operator Network (DeepONet), to identify candidate functions on which to expand the solution of PDEs. We have devised an approach which uses the candidate functions provided by the DeepONet as a starting point to construct a set of functions which have the following properties: i) they constitute a basis, 2) they are orthonormal, and 3) they are hierarchical i.e., akin to Fourier series or orthogonal polynomials. We have exploited the favorable properties of our custom-made basis functions to both study their approximation capability and use them to expand the solution of linear and nonlinear time-dependent PDEs.
翻訳日:2021-11-10 16:21:26 公開日:2021-11-09
# ランダムグラフのロバスト推定

Robust Estimation for Random Graphs ( http://arxiv.org/abs/2111.05320v1 )

ライセンス: Link先を確認
Jayadev Acharya, Ayush Jain, Gautam Kamath, Ananda Theertha Suresh, Huanyu Zhang(参考訳) 我々は、$n$ノード上のErd\H{o}s-R\'enyiランダムグラフのパラメータ$p$を頑健に推定する問題について検討する。 標準推定器の欠陥を示した後、計算効率の良いスペクトルアルゴリズムを設計し、$\tilde O(\sqrt{p(1-p)}/n + \gamma\sqrt{p(1-p)} /\sqrt{n}+ \gamma/n)$ for $\gamma < 1/60$と見積もる。 さらに、情報理論の限界である$\gamma <1/2$ に対して、同様の精度の非効率なアルゴリズムを与える。 最後に,アルゴリズムの誤差が対数係数まで最適であることを示すため,ほぼ一致した統計的下界を証明した。

We study the problem of robustly estimating the parameter $p$ of an Erd\H{o}s-R\'enyi random graph on $n$ nodes, where a $\gamma$ fraction of nodes may be adversarially corrupted. After showing the deficiencies of canonical estimators, we design a computationally-effi cient spectral algorithm which estimates $p$ up to accuracy $\tilde O(\sqrt{p(1-p)}/n + \gamma\sqrt{p(1-p)} /\sqrt{n}+ \gamma/n)$ for $\gamma < 1/60$. Furthermore, we give an inefficient algorithm with similar accuracy for all $\gamma <1/2$, the information-theoreti c limit. Finally, we prove a nearly-matching statistical lower bound, showing that the error of our algorithms is optimal up to logarithmic factors.
翻訳日:2021-11-10 16:21:11 公開日:2021-11-09
# (参考訳) 視覚無理解平面操作学習のための微分可能レシピ [全文訳有]

A Differentiable Recipe for Learning Visual Non-Prehensile Planar Manipulation ( http://arxiv.org/abs/2111.05318v1 )

ライセンス: CC BY 4.0
Bernardo Aceituno, Alberto Rodriguez, Shubham Tulsiani, Abhinav Gupta, Mustafa Mukadam(参考訳) ビデオでタスクを特定することは、新規で一般的なロボットスキルを取得するための強力なテクニックである。 しかし、メカニクスや巧妙な相互作用の推論は、コンタクトリッチな操作の学習を難しくする。 本研究では、平面運動中の物体のビデオから、同じ物体の動きを再現する接触認識ロボット動作を見つけるという、視覚的非包括的平面操作の問題に焦点を当てる。 本稿では,微分可能最適化と有限差分に基づくシミュレーションを利用して,ビデオデコードニューラルモデルと接触力学の先行情報を組み合わせた新しいアーキテクチャである微分可能制御学習(\ours)を提案する。 シミュレーション実験を通じて,従来のモデルベース手法と現代のディープラーニング手法の相互作用について検討する。 モジュラーで完全に微分可能なアーキテクチャは、未知のオブジェクトや動きの学習のみの方法よりも優れていることが分かりました。 https://github.com/b aceituno/dlm}

Specifying tasks with videos is a powerful technique towards acquiring novel and general robot skills. However, reasoning over mechanics and dexterous interactions can make it challenging to scale learning contact-rich manipulation. In this work, we focus on the problem of visual non-prehensile planar manipulation: given a video of an object in planar motion, find contact-aware robot actions that reproduce the same object motion. We propose a novel architecture, Differentiable Learning for Manipulation (\ours), that combines video decoding neural models with priors from contact mechanics by leveraging differentiable optimization and finite difference based simulation. Through extensive simulated experiments, we investigate the interplay between traditional model-based techniques and modern deep learning approaches. We find that our modular and fully differentiable architecture performs better than learning-only methods on unseen objects and motions. \url{https://github.com/b aceituno/dlm}.
翻訳日:2021-11-10 16:19:46 公開日:2021-11-09
# prema:3次元形状検索のための部分的再帰的マルチビューアグリゲーションネットワーク

PREMA: Part-based REcurrent Multi-view Aggregation Network for 3D Shape Retrieval ( http://arxiv.org/abs/2111.04945v1 )

ライセンス: Link先を確認
Jiongchao Jin, Huanqiang Xu, Pengliang Ji, Zehao Tang, Zhang Xiong(参考訳) 本稿では,ビュー数,咬合数,背景クラッタの不足などの実用的ビュー欠陥の悪影響を解消し,形状表現の識別能力を高めるための,部分的再帰的多視点集約ネットワーク(prema)を提案する。 人間が主に識別部によって物体を認識するという事実に着想を得て,多視点コヒーレント部分(mcp)を異なる視点で再帰する判別部と定義する。 当社のpremaは,mcpを用いてロバストな形状表現を構築できる。 総合的に,各ビューに対する信頼度マップを計算し,特徴量にそれらのマップを適用してMPPを抽出するために,PreMAに新しい地域意識ユニット(RAU)を設計する。 PreMAは異なるビューの特徴を関連付けてMPPをアクセントし、形状表現のための部分認識の特徴を集約する。

We propose the Part-based Recurrent Multi-view Aggregation network(PREMA) to eliminate the detrimental effects of the practical view defects, such as insufficient view numbers, occlusions or background clutters, and also enhance the discriminative ability of shape representations. Inspired by the fact that human recognize an object mainly by its discriminant parts, we define the multi-view coherent part(MCP), a discriminant part reoccurring in different views. Our PREMA can reliably locate and effectively utilize MCPs to build robust shape representations. Comprehensively, we design a novel Regional Attention Unit(RAU) in PREMA to compute the confidence map for each view, and extract MCPs by applying those maps to view features. PREMA accentuates MCPs via correlating features of different views, and aggregates the part-aware features for shape representation.
翻訳日:2021-11-10 16:05:17 公開日:2021-11-09
# ポイントクラウド強化のためのグラフベース奥行きDenoising and Dequantization

Graph-Based Depth Denoising & Dequantization for Point Cloud Enhancement ( http://arxiv.org/abs/2111.04946v1 )

ライセンス: Link先を確認
Xue Zhang, Gene Cheung, Jiahao Pang, Yash Sanghvi, Abhiram Gnanasambandam, Stanley H. Chan(参考訳) 3Dポイントの雲は通常、センサーが1つ以上の視点で取得した深さの測定から構築される。 測定は量子化とノイズの破損の両方に悩まされる。 品質を向上させるため、以前の作業では、不完全な深度データを3D空間に投影した後、ポイントクラウド \textit{a reari} をノイズ化する。 代わりに、3次元の点雲を合成する前に、知覚された画像の深さ測定を直接拡張する。 物理センシングプロセスの近傍に近づくことで、測定誤差を隠蔽する処理ステップの前に、深度形成モデルに最適化を調整します。 具体的には,信号依存ノイズ付加と非一様ログベース量子化の組み合わせとして深さ形成をモデル化する。 設計したモデルは、実際の深度センサから収集された実験データを使用して検証される(パラメータが適合する)。 深度画像の各画素列を強化するために,我々はまず,利用可能な行画素間のビュー内類似性を特徴グラフ学習によってエッジウェイトとして符号化する。 次に、視点マッピングとスパース線形補間により、別の補正深度画像とビュー間類似性を確立する。 これは、凸かつ微分可能な後方(map)グラフフィルタリングの目的を最大化する。 我々は,Gershgorin circle theorem (GCT) を用いて最適ステップサイズを近似した加速勾配降下(AGD)を用いて,目的を効率的に最適化する。 実験の結果,本手法は2つの確立されたポイントクラウド品質指標において,最近のポイントクラウド分別スキームと最先端画像分別スキームを有意に上回っていた。

A 3D point cloud is typically constructed from depth measurements acquired by sensors at one or more viewpoints. The measurements suffer from both quantization and noise corruption. To improve quality, previous works denoise a point cloud \textit{a posteriori} after projecting the imperfect depth data onto 3D space. Instead, we enhance depth measurements directly on the sensed images \textit{a priori}, before synthesizing a 3D point cloud. By enhancing near the physical sensing process, we tailor our optimization to our depth formation model before subsequent processing steps that obscure measurement errors. Specifically, we model depth formation as a combined process of signal-dependent noise addition and non-uniform log-based quantization. The designed model is validated (with parameters fitted) using collected empirical data from an actual depth sensor. To enhance each pixel row in a depth image, we first encode intra-view similarities between available row pixels as edge weights via feature graph learning. We next establish inter-view similarities with another rectified depth image via viewpoint mapping and sparse linear interpolation. This leads to a maximum a posteriori (MAP) graph filtering objective that is convex and differentiable. We optimize the objective efficiently using accelerated gradient descent (AGD), where the optimal step size is approximated via Gershgorin circle theorem (GCT). Experiments show that our method significantly outperformed recent point cloud denoising schemes and state-of-the-art image denoising schemes, in two established point cloud quality metrics.
翻訳日:2021-11-10 16:05:01 公開日:2021-11-09
# MAC-ReconNet:動的重み予測を用いたMR画像再構成のための複数獲得コンテキストに基づく畳み込みニューラルネットワーク

MAC-ReconNet: A Multiple Acquisition Context based Convolutional Neural Network for MR Image Reconstruction using Dynamic Weight Prediction ( http://arxiv.org/abs/2111.05055v1 )

ライセンス: Link先を確認
Sriprabha Ramanarayanan, Balamurali Murugesan, Keerthi Ram, Mohanasankar Sivaprakasam(参考訳) 畳み込みニューラルネットワークを用いたMR再構成法により,高速かつ高品質な再構成が可能となった。 cnnベースのモデルの主な欠点は、柔軟性がなく、実用的な適用性を制限する特定の取得コンテキストでのみ効果的に動作できることである。 取得コンテキストでは,3つの入力設定,すなわち,研究中の解剖学,アンダーサンプリングマスクパターン,アンダーサンプリングアクセラレーション係数の特定の組み合わせをいう。 モデルは複数のコンテキストを組み合わせた画像に基づいて共同で訓練することができる。 しかし、モデルがコンテキスト固有のモデルのパフォーマンスを満たしたり、列車の時刻に見えないコンテキストに拡張できないりするわけではない。 これは、複数のコンテキストに柔軟性を組み込むために、コンテキスト固有の重みを生成するために既存のアーキテクチャを変更する必要がある。 本稿では,MRI再構成のためのMAC-ReconNetと呼ばれる複数の取得コンテキストに基づくネットワークを提案する。 提案するネットワークはMRI再構成モジュールと動的重み予測(DWP)モジュールを備える。 DWPモジュールは、対応する取得コンテキスト情報を入力として、実行時にコンテキストとともに動的に変化する再構成モジュールのコンテキスト固有の重みを学習する。 提案手法は, 心臓および脳のデータセット, ガウス型およびデカルト型アンダーサンプリングパターン, 5つの加速度因子に基づいて複数の文脈を処理できることを示す。 提案するネットワークは, 有意な協調学習モデルより優れ, 定量的かつ質的に, 文脈固有モデルと競合する結果を与える。 また、列車の時刻に見えないコンテキストでテストすることで、モデルの一般化可能性を示す。

Convolutional Neural network-based MR reconstruction methods have shown to provide fast and high quality reconstructions. A primary drawback with a CNN-based model is that it lacks flexibility and can effectively operate only for a specific acquisition context limiting practical applicability. By acquisition context, we mean a specific combination of three input settings considered namely, the anatomy under study, undersampling mask pattern and acceleration factor for undersampling. The model could be trained jointly on images combining multiple contexts. However the model does not meet the performance of context specific models nor extensible to contexts unseen at train time. This necessitates a modification to the existing architecture in generating context specific weights so as to incorporate flexibility to multiple contexts. We propose a multiple acquisition context based network, called MAC-ReconNet for MRI reconstruction, flexible to multiple acquisition contexts and generalizable to unseen contexts for applicability in real scenarios. The proposed network has an MRI reconstruction module and a dynamic weight prediction (DWP) module. The DWP module takes the corresponding acquisition context information as input and learns the context-specific weights of the reconstruction module which changes dynamically with context at run time. We show that the proposed approach can handle multiple contexts based on cardiac and brain datasets, Gaussian and Cartesian undersampling patterns and five acceleration factors. The proposed network outperforms the naive jointly trained model and gives competitive results with the context-specific models both quantitatively and qualitatively. We also demonstrate the generalizability of our model by testing on contexts unseen at train time.
翻訳日:2021-11-10 16:04:34 公開日:2021-11-09
# plenopticカメラキャリブレーションにおけるぼけ情報の利用

Leveraging blur information for plenoptic camera calibration ( http://arxiv.org/abs/2111.05226v1 )

ライセンス: Link先を確認
Mathieu Labussi\`ere, C\'eline Teuli\`ere, Fr\'ed\'eric Bernardin, Omar Ait-Aider(参考訳) 本稿では,光ファイバーカメラの新しい校正アルゴリズム,特に複数種類のマイクロレンズを用いるマルチフォーカス構成について,原画像のみを用いて述べる。 現在のキャリブレーション法は、単純化されたプロジェクションモデル、再構成画像の特徴の使用、マイクロレンズの種類ごとにキャリブレーションを分離する必要がある。 マルチフォーカス構成では、シーンの同じ部分が、マイクロレンズ焦点焦点の長さに応じて異なる量のぼやけを示す。 通常、最小のぼかしのマイクロ画像のみが使用される。 本稿では,新たに導入されたBlur Aware Plenoptic(BAP)機能を利用して,新しいカメラモデルにおけるデフォーカスブラーを明示的にモデル化することを提案する。 第1に、初期カメラパラメータを検索する事前校正ステップで使用し、第2に、単一最適化プロセスで最小化される新しいコスト関数を表現します。 第3に、マイクロイメージ間の相対的ぼかしを校正するために利用される。 これは幾何学的ぼやけ、すなわちぼやけた円と物理的なぼやけ、すなわち点拡散関数を結びつける。 最後に、結果のぼかしプロファイルを用いて、カメラの被写界深度を特徴付ける。 実世界データを用いた制御環境における定量的評価は, 校正の有効性を示す。

This paper presents a novel calibration algorithm for plenoptic cameras, especially the multi-focus configuration, where several types of micro-lenses are used, using raw images only. Current calibration methods rely on simplified projection models, use features from reconstructed images, or require separated calibrations for each type of micro-lens. In the multi-focus configuration, the same part of a scene will demonstrate different amounts of blur according to the micro-lens focal length. Usually, only micro-images with the smallest amount of blur are used. In order to exploit all available data, we propose to explicitly model the defocus blur in a new camera model with the help of our newly introduced Blur Aware Plenoptic (BAP) feature. First, it is used in a pre-calibration step that retrieves initial camera parameters, and second, to express a new cost function to be minimized in our single optimization process. Third, it is exploited to calibrate the relative blur between micro-images. It links the geometric blur, i.e., the blur circle, to the physical blur, i.e., the point spread function. Finally, we use the resulting blur profile to characterize the camera's depth of field. Quantitative evaluations in controlled environment on real-world data demonstrate the effectiveness of our calibrations.
翻訳日:2021-11-10 16:03:47 公開日:2021-11-09
# 学術的ハイパーテキストのマルチモーダル知性:文書学者の貢献。 科学編集プロセスにおける連続文書化に必要なコラボレーション

Multimodal intelligibility of scholarly hypertext: the documentalist's contribution. A required collaboration for serial documentisation in the scientific editorial process ( http://arxiv.org/abs/2111.05039v1 )

ライセンス: Link先を確認
G\'erald Kembellec (DHIP = IHA, DICEN-IDF)(参考訳) 本稿では,編集職とオンライン出版職の境界線が強みを失っていることを示す。 この文脈では、特にWebの進化に直面して、ハイパーテキストの文書化が更新されることは理にかなっている。 私たちは特に、よりトリッキーな学者ハイパーテキストの文書化プロセスについて考えています。 本稿の目的は,Web の多くの分野を考慮すると,文書品質のハイパーテキスト向上は,著者,編集者,放送者間の適切な対話を通じてのみ可能であることを示すことである。 読者が適切な情報にたどり着くと、読者は満足するだろう。 また、この教育・教育プロセスにおける各アクタがゲインとなることも示される。 実際、質的な形式化作業は、強い放送範囲と結合される。 最後に、このメディア化の作業は情報通信のアクターが主導し、テキストを人間と機械の両方に理解できるようにする必要があると指摘する。 本法は、連続文書化の期間において、ここで指定される。

This article shows that the boundaries between the editing and online publishingprofession s are losing their strength. In this context it would only make sense that the wayhypertexts are documented be renewed, especially facing of the Web's evolution. We arethinking in particular of the trickier scholar hypertexts documentation process - specifically inscientific or cultural contexts. The purpose of this article is to demonstrate that, consideringthe numerous branches of the Web, the hypertext enhance of a document of quality can onlybe done through a proper dialogue between authors, editors, and broadcasters. It would satisfythe readership as they could reach the appropriate information. It will also be shown that eachactor in this auctorial-editorial process would be a gainer. Indeed, a qualitative formalizationwork would be coupled with a strong broadcasting scope. Finally, we will point out that thiswork of mediating must be led by an actor of information-communic ation, to make the textunderstandable to both humans and machines. This meditative act is designated here under theterm of serial documentarisation.
翻訳日:2021-11-10 16:01:42 公開日:2021-11-09
# LSTM回帰モデルを用いたインド株式市場のセクター収益性の分析

Analysis of Sectoral Profitability of the Indian Stock Market Using an LSTM Regression Model ( http://arxiv.org/abs/2111.04976v1 )

ライセンス: Link先を確認
Jaydip Sen, Saikat Mondal, and Sidra Mehtab(参考訳) 将来の株価を正確に予測するための予測モデル設計は、常に興味深い研究課題であると考えられている。 このタスクは、多くの制御可能で制御不能な変数によって影響を受ける現実世界の株価の揮発的かつ確率的性質のために複雑になる。 本稿では,所定時間間隔でWebから過去の株価を自動的に抽出し,その将来価格を予測し,将来の株価を予測するための,長期記憶(LSTM)アーキテクチャに基づく最適化された予測モデルを提案する。 このモデルは、インド証券取引所(nse)に上場している7つの部門から70の重要株式の予測結果に基づいて、売買を行うために展開されている。 各セクターの収益性は、2010年1月1日から2021年8月26日までの期間に当該セクターの株式から得られる総利益に基づいて導かれる。 部門は利益率の値に基づいて比較される。 モデルの予測精度も各セクタで評価される。 その結果, 将来の株価予測において, このモデルは非常に正確であることがわかった。

Predictive model design for accurately predicting future stock prices has always been considered an interesting and challenging research problem. The task becomes complex due to the volatile and stochastic nature of the stock prices in the real world which is affected by numerous controllable and uncontrollable variables. This paper presents an optimized predictive model built on long-and-short-term memory (LSTM) architecture for automatically extracting past stock prices from the web over a specified time interval and predicting their future prices for a specified forecast horizon, and forecasts the future stock prices. The model is deployed for making buy and sell transactions based on its predicted results for 70 important stocks from seven different sectors listed in the National Stock Exchange (NSE) of India. The profitability of each sector is derived based on the total profit yielded by the stocks in that sector over a period from Jan 1, 2010 to Aug 26, 2021. The sectors are compared based on their profitability values. The prediction accuracy of the model is also evaluated for each sector. The results indicate that the model is highly accurate in predicting future stock prices.
翻訳日:2021-11-10 16:00:31 公開日:2021-11-09
# 機械学習を用いた応答メッセージ行列に基づくDNSサーバの分類

Classifying DNS Servers based on Response Message Matrix using Machine Learning ( http://arxiv.org/abs/2111.05034v1 )

ライセンス: Link先を確認
Keiichi Shima, Ryo Nakamura, Kazuya Okada, Tomohiro Ishihara, Daisuke Miyamoto, Yuji Sekiya(参考訳) 不適切に設定されたドメイン名システム(DNS)サーバは、時にはDoSやDDoS攻撃の一部としてパケットリフレクタとして使用される。 このアクティビティの結果生成されたパケットの検出は、DNSリクエストとレスポンストラフィックを監視して論理的に可能である。 対応する要求を持たない応答は、反射メッセージと見なすことができる。しかし、すべてのdnsパケットのチェックと追跡は、非自明な操作である。 本稿では,少数のパケットから構築したDNSサーバ特徴行列と機械学習アルゴリズムを用いて,リフレクタとして使用されるDNSサーバの検出機構を提案する。 悪いDNSサーバ検出のF1スコアは、テストデータとトレーニングデータが同日中に生成される場合に0.9以上、同じ日のトレーニングおよびテストフェーズに使用されていないデータに対して0.7以上であった。

Improperly configured domain name system (DNS) servers are sometimes used as packet reflectors as part of a DoS or DDoS attack. Detecting packets created as a result of this activity is logically possible by monitoring the DNS request and response traffic. Any response that does not have a corresponding request can be considered a reflected message; checking and tracking every DNS packet, however, is a non-trivial operation. In this paper, we propose a detection mechanism for DNS servers used as reflectors by using a DNS server feature matrix built from a small number of packets and a machine learning algorithm. The F1 score of bad DNS server detection was more than 0.9 when the test and training data are generated within the same day, and more than 0.7 for the data not used for the training and testing phase of the same day.
翻訳日:2021-11-10 16:00:16 公開日:2021-11-09
# トポロジカルデータ解析に基づく分類器

A Topological Data Analysis Based Classifier ( http://arxiv.org/abs/2111.05214v1 )

ライセンス: Link先を確認
Rolando Kindelan and Jos\'e Fr\'ias and Mauricio Cerda and Nancy Hitschfeld(参考訳) トポロジカルデータ分析(TDA)は、データセットに隠されたトポロジカル情報を見つけることを目的とした創発的な分野である。 TDAツールは一般的に、機械学習(ML)メソッドを改善するためにフィルタやトポロジカル記述子を作成するために使われてきた。 本稿では,TDAをMLステージに含まないマルチクラス分類問題に直接適用し,不均衡なデータセットの利点を示すアルゴリズムを提案する。 提案アルゴリズムは,データセット上にフィルタされた単純複合体を構築する。 Persistent Homology (PH) は、ラベルのない点がラベル付き隣り合う点から過半数の票でラベルを得る部分複素の選択を導くために用いられる。 異なる次元のデータセット、クラス重複度、クラスごとの不均衡サンプルを8つ選択した。 提案手法は平均してKNNと重み付きKNNよりも優れていた。 バランスの取れたデータセットでは、ローカルSVMやランダムフォレスト(Random Forest)のベースライン分類器と競合し、絡み合ったクラスとマイノリティクラスを分類するすべてのベースラインメソッドを上回っている。

Topological Data Analysis (TDA) is an emergent field that aims to discover topological information hidden in a dataset. TDA tools have been commonly used to create filters and topological descriptors to improve Machine Learning (ML) methods. This paper proposes an algorithm that applies TDA directly to multi-class classification problems, without any further ML stage, showing advantages for imbalanced datasets. The proposed algorithm builds a filtered simplicial complex on the dataset. Persistent Homology (PH) is applied to guide the selection of a sub-complex where unlabeled points obtain the label with the majority of votes from labeled neighboring points. We select 8 datasets with different dimensions, degrees of class overlap and imbalanced samples per class. On average, the proposed TDABC method was better than KNN and weighted-KNN. It behaves competitively with Local SVM and Random Forest baseline classifiers in balanced datasets, and it outperforms all baseline methods classifying entangled and minority classes.
翻訳日:2021-11-10 15:57:56 公開日:2021-11-09
# JAXで微分可能PDE離散化を記述するための研究フレームワーク

A research framework for writing differentiable PDE discretizations in JAX ( http://arxiv.org/abs/2111.05218v1 )

ライセンス: Link先を確認
Antonio Stanziola, Simon R. Arridge, Ben T. Cox, Bradley E. Treeby(参考訳) 微分シミュレータは、強化学習から最適制御まで、いくつかの分野で応用される新しい概念である。 それらの特徴は、入力パラメータに関する解析的勾配を計算する能力である。 レイヤと呼ばれる複数のビルディングブロックを合成して構築されるニューラルネットワークのように、シミュレーションでは、それ自体をプライマリユニットにまとめることができるオペレータの出力を計算する必要がある。 ニューラルネットワークの各レイヤは特定の個別の操作を表すが、同じオペレータは、使用される離散化や対処すべき研究問題に応じて、複数の表現を持つことができる。 本稿では,有限ベクトルによってパラメータ化される連続関数の族間の写像として演算子を表現することにより,微分可能作用素と離散化のライブラリを構築するためのシンプルな設計パターンを提案する。 本研究では,フーリエスペクトル法を用いてヘルムホルツ方程式を離散化し,勾配降下を用いて音響レンズの音速を最適化する音響最適化問題に対して,微分可能性を示す。 提案されたフレームワークはオープンソースであり、 \url{https://github.com/u cl-bug/jaxdf}で利用可能である。

Differentiable simulators are an emerging concept with applications in several fields, from reinforcement learning to optimal control. Their distinguishing feature is the ability to calculate analytic gradients with respect to the input parameters. Like neural networks, which are constructed by composing several building blocks called layers, a simulation often requires computing the output of an operator that can itself be decomposed into elementary units chained together. While each layer of a neural network represents a specific discrete operation, the same operator can have multiple representations, depending on the discretization employed and the research question that needs to be addressed. Here, we propose a simple design pattern to construct a library of differentiable operators and discretizations, by representing operators as mappings between families of continuous functions, parametrized by finite vectors. We demonstrate the approach on an acoustic optimization problem, where the Helmholtz equation is discretized using Fourier spectral methods, and differentiability is demonstrated using gradient descent to optimize the speed of sound of an acoustic lens. The proposed framework is open-sourced and available at \url{https://github.com/u cl-bug/jaxdf}
翻訳日:2021-11-10 15:57:36 公開日:2021-11-09
# 三次元感情認識のためのクロスアテンショナルオーディオ・ビジュアルフュージョン

Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition ( http://arxiv.org/abs/2111.05222v1 )

ライセンス: Link先を確認
Gnana Praveen R, Eric Granger, Patrick Cardinal(参考訳) マルチモーダル分析は、孤立したユニモーダルアプローチよりも感情認識の全体的な精度を向上させることができるため、近年、感情コンピューティングに大きな関心を寄せている。 マルチモーダル感情認識の最も効果的な手法は、顔、声、生理的モダリティなどの多様で補完的な情報源を効率的に活用し、包括的な特徴表現を提供する。 本稿では,複雑な時空間関係を捉えた映像から抽出した顔と声のモダリティの融合に基づく次元的感情認識に焦点を当てた。 既存の融合技術のほとんどは、オーディオ・ビジュアル(a-v)の相補的性質を効果的に活用しないリカレントネットワークや従来の注意機構に依存している。 本研究では,A-Vモダリティ間の有意な特徴を抽出し,有価値と覚醒値の連続値の正確な予測を可能にする。 我々の新しいA-V融合モデルは、モーダル間の関係を効率的に活用する。 特に、クロス・アテンション重みを計算し、個々のモダリティにまたがるより帰属的な特徴に焦点を合わせ、帰属的特徴表現を結合し、それが価と覚醒の予測のために完全に連結された層に供給される。 提案手法の有効性は,RECOLAと疲労(プライベート)データセットのビデオに対して実験的に検証した。 その結果、我々のA-V融合モデルは、最先端の融合モデルよりも優れたコスト効率のアプローチであることが示唆された。 コードは: \url{https://github.com/p raveena2j/Cross-Atte ntional-AV-Fusion}

Multimodal analysis has recently drawn much interest in affective computing, since it can improve the overall accuracy of emotion recognition over isolated uni-modal approaches. The most effective techniques for multimodal emotion recognition efficiently leverage diverse and complimentary sources of information, such as facial, vocal, and physiological modalities, to provide comprehensive feature representations. In this paper, we focus on dimensional emotion recognition based on the fusion of facial and vocal modalities extracted from videos, where complex spatiotemporal relationships may be captured. Most of the existing fusion techniques rely on recurrent networks or conventional attention mechanisms that do not effectively leverage the complimentary nature of audio-visual (A-V) modalities. We introduce a cross-attentional fusion approach to extract the salient features across A-V modalities, allowing for accurate prediction of continuous values of valence and arousal. Our new cross-attentional A-V fusion model efficiently leverages the inter-modal relationships. In particular, it computes cross-attention weights to focus on the more contributive features across individual modalities, and thereby combine contributive feature representations, which are then fed to fully connected layers for the prediction of valence and arousal. The effectiveness of the proposed approach is validated experimentally on videos from the RECOLA and Fatigue (private) data-sets. Results indicate that our cross-attentional A-V fusion model is a cost-effective approach that outperforms state-of-the-art fusion approaches. Code is available: \url{https://github.com/p raveena2j/Cross-Atte ntional-AV-Fusion}
翻訳日:2021-11-10 15:57:06 公開日:2021-11-09
# 球面上のデータの探索的因子分析

Exploratory Factor Analysis of Data on a Sphere ( http://arxiv.org/abs/2111.04940v1 )

ライセンス: Link先を確認
Fan Dai and Karin S. Dorman and Somak Dutta and Ranjan Maitra(参考訳) 高次元球面上のデータは、通常または予備処理の結果、多くの分野において頻繁に発生し、理解する必要のある複雑な依存構造を持つ。 そこで本研究では, 予測正規分布の探索的因子分析を行い, 比較的容易に解釈できる潜在因子を用いて, データの変動性を説明する。 提案手法は,新しい高速交互予測プロファイル条件付き最大化アルゴリズムにより最大推定を行う。 幅広い環境におけるシミュレーション実験の結果は均一に優れている。 提案手法は,2018年12月初旬に$\#metoo$ハッシュタグを用いたツイートに対して,平均的な10代前脳の時間経過機能的磁気共鳴画像に適用し,手書きの数字を特徴付け,がんゲノムアトラスにおける癌細胞からの遺伝子発現データを提供する。

Data on high-dimensional spheres arise frequently in many disciplines either naturally or as a consequence of preliminary processing and can have intricate dependence structure that needs to be understood. We develop exploratory factor analysis of the projected normal distribution to explain the variability in such data using a few easily interpreted latent factors. Our methodology provides maximum likelihood estimates through a novel fast alternating expectation profile conditional maximization algorithm. Results on simulation experiments on a wide range of settings are uniformly excellent. Our methodology provides interpretable and insightful results when applied to tweets with the $\#MeToo$ hashtag in early December 2018, to time-course functional Magnetic Resonance Images of the average pre-teen brain at rest, to characterize handwritten digits, and to gene expression data from cancerous cells in the Cancer Genome Atlas.
翻訳日:2021-11-10 15:56:16 公開日:2021-11-09
# (参考訳) Gumbel-Softmax pres を用いた変分マルチタスク学習 [全文訳有]

Variational Multi-Task Learning with Gumbel-Softmax Priors ( http://arxiv.org/abs/2111.05323v1 )

ライセンス: CC BY 4.0
Jiayi Shen, Xiantong Zhen, Marcel Worring, Ling Shao(参考訳) マルチタスク学習(multi-task learning)は、タスクの関連性を探求し、個々のタスクを改善することを目的としている。 そこで本研究では,複数のタスクを学習するための汎用確率的推論フレームワークである変分多タスク学習(vmtl)を提案する。 マルチタスク学習をベイズ推論の変分問題とみなし,タスク関連性を事前の特定によって統一的に検討した。 各タスクに共有知識を組み込むため、タスクの事前を、gumbel-softmax技術によって学習される他の関連するタスクの変動後段の学習可能な混合物として設計する。 従来の手法とは対照的に,我々のVMTLは,後方を共同で推論することで,表現と分類器の両方のタスク関連性を原則的に活用することができる。 これにより、個々のタスクは関連するタスクによって提供される帰納的バイアスを完全に活用できる。 実験の結果,提案するvmtlは,分類と回帰のトレーニングデータに制限のある多タスク学習環境に効果的に対応できることがわかった。 提案手法はベイズ的アプローチを含む従来の手法を一貫して上回り、5つのベンチマークデータセット上で最先端の性能を達成する。

Multi-task learning aims to explore task relatedness to improve individual tasks, which is of particular significance in the challenging scenario that only limited data is available for each task. To tackle this challenge, we propose variational multi-task learning (VMTL), a general probabilistic inference framework for learning multiple related tasks. We cast multi-task learning as a variational Bayesian inference problem, in which task relatedness is explored in a unified manner by specifying priors. To incorporate shared knowledge into each task, we design the prior of a task to be a learnable mixture of the variational posteriors of other related tasks, which is learned by the Gumbel-Softmax technique. In contrast to previous methods, our VMTL can exploit task relatedness for both representations and classifiers in a principled way by jointly inferring their posteriors. This enables individual tasks to fully leverage inductive biases provided by related tasks, therefore improving the overall performance of all tasks. Experimental results demonstrate that the proposed VMTL is able to effectively tackle a variety of challenging multi-task learning settings with limited training data for both classification and regression. Our method consistently surpasses previous methods, including strong Bayesian approaches, and achieves state-of-the-art performance on five benchmark datasets.
翻訳日:2021-11-10 15:54:56 公開日:2021-11-09
# 教師なし領域適応によるAIによる結核スクリーニングにおけるドメインシフトの緩和

Mitigating domain shift in AI-based tuberculosis screening with unsupervised domain adaptation ( http://arxiv.org/abs/2111.04893v1 )

ライセンス: Link先を確認
Nishanjan Ravin, Sourajit Saha, Alan Schweitzer, Ameena Elahi, Farouk Dako, Daniel Mollura, David Chapman(参考訳) ドメイン不変特徴学習(DIFL)は,深層学習型結核スクリーニングアルゴリズムの領域外一般化性を向上させることができることを示す。 最先端のディープラーニングアルゴリズムの現状は、しばしば「ドメインシフト」によって見つからないデータ分布に一般化するのが困難であることが知られている。 医療画像の文脈では、ある患者から別の患者へと一般化できないなど、意図しないバイアスを引き起こす可能性がある。 ResNet-50分類器の性能を,地理的に多様な画像ソースを持つ4つの最も人気のある公開データセットを用いて,結核検診のために解析した。 resnet-50は,領域適応がなければ,地理的に分布する地域からの画像を含む多数の結核検診データセットからの画像分布の一般化が困難である。 しかし、DIFLの導入により、ドメイン外性能が大幅に向上する。 分析基準には、精度、感度、特異性、AUCの比較、DIFL拡張アルゴリズムが含まれる。 様々な公開データセットに適用した場合,DIFLは,ソース領域画像に対する許容精度を維持しつつ,結核スクリーニングの一般化性を向上する。

We demonstrate that Domain Invariant Feature Learning (DIFL) can improve the out-of-domain generalizability of a deep learning Tuberculosis screening algorithm. It is well known that state of the art deep learning algorithms often have difficulty generalizing to unseen data distributions due to "domain shift". In the context of medical imaging, this could lead to unintended biases such as the inability to generalize from one patient population to another. We analyze the performance of a ResNet-50 classifier for the purposes of Tuberculosis screening using the four most popular public datasets with geographically diverse sources of imagery. We show that without domain adaptation, ResNet-50 has difficulty in generalizing between imaging distributions from a number of public Tuberculosis screening datasets with imagery from geographically distributed regions. However, with the incorporation of DIFL, the out-of-domain performance is greatly enhanced. Analysis criteria includes a comparison of accuracy, sensitivity, specificity and AUC over both the baseline, as well as the DIFL enhanced algorithms. We conclude that DIFL improves generalizability of Tuberculosis screening while maintaining acceptable accuracy over the source domain imagery when applied across a variety of public datasets.
翻訳日:2021-11-10 15:33:28 公開日:2021-11-09
# (参考訳) フェデレーション・モノのインターネット(IoFT):フェデレーション・ラーニングのためのデータ駆動型アプローチの今後の展望

The Internet of Federated Things (IoFT): A Vision for the Future and In-depth Survey of Data-driven Approaches for Federated Learning ( http://arxiv.org/abs/2111.05326v1 )

ライセンス: CC BY 4.0
Raed Kontar, Naichen Shi, Xubo Yue, Seokhyun Chung, Eunshin Byon, Mosharaf Chowdhury, Judy Jin, Wissam Kontar, Neda Masoud, Maher Noueihed, Chinedum E. Okwudire, Garvesh Raskutti, Romesh Saigal, Karandeep Singh, and Zhisheng Ye(参考訳) IoT(Internet of Things)は、大きなパラダイムシフトの渦中にあります。 将来、IoTシステムであるIoFTでは、クラウドは、モデルのトレーニングをエッジに持ってくる群衆によって置き換えられ、IoTデバイスは、知識を共同で抽出し、パーソナルデータをローカルに保存しながら、スマートな分析/モデルを構築することができる。 このパラダイムシフトは、IoTデバイスにおける計算能力の大幅な増加と、フェデレートラーニング(FL)と呼ばれる分散型およびプライバシ保護モデルトレーニングの最近の進歩によって実現された。 本稿は、IoFTのビジョンと、このビジョンの実現に向けた現在の取り組みの体系的な概要を提供する。 具体的には、まずIoFTの特徴を定義し、FLデータ駆動アプローチ、機会、そして3次元の分散推論を可能にする課題について議論する。 i)すべてのIoTデバイスにおけるユーティリティを最大化するグローバルモデル。 (ii)全端末で強みを借りながらも独自のモデルを保ったパーソナライズドモデル。 (iii)新しいデバイスや学習タスクに迅速に適応するメタ学習モデル。 最後に、ドメインエキスパートのレンズを通して異なる産業を形作るioftのビジョンと課題を説明します。 これらの産業には製造業、輸送、エネルギー、医療、品質と信頼性、ビジネス、そしてコンピューティングが含まれる。

The Internet of Things (IoT) is on the verge of a major paradigm shift. In the IoT system of the future, IoFT, the cloud will be substituted by the crowd where model training is brought to the edge, allowing IoT devices to collaboratively extract knowledge and build smart analytics/models while keeping their personal data stored locally. This paradigm shift was set into motion by the tremendous increase in computational power on IoT devices and the recent advances in decentralized and privacy-preserving model training, coined as federated learning (FL). This article provides a vision for IoFT and a systematic overview of current efforts towards realizing this vision. Specifically, we first introduce the defining characteristics of IoFT and discuss FL data-driven approaches, opportunities, and challenges that allow decentralized inference within three dimensions: (i) a global model that maximizes utility across all IoT devices, (ii) a personalized model that borrows strengths across all devices yet retains its own model, (iii) a meta-learning model that quickly adapts to new devices or learning tasks. We end by describing the vision and challenges of IoFT in reshaping different industries through the lens of domain experts. Those industries include manufacturing, transportation, energy, healthcare, quality & reliability, business, and computing.
翻訳日:2021-11-10 15:32:02 公開日:2021-11-09
# マルチモーダル電子健康記録研究のための機械学習 : 課題と展望

Machine Learning for Multimodal Electronic Health Records-based Research: Challenges and Perspectives ( http://arxiv.org/abs/2111.04898v1 )

ライセンス: Link先を確認
Ziyi Liu, Jiaqi Zhang, Yongshuai Hou, Xinran Zhang, Ge Li, Yang Xiang(参考訳) 背景: 電子健康記録(ehrs)には患者の健康履歴の豊富な情報が含まれており、通常は構造化データと非構造化データの両方を含んでいる。 疾患コード、検査結果、治療など、構造化データから貴重な情報を蒸留することに焦点を当てた研究が数多くある。 しかし、構造化データに頼るだけでは患者の包括的情報を反映できない可能性があり、そのようなデータは時として誤った記録を含むことがある。 目的:近年の機械学習(ML)とディープラーニング(DL)技術の進歩により,非構造化自由テキストデータも取り入れることで,より正確な結果を得る研究が増えている。 本稿では,従来のMLやDLモデルの入力として,構造化データと非構造化データを組み合わせたマルチモーダルデータを用いた研究をレビューする。 材料と方法:電気電子工学研究所(ieee)のデジタルライブラリ、pubmed、acm(association for computing machinery)のデジタルライブラリでmlベースのマルチモーダルehr研究に関する記事を検索した。 結果と考察: 最終94回の研究では、従来のMLとDL技術を用いて、異なるモダリティからのデータの組み合わせと相互作用、そしてこれらのアルゴリズムがEHR関連のタスクにどのように適用されたかに焦点を当てた。 さらに,これらの融合手法の利点と限界について検討し,MLに基づくマルチモーダルEHR研究の今後の方向性を示す。

Background: Electronic Health Records (EHRs) contain rich information of patients' health history, which usually include both structured and unstructured data. There have been many studies focusing on distilling valuable information from structured data, such as disease codes, laboratory test results, and treatments. However, relying on structured data only might be insufficient in reflecting patients' comprehensive information and such data may occasionally contain erroneous records. Objective: With the recent advances of machine learning (ML) and deep learning (DL) techniques, an increasing number of studies seek to obtain more accurate results by incorporating unstructured free-text data as well. This paper reviews studies that use multimodal data, i.e. a combination of structured and unstructured data, from EHRs as input for conventional ML or DL models to address the targeted tasks. Materials and Methods: We searched in the Institute of Electrical and Electronics Engineers (IEEE) Digital Library, PubMed, and Association for Computing Machinery (ACM) Digital Library for articles related to ML-based multimodal EHR studies. Results and Discussion: With the final 94 included studies, we focus on how data from different modalities were combined and interacted using conventional ML and DL techniques, and how these algorithms were applied in EHR-related tasks. Further, we investigate the advantages and limitations of these fusion methods and indicate future directions for ML-based multimodal EHR research.
翻訳日:2021-11-10 15:28:52 公開日:2021-11-09
# 複数時系列からの学習: 多様な時系列予測に対する遠距離的アプローチ

Learning from Multiple Time Series: A Deep Disentangled Approach to Diversified Time Series Forecasting ( http://arxiv.org/abs/2111.04942v1 )

ライセンス: Link先を確認
Ling Chen, Weiqi Chen, Binqing Wu, Youdong Zhang, Bo Wen, Chenghu Yang(参考訳) 時系列予測は、金融予測やビジネス最適化など、多くのアプリケーションにおいて重要な問題である。 現代のデータセットは、複数の相関した時系列を持ち、これはしばしばグローバル(共有)正則性とローカル(特定の)ダイナミクスで生成される。 本稿では,大域的・局所的な時間的パターンに動的に絡み合う深層予測モデルであるDeepDGLを用いて,このような予測問題に取り組む。 DeepDGLは、グローバルパターンとローカルパターンをそれぞれ学習する2つのエンコーダと、マルチステップ予測を行うデコーダで構成されるエンコーダデコーダアーキテクチャを採用している。 具体的には、複雑なグローバルパターンをモデル化するために、ベクトル量子化(VQ)モジュールを導入し、グローバル機能エンコーダが全時系列間で共有コードブックを学習できるようにする。 多様化した異種局所パターンをモデル化するために、コントラストマルチホリゾン符号化(cmc)により拡張された適応パラメータ生成モジュールを提案し、各時系列毎に局所特徴エンコーダのパラメータを生成し、系列固有のコンテキスト変数と対応する時系列の長短期表現との相互情報を最大化する。 実世界のいくつかのデータセットに対する我々の実験は、DeepDGLが既存の最先端モデルより優れていることを示している。

Time series forecasting is a significant problem in many applications, e.g., financial predictions and business optimization. Modern datasets can have multiple correlated time series, which are often generated with global (shared) regularities and local (specific) dynamics. In this paper, we seek to tackle such forecasting problems with DeepDGL, a deep forecasting model that disentangles dynamics into global and local temporal patterns. DeepDGL employs an encoder-decoder architecture, consisting of two encoders to learn global and local temporal patterns, respectively, and a decoder to make multi-step forecasting. Specifically, to model complicated global patterns, the vector quantization (VQ) module is introduced, allowing the global feature encoder to learn a shared codebook among all time series. To model diversified and heterogenous local patterns, an adaptive parameter generation module enhanced by the contrastive multi-horizon coding (CMC) is proposed to generate the parameters of the local feature encoder for each individual time series, which maximizes the mutual information between the series-specific context variable and the long/short-term representations of the corresponding time series. Our experiments on several real-world datasets show that DeepDGL outperforms existing state-of-the-art models.
翻訳日:2021-11-10 15:28:22 公開日:2021-11-09
# 不確実性指導計画を用いたリスク感性モデルに基づく強化学習

Risk Sensitive Model-Based Reinforcement Learning using Uncertainty Guided Planning ( http://arxiv.org/abs/2111.04972v1 )

ライセンス: Link先を確認
Stefan Radic Webster, Peter Flach(参考訳) 安全で信頼性の高い強化学習エージェント,特にリスクの高い環境に展開する場合には,不確実性と緩和行動の特定が不可欠である。 本稿では,動的モデルのブートストラップアンサンブルを利用して環境認識の不確実性を推定することにより,モデルに基づく強化学習アルゴリズムでリスク感度を向上する。 本研究では, モデルロールアウト時の動作系列を解析し, エージェントを不確実性の低い状態空間の既知の領域に誘導する不確実性誘導型クロスエントロピー手法計画を提案する。 実験では、エージェントが計画中に状態空間の未知の領域を識別し、明示的な制約を必要とせずに高い信頼領域内でエージェントを維持できる能力を示す。 その結果、報酬を得るという点でパフォーマンスが低下し、リスクとリターンの間のトレードオフが示される。

Identifying uncertainty and taking mitigating actions is crucial for safe and trustworthy reinforcement learning agents, especially when deployed in high-risk environments. In this paper, risk sensitivity is promoted in a model-based reinforcement learning algorithm by exploiting the ability of a bootstrap ensemble of dynamics models to estimate environment epistemic uncertainty. We propose uncertainty guided cross-entropy method planning, which penalises action sequences that result in high variance state predictions during model rollouts, guiding the agent to known areas of the state space with low uncertainty. Experiments display the ability for the agent to identify uncertain regions of the state space during planning and to take actions that maintain the agent within high confidence areas, without the requirement of explicit constraints. The result is a reduction in the performance in terms of attaining reward, displaying a trade-off between risk and return.
翻訳日:2021-11-10 15:27:58 公開日:2021-11-09
# Wasserstein Adversarially Regularized Graph Autoencoder

Wasserstein Adversarially Regularized Graph Autoencoder ( http://arxiv.org/abs/2111.04981v1 )

ライセンス: Link先を確認
Huidong Liang and Junbin Gao(参考訳) 本稿では、ワッサースタイン計量を用いてノード埋め込みの潜在分布を直接正規化する暗黙的生成アルゴリズムであるワッサーシュタイン適応正規化グラフオートコーダ(WARGA)を紹介する。 提案手法は,kullback-leibler(kl )の発散と典型的な敵対的フレームワークに基づく最先端モデルよりもwargaが優勢な実世界グラフ上でのリンク予測とノードクラスタリングのタスクで検証されている。

This paper introduces Wasserstein Adversarially Regularized Graph Autoencoder (WARGA), an implicit generative algorithm that directly regularizes the latent distribution of node embedding to a target distribution via the Wasserstein metric. The proposed method has been validated in tasks of link prediction and node clustering on real-world graphs, in which WARGA generally outperforms state-of-the-art models based on Kullback-Leibler (KL) divergence and typical adversarial framework.
翻訳日:2021-11-10 15:27:42 公開日:2021-11-09
# 連合学習における統一グループフェアネス

Unified Group Fairness on Federated Learning ( http://arxiv.org/abs/2111.04986v1 )

ライセンス: Link先を確認
Fengda Zhang, Kun Kuang, Yuxuan Liu, Chao Wu, Fei Wu, Jiaxun Lu, Yunfeng Shao, Jun Xiao(参考訳) フェデレートラーニング(FL)は、グローバルモデルが分散クライアントのプライベートデータに基づいてトレーニングされる、重要な機械学習パラダイムとして登場した。 しかし、既存のFLアルゴリズムのほとんどは、分布シフトのため、異なるクライアントや異なるサンプルグループに対するパフォーマンスの公平性を保証することはできない。 近年の研究では、クライアント間の公正性の実現に焦点が当てられているが、現実のアプリケーションにおいて重要かつ実践的な、センシティブな属性(性別や人種など)によって形成される異なるグループに対する公正性は無視されている。 このギャップを埋めるため、flにおける統一グループフェアネスの目標を定式化し、異なるグループで同様のパフォーマンスを持つ公平なグローバルモデルを学ぶ。 任意の感度属性に対する統一群公平性を達成するために, 収束率の理論解析により群間の分布シフトを緩和する, 群分布にロバストなフェデレート平均化法(g-drfa)という新しいflアルゴリズムを提案する。 具体的には,各グループにおけるフェデレーション・グローバル・モデルの性能を目標として扱い,分散的ロバストな手法を用いて,グループ再重み付けによる不確実性に対する最悪のパフォーマンスを最大化する。 実験において,G-DRFAアルゴリズムの利点を様々な分散シフト設定で検証し,G-DRFAアルゴリズムが既存のフェアフェデレーション学習アルゴリズムよりもグループフェアネスで優れていることを示す。

Federated learning (FL) has emerged as an important machine learning paradigm where a global model is trained based on the private data from distributed clients. However, most of existing FL algorithms cannot guarantee the performance fairness towards different clients or different groups of samples because of the distribution shift. Recent researches focus on achieving fairness among clients, but they ignore the fairness towards different groups formed by sensitive attribute(s) (e.g., gender and/or race), which is important and practical in real applications. To bridge this gap, we formulate the goal of unified group fairness on FL which is to learn a fair global model with similar performance on different groups. To achieve the unified group fairness for arbitrary sensitive attribute(s), we propose a novel FL algorithm, named Group Distributionally Robust Federated Averaging (G-DRFA), which mitigates the distribution shift across groups with theoretical analysis of convergence rate. Specifically, we treat the performance of the federated global model at each group as an objective and employ the distributionally robust techniques to maximize the performance of the worst-performing group over an uncertainty set by group reweighting. We validate the advantages of the G-DRFA algorithm with various kinds of distribution shift settings in experiments, and the results show that G-DRFA algorithm outperforms the existing fair federated learning algorithms on unified group fairness.
翻訳日:2021-11-10 15:27:30 公開日:2021-11-09
# バックドア検出をエスケープする統計的差分低減法

A Statistical Difference Reduction Method for Escaping Backdoor Detection ( http://arxiv.org/abs/2111.05077v1 )

ライセンス: Link先を確認
Pengfei Xia, Hongjing Niu, Ziqiang Li, and Bin Li(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)がバックドア攻撃に弱いことが示されている。 感染したモデルは、通常、良性入力で振る舞うが、その予測は敵データに対する攻撃固有のターゲットに強制される。 このような攻撃に対して防御するための入力を識別するために、いくつかの検出方法が開発されている。 これらの防御が依存している一般的な仮説は、感染モデルによって抽出されたクリーン入力と逆入力の潜伏表現の間に大きな統計的差異があるということである。 しかし、これは重要であるが、仮説が真であるべきかどうかに関する包括的な研究は欠如している。 本稿では,それに着目し,以下の質問について考察する。 1) 統計的差異の特性は何か。 2)攻撃強度を損なうことなく効果的に低減する方法。 3) この削減が差分ベースの防御にどのような影響を及ぼすか。 私たちの仕事は3つの質問で行われます。 まず、mmd(maximum mean discrepancy)をメートル法として導入することにより、多値表現の統計的差異が、単に最高レベルではなく、すべて大きいことを明らかにする。 そこで我々は,バックドアモデルのトレーニング中に,損失関数に多レベルMDD制約を加えることで,統計的差分低減法(SDRM)を提案する。 最後に,3種類の差分検出手法について検討した。 これらの防御のスコアは、定期的に訓練されたバックドアモデルで90%-100%から、SDRMで訓練された2つのデータセット、モデルアーキテクチャ4つ、攻撃方法4つすべてで60%-70%に低下した。 その結果,提案手法は既存攻撃を回避してバックドア検出アルゴリズムを回避できることが示唆された。

Recent studies show that Deep Neural Networks (DNNs) are vulnerable to backdoor attacks. An infected model behaves normally on benign inputs, whereas its prediction will be forced to an attack-specific target on adversarial data. Several detection methods have been developed to distinguish inputs to defend against such attacks. The common hypothesis that these defenses rely on is that there are large statistical differences between the latent representations of clean and adversarial inputs extracted by the infected model. However, although it is important, comprehensive research on whether the hypothesis must be true is lacking. In this paper, we focus on it and study the following relevant questions: 1) What are the properties of the statistical differences? 2) How to effectively reduce them without harming the attack intensity? 3) What impact does this reduction have on difference-based defenses? Our work is carried out on the three questions. First, by introducing the Maximum Mean Discrepancy (MMD) as the metric, we identify that the statistical differences of multi-level representations are all large, not just the highest level. Then, we propose a Statistical Difference Reduction Method (SDRM) by adding a multi-level MMD constraint to the loss function during training a backdoor model to effectively reduce the differences. Last, three typical difference-based detection methods are examined. The F1 scores of these defenses drop from 90%-100% on the regularly trained backdoor models to 60%-70% on the models trained with SDRM on all two datasets, four model architectures, and four attack methods. The results indicate that the proposed method can be used to enhance existing attacks to escape backdoor detection algorithms.
翻訳日:2021-11-10 15:27:06 公開日:2021-11-09
# ネットワークレベルモビリティ情報の導入によるCOVID-19の深部拡散予測

Deep diffusion-based forecasting of COVID-19 by incorporating network-level mobility information ( http://arxiv.org/abs/2111.05199v1 )

ライセンス: Link先を確認
Padmaksha Roy, Shailik Sarkar, Subhodip Biswas, Fanglan Chen, Zhiqian Chen, Naren Ramakrishnan, Chang-Tien Lu(参考訳) 感染症の拡散の時空間的性質のモデル化は、病気の拡散の時間的側面と人々の移動パターンに見られる複雑な空間的依存性を理解する上で有用な直感を与える。 さらに、郡レベルの複数の関連時系列情報を利用して個々の時系列の予測を行うことができる。 この課題に加え、リアルタイムデータがしばしば一様ガウス分布の仮定から逸脱し、いくつかの複雑な混合パターンを示すという事実がある。 そこで本研究では, 自己回帰型混合密度動的拡散ネットワーク (arm3dnet) と呼ばれる確率的予測のための深層学習に基づく時系列モデルを開発した。 ガウス混合モデル層は、複数の関連する時系列から学習しながら、リアルタイムデータのマルチモーダルな性質を考察するために実装される。 我々のモデルは、動的共変量特徴と混合成分の最良の組み合わせで訓練された場合、アメリカ合衆国におけるCovid-19の死亡数やケースの予測において、従来の統計モデルと深層学習モデルより優れていることを示す。

Modeling the spatiotemporal nature of the spread of infectious diseases can provide useful intuition in understanding the time-varying aspect of the disease spread and the underlying complex spatial dependency observed in people's mobility patterns. Besides, the county level multiple related time series information can be leveraged to make a forecast on an individual time series. Adding to this challenge is the fact that real-time data often deviates from the unimodal Gaussian distribution assumption and may show some complex mixed patterns. Motivated by this, we develop a deep learning-based time-series model for probabilistic forecasting called Auto-regressive Mixed Density Dynamic Diffusion Network(ARM3Dnet), which considers both people's mobility and disease spread as a diffusion process on a dynamic directed graph. The Gaussian Mixture Model layer is implemented to consider the multimodal nature of the real-time data while learning from multiple related time series. We show that our model, when trained with the best combination of dynamic covariate features and mixture components, can outperform both traditional statistical and deep learning models in forecasting the number of Covid-19 deaths and cases at the county level in the United States.
翻訳日:2021-11-10 15:26:41 公開日:2021-11-09
# 非凸対学習における学習率

Learning Rates for Nonconvex Pairwise Learning ( http://arxiv.org/abs/2111.05232v1 )

ライセンス: Link先を確認
Shaojie Li, Yong Liu(参考訳) ペアワイズ学習は、メトリックラーニング、AUCの最大化、ランキングなど、多くの重要な機械学習タスクをカバーするため、注目を集めている。 ペアワイズ学習の一般化行動を調べることは重要である。 しかし、既存の一般化分析は主に凸目的関数に焦点をあてており、非凸学習の探索ははるかに少ない。 さらに、ペアワイズ学習の一般化性能を導出する現在の学習率は、概ね低調である。 これらの課題に乗じて,非凸対学習の一般化性能について検討し,学習率の向上を図る。 具体的には, 経験的リスク最小化, 勾配降下, 確率的勾配降下学習などに基づいて, 異なる仮定下でのペアワイズ学習のための勾配の均一な収束性について検討する。 まず,これらのアルゴリズムの学習率を,最適化と一般化のトレードオフと早期停止の役割についての洞察を浮き彫りにした。 次に,勾配支配曲率条件を用いた非凸学習の一般化性能について検討した。 この設定では、$n$がサンプルサイズである、$\mathcal{o}(1/n)$のより速い学習率を得る。 最適集団リスクが小さくなると、より学習率を$\mathcal{O}(1/n^2)$に改善し、私たちの知る限り、凸や非凸学習にかかわらず、ペア学習のための最初の$\mathcal{O}(1/n^2)$タイプとなる。 全体として,非凸対学習の一般化性能を系統的に解析した。

Pairwise learning is receiving increasing attention since it covers many important machine learning tasks, e.g., metric learning, AUC maximization, and ranking. Investigating the generalization behavior of pairwise learning is thus of significance. However, existing generalization analysis mainly focuses on the convex objective functions, leaving the nonconvex learning far less explored. Moreover, the current learning rates derived for generalization performance of pairwise learning are mostly of slower order. Motivated by these problems, we study the generalization performance of nonconvex pairwise learning and provide improved learning rates. Specifically, we develop different uniform convergence of gradients for pairwise learning under different assumptions, based on which we analyze empirical risk minimizer, gradient descent, and stochastic gradient descent pairwise learning. We first successfully establish learning rates for these algorithms in a general nonconvex setting, where the analysis sheds insights on the trade-off between optimization and generalization and the role of early-stopping. We then investigate the generalization performance of nonconvex learning with a gradient dominance curvature condition. In this setting, we derive faster learning rates of order $\mathcal{O}(1/n)$, where $n$ is the sample size. Provided that the optimal population risk is small, we further improve the learning rates to $\mathcal{O}(1/n^2)$, which, to the best of our knowledge, are the first $\mathcal{O}(1/n^2)$-type of rates for pairwise learning, no matter of convex or nonconvex learning. Overall, we systematically analyzed the generalization performance of nonconvex pairwise learning.
翻訳日:2021-11-10 15:25:16 公開日:2021-11-09
# CTR予測のための動的パラメータネットワーク

Dynamic Parameterized Network for CTR Prediction ( http://arxiv.org/abs/2111.04983v1 )

ライセンス: Link先を確認
Jian Zhu, Congcong Liu, Pei Wang, Xiwei Zhao, Guangpeng Chen, Junsheng Jin, Changping Peng, Zhangang Lin, Jingping Shao(参考訳) 現代のレコメンデーションシステムのクリックスルーレート(CTR)予測において,特徴関係を効果的かつ効率的に捉える学習が不可欠である。 既存のCTR予測手法の多くは、手作業で設計した低次相互作用や、暗黙的な相互作用モデリングのために追加のDNNモジュールを必要とする非フレキシブルで非効率な高次相互作用を通じてそのような関係をモデル化している。 本稿では,明示的かつ暗黙的な相互作用をインスタンス的に学習するための新しいプラグイン操作である動的パラメータ化操作(DPO)を提案する。 DNNモジュールとアテンションモジュールへのDPOの導入は、それぞれCTR予測における2つの主要なタスクに役立ち、特徴ベースモデリングの適応性を高め、インスタンスワイドな局所性でユーザ行動モデリングを改善することができることを示した。 我々の動的パラメータ化ネットワークは、オンラインA/Bテストとともに、パブリックデータセットと実世界の実運用データセットのオフライン実験において、最先端の手法を著しく上回る。 さらに、提案されている動的パラメータ化ネットワークは、世界最大級のeコマース企業のランキングシステムに配備されており、数億人のアクティブユーザーのメイントラフィックを提供している。

Learning to capture feature relations effectively and efficiently is essential in click-through rate (CTR) prediction of modern recommendation systems. Most existing CTR prediction methods model such relations either through tedious manually-designed low-order interactions or through inflexible and inefficient high-order interactions, which both require extra DNN modules for implicit interaction modeling. In this paper, we proposed a novel plug-in operation, Dynamic Parameterized Operation (DPO), to learn both explicit and implicit interaction instance-wisely. We showed that the introduction of DPO into DNN modules and Attention modules can respectively benefit two main tasks in CTR prediction, enhancing the adaptiveness of feature-based modeling and improving user behavior modeling with the instance-wise locality. Our Dynamic Parameterized Networks significantly outperforms state-of-the-art methods in the offline experiments on the public dataset and real-world production dataset, together with an online A/B test. Furthermore, the proposed Dynamic Parameterized Networks has been deployed in the ranking system of one of the world's largest e-commerce companies, serving the main traffic of hundreds of millions of active users.
翻訳日:2021-11-10 15:24:48 公開日:2021-11-09
# Phantom: スパース畳み込みニューラルネットワークのための高性能計算コア

Phantom: A High-Performance Computational Core for Sparse Convolutional Neural Networks ( http://arxiv.org/abs/2111.05002v1 )

ライセンス: Link先を確認
Mahmood Azhar Qureshi, Arslan Munir(参考訳) スパース畳み込みニューラルネットワーク(sparse convolutional neural networks, cnns)はここ数年、モデルのサイズと計算量を大幅に減少させる可能性があるため、その密集したニューラルネットワークと比べて大きな注目を集めている。 スパースCNNは、しばしば層形状や大きさのバリエーションを導入し、密度の高い加速器がスパースCNNモデルでうまく動作しないようにする。 最近提案されたSCNN、Eyeriss v2、SparTenのようなスパースアクセラレーターは、性能向上のために、重みとアクティベーションの両方のスパースネスを積極的に利用している。 しかし、これらの加速器は、性能を制限した非効率なマイクロアーキテクチャを持ち、非単体ストライド畳み込みと完全連結(FC)層をサポートしていないか、あるいは系統的な負荷不均衡に悩まされている。 これらの問題を回避し、スパースモデルと高密度モデルの両方をサポートするため、マルチスレッド、動的、柔軟なニューラル計算コアであるphantomを提案する。 Phantomはスパースバイナリマスク表現を使用してスパース計算を積極的に検討し、その計算スレッドを動的にスケジュールしてスレッドの利用とスループットを最大化する。 また,phantom-2daccelerat orと呼ばれるファントムニューラル計算コアの2次元(2d)メッシュアーキテクチャを作成し,単位および非単位のストライド畳み込みやfc層を含むcnnの全層をサポートする新しいデータフローを提案する。 さらに、phantom-2dは2レベルロードバランシング戦略を使用して計算のアイドルを最小化し、ハードウェア利用をさらに改善する。 異なるタイプのレイヤのサポートを示すため,VGG16およびMobileNet上でのPhantomアーキテクチャの性能を評価する。 シミュレーションにより,Phantom-2D加速器は高密度アーキテクチャ,SCNN,SparTen,Eyeris s v2でそれぞれ12倍,4.1倍,1.98倍,2.36倍の性能向上を達成した。

Sparse convolutional neural networks (CNNs) have gained significant traction over the past few years as sparse CNNs can drastically decrease the model size and computations, if exploited befittingly, as compared to their dense counterparts. Sparse CNNs often introduce variations in the layer shapes and sizes, which can prevent dense accelerators from performing well on sparse CNN models. Recently proposed sparse accelerators like SCNN, Eyeriss v2, and SparTen, actively exploit the two-sided or full sparsity, that is, sparsity in both weights and activations, for performance gains. These accelerators, however, either have inefficient micro-architecture, which limits their performance, have no support for non-unit stride convolutions and fully-connected (FC) layers, or suffer massively from systematic load imbalance. To circumvent these issues and support both sparse and dense models, we propose Phantom, a multi-threaded, dynamic, and flexible neural computational core. Phantom uses sparse binary mask representation to actively lookahead into sparse computations, and dynamically schedule its computational threads to maximize the thread utilization and throughput. We also generate a two-dimensional (2D) mesh architecture of Phantom neural computational cores, which we refer to as Phantom-2D accelerator, and propose a novel dataflow that supports all layers of a CNN, including unit and non-unit stride convolutions, and FC layers. In addition, Phantom-2D uses a two-level load balancing strategy to minimize the computational idling, thereby, further improving the hardware utilization. To show support for different types of layers, we evaluate the performance of the Phantom architecture on VGG16 and MobileNet. Our simulations show that the Phantom-2D accelerator attains a performance gain of 12x, 4.1x, 1.98x, and 2.36x, over dense architectures, SCNN, SparTen, and Eyeriss v2, respectively.
翻訳日:2021-11-10 15:24:26 公開日:2021-11-09
# 利益を伴う複数経路補修工問題に対する効果的なハイブリッド探索アルゴリズム

An effective hybrid search algorithm for the multiple traveling repairman problem with profits ( http://arxiv.org/abs/2111.05017v1 )

ライセンス: Link先を確認
Jintong Ren, Jin-Kao Hao, Feng Wu and Zhang-Hua Fu(参考訳) 利益を伴う旅行修理担当者問題の延長として、利益を伴う複数の旅行修理担当者問題は、訪問客が収集した収益を最大化するために、全顧客のサブセットを訪問する複数の修理担当者からなる。 この課題を解決するために,memeticアルゴリズムフレームワークに基づく効果的なハイブリッド探索アルゴリズムを提案する。 高品質なオフスプリングソリューションを生成するためのarcベースのクロスオーバーと、古典的な近所を探索する複雑さを減らすための高速評価テクニックだ。 470のベンチマークインスタンスに対するアルゴリズムの競合性を示すとともに,137のインスタンスに対して新たなベストレコードを報告し,他の330のインスタンスに対して同等のベスト結果を報告した。 アルゴリズムの重要な検索要素の重要性について検討する。

As an extension of the traveling repairman problem with profits, the multiple traveling repairman problem with profits consists of multiple repairmen who visit a subset of all customers to maximize the revenues collected through the visited customers. To solve this challenging problem, an effective hybrid search algorithm based on the memetic algorithm framework is proposed. It integrates two distinguished features: a dedicated arc-based crossover to generate high-quality offspring solutions and a fast evaluation technique to reduce the complexity of exploring the classical neighborhoods. We show the competitiveness of the algorithm on 470 benchmark instances compared to the leading reference algorithms and report new best records for 137 instances as well as equal best results for other 330 instances. We investigate the importance of the key search components for the algorithm.
翻訳日:2021-11-10 15:23:46 公開日:2021-11-09
# (参考訳) スムーズな深層学習手法による干ばつと熱の大気要因の同定 [全文訳有]

Identifying the atmospheric drivers of drought and heat using a smoothed deep learning approach ( http://arxiv.org/abs/2111.05303v1 )

ライセンス: CC BY 4.0
Magdalena Mittermeier and Maximilian Weigert and David R\"ugamer(参考訳) ヨーロッパは近年、いくつかの悲惨な暑さと干ばつに見舞われた。 熱力学の影響に加えて、このような熱い極端と乾燥した極端は、アンチサイクロニック条件を含む特定の大気条件によって駆動される。 気候変動が大気循環に及ぼす影響は複雑であり、この文脈、例えば、反サイクロン状態の将来の動向に多くの研究課題が残されている。 ラベル付き循環パターンのカタログと空間的大気変数の組み合わせに基づき,干ばつや熱に関連する6種類の反サイクロン循環の平滑化畳み込みニューラルネットワーク分類器を提案する。 私たちの研究は、温暖で乾燥した極端のドライバーを気候シミュレーションで特定するのに役立ち、気候変動がこれらのドライバーに与える影響を明らかにするのに役立ちます。 我々は,他の気候パターン,例えば主観的ラベルや不明瞭な遷移周期にもみられる循環パターン分類に固有の様々な課題に対処している。

Europe was hit by several, disastrous heat and drought events in recent summers. Besides thermodynamic influences, such hot and dry extremes are driven by certain atmospheric situations including anticyclonic conditions. Effects of climate change on atmospheric circulations are complex and many open research questions remain in this context, e.g., on future trends of anticyclonic conditions. Based on the combination of a catalog of labeled circulation patterns and spatial atmospheric variables, we propose a smoothed convolutional neural network classifier for six types of anticyclonic circulations that are associated with drought and heat. Our work can help to identify important drivers of hot and dry extremes in climate simulations, which allows to unveil the impact of climate change on these drivers. We address various challenges inherent to circulation pattern classification that are also present in other climate patterns, e.g., subjective labels and unambiguous transition periods.
翻訳日:2021-11-10 15:21:16 公開日:2021-11-09
# ヒューマンクエリからのブートストラップによる知覚概念の学習

Learning Perceptual Concepts by Bootstrapping from Human Queries ( http://arxiv.org/abs/2111.05251v1 )

ライセンス: Link先を確認
Andreea Bobu, Chris Paxton, Wei Yang, Balakumar Sundaralingam, Yu-Wei Chao, Maya Cakmak, Dieter Fox(参考訳) ロボットは、各ユーザのユニークなタスクに自身の能力を適用するために、ユーザから概念を学ぶ必要がある。 しかし、画像や点雲のような高次元の入力をロボットが操作する場合、これは現実的ではない。 この課題に対処するために,ロボットは概念の低次元変種を学習し,それを用いて高次元空間における概念学習のためのより大きなデータセットを生成する,新しいアプローチを提案する。 これにより、オブジェクトのポーズやバウンディングボックスなど、トレーニング時にのみアクセス可能な意味的に意味のある特権情報を活用することができる。 タスク目標のユーザ定義とロボットの実行制約の鍵となる,オブジェクトの状態や,上,近,あるいはアライメントのようなマルチオブジェクトの関係を記述した前提概念を学習することで,このアプローチを評価する。 シミュレーションされた人間を用いることで,高次元空間で直接概念を学ぶことに比べ,サンプルの複雑さが向上することを示す。 また,7自由度franka pandaロボットの動作計画タスクにおける学習概念の有用性を実証した。

Robots need to be able to learn concepts from their users in order to adapt their capabilities to each user's unique task. But when the robot operates on high-dimensional inputs, like images or point clouds, this is impractical: the robot needs an unrealistic amount of human effort to learn the new concept. To address this challenge, we propose a new approach whereby the robot learns a low-dimensional variant of the concept and uses it to generate a larger data set for learning the concept in the high-dimensional space. This lets it take advantage of semantically meaningful privileged information only accessible at training time, like object poses and bounding boxes, that allows for richer human interaction to speed up learning. We evaluate our approach by learning prepositional concepts that describe object state or multi-object relationships, like above, near, or aligned, which are key to user specification of task goals and execution constraints for robots. Using a simulated human, we show that our approach improves sample complexity when compared to learning concepts directly in the high-dimensional space. We also demonstrate the utility of the learned concepts in motion planning tasks on a 7-DoF Franka Panda robot.
翻訳日:2021-11-10 15:12:38 公開日:2021-11-09
# 正直なプライベートハイパーパラメータ選択における適応オプティマイザの役割

The Role of Adaptive Optimizers for Honest Private Hyperparameter Selection ( http://arxiv.org/abs/2111.04906v1 )

ライセンス: Link先を確認
Shubhankar Mohapatra, Sajin Sasy, Xi He, Gautam Kamath, Om Thakkar(参考訳) ハイパーパラメータ最適化は機械学習におけるユビキタスな課題であり、トレーニングされたモデルのパフォーマンスは、有効選択に大きく依存する。 この目的のために豊富なツールセットが存在するが、現在、差分プライバシー(DP)の制約の下で、実用的なハイパーパラメータ選択方法はない。 本稿では,高パラメータチューニングのプロセスがプライバシー予算全体において考慮される,微分プライベート機械学習のための正直なハイパーパラメータ選択について検討する。 この目的のためには 一 標準構成ツールは、多くの設定において、より高度な技術を上回ることを示せ。 二 学習率と校正基準ハイパーパラメータとの本質的な関係を実証的及び理論的に示すこと。 iii)dpadamのような適応オプティマイザは、正直なハイパーパラメータチューニングの過程で大きな利点を享受していることを示し、 iv) 新しい効率的な最適化器を設計するために, dp 設定における adam の新たな制限挙動を引き出す。

Hyperparameter optimization is a ubiquitous challenge in machine learning, and the performance of a trained model depends crucially upon their effective selection. While a rich set of tools exist for this purpose, there are currently no practical hyperparameter selection methods under the constraint of differential privacy (DP). We study honest hyperparameter selection for differentially private machine learning, in which the process of hyperparameter tuning is accounted for in the overall privacy budget. To this end, we i) show that standard composition tools outperform more advanced techniques in many settings, ii) empirically and theoretically demonstrate an intrinsic connection between the learning rate and clipping norm hyperparameters, iii) show that adaptive optimizers like DPAdam enjoy a significant advantage in the process of honest hyperparameter tuning, and iv) draw upon novel limiting behaviour of Adam in the DP setting to design a new and more efficient optimizer.
翻訳日:2021-11-10 15:11:53 公開日:2021-11-09
# 構造的特徴をもつ回帰と分類における無害補間

Harmless interpolation in regression and classification with structured features ( http://arxiv.org/abs/2111.05198v1 )

ライセンス: Link先を確認
Andrew D. McRae and Santhosh Karnik and Mark A. Davenport and Vidya Muthukumar(参考訳) 過度にパラメータ化されたニューラルネットワークは、ノイズの多いトレーニングデータに完全に適合するが、テストデータではうまく一般化する。 この経験的観察から着想を得た最近の研究は、より単純な線形モデルにおいて、良性過剰あるいは無害な補間というこの現象を理解しようと試みている。 以前の理論研究は、データ特徴が統計的に独立であるか、入力データが高次元であるかを批判的に想定している。 本稿では,再生核ヒルベルト空間における上界回帰と分類リスクに対する汎用的で柔軟な枠組みを提案する。 重要な貢献は、このフレームワークが、無害な補間が発生するデータグラム行列の正確な条件を記述することである。 本研究の結果は, より単純な解析により, 従来の独立機能の結果を復元するが, さらに, 有界正則系である特徴など, より一般的な条件下で無害補間が生じることが示唆された。 さらに,従来ガウス的特徴に対してのみ示されていたように,分類と回帰性能の漸近的分離がみられた。

Overparametrized neural networks tend to perfectly fit noisy training data yet generalize well on test data. Inspired by this empirical observation, recent work has sought to understand this phenomenon of benign overfitting or harmless interpolation in the much simpler linear model. Previous theoretical work critically assumes that either the data features are statistically independent or the input data is high-dimensional; this precludes general nonparametric settings with structured feature maps. In this paper, we present a general and flexible framework for upper bounding regression and classification risk in a reproducing kernel Hilbert space. A key contribution is that our framework describes precise sufficient conditions on the data Gram matrix under which harmless interpolation occurs. Our results recover prior independent-features results (with a much simpler analysis), but they furthermore show that harmless interpolation can occur in more general settings such as features that are a bounded orthonormal system. Furthermore, our results show an asymptotic separation between classification and regression performance in a manner that was previously only shown for Gaussian features.
翻訳日:2021-11-10 15:11:38 公開日:2021-11-09
# 部分線形ヒントからの対数的後悔

Logarithmic Regret from Sublinear Hints ( http://arxiv.org/abs/2111.05257v1 )

ライセンス: Link先を確認
Aditya Bhaskara, Ashok Cutkosky, Ravi Kumar, Manish Purohit(参考訳) オンライン線形最適化の問題を考えると、各ステップでアルゴリズムが単位球の点$x_t$を演算し、損失$\langle c_t, x_t\rangle$を犠牲ベクトル$c_t$で処理し、アルゴリズムに露呈する。 最近の研究によると、アルゴリズムが$x_t$を再生する前に$c_t$と非自明な相関を持つヒント$h_t$を受け取ると、標準設定での$\Theta(\sqrt{T})$のバウンドを改善して、$O(\log T)$の後悔の保証を達成できる。 本研究では,アルゴリズムが時間ステップ毎にヒントを必要とするかどうかについて検討する。 やや意外なことに、アルゴリズムは自然問合せモデルの下で$o(\sqrt{t})$ hints だけで$o(\sqrt{t})$ regret を得られることを示し、それに対して$o(\sqrt{t})$ hints は$\omega(\sqrt{t})$ regret よりも良い保証はできないことを示した。 我々は,この結果の2つの応用を,楽観的な後悔境界の設定と,断固としたオンライン学習の問題に応用する。

We consider the online linear optimization problem, where at every step the algorithm plays a point $x_t$ in the unit ball, and suffers loss $\langle c_t, x_t\rangle$ for some cost vector $c_t$ that is then revealed to the algorithm. Recent work showed that if an algorithm receives a hint $h_t$ that has non-trivial correlation with $c_t$ before it plays $x_t$, then it can achieve a regret guarantee of $O(\log T)$, improving on the bound of $\Theta(\sqrt{T})$ in the standard setting. In this work, we study the question of whether an algorithm really requires a hint at every time step. Somewhat surprisingly, we show that an algorithm can obtain $O(\log T)$ regret with just $O(\sqrt{T})$ hints under a natural query model; in contrast, we also show that $o(\sqrt{T})$ hints cannot guarantee better than $\Omega(\sqrt{T})$ regret. We give two applications of our result, to the well-studied setting of optimistic regret bounds and to the problem of online learning with abstention.
翻訳日:2021-11-10 15:11:19 公開日:2021-11-09
# 一般化のための統一情報理論フレームワークを目指して

Towards a Unified Information-Theoreti c Framework for Generalization ( http://arxiv.org/abs/2111.05275v1 )

ライセンス: Link先を確認
Mahdi Haghifam, Gintare Karolina Dziugaite, Shay Moran, Daniel M. Roy(参考訳) 本研究では,Steinke と Zakynthinou (2020) の「条件相互情報(CMI)」フレームワークの表現性について検討し,それを応用して,実現可能な設定における一般化境界を証明する統一的フレームワークを提供する予定である。 まず、このフレームワークを用いて、有界VC次元のクラスから仮説を出力する学習アルゴリズムに対して、非自明な(しかし、準最適)境界を表現できることを実証する。 我々は、CMIフレームワークが、ハーフスペースを学習するためのSVM(Support Vector Machines)の予測されるリスクに最適な境界をもたらすことを証明した。 この結果は、安定な圧縮スキーム Bousquet al. (2020) of size $k$ が一様有界 CMI of order $O(k)$ であることを示す一般的な結果の応用である。 さらに、VCクラスの固有学習の制限は、適切な学習者の存在と一定のCMIの存在に矛盾することを示し、これは、Steinke と Zakynthinou (2020) のオープンな問題に対する否定的な解決を意味する。 さらに、クラス$H$の経験的リスク最小化器(ERMs)のCMIを研究し、有界なCMIで全ての一貫した分類器(バージョン空間)を出力することは、$H$が有界な星数を持つ場合に限る(Hanneke and Yang (2015))。 さらに、CMIフレームワークを介して「リーブ・ワン・アウト」解析が表現可能であることを示す。 概説として、Haussler et al. (1994) が提唱した 1-inclusion-graph アルゴリズムの CMI について検討する。 より一般に、CMIフレームワークは、全ての一貫したアルゴリズムとデータ分布に対して、その評価されたCMIがサンプル数とサブ線形成長を持つ場合に限り、期待されるリスクが分散するという意味で普遍的であることを示す。

In this work, we investigate the expressiveness of the "conditional mutual information" (CMI) framework of Steinke and Zakynthinou (2020) and the prospect of using it to provide a unified framework for proving generalization bounds in the realizable setting. We first demonstrate that one can use this framework to express non-trivial (but sub-optimal) bounds for any learning algorithm that outputs hypotheses from a class of bounded VC dimension. We prove that the CMI framework yields the optimal bound on the expected risk of Support Vector Machines (SVMs) for learning halfspaces. This result is an application of our general result showing that stable compression schemes Bousquet al. (2020) of size $k$ have uniformly bounded CMI of order $O(k)$. We further show that an inherent limitation of proper learning of VC classes contradicts the existence of a proper learner with constant CMI, and it implies a negative resolution to an open problem of Steinke and Zakynthinou (2020). We further study the CMI of empirical risk minimizers (ERMs) of class $H$ and show that it is possible to output all consistent classifiers (version space) with bounded CMI if and only if $H$ has a bounded star number (Hanneke and Yang (2015)). Moreover, we prove a general reduction showing that "leave-one-out" analysis is expressible via the CMI framework. As a corollary we investigate the CMI of the one-inclusion-graph algorithm proposed by Haussler et al. (1994). More generally, we show that the CMI framework is universal in the sense that for every consistent algorithm and data distribution, the expected risk vanishes as the number of samples diverges if and only if its evaluated CMI has sublinear growth with the number of samples.
翻訳日:2021-11-10 15:10:29 公開日:2021-11-09
# 少ないトレーニングデータからの量子機械学習の一般化

Generalization in quantum machine learning from few training data ( http://arxiv.org/abs/2111.05292v1 )

ライセンス: Link先を確認
Matthias C. Caro, Hsin-Yuan Huang, M. Cerezo, Kunal Sharma, Andrew Sornborger, Lukasz Cincio, Patrick J. Coles(参考訳) 現代の量子機械学習(QML)法は、トレーニングデータセット上でパラメータ化された量子回路を変動的に最適化し、その後、テストデータセット(一般化)上で予測を行う。 本研究では,QMLにおける学習データ点数に限定したN$の学習後の一般化性能に関する総合的研究を行う。 トレーニング可能なゲートが$T$である量子機械学習モデルの一般化誤差は$\sqrt{T/N}$と最悪の値でスケールすることを示す。 最適化過程において、K \ll T$ ゲートのみが大幅に変化したとき、一般化誤差が $\sqrt{K / N}$ に改善されることを証明する。 この結果から,指数関数サイズのトレーニングデータを使用する量子コンピューティング産業にとって重要な応用である,多項式数のネイティブゲートへのユニタリのコンパイルが,大幅に高速化できることが示唆された。 また,量子畳み込みニューラルネットワークを用いた相転移における量子状態の分類は,非常に小さなトレーニングデータセットのみを必要とすることを示した。 他の潜在的な応用としては、量子エラー訂正符号の学習や量子力学シミュレーションがある。 我々の研究は、QMLの分野に新たな希望を注入し、優れた一般化は、少数のトレーニングデータから保証される。

Modern quantum machine learning (QML) methods involve variationally optimizing a parameterized quantum circuit on a training data set, and subsequently making predictions on a testing data set (i.e., generalizing). In this work, we provide a comprehensive study of generalization performance in QML after training on a limited number $N$ of training data points. We show that the generalization error of a quantum machine learning model with $T$ trainable gates scales at worst as $\sqrt{T/N}$. When only $K \ll T$ gates have undergone substantial change in the optimization process, we prove that the generalization error improves to $\sqrt{K / N}$. Our results imply that the compiling of unitaries into a polynomial number of native gates, a crucial application for the quantum computing industry that typically uses exponential-size training data, can be sped up significantly. We also show that classification of quantum states across a phase transition with a quantum convolutional neural network requires only a very small training data set. Other potential applications include learning quantum error correcting codes or quantum dynamical simulation. Our work injects new hope into the field of QML, as good generalization is guaranteed from few training data.
翻訳日:2021-11-10 15:09:53 公開日:2021-11-09
# MMD-ReID : 可視的人体リIDの簡易かつ効果的な解法

MMD-ReID: A Simple but Effective Solution for Visible-Thermal Person ReID ( http://arxiv.org/abs/2111.05059v1 )

ライセンス: Link先を確認
Chaitra Jambigi, Ruchit Rawal, Anirban Chakraborty(参考訳) モダリティの学習 不変特徴は、クエリとギャラリーイメージが異なるモダリティから来る可視-熱的クロスモーダル人同一化(vt-reid)の問題の中心である。 既存の作品は、逆学習を使うか、ドメイン知識に大きく依存する特徴抽出モジュールを慎重に設計することによって、ピクセルと特徴空間のモダリティを暗黙的に整列させる。 本研究では, 単純かつ効果的なフレームワークmmd-reidを提案し, モーダリティギャップを明示的不一致低減制約により低減する。 MMD-ReIDは、2つの分布間の距離を決定する仮説テストのための広く使われている統計ツールであるMaximum Mean Discrepancy (MMD)からインスピレーションを得ている。 MMD-ReIDは、特徴識別性を保ちながらクラス内距離を最小限に抑えるために、可視および熱サンプルのクラス条件特徴分布に適合する新しいマージンベースの定式化を用いる。 MMD-ReIDはアーキテクチャと損失定式化の点で単純なフレームワークである。 我々は, MMD-ReIDの限界条件分布とクラス条件分布の整合性を定性的に, 定量的に両立させる実験を行った。 提案手法は,SYSU-MM01およびRegDBデータセットにおける最先端の手法よりも優れている。 コードはhttps://github.com/v cl-iisc/MMD-ReIDでリリースされる

Learning modality invariant features is central to the problem of Visible-Thermal cross-modal Person Reidentification (VT-ReID), where query and gallery images come from different modalities. Existing works implicitly align the modalities in pixel and feature spaces by either using adversarial learning or carefully designing feature extraction modules that heavily rely on domain knowledge. We propose a simple but effective framework, MMD-ReID, that reduces the modality gap by an explicit discrepancy reduction constraint. MMD-ReID takes inspiration from Maximum Mean Discrepancy (MMD), a widely used statistical tool for hypothesis testing that determines the distance between two distributions. MMD-ReID uses a novel margin-based formulation to match class-conditional feature distributions of visible and thermal samples to minimize intra-class distances while maintaining feature discriminability. MMD-ReID is a simple framework in terms of architecture and loss formulation. We conduct extensive experiments to demonstrate both qualitatively and quantitatively the effectiveness of MMD-ReID in aligning the marginal and class conditional distributions, thus learning both modality-independent and identity-consistent features. The proposed framework significantly outperforms the state-of-the-art methods on SYSU-MM01 and RegDB datasets. Code will be released at https://github.com/v cl-iisc/MMD-ReID
翻訳日:2021-11-10 15:08:54 公開日:2021-11-09
# 演算子学習を用いたPDE制約制御問題の解法

Solving PDE-constrained Control Problems using Operator Learning ( http://arxiv.org/abs/2111.04941v1 )

ライセンス: Link先を確認
Rakhoon Hwang, Jae Yong Lee, Jin Young Shin, Hyung Ju Hwang(参考訳) 複雑な物理力学のモデリングと制御は実世界の問題に不可欠である。 本稿では, PDE に制約された最適制御問題の解法として, 特殊正規化器を用いた PDE ソリューション演算子の代用モデルを導入することにより, 一般に適用可能な新しいフレームワークを提案する。 提案手法は, PDE制約に対する解演算子学習(Phase 1)と最適制御探索(Phase2)の2段階に分けられる。 サーロゲートモデルがフェーズ1で訓練されると、集中的な計算なしにフェーズ2で最適な制御を推測することができる。 私たちのフレームワークは、データ駆動とデータフリーの両方のケースに適用できます。 本稿では,ポアソン方程式からバーガース方程式まで多種多様なPDE制約を持つ制御変数に対する最適制御問題に対する本手法の適用例を示す。

The modeling and control of complex physical dynamics are essential in real-world problems. We propose a novel framework that is generally applicable to solving PDE-constrained optimal control problems by introducing surrogate models for PDE solution operators with special regularizers. The procedure of the proposed framework is divided into two phases: solution operator learning for PDE constraints (Phase 1) and searching for optimal control (Phase 2). Once the surrogate model is trained in Phase 1, the optimal control can be inferred in Phase 2 without intensive computations. Our framework can be applied to both data-driven and data-free cases. We demonstrate the successful application of our method to various optimal control problems for different control variables with diverse PDE constraints from the Poisson equation to Burgers' equation.
翻訳日:2021-11-10 15:08:16 公開日:2021-11-09
# 自然 : 自然な補助テキスト発話による現実的な音声言語評価

NATURE: Natural Auxiliary Text Utterances for Realistic Spoken Language Evaluation ( http://arxiv.org/abs/2111.05196v1 )

ライセンス: Link先を確認
David Alfonso-Hermelo, Ahmad Rashid, Abbas Ghaddar, Philippe Langlais, Mehdi Rezagholizadeh(参考訳) スロット充填と意図検出は音声アシスタントのような会話エージェントのバックボーンであり、研究の活発な領域である。 公開ベンチマークの最先端技術は印象的なパフォーマンスを示しているが、現実的なシナリオに一般化する能力はまだ実証されていない。 本稿では,発話の意味を保ちつつ,人間の話し言葉のバリエーションを導入するために,データセットの評価集合に適用した,単純な音声言語指向変換のセットであるnatureを提案する。 一般的なスロット充填およびインテント検出ベンチマークにNATUREを適用し、NATUREが設定した標準評価からの単純な摂動がモデル性能を著しく劣化させることを示した。 実験により,人気のあるベンチマークの評価セットに自然演算子を適用すると,モデルの精度が最大40%低下することを示した。

Slot-filling and intent detection are the backbone of conversational agents such as voice assistants, and are active areas of research. Even though state-of-the-art techniques on publicly available benchmarks show impressive performance, their ability to generalize to realistic scenarios is yet to be demonstrated. In this work, we present NATURE, a set of simple spoken-language oriented transformations, applied to the evaluation set of datasets, to introduce human spoken language variations while preserving the semantics of an utterance. We apply NATURE to common slot-filling and intent detection benchmarks and demonstrate that simple perturbations from the standard evaluation set by NATURE can deteriorate model performance significantly. Through our experiments we demonstrate that when NATURE operators are applied to evaluation set of popular benchmarks the model accuracy can drop by up to 40%.
翻訳日:2021-11-10 15:08:04 公開日:2021-11-09
# NLP関連クラウドソーシングHITに関する調査--何が機能するか,何が機能しないのか

A Survey of NLP-Related Crowdsourcing HITs: what works and what does not ( http://arxiv.org/abs/2111.05241v1 )

ライセンス: Link先を確認
Jessica Huynh, Jeffrey Bigham, Maxine Eskenazi(参考訳) Amazon Mechanical Turk (AMT)のクラウドソーシング要求者は、労働者の信頼性について疑問を投げかけている。 AMTの労働力は非常に多様であり、グループとしてそれらを包括的に仮定することは不可能である。 一部の要求者は、期待した結果が得られない場合、大量に作業を拒否します。 これは、各労働者(善か悪か)に低いヒューマンインテリジェンスタスク(HIT)承認スコアを与える効果があり、良い労働者には不公平である。 また、要求者が労働者のフォーラムで評判を悪くする効果もある。 大量拒絶の原因となる問題のいくつかは、要求者が完全な指示や公正な賃金を払わないような、十分に整ったタスクを作成できないことに起因する。 そこで本研究では,一定期間にわたって利用可能であったクラウドソーシングHITについて検討し,それらのHITに関する情報を記録する。 本研究は,クラウドソーシングフォーラムにおいて,これらのHITとそれに対応する要求者の双方について,作業者の視点から情報を記録する。 その結果、労働者の支払いや、実行不可能な指示やHITなどのプレゼンテーションの問題が明らかになった。

Crowdsourcing requesters on Amazon Mechanical Turk (AMT) have raised questions about the reliability of the workers. The AMT workforce is very diverse and it is not possible to make blanket assumptions about them as a group. Some requesters now reject work en mass when they do not get the results they expect. This has the effect of giving each worker (good or bad) a lower Human Intelligence Task (HIT) approval score, which is unfair to the good workers. It also has the effect of giving the requester a bad reputation on the workers' forums. Some of the issues causing the mass rejections stem from the requesters not taking the time to create a well-formed task with complete instructions and/or not paying a fair wage. To explore this assumption, this paper describes a study that looks at the crowdsourcing HITs on AMT that were available over a given span of time and records information about those HITs. This study also records information from a crowdsourcing forum on the worker perspective on both those HITs and on their corresponding requesters. Results reveal issues in worker payment and presentation issues such as missing instructions or HITs that are not doable.
翻訳日:2021-11-10 15:07:50 公開日:2021-11-09
# 雑音入力データから数値行動モデルを学ぶ

Learning Numerical Action Models from Noisy Input Data ( http://arxiv.org/abs/2111.04997v1 )

ライセンス: Link先を確認
Jos\'e \'A. Segura-Muros and Juan Fern\'andez-Olivares and Ra\'ul P\'erez(参考訳) 本論文では,PlanMiner-Nアルゴリズムを提案する。 ここで提示されるアルゴリズムは、ノイズの多いデータを入力として使用する際のPlanMinerの学習能力を改善する。 planminerアルゴリズムは、入力データから算術や論理式を推論し、数値計画領域を学習することができるが、不完全な状況下で動作するように設計されており、ノイズの多い入力データに対して信頼できない。 本稿では,ノイズの多いデータから学習する能力を拡張するために,PlanMinerの学習プロセスの一連の拡張を提案する。 これらの手法はノイズの検出とフィルタリングによって入力データを前処理し、誤った前提条件/効果を見つけるために学習した行動モデルを調べる。 本稿では,国際計画コンペティション(ipc)の一連のドメインを用いて,提案手法を検証した。 その結果,PlanMiner-Nはノイズの多い入力データに直面するとPlanMinerの性能を大幅に向上することがわかった。

This paper presents the PlanMiner-N algorithm, a domain learning technique based on the PlanMiner domain learning algorithm. The algorithm presented here improves the learning capabilities of PlanMiner when using noisy data as input. The PlanMiner algorithm is able to infer arithmetic and logical expressions to learn numerical planning domains from the input data, but it was designed to work under situations of incompleteness making it unreliable when facing noisy input data. In this paper, we propose a series of enhancements to the learning process of PlanMiner to expand its capabilities to learn from noisy data. These methods preprocess the input data by detecting noise and filtering it and study the learned action models learned to find erroneous preconditions/effect s in them. The methods proposed in this paper were tested using a set of domains from the International Planning Competition (IPC). The results obtained indicate that PlanMiner-N improves the performance of PlanMiner greatly when facing noisy input data.
翻訳日:2021-11-10 15:06:35 公開日:2021-11-09
# 自己チェック論理エージェント

Self-checking Logical Agents ( http://arxiv.org/abs/2111.05157v1 )

ライセンス: Link先を確認
Stefania Costantini(参考訳) 本稿では,動的にチェックする時相公理を用いて,論理エージェントの実行時自己チェックのための包括的フレームワークを提案する。 これらの公理は、エージェント指向の時間論理を用いて特定される。 この新しいロジックの構文、セマンティクス、実用性を定義します。 結果のフレームワークでは、過去の作業を包含し、拡張しています。

This paper presents a comprehensive framework for run-time self-checking of logical agents, by means of temporal axioms to be dynamically checked. These axioms are specified by using an agent-oriented interval temporal logic defined to this purpose. We define syntax, semantics and pragmatics for this new logic, specifically tailored for application to agents. In the resulting framework, we encompass and extend our past work.
翻訳日:2021-11-10 15:06:18 公開日:2021-11-09
# SAFA: 顔のアニメーションを意識する構造

SAFA: Structure Aware Face Animation ( http://arxiv.org/abs/2111.04928v1 )

ライセンス: Link先を確認
Qiulin Wang, Lu Zhang, Bo Li(参考訳) 最近のGAN(Generative Adversarial Network)の成功は、顔アニメーションタスクに大きな進歩をもたらした。 しかし、顔画像の複雑なシーン構造は、元の画像から著しく逸脱した顔のポーズでビデオを生成するのが難しい。 一方、顔の幾何学的構造を知らずに、生成された顔画像は不適切に歪むことがある。 一方で、生成した画像の一部領域がソースイメージに隠されている可能性があるため、ganが現実的な外観を生成するのが困難である。 これらの問題に対処するため、顔画像の異なる成分をモデル化するための特定の幾何学的構造を構築するSAFA法を提案する。 身近な動きに基づく顔アニメーション技術に従い、顔のモデル化には3d morphable model(3dmm)、髪やあごひげなどの他の前景コンポーネントのモデリングには複数のアフィン変換、背景のモデリングにはid変換を用いる。 3DMMの幾何学的埋め込みは、運転シーンの現実的な構造を生成するだけでなく、生成した画像の隠蔽領域の知覚の向上にも寄与する。 さらに,広範に研究されている塗装技術を利用して,隠蔽画像領域を忠実に復元する手法も提案する。 定量的および定性的実験の結果は,本手法の優位性を示している。 コードはhttps://github.com/Q iulin-W/SAFAで公開されている。

Recent success of generative adversarial networks (GAN) has made great progress on the face animation task. However, the complex scene structure of a face image still makes it a challenge to generate videos with face poses significantly deviating from the source image. On one hand, without knowing the facial geometric structure, generated face images might be improperly distorted. On the other hand, some area of the generated image might be occluded in the source image, which makes it difficult for GAN to generate realistic appearance. To address these problems, we propose a structure aware face animation (SAFA) method which constructs specific geometric structures to model different components of a face image. Following the well recognized motion based face animation technique, we use a 3D morphable model (3DMM) to model the face, multiple affine transforms to model the other foreground components like hair and beard, and an identity transform to model the background. The 3DMM geometric embedding not only helps generate realistic structure for the driving scene, but also contributes to better perception of occluded area in the generated image. Besides, we further propose to exploit the widely studied inpainting technique to faithfully recover the occluded image area. Both quantitative and qualitative experiment results have shown the superiority of our method. Code is available at https://github.com/Q iulin-W/SAFA.
翻訳日:2021-11-10 15:05:55 公開日:2021-11-09
# 単発セマンティクスセグメンテーションのための双原型的コントラスト学習

Dual Prototypical Contrastive Learning for Few-shot Semantic Segmentation ( http://arxiv.org/abs/2111.04982v1 )

ライセンス: Link先を確認
Hyeongjun Kwon, Somi Jeong, Sunok Kim, Kwanghoon Sohn(参考訳) 対象画像内の新しいクラスオブジェクトを、いくつかの注釈付きサンプルでセグメント化することを目的とした、少数ショットセマンティックセグメンテーション(fss)の問題に対処する。 最近の進歩では、プロトタイプベースのメトリック学習が取り入れられているが、既存の手法では、機能表現が貧弱であるため、クラス内オブジェクトの極端なバリエーションや意味的に類似したクラス間オブジェクトでは、性能が制限されている。 この問題に対処するために,FSSタスクに適合した2種類の特徴的コントラスト学習手法を提案する。 主なアイデアは、プロトタイプの特徴空間におけるクラス間距離を減少させながら、クラス間距離を増加させることで、プロトタイプをより判別できるようにすることである。 そこで,我々はまず,学習中にクラス認識プロトタイプを格納する動的プロトタイプ辞書とクラス固有のコントラスト損失を提示し,同じクラスプロトタイプを類似させ,異なるクラスプロトタイプを類似させる。 さらに,各エピソードのセマンティクスクラスの特徴分布を圧縮することにより,非知覚クラスに対する一般化能力を高めるために,クラス非依存なコントラスト損失を導入する。 提案手法は,PASCAL-5i および COCO-20i データセット上での最先端 FSS 手法よりも優れていることを示す。 コードは:https://github.com/ kwonjunn01/dpcl1で入手できる。

We address the problem of few-shot semantic segmentation (FSS), which aims to segment novel class objects in a target image with a few annotated samples. Though recent advances have been made by incorporating prototype-based metric learning, existing methods still show limited performance under extreme intra-class object variations and semantically similar inter-class objects due to their poor feature representation. To tackle this problem, we propose a dual prototypical contrastive learning approach tailored to the FSS task to capture the representative semanticfeatures effectively. The main idea is to encourage the prototypes more discriminative by increasing inter-class distance while reducing intra-class distance in prototype feature space. To this end, we first present a class-specific contrastive loss with a dynamic prototype dictionary that stores the class-aware prototypes during training, thus enabling the same class prototypes similar and the different class prototypes to be dissimilar. Furthermore, we introduce a class-agnostic contrastive loss to enhance the generalization ability to unseen classes by compressing the feature distribution of semantic class within each episode. We demonstrate that the proposed dual prototypical contrastive learning approach outperforms state-of-the-art FSS methods on PASCAL-5i and COCO-20i datasets. The code is available at:https://github.co m/kwonjunn01/DPCL1.
翻訳日:2021-11-10 15:05:32 公開日:2021-11-09
# 時空間補足モデルを用いたビデオテキスト追跡

Video Text Tracking With a Spatio-Temporal Complementary Model ( http://arxiv.org/abs/2111.04987v1 )

ライセンス: Link先を確認
Yuzhe Gao, Xing Li, Jiajian Zhang, Yu Zhou, Dian Jin, Jing Wang, Shenggao Zhu, and Xiang Bai(参考訳) テキスト追跡は、ビデオ中の複数のテキストを追跡し、各テキストの軌跡を構築することである。 既存のメソッドスタックルでは、トラッキングバイ検出フレームワーク、すなわち各フレーム内のテキストインスタンスを検出し、対応するテキストインスタンスを連続フレームに関連付けることで、このタスクを実行できる。 このパラダイムの追跡精度は、例えば、トモーションのぼやけなどにより、より複雑なシナリオにおいて著しく制限されており、テキストインスタンスの欠落がテキストの軌跡の破滅を引き起こしている、と我々は主張する。 さらに、類似した外観の異なるテキストが容易に混同され、テキストインスタンスの不正な関連に繋がる。 そこで本稿では,新しい時空間的補完的テキスト追跡モデルを提案する。 我々は、シームズ補足モジュールを利用して、時間次元におけるテクストの連続性特性を完全に活用し、テキストインスタンスの欠落の検出を効果的に軽減し、各テキストトラジェクトリの完全性を保証する。 さらに、テキストの類似度学習ネットワークを介して、テキストインスタンスの意味的手がかりと視覚的な手がかりを統一表現に統合し、類似した外観のテキストインスタンスの存在下で高い識別力を提供し、両者の誤結合を回避する。 提案手法は,複数の公開ベンチマーク上での最先端性能を実現する。 ソースコードはhttps://github.com/l sabrinax/videotextsc mで入手できる。

Text tracking is to track multiple texts in a video,and construct a trajectory for each text. Existing methodstackle this task by utilizing the tracking-by-detectio n frame-work, i.e., detecting the text instances in each frame andassociating the corresponding text instances in consecutiveframes. We argue that the tracking accuracy of this paradigmis severely limited in more complex scenarios, e.g., owing tomotion blur, etc., the missed detection of text instances causesthe break of the text trajectory. In addition, different textinstances with similar appearance are easily confused, leadingto the incorrect association of the text instances. To this end,a novel spatio-temporal complementary text tracking model isproposed in this paper. We leverage a Siamese ComplementaryModule to fully exploit the continuity characteristic of the textinstances in the temporal dimension, which effectively alleviatesthe missed detection of the text instances, and hence ensuresthe completeness of each text trajectory. We further integratethe semantic cues and the visual cues of the text instance intoa unified representation via a text similarity learning network,which supplies a high discriminative power in the presence oftext instances with similar appearance, and thus avoids the mis-association between them. Our method achieves state-of-the-art performance on several public benchmarks. The source codeis available at https://github.com/l sabrinax/VideoTextSC M.
翻訳日:2021-11-10 15:05:08 公開日:2021-11-09
# 極小画像認識のためのエピソディックリプレイ蒸留によるインクリメンタルメタラーニング

Incremental Meta-Learning via Episodic Replay Distillation for Few-Shot Image Recognition ( http://arxiv.org/abs/2111.04993v1 )

ライセンス: Link先を確認
Kai Wang, Xialei Liu, Andy Bagdanov, Luis Herranz, Shangling Rui, Joost van de Weijer(参考訳) ほとんどのメタラーニングアプローチは、基礎知識のエピソディックなメタラーニングに利用可能な非常に大きなラベル付きデータセットの存在を仮定している。 これは、データが不整合クラスを含むタスクの形式で漸進的に到着する、より現実的な連続的な学習パラダイムとは対照的である。 本稿では,クラスを個別タスクで段階的に提示するインクリメンタルメタラーニング(IML)の問題について考察する。 メタラーニングのエピソードをサンプリングする際に,現在のタスクのクラスと前のタスクのクラスのインスタンスを混合する,エピソディックリプレイ蒸留 (erd) と呼ばれる iml のアプローチを提案する。 これらのエピソードは、破滅的な忘れを最小化するために知識蒸留に使用される。 4つのデータセットの実験では、EDRが最先端を超えることが示されている。 特に、より挑戦的な、長いタスクシーケンスの漸進的なメタラーニングシナリオでは、IMLと共同トレーニング上の上限の差を3.5%/10.1%/13.4%から2.6%/2.9%/5.0%に減らし、Tiered-ImageNet / Mini-ImageNet / CIFAR100にそれぞれ適用します。

Most meta-learning approaches assume the existence of a very large set of labeled data available for episodic meta-learning of base knowledge. This contrasts with the more realistic continual learning paradigm in which data arrives incrementally in the form of tasks containing disjoint classes. In this paper we consider this problem of Incremental Meta-Learning (IML) in which classes are presented incrementally in discrete tasks. We propose an approach to IML, which we call Episodic Replay Distillation (ERD), that mixes classes from the current task with class exemplars from previous tasks when sampling episodes for meta-learning. These episodes are then used for knowledge distillation to minimize catastrophic forgetting. Experiments on four datasets demonstrate that ERD surpasses the state-of-the-art. In particular, on the more challenging one-shot, long task sequence incremental meta-learning scenarios, we reduce the gap between IML and the joint-training upper bound from 3.5% / 10.1% / 13.4% with the current state-of-the-art to 2.6% / 2.9% / 5.0% with our method on Tiered-ImageNet / Mini-ImageNet / CIFAR100, respectively.
翻訳日:2021-11-10 15:04:45 公開日:2021-11-09
# 群集の鳥化 : 知覚運動による地平面の局在

View Birdification in the Crowd: Ground-Plane Localization from Perceived Movements ( http://arxiv.org/abs/2111.05060v1 )

ライセンス: Link先を確認
Mai Nishimura, Shohei Nobuhara, Ko Nishino(参考訳) 観察者(例えば、人間や乗り物)から撮影されたエゴ中心のビデオから、群集内の人々の地上面の動きを復元する問題であるビューバードフィケーションを紹介する。 回収された地上機の動きは、コンピュータビジョンやロボット工学における状況理解と下流の応用のための健全な基礎を提供する。 本稿では,鳥化を幾何学的軌道再構成問題として定式化し,ベイズ的視点からカスケード最適化法を導出する。 この手法はまず観測者の動きを推定し、その間の局所的な相互作用を考慮して周囲の歩行者を各フレームに配置する。 提案手法の有効性を評価するため,3つのデータセットを導入し,提案手法の有効性を検証した。 その結果,本手法の精度を実証し,ビューバード化のさらなる研究を重要かつ困難な視覚的理解問題として位置づけた。

We introduce view birdification, the problem of recovering ground-plane movements of people in a crowd from an ego-centric video captured from an observer (e.g., a person or a vehicle) also moving in the crowd. Recovered ground-plane movements would provide a sound basis for situational understanding and benefit downstream applications in computer vision and robotics. In this paper, we formulate view birdification as a geometric trajectory reconstruction problem and derive a cascaded optimization method from a Bayesian perspective. The method first estimates the observer's movement and then localizes surrounding pedestrians for each frame while taking into account the local interactions between them. We introduce three datasets by leveraging synthetic and real trajectories of people in crowds and evaluate the effectiveness of our method. The results demonstrate the accuracy of our method and set the ground for further studies of view birdification as an important but challenging visual understanding problem.
翻訳日:2021-11-10 15:04:19 公開日:2021-11-09
# 深層畳み込みネットワークを用いた感情分析による高齢者の軽度認知機能障害の自動検出

Deep Convolution Network Based Emotion Analysis for Automatic Detection of Mild Cognitive Impairment in the Elderly ( http://arxiv.org/abs/2111.05066v1 )

ライセンス: Link先を確認
Zixiang Fei, Erfu Yang, Leijian Yu, Xia Li, Huiyu Zhou, Wenju Zhou(参考訳) かなりの数の人々が世界中で認知障害に苦しんでいる。 認知障害の早期発見は患者と介護者の両方にとって非常に重要である。 しかし、既存のアプローチでは、診療所や神経イメージングの段階にかかわる時間消費や費用が不足している。 認知障害患者は異常な感情パターンを示すことが判明している。 本稿では、参加者がデザインされたビデオ刺激を見ている間、顔の感情の発達の分析を通じて認知障害を検出するための、新しい深層畳み込みネットワークシステムを提案する。 提案システムでは,3つのデータセットで良好な性能を示す,MobileNet と Support Vector Machine (SVM) の層を用いて,新しい表情認識アルゴリズムを開発した。 提案する認知障害検出システムを検証するために,認知障害患者を含む61名の高齢者と,対照群として健康な高齢者が参加し,それに応じてデータセットを構築した。 このデータセットにより、提案システムは73.3%の精度で検出に成功した。

A significant number of people are suffering from cognitive impairment all over the world. Early detection of cognitive impairment is of great importance to both patients and caregivers. However, existing approaches have their shortages, such as time consumption and financial expenses involved in clinics and the neuroimaging stage. It has been found that patients with cognitive impairment show abnormal emotion patterns. In this paper, we present a novel deep convolution network-based system to detect the cognitive impairment through the analysis of the evolution of facial emotions while participants are watching designed video stimuli. In our proposed system, a novel facial expression recognition algorithm is developed using layers from MobileNet and Support Vector Machine (SVM), which showed satisfactory performance in 3 datasets. To verify the proposed system in detecting cognitive impairment, 61 elderly people including patients with cognitive impairment and healthy people as a control group have been invited to participate in the experiments and a dataset was built accordingly. With this dataset, the proposed system has successfully achieved the detection accuracy of 73.3%.
翻訳日:2021-11-10 15:04:05 公開日:2021-11-09
# 監視されていないビデオパーソンを再識別する爆発

Exploiting Robust Unsupervised Video Person Re-identification ( http://arxiv.org/abs/2111.05170v1 )

ライセンス: Link先を確認
Xianghao Zang, Ge Li, Wei Gao, Xiujun Shu(参考訳) reid(unsupervised video person re-identification)メソッドは通常、グローバルレベルの機能に依存する。 また、多くの教師付きreIDメソッドはローカルレベルの機能を採用し、大幅な性能向上を実現した。 しかし、教師なしメソッドにローカルレベル機能を適用すると、不安定なパフォーマンスをもたらす可能性がある。 本稿では,教師なしビデオreidの性能安定性を向上させるため,部分モデルと教師なし学習を融合した汎用スキームを提案する。 このスキームでは、グローバルレベル機能は、同じローカルレベルフィーチャに分割される。 教師なし学習のための局所レベル機能の特長を探るために、ローカルアウェアモジュールが使用される。 地域レベルの機能の欠点を克服するために,グローバルなモジュールを提案する。 これら2つのモジュールの機能は融合され、入力画像ごとにロバストな特徴表現を形成する。 この特徴表現には、その欠点に悩まされることなく、局所的な特徴の利点がある。 PRID 2011, iLIDS-VID, DukeMTMC-VideoReID の3つのベンチマークで総合実験を行い, 提案手法が最先端性能を実現することを示す。 広範なアブレーション研究により,提案手法,ローカルアウェアモジュール,グローバルアウェアモジュールの有効性とロバスト性が実証された。

Unsupervised video person re-identification (reID) methods usually depend on global-level features. And many supervised reID methods employed local-level features and achieved significant performance improvements. However, applying local-level features to unsupervised methods may introduce an unstable performance. To improve the performance stability for unsupervised video reID, this paper introduces a general scheme fusing part models and unsupervised learning. In this scheme, the global-level feature is divided into equal local-level feature. A local-aware module is employed to explore the poentials of local-level feature for unsupervised learning. A global-aware module is proposed to overcome the disadvantages of local-level features. Features from these two modules are fused to form a robust feature representation for each input image. This feature representation has the advantages of local-level feature without suffering from its disadvantages. Comprehensive experiments are conducted on three benchmarks, including PRID2011, iLIDS-VID, and DukeMTMC-VideoReID, and the results demonstrate that the proposed approach achieves state-of-the-art performance. Extensive ablation studies demonstrate the effectiveness and robustness of proposed scheme, local-aware module and global-aware module.
翻訳日:2021-11-10 15:03:45 公開日:2021-11-09
# 密集したメッシュ型局所画像特徴を有する単眼形状とポーズ

Monocular Human Shape and Pose with Dense Mesh-borne Local Image Features ( http://arxiv.org/abs/2111.05319v1 )

ライセンス: Link先を確認
Shubhendu Jena, Franck Multon, Adnane Boukhayma(参考訳) ピクセルアライメントによる局所画像特徴を用いた単眼入力による人物形状とポーズ推定のためのグラフ畳み込み手法の改良を提案する。 単一入力カラー画像が与えられた場合、既存のグラフ畳み込みネットワーク(GCN)ベースの人体形状とポーズ推定技術は、すべてのメッシュ頂点に等しく付加された単一の畳み込みニューラルネットワーク(CNN)によって生成されたグローバル画像特徴を用いて、GCNステージを初期化し、テンプレートTポーズメッシュをターゲットポーズに変換する。 対照的に,頂点ごとに局所的な画像特徴を用いるというアイデアを初めて提案する。 これらの特徴は、DensePoseで生成された画素間対応を利用して、CNN画像特徴マップからサンプリングされる。 標準ベンチマークにおける定量および定性的な結果から,局所的な特徴の利用はグローバルな特徴よりも改善され,最先端技術に対する競争性能が向上することが示された。

We propose to improve on graph convolution based approaches for human shape and pose estimation from monocular input, using pixel-aligned local image features. Given a single input color image, existing graph convolutional network (GCN) based techniques for human shape and pose estimation use a single convolutional neural network (CNN) generated global image feature appended to all mesh vertices equally to initialize the GCN stage, which transforms a template T-posed mesh into the target pose. In contrast, we propose for the first time the idea of using local image features per vertex. These features are sampled from the CNN image feature maps by utilizing pixel-to-mesh correspondences generated with DensePose. Our quantitative and qualitative results on standard benchmarks show that using local features improves on global ones and leads to competitive performances with respect to the state-of-the-art.
翻訳日:2021-11-10 15:03:28 公開日:2021-11-09
# (参考訳) 倫理的に整列した深層学習:偏見のない顔美的予測 [全文訳有]

Ethically aligned Deep Learning: Unbiased Facial Aesthetic Prediction ( http://arxiv.org/abs/2111.05149v1 )

ライセンス: CC BY 4.0
Michael Danner, Thomas Weber, Leping Peng, Tobias Gerlach, Xueping Su, Matthias R\"atsch(参考訳) 顔美容予測(fbp)は、顔の魅力を自動評価する機械を開発することを目的としている。 過去には、これらの結果は人間の評価と高い相関関係があったため、注釈付けのバイアスも大きかった。 人工知能は人種差別的かつ差別的な傾向を持つため、データのスキューの原因を特定する必要がある。 バイアス情報に対して堅牢なトレーニングデータとAIアルゴリズムの開発は、科学者にとって新たな課題である。 審美的判断は通常バイアスがかかるので、さらに一歩進んで、FBPのためのUnbiased Convolutional Neural Networkを提案したいと思います。 高いレベルで顔の魅力を評価できるネットワークモデルを作成することは、倫理的な観点からは可能であるが、モデルに偏りがないことを確かめることも同様に重要である。 本研究では,現在最先端の魅力予測ネットワークであるAestheticNetを紹介する。 さらに,機械学習における公平性を改善するため,バイアスのないCNNを生成する新しい手法を提案する。

Facial beauty prediction (FBP) aims to develop a machine that automatically makes facial attractiveness assessment. In the past those results were highly correlated with human ratings, therefore also with their bias in annotating. As artificial intelligence can have racist and discriminatory tendencies, the cause of skews in the data must be identified. Development of training data and AI algorithms that are robust against biased information is a new challenge for scientists. As aesthetic judgement usually is biased, we want to take it one step further and propose an Unbiased Convolutional Neural Network for FBP. While it is possible to create network models that can rate attractiveness of faces on a high level, from an ethical point of view, it is equally important to make sure the model is unbiased. In this work, we introduce AestheticNet, a state-of-the-art attractiveness prediction network, which significantly outperforms competitors with a Pearson Correlation of 0.9601. Additionally, we propose a new approach for generating a bias-free CNN to improve fairness in machine learning.
翻訳日:2021-11-10 15:00:04 公開日:2021-11-09
# reason first, then respond: 知識を融合した対話のためのモジュラー生成

Reason first, then respond: Modular Generation for Knowledge-infused Dialogue ( http://arxiv.org/abs/2111.05204v1 )

ライセンス: Link先を確認
Leonard Adolphs, Kurt Shuster, Jack Urbanek, Arthur Szlam, Jason Weston(参考訳) 大規模な言語モデルでは流れる対話を生成できるが、しばしば事実的不正確さを暗示する。 検索強化モデルはこの問題を軽減するのに役立ちますが、正しい知識の提供と会話の同時生成という理由付けという難題に直面しています。 本稿では,対話型エージェントに知識を組み込むモジュールモデルであるk2rを提案し,この問題を2つの簡単なステップに分解する。 K2Rはまず、対話コンテキストが与えられた知識シーケンスを中間ステップとして生成する。 この「合理化のステップ」の後、モデルはそれ自身の生成した知識シーケンスと対話コンテキストに出席し、最終的な応答を生成する。 詳細な実験では、そのようなモデルは知識に基づく対話作業において幻覚を減らし、解釈可能性やモジュラリティの面で優位性を持つことがわかった。 特に、QAと対話システムを融合させ、対話エージェントが知識のある回答をすることができるようにしたり、QAモデルがゼロショット設定で会話応答をすることができる。

Large language models can produce fluent dialogue but often hallucinate factual inaccuracies. While retrieval-augmented models help alleviate this issue, they still face a difficult challenge of both reasoning to provide correct knowledge and generating conversation simultaneously. In this work, we propose a modular model, Knowledge to Response (K2R), for incorporating knowledge into conversational agents, which breaks down this problem into two easier steps. K2R first generates a knowledge sequence, given a dialogue context, as an intermediate step. After this "reasoning step", the model then attends to its own generated knowledge sequence, as well as the dialogue context, to produce a final response. In detailed experiments, we find that such a model hallucinates less in knowledge-grounded dialogue tasks, and has advantages in terms of interpretability and modularity. In particular, it can be used to fuse QA and dialogue systems together to enable dialogue agents to give knowledgeable answers, or QA models to give conversational responses in a zero-shot setting.
翻訳日:2021-11-10 14:50:43 公開日:2021-11-09
# 未特定ガウス過程帯域最適化

Misspecified Gaussian Process Bandit Optimization ( http://arxiv.org/abs/2111.05008v1 )

ライセンス: Link先を確認
Ilija Bogunovic and Andreas Krause(参考訳) 雑音フィードバックに基づいてブラックボックス関数を最適化する問題を考察する。 カーネル化バンディットアルゴリズムはこの問題に対して強い経験的および理論的性能を示した。 しかし、モデルは十分に特定されており、それなしで失敗する可能性があるという仮定に強く依存している。 代わりに、未知の関数を$\epsilon$-一様に近似できる 'emph{misspecified} のカーネル化された帯域設定を導入し、ある再生カーネルヒルベルト空間 (RKHS) において有界ノルムを持つ関数によって一様近似する。 モデル不特定性の存在下で性能が最小限に低下する効率的かつ実用的なアルゴリズムを設計する。 具体的には,gaussian process (gp) 法に基づく2つのアルゴリズムを提案する。不特定化誤差を知ることを必要とする楽観的な ec-gp-ucb アルゴリズムと,未知のモデル不特定化に適応可能な除去型アルゴリズムである phased gp uncertainty sampling である。 我々は、その累積的後悔の上限として、$\epsilon$, the time horizon, and the underlying kernel を提示し、このアルゴリズムが、事前の誤特定の知識なしに$\epsilon$への最適依存を達成することを示す。 さらに, 確率的な文脈設定において, ec-gp-ucbは, $\epsilon$ を知らずとも, 効果的に後悔境界バランス戦略と組み合わされ, 同様の後悔限度が得られることを示した。

We consider the problem of optimizing a black-box function based on noisy bandit feedback. Kernelized bandit algorithms have shown strong empirical and theoretical performance for this problem. They heavily rely on the assumption that the model is well-specified, however, and can fail without it. Instead, we introduce a \emph{misspecified} kernelized bandit setting where the unknown function can be $\epsilon$--uniforml y approximated by a function with a bounded norm in some Reproducing Kernel Hilbert Space (RKHS). We design efficient and practical algorithms whose performance degrades minimally in the presence of model misspecification. Specifically, we present two algorithms based on Gaussian process (GP) methods: an optimistic EC-GP-UCB algorithm that requires knowing the misspecification error, and Phased GP Uncertainty Sampling, an elimination-type algorithm that can adapt to unknown model misspecification. We provide upper bounds on their cumulative regret in terms of $\epsilon$, the time horizon, and the underlying kernel, and we show that our algorithm achieves optimal dependence on $\epsilon$ with no prior knowledge of misspecification. In addition, in a stochastic contextual setting, we show that EC-GP-UCB can be effectively combined with the regret bound balancing strategy and attain similar regret bounds despite not knowing $\epsilon$.
翻訳日:2021-11-10 14:50:05 公開日:2021-11-09
# MixACM: 活性化チャネルマップの蒸留による混合系ロバスト性伝達

MixACM: Mixup-Based Robustness Transfer via Distillation of Activated Channel Maps ( http://arxiv.org/abs/2111.05073v1 )

ライセンス: Link先を確認
Muhammad Awais and Fengwei Zhou and Chuanlong Xie and Jiawei Li and Sung-Ho Bae and Zhenguo Li(参考訳) ディープニューラルネットワークは、自然な入力に対して、敵対的に作り上げられ、小さく、知覚できない変化に影響を受けやすい。 これらの例に対する最も効果的な防御機構は、損失の反復的最大化による訓練中の敵の例を構築する敵の訓練である。 モデルは、これらの構築された例の損失を最小限に抑えるように訓練される。 このmin-max最適化は、より多くのデータ、より大きなキャパシティモデル、追加のコンピューティングリソースを必要とする。 また、モデルの標準一般化性能を低下させる。 堅牢性をより効率的に実現できるか? 本研究では,知識伝達の観点から,この問題を考察する。 まず,教師モデルから学生モデルへの頑健さの伝達可能性について,混合強化の助けを借りて理論的に示す。 次に,mixup-based activated channel maps (mixacm) 転送と呼ばれる新しいロバスト性伝達法を提案する。 MixACMは、高価な対向的摂動を伴わずに生成された活性化チャネルマップをマッチングすることにより、ロバストな教師から生徒にロバストさを伝達する。 最後に、複数のデータセットと異なる学習シナリオに関する広範な実験により、我々の手法は、自然画像の一般化を改善しつつ、堅牢性を伝達できることを示した。

Deep neural networks are susceptible to adversarially crafted, small and imperceptible changes in the natural inputs. The most effective defense mechanism against these examples is adversarial training which constructs adversarial examples during training by iterative maximization of loss. The model is then trained to minimize the loss on these constructed examples. This min-max optimization requires more data, larger capacity models, and additional computing resources. It also degrades the standard generalization performance of a model. Can we achieve robustness more efficiently? In this work, we explore this question from the perspective of knowledge transfer. First, we theoretically show the transferability of robustness from an adversarially trained teacher model to a student model with the help of mixup augmentation. Second, we propose a novel robustness transfer method called Mixup-Based Activated Channel Maps (MixACM) Transfer. MixACM transfers robustness from a robust teacher to a student by matching activated channel maps generated without expensive adversarial perturbations. Finally, extensive experiments on multiple datasets and different learning scenarios show our method can transfer robustness while also improving generalization on natural images.
翻訳日:2021-11-10 14:49:26 公開日:2021-11-09
# 熱データは検出システムの信頼性を高めるか?

Does Thermal data make the detection systems more reliable? ( http://arxiv.org/abs/2111.05191v1 )

ライセンス: Link先を確認
Shruthi Gowda, Bahram Zonooz, Elahe Arani(参考訳) ディープラーニングに基づく検出ネットワークは、自律運転システム(ADS)において顕著に進歩している。 ADSは様々な環境照明と悪天候条件で信頼性の高い性能を持つべきである。 しかし、輝度の低下と(グレアや霧のような)視覚障害は、視覚カメラによる画質の悪い画像をもたらすため、パフォーマンスが低下する。 これらの課題を克服するために、視覚データと相補的な異なるデータモダリティを活用するというアイデアを探求する。 本稿では,RGB(視覚カメラ)データと熱(赤外線カメラ)データの両方から学習するマルチモーダル協調フレームワークに基づく包括的検出システムを提案する。 このフレームワークは2つのネットワークを協調的に訓練し、自身のモダリティの最適な特徴を学習する柔軟性を提供すると同時に、相互の補完的な知識も取り入れる。 広範な実験結果から,精度の向上は名目上はありますが,adのような安全クリティカルなアプリケーションでは極めて困難なエッジケースに価値があります。 検出に熱画像システムを使用することのメリットと限界を概観する。

Deep learning-based detection networks have made remarkable progress in autonomous driving systems (ADS). ADS should have reliable performance across a variety of ambient lighting and adverse weather conditions. However, luminance degradation and visual obstructions (such as glare, fog) result in poor quality images by the visual camera which leads to performance decline. To overcome these challenges, we explore the idea of leveraging a different data modality that is disparate yet complementary to the visual data. We propose a comprehensive detection system based on a multimodal-collabora tive framework that learns from both RGB (from visual cameras) and thermal (from Infrared cameras) data. This framework trains two networks collaboratively and provides flexibility in learning optimal features of its own modality while also incorporating the complementary knowledge of the other. Our extensive empirical results show that while the improvement in accuracy is nominal, the value lies in challenging and extremely difficult edge cases which is crucial in safety-critical applications such as AD. We provide a holistic view of both merits and limitations of using a thermal imaging system in detection.
翻訳日:2021-11-10 14:49:09 公開日:2021-11-09
# スライス再帰変圧器

Sliced Recursive Transformer ( http://arxiv.org/abs/2111.05297v1 )

ライセンス: Link先を確認
Zhiqiang Shen and Zechun Liu and Eric Xing(参考訳) 本稿では,新たなパラメータを伴わずにパラメータ利用率を向上できる視覚変換器の最適かつ効果的な再帰操作を提案する。 これはトランスネットワークの深さにわたって重みを共有することで達成される。 提案手法は,na\ 帰納的再帰演算を用いて,ネットワークの原理設計に特別な知識や高度な知識を必要とせず,訓練手順に最小限の計算オーバーヘッドを導入することで,実質的なゲイン(〜2%)を得ることができる。 高い精度を維持しながら再帰操作による計算量を削減するため,再帰的層をまたいだ複数のグループ自己注意による近似手法を提案し,性能損失を最小限に抑えながら,コストを10~30%削減できることを示した。 model sliced recursive transformer(sret)と呼んでいます。これは、効率的な視覚トランスフォーマーのための、他の幅広い設計と互換性があります。 我々の最良のモデルは、パラメータを少なく抑えながら、最先端の手法よりもImageNetを大幅に改善する。 提案したスライス再帰操作により,モデルサイズが大きすぎる場合の最適化の難しさを回避するため,100層以上,1000層以上のトランスフォーマーをまだ小さなサイズ (13~15M) 以下に構築することができる。 柔軟なスケーラビリティは、非常に深く大きな次元の視覚変換器をスケールアップし、構築する大きな可能性を示している。 私たちのコードとモデルはhttps://github.com/s zq0214/sretで利用可能です。

We present a neat yet effective recursive operation on vision transformers that can improve parameter utilization without involving additional parameters. This is achieved by sharing weights across depth of transformer networks. The proposed method can obtain a substantial gain (~2%) simply using na\"ive recursive operation, requires no special or sophisticated knowledge for designing principles of networks, and introduces minimum computational overhead to the training procedure. To reduce the additional computation caused by recursive operation while maintaining the superior accuracy, we propose an approximating method through multiple sliced group self-attentions across recursive layers which can reduce the cost consumption by 10~30% with minimal performance loss. We call our model Sliced Recursive Transformer (SReT), which is compatible with a broad range of other designs for efficient vision transformers. Our best model establishes significant improvement on ImageNet over state-of-the-art methods while containing fewer parameters. The proposed sliced recursive operation allows us to build a transformer with more than 100 or even 1000 layers effortlessly under a still small size (13~15M), to avoid difficulties in optimization when the model size is too large. The flexible scalability has shown great potential for scaling up and constructing extremely deep and large dimensionality vision transformers. Our code and models are available at https://github.com/s zq0214/SReT.
翻訳日:2021-11-10 14:48:52 公開日:2021-11-09
# データ拡張はロバスト性を改善する

Data Augmentation Can Improve Robustness ( http://arxiv.org/abs/2111.05328v1 )

ライセンス: Link先を確認
Sylvestre-Alvise Rebuffi, Sven Gowal, Dan A. Calian, Florian Stimberg, Olivia Wiles, Timothy Mann(参考訳) 相手のトレーニングは、トレーニング中に堅牢なテスト精度が低下し始める現象である、堅牢なオーバーフィッティングに苦しむ。 本稿では,データ拡張スキームを用いたロバストオーバーフィッティングの低減に着目する。 これまでの知見とは対照的に,モデルの重み平均化と組み合わせると,データ拡張がロバストな精度を著しく向上することを示す。 さらに,様々な拡張技術を比較し,空間構成技術が対人訓練に最適であることを示す。 最後に、CIFAR-10 に対する $\ell_\infty$ と $\ell_2$ に対して、それぞれ $\epsilon = 8/255$ と $\epsilon = 128/255$ である。 従来の最先端手法と比較して,強靭な精度で+2.93%,+2.16%の絶対的な改善が見られた。 特に、$\ell_\infty$ の標準有界摂動に対して$\epsilon = 8/255$ のモデルでは、外部データを使わずに60.07%の堅牢な精度に達する。 このアプローチでは、CIFAR-100、SVHN、TinyImageNetといった他のアーキテクチャやデータセットを使用しながら、大幅なパフォーマンス向上を実現しています。

Adversarial training suffers from robust overfitting, a phenomenon where the robust test accuracy starts to decrease during training. In this paper, we focus on reducing robust overfitting by using common data augmentation schemes. We demonstrate that, contrary to previous findings, when combined with model weight averaging, data augmentation can significantly boost robust accuracy. Furthermore, we compare various augmentations techniques and observe that spatial composition techniques work the best for adversarial training. Finally, we evaluate our approach on CIFAR-10 against $\ell_\infty$ and $\ell_2$ norm-bounded perturbations of size $\epsilon = 8/255$ and $\epsilon = 128/255$, respectively. We show large absolute improvements of +2.93% and +2.16% in robust accuracy compared to previous state-of-the-art methods. In particular, against $\ell_\infty$ norm-bounded perturbations of size $\epsilon = 8/255$, our model reaches 60.07% robust accuracy without using any external data. We also achieve a significant performance boost with this approach while using other architectures and datasets such as CIFAR-100, SVHN and TinyImageNet.
翻訳日:2021-11-10 14:48:27 公開日:2021-11-09
# 原子干渉による因果DAG学習のためのほぼ最適ユニバーサル下界

Almost Optimal Universal Lower Bound for Learning Causal DAGs with Atomic Interventions ( http://arxiv.org/abs/2111.05070v1 )

ライセンス: Link先を確認
Vibhor Porwal, Piyush Srivastava, Gaurav Sinha(参考訳) 因果有向非巡回グラフ(DAG)の構造学習問題において、よく研究されている課題は、観測データを用いて、そのグラフを「マルコフ同値類」(MEC)までしか学習できないことである。 残りの非指向エッジは、アプリケーションで実行するのに非常にコストがかかる介入を使って指向する必要がある。 このように、MECの完全オリエント化に必要な介入数を最小化する問題は、近年注目され、また本研究の焦点となっている。 主な結果は2つある。 1つ目は、任意のMECを指向するために、任意のアルゴリズム(アクティブかパッシブかに関わらず)が実行するべき原子介入の数に基づいた新しい普遍的下界である。 2つ目の結果は、この境界が、実際には、mecをオリエントできる最小の原子干渉の集合の2倍の大きさであることを示している。 我々の下限は、以前知られていた下限よりも確実に良い。 我々の下界の証明は、V構造を持たないDAGのトポロジカル順序であり、特定の特別な性質を満たすCBSP順序付けという新しい概念に基づいている。 さらに,合成グラフ上でのシミュレーションや特別なグラフファミリの例を用いて,境界が著しく優れていることを示す。

A well-studied challenge that arises in the structure learning problem of causal directed acyclic graphs (DAG) is that using observational data, one can only learn the graph up to a "Markov equivalence class" (MEC). The remaining undirected edges have to be oriented using interventions, which can be very expensive to perform in applications. Thus, the problem of minimizing the number of interventions needed to fully orient the MEC has received a lot of recent attention, and is also the focus of this work. We prove two main results. The first is a new universal lower bound on the number of atomic interventions that any algorithm (whether active or passive) would need to perform in order to orient a given MEC. Our second result shows that this bound is, in fact, within a factor of two of the size of the smallest set of atomic interventions that can orient the MEC. Our lower bound is provably better than previously known lower bounds. The proof of our lower bound is based on the new notion of CBSP orderings, which are topological orderings of DAGs without v-structures and satisfy certain special properties. Further, using simulations on synthetic graphs and by giving examples of special graph families, we show that our bound is often significantly better.
翻訳日:2021-11-10 14:48:02 公開日:2021-11-09
# 情報フローは神経回路への介入の標的となるか?

Can Information Flows Suggest Targets for Interventions in Neural Circuits? ( http://arxiv.org/abs/2111.05299v1 )

ライセンス: Link先を確認
Praveen Venkatesh, Sanghamitra Dutta, Neil Mehta and Pulkit Grover(参考訳) 神経科学および臨床応用により,情報フローの観察的測定が介入を示唆するか否かを実証的に検討した。 機械学習における公平性という文脈において、ニューラルネットワークの実験を行うことで、システムの公平性を介入を通じて誘導することを目的としている。 最近開発した$M$-information flow frameworkを用いて、真のラベルに関する情報の流れ(精度に責任があり、したがって望ましい)を測定し、訓練されたニューラルネットワークのエッジ上の保護属性(バイアスに責任があり、したがって望ましくない)に関する情報の流れを別々に計測する。 次に, 流れの大きさを, 刈り込みによる介入の影響と比較する。 保護属性に関する大きな情報の流れを伝達するプルーニングエッジは,出力時のバイアスを大幅に低減することを示す。 これは、$M$-information flowが介入のターゲットを有意義に提案できることを示し、肯定的なタイトルの質問に答える。 また、異なる介入戦略に対するバイアス精度トレードオフを評価し、望ましくない情報フロー(以下、精度、バイアスフロー)の推定値を用いて、後者を減らしながら前者を保存する介入を通知する方法を分析する。

Motivated by neuroscientific and clinical applications, we empirically examine whether observational measures of information flow can suggest interventions. We do so by performing experiments on artificial neural networks in the context of fairness in machine learning, where the goal is to induce fairness in the system through interventions. Using our recently developed $M$-information flow framework, we measure the flow of information about the true label (responsible for accuracy, and hence desirable), and separately, the flow of information about a protected attribute (responsible for bias, and hence undesirable) on the edges of a trained neural network. We then compare the flow magnitudes against the effect of intervening on those edges by pruning. We show that pruning edges that carry larger information flows about the protected attribute reduces bias at the output to a greater extent. This demonstrates that $M$-information flow can meaningfully suggest targets for interventions, answering the title's question in the affirmative. We also evaluate bias-accuracy tradeoffs for different intervention strategies, to analyze how one might use estimates of desirable and undesirable information flows (here, accuracy and bias flows) to inform interventions that preserve the former while reducing the latter.
翻訳日:2021-11-10 14:47:40 公開日:2021-11-09
# 最適スケーリング法則を用いたチューリング・ユニバーサル学習者

Turing-Universal Learners with Optimal Scaling Laws ( http://arxiv.org/abs/2111.05321v1 )

ライセンス: Link先を確認
Preetum Nakkiran(参考訳) 与えられた分布、学習アルゴリズム、およびパフォーマンスメトリックについて、収束率(またはデータスケーリング則)は、列車サンプルの数の関数としてのアルゴリズムのテスト性能の漸近的挙動である。 理論と実践の両方における多くの学習手法は、パワーローレート、すなわち、ある$\alpha > 0$に対して、n^{-\alpha}$としてのパフォーマンススケールを持つ。 さらに、理論家も実践者も、興味のある設定下での学習アルゴリズムの速度向上に関心を持っている。 特定ランタイム(例えば$O(n^2)$)内の全ての学習アルゴリズムにおいて、最適な分布依存漸近速度を達成するとともに、このランタイム上での多言語的スローダウンのみを発生させる「ユニバーサル学習者」の存在を観察する。 このアルゴリズムは均一であり、分布に依存しないが、全ての分布に対して最良の確率を達成する。 構成そのものは、レヴィンの普遍探索の単純な拡張である(levin, 1973)。 そして、普遍的な探索と同様に、普遍的な学習者は全く実践的ではなく、主に理論的、哲学的な関心事である。

For a given distribution, learning algorithm, and performance metric, the rate of convergence (or data-scaling law) is the asymptotic behavior of the algorithm's test performance as a function of number of train samples. Many learning methods in both theory and practice have power-law rates, i.e. performance scales as $n^{-\alpha}$ for some $\alpha > 0$. Moreover, both theoreticians and practitioners are concerned with improving the rates of their learning algorithms under settings of interest. We observe the existence of a "universal learner", which achieves the best possible distribution-depende nt asymptotic rate among all learning algorithms within a specified runtime (e.g. $O(n^2)$), while incurring only polylogarithmic slowdown over this runtime. This algorithm is uniform, and does not depend on the distribution, and yet achieves best-possible rates for all distributions. The construction itself is a simple extension of Levin's universal search (Levin, 1973). And much like universal search, the universal learner is not at all practical, and is primarily of theoretical and philosophical interest.
翻訳日:2021-11-10 14:47:19 公開日:2021-11-09
# 自動損失関数探索による敵対的リスクの近似誤差の調整

Tightening the Approximation Error of Adversarial Risk with Auto Loss Function Search ( http://arxiv.org/abs/2111.05063v1 )

ライセンス: Link先を確認
Pengfei Xia, Ziqiang Li, and Bin Li(参考訳) 多くの研究が、ディープニューラルネットワークは敵の例によって容易に誤解されることを示した。 モデルの対向的堅牢性を効果的に評価することは、実用アプリケーションへの展開において重要である。 現在、悪意のあるインスタンスを構築して攻撃を実行することで、ロバストネス指標としてモデルの敵対リスクを近似することが一般的な評価方法である。 残念ながら、近似値と真の値の間にエラー(gap)がある。 以前の研究では、より小さなエラーを達成するために手動で攻撃方法を設計していた。 本稿では,最適化問題として近似誤差の厳密化を確立し,アルゴリズムを用いて解こうとする。 より具体的には、非凸および不連続の0-1損失をサーロゲート損失に置き換えるには、近似を計算する上で必要な妥協が必要であることを最初に分析する。 そこで本研究では,損失関数を探索する最初の手法であるAutoLoss-ARを提案する。 複数の環境で大規模な実験が行われる。 最良損失関数は, mnist および cifar-10 においてそれぞれ 0.9%-2.9% および 0.7%-2.0% の精度で手作りベースラインを上回った。 さらに,検索した損失が他の設定に移動可能であることを確認するとともに,局所的な損失景観を可視化することで,ベースラインよりも良い理由を探索する。

Numerous studies have demonstrated that deep neural networks are easily misled by adversarial examples. Effectively evaluating the adversarial robustness of a model is important for its deployment in practical applications. Currently, a common type of evaluation is to approximate the adversarial risk of a model as a robustness indicator by constructing malicious instances and executing attacks. Unfortunately, there is an error (gap) between the approximate value and the true value. Previous studies manually design attack methods to achieve a smaller error, which is inefficient and may miss a better solution. In this paper, we establish the tightening of the approximation error as an optimization problem and try to solve it with an algorithm. More specifically, we first analyze that replacing the non-convex and discontinuous 0-1 loss with a surrogate loss, a necessary compromise in calculating the approximation, is one of the main reasons for the error. Then we propose AutoLoss-AR, the first method for searching loss functions for tightening the approximation error of adversarial risk. Extensive experiments are conducted in multiple settings. The results demonstrate the effectiveness of the proposed method: the best-discovered loss functions outperform the handcrafted baseline by 0.9%-2.9% and 0.7%-2.0% on MNIST and CIFAR-10, respectively. Besides, we also verify that the searched losses can be transferred to other settings and explore why they are better than the baseline by visualizing the local loss landscape.
翻訳日:2021-11-10 14:43:49 公開日:2021-11-09
# 実現可能な環境下での実践的、おそらく正しい対話型学習 : 真の信念の力

Practical, Provably-Correct Interactive Learning in the Realizable Setting: The Power of True Believers ( http://arxiv.org/abs/2111.04915v1 )

ライセンス: Link先を確認
Julian Katz-Samuels, Blake Mason, Kevin Jamieson, Rob Nowak(参考訳) 我々は,対話型学習を実現可能な設定で検討し,最善のアーム識別からアクティブ分類まで幅広い問題を扱うための汎用フレームワークの開発を行った。 我々は,非依存アルゴリズム \emph{cannot} が極小最適であることを示すことから,本研究を開始した。 Hence, we design novel computationally efficient algorithms for the realizable setting that match the minimax lower bound up to logarithmic factors and are general-purpose, accommodating a wide variety of function classes including kernel methods, H{\"o}lder smooth functions, and convex functions. The sample complexities of our algorithms can be quantified in terms of well-known quantities like the extended teaching dimension and haystack dimension. However, unlike algorithms based directly on those combinatorial quantities, our algorithms are computationally efficient. To achieve computational efficiency, our algorithms sample from the version space using Monte Carlo "hit-and-run" algorithms instead of maintaining the version space explicitly. 私たちのアプローチには2つの強みがあります。 まず、それは単純で、2つの統一された欲望のアルゴリズムからなる。 第2に、私たちのアルゴリズムは、しばしば利用可能で実用的である事前知識をシームレスに活用する能力を持っています。 新しい理論結果に加えて,我々のアルゴリズムがガウス過程 ucb 法と競合することを実証的に証明した。

We consider interactive learning in the realizable setting and develop a general framework to handle problems ranging from best arm identification to active classification. We begin our investigation with the observation that agnostic algorithms \emph{cannot} be minimax-optimal in the realizable setting. Hence, we design novel computationally efficient algorithms for the realizable setting that match the minimax lower bound up to logarithmic factors and are general-purpose, accommodating a wide variety of function classes including kernel methods, H{\"o}lder smooth functions, and convex functions. The sample complexities of our algorithms can be quantified in terms of well-known quantities like the extended teaching dimension and haystack dimension. However, unlike algorithms based directly on those combinatorial quantities, our algorithms are computationally efficient. To achieve computational efficiency, our algorithms sample from the version space using Monte Carlo "hit-and-run" algorithms instead of maintaining the version space explicitly. Our approach has two key strengths. First, it is simple, consisting of two unifying, greedy algorithms. Second, our algorithms have the capability to seamlessly leverage prior knowledge that is often available and useful in practice. In addition to our new theoretical results, we demonstrate empirically that our algorithms are competitive with Gaussian process UCB methods.
翻訳日:2021-11-10 14:42:49 公開日:2021-11-09
# ガウス過程におけるベイズ獲得関数の最適化

Optimizing Bayesian acquisition functions in Gaussian Processes ( http://arxiv.org/abs/2111.04930v1 )

ライセンス: Link先を確認
Ashish Anil Pawar, Ujwal Warbhe(参考訳) ベイズ最適化は、特に関数が未知である場合には、対象関数の大域的最大値を求める効果的な方法である。 この処理は、代理関数を使用して取得関数を選択し、次に取得関数を最適化して次のサンプリングポイントを求める。 本稿では,L-BFGS や TNC のような様々な最適化手法を用いて,改善の最大確率や期待される改善の獲得関数を解析し,次のサンプリング点を見つけるための取得関数を最適化する。 得られた時間の分析とともに,本論文は初期試料の位置決定の重要性も示す。

Bayesian Optimization is an effective method for searching the global maxima of an objective function especially if the function is unknown. The process comprises of using a surrogate function and choosing an acquisition function followed by optimizing the acquisition function to find the next sampling point. This paper analyzes different acquistion functions like Maximum Probability of Improvement and Expected Improvement and various optimizers like L-BFGS and TNC to optimize the acquisitions functions for finding the next sampling point. Along with the analysis of time taken, the paper also shows the importance of position of initial samples chosen.
翻訳日:2021-11-10 14:42:30 公開日:2021-11-09
# グラフニューラルネットワークの表現知識蒸留について

On Representation Knowledge Distillation for Graph Neural Networks ( http://arxiv.org/abs/2111.04964v1 )

ライセンス: Link先を確認
Chaitanya K. Joshi, Fayao Liu, Xu Xun, Jie Lin, Chuan-Sheng Foo(参考訳) 知識蒸留は、より表現力のある教師モデルを用いて、資源効率の高いグラフニューラルネットワーク(GNN)の性能と信頼性を高めるための、有望な学習パラダイムである。 GNNの蒸留に関する過去の研究は、学生と教師のノード埋め込み空間間の局所構造関係に一致する局所構造保存損失(LSP)を提案した。 本稿では,教師がグラフデータをどのように埋め込むかというグローバルなトポロジを保存することが,GNNにとってより効果的な蒸留目標になるかどうかを,方法論的な観点から検討する。 定義済みエッジ上の純粋に局所的なLSP目的は、切断されたノード間の関係を無視するため、これを達成できない。 グローバルトポロジーをよく保存する手法として,(1)lspを拡張して全対相互作用を包含するグローバル構造保存損失 (gsp) と(2)コントラスト学習を用いたグラフコントラスト表現蒸留 (g-crd) の2つを提案する。 実験的な観点から,教師と学生のGNNのパフォーマンスギャップが無視できない大規模実世界のデータセットのベンチマークを拡張的に導入する。 これは知識蒸留の有効性と堅牢性をテストする上で重要であると我々は信じているが、簡単な性能ギャップを持つ合成データセットを用いたLSP研究には欠落していた。 4つのデータセットと14の異種GNNアーキテクチャによる実験により、G-CRDは軽量GNNモデルの性能とロバスト性を一貫して向上し、構造保存アプローチ、LSP、GSP、および2Dコンピュータビジョンから適応したベースラインよりも優れていた。

Knowledge distillation is a promising learning paradigm for boosting the performance and reliability of resource-efficient graph neural networks (GNNs) using more expressive yet cumbersome teacher models. Past work on distillation for GNNs proposed the Local Structure Preserving loss (LSP), which matches local structural relationships across the student and teacher's node embedding spaces. In this paper, we make two key contributions: From a methodological perspective, we study whether preserving the global topology of how the teacher embeds graph data can be a more effective distillation objective for GNNs, as real-world graphs often contain latent interactions and noisy edges. The purely local LSP objective over pre-defined edges is unable to achieve this as it ignores relationships among disconnected nodes. We propose two new approaches which better preserve global topology: (1) Global Structure Preserving loss (GSP), which extends LSP to incorporate all pairwise interactions; and (2) Graph Contrastive Representation Distillation (G-CRD), which uses contrastive learning to align the student node embeddings to those of the teacher in a shared representation space. From an experimental perspective, we introduce an expanded set of benchmarks on large-scale real-world datasets where the performance gap between teacher and student GNNs is non-negligible. We believe this is critical for testing the efficacy and robustness of knowledge distillation, but was missing from the LSP study which used synthetic datasets with trivial performance gaps. Experiments across 4 datasets and 14 heterogeneous GNN architectures show that G-CRD consistently boosts the performance and robustness of lightweight GNN models, outperforming the structure preserving approaches, LSP and GSP, as well as baselines adapted from 2D computer vision.
翻訳日:2021-11-10 14:42:22 公開日:2021-11-09
# 離散潜在変数モデルにおける勾配推定のための二重制御変数

Double Control Variates for Gradient Estimation in Discrete Latent Variable Models ( http://arxiv.org/abs/2111.05300v1 )

ライセンス: Link先を確認
Michalis K. Titsias, Jiaxin Shi(参考訳) 離散潜在変数モデルの確率的勾配に基づく最適化は、勾配の分散度が高いため困難である。 二重制御変数を用いたスコア関数推定器の分散低減手法を提案する。 これらの制御変数は主制御変数の上に作用し、全体的な推定値のばらつきをさらに減らそうとする。 テイラー展開を用いたREINFORCE残差推定器の二重制御変数を開発する。 バイナリ潜時変数を持つ変分オートエンコーダなどの離散潜時変数モデルのトレーニングでは,REINFORCEの残差推定器を用いた標準トレーニングと比較して,計算コストが増大しない。 提案手法を高次元玩具の例に挑戦し,二変数潜在変数を用いた変分オートエンコーダの訓練に応用する。 我々の推定器は、他の最先端推定器と比較してばらつきが低いことを示す。

Stochastic gradient-based optimisation for discrete latent variable models is challenging due to the high variance of gradients. We introduce a variance reduction technique for score function estimators that makes use of double control variates. These control variates act on top of a main control variate, and try to further reduce the variance of the overall estimator. We develop a double control variate for the REINFORCE leave-one-out estimator using Taylor expansions. For training discrete latent variable models, such as variational autoencoders with binary latent variables, our approach adds no extra computational cost compared to standard training with the REINFORCE leave-one-out estimator. We apply our method to challenging high-dimensional toy examples and training variational autoencoders with binary latent variables. We show that our estimator can have lower variance compared to other state-of-the-art estimators.
翻訳日:2021-11-10 14:40:53 公開日:2021-11-09
# 変換同変解釈を伴う自己解釈モデル

Self-Interpretable Model with TransformationEquiva riant Interpretation ( http://arxiv.org/abs/2111.04927v1 )

ライセンス: Link先を確認
Yipei Wang, Xiaoqian Wang(参考訳) 本稿では,変換等価解釈を用いた自己解釈モデルSITEを提案する。 我々は幾何学変換の解釈の堅牢性と自己整合性に焦点を当てる。 変換の同値性とは別に、自己解釈可能なモデルとして、SITEはベンチマークブラックボックス分類器と同等の表現力を持ち、高品質で忠実で堅牢な解釈を提示できる。 注意すべきは、cnnの可視化手法のほとんどに適用されるが、双線型アップサンプリング近似は粗い近似であり、(ピクセル単位でではなく)ヒートマップの形でのみ解釈できる。 このような解釈が(mnistの実験で示されているように)入力空間に直接向けられるかどうかは、まだ疑問の余地がない。 さらに, モデルにおける変換と回転変換についても考察する。 今後の研究では、スケーリングや歪みといったより複雑な変換の下でのロバストな解釈を探求する。 さらに、サイトは幾何学的変換(コンピュータビジョンの領域で使ったもの)に限らず、将来の作業で他の領域のサイトを探索することを明確にする。

In this paper, we propose a self-interpretable model SITE with transformation-equiv ariant interpretations. We focus on the robustness and self-consistency of the interpretations of geometric transformations. Apart from the transformation equivariance, as a self-interpretable model, SITE has comparable expressive power as the benchmark black-box classifiers, while being able to present faithful and robust interpretations with high quality. It is worth noticing that although applied in most of the CNN visualization methods, the bilinear upsampling approximation is a rough approximation, which can only provide interpretations in the form of heatmaps (instead of pixel-wise). It remains an open question whether such interpretations can be direct to the input space (as shown in the MNIST experiments). Besides, we consider the translation and rotation transformations in our model. In future work, we will explore the robust interpretations under more complex transformations such as scaling and distortion. Moreover, we clarify that SITE is not limited to geometric transformation (that we used in the computer vision domain), and will explore SITEin other domains in future work.
翻訳日:2021-11-10 14:40:19 公開日:2021-11-09
# 人間の身近な偽情報検出:スタンス、センチメント、あるいは何か便利なもの?

Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or Something Else? ( http://arxiv.org/abs/2111.05139v1 )

ライセンス: Link先を確認
Alexander Michael Daniel(参考訳) 政治もパンデミックも最近、機械学習を利用した偽情報検出アルゴリズムの開発に十分な動機を与えている。 既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールの偽情報を確実に検出することはできない。 しかし、既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベース感情分析、スタンス検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するための有効な方法となった。 本研究の目的は,これらの技術がどの技術に最適か,また,どの技術が目的に最適かを決定することである。 同じ大きさのデータセットとほぼ同一のニューラルアーキテクチャ(後に単一のフィードフォワード層を持つ単語埋め込み器としてのbertトランスフォーマー)は、それぞれのアプローチで使用され、センチメントとスタンス特有のデータセット上でテストされ、各メソッドが他のタスクにどれだけうまく使えるかのベースラインを確立する。 トレーニングデータセットに表示されていないトピック上の偽情報を検出する各テクニックの能力をテストするために、COVID-19の偽情報に関連する4つの異なるデータセットが使用される。 これらのテストから得られた定量的で質的な結果は、これらのテクニックを実際にどのように使うのが最適かを洞察するために使用される。

Both politics and pandemics have recently provided ample motivation for the development of machine learning-enabled disinformation (a.k.a. fake news) detection algorithms. Existing literature has focused primarily on the fully-automated case, but the resulting techniques cannot reliably detect disinformation on the varied topics, sources, and time scales required for military applications. By leveraging an already-available analyst as a human-in-the-loop, however, the canonical machine learning techniques of sentiment analysis, aspect-based sentiment analysis, and stance detection become plausible methods to use for a partially-automated disinformation detection system. This paper aims to determine which of these techniques is best suited for this purpose and how each technique might best be used towards this end. Training datasets of the same size and nearly identical neural architectures (a BERT transformer as a word embedder with a single feed-forward layer thereafter) are used for each approach, which are then tested on sentiment- and stance-specific datasets to establish a baseline of how well each method can be used to do the other tasks. Four different datasets relating to COVID-19 disinformation are used to test the ability of each technique to detect disinformation on a topic that did not appear in the training data set. Quantitative and qualitative results from these tests are then used to provide insight into how best to employ these techniques in practice.
翻訳日:2021-11-10 14:37:25 公開日:2021-11-09
# ニューラルネットワークのトレーニング方法: 比較評価

How to Train Your Neural Network: A Comparative Evaluation ( http://arxiv.org/abs/2111.04949v1 )

ライセンス: Link先を確認
Shu-Huai Lin, Daniel Nichols, Siddharth Singh, Abhinav Bhatele(参考訳) ディープラーニングの分野は、超計算とメモリ集約型ニューラルネットワークへの顕著なシフトを目撃している。 これらのより大型のモデルにより、研究者は様々な分野にわたる最先端のツールを開発できるようになった。 この現象は、多数のハードウェアアクセラレータ上でニューラルネットワークの分散トレーニングのためのアルゴリズムの開発を促した。 本稿では,大規模分散ディープラーニングのための最先端フレームワークについて論じ,比較する。 まず、分散学習における現在のプラクティスを調査し、使用するさまざまなタイプの並列性を特定します。 次に,大規模画像処理と言語学習タスクでの性能を比較する実験結果を示す。 さらに,その統計効率とメモリ消費挙動について述べる。 この結果に基づいて,性能を阻害する各フレームワークのアルゴリズム的および実装的部分について議論する。

The field of deep learning has witnessed a remarkable shift towards extremely compute- and memory-intensive neural networks. These newer larger models have enabled researchers to advance state-of-the-art tools across a variety of fields. This phenomenon has spurred the development of algorithms for distributed training of neural networks over a larger number of hardware accelerators. In this paper, we discuss and compare current state-of-the-art frameworks for large scale distributed deep learning. First, we survey current practices in distributed learning and identify the different types of parallelism used. Then, we present empirical results comparing their performance on large image and language training tasks. Additionally, we address their statistical efficiency and memory consumption behavior. Based on our results, we discuss algorithmic and implementation portions of each framework which hinder performance.
翻訳日:2021-11-10 14:35:43 公開日:2021-11-09
# (参考訳) 多言語のエイプリルフールの日文脈における偽装の言語的手がかり [全文訳有]

Linguistic Cues of Deception in a Multilingual April Fools' Day Context ( http://arxiv.org/abs/2111.03913v2 )

ライセンス: CC BY 4.0
Katerina Papantoniou, Panagiotis Papadakos, Giorgos Flouris, Dimitris Plexousakis(参考訳) 本研究は,嘘検出タスクに既存のデータセットに有用な付加機能として,エイプリルフールズデー(AFD)ニュース記事の収集を検討する。 このようなコレクションは確立された真実を持ち、言語間で比較的容易に構築できる。 その結果、ダイアクロニックAFDとギリシャの新聞やニュースサイトからの通常の記事を含むコーパスを導入した。 それに加えて、豊富な言語機能セットを構築し、その偽りの手がかりを分析し、現在利用可能な唯一のAFDコレクションと、英語で比較する。 また,最近の研究スレッドに従い,これらの2つのデータセットについて,デセプションにおける個人主義/集団主義の次元について論じる。 最後に、さまざまなモノリンガルおよびクロスリンガル設定をテストすることで、分類器を構築する。 その結果、AFDデータセットは偽造検出研究に有用であり、他の偽造検出作業の観察と一致していることがわかった。

In this work we consider the collection of deceptive April Fools' Day(AFD) news articles as a useful addition in existing datasets for deception detection tasks. Such collections have an established ground truth and are relatively easy to construct across languages. As a result, we introduce a corpus that includes diachronic AFD and normal articles from Greek newspapers and news websites. On top of that, we build a rich linguistic feature set, and analyze and compare its deception cues with the only AFD collection currently available, which is in English. Following a current research thread, we also discuss the individualism/collec tivism dimension in deception with respect to these two datasets. Lastly, we build classifiers by testing various monolingual and crosslingual settings. The results showcase that AFD datasets can be helpful in deception detection studies, and are in alignment with the observations of other deception detection works.
翻訳日:2021-11-10 13:29:12 公開日:2021-11-09
# (参考訳) 一般知識データセットを用いたトランスフォーマーベースのベンガルチャットボット [全文訳有]

Transformer Based Bengali Chatbot Using General Knowledge Dataset ( http://arxiv.org/abs/2111.03937v2 )

ライセンス: CC BY 4.0
Abu Kaisar Mohammad Masum, Sheikh Abujar, Sharmin Akter, Nushrat Jahan Ria, Syed Akhter Hossain(参考訳) AIチャットボットは、トレーニングされたデータセットから学んだ後、印象的な応答を提供する。 この10年間の研究では、ディープニューラルモデルは他のどのモデルよりも優れていることが示されています。 RNNモデルは、質問や回答のようなシーケンス関連の問題を決定するために定期的に使用される。 このアプローチは、seq2seq学習として全員と知り合った。 seq2seqモデルメカニズムでは、エンコーダとデコーダを持つ。 エンコーダは任意の入力シーケンスを組込み、デコーダ組込み出力シーケンスを組込みます。 seq2seqモデルの性能を強化するため、エンコーダとデコーダに注意機構が追加された。 その後、トランスモデルは、シーケンス関連ジレンマを解くための複数の注意機構を備えた高性能モデルとして自身を導入した。 このモデルは、RNNベースモデルと比較してトレーニング時間を短縮し、シーケンシャルトランスダクションの最先端性能を達成する。 本研究では,ベンガルの一般知識質問応答(QA)データセットに基づいて,ベンガルの一般知識チャットボットに対するトランスフォーマーモデルを適用した。 適用されたQAデータに基づいて85.0BLEUをスコアする。 トランスフォーマーモデルの性能を比較するために、我々は23.5 bleuのデータセットに注目してseq2seqモデルを訓練した。

An AI chatbot provides an impressive response after learning from the trained dataset. In this decade, most of the research work demonstrates that deep neural models superior to any other model. RNN model regularly used for determining the sequence-related problem like a question and it answers. This approach acquainted with everyone as seq2seq learning. In a seq2seq model mechanism, it has encoder and decoder. The encoder embedded any input sequence, and the decoder embedded output sequence. For reinforcing the seq2seq model performance, attention mechanism added into the encoder and decoder. After that, the transformer model has introduced itself as a high-performance model with multiple attention mechanism for solving the sequence-related dilemma. This model reduces training time compared with RNN based model and also achieved state-of-the-art performance for sequence transduction. In this research, we applied the transformer model for Bengali general knowledge chatbot based on the Bengali general knowledge Question Answer (QA) dataset. It scores 85.0 BLEU on the applied QA data. To check the comparison of the transformer model performance, we trained the seq2seq model with attention on our dataset that scores 23.5 BLEU.
翻訳日:2021-11-10 13:18:27 公開日:2021-11-09
# (参考訳) チームワークがフォン・ノイマンを働かせる: 2チームゼロサムゲームにおける最小最適化 [全文訳有]

Teamwork makes von Neumann work: Min-Max Optimization in Two-Team Zero-Sum Games ( http://arxiv.org/abs/2111.04178v2 )

ライセンス: CC BY 4.0
Fivos Kalogiannis, Ioannis Panageas, Emmanouil-Vasileios Vlatakis-Gkaragkouni s(参考訳) チームゼロサムゲームにおける,eスポーツからマルチエージェント生成逆数ネットワークにまたがる,マルチプレイヤーゲームの理論的・応用的側面の最近の進歩に着目し,min-max最適化に着目する。 このクラスでは、プレイヤーは2つのチームに分かれ、同じチーム内で同じ報酬を受け取り、相手チーム間で反対のサインを持つ。 教科書の2プレイヤーゼロサムゲームとは異なり、クラス内のナッシュ均衡を見つけることは CLS-hard、すなわち、ナッシュ平衡を計算する多項式時間アルゴリズムを持つことは不可能である。 さらに, この一般化された枠組みでは, 漸近的な最終反復あるいはナッシュ平衡への時間平均収束は, 勾配降下上昇 (gda) やその楽観的変異, 余分な勾配を用いては不可能であることを示す。 具体的には、誘導効用が \emph{non} multi-linear with \emph{non} attractive \emph{per-se} mixed Nash Equilibria を基礎となる最適化景観の厳密なサドルポイントとして提示する。 制御理論の手法を活用し,nash平衡に局所収束する修正gdaを設計することにより,これらの負の結果を補完する。 最後に、我々のフレームワークとAIアーキテクチャとの関係を、マルチエージェント生成対向ネットワークのようなチーム競争構造と議論する。

Motivated by recent advances in both theoretical and applied aspects of multiplayer games, spanning from e-sports to multi-agent generative adversarial networks, we focus on min-max optimization in team zero-sum games. In this class of games, players are split into two teams with payoffs equal within the same team and of opposite sign across the opponent team. Unlike the textbook two-player zero-sum games, finding a Nash equilibrium in our class can be shown to be CLS-hard, i.e., it is unlikely to have a polynomial-time algorithm for computing Nash equilibria. Moreover, in this generalized framework, we establish that even asymptotic last iterate or time average convergence to a Nash Equilibrium is not possible using Gradient Descent Ascent (GDA), its optimistic variant, and extra gradient. Specifically, we present a family of team games whose induced utility is \emph{non} multi-linear with \emph{non} attractive \emph{per-se} mixed Nash Equilibria, as strict saddle points of the underlying optimization landscape. Leveraging techniques from control theory, we complement these negative results by designing a modified GDA that converges locally to Nash equilibria. Finally, we discuss connections of our framework with AI architectures with team competition structures like multi-agent generative adversarial networks.
翻訳日:2021-11-10 13:12:31 公開日:2021-11-09
# (参考訳) 動的正規化に基づくフェデレーション学習

Federated Learning Based on Dynamic Regularization ( http://arxiv.org/abs/2111.04263v2 )

ライセンス: CC BY 4.0
Durmus Alp Emre Acar, Yue Zhao, Ramon Matas Navarro, Matthew Mattina, Paul N. Whatmough, Venkatesh Saligrama(参考訳) 本稿では,ランダムに選択されたデバイスのサブセット間の協調をサーバが調整し,分散的にニューラルネットワークモデルを学習する新しい連合学習手法を提案する。 我々は,通信の観点からの連合学習問題を主に捉え,伝送コストを節約するために,デバイスレベルの計算量を増やすことを可能にする。 ローカルデバイスレベルの経験的損失の最小化は、グローバルな経験的損失のそれと矛盾する、という基本的なジレンマを指摘した。 近年の研究では, 最小化を試みたり, 勾配計算の並列化にデバイスを利用する場合と異なり, 各ラウンドにおける各デバイスに対する動的正規化器を提案し, グローバル・デバイス・ソリューションの制限が整合するようにした。 実データと合成データによる実験結果と,提案手法が対流と非凸の両方において効率的なトレーニングに繋がることを示すとともに,デバイスの不均一性に完全に無依存であり,多数のデバイス,部分的参加,不均衡なデータに対して堅牢であることを示す。

We propose a novel federated learning method for distributively training neural network models, where the server orchestrates cooperation between a subset of randomly chosen devices in each round. We view Federated Learning problem primarily from a communication perspective and allow more device level computations to save transmission costs. We point out a fundamental dilemma, in that the minima of the local-device level empirical loss are inconsistent with those of the global empirical loss. Different from recent prior works, that either attempt inexact minimization or utilize devices for parallelizing gradient computation, we propose a dynamic regularizer for each device at each round, so that in the limit the global and device solutions are aligned. We demonstrate both through empirical results on real and synthetic data as well as analytical results that our scheme leads to efficient training, in both convex and non-convex settings, while being fully agnostic to device heterogeneity and robust to large number of devices, partial participation and unbalanced data.
翻訳日:2021-11-10 12:46:21 公開日:2021-11-09
# (参考訳) 半教師付き学習は、効果的な電波銀河形態分類に必要な手動ラベリング量を削減できるか? [全文訳有]

Can semi-supervised learning reduce the amount of manual labelling required for effective radio galaxy morphology classification? ( http://arxiv.org/abs/2111.04357v2 )

ライセンス: CC BY 4.0
Inigo V. Slijepcevic, Anna M. M. Scaife(参考訳) 本研究では,現代電波天文学における形態分類における最先端半教師付き学習(SSL)アルゴリズムの堅牢性について検討する。 我々は,ラベル付きデータポイントの数が少ない場合に,SSLが現在の最先端技術に匹敵する性能を達成できるかどうかを検証した。 SSLはさらなるレギュラー化を提供するが、非常に少ないラベルを使用すると性能が急速に低下し、真にラベルのないデータを使用するとパフォーマンスが大幅に低下する。

In this work, we examine the robustness of state-of-the-art semi-supervised learning (SSL) algorithms when applied to morphological classification in modern radio astronomy. We test whether SSL can achieve performance comparable to the current supervised state of the art when using many fewer labelled data points and if these results generalise to using truly unlabelled data. We find that although SSL provides additional regularisation, its performance degrades rapidly when using very few labels, and that using truly unlabelled data leads to a significant drop in performance.
翻訳日:2021-11-10 12:44:52 公開日:2021-11-09
# (参考訳) 事前訓練された顔認識の学習表現に関する情報理論的バイアス評価 [全文訳有]

Information-Theoreti c Bias Assessment Of Learned Representations Of Pretrained Face Recognition ( http://arxiv.org/abs/2111.04673v2 )

ライセンス: CC BY 4.0
Jiazhi Li, Wael Abd-Almageed(参考訳) 近年、顔認識の利用における平等な問題が注目を集めている中、マイノリティに対する公平性を改善するために、偏りのないディープラーニングモデルへの取り組みが増えている。 しかし, バイアスアセスメント指標に対する明確な定義や十分な分析はいまだに存在しない。 本研究では,事前学習された顔認識システムの学習表現から保護された属性に対するバイアスの程度を識別するための情報理論的独立バイアス評価指標を提案する。 本尺度は, 分類精度に依存する他の手法と異なり, 浅層ネットワークを用いて予測される保護属性のラベルと基底真理との差異を検討する。 また,ロジッツレベルの損失は,ニューラルネットワークに基づく予測者が常に相関関係を見出すため,バイアスを説明するには不十分である,理論的および実験的に論じる。 さらに,特定のコホートにおけるサンプル不足の問題を緩和する合成データセットを提案する。 最後に, 他の指標と比較し, 明瞭な識別と小さな変動の利点を提示し, 異なる偏差モデルの性能を提案手法で評価することで, ベンチマーク指標を確立する。

As equality issues in the use of face recognition have garnered a lot of attention lately, greater efforts have been made to debiased deep learning models to improve fairness to minorities. However, there is still no clear definition nor sufficient analysis for bias assessment metrics. We propose an information-theoreti c, independent bias assessment metric to identify degree of bias against protected demographic attributes from learned representations of pretrained facial recognition systems. Our metric differs from other methods that rely on classification accuracy or examine the differences between ground truth and predicted labels of protected attributes predicted using a shallow network. Also, we argue, theoretically and experimentally, that logits-level loss is not adequate to explain bias since predictors based on neural networks will always find correlations. Further, we present a synthetic dataset that mitigates the issue of insufficient samples in certain cohorts. Lastly, we establish a benchmark metric by presenting advantages in clear discrimination and small variation comparing with other metrics, and evaluate the performance of different debiased models with the proposed metric.
翻訳日:2021-11-10 12:37:11 公開日:2021-11-09
# 緑内障バイオマーカーとしての網膜中心血管幹と枝の三次元構造

The Three-Dimensional Structural Configuration of the Central Retinal Vessel Trunk and Branches as a Glaucoma Biomarker ( http://arxiv.org/abs/2111.03997v2 )

ライセンス: Link先を確認
Satish K. Panda, Haris Cheong, Tin A. Tun, Thanadet Chuangsuwanich, Aiste Kadziauskiene, Vijayalakshmi Senthil, Ramaswami Krishnadas, Martin L. Buist, Shamira Perera, Ching-Yu Cheng, Tin Aung, Alexandre H. Thiery, and Michael J. A. Girard(参考訳) 目的: 中心網膜血管幹とその枝(crvt&b)の三次元構造が緑内障の診断マーカーとして有用かどうかを評価する。 方法:視神経頭(onh)の光コヒーレンストモグラフィ(oct)ボリュームのbスキャンからcrvt&bを自動的に分割するディープラーニングネットワークを訓練した。 その後,OCTボリュームから抽出したCRVT&Bの構造的構成を用いて緑内障の診断に2つの異なるアプローチを用いた。 最初のアプローチでは,CRVT&Bの3次元構造と3次元CNNのみを用いた診断を行うことを目的とした。 2つ目のアプローチでは,crvt&bの3次元構造を3次元平面に投影して2次元画像を得た後,2次元cnnを用いて診断を行った。 dice係数を用いてセグメンテーション精度を評価し,受信機動作特性曲線(auc)下の領域を用いて診断精度を評価した。 CRVT&Bの診断性能は網膜神経線維層(RNFL)の厚みと比較した。 結果: セグメンテーションネットワークは, octスキャンから効率的に網膜血管を分割できた。 テストセットでは,Dice係数0.81\pm0.07を得た。 3Dと2Dの診断ネットワークは緑内障と非緑内障患者をそれぞれ82.7%と83.3%と区別することができた。 CRVT&BのAUCは0.89と0.90であり、RAFの厚さだけで得られたAUCよりも高かった。 結論:本研究は,crvt&bの診断能力が金標準緑内障パラメータ,すなわちrnflの厚さよりも優れていることを示した。 本研究は, 網膜血管が骨格を形成することを示唆し, 緑内障の進展と進展にともなう OnH 構造変化を代表していると考えられる。

Purpose: To assess whether the three-dimensional (3D) structural configuration of the central retinal vessel trunk and its branches (CRVT&B) could be used as a diagnostic marker for glaucoma. Method: We trained a deep learning network to automatically segment the CRVT&B from the B-scans of the optical coherence tomography (OCT) volume of the optic nerve head (ONH). Subsequently, two different approaches were used for glaucoma diagnosis using the structural configuration of the CRVT&B as extracted from the OCT volumes. In the first approach, we aimed to provide a diagnosis using only 3D CNN and the 3D structure of the CRVT&B. For the second approach, we projected the 3D structure of the CRVT&B orthographically onto three planes to obtain 2D images, and then a 2D CNN was used for diagnosis. The segmentation accuracy was evaluated using the Dice coefficient, whereas the diagnostic accuracy was assessed using the area under the receiver operating characteristic curves (AUC). The diagnostic performance of the CRVT&B was also compared with that of retinal nerve fiber layer (RNFL) thickness. Results: Our segmentation network was able to efficiently segment retinal blood vessels from OCT scans. On a test set, we achieved a Dice coefficient of 0.81\pm0.07. The 3D and 2D diagnostic networks were able to differentiate glaucoma from non-glaucoma subjects with accuracies of 82.7% and 83.3%, respectively. The corresponding AUCs for CRVT&B were 0.89 and 0.90, higher than those obtained with RNFL thickness alone. Conclusions: Our work demonstrated that the diagnostic power of the CRVT&B is superior to that of a gold-standard glaucoma parameter, i.e., RNFL thickness. Our work also suggested that the major retinal blood vessels form a skeleton -- the configuration of which may be representative of major ONH structural changes as typically observed with the development and progression of glaucoma.
翻訳日:2021-11-10 12:19:56 公開日:2021-11-09
# 3dモデルを用いた高密度歯のランドマーク・軸検出ネットワーク

Dense Representative Tooth Landmark/axis Detection Network on 3D Model ( http://arxiv.org/abs/2111.04212v2 )

ライセンス: Link先を確認
Guangshun Wei, Zhiming Cui, Jie Zhu, Lei Yang, Yuanfeng Zhou, Pradeep Singh, Min Gu, Wenping Wang(参考訳) 人工知能(AI)技術は、デジタル矯正にますます使われているが、課題の1つは、歯のランドマークや軸を自動的に正確に検出することである。 これは、複雑な幾何学的定義と、個々の歯と異なる種類の歯の間に大きな違いがあるためである。 そこで本研究では, 歯科医師のラベル付きデータセットを用いて, 矯正治療に不可欠な歯モデルにおける歯のランドマーク/軸検出法を提案する。 本手法は, 歯の目印を点(例えば, 尖点)として抽出するだけでなく, 歯の角化や傾斜を測定する軸も抽出できる。 提案するネットワークは3d歯モデル入力とし, 歯のランドマークや軸の種類を予測している。 具体的には, 歯面上に定義された密集場として, ランドマークと軸をエンコードする。 この設計選択と追加部品のセットにより、提案したネットワークは、所定の3次元歯モデルからスパースランドマークを抽出するのにより適している。 提案手法の広範囲な評価は, 経験者歯科医が作成した歯科モデルを用いて行った。 その結果, 歯のランドマークを高精度に生成できることがわかった。 本手法は,最先端法およびアブレーション法との比較により検討・正当化された。

Artificial intelligence (AI) technology is increasingly used for digital orthodontics, but one of the challenges is to automatically and accurately detect tooth landmarks and axes. This is partly because of sophisticated geometric definitions of them, and partly due to large variations among individual tooth and across different types of tooth. As such, we propose a deep learning approach with a labeled dataset by professional dentists to the tooth landmark/axis detection on tooth model that are crucial for orthodontic treatments. Our method can extract not only tooth landmarks in the form of point (e.g. cusps), but also axes that measure the tooth angulation and inclination. The proposed network takes as input a 3D tooth model and predicts various types of the tooth landmarks and axes. Specifically, we encode the landmarks and axes as dense fields defined on the surface of the tooth model. This design choice and a set of added components make the proposed network more suitable for extracting sparse landmarks from a given 3D tooth model. Extensive evaluation of the proposed method was conducted on a set of dental models prepared by experienced dentists. Results show that our method can produce tooth landmarks with high accuracy. Our method was examined and justified via comparison with the state-of-the-art methods as well as the ablation studies.
翻訳日:2021-11-10 12:19:24 公開日:2021-11-09
# リレーショナルラーニングのためのプロビットテンソル因子化モデル

A Probit Tensor Factorization Model For Relational Learning ( http://arxiv.org/abs/2111.03943v2 )

ライセンス: Link先を確認
Ye Liu, Rui Song, Wenbin Lu, Yanghua Xiao(参考訳) 知識グラフの普及に伴い、複雑な多元関係構造を持つデータモデリングが統計関係学習の分野で注目を集めている。 統計的関係性学習の最も重要な目標の1つは、リンク予測(すなわち、知識グラフに特定の関係が存在するかどうかの予測)である。 リンク予測を行うために多くのモデルやアルゴリズムが提案されており、計算効率と予測精度の観点からテンソル分解法が最先端の性能を達成することが証明されている。 しかし、既存のテンソル因子化モデルの一般的な欠点は、欠落関係と非現存関係が同じように扱われ、情報を失うことである。 この問題に対処するために,従来のテンソル因子化モデルから計算効率を継承するだけでなく,関係データのバイナリ性も考慮する,プロビットリンク付きバイナリテンソル因子化モデルを提案する。 提案したプロビットテンソル分解(PTF)モデルは,予測精度と解釈可能性の両方の利点を示す。

With the proliferation of knowledge graphs, modeling data with complex multirelational structure has gained increasing attention in the area of statistical relational learning. One of the most important goals of statistical relational learning is link prediction, i.e., predicting whether certain relations exist in the knowledge graph. A large number of models and algorithms have been proposed to perform link prediction, among which tensor factorization method has proven to achieve state-of-the-art performance in terms of computation efficiency and prediction accuracy. However, a common drawback of the existing tensor factorization models is that the missing relations and non-existing relations are treated in the same way, which results in a loss of information. To address this issue, we propose a binary tensor factorization model with probit link, which not only inherits the computation efficiency from the classic tensor factorization model but also accounts for the binary nature of relational data. Our proposed probit tensor factorization (PTF) model shows advantages in both the prediction accuracy and interpretability
翻訳日:2021-11-10 12:19:05 公開日:2021-11-09
# 深部生成モデルを用いた遠隔支援のためのセンサデータの圧縮

Compressing Sensor Data for Remote Assistance of Autonomous Vehicles using Deep Generative Models ( http://arxiv.org/abs/2111.03201v2 )

ライセンス: Link先を確認
Daniel Bogdoll, Johannes Jestram, Jonas Rauch, Christin Scheib, Moritz Wittig, J. Marius Z\"ollner(参考訳) 近い将来、自動運転車は自分では解決できない状況で人間の支援を必要とするだろう。 このようなシナリオでは、人間からの遠隔支援は、車両の運転継続に必要な入力を提供することができる。 自動運転車で使用される典型的なセンサーは、カメラとライダーセンサーである。 大量のセンサデータをリアルタイムに送信する必要があるため、ネットワークインフラストラクチャの過負荷を防ぐために、高効率なデータ圧縮が基本である。 ディープジェネレーティブニューラルネットワークを用いたセンサデータ圧縮は、画像データとライダーデータの両方に対する従来の圧縮アプローチよりも、圧縮速度と再構成品質において優れていることが示されている。 しかし,遠隔支援のための生成ニューラルネットベースの圧縮アルゴリズムの性能に関する研究は乏しい。 遠隔支援における深層生成モデルの実現可能性について考察するため,その適用可能性に関する最先端アルゴリズムを評価し,潜在的な弱点を特定する。 さらに,センサデータ処理のためのオンラインパイプラインを実装し,CARLAシミュレータを用いた遠隔支援の性能を示す。

In the foreseeable future, autonomous vehicles will require human assistance in situations they can not resolve on their own. In such scenarios, remote assistance from a human can provide the required input for the vehicle to continue its operation. Typical sensors used in autonomous vehicles include camera and lidar sensors. Due to the massive volume of sensor data that must be sent in real-time, highly efficient data compression is elementary to prevent an overload of network infrastructure. Sensor data compression using deep generative neural networks has been shown to outperform traditional compression approaches for both image and lidar data, regarding compression rate as well as reconstruction quality. However, there is a lack of research about the performance of generative-neural-ne twork-based compression algorithms for remote assistance. In order to gain insights into the feasibility of deep generative models for usage in remote assistance, we evaluate state-of-the-art algorithms regarding their applicability and identify potential weaknesses. Further, we implement an online pipeline for processing sensor data and demonstrate its performance for remote assistance using the CARLA simulator.
翻訳日:2021-11-10 12:18:49 公開日:2021-11-09
# 量子ニューラルタンジェントカーネルによる表現学習

Representation Learning via Quantum Neural Tangent Kernels ( http://arxiv.org/abs/2111.04225v2 )

ライセンス: Link先を確認
Junyu Liu, Francesco Tacchino, Jennifer R. Glick, Liang Jiang, Antonio Mezzacapo(参考訳) 変分量子回路は、量子機械学習および変分量子シミュレーションタスクで使用される。 優れた変動回路の設計や、与えられた学習や最適化タスクでどれだけうまく機能するかの予測は、いまだに不明である。 本稿では,ニューラル・タンジェント・カーネルの理論を用いて変動量子回路の解析を行う。 量子ニューラルネットワークカーネルを定義し、最適化および学習タスクにおける損失関数の動的方程式を導出する。 我々は,変動角がゆるやかに変化し,線形摂動が十分であるような,凍結限界(lazy training regime)におけるダイナミクスを解析的に解く。 解析を動的設定に拡張し、変分角の二次補正を含む。 次に、ハイブリッド量子古典的アーキテクチャを検討し、ハイブリッド核に対する大きな幅制限を定義し、ハイブリッド量子古典的ニューラルネットワークがおよそガウス的であることを示す。 ここで得られた結果は、量子機械学習や最適化問題に用いられる変分量子回路の学習ダイナミクスを解析的に理解できる限界を示している。 これらの解析結果は量子機械学習実験の数値シミュレーションによって支持される。

Variational quantum circuits are used in quantum machine learning and variational quantum simulation tasks. Designing good variational circuits or predicting how well they perform for given learning or optimization tasks is still unclear. Here we discuss these problems, analyzing variational quantum circuits using the theory of neural tangent kernels. We define quantum neural tangent kernels, and derive dynamical equations for their associated loss function in optimization and learning tasks. We analytically solve the dynamics in the frozen limit, or lazy training regime, where variational angles change slowly and a linear perturbation is good enough. We extend the analysis to a dynamical setting, including quadratic corrections in the variational angles. We then consider hybrid quantum-classical architecture and define a large-width limit for hybrid kernels, showing that a hybrid quantum-classical neural network can be approximately Gaussian. The results presented here show limits for which analytical understandings of the training dynamics for variational quantum circuits, used for quantum machine learning and optimization problems, are possible. These analytical results are supported by numerical simulations of quantum machine learning experiments.
翻訳日:2021-11-10 12:18:34 公開日:2021-11-09