このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210830となっている論文です。

PDF登録状況(公開日: 20210830)

TitleAuthorsAbstract論文公表日・翻訳日
# 抽象要約における幻覚的実体の事実性の検討

Inspecting the Factuality of Hallucinated Entities in Abstractive Summarization ( http://arxiv.org/abs/2109.09784v1 )

ライセンス: Link先を確認
Meng Cao, Yue Dong and Jackie Chi Kit Cheung(参考訳) 最先端の抽象的要約システムは、しばしば 'emph{hallucinations}; すなわち、ソーステキストから直接推論できないコンテンツを生成する。 誤認識されているにもかかわらず、幻覚の内容の多くは世界知識(事実幻覚)と一致している。 これらの事実幻覚を要約に含めることは、追加の背景情報を提供するのに有用である。 本研究では,実体の非事実幻覚から事実を分離する新たな検出手法を提案する。 本手法は,事前に訓練されたマスク付き言語モデルと微調整されたマスク付き言語モデルに基づいて,先行確率と後続確率を推定する。 実験結果から,本手法は精度とF1スコアの両方において3つの強い基準線を著しく上回り,事実性分類タスクにおける人間の判断と強い相関関係があることが示唆された。 さらに,このアプローチは,特定の幻覚が要約者の事前学習や微調整のステップによって引き起こされるかを知ることができる。

State-of-the-art abstractive summarization systems often generate \emph{hallucinations}; i.e., content that is not directly inferable from the source text. Despite being assumed incorrect, many of the hallucinated contents are consistent with world knowledge (factual hallucinations). Including these factual hallucinations into a summary can be beneficial in providing additional background information. In this work, we propose a novel detection approach that separates factual from non-factual hallucinations of entities. Our method is based on an entity's prior and posterior probabilities according to pre-trained and finetuned masked language models, respectively. Empirical results suggest that our method vastly outperforms three strong baselines in both accuracy and F1 scores and has a strong correlation with human judgments on factuality classification tasks. Furthermore, our approach can provide insight into whether a particular hallucination is caused by the summarizer's pre-training or fine-tuning step.
翻訳日:2021-10-03 10:37:18 公開日:2021-08-30
# サイバーセキュリティのための強化機械学習トピック分類手法

An Enhanced Machine Learning Topic Classification Methodology for Cybersecurity ( http://arxiv.org/abs/2109.02473v1 )

ライセンス: Link先を確認
Elijah Pelofske, Lorie M. Liebrock, Vincent Urias(参考訳) 本研究では,インターネット上の3つのテキストソース(reddit, stackexchange, arxiv)のユーザ定義ラベルを用いて,21種類の機械学習モデルを学習し,サイバーセキュリティの議論を自然テキストで検出するトピック分類タスクを行う。 クロス検証実験において,21モデル各々の偽陽性率と偽陰性率を解析した。 次に、サイバーセキュリティ関連テキストを検出する決定機構として、21のトレーニングされた機械学習モデルの多数決を取り入れたサイバーセキュリティトピック分類(ctc)ツールを提案する。 また、CTCツールの過半数投票機構は、21種類のモデルの平均値よりも、偽陰性率と偽陽性率を低くすることを示した。 CTCツールは、何十万ものドキュメントにスケーラブルで、時間順にウォールクロックがあることを示している。

In this research, we use user defined labels from three internet text sources (Reddit, Stackexchange, Arxiv) to train 21 different machine learning models for the topic classification task of detecting cybersecurity discussions in natural text. We analyze the false positive and false negative rates of each of the 21 model's in a cross validation experiment. Then we present a Cybersecurity Topic Classification (CTC) tool, which takes the majority vote of the 21 trained machine learning models as the decision mechanism for detecting cybersecurity related text. We also show that the majority vote mechanism of the CTC tool provides lower false negative and false positive rates on average than any of the 21 individual models. We show that the CTC tool is scalable to the hundreds of thousands of documents with a wall clock time on the order of hours.
翻訳日:2021-09-12 10:56:59 公開日:2021-08-30
# (参考訳) 自動音声スコアリングのための話者条件階層モデル [全文訳有]

Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring ( http://arxiv.org/abs/2109.00928v1 )

ライセンス: CC BY 4.0
Yaman Kumar Singla, Avykat Gupta, Shaurya Bagga, Changyou Chen, Balaji Krishnamurthy, Rajiv Ratn Shah(参考訳) 自動発声スコアリング(automatic speech scoring、ass)は、言語における候補の発話能力の評価をコンピュータで支援する手法である。 ASSシステムは、オープン文法、可変発音、非構造化または半構造化コンテンツなど、多くの課題に直面している。 最近のディープラーニングアプローチは、この領域でいくつかの約束を示している。 しかし、これらのアプローチのほとんどは単一の音声から特徴を抽出することに集中しており、そのような複雑なタスクをモデル化するために必要な話者固有のコンテキストが欠如している。 本稿では,非ネイティブasのための新しいディープラーニング手法である話者条件階層モデリングを提案する。 提案手法では, 口腔習熟度試験が候補に対して複数の反応を評価できるという利点を生かした。 これらの応答からコンテキストベクトルを抽出し、ネットワークに追加の話者固有のコンテキストとして与えて、特定の応答をスコアします。 このようなモデリングによってモデルの平均性能が6.92%向上する(最大は12.86%、最小は4.51%)。 さらに、ASSの問題を解決する上で、この追加の文脈の重要性に関する量的および質的な洞察を示す。

Automatic Speech Scoring (ASS) is the computer-assisted evaluation of a candidate's speaking proficiency in a language. ASS systems face many challenges like open grammar, variable pronunciations, and unstructured or semi-structured content. Recent deep learning approaches have shown some promise in this domain. However, most of these approaches focus on extracting features from a single audio, making them suffer from the lack of speaker-specific context required to model such a complex task. We propose a novel deep learning technique for non-native ASS, called speaker-conditioned hierarchical modeling. In our technique, we take advantage of the fact that oral proficiency tests rate multiple responses for a candidate. We extract context vectors from these responses and feed them as additional speaker-specific context to our network to score a particular response. We compare our technique with strong baselines and find that such modeling improves the model's average performance by 6.92% (maximum = 12.86%, minimum = 4.51%). We further show both quantitative and qualitative insights into the importance of this additional context in solving the problem of ASS.
翻訳日:2021-09-04 12:52:14 公開日:2021-08-30
# (参考訳) カリフォルニア大学サンフランシスコ校術前びまん性グリオーマ(ucsf-pdgm)mriデータセット [全文訳有]

The University of California San Francisco Preoperative Diffuse Glioma (UCSF-PDGM) MRI Dataset ( http://arxiv.org/abs/2109.00356v1 )

ライセンス: CC BY 4.0
Evan Calabrese, Javier Villanueva-Meyer, Jeffrey Rudie, Andreas Rauschecker, Ujjwal Baid, Spyridon Bakas, John Mongan, Christopher Hess, Soonmee Cha(参考訳) ここではカリフォルニア大学サンフランシスコ校のDiffuse Glioma MRI(UCSF-PDGM)データセットを紹介する。 UCSF-PDGMデータセットは、主に3Dイメージングを特徴とする標準化された3テスラ脳腫瘍MRIプロトコルで画像化された、病理組織学的に改善されたびまん性グリオーマを有する患者500人を含む。 また、このデータセットには、すべての症例に対するisocitrate dehydrogenase(IDH)変異状況と、WHOグレードIIIおよびIVグリオーマに対するO6-methylguanine-DNA メチルトランスフェラーゼ(MGMT)プロモーターメチル化状態も含まれている。 UCSF-PDGMは、世界中の研究者がこれらのデータを使用して、拡散グリオーマのためのAIアプリケーションのバウンダリを押し続けることを期待して、一般公開されている。

Here we present the University of California San Francisco Preoperative Diffuse Glioma MRI (UCSF-PDGM) dataset. The UCSF-PDGM dataset includes 500 subjects with histopathologically- proven diffuse gliomas who were imaged with a standardized 3 Tesla preoperative brain tumor MRI protocol featuring predominantly 3D imaging, as well as advanced diffusion and perfusion imaging techniques. The dataset also includes isocitrate dehydrogenase (IDH) mutation status for all cases and O6-methylguanine-DNA methyltransferase (MGMT) promotor methylation status for World Health Organization (WHO) grade III and IV gliomas. The UCSF-PDGM has been made publicly available in the hopes that researchers around the world will use these data to continue to push the boundaries of AI applications for diffuse gliomas.
翻訳日:2021-09-02 21:01:29 公開日:2021-08-30
# (参考訳) 自己監督型埋め込みによる敵攻撃の検出と分類

Sample Efficient Detection and Classification of Adversarial Attacks via Self-Supervised Embeddings ( http://arxiv.org/abs/2108.13797v1 )

ライセンス: CC BY 4.0
Mazda Moayeri and Soheil Feizi(参考訳) 深層モデルの敵対的堅牢性は、現実世界の環境で安全な配置を確保する上で重要であるが、現代の防御のほとんどはスコープが狭く、コストがかかる。 本稿では,事前学習された自己教師付きエンコーダからの埋め込みに基づく線形モデルに基づいて,敵の攻撃を検知し,それぞれの脅威モデルに分類する自己教師付き手法を提案する。 実験では、SimCLRエンコーダを使用し、SimCLR埋め込み距離が人間の知覚可能性のよいプロキシであることを示し、同時に多くの脅威モデルをカプセル化できるようにする。 我々は,SimCLRエンコーダを用いて,L_pや非L_p回避攻撃,データ中毒など,さまざまな種類の敵攻撃を捕捉・分類するので,SimCatと呼ぶ。 線形分類器の単純な性質は,時間とサンプルの複雑さを両立させる。 例えば、SVHNでは、PGD-L_inf攻撃で計算された5対のクリーンな対対と逆の例を使用して、SimCatの検出精度は85%以上である。 さらに、imagenetでは、各脅威モデルからわずか25の例を使用して、pgd-l_2、pgd-l_inf、cw-l_2、ppgd、lpa、stadv、recolor、jpeg-l_infの8種類の攻撃タイプを40%以上の精度で分類することができる。 STL10データでは, BP, CP, FC, CLBD, HTBDなどの毒素攻撃に対する防御としてSimCatを用い, 20種類の総毒素をトレーニングに使用しながら, 成功率を半減させた。 検知器は、目に見えない脅威モデルによく当てはまる。 最後に,アダプティブアタックにおける検出手法の性能について検討し,その頑健性をさらに高めるために,攻撃訓練を行った。

Adversarial robustness of deep models is pivotal in ensuring safe deployment in real world settings, but most modern defenses have narrow scope and expensive costs. In this paper, we propose a self-supervised method to detect adversarial attacks and classify them to their respective threat models, based on a linear model operating on the embeddings from a pre-trained self-supervised encoder. We use a SimCLR encoder in our experiments, since we show the SimCLR embedding distance is a good proxy for human perceptibility, enabling it to encapsulate many threat models at once. We call our method SimCat since it uses SimCLR encoder to catch and categorize various types of adversarial attacks, including L_p and non-L_p evasion attacks, as well as data poisonings. The simple nature of a linear classifier makes our method efficient in both time and sample complexity. For example, on SVHN, using only five pairs of clean and adversarial examples computed with a PGD-L_inf attack, SimCat's detection accuracy is over 85%. Moreover, on ImageNet, using only 25 examples from each threat model, SimCat can classify eight different attack types such as PGD-L_2, PGD-L_inf, CW-L_2, PPGD, LPA, StAdv, ReColor, and JPEG-L_inf, with over 40% accuracy. On STL10 data, we apply SimCat as a defense against poisoning attacks, such as BP, CP, FC, CLBD, HTBD, halving the success rate while using only twenty total poisons for training. We find that the detectors generalize well to unseen threat models. Lastly, we investigate the performance of our detection method under adaptive attacks and further boost its robustness against such attacks via adversarial training.
翻訳日:2021-09-02 06:49:20 公開日:2021-08-30
# (参考訳) フィードバックアライメントアルゴリズムの精度とロバスト性のベンチマーク [全文訳有]

Benchmarking the Accuracy and Robustness of Feedback Alignment Algorithms ( http://arxiv.org/abs/2108.13446v1 )

ライセンス: CC BY-SA 4.0
Albert Jim\'enez Sanfiz, Mohamed Akrout(参考訳) バックプロパゲーションは、単純性、効率性、高い収束率のため、ディープニューラルネットワークをトレーニングするためのデフォルトアルゴリズムである。 しかし、その要求は人間の脳に実装することは不可能である。 近年,より生物学的に妥当な学習方法が提案されている。 これらの手法のいくつかは、バックプロパゲーションの精度にマッチし、また、特別なハードウェア(ASICなど)での高速なトレーニングや、敵攻撃に対する高い堅牢性など、その他の付加的な利点を提供することができる。 この分野への関心は高まっているが、オープンソースライブラリやツールキットが研究とベンチマークアルゴリズムを育む必要がある。 本稿では,生物を動機づけたニューラルネットワークの作成,トレーニング,ベンチマークを行うソフトウェアフレームワークであるBioTorchを紹介する。 さらに,本論文で提案するフィードバックアライメント手法の性能について検討し,前後の重み付け初期化とオプティマイザ選択の重要性を明らかにした。 最後に、最先端の白と黒の箱攻撃に対するこれらの手法に関する新しい堅牢性研究を提供する。

Backpropagation is the default algorithm for training deep neural networks due to its simplicity, efficiency and high convergence rate. However, its requirements make it impossible to be implemented in a human brain. In recent years, more biologically plausible learning methods have been proposed. Some of these methods can match backpropagation accuracy, and simultaneously provide other extra benefits such as faster training on specialized hardware (e.g., ASICs) or higher robustness against adversarial attacks. While the interest in the field is growing, there is a necessity for open-source libraries and toolkits to foster research and benchmark algorithms. In this paper, we present BioTorch, a software framework to create, train, and benchmark biologically motivated neural networks. In addition, we investigate the performance of several feedback alignment methods proposed in the literature, thereby unveiling the importance of the forward and backward weight initialization and optimizer choice. Finally, we provide a novel robustness study of these methods against state-of-the-art white and black-box adversarial attacks.
翻訳日:2021-09-02 06:48:03 公開日:2021-08-30
# (参考訳) Pseudo Relevance FeedbackによるDense Retrievalのクエリ表現の改善 [全文訳有]

Improving Query Representations for Dense Retrieval with Pseudo Relevance Feedback ( http://arxiv.org/abs/2108.13454v1 )

ライセンス: CC BY 4.0
HongChien Yu, Chenyan Xiong, Jamie Callan(参考訳) デンス検索システムは,クエリを文書にマッチさせるため,埋め込み表現と単純な類似度指標を用いて第1段階の検索を行う。 その有効性は、クエリとドキュメントのセマンティクスをキャプチャするためのエンコード埋め込みに依存し、検索クエリの短さとあいまいさのために難しい課題である。 本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。 ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。 オーバーヘッドを減らすためにドキュメントインデックスも変更しない。 ANCE-PRFは、複数のデータセット上で、anceや他の最近の高密度検索システムよりも大幅に優れている。 PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。

Dense retrieval systems conduct first-stage retrieval using embedded representations and simple similarity metrics to match a query to documents. Its effectiveness depends on encoded embeddings to capture the semantics of queries and documents, a challenging task due to the shortness and ambiguity of search queries. This paper proposes ANCE-PRF, a new query encoder that uses pseudo relevance feedback (PRF) to improve query representations for dense retrieval. ANCE-PRF uses a BERT encoder that consumes the query and the top retrieved documents from a dense retrieval model, ANCE, and it learns to produce better query embeddings directly from relevance labels. It also keeps the document index unchanged to reduce overhead. ANCE-PRF significantly outperforms ANCE and other recent dense retrieval systems on several datasets. Analysis shows that the PRF encoder effectively captures the relevant and complementary information from PRF documents, while ignoring the noise with its learned attention mechanism.
翻訳日:2021-09-02 06:31:43 公開日:2021-08-30
# (参考訳) 深層学習手法を用いた医療における時系列予測 [全文訳有]

Time Series Prediction using Deep Learning Methods in Healthcare ( http://arxiv.org/abs/2108.13461v1 )

ライセンス: CC0 1.0
Mohammad Amin Morid, Olivia R. Liu Sheng, Joseph Dunbar(参考訳) 従来の機械学習手法は、医療予測分析タスクを扱う上で2つの大きな課題に直面している。 第一に、医療データの高次元的な性質は、新しいタスクごとに適切な機能のセットを選択するために、労働集約的で時間を要する。 第二に、これらの手法は、医療イベントとその依存関係の時間的パターンを適切に活用できない患者データのシーケンシャルな性質を捉える機能工学に依存している。 近年の深層学習手法は,医療データの高次元的・時間的課題に対処することで,様々な医療予測タスクに有望な性能を示した。 これらの方法は、重要な因子(例えば、医療概念や患者)の有用な表現と、その相互作用を高次元の生(または最小限に処理された)医療データから学習することができる。 本稿では,患者時系列データを活用するための予測モデルとしてディープラーニングを利用する研究を,方法論的観点から体系的にレビューした。 関連する研究を特定するため、2021年2月7日までにMEDLINE, IEEE, Scopus, ACMデジタルライブラリを検索した。 研究者らは、ディープラーニングモデル、バリューハンドリングの欠如、不規則処理、患者表現、静的データインクルージョン、注意機構、解釈、医療オントロジーの統合、学習戦略、スケーラビリティの10の研究ストリームにおいて、ディープ時系列予測の文献に寄与した。 本研究は、これらの文献の流れからの研究知見を要約し、いくつかの重要な研究ギャップを特定し、患者時系列データにおける深層学習の今後の研究機会を提案する。

Traditional machine learning methods face two main challenges in dealing with healthcare predictive analytics tasks. First, the high-dimensional nature of healthcare data needs labor-intensive and time-consuming processes to select an appropriate set of features for each new task. Secondly, these methods depend on feature engineering to capture the sequential nature of patient data, which may not adequately leverage the temporal patterns of the medical events and their dependencies. Recent deep learning methods have shown promising performance for various healthcare prediction tasks by addressing the high-dimensional and temporal challenges of medical data. These methods can learn useful representations of key factors (e.g., medical concepts or patients) and their interactions from high-dimensional raw (or minimally-processed) healthcare data. In this paper we systemically reviewed studies focused on using deep learning as the prediction model to leverage patient time series data for a healthcare prediction task from methodological perspective. To identify relevant studies, MEDLINE, IEEE, Scopus and ACM digital library were searched for studies published up to February 7th 2021. We found that researchers have contributed to deep time series prediction literature in ten research streams: deep learning models, missing value handling, irregularity handling, patient representation, static data inclusion, attention mechanisms, interpretation, incorporating medical ontologies, learning strategies, and scalability. This study summarizes research insights from these literature streams, identifies several critical research gaps, and suggests future research opportunities for deep learning in patient time series data.
翻訳日:2021-09-02 06:21:24 公開日:2021-08-30
# (参考訳) 低炭素コンピュータビジョンのための全サイクルエネルギー消費ベンチマーク [全文訳有]

Full-Cycle Energy Consumption Benchmark for Low-Carbon Computer Vision ( http://arxiv.org/abs/2108.13465v1 )

ライセンス: CC BY 4.0
Bo Li, Xinyang Jiang, Donglin Bai, Yuge Zhang, Ningxin Zheng, Xuanyi Dong, Lu Liu, Yuqing Yang, Dongsheng Li(参考訳) 深層学習モデルのエネルギー消費は呼吸速度で増加しており、地球温暖化や気候変動の文脈における炭素中立性に対する潜在的な負の影響により懸念が高まる。 モデル圧縮のような効率的なディープラーニング技術の進歩により、研究者はより少ないパラメータと少ないレイテンシを持つ効率的なモデルを得ることができる。 しかし、既存の効率的なディープラーニング手法のほとんどは、エネルギー消費をパフォーマンス指標として明示的に考慮していない。 さらに、既存の手法は結果の効率的モデルの推論コストに主にフォーカスするが、アルゴリズムのライフサイクル全体を通して顕著なエネルギー消費を無視する。 本稿では,効率の良いコンピュータビジョンモデルのための,最初の大規模エネルギー消費ベンチマークを提案し,モデル使用強度の異なるフルサイクルエネルギー消費を明示的に評価するための新しい指標を提案する。 このベンチマークは、さまざまなモデル利用シナリオで効率的なディープラーニングアルゴリズムを選択する際の、低炭素排出に対する洞察を提供する。

The energy consumption of deep learning models is increasing at a breathtaking rate, which raises concerns due to potential negative effects on carbon neutrality in the context of global warming and climate change. With the progress of efficient deep learning techniques, e.g., model compression, researchers can obtain efficient models with fewer parameters and smaller latency. However, most of the existing efficient deep learning methods do not explicitly consider energy consumption as a key performance indicator. Furthermore, existing methods mostly focus on the inference costs of the resulting efficient models, but neglect the notable energy consumption throughout the entire life cycle of the algorithm. In this paper, we present the first large-scale energy consumption benchmark for efficient computer vision models, where a new metric is proposed to explicitly evaluate the full-cycle energy consumption under different model usage intensity. The benchmark can provide insights for low carbon emission when selecting efficient deep learning algorithms in different model usage scenarios.
翻訳日:2021-09-02 06:20:25 公開日:2021-08-30
# (参考訳) ConVIScope: 患者の会話を探索するビジュアル分析 [全文訳有]

ConVIScope: Visual Analytics for Exploring Patient Conversations ( http://arxiv.org/abs/2108.13514v1 )

ライセンス: CC BY 4.0
Raymond Li (1), Enamul Hoque (2), Giuseppe Carenini (1), Richard Lester (3), Raymond Chau (3) ((1) Department of Computer Science, University of British Columbia, (2) School of Information Technology, York University, (3) Department of Medicine, University of British Columbia)(参考訳) モバイル健康のためのテキストメッセージングの普及は、医療専門家にとって非常に価値のある患者と医師の会話を大量に生み出している。 本稿では,対話型ビジュアライゼーションと自然言語処理を密に統合した視覚テキスト分析システムConVIScopeについて述べる。 ConVIScopeは、ユーザー中心の反復設計の後、医療専門家と共同で開発された。 6つのドメインの専門家によるケーススタディでは、ConVIScopeの潜在的有用性を示し、さらなる発展のための教訓を明らかにしている。

The proliferation of text messaging for mobile health is generating a large amount of patient-doctor conversations that can be extremely valuable to health care professionals. We present ConVIScope, a visual text analytic system that tightly integrates interactive visualization with natural language processing in analyzing patient-doctor conversations. ConVIScope was developed in collaboration with healthcare professionals following a user-centered iterative design. Case studies with six domain experts suggest the potential utility of ConVIScope and reveal lessons for further developments.
翻訳日:2021-09-02 06:05:04 公開日:2021-08-30
# (参考訳) 強化学習による量子熱機械の最適サイクルの同定 [全文訳有]

Identifying optimal cycles in quantum thermal machines with reinforcement-learni ng ( http://arxiv.org/abs/2108.13525v1 )

ライセンス: CC BY 4.0
Paolo Andrea Erdman, Frank No\'e(参考訳) オープン量子システムの最適制御は難しい課題であるが、既存の量子情報処理技術を改善する上で重要な役割を果たしている。 本稿では,非平衡な量子熱エンジンと冷凍機のパワーを最大化する最適熱力学サイクルを発見するための強化学習に基づく一般的なフレームワークを紹介する。 We apply our method, based on the soft actor-critic algorithm, to three systems: a benchmark two-level system heat engine, where we find the optimal known cycle; an experimentally realistic refrigerator based on a superconducting qubit that generates coherence, where we find a non-intuitive control sequence that outperform previous cycles proposed in literature; a heat engine based on a quantum harmonic oscillator, where we find a cycle with an elaborate structure that outperforms the optimized Otto cycle. そして、最大電力で対応する効率を評価する。

The optimal control of open quantum systems is a challenging task but has a key role in improving existing quantum information processing technologies. We introduce a general framework based on Reinforcement Learning to discover optimal thermodynamic cycles that maximize the power of out-of-equilibrium quantum heat engines and refrigerators. We apply our method, based on the soft actor-critic algorithm, to three systems: a benchmark two-level system heat engine, where we find the optimal known cycle; an experimentally realistic refrigerator based on a superconducting qubit that generates coherence, where we find a non-intuitive control sequence that outperform previous cycles proposed in literature; a heat engine based on a quantum harmonic oscillator, where we find a cycle with an elaborate structure that outperforms the optimized Otto cycle. We then evaluate the corresponding efficiency at maximum power.
翻訳日:2021-09-02 05:54:02 公開日:2021-08-30
# (参考訳) 大規模グラフトレーニングを規則化する適応ラベル平滑化 [全文訳有]

Adaptive Label Smoothing To Regularize Large-Scale Graph Training ( http://arxiv.org/abs/2108.13555v1 )

ライセンス: CC BY-SA 4.0
Kaixiong Zhou, Ninghao Liu, Fan Yang, Zirui Liu, Rui Chen, Li Li, Soo-Hyun Choi, Xia Hu(参考訳) グラフニューラルネットワーク(GNN)は、近隣の情報を再帰的に集約することでノード表現を学習し、多くの領域において主要な計算ツールとなっている。 大規模なグラフを扱うために、既存のほとんどのメソッドは入力グラフを複数のサブグラフ(例えばノードクラスタリング)に分割し、メモリコストを節約するためにバッチトレーニングを適用する。 しかし、このようなバッチトレーニングは各バッチ内のラベルバイアスにつながり、モデル予測の信頼性が過剰になる。 正の関連ラベルを持つ連結ノードが一緒に割り当てられる傾向があるため、従来のクロスエントロピー最小化プロセスは、バッチ内のバイアス付きクラスの予測に従い、オーバーフィッティング問題を増大させる可能性がある。 ラベルバイアス問題を克服するために,1つのホットハードラベルをスムースラベルに置き換えるadaptive label smoothing (als) 法を提案する。 具体的には、alsはノードラベルを伝播して、前処理ステップで近傍ラベルの分布を集約し、最適な平滑化ラベルをオンラインで更新して特定のグラフ構造に適応させる。 実世界のデータセットの実験では、ALSが主にスケーラブルな学習フレームワークに適用され、バイアスラベルを校正し、一般化性能を向上させることが示されている。

Graph neural networks (GNNs), which learn the node representations by recursively aggregating information from its neighbors, have become a predominant computational tool in many domains. To handle large-scale graphs, most of the existing methods partition the input graph into multiple sub-graphs (e.g., through node clustering) and apply batch training to save memory cost. However, such batch training will lead to label bias within each batch, and then result in over-confidence in model predictions. Since the connected nodes with positively related labels tend to be assigned together, the traditional cross-entropy minimization process will attend on the predictions of biased classes in the batch, and may intensify the overfitting issue. To overcome the label bias problem, we propose the adaptive label smoothing (ALS) method to replace the one-hot hard labels with smoothed ones, which learns to allocate label confidences from the biased classes to the others. Specifically, ALS propagates node labels to aggregate the neighborhood label distribution in a pre-processing step, and then updates the optimal smoothed labels online to adapt to specific graph structure. Experiments on the real-world datasets demonstrate that ALS can be generally applied to the main scalable learning frameworks to calibrate the biased labels and improve generalization performances.
翻訳日:2021-09-02 05:23:45 公開日:2021-08-30
# (参考訳) 各種話題の言語学的特徴:中絶・気候変動・銃規制における内容性に関する事例研究 [全文訳有]

Linguistic Characterization of Divisive Topics Online: Case Studies on Contentiousness in Abortion, Climate Change, and Gun Control ( http://arxiv.org/abs/2108.13556v1 )

ライセンス: CC BY 4.0
Jacob Beel, Tong Xiang, Sandeep Soni, Diyi Yang(参考訳) 公開談話のオンライン化が進むにつれ、ソーシャルメディアプラットフォーム上でのさまざまな話題に関する議論も増えている。 これらの分断的な話題は、論争と非論争の両方を引き起こす。 これらの会話を区別するものは、しばしばこれらの会話が議論を呼ぶものと見なされるが、幅広いストロークで知られているが、これらの会話の言語的特徴についてはあまり知られていない。 以前の研究は、論争的な内容や構造がこのタスクの予測因子であることを示したが、そのほとんどは、一般的な会話、非常に特定の出来事、複雑な構造解析に焦点を合わせてきた。 さらに、先行研究で使用された多くのモデルは、オンラインモデレーションの重要な要素である解釈可能性に欠けていた。 我々の研究は、高度に分断されたトピック(吸収、気候変動、銃規制)からの会話に焦点を当て、新しい言語的特徴と会話的特徴とユーザファクターのセットを運用し、解釈可能なモデルを構築するためにそれらを取り入れることで、これらのギャップを埋める。 このような特性は,このタスクにおける予測性能を大幅に向上させると同時に,ニュアンスド・コンタラクタビリティも実現できることを実証する。 これら3つの論争的トピックに関するケーススタディでは、特定の言語的特徴が会話における論争と高い相関があることが示唆され、他のものは特定の分裂的トピックに有意な文脈的影響を示す。

As public discourse continues to move and grow online, conversations about divisive topics on social media platforms have also increased. These divisive topics prompt both contentious and non-contentious conversations. Although what distinguishes these conversations, often framed as what makes these conversations contentious, is known in broad strokes, much less is known about the linguistic signature of these conversations. Prior work has shown that contentious content and structure can be a predictor for this task, however, most of them have been focused on conversation in general, very specific events, or complex structural analysis. Additionally, many models used in prior work have lacked interpret-ability, a key factor in online moderation. Our work fills these gaps by focusing on conversations from highly divisive topics (abortion, climate change, and gun control), operationalizing a set of novel linguistic and conversational characteristics and user factors, and incorporating them to build interpretable models. We demonstrate that such characteristics can largely improve the performance of prediction on this task, and also enable nuanced interpretability. Our case studies on these three contentious topics suggest that certain generic linguistic characteristics are highly correlated with contentiousness in conversations while others demonstrate significant contextual influences on specific divisive topics.
翻訳日:2021-09-02 05:00:15 公開日:2021-08-30
# ラベルのコストを下げたい? gpt-3は

Want To Reduce Labeling Cost? GPT-3 Can Help ( http://arxiv.org/abs/2108.13487v1 )

ライセンス: Link先を確認
Shuohang Wang, Yang Liu, Yichong Xu, Chenguang Zhu, Michael Zeng(参考訳) データアノテーションは多くのNLPタスクに対して時間と労力を要するプロセスである。 擬似データラベルを作成する方法はいくつか存在するが、タスク固有のものが多く、まずは十分な量のラベル付きデータを必要とする。 近年,1750億のパラメータを持つ巨大言語モデル GPT-3 が,数発の学習タスクで大幅に改善されている。 本稿では,GPT-3を低コストなデータラベラとして活用し,他のモデルを訓練する方法を検討する。 ダウンストリームモデルが様々なnluおよびnlgタスクで同等のパフォーマンスを達成するためには、ヒトのラベルを使用するよりも、gpt-3のラベルを使用する方が50%から96%少ないことが分かりました。 さらに,GPT-3の擬似ラベルと人間のラベルを結合する新たな枠組みを提案する。 これらの結果は、多くの実用的な応用に一般化可能なコスト効率のよいデータラベリング手法を示す。

Data annotation is a time-consuming and labor-intensive process for many NLP tasks. Although there exist various methods to produce pseudo data labels, they are often task-specific and require a decent amount of labeled data to start with. Recently, the immense language model GPT-3 with 175 billion parameters has achieved tremendous improvement across many few-shot learning tasks. In this paper, we explore ways to leverage GPT-3 as a low-cost data labeler to train other models. We find that, to make the downstream model achieve the same performance on a variety of NLU and NLG tasks, it costs 50% to 96% less to use labels from GPT-3 than using labels from humans. Furthermore, we propose a novel framework of combining pseudo labels from GPT-3 with human labels, which leads to even better performance with limited labeling budget. These results present a cost-effective data labeling methodology that is generalizable to many practical applications.
翻訳日:2021-09-01 14:39:32 公開日:2021-08-30
# 半教師による健康科学プレスリリースの誇張検出

Semi-Supervised Exaggeration Detection of Health Science Press Releases ( http://arxiv.org/abs/2108.13493v1 )

ライセンス: Link先を確認
Dustin Wright and Isabelle Augenstein(参考訳) 科学に対する公的信頼は、科学論文の誠実で事実的なコミュニケーションに依存する。 しかし、近年の研究では、ニュースメディアが科学論文を誇張して誤って提示する傾向が示されている。 そこで,本稿では,科学コミュニケーションにおける誇張検出の問題を形式化し,検討する。 科学論文やそれらに関する人気のあるメディア記事は豊富にあるが、その記事がオリジナルの論文と直接リンクすることはほとんどなく、データ収集を困難にしている。 本研究は,機械学習モデルの性能のベンチマークに適した学術論文のプレスリリースにおいて,既存の専門家による誇張に関する注釈付き研究からラベル付きプレスリリース/抽象ペアのセットをキュレートすることによって,この問題に対処する。 このことから得られた限られたデータと、科学における誇張検出に関する過去の研究を用いて、補完的なクローゼスタイルのQAタスクからの知識を活用し、少数ショット学習を改善する多タスク版であるMT-PETを紹介した。 MT-PETは,データに制限がある場合と,メインタスクに大量のデータがある場合の両方において,PETと教師あり学習より優れていることを示す。

Public trust in science depends on honest and factual communication of scientific papers. However, recent studies have demonstrated a tendency of news media to misrepresent scientific papers by exaggerating their findings. Given this, we present a formalization of and study into the problem of exaggeration detection in science communication. While there are an abundance of scientific papers and popular media articles written about them, very rarely do the articles include a direct link to the original paper, making data collection challenging. We address this by curating a set of labeled press release/abstract pairs from existing expert annotated studies on exaggeration in press releases of scientific papers suitable for benchmarking the performance of machine learning models on the task. Using limited data from this and previous studies on exaggeration detection in science, we introduce MT-PET, a multi-task version of Pattern Exploiting Training (PET), which leverages knowledge from complementary cloze-style QA tasks to improve few-shot learning. We demonstrate that MT-PET outperforms PET and supervised learning both when data is limited, as well as when there is an abundance of data for the main task.
翻訳日:2021-09-01 14:37:30 公開日:2021-08-30
# 一貫性のあるドキュメントレベルのエンティティリンクに向けて:エンティティリンクとコリファレンス解決のためのジョイントモデル

Towards Consistent Document-level Entity Linking: Joint Models for Entity Linking and Coreference Resolution ( http://arxiv.org/abs/2108.13530v1 )

ライセンス: Link先を確認
Klim Zaporojets, Johannes Deleu, Thomas Demeester, Chris Develder(参考訳) ドキュメントレベルのエンティティリンク(el:document-level entity link)のタスクについて検討する。 我々は文書内の言及の中で明示的な「接続」を活用することを目標としている:我々はelタスクにcoreference resolution (coref)のそれと合流することを提案する。 これは、(i)暗黙の文書情報(例:エンティティ参照間の潜在関係、または一般言語モデル)または(ii)候補リンク間の接続(例:外部知識ベースから推測される)を利用する関連する作業と相補的である。 具体的には、クラスタ参照はコリファレンスを通じてリンクされ、すべてのクラスタ参照に対して単一のelを強制します。 後者の制約は、el候補リストをクラスタ化することで、カバー範囲を増やすというメリットがある。 有向木上の構造化予測タスクとしてcoref+el問題を定式化し,グローバル正規化モデルを用いて解く。 2つのデータセットの実験結果から、CorefタスクとELタスクの両方で最大5%のF1スコアが向上した。 ハードケースのサブセットの場合、候補エンティティリストに正しいELが欠落している個々に言及すると、精度は+50%向上する。

We consider the task of document-level entity linking (EL), where it is important to make consistent decisions for entity mentions over the full document jointly. We aim to leverage explicit "connections" among mentions within the document itself: we propose to join the EL task with that of coreference resolution (coref). This is complementary to related works that exploit either (i) implicit document information (e.g., latent relations among entity mentions, or general language models) or (ii) connections between the candidate links (e.g, as inferred from the external knowledge base). Specifically, we cluster mentions that are linked via coreference, and enforce a single EL for all of the clustered mentions together. The latter constraint has the added benefit of increased coverage by joining EL candidate lists for the thus clustered mentions. We formulate the coref+EL problem as a structured prediction task over directed trees and use a globally normalized model to solve it. Experimental results on two datasets show a boost of up to +5% F1-score on both coref and EL tasks, compared to their standalone counterparts. For a subset of hard cases, with individual mentions lacking the correct EL in their candidate entity list, we obtain a +50% increase in accuracy.
翻訳日:2021-09-01 14:33:49 公開日:2021-08-30
# 不確実性駆動属性同期によるシーン合成

Scene Synthesis via Uncertainty-Driven Attribute Synchronization ( http://arxiv.org/abs/2108.13499v1 )

ライセンス: Link先を確認
Haitao Yang, Zaiwei Zhang, Siming Yan, Haibin Huang, Chongyang Ma, Yi Zheng, Chandrajit Bajaj, Qixing Huang(参考訳) 3Dシーンを生成するためのディープニューラルネットワークの開発は、アーキテクチャCAD、コンピュータグラフィックス、および仮想ロボットトレーニング環境の即時適用によるニューラルネットワークの基本的な問題である。 この課題は、3Dシーンがオブジェクトのサイズや相対的なポーズなどの連続的なパターンから、対称的な関係を持つオブジェクトの発生や共起といった離散的なパターンまで、多様なパターンを示すため、困難である。 本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。 提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。 対象属性と相対属性の不確実性を提供する訓練データから得られたパラメトリック事前分布を用いて,フィードフォワードニューラルモデルの出力を規則化する。 さらに,シーンレイアウトを単に予測するのではなく,オーバーコンプリートな属性セットを予測する。 この手法により,予測属性間の基礎となる一貫性制約を利用して,予測不可能な予測を行うことができる。 実験の結果,提案手法は既存の手法を大きく上回ることがわかった。 生成された3dシーンは、連続的および離散的特徴パターンの両方を保持しながら、トレーニングデータを忠実に補間する。

Developing deep neural networks to generate 3D scenes is a fundamental problem in neural synthesis with immediate applications in architectural CAD, computer graphics, as well as in generating virtual robot training environments. This task is challenging because 3D scenes exhibit diverse patterns, ranging from continuous ones, such as object sizes and the relative poses between pairs of shapes, to discrete patterns, such as occurrence and co-occurrence of objects with symmetrical relationships. This paper introduces a novel neural scene synthesis approach that can capture diverse feature patterns of 3D scenes. Our method combines the strength of both neural network-based and conventional scene synthesis approaches. We use the parametric prior distributions learned from training data, which provide uncertainties of object attributes and relative attributes, to regularize the outputs of feed-forward neural models. Moreover, instead of merely predicting a scene layout, our approach predicts an over-complete set of attributes. This methodology allows us to utilize the underlying consistency constraints among the predicted attributes to prune infeasible predictions. Experimental results show that our approach outperforms existing methods considerably. The generated 3D scenes interpolate the training data faithfully while preserving both continuous and discrete feature patterns.
翻訳日:2021-09-01 14:31:08 公開日:2021-08-30
# ハイパースペクトル画像のトモグラフィ再構成への畳み込みニューラルネットワークの適用

The Application of Convolutional Neural Networks for Tomographic Reconstruction of Hyperspectral Images ( http://arxiv.org/abs/2108.13458v1 )

ライセンス: Link先を確認
Wei-Chih Huang, Mads Svanborg Peters, Mads Juul Ahlebaek, Mads Toudal Frandsen, Ren\'e Lynge Eriksen, and Bjarke J{\o}rgensen(参考訳) ctis(ctct imaging spectrometer)画像から超スペクトルキューブを再構成するために,畳み込みニューラルネットワーク(cnns)を用いた新しい手法を提案する。 現在の再構成アルゴリズムは、多くのスペクトルチャネルの場合、通常、長い復元時間と中間精度が求められる。 構築されたcnnは、標準の期待最大化アルゴリズムよりも高い精度とより短い再構成時間を提供する。 さらに、ネットワークは2種類の現実世界の画像を同時に扱うことができ、特にColorCheckerとニンジンのスペクトル画像が考慮されている。 本研究は,CTIS画像から高スペクトル立方体をリアルタイムに再構成する方法である。

A novel method, utilizing convolutional neural networks (CNNs), is proposed to reconstruct hyperspectral cubes from computed tomography imaging spectrometer (CTIS) images. Current reconstruction algorithms are usually subject to long reconstruction times and mediocre precision in cases of a large number of spectral channels. The constructed CNNs deliver higher precision and shorter reconstruction time than a standard expectation maximization algorithm. In addition, the network can handle two different types of real-world images at the same time -- specifically ColorChecker and carrot spectral images are considered. This work paves the way toward real-time reconstruction of hyperspectral cubes from CTIS images.
翻訳日:2021-09-01 14:24:37 公開日:2021-08-30
# 量子分類器の最近の進歩

Recent advances for quantum classifiers ( http://arxiv.org/abs/2108.13421v1 )

ライセンス: Link先を確認
Weikang Li and Dong-Ling Deng(参考訳) 機械学習は幅広い応用で劇的な成功を収めてきた。 量子物理学との相互作用は、基礎研究と商業応用の両方に前例のない視点をもたらし、量子機械学習の新たな研究フロンティアを生み出している。 この線に沿って、機械学習の分類問題の解決を目的とした量子デバイスである量子分類器が近年注目されている。 本稿では,量子分類器の研究の概観を概観し,最近の進歩に注目した。 まず、量子サポートベクターマシン、量子カーネルメソッド、量子決定木、量子最近傍アルゴリズムなど、いくつかの量子分類アルゴリズムをレビューする。 次に、基本的には分類のための変分量子回路である変分量子分類器を導入する。 我々は,変分量子分類器を構成するための異なるアーキテクチャを考察し,量子分類器のトレーニングが指数関数的に消失する勾配によって妨げられる不毛高原問題を導入する。 さらに、逆学習の設定における量子分類器の脆弱性や、異なる量子分類器に関する最近の実験的進展についても論じる。

Machine learning has achieved dramatic success in a broad spectrum of applications. Its interplay with quantum physics may lead to unprecedented perspectives for both fundamental research and commercial applications, giving rise to an emergent research frontier of quantum machine learning. Along this line, quantum classifiers, which are quantum devices that aim to solve classification problems in machine learning, have attracted tremendous attention recently. In this review, we give a relatively comprehensive overview for the studies of quantum classifiers, with a focus on recent advances. First, we will review a number of quantum classification algorithms, including quantum support vector machine, quantum kernel methods, quantum decision tree, and quantum nearest neighbor algorithm. Then, we move on to introduce the variational quantum classifiers, which are essentially variational quantum circuits for classifications. We will review different architectures for constructing variational quantum classifiers and introduce the barren plateau problem, where the training of quantum classifiers might be hindered by the exponentially vanishing gradient. In addition, the vulnerability aspect of quantum classifiers in the setting of adversarial learning and the recent experimental progress on different quantum classifiers will also be discussed.
翻訳日:2021-09-01 14:22:37 公開日:2021-08-30
# 境界指向グラフ埋め込みアプローチによるfeaサロゲートモデル

An FEA surrogate model with Boundary Oriented Graph Embedding approach ( http://arxiv.org/abs/2108.13509v1 )

ライセンス: Link先を確認
Xingyu Fu, Fengfeng Zhou, Dheeraj Peddireddy, Zhengyang Kang, Martin Byung-Guk Jun, Vaneet Aggarwal(参考訳) 本稿では,グラフニューラルネットワーク(gnn)に対する境界指向グラフ埋め込み(boge)アプローチを,物理フィールドのレグレッションと境界値問題の解決のための汎用サロゲートモデルとして利用することを提案する。 境界要素と局所近傍要素の両方のショートカットを提供することで、BOGEアプローチは構造化メッシュ要素をグラフに埋め込むことができ、大規模な三角形のメシュに基づくFAA結果に対して効率的な回帰を行うことができる。 カンチレバービーム問題に着目したbogeアプローチは,応力場分布に適合するだけでなく,抽象的意思決定設計プロセスを実現する可能性を示すトポロジカル最適化結果を後退させる。 3層DeepGCNモデルによるBOGEアプローチは、応力場予測のための 0.011706 (2.41\% MAPE) と位相最適化のための 0.002735 MSE (0.01) よりも大きい誤差を持つ 1.58\% 要素) の回帰を導出する。 BOGEアプローチの全体的な概念は、業界とデザイン関連の領域の両方に利益をもたらす、汎用的で効率的なディープラーニングベースのFEAシミュレータの道を開くものである。

In this work, we present a Boundary Oriented Graph Embedding (BOGE) approach for the Graph Neural Network (GNN) to serve as a general surrogate model for regressing physical fields and solving boundary value problems. Providing shortcuts for both boundary elements and local neighbor elements, the BOGE approach can embed structured mesh elements into the graph and performs an efficient regression on large-scale triangular-mesh-base d FEA results, which cannot be realized by other machine-learning-bas ed surrogate methods. Focusing on the cantilever beam problem, our BOGE approach cannot only fit the distribution of stress fields but also regresses the topological optimization results, which show its potential of realizing abstract decision-making design process. The BOGE approach with 3-layer DeepGCN model \textcolor{blue}{achieves the regression with MSE of 0.011706 (2.41\% MAPE) for stress field prediction and 0.002735 MSE (with 1.58\% elements having error larger than 0.01) for topological optimization.} The overall concept of the BOGE approach paves the way for a general and efficient deep-learning-based FEA simulator that will benefit both industry and design-related areas.
翻訳日:2021-09-01 14:20:10 公開日:2021-08-30
# 工学設計のための説明可能なAI:システム工学とコンポーネントベースディープラーニングの統一的アプローチ

Explainable AI for engineering design: A unified approach of systems engineering and component-based deep learning ( http://arxiv.org/abs/2108.13836v1 )

ライセンス: Link先を確認
Philipp Geyer, Manav Mahan Singh and Xia Chen(参考訳) 機械学習によって作成されたデータ駆動モデルは、設計とエンジニアリングのあらゆる分野で重要性を増している。 彼らは、より良いパフォーマンスと持続可能性を持つ新しい成果物を作成する意思決定者を支援する高い可能性を持っています。 しかし、これらのモデルの限定された一般化とブラックボックスの性質は、説明可能性と再利用性に制限を与える。 これらの欠点は、エンジニアリング設計の採用を遅らせる重要な障壁となる。 このような状況を克服するため,機械学習(ML)による部分コンポーネントモデル作成のためのコンポーネントベースアプローチを提案する。 このコンポーネントベースのアプローチは、ディープラーニングとシステムエンジニアリング(SE)を結びつける。 まず, エネルギー効率の良い建築設計の例を用いて, トレーニングデータとは異なるランダムな構造で設計性能を正確に予測することにより, コンポーネントベース手法の一般化を実証する。 第2に,低深度決定木から抽出した局所サンプリング,感度情報,および規則について説明し,工学設計の観点からその情報を評価する。 説明可能性の鍵は、コンポーネント間のインターフェイスでのアクティベーションが解釈可能なエンジニアリング量であることである。 このように、階層的コンポーネントシステムは、エンジニアリングの説明可能性のために情報を直接統合するディープニューラルネットワーク(dnn)を形成する。 コンポーネントを構成する可能性の広い構成は、理解可能なデータ駆動モデルで見知らぬ新しい設計ケースの検証を可能にする。 類似の確率分布による成分のパラメータ範囲のマッチングは、再利用可能な、一般化された、信頼できるモデルを生み出す。 このアプローチは、システム工学とドメイン知識のエンジニアリング手法にモデル構造を適用する。

Data-driven models created by machine learning gain in importance in all fields of design and engineering. They have high potential to assists decision-makers in creating novel artefacts with a better performance and sustainability. However, limited generalization and the black-box nature of these models induce limited explainability and reusability. These drawbacks provide significant barriers retarding adoption in engineering design. To overcome this situation, we propose a component-based approach to create partial component models by machine learning (ML). This component-based approach aligns deep learning to systems engineering (SE). By means of the example of energy efficient building design, we first demonstrate generalization of the component-based method by accurately predicting the performance of designs with random structure different from training data. Second, we illustrate explainability by local sampling, sensitivity information and rules derived from low-depth decision trees and by evaluating this information from an engineering design perspective. The key for explainability is that activations at interfaces between the components are interpretable engineering quantities. In this way, the hierarchical component system forms a deep neural network (DNN) that directly integrates information for engineering explainability. The large range of possible configurations in composing components allows the examination of novel unseen design cases with understandable data-driven models. The matching of parameter ranges of components by similar probability distribution produces reusable, well-generalizing, and trustworthy models. The approach adapts the model structure to engineering methods of systems engineering and domain knowledge.
翻訳日:2021-09-01 14:19:47 公開日:2021-08-30
# UAVフラッシュ管理のための機械学習手法--サーベイ

Machine Learning Methods for Management UAV Flocks -- a Survey ( http://arxiv.org/abs/2108.13448v1 )

ライセンス: Link先を確認
Rina Azoulay and Yoram Haddad and Shulamit Reches(参考訳) 無人航空機(UAV)の開発は、技術進歩とコストの大幅な削減により近年勢いを増している。 UAV技術は、コミュニケーション、農業、安全保障、輸送など、幅広い領域で利用することができる。 UAVを特定のドメインのクラスタ/フラッシュにグループ化することは有用であり、UAVの使用に関するさまざまな課題はクラスタリングによって軽減される。 UAVのフロック管理にはいくつかの計算課題があり、機械学習(ML)手法を用いて解決できる。 本稿では,UAVSおよび最新のML手法に関する基本用語について述べるとともに,関連するチュートリアルと調査の概要を紹介する。 その後、UAV群に現れる様々な課題について考察する。 それぞれの課題について,関連する課題に対処するために文献で提案されているいくつかの機械学習に基づく手法を調査した。 その後、フロックの異なる課題を解決するためにMLを適用できる様々なオープンな課題について述べ、この目的のためにML手法を用いることを提案する。 この包括的なレビューは、研究者と開発者の両方にとって、flock管理に適用可能な最先端のML技術のさまざまな側面を幅広く見るのに役立つかもしれない。

The development of unmanned aerial vehicles (UAVs) has been gaining momentum in recent years owing to technological advances and a significant reduction in their cost. UAV technology can be used in a wide range of domains, including communication, agriculture, security, and transportation. It may be useful to group the UAVs into clusters/flocks in certain domains, and various challenges associated with UAV usage can be alleviated by clustering. Several computational challenges arise in UAV flock management, which can be solved by using machine learning (ML) methods. In this survey, we describe the basic terms relating to UAVS and modern ML methods, and we provide an overview of related tutorials and surveys. We subsequently consider the different challenges that appear in UAV flocks. For each issue, we survey several machine learning-based methods that have been suggested in the literature to handle the associated challenges. Thereafter, we describe various open issues in which ML can be applied to solve the different challenges of flocks, and we suggest means of using ML methods for this purpose. This comprehensive review may be useful for both researchers and developers in providing a wide view of various aspects of state-of-the-art ML technologies that are applicable to flock management.
翻訳日:2021-09-01 14:18:45 公開日:2021-08-30
# (参考訳) レトロガン:知識不足と希少表現を改善する循環後専門化システム [全文訳有]

RetroGAN: A Cyclic Post-Specialization System for Improving Out-of-Knowledge and Rare Word Representations ( http://arxiv.org/abs/2108.12941v1 )

ライセンス: CC BY 4.0
Pedro Colon-Hernandez, Yida Xin, Henry Lieberman, Catherine Havasi, Cynthia Breazeal, and Peter Chin(参考訳) レトロフィッティング(retrofitting)は、知識ベース(kb)におけるそれらの関係を反映するために、単語ベクトルをその空間内でより近く、あるいはさらに離れて移動させるテクニックである。 しかし、レトロフィッティングは、そのkbに存在する概念のみに作用する。 RetroGANは、GAN(Generative Adversarial Networks)のペアを使用して、概念とそれらの再適合した概念の1対1マッピングを学習する。 これは、ある自然言語システムが語彙外エントリを扱う方法と似た方法で、元のKBに現れない概念を扱うためにマッピング (post-specializes) を適用する。 我々は3つの単語類似性ベンチマークと下流文単純化タスクでテストを行い,その状態を達成した(CARD-660)。 以上から,本システムは知識不足や希少な単語の一般化に有効であることを示す。

Retrofitting is a technique used to move word vectors closer together or further apart in their space to reflect their relationships in a Knowledge Base (KB). However, retrofitting only works on concepts that are present in that KB. RetroGAN uses a pair of Generative Adversarial Networks (GANs) to learn a one-to-one mapping between concepts and their retrofitted counterparts. It applies that mapping (post-specializes) to handle concepts that do not appear in the original KB in a manner similar to how some natural language systems handle out-of-vocabulary entries. We test our system on three word-similarity benchmarks and a downstream sentence simplification task and achieve the state of the art (CARD-660). Altogether, our results demonstrate our system's effectiveness for out-of-knowledge and rare word generalization.
翻訳日:2021-08-31 23:19:48 公開日:2021-08-30
# (参考訳) 偏整合畳み込みによる反射対称性発見の学習 [全文訳有]

Learning to Discover Reflection Symmetry via Polar Matching Convolution ( http://arxiv.org/abs/2108.12952v1 )

ライセンス: CC BY 4.0
Ahyun Seo, Woohyeon Shim, Minsu Cho(参考訳) 反射対称性検出のタスクは、野生の対称性パターンの著しい変異とあいまいさのため、依然として困難である。 さらに、局所領域は対称性パターンを検出するために反射に一致する必要があるため、回転や反射に同変しない標準畳み込みネットワークではタスクを学習することは困難である。 この問題に対処するために,極性特徴プーリング,自己相似エンコーディング,異なる角度の軸に対する系統的カーネル設計を利用する,極性マッチング畳み込みと呼ばれる新しい畳み込み手法を導入する。 提案した高次元カーネル畳み込みネットワークは、標準畳み込みの限界を克服し、実世界の画像から対称性パターンを効果的に発見する。 さらに,新しいデータセットを提示し,画像合成によるデータセットの強化による自己教師あり学習戦略を提案する。 実験により,本手法が精度とロバスト性の観点から最先端手法よりも優れていることを示した。

The task of reflection symmetry detection remains challenging due to significant variations and ambiguities of symmetry patterns in the wild. Furthermore, since the local regions are required to match in reflection for detecting a symmetry pattern, it is hard for standard convolutional networks, which are not equivariant to rotation and reflection, to learn the task. To address the issue, we introduce a new convolutional technique, dubbed the polar matching convolution, which leverages a polar feature pooling, a self-similarity encoding, and a systematic kernel design for axes of different angles. The proposed high-dimensional kernel convolution network effectively learns to discover symmetry patterns from real-world images, overcoming the limitations of standard convolution. In addition, we present a new dataset and introduce a self-supervised learning strategy by augmenting the dataset with synthesizing images. Experiments demonstrate that our method outperforms state-of-the-art methods in terms of accuracy and robustness.
翻訳日:2021-08-31 22:51:44 公開日:2021-08-30
# (参考訳) 音楽セグメンテーションにおける深い特徴の教師なし学習 [全文訳有]

Unsupervised Learning of Deep Features for Music Segmentation ( http://arxiv.org/abs/2108.12955v1 )

ライセンス: CC BY 4.0
Matthew C. McCallum(参考訳) 音楽セグメンテーション(英: music segmentation)とは、合唱、詩、橋など、異なる音楽セグメンテーションの境界とラベリングの境界を特定するという2つの問題を指す。 ポピュラー音楽で 様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存することが示されている。 音楽セグメントのアノテーションデータから特徴変換を学習する方法も提案されているが、そのようなデータは作成に時間がかかるかコストがかかるため、データセットのサイズによって制限される可能性が高い。 注釈付き音楽セグメンテーションデータは少ないが、利用可能な音楽オーディオの量ははるかに多い。 セマンティックオーディオの分野において、教師なしディープラーニングは、クエリバイサンプルと音声分類タスクのソリューションのパフォーマンス向上に有望であることが示されている。 本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープフィーチャ埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。 提案手法は、任意の音声タイムラインに暗黙的な音声特徴の時間的近接のみを利用する。 これらの埋め込みを古典的な楽曲セグメンテーションアルゴリズムに組み込むことで、このアルゴリズムの性能を大幅に向上するだけでなく、教師なし楽曲セグメンテーションにおけるアートパフォーマンスの状態を得られる。

Music segmentation refers to the dual problem of identifying boundaries between, and labeling, distinct music segments, e.g., the chorus, verse, bridge etc. in popular music. The performance of a range of music segmentation algorithms has been shown to be dependent on the audio features chosen to represent the audio. Some approaches have proposed learning feature transformations from music segment annotation data, although, such data is time consuming or expensive to create and as such these approaches are likely limited by the size of their datasets. While annotated music segmentation data is a scarce resource, the amount of available music audio is much greater. In the neighboring field of semantic audio unsupervised deep learning has shown promise in improving the performance of solutions to the query-by-example and sound classification tasks. In this work, unsupervised training of deep feature embeddings using convolutional neural networks (CNNs) is explored for music segmentation. The proposed techniques exploit only the time proximity of audio features that is implicit in any audio timeline. Employing these embeddings in a classic music segmentation algorithm is shown not only to significantly improve the performance of this algorithm, but obtain state of the art performance in unsupervised music segmentation.
翻訳日:2021-08-31 22:33:39 公開日:2021-08-30
# (参考訳) マルチモダリティ表現間のサイクリングによるフォント補完と操作 [全文訳有]

Font Completion and Manipulation by Cycling Between Multi-Modality Representations ( http://arxiv.org/abs/2108.12965v1 )

ライセンス: CC BY-SA 4.0
Ye Yuan, Wuyang Chen, Zhaowen Wang, Matthew Fisher, Zhifei Zhang, Zhangyang Wang, Hailin Jin(参考訳) 一貫したスタイルのフォントグリフを1つまたはいくつかの参照グリフ、すなわちフォント補完から生成することは、地形設計において重要なタスクである。 問題は一般的なイメージスタイル転送タスクよりも明確に定義されているため、視覚と機械学習の両方のコミュニティから関心を集めている。 既存のアプローチでは、この問題を画像から画像への直接翻訳タスクとして扱う。 本研究では,中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてのフォントグリフの生成を探求し,フォントスタイルのより内在的なグラフィック特性を捉える。 具体的には,画像エンコーダと画像レンダラ間のグラフコンストラクタを用いて,相互モダリティサイクルによる画像から画像へのモデル構造を定式化する。 新しいグラフコンストラクタは、glyphの潜在コードを、翻訳タスクを支援するために訓練された専門家の知識にマッチするグラフ表現にマップする。 本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。 さらに,モデルが出力するグラフ表現は,ユーザがローカル編集や操作を行うための直感的なインターフェースも提供する。 提案したクロスモダリティサイクル表現学習は、異なるデータモダリティから事前知識を持つ他のドメインに適用できる可能性がある。 私たちのコードはhttps://github.com/V ITA-Group/Font_Compl etion_Graphで利用可能です。

Generating font glyphs of consistent style from one or a few reference glyphs, i.e., font completion, is an important task in topographical design. As the problem is more well-defined than general image style transfer tasks, thus it has received interest from both vision and machine learning communities. Existing approaches address this problem as a direct image-to-image translation task. In this work, we innovate to explore the generation of font glyphs as 2D graphic objects with the graph as an intermediate representation, so that more intrinsic graphic properties of font styles can be captured. Specifically, we formulate a cross-modality cycled image-to-image model structure with a graph constructor between an image encoder and an image renderer. The novel graph constructor maps a glyph's latent code to its graph representation that matches expert knowledge, which is trained to help the translation task. Our model generates improved results than both image-to-image baseline and previous state-of-the-art methods for glyph completion. Furthermore, the graph representation output by our model also provides an intuitive interface for users to do local editing and manipulation. Our proposed cross-modality cycled representation learning has the potential to be applied to other domains with prior knowledge from different data modalities. Our code is available at https://github.com/V ITA-Group/Font_Compl etion_Graph.
翻訳日:2021-08-31 22:22:04 公開日:2021-08-30
# (参考訳) 自己教師付きマルチビューステレオにおける不確実性の検討 [全文訳有]

Digging into Uncertainty in Self-supervised Multi-view Stereo ( http://arxiv.org/abs/2108.12966v1 )

ライセンス: CC BY 4.0
Hongbin Xu, Zhipeng Zhou, Yali Wang, Wenxiong Kang, Baigui Sun, Hao Li, Yu Qiao(参考訳) 画像再構成を前提とした自己監督型マルチビューステレオ(MVS)は,近年大きな進歩を遂げている。 しかし、従来の手法は直観に基づいて構築されており、自己教師型MVSにおけるプリテキストタスクの有効性に関する包括的説明が欠如している。 そこで本研究では,自己監督型MVSにおける疫学的不確実性を,モデルが無視するものを考慮して推定する。 特に、制限は前景における曖昧な監督と背景における無効な監督の2つのタイプに分類できる。 そこで本研究では, 自己教師付き学習のための不確実性低減マルチビューステレオ(umvs)フレームワークを提案する。 前景における曖昧な監視を緩和するために、フロー深度一貫性の喪失に先立って追加の対応を行う。 光学流の高密度2次元対応は、MVSにおける3次元ステレオ対応の正則化に使用される。 本研究ではモンテカルロ・ドロップアウトを用いて不確実性マップを取得し,不確実性領域における信頼できない監視信号のフィルタリングを行う。 DTU と Tank&Temples ベンチマークの大規模な実験により、我々の U-MVS フレームワークは教師なし MVS 手法の中で最高の性能を達成し、教師なしの対戦相手と競合する性能を示した。

Self-supervised Multi-view stereo (MVS) with a pretext task of image reconstruction has achieved significant progress recently. However, previous methods are built upon intuitions, lacking comprehensive explanations about the effectiveness of the pretext task in self-supervised MVS. To this end, we propose to estimate epistemic uncertainty in self-supervised MVS, accounting for what the model ignores. Specially, the limitations can be categorized into two types: ambiguious supervision in foreground and invalid supervision in background. To address these issues, we propose a novel Uncertainty reduction Multi-view Stereo (UMVS) framework for self-supervised learning. To alleviate ambiguous supervision in foreground, we involve extra correspondence prior with a flow-depth consistency loss. The dense 2D correspondence of optical flows is used to regularize the 3D stereo correspondence in MVS. To handle the invalid supervision in background, we use Monte-Carlo Dropout to acquire the uncertainty map and further filter the unreliable supervision signals on invalid regions. Extensive experiments on DTU and Tank&Temples benchmark show that our U-MVS framework achieves the best performance among unsupervised MVS methods, with competitive performance with its supervised opponents.
翻訳日:2021-08-31 22:04:08 公開日:2021-08-30
# (参考訳) helmholtz: 改良型に基づいたtezosスマートコントラクトの検証ツール

HELMHOLTZ: A Verifier for Tezos Smart Contracts Based on Refinement Types ( http://arxiv.org/abs/2108.12971v1 )

ライセンス: CC BY 4.0
Yuki Nishida, Hiromasa Saito, Ran Chen, Akira Kawata, Jun Furuse, Kohei Suenaga, Atsushi Igarashi(参考訳) スマートコントラクト(Smart Contract)は、多くの暗号通貨を実装したブロックチェーン上で実行されるプログラムで、トランザクションの自動化に使用されている。 スマートコントラクトが処理する金額が膨大であるため,静的かつ形式的に検証可能なメソッドの要求が急増している。 この記事では、ブロックチェーンプラットフォームTezosで実行されるスマートコントラクトを記述するための静的型付けスタックベースの言語であるMichelson用の型ベースの静的検証ツールHELMHOLTZについて説明する。 HELMHOLTZは、Michelsonの型システムを改良した拡張の上に設計されている。 HELMHOLTZは、ユーザ定義仕様を入力として洗練型形式で記述したMichelsonプログラムを入力として、精製型システムに基づいてプログラムをタイプチェックし、SMTソルバZ3で生成された検証条件を出力する。 我々は,ミシェルソンのコア計算用ミニミシェルソンに対して,複合データ型(リストとペアなど)や高次関数,他のコントラクトの呼び出しといった特徴を取り入れた改良型システムについて,簡単に紹介する。 HELMHOLTZ{}は、口座に送金し、デジタル署名をチェックするものを含む、いくつかの実用的なMichelsonプログラムの検証に成功した。

A smart contract is a program executed on a blockchain, based on which many cryptocurrencies are implemented, and is being used for automating transactions. Due to the large amount of money that smart contracts deal with, there is a surging demand for a method that can statically and formally verify them. This article describes our type-based static verification tool HELMHOLTZ for Michelson, which is a statically typed stack-based language for writing smart contracts that are executed on the blockchain platform Tezos. HELMHOLTZ is designed on top of our extension of Michelson's type system with refinement types. HELMHOLTZ takes a Michelson program annotated with a user-defined specification written in the form of a refinement type as input; it then typechecks the program against the specification based on the refinement type system, discharging the generated verification conditions with the SMT solver Z3. We briefly introduce our refinement type system for the core calculus Mini-Michelson of Michelson, which incorporates the characteristic features such as compound datatypes (e.g., lists and pairs), higher-order functions, and invocation of another contract. \HELMHOLTZ{} successfully verifies several practical Michelson programs, including one that transfers money to an account and that checks a digital signature.
翻訳日:2021-08-31 21:33:19 公開日:2021-08-30
# (参考訳) プライベートマルチタスク学習:定式化と連合学習への応用 [全文訳有]

Private Multi-Task Learning: Formulation and Applications to Federated Learning ( http://arxiv.org/abs/2108.12978v1 )

ライセンス: CC BY 4.0
Shengyuan Hu, Zhiwei Steven Wu, Virginia Smith(参考訳) 機械学習における多くの問題は、複数の関連する機械学習タスクを同時に解決することを目的としているマルチタスク学習(MTL)に依存している。 MTLは、医療、金融、IoTコンピューティングなどの分野におけるプライバシに敏感なアプリケーションに特に関係している。 本研究では,MTLにおけるタスクレベルのプライバシの概念を,共同微分プライバシー(JDP),メカニズム設計と分散最適化のための微分プライバシ緩和を通じて形式化する。 次に,JDP を対象とする個人化フェデレーション学習における応用を目的とした平均正規化 MTL のアルゴリズムを提案する。 我々は目的と解決法を分析し、プライバシーと実用性の両方について検証可能な保証を提供する。 実験により,本手法は,共通学習ベンチマーク間でのグローバルベースラインに対して,プライバシーとユーティリティのトレードオフを改善することができることがわかった。

Many problems in machine learning rely on multi-task learning (MTL), in which the goal is to solve multiple related machine learning tasks simultaneously. MTL is particularly relevant for privacy-sensitive applications in areas such as healthcare, finance, and IoT computing, where sensitive data from multiple, varied sources are shared for the purpose of learning. In this work, we formalize notions of task-level privacy for MTL via joint differential privacy(JDP), a relaxation of differential privacy for mechanism design and distributed optimization. We then propose an algorithm for mean-regularized MTL, an objective commonly used for applications in personalized federated learning, subject to JDP. We analyze our objective and solver, providing certifiable guarantees on both privacy and utility. Empirically, we find that our method allows for improved privacy/utility trade-offs relative to global baselines across common federated learning benchmarks.
翻訳日:2021-08-31 21:32:11 公開日:2021-08-30
# (参考訳) ShiFT15M:分散シフトを伴う多目的大規模ファッションデータセット [全文訳有]

SHIFT15M: Multiobjective Large-Scale Fashion Dataset with Distributional Shifts ( http://arxiv.org/abs/2108.12992v1 )

ライセンス: CC BY 4.0
Masanari Kimura, Takuma Nakamura, Yuki Saito(参考訳) 多くの機械学習アルゴリズムは、トレーニングデータとテストデータは同じ分布に従うと仮定する。 しかし、そのような仮定は現実世界の機械学習問題にしばしば違反する。 本稿では,トレーニングとテストの間にデータ分布が変化する状況下で,モデルを適切に評価するためのデータセットShiFT15Mを提案する。 ShiFT15Mデータセットにはいくつかの優れた特性がある。 データセットの各インスタンスは、いくつかの数値を持ち、ターゲット変数として使用できる。 (ii)大規模。 shift15mデータセットは1500万のファッション画像で構成されている。 (iii)データセットのタイプシフトのカバレッジ。 shift15mには、複数のデータセットシフト問題設定(例えば、コ変量シフトやターゲットシフト)が含まれている。 shift15mはまた、マグニチュードを切り替えることで、データセットシフトの様々な大きさのモデルの性能評価を可能にする。 さらに、非常に単純な方法でshift15mを処理するソフトウェアも提供しています。

Many machine learning algorithms assume that the training data and the test data follow the same distribution. However, such assumptions are often violated in real-world machine learning problems. In this paper, we propose SHIFT15M, a dataset that can be used to properly evaluate models in situations where the distribution of data changes between training and testing. The SHIFT15M dataset has several good properties: (i) Multiobjective. Each instance in the dataset has several numerical values that can be used as target variables. (ii) Large-scale. The SHIFT15M dataset consists of 15million fashion images. (iii) Coverage of types of dataset shifts. SHIFT15M contains multiple dataset shift problem settings (e.g., covariate shift or target shift). SHIFT15M also enables the performance evaluation of the model under various magnitudes of dataset shifts by switching the magnitude. In addition, we provide software to handle SHIFT15M in a very simple way: https://github.com/s t-tech/zozo-shift15m .
翻訳日:2021-08-31 20:49:47 公開日:2021-08-30
# (参考訳) x2teeth:単一パノラマx線写真による3次元歯の再建 [全文訳有]

X2Teeth: 3D Teeth Reconstruction from a Single Panoramic Radiograph ( http://arxiv.org/abs/2108.13004v1 )

ライセンス: CC BY 4.0
Yuan Liang, Weinan Song, Jiawei Yang, Liang Qiu, Kun Wang, Lei He(参考訳) X線3次元歯の再建は歯科診断や多くの臨床手術において重要である。 しかし,1枚のパノラマX線写真から全空洞用歯の再建を調査する研究は行われていない。 写真からの単一オブジェクト再構成とは異なり、高解像度で複数のオブジェクトを構築するというユニークな課題がある。 この課題を克服するために,歯の局所化と単一形状推定にタスクを分解するConvNet X2Teethを開発した。 また,パッチベースのトレーニング戦略を導入することで,x2teethをエンド・ツー・エンドで最適なパフォーマンスをトレーニングできる。 広範な実験により, キャビティの三次元構造を推定し, 各歯の細部を反映することに成功した。 さらに、X2Teeth は 0.681 の再構成 IoU を達成し、エンコーダデコーダ法を $1.71X で、検索法を $1.52X で大幅に上回っている。 また,他のマルチ解剖学的3次元再構成作業にも期待できる。

3D teeth reconstruction from X-ray is important for dental diagnosis and many clinical operations. However, no existing work has explored the reconstruction of teeth for a whole cavity from a single panoramic radiograph. Different from single object reconstruction from photos, this task has the unique challenge of constructing multiple objects at high resolutions. To conquer this task, we develop a novel ConvNet X2Teeth that decomposes the task into teeth localization and single-shape estimation. We also introduce a patch-based training strategy, such that X2Teeth can be end-to-end trained for optimal performance. Extensive experiments show that our method can successfully estimate the 3D structure of the cavity and reflect the details for each tooth. Moreover, X2Teeth achieves a reconstruction IoU of 0.681, which significantly outperforms the encoder-decoder method by $1.71X and the retrieval-based method by $1.52X. Our method can also be promising for other multi-anatomy 3D reconstruction tasks.
翻訳日:2021-08-31 20:31:27 公開日:2021-08-30
# (参考訳) Shatter: シングルヘッドの自己アテンションと相対シーケンス分割を備えた効率的なトランスフォーマーエンコーダ [全文訳有]

Shatter: An Efficient Transformer Encoder with Single-Headed Self-Attention and Relative Sequence Partitioning ( http://arxiv.org/abs/2108.13032v1 )

ライセンス: CC BY 4.0
Ran Tian, Joshua Maynez, Ankur P. Parikh(参考訳) 自己注意に基づくトランスフォーマーアーキテクチャは、NLPにおいて永続的なパラダイムとなったBERTのような大規模事前訓練モデルの基盤となっている。 強力ではあるが、そのようなモデルを事前訓練するために必要な計算資源と時間は禁じられる。 本研究では、相対位置の空間をソフトに分割し、異なる値行列を配列の異なる部分に適用することにより、より効率的にシーケンス情報を符号化する自己注意型アーキテクチャShatterを提案する。 このメカニズムにより、Transformerのマルチヘッドアテンションを単一ヘッドに単純化することが可能になる。 我々は、ShatterがBERTよりも優れたパフォーマンスを実現し、事前トレーニングが1ステップあたり15%(TPUでは15%)速く、より少ないステップで収束し、かなりのメモリ節約(>50%)を提供することを示す広範な実験を行った。 まとめると、Shatterは7日間で8つのV100 GPU上で事前トレーニングが可能で、BERT_Baseのパフォーマンスに匹敵する。

The highly popular Transformer architecture, based on self-attention, is the foundation of large pretrained models such as BERT, that have become an enduring paradigm in NLP. While powerful, the computational resources and time required to pretrain such models can be prohibitive. In this work, we present an alternative self-attention architecture, Shatter, that more efficiently encodes sequence information by softly partitioning the space of relative positions and applying different value matrices to different parts of the sequence. This mechanism further allows us to simplify the multi-headed attention in Transformer to single-headed. We conduct extensive experiments showing that Shatter achieves better performance than BERT, with pretraining being faster per step (15% on TPU), converging in fewer steps, and offering considerable memory savings (>50%). Put together, Shatter can be pretrained on 8 V100 GPUs in 7 days, and match the performance of BERT_Base -- making the cost of pretraining much more affordable.
翻訳日:2021-08-31 20:22:05 公開日:2021-08-30
# (参考訳) 確率的推論のための Aleatoric Description Logic (Long Version) [全文訳有]

Aleatoric Description Logic for Probailistic Reasoning (Long Version) ( http://arxiv.org/abs/2108.13036v1 )

ライセンス: CC BY 4.0
Tim French and Tom Smoker(参考訳) 記述論理は、存在論的知識基盤を記述する強力なツールである。 すなわち、彼らは個人、概念、関係の観点から世界の事実的な説明を与える。 不確実性が存在する場合、そのような事実的説明は実現不可能であり、主観的あるいは認識論的アプローチが必要である。 aleatoric description logicは、エージェントがこれらのdiceのバイアスに関して主観的な信念を持つサイコロのロールによって、世界の不確かさをaleatoric eventsとしてモデル化する。 これは主観的ベイズ記述論理(英語版)を提供し、命題と関係は有理エージェントが賭けるものに応じて割り当てられる確率であり、可能な個人とダイスの構成が与えられる。 アレータリック記述論理は記述論理 ALC を一般化するために示され、全ての役割が関数である ALC の制限の解釈の確率空間を記述することができる。 いくつかの計算問題を考慮し、モデルチェックと整合性チェックアルゴリズムを提案する。 最後に、アレータリック記述論理は、エージェントが観察に従ってサイコロのバイアスに基づいて自らの信念を条件付けできる学習をモデル化できることが示されている。

Description logics are a powerful tool for describing ontological knowledge bases. That is, they give a factual account of the world in terms of individuals, concepts and relations. In the presence of uncertainty, such factual accounts are not feasible, and a subjective or epistemic approach is required. Aleatoric description logic models uncertainty in the world as aleatoric events, by the roll of the dice, where an agent has subjective beliefs about the bias of these dice. This provides a subjective Bayesian description logic, where propositions and relations are assigned probabilities according to what a rational agent would bet, given a configuration of possible individuals and dice. Aleatoric description logic is shown to generalise the description logic ALC, and can be seen to describe a probability space of interpretations of a restriction of ALC where all roles are functions. Several computational problems are considered and model-checking and consistency checking algorithms are presented. Finally, aleatoric description logic is shown to be able to model learning, where agents are able to condition their beliefs on the bias of dice according to observations.
翻訳日:2021-08-31 20:02:50 公開日:2021-08-30
# (参考訳) データ駆動型コンバータ電力系統の小型信号モデリング [全文訳有]

Data-driven Small-signal Modeling for Converter-based Power Systems ( http://arxiv.org/abs/2108.13046v1 )

ライセンス: CC BY 4.0
Francesca Rossi, Eduardo Prieto-Araujo, Marc Cheah-Mane, Oriol Gomis-Bellmunt(参考訳) 本稿では,コンバータを用いた電力系統研究に有用なデータ駆動型小信号モデルを提案する。 このモデルを計算するために、単一のdtとアンサンブルdtの両方を用いた決定木(dt)回帰とスプライン回帰が採用され、その性能は精度、トレーニング、計算時間の観点から比較されている。 この方法論には、従来のシミュレーションと数学的モデルによるデータ生成、データベース(DB)のアレンジメント、回帰トレーニングとテスト、新しいインスタンスの予測の実現といった、モデルを開発するための包括的なステップバイステップの手順が含まれている。 提案手法は,本質的なネットワークを用いて開発され,提案手法の有効性と有用性を示すために,より複雑なシステム上でテストされている。 どちらのパワーシステムテストケースもコンバータベースのパワーシステムの本質的な特性を持ち、コンバータインタフェース生成の高浸透とHVDCリンクの存在をシミュレートしている。 さらに, dt回帰を利用して, 幅広いシステム動作条件に対する小信号安定解析の結果を視覚的に表現する方法を提案する。 最後に, 電力系統小信号関連研究における発展モデルの可能性に注目し, モデルの適用可能性について考察した。

This article details a complete procedure to derive a data-driven small-signal-based model useful to perform converter-based power system related studies. To compute the model, Decision Tree (DT) regression, both using single DT and ensemble DT, and Spline regression have been employed and their performances have been compared, in terms of accuracy, training and computing time. The methodology includes a comprehensive step-by-step procedure to develop the model: data generation by conventional simulation and mathematical models, databases (DBs) arrangement, regression training and testing, realizing prediction for new instances. The methodology has been developed using an essential network and then tested on a more complex system, to show the validity and usefulness of the suggested approach. Both power systems test cases have the essential characteristics of converter-based power systems, simulating high penetration of converter interfaced generation and the presence of HVDC links. Moreover, it is proposed how to represent in a visual manner the results of the small-signal stability analysis for a wide range of system operating conditions, exploiting DT regressions. Finally, the possible applications of the model are discussed, highlighting the potential of the developed model in further power system small-signal related studies.
翻訳日:2021-08-31 19:29:28 公開日:2021-08-30
# (参考訳) NEREL: ネストされた名前のエンティティと関係を持つロシアのデータセット [全文訳有]

NEREL: A Russian Dataset with Nested Named Entities and Relations ( http://arxiv.org/abs/2108.13112v1 )

ライセンス: CC BY 4.0
Natalia Loukachevitch and Ekaterina Artemova and Tatiana Batura and Pavel Braslavski and Ilia Denisov and Vladimir Ivanov and Suresh Manandhar and Alexander Pugachev and Elena Tutubalina(参考訳) 本稿では,名前付きエンティティ認識と関係抽出のためのロシアのデータセットであるnerelを提案する。 NERELは既存のロシアのデータセットよりもはるかに大きく、これまでは56Kの注釈付き名前付きエンティティと39Kの注釈付きリレーションを含んでいる。 以前のデータセットとの大きな違いは、ネストされた名前付きエンティティのアノテーションと、ネストされたエンティティと談話レベルでの関係である。 NERELは、ネストされた名前付きエンティティ間の関係を抽出し、文と文書の関係を抽出する新しいモデルの開発を容易にする。 NERELには、名前付きエンティティとイベントにおけるそれらの役割を含むイベントのアノテーションも含まれている。 NERELコレクションはhttps://github.com/n erel-ds/NERELから入手できる。

In this paper, we present NEREL, a Russian dataset for named entity recognition and relation extraction. NEREL is significantly larger than existing Russian datasets: to date it contains 56K annotated named entities and 39K annotated relations. Its important difference from previous datasets is annotation of nested named entities, as well as relations within nested entities and at the discourse level. NEREL can facilitate development of novel models that can extract relations between nested named entities, as well as relations on both sentence and document levels. NEREL also contains the annotation of events involving named entities and their roles in the events. The NEREL collection is available via https://github.com/n erel-ds/NEREL.
翻訳日:2021-08-31 19:01:18 公開日:2021-08-30
# (参考訳) Tune it or Don't Use: データ効率の良い画像分類のベンチマーク [全文訳有]

Tune It or Don't Use It: Benchmarking Data-Efficient Image Classification ( http://arxiv.org/abs/2108.13122v1 )

ライセンス: CC BY 4.0
Lorenzo Brigato, Bj\"orn Barz, Luca Iocchi, Joachim Denzler(参考訳) 少数のラベル付きデータしか利用できない設定において、ディープニューラルネットワークを用いたデータ効率の高い画像分類は、近年、活発な研究分野となっている。 しかし、既存の研究では異なるデータセットを使用して評価し、デフォルトのハイパーパラメータで未修正のベースラインと比較することが多いため、公開メソッドの客観的比較は難しい。 我々は,様々な領域(自然画像,医用画像,衛星データなど)とデータタイプ(rgb,grayscale,multi spectral)にまたがる6つの多様なデータセットからなる,データ効率の高い画像分類のためのベンチマークを設計した。 このベンチマークを用いて、2017年から2021年にかけて、標準的なクロスエントロピーベースラインとデータ効率の高いディープラーニングの8つの手法を再評価した。 公平かつ現実的な比較のために、各データセット上のすべてのメソッドのハイパーパラメータを慎重に調整する。 意外なことに、個別の検証で学習率、重み付け、バッチサイズを調整すると、高い競争力を持つベースラインが出来上がり、1つの専門的手法以外を上回り、残りの手法と競合する結果が得られます。

Data-efficient image classification using deep neural networks in settings, where only small amounts of labeled data are available, has been an active research area in the recent past. However, an objective comparison between published methods is difficult, since existing works use different datasets for evaluation and often compare against untuned baselines with default hyper-parameters. We design a benchmark for data-efficient image classification consisting of six diverse datasets spanning various domains (e.g., natural images, medical imagery, satellite data) and data types (RGB, grayscale, multispectral). Using this benchmark, we re-evaluate the standard cross-entropy baseline and eight methods for data-efficient deep learning published between 2017 and 2021 at renowned venues. For a fair and realistic comparison, we carefully tune the hyper-parameters of all methods on each dataset. Surprisingly, we find that tuning learning rate, weight decay, and batch size on a separate validation split results in a highly competitive baseline, which outperforms all but one specialized method and performs competitively to the remaining one.
翻訳日:2021-08-31 18:46:46 公開日:2021-08-30
# (参考訳) 深部NLPモデルのニューロンレベルでの解釈:サーベイ [全文訳有]

Neuron-level Interpretation of Deep NLP Models: A Survey ( http://arxiv.org/abs/2108.13138v1 )

ライセンス: CC BY 4.0
Hassan Sajjad and Nadir Durrani and Fahim Dalvi(参考訳) 様々な領域におけるディープニューラルネットワークの増殖は、これらの手法の解釈可能性の必要性が高まっている。 深層ニューラルネットワークモデルの構成要素を解析し、理解するための研究が数多く行われている。 このようなラインや論文に沿って行われた予備的な作業は、よりハイレベルな表現分析に焦点が当てられた。 しかし、最近の研究は、より粒度の細かいレベルで解釈可能性に集中し、これらの大きなモデルでニューロンとニューロンのグループを分析する。 本稿では, ネットワーク内のニューロンの発見と理解のために開発された手法, ii) 限界と評価, iii) クロスアーキテクチャ比較を含む主要な知見として, モデル行動制御やドメイン適応といったニューロン解析の直接的応用, 今後の研究への可能性について検討した。

The proliferation of deep neural networks in various domains has seen an increased need for interpretability of these methods. A plethora of research has been carried out to analyze and understand components of the deep neural network models. Preliminary work done along these lines and papers that surveyed such, were focused on a more high-level representation analysis. However, a recent branch of work has concentrated on interpretability at a more granular level, analyzing neurons and groups of neurons in these large models. In this paper, we survey work done on fine-grained neuron analysis including: i) methods developed to discover and understand neurons in a network, ii) their limitations and evaluation, iii) major findings including cross architectural comparison that such analyses unravel and iv) direct applications of neuron analysis such as model behavior control and domain adaptation along with potential directions for future work.
翻訳日:2021-08-31 18:33:52 公開日:2021-08-30
# (参考訳) 信頼度評価のための感情分析データセット [全文訳有]

A Sentiment Analysis Dataset for Trustworthiness Evaluation ( http://arxiv.org/abs/2108.13140v1 )

ライセンス: CC BY 4.0
Lijie Wang, Hao Liu, Shuyuan Peng, Hongxuan Tang, Xinyan Xiao, Ying Chen, Hua Wu(参考訳) ディープラーニングモデルは、ほとんどの人工知能タスクのパフォーマンスを大幅に向上させたが、ブラックボックスの問題のために信頼できないとしばしば批判される。 その結果、深層学習の信頼性を研究するために多くの研究が提案されている。 しかし、ほとんどのオープンデータセットはモデル出力の精度を評価するために設計されているため、ニューラルネットワークの内部動作を評価するための適切なデータセットが不足している。 データセットの欠如は明らかに信頼性研究の発展を妨げる。 そこで,信頼度の高いシステムを構築するための要因を体系的に評価するために,ロバスト性や解釈性を評価するための新しい,注釈付き感情分析データセットを提案する。 これらの要因を評価するために、当社のデータセットには、インスタンスの分散の困難さ、手動の逆境インスタンス、感情説明に関する様々なアノテーションが含まれています。 解釈性とロバスト性に関して、いくつかの評価指標がさらに提案されている。 データセットとメトリクスに基づいて、3つの典型的なモデルの信頼性に関する総合的な比較を行い、精度、堅牢性、解釈可能性の関係について検討する。 私たちはこの信頼性評価データセットを \url{https://github/xyz} でリリースしています。

While deep learning models have greatly improved the performance of most artificial intelligence tasks, they are often criticized to be untrustworthy due to the black-box problem. Consequently, many works have been proposed to study the trustworthiness of deep learning. However, as most open datasets are designed for evaluating the accuracy of model outputs, there is still a lack of appropriate datasets for evaluating the inner workings of neural networks. The lack of datasets obviously hinders the development of trustworthiness research. Therefore, in order to systematically evaluate the factors for building trustworthy systems, we propose a novel and well-annotated sentiment analysis dataset to evaluate robustness and interpretability. To evaluate these factors, our dataset contains diverse annotations about the challenging distribution of instances, manual adversarial instances and sentiment explanations. Several evaluation metrics are further proposed for interpretability and robustness. Based on the dataset and metrics, we conduct comprehensive comparisons for the trustworthiness of three typical models, and also study the relations between accuracy, robustness and interpretability. We release this trustworthiness evaluation dataset at \url{https://github/xyz} and hope our work can facilitate the progress on building more trustworthy systems for real-world applications.
翻訳日:2021-08-31 18:18:41 公開日:2021-08-30
# (参考訳) 最も単純なニューラルネットワークでもNP完全である到達可能性 [全文訳有]

Reachability Is NP-Complete Even for the Simplest Neural Networks ( http://arxiv.org/abs/2108.13179v1 )

ライセンス: CC BY 4.0
Marco S\"alzer and Martin Lange(参考訳) 我々は、(深度)ニューラルネットワークの到達可能性問題の複雑さを調査し、有効な入力が与えられたとき、有効な出力を計算するか? この問題は一般のニューラルネットワークと接続型入出力仕様に対してNP完全であると主張した。 元の上界証明と下界証明のいくつかの欠陥を修復する。 さらに,np-hardnessは1層のみの単純な仕様とニューラルネットワークの制限クラスと,発生パラメータの最小要件を持つニューラルネットワークに対してすでに保持されていることを示す。

We investigate the complexity of the reachability problem for (deep) neural networks: does it compute valid output given some valid input? It was recently claimed that the problem is NP-complete for general neural networks and conjunctive input/output specifications. We repair some flaws in the original upper and lower bound proofs. We then show that NP-hardness already holds for restricted classes of simple specifications and neural networks with just one layer, as well as neural networks with minimal requirements on the occurring parameters.
翻訳日:2021-08-31 18:02:42 公開日:2021-08-30
# (参考訳) 適応的摂動対向訓練:強化学習に基づく [全文訳有]

Adaptive perturbation adversarial training: based on reinforcement learning ( http://arxiv.org/abs/2108.13239v1 )

ライセンス: CC BY 4.0
Zhishen Nie, Ying Lin, Sp Ren, Lan Zhang(参考訳) 敵の訓練は敵のサンプルを守る主要な方法となっている。 しかし、多くの欠点から実際に適用することは困難である。 対人訓練の欠点の1つは、通常のサンプルの認識精度を低下させることである。 この問題を緩和するために適応的摂動対向訓練を提案する。 それは、決定境界に近いが、敵の訓練のための決定境界を越えない、限定的な敵のサンプルを使用し、モデルの堅牢性を維持しながら、モデル認識の精度を向上させる。 しかし、限界対数サンプルの探索にはさらなる計算コストがかかる。 本稿では,強化学習に基づく限界対向サンプルの探索手法を提案し,これを最新の高速対向訓練技術と組み合わせることで,トレーニングプロセスを効果的に高速化し,トレーニングコストを削減する。

Adversarial training has become the primary method to defend against adversarial samples. However, it is hard to practically apply due to many shortcomings. One of the shortcomings of adversarial training is that it will reduce the recognition accuracy of normal samples. Adaptive perturbation adversarial training is proposed to alleviate this problem. It uses marginal adversarial samples that are close to the decision boundary but does not cross the decision boundary for adversarial training, which improves the accuracy of model recognition while maintaining the robustness of the model. However, searching for marginal adversarial samples brings additional computational costs. This paper proposes a method for finding marginal adversarial samples based on reinforcement learning, and combines it with the latest fast adversarial training technology, which effectively speeds up training process and reduces training costs.
翻訳日:2021-08-31 17:46:27 公開日:2021-08-30
# (参考訳) 統計的沈殿端における深部強化学習 [全文訳有]

Deep Reinforcement Learning at the Edge of the Statistical Precipice ( http://arxiv.org/abs/2108.13264v1 )

ライセンス: CC BY 4.0
Rishabh Agarwal, Max Schwarzer, Pablo Samuel Castro, Aaron Courville, Marc G. Bellemare(参考訳) deep reinforcement learning (rl) アルゴリズムは、大きなタスクスイートでの相対的なパフォーマンスを比較することによって、主に評価される。 ディープRLベンチマークのほとんどの結果は、タスクの平均値や中央値スコアなどの集計性能の点推定を比較し、有限個のトレーニングランによる統計的不確実性を無視している。 アーケード学習環境 (Arcade Learning Environment, ALE) から、計算に要求されるベンチマークへのシフトは、タスク毎に少数の実行しか評価せず、ポイント推定における統計的不確実性を悪化させるという実践につながった。 本稿では, 深部RL体制における信頼性評価は, 現場の進行を遅らせるリスクを負わずに, 結果の不確実性を無視できないことを論じる。 この点について、Atari 100kベンチマークのケーススタディを用いて説明し、点推定だけで得られた結論とより詳細な統計分析との相当な相違を見出した。 報告結果に対するフィールドの信頼度を,少数のランで向上させることを目的として,集計結果の間隔推定を報告し,結果の変動を考慮に入れた性能プロファイルを提案するとともに,異種平均スコアなどのより堅牢で効率的な集計指標を提示し,結果の不確かさを小さくする。 このような統計ツールを用いて、ALE、Procgen、DeepMind Control Suiteなど、他の広く使われているRLベンチマーク上で、既存のアルゴリズムの性能評価を精査し、事前比較における相違点を明らかにした。 この結果から,より厳密な評価手法と,信頼性の低いオープンソースライブラリを併用して提案する深部RLの性能評価方法の変遷が示唆された。

Deep reinforcement learning (RL) algorithms are predominantly evaluated by comparing their relative performance on a large suite of tasks. Most published results on deep RL benchmarks compare point estimates of aggregate performance such as mean and median scores across tasks, ignoring the statistical uncertainty implied by the use of a finite number of training runs. Beginning with the Arcade Learning Environment (ALE), the shift towards computationally-dema nding benchmarks has led to the practice of evaluating only a small number of runs per task, exacerbating the statistical uncertainty in point estimates. In this paper, we argue that reliable evaluation in the few run deep RL regime cannot ignore the uncertainty in results without running the risk of slowing down progress in the field. We illustrate this point using a case study on the Atari 100k benchmark, where we find substantial discrepancies between conclusions drawn from point estimates alone versus a more thorough statistical analysis. With the aim of increasing the field's confidence in reported results with a handful of runs, we advocate for reporting interval estimates of aggregate performance and propose performance profiles to account for the variability in results, as well as present more robust and efficient aggregate metrics, such as interquartile mean scores, to achieve small uncertainty in results. Using such statistical tools, we scrutinize performance evaluations of existing algorithms on other widely used RL benchmarks including the ALE, Procgen, and the DeepMind Control Suite, again revealing discrepancies in prior comparisons. Our findings call for a change in how we evaluate performance in deep RL, for which we present a more rigorous evaluation methodology, accompanied with an open-source library rliable, to prevent unreliable results from stagnating the field.
翻訳日:2021-08-31 17:36:13 公開日:2021-08-30
# (参考訳) StackGAN: 顔画像生成最適化 [全文訳有]

StackGAN: Facial Image Generation Optimizations ( http://arxiv.org/abs/2108.13290v1 )

ライセンス: CC BY 4.0
Badr Belhiti, Justin Milushev, Avinash Gupta, John Breedis, Johnson Dinh, Jesse Pisel, and Michael Pyrcz(参考訳) 現在の最先端フォトリアリスティック・ジェネレータは計算コストが高く、不安定なトレーニングプロセスが伴い、高次元空間で異なる実分布と合成分布を持つ。 これらの問題を解決するために,StackGANアーキテクチャの変種を提案する。 新しいアーキテクチャには条件付きジェネレータが組み込まれ、多くの段階で画像を構築する。 モデルでは,エッジに対するノイズ(ステージ1)とグレースケールへのエッジ(ステージ2)の2つの異なるステージにおいて,グレースケールな顔画像を生成する。 このモデルはceleba顔画像データセットを用いて訓練され、エッジ画像のfr\'echetインセプション距離(fid)スコア73と、合成エッジ画像を用いて生成されたグレースケール画像のスコア59を達成した。 我々のモデルでは, 最先端モデルとの関係でサブパー結果を得たが, ドロップアウト層は条件付きマッピングの過度な適合を低減できた。 さらに、ほとんどのイメージは重要な機能に分解できるため、モデルの改善は他のデータセットに一般化することができます。 したがって,本モデルは,従来のフォトリアリスティック画像生成手法よりも優れた代替手段として機能する可能性がある。

Current state-of-the-art photorealistic generators are computationally expensive, involve unstable training processes, and have real and synthetic distributions that are dissimilar in higher-dimensional spaces. To solve these issues, we propose a variant of the StackGAN architecture. The new architecture incorporates conditional generators to construct an image in many stages. In our model, we generate grayscale facial images in two different stages: noise to edges (stage one) and edges to grayscale (stage two). Our model is trained with the CelebA facial image dataset and achieved a Fr\'echet Inception Distance (FID) score of 73 for edge images and a score of 59 for grayscale images generated using the synthetic edge images. Although our model achieved subpar results in relation to state-of-the-art models, dropout layers could reduce the overfitting in our conditional mapping. Additionally, since most images can be broken down into important features, improvements to our model can generalize to other datasets. Therefore, our model can potentially serve as a superior alternative to traditional means of generating photorealistic images.
翻訳日:2021-08-31 16:59:45 公開日:2021-08-30
# (参考訳) FedKD:知識蒸留による効果的なフェデレーション学習 [全文訳有]

FedKD: Communication Efficient Federated Learning via Knowledge Distillation ( http://arxiv.org/abs/2108.13323v1 )

ライセンス: CC0 1.0
Chuhan Wu, Fangzhao Wu, Ruixuan Liu, Lingjuan Lyu, Yongfeng Huang, Xing Xie(参考訳) 連合学習は分散データからインテリジェントなモデルを学ぶために広く使われている。 連合学習では、クライアントはモデル学習の各イテレーションでローカルモデルのアップデートを伝える必要がある。 しかし、モデルが多数のパラメータを含む場合、モデル更新は大きなサイズであり、モデルが収束するまでは、通常多くの通信ラウンドが必要である。 したがって、連合学習におけるコミュニケーションコストは非常に重い。 本稿では,知識蒸留に基づくコミュニケーション効率のよいフェデレーション学習手法を提案する。 クライアントとサーバ間の大規模モデルを直接通信する代わりに,各クライアント上で学生と教師のモデルを相互に学習する適応的相互蒸留フレームワークを提案し,学生モデルのみが異なるクライアントで共有され,コミュニケーションコストを削減するために協調的に更新される。 各クライアント上の教師と生徒は、各クライアントのローカルデータと相互に蒸留された知識から学び、その蒸留強度は、その予測品質によって制御される。 通信コストをさらに削減するため、特異値分解に基づく動的勾配近似法を提案し、交換された勾配を動的精度で近似する。 異なるタスクにおけるベンチマークデータセットの大規模な実験により、我々の手法は通信コストを効果的に削減し、競争力のある結果が得られることを示した。

Federated learning is widely used to learn intelligent models from decentralized data. In federated learning, clients need to communicate their local model updates in each iteration of model learning. However, model updates are large in size if the model contains numerous parameters, and there usually needs many rounds of communication until model converges. Thus, the communication cost in federated learning can be quite heavy. In this paper, we propose a communication efficient federated learning method based on knowledge distillation. Instead of directly communicating the large models between clients and server, we propose an adaptive mutual distillation framework to reciprocally learn a student and a teacher model on each client, where only the student model is shared by different clients and updated collaboratively to reduce the communication cost. Both the teacher and student on each client are learned on its local data and the knowledge distilled from each other, where their distillation intensities are controlled by their prediction quality. To further reduce the communication cost, we propose a dynamic gradient approximation method based on singular value decomposition to approximate the exchanged gradients with dynamic precision. Extensive experiments on benchmark datasets in different tasks show that our approach can effectively reduce the communication cost and achieve competitive results.
翻訳日:2021-08-31 16:52:48 公開日:2021-08-30
# (参考訳) 不完全コホートデータを用いた因果発見のための多重インプテーションとテストワイズ削除

Multiple imputation and test-wise deletion for causal discovery with incomplete cohort data ( http://arxiv.org/abs/2108.13331v1 )

ライセンス: CC BY 4.0
Janine Witte, Ronja Foraita, Vanessa Didelez(参考訳) 因果発見アルゴリズムは観測データから因果グラフを推定する。 これにより、個々の治療対対間の因果関係に注目した分析に貴重な補足を与えることができる。 制約に基づく因果探索アルゴリズムは、グラフを構築する際に条件付き独立性テストに依存する。 最近まで、これらのアルゴリズムは欠落した値を処理できなかった。 本稿では,テスト方向削除と複数インプテーションという2つの代替解について検討する。 我々は, 因果構造の復元性に必要十分条件を定め, 因果関係発見の文脈において, 因果関係発見よりも複数のインプテーションがより困難であると主張する。 ベンチマーク因果グラフをシミュレートして広範な比較を実施している。 予想通り、テスト毎の削除と複数のインプテーションは、リスト毎の削除と単一のインプテーションよりも明らかに優れています。 特にガウス変数と離散変数のどちらかが少数存在する場合, いずれの手法も混在している場合, いずれの手法も一意に最適である。 比較した手法は,ランダムな森林インプテーションと,テストワイズインプテーションと複数インプテーションを組み合わせたハイブリッド手法である。 IDEFICSコホートによる欧州の小児の食生活と生活習慣関連疾患のコホート研究のデータへの応用は、具体例である。

Causal discovery algorithms estimate causal graphs from observational data. This can provide a valuable complement to analyses focussing on the causal relation between individual treatment-outcome pairs. Constraint-based causal discovery algorithms rely on conditional independence testing when building the graph. Until recently, these algorithms have been unable to handle missing values. In this paper, we investigate two alternative solutions: Test-wise deletion and multiple imputation. We establish necessary and sufficient conditions for the recoverability of causal structures under test-wise deletion, and argue that multiple imputation is more challenging in the context of causal discovery than for estimation. We conduct an extensive comparison by simulating from benchmark causal graphs: As one might expect, we find that test-wise deletion and multiple imputation both clearly outperform list-wise deletion and single imputation. Crucially, our results further suggest that multiple imputation is especially useful in settings with a small number of either Gaussian or discrete variables, but when the dataset contains a mix of both neither method is uniformly best. The methods we compare include random forest imputation and a hybrid procedure combining test-wise deletion and multiple imputation. An application to data from the IDEFICS cohort study on diet- and lifestyle-related diseases in European children serves as an illustrating example.
翻訳日:2021-08-31 16:32:08 公開日:2021-08-30
# (参考訳) DNNFusion: 高度な演算子融合によるディープニューラルネットワークの実行の高速化 [全文訳有]

DNNFusion: Accelerating Deep Neural Networks Execution with Advanced Operator Fusion ( http://arxiv.org/abs/2108.13342v1 )

ライセンス: CC BY 4.0
Wei Niu, Jiexiong Guan, Yanzhi Wang, Gagan Agrawal, Bin Ren(参考訳) Deep Neural Networks (DNN)は、モバイルデバイス上の多くの主要なアプリケーションのコアイネーブラーとして登場した。 高い精度を達成するために、DNNモデルは数百から数千の演算子層でますます深くなり、推論のメモリと計算の要求が高くなった。 オペレータフュージョン(またはカーネル/レイヤフュージョン)は、TensorFlow、TVM、MNNといった最先端のDNN実行フレームワークにおいて重要な最適化である。 しかしながら、これらのフレームワークは通常、演算子と層接続の多様性をカバーできないような特定のパターンに基づいて融合アプローチを採用する。 一方、多面体に基づくループ融合技術は、演算子レベル情報なしで計算の低レベルなビューに取り組んでおり、潜在的な融合機会を逃すこともできる。 この課題に対処するため,本稿ではdnnfusionと呼ばれるループ融合フレームワークを提案する。 この研究の基本的な考え方は、DNNのオペレータビューで作業することであるが、個々のオペレータとそれらの組み合わせの両方の分類を開発することで融合機会を拡張することである。 さらにDNNFusionは,1) 評価コストを削減し,その後の演算子融合を促進するための,新しい数学的プロパティベースのグラフ書き換えフレームワーク,2) 高レベル解析と正確な軽量プロファイリングを活用する統合融合計画生成,3) 融合コード生成時のさらなる最適化を含む。 DNNFusionは、タスクの種類、モデルサイズ、レイヤー数が異なる15のDNNモデルで広く評価されている。 評価の結果、DNNFusionは最大8.8倍の融合機会を示し、9.3倍のスピードアップで最先端の4つのDNN実行フレームワークを上回っている。 メモリ要求の削減とスピードアップにより、モバイルデバイス上で多くのターゲットモデルを実行できるようになり、リアルタイムアプリケーションの一部にすることもできる。

Deep Neural Networks (DNNs) have emerged as the core enabler of many major applications on mobile devices. To achieve high accuracy, DNN models have become increasingly deep with hundreds or even thousands of operator layers, leading to high memory and computational requirements for inference. Operator fusion (or kernel/layer fusion) is key optimization in many state-of-the-art DNN execution frameworks, such as TensorFlow, TVM, and MNN. However, these frameworks usually adopt fusion approaches based on certain patterns that are too restrictive to cover the diversity of operators and layer connections. Polyhedral-based loop fusion techniques, on the other hand, work on a low-level view of the computation without operator-level information, and can also miss potential fusion opportunities. To address this challenge, this paper proposes a novel and extensive loop fusion framework called DNNFusion. The basic idea of this work is to work at an operator view of DNNs, but expand fusion opportunities by developing a classification of both individual operators and their combinations. In addition, DNNFusion includes 1) a novel mathematical-propert y-based graph rewriting framework to reduce evaluation costs and facilitate subsequent operator fusion, 2) an integrated fusion plan generation that leverages the high-level analysis and accurate light-weight profiling, and 3) additional optimizations during fusion code generation. DNNFusion is extensively evaluated on 15 DNN models with varied types of tasks, model sizes, and layer counts. The evaluation results demonstrate that DNNFusion finds up to 8.8x higher fusion opportunities, outperforms four state-of-the-art DNN execution frameworks with 9.3x speedup. The memory requirement reduction and speedups can enable the execution of many of the target models on mobile devices and even make them part of a real-time application.
翻訳日:2021-08-31 16:31:00 公開日:2021-08-30
# (参考訳) ユーザ入力最小の病理画像のロバストな対話的意味セグメンテーション

Robust Interactive Semantic Segmentation of Pathology Images with Minimal User Input ( http://arxiv.org/abs/2108.13368v1 )

ライセンス: CC BY 4.0
Mostafa Jahanifar, Neda Zamani Tajeddin, Navid Alemi Koohbanani and Nasir Rajpoot(参考訳) 病理ワークフローにおける組織属性の簡易な測定から、診断/予後診断ツールの設計まで、組織画像における組織領域の正確なセグメンテーションへのアクセスは必須条件である。 しかし、異なる組織領域を手動で記述することは、専門家の知識を必要とする労力と時間とコストのかかる作業である。 一方、セマンティックセグメンテーションのための最先端の自動ディープラーニングモデルは、多くの注釈付きトレーニングデータを必要としており、公開されている組織領域の注釈付き画像は限られている。 計算機病理プロジェクトにおけるこの問題を解消し,大規模領域アノテーションを効率的に収集するために,ユーザからの入力を最小にし,組織像の異なる組織タイプを正確にアノテートする効率的な対話型セグメンテーションネットワークを提案する。 ユーザーは興味のある各領域に単純なリスグルを描くだけでよいので、モデルの誘導信号として使用される。 異なる組織領域の複雑な外観やアモルファス形状に対処するために、モデルがユーザ入力の変動に対して堅牢になるのに役立つ、いくつかの自動および最小限のガイド信号生成技術を導入する。 乳がん画像のデータセットを実験することにより,提案手法がインタラクティブなアノテーション処理を高速化するだけでなく,既存の自動的およびインタラクティブな領域分割モデルよりも優れていることを示す。

From the simple measurement of tissue attributes in pathology workflow to designing an explainable diagnostic/prognosti c AI tool, access to accurate semantic segmentation of tissue regions in histology images is a prerequisite. However, delineating different tissue regions manually is a laborious, time-consuming and costly task that requires expert knowledge. On the other hand, the state-of-the-art automatic deep learning models for semantic segmentation require lots of annotated training data and there are only a limited number of tissue region annotated images publicly available. To obviate this issue in computational pathology projects and collect large-scale region annotations efficiently, we propose an efficient interactive segmentation network that requires minimum input from the user to accurately annotate different tissue types in the histology image. The user is only required to draw a simple squiggle inside each region of interest so it will be used as the guiding signal for the model. To deal with the complex appearance and amorph geometry of different tissue regions we introduce several automatic and minimalistic guiding signal generation techniques that help the model to become robust against the variation in the user input. By experimenting on a dataset of breast cancer images, we show that not only does our proposed method speed up the interactive annotation process, it can also outperform the existing automatic and interactive region segmentation models.
翻訳日:2021-08-31 15:54:34 公開日:2021-08-30
# (参考訳) 文書属性分類におけるマルチタスク学習の探索 [全文訳有]

Exploring Multi-Tasking Learning in Document Attribute Classification ( http://arxiv.org/abs/2108.13382v1 )

ライセンス: CC BY 4.0
Tanmoy Mondal, Abhijit Das and Zuheng Ming(参考訳) 本研究では,MTL(Multi-Tasking Learning)に基づくネットワークを探索し,フォントタイプ,フォントサイズ,フォント強調,文書画像のスキャン解像度分類などの文書属性分類を行う。 これらのタスクを達成するために、セグメンテーションされたワードレベルか、ドキュメントからランダムに切り抜かれた均一なサイズパッチのいずれかで操作します。 さらに、mtlとパッチとワードのマルチインテンス(mi)の組み合わせに基づくハイブリッド畳み込みニューラルネットワーク(cnn)アーキテクチャ「mtl+mi」を用いて、同一文書属性の分類のための共同学習を実現する。 本論文のコントリビューションは3つある: まず, 分割された単語画像とパッチに基づいて, フルドキュメント画像の分類のためのMTLベースのネットワークを示す。 第2に,同一文書属性の分類にCNNアーキテクチャ(MTL+MI)を併用したMTLとMIを提案する。 第3に,単語および/又はパッチのマルチタスク分類に基づいて,各単語および/又はパッチの後方確率に基づくインテリジェント投票システムを提案し,文書の属性の完全な文書画像の分類を行う。

In this work, we adhere to explore a Multi-Tasking learning (MTL) based network to perform document attribute classification such as the font type, font size, font emphasis and scanning resolution classification of a document image. To accomplish these tasks, we operate on either segmented word level or on uniformed size patches randomly cropped out of the document. Furthermore, a hybrid convolution neural network (CNN) architecture "MTL+MI", which is based on the combination of MTL and Multi-Instance (MI) of patch and word is used to accomplish joint learning for the classification of the same document attributes. The contribution of this paper are three fold: firstly, based on segmented word images and patches, we present a MTL based network for the classification of a full document image. Secondly, we propose a MTL and MI (using segmented words and patches) based combined CNN architecture ("MTL+MI") for the classification of same document attributes. Thirdly, based on the multi-tasking classifications of the words and/or patches, we propose an intelligent voting system which is based on the posterior probabilities of each words and/or patches to perform the classification of document's attributes of complete document image.
翻訳日:2021-08-31 15:47:09 公開日:2021-08-30
# 深部神経政策の脆弱性調査

Investigating Vulnerabilities of Deep Neural Policies ( http://arxiv.org/abs/2108.13093v1 )

ライセンス: Link先を確認
Ezgi Korkmaz(参考訳) ディープニューラルネットワークに基づく強化学習ポリシは、ニューラルネットワークイメージ分類器とほとんど同じように、入力に対する知覚不能な逆向きの摂動に対して脆弱である。 近年の研究では, 深い強化学習エージェントの対人摂動に対する堅牢性を, 知覚不能摂動の存在下でのトレーニングに基づいて改善する手法が提案されている。 対人訓練)。 本稿では,エージェントが学習した神経政策に対する対人訓練の効果について検討する。 特に,最悪の分布シフトと特徴感度に基づく深層神経政策における敵意訓練の結果を検討するために,二つの異なる並列アプローチを採った。 第1のアプローチでは、逆行訓練とバニラ訓練の両方で計算された最小摂動のフーリエスペクトルを比較する。 openai atari環境における実験により,敵が訓練したポリシーで計算された最小摂動はフーリエ領域の低周波に集中しており,低周波摂動に対するこれらのポリシーの感度が高いことを示している。 第2のアプローチでは、深層神経政策の特徴感度を測定する新しい手法を提案し、これらの特徴感度差を、最先端の対角神経政策とバニラ訓練の深部神経政策で比較した。 我々の結果は、敵の訓練とニューラルポリシーに対する堅牢性の概念の異なる関係を理解するための最初のステップであると考えている。

Reinforcement learning policies based on deep neural networks are vulnerable to imperceptible adversarial perturbations to their inputs, in much the same way as neural network image classifiers. Recent work has proposed several methods to improve the robustness of deep reinforcement learning agents to adversarial perturbations based on training in the presence of these imperceptible perturbations (i.e. adversarial training). In this paper, we study the effects of adversarial training on the neural policy learned by the agent. In particular, we follow two distinct parallel approaches to investigate the outcomes of adversarial training on deep neural policies based on worst-case distributional shift and feature sensitivity. For the first approach, we compare the Fourier spectrum of minimal perturbations computed for both adversarially trained and vanilla trained neural policies. Via experiments in the OpenAI Atari environments we show that minimal perturbations computed for adversarially trained policies are more focused on lower frequencies in the Fourier domain, indicating a higher sensitivity of these policies to low frequency perturbations. For the second approach, we propose a novel method to measure the feature sensitivities of deep neural policies and we compare these feature sensitivity differences in state-of-the-art adversarially trained deep neural policies and vanilla trained deep neural policies. We believe our results can be an initial step towards understanding the relationship between adversarial training and different notions of robustness for neural policies.
翻訳日:2021-08-31 15:06:40 公開日:2021-08-30
# automlによる通信計算効率のよいデバイスエッジコカンファレンス

Communication-Comput ation Efficient Device-Edge Co-Inference via AutoML ( http://arxiv.org/abs/2108.13009v1 )

ライセンス: Link先を確認
Xinjie Zhang, Jiawei Shao, Yuyi Mao, and Jun Zhang(参考訳) リソース制約のあるモバイルデバイスとエッジサーバの間にディープニューラルネットワークを分割するデバイスエッジコ推論は、インテリジェントなモバイルアプリケーションをサポートするための有望なパラダイムとして最近登場した。 推論過程を高速化するために、オンデバイスモデルスペーシフィケーションと中間特徴圧縮を2つの顕著なテクニックとみなす。 しかし、デバイス上のモデル間隔レベルと中間特徴圧縮比はそれぞれ計算負荷と通信オーバーヘッドに直接的な影響があり、どちらも推論精度に影響を与えるため、これらのハイパーパラメータの最適値を見つけることは、大きな探索空間のために大きな課題となる。 本稿では,これらのハイパーパラメータを決定する効率的なアルゴリズムの開発に尽力する。 中間特徴ベクトルに対して適切なモデル分割点と1対のエンコーダ/デコーダを選択することで、この問題を逐次的決定問題としてキャストし、深層強化学習(drl)に基づいて新しい自動機械学習(automl)フレームワークを提案する。 画像分類タスクにおける実験結果は,様々なベースライン方式に対して,よりよい通信計算トレードオフと有意な推論高速化を実現する上で,提案手法の有効性を示すものである。

Device-edge co-inference, which partitions a deep neural network between a resource-constrained mobile device and an edge server, recently emerges as a promising paradigm to support intelligent mobile applications. To accelerate the inference process, on-device model sparsification and intermediate feature compression are regarded as two prominent techniques. However, as the on-device model sparsity level and intermediate feature compression ratio have direct impacts on computation workload and communication overhead respectively, and both of them affect the inference accuracy, finding the optimal values of these hyper-parameters brings a major challenge due to the large search space. In this paper, we endeavor to develop an efficient algorithm to determine these hyper-parameters. By selecting a suitable model split point and a pair of encoder/decoder for the intermediate feature vector, this problem is casted as a sequential decision problem, for which, a novel automated machine learning (AutoML) framework is proposed based on deep reinforcement learning (DRL). Experiment results on an image classification task demonstrate the effectiveness of the proposed framework in achieving a better communication-comput ation trade-off and significant inference speedup against various baseline schemes.
翻訳日:2021-08-31 15:05:36 公開日:2021-08-30
# 変分推論入門

An Introduction to Variational Inference ( http://arxiv.org/abs/2108.13083v1 )

ライセンス: Link先を確認
Ankush Ganguly and Samuel W. F. Earp(参考訳) 複素確率密度の近似は、現代の統計学における中心的な問題である。 本稿では,複雑な確率密度を推定するために最適化手法を用いる機械学習において,変分推論(VI)の概念を導入する。 この性質により、viはマルコフ連鎖モンテカルロサンプリングのような古典的手法よりも高速に収束することができる。 概念的には、VI は確率密度関数の族を選択して、実際の確率密度に最も近いものを見つけることで機能する。 近似確率密度を気軽に計算するために下限のエビデンスを導入し,平均場変分推論の背後にある考え方を考察する。 最後に,Ve-Generative Adversarial Network (VAE-GAN) およびVAE-Generative Adversarial Network (VAE-GAN) へのVIの適用について述べる。 本稿では,viの概念を説明し,このアプローチによる今後の研究を支援することを目的とする。

Approximating complex probability densities is a core problem in modern statistics. In this paper, we introduce the concept of Variational Inference (VI), a popular method in machine learning that uses optimization techniques to estimate complex probability densities. This property allows VI to converge faster than classical methods, such as, Markov Chain Monte Carlo sampling. Conceptually, VI works by choosing a family of probability density functions and then finding the one closest to the actual probability density -- often using the Kullback-Leibler (KL) divergence as the optimization metric. We introduce the Evidence Lower Bound to tractably compute the approximated probability density and we review the ideas behind mean-field variational inference. Finally, we discuss the applications of VI to variational auto-encoders (VAE) and VAE-Generative Adversarial Network (VAE-GAN). With this paper, we aim to explain the concept of VI and assist in future research with this approach.
翻訳日:2021-08-31 15:05:15 公開日:2021-08-30
# スタック型アンサンブル機械学習アルゴリズムを用いた心不全患者の生存予測

Survival Prediction of Heart Failure Patients using Stacked Ensemble Machine Learning Algorithm ( http://arxiv.org/abs/2108.13367v1 )

ライセンス: Link先を確認
S.M Mehedi Zaman, Wasay Mahmood Qureshi, Md. Mohsin Sarker Raihan, Ocean Monjur and Abdullah Bin Shams(参考訳) 心臓血管疾患、特に心不全は、当時の主要な健康上の問題の一つであり、世界中で死因となっている。 機械学習(ML)モデルを用いたデータマイニング技術の進歩は、有望な予測アプローチを織り込んでいる。 データマイニングは、医療機関が作成した大量の生データを、予測や決定を下すのに役立つ意味のある情報に変換するプロセスである。 本研究の目的は、心不全患者からの各種追跡データを収集し、それらのデータを分析し、いくつかのmlモデルを用いて心血管系患者の生存可能性を予測することである。 データセット内のクラスの不均衡のため、SMOTE(Synthetic Minority Oversampling Technique)が実装されている。 2つの教師なしモデル(K-Means, Fuzzy C-Meansクラスタリング)と3つの教師なし分類器(Random Forest, XGBoost, Decision Tree)を用いた。 その結果,教師なしモデルよりも教師なしMLアルゴリズムの方が優れた性能を示した。 さらに,精度,精度,リコール,F1スコアの99.98%を達成できる教師付きアンサンブル学習モデルの設計と提案を行った。 本研究は、患者から収集した特定の属性のみが、教師付きMLアルゴリズムを用いて、心不全後の生存可能性を予測するために必須であることを示す。

Cardiovascular disease, especially heart failure is one of the major health hazard issues of our time and is a leading cause of death worldwide. Advancement in data mining techniques using machine learning (ML) models is paving promising prediction approaches. Data mining is the process of converting massive volumes of raw data created by the healthcare institutions into meaningful information that can aid in making predictions and crucial decisions. Collecting various follow-up data from patients who have had heart failures, analyzing those data, and utilizing several ML models to predict the survival possibility of cardiovascular patients is the key aim of this study. Due to the imbalance of the classes in the dataset, Synthetic Minority Oversampling Technique (SMOTE) has been implemented. Two unsupervised models (K-Means and Fuzzy C-Means clustering) and three supervised classifiers (Random Forest, XGBoost and Decision Tree) have been used in our study. After thorough investigation, our results demonstrate a superior performance of the supervised ML algorithms over unsupervised models. Moreover, we designed and propose a supervised stacked ensemble learning model that can achieve an accuracy, precision, recall and F1 score of 99.98%. Our study shows that only certain attributes collected from the patients are imperative to successfully predict the surviving possibility post heart failure, using supervised ML algorithms.
翻訳日:2021-08-31 15:04:59 公開日:2021-08-30
# 自動エッセイスコアリングエンジンにおけるデータサイズの影響

The effects of data size on Automated Essay Scoring engines ( http://arxiv.org/abs/2108.13275v1 )

ライセンス: Link先を確認
Christopher Ormerod, Amir Jafari, Susan Lottridge, Milan Patel, Amy Harris, and Paul van Wamelen(参考訳) データサイズと品質が3つの異なるパラダイムに従って設計された自動エッセイスコアリング(aes)エンジンの性能に及ぼす影響について検討した。 各タイプのモデルは、トレーニングデータのサイズと品質に非常に異なる方法でメリットがあると期待しています。 aesエンジンのトレーニングデータを開発するための標準的なプラクティスは、機能ベースの手法を念頭に置いて確立されましたが、ニューラルネットワークは、プロダクション環境ではますます検討されているので、本研究は、本番環境で使用されるニューラルネットワークのトレーニングデータを確立する方法を模索しています。

We study the effects of data size and quality on the performance on Automated Essay Scoring (AES) engines that are designed in accordance with three different paradigms; A frequency and hand-crafted feature-based model, a recurrent neural network model, and a pretrained transformer-based language model that is fine-tuned for classification. We expect that each type of model benefits from the size and the quality of the training data in very different ways. Standard practices for developing training data for AES engines were established with feature-based methods in mind, however, since neural networks are increasingly being considered in a production setting, this work seeks to inform us as to how to establish better training data for neural networks that will be used in production.
翻訳日:2021-08-31 15:01:23 公開日:2021-08-30
# 大規模英語モデルの多言語性について

On the Multilingual Capabilities of Very Large-Scale English Language Models ( http://arxiv.org/abs/2108.13349v1 )

ライセンス: Link先を確認
Jordi Armengol-Estap\' ;e, Ona de Gibert Bonet and Maite Melero(参考訳) GPT(Generative Pre-trained Transformer)は、機械学習の歴史において前例のない規模に拡張されている。 これらのモデルは、言語モデリングの目的にのみ訓練されており、様々なタスクにおいて優れた数発の学習能力を示すことが示されている。 それにもかかわらず、前訓練されたコーパスがほとんど完全に英語のテキストで構成されているという事実を考えると、その多言語能力についてはほとんど知られていない。 本研究では,GPT-3の多言語的スキルについて検討し,学習前コーパスであるカタルーニャ語にはほとんど現れない1つの言語に着目した。 このモデルでは、特に生成タスクにおいて、主に言語理解タスクでは予測可能な制限があるが、ゼロショットシナリオでは顕著な結果が得られる。 本稿では,抽出質問文と自然言語生成におけるその可能性と限界,およびモデルサイズにおけるスケールの効果について検討する。

Generative Pre-trained Transformers (GPTs) have recently been scaled to unprecedented sizes in the history of machine learning. These models, solely trained on the language modeling objective, have been shown to exhibit outstanding few-shot learning capabilities in a number of different tasks. Nevertheless, aside from anecdotal experiences, little is known regarding their multilingual capabilities, given the fact that the pre-training corpus is almost entirely composed of English text. In this work, we investigate the multilingual skills of GPT-3, focusing on one language that barely appears in the pre-training corpus, Catalan, which makes the results especially meaningful; we assume that our results may be relevant for other languages as well. We find that the model shows an outstanding performance, particularly in generative tasks, with predictable limitations mostly in language understanding tasks but still with remarkable results given the zero-shot scenario. We investigate its potential and limits in extractive question-answering and natural language generation, as well as the effect of scale in terms of model size.
翻訳日:2021-08-31 15:01:10 公開日:2021-08-30
# ビデオ認識のための多変量空間における2ストリームモデル探索

Searching for Two-Stream Models in Multivariate Space for Video Recognition ( http://arxiv.org/abs/2108.12957v1 )

ライセンス: Link先を確認
Xinyu Gong, Heng Wang, Zheng Shou, Matt Feiszli, Zhangyang Wang and Zhicheng Yan(参考訳) 従来のビデオモデルは、複雑な時空間の特徴を捉えるために単一のストリームに依存している。 SlowFast NetworkやAssembleNetのような2ストリームビデオモデルに関する最近の研究は、補完機能を学ぶために別々のストリームをプリスクライブし、より強力なパフォーマンスを達成する。 しかし、両方のストリームと中間核融合ブロックを手動で設計することは大変な作業であり、非常に大きな設計空間を探索する必要がある。 このような手作業による探索は時間がかかり、計算資源が制限され、探索が不十分な場合、しばしば準最適アーキテクチャで終わる。 本研究では,巨大空間における2ストリーム映像モデルを効率的に検索できる実用的ニューラルアーキテクチャ探索手法を提案する。 探索変数を6つ含む多変量探索空間を設計し、2ストリームモデルの設計における様々な選択肢を捉える。 さらに,個別のストリーム,融合ブロック,アテンションブロックのアーキテクチャを次々に探索することで,プログレッシブな探索手順を提案する。 設計領域で性能が大幅に向上した2ストリームモデルを自動的に発見できることを示す。 私たちは2ストリームモデル、すなわちAuto-TSNetを標準ベンチマークで一貫して比較した。 Kineticsでは、SlowFastモデルと比較して、Auto-TSNet-LモデルはFLOPSを約11倍削減し、78.9%の精度を達成した。 Something-Something- V2では、ビデオあたり50GFLOPS未満の他の手法に比べて、Auto-TSNet-Mの精度を少なくとも2%向上させる。

Conventional video models rely on a single stream to capture the complex spatial-temporal features. Recent work on two-stream video models, such as SlowFast network and AssembleNet, prescribe separate streams to learn complementary features, and achieve stronger performance. However, manually designing both streams as well as the in-between fusion blocks is a daunting task, requiring to explore a tremendously large design space. Such manual exploration is time-consuming and often ends up with sub-optimal architectures when computational resources are limited and the exploration is insufficient. In this work, we present a pragmatic neural architecture search approach, which is able to search for two-stream video models in giant spaces efficiently. We design a multivariate search space, including 6 search variables to capture a wide variety of choices in designing two-stream models. Furthermore, we propose a progressive search procedure, by searching for the architecture of individual streams, fusion blocks, and attention blocks one after the other. We demonstrate two-stream models with significantly better performance can be automatically discovered in our design space. Our searched two-stream models, namely Auto-TSNet, consistently outperform other models on standard benchmarks. On Kinetics, compared with the SlowFast model, our Auto-TSNet-L model reduces FLOPS by nearly 11 times while achieving the same accuracy 78.9%. On Something-Something- V2, Auto-TSNet-M improves the accuracy by at least 2% over other methods which use less than 50 GFLOPS per video.
翻訳日:2021-08-31 14:59:58 公開日:2021-08-30
# 効率良く汎用的な果実検出のための3次元作物モデルとganの登録

Enlisting 3D Crop Models and GANs for More Data Efficient and Generalizable Fruit Detection ( http://arxiv.org/abs/2108.13344v1 )

ライセンス: Link先を確認
Zhenghao Fei, Alex Olenskyj, Brian N. Bailey, Mason Earles(参考訳) 高いパフォーマンスと一般化性を達成するために、現実世界のニューラルネットワークモデルをトレーニングするには、一般的に大量のラベル付きデータが必要である。 このデータラベル付けプロセスは、労力とコストの両方がかかる可能性がある。 望ましい予測性能を達成するために、トレーニングされたモデルは通常、トレーニングデータセットとデータ分散が類似した領域に適用される。 しかし、多くの農業機械学習問題では、成長シーズンの特定の期間に、特定の場所でトレーニングデータセットが収集される。 農業システムは、作物の種類、品種、管理、季節的成長のダイナミクス、照明条件、センサータイプなどにおいてかなりの多様性を示すため、あるデータセットから訓練されたモデルがドメイン間でうまく一般化しないことが多い。 農業におけるデータ効率と汎用性を高めるために,合成3次元作物モデルドメインから実世界作物ドメインへフォトリアリスティックな農業画像を生成する手法を提案する。 本手法は, 果実の位置と形状を保存するために, 意味的に制約されたGAN (generative adversarial network) を用いる。 ベースライン・サイクガン法は視覚的な対象領域画像を生成するが, 果実位置情報を保存せず, 果実位置を良好に維持する。 ビニヤードグレープの昼夜画像における画像生成結果から,ネットワークの視覚的出力がベースラインネットワークよりもはるかに優れていることが分かる。 ブドウ栽培ブドウ検出タスクにおけるインクリメンタルなトレーニング実験により,本手法から生成した画像はドメイン適応過程を著しく高速化し,ラベル付き画像(すなわち,ラベル付き画像)の性能を向上させることができることが示された。 データ効率)とラベル付け要件の削減。

Training real-world neural network models to achieve high performance and generalizability typically requires a substantial amount of labeled data, spanning a broad range of variation. This data-labeling process can be both labor and cost intensive. To achieve desirable predictive performance, a trained model is typically applied into a domain where the data distribution is similar to the training dataset. However, for many agricultural machine learning problems, training datasets are collected at a specific location, during a specific period in time of the growing season. Since agricultural systems exhibit substantial variability in terms of crop type, cultivar, management, seasonal growth dynamics, lighting condition, sensor type, etc, a model trained from one dataset often does not generalize well across domains. To enable more data efficient and generalizable neural network models in agriculture, we propose a method that generates photorealistic agricultural images from a synthetic 3D crop model domain into real world crop domains. The method uses a semantically constrained GAN (generative adversarial network) to preserve the fruit position and geometry. We observe that a baseline CycleGAN method generates visually realistic target domain images but does not preserve fruit position information while our method maintains fruit positions well. Image generation results in vineyard grape day and night images show the visual outputs of our network are much better compared to a baseline network. Incremental training experiments in vineyard grape detection tasks show that the images generated from our method can significantly speed the domain adaption process, increase performance for a given number of labeled images (i.e. data efficiency), and decrease labeling requirements.
翻訳日:2021-08-31 14:59:37 公開日:2021-08-30
# Auto-Split: エッジクラウドAIの汎用フレームワーク

Auto-Split: A General Framework of Collaborative Edge-Cloud AI ( http://arxiv.org/abs/2108.13041v1 )

ライセンス: Link先を確認
Amin Banitalebi-Dehkordi, Naveen Vedula, Jian Pei, Fei Xia, Lanjun Wang, Yong Zhang(参考訳) 多くの業界規模のアプリケーションでは、大規模かつリソースを消費する機械学習モデルが強力なクラウドサーバに存在する。 同時に、クラウドの端で大量の入力データが収集される。 推論結果は、ユーザにも伝達されるか、エッジのダウンストリームタスクに渡される。 エッジはしばしば多数の低消費電力デバイスで構成されている。 高度な深層モデル展開をサポートし、モデルの精度を高く保ち、エンドツーエンドのレイテンシを低く抑えるために、効率的なモデル推論を行うように、業界製品を設計することは大きな課題である。 本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。 この特許取得された技術は、すでに選択したアプリケーションで検証されており、より広範な体系的なエッジクラウドアプリケーション統合に向かっており、エンドツーエンドのクラウド-エッジ協調インテリジェンスデプロイメントのための自動化パイプラインサービスとして一般に利用可能になっている。 私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。

In many industry scale applications, large and resource consuming machine learning models reside in powerful cloud servers. At the same time, large amounts of input data are collected at the edge of cloud. The inference results are also communicated to users or passed to downstream tasks at the edge. The edge often consists of a large number of low-power devices. It is a big challenge to design industry products to support sophisticated deep model deployment and conduct model inference in an efficient manner so that the model accuracy remains high and the end-to-end latency is kept low. This paper describes the techniques and engineering practice behind Auto-Split, an edge-cloud collaborative prototype of Huawei Cloud. This patented technology is already validated on selected applications, is on its way for broader systematic edge-cloud application integration, and is being made available for public use as an automated pipeline service for end-to-end cloud-edge collaborative intelligence deployment. To the best of our knowledge, there is no existing industry product that provides the capability of Deep Neural Network (DNN) splitting.
翻訳日:2021-08-31 14:57:33 公開日:2021-08-30
# 知識グラフ埋め込みによるドメイン理解の非神秘化薬物

Demystifying Drug Repurposing Domain Comprehension with Knowledge Graph Embedding ( http://arxiv.org/abs/2108.13051v1 )

ライセンス: Link先を確認
Edoardo Ramalli, Alberto Parravicini, Guido Walter Di Donato, Mirko Salaris, C\'eline Hudelot, Marco Domenico Santambrogio(参考訳) 医薬品開発コストの上昇や、新興疾患への迅速な対応の必要性から、薬物の再利用はこれまでになく重要視されている。 知識グラフの埋め込みにより、ヘテロジニアスなデータソースと最先端の機械学習モデルを組み合わせることで、知識グラフ内の新しい薬物放出リンクを予測することができる。 多くの機械学習アプリケーションと同様に、予測モデルの振る舞いを理解するためには重要な作業が必要である。 薬物再資源化のための機械学習モデルのより良い結果を理解するための構造化手法を提案し、計算資源を節約しながら予測を改善するための知識グラフの重要な要素を提案する。 トレーニングセットの11.05%と埋め込みスペースを31.87%削減し, 精度を2%削減し, オープンなogbl-biokgグラフ上での精度を60%向上した。

Drug repurposing is more relevant than ever due to drug development's rising costs and the need to respond to emerging diseases quickly. Knowledge graph embedding enables drug repurposing using heterogeneous data sources combined with state-of-the-art machine learning models to predict new drug-disease links in the knowledge graph. As in many machine learning applications, significant work is still required to understand the predictive models' behavior. We propose a structured methodology to understand better machine learning models' results for drug repurposing, suggesting key elements of the knowledge graph to improve predictions while saving computational resources. We reduce the training set of 11.05% and the embedding space by 31.87%, with only a 2% accuracy reduction, and increase accuracy by 60% on the open ogbl-biokg graph adding only 1.53% new triples.
翻訳日:2021-08-31 14:57:16 公開日:2021-08-30
# チューニングするか、チューニングしないか? 重要なハイパーパラメータを推奨するアプローチ

To tune or not to tune? An Approach for Recommending Important Hyperparameters ( http://arxiv.org/abs/2108.13066v1 )

ライセンス: Link先を確認
Mohamadjavad Bahmani, Radwa El Shawi, Nshan Potikyan, Sherif Sakr(参考訳) 機械学習における新しい技術は、アルゴリズム選択とハイパーパラメータ最適化の複雑さを和らげる。 ハイパーパラメータは機械学習モデルの性能に大きな影響を与えるため、機械学習モデルにとって重要である。 多くの最適化技術はハイパーパラメータチューニングで顕著な成功を収め、人間の専門家のパフォーマンスを上回った。 しかし、ブラックボックスアルゴリズムのような技術に依存すると、機械学習の実践者は異なるハイパーパラメーターの相対的重要性を知らずに残すことができる。 本稿では,6つの分類器と200のデータセットに基づく実験結果を用いて,機械学習モデルの性能とハイパーパラメータの関係を構築し,トレンドを発見し,洞察を得る。 提案手法では,時間を要するチューニング戦略を実施すべきかどうかを判断し,最も重要なハイパーパラメータに着目し,チューニングに適したハイパーパラメータ空間を選択する。 実験の結果,傾斜促進とadaboostは,200問題にわたる他の分類器よりも優れていることがわかった。 しかし、パフォーマンスを高めるにはチューニングが必要だ。 総じて,本研究の結果は,誘導型ハイパーパラメータ最適化への取り組みと,より自動化された機械学習フレームワークの開発に寄与する定量的基盤を提供する。

Novel technologies in automated machine learning ease the complexity of algorithm selection and hyperparameter optimization. Hyperparameters are important for machine learning models as they significantly influence the performance of machine learning models. Many optimization techniques have achieved notable success in hyperparameter tuning and surpassed the performance of human experts. However, depending on such techniques as blackbox algorithms can leave machine learning practitioners without insight into the relative importance of different hyperparameters. In this paper, we consider building the relationship between the performance of the machine learning models and their hyperparameters to discover the trend and gain insights, with empirical results based on six classifiers and 200 datasets. Our results enable users to decide whether it is worth conducting a possibly time-consuming tuning strategy, to focus on the most important hyperparameters, and to choose adequate hyperparameter spaces for tuning. The results of our experiments show that gradient boosting and Adaboost outperform other classifiers across 200 problems. However, they need tuning to boost their performance. Overall, the results obtained from this study provide a quantitative basis to focus efforts toward guided automated hyperparameter optimization and contribute toward the development of better-automated machine learning frameworks.
翻訳日:2021-08-31 14:57:00 公開日:2021-08-30
# 深部非線形関数近似器のための高速点解法

A fast point solver for deep nonlinear function approximators ( http://arxiv.org/abs/2108.13097v1 )

ライセンス: Link先を確認
Laurence Aitchison(参考訳) ディープカーネルプロセス(DKP)はベイズニューラルネットワークを一般化するが、特徴または重みの両方を表現する必要はない。 代わりに、隠れたレイヤごとにフレキシブルなカーネルを表現し、最適化する。 そこで我々は,制御理論の文献で最初に開発された行列解法を利用して,約10ステップで収束するDKPのニュートン様法を開発した。 これらは通常の勾配降下アプローチの何倍も高速である。 我々は、任意のdkpアーキテクチャに一般化し、"kernel backprop" と "kernel autodiff" のアルゴリズムを開発する。 これらの手法は現在ベイズ的ではないため、点の推定値を与え、データポイントの数で立方体であるため、スケールが不十分であるが、より効率的なアプローチでより深い非線形関数近似器を最適化する手法の基礎を形成することを願っている。

Deep kernel processes (DKPs) generalise Bayesian neural networks, but do not require us to represent either features or weights. Instead, at each hidden layer they represent and optimize a flexible kernel. Here, we develop a Newton-like method for DKPs that converges in around 10 steps, exploiting matrix solvers initially developed in the control theory literature. These are many times faster the usual gradient descent approach. We generalise to arbitrary DKP architectures, by developing "kernel backprop", and algorithms for "kernel autodiff". While these methods currently are not Bayesian as they give point estimates and scale poorly as they are cubic in the number of datapoints, we hope they will form the basis of a new class of much more efficient approaches to optimizing deep nonlinear function approximators.
翻訳日:2021-08-31 14:55:47 公開日:2021-08-30
# 3DStyleNet:幾何学とテクスチャスタイルのバリエーションで3D形状を作る

3DStyleNet: Creating 3D Shapes with Geometric and Texture Style Variations ( http://arxiv.org/abs/2108.12958v1 )

ライセンス: Link先を確認
Kangxue Yin, Jun Gao, Maria Shugrina, Sameh Khamis, Sanja Fidler(参考訳) 3dコンテンツ作成を民主化するために,3dオブジェクトの多彩な幾何学的・テクスチャ的バリエーションを創り出す手法を提案する。 一対のテクスチャドソースと対象オブジェクトが与えられると、本手法は、対象の全体的な幾何学的スタイルを模倣するために、ソース形状を自然にゆがめる部分認識アフィン変換フィールドを予測する。 さらに、マルチビュー微分可能なレンダラの助けを借りて、ターゲットのテクスチャスタイルをワープされたソースオブジェクトに転送する。 我々のモデルである3DStyleNetは、2つの段階で訓練された2つのサブネットワークで構成されています。 まず、幾何学的スタイルネットワークは、テキストのない大きな3d形状のセットで訓練される。 第2に、幾何学的スタイルネットワークと事前学習された画像スタイル転送ネットワークを共同で最適化し、幾何と結果のレンダリングの両方において損失が定義された。 高品質なテクスチャオブジェクトの小さなセットが与えられた場合,本手法は多くの新しいスタイルの形状を作成でき,その結果,無駄な3Dコンテンツ作成とスタイルウェアデータ拡張を実現している。 我々は,3dコンテンツのスタイライゼーションを定性的に評価するアプローチを示し,その結果の質を検証するためのユーザスタディを提供する。 さらに,本手法はコンピュータビジョンタスクのための3次元データ拡張のための貴重なツールとして機能する。 3DStyleNetは,1次元画像再構成の下流タスクにおいて,代替データ拡張手法よりも優れていた。

We propose a method to create plausible geometric and texture style variations of 3D objects in the quest to democratize 3D content creation. Given a pair of textured source and target objects, our method predicts a part-aware affine transformation field that naturally warps the source shape to imitate the overall geometric style of the target. In addition, the texture style of the target is transferred to the warped source object with the help of a multi-view differentiable renderer. Our model, 3DStyleNet, is composed of two sub-networks trained in two stages. First, the geometric style network is trained on a large set of untextured 3D shapes. Second, we jointly optimize our geometric style network and a pre-trained image style transfer network with losses defined over both the geometry and the rendering of the result. Given a small set of high-quality textured objects, our method can create many novel stylized shapes, resulting in effortless 3D content creation and style-ware data augmentation. We showcase our approach qualitatively on 3D content stylization, and provide user studies to validate the quality of our results. In addition, our method can serve as a valuable tool to create 3D data augmentations for computer vision tasks. Extensive quantitative analysis shows that 3DStyleNet outperforms alternative data augmentation techniques for the downstream task of single-image 3D reconstruction.
翻訳日:2021-08-31 14:54:03 公開日:2021-08-30
# 混合交通流を伴う多層断面における統合的決定と制御

Integrated Decision and Control at Multi-Lane Intersections with Mixed Traffic Flow ( http://arxiv.org/abs/2108.13038v1 )

ライセンス: Link先を確認
Jianhua Jiang, Yangang Ren, Yang Guan, Shengbo Eben Li, Yuming Yin and Xiaoping Jin(参考訳) 交差点での自動運転は、特に車両、自転車、歩行者などの混成交通参加者において、最も複雑で事故を起こしやすい交通シナリオの1つである。 運転方針は、動的な交通条件を処理し、オンボード計算の要件を満たすために安全な決定を下すべきである。 しかし、現在の研究のほとんどは、周囲の車両と理想化された信号機のみを考慮した簡易的な交差点に焦点を当てている。 本稿では,統合的な意思決定・制御の枠組みを改良し,交通信号の現実的な特性を考慮しつつ,異なる安全制約の下で安全な政策を学ぶことのできる,混在する交通流との複雑な交差点を扱う学習ベースアルゴリズムを開発した。 まず、学習過程における緑と赤の異なる速度モデルについて検討し、有限状態マシンを用いて異なるモードの光変換を扱う。 次に, 車両, 信号機, 歩行者, 自転車にそれぞれ異なる種類の距離制約を設計し, 最適化すべき最適制御問題 (OCP) をフォーミュレートする。 最後に、一連のOCPを解決するために、価値とポリシーネットワークを備えた強化学習(RL)を採用する。 提案手法の安全性と効率性を検証するため,大規模混在交通参加者の存在とマルチレーン交差点を設計し,実用的な信号位相を設定する。 シミュレーションの結果, 訓練された意思決定・制御方針は, 安全性と追跡性能のバランスをとれることがわかった。 モデル予測制御(MPC)と比較すると、計算時間は3桁以下である。

Autonomous driving at intersections is one of the most complicated and accident-prone traffic scenarios, especially with mixed traffic participants such as vehicles, bicycles and pedestrians. The driving policy should make safe decisions to handle the dynamic traffic conditions and meet the requirements of on-board computation. However, most of the current researches focuses on simplified intersections considering only the surrounding vehicles and idealized traffic lights. This paper improves the integrated decision and control framework and develops a learning-based algorithm to deal with complex intersections with mixed traffic flows, which can not only take account of realistic characteristics of traffic lights, but also learn a safe policy under different safety constraints. We first consider different velocity models for green and red lights in the training process and use a finite state machine to handle different modes of light transformation. Then we design different types of distance constraints for vehicles, traffic lights, pedestrians, bicycles respectively and formulize the constrained optimal control problems (OCPs) to be optimized. Finally, reinforcement learning (RL) with value and policy networks is adopted to solve the series of OCPs. In order to verify the safety and efficiency of the proposed method, we design a multi-lane intersection with the existence of large-scale mixed traffic participants and set practical traffic light phases. The simulation results indicate that the trained decision and control policy can well balance safety and tracking performance. Compared with model predictive control (MPC), the computational time is three orders of magnitude lower.
翻訳日:2021-08-31 14:53:09 公開日:2021-08-30
# 量子回路による二項特徴を持つ二項分類木の表現

Representation of binary classification trees with binary features by quantum circuits ( http://arxiv.org/abs/2108.13207v1 )

ライセンス: Link先を確認
Raoul Heese, Patricia Bickert, Astrid Elisa Niederle(参考訳) 確率的アプローチに基づく二項特徴を持つ二項分類木の量子表現を提案する。 確率分布のプロセッサとして量子コンピュータを用いることで、決定木の確率論的トラバースを量子回路の測定により実現することができる。 本稿では,クエリデータのツリーインジェクションとクラスラベルの予測をこのフレームワークに組み込む方法について述べる。 オンデマンドサンプリング方式では,木深度に依存しない定数の古典的メモリスロットによる予測が可能となる。 量子コンピューティングシミュレータと実際のibm量子ハードウェアの両方を用いて、このアプローチを実験的に研究する。 我々の知る限り、これは量子デバイス上の決定木分類器の最初の実現である。

We propose a quantum representation of binary classification trees with binary features based on a probabilistic approach. By using the quantum computer as a processor for probability distributions, a probabilistic traversal of the decision tree can be realized via measurements of a quantum circuit. We describe how tree inductions and the prediction of class labels of query data can be integrated into this framework. An on-demand sampling method enables predictions with a constant number of classical memory slots, independent of the tree depth. We experimentally study our approach using both a quantum computing simulator and actual IBM quantum hardware. To our knowledge, this is the first realization of a decision tree classifier on a quantum device.
翻訳日:2021-08-31 14:52:18 公開日:2021-08-30
# 機械学習アルゴリズムを用いたTVUSに基づく卵巣嚢胞からの卵巣癌の予知

Ovarian Cancer Prediction from Ovarian Cysts Based on TVUS Using Machine Learning Algorithms ( http://arxiv.org/abs/2108.13387v1 )

ライセンス: Link先を確認
Laboni Akter, Nasrin Akhter(参考訳) 卵巣癌(おんがくがん、英: ovarian cancer、oc)は、若い女性の生殖悪性腫瘍の一種で、若い女性や主に生殖または生殖において見られる。 多くの嚢胞が危険であり、がんを引き起こす可能性がある。 そこで,この検出にはトランスヴァージナル超音波(TVUS)スクリーニングを用いて,異なる種類のスクリーニングから行うことが可能である,予測が極めて重要である。 本研究では,TVUSスクリーニングと3つの機械学習(ML)技術を備えたPLCOと呼ばれる実際のデータセットを,それぞれRandom Forest KNN,XGBoostの3変数に導入した。 99.50%, 99.50%, 99.49%, 99.50%の近似を用いて, このアルゴリズムの精度, リコール, f1スコア, 精度で最高の性能を得た。 AUCの99.87%、98.97%、99.88%のスコアは、これらのランダムフォレスト、KNN、XGBアルゴリズムで観測されている。

Ovarian Cancer (OC) is type of female reproductive malignancy which can be found among young girls and mostly the women in their fertile or reproductive. There are few number of cysts are dangerous and may it cause cancer. So, it is very important to predict and it can be from different types of screening are used for this detection using Transvaginal Ultrasonography (TVUS) screening. In this research, we employed an actual datasets called PLCO with TVUS screening and three machine learning (ML) techniques, respectively Random Forest KNN, and XGBoost within three target variables. We obtained a best performance from this algorithms as far as accuracy, recall, f1 score and precision with the approximations of 99.50%, 99.50%, 99.49% and 99.50% individually. The AUC score of 99.87%, 98.97% and 99.88% are observed in these Random Forest, KNN and XGB algorithms .This approach helps assist physicians and suspects in identifying ovarian risks early on, reducing ovarian malignancy-related complications and deaths.
翻訳日:2021-08-31 14:52:08 公開日:2021-08-30
# 画像操作検出と局所化のためのJPEG圧縮アーチファクトの学習

Learning JPEG Compression Artifacts for Image Manipulation Detection and Localization ( http://arxiv.org/abs/2108.12947v1 )

ライセンス: Link先を確認
Myung-Joon Kwon, Seung-Hun Nam, In-Jae Yu, Heung-Kyu Lee, Changick Kim(参考訳) 画像編集技術の悪用に対処するためには、画像操作の検出とローカライズが必要である。 したがって、画像中の固有統計を解析することにより、真正領域と改ざん領域を区別することが不可欠である。 画像の取得と編集に残されたJPEG圧縮アーティファクトに焦点を当てる。 本稿では、圧縮アーティファクトが残る離散コサイン変換(DCT)係数を用いた畳み込みニューラルネットワーク(CNN)による画像操作のローカライズを提案する。 標準CNNは、DCT係数に不可欠な空間座標を捨てるため、DCT係数の分布を学習できない。 本稿では,dct係数の分布を学習できるニューラルネットワークの設計と訓練について述べる。 さらに,画像取得アーティファクトと圧縮アーティファクトを併用した圧縮アーティファクト追跡ネットワーク(CAT-Net)を導入する。 これは、改ざんされた領域を検出してローカライズする、従来のニューラルネットワークとディープニューラルネットワークベースの手法を著しく上回る。

Detecting and localizing image manipulation are necessary to counter malicious use of image editing techniques. Accordingly, it is essential to distinguish between authentic and tampered regions by analyzing intrinsic statistics in an image. We focus on JPEG compression artifacts left during image acquisition and editing. We propose a convolutional neural network (CNN) that uses discrete cosine transform (DCT) coefficients, where compression artifacts remain, to localize image manipulation. Standard CNNs cannot learn the distribution of DCT coefficients because the convolution throws away the spatial coordinates, which are essential for DCT coefficients. We illustrate how to design and train a neural network that can learn the distribution of DCT coefficients. Furthermore, we introduce Compression Artifact Tracing Network (CAT-Net) that jointly uses image acquisition artifacts and compression artifacts. It significantly outperforms traditional and deep neural network-based methods in detecting and localizing tampered regions.
翻訳日:2021-08-31 14:51:25 公開日:2021-08-30
# the missing link: a safety case for perception components in automated driving

The missing link: Developing a safety case for perception components in automated driving ( http://arxiv.org/abs/2108.13294v1 )

ライセンス: Link先を確認
Rick Salay, Krzysztof Czarnecki, Hiroshi Kuwajima, Hirotoshi Yasuoka, Toshihiro Nakae, Vahdat Abdelzad, Chengjie Huang, Maximilian Kahn, Van Duong Nguyen(参考訳) 安全保証は、自動運転(AD)システムの開発と社会的受容の中心的な関心事である。 知覚は、機械学習(ML)に大きく依存するADの重要な側面である。 mlベースのコンポーネントの安全性保証に関する既知の課題にもかかわらず、最近、これらのコンポーネントに対処するユニットレベルの安全ケースに関する提案がなされている。 残念なことに、adsafety caseはシステムレベルでの安全要件を表しており、これらの取り組みは、システムレベルでの安全要件とユニットレベルでのコンポーネントパフォーマンス要求をつなぐ重要なリンク議論を欠いている。 本稿では,知覚成分に特化したリンク引数のための汎用テンプレートを提案する。 テンプレートは、レベル間の強いトレーサビリティを定義するために、推論的かつ形式的なアプローチを取る。 テンプレートの適用性を詳細なケーススタディで実証し,知覚成分の漸進的発達を支援するツールとしての利用について考察する。

Safety assurance is a central concern for the development and societal acceptance of automated driving (AD) systems. Perception is a key aspect of AD that relies heavily on Machine Learning (ML). Despite the known challenges with the safety assurance of ML-based components, proposals have recently emerged for unit-level safety cases addressing these components. Unfortunately, AD safety cases express safety requirements at the system-level and these efforts are missing the critical linking argument connecting safety requirements at the system-level to component performance requirements at the unit-level. In this paper, we propose a generic template for such a linking argument specifically tailored for perception components. The template takes a deductive and formal approach to define strong traceability between levels. We demonstrate the applicability of the template with a detailed case study and discuss its use as a tool to support incremental development of perception components.
翻訳日:2021-08-31 14:50:36 公開日:2021-08-30
# Chylla-Haase 重合反応器によるプロセス自動化のための信頼できるAI

Trustworthy AI for Process Automation on a Chylla-Haase Polymerization Reactor ( http://arxiv.org/abs/2108.13381v1 )

ライセンス: Link先を確認
Daniel Hein and Daniel Labisch(参考訳) 本稿では,遺伝子プログラミング強化学習(GPRL)を用いて,Chylla-Haase重合反応器の人間解釈制御ポリシを生成する。 化学産業では、化学、顔料、ポリマー、医療製品の製造において、ジャケット冷却による連続的にかき混ぜられたタンクリアクター(CSTR)が広く用いられている。 かなり単純なように見えるが、現実世界のアプリケーションでCSTRを制御することは、非常に難しい問題である。 gprlは、すでに存在するリアクターからのデータを活用し、ドメインエキスパートが選択できるような、最適化された単純化された制御戦略、いわゆるポリシーを自動生成する。 これらのポリシーは、複雑さの低いホワイトボックスモデルであり、ターゲットのコントロールシステム(例えば、simatic pcs 7)で検証および実装が容易である。 しかし, その複雑さが低いにもかかわらず, 自動生成ポリシは反応器温度制御の偏差の点で高い性能を示し, 元の反応器テンプレートを実証的に評価した。

In this paper, genetic programming reinforcement learning (GPRL) is utilized to generate human-interpretable control policies for a Chylla-Haase polymerization reactor. Such continuously stirred tank reactors (CSTRs) with jacket cooling are widely used in the chemical industry, in the production of fine chemicals, pigments, polymers, and medical products. Despite appearing rather simple, controlling CSTRs in real-world applications is quite a challenging problem to tackle. GPRL utilizes already existing data from the reactor and generates fully automatically a set of optimized simplistic control strategies, so-called policies, the domain expert can choose from. Note that these policies are white-box models of low complexity, which makes them easy to validate and implement in the target control system, e.g., SIMATIC PCS 7. However, despite its low complexity the automatically-genera ted policy yields a high performance in terms of reactor temperature control deviation, which we empirically evaluate on the original reactor template.
翻訳日:2021-08-31 14:50:21 公開日:2021-08-30
# lot: 中国語の長文理解と生成を評価するベンチマーク

LOT: A Benchmark for Evaluating Chinese Long Text Understanding and Generation ( http://arxiv.org/abs/2108.12960v1 )

ライセンス: Link先を確認
Jian Guan, Zhuoer Feng, Yamei Chen, Ruilin He, Xiaoxi Mao, Changjie Fan, Minlie Huang(参考訳) 標準マルチタスクベンチマークは、様々な下流タスクに一般化するために、一般的な事前学習モデルの進行を駆動するために不可欠である。 しかし、GLUEやGLGEのような既存のベンチマークは、長いテキストモデリングを考慮せずに、短いテキスト理解と生成タスクに集中する傾向にあり、これは、長距離コモンセンスや談話関係のモデリングや、生成の一貫性と制御性といった多くの異なる機能を必要とする。 標準ベンチマークが欠如しているため、モデルの能力を完全に評価することは困難であり、異なるモデル、特に中国の事前学習モデルを比較することは困難である。 そこで我々は,中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークLOTを提案する。 さまざまな人文中国語の物語に基づいてタスクのデータセットを構築した。 さらに、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国語長文事前学習モデルをリリースする。 我々はテキストインフィルディングと条件付き継続を含む2つの生成的タスクを持つ120gの中国小説についてlonglmを事前学習する。 LOTに関する大規模な実験により、LongLMは理解タスクにおいて類似の大きさの事前学習モデルの性能と一致し、生成タスクにおいて強いベースラインを著しく上回ることを示した。

Standard multi-task benchmarks are essential for driving the progress of general pretraining models to generalize to various downstream tasks. However, existing benchmarks such as GLUE and GLGE tend to focus on short text understanding and generation tasks, without considering long text modeling, which requires many distinct capabilities such as modeling long-range commonsense and discourse relations, as well as the coherence and controllability of generation. The lack of standardized benchmarks makes it difficult to fully evaluate these capabilities of a model and fairly compare different models, especially Chinese pretraining models. Therefore, we propose LOT, a benchmark including two understanding and two generation tasks for Chinese long text modeling evaluation. We construct the datasets for the tasks based on various kinds of human-written Chinese stories. Besides, we release an encoder-decoder Chinese long text pretraining model named LongLM with up to 1 billion parameters. We pretrain LongLM on 120G Chinese novels with two generative tasks including text infilling and conditional continuation. Extensive experiments on LOT demonstrate that LongLM matches the performance of similar-sized pretraining models on the understanding tasks and outperforms strong baselines substantially on the generation tasks.
翻訳日:2021-08-31 14:48:19 公開日:2021-08-30
# ニューラルネットワーク翻訳のためのデコードステップに基づくスケジューリングサンプリング

Scheduled Sampling Based on Decoding Steps for Neural Machine Translation ( http://arxiv.org/abs/2108.12963v1 )

ライセンス: Link先を確認
Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu and Jie Zhou(参考訳) スケジューリングサンプリングは、ニューラルネットワーク翻訳における露出バイアス問題を緩和するために広く使用されている。 そのコアモチベーションは、トレーニング中の推論シーンを予測トークンに置き換え、トレーニングと推論のギャップを埋めることによってシミュレートすることである。 しかしながら、バニラスケジュールサンプリングは単にトレーニングステップに基づいており、全ての復号ステップを等しく扱う。 すなわち、大きな復号ステップがエラーの蓄積によってエラー率が高い場合、実際の推論シーンに従わない、一様エラー率の推論シーンをシミュレートする。 上記の相違を緩和するため,デコードステップに基づいたスケジュールサンプリング手法を提案し,デコードステップの増大に伴う予測トークンの選択可能性を高めた。 これにより、トレーニング中の推論シーンをより現実的にシミュレートし、トレーニングと推論のギャップを埋めることが可能となる。 さらに,さらなる改善のために,トレーニングステップとデコードステップの両方に基づき,スケジュールサンプリングを検討する。 実験により,提案手法は3つの大規模wmtタスクにおいてトランスフォーマーベースラインとバニラスケジュールサンプリングを大きく上回っている。 さらに,本手法は,2つの一般的なベンチマーク上でのテキスト要約タスクにも適している。

Scheduled sampling is widely used to mitigate the exposure bias problem for neural machine translation. Its core motivation is to simulate the inference scene during training by replacing ground-truth tokens with predicted tokens, thus bridging the gap between training and inference. However, vanilla scheduled sampling is merely based on training steps and equally treats all decoding steps. Namely, it simulates an inference scene with uniform error rates, which disobeys the real inference scene, where larger decoding steps usually have higher error rates due to error accumulations. To alleviate the above discrepancy, we propose scheduled sampling methods based on decoding steps, increasing the selection chance of predicted tokens with the growth of decoding steps. Consequently, we can more realistically simulate the inference scene during training, thus better bridging the gap between training and inference. Moreover, we investigate scheduled sampling based on both training steps and decoding steps for further improvements. Experimentally, our approaches significantly outperform the Transformer baseline and vanilla scheduled sampling on three large-scale WMT tasks. Additionally, our approaches also generalize well to the text summarization task on two popular benchmarks.
翻訳日:2021-08-31 14:47:59 公開日:2021-08-30
# 知識ベースコンプリートが転校学習を満たす

Knowledge Base Completion Meets Transfer Learning ( http://arxiv.org/abs/2108.13073v1 )

ライセンス: Link先を確認
Vid Kocijan, Thomas Lukasiewicz(参考訳) 知識ベース補完の目的は、知識ベースにおける既存の事実から見当たらない事実を予測することである。 本研究では,ある事実の集合から別の事実への知識伝達において,エンティティや関係マッチングを必要とせずに最初のアプローチを導入する。 この方法は、正準化された知識ベースと、非カノニカル化またはオープンな知識ベース、すなわち、実世界の実体または関係の複数のコピーが存在する知識ベースの両方に作用する。 このような知識ベースは、構造化されていないテキストから構造化データを抽出する自動情報抽出ツールの自然な出力である。 私たちの主な貢献は、非構造化テキストから収集した事実を大規模に事前学習して、特定のドメインから構造化データの予測を改善する方法です。 提案手法はReVerb20Kのような小さなデータセットに最も影響があり, BERTのような大規模事前学習モデルに依存しないにもかかわらず, 平均相互ランクの6%の絶対的な増加と平均ランクの65%の相対的な減少が得られた。

The aim of knowledge base completion is to predict unseen facts from existing facts in knowledge bases. In this work, we introduce the first approach for transfer of knowledge from one collection of facts to another without the need for entity or relation matching. The method works for both canonicalized knowledge bases and uncanonicalized or open knowledge bases, i.e., knowledge bases where more than one copy of a real-world entity or relation may exist. Such knowledge bases are a natural output of automated information extraction tools that extract structured data from unstructured text. Our main contribution is a method that can make use of a large-scale pre-training on facts, collected from unstructured text, to improve predictions on structured data from a specific domain. The introduced method is the most impactful on small datasets such as ReVerb20K, where we obtained 6% absolute increase of mean reciprocal rank and 65% relative decrease of mean rank over the previously best method, despite not relying on large pre-trained models like BERT.
翻訳日:2021-08-31 14:47:40 公開日:2021-08-30
# 反事実推定によるテキスト要約の事実整合性評価

Factual Consistency Evaluation for Text Summarization via Counterfactual Estimation ( http://arxiv.org/abs/2108.13134v1 )

ライセンス: Link先を確認
Yuexiang Xie, Fei Sun, Yang Deng, Yaliang Li, Bolin Ding(参考訳) テキスト要約における著しい進歩にもかかわらず、生成した要約の事実的不整合は、その実用的応用を厳しく制限している。 事実の一貫性を確保する上で重要な要因のひとつとして,信頼性の高い自動評価指標がある。 しかし、既存のメトリクスは、事実の不整合の本質的な原因を無視したり、補助的なタスクに依存するかのいずれかであり、人間の判断と不満足な相関や、実際の使用の不便さの増加につながる。 これらの課題に照らし合わせて,ソース文書と生成した要約文,および先行する言語間の因果関係を定式化した,反事実推定によるテキスト要約における事実整合性を評価するための新しい指標を提案する。 生成した要約に対する総因果効果から,事実的不整合の原因となる言語先行の効果を取り除き,他の補助タスクに頼らずに一貫性を評価するための簡易かつ効果的な方法を提供する。 我々は3つの公開抽象テキスト要約データセットについて一連の実験を行い、人間の判断との相関性の改善と使用の利便性の両面で提案手法の利点を実証した。 ソースコードはhttps://github.com/x ieyxclack/factual_co coで入手できる。

Despite significant progress has been achieved in text summarization, factual inconsistency in generated summaries still severely limits its practical applications. Among the key factors to ensure factual consistency, a reliable automatic evaluation metric is the first and the most crucial one. However, existing metrics either neglect the intrinsic cause of the factual inconsistency or rely on auxiliary tasks, leading to an unsatisfied correlation with human judgments or increasing the inconvenience of usage in practice. In light of these challenges, we propose a novel metric to evaluate the factual consistency in text summarization via counterfactual estimation, which formulates the causal relationship among the source document, the generated summary, and the language prior. We remove the effect of language prior, which can cause factual inconsistency, from the total causal effect on the generated summary, and provides a simple yet effective way to evaluate consistency without relying on other auxiliary tasks. We conduct a series of experiments on three public abstractive text summarization datasets, and demonstrate the advantages of the proposed metric in both improving the correlation with human judgments and the convenience of usage. The source code is available at https://github.com/x ieyxclack/factual_co co.
翻訳日:2021-08-31 14:47:22 公開日:2021-08-30
# CSDS: 顧客サービス対話要約のためのきめ細かい中国語データセット

CSDS: A Fine-grained Chinese Dataset for Customer Service Dialogue Summarization ( http://arxiv.org/abs/2108.13139v1 )

ライセンス: Link先を確認
Haitao Lin, Liqun Ma, Junnan Zhu, Lu Xiang, Yu Zhou, Jiajun Zhang, Chengqing Zong(参考訳) 最近,対話要約が注目されている。 特にカスタマーサービス領域では、エージェントが対話サマリーを使用して、顧客の問題やサービスの進捗を素早く知ることで作業を強化することができます。 これらのアプリケーションは、単一の話者の視点を持ち、明確なトピックフロー構造を持つために要約を必要とする。 既存のデータセットでは利用できない。 そこで本稿では,CSDS (Customer Service Dialogue Summarization) のための新しい中国語データセットを提案する。 csdは抽象要約を2つの側面で改善する: (1) 対話全体の要約に加え、役割指向要約も提供し、異なる話者の視点を得る。 2) すべての要約は, それぞれの話題を個別にまとめ, 対話の話題レベルの構造を包含する。 我々はCSDSにおけるタスクを、与えられた対話に対する全体的な概要と異なる役割指向の要約を生成するものとして定義する。 次に,csdにおける様々な要約手法を比較し,既存の手法が冗長で一貫性のない要約を生成しやすいことを示す。 さらに、ロール指向の要約やトピック構造のパフォーマンスを分析すると、パフォーマンスが大幅に悪化する。 この研究が中国の対話要約をベンチマークし、さらなる研究に役立つことを期待している。

Dialogue summarization has drawn much attention recently. Especially in the customer service domain, agents could use dialogue summaries to help boost their works by quickly knowing customers' issues and service progress. These applications require summaries to contain the perspective of a single speaker and have a clear topic flow structure. Neither are available in existing datasets. Therefore, in this paper, we introduce a novel Chinese dataset for Customer Service Dialogue Summarization (CSDS). CSDS improves the abstractive summaries in two aspects: (1) In addition to the overall summary for the whole dialogue, role-oriented summaries are also provided to acquire different speakers' viewpoints. (2) All the summaries sum up each topic separately, thus containing the topic-level structure of the dialogue. We define tasks in CSDS as generating the overall summary and different role-oriented summaries for a given dialogue. Next, we compare various summarization methods on CSDS, and experiment results show that existing methods are prone to generate redundant and incoherent summaries. Besides, the performance becomes much worse when analyzing the performance on role-oriented summaries and topic structures. We hope that this study could benchmark Chinese dialogue summarization and benefit further studies.
翻訳日:2021-08-31 14:47:03 公開日:2021-08-30
# 差別化可能なPromptは、訓練済みの言語モデルをより良くする

Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners ( http://arxiv.org/abs/2108.13161v1 )

ライセンス: Link先を確認
Ningyu Zhang, Luoqiu Li, Xiang Chen, Shumin Deng, Zhen Bi, Chuanqi Tan, Fei Huang, Huajun Chen(参考訳) 大規模事前学習型言語モデルは、数発の学習者としての顕著な能力を示すことによって、自然言語処理に大きく貢献している。 しかし、その効果は主にモデルパラメータのスケーリングとプロンプト設計に依存し、ほとんどの現実世界アプリケーションでの実装を妨げている。 本研究では,スモール言語モデルを,プロンプトエンジニアリングを必要とせずに,より優れたマイナショット学習者に変換可能な,プラグイン可能な,拡張性,効率的なアプローチである differentiable prompt (dart) を提案する。 このアプローチの主な原理は、潜在的自然言語処理タスクを事前訓練された言語モデルのタスクに再構成し、プロンプトテンプレートとバックプロパゲーション付きターゲットラベルを微分最適化することである。 さらに,提案手法は, (i) 任意の事前学習された言語モデルへの接続, (ii) 広範な分類タスクに拡張された。 標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。

Large-scale pre-trained language models have contributed significantly to natural language processing by demonstrating remarkable abilities as few-shot learners. However, their effectiveness depends mainly on scaling the model parameters and prompt design, hindering their implementation in most real-world applications. This study proposes a novel pluggable, extensible, and efficient approach named DifferentiAble pRompT (DART), which can convert small language models into better few-shot learners without any prompt engineering. The main principle behind this approach involves reformulating potential natural language processing tasks into the task of a pre-trained language model and differentially optimizing the prompt template as well as the target label with backpropagation. Furthermore, the proposed approach can be: (i) Plugged to any pre-trained language models; (ii) Extended to widespread classification tasks. A comprehensive evaluation of standard NLP tasks demonstrates that the proposed approach achieves a better few-shot performance.
翻訳日:2021-08-31 14:46:44 公開日:2021-08-30
# AEDA: テキスト分類のためのより簡単なデータ拡張手法

AEDA: An Easier Data Augmentation Technique for Text Classification ( http://arxiv.org/abs/2108.13230v1 )

ライセンス: Link先を確認
Akbar Karimi, Leonardo Rossi, Andrea Prati(参考訳) 本稿では,テキスト分類タスクの性能向上を支援するため,AEDA(An Easier Data Augmentation)手法を提案する。 AEDAは原文への句読点のランダムな挿入のみを含む。 これはEDA法(Wei and Zou, 2019)よりもデータ拡張のための実装が容易なテクニックであり、その結果を比較します。 さらに、文中の位置を変えながら単語の順序を保ち、より一般化されたパフォーマンスをもたらす。 さらに、EDAにおける削除操作は、ネットワークを誤解させる情報を失う可能性があるが、AEDAは全ての入力情報を保存している。 ベースラインに従って、テキスト分類のための5つの異なるデータセットの実験を行う。 AEDA拡張データを用いたトレーニングでは,5つのデータセットのEDA拡張データよりも優れた性能を示した。 ソースコードは、結果のさらなる研究と再現のために利用できる。

This paper proposes AEDA (An Easier Data Augmentation) technique to help improve the performance on text classification tasks. AEDA includes only random insertion of punctuation marks into the original text. This is an easier technique to implement for data augmentation than EDA method (Wei and Zou, 2019) with which we compare our results. In addition, it keeps the order of the words while changing their positions in the sentence leading to a better generalized performance. Furthermore, the deletion operation in EDA can cause loss of information which, in turn, misleads the network, whereas AEDA preserves all the input information. Following the baseline, we perform experiments on five different datasets for text classification. We show that using the AEDA-augmented data for training, the models show superior performance compared to using the EDA-augmented data in all five datasets. The source code is available for further study and reproduction of the results.
翻訳日:2021-08-31 14:46:27 公開日:2021-08-30
# N15News: マルチモーダルニュース分類のための新しいデータセット

N15News: A New Dataset for Multimodal News Classification ( http://arxiv.org/abs/2108.13327v1 )

ライセンス: Link先を確認
Zhen Wang, Xu Shan, Jie Yang(参考訳) 現在のニュースデータセットは単にニュースのテキスト機能にフォーカスするだけであり、ニュース分類に不可欠な多くの機能を除いて、画像の特徴を活用することは滅多にない。 本稿では,New York Timesが生成する15のカテゴリで,各ニュースにテキスト情報と画像情報の両方を含む新しいデータセットN15Newsを提案する。 本研究では,融合方式の異なる新しいマルチタスクマルチモーダルネットワークを設計し,テキストのみのニュース分類よりもマルチモーダルニュース分類が優れていることを示す。 テキストの長さによって、分類精度を最大5.8%向上させることができる。 本研究では,マルチモーダル分類器とそのサブ分類器の性能と,ニュース分類におけるマルチモーダルの適用による改善の可能性について明らかにする。 N15Newsはマルチモーダルニュース研究を促進する大きな可能性を秘めている。

Current news datasets merely focus on text features on the news and rarely leverage the feature of images, excluding numerous essential features for news classification. In this paper, we propose a new dataset, N15News, which is generated from New York Times with 15 categories and contains both text and image information in each news. We design a novel multitask multimodal network with different fusion methods, and experiments show multimodal news classification performs better than text-only news classification. Depending on the length of the text, the classification accuracy can be increased by up to 5.8%. Our research reveals the relationship between the performance of a multimodal classifier and its sub-classifiers, and also the possible improvements when applying multimodal in news classification. N15News is shown to have great potential to prompt the multimodal news studies.
翻訳日:2021-08-31 14:46:15 公開日:2021-08-30
# 平衡タイムスタンプ分布に基づく時間的知識グラフ補完法

A Temporal Knowledge Graph Completion Method Based on Balanced Timestamp Distribution ( http://arxiv.org/abs/2108.13024v1 )

ライセンス: Link先を確認
Kangzheng Liu and Yuhong Zhang(参考訳) 知識グラフ(KGE)の埋め込み表現による完成は、近年研究ホットスポットとなっている。 現実的な知識グラフは主に時間に関連するが、既存のKGEアルゴリズムのほとんどは時間情報を無視している。 タイムスタンプ分布のバランスを無視し、時間的知識グラフ補完(KGC)の性能を大幅に制限する、直接的あるいは間接的に時間情報を符号化する手法がいくつか存在する。 本稿では,直接符号化時間情報枠組に基づいて時間kgc法を提案し,与えられた時間スライスを,バランスの取れたタイムスタンプ分布の最も細かい粒度として扱う。 本手法の有効性を実世界から抽出した時間知識グラフデータセットについて,数多くの実験を行った。

Completion through the embedding representation of the knowledge graph (KGE) has been a research hotspot in recent years. Realistic knowledge graphs are mostly related to time, while most of the existing KGE algorithms ignore the time information. A few existing methods directly or indirectly encode the time information, ignoring the balance of timestamp distribution, which greatly limits the performance of temporal knowledge graph completion (KGC). In this paper, a temporal KGC method is proposed based on the direct encoding time information framework, and a given time slice is treated as the finest granularity for balanced timestamp distribution. A large number of experiments on temporal knowledge graph datasets extracted from the real world demonstrate the effectiveness of our method.
翻訳日:2021-08-31 14:46:02 公開日:2021-08-30
# 輸送に基づく対物モデル

Transport-based Counterfactual Models ( http://arxiv.org/abs/2108.13025v1 )

ライセンス: Link先を確認
Lucas de Lara (IMT), Alberto Gonz\'alez-Sanz (IMT), Nicholas Asher (IRIT-MELODI, CNRS), Jean-Michel Loubes (IMT)(参考訳) 因果関係の自然な概念を提供するため、カウンターファクトなフレームワークは説明可能な公正な機械学習で人気を博している。 しかし、反事実を計算するための最先端モデルは非現実的であるか不可能である。 特に、パールの因果推論は反事実を計算するための魅力的な規則を提供するが、実際には未知で発見が難しいモデルに依存している。 因果モデルがない場合、現実的で実現可能な反事実を設計する問題に対処する。 本研究では,輸送型対物モデルについて,観測可能な分布間の連立確率分布の集合として定義し,因果対物との関係を示す。 より具体的には、最適輸送理論は、数値的に実現可能で統計的に忠実であり、因果的反事実モデルとさえ一致するため、関連する輸送に基づく反事実モデルを定義する。 代表的な群フェアネス条件よりもシャープなフェアネス基準を定義することにより,これらのモデルの実用性を示す。

Counterfactual frameworks have grown popular in explainable and fair machine learning, as they offer a natural notion of causation. However, state-of-the-art models to compute counterfactuals are either unrealistic or unfeasible. In particular, while Pearl's causal inference provides appealing rules to calculate counterfactuals, it relies on a model that is unknown and hard to discover in practice. We address the problem of designing realistic and feasible counterfactuals in the absence of a causal model. We define transport-based counterfactual models as collections of joint probability distributions between observable distributions, and show their connection to causal counterfactuals. More specifically, we argue that optimal transport theory defines relevant transport-based counterfactual models, as they are numerically feasible, statistically-faithf ul, and can even coincide with causal counterfactual models. We illustrate the practicality of these models by defining sharper fairness criteria than typical group fairness conditions.
翻訳日:2021-08-31 14:45:50 公開日:2021-08-30
# 再帰的SHACLの満足度と満足度

Satisfiability and Containment of Recursive SHACL ( http://arxiv.org/abs/2108.13063v1 )

ライセンス: Link先を確認
Paolo Pareti, George Konstantinidis, Fabio Mogavero(参考訳) シェープ制約言語(Shapes Constraint Language, SHACL)は、グラフ上の特定の形状を検証することでRDFデータの検証を行うW3C勧告言語である。 従来,SHACLの簡易版に対してのみ検討されてきた,満足度と包含性の基準決定問題や設計と最適化の目的に欠かせない課題に主に焦点が当てられていた。 さらに、shacl仕様は再帰的制約のセマンティクスを定義していないため、文献で提案されたいくつかの別の再帰的セマンティクスにつながった。 これらの異なる意味論と重要な決定問題との相互作用はまだ研究されていない。 本稿では、SHACLのセマンティクスを正確に把握するSCLと呼ばれる新しい一階言語への翻訳を提供することにより、SHACLの異なる特徴を包括的に研究する。 また、SCLの2階拡張であるMSCLを提案し、SHACLの主要な再帰的意味論である1つの形式論理フレームワークで定義することができる。 この言語内では、関連する文献でしばしば無視されるフィルタ制約の効果的な処理も提供します。 この論理を用いて、異なるSHACLフラグメントに対する満足度および包含性決定問題に対する(不)決定性および複雑性結果の詳細なマップを提供する。 特に、両問題が完全な言語では決定不能であることを示すが、再帰に直面しても興味深い特徴の組み合わせが決定可能である。

The Shapes Constraint Language (SHACL) is the recent W3C recommendation language for validating RDF data, by verifying certain shapes on graphs. Previous work has largely focused on the validation problem and the standard decision problems of satisfiability and containment, crucial for design and optimisation purposes, have only been investigated for simplified versions of SHACL. Moreover, the SHACL specification does not define the semantics of recursively-defined constraints, which led to several alternative recursive semantics being proposed in the literature. The interaction between these different semantics and important decision problems has not been investigated yet. In this article we provide a comprehensive study of the different features of SHACL, by providing a translation to a new first-order language, called SCL, that precisely captures the semantics of SHACL. We also present MSCL, a second-order extension of SCL, which allows us to define, in a single formal logic framework, the main recursive semantics of SHACL. Within this language we also provide an effective treatment of filter constraints which are often neglected in the related literature. Using this logic we provide a detailed map of (un)decidability and complexity results for the satisfiability and containment decision problems for different SHACL fragments. Notably, we prove that both problems are undecidable for the full language, but we present decidable combinations of interesting features, even in the face of recursion.
翻訳日:2021-08-31 14:45:35 公開日:2021-08-30
# 自由エネルギー原理の数学的ウォークスルーと議論

A Mathematical Walkthrough and Discussion of the Free Energy Principle ( http://arxiv.org/abs/2108.13343v1 )

ライセンス: Link先を確認
Beren Millidge, Anil Seth, Christopher L Buckley(参考訳) 自由エネルギー原理(英: Free-Energy-Principl e、FEP)は、自己組織化の確率的熱力学と変分推論による学習の間の深い、強力な関係を仮定する影響力があり議論の的になっている理論である。 具体的には、その環境から統計的に分離でき、非平衡定常状態を維持している任意の自己組織化システムは、情報理論的機能(変動自由エネルギー)を最小化することで、環境の隠れた状態を推測するために変分ベイズ推論を実行することができると主張している。 この原理は神経科学にも広く応用され始めており、行動、知覚、学習が単一の目的の下で統一される新しい強力なアルゴリズムの構築を刺激することで、機械学習に進出し始めている。 その広範でしばしば大げさな主張は哲学と理論神経科学の双方で大きな議論を巻き起こしてきたが、数学的な深さと理論の核となる主張に対する説明とチュートリアルの欠如はしばしば文学における深い理解を妨げている。 ここでは,FEPの定式化と中心的主張の数学的詳細かつ直感的なウォークスルーを提供するとともに,理論の仮定と潜在的な限界について議論する。 さらに、FEPは、内部の論争、変化、修正の対象となる、まだ生きた理論であるため、現在の視点を強調し、凝縮する詳細な付録や、FEPの根底にある数学的仮定や形式に関する議論も提示する。

The Free-Energy-Principl e (FEP) is an influential and controversial theory which postulates a deep and powerful connection between the stochastic thermodynamics of self-organization and learning through variational inference. Specifically, it claims that any self-organizing system which can be statistically separated from its environment, and which maintains itself at a non-equilibrium steady state, can be construed as minimizing an information-theoreti c functional -- the variational free energy -- and thus performing variational Bayesian inference to infer the hidden state of its environment. This principle has also been applied extensively in neuroscience, and is beginning to make inroads in machine learning by spurring the construction of novel and powerful algorithms by which action, perception, and learning can all be unified under a single objective. While its expansive and often grandiose claims have spurred significant debates in both philosophy and theoretical neuroscience, the mathematical depth and lack of accessible introductions and tutorials for the core claims of the theory have often precluded a deep understanding within the literature. Here, we aim to provide a mathematically detailed, yet intuitive walk-through of the formulation and central claims of the FEP while also providing a discussion of the assumptions necessary and potential limitations of the theory. Additionally, since the FEP is a still a living theory, subject to internal controversy, change, and revision, we also present a detailed appendix highlighting and condensing current perspectives as well as controversies about the nature, applicability, and the mathematical assumptions and formalisms underlying the FEP.
翻訳日:2021-08-31 14:45:11 公開日:2021-08-30
# BioFors:大規模なバイオメディカル画像鑑定データセット

BioFors: A Large Biomedical Image Forensics Dataset ( http://arxiv.org/abs/2108.12961v1 )

ライセンス: Link先を確認
Ekraam Sabir, Soumyaroop Nandi, Wael AbdAlmageed, Prem Natarajan(参考訳) メディア法医学の研究は、誤報の拡散に対処するために勢いを増している。 しかし、この研究の大部分はソーシャルメディアで生成されたコンテンツに向けられている。 バイオメディカル画像鑑定は関連する問題であり、バイオメディカル研究文書で報告された画像の操作や誤用は深刻な問題である。 この問題は、ベンチマークデータセットと標準化されたタスクが欠如しているため、学術的な議論以上の勢いを得られなかった。 本稿では,生物医学的イメージ操作をベンチマークする最初のデータセットであるbioforsを提案する。 bioforsは1,031のオープンソース研究論文から抽出された47,805枚の画像からなる。 バイオフォアの画像は顕微鏡、ブロット/ゲル、facs、macroscopyの4つのカテゴリに分けられる。 また, 外部重複検出, 内部重複検出, 切断・シャープ遷移検出の3つの手法を提案する。 我々は、すべてのタスクに適切な最先端のアルゴリズムでBioForsをベンチマークする。 バイオメディカル画像に適用した場合, 一般的なコンピュータビジョンデータセット上に開発された既存のアルゴリズムは堅牢ではなく, バイオメディカル画像鑑定の独特な課題に対処するためには, さらなる研究が必要であることが検証された。

Research in media forensics has gained traction to combat the spread of misinformation. However, most of this research has been directed towards content generated on social media. Biomedical image forensics is a related problem, where manipulation or misuse of images reported in biomedical research documents is of serious concern. The problem has failed to gain momentum beyond an academic discussion due to an absence of benchmark datasets and standardized tasks. In this paper we present BioFors -- the first dataset for benchmarking common biomedical image manipulations. BioFors comprises 47,805 images extracted from 1,031 open-source research papers. Images in BioFors are divided into four categories -- Microscopy, Blot/Gel, FACS and Macroscopy. We also propose three tasks for forensic analysis -- external duplication detection, internal duplication detection and cut/sharp-transition detection. We benchmark BioFors on all tasks with suitable state-of-the-art algorithms. Our results and analysis show that existing algorithms developed on common computer vision datasets are not robust when applied to biomedical images, validating that more research is required to address the unique challenges of biomedical image forensics.
翻訳日:2021-08-31 14:39:35 公開日:2021-08-30
# pseudo-mask matter inweakly-supervised semantic segmentation

Pseudo-mask Matters inWeakly-supervised Semantic Segmentation ( http://arxiv.org/abs/2108.12995v1 )

ライセンス: Link先を確認
Yi Li, Zhanghui Kuang, Liyang Liu, Yimin Chen, Wayne Zhang(参考訳) 最も弱い教師付きセマンティクスセグメンテーション(wsss)メソッドは、最初に疑似マスクを生成するパイプラインに従い、その後に疑似マスクでセグメンテーションモデルを訓練する。 しかし,クラスアクティベーションマップ(cams)からの高品質疑似マスク生成や,ノイズの多い疑似マスク監督によるトレーニングなど,疑似マスクに関する問題も見いだされている。 これらの問題に対して,我々は,新しい最先端にパフォーマンスをプッシュする設計を提案する。 (i) カムを適応的に平滑化するための変動平滑化係数 (ii) 拡張されたカムを擬似マスクに投影する比例擬似マスク生成 (ii) バイナリ分類器からトレーニングされたスコアではなく,各クラスの重要性を示す新しいメトリックに基づいて,拡張カムを擬似マスクに投影する。 3)擬似マスクにおけるノイズの影響を抑えるための前置アンダーフィッティング戦略(IV)完全教師ありセマンティックセグメンテーション(FSSS)の訓練中に擬似マスクを増強するための周期的擬似マスク。 本手法に基づく実験は,pas-cal voc 2012 および ms coco 2014 において,miou を 70.0% および 40.2% まで押し下げる,弱い教師付きセマンティクスセグメンテーションデータセットの2つの変更に関する新たな結果を得た。 セグメンテーションフレームワークを含むコードはhttps://github.com/e li-yili/pmmでリリース

Most weakly supervised semantic segmentation (WSSS) methods follow the pipeline that generates pseudo-masks initially and trains the segmentation model with the pseudo-masks in fully supervised manner after. However, we find some matters related to the pseudo-masks, including high quality pseudo-masks generation from class activation maps (CAMs), and training with noisy pseudo-mask supervision. For these matters, we propose the following designs to push the performance to new state-of-art: (i) Coefficient of Variation Smoothing to smooth the CAMs adaptively; (ii) Proportional Pseudo-mask Generation to project the expanded CAMs to pseudo-mask based on a new metric indicating the importance of each class on each location, instead of the scores trained from binary classifiers. (iii) Pretended Under-Fitting strategy to suppress the influence of noise in pseudo-mask; (iv) Cyclic Pseudo-mask to boost the pseudo-masks during training of fully supervised semantic segmentation (FSSS). Experiments based on our methods achieve new state-of-art results on two changeling weakly supervised semantic segmentation datasets, pushing the mIoU to 70.0% and 40.2% on PAS-CAL VOC 2012 and MS COCO 2014 respectively. Codes including segmentation framework are released at https://github.com/E li-YiLi/PMM
翻訳日:2021-08-31 14:39:19 公開日:2021-08-30
# ネットワーク構造の戦い:CNN, Transformer, MLPの実証的研究

A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP ( http://arxiv.org/abs/2108.13002v1 )

ライセンス: Link先を確認
Yucheng Zhao, Guangting Wang, Chuanxin Tang, Chong Luo, Wenjun Zeng, Zheng-Jun Zha(参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。 近年,ビジョントランスフォーマーやMLP-Mixerのようなトランスフォーマーと多層パーセプトロン(MLP)ベースのモデルが,イメージネット分類タスクにおいて有望な結果を示すとともに,新たなトレンドを導い始めている。 本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。 公平な比較を確保するため,まず空間処理とチャネル処理を分離したSPACHという統合フレームワークを開発した。 SPACHフレームワークによる実験により、全ての構造が適度な規模で競争性能を達成できることが判明した。 しかし、ネットワークサイズが大きくなると特徴的な挙動を示す。 そこで本研究では,畳み込みモジュールとトランスフォーマーモジュールを用いたハイブリッドモデルを提案する。 結果、Hybrid-MS-S+モデルは、63Mパラメータと12.3G FLOPSで83.9%のTop-1精度を達成した。 それは既に洗練された設計のSOTAモデルと同等である。 コードとモデルは公開される予定だ。

Convolutional neural networks (CNN) are the dominant deep neural network (DNN) architecture for computer vision. Recently, Transformer and multi-layer perceptron (MLP)-based models, such as Vision Transformer and MLP-Mixer, started to lead new trends as they showed promising results in the ImageNet classification task. In this paper, we conduct empirical studies on these DNN structures and try to understand their respective pros and cons. To ensure a fair comparison, we first develop a unified framework called SPACH which adopts separate modules for spatial and channel processing. Our experiments under the SPACH framework reveal that all structures can achieve competitive performance at a moderate scale. However, they demonstrate distinctive behaviors when the network size scales up. Based on our findings, we propose two hybrid models using convolution and Transformer modules. The resulting Hybrid-MS-S+ model achieves 83.9% top-1 accuracy with 63M parameters and 12.3G FLOPS. It is already on par with the SOTA models with sophisticated designs. The code and models will be made publicly available.
翻訳日:2021-08-31 14:38:05 公開日:2021-08-30
# 単一のjpeg画像に新しいビューを埋め込む

Embedding Novel Views in a Single JPEG Image ( http://arxiv.org/abs/2108.13003v1 )

ライセンス: Link先を確認
Yue Wu and Guotao Meng and Qifeng Chen(参考訳) 本稿では,修正JPEG画像の知覚的忠実度と復元された新規ビューを保ちながら,新しいビューを単一のJPEGイメージに埋め込む新しいアプローチを提案する。 我々は,多面体画像 (mpis) の合成表現法を広範に採用する。 我々のモデルはまず32MPI層(128チャンネル)を3チャンネルJPEG画像にエンコードし、MPIが新しいビューを描画できるようにデコードして1ピクセルあたり1024ビットの埋め込み能力を持つ。 提案手法は,異なる新規ビュー合成手法を用いた公開データセットを用いた実験を行い,少し修正したjpeg画像から高精細な新規ビューを復元できることを示した。 さらに,提案手法はJPEG圧縮,色調整,収穫に対して堅牢である。 ソースコードは公開される予定だ。

We propose a novel approach for embedding novel views in a single JPEG image while preserving the perceptual fidelity of the modified JPEG image and the restored novel views. We adopt the popular novel view synthesis representation of multiplane images (MPIs). Our model first encodes 32 MPI layers (totally 128 channels) into a 3-channel JPEG image that can be decoded for MPIs to render novel views, with an embedding capacity of 1024 bits per pixel. We conducted experiments on public datasets with different novel view synthesis methods, and the results show that the proposed method can restore high-fidelity novel views from a slightly modified JPEG image. Furthermore, our method is robust to JPEG compression, color adjusting, and cropping. Our source code will be publicly available.
翻訳日:2021-08-31 14:37:48 公開日:2021-08-30
# モバイルレベルの視覚トランスフォーマーの探索と改善

Exploring and Improving Mobile Level Vision Transformers ( http://arxiv.org/abs/2108.13015v1 )

ライセンス: Link先を確認
Pengguang Chen, Yixin Chen, Shu Liu, Mingchang Yang, Jiaya Jia(参考訳) 本稿では,モバイルレベルでの視覚トランスフォーマー構造について検討し,劇的な性能低下を見出した。 本稿では,この現象の背景にある理由を分析し,新しい不規則パッチ埋め込みモジュールと適応パッチ融合モジュールを提案する。 視覚変換器ブロック(マルチヘッドアテンションとフィードフォワードネットワーク)は低レベル特徴よりも高レベル情報を扱うのに適していると推測する。 不規則なパッチ埋め込みモジュールは、異なる受容フィールドを持つリッチなハイレベル情報を含むパッチを抽出する。 トランスブロックは、これらの不規則なパッチから最も有用な情報を得ることができる。 その後、処理されたパッチはadaptive patch mergeモジュールをパスし、分類器の最終機能を取得する。 提案する改良により, 従来の一様視覚トランスフォーマー構造は, モバイルレベルで最先端の成果を実現できる。 We improve the DeiT baseline by 9\% under the mobile-level settings and over other transformer architectures like Swin and CoaT by a large margin。

We study the vision transformer structure in the mobile level in this paper, and find a dramatic performance drop. We analyze the reason behind this phenomenon, and propose a novel irregular patch embedding module and adaptive patch fusion module to improve the performance. We conjecture that the vision transformer blocks (which consist of multi-head attention and feed-forward network) are more suitable to handle high-level information than low-level features. The irregular patch embedding module extracts patches that contain rich high-level information with different receptive fields. The transformer blocks can obtain the most useful information from these irregular patches. Then the processed patches pass the adaptive patch merging module to get the final features for the classifier. With our proposed improvements, the traditional uniform vision transformer structure can achieve state-of-the-art results in mobile level. We improve the DeiT baseline by more than 9\% under the mobile-level settings and surpass other transformer architectures like Swin and CoaT by a large margin.
翻訳日:2021-08-31 14:37:34 公開日:2021-08-30
# 空白の壁を見つめて学ぶことは

What You Can Learn by Staring at a Blank Wall ( http://arxiv.org/abs/2108.13027v1 )

ライセンス: Link先を確認
Prafull Sharma, Miika Aittala, Yoav Y. Schechner, Antonio Torralba, Gregory W. Wornell, William T. Freeman, Fredo Durand(参考訳) 未知の部屋の空き壁の観測から人の人数や活動量を推定する受動的非視線法を提案する。 本手法は,壁面の映像における間接照明の複雑な非知覚的変化を分析し,シーンの隠れた部分における動きと相関する信号を明らかにする。 この信号を使って、0人、1人、または2人、または隠れたシーンにいる人の活動の分類を行う。 20の異なるシーンから収集されたデータを用いて2つの畳み込みニューラルネットワークをトレーニングし、目に見えないテスト環境とリアルタイムオンライン設定の両方のタスクに対して$\approx94\%の精度を達成する。 他の受動的非視線法とは異なり、この手法は既知のオクルーダーや制御可能な光源に依存しず、再校正のない未知の部屋に一般化する。 実データと合成データの両方を用いて,本手法の一般化とロバスト性を解析し,シーンパラメータが信号品質に与える影響について検討する。

We present a passive non-line-of-sight method that infers the number of people or activity of a person from the observation of a blank wall in an unknown room. Our technique analyzes complex imperceptible changes in indirect illumination in a video of the wall to reveal a signal that is correlated with motion in the hidden part of a scene. We use this signal to classify between zero, one, or two moving people, or the activity of a person in the hidden scene. We train two convolutional neural networks using data collected from 20 different scenes, and achieve an accuracy of $\approx94\%$ for both tasks in unseen test environments and real-time online settings. Unlike other passive non-line-of-sight methods, the technique does not rely on known occluders or controllable light sources, and generalizes to unknown rooms with no re-calibration. We analyze the generalization and robustness of our method with both real and synthetic data, and study the effect of the scene parameters on the signal quality.
翻訳日:2021-08-31 14:37:17 公開日:2021-08-30
# ディープニューラルネットワークを用いた効率的な視覚認識:最近の進歩と新たな方向性

Efficient Visual Recognition with Deep Neural Networks: A Survey on Recent Advances and New Directions ( http://arxiv.org/abs/2108.13055v1 )

ライセンス: Link先を確認
Yang Wu, Dingheng Wang, Xiaotong Lu, Fan Yang, Guoqi Li, Weisheng Dong, Jianbo Shi(参考訳) 視覚認識は現在、コンピュータビジョン、パターン認識、さらには人工知能の一般分野において、最も重要かつ活発な研究分野の1つである。 根本的重要性と強い産業的ニーズがある。 ディープニューラルネットワーク(DNN)は、大量のトレーニングデータと新たな強力な計算リソースの助けを借りて、多くの具体的なタスクのパフォーマンスを大幅に向上させた。 認識精度は、新しい進歩の第一の関心事であるが、効率性は実際にはかなり重要であり、学術研究と工業応用の両方において重要である。 さらに、効率性の機会や課題に対する洞察深い見解は、コミュニティ全体にとって非常に必要です。 DNNの効率性に関する一般的な調査は様々な観点から行われてきたが、我々の知る限り、視覚認識を体系的に重視しているものはほとんどなく、どの進歩がそれに当てはまるのか、その他の点については不透明である。 本稿では,DNN関連視覚認識手法の効率向上に向けた新たな方向性を提案するとともに,最近の進歩を概観する。 モデルだけでなくデータの観点からも検討を行い(既存調査ではそうではない)、最も研究されている3つのデータタイプ(画像、ビデオ、ポイント)に焦点を当てた。 本稿では,視覚認知問題に携わる研究者と実践者の両方に刺激を与える,総合的な調査を通じて,体系的な要約を提供することを試みる。

Visual recognition is currently one of the most important and active research areas in computer vision, pattern recognition, and even the general field of artificial intelligence. It has great fundamental importance and strong industrial needs. Deep neural networks (DNNs) have largely boosted their performances on many concrete tasks, with the help of large amounts of training data and new powerful computation resources. Though recognition accuracy is usually the first concern for new progresses, efficiency is actually rather important and sometimes critical for both academic research and industrial applications. Moreover, insightful views on the opportunities and challenges of efficiency are also highly required for the entire community. While general surveys on the efficiency issue of DNNs have been done from various perspectives, as far as we are aware, scarcely any of them focused on visual recognition systematically, and thus it is unclear which progresses are applicable to it and what else should be concerned. In this paper, we present the review of the recent advances with our suggestions on the new possible directions towards improving the efficiency of DNN-related visual recognition approaches. We investigate not only from the model but also the data point of view (which is not the case in existing surveys), and focus on three most studied data types (images, videos and points). This paper attempts to provide a systematic summary via a comprehensive survey which can serve as a valuable reference and inspire both researchers and practitioners who work on visual recognition problems.
翻訳日:2021-08-31 14:37:01 公開日:2021-08-30
# Few-Shot Fine-Grained Image Classificationのためのオブジェクト認識長短空間アライメント

Object-aware Long-short-range Spatial Alignment for Few-Shot Fine-Grained Image Classification ( http://arxiv.org/abs/2108.13098v1 )

ライセンス: Link先を確認
Yike Wu, Bo Zhang, Gang Yu, Weixi Zhang, Bin Wang, Tao Chen, Jiayuan Fan(参考訳) 数発のきめ細かい画像分類の目標は、サポートセットのこのクラスの少数のサンプルを考慮すれば、クエリセットにほとんど見られない細粒度オブジェクトを認識することである。 従来の研究は,様々な粒度のクラスを識別するための限られた訓練サンプルから識別画像の特徴を学習することに集中していたが,クエリ画像とサポート画像との識別的意味的特徴の空間的アライメントが,各サポートクエリのペア間の意味的類似性を計算する上でも重要であることを無視する。 本研究では,foreground object feature enhancement (foe) モジュール,long-range semantic correspondence (lsc) モジュール,および short-range spatial manipulation (ssm) モジュールからなる物体認識型長距離空間アライメント手法を提案する。 FOEは背景障害を弱め、前景の反応を高めるために開発された。 サポート・クエリ画像対間の長距離オブジェクト特徴量不一致問題に対処するため,lscは設計した特徴類似度メトリクスを用いて転送可能な長距離意味対応を学習するために提案する。 さらに、SSMモジュールは、短い範囲のミスアライメント機能(またはローカル詳細)とクエリ機能との整合性を確保するために、長距離ステップ後の変換サポート機能を洗練するために開発されている。 4つのベンチマークデータセットで広範な実験が行われており、1ショットおよび5ショットの分類シナリオにおいて、ほとんどの最先端手法よりも優れた性能を示している。

The goal of few-shot fine-grained image classification is to recognize rarely seen fine-grained objects in the query set, given only a few samples of this class in the support set. Previous works focus on learning discriminative image features from a limited number of training samples for distinguishing various fine-grained classes, but ignore one important fact that spatial alignment of the discriminative semantic features between the query image with arbitrary changes and the support image, is also critical for computing the semantic similarity between each support-query pair. In this work, we propose an object-aware long-short-range spatial alignment approach, which is composed of a foreground object feature enhancement (FOE) module, a long-range semantic correspondence (LSC) module and a short-range spatial manipulation (SSM) module. The FOE is developed to weaken background disturbance and encourage higher foreground object response. To address the problem of long-range object feature misalignment between support-query image pairs, the LSC is proposed to learn the transferable long-range semantic correspondence by a designed feature similarity metric. Further, the SSM module is developed to refine the transformed support feature after the long-range step to align short-range misaligned features (or local details) with the query features. Extensive experiments have been conducted on four benchmark datasets, and the results show superior performance over most state-of-the-art methods under both 1-shot and 5-shot classification scenarios.
翻訳日:2021-08-31 14:36:36 公開日:2021-08-30
# 領域適応型領域フリー検出器の密集性拡張

Densely Semantic Enhancement for Domain Adaptive Region-free Detectors ( http://arxiv.org/abs/2108.13101v1 )

ライセンス: Link先を確認
Bo Zhang, Tao Chen, Bin Wang, Xiaofeng Wu, Liming Zhang, Jiayuan Fan(参考訳) 教師なしのドメイン適応オブジェクト検出は、リッチラベル付きデータを持つ訓練済みの検出器を、ラベルなしデータを持つ新しいターゲットドメインに適応させることを目的としている。 以前の研究は、リージョン提案ネットワーク(RPN)から明示的に抽出されるクロスドメインインスタンスレベルの特徴をマッチングすることで、リージョンベースの検出器(例えば、Faster-RCNN)のドメイン適応性の改善に重点を置いていた。 しかし、これは画像内のすべての可能な場所から密集した予測を行い、そのようなインスタンスレベルの特徴を符号化するRPNを持たない単一ショット検出器(SSD)のような領域フリー検出器には適さない。 その結果、重要な画像領域と重要なインスタンスレベルの特徴を領域フリー検出器の領域間で整列させることに失敗した。 本研究では,非領域検出器のインスタンスレベル特徴のクロスドメインマッチングを強化するための対向モジュールを提案する。 まず、画像の重要な領域を強調するために、DSEMは、画像の背景乱れを抑制するために使用できる転送可能な前景拡張マスクを予測することを学ぶ。 第二に、領域非検出装置がマルチスケール特徴写像を用いて異なるスケールの物体を認識することを考えると、DSEMは多レベル意味表現と異なる領域にわたるマルチインスタンス空間-コンテキスト関係の両方を符号化する。 最後に、DSEMは異なる領域を含まない検出器にプラグイン可能であり、最終的には逆学習によって密集した意味的特徴マッチングを達成する。 PASCAL VOC, Clipart, Comic, Watercolor, FoggyCityscapeベンチマークで大規模な実験を行い, 提案手法が領域自由検出器の領域適応性を向上するだけでなく, ドメインシフト設定の既存領域適応型領域ベース検出器よりも優れていることを示した。

Unsupervised domain adaptive object detection aims to adapt a well-trained detector from its original source domain with rich labeled data to a new target domain with unlabeled data. Previous works focus on improving the domain adaptability of region-based detectors, e.g., Faster-RCNN, through matching cross-domain instance-level features that are explicitly extracted from a region proposal network (RPN). However, this is unsuitable for region-free detectors such as single shot detector (SSD), which perform a dense prediction from all possible locations in an image and do not have the RPN to encode such instance-level features. As a result, they fail to align important image regions and crucial instance-level features between the domains of region-free detectors. In this work, we propose an adversarial module to strengthen the cross-domain matching of instance-level features for region-free detectors. Firstly, to emphasize the important regions of image, the DSEM learns to predict a transferable foreground enhancement mask that can be utilized to suppress the background disturbance in an image. Secondly, considering that region-free detectors recognize objects of different scales using multi-scale feature maps, the DSEM encodes both multi-level semantic representations and multi-instance spatial-contextual relationships across different domains. Finally, the DSEM is pluggable into different region-free detectors, ultimately achieving the densely semantic feature matching via adversarial learning. Extensive experiments have been conducted on PASCAL VOC, Clipart, Comic, Watercolor, and FoggyCityscape benchmarks, and their results well demonstrate that the proposed approach not only improves the domain adaptability of region-free detectors but also outperforms existing domain adaptive region-based detectors under various domain shift settings.
翻訳日:2021-08-31 14:36:04 公開日:2021-08-30
# 一般から特定へ:バランス調整による情報付きシーングラフ生成

From General to Specific: Informative Scene Graph Generation via Balance Adjustment ( http://arxiv.org/abs/2108.13129v1 )

ライセンス: Link先を確認
Yuyu Guo, Lianli Gao, Xuanhan Wang, Yuxuan Hu, Xing Xu, Xu Lu, Heng Tao Shen, Jingkuan Song(参考訳) シーングラフ生成(SGG)タスクは、画像中の主観的、述語的、対象といった視覚的関係三重項を検出し、シーン理解のための構造的視覚レイアウトを提供する。 しかし、現在のモデルは、例えば「オン」や「at」のような一般的な述語に留まり、例えば「オン」や「見ている」といった情報よりも、正確な情報や全体的なパフォーマンスが失われる。 モデルがイメージを記述するために「ブロック」ではなく「道路上の石」を使う場合、シーンを誤解するのは容易である。 この現象は、情報的述語と共通する2つの重要な不均衡、すなわち意味空間レベルの不均衡とサンプルレベルの不均衡によって引き起こされる。 この問題を解決するため,従来の配電方式ではなく,バランス調整に基づく簡易かつ効果的なSGGフレームワークであるBA-SGGを提案する。 セマンティック調整(SA)とバランスド・プレディケート・ラーニング(BPL)の2つのコンポーネントを統合し、これらの不均衡を調整する。 モデルに依存しないプロセスから得られた手法は,最先端のSGGモデルに容易に適用でき,SGGの性能が大幅に向上する。 提案手法は,視覚ゲノム上の3つのシーングラフ生成サブタスクにおいて,トランスフォーマーモデルよりも14.3%,8.0%,および6.1%高い平均リコール(mR)を実現する。 コードは公開されている。

The scene graph generation (SGG) task aims to detect visual relationship triplets, i.e., subject, predicate, object, in an image, providing a structural vision layout for scene understanding. However, current models are stuck in common predicates, e.g., "on" and "at", rather than informative ones, e.g., "standing on" and "looking at", resulting in the loss of precise information and overall performance. If a model only uses "stone on road" rather than "blocking" to describe an image, it is easy to misunderstand the scene. We argue that this phenomenon is caused by two key imbalances between informative predicates and common ones, i.e., semantic space level imbalance and training sample level imbalance. To tackle this problem, we propose BA-SGG, a simple yet effective SGG framework based on balance adjustment but not the conventional distribution fitting. It integrates two components: Semantic Adjustment (SA) and Balanced Predicate Learning (BPL), respectively for adjusting these imbalances. Benefited from the model-agnostic process, our method is easily applied to the state-of-the-art SGG models and significantly improves the SGG performance. Our method achieves 14.3%, 8.0%, and 6.1% higher Mean Recall (mR) than that of the Transformer model at three scene graph generation sub-tasks on Visual Genome, respectively. Codes are publicly available.
翻訳日:2021-08-31 14:35:32 公開日:2021-08-30
# LIGAR:軽量汎用アクション認識

LIGAR: Lightweight General-purpose Action Recognition ( http://arxiv.org/abs/2108.13153v1 )

ライセンス: Link先を確認
Evgeny Izutov(参考訳) ビデオ理解問題における様々な実践的タスクの量の増加は、幅広いマスで利用でき、エッジ指向推論の要求に適したユニバーサルソリューションを設計するための大きな課題に対処してきた。 本稿では,上記の課題に対処するためのネットワークアーキテクチャとトレーニングパイプラインの設計に焦点を当てる。 我々のアーキテクチャは、従来のアーキテクチャから最善を尽くし、外見に基づくアクション認識タスクだけでなく、モーションベースの問題でも成功する能力をもたらす。 さらに、誘導ラベルノイズ問題を定式化し、それに対応するために適応クリップ選択(ACS)フレームワークを提案する。 これにより、LIGARフレームワークは汎用的なアクション認識ソリューションとなる。 また,汎用とジェスチャーのデータセットに関する広範な分析を報告し,最先端のソリューションと比較して,性能と精度の優れたトレードオフを示す。 トレーニングコードは、https://github.com/o penvinotoolkit/train ing_extensionsで利用可能である。 効率的なエッジ指向推論のために、訓練されたすべてのモデルはOpenVINOフォーマットにエクスポートできる。

Growing amount of different practical tasks in a video understanding problem has addressed the great challenge aiming to design an universal solution, which should be available for broad masses and suitable for the demanding edge-oriented inference. In this paper we are focused on designing a network architecture and a training pipeline to tackle the mentioned challenges. Our architecture takes the best from the previous ones and brings the ability to be successful not only in appearance-based action recognition tasks but in motion-based problems too. Furthermore, the induced label noise problem is formulated and Adaptive Clip Selection (ACS) framework is proposed to deal with it. Together it makes the LIGAR framework the general-purpose action recognition solution. We also have reported the extensive analysis on the general and gesture datasets to show the excellent trade-off between the performance and the accuracy in comparison to the state-of-the-art solutions. Training code is available at: https://github.com/o penvinotoolkit/train ing_extensions. For the efficient edge-oriented inference all trained models can be exported into the OpenVINO format.
翻訳日:2021-08-31 14:35:06 公開日:2021-08-30
# LUAI、2021年に航空画像の理解に挑戦

LUAI Challenge 2021 on Learning to Understand Aerial Images ( http://arxiv.org/abs/2108.13246v1 )

ライセンス: Link先を確認
Gui-Song Xia, Jian Ding, Ming Qian, Nan Xue, Jiaming Han, Xiang Bai, Micheal Ying Yang, Shengyang Li, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, Liangpei Zhang, Qiang Zhou, Chao-hui Yu, Kaixuan Hu, Yingjia Bu, Wenming Tan, Zhe Yang, Wei Li, Shang Liu, Jiaxuan Zhao, Tianzhi Ma, Zi-han Gao, Lingqi Wang, Yi Zuo, Licheng Jiao, Chang Meng, Hao Wang, Jiahao Wang, Yiming Hui, Zhuojun Dong, Jie Zhang, Qianyue Bao, Zixiao Zhang, Fang Liu(参考訳) 本稿では,空中画像の物体検出とセマンティックセグメンテーションに焦点を当てたICCV 2021におけるLearning to Understand Aerial Images (LUAI) 2021チャレンジの結果を要約する。 DOTA-v2.0 と GID-15 のデータセットを用いて,オブジェクト指向物体検出,水平物体検出,空中画像における共通カテゴリのセマンティックセグメンテーションの3つのタスクを提案する。 この課題は3つのタスクで合計146回の登録を受けた。 この課題を通じて、幅広いコミュニティから注目を集め、空中画像を理解することの学習により多くの努力を払ってほしいと考えています。

This report summarizes the results of Learning to Understand Aerial Images (LUAI) 2021 challenge held on ICCV 2021, which focuses on object detection and semantic segmentation in aerial images. Using DOTA-v2.0 and GID-15 datasets, this challenge proposes three tasks for oriented object detection, horizontal object detection, and semantic segmentation of common categories in aerial images. This challenge received a total of 146 registrations on the three tasks. Through the challenge, we hope to draw attention from a wide range of communities and call for more efforts on the problems of learning to understand aerial images.
翻訳日:2021-08-31 14:34:49 公開日:2021-08-30
# 自己監督型アンタングルポス表現によるクイン痛行動分類

Equine Pain Behavior Classification via Self-Supervised Disentangled Pose Representation ( http://arxiv.org/abs/2108.13258v1 )

ライセンス: Link先を確認
Maheen Rashid, Sofia Broom\'e, Katrina Ask, Elin Hernlund, Pia Haubro Andersen, Hedvig Kjellstr\"om, Yong Jae Lee(参考訳) 馬の痛みのタイムリーな検出は、馬の福祉にとって重要である。 馬は顔や体の動きを通じて痛みを表現するが、不慣れな人間の観察者から痛みの兆候を隠すことがある。 加えて、馬の行動や痛み状態の詳細なアノテーションによるビジュアルデータの収集は面倒でスケーラブルではない。 したがって、実用的なウマの痛み分類システムは、観察されていない馬と弱いラベルのビデオを使用する。 本稿では, 経時的にビデオレベルの痛みラベルが乏しい整形外科的痛みを誘発する非観察馬のマルチビュー監視ビデオ映像を用いて, ウマの痛み分類法を提案する。 馬の身体言語だけで痛みが学べるようにするため,我々はまず自己教師付き生成モデルを訓練し,その外観と背景から馬のポーズを離間させ,その後,離反した馬のポーズ潜伏表現を用いて痛み分類を行う。 痛みラベルを最大限に活用するために、痛み分類をマルチインスタンス学習問題として定式化する新しい損失を開発する。 本手法は,60%の精度でヒトのエキスパート性能よりも痛み分類精度が向上する。 学習された潜伏馬のポーズ表現は、視点共変であり、馬の外観から切り離されている。 分類された痛みの質的分析は,本モデルで同定した痛み症状と,獣医の練習で使用する等痛尺度の一致を示した。

Timely detection of horse pain is important for equine welfare. Horses express pain through their facial and body behavior, but may hide signs of pain from unfamiliar human observers. In addition, collecting visual data with detailed annotation of horse behavior and pain state is both cumbersome and not scalable. Consequently, a pragmatic equine pain classification system would use video of the unobserved horse and weak labels. This paper proposes such a method for equine pain classification by using multi-view surveillance video footage of unobserved horses with induced orthopaedic pain, with temporally sparse video level pain labels. To ensure that pain is learned from horse body language alone, we first train a self-supervised generative model to disentangle horse pose from its appearance and background before using the disentangled horse pose latent representation for pain classification. To make best use of the pain labels, we develop a novel loss that formulates pain classification as a multi-instance learning problem. Our method achieves pain classification accuracy better than human expert performance with 60% accuracy. The learned latent horse pose representation is shown to be viewpoint covariant, and disentangled from horse appearance. Qualitative analysis of pain classified segments shows correspondence between the pain symptoms identified by our model, and equine pain scales used in veterinary practice.
翻訳日:2021-08-31 14:34:38 公開日:2021-08-30
# Hire-MLP:階層的再構成によるビジョンMLP

Hire-MLP: Vision MLP via Hierarchical Rearrangement ( http://arxiv.org/abs/2108.13341v1 )

ライセンス: Link先を確認
Jianyuan Guo, Yehui Tang, Kai Han, Xinghao Chen, Han Wu, Chao Xu, Chang Xu and Yunhe Wang(参考訳) 本稿では,階層的再構成によるシンプルかつ競争的なMDPアーキテクチャであるHire-MLPを提案する。 MLP-Mixerのような従来の視覚MLPは様々な画像サイズに対して柔軟性がなく、トークンを平らにすることで空間情報を捉えるのに非効率である。 Hire-MLPは既存のMLPベースのモデルを革新し、階層的再構成の概念を提唱し、局所的およびグローバルな空間情報を集約し、下流タスクに汎用性を持たせる。 具体的には、内部領域の再配置は、空間領域内の局所情報をキャプチャするように設計されている。 さらに,各地域間の情報通信を可能とし,グローバルコンテキストを捉えるために,すべてのトークンを空間方向に沿って円形に移動させるクロスリージョン再配置を提案する。 提案したHire-MLPアーキテクチャは、単純なチャネル混合型MPPと再配置操作で構築されており、高い柔軟性と推論速度を享受できる。 Hire-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。 特に、Hire-MLP は ImageNet で83.4\% のトップ-1 の精度を達成しており、これはトランスフォーマーベースの従来のモデルと MLP ベースのモデルを上回っ、精度とスループットのトレードオフを改善している。

This paper presents Hire-MLP, a simple yet competitive vision MLP architecture via hierarchical rearrangement. Previous vision MLPs like MLP-Mixer are not flexible for various image sizes and are inefficient to capture spatial information by flattening the tokens. Hire-MLP innovates the existing MLP-based models by proposing the idea of hierarchical rearrangement to aggregate the local and global spatial information while being versatile for downstream tasks. Specifically, the inner-region rearrangement is designed to capture local information inside a spatial region. Moreover, to enable information communication between different regions and capture global context, the cross-region rearrangement is proposed to circularly shift all tokens along spatial directions. The proposed Hire-MLP architecture is built with simple channel-mixing MLPs and rearrangement operations, thus enjoys high flexibility and inference speed. Experiments show that our Hire-MLP achieves state-of-the-art performance on the ImageNet-1K benchmark. In particular, Hire-MLP achieves an 83.4\% top-1 accuracy on ImageNet, which surpasses previous Transformer-based and MLP-based models with better trade-off for accuracy and throughput.
翻訳日:2021-08-31 14:34:15 公開日:2021-08-30
# クリックレベル弱教師付きセマンティックセグメンテーションのためのセミナー学習

Seminar Learning for Click-Level Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2108.13393v1 )

ライセンス: Link先を確認
Hongjun Chen, Jinbao Wang, Hong Cai Chen, Xiantong Zhen, Feng Zheng, Rongrong Ji, Ling Shao(参考訳) アノテーションの負担はセマンティックセグメンテーションの最大の障壁の1つになっている。 したがって、クリックレベルのアノテーションに基づくアプローチは、監督とアノテーションコストのトレードオフが優れているため、注目を集めている。 本稿では,クリックレベルの教師付きセグメンテーションのための新しい学習パラダイムであるセミナー学習を提案する。 セミナー学習の基本的根拠は、異なるネットワークからの知識を活用して、クリックレベルのアノテーションで提供される不十分な情報を補うことである。 セミナーを模したセミナー学習では,教師・生徒・学生・学生の両方から学ぶことができる,教師・生徒・学生・学生のモジュールが組み込まれている。 教師学習モジュールは、指数移動平均に基づいて教師ネットワークを使用して、学生ネットワークのトレーニングを指導する。 学生学習モジュールでは,生徒間の知識の伝達を橋渡しし,互いのパフォーマンスを高めるために異種擬似ラベルが提案されている。 実験結果は,Pascal VOC 2012データセットにおいて,従来の手法を最大16.88%上回る72.51%(mIOU)の新たな最先端性能を実現するセミナー学習の有効性を示した。

Annotation burden has become one of the biggest barriers to semantic segmentation. Approaches based on click-level annotations have therefore attracted increasing attention due to their superior trade-off between supervision and annotation cost. In this paper, we propose seminar learning, a new learning paradigm for semantic segmentation with click-level supervision. The fundamental rationale of seminar learning is to leverage the knowledge from different networks to compensate for insufficient information provided in click-level annotations. Mimicking a seminar, our seminar learning involves a teacher-student and a student-student module, where a student can learn from both skillful teachers and other students. The teacher-student module uses a teacher network based on the exponential moving average to guide the training of the student network. In the student-student module, heterogeneous pseudo-labels are proposed to bridge the transfer of knowledge among students to enhance each other's performance. Experimental results demonstrate the effectiveness of seminar learning, which achieves the new state-of-the-art performance of 72.51% (mIOU), surpassing previous methods by a large margin of up to 16.88% on the Pascal VOC 2012 dataset.
翻訳日:2021-08-31 14:33:54 公開日:2021-08-30
# 言語モデリングのための選択的微分プライバシー

Selective Differential Privacy for Language Modeling ( http://arxiv.org/abs/2108.12944v1 )

ライセンス: Link先を確認
Weiyan Shi, Aiqi Cui, Evan Li, Ruoxi Jia, Zhou Yu(参考訳) 機密データを含むアプリケーションにおける言語モデルの採用の増加に伴い、これらのモデルがプライベート情報を漏洩することを防ぐことが重要になっている。 これまでの研究は、RNNベースの言語モデルを差分プライバシー保証でトレーニングすることで、この問題に対処しようとしてきた。 しかし、言語モデルに古典的な微分プライバシーを適用すると、基礎となるプライバシー概念は悲観的であり、データのすべてのトークンに対する非微分保護を提供するため、モデルパフォーマンスが低下する。 自然言語のプライベート情報が不足していること(例えば、電子メールの大部分が個人識別可能な情報を持っていないこと)を踏まえ、我々は、モデルユーティリティを改善するために、データの機密部分に対する厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。 このような新しい概念を実現するために、RNNベースの言語モデルに対して、対応するプライバシメカニズムであるSelective-DPSGDを開発する。 言語モデリング以外にも、より具体的なアプリケーション -- ダイアログシステムにもこのメソッドを適用します。 言語モデリングとダイアログシステム構築の両方の実験により、提案するプライバシ保存メカニズムが、さまざまなプライバシ攻撃に対して安全でありながら、より良いユーティリティを実現することが示された。 データ、コード、モデルはhttps://github.com/w yshi/lm_privacyで入手できる。

With the increasing adoption of language models in applications involving sensitive data, it has become crucial to protect these models from leaking private information. Previous work has attempted to tackle this challenge by training RNN-based language models with differential privacy guarantees. However, applying classical differential privacy to language models leads to poor model performance as the underlying privacy notion is over-pessimistic and provides undifferentiated protection for all tokens of the data. Given that the private information in natural language is sparse (for example, the bulk of an email might not carry personally identifiable information), we propose a new privacy notion, selective differential privacy, to provide rigorous privacy guarantees on the sensitive portion of the data to improve model utility. To realize such a new notion, we develop a corresponding privacy mechanism, Selective-DPSGD, for RNN-based language models. Besides language modeling, we also apply the method to a more concrete application -- dialog systems. Experiments on both language modeling and dialog system building show that the proposed privacy-preserving mechanism achieves better utilities while remaining safe under various privacy attacks compared to the baselines. The data, code and models are available at https://github.com/w yshi/lm_privacy.
翻訳日:2021-08-31 14:33:35 公開日:2021-08-30
# グラフエネルギーモデルのためのadversarial stein training

Adversarial Stein Training for Graph Energy Models ( http://arxiv.org/abs/2108.12982v1 )

ライセンス: Link先を確認
Shiv Shankar(参考訳) グラフ構造化データ上での学習分布は、生物学や化学における多くの応用において困難な課題である。 本研究では、多チャネルグラフニューラルネットワーク(GNN)に基づくエネルギーモデル(EBM)を用いて、グラフ上の変分非正規化密度関数を学習する。 標準的なEMM訓練方法とは異なり、我々のアプローチは敵のスタイン差を最小化することでモデルを学習することである。 モデルからのサンプルは、Langevin dynamics based MCMCによって得ることができる。 提案手法は,ベンチマークモデルと比較して,グラフ生成における競合的な結果が得られる。

Learning distributions over graph-structured data is a challenging task with many applications in biology and chemistry. In this work we use an energy-based model (EBM) based on multi-channel graph neural networks (GNN) to learn permutation invariant unnormalized density functions on graphs. Unlike standard EBM training methods our approach is to learn the model via minimizing adversarial stein discrepancy. Samples from the model can be obtained via Langevin dynamics based MCMC. We find that this approach achieves competitive results on graph generation compared to benchmark models.
翻訳日:2021-08-31 14:31:00 公開日:2021-08-30
# FeeBeeを用いたリードワールドデータセットにおけるベイズ誤差推定器の評価

Evaluating Bayes Error Estimators on Read-World Datasets with FeeBee ( http://arxiv.org/abs/2108.13034v1 )

ライセンス: Link先を確認
Cedric Renggli, Luka Rimanic, Nora Hollenstein, Ce Zhang(参考訳) bayes error rate (ber) は機械学習の基本的な概念であり、任意の分類器が固定確率分布で達成できる最善の精度を定量化する。 BERの下限と上限の予測器の構築に関する長年の研究にもかかわらず、これらは通常、既知の確率分布を持つ合成データセットでのみ比較され、2つの重要な疑問が未解決のまま残されている。 これらの答えは自明ではない。 実世界のデータセットに対する未知のBERの明らかな挑戦とは別に、BER推定器が現実の環境に適用するために克服する必要がある主な側面が2つある:(1)計算とサンプルの複雑さ、(2)超パラメータの感度と選択。 本研究では,未知確率分布を持つ現代実世界のデータセットにおけるber推定器の解析と比較を行う最初の原則付きフレームワークである feebee を提案する。 ラベルノイズの制御量を注入し,様々なノイズレベルについて複数の評価を行い,berの進化に関する結論を導出する理論的結果により,これを実現する。 コンピュータビジョンとNLPドメインの6つの一般的なデータセット上に7つのマルチクラスBER推定器を実装し、分析することにより、FeeBeeはこれらの推定器を徹底的に研究し、それぞれの長所と短所を明確に識別し、将来のBER推定器に容易にデプロイできる。

The Bayes error rate (BER) is a fundamental concept in machine learning that quantifies the best possible accuracy any classifier can achieve on a fixed probability distribution. Despite years of research on building estimators of lower and upper bounds for the BER, these were usually compared only on synthetic datasets with known probability distributions, leaving two key questions unanswered: (1) How well do they perform on real-world datasets?, and (2) How practical are they? Answering these is not trivial. Apart from the obvious challenge of an unknown BER for real-world datasets, there are two main aspects any BER estimator needs to overcome in order to be applicable in real-world settings: (1) the computational and sample complexity, and (2) the sensitivity and selection of hyper-parameters. In this work, we propose FeeBee, the first principled framework for analyzing and comparing BER estimators on any modern real-world dataset with unknown probability distribution. We achieve this by injecting a controlled amount of label noise and performing multiple evaluations on a series of different noise levels, supported by a theoretical result which allows drawing conclusions about the evolution of the BER. By implementing and analyzing 7 multi-class BER estimators on 6 commonly used datasets of the computer vision and NLP domains, FeeBee allows a thorough study of these estimators, clearly identifying strengths and weaknesses of each, whilst being easily deployable on any future BER estimator.
翻訳日:2021-08-31 14:30:52 公開日:2021-08-30
# ランダムフォレストモデルを用いたWebベースのGlioblastoma Multiforme Prognosis予測ツール

An Interpretable Web-based Glioblastoma Multiforme Prognosis Prediction Tool using Random Forest Model ( http://arxiv.org/abs/2108.13039v1 )

ライセンス: Link先を確認
Yeseul Kim, Kyung Hwan Kim, Junyoung Park, Hong In Yoon, Wonmo Sung(参考訳) 我々は,治療後1年間のgbm患者の健康状態(分類タスク)を推定し,個別レベルにおけるgbm患者の長期予後を予測する予測モデルを提案する。 総患者数467 gbmで, 臨床像は13例, フォローアップ日2例であった。 ランダム森林分類器(RFC)とランダム生存林モデル(RSF)のベースラインモデルに対して,一般化線形モデル(GLM),サポートベクトルマシン(SVM),コックス比例危険モデル(COX),アクセラレーション故障時間モデル(AFT)を導入した。 5倍の階層化データセットの前処理とプレフィックスを行った後,再帰的特徴除去プロセスを用いて,モデルタイプの最良のモデルを作成した。 再帰的特徴除去プロセスにより,1年間の生存/進行状態rfcモデルおよびrsfモデルにおいて,総計10,4,13の特徴を抽出した。 分類タスクでは、最高のRFCのAUROCは0.6990(生存状態分類)と0.7076(1年経過分類)、第2のベストベースラインモデル(GLM)はそれぞれ0.6691と0.6997を記録した。 生存時の最高C指数は0.7157、最低IBSは0.1038であり、第2の最高ベースラインモデルはそれぞれ0.6556と0.1139であった。 GBM患者の各特徴と予後の簡易的線形相関(LIMEおよび仮想患者群解析から抽出)は,医学的知識と一致していた。 以上の結果から, gbm患者生存率の上位3因子はmgmt遺伝子プロモーター, 切除範囲, 年齢であった。 私たちの知る限りでは、この研究は解釈可能で医学的な知識が一貫したgbm予測モデルを導入する最初の研究です。

We propose predictive models that estimate GBM patients' health status of one-year after treatments (Classification task), predict the long-term prognosis of GBM patients at an individual level (Survival task). We used total of 467 GBM patients' clinical profile consists of 13 features and two follow-up dates. For baseline models of random forest classifier(RFC) and random survival forest model (RSF), we introduced generalized linear model (GLM), support vector machine (SVM) and Cox proportional hazardous model (COX), accelerated failure time model (AFT) respectively. After preprocessing and prefixing stratified 5-fold data set, we generated best performing models for model types using recursive feature elimination process. Total 10, 4, and 13 features were extracted for best performing one-year survival/progression status RFC models and RSF model via the recursive feature elimination process. In classification task, AUROC of best performing RFC recorded 0.6990 (for one-year survival status classification) and 0.7076 (for one-year progression classification) while that of second best baseline models (GLM in both cases) recorded 0.6691 and 0.6997 respectively. About survival task, the highest C-index of 0.7157 and the lowest IBS of 0.1038 came from the best performing RSF model while that of second best baseline models were 0.6556 and 0.1139 respectively. A simplified linear correlation (extracted from LIME and virtual patient group analysis) between each feature and prognosis of GBM patient were consistent with proven medical knowledge. Our machine learning models suggest that the top three prognostic factors for GBM patient survival were MGMT gene promoter, the extent of resection, and age. To the best of our knowledge, this study is the very first study introducing a interpretable and medical knowledge consistent GBM prognosis predictive models.
翻訳日:2021-08-31 14:30:25 公開日:2021-08-30
# GeoVectors:世界規模のOpenStreetMap埋め込みのリンク付きオープンコーパス

GeoVectors: A Linked Open Corpus of OpenStreetMap Embeddings on World Scale ( http://arxiv.org/abs/2108.13092v1 )

ライセンス: Link先を確認
Nicolas Tempelmeier, Simon Gottschalk, Elena Demidova(参考訳) OpenStreetMap (OSM) は現在、地理的エンティティ(例えば、建物や道路)に関する最も豊富な公開情報ソースである。 しかし、機械学習モデルやその他のアプリケーションにおけるOSMエンティティの使用は、OSMの大規模化、エンティティアノテーションの極端な異質性、エンティティのセマンティクスとプロパティを記述するための明確なオントロジーの欠如など、困難である。 本稿は,OSMデータセット全体を包含し,180か国9億8000万以上の地理的エンティティの潜在表現を提供する,OSMエンティティの独自で包括的なオープンコーパスであるGeoVectorsについて述べる。 GeoVectors corpusはOSMエンティティのセマンティック次元と地理的次元をキャプチャし、これらのエンティティを機械学習アルゴリズムやセマンティックアプリケーションに直接アクセスできるようにする。 我々は、コンテキスト情報を提供するためにWikidataとDBpediaの知識グラフへのアイデンティティリンクを含むGeoVectors corpusのセマンティック記述を作成する。 さらに、OSM内の地理的エンティティのセマンティックおよび潜在表現に直接アクセスするセマンティックインターフェースであるSPARQLエンドポイントを提供する。

OpenStreetMap (OSM) is currently the richest publicly available information source on geographic entities (e.g., buildings and roads) worldwide. However, using OSM entities in machine learning models and other applications is challenging due to the large scale of OSM, the extreme heterogeneity of entity annotations, and a lack of a well-defined ontology to describe entity semantics and properties. This paper presents GeoVectors - a unique, comprehensive world-scale linked open corpus of OSM entity embeddings covering the entire OSM dataset and providing latent representations of over 980 million geographic entities in 180 countries. The GeoVectors corpus captures semantic and geographic dimensions of OSM entities and makes these entities directly accessible to machine learning algorithms and semantic applications. We create a semantic description of the GeoVectors corpus, including identity links to the Wikidata and DBpedia knowledge graphs to supply context information. Furthermore, we provide a SPARQL endpoint - a semantic interface that offers direct access to the semantic and latent representations of geographic entities in OSM.
翻訳日:2021-08-31 14:29:49 公開日:2021-08-30
# 運用研究におけるAI行動発見のためのマルチエージェントシミュレーション

Multi-Agent Simulation for AI Behaviour Discovery in Operations Research ( http://arxiv.org/abs/2108.13296v1 )

ライセンス: Link先を確認
Michael Papasimeon, Lyndon Benke(参考訳) マルチエージェントシミュレーションにおける行動発見のためのAI手法の適合性と有効性を評価する軽量プラットフォームであるACE0について述べる。 具体的には、ACE0は自律航空機のような新しい技術に関連する運用研究で使用されるマルチエージェントシミュレーションのためのAI手法を探索するために設計された。 生産で使用されるシミュレーション環境は、しばしば高忠実で複雑であり、かなりのドメイン知識を必要とし、結果としてR&Dコストが高い。 最小限で軽量なシミュレーション環境は、研究者やエンジニアが、よりアジャイルで潜在的にコストのかかる方法で行動発見のための新しいAI技術の生存可能性を評価するのに役立つ。 本稿では、ACE0の開発動機について述べるとともに、システムアーキテクチャの技術的概要、航空宇宙領域における振る舞い発見の事例研究、システムの質的評価について述べる。 この評価には、学術パートナーと共同研究プロジェクトの簡単な説明が含まれており、さまざまなAI行動発見方法を探求している。

We describe ACE0, a lightweight platform for evaluating the suitability and viability of AI methods for behaviour discovery in multiagent simulations. Specifically, ACE0 was designed to explore AI methods for multi-agent simulations used in operations research studies related to new technologies such as autonomous aircraft. Simulation environments used in production are often high-fidelity, complex, require significant domain knowledge and as a result have high R&D costs. Minimal and lightweight simulation environments can help researchers and engineers evaluate the viability of new AI technologies for behaviour discovery in a more agile and potentially cost effective manner. In this paper we describe the motivation for the development of ACE0.We provide a technical overview of the system architecture, describe a case study of behaviour discovery in the aerospace domain, and provide a qualitative evaluation of the system. The evaluation includes a brief description of collaborative research projects with academic partners, exploring different AI behaviour discovery methods.
翻訳日:2021-08-31 14:28:06 公開日:2021-08-30
# ASR-GLUE: ASR-Robust自然言語理解のための新しいマルチタスクベンチマーク

ASR-GLUE: A New Multi-task Benchmark for ASR-Robust Natural Language Understanding ( http://arxiv.org/abs/2108.13048v1 )

ライセンス: Link先を確認
Lingyun Feng, Jianwei Yu, Deng Cai, Songxiang Liu, Haitao Zheng, Yan Wang(参考訳) 近年,音声インタフェースアプリケーションの需要が高まる中,音声システムにおける言語理解が注目されている。 しかし,自動音声認識(ASR)による誤りに対する自然言語理解(NLU)システムの堅牢性は未検討である。 ASR-GLUEベンチマーク(ASR-GLUEベンチマーク)は,3段階の背景雑音と6種類の音声特性を持つ6つの話者に対して,ASR誤差下でのモデルの性能を評価するための6種類のNLUタスクの新たなコレクションである。 提案したベンチマークに基づいて,雑音強度,誤差型,話者変動量の観点から,ASR誤差がNLUタスクに与える影響を系統的に検討する。 さらに,NLUシステムのロバスト性を改善するために,補正法とデータ拡張法という2つの方法を提案する。 広範な実験結果と分析により、提案手法はある程度有効であるが、ヒトのパフォーマンスには程遠いことが示され、asrエラー下のnluは依然として非常に困難であり、さらなる研究が必要であることが示されている。

Language understanding in speech-based systems have attracted much attention in recent years with the growing demand for voice interface applications. However, the robustness of natural language understanding (NLU) systems to errors introduced by automatic speech recognition (ASR) is under-examined. %To facilitate the research on ASR-robust general language understanding, In this paper, we propose ASR-GLUE benchmark, a new collection of 6 different NLU tasks for evaluating the performance of models under ASR error across 3 different levels of background noise and 6 speakers with various voice characteristics. Based on the proposed benchmark, we systematically investigate the effect of ASR error on NLU tasks in terms of noise intensity, error type and speaker variants. We further purpose two ways, correction-based method and data augmentation-based method to improve robustness of the NLU systems. Extensive experimental results and analysises show that the proposed methods are effective to some extent, but still far from human performance, demonstrating that NLU under ASR error is still very challenging and requires further research.
翻訳日:2021-08-31 14:27:53 公開日:2021-08-30
# ニューラルネットワークの初期化におけるバイアス量子乱数の影響について

On the effects of biased quantum random numbers on the initialization of artificial neural networks ( http://arxiv.org/abs/2108.13329v1 )

ライセンス: Link先を確認
Raoul Heese, Moritz Wolter, Sascha M\"ucke, Lukas Franken, Nico Piatkowski(参考訳) 最近の実用的な量子コンピューティングの進歩により、研究者はノイズの多い中間スケール量子(nisq)デバイス上でアルゴリズムを評価することができるクラウドベースの量子コンピューティングプラットフォームが多様になった。 量子コンピュータの共通の性質は、古典的なシステムから得られる擬ランダム性とは対照的に、真のランダム性の例を示すことである。 機械学習の文脈におけるそのような真の量子ランダム性の効果を調べることは魅力的であり、最近の結果は、量子乱数を用いることで実際に利益が得られることを曖昧に示唆している。 この話題についてさらに光を当てるために、数値実験において、ハードウェアバイアスの量子乱数が人工ニューラルネットワークの重み付けの初期化に与える影響を実証的に研究する。 非バイアス量子乱数と比較すると統計的に有意な差は認められず、また古典的な疑似乱数生成器から偏りや偏りのない乱数も見いだされた。 我々の実験のための量子乱数は、実量子ハードウェアから得られる。

Recent advances in practical quantum computing have led to a variety of cloud-based quantum computing platforms that allow researchers to evaluate their algorithms on noisy intermediate-scale quantum (NISQ) devices. A common property of quantum computers is that they exhibit instances of true randomness as opposed to pseudo-randomness obtained from classical systems. Investigating the effects of such true quantum randomness in the context of machine learning is appealing, and recent results vaguely suggest that benefits can indeed be achieved from the use of quantum random numbers. To shed some more light on this topic, we empirically study the effects of hardware-biased quantum random numbers on the initialization of artificial neural network weights in numerical experiments. We find no statistically significant difference in comparison with unbiased quantum random numbers as well as biased and unbiased random numbers from a classical pseudo-random number generator. The quantum random numbers for our experiments are obtained from real quantum hardware.
翻訳日:2021-08-31 14:27:33 公開日:2021-08-30
# 教師なし単眼深度知覚:移動物体に着目して

Unsupervised Monocular Depth Perception: Focusing on Moving Objects ( http://arxiv.org/abs/2108.13062v1 )

ライセンス: Link先を確認
Hualie Jiang, Laiyan Ding, Zhenglong Sun, Rui Huang(参考訳) フレキシブルな3dセンシング手段として,単眼映像からの奥行きの教師なし学習が重要な研究課題となっている。 対象のビューと隣接するソースビューからの合成ビューの間の測光誤差を、基底真理との違いではなく損失として利用する。 現実世界のシーンにおける排除とシーンのダイナミクスは、最近の大きな進歩にもかかわらず、依然として学習に悪影響を及ぼす。 本稿では,光度誤差を意図的に操作することで,これらの問題に対処できることを示す。 まず,オクルードまたはダイナミックピクセルを光度誤差マップの統計的外れ値として考慮した外れ値マスキング手法を提案する。 外れたマスキングによって、ネットワークはカメラの反対方向に移動する物体の深さをより正確に学習する。 我々の知る限りでは、このようなケースは、自動運転のようなアプリケーションに高いリスクをもたらすにもかかわらず、以前の研究では真剣に検討されていない。 また,予測深度マップのアーティファクトを削減するために,効率的な重み付きマルチスケールスキームを提案する。 KITTIデータセットの大規模な実験とCityscapesデータセットのさらなる実験により、提案手法が深度やエゴモーション推定に与える影響が検証された。 さらに,教師なしと教師なしの両方の手法において,動的オブジェクトの領域と静的背景の予測深度を分離して評価した。 この評価は,提案手法の有効性をさらに検証し,今後の研究に刺激を与えるであろう興味深い観察結果を提供する。

As a flexible passive 3D sensing means, unsupervised learning of depth from monocular videos is becoming an important research topic. It utilizes the photometric errors between the target view and the synthesized views from its adjacent source views as the loss instead of the difference from the ground truth. Occlusion and scene dynamics in real-world scenes still adversely affect the learning, despite significant progress made recently. In this paper, we show that deliberately manipulating photometric errors can efficiently deal with these difficulties better. We first propose an outlier masking technique that considers the occluded or dynamic pixels as statistical outliers in the photometric error map. With the outlier masking, the network learns the depth of objects that move in the opposite direction to the camera more accurately. To the best of our knowledge, such cases have not been seriously considered in the previous works, even though they pose a high risk in applications like autonomous driving. We also propose an efficient weighted multi-scale scheme to reduce the artifacts in the predicted depth maps. Extensive experiments on the KITTI dataset and additional experiments on the Cityscapes dataset have verified the proposed approach's effectiveness on depth or ego-motion estimation. Furthermore, for the first time, we evaluate the predicted depth on the regions of dynamic objects and static background separately for both supervised and unsupervised methods. The evaluation further verifies the effectiveness of our proposed technical approach and provides some interesting observations that might inspire future research in this direction.
翻訳日:2021-08-31 14:26:04 公開日:2021-08-30
# 低品質セル画像分割のための自動前処理とアンサンブル学習

Automatic Preprocessing and Ensemble Learning for Low Quality Cell Image Segmentation ( http://arxiv.org/abs/2108.13118v1 )

ライセンス: Link先を確認
Sota Kato, Kazuhiro Hotta(参考訳) 高品質なセル画像のセグメンテーションのための自動前処理とアンサンブル学習を提案する。 強い光で細胞を捕獲することは困難である。 したがって、細胞の顕微鏡画像は画質が低い傾向にあるが、これらの画像はセマンティックセグメンテーションには向いていない。 本稿では,深層学習によって認識しやすい画像に入力画像を変換する手法を提案する。 提案手法は2つの深層ニューラルネットワークからなる。 第1のネットワークはセマンティックセグメンテーションのための通常のトレーニングであり、第1のネットワークの特徴マップをフィルタとして使用して、各クラスを強調する画像に入力画像を変換する。 これは自動前処理であり、翻訳された細胞画像は容易に分類できる。 低品質の入力セル画像を第1のネットワークの特徴地図で翻訳し、その変換画像を第2のネットワークに供給して意味セグメンテーションを行う。 第2のネットワークの出力は複数のセグメンテーション結果であるため、これらのセグメンテーション画像の重み付けアンサンブルを行う。 2つのネットワークはエンドツーエンドでトレーニングされており、翻訳に高品質な画像を作成する必要はない。 提案手法では,低画質のセルイメージを分割し易い画像に変換できることを確認し,重み付きアンサンブル学習によりセグメント化精度が向上した。

We propose an automatic preprocessing and ensemble learning for segmentation of cell images with low quality. It is difficult to capture cells with strong light. Therefore, the microscopic images of cells tend to have low image quality but these images are not good for semantic segmentation. Here we propose a method to translate an input image to the images that are easy to recognize by deep learning. The proposed method consists of two deep neural networks. The first network is the usual training for semantic segmentation, and penultimate feature maps of the first network are used as filters to translate an input image to the images that emphasize each class. This is the automatic preprocessing and translated cell images are easily classified. The input cell image with low quality is translated by the feature maps in the first network, and the translated images are fed into the second network for semantic segmentation. Since the outputs of the second network are multiple segmentation results, we conduct the weighted ensemble of those segmentation images. Two networks are trained by end-to-end manner, and we do not need to prepare images with high quality for the translation. We confirmed that our proposed method can translate cell images with low quality to the images that are easy to segment, and segmentation accuracy has improved using the weighted ensemble learning.
翻訳日:2021-08-31 14:25:44 公開日:2021-08-30
# ダイナミックシーンのビュー合成のための深部3次元マスクボリューム

Deep 3D Mask Volume for View Synthesis of Dynamic Scenes ( http://arxiv.org/abs/2108.13408v1 )

ライセンス: Link先を確認
Kai-En Lin and Lei Xiao and Feng Liu and Guowei Yang and Ravi Ramamoorthi(参考訳) 画像ビュー合成は、深層学習と様々な新しい表現のおかげで、フォトリアリスティックな視覚を再構築することに成功した。 没入型仮想体験における次の重要なステップは、動的シーンのビュー合成である。 しかし、高品質なトレーニングデータセットの欠如、ダイナミックなシーンのビデオの時間次元の追加など、いくつかの課題が存在する。 この問題に対処するために,我々は,カスタム10カメラリグを120fpsで撮影したマルチビュービデオデータセットを紹介する。 データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。 我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。 提案アルゴリズムは, 3次元マスク体積の誤差発生領域を同定し, 映像中の静止背景に置き換えることで, 排他的不整合に対処する。 簡単な2次元マスクとは対照的に3次元空間での操作が可能であり,フレーム単位の静的ビュー合成法や2次元マスクを用いたものよりも時間的安定性がよいことを示す。 その結果得られたビュー合成ビデオは、最小限のフリッカリングアーティファクトを示し、より大きな翻訳運動を可能にする。

Image view synthesis has seen great success in reconstructing photorealistic visuals, thanks to deep learning and various novel representations. The next key step in immersive virtual experiences is view synthesis of dynamic scenes. However, several challenges exist due to the lack of high-quality training datasets, and the additional time dimension for videos of dynamic scenes. To address this issue, we introduce a multi-view video dataset, captured with a custom 10-camera rig in 120FPS. The dataset contains 96 high-quality scenes showing various visual effects and human interactions in outdoor scenes. We develop a new algorithm, Deep 3D Mask Volume, which enables temporally-stable view extrapolation from binocular videos of dynamic scenes, captured by static cameras. Our algorithm addresses the temporal inconsistency of disocclusions by identifying the error-prone areas with a 3D mask volume, and replaces them with static background observed throughout the video. Our method enables manipulation in 3D space as opposed to simple 2D masks, We demonstrate better temporal stability than frame-by-frame static view synthesis methods, or those that use 2D masks. The resulting view synthesis videos show minimal flickering artifacts and allow for larger translational movements.
翻訳日:2021-08-31 14:25:23 公開日:2021-08-30
# SurRoL:手術ロボット学習のためのオープンソースの強化学習とdVRK対応プラットフォーム

SurRoL: An Open-source Reinforcement Learning Centered and dVRK Compatible Platform for Surgical Robot Learning ( http://arxiv.org/abs/2108.13035v1 )

ライセンス: Link先を確認
Jiaqi Xu, Bin Li, Bo Lu, Yun-Hui Liu, Qi Dou, and Pheng-Ann Heng(参考訳) 自律的な手術は退屈なルーチンと外科医の疲労を和らげる。 近年の学習に基づく手法,特に強化学習(RL)に基づく手法は,データ収集の効率化とハードウェアコストの低減をシミュレーションに要求される,創発的操作に有望な性能を実現する。 既存の医療ロボットのための学習ベースのシミュレーションプラットフォームは、限られたシナリオとシンプルな物理的相互作用に悩まされ、学習ポリシーの現実のパフォーマンスが低下する。 本研究では,手術ロボット学習のためのRL中心のシミュレーションプラットフォームであるSurRoLを,da Vinci Research Kit (dVRK)と互換性のある設計を行った。 SurRoLはアルゴリズム開発のためのユーザフレンドリーなRLライブラリと、より多くのPSM/ECMシナリオとより現実的な物理的相互作用をサポートするリアルタイム物理エンジンを統合している。 学習に基づく10の手術タスクがプラットフォーム内に構築されており、実際の自律的な手術の実行に共通している。 シミュレーションにおいてRLアルゴリズムを用いてSurRoLの評価を行い、奥行き分析を行い、実際のdVRKにトレーニングされたポリシーをデプロイし、実世界でより優れた転送性を実現することを示す。

Autonomous surgical execution relieves tedious routines and surgeon's fatigue. Recent learning-based methods, especially reinforcement learning (RL) based methods, achieve promising performance for dexterous manipulation, which usually requires the simulation to collect data efficiently and reduce the hardware cost. The existing learning-based simulation platforms for medical robots suffer from limited scenarios and simplified physical interactions, which degrades the real-world performance of learned policies. In this work, we designed SurRoL, an RL-centered simulation platform for surgical robot learning compatible with the da Vinci Research Kit (dVRK). The designed SurRoL integrates a user-friendly RL library for algorithm development and a real-time physics engine, which is able to support more PSM/ECM scenarios and more realistic physical interactions. Ten learning-based surgical tasks are built in the platform, which are common in the real autonomous surgical execution. We evaluate SurRoL using RL algorithms in simulation, provide in-depth analysis, deploy the trained policies on the real dVRK, and show that our SurRoL achieves better transferability in the real world.
翻訳日:2021-08-31 14:24:49 公開日:2021-08-30
# 成長コサインユニット:畳み込みニューラルネットワークにおけるトレーニングとパラメータの短縮を可能にする新しい振動活性化関数

Growing Cosine Unit: A Novel Oscillatory Activation Function That Can Speedup Training and Reduce Parameters in Convolutional Neural Networks ( http://arxiv.org/abs/2108.12943v1 )

ライセンス: Link先を確認
Mathew Mithra Noel, Arunkumar L, Advait Trivedi, Praneet Dutta(参考訳) 畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解決することに成功した。 複素高次元関数を階層的に学習する能力は、非線形活性化関数の使用に起因する。 深層ネットワークのトレーニングを可能とした重要な発見は、飽和活性化関数の使用による消失勾配問題を軽減するために、Rectified Linear Unit (ReLU) アクティベーション関数を採用したことである。 それ以来、多くの改良されたReLUアクティベーションが提案されている。 しかし、今日の活性化機能の大部分は、その生物学的妥当性のため、非振動性で単調に増加する。 本稿では,振動活性化関数が勾配流れを改善し,ネットワークサイズを小さくできることを示す。 振動活性化関数により、ニューロンはニューロンの高平面の正と負の半空間の内部の分類(出力の符号)を切り替え、より少ない神経細胞で複雑な決定をすることができる。 様々なアーキテクチャやベンチマークでsgmoids, swish, mish, reluよりも優れる新しい振動活性化関数 c(z) = z cos z について述べる。 この新しい活性化関数により、単一ニューロンでさえ非線形決定境界を示すことができる。 本稿では,有名なXOR問題に対する単一ニューロン解法を提案する。 CIFAR-10, CIFAR-100, Imagenetteでは, 畳み込み層の活性化関数をC(z)で置き換えることにより, 性能が著しく向上した。

Convolution neural networks have been successful in solving many socially important and economically significant problems. Their ability to learn complex high-dimensional functions hierarchically can be attributed to the use of nonlinear activation functions. A key discovery that made training deep networks feasible was the adoption of the Rectified Linear Unit (ReLU) activation function to alleviate the vanishing gradient problem caused by using saturating activation functions. Since then many improved variants of the ReLU activation have been proposed. However a majority of activation functions used today are non-oscillatory and monotonically increasing due to their biological plausibility. This paper demonstrates that oscillatory activation functions can improve gradient flow and reduce network size. It is shown that oscillatory activation functions allow neurons to switch classification (sign of output) within the interior of neuronal hyperplane positive and negative half-spaces allowing complex decisions with fewer neurons. A new oscillatory activation function C(z) = z cos z that outperforms Sigmoids, Swish, Mish and ReLU on a variety of architectures and benchmarks is presented. This new activation function allows even single neurons to exhibit nonlinear decision boundaries. This paper presents a single neuron solution to the famous XOR problem. Experimental results indicate that replacing the activation function in the convolutional layers with C(z) significantly improves performance on CIFAR-10, CIFAR-100 and Imagenette.
翻訳日:2021-08-31 14:21:40 公開日:2021-08-30
# Pandoraのボックスを相関で近似する

Approximating Pandora's Box with Correlations ( http://arxiv.org/abs/2108.12976v1 )

ライセンス: Link先を確認
Shuchi Chawla, Evangelia Gergatsouli, Jeremy McMahan, Christos Tzamos(参考訳) pandoraのボックス問題は、それらの値に関する確率的な情報から、n$以上の代替品の探索戦略を見つけ、検索コストと選択された代替品の値の合計を最小化することを目的としている。 独立分散値の場合にはよく理解されているが、独立性仮定を落とせば、問題のアルゴリズム的な理解は非常に限定される。 本研究は,pandoraのボックス問題を相関値分布下で近似する複雑さを特徴付けることを目的としている。 そのために我々は,pandoraのボックスの単純なバージョンに対して,特定のしきい値未満の値を求めるだけで,検索中に発生する将来の値について判断する必要をなくす,汎用的な還元を提案する。 この汎用ツールを用いて,サポート$m$の明示的な分布の場合と製品分布$m$の混合の場合の2つの相関関係について検討した。 第一のケースでは、pandoraのボックスを最適決定木のよく研究された問題に結びつけ、o(\log m)$の近似を得るが、一様決定木問題と同値である(定数係数まで)ので、問題は厳密に容易であることを示す。 $\bullet$ 製品分布の混合の場合、問題は、非常に難しい最適決定木(Optimal Decision Tree)のうるさい変種(noisy variant)に再び関係している。 n^{ \tilde o(m^2/\varepsilon^2 ) }$ for $m$ mixed components 任意の選択肢の辺数が同じか、テレビの間隔で$\varepsilon$ で区切られるかのいずれかである。

The Pandora's Box problem asks to find a search strategy over $n$ alternatives given stochastic information about their values, aiming to minimize the sum of the search cost and the value of the chosen alternative. Even though the case of independently distributed values is well understood, our algorithmic understanding of the problem is very limited once the independence assumption is dropped. Our work aims to characterize the complexity of approximating the Pandora's Box problem under correlated value distributions. To that end, we present a general reduction to a simpler version of Pandora's Box, that only asks to find a value below a certain threshold, and eliminates the need to reason about future values that will arise during the search. Using this general tool, we study two cases of correlation; the case of explicitly given distributions of support $m$ and the case of mixtures of $m$ product distributions. $\bullet$ In the first case, we connect Pandora's Box to the well studied problem of Optimal Decision Tree, obtaining an $O(\log m)$ approximation but also showing that the problem is strictly easier as it is equivalent (up to constant factors) to the Uniform Decision Tree problem. $\bullet$ In the case of mixtures of product distributions, the problem is again related to the noisy variant of Optimal Decision Tree which is significantly more challenging. We give a constant-factor approximation that runs in time $n^{ \tilde O( m^2/\varepsilon^2 ) }$ for $m$ mixture components whose marginals on every alternative are either identical or separated in TV distance by $\varepsilon$.
翻訳日:2021-08-31 14:21:14 公開日:2021-08-30
# 多エージェント強化学習におけるエージェントの学習メタ表現

Learning Meta Representations for Agents in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2108.12988v1 )

ライセンス: Link先を確認
Shenao Zhang, Li Shen, Lei Han, Li Shen(参考訳) マルチエージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する行動は通常、与えられたエージェント数(すなわち人口規模)に制限される。 様々な集団サイズで誘導されるすべてのMGは、現代のマルチエージェントアルゴリズムで独立してモデル化される、最適なジョイント戦略とゲーム固有の知識を持っている。 本研究は,人口変動型mgsを一般化するエージェントの開発に焦点をあてる。 一人称ポリシーを学ぶ代わりに、各エージェントは様々なゲームにまたがる効果的な戦略によって形成されたポリシーセットを学ぶ。 ゲーム共通およびゲーム固有の戦略知識を明示的にモデル化するエージェント(mra)のメタ表現を提案する。 ポリシーセットをマルチモーダル潜在ポリシーで表現することにより、共通戦略知識と多様な戦略モードが反復的な最適化手順で発見される。 制約付き相互情報最大化目標の近似として,学習方針が十分大きな潜在空間上のリプシッツゲーム(英語版)の仮定の下で評価mgごとにnash平衡に達することを証明した。 最小サイズで実用的な潜在モデルにデプロイする場合、一階勾配情報を活用することで高速適応が実現できる。 広汎な実験は、ハードゲームとアンロックゲームにおいて、トレーニング性能と一般化能力の両方にMRAの有効性を示す。

In multi-agent reinforcement learning, the behaviors that agents learn in a single Markov Game (MG) are typically confined to the given agent number (i.e., population size). Every single MG induced by varying population sizes may possess distinct optimal joint strategies and game-specific knowledge, which are modeled independently in modern multi-agent algorithms. In this work, we focus on creating agents that generalize across population-varying MGs. Instead of learning a unimodal policy, each agent learns a policy set that is formed by effective strategies across a variety of games. We propose Meta Representations for Agents (MRA) that explicitly models the game-common and game-specific strategic knowledge. By representing the policy sets with multi-modal latent policies, the common strategic knowledge and diverse strategic modes are discovered with an iterative optimization procedure. We prove that as an approximation to a constrained mutual information maximization objective, the learned policies can reach Nash Equilibrium in every evaluation MG under the assumption of Lipschitz game on a sufficiently large latent space. When deploying it at practical latent models with limited size, fast adaptation can be achieved by leveraging the first-order gradient information. Extensive experiments show the effectiveness of MRA on both training performance and generalization ability in hard and unseen games.
翻訳日:2021-08-31 14:20:41 公開日:2021-08-30
# グラフニューラルネットワークに対する単一ノード注入攻撃

Single Node Injection Attack against Graph Neural Networks ( http://arxiv.org/abs/2108.13049v1 )

ライセンス: Link先を確認
Shuchang Tao, Qi Cao, Huawei Shen, Junjie Huang, Yunfan Wu, Xueqi Cheng(参考訳) Graph Neural Networks(GNN)に対するノードインジェクション攻撃は、攻撃者が元のノードやエッジを変更してGNNのパフォーマンスに影響を与えるのではなく、悪意のあるノードを注入する、新しくて実用的な攻撃シナリオである。 しかし、既存のノードインジェクション攻撃は、非常に制限されたシナリオを無視している。 本稿では,単一ノードインジェクション回避攻撃の極めて限定的なシナリオ,すなわち,GNNの性能を損なうために,テストフェーズ中に単一ノードを1つだけ注入することが許されていることに焦点を当てる。 ネットワーク構造の離散性とネットワーク構造とノード特徴の結合効果は、この極めて限られたシナリオに大きな課題をもたらす。 まず,単一ノードインジェクション回避攻撃の性能上界を探索する最適化ベース手法を提案する。 実験の結果、3つの公開データセット上の100%、98.60%、94.98%のノードが1つのエッジで1つのノードを注入するだけで攻撃され、単一ノードのインジェクション回避攻撃の可能性が確認された。 しかし、このような最適化に基づく手法は、各攻撃に対して再最適化する必要がある。 このジレンマを解決するため,攻撃性能を確保しつつ,攻撃効率を向上させるために汎用化可能なノード注入攻撃モデルG-NIAを提案する。 実験は3つの有名なGNNで行われている。 提案したG-NIAは最先端のベースラインを著しく上回り,推定時の最適化手法よりも500倍高速である。

Node injection attack on Graph Neural Networks (GNNs) is an emerging and practical attack scenario that the attacker injects malicious nodes rather than modifying original nodes or edges to affect the performance of GNNs. However, existing node injection attacks ignore extremely limited scenarios, namely the injected nodes might be excessive such that they may be perceptible to the target GNN. In this paper, we focus on an extremely limited scenario of single node injection evasion attack, i.e., the attacker is only allowed to inject one single node during the test phase to hurt GNN's performance. The discreteness of network structure and the coupling effect between network structure and node features bring great challenges to this extremely limited scenario. We first propose an optimization-based method to explore the performance upper bound of single node injection evasion attack. Experimental results show that 100%, 98.60%, and 94.98% nodes on three public datasets are successfully attacked even when only injecting one node with one edge, confirming the feasibility of single node injection evasion attack. However, such an optimization-based method needs to be re-optimized for each attack, which is computationally unbearable. To solve the dilemma, we further propose a Generalizable Node Injection Attack model, namely G-NIA, to improve the attack efficiency while ensuring the attack performance. Experiments are conducted across three well-known GNNs. Our proposed G-NIA significantly outperforms state-of-the-art baselines and is 500 times faster than the optimization-based method when inferring.
翻訳日:2021-08-31 14:20:19 公開日:2021-08-30
# ジェネレータ拡張を用いたオープンセットRFフィンガープリント

Open Set RF Fingerprinting using Generative Outlier Augmentation ( http://arxiv.org/abs/2108.13099v1 )

ライセンス: Link先を確認
Samurdhi Karunaratne, Samer Hanna, Danijela Cabric(参考訳) RFデバイスは、RF指紋と呼ばれる信号に埋め込まれたユニークな欠陥によって識別することができる。 このような装置のクローズドセット分類は、認証された送信機のうちの識別をする必要があるが、よく研究されている。 しかし、分類器が許可された送信機を認識しながら不正送信機を拒絶する必要があるオープンセット分類のより難しい問題は、最近になって始まったばかりである。 これまで、オープンセット分類の努力は、既知の無許可送信機から採取された信号サンプルを利用して、分類器が無許可送信機指紋を学習することに大きく依存してきた。 既知の送信機として使用する新しい送信機を取得するのは非常にコストがかかるため,未許可信号サンプルをエミュレートする生成的ディープラーニング手法を提案する。 我々は、2つの異なるデータ拡張技術を開発した。1つは限られた数の非許可送信機を活用し、もう1つは無許可送信機を必要としない。 WiFiテストベッドから取得したデータセットで行った実験は、データ拡張がオープンセットの分類精度を大幅に向上させることを示している。

RF devices can be identified by unique imperfections embedded in the signals they transmit called RF fingerprints. The closed set classification of such devices, where the identification must be made among an authorized set of transmitters, has been well explored. However, the much more difficult problem of open set classification, where the classifier needs to reject unauthorized transmitters while recognizing authorized transmitters, has only been recently visited. So far, efforts at open set classification have largely relied on the utilization of signal samples captured from a known set of unauthorized transmitters to aid the classifier learn unauthorized transmitter fingerprints. Since acquiring new transmitters to use as known transmitters is highly expensive, we propose to use generative deep learning methods to emulate unauthorized signal samples for the augmentation of training datasets. We develop two different data augmentation techniques, one that exploits a limited number of known unauthorized transmitters and the other that does not require any unauthorized transmitters. Experiments conducted on a dataset captured from a WiFi testbed indicate that data augmentation allows for significant increases in open set classification accuracy, especially when the authorized set is small.
翻訳日:2021-08-31 14:19:53 公開日:2021-08-30
# Whole Brain Vessel Graphs: グラフ学習と神経科学のためのデータセットとベンチマーク(VesselGraph)

Whole Brain Vessel Graphs: A Dataset and Benchmark for Graph Learning and Neuroscience (VesselGraph) ( http://arxiv.org/abs/2108.13233v1 )

ライセンス: Link先を確認
Johannes C. Paetzold, Julian McGinnis, Suprosanna Shit, Ivan Ezhov, Paul B\"uschl, Chinmay Prabhakar, Mihail I. Todorov, Anjany Sekuboyina, Georgios Kaissis, Ali Ert\"urk, Stephan G\"unnemann, Bjoern H. Menze(参考訳) 生物学的ニューラルネットワークは、ヒトや他の哺乳類の脳機能と知性を定義し、超大型で空間的、構造化されたグラフを形成する。 ニューロンの組織は脳の微小血管の空間構造と密接に関連しており、ニューロンに酸素を供給し、補完的な空間グラフを構築する。 この血管構造(または血管構造)は神経科学において重要な役割を担っている。 アルツハイマー病または脳卒中。 近年、組織クリアリングの進歩により、脳全体のイメージングとマウス脳の血管の分節化が可能になっている。 これらの画像技術の進歩を踏まえ,特定の画像プロトコルに基づく脳血管グラフの拡張可能なデータセットを提案する。 具体的には,ボリュームレンダリングエンジンのVoreenを利用した精巧なグラフ抽出手法を用いて血管グラフを抽出し,OGBおよびPyTorch Geometric Dataloaderを介してアクセス可能で適応可能な形式で提供する。 さらに,導入した血管グラフデータセットを用いた血管の予測と血管分類の生物学的タスクについて,最先端のグラフ学習アルゴリズムを多数ベンチマークした。 我々の研究は、神経科学の分野に関するグラフ学習研究を進める道を開いた。 相補的に提示されたデータセットは、学習アルゴリズムに生物学的プライオリティを組み込んだり、数百万のノードとエッジを持つスパースな空間グラフを扱うためにこれらのアルゴリズムをスケールするという点で、機械学習コミュニティにとって挑戦的なグラフ学習研究の課題を提起する。 すべてのデータセットとコードはhttps://github.com/j ocpae/VesselGraphでダウンロードできる。

Biological neural networks define the brain function and intelligence of humans and other mammals, and form ultra-large, spatial, structured graphs. Their neuronal organization is closely interconnected with the spatial organization of the brain's microvasculature, which supplies oxygen to the neurons and builds a complementary spatial graph. This vasculature (or the vessel structure) plays an important role in neuroscience; for example, the organization of (and changes to) vessel structure can represent early signs of various pathologies, e.g. Alzheimer's disease or stroke. Recently, advances in tissue clearing have enabled whole brain imaging and segmentation of the entirety of the mouse brain's vasculature. Building on these advances in imaging, we are presenting an extendable dataset of whole-brain vessel graphs based on specific imaging protocols. Specifically, we extract vascular graphs using a refined graph extraction scheme leveraging the volume rendering engine Voreen and provide them in an accessible and adaptable form through the OGB and PyTorch Geometric dataloaders. Moreover, we benchmark numerous state-of-the-art graph learning algorithms on the biologically relevant tasks of vessel prediction and vessel classification using the introduced vessel graph dataset. Our work paves a path towards advancing graph learning research into the field of neuroscience. Complementarily, the presented dataset raises challenging graph learning research questions for the machine learning community, in terms of incorporating biological priors into learning algorithms, or in scaling these algorithms to handle sparse,spatial graphs with millions of nodes and edges. All datasets and code are available for download at https://github.com/j ocpae/VesselGraph .
翻訳日:2021-08-31 14:19:33 公開日:2021-08-30
# クラウドソーシングレポートときめ細かい交通データを用いた機械学習による道路洪水リスク予測

Predicting Road Flooding Risk with Machine Learning Approaches Using Crowdsourced Reports and Fine-grained Traffic Data ( http://arxiv.org/abs/2108.13265v1 )

ライセンス: Link先を確認
Faxi Yuan, William Mobley, Hamed Farahmand, Yuanchang Xu, Russell Blessing, Ali Mostafavi, Samuel D. Brody(参考訳) 本研究の目的は,機械学習モデルを用いた地形,水文,時間降水特性に基づく道路洪水リスクの予測である。 道路ネットワークの洪水状況の予測的洪水モニタリングは,地域社会のハザード緩和,準備,対応活動において重要な役割を担っている。 道路浸水推定に関する既存研究では, モデル検証のための観測された道路浸水データがないか, 主に洪水地図に基づく道路浸水暴露評価に焦点を当てている。 本研究では,道路浸食の指標としてクラウドソース,微粒化トラフィックデータを用い,地形・水文・時相降水特性を予測変数とした。 その後、テキサス州ハリス郡の2017 Hurricane Harveyと2019 Tropical Storm Imeldaという2つのツリーベース機械学習モデル(ランダムフォレストとAdaBoost)がテストされ、道路浸水を予測するために訓練された。 ハリケーン・ハーヴェイの調査結果は、降水は道路浸水感受性を予測する上で最も重要な特徴であり、地形的特徴は両ハリケーンの道路浸水を予測するための水文学的特徴よりも重要であることを示している。 ランダム森林モデルとAdaBoostモデルは比較的高いAUCスコア(ハーヴェイは0.860、イメルダは0.810、イメルダは0.790、イメルダは0.720)を持っていた。 ランダム林モデルではハーヴェイでは安定し,イメルダでは顕著に変動した。 本研究は,道路レベルでの洪水リスクマップの予測という観点から,スマートフラッディングレジリエンスの新興分野を前進させる。 例えば、このようなモデルによって、地域社会や緊急管理機関は、極端な気象イベントが展開する際の道路浸水可能性の状況認識を改善して、より良い準備と対応戦略を開発することができる。

The objective of this study is to predict road flooding risks based on topographic, hydrologic, and temporal precipitation features using machine learning models. Predictive flood monitoring of road network flooding status plays an essential role in community hazard mitigation, preparedness, and response activities. Existing studies related to the estimation of road inundations either lack observed road inundation data for model validations or focus mainly on road inundation exposure assessment based on flood maps. This study addresses this limitation by using crowdsourced and fine-grained traffic data as an indicator of road inundation, and topographic, hydrologic, and temporal precipitation features as predictor variables. Two tree-based machine learning models (random forest and AdaBoost) were then tested and trained for predicting road inundations in the contexts of 2017 Hurricane Harvey and 2019 Tropical Storm Imelda in Harris County, Texas. The findings from Hurricane Harvey indicate that precipitation is the most important feature for predicting road inundation susceptibility, and that topographic features are more essential than hydrologic features for predicting road inundations in both storm cases. The random forest and AdaBoost models had relatively high AUC scores (0.860 and 0.810 for Harvey respectively and 0.790 and 0.720 for Imelda respectively) with the random forest model performing better in both cases. The random forest model showed stable performance for Harvey, while varying significantly for Imelda. This study advances the emerging field of smart flood resilience in terms of predictive flood risk mapping at the road level. For example, such models could help impacted communities and emergency management agencies develop better preparedness and response strategies with improved situational awareness of road inundation likelihood as an extreme weather event unfolds.
翻訳日:2021-08-31 14:19:02 公開日:2021-08-30
# MLによる逆設定によるIoTマルウェア検出:システム評価

ML-based IoT Malware Detection Under Adversarial Settings: A Systematic Evaluation ( http://arxiv.org/abs/2108.13373v1 )

ライセンス: Link先を確認
Ahmed Abusnaina, Afsah Anwar, Sultan Alshamrani, Abdulrahman Alabduljabbar, RhongHo Jang, Daehun Nyang, David Mohaisen(参考訳) IoT(Internet of Things)デバイスの急速な成長は、悪意のある攻撃の最前線にあることによる。 これによりIoTマルウェアの数が爆発的に増加し、継続的な突然変異、進化、洗練が続いている。 これらの悪意あるソフトウェアは、従来のシグネチャベースの手法と並行して機械学習(ML)アルゴリズムを用いて検出される。 MLベースの検出器は検出性能を向上させるが、マルウェアの進化や高度化の影響を受けやすく、訓練されたパターンに限られる。 この継続的な傾向は、マルウェア分析と検出研究に関する多くの文献を動機付け、多くのシステムが常に出現し、前者よりも優れている。 本研究では,様々な表現手法や学習手法を用いたマルウェア検出手法を,様々な敵環境下で体系的に検討する。 本分析では,悪質なソフトウェアと区別する学習パターンにおいて,提案する検出器の不安定性を強調した。 その結果, 剥ぎ取りやパディングなどの機能保存操作によるソフトウェア変異は, 検出精度を著しく低下させることがわかった。 また,業界標準マルウェア検出器の解析により,マルウェア変異に対する不安定性が示された。

The rapid growth of the Internet of Things (IoT) devices is paralleled by them being on the front-line of malicious attacks. This has led to an explosion in the number of IoT malware, with continued mutations, evolution, and sophistication. These malicious software are detected using machine learning (ML) algorithms alongside the traditional signature-based methods. Although ML-based detectors improve the detection performance, they are susceptible to malware evolution and sophistication, making them limited to the patterns that they have been trained upon. This continuous trend motivates the large body of literature on malware analysis and detection research, with many systems emerging constantly, and outperforming their predecessors. In this work, we systematically examine the state-of-the-art malware detection approaches, that utilize various representation and learning techniques, under a range of adversarial settings. Our analyses highlight the instability of the proposed detectors in learning patterns that distinguish the benign from the malicious software. The results exhibit that software mutations with functionality-preser ving operations, such as stripping and padding, significantly deteriorate the accuracy of such detectors. Additionally, our analysis of the industry-standard malware detectors shows their instability to the malware mutations.
翻訳日:2021-08-31 14:18:30 公開日:2021-08-30
# 弱教師付きガンマハドロン分類のためのノイズラベル

Noisy Labels for Weakly Supervised Gamma Hadron Classification ( http://arxiv.org/abs/2108.13396v1 )

ライセンス: Link先を確認
Lukas Pfahler, Mirko Bunse, Katharina Morik(参考訳) ガンマ線天文学の中心となる機械学習タスクであるガンマハドロン分類は、従来は教師付き学習で取り組まれている。 しかし、教師付きアプローチでは、高度でコストのかかるシミュレーションで、注釈付きトレーニングデータを生成する必要がある。 本研究では、実際の望遠鏡で記録されたラベルなしデータのみを使用するノイズラベル方式でガンマハドロン分類を解くことを提案する。 この目的のために,我々は,この弱い監視形式に対処する学習基準として,検出の意義を用いる。 我々は,検出の重要性に基づくモデルが,ノイズラベルにのみ訓練されているにもかかわらず,最先端の結果をもたらすことを示す。 我々の弱教師付きモデルは、他の様々なアプリケーションドメインに由来する不均衡データセットでも競争性能を示す。 クラス条件ラベルノイズに関する既存の研究とは対照的に、クラスレベルのノイズレートの1つのみが知られていると仮定する。

Gamma hadron classification, a central machine learning task in gamma ray astronomy, is conventionally tackled with supervised learning. However, the supervised approach requires annotated training data to be produced in sophisticated and costly simulations. We propose to instead solve gamma hadron classification with a noisy label approach that only uses unlabeled data recorded by the real telescope. To this end, we employ the significance of detection as a learning criterion which addresses this form of weak supervision. We show that models which are based on the significance of detection deliver state-of-the-art results, despite being exclusively trained with noisy labels; put differently, our models do not require the costly simulated ground-truth labels that astronomers otherwise employ for classifier training. Our weakly supervised models exhibit competitive performances also on imbalanced data sets that stem from a variety of other application domains. In contrast to existing work on class-conditional label noise, we assume that only one of the class-wise noise rates is known.
翻訳日:2021-08-31 14:18:14 公開日:2021-08-30
# 暗号化ストリーミングビデオにおけるロバストなプライバシー保護動作検出と物体追跡

Robust Privacy-Preserving Motion Detection and Object Tracking in Encrypted Streaming Video ( http://arxiv.org/abs/2108.13141v1 )

ライセンス: Link先を確認
Xianhao Tian, Peijia Zheng, Jiwu Huang(参考訳) 特にクラウドベースのビデオ監視システムでは、ビデオのプライバシーリークがますます深刻な問題になりつつある。 ビデオはプライバシー保護のために暗号化されるため、セキュアなクラウドベースのビデオアプリケーションが必要となる。 暗号化されたビデオ移動物体の検出と追跡のために提案されているいくつかの方法にもかかわらず、複雑でダイナミックなシーンに対して堅牢な性能を持つものはない。 本稿では,暗号化された監視ビデオビットストリームに対して,効率良くロバストなプライバシー保存動作検出手法と複数のオブジェクト追跡方式を提案する。 ビデオコーデックとフォーマットに準拠した暗号化方式の特性を解析することにより,複雑な監視シナリオで動作情報をキャプチャする新しい圧縮ドメイン機能を提案する。 この特徴に基づき、4x4ピクセルの精度で移動物体の分割を行う適応クラスタリングアルゴリズムを設計した。 次に,Kalmanフィルタ推定と適応計測補正を用いた複数物体追跡手法を提案する。 提案手法では, ビデオ復号や全圧縮を必要とせず, 計算負荷が非常に低い。 実験の結果,本手法は暗号化および圧縮領域における既存手法と比較して,最良の検出および追跡性能を達成できることが判明した。 提案手法は,カメラ移動/ジッタ,ダイナミック背景,シャドウといった異なる課題を伴う複雑な監視シナリオにおいて効果的に使用できる。

Video privacy leakage is becoming an increasingly severe public problem, especially in cloud-based video surveillance systems. It leads to the new need for secure cloud-based video applications, where the video is encrypted for privacy protection. Despite some methods that have been proposed for encrypted video moving object detection and tracking, none has robust performance against complex and dynamic scenes. In this paper, we propose an efficient and robust privacy-preserving motion detection and multiple object tracking scheme for encrypted surveillance video bitstreams. By analyzing the properties of the video codec and format-compliant encryption schemes, we propose a new compressed-domain feature to capture motion information in complex surveillance scenarios. Based on this feature, we design an adaptive clustering algorithm for moving object segmentation with an accuracy of 4x4 pixels. We then propose a multiple object tracking scheme that uses Kalman filter estimation and adaptive measurement refinement. The proposed scheme does not require video decryption or full decompression and has a very low computation load. The experimental results demonstrate that our scheme achieves the best detection and tracking performance compared with existing works in the encrypted and compressed domain. Our scheme can be effectively used in complex surveillance scenarios with different challenges, such as camera movement/jitter, dynamic background, and shadows.
翻訳日:2021-08-31 14:17:26 公開日:2021-08-30
# 音声認識のためのマルチチャネル変換器

Multi-Channel Transformer Transducer for Speech Recognition ( http://arxiv.org/abs/2108.12953v1 )

ライセンス: Link先を確認
Feng-Ju Chang, Martin Radfar, Athanasios Mouchtaris, Maurizio Omologo(参考訳) マルチチャネル入力は、オンデバイス音声認識システムの堅牢性を改善するために、シングルチャネルよりもいくつかの利点を提供する。 近年のマルチチャネルトランスの研究で、これらの入力をエンドツーエンドのASRに組み込んで精度を向上させる方法が提案されている。 しかし、このアプローチは高い計算複雑性が特徴であり、デバイス上のシステムにデプロイされるのを防ぐことができる。 本稿では,端末内音声認識におけるストリーミング復号化に適した,エンドツーエンドのマルチチャネルトレーニング,低計算コスト,低レイテンシを特徴とする新しい音声認識モデルMCTTを提案する。 遠距離フィールド内データセットでは、MCTTはトランスデューサを用いたステージワイドマルチチャネルモデルよりも6.01%の相対WER改善(WERR)を実現している。 さらにMCTTは、マルチチャネルトランスフォーマーを11.62% WERRに上回り、推論速度の15.8倍高速である。 さらに,注意計算における将来と過去の文脈を制約することにより,MCTTの計算コストを向上できることを示す。

Multi-channel inputs offer several advantages over single-channel, to improve the robustness of on-device speech recognition systems. Recent work on multi-channel transformer, has proposed a way to incorporate such inputs into end-to-end ASR for improved accuracy. However, this approach is characterized by a high computational complexity, which prevents it from being deployed in on-device systems. In this paper, we present a novel speech recognition model, Multi-Channel Transformer Transducer (MCTT), which features end-to-end multi-channel training, low computation cost, and low latency so that it is suitable for streaming decoding in on-device speech recognition. In a far-field in-house dataset, our MCTT outperforms stagewise multi-channel models with transformer-transduc er up to 6.01% relative WER improvement (WERR). In addition, MCTT outperforms the multi-channel transformer up to 11.62% WERR, and is 15.8 times faster in terms of inference speed. We further show that we can improve the computational cost of MCTT by constraining the future and previous context in attention computations.
翻訳日:2021-08-31 14:16:32 公開日:2021-08-30
# 正規化場流:物理インフォームドフローモデルを用いた前方および逆確率微分方程式の解法

Normalizing Field Flows: Solving forward and inverse stochastic differential equations using Physics-Informed flow model ( http://arxiv.org/abs/2108.12956v1 )

ライセンス: Link先を確認
Ling Guo, Hao Wu, Tao Zhou(参考訳) 本研究では,散乱測定からランダム場を学習する場流の正規化(NFF)について紹介する。 より正確には、基準確率場(例えばカルフネン=ロ=エベ展開構造を持つガウス確率場)と目標確率場の間の単射変換(ニューラルネットワークによって特徴づけられる正規化フロー)を構築し、kl展開係数と可逆ネットワークを散乱測定値の対数類似度の総和を最大化することにより訓練する。 この nff モデルは、一元的な枠組みでデータ駆動前方・逆・混合確率偏微分方程式を解くのに使うことができる。 我々は、非ガウス過程、混合ガウス過程、前方および逆確率偏微分方程式を学習するためのNFFモデルの有効性を実証する。

We introduce in this work the normalizing field flows (NFF) for learning random fields from scattered measurements. More precisely, we construct a bijective transformation (a normalizing flow characterizing by neural networks) between a reference random field (say, a Gaussian random field with the Karhunen-Lo\`eve expansion structure) and the target stochastic field, where the KL expansion coefficients and the invertible networks are trained by maximizing the sum of the log-likelihood on scattered measurements. This NFF model can be used to solve data-driven forward, inverse, and mixed forward/inverse stochastic partial differential equations in a unified framework. We demonstrate the capability of the proposed NFF model for learning Non Gaussian processes, mixed Gaussian processes, and forward & inverse stochastic partial differential equations.
翻訳日:2021-08-31 14:16:13 公開日:2021-08-30
# 物理形ニューラルネットワークにおけるwasserstein生成逆不確実性定量化

Wasserstein Generative Adversarial Uncertainty Quantification in Physics-Informed Neural Networks ( http://arxiv.org/abs/2108.13054v1 )

ライセンス: Link先を確認
Yihang Gao and Michael K. Ng(参考訳) 本稿では,偏微分方程式の解における不確実性定量化のための物理インフォームドアルゴリズムをWasserstein Generative Adversarial Networks (WGANs) に対して検討する。 逆ネットワーク判別器におけるグループソート活性化関数を用いて、初期/境界データから観測される偏微分方程式の解の不確かさをネットワーク生成器で学習する。 穏やかな仮定の下では、計算されたジェネレータの一般化誤差は、サンプル数を十分に取ると、高い確率でネットワークの近似誤差に収束することを示す。 確立されたエラーバウンドによると、我々の物理インフォームドWGANは、ジェネレータよりも識別器の容量が要求される。 偏微分方程式の合成例に関する数値計算の結果を報告し, 偏微分方程式の解と初期/境界データの分布について不確かさの定量化が可能であることを示す。

In this paper, we study a physics-informed algorithm for Wasserstein Generative Adversarial Networks (WGANs) for uncertainty quantification in solutions of partial differential equations. By using groupsort activation functions in adversarial network discriminators, network generators are utilized to learn the uncertainty in solutions of partial differential equations observed from the initial/boundary data. Under mild assumptions, we show that the generalization error of the computed generator converges to the approximation error of the network with high probability, when the number of samples are sufficiently taken. According to our established error bound, we also find that our physics-informed WGANs have higher requirement for the capacity of discriminators than that of generators. Numerical results on synthetic examples of partial differential equations are reported to validate our theoretical results and demonstrate how uncertainty quantification can be obtained for solutions of partial differential equations and the distributions of initial/boundary data.
翻訳日:2021-08-31 14:15:57 公開日:2021-08-30
# 非弾性構造を有する材料のマルチスケールモデリングのための熱力学に基づくニューラルネットワーク(TANN)

Thermodynamics-based Artificial Neural Networks (TANN) for multiscale modeling of materials with inelastic microstructure ( http://arxiv.org/abs/2108.13137v1 )

ライセンス: Link先を確認
Filippo Masi and Ioannis Stefanou(参考訳) ミクロ組織を有する非弾性材料の力学的挙動は非常に複雑であり、ヒューリスティックな経験的構成モデルでは把握が困難である。 この目的のために、マイクロ構造体のマクロ力学的挙動の信頼性と正確な予測を行うために、多スケール均質化手法がしばしば用いられる。 しかしながら、そのような手法の計算コストは非常に高く、非弾性材料を含む現実的な応用には不当である。 近年、アドホックな構成法則や高速なマルチスケール数値法に代わるものとして、ディープラーニングに基づくデータ駆動型アプローチが注目されている。 しかし、そのようなアプローチは物理学の法則に基づく厳密な枠組みを欠いている。 その結果, 複雑な非弾性構造を有するモデル材料への応用はまだ確立されていない。 本稿では,非弾性・複雑な構造を持つ材料の構成モデリングのための熱力学に基づくニューラルネットワーク(TANN)を提案する。 本手法は,熱力学を考慮した次元低減技術と深層ニューラルネットワークを統合し,複雑な非弾性材料の構成則と内部状態変数を同定する。 TANNが高忠実で物理的に一貫した予測を行う能力は、顕微鏡とマクロスケールの両方でいくつかの例を通して示される。 特に, 平均的および局所的な応力-ひずみ応答, 内部エネルギー, 非弾性における規則的および摂動的格子微細構造の散逸の予測において, タンの効率と精度を示す。 最後に、大規模境界値問題を解くために二重相同化スキームを用いる。 TANNを用いた同種モデルの高性能化について,詳細な比較を行った。 種々の単調および環状応力-ひずみ経路に対して優れた一致を示す。

The mechanical behavior of inelastic materials with microstructure is very complex and hard to grasp with heuristic, empirical constitutive models. For this purpose, multiscale, homogenization approaches are often used for performing reliable, accurate predictions of the macroscopic mechanical behavior of microstructured solids. Nevertheless, the calculation cost of such approaches is extremely high and prohibitive for real-scale applications involving inelastic materials. Recently, data-driven approaches based on deep learning have risen as a promising alternative to replace ad-hoc constitutive laws and speed-up multiscale numerical methods. However, such approaches lack a rigorous frame based on the laws of physics. As a result, their application to model materials with complex microstructure in inelasticity is not yet established. Here, we propose Thermodynamics-based Artificial Neural Networks (TANN) for the constitutive modeling of materials with inelastic and complex microstructure. Our approach integrates thermodynamics-aware dimensionality reduction techniques and deep neural networks to identify the constitutive laws and the internal state variables of complex inelastic materials. The ability of TANN in delivering high-fidelity, physically consistent predictions is demonstrated through several examples both at the microscopic and macroscopic scale. In particular, we show the efficiency and accuracy of TANN in predicting the average and local stress-strain response, the internal energy and the dissipation of both regular and perturbed lattice microstructures in inelasticity. Finally, a double-scale homogenization scheme is used to solve a large scale boundary value problem. The high performance of the homogenized model using TANN is illustrated through detailed comparisons. An excellent agreement is shown for a variety of monotonous and cyclic stress-strain paths.
翻訳日:2021-08-31 14:15:40 公開日:2021-08-30
# ニューラルなHMMは必要なもの(高品質な注意力のないTS)

Neural HMMs are all you need (for high-quality attention-free TTS) ( http://arxiv.org/abs/2108.13320v1 )

ライセンス: Link先を確認
Shivam Mehta, \'Eva Sz\'ekely, Jonas Beskow, Gustav Eje Henter(参考訳) HMMを用いた古典的統計パラメトリック音声合成より,TTSの出力品質は著しく向上した。 しかし、新しいパラダイムは確率的ではなく、非単調な注意がトレーニング時間を増加させ、プロダクションでは受け入れられない"バブリング"障害モードを導入する。 本稿では,タコトロン2の注意をニューラルネットワークで定義した自己回帰的な非スキップ隠れマルコフモデルに置き換えることで,両世界の利点を得るために新旧のパラダイムを組み合わせることができることを実証する。 これにより、モノトニックアライメントを備えたHMMベースのニューラルTSモデルが実現され、近似なしで全シーケンス確率を最大化するように訓練される。 我々は,古典的および現代的ttsのイノベーションを最高の結果に結びつける方法について論じる。 最終システムはTacotron 2よりも小さくてシンプルで、同じ言語自然性を実現しつつ、より少ないイテレーションで調整と話し方を学ぶ。 タコトロン2とは異なり、発話速度の制御も容易である。 オーディオサンプルとコードはhttps://shivammehta0 07.github.io/neural- hmm/で入手できる。

Neural sequence-to-sequence TTS has demonstrated significantly better output quality over classical statistical parametric speech synthesis using HMMs. However, the new paradigm is not probabilistic and the use of non-monotonic attention both increases training time and introduces "babbling" failure modes that are unacceptable in production. In this paper, we demonstrate that the old and new paradigms can be combined to obtain the advantages of both worlds, by replacing the attention in Tacotron 2 with an autoregressive left-right no-skip hidden-Markov model defined by a neural network. This leads to an HMM-based neural TTS model with monotonic alignment, trained to maximise the full sequence likelihood without approximations. We discuss how to combine innovations from both classical and contemporary TTS for best results. The final system is smaller and simpler than Tacotron 2 and learns to align and speak with fewer iterations, while achieving the same speech naturalness. Unlike Tacotron 2, it also allows easy control over speaking rate. Audio examples and code are available at https://shivammehta0 07.github.io/Neural- HMM/
翻訳日:2021-08-31 14:15:16 公開日:2021-08-30
# (参考訳) Canoe : ニューラルネットワークのための協調学習システム [全文訳有]

Canoe : A System for Collaborative Learning for Neural Nets ( http://arxiv.org/abs/2108.12124v2 )

ライセンス: CC BY 4.0
Harshit Daga, Yiwen Chen, Aastha Agrawal, Ada Gavrilovska(参考訳) エッジコンピューティングのような高度に分散した環境では、協調学習アプローチによってグローバルな共有モデルへの依存が促進され、各場所に適したモデルが好まれる。 個別の学習コンテキストに適したモデルを作成することは、データ転送の量を減らす一方、ピア間のコラボレーションは許容できるモデルパフォーマンスを提供する。 しかし、知識が正確なモデルスライスによって容易に引き起こされない深層学習モデルでは自明ではない、知識伝達メカニズムが利用可能であると仮定する。 Canoe - ニューラルネットワークの知識伝達を容易にするフレームワークを提案する。 Canoeは、ヘルパーノードのニューラルネットワークから重要なパラメータを動的に抽出する新しいシステムサポートを提供し、ターゲットノードの予測パフォーマンスを改善するために、マルチモデルブースティングベースのアプローチでこれを使用する。 異なるPyTorchとTensorFlowニューラルネットワークモデルによるCanoeの評価は、知識伝達機構が、独立した学習に比べて3.5倍までモデルの適応性を向上し、フェデレートされた学習に比べてデータ移動コストが大幅に削減されることを示した。

For highly distributed environments such as edge computing, collaborative learning approaches eschew the dependence on a global, shared model, in favor of models tailored for each location. Creating tailored models for individual learning contexts reduces the amount of data transfer, while collaboration among peers provides acceptable model performance. Collaboration assumes, however, the availability of knowledge transfer mechanisms, which are not trivial for deep learning models where knowledge isn't easily attributed to precise model slices. We present Canoe - a framework that facilitates knowledge transfer for neural networks. Canoe provides new system support for dynamically extracting significant parameters from a helper node's neural network and uses this with a multi-model boosting-based approach to improve the predictive performance of the target node. The evaluation of Canoe with different PyTorch and TensorFlow neural network models demonstrates that the knowledge transfer mechanism improves the model's adaptiveness to changes up to 3.5X compared to learning in isolation, while affording several magnitudes reduction in data movement costs compared to federated learning.
翻訳日:2021-08-31 11:08:16 公開日:2021-08-30
# (参考訳) ProtoInfoMax: ドメイン外検出のための相互情報最大化を備えたプロトタイプネットワーク [全文訳有]

ProtoInfoMax: Prototypical Networks with Mutual Information Maximization for Out-of-Domain Detection ( http://arxiv.org/abs/2108.12229v2 )

ライセンス: CC BY 4.0
Iftitahu Ni'mah, Meng Fang, Vlado Menkovski, Mykola Pechenizkiy(参考訳) OOD(Out-of-Domain)インプットを検出する能力は、OODインプットがサポートされていないため、多くの現実世界のNLPアプリケーションにおいて重要な要件となっている。 しかし、OODトレーニングデータがゼロである現実的なシナリオでは、現在のアルゴリズムがそのような問題に確実に対処できるかどうか、実証的な疑問が残る。 本研究では,プロトタイプネットワークを拡張し,相互情報最大化(infomax)目標を用いて,ドメイン内(id)文とオード文を同時に処理する新しいアーキテクチャprotoinfomaxを提案する。 実験の結果,本手法はテキスト分類の低リソース設定におけるOOD検出性能を最大20%向上させることができることがわかった。 また、ProtoInfoMaxは、ニューラルネットワークの一般的な過信エラーの傾向が低く、より信頼性の高いIDとOOD予測結果をもたらすことを示す。

The ability to detect Out-of-Domain (OOD) inputs has been a critical requirement in many real-world NLP applications since the inclusion of unsupported OOD inputs may lead to catastrophic failure of systems. However, it remains an empirical question whether current algorithms can tackle such problem reliably in a realistic scenario where zero OOD training data is available. In this study, we propose ProtoInfoMax, a new architecture that extends Prototypical Networks to simultaneously process In-Domain (ID) and OOD sentences via Mutual Information Maximization (InfoMax) objective. Experimental results show that our proposed method can substantially improve performance up to 20% for OOD detection in low resource settings of text classification. We also show that ProtoInfoMax is less prone to typical over-confidence Error of Neural Networks, leading to more reliable ID and OOD prediction outcomes.
翻訳日:2021-08-31 10:44:01 公開日:2021-08-30
# 結合エンティティと関係抽出のための分割フィルタネットワーク

A Partition Filter Network for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2108.12202v2 )

ライセンス: Link先を確認
Zhiheng Yan, Chong Zhang, Jinlan Fu, Qi Zhang, Zhongyu Wei(参考訳) エンティティと関係抽出のジョイント・エンティティでは、既存の作業はタスク固有の機能を逐次エンコードし、後に抽出された機能が直接接触しないタスク間の機能インタラクションの不均衡に繋がる。 あるいは、エンティティの特徴と関係機能を並列にエンコードする。つまり、各タスクに対する機能表現学習は、入力共有を除いて、ほとんど独立している。 本稿では,タスク間の双方向インタラクションを適切にモデル化する分割フィルタネットワークを提案する。 エンコーダでは、エンティティとリレーショナルゲートという2つのゲートを利用して、ニューロンを2つのタスクパーティションと1つの共有パーティションに分割する。 共有パーティションは、両方のタスクに価値のあるタスク間情報を表し、適切な双方向インタラクションを保証するために2つのタスク間で均等に共有される。 タスクパーティションはタスク内の情報を表し、両方のゲートの協調した努力によって形成され、タスク固有の機能のエンコーディングが互いに依存していることを保証する。 5つの公開データセットの実験結果から,我々のモデルは従来の手法よりもはるかに優れた性能を示した。 ソースコードはhttps://github.com/C oopercoppers/PFNで確認できる。

In joint entity and relation extraction, existing work either sequentially encode task-specific features, leading to an imbalance in inter-task feature interaction where features extracted later have no direct contact with those that come first. Or they encode entity features and relation features in a parallel manner, meaning that feature representation learning for each task is largely independent of each other except for input sharing. We propose a partition filter network to model two-way interaction between tasks properly, where feature encoding is decomposed into two steps: partition and filter. In our encoder, we leverage two gates: entity and relation gate, to segment neurons into two task partitions and one shared partition. The shared partition represents inter-task information valuable to both tasks and is evenly shared across two tasks to ensure proper two-way interaction. The task partitions represent intra-task information and are formed through concerted efforts of both gates, making sure that encoding of task-specific features are dependent upon each other. Experiment results on five public datasets show that our model performs significantly better than previous approaches. The source code can be found in https://github.com/C oopercoppers/PFN.
翻訳日:2021-08-31 10:26:34 公開日:2021-08-30
# 修復セマンティックスにおける経時的DLライトの不整合データのクリーニング

Cleaning Inconsistent Data in Temporal DL-Lite Under Best Repair Semantics ( http://arxiv.org/abs/2108.12149v2 )

ライセンス: Link先を確認
Mourad Ouziri (LIPADE - EA 2517), Sabiha Tahrat (LIPADE - EA 2517), Salima Benbernou (LIPADE - EA 2517), Mourad Ouzirri(参考訳) 本稿では,時間記述論理(TDL)知識ベースにおける一貫性のないデータ処理の問題に対処する。 本稿では,知識ベースのデータ部分を不整合の原因として考慮し,ABox修復手法を提案する。 これは、tdlの知識ベースで修復を扱う最初の作業である。 そのために,(1)時間的不整合の検出,2)データ時間的リペアメントの提案という2つの目標を設定した。 不整合検出のために、TDL概念のNP完全上界を厳密に設定し、正確な説明(一貫性のないデータアサーションの集合)をもたらすように高度に最適化されたDL推論器を使用するTDLからDLへの還元アプローチを提案する。 その後、得られた説明から、許容された剛性述語とアサーションの時間順序に基づいて、時間設定における最良の修復を自動的に計算する手法を提案する。

In this paper, we address the problem of handling inconsistent data in Temporal Description Logic (TDL) knowledge bases. Considering the data part of the Knowledge Base as the source of inconsistency over time, we propose an ABox repair approach. This is the first work handling the repair in TDL Knowledge bases. To do so, our goal is twofold: 1) detect temporal inconsistencies and 2) propose a data temporal reparation. For the inconsistency detection, we propose a reduction approach from TDL to DL which allows to provide a tight NP-complete upper bound for TDL concept satisfiability and to use highly optimised DL reasoners that can bring precise explanation (the set of inconsistent data assertions). Thereafter, from the obtained explanation, we propose a method for automatically computing the best repair in the temporal setting based on the allowed rigid predicates and the time order of assertions.
翻訳日:2021-08-31 10:25:54 公開日:2021-08-30
# 視聴覚イベントローカライズのためのマルチモジュレーションネットワーク

Multi-Modulation Network for Audio-Visual Event Localization ( http://arxiv.org/abs/2108.11773v2 )

ライセンス: Link先を確認
Hao Wang, Zheng-Jun Zha, Liang Li, Xuejin Chen, Jiebo Luo(参考訳) 本研究では,可聴性と可視性を兼ね備えた視聴覚イベントのローカライズについて検討する。 既存の作業は,2つのモードのセグメント間の情報的相関や,マルチスケールなイベントの提案を無視しながら,セグメントレベルでの音声と視覚の特徴の符号化と調整に重点を置いている。 以上の相関関係を学習し,それを意味指導として活用し,関連する聴覚・視覚・融合特徴を変調する新しいマルチ変調ネットワーク(M2N)を提案する。 特に特徴エンコーディングにおいて,クロスモーダル正規化とイントラモーダル正規化を提案する。 前者は、交叉モーダル関係を確立し、活用することにより、2つのモーダルの特徴を変調する。 後者は、同じモダリティのイベント関連セマンティックガイダンスで単一のモダリティの特徴を変調する。 融合段階では,マルチスケールのイベント提案を導入し,クロスモーダルセグメント間の密マッチングを可能にするマルチスケール提案変調モジュールとマルチアグリゲーションセグメント変調モジュールを提案する。 M2Nは、聴覚、視覚、融合の特徴を、音声・視覚イベントに関する相関情報によって変調することにより、正確なイベントローカライゼーションを行う。 AVEデータセット上で行った大規模な実験により,提案手法は,教師付きイベントの局所化と相互モダリティの局所化の両方において,最先端の手法であることがわかった。

We study the problem of localizing audio-visual events that are both audible and visible in a video. Existing works focus on encoding and aligning audio and visual features at the segment level while neglecting informative correlation between segments of the two modalities and between multi-scale event proposals. We propose a novel MultiModulation Network (M2N) to learn the above correlation and leverage it as semantic guidance to modulate the related auditory, visual, and fused features. In particular, during feature encoding, we propose cross-modal normalization and intra-modal normalization. The former modulates the features of two modalities by establishing and exploiting the cross-modal relationship. The latter modulates the features of a single modality with the event-relevant semantic guidance of the same modality. In the fusion stage,we propose a multi-scale proposal modulating module and a multi-alignment segment modulating module to introduce multi-scale event proposals and enable dense matching between cross-modal segments. With the auditory, visual, and fused features modulated by the correlation information regarding audio-visual events, M2N performs accurate event localization. Extensive experiments conducted on the AVE dataset demonstrate that our proposed method outperforms the state of the art in both supervised event localization and cross-modality localization.
翻訳日:2021-08-31 10:25:37 公開日:2021-08-30