このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210624となっている論文です。

PDF登録状況(公開日: 20210624)

TitleAuthorsAbstract論文公表日・翻訳日
# 行動木(PCGBT)を用いた手続き的コンテンツ生成

Procedural Content Generation using Behavior Trees (PCGBT) ( http://arxiv.org/abs/2107.06638v1 )

ライセンス: Link先を確認
Anurag Sarkar, Seth Cooper(参考訳) 行動木(BT)は、NPCと敵AIの振る舞いをモデル化する一般的な手法であり、多くの商用ゲームで広く使われている。 本稿では,BTを用いてゲームプレイングエージェントをモデル化する代わりに,ゲームデザインエージェントをモデル化し,動作をゲーム内アクションではなくコンテンツ生成タスクの実行として定義する。 従来のBTがモジュール的かつ動的にモデリングの動作を可能にするのと同じように、PCGのBTは、モジュール的にレベルの一部を生成するための単純なサブツリーを可能とし、全体のレベルを生成するためのより複雑なツリーと、生成されたコンテンツを動的に変化させるジェネレータを生成する。 我々は、BTを用いてスーパーマリオブラザーズ、メガマン、メトロイドのジェネレータとダンジョンレイアウトをモデル化し、このPCGBTパラダイムを将来適用し拡張するいくつかの方法について論じる。

Behavior trees (BTs) are a popular method of modeling the behavior of NPCs and enemy AI and have found widespread use in a large number of commercial games. In this paper, rather than use BTs to model game-playing agents, we demonstrate their use for modeling game design agents, defining behaviors as executing content generation tasks rather than in-game actions. Similar to how traditional BTs enable modeling behaviors in a modular and dynamic manner, BTs for PCG enable simple subtrees for generating parts of levels to be combined modularly to form more complex trees for generating whole levels as well as generators that can dynamically vary the generated content. We demonstrate this approach by using BTs to model generators for Super Mario Bros., Mega Man and Metroid levels as well as dungeon layouts and discuss several ways in which this PCGBT paradigm could be applied and extended in the future.
翻訳日:2021-07-18 12:20:15 公開日:2021-06-24
# イタリア語の語彙アクセスモデル --人間の音声処理のモデル化--ランドマークの検出と特徴への音響的手がかりに基づく語彙アクセスに向けての音声中の単語の識別

Lexical Access Model for Italian -- Modeling human speech processing: identification of words in running speech toward lexical access based on the detection of landmarks and other acoustic cues to features ( http://arxiv.org/abs/2107.02720v1 )

ライセンス: Link先を確認
Maria-Gabriella Di Benedetto, Stefanie Shattuck-Hufnagel, Jeung-Yoon Choi, Luca De Nardis, Javier Arango, Ian Chan, Alec DeCaprio(参考訳) リスナーが話者が意図する単語を導出する過程をモデル化するには、語彙項目をメモリに格納する方法に関する仮説を設定する必要がある。 本研究は,発話中の単語を模倣するシステムの構築を目標とし,人間の発話処理をより理解するための枠組みを提供する。 我々はStevens, K. N. (2002) において, 単語を特徴的特徴の階層的配列として格納する, スティーブンスの語彙アクセスモデルに基づくイタリア語の音声認識システムを構築した。 「音響ランドマークと特徴に基づく語彙アクセスモデルに向けて」とj. acoustは述べている。 Soc Am., 111(4):1872-1891)。 過去数十年にわたり、マサチューセッツ工科大学(mit)の音声コミュニケーショングループは、このアプローチに基づいて英語の音声認識システムを開発した。 他の言語への拡張は、単語が階層的に配列された特徴の集合としてメモリ内で表現されるという仮説をテストする機会を与え、根底にあるメカニズムのどれが言語に依存しない性質を持つかを明らかにする。 本研究のために特別に作成・ラベル付けされた新しい語彙アクセスコーパスである lamit database も,音声研究コミュニティに無償で提供される予定である。 将来の発展は、特徴への手がかりとして機能する特定の音響不連続性(ランドマークと呼ばれる)が言語に依存しているという仮説をテストする。

Modelling the process that a listener actuates in deriving the words intended by a speaker requires setting a hypothesis on how lexical items are stored in memory. This work aims at developing a system that imitates humans when identifying words in running speech and, in this way, provide a framework to better understand human speech processing. We build a speech recognizer for Italian based on the principles of Stevens' model of Lexical Access in which words are stored as hierarchical arrangements of distinctive features (Stevens, K. N. (2002). "Toward a model for lexical access based on acoustic landmarks and distinctive features," J. Acoust. Soc. Am., 111(4):1872-1891). Over the past few decades, the Speech Communication Group at the Massachusetts Institute of Technology (MIT) developed a speech recognition system for English based on this approach. Italian will be the first language beyond English to be explored; the extension to another language provides the opportunity to test the hypothesis that words are represented in memory as a set of hierarchically-arran ged distinctive features, and reveal which of the underlying mechanisms may have a language-independent nature. This paper also introduces a new Lexical Access corpus, the LaMIT database, created and labeled specifically for this work, that will be provided freely to the speech research community. Future developments will test the hypothesis that specific acoustic discontinuities - called landmarks - that serve as cues to features, are language independent, while other cues may be language-dependent, with powerful implications for understanding how the human brain recognizes speech.
翻訳日:2021-07-11 11:33:43 公開日:2021-06-24
# AI時代のスマートヘルスケア : 最近の進歩,課題,今後の展望

Smart Healthcare in the Age of AI: Recent Advances, Challenges, and Future Prospects ( http://arxiv.org/abs/2107.03924v1 )

ライセンス: Link先を確認
Mahmoud Nasr, MD. Milon Islam, Shady Shehata, Fakhri Karray and Yuri Quintana(参考訳) 慢性疾患(高齢者や障害者を含む)の患者数の増加は、医療システムの革新的なモデルの必要性を緊急に求めている。 進化したモデルは、よりパーソナライズされ、病院、老人ホーム、長期医療センターなどの伝統的なリアルな医療機関に依存しない。 スマートヘルスケアシステムは最近関心が高まっているトピックであり、特に人工知能(ai)と機械学習(ml)において、現代的なテクノロジの大きな進歩のためにますます求められている。 本稿では,健康モニタリングのためのウェアラブルデバイスやスマートフォンデバイス,疾患診断のための機械学習,環境支援生活環境用に開発されたソーシャルロボットを含む支援フレームワークなど,最先端のスマートヘルスケアシステムについて論じる。 さらに、スマートヘルスケアシステムを構築する上で非常に重要なソフトウェア統合アーキテクチャを示し、データ分析やその他のAIツールの利点をシームレスに統合する。 説明された開発システムは、それぞれの開発フレームワークの貢献、詳細な作業手順、成果としてのパフォーマンス、比較的なメリットと制限など、いくつかの側面に焦点を当てている。 今後の方向性に関する現在の研究課題は、既存のシステムの欠点と、新しいフレームワークを導入する可能性を強調している。 このレビューは、スマートヘルスケアシステムの最近の発展に関する総合的な洞察を提供することを目標とし、この分野に貢献する専門家を育成する。

The significant increase in the number of individuals with chronic ailments (including the elderly and disabled) has dictated an urgent need for an innovative model for healthcare systems. The evolved model will be more personalized and less reliant on traditional brick-and-mortar healthcare institutions such as hospitals, nursing homes, and long-term healthcare centers. The smart healthcare system is a topic of recently growing interest and has become increasingly required due to major developments in modern technologies, especially in artificial intelligence (AI) and machine learning (ML). This paper is aimed to discuss the current state-of-the-art smart healthcare systems highlighting major areas like wearable and smartphone devices for health monitoring, machine learning for disease diagnosis, and the assistive frameworks, including social robots developed for the ambient assisted living environment. Additionally, the paper demonstrates software integration architectures that are very significant to create smart healthcare systems, integrating seamlessly the benefit of data analytics and other tools of AI. The explained developed systems focus on several facets: the contribution of each developed framework, the detailed working procedure, the performance as outcomes, and the comparative merits and limitations. The current research challenges with potential future directions are addressed to highlight the drawbacks of existing systems and the possible methods to introduce novel frameworks, respectively. This review aims at providing comprehensive insights into the recent developments of smart healthcare systems to equip experts to contribute to the field.
翻訳日:2021-07-11 11:33:12 公開日:2021-06-24
# (参考訳) 病気はどこにありますか。 異常画像からの半教師付き擬似正規性合成 [全文訳有]

Where is the disease? Semi-supervised pseudo-normality synthesis from an abnormal image ( http://arxiv.org/abs/2106.15345v1 )

ライセンス: CC BY 4.0
Yuanqi Du, Quan Quan, Hu Han, S. Kevin Zhou(参考訳) 異常な画像(例:病変)から疑似正常画像を生成する疑似正規性合成は、病変の検出、データ拡張、臨床手術の提案など、多くの点で重要である。 しかし,病変情報がない場合,高品質な擬似正常画像を生成することは困難である。 このようにして、高額な病変分割データを導入し、生成モデルに病変情報を提供し、合成画像の品質を向上させる。 本稿では,疑似正規画像を生成する際に,大量の病変分割データの必要性を軽減することを目的とする。 分割マスクを用いた限られた医用画像だけでなく,分割マスクを使わずに大量の医用画像を利用して,現実的な擬似正規画像を生成する半教師型医用画像生成学習ネットワーク(SMILE)を提案する。 実験結果から,データ拡張タスクでは最大6%,高品質な画像生成では最大3%,最先端のモデルでは最大6%を達成できた。 さらに,半教師付き学習は,50のセグメンテーションデータを用いて,教師付き学習モデルと同等の医用画像合成品質を実現する。

Pseudo-normality synthesis, which computationally generates a pseudo-normal image from an abnormal one (e.g., with lesions), is critical in many perspectives, from lesion detection, data augmentation to clinical surgery suggestion. However, it is challenging to generate high-quality pseudo-normal images in the absence of the lesion information. Thus, expensive lesion segmentation data have been introduced to provide lesion information for the generative models and improve the quality of the synthetic images. In this paper, we aim to alleviate the need of a large amount of lesion segmentation data when generating pseudo-normal images. We propose a Semi-supervised Medical Image generative LEarning network (SMILE) which not only utilizes limited medical images with segmentation masks, but also leverages massive medical images without segmentation masks to generate realistic pseudo-normal images. Extensive experiments show that our model outperforms the best state-of-the-art model by up to 6% for data augmentation task and 3% in generating high-quality images. Moreover, the proposed semi-supervised learning achieves comparable medical image synthesis quality with supervised learning model, using only 50 of segmentation data.
翻訳日:2021-07-04 20:20:16 公開日:2021-06-24
# (参考訳) TextVQA Challenge 2021: 事前学習されたシーケンス・ツー・シーケンスモデルによる視覚・言語表現学習 [全文訳有]

Winner Team Mia at TextVQA Challenge 2021: Vision-and-Language Representation Learning with Pre-trained Sequence-to-Sequence Model ( http://arxiv.org/abs/2106.15332v1 )

ライセンス: CC BY 4.0
Yixuan Qiao, Hao Chen, Jun Wang, Yihao Chen, Xianbin Ye, Ziliang Li, Xianbiao Qi, Peng Gao, Guotong Xie(参考訳) TextVQAは、画像中のテキストを読み、推論して、それらに関する質問に答えるモデルを必要とする。 具体的には、モデルが画像に存在するテキストの新しいモダリティを取り入れて、テキストvqaの質問に答える必要がある。 この課題では、TextVQAタスクに生成モデルT5を使用します。 huggingfaceリポジトリから事前訓練されたチェックポイントt5-3bに基づき、マスク言語モデリング(mlm)と相対位置予測(rpp)を含む他の2つの事前学習タスクにより、オブジェクトの特徴とシーンテキストの調整がより容易になる。 事前トレーニングの段階では、エンコーダは質問テキスト、オブジェクトテキストラベル、シーンテキストラベル、オブジェクトの視覚的特徴、シーンの視覚的特徴など、複数のモダリティ間の融合を処理するために使用される。 そのデコーダがステップバイステップのテキストシーケンスを生成すると、デフォルトでクロスエントロピー損失が要求される。 大規模なシーンテキストデータセットを事前トレーニングに使用し、T5-3BをTextVQAデータセットのみで微調整する。

TextVQA requires models to read and reason about text in images to answer questions about them. Specifically, models need to incorporate a new modality of text present in the images and reason over it to answer TextVQA questions. In this challenge, we use generative model T5 for TextVQA task. Based on pre-trained checkpoint T5-3B from HuggingFace repository, two other pre-training tasks including masked language modeling(MLM) and relative position prediction(RPP) are designed to better align object feature and scene text. In the stage of pre-training, encoder is dedicate to handle the fusion among multiple modalities: question text, object text labels, scene text labels, object visual features, scene visual features. After that decoder generates the text sequence step-by-step, cross entropy loss is required by default. We use a large-scale scene text dataset in pre-training and then fine-tune the T5-3B with the TextVQA dataset only.
翻訳日:2021-07-04 20:10:16 公開日:2021-06-24
# (参考訳) 信用リスクモデルにおけるディファレンシャルプライバシ [全文訳有]

Differential Privacy for Credit Risk Model ( http://arxiv.org/abs/2106.15343v1 )

ライセンス: CC BY 4.0
Tabish Maniar, Alekhya Akkinepally, Anantha Sharma(参考訳) 機械学習アルゴリズムを使ってユーザの振る舞いをモデル化し、ビジネス上の意思決定を促進することは、ますます一般的になっています。 これにより、顧客の行動を分析し、企業の製品に対する関心を予測するために顧客個人データの利用が増加した。 この顧客個人データの利用の増加は、よりよいモデルにつながるだけでなく、顧客データがリークされ、リバースエンジニアリングされ、誤って処理される可能性にもつながります。 本稿では,予測モデル開発におけるデータ工学とモデルトレーニング段階にプライバシ保護を組み込むことにより,これらのプライバシ問題に対処するソリューションとして,差分プライバシを評価する。 当社の関心は,汎用的にプライベートなモデリングフレームワークを必要とする運用環境における実用的実装であり,信用リスクモデリング領域に適用したleapyearからのツールの評価を行う。 信用リスクモデル(Credit Risk Model)は、銀行および金融における主要なモデリング手法であり、ユーザデータを分析して、銀行に対する期待損失総数を決定する。 信用リスクモデルにおける差分プライバシの適用について検討し,非差分プライベートモデルを用いた差分プライベートモデルの性能評価を行った。 信用リスクモデル(Credit Risk Model)は、銀行および金融における主要なモデリング手法であり、ユーザーのデータを分析して、銀行への期待損失の総量を決定する。 本稿では,信用リスクモデルに対する差分プライバシーの適用について検討し,差分プライベートモデルを用いた非差分プライベートモデルの性能評価を行う。

The use of machine learning algorithms to model user behavior and drive business decisions has become increasingly commonplace, specifically providing intelligent recommendations to automated decision making. This has led to an increase in the use of customers personal data to analyze customer behavior and predict their interests in a companys products. Increased use of this customer personal data can lead to better models but also to the potential of customer data being leaked, reverse engineered, and mishandled. In this paper, we assess differential privacy as a solution to address these privacy problems by building privacy protections into the data engineering and model training stages of predictive model development. Our interest is a pragmatic implementation in an operational environment, which necessitates a general purpose differentially private modeling framework, and we evaluate one such tool from LeapYear as applied to the Credit Risk modeling domain. Credit Risk Model is a major modeling methodology in banking and finance where user data is analyzed to determine the total Expected Loss to the bank. We examine the application of differential privacy on the credit risk model and evaluate the performance of a Differentially Private Model with a Non Differentially Private Model. Credit Risk Model is a major modeling methodology in banking and finance where users data is analyzed to determine the total Expected Loss to the bank. In this paper, we explore the application of differential privacy on the credit risk model and evaluate the performance of a Non Differentially Private Model with Differentially Private Model.
翻訳日:2021-07-04 20:07:41 公開日:2021-06-24
# (参考訳) 局所的説明モデルの局所性について [全文訳有]

On Locality of Local Explanation Models ( http://arxiv.org/abs/2106.14648v1 )

ライセンス: CC BY 4.0
Sahra Ghalebikesabi, Lucile Ter-Minassian, Karla Diaz-Ordaz and Chris Holmes(参考訳) shapleyの値は、グローバル人口分布の下で特徴欠如をシミュレートすることにより、特定のインスタンスにおけるモデル結果に対するモデル非依存な特徴帰属を提供する。 グローバル人口の利用は、局所的なモデル行動が興味のある場合に、潜在的に誤解を招く結果をもたらす可能性がある。 したがって,shapley値の局所解釈性を改善する近傍参照分布の定式化を考える。 その結果、nadaraya-watson推定器は、よく研究されたカーネルレグレッサーであり、自己正規化重要度サンプリング推定器として表現できることがわかった。 実験により、近隣シェープリーの値は、局所モデル行動の洞察を与える意味的なスパース特徴関連属性を識別し、従来のシェープリー分析を補完する。 また、逆分類器の構築により、多様体上の説明可能性や堅牢性も向上する。

Shapley values provide model agnostic feature attributions for model outcome at a particular instance by simulating feature absence under a global population distribution. The use of a global population can lead to potentially misleading results when local model behaviour is of interest. Hence we consider the formulation of neighbourhood reference distributions that improve the local interpretability of Shapley values. By doing so, we find that the Nadaraya-Watson estimator, a well-studied kernel regressor, can be expressed as a self-normalised importance sampling estimator. Empirically, we observe that Neighbourhood Shapley values identify meaningful sparse feature relevance attributions that provide insight into local model behaviour, complimenting conventional Shapley analysis. They also increase on-manifold explainability and robustness to the construction of adversarial classifiers.
翻訳日:2021-07-02 05:05:00 公開日:2021-06-24
# GAN-MDF:デジタル双生児における多要素データ融合法

GAN-MDF: A Method for Multi-fidelity Data Fusion in Digital Twins ( http://arxiv.org/abs/2106.14655v1 )

ライセンス: Link先を確認
Lixue Liu, Chao Zhang, Dacheng Tao(参考訳) IoT(Internet of Things)は、スマートファクトリ、インテリジェントロボット、ヘルスケアシステムなどの物理システムのリアルタイムデータを収集し、デジタル双生児に必要なサポートを提供する。 品質と精度によって、これらのマルチソースデータは異なる忠実度レベルに分割される。 高忠実度(hf)応答は、関心のシステムを正確に記述するが、費用がかかる。 対照的に、低忠実度(lf)応答は計算コストが低いが、必要な精度を満たせない。 MDF(Multi-fidelity Data fusion)法は、大量のLFサンプルと少量のHFサンプルを用いて、適切な計算負荷でシステムを記述するための正確かつ効率的なモデルを開発することを目的としている。 本稿では,デジタル双生児(GAN-MDF)におけるMDFの新たな生成的敵ネットワークを提案する。 GAN−MDFのジェネレータは、入力からLF特徴を抽出するサブネットワークと、抽出されたLF特徴とを統合して、その後の判別器の入力を形成する2つのサブネットワークで構成されている。 GAN-MDFの判別器は、生成元出力がHFモデルから生成された実サンプルであるかどうかを特定する。 また, GAN-MDF訓練の安定性を高めるため, 逆行訓練の各イテレーションにおいて, 発電機重量を改良するための教師付きロストリックを導入する。 現状の手法と比較して,提案手法の長所は次の通りである: 1) 巣状または無巣のサンプル構造の場合, 2) データ分布に具体的な仮定はなく, 3) ごく少数のサンプルが提供されても, 高い堅牢性を有する。 実験結果は, GAN-MDFの有効性も裏付ける。

The Internet of Things (IoT) collects real-time data of physical systems, such as smart factory, intelligent robot and healtcare system, and provide necessary support for digital twins. Depending on the quality and accuracy, these multi-source data are divided into different fidelity levels. High-fidelity (HF) responses describe the system of interest accurately but are computed costly. In contrast, low-fidelity (LF) responses have a low computational cost but could not meet the required accuracy. Multi-fidelity data fusion (MDF) methods aims to use massive LF samples and small amounts of HF samples to develop an accurate and efficient model for describing the system with a reasonable computation burden. In this paper, we propose a novel generative adversarial network for MDF in digital twins (GAN-MDF). The generator of GAN-MDF is composed of two sub-networks: one extracts the LF features from an input; and the other integrates the input and the extracted LF features to form the input of the subsequent discriminator. The discriminator of GAN-MDF identifies whether the generator output is a real sample generated from HF model. To enhance the stability of GAN-MDF's training, we also introduce the supervised-loss trick to refine the generator weights during each iteration of the adversarial training. Compared with the state-of-the-art methods, the proposed GAN-MDF has the following advantages: 1) it performs well in the case of either nested or unnested sample structure; 2) there is no specific assumption on the data distribution; and 3) it has high robustness even when very few HF samples are provided. The experimental results also support the validity of GAN-MDF.
翻訳日:2021-06-29 17:57:58 公開日:2021-06-24
# 地域消費者サービスプラットフォームにおけるユーザ行動予測のためのコンテキストアウェア不均一グラフアテンションネットワーク

Context-aware Heterogeneous Graph Attention Network for User Behavior Prediction in Local Consumer Service Platform ( http://arxiv.org/abs/2106.14652v1 )

ライセンス: Link先を確認
Peiyuan Zhu, Xiaofeng Wang(参考訳) 近年開発された新しいタイプのeコマースプラットフォームとして、地域消費者サービスプラットフォームは、ユーザーが近くの店やGrouponやKoubeiといった自宅へのサービスを利用するソフトウェアを提供する。 他の一般的なeコマースプラットフォームとは異なり、ローカルコンシューマサービスプラットフォームのユーザの振る舞いは、リアルタイムのローカルコンテキスト情報と密接に関連している。 したがって、コンテキスト対応のユーザ行動予測システムを構築することで、地元消費者サービスプラットフォームにおいて、商人とユーザーの両方がより良いサービスを提供できる。 しかし、従来の研究のほとんどは、コンテキスト情報の通常の特徴を予測モデルに扱い、特定のコンテキスト下で予測リストを取得することで、異なるコンテキストにおけるユーザの興味がしばしば著しく異なるという事実を無視している。 そこで本稿では,ユーザの表現を動的に生成し,将来の行動の確率を推定する,文脈認識型不均一グラフ注意ネットワーク(chgat)を提案する。 具体的には、まず、複数のソースからの歴史的振る舞いを持つメタパスに基づく異種グラフを構築し、新しい統一知識表現アプローチを用いて、グラフ内の異種頂点を理解する。 次に、頂点レベルのアテンションネットワークとパスレベルのアテンションネットワークを含むグラフ頂点を用いたコンテキスト認識アグリゲーションのためのマルチレベルアテンション機構を導入する。 どちらも、グラフに含まれる情報と検索システム内の外部リアルタイムコンテキスト情報との意味的相関を捉えることを目的としている。 そして,本論文で提案するモデルは,特定のグラフに対応するコンテキストの特徴を集約し,特定のコンテキスト下でのユーザ関心の表現を取得し,それを予測ネットワークに入力し,最終的にユーザ行動の予測確率を得る。

As a new type of e-commerce platform developed in recent years, local consumer service platform provides users with software to consume service to the nearby store or to the home, such as Groupon and Koubei. Different from other common e-commerce platforms, the behavior of users on the local consumer service platform is closely related to their real-time local context information. Therefore, building a context-aware user behavior prediction system is able to provide both merchants and users better service in local consumer service platforms. However, most of the previous work just treats the contextual information as an ordinary feature into the prediction model to obtain the prediction list under a specific context, which ignores the fact that the interest of a user in different contexts is often significantly different. Hence, in this paper, we propose a context-aware heterogeneous graph attention network (CHGAT) to dynamically generate the representation of the user and to estimate the probability for future behavior. Specifically, we first construct the meta-path based heterogeneous graphs with the historical behaviors from multiple sources and comprehend heterogeneous vertices in the graph with a novel unified knowledge representing approach. Next, a multi-level attention mechanism is introduced for context-aware aggregation with graph vertices, which contains the vertex-level attention network and the path-level attention network. Both of them aim to capture the semantic correlation between information contained in the graph and the outside real-time contextual information in the search system. Then the model proposed in this paper aggregates specific graphs with their corresponding context features and obtains the representation of user interest under a specific context and input it into the prediction network to finally obtain the predicted probability of user behavior.
翻訳日:2021-06-29 17:56:53 公開日:2021-06-24
# ブランド重要度評価のための新しいシステム--ファッション産業からの利用事例

A new system for evaluating brand importance: A use case from the fashion industry ( http://arxiv.org/abs/2106.14657v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon, F. Grippa, L. Segneri(参考訳) 今日、ブランドマネージャやマーケティングスペシャリストは膨大な量のデータを活用して、消費者の認識のパターンやトレンドを明らかにし、望ましいトピックに関するブランドの肯定的あるいは否定的な関連を監視できる。 本研究では,ファッション業界におけるブランドの重要性を評価するために,セマンティックブランドスコア(SBS)指標を適用した。 そこで本研究では,sbs business intelligence app (sbs bi) を用いて,テキストマイニングとソーシャルネットワーク分析の手法とツールに依拠したテキストデータを計測・可視化する。 私たちは2021年3月5日から3月12日までの期間にファッションブランドFendi、Gucci、Pradaに言及した約20万6000のツイートを収集し分析した。 3つのSBS次元(頻度,多様性,接続性)の分析から,GucciがSBSの値の高い談話を支配していることがわかった。 このケーススタディを例として,(大きな)テキストデータの解析を通じて,ブランドの重要性とイメージを評価する新しいシステムを提案する。

Today brand managers and marketing specialists can leverage huge amount of data to reveal patterns and trends in consumer perceptions, monitoring positive or negative associations of brands with respect to desired topics. In this study, we apply the Semantic Brand Score (SBS) indicator to assess brand importance in the fashion industry. To this purpose, we measure and visualize text data using the SBS Business Intelligence App (SBS BI), which relies on methods and tools of text mining and social network analysis. We collected and analyzed about 206,000 tweets that mentioned the fashion brands Fendi, Gucci and Prada, during the period from March 5 to March 12, 2021. From the analysis of the three SBS dimensions - prevalence, diversity and connectivity - we found that Gucci dominated the discourse, with high values of SBS. We use this case study as an example to present a new system for evaluating brand importance and image, through the analysis of (big) textual data.
翻訳日:2021-06-29 17:55:34 公開日:2021-06-24
# (参考訳) ニューラルネットワークによるLee-CarterモデルとPoisson Lee-Carterモデルの校正

Calibrating the Lee-Carter and the Poisson Lee-Carter models via Neural Networks ( http://arxiv.org/abs/2106.12312v2 )

ライセンス: CC BY 4.0
Salvatore Scognamiglio(参考訳) 本稿では,複数の個体群にLee-CarterモデルとPoisson Lee-Carterモデルを適用するニューラルネットワーク手法を提案する。 我々は, 個々のlcモデルの構造を再現したニューラルネットワークを開発し, 全集団の死亡データを同時に解析することにより, それらの統合的適合を可能にする。 ニューラルネットワークアーキテクチャは、従来の推定スキームのように、人口固有のデータサブセットを使用するのではなく、利用可能なすべての情報を使用して各モデルを調整するように特別に設計されている。 HMD(Human Mortality Database)のすべての国で実施された大規模な数値実験は、我々のアプローチの有効性を示している。 特に、結果のパラメータ推定値は、死亡率のデータ、特に低人口国でしばしば発生するランダムな変動に対して滑らかに、より敏感に見えます。 また,予測性能も大幅に向上した。

This paper introduces a neural network approach for fitting the Lee-Carter and the Poisson Lee-Carter model on multiple populations. We develop some neural networks that replicate the structure of the individual LC models and allow their joint fitting by analysing the mortality data of all the considered populations simultaneously. The neural network architecture is specifically designed to calibrate each individual model using all available information instead of using a population-specific subset of data as in the traditional estimation schemes. A large set of numerical experiments performed on all the countries of the Human Mortality Database (HMD) shows the effectiveness of our approach. In particular, the resulting parameter estimates appear smooth and less sensitive to the random fluctuations often present in the mortality rates' data, especially for low-population countries. In addition, the forecasting performance results significantly improved as well.
翻訳日:2021-06-29 06:03:43 公開日:2021-06-24
# (参考訳) 統計的仮説テストの論理的問題に関するファジィな考察 [全文訳有]

A fuzzy take on the logical issues of statistical hypothesis testing ( http://arxiv.org/abs/2106.13241v1 )

ライセンス: CC BY 4.0
Matthew Booth and Fabien Paillusson(参考訳) 統計的仮説テスト(英: Statistical hypothesis Testing, SHT)とは、実験データを用いて仮説を検証し、拒否するか否かの判断をしばしば発する推論手法である。 本稿では,この戦略の論理的側面に焦点をあてる。この戦略は,少なくとも様々な頻繁なアプローチにおいて,採用される思想学派から大きく独立している。 我々は、SHTを古典論理学におけるモーダス・トレンスからの無音引数の形式をとるものとみなし、この難しさからSHTを救い出すために、代わりにt-ノルムに基づくファジィ論理を基礎にすることを提案する。 我々は,モダス・トレンスのファジィ拡張を利用して,頻度主義者のSHT論理を再構成し,その前提として真理評価モデルを開発する。 重要なことは、ファジィ否定とファジィ含意(すなわち、SとRの含意)の構築に関わる様々な慣習を探求することによって、モダス・トーレンの健全性を維持することが可能であることを示す。 S 規約の下では、ザデの合成拡張と任意のt-ノルムを用いて Modus Tollens 推論論を実行することができる。 R の規約の下では、これは必ずしもそうではないが、R-含意と S-含意を混合することにより、例えば積 t-ノルムを救えることが分かる。 結論として,ファジィ論理はshtの頻繁な解釈の難しさを議論し解決するための正当な枠組みであることを示した。

Statistical Hypothesis Testing (SHT) is a class of inference methods whereby one makes use of empirical data to test a hypothesis and often emit a judgment about whether to reject it or not. In this paper we focus on the logical aspect of this strategy, which is largely independent of the adopted school of thought, at least within the various frequentist approaches. We identify SHT as taking the form of an unsound argument from Modus Tollens in classical logic, and, in order to rescue SHT from this difficulty, we propose that it can instead be grounded in t-norm based fuzzy logics. We reformulate the frequentists' SHT logic by making use of a fuzzy extension of modus Tollens to develop a model of truth valuation for its premises. Importantly, we show that it is possible to preserve the soundness of Modus Tollens by exploring the various conventions involved with constructing fuzzy negations and fuzzy implications (namely, the S and R conventions). We find that under the S convention, it is possible to conduct the Modus Tollens inference argument using Zadeh's compositional extension and any possible t-norm. Under the R convention we find that this is not necessarily the case, but that by mixing R-implication with S-negation we can salvage the product t-norm, for example. In conclusion, we have shown that fuzzy logic is a legitimate framework to discuss and address the difficulties plaguing frequentist interpretations of SHT.
翻訳日:2021-06-29 04:31:48 公開日:2021-06-24
# (参考訳) You are AllSet: ハイパーグラフニューラルネットワークのためのマルチセット関数フレームワーク [全文訳有]

You are AllSet: A Multiset Function Framework for Hypergraph Neural Networks ( http://arxiv.org/abs/2106.13264v1 )

ライセンス: CC BY 4.0
Eli Chien, Chao Pan, Jianhao Peng, Olgica Milenkovic(参考訳) ハイパーグラフはエージェント間の高次インタラクションのモデル化に使用され、ハイパーグラフデータセットの実際に関連するインスタンスが多数存在する。 ハイパーグラフ構造データの効率的な処理を実現するために,ハイパーグラフ特性と構造を学習するためのハイパーグラフニューラルネットワークプラットフォームが提案されている。 しかし、既存のほとんどのメソッドはヒューリスティックな伝搬規則を使用しており、多くのデータセット上で最適なパフォーマンスを提供する。 ハイパーグラフニューラルネットワーク(hypergraph neural network)の非常に一般的なフレームワークを表す新しいハイパーグラフニューラルネットワークパラダイムであるallsetを提案し、タスクとデータセットごとに効率的に学習可能な2つのマルチセット関数の合成として、ハイパーグラフニューラルネットワーク層を初めて実装する。 さらに、allsetはハイパーグラフニューラルネットワーク間の新たな接続と、マルチセット関数のディープラーニングの最近の進歩を描いている。 特に、提案したアーキテクチャはDeep SetsとSet Transformerアーキテクチャを利用しており、モデリングの柔軟性が大きく、表現力が高い。 allsetの性能を評価するため、10の既知のベンチマークデータセットと、ハイパーグラフノード分類の重要な課題を表す3つの新しくキュレートされたデータセットを含む、これまでで最も広範な実験を行った。 その結果、AllSetには、テストデータセット全体にわたって、他のハイパーグラフニューラルネットワークの整合性や性能を一貫して向上させるユニークな能力があることが示された。 私たちの実装とデータセットは受け入れ次第リリースします。

Hypergraphs are used to model higher-order interactions amongst agents and there exist many practically relevant instances of hypergraph datasets. To enable efficient processing of hypergraph-structure d data, several hypergraph neural network platforms have been proposed for learning hypergraph properties and structure, with a special focus on node classification. However, almost all existing methods use heuristic propagation rules and offer suboptimal performance on many datasets. We propose AllSet, a new hypergraph neural network paradigm that represents a highly general framework for (hyper)graph neural networks and for the first time implements hypergraph neural network layers as compositions of two multiset functions that can be efficiently learned for each task and each dataset. Furthermore, AllSet draws on new connections between hypergraph neural networks and recent advances in deep learning of multiset functions. In particular, the proposed architecture utilizes Deep Sets and Set Transformer architectures that allow for significant modeling flexibility and offer high expressive power. To evaluate the performance of AllSet, we conduct the most extensive experiments to date involving ten known benchmarking datasets and three newly curated datasets that represent significant challenges for hypergraph node classification. The results demonstrate that AllSet has the unique ability to consistently either match or outperform all other hypergraph neural networks across the tested datasets. Our implementation and dataset will be released upon acceptance.
翻訳日:2021-06-29 04:07:47 公開日:2021-06-24
# (参考訳) 疾患進行モデリングワークベンチ360 [全文訳有]

Disease Progression Modeling Workbench 360 ( http://arxiv.org/abs/2106.13265v1 )

ライセンス: CC BY 4.0
Parthasarathy Suryanarayanan, Prithwish Chakraborty, Piyush Madan, Kibichii Bore, William Ogallo, Rachita Chandra, Mohamed Ghalwash, Italo Buleje, Sekou Remy, Shilpa Mahatma, Pablo Meyer, Jianying Hu(参考訳) 本稿では,医療AIの協調研究と提供を目的としたDPM360オープンソース臨床情報フレームワークについて紹介する。 DPM360は、完全に開発されると、データ分析(コホート識別など)から機械学習アルゴリズムの開発とプロトタイピングまで、モデリングライフサイクル全体を管理する。 DPM360は、強力な機械学習トレーニングフレームワークを備えた、広く採用されているOHDSIイニシアチブによって提供されるデータモデルの標準化とツーリング(OMOP-CDM、Athena、ATLAS)のメリットと、コンテナ化されたサービスとしてのモデルの自動デプロイによるクラウド環境への迅速なプロトタイピングのメカニズムを強化する。

In this work we introduce Disease Progression Modeling workbench 360 (DPM360) opensource clinical informatics framework for collaborative research and delivery of healthcare AI. DPM360, when fully developed, will manage the entire modeling life cycle, from data analysis (e.g., cohort identification) to machine learning algorithm development and prototyping. DPM360 augments the advantages of data model standardization and tooling (OMOP-CDM, Athena, ATLAS) provided by the widely-adopted OHDSI initiative with a powerful machine learning training framework, and a mechanism for rapid prototyping through automatic deployment of models as containerized services to a cloud environment.
翻訳日:2021-06-29 03:39:38 公開日:2021-06-24
# (参考訳) 相補的分類器のペアを用いた一般化一クラス学習 [全文訳有]

Generalized One-Class Learning Using Pairs of Complementary Classifiers ( http://arxiv.org/abs/2106.13272v1 )

ライセンス: CC BY 4.0
Anoop Cherian and Jue Wang(参考訳) 1クラス学習は、単一のクラスでのみアノテーションが利用できるデータにモデルを適合させる古典的な問題である。 本稿では,一級学習の新たな目的について検討し,これを総称して一般化一級識別部分空間(Generalized One-class Discriminative Subspaces,GODS)と呼ぶ。 我々のキーとなる考え方は、一階データ分布を柔軟に束縛する補完的分類器のペアを学習することであり、そのデータは補的ペア内の1つの分類器の正の半空間に属し、他方の負の半空間に属する。 分類器決定面の非線形性を確保しつつ冗長性を回避するため,各分類器を正規直交フレームとして設計し,両者の相反する2つの目的,すなわち,2つのフレーム間の距離を最小化してフレームとデータ間のマージンを最大化することでこれらのフレームを学習することを提案する。 したがって、学習された正規直交フレームは、効率的な推論を可能にする分割線形決定曲面を特徴付けるが、我々の目標は、決定マージンを最大化する最小ボリューム内でデータをバインドし、データ分布を堅牢に捉えることである。 我々は,カーネル化特徴写像を含む構成分類器の異なる制約下での定式化のいくつかの変種について検討する。 我々は,映像シーケンスの異常検出,人間のポーズ,人間の活動など,コンピュータビジョンにおける複数のアプリケーションからのデータを用いた実験を通じて,このアプローチの実証的メリットを実証する。 また、複数のUCIデータセットの実験を通じて、非ビジョンタスクに対するGODSの汎用性と有効性について検討し、最先端の結果を示す。

One-class learning is the classic problem of fitting a model to the data for which annotations are available only for a single class. In this paper, we explore novel objectives for one-class learning, which we collectively refer to as Generalized One-class Discriminative Subspaces (GODS). Our key idea is to learn a pair of complementary classifiers to flexibly bound the one-class data distribution, where the data belongs to the positive half-space of one of the classifiers in the complementary pair and to the negative half-space of the other. To avoid redundancy while allowing non-linearity in the classifier decision surfaces, we propose to design each classifier as an orthonormal frame and seek to learn these frames via jointly optimizing for two conflicting objectives, namely: i) to minimize the distance between the two frames, and ii) to maximize the margin between the frames and the data. The learned orthonormal frames will thus characterize a piecewise linear decision surface that allows for efficient inference, while our objectives seek to bound the data within a minimal volume that maximizes the decision margin, thereby robustly capturing the data distribution. We explore several variants of our formulation under different constraints on the constituent classifiers, including kernelized feature maps. We demonstrate the empirical benefits of our approach via experiments on data from several applications in computer vision, such as anomaly detection in video sequences, human poses, and human activities. We also explore the generality and effectiveness of GODS for non-vision tasks via experiments on several UCI datasets, demonstrating state-of-the-art results.
翻訳日:2021-06-29 03:35:40 公開日:2021-06-24
# (参考訳) 引用目的分類のためのマルチタスク学習 [全文訳有]

Multitask Learning for Citation Purpose Classification ( http://arxiv.org/abs/2106.13275v1 )

ライセンス: CC BY 4.0
Alex Oesterling, Angikar Ghosal, Haoyang Yu, Rui Xin, Yasa Baig, Lesia Semenova, Cynthia Rudin(参考訳) 我々は,目的競争に基づく2021 3c shared task citation context classification のエントリーについて述べる。 コンペの目標は、その目的に基づいて科学的論文の引用を分類することである。 この課題は、科学論文の目的と用途を要約するより包括的な方法につながる可能性があるため重要であるが、主に、各引用の目的が手作業でラベル付けされた限られた量のトレーニングデータと、これらのラベルの主観性によっても困難である。 コンペへの参入は,言語的特徴,TF-IDF機能,LSTM-with-attention モデルなど,さまざまな視点から問題を扱うために設計された複数のモジュールを組み合わせたマルチタスクモデルである。 また、将来的な研究につながる可能性のある分析や特徴分析も提供する。

We present our entry into the 2021 3C Shared Task Citation Context Classification based on Purpose competition. The goal of the competition is to classify a citation in a scientific article based on its purpose. This task is important because it could potentially lead to more comprehensive ways of summarizing the purpose and uses of scientific articles, but it is also difficult, mainly due to the limited amount of available training data in which the purposes of each citation have been hand-labeled, along with the subjectivity of these labels. Our entry in the competition is a multi-task model that combines multiple modules designed to handle the problem from different perspectives, including hand-generated linguistic features, TF-IDF features, and an LSTM-with-attention model. We also provide an ablation study and feature analysis whose insights could lead to future work.
翻訳日:2021-06-29 02:56:45 公開日:2021-06-24
# (参考訳) 高インピーダンス故障検出のための深層学習:畳み込みオートエンコーダ [全文訳有]

Deep Learning for High-Impedance Fault Detection: Convolutional Autoencoders ( http://arxiv.org/abs/2106.13276v1 )

ライセンス: CC BY 4.0
Khushwant Rai, Farnam Hojatpanah, Firouz Badrkhani Ajaei, and Katarina Grolinger(参考訳) 高インピーダンス断層(HIF)は、電流振幅が低く、非常に多様な特性のため検出が難しい。 近年,ML技術はデータからパターンを学習し,HIFの検出に成功しているため,HIF検出において機械学習(ML)が普及している。 しかしながら、これらの手法は教師付き学習に基づいているため、トレーニングデータに存在しないいかなるシナリオ、障害、非デフォルトも確実に検出できない。 そこで本稿では教師なし学習を活用し,HIF検出のための畳み込みオートエンコーダフレームワークを提案する。 通常の行動から学習する従来のオートエンコーダとは対照的に、CAE-HIFDの畳み込みオートエンコーダ(CAE)は、CEEトレーニングにおける多様な非HIFシナリオの存在を排除したHIF信号からのみ学習する。 CAEはHIFと非HIF操作条件を相互相関を用いて区別する。 コンデンサや負荷切替などの過渡的障害からHIFを識別するために、CAE-HIFDは確率分布形状の統計的尺度であるカルトーシスを用いる。 IEEE 13-node test feeder を用いて行った性能評価の結果,CEE-HIFD は HIF を確実に検出し,最先端の HIF 検出技術より優れ,ノイズに対して堅牢であることが示された。

High-impedance faults (HIF) are difficult to detect because of their low current amplitude and highly diverse characteristics. In recent years, machine learning (ML) has been gaining popularity in HIF detection because ML techniques learn patterns from data and successfully detect HIFs. However, as these methods are based on supervised learning, they fail to reliably detect any scenario, fault or non-fault, not present in the training data. Consequently, this paper takes advantage of unsupervised learning and proposes a convolutional autoencoder framework for HIF detection (CAE-HIFD). Contrary to the conventional autoencoders that learn from normal behavior, the convolutional autoencoder (CAE) in CAE-HIFD learns only from the HIF signals eliminating the need for presence of diverse non-HIF scenarios in the CAE training. CAE distinguishes HIFs from non-HIF operating conditions by employing cross-correlation. To discriminate HIFs from transient disturbances such as capacitor or load switching, CAE-HIFD uses kurtosis, a statistical measure of the probability distribution shape. The performance evaluation studies conducted using the IEEE 13-node test feeder indicate that the CAE-HIFD reliably detects HIFs, outperforms the state-of-the-art HIF detection techniques, and is robust against noise.
翻訳日:2021-06-29 02:49:27 公開日:2021-06-24
# (参考訳) 動的グラフニューラルネットワークを用いた分子の配座ダイナミクスの幾何学的学習 [全文訳有]

Geometric learning of the conformational dynamics of molecules using dynamic graph neural networks ( http://arxiv.org/abs/2106.13277v1 )

ライセンス: CC BY 4.0
Michael Hunter Ashby and Jenna A. Bilbrey(参考訳) 重み付き動的グラフに対する時間的エッジ予測モデルを適用し,分子構造の時間依存的変化を予測する。 各分子は、各原子が頂点であり、全ての頂点対が、原子対間のユークリッド距離によって重み付けられたエッジによって連結される完全なグラフとして表される。 次のステップでグラフを予測するために、完全な分子グラフのシーケンスを動的グラフニューラルネットワーク(GNN)に取り込みます。 我々の動的GNNは分子シミュレーションの「化学的に正確」である0.017 \r{A}の平均絶対誤差で原子間距離を予測する。 また,新しい分子系へのトレーニングネットワークの移動可能性についても検討し,全軌道の10%未満での微調整は,全分子軌道上でスクラッチからトレーニングする場合と同等の大きさの絶対誤差をもたらすことを見出した。

We apply a temporal edge prediction model for weighted dynamic graphs to predict time-dependent changes in molecular structure. Each molecule is represented as a complete graph in which each atom is a vertex and all vertex pairs are connected by an edge weighted by the Euclidean distance between atom pairs. We ingest a sequence of complete molecular graphs into a dynamic graph neural network (GNN) to predict the graph at the next time step. Our dynamic GNN predicts atom-to-atom distances with a mean absolute error of 0.017 \r{A}, which is considered ``chemically accurate'' for molecular simulations. We also explored the transferability of a trained network to new molecular systems and found that finetuning with less than 10% of the total trajectory provides a mean absolute error of the same order of magnitude as that when training from scratch on the full molecular trajectory.
翻訳日:2021-06-29 02:30:21 公開日:2021-06-24
# (参考訳) マルチビューステレオからの自由視点屋内ニューラルライティング [全文訳有]

Free-viewpoint Indoor Neural Relighting from Multi-view Stereo ( http://arxiv.org/abs/2106.13299v1 )

ライセンス: CC BY 4.0
Julien Philip and S\'ebastien Morgenthaler and Micha\"el Gharbi and George Drettakis(参考訳) 本稿では,対話型自由視点ナビゲーションが可能な屋内シーンを撮影するためのニューラルリライティングアルゴリズムを提案する。 本手法では,鋳物シャドウと複雑な光沢材料をコヒーレントにレンダリングしながら,合成的に照明を変更できる。 まず、シーンの複数の画像と、マルチビューステレオ(MVS)再構成により得られる3Dメッシュから始める。 照明は、鏡鏡反射方向の周囲に集中した視点非依存拡散成分と視点依存光沢項の和としてよく説明されていると仮定する。 入力特徴マップを囲む畳み込みネットワークをデザインし,暗黙的な映像表現と照明の学習を容易にし,照明と自由視点のナビゲーションを両立させる。 画像ベースと物理ベースの両方のレンダリングの最良の要素を利用して、これらの入力マップを生成します。 入力ビューをサンプリングし、拡散シーンの照度を推定し、パストレースを用いてユーザ特定光源による新たな照度を算出する。 ネットワークの材料理解を容易にし,光沢のある反射を合成するために,ビューを再計画し,ミラー画像を計算する。 各シーンをmvsで再構築した合成データセット上でネットワークをトレーニングする。 室内のシーンをリライトし、複雑な現実的な光沢のある反射を伴う自由視点ナビゲーションを行うアルゴリズムの結果を示す。

We introduce a neural relighting algorithm for captured indoors scenes, that allows interactive free-viewpoint navigation. Our method allows illumination to be changed synthetically, while coherently rendering cast shadows and complex glossy materials. We start with multiple images of the scene and a 3D mesh obtained by multi-view stereo (MVS) reconstruction. We assume that lighting is well-explained as the sum of a view-independent diffuse component and a view-dependent glossy term concentrated around the mirror reflection direction. We design a convolutional network around input feature maps that facilitate learning of an implicit representation of scene materials and illumination, enabling both relighting and free-viewpoint navigation. We generate these input maps by exploiting the best elements of both image-based and physically-based rendering. We sample the input views to estimate diffuse scene irradiance, and compute the new illumination caused by user-specified light sources using path tracing. To facilitate the network's understanding of materials and synthesize plausible glossy reflections, we reproject the views and compute mirror images. We train the network on a synthetic dataset where each scene is also reconstructed with MVS. We show results of our algorithm relighting real indoor scenes and performing free-viewpoint navigation with complex and realistic glossy reflections, which so far remained out of reach for view-synthesis techniques.
翻訳日:2021-06-29 02:21:24 公開日:2021-06-24
# (参考訳) ブラックボックス概念学習モデルの約束と落とし穴 [全文訳有]

Promises and Pitfalls of Black-Box Concept Learning Models ( http://arxiv.org/abs/2106.13314v1 )

ライセンス: CC BY 4.0
Anita Mahinpei, Justin Clark, Isaac Lage, Finale Doshi-Velez, Weiwei Pan(参考訳) 概念学習を意思決定プロセスの中間ステップとして取り入れた機械学習モデルは、ブラックボックス予測モデルのパフォーマンスと一致し、人間の理解可能な言葉で結果を説明する能力を保持します。 しかし,これらのモデルによって学習された概念表現は,事前定義された概念を超えた情報をエンコードし,自然緩和戦略が十分に機能しないことを示す。 情報漏洩の根底にあるメカニズムを説明し,その影響を緩和するための回避策を提案する。

Machine learning models that incorporate concept learning as an intermediate step in their decision making process can match the performance of black-box predictive models while retaining the ability to explain outcomes in human understandable terms. However, we demonstrate that the concept representations learned by these models encode information beyond the pre-defined concepts, and that natural mitigation strategies do not fully work, rendering the interpretation of the downstream prediction misleading. We describe the mechanism underlying the information leakage and suggest recourse for mitigating its effects.
翻訳日:2021-06-29 01:54:54 公開日:2021-06-24
# (参考訳) vogue: マルチタスク学習による答えの言語化 [全文訳有]

VOGUE: Answer Verbalization through Multi-Task Learning ( http://arxiv.org/abs/2106.13316v1 )

ライセンス: CC BY 4.0
Endri Kacupaj, Shyamnath Premnadh, Kuldeep Singh, Jens Lehmann, Maria Maleshkova(参考訳) 近年,知識グラフ (KGQA) に対する質問回答 (Qanguage Answering over Knowledge Graphs) が著しく進展している。 全ての顕著な進歩にもかかわらず、現在のKGQAシステムは回答生成技術にのみ焦点を絞っている。 しかし、現実世界のシナリオでは(例えば、AlexaやSiriなどの音声アシスタント)。 ユーザは、生成した応答ではなく、言葉による回答を好む。 本稿では,知識グラフ上の(複雑な)質問応答に対する動詞化の課題に対処する。 そこで本研究では,マルチタスクに基づく応答言語化フレームワークVOGUE(Verbalization thrOuGh mUlti-task lEarning)を提案する。 VOGUEフレームワークは、マルチタスク学習パラダイムを通じてハイブリッドアプローチを用いて、言語化された回答を生成する。 本フレームワークは,質問と問合せを同時入力として,結果を生成することができる。 VOGUEは4つのモジュールから構成され、同時にマルチタスク学習によって訓練される。 我々は,既存データセットの枠組みを評価し,BLEUとMETEORのスコアにおいて,現在のベースラインを上回ります。

In recent years, there have been significant developments in Question Answering over Knowledge Graphs (KGQA). Despite all the notable advancements, current KGQA systems only focus on answer generation techniques and not on answer verbalization. However, in real-world scenarios (e.g., voice assistants such as Alexa, Siri, etc.), users prefer verbalized answers instead of a generated response. This paper addresses the task of answer verbalization for (complex) question answering over knowledge graphs. In this context, we propose a multi-task-based answer verbalization framework: VOGUE (Verbalization thrOuGh mUlti-task lEarning). The VOGUE framework attempts to generate a verbalized answer using a hybrid approach through a multi-task learning paradigm. Our framework can generate results based on using questions and queries as inputs concurrently. VOGUE comprises four modules that are trained simultaneously through multi-task learning. We evaluate our framework on existing datasets for answer verbalization, and it outperforms all current baselines on both BLEU and METEOR scores.
翻訳日:2021-06-29 01:38:33 公開日:2021-06-24
# (参考訳) 公平さを保った説明を生成するのには何が必要か? [全文訳有]

What will it take to generate fairness-preserving explanations? ( http://arxiv.org/abs/2106.13346v1 )

ライセンス: CC BY 4.0
Jessica Dai, Sohini Upadhyay, Stephen H. Bach, Himabindu Lakkaraju(参考訳) ブラックボックスモデルの説明が有用である場合、ブラックボックスの公平性もまたしばしば関連する問題である。 しかし,ブラックボックスモデルの公平さとブラックボックスの説明の振る舞いとの関係は明らかでない。 表型データセットに適用される説明に注目し,ブラックボックスアルゴリズムの公平性は必ずしも保持されないことを示唆する。 言い換えれば、説明アルゴリズムは重要な特性を無視したり無視したりすることができ、誤った説明や誤解を招く。 より広範に、フェアネスの観点から情報的かつ関連性の高い説明を評価・生成するための今後の研究方向を提案する。

In situations where explanations of black-box models may be useful, the fairness of the black-box is also often a relevant concern. However, the link between the fairness of the black-box model and the behavior of explanations for the black-box is unclear. We focus on explanations applied to tabular datasets, suggesting that explanations do not necessarily preserve the fairness properties of the black-box algorithm. In other words, explanation algorithms can ignore or obscure critical relevant properties, creating incorrect or misleading explanations. More broadly, we propose future research directions for evaluating and generating explanations such that they are informative and relevant from a fairness perspective.
翻訳日:2021-06-29 01:21:29 公開日:2021-06-24
# Federated Noisy Client Learning

Federated Noisy Client Learning ( http://arxiv.org/abs/2106.13239v1 )

ライセンス: Link先を確認
Li Li, Huazhu Fu, Bo Han, Cheng-Zhong Xu, Ling Shao(参考訳) フェデレートラーニング(FL)は、データのプライバシを維持するためにトレーニングデータを分散したまま、複数のローカルクライアントに依存する共有グローバルモデルを協調的に集約する。 しかし、標準FLメソッドは、集約されたモデル全体のパフォーマンスを損なううるノイズの多いクライアント問題を無視する。 本稿では,まず雑音のあるクライアントステートメントを解析し,ノイズ分布の異なるノイズクライアントをモデル化する(ベルヌーイ分布やガウス分布の切断など)。 雑音のあるクライアントで学習するために,Federated Noisy Client Learning (Fed-NCL) という単純なFLフレームワークを提案する。このフレームワークはプラグアンドプレイのアルゴリズムであり,各クライアントのデータ品質を動的に定量化するデータ品質測定(DQM)と,各クライアントのローカルモデルとデータ品質を協調的に考慮して適応的に集約するノイズロバストアグリゲーション(NRA)という2つの主要コンポーネントを備えている。 fed-nclはどんな標準flワークフローでも簡単に適用でき、騒がしいクライアント問題に対処することができます。 種々のデータセットに対する実験結果から,我々のアルゴリズムは,ノイズの多いクライアントを持つ様々な最先端システムの性能を向上させることを示した。

Federated learning (FL) collaboratively aggregates a shared global model depending on multiple local clients, while keeping the training data decentralized in order to preserve data privacy. However, standard FL methods ignore the noisy client issue, which may harm the overall performance of the aggregated model. In this paper, we first analyze the noisy client statement, and then model noisy clients with different noise distributions (e.g., Bernoulli and truncated Gaussian distributions). To learn with noisy clients, we propose a simple yet effective FL framework, named Federated Noisy Client Learning (Fed-NCL), which is a plug-and-play algorithm and contains two main components: a data quality measurement (DQM) to dynamically quantify the data quality of each participating client, and a noise robust aggregation (NRA) to adaptively aggregate the local models of each client by jointly considering the amount of local training data and the data quality of each client. Our Fed-NCL can be easily applied in any standard FL workflow to handle the noisy client issue. Experimental results on various datasets demonstrate that our algorithm boosts the performances of different state-of-the-art systems with noisy clients.
翻訳日:2021-06-28 13:20:34 公開日:2021-06-24
# byteSteady: Byte-Level n-Gram 埋め込みを使った高速な分類

byteSteady: Fast Classification Using Byte-Level n-Gram Embeddings ( http://arxiv.org/abs/2106.13302v1 )

ライセンス: Link先を確認
Xiang Zhang, Alexandre Drouin, Raymond Li(参考訳) この記事では、バイトレベルのn-gram埋め込みを使用した分類の高速モデルである byteSteadyを紹介します。 byteSteadyは、各入力がバイトのシーケンスとして来ると仮定する。 表現ベクトルは、事前に定義された n の集合を持つバイトレベルのn-グラムの平均埋め込みベクトルを用いて生成される。 この入力表現ベクトルは線形分類器に供給される。 byteSteadyの簡単な応用はテキスト分類である。 byteSteadyは1種類の非言語データ -- DNA配列を遺伝子分類に適用する。 どちらの問題においても、強いベースラインに対して競合的な分類結果を達成し、言語データと非言語データの両方にバイトステッドを適用することができることを示唆した。 さらに,Huffman符号化を用いた単純な圧縮は結果に大きな影響を与えないことがわかった。

This article introduces byteSteady -- a fast model for classification using byte-level n-gram embeddings. byteSteady assumes that each input comes as a sequence of bytes. A representation vector is produced using the averaged embedding vectors of byte-level n-grams, with a pre-defined set of n. The hashing trick is used to reduce the number of embedding vectors. This input representation vector is then fed into a linear classifier. A straightforward application of byteSteady is text classification. We also apply byteSteady to one type of non-language data -- DNA sequences for gene classification. For both problems we achieved competitive classification results against strong baselines, suggesting that byteSteady can be applied to both language and non-language data. Furthermore, we find that simple compression using Huffman coding does not significantly impact the results, which offers an accuracy-speed trade-off previously unexplored in machine learning.
翻訳日:2021-06-28 13:19:26 公開日:2021-06-24
# プロンプトとパラメータの削減: 言語モデルによる簡単な少数ショット学習

Cutting Down on Prompts and Parameters: Simple Few-Shot Learning with Language Models ( http://arxiv.org/abs/2106.13353v1 )

ライセンス: Link先を確認
Robert L. Logan IV, Ivana Bala\v{z}evi\'c, Eric Wallace, Fabio Petroni, Sameer Singh, Sebastian Riedel(参考訳) トレーニング例やタスク記述を伴う言語モデル(LM)のプロンプティングは、最近の数ショット学習の成功に不可欠であると考えられている。 そこで本研究では,数ショット設定での微調整により,プロンプトエンジニアリングの必要性を大幅に低減できることを示す。 実際、nullプロンプトは、タスク固有のテンプレートもトレーニング例も含まないプロンプトであり、広範囲のタスクで手動で調整されたプロンプトの競合精度を達成することができる。 lmsの微調整は、下流タスク毎に新しいパラメータを導入するが、このメモリオーバーヘッドは大幅に削減できる。 バイアス項のみの微調整は、標準の微調整と同等または優れた精度を達成でき、パラメータの0.1%を更新できる。 全体としては、より正確で、異なるプロンプトに対して堅牢であり、凍結したLMと同じくらい効率的にできるため、数ショット学習のための微調整を推奨する。

Prompting language models (LMs) with training examples and task descriptions has been seen as critical to recent successes in few-shot learning. In this work, we show that finetuning LMs in the few-shot setting can considerably reduce the need for prompt engineering. In fact, one can use null prompts, prompts that contain neither task-specific templates nor training examples, and achieve competitive accuracy to manually-tuned prompts across a wide range of tasks. While finetuning LMs does introduce new parameters for each downstream task, we show that this memory overhead can be substantially reduced: finetuning only the bias terms can achieve comparable or better accuracy than standard finetuning while only updating 0.1% of the parameters. All in all, we recommend finetuning LMs for few-shot learning as it is more accurate, robust to different prompts, and can be made nearly as efficient as using frozen LMs.
翻訳日:2021-06-28 13:19:13 公開日:2021-06-24
# 逆例の(非)回避性について

On the (Un-)Avoidability of Adversarial Examples ( http://arxiv.org/abs/2106.13326v1 )

ライセンス: Link先を確認
Sadia Chowdhury and Ruth Urner(参考訳) ディープラーニングモデルにおける逆例の現象は、その信頼性に大きな懸念を引き起こしている。 多くのディープニューラルネットワークは予測精度の点で印象的な性能を示しているが、多くの例では、知覚不能な摂動がネットワークの予測を誤ってひっくり返すことが示されている。 ほとんどの研究は、最悪の場合の敵攻撃や学習に対する防御の開発に注力している。 本研究では,小さな摂動条件下でのモデルラベルの変更が正当であるかどうか(かつそうでない場合)を決定するためのフレームワークの提供を目的とする。 敵対的ロバスト性は、基盤となる分布に従う局所的適応的尺度として定義されるべきであると慎重に議論する。 次に,適応型ロバスト損失の定義を提案し,その経験的バージョンを導出し,結果として得られるデータ提供フレームワークを開発する。 決定論的ラベルに基づく1-nearest近傍分類の一貫性を維持し,実証的評価を行う。

The phenomenon of adversarial examples in deep learning models has caused substantial concern over their reliability. While many deep neural networks have shown impressive performance in terms of predictive accuracy, it has been shown that in many instances an imperceptible perturbation can falsely flip the network's prediction. Most research has then focused on developing defenses against adversarial attacks or learning under a worst-case adversarial loss. In this work, we take a step back and aim to provide a framework for determining whether a model's label change under small perturbation is justified (and when it is not). We carefully argue that adversarial robustness should be defined as a locally adaptive measure complying with the underlying distribution. We then suggest a definition for an adaptive robust loss, derive an empirical version of it, and develop a resulting data-augmentation framework. We prove that our adaptive data-augmentation maintains consistency of 1-nearest neighbor classification under deterministic labels and provide illustrative empirical evaluations.
翻訳日:2021-06-28 13:17:41 公開日:2021-06-24
# 熱力学的一貫性を保証したスロッシングシーンにおける物理知覚

Physics perception in sloshing scenes with guaranteed thermodynamic consistency ( http://arxiv.org/abs/2106.13301v1 )

ライセンス: Link先を確認
Beatriz Moya, Alberto Badias, David Gonzalez, Francisco Chinesta, Elias Cueto(参考訳) 物理知覚は、限られたデータやシーンの部分的な測定しか利用できないという問題に直面することが多い。 そこで本研究では,自由表面の測定から液滴の完全な状態を知るための戦略を提案する。 提案手法はリカレントニューラルネットワーク (RNN) に基づいて, 未知の情報を再構成するだけでなく, 将来のシナリオに関する流体推論をリアルタイムに行えるように, 最小次多様体に利用可能な限られた情報を投影する。 物理的に一貫した予測を得るために, 誘導バイアスを用いて熱力学の原理を満たすように, 減次多様体上でディープニューラルネットワークを訓練する。 RNNは歴史から、限られた情報とシミュレーションが起こる潜在空間を関連付けるために必要な隠れ情報を学ぶ。 最後に、デコーダがデータを高次元多様体に返却し、拡張現実の形でユーザに対して洞察力のある情報を提供する。 このアルゴリズムはコンピュータビジョンシステムに接続し,提案手法の性能を実情報で検証することにより,観測流体の将来状態をリアルタイムに理解・予測するシステムを実現する。

Physics perception very often faces the problem that only limited data or partial measurements on the scene are available. In this work, we propose a strategy to learn the full state of sloshing liquids from measurements of the free surface. Our approach is based on recurrent neural networks (RNN) that project the limited information available to a reduced-order manifold so as to not only reconstruct the unknown information, but also to be capable of performing fluid reasoning about future scenarios in real time. To obtain physically consistent predictions, we train deep neural networks on the reduced-order manifold that, through the employ of inductive biases, ensure the fulfillment of the principles of thermodynamics. RNNs learn from history the required hidden information to correlate the limited information with the latent space where the simulation occurs. Finally, a decoder returns data back to the high-dimensional manifold, so as to provide the user with insightful information in the form of augmented reality. This algorithm is connected to a computer vision system to test the performance of the proposed methodology with real information, resulting in a system capable of understanding and predicting future states of the observed fluid in real-time.
翻訳日:2021-06-28 13:16:36 公開日:2021-06-24
# リモートセンシングインシーズン作物生育推定のためのドメイン誘導機械学習

Domain-guided Machine Learning for Remotely Sensed In-Season Crop Growth Estimation ( http://arxiv.org/abs/2106.13323v1 )

ライセンス: Link先を確認
George Worrall and Anand Rangarajan and Jasmeet Judge(参考訳) 高度な機械学習技術は、作物のマッピングや収量予測などのリモートセンシング(rs)アプリケーションで使われてきたが、作物の進歩を追跡するためにはまだ使われていない。 本研究では,短期記憶型ドメイン誘導型ニューラルネットワーク(dgnn)における作物生育ドライバの農業的知識を,季節的作物成長予測に利用することを提案する。 DgNNは、枝分かれした構造と注意を使って、独立した作物栽培ドライバーを分離し、成長期を通じてその様々な重要性を捉えている。 DgNNはトウモロコシ用に実装されており、2003-2019年の間アイオワ州でRSデータを使用しており、農務省の作物進歩報告が真実として使われている。 州全体のDgNN性能は、シーケンシャルかつ高密度なNN構造よりも大幅に改善され、広く使用されているHidden Markov Model法が特徴である。 DgNNはすべての成長段階においてナッシュ・サトフリフの効率が3.5%高く、テスト期間中に他のNNよりもコサインの類似性が高かった。 DgNNとSequential NNは,すべての方法においてシルキング-グラインフィル遷移を推定することは困難であったが,異常な作物の生育期間においてより堅牢であった。 最後に、一様多様体近似と層活性化の投影可視化により、lstmベースのnnが密度の高い構造とは異なる作物の成長時系列を分離する方法を示した。 本研究は, 作物生育段階推定(CGSE)におけるNNの生存可能性と, ドメイン知識の活用のメリットを示すものである。 ここで提示されるDgNN手法は、他の作物のほぼリアルタイムCGSEを提供するために拡張することができる。

Advanced machine learning techniques have been used in remote sensing (RS) applications such as crop mapping and yield prediction, but remain under-utilized for tracking crop progress. In this study, we demonstrate the use of agronomic knowledge of crop growth drivers in a Long Short-Term Memory-based, Domain-guided neural network (DgNN) for in-season crop progress estimation. The DgNN uses a branched structure and attention to separate independent crop growth drivers and capture their varying importance throughout the growing season. The DgNN is implemented for corn, using RS data in Iowa for the period 2003-2019, with USDA crop progress reports used as ground truth. State-wide DgNN performance shows significant improvement over sequential and dense-only NN structures, and a widely-used Hidden Markov Model method. The DgNN had a 3.5% higher Nash-Sutfliffe efficiency over all growth stages and 33% more weeks with highest cosine similarity than the other NNs during test years. The DgNN and Sequential NN were more robust during periods of abnormal crop progress, though estimating the Silking-Grainfill transition was difficult for all methods. Finally, Uniform Manifold Approximation and Projection visualizations of layer activations showed how LSTM-based NNs separate crop growth time-series differently from a dense-only structure. Results from this study exhibit both the viability of NNs in crop growth stage estimation (CGSE) and the benefits of using domain knowledge. The DgNN methodology presented here can be extended to provide near-real time CGSE of other crops.
翻訳日:2021-06-28 13:16:16 公開日:2021-06-24
# 移動ナビゲーションのためのマルチロボット深部強化学習

Multi-Robot Deep Reinforcement Learning for Mobile Navigation ( http://arxiv.org/abs/2106.13280v1 )

ライセンス: Link先を確認
Katie Kang, Gregory Kahn, Sergey Levine(参考訳) 深い強化学習アルゴリズムは、知覚に基づくモバイルナビゲーションのポリシーを成功させるために、大規模で多様なデータセットを必要とする。 しかし、そのようなデータセットを単一のロボットで集めることは違法にコストがかかる。 複数の異なるロボットプラットフォームでデータを収集することは、大規模データ収集に対するよりスケーラブルなアプローチである。 しかし、深層強化学習アルゴリズムはこのような異種データセットをどのように活用できるのか? 本研究では階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。 トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。 この階層的統合モデルによる計画手法により、様々なプラットフォームで収集されたデータセットを、テスト時の展開ロボットの物理的能力を尊重しながら、アルゴリズムがトレーニングすることができる。 我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。

Deep reinforcement learning algorithms require large and diverse datasets in order to learn successful policies for perception-based mobile navigation. However, gathering such datasets with a single robot can be prohibitively expensive. Collecting data with multiple different robotic platforms with possibly different dynamics is a more scalable approach to large-scale data collection. But how can deep reinforcement learning algorithms leverage such heterogeneous datasets? In this work, we propose a deep reinforcement learning algorithm with hierarchically integrated models (HInt). At training time, HInt learns separate perception and dynamics models, and at test time, HInt integrates the two models in a hierarchical manner and plans actions with the integrated model. This method of planning with hierarchically integrated models allows the algorithm to train on datasets gathered by a variety of different platforms, while respecting the physical capabilities of the deployment robot at test time. Our mobile navigation experiments show that HInt outperforms conventional hierarchical policies and single-source approaches.
翻訳日:2021-06-28 13:14:33 公開日:2021-06-24
# ドメイン一般化医用画像セグメンテーションのための半教師付きメタラーニング

Semi-supervised Meta-learning with Disentanglement for Domain-generalised Medical Image Segmentation ( http://arxiv.org/abs/2106.13292v1 )

ライセンス: Link先を確認
Xiao Liu, Spyridon Thermos, Alison O'Neil, Sotirios A. Tsaftaris(参考訳) 深層モデルを新しいセンター(ここではドメイン)からの新しいデータに一般化することは依然として課題である。 これは主に、ソースと見えないドメイン間のデータ統計(ドメインシフト)の変化に起因する。 近年、トレーニングデータをメタトレインとメタテストセットに分割して、トレーニング中のドメインシフトをシミュレートし、処理するグラデーションベースのメタラーニングアプローチにより、一般化性能が改善されている。 しかし、現在の完全に教師付きメタラーニングアプローチは、ピクセル単位のアノテーションを作成するのに多大な労力が要る医療画像セグメンテーションには拡張性がない。 一方、低データ構造では、シミュレートされたドメインシフトは、ソースと見えないドメイン間での真のドメインシフトをうまく近似しない可能性がある。 この問題に対処するために, 半教師付きメタラーニングフレームワークを提案する。 ドメインシフトに関連する表現を明示的にモデル化する。 表現をアンタングル化し、それらを組み合わせて入力イメージを再構築することで、メタ学習のための真のドメインシフトをより正確に近似するためにラベルのないデータを使用できる。 したがって、特にラベル付きデータが限られた場合、モデルはより優れた一般化性能を達成することができる。 実験により,提案手法は異なるセグメンテーションタスクにおいて頑健であり,2つの公開ベンチマークにおいて最先端の一般化性能が得られることを示した。

Generalising deep models to new data from new centres (termed here domains) remains a challenge. This is largely attributed to shifts in data statistics (domain shifts) between source and unseen domains. Recently, gradient-based meta-learning approaches where the training data are split into meta-train and meta-test sets to simulate and handle the domain shifts during training have shown improved generalisation performance. However, the current fully supervised meta-learning approaches are not scalable for medical image segmentation, where large effort is required to create pixel-wise annotations. Meanwhile, in a low data regime, the simulated domain shifts may not approximate the true domain shifts well across source and unseen domains. To address this problem, we propose a novel semi-supervised meta-learning framework with disentanglement. We explicitly model the representations related to domain shifts. Disentangling the representations and combining them to reconstruct the input image allows unlabeled data to be used to better approximate the true domain shifts for meta-learning. Hence, the model can achieve better generalisation performance, especially when there is a limited amount of labeled data. Experiments show that the proposed method is robust on different segmentation tasks and achieves state-of-the-art generalisation performance on two public benchmarks.
翻訳日:2021-06-28 13:08:15 公開日:2021-06-24
# クラブハウスにおけるヘイトスピーチ検出

Hate Speech Detection in Clubhouse ( http://arxiv.org/abs/2106.13238v1 )

ライセンス: Link先を確認
Hadi Mansourifar, Dana Alsagheer, Reza Fathi, Weidong Shi, Lan Ni, Yan Huang(参考訳) ソーシャルメディアのマイノリティに対する攻撃的言語の割合が高いため、反ヘイトスピーチ生成は、この課題に取り組むための自動的な方法と考えられている。 反ヘイトスピーチは、言論の自由を制限することなく、人々を教育し、社会赤線を大胆に保つための第3の声として現れるはずである。 カウンターヘイトスピーチ生成は、ソーシャルメディアにおけるヘイトスピーチに介入しようとする試みが、この文脈でポジティブな役割を果たすという楽観的な仮定に基づいている。 さらに、以前の研究は、反論の前後のコメントの順序を調査することを無視した。 私たちの知る限りでは、統計的観点から反ヘイトスピーチの影響を測定する試みは行われていない。 本稿では,Google Perspective Scoresの観点から,次のコメントに対する反ヘイトスピーチの影響を測定することによって,この方向への第一歩を踏み出す。 さらに, 反ヘイトスピーチは, ソーシャルメディアのアグレッシブ現象として, 否定的な影響を生じさせる可能性があることを示した。

With high prevalence of offensive language against the minorities in social media, counter hate speech generation is considered as an automatic way to tackle this challenge. The counter hate speeches are supposed to appear as a third voice to educate people and keep the social red lines bold without limiting the freedom of speech principles. The counter hate speech generation is based on the optimistic assumption that, any attempt to intervene the hate speeches in social media can play a positive role in this context. Beyond that, previous works ignored to investigate the sequence of comments before and after counter speech. To the best of our knowledge, no attempt has been made to measure the counter hate speech impact from statistical point of view. In this paper, we take the first step in this direction by measuring the counter hate speech impact on the next comments in terms of Google Perspective Scores. Furthermore, our experiments show that, counter hate speech can cause negative impacts, a phenomena which is called aggression in social media.
翻訳日:2021-06-28 13:04:40 公開日:2021-06-24
# 連続的競争記憶:オンラインタスクフリー生涯学習のためのニューラルネットワーク

Continual Competitive Memory: A Neural System for Online Task-Free Lifelong Learning ( http://arxiv.org/abs/2106.13300v1 )

ライセンス: Link先を確認
Alexander G. Ororbia(参考訳) 本稿では,教師なし学習(continual competitive memory,ccm)の新たな形式を提案するとともに,競争原理の下で動作する関連するニューラルモデルを統合するための計算フレームワークを提案する。 結果として得られる神経系は、オンライン連続分類問題において破滅的な忘れと戦う効果的なアプローチを提供する。 提案したCCMシステムは,他の競合学習ニューラルモデルよりも優れているだけでなく,Split MNISTやSplit NotMNISTといったベンチマーク上での,最新かつ最先端の学習アプローチと競合する性能が得られることを示す。 CCMは、特にタスクがモデルに未知であり、外部のガイダンスなしで推論されなければならない場合、データストリームからの干渉に対して堅牢な表現を取得するための、有望な経路を前進させる。

In this article, we propose a novel form of unsupervised learning, continual competitive memory (CCM), as well as a computational framework to unify related neural models that operate under the principles of competition. The resulting neural system is shown to offer an effective approach for combating catastrophic forgetting in online continual classification problems. We demonstrate that the proposed CCM system not only outperforms other competitive learning neural models but also yields performance that is competitive with several modern, state-of-the-art lifelong learning approaches on benchmarks such as Split MNIST and Split NotMNIST. CCM yields a promising path forward for acquiring representations that are robust to interference from data streams, especially when the task is unknown to the model and must be inferred without external guidance.
翻訳日:2021-06-28 13:04:21 公開日:2021-06-24
# プライベート共分散推定を含まない共分散アウェアプライベート平均推定

Covariance-Aware Private Mean Estimation Without Private Covariance Estimation ( http://arxiv.org/abs/2106.13329v1 )

ライセンス: Link先を確認
Gavin Brown, Marco Gaboardi, Adam Smith, Jonathan Ullman, Lydia Zakynthinou(参考訳) 未知共分散を持つd$-dimensional (sub)gaussian 分布に対する2つのサンプル効率の微分プライベート平均推定器を提案する。 直交的に、平均$\mu$と共分散$\Sigma$の分布から$n \gtrsim d/\alpha^2$のサンプルが与えられたとき、我々の推定子は$\| \tilde\mu - \mu \|_{\Sigma} \leq \alpha$, ここで$\| \cdot \|_{\Sigma}$はマハラノビス距離である。 同じ保証を持つ全ての以前の推定子は共分散行列上の強い事前境界を必要とするか、$\Omega(d^{3/2})$サンプルを必要とする。 それぞれの推定器は、差分的にプライベートなメカニズムを設計するための単純で一般的なアプローチに基づいているが、推定器をプライベートかつサンプル効率にするための新しい技術的ステップがある。 我々の最初の推定器は、指数関数機構を用いて、ほぼ最大タカ深さの点をサンプリングするが、大きなタカ深さの点の集合に限定される。 このメカニズムがプライベートであることを証明するには、新しい分析が必要である。 第2の推定器は,共分散自体を解放することなく,経験的共分散に適応した雑音を含むデータセットの実証的平均を摂動する。 そのサンプル複雑性の保証は、プライバシパラメータへの若干の依存性はあるものの、サブガウス分布に対してより一般的である。 両方の推定者にとって、データの慎重な前処理は微分プライバシーを満たすために必要である。

We present two sample-efficient differentially private mean estimators for $d$-dimensional (sub)Gaussian distributions with unknown covariance. Informally, given $n \gtrsim d/\alpha^2$ samples from such a distribution with mean $\mu$ and covariance $\Sigma$, our estimators output $\tilde\mu$ such that $\| \tilde\mu - \mu \|_{\Sigma} \leq \alpha$, where $\| \cdot \|_{\Sigma}$ is the Mahalanobis distance. All previous estimators with the same guarantee either require strong a priori bounds on the covariance matrix or require $\Omega(d^{3/2})$ samples. Each of our estimators is based on a simple, general approach to designing differentially private mechanisms, but with novel technical steps to make the estimator private and sample-efficient. Our first estimator samples a point with approximately maximum Tukey depth using the exponential mechanism, but restricted to the set of points of large Tukey depth. Proving that this mechanism is private requires a novel analysis. Our second estimator perturbs the empirical mean of the data set with noise calibrated to the empirical covariance, without releasing the covariance itself. Its sample complexity guarantees hold more generally for subgaussian distributions, albeit with a slightly worse dependence on the privacy parameter. For both estimators, careful preprocessing of the data is required to satisfy differential privacy.
翻訳日:2021-06-28 13:04:04 公開日:2021-06-24
# マルチタスクロボット学習における高速Off-Distribution Adaptationの展開と時間

Towards Exploiting Geometry and Time for FastOff-Distribution Adaptation in Multi-Task RobotLearning ( http://arxiv.org/abs/2106.13237v1 )

ライセンス: Link先を確認
K.R. Zentner, Ryan Julian, Ujjwal Puri, Yulun Zhang, Gaurav Sukhatme(参考訳) 本稿では,ロボットタスクの共有物理構造を活用したマルチタスク転送学習の可能性について検討する。 具体的には、事前トレーニングタスクのベースセットのポリシをトレーニングした後、ブラックボックスプリエントとしてこれらのポリシを再使用するためのシンプルなアーキテクチャアプローチを使用して、新たなオフディストリビューションタスクへの適応を試します。 これらのアプローチには、観測空間または行動空間をベースから対象タスクにアライメントして剛体構造を利用する方法や、対象タスクを解決するベースタスク間で時間領域スイッチングポリシーを学習し、時間的コヒーレンスを利用する方法が含まれる。 低複雑さのターゲットポリシークラス、ブラックボックス前の基本ポリシー、および単純な最適化アルゴリズムを組み合わせることで、少数のオフライントレーニングデータを用いて、ベースタスクの配布外の新しいタスクを取得できることがわかった。

We explore possible methods for multi-task transfer learning which seek to exploit the shared physical structure of robotics tasks. Specifically, we train policies for a base set of pre-training tasks, then experiment with adapting to new off-distribution tasks, using simple architectural approaches for re-using these policies as black-box priors. These approaches include learning an alignment of either the observation space or action space from a base to a target task to exploit rigid body structure, and methods for learning a time-domain switching policy across base tasks which solves the target task, to exploit temporal coherence. We find that combining low-complexity target policy classes, base policies as black-box priors, and simple optimization algorithms allows us to acquire new tasks outside the base task distribution, using small amounts of offline training data.
翻訳日:2021-06-28 13:01:32 公開日:2021-06-24
# ベイズ心の理論における有界有理エージェントの誤りのモデル化

Modeling the Mistakes of Boundedly Rational Agents Within a Bayesian Theory of Mind ( http://arxiv.org/abs/2106.13249v1 )

ライセンス: Link先を確認
Arwa Alanqary, Gloria Z. Lin, Joie Le, Tan Zhi-Xuan, Vikash K. Mansinghka, Joshua B. Tenenbaum(参考訳) 他の人が達成しようとしている目標を推測するとき、人々は直感的に他人が途中で間違いを犯すかもしれないことを理解します。 これは、教育、援助の提供、非難と許しのどちらかの決定などの活動に不可欠である。 しかしながら、心の理論のベイズモデルは一般にこれらの誤りを考慮せず、代わりにエージェントを目的を達成するのに最適なものとしてモデル化している。 結果として、彼らは自分の家をロックアウトしたり、チェスの試合に負けたりといった現象を説明できない。 ここでは、目標、計画、行動の誤りがある境界有理なエージェントをモデル化するために、ベイズ理論のマインドフレームワークを拡張する。 我々はエージェントを確率的プログラムとしてモデル化することでこれを形式化し、そこでは目標が意味論的に類似した状態と混同され、計画がリソース境界の計画によって誤認され、実行エラーにより行動が意図されない可能性がある。 本研究では,扉の裏に宝石を閉じ込めたグリッドワールドパズル (i) とブロックスタッキングドメイン (ii) の2つの領域において,人間の目標推論を導く実験を行う。 我々のモデルは、ドメインをまたいで一般化しながら、選択肢よりも人間の推論をうまく説明します。 これらの知見は、人間の直感心理学の豊かさを考慮し、他者を有界エージェントとしてモデル化することの重要性を示している。

When inferring the goals that others are trying to achieve, people intuitively understand that others might make mistakes along the way. This is crucial for activities such as teaching, offering assistance, and deciding between blame or forgiveness. However, Bayesian models of theory of mind have generally not accounted for these mistakes, instead modeling agents as mostly optimal in achieving their goals. As a result, they are unable to explain phenomena like locking oneself out of one's house, or losing a game of chess. Here, we extend the Bayesian Theory of Mind framework to model boundedly rational agents who may have mistaken goals, plans, and actions. We formalize this by modeling agents as probabilistic programs, where goals may be confused with semantically similar states, plans may be misguided due to resource-bounded planning, and actions may be unintended due to execution errors. We present experiments eliciting human goal inferences in two domains: (i) a gridworld puzzle with gems locked behind doors, and (ii) a block-stacking domain. Our model better explains human inferences than alternatives, while generalizing across domains. These findings indicate the importance of modeling others as bounded agents, in order to account for the full richness of human intuitive psychology.
翻訳日:2021-06-28 13:01:15 公開日:2021-06-24
# Brax - 大規模剛体シミュレーションのための微分可能な物理エンジン

Brax -- A Differentiable Physics Engine for Large Scale Rigid Body Simulation ( http://arxiv.org/abs/2106.13281v1 )

ライセンス: Link先を確認
C. Daniel Freeman, Erik Frey, Anton Raichuk, Sertan Girgin, Igor Mordatch, Olivier Bachem(参考訳) 我々は、JAXで書かれたアクセラレータのパフォーマンスと並列性に焦点を当てた、剛体シミュレーションのためのオープンソースのライブラリであるBraxを紹介します。 既存の強化学習文献にインスパイアされた一連のタスクについて結果を提示するが、エンジンで再作成する。 さらに、PPO、SAC、ES、およびJAXの直接的なポリシー最適化を再実装し、環境と共にコンパイルし、学習アルゴリズムと環境処理を同一デバイス上で実行し、アクセラレータ上でシームレスにスケールできるようにする。 最後に、一般的なOpenAI Gym MuJoCoライクなタスク上で、パフォーマンスポリシーのトレーニングを容易にするノートブックを含めます。

We present Brax, an open source library for rigid body simulation with a focus on performance and parallelism on accelerators, written in JAX. We present results on a suite of tasks inspired by the existing reinforcement learning literature, but remade in our engine. Additionally, we provide reimplementations of PPO, SAC, ES, and direct policy optimization in JAX that compile alongside our environments, allowing the learning algorithm and the environment processing to occur on the same device, and to scale seamlessly on accelerators. Finally, we include notebooks that facilitate training of performant policies on common OpenAI Gym MuJoCo-like tasks in minutes.
翻訳日:2021-06-28 13:00:51 公開日:2021-06-24
# 近赤外域における地質ターゲットの超スペクトル画像の一般教師なしクラスタリング

Generalized Unsupervised Clustering of Hyperspectral Images of Geological Targets in the Near Infrared ( http://arxiv.org/abs/2106.13315v1 )

ライセンス: Link先を確認
Angela F. Gao, Brandon Rasmussen, Peter Kulits, Eva L. Scheller, Rebecca Greenberger, Bethany L. Ehlmann(参考訳) 赤外線ハイパースペクトル画像の地質問題への応用は、データがよりアクセスしやすく、費用対効果が高まるにつれて、より普及しつつある。 スペクトル類似の物質のクラスタリングと分類は、しばしば、地球での経済鉱物探査から火星での惑星探査まで、応用の第一段階である。 専門的に開発されたスペクトルパラメータで導かれる半手的分類は時間と偏りがあり、教師付き手法は豊富なラベル付きデータを必要とし、一般化が困難である。 本稿では,専門家のスペクトル地質学者の入力と定量的指標から情報を得た特徴抽出とクラスタリングの完全教師なしワークフローを開発する。 我々のパイプラインでは、任意の画像内のスペクトルの多様性をマッピングするために、軽量なオートエンコーダとガウス混合モデルを用いています。 我々は,オマーン・オフィオライト・ドリルコアから得られた専門的なデータを用いてサブミリスケールでのパイプラインの性能を検証し,火星のジェゼロ・クレーターの軌道データ(パーセヴァンス・ローバーの着陸地点)を用いてメートルスケールでの性能を評価する。 さらに, 従来のハイパースペクトル画像解析における各種前処理技術の効果について検討する。 このパイプラインは、類似の地質資料の高速かつ正確なクラスタリングマップを提供し、実験室の画像とリモートセンシング画像の両方の主要な鉱物クラスを一貫して識別し、分離する。 我々はこのパイプラインを「鉱物のスペクトル非教師なしクラスタリング(gypsum)の一般化パイプライン」と呼んでいる。

The application of infrared hyperspectral imagery to geological problems is becoming more popular as data become more accessible and cost-effective. Clustering and classifying spectrally similar materials is often a first step in applications ranging from economic mineral exploration on Earth to planetary exploration on Mars. Semi-manual classification guided by expertly developed spectral parameters can be time consuming and biased, while supervised methods require abundant labeled data and can be difficult to generalize. Here we develop a fully unsupervised workflow for feature extraction and clustering informed by both expert spectral geologist input and quantitative metrics. Our pipeline uses a lightweight autoencoder followed by Gaussian mixture modeling to map the spectral diversity within any image. We validate the performance of our pipeline at submillimeter-scale with expert-labelled data from the Oman ophiolite drill core and evaluate performance at meters-scale with partially classified orbital data of Jezero Crater on Mars (the landing site for the Perseverance rover). We additionally examine the effects of various preprocessing techniques used in traditional analysis of hyperspectral imagery. This pipeline provides a fast and accurate clustering map of similar geological materials and consistently identifies and separates major mineral classes in both laboratory imagery and remote sensing imagery. We refer to our pipeline as "Generalized Pipeline for Spectroscopic Unsupervised clustering of Minerals (GyPSUM)."
翻訳日:2021-06-28 12:59:12 公開日:2021-06-24
# fovqa: 盲目のfoveated video quality assessment

FOVQA: Blind Foveated Video Quality Assessment ( http://arxiv.org/abs/2106.13328v1 )

ライセンス: Link先を確認
Yize Jin, Anjul Patney, Richard Webb, Alan Bovik(参考訳) 従来のブラインド・ノレファレンス(NR)ビデオ品質評価(VQA)モデルは、自然シーン統計(NSS)から引き出された特徴に大きく依存しているが、画像統計が空間領域に静止しているという仮定の下では、ほとんど依存している。 これらのモデルのいくつかは標準的な写真でかなり成功している。 しかし、仮想現実(vr)アプリケーションでは、空間的・時間的解像度コンテンツの高まりと視線方向の実用的な測定方法を考えると、焦点付き映像圧縮が注目され、空間的品質評価の概念が注目されている。 ビデオ圧縮の歪みは偏心性の増加とともに増大し、自然界の統計が空間変動であることを示唆している。 本研究では,空間変動自然景観統計(nss)と自然映像統計(nvs)の新たなモデルに基づく,no-reference (nr) foveated video quality assessment model (fovqa) を考案した。 具体的には,空間変動型一般化ガウス分布(SV-GGD)モデルと空間変動型非同期ガウス分布(SV-AGGD)モデルを,平均減算コントラスト正規化(MSCN)係数および隣接するMSCN係数の積として展開する。 我々は,視線に基づく特徴や,知覚的に煩わしい急激な品質低下を捉える特徴を抽出する映像品質予測器を考案した。 FOVQAは,他の主要なFIQA/VQAモデルと比較して,新しい2D LIVE-FBT-FCVRデータベース上での最先端(SOTA)性能を実現する。 我々は FOVQA の実装を http://live.ece.utex as.edu/research/Qual ity/FOVQA.zip で公開した。

Previous blind or No Reference (NR) video quality assessment (VQA) models largely rely on features drawn from natural scene statistics (NSS), but under the assumption that the image statistics are stationary in the spatial domain. Several of these models are quite successful on standard pictures. However, in Virtual Reality (VR) applications, foveated video compression is regaining attention, and the concept of space-variant quality assessment is of interest, given the availability of increasingly high spatial and temporal resolution contents and practical ways of measuring gaze direction. Distortions from foveated video compression increase with increased eccentricity, implying that the natural scene statistics are space-variant. Towards advancing the development of foveated compression / streaming algorithms, we have devised a no-reference (NR) foveated video quality assessment model, called FOVQA, which is based on new models of space-variant natural scene statistics (NSS) and natural video statistics (NVS). Specifically, we deploy a space-variant generalized Gaussian distribution (SV-GGD) model and a space-variant asynchronous generalized Gaussian distribution (SV-AGGD) model of mean subtracted contrast normalized (MSCN) coefficients and products of neighboring MSCN coefficients, respectively. We devise a foveated video quality predictor that extracts radial basis features, and other features that capture perceptually annoying rapid quality fall-offs. We find that FOVQA achieves state-of-the-art (SOTA) performance on the new 2D LIVE-FBT-FCVR database, as compared with other leading FIQA / VQA models. we have made our implementation of FOVQA available at: http://live.ece.utex as.edu/research/Qual ity/FOVQA.zip.
翻訳日:2021-06-28 12:58:48 公開日:2021-06-24
# 希少井戸データによる岩石の物理特性の予測とアキモフ層例としての機械学習による地震波の特性

Prediction of geophysical properties of rocks on rare well data and attributes of seismic waves by machine learning methods on the example of the Achimov formation ( http://arxiv.org/abs/2106.13274v1 )

ライセンス: Link先を確認
Dmitry Ivlev(参考訳) 本研究の目的は, 坑井調査データと地震動特性から, 生産堆積物中の砂体の発生を予測することである。 この研究の目的は、シベリア西部にある油田の一部のアキモフ堆積複合体の生産間隔である。 この研究は、機械学習アルゴリズムの技術的スタック、ソースデータを合成データで強化する方法、そして新しい機能を作成するアルゴリズムを示している。 その結果, 岩石の自然放射能値と地震波場特性との回帰関係を予測できる品質でモデル化した。 予測の許容品質は、モデル交差検証と、新しい井戸の結果から得られたデータの両方によって確認される。

Purpose of this research is to forecast the development of sand bodies in productive sediments based on well log data and seismic attributes. The object of the study is the productive intervals of Achimov sedimentary complex in the part of oil field located in Western Siberia. The research shows a technological stack of machine learning algorithms, methods for enriching the source data with synthetic ones and algorithms for creating new features. The result was the model of regression relationship between the values of natural radioactivity of rocks and seismic wave field attributes with an acceptable prediction quality. Acceptable quality of the forecast is confirmed both by model cross validation, and by the data obtained following the results of new well.
翻訳日:2021-06-28 12:57:59 公開日:2021-06-24
# dns:効率良く正確なビデオインデクシングと検索のための蒸留・選別

DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval ( http://arxiv.org/abs/2106.13266v1 )

ライセンス: Link先を確認
Giorgos Kordopatis-Zilos, Christos Tzelepis, Symeon Papadopoulos, Ioannis Kompatsiaris, Ioannis Patras(参考訳) 本稿では,大規模データセットにおける高速かつ効率的なコンテンツベースビデオ検索の問題に対処する。 i)時空間表現と類似性計算を利用し、高い計算コストで高い性能を達成するか、(ii)時空間構造が失われる大域ベクトルとして動画を表現/インデックスする粗粒度アプローチにより、低性能を提供するが、計算コストも低い。 本研究は,我々は精細な教師ネットワークから学ぶ「蒸留・選択(dns)」と呼ばれる知識蒸留フレームワークを提案する。a) 異なる検索性能と計算効率のトレードオフにおける学生ネットワーク,b) テスト時にサンプルを適切な学生に迅速に指示し,高い検索性能と高い計算効率の両方を維持するための選択ネットワーク。 私たちは複数の異なるアーキテクチャを持つ学生をトレーニングし、パフォーマンスと効率のトレードオフ、すなわち、バイナリ表現を使ってインデックスビデオを格納するきめ細かい学生を含む、スピードとストレージ要件に到達します。 重要なことに、提案されたスキームは、大きくてラベルのないデータセットで知識の蒸留を可能にする。 我々は,3つの異なるビデオ検索タスク上の5つの公開データセット上でDnSを評価し,a) 学生がいくつかのケースにおいて最先端のパフォーマンスを達成できること,b) 我々のDnSフレームワークは,検索性能,計算速度,記憶空間のトレードオフに優れたものであることを実証した。 具体的構成では,本手法は教師と類似のmAPを実現するが,20倍高速で,240倍のストレージスペースを必要とする。 収集したデータセットと実装は、https://github.com/m ever-team/distill-an d-select.comで公開されている。

In this paper, we address the problem of high performance and computationally efficient content-based video retrieval in large-scale datasets. Current methods typically propose either: (i) fine-grained approaches employing spatio-temporal representations and similarity calculations, achieving high performance at a high computational cost or (ii) coarse-grained approaches representing/indexin g videos as global vectors, where the spatio-temporal structure is lost, providing low performance but also having low computational cost. In this work, we propose a Knowledge Distillation framework, which we call Distill-and-Select (DnS), that starting from a well-performing fine-grained Teacher Network learns: a) Student Networks at different retrieval performance and computational efficiency trade-offs and b) a Selection Network that at test time rapidly directs samples to the appropriate student to maintain both high retrieval performance and high computational efficiency. We train several students with different architectures and arrive at different trade-offs of performance and efficiency, i.e., speed and storage requirements, including fine-grained students that store index videos using binary representations. Importantly, the proposed scheme allows Knowledge Distillation in large, unlabelled datasets -- this leads to good students. We evaluate DnS on five public datasets on three different video retrieval tasks and demonstrate a) that our students achieve state-of-the-art performance in several cases and b) that our DnS framework provides an excellent trade-off between retrieval performance, computational speed, and storage space. In specific configurations, our method achieves similar mAP with the teacher but is 20 times faster and requires 240 times less storage space. Our collected dataset and implementation are publicly available: https://github.com/m ever-team/distill-an d-select.
翻訳日:2021-06-28 12:55:19 公開日:2021-06-24
# 機械学習とデータマイニングによる安定金属有機フレームワークのエンジニアリングのためのコミュニティ知識の活用

Using Machine Learning and Data Mining to Leverage Community Knowledge for the Engineering of Stable Metal-Organic Frameworks ( http://arxiv.org/abs/2106.13327v1 )

ライセンス: Link先を確認
Aditya Nandy, Chenru Duan, and Heather J. Kulik(参考訳) MOFの金属活性部位や多孔質構造は、ガス分離から触媒分解までエンジニアリング上の課題に対して大きな期待を持っているが、その安定性を改善する方法の理解の欠如は、実際にの使用を制限する。 この制限を克服するため,本論文では,MoFの安定性に関する数千件の報告を抽出し,分解を伴わずに高温に耐える能力,溶媒分子の除去により活性化する能力について検討した。 4,000本近い原稿から自然言語処理と自動画像解析を行い,2,000以上の溶剤除去安定対策と3,000回の熱劣化温度を得た。 この集合における安定性特性と化学および幾何学構造の関係を解析し、より小さなMOF集合から派生した先行ヒューリスティックの限界を特定する。 予測機械学習(ml、すなわちガウス過程および人工ニューラルネットワーク)モデルをトレーニングして、グラフおよび細孔構造に基づく表現の構造的属性関係をエンコードすることで、従来の物理ベースのモデリングや実験よりも安定性次数の予測を高速にすることができる。 MLモデルにおける重要な特徴の解釈は、不安定な3dを含むMOFを触媒用途に頻繁にターゲットとする、安定性向上のための戦略を特定するための洞察を提供する。 我々は,安定的で実用的なMOF材料を幅広い用途で発見する時間を早めるためのアプローチを期待する。

Although the tailored metal active sites and porous architectures of MOFs hold great promise for engineering challenges ranging from gas separations to catalysis, a lack of understanding of how to improve their stability limits their use in practice. To overcome this limitation, we extract thousands of published reports of the key aspects of MOF stability necessary for their practical application: the ability to withstand high temperatures without degrading and the capacity to be activated by removal of solvent molecules. From nearly 4,000 manuscripts, we use natural language processing and automated image analysis to obtain over 2,000 solvent-removal stability measures and 3,000 thermal degradation temperatures. We analyze the relationships between stability properties and the chemical and geometric structures in this set to identify limits of prior heuristics derived from smaller sets of MOFs. By training predictive machine learning (ML, i.e., Gaussian process and artificial neural network) models to encode the structure-property relationships with graph- and pore-structure-based representations, we are able to make predictions of stability orders of magnitude faster than conventional physics-based modeling or experiment. Interpretation of important features in ML models provides insights that we use to identify strategies to engineer increased stability into typically unstable 3d-containing MOFs that are frequently targeted for catalytic applications. We expect our approach to accelerate the time to discovery of stable, practical MOF materials for a wide range of applications.
翻訳日:2021-06-28 12:54:44 公開日:2021-06-24
# 畳み込みとグラフニューラルネットワークを用いたスケーラブルな知覚・行動・コミュニケーションループ

Scalable Perception-Action-Co mmunication Loops with Convolutional and Graph Neural Networks ( http://arxiv.org/abs/2106.13358v1 )

ライセンス: Link先を確認
Ting-Kuei Hu, Fernando Gama, Tianlong Chen, Wenqing Zheng, Zhangyang Wang, Alejandro Ribeiro, Brian M. Sadler(参考訳) 本稿では,視覚に基づくグラフ集約と推論(VGAI)を用いた知覚行動通信ループの設計を提案する。 このマルチエージェント分散学習-制御フレームワークは、生の視覚観察をエージェントアクションにマッピングし、近隣エージェント間のローカルコミュニケーションによって支援する。 このフレームワークは畳み込みとグラフニューラルネットワーク(cnn/gnn)のカスケードによって実装され,エージェントレベルの視覚知覚と特徴学習,スワーミングレベルのコミュニケーション,ローカル情報集約,エージェントアクション推論にそれぞれ対応している。 CNNとGNNを共同でトレーニングすることで、特定のタスクによりよく対処するために、画像の特徴とコミュニケーションメッセージが学習される。 我々は、VGAIコントローラをオフラインフェーズでトレーニングするために模倣学習を使用し、集中型エキスパートコントローラに依存します。 これにより、学習したVGAIコントローラがオンライン実行のために分散的にデプロイされる。 さらに、コントローラーは優れたスケーリング特性を示し、小さなチームでトレーニングを行い、より大きなチームでアプリケーションを開発する。 マルチエージェントのflockingアプリケーションを通じて,vgaiは,視覚入力モダリティのみを使用して,正確な位置や動作状態情報にアクセスせずに,他の分散コントローラと同等あるいはそれ以上のパフォーマンスが得られることを実証する。

In this paper, we present a perception-action-co mmunication loop design using Vision-based Graph Aggregation and Inference (VGAI). This multi-agent decentralized learning-to-control framework maps raw visual observations to agent actions, aided by local communication among neighboring agents. Our framework is implemented by a cascade of a convolutional and a graph neural network (CNN / GNN), addressing agent-level visual perception and feature learning, as well as swarm-level communication, local information aggregation and agent action inference, respectively. By jointly training the CNN and GNN, image features and communication messages are learned in conjunction to better address the specific task. We use imitation learning to train the VGAI controller in an offline phase, relying on a centralized expert controller. This results in a learned VGAI controller that can be deployed in a distributed manner for online execution. Additionally, the controller exhibits good scaling properties, with training in smaller teams and application in larger teams. Through a multi-agent flocking application, we demonstrate that VGAI yields performance comparable to or better than other decentralized controllers, using only the visual input modality and without accessing precise location or motion state information.
翻訳日:2021-06-28 12:50:01 公開日:2021-06-24
# (参考訳) 正規化フローからの知識の蒸留 [全文訳有]

Distilling the Knowledge from Normalizing Flows ( http://arxiv.org/abs/2106.12699v1 )

ライセンス: CC BY 4.0
Dmitry Baranchuk, Vladimir Aliev, Artem Babenko(参考訳) 正規化フローは、複数の音声および視覚問題において強力な性能を示す生成モデルの強力なクラスである。 他の生成モデルとは対照的に、正規化フローはトラクタブルな可能性を持ち、安定した訓練を可能にする。 しかし、それらは効率的なヤコビ行列式計算で可逆関数を表現するように慎重に設計する必要がある。 実際には、これらの要件は、推論時間とメモリ消費の観点から、代替フィードフォワードモデルよりも劣る、過度にパラメータ化され、洗練されたアーキテクチャをもたらす。 本研究では,フローベースモデルからより効率的な代替品に知識を抽出できるかどうかを検討する。 本稿では, 簡単な蒸留法を提案し, 画像超解像および音声合成のための現状条件付きフローベースモデルの有効性を示すことで, この問題に対する肯定的な回答を提供する。

Normalizing flows are a powerful class of generative models demonstrating strong performance in several speech and vision problems. In contrast to other generative models, normalizing flows have tractable likelihoods and allow for stable training. However, they have to be carefully designed to represent invertible functions with efficient Jacobian determinant calculation. In practice, these requirements lead to overparameterized and sophisticated architectures that are inferior to alternative feed-forward models in terms of inference time and memory consumption. In this work, we investigate whether one can distill knowledge from flow-based models to more efficient alternatives. We provide a positive answer to this question by proposing a simple distillation approach and demonstrating its effectiveness on state-of-the-art conditional flow-based models for image super-resolution and speech synthesis.
翻訳日:2021-06-26 08:26:04 公開日:2021-06-24
# (参考訳) クラスタリング広告の意図による入札:Eコマースのための効率的な検索エンジンマーケティングシステム [全文訳有]

Bidding via Clustering Ads Intentions: an Efficient Search Engine Marketing System for E-commerce ( http://arxiv.org/abs/2106.12700v1 )

ライセンス: CC0 1.0
Cheng Jie, Da Xu, Zigeng Wang, Lu Wang, Wei Shen(参考訳) 検索エンジンのマーケティングの規模が拡大するにつれ、効率的な入札システムの設計がeコマース企業の成功にとって最重要になっている。 現代の産業レベルの入札システムで直面する重要な課題は、そのカタログは巨大であり、関連する入札機能は高い疎性である; 2. 大量の入札要求は、オフラインとオンラインの両方のサービスに大きな計算負担を生じさせる。 不要なユーザ項目情報を活用することは,ユーザクエリからの自然言語信号と製品からのコンテキスト知識を活用するため,スパーシティの問題を軽減する上で不可欠である。 特に,広告のベクトル表現をトランスフォーマモデルを用いて抽出し,それらの幾何学的関係をクラスタリングによる協調入札予測の構築に活用する。 2段階の手続きは入札評価と最適化の計算ストレスを大幅に低減する。 本稿では,walmart eコマースにおける検索エンジンマーケティングのための入札システムのエンドツーエンド構造について紹介する。 当社のアプローチのオンラインおよびオフラインのパフォーマンスを分析し、それを運用効率のよいソリューションとみなす方法について論じます。

With the increasing scale of search engine marketing, designing an efficient bidding system is becoming paramount for the success of e-commerce companies. The critical challenges faced by a modern industrial-level bidding system include: 1. the catalog is enormous, and the relevant bidding features are of high sparsity; 2. the large volume of bidding requests induces significant computation burden to both the offline and online serving. Leveraging extraneous user-item information proves essential to mitigate the sparsity issue, for which we exploit the natural language signals from the users' query and the contextual knowledge from the products. In particular, we extract the vector representations of ads via the Transformer model and leverage their geometric relation to building collaborative bidding predictions via clustering. The two-step procedure also significantly reduces the computation stress of bid evaluation and optimization. In this paper, we introduce the end-to-end structure of the bidding system for search engine marketing for Walmart e-commerce, which successfully handles tens of millions of bids each day. We analyze the online and offline performances of our approach and discuss how we find it as a production-efficient solution.
翻訳日:2021-06-26 08:07:59 公開日:2021-06-24
# (参考訳) すべての制約のない強凸問題は弱単純である [全文訳有]

All unconstrained strongly convex problems are weakly simplicial ( http://arxiv.org/abs/2106.12704v1 )

ライセンス: CC BY-SA 4.0
Yusuke Mizota, Naoki Hamada, Shunsuke Ichiki(参考訳) 多目的最適化問題 (multi-objective optimization problem) が $c^r$ simplicial であるとは、単純集合からパレート集合/フロントへの$c^r$ が存在し、各部分単純集合の像が部分プロブレムのパレート集合/フロントであり、ここで $0\leq r\leq \infty$ であるような場合である。 この性質はパレート集合全体とパレートフロント全体のパラメトリック表面近似を計算するのに役立つ。 すべての制約のない$C^r$問題は、$C^{r-1}$1\leq r \leq \infty$に対して弱単純である。 本稿では, 制約のない凸問題はすべて, C^0$弱単純解であることを示す。 この定理の有用性はスパース・モデリング・アプリケーションで示される: 弾性ネットを非微分可能多目的強凸問題として再構成し、超パラメータ探索を高速化するB\'ezier Simplex fit法を用いてパレート・セット(異なるハイパーパラメータを持つ全ての訓練されたモデルの集合)とパレート・フロント(訓練されたモデルのパフォーマンス指標の集合)を近似する。

A multi-objective optimization problem is $C^r$ weakly simplicial if there exists a $C^r$ surjection from a simplex onto the Pareto set/front such that the image of each subsimplex is the Pareto set/front of a subproblem, where $0\leq r\leq \infty$. This property is helpful to compute a parametric-surface approximation of the entire Pareto set and Pareto front. It is known that all unconstrained strongly convex $C^r$ problems are $C^{r-1}$ weakly simplicial for $1\leq r \leq \infty$. In this paper, we show that all unconstrained strongly convex problems are $C^0$ weakly simplicial. The usefulness of this theorem is demonstrated in a sparse modeling application: we reformulate the elastic net as a non-differentiable multi-objective strongly convex problem and approximate its Pareto set (the set of all trained models with different hyper-parameters) and Pareto front (the set of performance metrics of the trained models) by using a B\'ezier simplex fitting method, which accelerates hyper-parameter search.
翻訳日:2021-06-26 07:58:25 公開日:2021-06-24
# (参考訳) スパースフロー: 連続的な深度モデルを実行する [全文訳有]

Sparse Flows: Pruning Continuous-depth Models ( http://arxiv.org/abs/2106.12718v1 )

ライセンス: CC BY 4.0
Lucas Liebenwein, Ramin Hasani, Alexander Amini, Daniela Rus(参考訳) 連続ディープラーニングアーキテクチャは、予測モデリングをニューラル常微分方程式(ODE)として、生成モデリングを連続正規化フローとして、柔軟な確率モデルの学習を可能にする。 本研究では,ネットワークアーキテクチャを解析することにより,これらの連続深度モデルの内部ダイナミクスを解析するフレームワークを設計する。 実験結果から,プルーニングは生成モデルにおける神経オデムの一般化を改善できることが示唆された。 さらにpruningは、精度を損なうことなく、元のネットワークよりも最大98\%少ないパラメータで、最小かつ効率的なニューラルネットワークode表現を見つける。 最後に、プルーニングを適用することで、より優れたニューラルなODEの設計に関する洞察に富んだ情報を得ることができることを示し、現代の連続深度モデルの性能的なトレードオフに関するさらなる研究を期待する。

Continuous deep learning architectures enable learning of flexible probabilistic models for predictive modeling as neural ordinary differential equations (ODEs), and for generative modeling as continuous normalizing flows. In this work, we design a framework to decipher the internal dynamics of these continuous depth models by pruning their network architectures. Our empirical results suggest that pruning improves generalization for neural ODEs in generative modeling. Moreover, pruning finds minimal and efficient neural ODE representations with up to 98\% less parameters compared to the original network, without loss of accuracy. Finally, we show that by applying pruning we can obtain insightful information about the design of better neural ODEs.We hope our results will invigorate further research into the performance-size trade-offs of modern continuous-depth models.
翻訳日:2021-06-26 07:38:02 公開日:2021-06-24
# (参考訳) 第2に必要なのは、任意の形のテキスト検出です。 [全文訳有]

All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection ( http://arxiv.org/abs/2106.12720v1 )

ライセンス: CC BY 4.0
Meng Cao, Can Zhang, Dongming Yang, Yuexian Zou(参考訳) 任意形のテキスト検出は、複雑な幾何学的レイアウトの曲面テキストであるため、難しい作業である。 既存の主流メソッドは、テキスト領域を取得するためにインスタンスセグメンテーションパイプラインに従う。 しかし,任意の形状のテキストを1つのセグメンテーションネットワークで表現することは困難である。 本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。 従来の単段分割ネットワークと比較して、NASKは長方形テキストの提案をスポットする第1段分割とコンパクト表現を検索する第2段分割とを粗い方法で検出する。 特に、NASKは、テキストインスタンスセグメンテーション(TIS)ネットワーク(第1ステージ)、幾何対応テキストRoIアライメント(GeoAlign)モジュール(GeoAlign)モジュール、およびFiducial pOint eXpression(FOX)モジュール(第2ステージ)から構成される。 まず、TISは、新しいグループ空間とチャネルアテンション(GSCA)モジュールで拡張機能を抽出し、長方形の提案を得るためにインスタンスセグメンテーションを行う。 次に、GeoAlignはこれらの矩形を固定サイズに変換し、RoI-wise特徴表現を符号化する。 最後に、foxはテキストインスタンスをserval pivotal geometrical attributeに分解し、検出結果を洗練する。 Total-Text, SCUTCTW1500, ICDAR 2015の3つの公開ベンチマークによる大規模な実験結果から、NASKが最近の最先端手法よりも優れていることが確認された。

Arbitrary-shaped text detection is a challenging task since curved texts in the wild are of the complex geometric layouts. Existing mainstream methods follow the instance segmentation pipeline to obtain the text regions. However, arbitraryshaped texts are difficult to be depicted through one single segmentation network because of the varying scales. In this paper, we propose a two-stage segmentation-based detector, termed as NASK (Need A Second looK), for arbitrary-shaped text detection. Compared to the traditional single-stage segmentation network, our NASK conducts the detection in a coarse-to-fine manner with the first stage segmentation spotting the rectangle text proposals and the second one retrieving compact representations. Specifically, NASK is composed of a Text Instance Segmentation (TIS) network (1st stage), a Geometry-aware Text RoI Alignment (GeoAlign) module, and a Fiducial pOint eXpression (FOX) module (2nd stage). Firstly, TIS extracts the augmented features with a novel Group Spatial and Channel Attention (GSCA) module and conducts instance segmentation to obtain rectangle proposals. Then, GeoAlign converts these rectangles into the fixed size and encodes RoI-wise feature representation. Finally, FOX disintegrates the text instance into serval pivotal geometrical attributes to refine the detection results. Extensive experimental results on three public benchmarks including Total-Text, SCUTCTW1500, and ICDAR 2015 verify that our NASK outperforms recent state-of-the-art methods.
翻訳日:2021-06-26 07:15:56 公開日:2021-06-24
# (参考訳) モデルの誤りをうまく説明する [全文訳有]

Meaningfully Explaining a Model's Mistakes ( http://arxiv.org/abs/2106.12723v1 )

ライセンス: CC BY 4.0
Abubakar Abid, James Zou(参考訳) トレーニングされたモデルによる誤りの理解と説明は、堅牢性の向上、概念ドリフトへの対処、バイアスの緩和など、多くの機械学習目標にとって重要である。 しかし、これはしばしばアドホックなプロセスであり、多くのテストサンプルでモデルのミスを手動で調べ、それらの誤った予測の根底にある理由を推測する。 本稿では,人間理解可能な概念(例えば,特定のテストサンプルにおいて分類器がミスを犯した理由を説明する,体系的手法である概念説明スコア(ces)を提案する。 このシマウマは、淡い縞模様のため、犬として誤分類される)。 実証的な説明とコンセプトアクティベーションベクトルという2つの先行アイデアをベースとしており、よく知られた事前訓練モデルに対する我々のアプローチを検証することで、モデルの誤りを有意義に説明できることを示しています。 私たちはまた、意図的かつ既知のスプリアス相関を持つ新しいモデルをトレーニングし、cesは1つの誤って分類されたテストサンプルから識別することに成功しました。 CESのコードは公開されており、新しいモデルにも簡単に適用できる。

Understanding and explaining the mistakes made by trained models is critical to many machine learning objectives, such as improving robustness, addressing concept drift, and mitigating biases. However, this is often an ad hoc process that involves manually looking at the model's mistakes on many test samples and guessing at the underlying reasons for those incorrect predictions. In this paper, we propose a systematic approach, conceptual explanation scores (CES), that explains why a classifier makes a mistake on a particular test sample(s) in terms of human-understandable concepts (e.g. this zebra is misclassified as a dog because of faint stripes). We base CES on two prior ideas: counterfactual explanations and concept activation vectors, and validate our approach on well-known pretrained models, showing that it explains the models' mistakes meaningfully. We also train new models with intentional and known spurious correlations, which CES successfully identifies from a single misclassified test sample. The code for CES is publicly available and can easily be applied to new models.
翻訳日:2021-06-26 06:58:26 公開日:2021-06-24
# (参考訳) ATP-Net:圧縮センシングのためのアテンションベースの3次元投影ネットワーク [全文訳有]

ATP-Net: An Attention-based Ternary Projection Network For Compressed Sensing ( http://arxiv.org/abs/2106.12728v1 )

ライセンス: CC BY 4.0
Guanxiong Nie, Yajian Zhou(参考訳) 圧縮センシング(cs)理論は、信号サンプリングと圧縮を同時に実現し、より少ない観測で正確な信号回復を達成し、大規模データのより良く高速な伝送のソリューションを提供する。 本稿では,注意機構を持つ三元サンプリング行列に基づく手法を提案する。これは,ほとんどの場合,csサンプリング行列がランダム行列であり,サンプル信号と無関係であり,大きな記憶空間を必要とする問題である。 提案手法は,三元サンプリング,初期再構成,深部再構築の3つの構成要素からなり,三元サンプリングを重視した。 三項法(-1, 0, +1)の主な考え方は、サンプリング行列が二項化(-1, +1)された後にサンプリング層におけるパラメータの重要性を評価するための注意機構を導入することである。 さらに,3次サンプリング行列(ATP-Net,すなわちアテンションに基づく3次プロジェクションネットワーク)に基づいて,特に画像再構成のための圧縮センシングアルゴリズムを実装した。 実験の結果, ATP-Netによる画像再構成の精度は, 3次サンプリングマトリックスの使用により良好であり, サンプリングレート0.25のSet11の平均PSNRは30.4であり, DR2-Netに比べて約6%改善していることがわかった。

Compressed Sensing (CS) theory simultaneously realizes the signal sampling and compression process, and can use fewer observations to achieve accurate signal recovery, providing a solution for better and faster transmission of massive data. In this paper, a ternary sampling matrix-based method with attention mechanism is proposed with the purpose to solve the problem that the CS sampling matrices in most cases are random matrices, which are irrelative to the sampled signal and need a large storage space. The proposed method consists of three components, i.e., ternary sampling, initial reconstruction and deep reconstruction, with the emphasis on the ternary sampling. The main idea of the ternary method (-1, 0, +1) is to introduce the attention mechanism to evaluate the importance of parameters at the sampling layer after the sampling matrix is binarized (-1, +1), followed by pruning weight of parameters, whose importance is below a predefined threshold, to achieve ternarization. Furthermore, a compressed sensing algorithm especially for image reconstruction is implemented, on the basis of the ternary sampling matrix, which is called ATP-Net, i.e., Attention-based ternary projection network. Experimental results show that the quality of image reconstruction by means of ATP-Net maintains a satisfactory level with the employment of the ternary sampling matrix, i.e., the average PSNR on Set11 is 30.4 when the sampling rate is 0.25, approximately 6% improvement compared with that of DR2-Net.
翻訳日:2021-06-26 06:52:01 公開日:2021-06-24
# (参考訳) 一般化ベルマン演算子によるオフポリシィTD学習の有限サンプル解析 [全文訳有]

Finite-Sample Analysis of Off-Policy TD-Learning via Generalized Bellman Operators ( http://arxiv.org/abs/2106.12729v1 )

ライセンス: CC BY 4.0
Zaiwei Chen, Siva Theja Maguluri, Sanjay Shakkottai, and Karthikeyan Shanmugam(参考訳) 時間差学習(td)では、オフポリシーサンプリングはオンポリシーサンプリングよりも実用的であることが知られており、データ収集から学習を分離することで、データの再利用が可能になる。 政策評価(多段階オフ・ポリティカル重要度サンプリングを含む)は、一般化されたベルマン方程式を解く解釈を持つことが知られている。 本稿では、この一般化されたベルマン作用素の固定点を解く一般のオフポリティTD型確率近似アルゴリズムに対して有限サンプル境界を導出する。 我々の重要なステップは、一般化されたベルマン作用素が、共通の縮約係数を持つ各$p$ in $[1,\infty)$に対する重み付き$\ell_p$-normに対して同時に縮約写像であることを示すことである。 オフポリシーtd学習は、重要サンプリング率の積による高いばらつきに苦しむことが知られている。 いくつかのアルゴリズム(例) この問題に対処するために、$Q^\pi(\lambda)$, Tree-Backup$(\lambda )$, Retrace$(\lambda)$, $Q$-trace)が文献で提案されている。 我々の結果は、これらのアルゴリズムの有限サンプル境界を直ちに示唆する。 特に、Q^\pi(\lambda)$, Tree-Backup$(\lambda )$, Retrace$(\lambda)$に対して、最初の既知の有限サンプル保証を提供し、[19]において最もよく知られた境界である$Q$-traceを改善する。 さらに,これらのアルゴリズムのバイアス分散トレードオフを示す。

In temporal difference (TD) learning, off-policy sampling is known to be more practical than on-policy sampling, and by decoupling learning from data collection, it enables data reuse. It is known that policy evaluation (including multi-step off-policy importance sampling) has the interpretation of solving a generalized Bellman equation. In this paper, we derive finite-sample bounds for any general off-policy TD-like stochastic approximation algorithm that solves for the fixed-point of this generalized Bellman operator. Our key step is to show that the generalized Bellman operator is simultaneously a contraction mapping with respect to a weighted $\ell_p$-norm for each $p$ in $[1,\infty)$, with a common contraction factor. Off-policy TD-learning is known to suffer from high variance due to the product of importance sampling ratios. A number of algorithms (e.g. $Q^\pi(\lambda)$, Tree-Backup$(\lambda )$, Retrace$(\lambda)$, and $Q$-trace) have been proposed in the literature to address this issue. Our results immediately imply finite-sample bounds of these algorithms. In particular, we provide first-known finite-sample guarantees for $Q^\pi(\lambda)$, Tree-Backup$(\lambda )$, and Retrace$(\lambda)$, and improve the best known bounds of $Q$-trace in [19]. Moreover, we show the bias-variance trade-offs in each of these algorithms.
翻訳日:2021-06-26 06:36:00 公開日:2021-06-24
# (参考訳) ドメインやウェイトシフトを考慮したディープニューラルネットワークのオンライン検証 [全文訳有]

Online Verification of Deep Neural Networks under Domain or Weight Shift ( http://arxiv.org/abs/2106.12732v1 )

ライセンス: CC BY 4.0
Tianhao Wei, Changliu Liu(参考訳) ニューラルネットワークは広く使われているが、現実のアプリケーションにおけるニューラルネットワークの安全性と堅牢性を検証することは依然として困難である。 既存の手法は使用前にネットワークを検証するよう設計されており、比較的単純な仕様と固定されたネットワークに限定されている。 これらの手法は、複雑な仕様やネットワークが動的に変化する実際の問題に適用する準備が整っていない。 仕様やネットワークの動的変更を効果的に処理するには、これらの変更が発生したときに検証をオンラインで行う必要がある。 しかし、既存の検証アルゴリズムをオンラインで実行することは依然として困難である。 私たちの重要な洞察は、過去の検証結果を使って新しいオンライン検証を暖かく開始することで、これらの変更の時間的依存性を利用して検証プロセスを加速できるということです。 本稿では,ドメインシフトと重みシフトと呼ばれる動的に変化する仕様やネットワークを用いて,実世界の検証問題を解決するためのスケーラブルなオンライン検証フレームワークを確立する。 本稿では,深層ニューラルネットワークのオンライン検証を高速化するための3種類の手法(ブランチ管理,摂動耐性解析,インクリメンタル計算)を提案する。 実験の結果,オンライン検証アルゴリズムは既存の検証アルゴリズムよりも最大2桁高速であり,実世界のアプリケーションに拡張可能であることがわかった。

Although neural networks are widely used, it remains challenging to formally verify the safety and robustness of neural networks in real-world applications. Existing methods are designed to verify the network before use, which is limited to relatively simple specifications and fixed networks. These methods are not ready to be applied to real-world problems with complex and/or dynamically changing specifications and networks. To effectively handle dynamically changing specifications and networks, the verification needs to be performed online when these changes take place. However, it is still challenging to run existing verification algorithms online. Our key insight is that we can leverage the temporal dependencies of these changes to accelerate the verification process, e.g., by warm starting new online verification using previous verified results. This paper establishes a novel framework for scalable online verification to solve real-world verification problems with dynamically changing specifications and/or networks, known as domain shift and weight shift respectively. We propose three types of techniques (branch management, perturbation tolerance analysis, and incremental computation) to accelerate the online verification of deep neural networks. Experiment results show that our online verification algorithm is up to two orders of magnitude faster than existing verification algorithms, and thus can scale to real-world applications.
翻訳日:2021-06-26 05:56:29 公開日:2021-06-24
# (参考訳) 人物再同定のための特徴補完 [全文訳有]

Feature Completion for Occluded Person Re-Identification ( http://arxiv.org/abs/2106.12733v1 )

ライセンス: CC BY 4.0
Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan and Xilin Chen(参考訳) 人物再識別(reID)はコンピュータビジョンにおいて重要な役割を果たす。 しかし,既存の手法ではオクルードシーンの性能低下に苦しむ。 本研究では,隠蔽されたreIDに対して,隠蔽型ブロックであるRFC(Regional Feature Completion)を提案する。 occluded領域を破棄する以前のほとんどの作品とは異なり、rfcブロックは特徴空間におけるoccluded領域のセマンティクスを回復することができる。 まず、Spatial RFC (SRFC) モジュールを開発する。 SRFCは、非閉塞領域からの長距離空間コンテキストを利用して、閉鎖領域の特徴を予測する。 単位方向予測タスクは、領域エンコーダが非occluded領域とoccluded領域の相関をモデル化するエンコーダ/デコーダアーキテクチャとなり、領域デコーダは、空間相関を利用してoccluded領域の特徴を回復する。 次に、SRFCの予測を洗練させるために、長期の時間的コンテキストをキャプチャするTRFC(Temporal RFC)モジュールを紹介する。 RFCブロックは軽量でエンドツーエンドのトレーニングが可能で、既存のCNNに簡単にプラグインしてRFCnetを形成することができる。 occluded and common holistic reidベンチマークで広範な実験が行われている。 本手法はオクルージョンデータセットの既存手法を著しく上回り,総合的データセットでは最高性能を保ったままである。 ソースコードはhttps://github.com/b lue-blue272/occluded reid-rfcnetで入手できる。

Person re-identification (reID) plays an important role in computer vision. However, existing methods suffer from performance degradation in occluded scenes. In this work, we propose an occlusion-robust block, Region Feature Completion (RFC), for occluded reID. Different from most previous works that discard the occluded regions, RFC block can recover the semantics of occluded regions in feature space. Firstly, a Spatial RFC (SRFC) module is developed. SRFC exploits the long-range spatial contexts from non-occluded regions to predict the features of occluded regions. The unit-wise prediction task leads to an encoder/decoder architecture, where the region-encoder models the correlation between non-occluded and occluded region, and the region-decoder utilizes the spatial correlation to recover occluded region features. Secondly, we introduce Temporal RFC (TRFC) module which captures the long-term temporal contexts to refine the prediction of SRFC. RFC block is lightweight, end-to-end trainable and can be easily plugged into existing CNNs to form RFCnet. Extensive experiments are conducted on occluded and commonly holistic reID benchmarks. Our method significantly outperforms existing methods on the occlusion datasets, while remains top even superior performance on holistic datasets. The source code is available at https://github.com/b lue-blue272/Occluded ReID-RFCnet.
翻訳日:2021-06-26 05:32:48 公開日:2021-06-24
# (参考訳) 自律走行における多モード3次元物体検出:サーベイ

Multi-Modal 3D Object Detection in Autonomous Driving: a Survey ( http://arxiv.org/abs/2106.12735v1 )

ライセンス: CC BY 4.0
Yingjie Wang, Qiuyu Mao, Hanqi Zhu, Yu Zhang, Jianmin Ji, Yanyong Zhang(参考訳) 過去数年間、我々は自動運転の急速な発展を目撃してきた。 しかし、複雑でダイナミックな運転環境のため、完全な自律性を実現することは依然として厄介な課題である。 その結果、自動運転車は、堅牢で正確な環境認識を行うための一連のセンサーを備えている。 センサーの数や種類が増加し続けており、それらを組み合わせて知覚を向上させることが自然なトレンドになりつつある。 これまでのところ、マルチセンサー融合に基づく知覚に焦点を当てた詳細なレビューは行われていない。 このギャップを埋め、将来の研究を動機付けるために、この調査では、複数のセンサーデータソース、特にカメラやLiDARを活用する、最近のフュージョンベースの3D検出ディープラーニングモデルについてレビューする。 本調査では,各センサデータに共通するデータ表現やオブジェクト検出ネットワークを含む,自動運転車用の一般的なセンサの背景について紹介する。 次に,マルチモーダル3dオブジェクト検出のための一般的なデータセットについて議論し,各データセットに含まれるセンサデータに着目した。 次に, 核融合位置, 核融合データ表現, 核融合粒度の3つの側面を考慮し, 最新のマルチモーダル3次元検出ネットワークについて詳細に検討する。 詳細なレビューの後、オープンチャレンジについて議論し、可能な解決策を指摘します。 われわれの詳細なレビューが、マルチモーダルな3Dオブジェクト検出の分野での研究に役立てることを願っている。

In the past few years, we have witnessed rapid development of autonomous driving. However, achieving full autonomy remains a daunting task due to the complex and dynamic driving environment. As a result, self-driving cars are equipped with a suite of sensors to conduct robust and accurate environment perception. As the number and type of sensors keep increasing, combining them for better perception is becoming a natural trend. So far, there has been no indepth review that focuses on multi-sensor fusion based perception. To bridge this gap and motivate future research, this survey devotes to review recent fusion-based 3D detection deep learning models that leverage multiple sensor data sources, especially cameras and LiDARs. In this survey, we first introduce the background of popular sensors for autonomous cars, including their common data representations as well as object detection networks developed for each type of sensor data. Next, we discuss some popular datasets for multi-modal 3D object detection, with a special focus on the sensor data included in each dataset. Then we present in-depth reviews of recent multi-modal 3D detection networks by considering the following three aspects of the fusion: fusion location, fusion data representation, and fusion granularity. After a detailed review, we discuss open challenges and point out possible solutions. We hope that our detailed review can help researchers to embark investigations in the area of multi-modal 3D object detection.
翻訳日:2021-06-26 04:52:29 公開日:2021-06-24
# (参考訳) デジタル地形モデルによる多モード登録に基づく惑星uav位置推定

Planetary UAV localization based on Multi-modal Registration with Pre-existing Digital Terrain Model ( http://arxiv.org/abs/2106.12738v1 )

ライセンス: CC BY 4.0
Xue Wan, Yuanbin Shao, Shengyang Li(参考訳) 惑星UAVの自律リアルタイム光航法は、探査の成功を確実にするための重要な技術である。 このようなGPSを無視した環境では、視覚に基づく局所化が最適なアプローチである。 本稿では,UAV上のナディアビューカメラを用いた惑星UAVの位置を,既存のデジタル地形モデルと比較して推定するマルチモーダル登録に基づくSLAMアルゴリズムを提案する。 オンボードUAV画像とプリインストールデジタル地形モデルとのスケールと外観の違いを克服するために,UAV画像とDEMの地形特性がクロスパワースペクトルを介して周波数領域で相関できることを示す理論的モデルを提案した。 UAV の 6-DOF を実現するため,地球観測結果を LBA (Local Bundle Adjustment) を介して SLAM システムに融合させる最適化手法を開発した。 提案アルゴリズムのロバスト性と有効性をテストするため,惑星探査のための新しいクロスソースドローン型ローカライゼーションデータセットを提案する。 提案したデータセットには、9つの惑星シーンから得られた40200個の合成ドローン画像と、関連するDEMクエリ画像が含まれている。 比較実験により,提案手法は飛行距離33.8km以上において,orb-slamによる1.31mの平均ローカライズ誤差を0.45mとし,処理速度12hzでリアルタイム性能を確保できることを示した。 この有望なトピックに関するさらなる作業を促すために、データセットを公開します。

The autonomous real-time optical navigation of planetary UAV is of the key technologies to ensure the success of the exploration. In such a GPS denied environment, vision-based localization is an optimal approach. In this paper, we proposed a multi-modal registration based SLAM algorithm, which estimates the location of a planet UAV using a nadir view camera on the UAV compared with pre-existing digital terrain model. To overcome the scale and appearance difference between on-board UAV images and pre-installed digital terrain model, a theoretical model is proposed to prove that topographic features of UAV image and DEM can be correlated in frequency domain via cross power spectrum. To provide the six-DOF of the UAV, we also developed an optimization approach which fuses the geo-referencing result into a SLAM system via LBA (Local Bundle Adjustment) to achieve robust and accurate vision-based navigation even in featureless planetary areas. To test the robustness and effectiveness of the proposed localization algorithm, a new cross-source drone-based localization dataset for planetary exploration is proposed. The proposed dataset includes 40200 synthetic drone images taken from nine planetary scenes with related DEM query images. Comparison experiments carried out demonstrate that over the flight distance of 33.8km, the proposed method achieved average localization error of 0.45 meters, compared to 1.31 meters by ORB-SLAM, with the processing speed of 12hz which will ensure a real-time performance. We will make our datasets available to encourage further work on this promising topic.
翻訳日:2021-06-26 04:46:48 公開日:2021-06-24
# (参考訳) 機械学習によるコンテナのオーケストレーション:分類と今後の展開

Machine Learning-based Orchestration of Containers: A Taxonomy and Future Directions ( http://arxiv.org/abs/2106.12739v1 )

ライセンス: CC0 1.0
Zhiheng Zhong, Minxian Xu, Maria Alejandra Rodriguez, Chengzhong Xu, and Rajkumar Buyya(参考訳) コンテナ化は軽量なアプリケーション仮想化技術であり、高い環境整合性、オペレーティングシステムの分散ポータビリティ、リソース分離を提供する。 既存の主流のクラウドサービスプロバイダは、自動化されたアプリケーション管理のために、分散システムインフラストラクチャにコンテナ技術を採用しています。 コンテナ化されたアプリケーションのデプロイ、メンテナンス、自動スケーリング、ネットワークの自動化を扱うため、コンテナオーケストレーションは重要な研究課題として提案されている。 しかし、クラウドワークロードと環境の非常にダイナミックで多様な機能は、オーケストレーションメカニズムの複雑さを大幅に高める。 機械学習アルゴリズムはコンテナオーケストレーションシステムによって、振る舞いモデリングと多次元パフォーマンスメトリクスの予測に使用される。 このような洞察は、複雑な環境下でのワークロードの変化に対応するため、リソースプロビジョニング決定の品質をさらに向上する可能性がある。 本稿では,既存の機械学習に基づくコンテナオーケストレーションアプローチに関する総合的な文献レビューを行う。 それらの共通特徴から現在の研究を分類するために, 詳細な分類法が提案されている。 さらに、2016年から2021年までのマシンラーニングベースのコンテナオーケストレーション技術の進化は、目標とメトリクスに基づいて設計されている。 提案した分類学に基づいて, レビュー手法の比較分析を行い, 重要な特徴に焦点をあてた。 最後に、様々なオープンリサーチの課題と今後の方向性を強調する。

Containerization is a lightweight application virtualization technology, providing high environmental consistency, operating system distribution portability, and resource isolation. Existing mainstream cloud service providers have prevalently adopted container technologies in their distributed system infrastructures for automated application management. To handle the automation of deployment, maintenance, autoscaling, and networking of containerized applications, container orchestration is proposed as an essential research problem. However, the highly dynamic and diverse feature of cloud workloads and environments considerably raises the complexity of orchestration mechanisms. Machine learning algorithms are accordingly employed by container orchestration systems for behavior modelling and prediction of multi-dimensional performance metrics. Such insights could further improve the quality of resource provisioning decisions in response to the changing workloads under complex environments. In this paper, we present a comprehensive literature review of existing machine learning-based container orchestration approaches. Detailed taxonomies are proposed to classify the current researches by their common features. Moreover, the evolution of machine learning-based container orchestration technologies from the year 2016 to 2021 has been designed based on objectives and metrics. A comparative analysis of the reviewed techniques is conducted according to the proposed taxonomies, with emphasis on their key characteristics. Finally, various open research challenges and potential future directions are highlighted.
翻訳日:2021-06-26 04:45:39 公開日:2021-06-24
# (参考訳) 生医学文献から得られた栄養補助知識グラフを用いた新規薬物補充相互作用の解明 [全文訳有]

Discovering novel drug-supplement interactions using a dietary supplements knowledge graph generated from the biomedical literature ( http://arxiv.org/abs/2106.12741v1 )

ライセンス: CC BY 4.0
Dalton Schutte, Jake Vasilakes, Anu Bompelli, Yuqi Zhou, Marcelo Fiszman, Hua Xu, Halil Kilicoglu, Jeffrey R. Bishop, Terrence Adam, Rui Zhang(参考訳) OBJECTIVE:既存のバイオメディカルNLPツールとDSドメイン用語を活用して、DSと薬物の相互作用を発見するための食事補助(DS)情報を含む、新しく包括的な知識グラフを作成する。 資料と方法:SemRepDS(SemRepの拡張)を作成し,UMLSにはない28,884のDS語を含むDS特化用語(iDISK)を活用して,抽象語から意味関係を抽出した。 PubMedの抽象表現をSemRepDSを用いて処理し,その意味関係をPubMedBERTベースのモデルでフィルタリングして,知識グラフを生成する前に誤った関係を除去する(SuppKG)。 2つの経路を用いてDS-Drug相互作用を同定し、それを医療専門家によって機械的妥当性について評価する。 RESULTS: 比較分析の結果、SemRepDSはSemRepよりも206.9%、DSエンティティは158.5%多かった。 細調整されたBERTモデルはF1スコアの0.8605を取得し、関係の43.86%を除去し、前フィルタリングと比較して関係の精度を26.4%向上させた。 SuppKGは2,928のDS固有のノードで構成される。 DS-Gene1-Function-Ge ne2-Drugは44例(88%)、DS-Gene1-Function-Ge ne2-Drugは32例(64%)であった。 解離:SemRepDSを用いて抽出したSuppKGは,現在の文献では見つからない有毒なDSIを見つけるために用いられた。 SuppKGの性質により、これらの相互作用は拡張DS項なしでSemRepを使用することは不可能である。 ConCLUSION: SemRepをDS情報を含むよう拡張し、潜在的DS-Drug相互作用を見つけるために使用できるSuppKGを生成する。

OBJECTIVE: Leverage existing biomedical NLP tools and DS domain terminology to produce a novel and comprehensive knowledge graph containing dietary supplement (DS) information for discovering interactions between DS and drugs, or Drug-Supplement Interactions (DSI). MATERIALS AND METHODS: We created SemRepDS (an extension of SemRep), capable of extracting semantic relations from abstracts by leveraging a DS-specific terminology (iDISK) containing 28,884 DS terms not found in the UMLS. PubMed abstracts were processed using SemRepDS to generate semantic relations, which were then filtered using a PubMedBERT-based model to remove incorrect relations before generating our knowledge graph (SuppKG). Two pathways are used to identify potential DS-Drug interactions which are then evaluated by medical professionals for mechanistic plausibility. RESULTS: Comparison analysis found that SemRepDS returned 206.9% more DS relations and 158.5% more DS entities than SemRep. The fine-tuned BERT model obtained an F1 score of 0.8605 and removed 43.86% of the relations, improving the precision of the relations by 26.4% compared to pre-filtering. SuppKG consists of 2,928 DS-specific nodes. Manual review of findings identified 44 (88%) proposed DS-Gene-Drug and 32 (64%) proposed DS-Gene1-Function-Ge ne2-Drug pathways to be mechanistically plausible. DISCUSSION: The additional relations extracted using SemRepDS generated SuppKG that was used to find plausible DSI not found in the current literature. By the nature of the SuppKG, these interactions are unlikely to have been found using SemRep without the expanded DS terminology. CONCLUSION: We successfully extend SemRep to include DS information and produce SuppKG which can be used to find potential DS-Drug interactions.
翻訳日:2021-06-26 04:44:37 公開日:2021-06-24
# (参考訳) DeepAuditor: 電力サイドチャネル監査によるIoTデバイスの分散オンライン侵入検知システム [全文訳有]

DeepAuditor: Distributed Online Intrusion Detection System for IoT devices via Power Side-channel Auditing ( http://arxiv.org/abs/2106.12753v1 )

ライセンス: CC BY 4.0
Woosub Jung (1), Yizhou Feng (2), Sabbir Ahmed Khan (2), Chunsheng Xin (2), Danella Zhao (2), and Gang Zhou (1) ((1) William & Mary, (2) Old Dominion University)(参考訳) IoTデバイスの数が急速に増加したため、IoTボットネットはIoTデバイスの脆弱性を悪用している。 しかし、大規模な攻撃の前にIoTデバイスへの最初の侵入を検出することは依然として困難である。 近年の研究では、このIoTデバイスへの侵入動作を特徴付けるために電力側チャネル情報を利用しているが、リアルタイム検出アプローチはいまだに存在しない。 本研究の目的は、電力監査によるIoTデバイス用DeepAuditorと呼ばれるオンライン侵入検知システムの設計である。 リアルタイムシステムを実現するために,我々はまずPower Auditorと呼ばれる軽量パワー監査装置を提案する。 我々はPower Auditorを用いて,オンライン推論のための分散CNN分類器を開発した。 また,データ漏洩の防止とネットワーク冗長性の低減のために,パケット同型暗号化とスライディングウインドウプロトコルを用いたプライバシ保護型推論プロトコルを提案する。 実験室では,分類精度と処理時間を測定した。 また、分散CNN設計が分散コンポーネントに対して安全であることを実証した。 全体として、IoTデバイスへの侵入検知のためのリアルタイム分散システムの実現可能性を示した。

As the number of IoT devices has increased rapidly, IoT botnets have exploited the vulnerabilities of IoT devices. However, it is still challenging to detect the initial intrusion on IoT devices prior to massive attacks. Recent studies have utilized power side-channel information to characterize this intrusion behavior on IoT devices but still lack real-time detection approaches. This study aimed to design an online intrusion detection system called DeepAuditor for IoT devices via power auditing. To realize the real-time system, we first proposed a lightweight power auditing device called Power Auditor. With the Power Auditor, we developed a Distributed CNN classifier for online inference in our laboratory setting. In order to protect data leakage and reduce networking redundancy, we also proposed a privacy-preserved inference protocol via Packed Homomorphic Encryption and a sliding window protocol in our system. The classification accuracy and processing time were measured in our laboratory settings. We also demonstrated that the distributed CNN design is secure against any distributed components. Overall, the measurements were shown to the feasibility of our real-time distributed system for intrusion detection on IoT devices.
翻訳日:2021-06-26 04:30:57 公開日:2021-06-24
# (参考訳) 塩分に基づく説明可能性の評価 [全文訳有]

Evaluation of Saliency-based Explainability Method ( http://arxiv.org/abs/2106.12773v1 )

ライセンス: CC BY 4.0
Sam Zabdiel Sunder Samuel, Vidhya Kamakshi, Namrata Lodhi and Narayanan C Krishnan(参考訳) 説明可能なAI(XAI)メソッドの特定のクラスは、画像の一部を強調するために、CNN(Convolutional Neural Network)モデルがイメージをその動作を説明する方法として分類するために、唾液マップを提供する。 これらの手法はユーザがCNNの予測を理解するための直感的な方法を提供する。 定量的な計算テスト以外に、この方法が価値があることを示す証拠の大部分は逸話である。 このような方法のエンドユーザは人間であろうと仮定し,サリエンシーに基づく説明可能性手法の有効性を計測する3つの被験者実験を考案する。

A particular class of Explainable AI (XAI) methods provide saliency maps to highlight part of the image a Convolutional Neural Network (CNN) model looks at to classify the image as a way to explain its working. These methods provide an intuitive way for users to understand predictions made by CNNs. Other than quantitative computational tests, the vast majority of evidence to highlight that the methods are valuable is anecdotal. Given that humans would be the end-users of such methods, we devise three human subject experiments through which we gauge the effectiveness of these saliency-based explainability methods.
翻訳日:2021-06-26 04:12:03 公開日:2021-06-24
# (参考訳) AVHYAS: 高度なハイパースペクトル画像解析のためのオープンソースQGISプラグイン [全文訳有]

AVHYAS: A Free and Open Source QGIS Plugin for Advanced Hyperspectral Image Analysis ( http://arxiv.org/abs/2106.12776v1 )

ライセンス: CC BY 4.0
Rosly Boy Lyngdoh, Anand S Sahadevan, Touseef Ahmad, Pradyuman Singh Rathore, Manoj Mishra, Praveen Kumar Gupta and Arundhati Misra(参考訳) Advanced Hyperspectral Data Analysis Software (AVHYAS) プラグインは、ハイパースペクトル(Hx)画像を処理および解析するために設計されたpython3ベースの量子GIS(QGIS)プラグインである。 現在および将来のHx搭載または宇宙搭載センサーの完全な使用を保証するために開発され、Hxデータ処理のための高度なアルゴリズムへのアクセスを提供する。 このソフトウェアは無料で利用可能であり、大気補正(空中AVIRISNG画像用)、標準処理ツール、強力な機械学習、Hxデータ分析のためのディープラーニングインターフェイスなど、様々な基本的な高度なツールを提供している。

Advanced Hyperspectral Data Analysis Software (AVHYAS) plugin is a python3 based quantum GIS (QGIS) plugin designed to process and analyse hyperspectral (Hx) images. It is developed to guarantee full usage of present and future Hx airborne or spaceborne sensors and provides access to advanced algorithms for Hx data processing. The software is freely available and offers a range of basic and advanced tools such as atmospheric correction (for airborne AVIRISNG image), standard processing tools as well as powerful machine learning and Deep Learning interfaces for Hx data analysis.
翻訳日:2021-06-26 04:06:00 公開日:2021-06-24
# (参考訳) 抑うつ言語検出のためのドメイン間セマンティックエンリッチメントに関する包括的実証分析 [全文訳有]

A comprehensive empirical analysis on cross-domain semantic enrichment for detection of depressive language ( http://arxiv.org/abs/2106.12797v1 )

ライセンス: CC BY 4.0
Nawshad Farruque, Randy Goebel and Osmar Zaiane(参考訳) 例えば、ツイートからの抑うつ的言語検出において、アノテートされたデータが不足している場合、学習タスク用に設計された単語埋め込み特徴表現を作成するプロセスを分析する。 まず、大きな一般的なデータセットから事前学習されたリッチな単語埋め込みから始め、より小さくより具体的なドメインデータセットから学んだ埋め込みを、単純な非線形マッピングメカニズムを通じて拡張します。 また,類似意味論の単語に近づいたり,異種意味論に近づいたりすることで,埋め込み表現を学習する自動エンコーダベースおよびカスタムロス関数ベース手法についても実験を行った。 我々の強化された表現は、特定のドメインから学んだセマンティクスと一般的な言語からの単語カバレッジを組み合わせることで、抑うつドメインのセマンティクスをよりよく捉えます。 また,単語の埋め込み表現を,単純な単語のバッグ・オブ・ワードモデル,よく知られた感情と心理言語的語彙,一般的な事前学習語埋め込みを用いて比較した。 抑うつ的なつぶやき識別タスクにおける深層学習モデルを含む,さまざまな機械学習手法の特徴表現として使用される場合,この拡張単語埋め込み表現は,高品質なデータセットに適用した場合に,他よりもはるかに優れたF1スコアが得られることを示す。 また,本手法の有効性を確認するため,いくつかのデータアブレーション試験を行った。

We analyze the process of creating word embedding feature representations designed for a learning task when annotated data is scarce, for example, in depressive language detection from Tweets. We start with a rich word embedding pre-trained from a large general dataset, which is then augmented with embeddings learned from a much smaller and more specific domain dataset through a simple non-linear mapping mechanism. We also experimented with several other more sophisticated methods of such mapping including, several auto-encoder based and custom loss-function based methods that learn embedding representations through gradually learning to be close to the words of similar semantics and distant to dissimilar semantics. Our strengthened representations better capture the semantics of the depression domain, as it combines the semantics learned from the specific domain coupled with word coverage from the general language. We also present a comparative performance analyses of our word embedding representations with a simple bag-of-words model, well known sentiment and psycholinguistic lexicons, and a general pre-trained word embedding. When used as feature representations for several different machine learning methods, including deep learning models in a depressive Tweets identification task, we show that our augmented word embedding representations achieve a significantly better F1 score than the others, specially when applied to a high quality dataset. Also, we present several data ablation tests which confirm the efficacy of our augmentation techniques.
翻訳日:2021-06-26 03:54:52 公開日:2021-06-24
# (参考訳) マルチレゾリューションサンプリングによる高速モンテカルロレンダリング [全文訳有]

Fast Monte Carlo Rendering via Multi-Resolution Sampling ( http://arxiv.org/abs/2106.12802v1 )

ライセンス: CC BY 4.0
Qiqi Hou, Zhan Li, Carl S Marshall, Selvakumar Panneer, Feng Liu(参考訳) モンテカルロレンダリングアルゴリズムは、フォトリアリスティックなコンピュータグラフィックス画像を作成するために広く使われている。 しかし、これらのアルゴリズムは適切な大域照明を可能にするために1ピクセルあたりの相当量の光をサンプリングする必要があるため、膨大な量の計算を必要とする。 本稿では,モンテカルロレンダリングアルゴリズムを高速化するハイブリッドレンダリング手法を提案する。 提案手法はまず,高試料レート(LRHS)の低解像度と低試料レート(HRLS)の高解像度の高解像度の2種類のレンダリングを生成する。 そして、これらの2つのレンダリングを高精細で高いサンプルレートでレンダリングするように高画質の画像に融合する深い畳み込みニューラルネットワークを開発した。 具体的には、この融合タスクを、hrlsレンダリングを支援する低解像度入力(lrhs)から高分解能レンダリングを生成するスーパーレゾリューション問題として定式化する。 HRLSレンダリングは、超解像法ではLRHSからの回復が困難である重要な高周波の詳細を提供する。 実験の結果,我々のハイブリッドレンダリングアルゴリズムは,BCRデータセットとGharbiデータセットの両方でテストした場合に高品質な画像をレンダリングしながら,最先端のモンテカルロ復調法よりもはるかに高速であることがわかった。 https://github.com/h qqxyy/msspl}

Monte Carlo rendering algorithms are widely used to produce photorealistic computer graphics images. However, these algorithms need to sample a substantial amount of rays per pixel to enable proper global illumination and thus require an immense amount of computation. In this paper, we present a hybrid rendering method to speed up Monte Carlo rendering algorithms. Our method first generates two versions of a rendering: one at a low resolution with a high sample rate (LRHS) and the other at a high resolution with a low sample rate (HRLS). We then develop a deep convolutional neural network to fuse these two renderings into a high-quality image as if it were rendered at a high resolution with a high sample rate. Specifically, we formulate this fusion task as a super resolution problem that generates a high resolution rendering from a low resolution input (LRHS), assisted with the HRLS rendering. The HRLS rendering provides critical high frequency details which are difficult to recover from the LRHS for any super resolution methods. Our experiments show that our hybrid rendering algorithm is significantly faster than the state-of-the-art Monte Carlo denoising methods while rendering high-quality images when tested on both our own BCR dataset and the Gharbi dataset. \url{https://github.com/h qqxyy/msspl}
翻訳日:2021-06-26 03:32:21 公開日:2021-06-24
# (参考訳) 複数の量子プロセッサによる変分量子アルゴリズムの高速化 [全文訳有]

Accelerating variational quantum algorithms with multiple quantum processors ( http://arxiv.org/abs/2106.12819v1 )

ライセンス: CC BY 4.0
Yuxuan Du, Yang Qian, Dacheng Tao(参考訳) 変分量子アルゴリズム(vqas)は、短期量子マシンを利用して古典的手法よりも一定の計算上の利点を得る可能性を秘めている。 しかし、現代のVQAは計算オーバーヘッドに悩まされており、大量のデータを扱うために単独の量子プロセッサを使用するという伝統によって妨げられている。 したがって、VQAの優位性を向上するためには、ランタイム効率を改善することが非常に重要です。 ここでは、この問題に対処するため、効率的な分散最適化手法であるQUDIOを考案する。 具体的には、古典的な中央サーバは、学習問題を複数のサブプロブレムに分割し、量子プロセッサと古典的なオプティマイザで構成される複数のローカルノードに割り当てる。 トレーニング手順の間、すべてのローカルノードは並列最適化を行い、古典サーバはローカルノード間の最適化情報をタイムリーに同期する。 そこで本研究では,QUDIOの線形収束率を理想シナリオの下でのグローバル反復数で証明し,システム不完全性は分岐最適化を引き起こす可能性がある。 標準ベンチマークの数値結果から,QUDIOは局所ノード数の超線形ランタイム高速化を驚くほど達成できることが示された。 提案手法は他のvqas技術と容易に混合でき、最先端技術と量子優位なアプリケーションとのギャップを狭めることができる。

Variational quantum algorithms (VQAs) have the potential of utilizing near-term quantum machines to gain certain computational advantages over classical methods. Nevertheless, modern VQAs suffer from cumbersome computational overhead, hampered by the tradition of employing a solitary quantum processor to handle large-volume data. As such, to better exert the superiority of VQAs, it is of great significance to improve their runtime efficiency. Here we devise an efficient distributed optimization scheme, called QUDIO, to address this issue. Specifically, in QUDIO, a classical central server partitions the learning problem into multiple subproblems and allocate them to multiple local nodes where each of them consists of a quantum processor and a classical optimizer. During the training procedure, all local nodes proceed parallel optimization and the classical server synchronizes optimization information among local nodes timely. In doing so, we prove a sublinear convergence rate of QUDIO in terms of the number of global iteration under the ideal scenario, while the system imperfection may incur divergent optimization. Numerical results on standard benchmarks demonstrate that QUDIO can surprisingly achieve a superlinear runtime speedup with respect to the number of local nodes. Our proposal can be readily mixed with other advanced VQAs-based techniques to narrow the gap between the state of the art and applications with quantum advantage.
翻訳日:2021-06-26 03:15:33 公開日:2021-06-24
# (参考訳) 機械翻訳が言語起源の難読化に及ぼす影響について [全文訳有]

On the Influence of Machine Translation on Language Origin Obfuscation ( http://arxiv.org/abs/2106.12830v1 )

ライセンス: CC BY-SA 4.0
Benjamin Murauer, Michael Tschuggnall, G\"unther Specht(参考訳) 過去10年間、機械翻訳は多言語デジタルコンテンツを扱う手段として人気を高めてきた。 高品質な翻訳を提供することで、テキストのソース言語を難読化することがより魅力的になる。 本稿では,n-gramsのような基本的なテキスト特徴を持つ機械学習アルゴリズムを用いて,2つの商用機械翻訳システムの翻訳出力からソース言語を検出する能力を分析する。 十分な量の翻訳文を含む文書に対して,ソースコードを高精度に再構築できることを示す。 さらに,文書サイズが予測性能にどのように影響するかを解析し,可能なソース言語のセットを制限することで,分類精度が向上することを示した。

In the last decade, machine translation has become a popular means to deal with multilingual digital content. By providing higher quality translations, obfuscating the source language of a text becomes more attractive. In this paper, we analyze the ability to detect the source language from the translated output of two widely used commercial machine translation systems by utilizing machine-learning algorithms with basic textual features like n-grams. Evaluations show that the source language can be reconstructed with high accuracy for documents that contain a sufficient amount of translated text. In addition, we analyze how the document size influences the performance of the prediction, as well as how limiting the set of possible source languages improves the classification accuracy.
翻訳日:2021-06-26 02:37:23 公開日:2021-06-24
# (参考訳) 複数のオントロジーからの共通概念成分の抽出 [全文訳有]

Extraction of common conceptual components from multiple ontologies ( http://arxiv.org/abs/2106.12831v1 )

ライセンス: CC BY 4.0
Luigi Asprino, Valentina Anita Carriero, Valentina Presutti(参考訳) 本稿では,概念的要素をドメインオントロジーから同定し,抽出する手法について述べる。 文化遺産ドメインと会議ドメインの2つのオントロジーのコーパスにそれぞれ適用される。 品質の良さを示す結果は,手作業による検査と,オントロジーアライメント評価イニシアチブによるデータセットおよびツール性能との相関によって評価される。

We describe a novel method for identifying and extracting conceptual components from domain ontologies, which are used to understand and compare them. The method is applied to two corpora of ontologies in the Cultural Heritage and Conference domain, respectively. The results, which show good quality, are evaluated by manual inspection and by correlation with datasets and tool performance from the ontology alignment evaluation initiative.
翻訳日:2021-06-26 02:29:51 公開日:2021-06-24
# (参考訳) CorGIEによるグラフニューラルネットワークの可視化 - グラフと埋め込みの対応 [全文訳有]

Visualizing Graph Neural Networks with CorGIE: Corresponding a Graph to Its Embedding ( http://arxiv.org/abs/2106.12839v1 )

ライセンス: CC BY 4.0
Zipeng Liu, Yang Wang, J\"urgen Bernard, Tamara Munzner(参考訳) グラフニューラルネットワーク(GNN)は、ノードやリンクの予測を行うノード関係をモデル化する強力な機械学習ツールのクラスである。 GNN開発者は、GNNを評価するために予測の定量的なメトリクスに頼るが、他の多くのニューラルネットワークと同様に、GNNが本当に期待通りにグラフの特徴を学習しているかどうかを理解するのは難しい。 本稿では,GNNの共通成分であるノード埋め込み(潜時空間)に入力グラフを対応付ける手法を提案する。 データとタスクを抽象化し、corgieと呼ばれるインタラクティブなマルチビューインターフェースを開発し、抽象化をインスタンス化する。 CorGIEのキー関数として、ホップ内の位相的近傍とそのクラスタリング構造を示すKホップグラフレイアウトを提案する。 CorGIEの機能とユーザビリティを評価するために、CorGIEを2つの利用シナリオで利用する方法を示し、GNNの専門家2人とケーススタディを行った。

Graph neural networks (GNNs) are a class of powerful machine learning tools that model node relations for making predictions of nodes or links. GNN developers rely on quantitative metrics of the predictions to evaluate a GNN, but similar to many other neural networks, it is difficult for them to understand if the GNN truly learns characteristics of a graph as expected. We propose an approach to corresponding an input graph to its node embedding (aka latent space), a common component of GNNs that is later used for prediction. We abstract the data and tasks, and develop an interactive multi-view interface called CorGIE to instantiate the abstraction. As the key function in CorGIE, we propose the K-hop graph layout to show topological neighbors in hops and their clustering structure. To evaluate the functionality and usability of CorGIE, we present how to use CorGIE in two usage scenarios, and conduct a case study with two GNN experts.
翻訳日:2021-06-26 02:16:09 公開日:2021-06-24
# (参考訳) Awareness Logic: 構文モデルと意味モデルの間の中間グラウンドとしてのKripke Lattices [全文訳有]

Awareness Logic: Kripke Lattices as a Middle Ground between Syntactic and Semantic Models ( http://arxiv.org/abs/2106.12868v1 )

ライセンス: CC BY 4.0
Gaia Belardinelli and Rasmus K. Rendsvig(参考訳) アウェアネスモデリングに関する文献には、構文フリーと構文ベースの両方のフレームワークが含まれている。 Heifetz, Meier \& Schipper (HMS) は構文のない認識の格子モデルを提案する。 格子のアプローチはエレガントで直感的であるが、形式言語に依存して格子を誘導する単純な選択肢を妨げ、不確かさと無知を明示的に区別しない。 これとは対照的に、最も顕著な構文ベースのソリューションであるFagin-Halpern (FH) モデルは、この区別を考慮し、単純な認識表現を提供するが、格子構造の直感性を欠いている。 ここでは、不確かさと不明瞭さを分離する原子サブセット包含によって誘導されるクリプキモデルの格子を提供することにより、これらの2つのアプローチを組み合わせる。 本モデルでは,明示的な知識のための言語公式の満足度を保つ変換を定義することで,hms と fh モデルに等価なモデルを示し,hms の結果を通じて完全性を得る。 最後に, Kripke 格子モデルが FH モデルと等価であることを示すとともに,FH モデルが最初に提案された一般認識の論理の言語についても検討する。

The literature on awareness modeling includes both syntax-free and syntax-based frameworks. Heifetz, Meier \& Schipper (HMS) propose a lattice model of awareness that is syntax-free. While their lattice approach is elegant and intuitive, it precludes the simple option of relying on formal language to induce lattices, and does not explicitly distinguish uncertainty from unawareness. Contra this, the most prominent syntax-based solution, the Fagin-Halpern (FH) model, accounts for this distinction and offers a simple representation of awareness, but lacks the intuitiveness of the lattice structure. Here, we combine these two approaches by providing a lattice of Kripke models, induced by atom subset inclusion, in which uncertainty and unawareness are separate. We show our model equivalent to both HMS and FH models by defining transformations between them which preserve satisfaction of formulas of a language for explicit knowledge, and obtain completeness through our and HMS' results. Lastly, we prove that the Kripke lattice model can be shown equivalent to the FH model (when awareness is propositionally determined) also with respect to the language of the Logic of General Awareness, for which the FH model where originally proposed.
翻訳日:2021-06-26 01:47:35 公開日:2021-06-24
# (参考訳) DCoM:意味データ型検出のためのディープカラムマッパー [全文訳有]

DCoM: A Deep Column Mapper for Semantic Data Type Detection ( http://arxiv.org/abs/2106.12871v1 )

ライセンス: CC BY 4.0
Subhadip Maji, Swapna Sourav Rout and Sudeep Choudhary(参考訳) セマンティクスデータ型の検出は、データの自動クリーニング、スキーママッチング、データディスカバリ、セマンティクスデータ型正規化、機密データ識別など、データサイエンスにおいて非常に重要なタスクである。 既存のメソッドには正規表現ベースや辞書検索ベースのメソッドが含まれており、dirtyや未認識のデータには堅牢ではなく、予測すべきセマンティクスデータ型に制限されている。 既存の機械学習手法は、データから多数のエンジニアリングされた特徴を抽出し、この目的のためにロジスティック回帰、ランダムフォレスト、フィードフォワードニューラルネットワークを構築する。 本稿では,データから大量の特徴を抽出する代わりに,列(あるいはインスタンス)の生の値をテキストとしてモデルに送出する意味的データ型を検出する,多入力のnlpベースのディープニューラルネットワークのコレクションであるdcomを提案する。 78種類の意味データ型を持つVizNetコーパスから抽出した686,765データ列上でDCoMを訓練する。 DCoMは、同じデータセット上で非常に大きなマージンで、他の現代の結果よりも優れています。

Detection of semantic data types is a very crucial task in data science for automated data cleaning, schema matching, data discovery, semantic data type normalization and sensitive data identification. Existing methods include regular expression-based or dictionary lookup-based methods that are not robust to dirty as well unseen data and are limited to a very less number of semantic data types to predict. Existing Machine Learning methods extract large number of engineered features from data and build logistic regression, random forest or feedforward neural network for this purpose. In this paper, we introduce DCoM, a collection of multi-input NLP-based deep neural networks to detect semantic data types where instead of extracting large number of features from the data, we feed the raw values of columns (or instances) to the model as texts. We train DCoM on 686,765 data columns extracted from VizNet corpus with 78 different semantic data types. DCoM outperforms other contemporary results with a quite significant margin on the same dataset.
翻訳日:2021-06-26 01:04:26 公開日:2021-06-24
# (参考訳) 制約付き分類と政策学習

Constrained Classification and Policy Learning ( http://arxiv.org/abs/2106.12886v1 )

ライセンス: CC BY 4.0
Toru Kitagawa, Shosei Sakaguchi, and Aleksey Tetenov(参考訳) AdaBoost、サポートベクターマシン、ディープニューラルネットワークを含む最新の機械学習アプローチでは、代理損失技術を使用して、経験的分類リスクを最小限に抑える計算複雑性を回避する。 これらの手法は、個別化処理規則の推定を重み付けされた(コストに敏感な)分類問題とすることができるため、因果ポリシー学習問題にも有用である。 代理損失アプローチの一貫性は Zhang (2004) と Bartlett et al で研究されている。 (2006) は正しい仕様の仮定に決定的に依存しており、つまり、指定された分類器の集合は第一の最良分類器を含むのに十分リッチである。 しかし、この仮定は、分類器の集合が解釈可能性や公正性によって制約されている場合、より信頼性が低い。 本稿では,制約付き分類器群の下でのサーロゲート損失手続きの整合性について,正しい仕様を仮定することなく検討する。 制約が分類器の予測セットのみを制限する場合、ヒンジ損失(例えば$\ell_1$- Support vector machine)が第2のベストシナリオにおける一貫性を維持する唯一のサロゲート損失であることを示す。 制約が分類器の機能形式を付加的に制限すると、ヒンジ損失であってもサーロゲート損失アプローチの一貫性は保証されない。 したがって、制約付き分類器の条件を特徴付け、ヒンジリスク最小化分類器の整合性を保証する。 理論結果を生かして,単音分類問題に対するロバストかつ計算上魅力的なヒンジ損失法を開発した。

Modern machine learning approaches to classification, including AdaBoost, support vector machines, and deep neural networks, utilize surrogate loss techniques to circumvent the computational complexity of minimizing empirical classification risk. These techniques are also useful for causal policy learning problems, since estimation of individualized treatment rules can be cast as a weighted (cost-sensitive) classification problem. Consistency of the surrogate loss approaches studied in Zhang (2004) and Bartlett et al. (2006) crucially relies on the assumption of correct specification, meaning that the specified set of classifiers is rich enough to contain a first-best classifier. This assumption is, however, less credible when the set of classifiers is constrained by interpretability or fairness, leaving the applicability of surrogate loss based algorithms unknown in such second-best scenarios. This paper studies consistency of surrogate loss procedures under a constrained set of classifiers without assuming correct specification. We show that in the setting where the constraint restricts the classifier's prediction set only, hinge losses (i.e., $\ell_1$-support vector machines) are the only surrogate losses that preserve consistency in second-best scenarios. If the constraint additionally restricts the functional form of the classifier, consistency of a surrogate loss approach is not guaranteed even with hinge loss. We therefore characterize conditions for the constrained set of classifiers that can guarantee consistency of hinge risk minimizing classifiers. Exploiting our theoretical results, we develop robust and computationally attractive hinge loss based procedures for a monotone classification problem.
翻訳日:2021-06-26 00:55:22 公開日:2021-06-24
# (参考訳) 隣人への注意:高解像度画像セグメンテーションのためのコンテキスト認識フレームワーク [全文訳有]

Attention Toward Neighbors: A Context Aware Framework for High Resolution Image Segmentation ( http://arxiv.org/abs/2106.12902v1 )

ライセンス: CC BY 4.0
Fahim Faisal Niloy, M. Ashraful Amin, Amin Ahsan Ali, AKM Mahbubur Rahman(参考訳) 高分解能画像分割は、中間的特徴マップの大きさのため、依然として困難で誤りやすい。 従来の方法では、各パッチが独立にセグメンテーションされるパッチベースのアプローチを使用することで、この問題を回避する。 しかしながら、独立したパッチ分割は、特にパッチ境界において、パッチサイズがフルイメージよりもずっと小さい、非常に高解像度な画像におけるコンテキスト情報の欠如によるエラーを誘発する。 本稿では,これらの制約を克服するために,隣接するパッチからコンテキスト情報を組み込んで特定のパッチを分割する新しいフレームワークを提案する。 これにより、セグメンテーションネットワークは、より大きな機能マップを必要とせずに、より広い視野でターゲットパッチを見ることができる。 いくつかの実験から比較分析したところ,提案するフレームワークは高解像度画像の分割が可能であり,平均分割と全体的な精度が大幅に向上した。

High-resolution image segmentation remains challenging and error-prone due to the enormous size of intermediate feature maps. Conventional methods avoid this problem by using patch based approaches where each patch is segmented independently. However, independent patch segmentation induces errors, particularly at the patch boundary due to the lack of contextual information in very high-resolution images where the patch size is much smaller compared to the full image. To overcome these limitations, in this paper, we propose a novel framework to segment a particular patch by incorporating contextual information from its neighboring patches. This allows the segmentation network to see the target patch with a wider field of view without the need of larger feature maps. Comparative analysis from a number of experiments shows that our proposed framework is able to segment high resolution images with significantly improved mean Intersection over Union and overall accuracy.
翻訳日:2021-06-26 00:54:01 公開日:2021-06-24
# (参考訳) マルチエージェント競争における探索・探索:有界合理性を伴う収束 [全文訳有]

Exploration-Exploita tion in Multi-Agent Competition: Convergence with Bounded Rationality ( http://arxiv.org/abs/2106.12928v1 )

ライセンス: CC BY 4.0
Stefanos Leonardos, Georgios Piliouras, Kelly Spendlove,(参考訳) 競争力のあるマルチエージェント学習における探索と搾取の相互作用は、まだよく理解されていない。 そこで本研究では,ゲーム報酬と探索コストのバランスを明示的に把握した,スムースなq-learningについて検討した。 Q- Learning is always converges to the unique Quantal-Response equilibrium (QRE), the standard solution concept under bounded rationality, in weighted zero-sum polymatrix games with heterogeneous learning agent using positive exploration rate。 重み付きポテンシャルゲームにおけるコンバージェンスに関する最近の結果を補完することにより,エージェント数によらず,パラメータの微調整を必要とせずに,競争環境におけるq-learningの高速コンバージェンスが得られることを示した。 ネットワークゼロサムゲームの実験で示されたように、これらの理論的結果は、競合するマルチエージェント設定における平衡選択の現在オープンな問題に対するアルゴリズム的アプローチに必要な保証を提供する。

The interplay between exploration and exploitation in competitive multi-agent learning is still far from being well understood. Motivated by this, we study smooth Q-learning, a prototypical learning model that explicitly captures the balance between game rewards and exploration costs. We show that Q-learning always converges to the unique quantal-response equilibrium (QRE), the standard solution concept for games under bounded rationality, in weighted zero-sum polymatrix games with heterogeneous learning agents using positive exploration rates. Complementing recent results about convergence in weighted potential games, we show that fast convergence of Q-learning in competitive settings is obtained regardless of the number of agents and without any need for parameter fine-tuning. As showcased by our experiments in network zero-sum games, these theoretical results provide the necessary guarantees for an algorithmic approach to the currently open problem of equilibrium selection in competitive multi-agent settings.
翻訳日:2021-06-26 00:46:41 公開日:2021-06-24
# (参考訳) Lettuce: PyTorchベースのLattice Boltzmann Framework [全文訳有]

Lettuce: PyTorch-based Lattice Boltzmann Framework ( http://arxiv.org/abs/2106.12929v1 )

ライセンス: CC BY 4.0
Mario Christopher Bedrunka, Dominik Wilde, Martin Kliemank, Dirk Reith, Holger Foysi, Andreas Kr\"amer(参考訳) 格子ボルツマン法 (LBM) は計算流体力学などにおける効率的なシミュレーション手法である。 これはカルテジアングリッド上の単純なストリーム・アンド・コライドアルゴリズムに基づいており、現代の機械学習アーキテクチャと容易に互換性がある。 ディープラーニングが古典的なシミュレーション技術に決定的な刺激を与えることは、ますます明らかになりつつあるが、近年の研究は機械学習とLBMのつながりに対処していない。 本稿では,PyTorch ベースの LBM コードである Lettuce について紹介する。 Lettuceは最小限のソースコードでGPUを高速化し、LBMモデルの迅速なプロトタイピングを促進し、PyTorchのディープラーニングと自動微分機能とLBMシミュレーションを統合することができる。 機械学習とLBMを組み合わせるための概念実証として、神経衝突モデルを開発し、二重周期のせん断層で訓練し、その後、崩壊する乱流である別の流れに移動する。 また、フロー制御と最適化におけるPyTorchの自動微分フレームワークの利点を例示する。 これにより、さらに速度場を制約することなく、強制等方性乱流のスペクトルを維持することができる。 ソースコードはhttps://github.com/l ettucecfd/lettuceから無料で利用できる。

The lattice Boltzmann method (LBM) is an efficient simulation technique for computational fluid mechanics and beyond. It is based on a simple stream-and-collide algorithm on Cartesian grids, which is easily compatible with modern machine learning architectures. While it is becoming increasingly clear that deep learning can provide a decisive stimulus for classical simulation techniques, recent studies have not addressed possible connections between machine learning and LBM. Here, we introduce Lettuce, a PyTorch-based LBM code with a threefold aim. Lettuce enables GPU accelerated calculations with minimal source code, facilitates rapid prototyping of LBM models, and enables integrating LBM simulations with PyTorch's deep learning and automatic differentiation facility. As a proof of concept for combining machine learning with the LBM, a neural collision model is developed, trained on a doubly periodic shear layer and then transferred to a different flow, a decaying turbulence. We also exemplify the added benefit of PyTorch's automatic differentiation framework in flow control and optimization. To this end, the spectrum of a forced isotropic turbulence is maintained without further constraining the velocity field. The source code is freely available from https://github.com/l ettucecfd/lettuce.
翻訳日:2021-06-25 23:44:35 公開日:2021-06-24
# (参考訳) VinDr-SpineXR:X線写真からの脊髄病変の検出と分類のためのディープラーニングフレームワーク [全文訳有]

VinDr-SpineXR: A deep learning framework for spinal lesions detection and classification from radiographs ( http://arxiv.org/abs/2106.12930v1 )

ライセンス: CC BY 4.0
Hieu T. Nguyen, Hieu H. Pham, Nghia T. Nguyen, Ha Q. Nguyen, Thang Q. Huynh, Minh Dao, Van Vu(参考訳) レントグラフは臨床における脊椎異常の診断に最も重要なイメージングツールである。 しかし,脊椎病変の評価は放射線科医にとって難しい課題である。 本研究の目的は,脊椎X線からの異常の分類と局所化を目的とした,深層学習に基づくフレームワーク VinDr-SpineXR の開発と評価である。 まず、5000の研究から得られた10,468個の脊椎x線画像からなる大規模なデータセットを構築し、13のカテゴリで異常な発見の周囲にバウンディングボックスを持つ経験豊富な放射線科医が手作業で注釈を付けます。 このデータセットを用いて、深層学習分類器を訓練し、脊椎スキャンが異常かどうかを判定し、計13のうち7つの重要な所見を局所化する。 VinDr-SpineXRは、1000の研究から得られた2,078枚の画像で評価され、トレーニングセットとは分離されている。 画像レベルの分類タスクでは、受信者の動作特性曲線(auroc)下の領域が88.61%(95% ci 87.19%、90.02%)であり、病変レベルの局所化タスクでは平均平均精度(map@0.5)が33.56%である。 これらの結果は概念の証明となり、この方向における将来の研究のベースラインとなる。 進歩を促進するために、データセット、コード、訓練されたディープラーニングモデルが公開されている。

Radiographs are used as the most important imaging tool for identifying spine anomalies in clinical practice. The evaluation of spinal bone lesions, however, is a challenging task for radiologists. This work aims at developing and evaluating a deep learning-based framework, named VinDr-SpineXR, for the classification and localization of abnormalities from spine X-rays. First, we build a large dataset, comprising 10,468 spine X-ray images from 5,000 studies, each of which is manually annotated by an experienced radiologist with bounding boxes around abnormal findings in 13 categories. Using this dataset, we then train a deep learning classifier to determine whether a spine scan is abnormal and a detector to localize 7 crucial findings amongst the total 13. The VinDr-SpineXR is evaluated on a test set of 2,078 images from 1,000 studies, which is kept separate from the training set. It demonstrates an area under the receiver operating characteristic curve (AUROC) of 88.61% (95% CI 87.19%, 90.02%) for the image-level classification task and a mean average precision (mAP@0.5) of 33.56% for the lesion-level localization task. These results serve as a proof of concept and set a baseline for future research in this direction. To encourage advances, the dataset, codes, and trained deep learning models are made publicly available.
翻訳日:2021-06-25 23:31:46 公開日:2021-06-24
# (参考訳) 交通流予測のための空間時間グラフODEネットワーク [全文訳有]

Spatial-Temporal Graph ODE Networks for Traffic Flow Forecasting ( http://arxiv.org/abs/2106.12931v1 )

ライセンス: CC BY 4.0
Zheng Fang, Qingqing Long, Guojie Song, Kunqing Xie(参考訳) 空間的時間的予測は幅広いアプリケーションで大きな注目を集めており、トラフィックフロー予測は標準的かつ典型的な例である。 交通流の複雑で長期の時空間相関は、最も難解な挑戦をもたらす。 既存の研究は通常、浅いグラフ畳み込みネットワーク(GNN)と時間的抽出モジュールを使用して、それぞれ空間的および時間的依存関係をモデル化する。 しかし,(1) 浅いGNNは長距離空間相関を捉えることができず,(2) 空間接続のみを考慮し,意味接続の質量を無視できるため,交通網の包括的理解にとって非常に重要である。 この目的のために,時空間グラフ正規微分方程式ネットワーク(STGODE)を提案する。 具体的には、テンソルベース常微分方程式(ODE)を用いて時空間ダイナミクスを捕捉し、より深いネットワークを構築し、時空間特徴を同期的に利用する。 ネットワークをより包括的に理解するために,我々のモデルでは意味的隣接行列を考慮し,長期の時間的依存を捉えるために,よく設計された時間的拡張畳み込み構造を用いる。 我々は,複数の実世界の交通データセット上でモデルを評価し,最先端のベースライン上で優れた性能を実現する。

Spatial-temporal forecasting has attracted tremendous attention in a wide range of applications, and traffic flow prediction is a canonical and typical example. The complex and long-range spatial-temporal correlations of traffic flow bring it to a most intractable challenge. Existing works typically utilize shallow graph convolution networks (GNNs) and temporal extracting modules to model spatial and temporal dependencies respectively. However, the representation ability of such models is limited due to: (1) shallow GNNs are incapable to capture long-range spatial correlations, (2) only spatial connections are considered and a mass of semantic connections are ignored, which are of great importance for a comprehensive understanding of traffic networks. To this end, we propose Spatial-Temporal Graph Ordinary Differential Equation Networks (STGODE). Specifically, we capture spatial-temporal dynamics through a tensor-based ordinary differential equation (ODE), as a result, deeper networks can be constructed and spatial-temporal features are utilized synchronously. To understand the network more comprehensively, semantical adjacency matrix is considered in our model, and a well-design temporal dialated convolution structure is used to capture long term temporal dependencies. We evaluate our model on multiple real-world traffic datasets and superior performance is achieved over state-of-the-art baselines.
翻訳日:2021-06-25 23:21:02 公開日:2021-06-24
# (参考訳) 隠れマルコフモデルパラメータの学習の基本的限界 [全文訳有]

Fundamental limits for learning hidden Markov model parameters ( http://arxiv.org/abs/2106.12936v1 )

ライセンス: CC BY 4.0
Kweku Abraham, Zacharie Naulet, Elisabeth Gassiat(参考訳) 我々は学習可能な隠れマルコフモデル(hmms)のフロンティアについて検討する。 HMMは未知の集団から来る依存データをクラスタリングするための柔軟なツールである。 モデルパラメータは、クラスタが識別され、隠された鎖がフルランク遷移行列でエルゴードとなるとすぐに特定できることが知られている。 これらの条件のいずれかが失敗すると、パラメータを識別することは不可能になる。 2つの隠れ状態を持つ鎖に対して、パラメータが学習可能なしきい値を示す定数に一致する非漸近ミニマックス上界と下界を証明します。

We study the frontier between learnable and unlearnable hidden Markov models (HMMs). HMMs are flexible tools for clustering dependent data coming from unknown populations. The model parameters are known to be identifiable as soon as the clusters are distinct and the hidden chain is ergodic with a full rank transition matrix. In the limit as any one of these conditions fails, it becomes impossible to identify parameters. For a chain with two hidden states we prove nonasymptotic minimax upper and lower bounds, matching up to constants, which exhibit thresholds at which the parameters become learnable.
翻訳日:2021-06-25 23:05:26 公開日:2021-06-24
# (参考訳) 時間的ルーティング適応と最適輸送を用いた複数ストックトレーディングパターンの学習 [全文訳有]

Learning Multiple Stock Trading Patterns with Temporal Routing Adaptor and Optimal Transport ( http://arxiv.org/abs/2106.12950v1 )

ライセンス: CC BY 4.0
Hengxu Lin, Dong Zhou, Weiqing Liu, Jiang Bian(参考訳) 有効な量的投資は通常、株価の将来の動きの正確な予測に依存する。 近年、機械学習ベースのソリューションは、より正確な株価予測を行い、現代の量的投資システムにおいて欠かせない要素となる能力を示している。 しかし i. i. d. 既存手法の背景にある仮定は、市場における多様な取引パターンの存在と矛盾しており、それは必然的に、より良い株価予測性能を達成する能力を制限する。 本稿では,既存の在庫予測モデルに複数の在庫取引パターンをモデル化する能力を持たせるための,新しいアーキテクチャである時間経路適応器(tra)を提案する。 TRAは、複数のパターンを学習するための独立した予測器のセットと、異なる予測器にサンプルをディスパッチするルータで構成される軽量モジュールである。 それでも、明示的なパターン識別子がないため、効果的なTRAベースのモデルをトレーニングすることは極めて困難である。 この課題に取り組むため,我々は,最適トランスポート(ot)に基づく学習アルゴリズムを更に設計し,予測者の割り当てに最適なサンプルを得るとともに,補助損失項を通じてルータを効果的に最適化する。 実世界のストックランキングタスクの実験では,注意 LSTM や Transformer といった最先端のベースラインと比較して,情報係数を 0.053 から 0.059 , 0.051 から 0.056 に向上させることができる。 この作業で使用されるデータセットとコードは、https://github.com/m icrosoft/qlib.comで公開されています。

Successful quantitative investment usually relies on precise predictions of the future movement of the stock price. Recently, machine learning based solutions have shown their capacity to give more accurate stock prediction and become indispensable components in modern quantitative investment systems. However, the i.i.d. assumption behind existing methods is inconsistent with the existence of diverse trading patterns in the stock market, which inevitably limits their ability to achieve better stock prediction performance. In this paper, we propose a novel architecture, Temporal Routing Adaptor (TRA), to empower existing stock prediction models with the ability to model multiple stock trading patterns. Essentially, TRA is a lightweight module that consists of a set of independent predictors for learning multiple patterns as well as a router to dispatch samples to different predictors. Nevertheless, the lack of explicit pattern identifiers makes it quite challenging to train an effective TRA-based model. To tackle this challenge, we further design a learning algorithm based on Optimal Transport (OT) to obtain the optimal sample to predictor assignment and effectively optimize the router with such assignment through an auxiliary loss term. Experiments on the real-world stock ranking task show that compared to the state-of-the-art baselines, e.g., Attention LSTM and Transformer, the proposed method can improve information coefficient (IC) from 0.053 to 0.059 and 0.051 to 0.056 respectively. Our dataset and code used in this work are publicly available: https://github.com/m icrosoft/qlib.
翻訳日:2021-06-25 22:12:35 公開日:2021-06-24
# (参考訳) PCA型およびSVD型マトリックス分解の規則化 [全文訳有]

Regularisation for PCA- and SVD-type matrix factorisations ( http://arxiv.org/abs/2106.12955v1 )

ライセンス: CC BY 4.0
Abdolrahman Khoshrou, Eric J. Pauwels(参考訳) 特異値分解(SVD)とその近縁な主成分分析(PCA)は、次元減少やクラスタリングなどのアプリケーションで広く使われているよく知られた線形行列分解手法である。 しかし、SVD/PCAの重要な制限は入力データのノイズに対する感度である。 本稿では,正規化問題について考察し,最小化問題の異なる定式化が質的に異なる解をもたらすことを示す。

Singular Value Decomposition (SVD) and its close relative, Principal Component Analysis (PCA), are well-known linear matrix decomposition techniques that are widely used in applications such as dimension reduction and clustering. However, an important limitation of SVD/PCA is its sensitivity to noise in the input data. In this paper, we take another look at the problem of regularisation and show that different formulations of the minimisation problem lead to qualitatively different solutions.
翻訳日:2021-06-25 21:55:08 公開日:2021-06-24
# (参考訳) 移動領域の色と位置予測によるクラス非依存移動目標検出 [全文訳有]

Class agnostic moving target detection by color and location prediction of moving area ( http://arxiv.org/abs/2106.12966v1 )

ライセンス: CC BY 4.0
Zhuang He, Qi Li, Huajun Feng, Zhihai Xu(参考訳) 移動目標検出はコンピュータビジョンにおいて重要な役割を果たす。 しかし、フレーム差や光学フローといった従来のアルゴリズムは、通常は低い精度や重い計算に悩まされる。 ディープラーニングベースの畳み込みニューラルネットワークのような最近のアルゴリズムは、高い精度とリアルタイムのパフォーマンスを達成したが、彼らは通常、事前にターゲットのクラスを知る必要がある。 そこで我々は,モデル自由移動目標検出アルゴリズムを提案する。 このアルゴリズムは画像の特徴の違いから移動領域を抽出する。 次に、移動領域の色と位置の確率マップを最大後続確率で算出する。 対象の確率マップは2つのマップ間の点乗算によって得られる。 最後に、最適移動目標領域は、目標確率マップ上の確率勾配降下によって解決できる。 その結果,提案アルゴリズムは,目標のクラスを知ることなく,最先端アルゴリズムよりも高い精度が得られることがわかった。 さらに,既存のデータセットは移動対象検出に適さないため,評価データセットの作成方法を提案する。 また,提案アルゴリズムを用いて目標追跡を支援することも実証した。

Moving target detection plays an important role in computer vision. However, traditional algorithms such as frame difference and optical flow usually suffer from low accuracy or heavy computation. Recent algorithms such as deep learning-based convolutional neural networks have achieved high accuracy and real-time performance, but they usually need to know the classes of targets in advance, which limits the practical applications. Therefore, we proposed a model free moving target detection algorithm. This algorithm extracts the moving area through the difference of image features. Then, the color and location probability map of the moving area will be calculated through maximum a posteriori probability. And the target probability map can be obtained through the dot multiply between the two maps. Finally, the optimal moving target area can be solved by stochastic gradient descent on the target probability map. Results show that the proposed algorithm achieves the highest accuracy compared with state-of-the-art algorithms, without needing to know the classes of targets. Furthermore, as the existing datasets are not suitable for moving target detection, we proposed a method for producing evaluation dataset. Besides, we also proved the proposed algorithm can be used to assist target tracking.
翻訳日:2021-06-25 21:41:10 公開日:2021-06-24
# (参考訳) BERT埋め込みを用いた会議の教師なしトピックセグメンテーション [全文訳有]

Unsupervised Topic Segmentation of Meetings with BERT Embeddings ( http://arxiv.org/abs/2106.12978v1 )

ライセンス: CC BY 4.0
Alessandro Solbiati, Kevin Heffernan, Georgios Damaskinos, Shivani Poddar, Shubham Modi, Jacques Cali(参考訳) 会議のトピックセグメンテーションは、マルチパーソンミーティングの書き起こしをトピックブロックに分割するタスクである。 この問題に対する教師付きアプローチは、大規模なデータセットの収集と正確なアノテートが難しいため、難解であることが証明されている。 本稿では,事前学習されたニューラルネットワークを用いて,従来の教師なしトピックセグメンテーション手法をどのように改善できるかを示す。 2つの人気のあるデータセットに適用される既存の教師なしアプローチよりもエラー率を15.5%削減できるbert埋め込みに基づく教師なしアプローチを導入する。

Topic segmentation of meetings is the task of dividing multi-person meeting transcripts into topic blocks. Supervised approaches to the problem have proven intractable due to the difficulties in collecting and accurately annotating large datasets. In this paper we show how previous unsupervised topic segmentation methods can be improved using pre-trained neural architectures. We introduce an unsupervised approach based on BERT embeddings that achieves a 15.5% reduction in error rate over existing unsupervised approaches applied to two popular datasets for meeting transcripts.
翻訳日:2021-06-25 21:30:41 公開日:2021-06-24
# (参考訳) 肺結節悪性度と周囲胸膜,気道,血管との関係:LIDC-IDRIデータセットを用いた定量的研究

Relationship between pulmonary nodule malignancy and surrounding pleurae, airways and vessels: a quantitative study using the public LIDC-IDRI dataset ( http://arxiv.org/abs/2106.12991v1 )

ライセンス: CC BY 4.0
Yulei Qin, Yun Gu, Hanxiao Zhang, Jie Yang, Lihui Wang, Feng Yao, Yue-Min Zhu(参考訳) 非造影CT(non-contrast Computed tomography)における結節周囲の胸膜、気道、血管が良性および悪性肺結節を鑑別できるかどうかを検討する。 LIDC-IDRIデータセットは、最も広く公開されているCTデータベースの一つである。 694例の結節数は1556例で,平均点数<3および>3の結節は良性,悪性であった。 また,113例から339結節を独立に評価した。 肺構造を分割し, 胸壁, 気道, 血管までの距離を定量化し, 結節付近の気道や血管の計数数数と正規化量を測定するコンピュータアルゴリズムを開発した。 Odds ratio (OR) and Chi-square (\chi^2) test was performed to demonstrated the correlation between surrounding structures and nodule malignancy。 非パラメトリック受信機動作特性(ROC)解析をロジスティック回帰で行い,各構造物の識別能力を評価した。 良性群と悪性群では、結節から胸膜、気道、血管までの平均距離はそれぞれ (6.56, 5.19), (37.08, 26.43) および (1.42, 1.07) mm である。 結節と結節に接触または突出する気道と船舶の計数数の相関は、それぞれ(22.96, \chi^2=105.04)と(7.06, \chi^2=290.11)である。 空路と船舶の体積の相関は (OR=9.19, \chi^2=159.02) と (OR=2.29, \chi^2=55.89) である。 胸膜、気道、船舶用のエリアアンダーカーブ(AUC)はそれぞれ0.5202、0.6943、0.6529である。 以上の結果から,悪性結節は良性結節に比べて肺組織を囲むことが多く,その特徴は肺癌のバイオマーカーと見なされる可能性が示唆された。

To investigate whether the pleurae, airways and vessels surrounding a nodule on non-contrast computed tomography (CT) can discriminate benign and malignant pulmonary nodules. The LIDC-IDRI dataset, one of the largest publicly available CT database, was exploited for study. A total of 1556 nodules from 694 patients were involved in statistical analysis, where nodules with average scorings <3 and >3 were respectively denoted as benign and malignant. Besides, 339 nodules from 113 patients with diagnosis ground-truth were independently evaluated. Computer algorithms were developed to segment pulmonary structures and quantify the distances to pleural surface, airways and vessels, as well as the counting number and normalized volume of airways and vessels near a nodule. Odds ratio (OR) and Chi-square (\chi^2) testing were performed to demonstrate the correlation between features of surrounding structures and nodule malignancy. A non-parametric receiver operating characteristic (ROC) analysis was conducted in logistic regression to evaluate discrimination ability of each structure. For benign and malignant groups, the average distances from nodules to pleural surface, airways and vessels are respectively (6.56, 5.19), (37.08, 26.43) and (1.42, 1.07) mm. The correlation between nodules and the counting number of airways and vessels that contact or project towards nodules are respectively (OR=22.96, \chi^2=105.04) and (OR=7.06, \chi^2=290.11). The correlation between nodules and the volume of airways and vessels are (OR=9.19, \chi^2=159.02) and (OR=2.29, \chi^2=55.89). The areas-under-curves (AUCs) for pleurae, airways and vessels are respectively 0.5202, 0.6943 and 0.6529. Our results show that malignant nodules are often surrounded by more pulmonary structures compared with benign ones, suggesting that features of these structures could be viewed as lung cancer biomarkers.
翻訳日:2021-06-25 21:22:06 公開日:2021-06-24
# (参考訳) sofamyroom:バイノーラルルームインパルス応答データセット生成のための高速でマルチプラットフォームな"shoebox"ルームシミュレータ [全文訳有]

SofaMyRoom: a fast and multiplatform "shoebox" room simulator for binaural room impulse response dataset generation ( http://arxiv.org/abs/2106.12992v1 )

ライセンス: CC BY 4.0
Roberto Barumerli, Daniele Bianchi, Michele Geronazzo, Federico Avanzini(参考訳) 本稿では,任意の頭部伝達関数(HRTF)を与えられたバイノーラルルームインパルス応答(BRIR)の合成データセットを体系的に生成できる靴箱シミュレータを提案する。 機械補聴アルゴリズムの評価は、任意の環境の音響をシミュレートするために、BRIRデータセットを必要とすることが多い。 しかし、現在利用可能な解は通常、ダミーヘッドで測定されるHRTFのみを考慮し、空間音知覚における高い可変性を劣る。 提案手法では,室内インパルス応答(RIR)シミュレータを,空間指向音響フォーマット(SOFA)で表される異なるHRTFセットと統合することができる。 異なるオペレーティングシステム用のソースコードとコンパイル済みバイナリは、高度なユーザと非熟練ユーザの両方がツールボックスから恩恵を受けることができる。

This paper introduces a shoebox room simulator able to systematically generate synthetic datasets of binaural room impulse responses (BRIRs) given an arbitrary set of head-related transfer functions (HRTFs). The evaluation of machine hearing algorithms frequently requires BRIR datasets in order to simulate the acoustics of any environment. However, currently available solutions typically consider only HRTFs measured on dummy heads, which poorly characterize the high variability in spatial sound perception. Our solution allows to integrate a room impulse response (RIR) simulator with different HRTF sets represented in Spatially Oriented Format for Acoustics (SOFA). The source code and the compiled binaries for different operating systems allow to both advanced and non-expert users to benefit from our toolbox, see https://github.com/s patialaudiotools/sof amyroom/ .
翻訳日:2021-06-25 21:19:17 公開日:2021-06-24
# (参考訳) 幾何三角データに基づく3次元ロジェントポーズ推定のための深部リフトポーズモデルの評価 [全文訳有]

Evaluation of deep lift pose models for 3D rodent pose estimation based on geometrically triangulated data ( http://arxiv.org/abs/2106.12993v1 )

ライセンス: CC BY 4.0
Indrani Sarkar, Indranil Maji, Charitha Omprakash, Sebastian Stober, Sanja Mikulovic, Pavol Bauer(参考訳) 実験動物行動の評価は、現代の神経科学研究の中心的関心事である。 行動は一般的に3次元で理想的に捉えられるポーズの変化の観点から研究される。 これは動物を異なる角度から見るマルチカメラシステム上での三角測量を必要とする。 しかし、オクルージョンやその他の技術的な制約のため、現実的な実験室でのセットアップでは困難である。 そこで本研究では,単視点カメラビューから自由に動くロジトを頑健な3次元ポーズ推定が可能なリフトプレイスモデルを提案する。 ポーズリフティングのための高品質なトレーニングデータを得るため,まず,底面と側面の視界を含むカメラで幾何学的キャリブレーションを行う。 次に,提案した2つのモデルアーキテクチャの性能評価を行い,時間的畳み込みを用いて信頼性の高い3次元ポーズ推論が得られると結論付けた。 この研究で我々は、神経科学コミュニティにおける幅広い実験とセットアップのために、自由に動くネズミのより堅牢で多様な行動追跡に貢献したいと考えています。

The assessment of laboratory animal behavior is of central interest in modern neuroscience research. Behavior is typically studied in terms of pose changes, which are ideally captured in three dimensions. This requires triangulation over a multi-camera system which view the animal from different angles. However, this is challenging in realistic laboratory setups due to occlusions and other technical constrains. Here we propose the usage of lift-pose models that allow for robust 3D pose estimation of freely moving rodents from a single view camera view. To obtain high-quality training data for the pose-lifting, we first perform geometric calibration in a camera setup involving bottom as well as side views of the behaving animal. We then evaluate the performance of two previously proposed model architectures under given inference perspectives and conclude that reliable 3D pose inference can be obtained using temporal convolutions. With this work we would like to contribute to a more robust and diverse behavior tracking of freely moving rodents for a wide range of experiments and setups in the neuroscience community.
翻訳日:2021-06-25 21:02:00 公開日:2021-06-24
# (参考訳) 高次元出力によるベイズ最適化 [全文訳有]

Bayesian Optimization with High-Dimensional Outputs ( http://arxiv.org/abs/2106.12997v1 )

ライセンス: CC BY 4.0
Wesley J. Maddox, Maximilian Balandat, Andrew Gordon Wilson, Eytan Bakshy(参考訳) ベイズ最適化 (Bayesian Optimization) はサンプル効率のよいブラックボックス最適化法であり、通常は少数の独立した目的を持つ問題に適用される。 しかし、実際には、私たちは多くの相関した結果(または``tasks)で定義された目標を最適化したいとよく思っています。 例えば、科学者は、高密度のグリッドにまたがるセルタワーネットワークのカバレッジを最適化したいかもしれない。 同様に、エンジニアは制約付きあるいは堅牢な最適化を通じて、数十の異なる環境にわたるロボットのパフォーマンスのバランスを取ることができる。 しかし、ガウス過程(GP)モデルは、一般にマルチタスクベイズ最適化の確率的サロゲートとして使われ、結果の数に劣らず、適用可能性を大幅に制限する。 共分散行列におけるKronecker構造とMatheronの同一性を組み合わせた、正確なマルチタスクGPサンプリングのための効率的な手法を考案し、数万の相関出力を持つ正確なマルチタスクGPモデルを用いてベイズ最適化を行う。 これによって、結果の集約関数のみをモデル化する既存のアプローチと比較して、サンプル効率が大幅に向上します。 65,000以上の出力を持つ光干渉計の干渉パターンを最適化するなど、科学や工学における様々なタスクにまたがるベイズ最適化の新たな応用を実証する。

Bayesian Optimization is a sample-efficient black-box optimization procedure that is typically applied to problems with a small number of independent objectives. However, in practice we often wish to optimize objectives defined over many correlated outcomes (or ``tasks"). For example, scientists may want to optimize the coverage of a cell tower network across a dense grid of locations. Similarly, engineers may seek to balance the performance of a robot across dozens of different environments via constrained or robust optimization. However, the Gaussian Process (GP) models typically used as probabilistic surrogates for multi-task Bayesian Optimization scale poorly with the number of outcomes, greatly limiting applicability. We devise an efficient technique for exact multi-task GP sampling that combines exploiting Kronecker structure in the covariance matrices with Matheron's identity, allowing us to perform Bayesian Optimization using exact multi-task GP models with tens of thousands of correlated outputs. In doing so, we achieve substantial improvements in sample efficiency compared to existing approaches that only model aggregate functions of the outcomes. We demonstrate how this unlocks a new class of applications for Bayesian Optimization across a range of tasks in science and engineering, including optimizing interference patterns of an optical interferometer with more than 65,000 outputs.
翻訳日:2021-06-25 20:55:12 公開日:2021-06-24
# (参考訳) 単純かつ強固なベースライン:漸進的に地域ベースのシーンテキスト除去ネットワーク [全文訳有]

A Simple and Strong Baseline: Progressively Region-based Scene Text Removal Networks ( http://arxiv.org/abs/2106.13029v1 )

ライセンス: CC BY 4.0
Yuxin Wang, Hongtao Xie, Shancheng Fang, Yadong Qu and Yongdong Zhang(参考訳) 既存のシーンテキスト除去手法では,テキストの局所化と背景復元を同時に行うために,精巧なネットワークとペア画像を同時に訓練するが,テキスト領域の徹底的な消去の欠如と,テキストフリー領域への過度な消去の2つの問題が存在する。 これらの問題に対処するため,本論文では,テキスト領域のみのピクセルを段階的に消去する領域ベースの修正戦略を導入する,ProgrEssively Region-based scene Text eraser (PERT)を提案する。 まず、PERTはSTRタスクをいくつかの消去段階に分解する。 各ステージは、最終結果に直接回帰するのではなく、テキスト削除画像に向かってさらに一歩進もうとするので、分解操作は、各ステージの学習難易度を低減し、軽量な消去ブロックを共有パラメータでイテレートすることで、徹底的な消去結果を得ることができる。 次に,テキストのローカライゼーションを消去プロセスから切り離し,テキストフリー領域の完全性を保証するために,領域ベースの修正戦略を導入する。 pertはシンプルなアーキテクチャの恩恵を受け、シンプルで強力なベースラインであり、従うのも開発も容易である。 大規模な実験により、PERTは合成データセットと実世界のデータセットの両方で最先端の結果を得ることを示した。 コードはhttps://github.com/w angyuxin87/pert。

Existing scene text removal methods mainly train an elaborate network with paired images to realize the function of text localization and background reconstruction simultaneously, but there exists two problems: 1) lacking the exhaustive erasure of text region and 2) causing the excessive erasure to text-free areas. To handle these issues, this paper provides a novel ProgrEssively Region-based scene Text eraser (PERT), which introduces region-based modification strategy to progressively erase the pixels in only text region. Firstly, PERT decomposes the STR task to several erasing stages. As each stage aims to take a further step toward the text-removed image rather than directly regress to the final result, the decomposed operation reduces the learning difficulty in each stage, and an exhaustive erasure result can be obtained by iterating over lightweight erasing blocks with shared parameters. Then, PERT introduces a region-based modification strategy to ensure the integrity of text-free areas by decoupling text localization from erasure process to guide the removal. Benefiting from the simplicity architecture, PERT is a simple and strong baseline, and is easy to be followed and developed. Extensive experiments demonstrate that PERT obtains the state-of-the-art results on both synthetic and real-world datasets. Code is available athttps://github.com /wangyuxin87/PERT.
翻訳日:2021-06-25 20:15:27 公開日:2021-06-24
# (参考訳) 量子化アウェアトレーニング, ERNIE および Kurtosis Regularizer の短期的実証研究 [全文訳有]

Quantization Aware Training, ERNIE and Kurtosis Regularizer: a short empirical study ( http://arxiv.org/abs/2106.13035v1 )

ライセンス: CC BY 4.0
Andrea Zanetti(参考訳) ErnieやBertのような事前訓練された言語モデルは、現在多くのアプリケーションで使われている。 これらのモデルは、大量のデータに対して教師なし/自己教師なしのモダリティで通常得られる、事前訓練された重みを伴っている。 その後、特定のタスクで微調整される。 アプリケーションはこれらのモデルを推論に使用し、低電力予算や入力と出力の間の低レイテンシなど、追加の制約が適用されることが多い。 これらの追加要件を推論設定で満たす主な方法は、精度の低い計算(例えば)を使用することである。 INT8 は FP32 ではなく FP32 である)が、これは機能性能を劣化させるコストが伴う(例えば、FP32)。 精度)のモデルです この問題に対処し、PTO(ポストトライニング量子化)の限界を超えていくためのいくつかのアプローチが開発されており、より具体的には、QAT(Quantization Aware Training、[4])は、トレーニング自体の量子化フェーズの影響を受け(あるいは単に乱される)ようトレーニングプロセスに干渉する手順である。 qatに加えて、最近intel-habana labsは、正規化器を使用するその後の量子化に対して、トレーニング結果をより堅牢にするための、より直接的な方法を提案している。 しかし彼らの提案は、例えばErnieのような事前訓練されたモデルではうまく機能しない。 この短い論文では、なぜこれが起こらないのか(Ernieの場合)を示し、それを扱うための非常に基本的な方法を提案します。

Pre-trained language models like Ernie or Bert are currently used in many applications. These models come with a set of pre-trained weights typically obtained in unsupervised/self-su pervised modality on a huge amount of data. After that, they are fine-tuned on a specific task. Applications then use these models for inference, and often some additional constraints apply, like low power-budget or low latency between input and output. The main avenue to meet these additional requirements for the inference settings, is to use low precision computation (e.g. INT8 rather than FP32), but this comes with a cost of deteriorating the functional performance (e.g. accuracy) of the model. Some approaches have been developed to tackle the problem and go beyond the limitations of the PTO (Post-Training Quantization), more specifically the QAT (Quantization Aware Training, see [4]) is a procedure that interferes with the training process in order to make it affected (or simply disturbed) by the quantization phase during the training itself. Besides QAT, recently Intel-Habana Labs have proposed an additional and more direct way to make the training results more robust to subsequent quantization which uses a regularizer, therefore changing the loss function that drives the training procedure. But their proposal does not work out-of-the-box for pre-trained models like Ernie, for example. In this short paper we show why this is not happening (for the Ernie case) and we propose a very basic way to deal with it, sharing as well some initial results (increase in final INT8 accuracy) that might be of interest to practitioners willing to use Ernie in their applications, in low precision regime.
翻訳日:2021-06-25 20:00:16 公開日:2021-06-24
# (参考訳) Mix and Mask Actor-Critic Methods [全文訳有]

Mix and Mask Actor-Critic Methods ( http://arxiv.org/abs/2106.13037v1 )

ライセンス: CC BY 4.0
Dom Huh(参考訳) アクター批判手法の共有特徴空間は、より安定でサンプル効率の良い最適化を期待して、ポリシーと値関数で使用される一般化潜在表現をキャプチャすることを目的としている。 しかし、そのようなパラダイムは、共有表現を生成するパラメータが2つの異なる目的を学習しなければならず、結果として競合する更新と摂動の学習をもたらすため、実際に多くの課題を呈する。 本稿では,混合マスク機構と分散スカラー化手法を導入することで,これらの課題に対処する新しい特徴共有フレームワークを提案する。 これらのメカニズムは、結合された潜在性特徴をポリシーと値関数の間で可変に結合して分離して動的に振る舞うが、分布的スカラー化は確率論的観点から2つの目的を標準化する。 実験結果から,共有バックボーンを持つ別々のネットワークとネットワークを用いた代替手法と比較して,性能が大幅に向上することを示した。

Shared feature spaces for actor-critic methods aims to capture generalized latent representations to be used by the policy and value function with the hopes for a more stable and sample-efficient optimization. However, such a paradigm present a number of challenges in practice, as parameters generating a shared representation must learn off two distinct objectives, resulting in competing updates and learning perturbations. In this paper, we present a novel feature-sharing framework to address these difficulties by introducing the mix and mask mechanisms and the distributional scalarization technique. These mechanisms behaves dynamically to couple and decouple connected latent features variably between the policy and value function, while the distributional scalarization standardizes the two objectives using a probabilistic standpoint. From our experimental results, we demonstrate significant performance improvements compared to alternative methods using separate networks and networks with a shared backbone.
翻訳日:2021-06-25 19:52:29 公開日:2021-06-24
# (参考訳) Spoken Language Understandingのセマンティックな概念抽出はどこにあるのか? [全文訳有]

Where are we in semantic concept extraction for Spoken Language Understanding? ( http://arxiv.org/abs/2106.13045v1 )

ライセンス: CC BY 4.0
Sahar Ghannay, Antoine Caubri\`ere, Salima Mdhaffar, Ga\"elle Laperri\`ere, Bassam Jabaian, Yannick Est\`eve(参考訳) 音声言語理解(SLU)トピックは、エンドツーエンドのニューラルネットワークの出現とともに、過去3年間に多くの進歩を遂げてきた。 音声言語理解とは、音声信号からの意味的抽出に関連する自然言語処理タスクのことであり、例えば、音声からの名前付きエンティティ認識や、人間と機械の対話の文脈におけるスロットフィリングタスクである。 古典的には、sluタスクは、まず自動音声認識プロセスを適用し、次に自然言語処理モジュールを自動転写に適用するカスケードアプローチによって処理された。 この3年間、ディープニューラルネットワークに基づくエンドツーエンドニューラルネットワークアプローチは、単一のニューラルモデルを使用して、音声信号からセマンティクスを直接抽出するために提案されてきた。 ラベルなしデータを用いた自己教師付き学習に関する最近の研究は、自動音声認識と自然言語処理の性能の観点から新しい視点を開く。 本稿では、SLUのためのフランスのMEDIAベンチマークデータセットの最近の進歩について、追加データの使用の有無にかかわらず概説する。 今年発表された最新の最先端システムでは,13.6%ではなく,概念エラー率 (cer) が11.2%と,現在の最先端システムを大幅に上回っています。

Spoken language understanding (SLU) topic has seen a lot of progress these last three years, with the emergence of end-to-end neural approaches. Spoken language understanding refers to natural language processing tasks related to semantic extraction from speech signal, like named entity recognition from speech or slot filling task in a context of human-machine dialogue. Classically, SLU tasks were processed through a cascade approach that consists in applying, firstly, an automatic speech recognition process, followed by a natural language processing module applied to the automatic transcriptions. These three last years, end-to-end neural approaches, based on deep neural networks, have been proposed in order to directly extract the semantics from speech signal, by using a single neural model. More recent works on self-supervised training with unlabeled data open new perspectives in term of performance for automatic speech recognition and natural language processing. In this paper, we present a brief overview of the recent advances on the French MEDIA benchmark dataset for SLU, with or without the use of additional data. We also present our last results that significantly outperform the current state-of-the-art with a Concept Error Rate (CER) of 11.2%, instead of 13.6% for the last state-of-the-art system presented this year.
翻訳日:2021-06-25 19:38:34 公開日:2021-06-24
# (参考訳) 2次元ユークリッド選好におけるケメニーランクはNPハードである [全文訳有]

Kemeny ranking is NP-hard for 2-dimensional Euclidean preferences ( http://arxiv.org/abs/2106.13054v1 )

ライセンス: CC BY 4.0
Bruno Escoffier and Olivier Spanjaard and Magdalena Tydrichova(参考訳) 有権者の選好が共通の構造を共有しているという仮定は、社会的選択問題においてNPの硬さを回避する標準的な方法である。 ケメニー階数問題は一般の場合NPハードであるが、選好が 1 次元ユークリッドであれば容易であることが知られている。 本稿では、d>=2 の d-次元ユークリッド選好に対してケメニーランク問題はNPハードであることを示す。 この結果がスレーターランキング問題にも当てはまることに留意する。

The assumption that voters' preferences share some common structure is a standard way to circumvent NP-hardness results in social choice problems. While the Kemeny ranking problem is NP-hard in the general case, it is known to become easy if the preferences are 1-dimensional Euclidean. In this note, we prove that the Kemeny ranking problem is NP-hard for d-dimensional Euclidean preferences with d>=2. We note that this result also holds for the Slater ranking problem.
翻訳日:2021-06-25 19:26:24 公開日:2021-06-24
# (参考訳) 深層学習による生体超解像顕微鏡の進歩 [全文訳有]

Advancing biological super-resolution microscopy through deep learning: a brief review ( http://arxiv.org/abs/2106.13064v1 )

ライセンス: CC BY 4.0
Tianjie Yang, Yaoru Luo, Wei Ji and Ge Yang(参考訳) 超解像顕微鏡は従来の光顕微鏡の回折限界を空間分解能で克服する。 分子特異性を持つナノメートル分解能の生物過程に関する新しい空間的または時空間的情報を提供することにより、生命科学においてますます重要な役割を果たす。 しかし、その技術的制限は、空間分解能、時間分解能、試料の光暴露のバランスをとるためにトレードオフを必要とする。 近年,多くの画像処理やコンピュータビジョンタスクにおいて,ディープラーニングは画期的な性能を発揮している。 また、超高分解能顕微鏡の性能向上にも大きな期待を寄せている。 本稿では,超解像顕微鏡の性能向上のためのディープラーニングの最近の進歩を概観する。 主に、超高解像度画像の深層学習によるアドバンス再構築に焦点を当てる。 関連する技術的課題について論じる。 これらの課題にもかかわらず、深層学習は超解像顕微鏡の開発において不可欠かつ変革的な役割を果たす。 我々は、この新世代の光顕微鏡技術の将来をどのようにして深層学習が形作るかという展望で締めくくっている。

Super-resolution microscopy overcomes the diffraction limit of conventional light microscopy in spatial resolution. By providing novel spatial or spatio-temporal information on biological processes at nanometer resolution with molecular specificity, it plays an increasingly important role in life sciences. However, its technical limitations require trade-offs to balance its spatial resolution, temporal resolution, and light exposure of samples. Recently, deep learning has achieved breakthrough performance in many image processing and computer vision tasks. It has also shown great promise in pushing the performance envelope of super-resolution microscopy. In this brief Review, we survey recent advances in using deep learning to enhance performance of super-resolution microscopy. We focus primarily on how deep learning ad-vances reconstruction of super-resolution images. Related key technical challenges are discussed. Despite the challenges, deep learning is set to play an indispensable and transformative role in the development of super-resolution microscopy. We conclude with an outlook on how deep learning could shape the future of this new generation of light microscopy technology.
翻訳日:2021-06-25 19:17:31 公開日:2021-06-24
# (参考訳) プライバシーの脅威分析による連合学習の安全性 [全文訳有]

Privacy Threats Analysis to Secure Federated Learning ( http://arxiv.org/abs/2106.13076v1 )

ライセンス: CC BY 4.0
Yuchen Li, Yifan Bao, Liyao Xiang, Junhan Liu, Cen Chen, Li Wang, Xinbing Wang(参考訳) フェデレーテッド・ラーニングは、複数の分散型パーティでモデルをトレーニングする機械学習技術として登場しつつある。 データが計算装置を離れることはないため、プライバシを保護することで有名であり、最近のアプローチでは暗号化で転送されたメッセージを隠蔽することでプライバシをさらに強化している。 しかし、これらの努力にもかかわらず、異なる当事者間でインタラクティブな性質のため、フェデレートされた学習はプライバシーを脅かしている。 本稿では,産業レベルのフェデレーション学習フレームワークにおけるプライバシの脅威をセキュアな計算で分析し,線形回帰,ロジスティック回帰,決定木といった一般的な機械学習モデルに広く存在する脅威を明らかにする。 線形回帰とロジスティック回帰は,攻撃者が被害者のプライベート入力全体を逆転させることが可能であることを理論的解析を通して示す。 決定木モデルでは,被害者のプライベート入力の範囲を推定するために攻撃を開始する。 すべての攻撃は、一般的なフェデレーション学習フレームワークと実世界のデータセットで評価される。

Federated learning is emerging as a machine learning technique that trains a model across multiple decentralized parties. It is renowned for preserving privacy as the data never leaves the computational devices, and recent approaches further enhance its privacy by hiding messages transferred in encryption. However, we found that despite the efforts, federated learning remains privacy-threatening, due to its interactive nature across different parties. In this paper, we analyze the privacy threats in industrial-level federated learning frameworks with secure computation, and reveal such threats widely exist in typical machine learning models such as linear regression, logistic regression and decision tree. For the linear and logistic regression, we show through theoretical analysis that it is possible for the attacker to invert the entire private input of the victim, given very few information. For the decision tree model, we launch an attack to infer the range of victim's private inputs. All attacks are evaluated on popular federated learning frameworks and real-world datasets.
翻訳日:2021-06-25 19:03:22 公開日:2021-06-24
# (参考訳) 球状輸送損失を考慮した照明推定のためのスパース・ニードル [全文訳有]

Sparse Needlets for Lighting Estimation with Spherical Transport Loss ( http://arxiv.org/abs/2106.13090v1 )

ライセンス: CC BY 4.0
Fangneng Zhan, Changgong Zhang, Wenbo Hu, Shijian Lu, Feiying Ma, Xuansong Xie, Ling Shao(参考訳) 正確な照明推定は、ハイダイナミックレンジ(HDR)リライトのような多くのコンピュータビジョンやコンピュータグラフィックスタスクにとって難しい。 既存のアプローチでは、シーン内の複雑な照明条件を表現できない周波数領域または空間領域の照明をモデル化し、不正確な推定を行う傾向がある。 本稿では,周波数領域と空間領域の両方における照明量推定を併用した新しい照明量推定モデルであるニードルライトを提案する。 最適しきい値関数は、冗長な照明パラメータをトリムし、照明表現に優れた局在性を示す疎針を実現するように設計されている。 さらに,空間情報を考慮した光表現パラメータの回帰を導く最適輸送理論に基づいて,新しい球面輸送損失を設計する。 さらに,画像のレンダリングではなく,推定照明マップを直接評価することにより,簡潔かつ効果的である新しい指標を提案する。 大規模な実験により、NeedleLightは、最先端の手法と比較して、複数の評価指標で常に優れた照明推定を実現していることがわかった。

Accurate lighting estimation is challenging yet critical to many computer vision and computer graphics tasks such as high-dynamic-range (HDR) relighting. Existing approaches model lighting in either frequency domain or spatial domain which is insufficient to represent the complex lighting conditions in scenes and tends to produce inaccurate estimation. This paper presents NeedleLight, a new lighting estimation model that represents illumination with needlets and allows lighting estimation in both frequency domain and spatial domain jointly. An optimal thresholding function is designed to achieve sparse needlets which trims redundant lighting parameters and demonstrates superior localization properties for illumination representation. In addition, a novel spherical transport loss is designed based on optimal transport theory which guides to regress lighting representation parameters with consideration of the spatial information. Furthermore, we propose a new metric that is concise yet effective by directly evaluating the estimated illumination maps rather than rendered images. Extensive experiments show that NeedleLight achieves superior lighting estimation consistently across multiple evaluation metrics as compared with state-of-the-art methods.
翻訳日:2021-06-25 18:42:56 公開日:2021-06-24
# (参考訳) 生成した近傍における言語的境界同定によるループ内人間モデルの説明 [全文訳有]

Human-in-the-loop model explanation via verbatim boundary identification in generated neighborhoods ( http://arxiv.org/abs/2106.13093v1 )

ライセンス: CC BY 4.0
Xianlong Zeng, Fanghao Song, Zhongen Li, Krerkkiat Chusap, Chang Liu(参考訳) 機械学習モデルのブラックボックスの性質は、ケースクリティカルなアプリケーションでの使用を制限し、信頼の危機につながる忠実で倫理的な懸念を提起する。 この問題を軽減する1つの可能な方法は、(誤った)決定が意思決定の境界からどのように削られるかを理解することである。 本稿では,動詞の近傍表現を用いた機械学習モデルの説明手法を提案する。 現在のeXplainable Artificial Intelligence(XAI)システムの多くとは対照的に,本手法は与えられたインスタンスの局所的な決定境界を生成し,人間の知能によるモデル動作の結論を可能にする。 1) 与えられたサンプルに基づいてインスタンスを生成する近傍生成段階, 2) 生成されたインスタンスの分類を行い, 局所的な決定境界を彫り出し, モデル行動を示す分類段階, 3) 人間による利害関係の精錬と探索を伴うヒューマン・イン・ザ・ループ段階の3段階に分けられる。 生成段階では、生成モデルを使用して、所定のインスタンス周辺の可塑性合成近傍を生成する。 分類段階の後、分類された隣接インスタンスはモデルの振る舞いを多面的に理解する。 3つの介入ポイントがヒューマン・イン・ザ・ループの段階で提供され、人間が自身の知性を利用してモデルの振る舞いを解釈できる。 2つのデータセットについていくつかの実験を行い,提案手法が複雑な機械学習モデルの人間の理解を促進する可能性を実証した。

The black-box nature of machine learning models limits their use in case-critical applications, raising faithful and ethical concerns that lead to trust crises. One possible way to mitigate this issue is to understand how a (mispredicted) decision is carved out from the decision boundary. This paper presents a human-in-the-loop approach to explain machine learning models using verbatim neighborhood manifestation. Contrary to most of the current eXplainable Artificial Intelligence (XAI) systems, which provide hit-or-miss approximate explanations, our approach generates the local decision boundary of the given instance and enables human intelligence to conclude the model behavior. Our method can be divided into three stages: 1) a neighborhood generation stage, which generates instances based on the given sample; 2) a classification stage, which yields classifications on the generated instances to carve out the local decision boundary and delineate the model behavior; and 3) a human-in-the-loop stage, which involves human to refine and explore the neighborhood of interest. In the generation stage, a generative model is used to generate the plausible synthetic neighbors around the given instance. After the classification stage, the classified neighbor instances provide a multifaceted understanding of the model behavior. Three intervention points are provided in the human-in-the-loop stage, enabling humans to leverage their own intelligence to interpret the model behavior. Several experiments on two datasets are conducted, and the experimental results demonstrate the potential of our proposed approach for boosting human understanding of the complex machine learning model.
翻訳日:2021-06-25 18:27:19 公開日:2021-06-24
# (参考訳) 大規模小児クレームデータに基づく下流住民特化タスクのための事前学習型トランスフォーマーベースフレームワーク [全文訳有]

Pre-training transformer-based framework on large-scale pediatric claims data for downstream population-specific tasks ( http://arxiv.org/abs/2106.13095v1 )

ライセンス: CC BY 4.0
Xianlong Zeng, Simon Lin, and Chang Liu(参考訳) 電子健康記録(EHR)の採用は過去10年間に普遍的なものとなり、詳細なデータベースの研究が可能となった。 大量の医療データから学習することで、自動診断や心臓発作予測など、さまざまな医療タスクの将来のイベントを予測するために、さまざまなデータ駆動モデルが構築されている。 EHRは豊富だが、人口固有のタスクを学習するための特定の基準を満たす人口は少ないため、データ不足のディープラーニングモデルを訓練することは困難である。 本研究は,乳幼児クレームデータセット全体を最初にトレーニングし,次に集団別タスクの判別的微調整を行う汎用事前学習モデルであるクレーム事前学習(claim-pt)フレームワークを提案する。 トレーニング前の段階では、医療イベントの意味を捉えることができ、タスク対応の微調整段階を通じて効果的な知識伝達が完了する。 微調整プロセスでは、データ不足を軽減し、小さな患者コホート上でのディープラーニングモデルの適切なトレーニングを支援するモデルアーキテクチャを変更することなく、最小限のパラメータ修正が必要となる。 我々は100万人以上の患者記録を持つ実世界のクレームデータセットで実験を行った。 2つの下流タスクにおける実験結果から,本手法の有効性が示された。我々の一般的なタスク非依存事前学習フレームワークはタスク固有モデルよりも優れており,ベースラインと比較すると,モデル性能が10\%以上向上した。 さらに,我々のフレームワークは,学習知識をある機関から別の機関に移すための大きな一般化可能性を示し,組織間での今後の医療モデルへの道を開いた。

The adoption of electronic health records (EHR) has become universal during the past decade, which has afforded in-depth data-based research. By learning from the large amount of healthcare data, various data-driven models have been built to predict future events for different medical tasks, such as auto diagnosis and heart-attack prediction. Although EHR is abundant, the population that satisfies specific criteria for learning population-specific tasks is scarce, making it challenging to train data-hungry deep learning models. This study presents the Claim Pre-Training (Claim-PT) framework, a generic pre-training model that first trains on the entire pediatric claims dataset, followed by a discriminative fine-tuning on each population-specific task. The semantic meaning of medical events can be captured in the pre-training stage, and the effective knowledge transfer is completed through the task-aware fine-tuning stage. The fine-tuning process requires minimal parameter modification without changing the model architecture, which mitigates the data scarcity issue and helps train the deep learning model adequately on small patient cohorts. We conducted experiments on a real-world claims dataset with more than one million patient records. Experimental results on two downstream tasks demonstrated the effectiveness of our method: our general task-agnostic pre-training framework outperformed tailored task-specific models, achieving more than 10\% higher in model performance as compared to baselines. In addition, our framework showed a great generalizability potential to transfer learned knowledge from one institution to another, paving the way for future healthcare model pre-training across institutions.
翻訳日:2021-06-25 18:15:28 公開日:2021-06-24
# (参考訳) FF-NSL:フィードフォワードニューラルシンボリック学習機

FF-NSL: Feed-Forward Neural-Symbolic Learner ( http://arxiv.org/abs/2106.13103v1 )

ライセンス: CC BY 4.0
Daniel Cunnington, Mark Law, Alessandra Russo, Jorge Lobo(参考訳) 帰納論理プログラミング(ILP)は、一般化された解釈可能な仮説をデータ効率よく学習することを目的としている。 しかし、現在のilpシステムは、トレーニング例を構造化論理形式で指定する必要がある。 本稿では,非構造化ラベルデータから解釈可能な仮説を学習するために,解集合セマンティクスに基づく最先端irpシステムをニューラルネットワークと統合した,フィードフォワード型ニューラルネットワーク学習(ff-nsl)と呼ばれるニューラルシンボリック学習フレームワークを提案する。 FF-NSLは、未構造化データからシンボル事実を抽出するために事前訓練されたニューラルネットワークと、下流の分類タスクを実行する仮説を学ぶためのILPシステムを使用する。 実世界のアプリケーションへのアプローチの適用性を評価するため,事前学習したニューラルネットワークが誤予測し,信頼性の高い非構造化入力データに分散シフトを導入するタスクに対して,フレームワークの評価を行った。 実験の結果、FF-NSLは、より正確で解釈可能な仮説を少ない例で学習することで、ランダムな森林やディープニューラルネットワークのようなベースラインアプローチよりも優れていることが示された。

Inductive Logic Programming (ILP) aims to learn generalised, interpretable hypotheses in a data-efficient manner. However, current ILP systems require training examples to be specified in a structured logical form. This paper introduces a neural-symbolic learning framework, called Feed-Forward Neural-Symbolic Learner (FF-NSL), that integrates state-of-the-art ILP systems based on the Answer Set semantics, with neural networks, in order to learn interpretable hypotheses from labelled unstructured data. FF-NSL uses a pre-trained neural network to extract symbolic facts from unstructured data and an ILP system to learn a hypothesis that performs a downstream classification task. In order to evaluate the applicability of our approach to real-world applications, the framework is evaluated on tasks where distributional shifts are introduced to unstructured input data, for which pre-trained neural networks are likely to predict incorrectly and with high confidence. Experimental results show that FF-NSL outperforms baseline approaches such as a random forest and deep neural networks by learning more accurate and interpretable hypotheses with fewer examples.
翻訳日:2021-06-25 18:06:15 公開日:2021-06-24
# (参考訳) 病理組織における連続・再狭窄領域の高分解能画像登録 [全文訳有]

High-resolution Image Registration of Consecutive and Re-stained Sections in Histopathology ( http://arxiv.org/abs/2106.13150v1 )

ライセンス: CC BY-SA 4.0
Johannes Lotz, Nick Weiss, Jeroen van der Laak, StefanHeldmann(参考訳) 病理組織学的検討から, 変分画像登録法と再保存区間の比較を行った。 非パラメトリック(非線形)画像登録のための完全自動アルゴリズムを提案し、anhirチャレンジ(230個のスライドペア、連続セクション)と新しいデータセット(ハイブリッド再保存および連続、81個のスライドペア、ca)の既存のデータセットに適用する。 3000のランドマーク)が公開されている。 ANHIRデータセットで登録ハイパーパラメータを取得し、修正せずに新しいデータセットに適用する。 新しいデータセットでは、登録後のランドマークエラーは、連続セクションの13.2マイクロメートルから再保存セクションの1マイクロメートルまで様々である。 非パラメトリック登録は,再留置区間で効果が小さくても,両症例ともランドマーク誤差が低いことが観察された。 再安定断面の非パラメトリックな登録後の核レベルのアライメントは、病理学における機械学習応用のための自動基底構造を生成する貴重なツールを提供する。

We compare variational image registration in consectutive and re-stained sections from histopathology. We present a fully-automatic algorithm for non-parametric (nonlinear) image registration and apply it to a previously existing dataset from the ANHIR challenge (230 slide pairs, consecutive sections) and a new dataset (hybrid re-stained and consecutive, 81 slide pairs, ca. 3000 landmarks) which is made publicly available. Registration hyperparameters are obtained in the ANHIR dataset and applied to the new dataset without modification. In the new dataset, landmark errors after registration range from 13.2 micrometers for consecutive sections to 1 micrometer for re-stained sections. We observe that non-parametric registration leads to lower landmark errors in both cases, even though the effect is smaller in re-stained sections. The nucleus-level alignment after non-parametric registration of re-stained sections provides a valuable tool to generate automatic ground-truth for machine learning applications in histopathology.
翻訳日:2021-06-25 18:05:05 公開日:2021-06-24
# (参考訳) CCC/Code 8.7: 現代の奴隷制度との戦いにAIを適用する [全文訳有]

CCC/Code 8.7: Applying AI in the Fight Against Modern Slavery ( http://arxiv.org/abs/2106.13186v1 )

ライセンス: CC BY 4.0
Nadya Bliss, Mark Briers, Alice Eckstein, James Goulding, Daniel P. Lopresti, Anjali Mazumder, and Gavin Smith(参考訳) あらゆる日において、何千万人もの人々が近代的な奴隷制度の事例に閉じ込められている。 人身売買」や「人身売買」や「近代奴隷制」といった用語は、性売買と強制労働の両方を指すために、相互に用いられることがある。 人身売買は、人身売買者が強制力、詐欺、強制力の使用を通じて労働またはサービスの提供を強制するときに起こる。 人身売買における幅広い利害関係者には大きな課題がある。 直接の利害関係者は、法執行機関、NGO、INGO、企業、地方・計画当局、および生存者である。 非常に高いレベルから見れば、すべての利害関係者は、膨大な情報を生成し消費する豊富な相互作用のネットワークを共有します。 このような情報をトラフィックと戦うために効率的に利用することの問題は、同時に、プライバシーと倫理のコミュニティ標準に固執することの難しさである。 同時に、人口の監視を増加させる技術は、基本的人権を損なう可能性がある。 2020年3月初旬、compute community consortium (ccc) はcode 8.7イニシアチブと共同で、50人を超えるコンピューティング研究コミュニティのメンバーと反奴隷制度実践者と生存者を集結させ、研究ロードマップを策定した。 第一の目的は、人工知能(AI)の長距離研究を人身売買との戦いに適用する方法を探ることであった。 2019年2月に国連本部で開催されたCode 8.7カンファレンスのキックオフで、このワークショップの焦点は、米国における人工知能研究のための20年コミュニティロードマップ(AIロードマップ)で概説された野心的な目標と、現代の奴隷制度の排除である国連の持続可能な開発目標目標8.7を達成する上で不可欠な課題を結びつけることである。

On any given day, tens of millions of people find themselves trapped in instances of modern slavery. The terms "human trafficking," "trafficking in persons," and "modern slavery" are sometimes used interchangeably to refer to both sex trafficking and forced labor. Human trafficking occurs when a trafficker compels someone to provide labor or services through the use of force, fraud, and/or coercion. The wide range of stakeholders in human trafficking presents major challenges. Direct stakeholders are law enforcement, NGOs and INGOs, businesses, local/planning government authorities, and survivors. Viewed from a very high level, all stakeholders share in a rich network of interactions that produce and consume enormous amounts of information. The problems of making efficient use of such information for the purposes of fighting trafficking while at the same time adhering to community standards of privacy and ethics are formidable. At the same time they help us, technologies that increase surveillance of populations can also undermine basic human rights. In early March 2020, the Computing Community Consortium (CCC), in collaboration with the Code 8.7 Initiative, brought together over fifty members of the computing research community along with anti-slavery practitioners and survivors to lay out a research roadmap. The primary goal was to explore ways in which long-range research in artificial intelligence (AI) could be applied to the fight against human trafficking. Building on the kickoff Code 8.7 conference held at the headquarters of the United Nations in February 2019, the focus for this workshop was to link the ambitious goals outlined in the A 20-Year Community Roadmap for Artificial Intelligence Research in the US (AI Roadmap) to challenges vital in achieving the UN's Sustainable Development Goal Target 8.7, the elimination of modern slavery.
翻訳日:2021-06-25 17:55:06 公開日:2021-06-24
# (参考訳) データセットワイドXAIのためのソフトウェア:ローカル説明からZennit, CoRelAy, ViRelAyによるグローバルインサイトへ [全文訳有]

Software for Dataset-wide XAI: From Local Explanations to Global Insights with Zennit, CoRelAy, and ViRelAy ( http://arxiv.org/abs/2106.13200v1 )

ライセンス: CC BY-SA 4.0
Christopher J. Anders, David Neumann, Wojciech Samek, Klaus-Robert M\"uller, Sebastian Lapuschkin(参考訳) ディープニューラルネットワーク(DNN)は強力な予測器として知られているが、その予測戦略はほとんど理解できない。 説明可能な人工知能の最近の進歩により、これらの複雑なモデルの予測の背後にある理由を探るためのアプローチが利用可能である。 アプローチの1つのクラスはポストホックアトリビューション法であり、その中でもlrp(layer-wise associated propagation)は高いパフォーマンスを示している。 しかし、DNNの推論を理解する試みは、入力空間内の個々のサンプルに対して得られる属性にしばしば停止し、より深い定量的分析の可能性を残している。 As a manual analysis without the right tools is often unnecessarily labor intensive, we introduce three software packages targeted at scientists to explore model reasoning using attribution approaches and beyond: (1) Zennit - a highly customizable and intuitive attribution framework implementing LRP and related approaches in PyTorch, (2) CoRelAy - a framework to easily and quickly construct quantitative analysis pipelines for dataset-wide analyses of explanations, and (3) ViRelAy - a web-application to interactively explore data, attributions, and analysis results.

Deep Neural Networks (DNNs) are known to be strong predictors, but their prediction strategies can rarely be understood. With recent advances in Explainable Artificial Intelligence, approaches are available to explore the reasoning behind those complex models' predictions. One class of approaches are post-hoc attribution methods, among which Layer-wise Relevance Propagation (LRP) shows high performance. However, the attempt at understanding a DNN's reasoning often stops at the attributions obtained for individual samples in input space, leaving the potential for deeper quantitative analyses untouched. As a manual analysis without the right tools is often unnecessarily labor intensive, we introduce three software packages targeted at scientists to explore model reasoning using attribution approaches and beyond: (1) Zennit - a highly customizable and intuitive attribution framework implementing LRP and related approaches in PyTorch, (2) CoRelAy - a framework to easily and quickly construct quantitative analysis pipelines for dataset-wide analyses of explanations, and (3) ViRelAy - a web-application to interactively explore data, attributions, and analysis results.
翻訳日:2021-06-25 17:36:36 公開日:2021-06-24
# (参考訳) ディファレンシャルプライバシが解釈可能性を満たす場合--ケーススタディ [全文訳有]

When Differential Privacy Meets Interpretability: A Case Study ( http://arxiv.org/abs/2106.13203v1 )

ライセンス: CC BY 4.0
Rakshit Naidu, Aman Priyanshu, Aadith Kumar, Sasikanth Kotti, Haofan Wang, Fatemehsadat Mireshghallah(参考訳) 医療画像や診断などのタスクにおけるDeep Neural Networks(DNN)のトレーニングにおける個人データの利用の増加を踏まえ、DNNの差分プライベートトレーニングの重要性が高まっている。 しかし,これらのモデルの解釈可能性やDPの適用が解釈の質に与える影響についてはほとんど注目されていない。 本稿では,DPトレーニングがDNN,特に医療画像への応用に与える影響について,APTOSデータセット上で広範囲に研究する。

Given the increase in the use of personal data for training Deep Neural Networks (DNNs) in tasks such as medical imaging and diagnosis, differentially private training of DNNs is surging in importance and there is a huge body of work focusing on providing better privacy-utility trade-off. However, little attention is given to the interpretability of these models, and how the application of DP affects the quality of interpretations. We propose an extensive study into the effects of DP training on DNNs, especially on medical imaging applications, on the APTOS dataset.
翻訳日:2021-06-25 17:17:10 公開日:2021-06-24
# (参考訳) gaussigan: 3次元gaussianによる制御可能な画像合成 [全文訳有]

GaussiGAN: Controllable Image Synthesis with 3D Gaussians from Unposed Silhouettes ( http://arxiv.org/abs/2106.13215v1 )

ライセンス: CC BY 4.0
Youssef A.Mejjati and Isa Milefchik and Aaron Gokaslan and Oliver Wang and Kwang In Kim and James Tompkin(参考訳) 本研究では,複数視点の2次元マスクの監視から物体の粗い3次元表現を学習し,それを用いて詳細なマスクとテクスチャを生成するアルゴリズムを提案する。 既存のボクセルを用いた物体再構成法とは対照的に,本手法は生成した形状を表現し,視点カメラによる自己監督型正準3次元異方性ガウス像と画像毎の変換を用いてポーズする。 この手法はカメラとオブジェクトの3d空間をロバストに推定できるが、最近のベースラインはこの設定でコヒーレントな3d空間を再構築するのに苦労することがある。 リアル照明を用いた合成データセットの結果を示し、対話的なポーズによるオブジェクト挿入を示す。 私たちの研究は、学習に基づくオブジェクト再構成において、より現実的なバリエーションを扱う構造化表現への移行を支援する。

We present an algorithm that learns a coarse 3D representation of objects from unposed multi-view 2D mask supervision, then uses it to generate detailed mask and image texture. In contrast to existing voxel-based methods for unposed object reconstruction, our approach learns to represent the generated shape and pose with a set of self-supervised canonical 3D anisotropic Gaussians via a perspective camera, and a set of per-image transforms. We show that this approach can robustly estimate a 3D space for the camera and object, while recent baselines sometimes struggle to reconstruct coherent 3D spaces in this setting. We show results on synthetic datasets with realistic lighting, and demonstrate object insertion with interactive posing. With our work, we help move towards structured representations that handle more real-world variation in learning-based object reconstruction.
翻訳日:2021-06-25 17:10:28 公開日:2021-06-24
# (参考訳) 深度信頼度を考慮したカモフラージュ物体検出 [全文訳有]

Depth Confidence-aware Camouflaged Object Detection ( http://arxiv.org/abs/2106.13217v1 )

ライセンス: CC BY 4.0
Jing Zhang, Yunqiu Lv, Mochu Xiang, Aixuan Li, Yuchao Dai, Yiran Zhong(参考訳) カモフラージュされた物体検出(COD)は、カモフラージュされた物体を環境中に隠蔽することを目的としている。 生物学の研究によると、深度は、すべての動物が3D知覚能力を持つため、カモフラージュされた物体発見に有用な物体の局所化手段を提供する可能性がある。 しかし、深度情報はカモフラージュされた物体検出に利用されていない。 そこで本研究では,既存の単眼深度推定法から予め計算した深度マップを用いた深度誘導型物体検出ネットワークを提案する。 深度推定データセットとキャモフラージュしたオブジェクト検出データセットのドメインギャップのため、生成した深度は我々のフレームワークで直接使用されるほど正確ではないかもしれない。 次に,rgb codブランチおよびrgb-d codブランチからのモデル予測に基づいて深さ品質を評価する奥行き品質評価モジュールを提案する。 トレーニング中は、マルチモーダル学習のためのモーダル相互作用モジュールを更新するために、高品質な深度のみを使用する。 テスト中, 深度評価モジュールは, 奥行きの寄与を効果的に判定し, 迷彩予測のためのRGBブランチまたはRGB-Dブランチを選択する。 様々なカモフラージュ物体検出データセットに関する広範囲な実験により,カモフラージュ物体検出の奥行き情報探索におけるソリューションの有効性が証明された。 私たちのコードとデータは、 \url{https://github.com/j ingzhang617/rgbd-cod } で公開されている。

Camouflaged object detection (COD) aims to segment camouflaged objects hiding in the environment, which is challenging due to the similar appearance of camouflaged objects and their surroundings. Research in biology suggests that depth can provide useful object localization cues for camouflaged object discovery, as all the animals have 3D perception ability. However, the depth information has not been exploited for camouflaged object detection. To explore the contribution of depth for camouflage detection, we present a depth-guided camouflaged object detection network with pre-computed depth maps from existing monocular depth estimation methods. Due to the domain gap between the depth estimation dataset and our camouflaged object detection dataset, the generated depth may not be accurate enough to be directly used in our framework. We then introduce a depth quality assessment module to evaluate the quality of depth based on the model prediction from both RGB COD branch and RGB-D COD branch. During training, only high-quality depth is used to update the modal interaction module for multi-modal learning. During testing, our depth quality assessment module can effectively determine the contribution of depth and select the RGB branch or RGB-D branch for camouflage prediction. Extensive experiments on various camouflaged object detection datasets prove the effectiveness of our solution in exploring the depth information for camouflaged object detection. Our code and data is publicly available at: \url{https://github.com/J ingZhang617/RGBD-COD }.
翻訳日:2021-06-25 16:44:45 公開日:2021-06-24
# (参考訳) AutoAdapt: 教師なしドメイン適応のためのセグメンテーションネットワーク検索 [全文訳有]

AutoAdapt: Automated Segmentation Network Search for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2106.13227v1 )

ライセンス: CC BY 4.0
Xueqing Deng, Yi Zhu, Yuxin Tian, Shawn Newsam(参考訳) ニューラルネットワークに基づくセマンティックセグメンテーションは、大量の注釈付きデータが利用可能である場合、すなわち教師付きケースで顕著な結果を得た。 しかし、そのようなデータは収集にコストがかかるため、関連する、しばしばラベルが容易に利用できる合成データに基づいて訓練されたモデルを適応させる手法が開発されている。 現在の適応アプローチは、これらのモデルの一般化/転送可能性のネットワークアーキテクチャへの依存を考慮していない。 本稿では,ドメイン適応のためのアーキテクチャレベルの視点と分析を提供するニューラルネットワーク探索(NAS)を行う。 教師なし領域適応のためのアーキテクチャを探索する際に存在する最適化ギャップを同定し,NAS問題を一意に困難にする。 本稿では,最大平均誤差と地域重み付きエントロピーを用いて,このギャップを埋めて精度を推定する手法を提案する。 いくつかの広く採用されているベンチマーク実験の結果、提案するAutoAdaptフレームワークは、既存の多くの適応手法の性能を向上させるアーキテクチャを実際に発見できることが示されている。

Neural network-based semantic segmentation has achieved remarkable results when large amounts of annotated data are available, that is, in the supervised case. However, such data is expensive to collect and so methods have been developed to adapt models trained on related, often synthetic data for which labels are readily available. Current adaptation approaches do not consider the dependence of the generalization/trans ferability of these models on network architecture. In this paper, we perform neural architecture search (NAS) to provide architecture-level perspective and analysis for domain adaptation. We identify the optimization gap that exists when searching architectures for unsupervised domain adaptation which makes this NAS problem uniquely difficult. We propose bridging this gap by using maximum mean discrepancy and regional weighted entropy to estimate the accuracy metric. Experimental results on several widely adopted benchmarks show that our proposed AutoAdapt framework indeed discovers architectures that improve the performance of a number of existing adaptation techniques.
翻訳日:2021-06-25 16:22:51 公開日:2021-06-24
# (参考訳) Video Swin Transformer [全文訳有]

Video Swin Transformer ( http://arxiv.org/abs/2106.13230v1 )

ライセンス: CC BY 4.0
Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu(参考訳) 視覚コミュニティは、cnnからトランスフォーマーへのモデリングシフトを目撃しており、純粋なトランスフォーマーアーキテクチャが主要なビデオ認識ベンチマークで最高精度を達成した。 これらのビデオモデルは、すべてTransformer層上に構築され、空間的および時間的次元のパッチをグローバルに接続する。 本稿では,ビデオトランスフォーマの局所性に対する帰納的バイアスを提唱し,空間的時間的因子分解においてもグローバルに自己アテンションを計算する従来のアプローチと比較して,速度・精度のトレードオフが向上することを示す。 提案する映像アーキテクチャの局所性は,事前学習した画像モデルのパワーを引き続き活用しながら,画像領域用に設計されたスウィントランスを適応させることにより実現される。 提案手法は,動作認識(Kinetics-400の84.9トップ-1精度,Kinetics-600の86.1トップ-1精度)や時間モデリング(Something v2の69.6トップ-1精度)など,幅広いビデオ認識ベンチマークにおける最先端の精度を実現する。 コードとモデルはhttps://github.com/S winTransformer/Video -Swin-Transformerで公開される。

The vision community is witnessing a modeling shift from CNNs to Transformers, where pure Transformer architectures have attained top accuracy on the major video recognition benchmarks. These video models are all built on Transformer layers that globally connect patches across the spatial and temporal dimensions. In this paper, we instead advocate an inductive bias of locality in video Transformers, which leads to a better speed-accuracy trade-off compared to previous approaches which compute self-attention globally even with spatial-temporal factorization. The locality of the proposed video architecture is realized by adapting the Swin Transformer designed for the image domain, while continuing to leverage the power of pre-trained image models. Our approach achieves state-of-the-art accuracy on a broad range of video recognition benchmarks, including on action recognition (84.9 top-1 accuracy on Kinetics-400 and 86.1 top-1 accuracy on Kinetics-600 with ~20x less pre-training data and ~3x smaller model size) and temporal modeling (69.6 top-1 accuracy on Something-Something v2). The code and models will be made publicly available at https://github.com/S winTransformer/Video -Swin-Transformer.
翻訳日:2021-06-25 15:58:27 公開日:2021-06-24
# 言語モデルにおける社会的バイアスの理解と緩和に向けて

Towards Understanding and Mitigating Social Biases in Language Models ( http://arxiv.org/abs/2106.13219v1 )

ライセンス: Link先を確認
Paul Pu Liang, Chiyu Wu, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) 機械学習の手法は、医療、法制度、社会科学といった現実世界で展開されるため、これらの敏感な意思決定プロセスにおいて、社会的バイアスやステレオタイプをどのように形作るかを認識することが不可欠である。 このような実世界の展開の中には、大規模な事前学習された言語モデル(lms)があり、望ましくない表現バイアスを顕現するのに潜在的に危険である。 LMの公平性を改善するためのステップとして、新しいベンチマークやメトリクスを提案する前に、いくつかの表現バイアス源を慎重に定義する。 これらのツールを用いて、テキスト生成時の社会的偏見を軽減するためのステップを提案する。 実験結果と人的評価は,高忠実度テキスト生成において重要な文脈情報を保持しつつバイアス軽減効果を示し,パレートフロンティアを推進している。

As machine learning methods are deployed in real-world settings such as healthcare, legal systems, and social science, it is crucial to recognize how they shape social biases and stereotypes in these sensitive decision-making processes. Among such real-world deployments are large-scale pretrained language models (LMs) that can be potentially dangerous in manifesting undesirable representational biases - harmful biases resulting from stereotyping that propagate negative generalizations involving gender, race, religion, and other social constructs. As a step towards improving the fairness of LMs, we carefully define several sources of representational biases before proposing new benchmarks and metrics to measure them. With these tools, we propose steps towards mitigating social biases during text generation. Our empirical results and human evaluation demonstrate effectiveness in mitigating bias while retaining crucial contextual information for high-fidelity text generation, thereby pushing forward the performance-fairness Pareto frontier.
翻訳日:2021-06-25 15:22:02 公開日:2021-06-24
# モバイルデータからのムードの学習言語とマルチモーダルプライバシー保護マーカー

Learning Language and Multimodal Privacy-Preserving Markers of Mood from Mobile Data ( http://arxiv.org/abs/2106.13213v1 )

ライセンス: Link先を確認
Paul Pu Liang, Terrance Liu, Anna Cai, Michal Muszynski, Ryo Ishii, Nicholas Allen, Randy Auerbach, David Brent, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 精神状態は、先進医療に共通する国でも診断されていない。 容易に収集できるデータから気分を正確にかつ効率的に予測できる能力は、精神疾患の早期発見、介入、治療に重要な意味を持つ。 人間の行動を監視するための有望なデータソースの1つは、日々のスマートフォン利用である。 しかし、個人(例えば、個人識別可能な情報)や保護(例えば、人種、性別)属性を通してユーザーを特定することなく、行動の要約に注意する必要がある。 本稿では,自殺行為のリスクが高い青年期の移動行動のデータセットを用いて,日常生活の行動マーカーについて検討する。 計算モデルを用いて,移動型テキストの言語とマルチモーダル表現(スパンニング型文字,単語,キーストロークタイミング,アプリ利用)が日常の気分を予測できることがわかった。 しかし、気分を予測するために訓練されたモデルはしばしば、中間表現でプライベートなユーザIDをキャプチャする。 この問題に取り組むために,予測を保ちながらユーザアイデンティティを隠蔽するアプローチを評価する。 マルチモーダル表現とプライバシ保護学習を組み合わせることで、パフォーマンスプライバシのフロンティアを推し進めることができます。

Mental health conditions remain underdiagnosed even in countries with common access to advanced medical care. The ability to accurately and efficiently predict mood from easily collectible data has several important implications for the early detection, intervention, and treatment of mental health disorders. One promising data source to help monitor human behavior is daily smartphone usage. However, care must be taken to summarize behaviors without identifying the user through personal (e.g., personally identifiable information) or protected (e.g., race, gender) attributes. In this paper, we study behavioral markers of daily mood using a recent dataset of mobile behaviors from adolescent populations at high risk of suicidal behaviors. Using computational models, we find that language and multimodal representations of mobile typed text (spanning typed characters, words, keystroke timings, and app usage) are predictive of daily mood. However, we find that models trained to predict mood often also capture private user identities in their intermediate representations. To tackle this problem, we evaluate approaches that obfuscate user identity while remaining predictive. By combining multimodal representations with privacy-preserving learning, we are able to push forward the performance-privacy frontier.
翻訳日:2021-06-25 15:21:47 公開日:2021-06-24
# 対称ワッサースタインオートエンコーダ

Symmetric Wasserstein Autoencoders ( http://arxiv.org/abs/2106.13024v1 )

ライセンス: Link先を確認
Sun Sun and Hongyu Guo(参考訳) 最適なトランスポートの枠組みを活用し,swaes (symmetric wasserstein autoencoders) と呼ばれる学習可能な事前生成型オートエンコーダを新たに導入する。 本稿では,エンコーダとデコーダによって引き起こされる観測データの結合分布と潜在表現とを対称に一致させることを提案する。 結果として得られるアルゴリズムは、データ空間と潜在空間の両方におけるモデリング損失を共同で最適化し、データ空間の損失をデノジング効果に導く。 データの対称的な処理と潜在表現により、アルゴリズムは潜在空間内のデータの局所構造を暗黙的に保存する。 潜在表現の質をさらに向上するため, 目的に再構成損失を組み込むことで, 生成と復元の両面で大きな効果が得られた。 我々は,最先端の自動エンコーダに対するswaesの優れた性能を,分類,再構成,生成の観点から実証的に示す。

Leveraging the framework of Optimal Transport, we introduce a new family of generative autoencoders with a learnable prior, called Symmetric Wasserstein Autoencoders (SWAEs). We propose to symmetrically match the joint distributions of the observed data and the latent representation induced by the encoder and the decoder. The resulting algorithm jointly optimizes the modelling losses in both the data and the latent spaces with the loss in the data space leading to the denoising effect. With the symmetric treatment of the data and the latent representation, the algorithm implicitly preserves the local structure of the data in the latent space. To further improve the quality of the latent representation, we incorporate a reconstruction loss into the objective, which significantly benefits both the generation and reconstruction. We empirically show the superior performance of SWAEs over the state-of-the-art generative autoencoders in terms of classification, reconstruction, and generation.
翻訳日:2021-06-25 15:21:11 公開日:2021-06-24
# 開口レンダリング生成逆ネットワークを用いた自然画像からの奥行きと奥行きの教師なし学習

Unsupervised Learning of Depth and Depth-of-Field Effect from Natural Images with Aperture Rendering Generative Adversarial Networks ( http://arxiv.org/abs/2106.13041v1 )

ライセンス: Link先を確認
Takuhiro Kaneko(参考訳) 2次元投影自然画像から3d世界を理解することは、コンピュータビジョンとグラフィックスにおける根本的な課題である。 近年,データ収集における優位性から,教師なし学習アプローチが注目されている。 しかし、トレーニング制限を緩和するために、典型的な方法は視点分布(例えば、様々な視点画像を含むデータセット)や物体形状(例えば対称オブジェクト)の仮定を課す必要がある。 例えば、類似の視点(例えば、花や鳥の画像)からキャプチャされた非剛性物体や画像への応用は、依然として課題である。 これらの手法を補完するために,GAN上にアパーチャレンダリングを装備するAR-GAN(Aperture rendering Generative Adversarial Network)を提案し,未ラベルの自然画像の深度と深度(DoF)効果を学習するためにフォーカスキューを採用した。 教師なし設定(スムーズなテクスチャとアウト・オブ・フォーカスのぼかし、前景と背景のぼかしのあいまいさ)によって引き起こされる曖昧さに対処するため,多様なDoF画像を生成しながら実際の画像分布を学習できるDoF混合学習を開発した。 さらに、学習方向を導く前に、中心となる焦点を考案する。 実験では,花,鳥,顔画像などの各種データセットにおけるAR-GANの有効性を実証し,これらを他の3次元表現学習GANに組み込んで移植性を示し,浅いDoFレンダリングにおける適用性を検証する。

Understanding the 3D world from 2D projected natural images is a fundamental challenge in computer vision and graphics. Recently, an unsupervised learning approach has garnered considerable attention owing to its advantages in data collection. However, to mitigate training limitations, typical methods need to impose assumptions for viewpoint distribution (e.g., a dataset containing various viewpoint images) or object shape (e.g., symmetric objects). These assumptions often restrict applications; for instance, the application to non-rigid objects or images captured from similar viewpoints (e.g., flower or bird images) remains a challenge. To complement these approaches, we propose aperture rendering generative adversarial networks (AR-GANs), which equip aperture rendering on top of GANs, and adopt focus cues to learn the depth and depth-of-field (DoF) effect of unlabeled natural images. To address the ambiguities triggered by unsupervised setting (i.e., ambiguities between smooth texture and out-of-focus blurs, and between foreground and background blurs), we develop DoF mixture learning, which enables the generator to learn real image distribution while generating diverse DoF images. In addition, we devise a center focus prior to guiding the learning direction. In the experiments, we demonstrate the effectiveness of AR-GANs in various datasets, such as flower, bird, and face images, demonstrate their portability by incorporating them into other 3D representation learning GANs, and validate their applicability in shallow DoF rendering.
翻訳日:2021-06-25 15:20:57 公開日:2021-06-24
# AIT-QA: 航空産業における複雑なテーブル上の質問応答データ

AIT-QA: Question Answering Dataset over Complex Tables in the Airline Industry ( http://arxiv.org/abs/2106.12944v1 )

ライセンス: Link先を確認
Yannis Katsis, Saneem Chemmengath, Vishwajeet Kumar, Samarth Bharadwaj, Mustafa Canim, Michael Glass, Alfio Gliozzo, Feifei Pan, Jaydeep Sen, Karthik Sankaranarayanan, Soumen Chakrabarti(参考訳) 近年のトランスフォーマーの進歩により、WikiTableQuestionsやWikiSQLといったオープンドメインデータセット上で、テーブル質問回答(Table QA)システムが高精度でSOTA結果が得られるようになった。 このようなトランスフォーマーはウィキペディアのようなオープンドメインのコンテンツで事前学習されることが多く、テーブルQAデータセットに見られるように、ウィキペディアの質問や対応するテーブルを効果的にエンコードする。 しかし、wikipediaのwebテーブルはレイアウトにおいて顕著に平坦であり、最初の行は唯一のカラムヘッダである。 このレイアウトは、各行がタプルであるテーブルのリレーショナルビューに向いている。 一方、ドメイン固有のビジネスまたは科学文書のテーブルは、そのドメインからの特別な語彙の他に、階層的な行や列ヘッダを含むより複雑なレイアウトを持つことが多い。 この問題に対処するために、ドメイン固有のテーブルQAデータセットAIT-QA(Airline Industry Table QA)を紹介する。 このデータセットは、2017-2019年度の大手航空会社の米国証券取引委員会(SEC)の提出書類から抽出された116の表に、人間のアノテータによって書かれた515の質問からなる。 また、質問の性質に関するアノテーションを提供し、階層ヘッダー、ドメイン固有用語、パラフレーズ形式を必要とするものをマークします。 我々のゼロショットベースライン評価では,TPAS (end-to-end) , TaBERT (semantic parsing-based) , RCI (row-column encoding-based) という3つのトランスフォーマーベースのSOTAテーブルQA手法を用いて,これらの手法の限界を明らかにし,その精度は51.8\% (RCI) である。 また,これらの複雑なテーブルを sota テーブル qa モデルに適したレイアウトにピボットし,投影するための実用的テーブル前処理手順を提案する。

Recent advances in transformers have enabled Table Question Answering (Table QA) systems to achieve high accuracy and SOTA results on open domain datasets like WikiTableQuestions and WikiSQL. Such transformers are frequently pre-trained on open-domain content such as Wikipedia, where they effectively encode questions and corresponding tables from Wikipedia as seen in Table QA dataset. However, web tables in Wikipedia are notably flat in their layout, with the first row as the sole column header. The layout lends to a relational view of tables where each row is a tuple. Whereas, tables in domain-specific business or scientific documents often have a much more complex layout, including hierarchical row and column headers, in addition to having specialized vocabulary terms from that domain. To address this problem, we introduce the domain-specific Table QA dataset AIT-QA (Airline Industry Table QA). The dataset consists of 515 questions authored by human annotators on 116 tables extracted from public U.S. SEC filings (publicly available at: https://www.sec.gov/ edgar.shtml) of major airline companies for the fiscal years 2017-2019. We also provide annotations pertaining to the nature of questions, marking those that require hierarchical headers, domain-specific terminology, and paraphrased forms. Our zero-shot baseline evaluation of three transformer-based SOTA Table QA methods - TaPAS (end-to-end), TaBERT (semantic parsing-based), and RCI (row-column encoding-based) - clearly exposes the limitation of these methods in this practical setting, with the best accuracy at just 51.8\% (RCI). We also present pragmatic table preprocessing steps used to pivot and project these complex tables into a layout suitable for the SOTA Table QA models.
翻訳日:2021-06-25 15:20:27 公開日:2021-06-24
# vqaチャレンジ2021の対向訓練を用いたトランスフォーマチッククロスモーダル融合モデル

A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021 ( http://arxiv.org/abs/2106.13033v1 )

ライセンス: Link先を確認
Ke-Han Lu, Bo-Han Fang, Kuan-Yu Chen(参考訳) 本稿では、視覚言語事前学習モデルの成功と、敵攻撃による訓練の恩恵に触発されて、VQAチャレンジ2021の両概念を取り入れた、トランスフォーマーベースのクロスモーダル融合モデリングを提案する。 具体的には,提案モデルが VinVL モデル [19] のアーキテクチャ上にあり,そのモデルを堅牢かつ一般化するための対角的トレーニング戦略 [4] が適用される。 さらに,本システムでは,より優れた結果を得るために2つの実装手法が用いられている。 実験の結果、新しいフレームワークはVQAv2テストstdセットで76.72%を達成することができた。

In this paper, inspired by the successes of visionlanguage pre-trained models and the benefits from training with adversarial attacks, we present a novel transformerbased cross-modal fusion modeling by incorporating the both notions for VQA challenge 2021. Specifically, the proposed model is on top of the architecture of VinVL model [19], and the adversarial training strategy [4] is applied to make the model robust and generalized. Moreover, two implementation tricks are also used in our system to obtain better results. The experiments demonstrate that the novel framework can achieve 76.72% on VQAv2 test-std set.
翻訳日:2021-06-25 15:19:53 公開日:2021-06-24
# MatchVIE:視覚情報抽出のためのエンティティ間のマッチング関連性の爆発

MatchVIE: Exploiting Match Relevancy between Entities for Visual Information Extraction ( http://arxiv.org/abs/2106.12940v1 )

ライセンス: Link先を確認
Guozhi Tang, Lele Xie, Lianwen Jin, Jiapeng Wang, Jingdong Chen, Zhen Xu, Qianying Wang, Yaqiang Wu, Hui Li(参考訳) 視覚情報抽出(VIE)タスクは、多言語文書画像(請求書や領収書など)から鍵情報を抽出することを目的としている。 従来のほとんどの方法は、VIEタスクを単にシーケンスラベリング問題や分類問題として扱い、フォント、色、レイアウトといったマルチモーダルな特徴を導入して、各セマンティクスを慎重に識別する必要がある。 しかし、単にマルチモーダル機能を導入するだけでは、数値的なセマンティックカテゴリや曖昧なテキストに直面するとうまくいきませんでした。 本稿では,この問題を解決するために,グラフニューラルネットワーク(matchvie)を用いた新しい鍵値マッチングモデルを提案する。 関連性評価に基づくキー値マッチングにより、提案したMatchVIEは、認識を様々な意味論にバイパスし、エンティティ間の強い関連性に焦点を当てる。 さらに,エンコードされた値の不安定性に対処するために,単純かつ効果的な操作であるnum2vecを導入することで,モデルの収束をよりスムーズに行うことができる。 総合的な実験により、提案したMatchVIEは従来の手法よりも大幅に優れていることが示された。 特に、私たちの知る限りでは、MatchVIEはキーと値の関連性をモデル化してVIEタスクに取り組む最初の試みであり、既存のメソッドを補完するものです。

Visual Information Extraction (VIE) task aims to extract key information from multifarious document images (e.g., invoices and purchase receipts). Most previous methods treat the VIE task simply as a sequence labeling problem or classification problem, which requires models to carefully identify each kind of semantics by introducing multimodal features, such as font, color, layout. But simply introducing multimodal features couldn't work well when faced with numeric semantic categories or some ambiguous texts. To address this issue, in this paper we propose a novel key-value matching model based on a graph neural network for VIE (MatchVIE). Through key-value matching based on relevancy evaluation, the proposed MatchVIE can bypass the recognitions to various semantics, and simply focuses on the strong relevancy between entities. Besides, we introduce a simple but effective operation, Num2Vec, to tackle the instability of encoded values, which helps model converge more smoothly. Comprehensive experiments demonstrate that the proposed MatchVIE can significantly outperform previous methods. Notably, to the best of our knowledge, MatchVIE may be the first attempt to tackle the VIE task by modeling the relevancy between keys and values and it is a good complement to the existing methods.
翻訳日:2021-06-25 15:19:43 公開日:2021-06-24
# AutoMLツールを用いたテキスト分類のための表現モデルの評価

Evaluation of Representation Models for Text Classification with AutoML Tools ( http://arxiv.org/abs/2106.12798v1 )

ライセンス: Link先を確認
Sebastian Br\"andle, Marc Hanussek, Matthias Blohm, and Maximilien Kintz(参考訳) 自動化機械学習(automl)は近年、表データで成功を収めている。 しかし、テキストのような構造化されていないデータの処理は困難であり、オープンソースのautomlツールでは広くサポートされていない。 この作業は、AutoMLツールによって自動生成される3つの手作業によるテキスト表現とテキスト埋め込みを比較する。 ベンチマークには、テキスト分類のための4つの人気のあるautomlツールと8つのデータセットが含まれています。 その結果,テキスト埋め込みを自動生成したautomlツールよりも簡易なテキスト表現が優れていることがわかった。

Automated Machine Learning (AutoML) has gained increasing success on tabular data in recent years. However, processing unstructured data like text is a challenge and not widely supported by open-source AutoML tools. This work compares three manually created text representations and text embeddings automatically created by AutoML tools. Our benchmark includes four popular open-source AutoML tools and eight datasets for text classification purposes. The results show that straightforward text representations perform better than AutoML tools with automatically created text embeddings.
翻訳日:2021-06-25 15:19:20 公開日:2021-06-24
# autoformer: 長期時系列予測のための自己相関型分解トランス

Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting ( http://arxiv.org/abs/2106.13008v1 )

ライセンス: Link先を確認
Haixu Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long(参考訳) 予測時間を延長することは、極端な気象早期警報や長期エネルギー消費計画など、実際の応用にとって重要な需要である。 本稿では時系列の「textit{long-term forecasting}」問題について考察する。 以前のトランスフォーマーモデルでは、長距離依存性を発見するために様々な自己着信機構を採用している。 しかし、長期の複雑な時間パターンは、モデルが信頼できる依存関係を見つけることを妨げている。 また、トランスフォーマーは、長いシリーズ効率のために、ポイントワイズセルフアテンションのスパースバージョンを採用する必要があり、その結果、情報利用ボトルネックが発生する。 これらの課題に対して,自動相関機構を備えた新しい分解アーキテクチャとしてAutoformerを提案する。 我々は、直列分解の前処理規約を超越し、それを深層モデルの基本的な内部ブロックとして再構築する。 この設計は複雑な時系列のプログレッシブ分解能力を持つオートフォーマタに力を与える。 さらに, 確率過程理論に触発されて, 系列周期性に基づく自己相関機構を設計し, 部分系列レベルで依存関係の発見と表現の集約を行う。 自己相関は、効率と精度の両方において自己アテンションを上回る。 長期的な予測では、Autoformerは6つのベンチマークに対して38%の相対的な改善を行い、エネルギー、交通、経済、天気、病気の5つの実践的応用をカバーしている。

Extending the forecasting time is a critical demand for real applications, such as extreme weather early warning and long-term energy consumption planning. This paper studies the \textit{long-term forecasting} problem of time series. Prior Transformer-based models adopt various self-attention mechanisms to discover the long-range dependencies. However, intricate temporal patterns of the long-term future prohibit the model from finding reliable dependencies. Also, Transformers have to adopt the sparse versions of point-wise self-attentions for long series efficiency, resulting in the information utilization bottleneck. Towards these challenges, we propose Autoformer as a novel decomposition architecture with an Auto-Correlation mechanism. We go beyond the pre-processing convention of series decomposition and renovate it as a basic inner block of deep models. This design empowers Autoformer with progressive decomposition capacities for complex time series. Further, inspired by the stochastic process theory, we design the Auto-Correlation mechanism based on the series periodicity, which conducts the dependencies discovery and representation aggregation at the sub-series level. Auto-Correlation outperforms self-attention in both efficiency and accuracy. In long-term forecasting, Autoformer yields state-of-the-art accuracy, with a 38% relative improvement on six benchmarks, covering five practical applications: energy, traffic, economics, weather and disease.
翻訳日:2021-06-25 15:19:08 公開日:2021-06-24
# オプションキーボード:強化学習におけるスキルの組み合わせ

The Option Keyboard: Combining Skills in Reinforcement Learning ( http://arxiv.org/abs/2106.13105v1 )

ライセンス: Link先を確認
Andr\'e Barreto, Diana Borsa, Shaobo Hou, Gheorghe Comanici, Eser Ayg\"un, Philippe Hamel, Daniel Toyama, Jonathan Hunt, Shibl Mourad, David Silver, Doina Precup(参考訳) 既知のスキルを組み合わせて新しいスキルを作る能力は、長期にわたって広がる複雑な強化学習問題の解決に不可欠である。 スキルを組み合わせるための強固な方法は、疑似リワード(あるいは「累積」)の空間でそれらを定義して操作することである。 この前提に基づいて,選択肢の形式化を用いたスキル結合の枠組みを提案する。 任意の決定論的選択肢は拡張領域で定義された累積として曖昧に表現できることを示す。 この知見と、転送学習に関するこれまでの結果に基づいて、既知の選択肢の累積の線形結合である積の選択肢を近似する方法を示す。 つまり、一組の累積体に関連するオプションを学習すれば、学習にかかわることなく、任意の線形結合によって引き起こされるオプションを瞬時に合成できるということです。 本稿では,抽象的な動作が基本的スキルの組み合わせに対応する環境に階層的なインターフェースを提供する方法について述べる。 本研究では,資源管理問題と四足歩行型ロボットによるナビゲーション作業におけるアプローチの実践的メリットを実証する。

The ability to combine known skills to create new ones may be crucial in the solution of complex reinforcement learning problems that unfold over extended periods. We argue that a robust way of combining skills is to define and manipulate them in the space of pseudo-rewards (or "cumulants"). Based on this premise, we propose a framework for combining skills using the formalism of options. We show that every deterministic option can be unambiguously represented as a cumulant defined in an extended domain. Building on this insight and on previous results on transfer learning, we show how to approximate options whose cumulants are linear combinations of the cumulants of known options. This means that, once we have learned options associated with a set of cumulants, we can instantaneously synthesise options induced by any linear combination of them, without any learning involved. We describe how this framework provides a hierarchical interface to the environment whose abstract actions correspond to combinations of basic skills. We demonstrate the practical benefits of our approach in a resource management problem and a navigation task involving a quadrupedal simulated robot.
翻訳日:2021-06-25 15:18:46 公開日:2021-06-24
# 分割型エクストリームマルチラベル分類におけるラベルの絡み合い

Label Disentanglement in Partition-based Extreme Multilabel Classification ( http://arxiv.org/abs/2106.12751v1 )

ライセンス: Link先を確認
Xuanqing Liu, Wei-Cheng Chang, Hsiang-Fu Yu, Cho-Jui Hsieh, Inderjit S. Dhillon(参考訳) 分割に基づく手法は、大規模な出力空間(例えば数百万以上)への拡張性のため、極端なマルチラベル分類(XMC)問題にますます使われてきている。 しかし、既存の手法では、大きなラベル空間を相互に排他的なクラスタに分割するが、これはラベルがマルチモーダルでリッチなセマンティクスを持つ場合に最適である。 例えば、"Apple"というラベルは果物またはブランド名になり得るが、これは以下の研究課題に繋がる: 下流XMCタスクに適した非排他的クラスタリングでこれらのマルチモーダルラベルをアンハングできるだろうか? 本稿では,分割型xmcにおけるラベル割当問題を,精度を最大化するために最適化問題として定式化できることを示す。 これにより、フレキシブルで重なり合うラベルクラスタを形成する効率的なアルゴリズムと、パーティションベースのXMCのためのクラスタ割り当てとモデルパラメータを代わりに最適化する手法が実現される。 合成データと実データを用いた実験の結果,マルチモーダルラベルの抽出に成功し,4つのxmcベンチマークにおいて最先端(sota)結果が得られた。

Partition-based methods are increasingly-used in extreme multi-label classification (XMC) problems due to their scalability to large output spaces (e.g., millions or more). However, existing methods partition the large label space into mutually exclusive clusters, which is sub-optimal when labels have multi-modality and rich semantics. For instance, the label "Apple" can be the fruit or the brand name, which leads to the following research question: can we disentangle these multi-modal labels with non-exclusive clustering tailored for downstream XMC tasks? In this paper, we show that the label assignment problem in partition-based XMC can be formulated as an optimization problem, with the objective of maximizing precision rates. This leads to an efficient algorithm to form flexible and overlapped label clusters, and a method that can alternatively optimizes the cluster assignments and the model parameters for partition-based XMC. Experimental results on synthetic and real datasets show that our method can successfully disentangle multi-modal labels, leading to state-of-the-art (SOTA) results on four XMC benchmarks.
翻訳日:2021-06-25 15:18:00 公開日:2021-06-24
# 米国郡におけるcovid-19リスクに影響を及ぼす要因--教師なし学習と教師なし学習を組み合わせた革新的なアプローチ

Factors affecting the COVID-19 risk in the US counties: an innovative approach by combining unsupervised and supervised learning ( http://arxiv.org/abs/2106.12766v1 )

ライセンス: Link先を確認
Samira Ziyadidegan, Moein Razavi, Homa Pesarakli, Amir Hossein Javid, Madhav Erraguntla(参考訳) 新型コロナウイルスは急速に拡大し、中国で最初の陽性が確認された約3カ月後、米国中に新型コロナウイルスが広がり始めた。 一部の州や郡は陽性例や死亡例が多いと報告し、一部の州ではcovid-19関連例や死亡率が低いと報告している。 本稿では,新型コロナウイルスの感染リスクと死亡率に影響を与える要因を郡レベルで分析した。 k平均クラスタリングといくつかの分類モデルを用いて,最も重要な因子を決定する革新的な手法を提案する。 その結果,平均気温,貧困未満の人の割合,肥満者の割合,気圧,人口密度,風速,経度,無保険者の割合が有意な要因であった。

The COVID-19 disease spreads swiftly, and nearly three months after the first positive case was confirmed in China, Coronavirus started to spread all over the United States. Some states and counties reported high number of positive cases and deaths, while some reported lower COVID-19 related cases and mortality. In this paper, the factors that could affect the risk of COVID-19 infection and mortality were analyzed in county level. An innovative method by using K-means clustering and several classification models is utilized to determine the most critical factors. Results showed that mean temperature, percent of people below poverty, percent of adults with obesity, air pressure, population density, wind speed, longitude, and percent of uninsured people were the most significant attributes
翻訳日:2021-06-25 15:17:39 公開日:2021-06-24
# ハイブリッド確率モデルによるタスク非依存連続学習

Task-agnostic Continual Learning with Hybrid Probabilistic Models ( http://arxiv.org/abs/2106.12772v1 )

ライセンス: Link先を確認
Polina Kirichenko, Mehrdad Farajtabar, Dushyant Rao, Balaji Lakshminarayanan, Nir Levine, Ang Li, Huiyi Hu, Andrew Gordon Wilson, Razvan Pascanu(参考訳) 絶えず変化するデータ分散を忘れずに新しいタスクを継続的に学習することは、現実世界の問題には不可欠だが、現代のディープラーニングには極めて難しい。 本研究では,分類のための連続学習のためのハイブリッド生成判別手法であるhclを提案する。 各タスクと各クラスの分布を正規化フローでモデル化する。 フローは、データ分散を学習し、分類を行い、タスク変更を特定し、忘れることを避けるために使用され、これらはすべて、正規化フローモデルによって一意に有効となる可逆性と正確性を活用する。 我々は, 再生再生と新しい機能正規化技術により, 破滅的忘れを避けるために, 流れの生成能力を利用する。 タスク識別には,モデル統計の典型性の測定に基づいて,最先端の異常検出手法を用いる。 本研究では,スプリット-MNIST,スプリット-CIFAR,SVHN-MNISTなどの連続学習ベンチマークにおいて,HCLの強い性能を示す。

Learning new tasks continuously without forgetting on a constantly changing data distribution is essential for real-world problems but extremely challenging for modern deep learning. In this work we propose HCL, a Hybrid generative-discrimin ative approach to Continual Learning for classification. We model the distribution of each task and each class with a normalizing flow. The flow is used to learn the data distribution, perform classification, identify task changes, and avoid forgetting, all leveraging the invertibility and exact likelihood which are uniquely enabled by the normalizing flow model. We use the generative capabilities of the flow to avoid catastrophic forgetting through generative replay and a novel functional regularization technique. For task identification, we use state-of-the-art anomaly detection techniques based on measuring the typicality of the model's statistics. We demonstrate the strong performance of HCL on a range of continual learning benchmarks such as split-MNIST, split-CIFAR, and SVHN-MNIST.
翻訳日:2021-06-25 15:17:25 公開日:2021-06-24
# COVID-19の流行を理解する : 時空間的プロセス

Understanding the Spread of COVID-19 Epidemic: A Spatio-Temporal Point Process View ( http://arxiv.org/abs/2106.13097v1 )

ライセンス: Link先を確認
Shuang Li, Lu Wang, Xinyun Chen, Yixiang Fang, Yan Song(参考訳) 1月21日に米国で最初の新型コロナウイルス感染者が確認された後、米国の100万人以上が新型コロナウイルスの感染者を確認した。 この感染症は、米国の3000以上の郡と50の州に急速に広がり、進化的クラスタリングと複雑なトリガーパターンを呈している。 この疾患の複雑な時空干渉伝播を理解することが不可欠であり、正確な予測や賢明な外部介入を行うことができる。 本稿では、COVID-19の伝播を時空間プロセスとしてモデル化し、疾患の拡散を追跡するための生成的かつ強度のないモデルを提案する。 さらに,モデルパラメータを学習するために,生成的逆模倣学習フレームワークも採用する。 従来の確率に基づく学習手法と比較して、この模倣学習フレームワークは、モデルミスを緩和する強度関数を事前に指定する必要はない。 さらに, 可逆学習手法では, 確率評価にかかわる評価の難しい積分を回避し, モデル推論をデータや変数に対してよりスケーラブルにする。 本研究は、米国における新型コロナウイルス感染者の動的学習性能について紹介し、学習生成モデルに基づくソーシャル・ディスタンシング・ポリシーの評価を行った。

Since the first coronavirus case was identified in the U.S. on Jan. 21, more than 1 million people in the U.S. have confirmed cases of COVID-19. This infectious respiratory disease has spread rapidly across more than 3000 counties and 50 states in the U.S. and have exhibited evolutionary clustering and complex triggering patterns. It is essential to understand the complex spacetime intertwined propagation of this disease so that accurate prediction or smart external intervention can be carried out. In this paper, we model the propagation of the COVID-19 as spatio-temporal point processes and propose a generative and intensity-free model to track the spread of the disease. We further adopt a generative adversarial imitation learning framework to learn the model parameters. In comparison with the traditional likelihood-based learning methods, this imitation learning framework does not need to prespecify an intensity function, which alleviates the model-misspecificati on. Moreover, the adversarial learning procedure bypasses the difficult-to-evaluat e integral involved in the likelihood evaluation, which makes the model inference more scalable with the data and variables. We showcase the dynamic learning performance on the COVID-19 confirmed cases in the U.S. and evaluate the social distancing policy based on the learned generative model.
翻訳日:2021-06-25 15:17:09 公開日:2021-06-24
# MIxBN:混合データからベイズネットワークを学習するためのライブラリ

MIxBN: library for learning Bayesian networks from mixed data ( http://arxiv.org/abs/2106.13194v1 )

ライセンス: Link先を確認
Anna V. Bubnova, Irina Deeva, Anna V. Kalyuzhnaya(参考訳) 本稿では,離散変数と連続変数(混合データ)を含むデータからベイズネットワークを学ぶための新しいライブラリについて述べる。 離散化データに関する古典的学習方法に加えて,データ離散化が情報損失につながるため,混合データから構造的学習とパラメータ学習を可能にするアルゴリズムを提案する。 このアルゴリズムは、構造学習のための混合MIスコア関数と、パラメータ学習のための線形回帰とガウス分布近似に基づく。 このライブラリはまた、グラフ構造を列挙する2つのアルゴリズム、greedy Hill-Climbingアルゴリズムと進化的アルゴリズムも提供している。 そこで提案ライブラリの主な機能は,(1)離散化データ上でのベイズネットワークの構造とパラメータの学習,(2)MI混合スコア関数とガウス近似を用いた混合データ上でのベイズネットワークの構造とパラメータの学習,(3)グラフ構造を列挙する2つのアルゴリズムのうちの1つ,ヒルクライミングと進化アルゴリズムを用いた学習アルゴリズムのローンチである。 複合データ表現の必要性は実用的必要性から生じているため,本実装の利点は,合成データや実データセットにおける近似問題やギャップリカバリ問題を解くことにある。

This paper describes a new library for learning Bayesian networks from data containing discrete and continuous variables (mixed data). In addition to the classical learning methods on discretized data, this library proposes its algorithm that allows structural learning and parameters learning from mixed data without discretization since data discretization leads to information loss. This algorithm based on mixed MI score function for structural learning, and also linear regression and Gaussian distribution approximation for parameters learning. The library also offers two algorithms for enumerating graph structures - the greedy Hill-Climbing algorithm and the evolutionary algorithm. Thus the key capabilities of the proposed library are as follows: (1) structural and parameters learning of a Bayesian network on discretized data, (2) structural and parameters learning of a Bayesian network on mixed data using the MI mixed score function and Gaussian approximation, (3) launching learning algorithms on one of two algorithms for enumerating graph structures - Hill-Climbing and the evolutionary algorithm. Since the need for mixed data representation comes from practical necessity, the advantages of our implementations are evaluated in the context of solving approximation and gap recovery problems on synthetic data and real datasets.
翻訳日:2021-06-25 15:16:50 公開日:2021-06-24
# 周波数領域畳み込みニューラルネットワーク:大型糖尿病網膜症画像分類のための加速CNN

Frequency Domain Convolutional Neural Network: Accelerated CNN for Large Diabetic Retinopathy Image Classification ( http://arxiv.org/abs/2106.12736v1 )

ライセンス: Link先を確認
Ee Fey Goh, ZhiYuan Chen and Wei Xiang Lim(参考訳) 畳み込みニューラルネットワーク(CNN)の従来の空間畳み込み層は、レイヤーの数、トレーニング画像の数、トレーニング画像のサイズを減らさない限り、トレーニング時間が数日かかるような時点で計算コストがかかる。 256x256ピクセルの画像サイズは、CNNのほとんどの用途で一般的に使われているが、正確な分類に画像の詳細が重要である糖尿病網膜症(DR)分類のようなアプリケーションでは、この画像サイズは小さすぎる。 本研究は、RFFT、カーネル初期化戦略、畳み込みアーティファクト除去、チャネル独立畳み込み(CIC)を用いて構築された周波数領域変換(FDC)と周波数領域プール(FDP)層を提案し、従来の畳み込み・プール層を置き換える。 FDC層とFDP層は周波数領域畳み込みニューラルネットワーク(FDCNN)を構築するために使用され、DR分類のための大きな画像のトレーニングを高速化する。 フルFDC層はFDC層の拡張であり、従来のCNNで直接使用することができるが、VGG16アーキテクチャの変更にも使用されている。 FDCNNは、同等のCNNアーキテクチャに比べて54.21%高速で、メモリ効率は70.74%向上している。 フルFDC層で修正されたVGG16アーキテクチャは、DR分類のためのオリジナルのVGG16アーキテクチャと比較して、トレーニング時間が短く、精度が95.63%向上したと報告されている。

The conventional spatial convolution layers in the Convolutional Neural Networks (CNNs) are computationally expensive at the point where the training time could take days unless the number of layers, the number of training images or the size of the training images are reduced. The image size of 256x256 pixels is commonly used for most of the applications of CNN, but this image size is too small for applications like Diabetic Retinopathy (DR) classification where the image details are important for accurate classification. This research proposed Frequency Domain Convolution (FDC) and Frequency Domain Pooling (FDP) layers which were built with RFFT, kernel initialization strategy, convolution artifact removal and Channel Independent Convolution (CIC) to replace the conventional convolution and pooling layers. The FDC and FDP layers are used to build a Frequency Domain Convolutional Neural Network (FDCNN) to accelerate the training of large images for DR classification. The Full FDC layer is an extension of the FDC layer to allow direct use in conventional CNNs, it is also used to modify the VGG16 architecture. FDCNN is shown to be at least 54.21% faster and 70.74% more memory efficient compared to an equivalent CNN architecture. The modified VGG16 architecture with Full FDC layer is reported to achieve a shorter training time and a higher accuracy at 95.63% compared to the original VGG16 architecture for DR classification.
翻訳日:2021-06-25 15:16:02 公開日:2021-06-24
# 室内回転シーンの自己監督による単眼深度推定

Self-Supervised Monocular Depth Estimation of Untextured Indoor Rotated Scenes ( http://arxiv.org/abs/2106.12958v1 )

ライセンス: Link先を確認
Benjamin Keltjens and Tom van Dijk and Guido de Croon(参考訳) 自己教師付き深層学習法では,単眼深度推定の訓練にステレオ画像を用いた。 これらの手法は、KITTIなどの屋外データセットに対して強い結果を示すが、室内環境における監視手法の性能とカメラ回転とは一致しない。 屋内で回転するシーンは、低テクスチャ領域の存在度と回転下の画像の奥行き手がかりの複雑さの増加という2つの理由から、制約の少ないアプリケーションでは一般的である。 自己教師あり学習をより一般化した環境に拡張するために、我々は2つの追加を提案する。 まず,テクスチャレス領域における画像再構成誤差損失の曖昧さを補正する新しい不均一損失項を提案する。 具体的には, 周囲のテクスチャ領域からの距離を推定し, 元の推定値の補正にL1損失を用いる。 実験の結果,ゴダードらによるモノデプスと比較すると,低テクスチャシーンでは,テクスチャシーンに損なわれることなく,奥行き推定が大幅に改善された。 第2に, アプリケーションの代表回転によるトレーニングは, ピッチとロールの両方において, 期待回転範囲全体の性能を著しく向上させるのに十分であることを示す。 カメラ回転のないテストセットで評価すると,性能が低下しないため,深さ推定がうまく一般化されることを示す。 これらの開発により、複雑な環境に対する単眼深度推定の自己教師付き学習をより広く活用することができる。

Self-supervised deep learning methods have leveraged stereo images for training monocular depth estimation. Although these methods show strong results on outdoor datasets such as KITTI, they do not match performance of supervised methods on indoor environments with camera rotation. Indoor, rotated scenes are common for less constrained applications and pose problems for two reasons: abundance of low texture regions and increased complexity of depth cues for images under rotation. In an effort to extend self-supervised learning to more generalised environments we propose two additions. First, we propose a novel Filled Disparity Loss term that corrects for ambiguity of image reconstruction error loss in textureless regions. Specifically, we interpolate disparity in untextured regions, using the estimated disparity from surrounding textured areas, and use L1 loss to correct the original estimation. Our experiments show that depth estimation is substantially improved on low-texture scenes, without any loss on textured scenes, when compared to Monodepth by Godard et al. Secondly, we show that training with an application's representative rotations, in both pitch and roll, is sufficient to significantly improve performance over the entire range of expected rotation. We demonstrate that depth estimation is successfully generalised as performance is not lost when evaluated on test sets with no camera rotation. Together these developments enable a broader use of self-supervised learning of monocular depth estimation for complex environments.
翻訳日:2021-06-25 15:15:38 公開日:2021-06-24
# 破壊ロバスト性を探る:視覚変換器とMLPミキサーの誘導バイアス

Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers ( http://arxiv.org/abs/2106.13122v1 )

ライセンス: Link先を確認
Katelyn Morrison, Benjamin Gilby, Colton Lipchak, Adam Mattioli, Adriana Kovashka(参考訳) 近年,畳み込みニューラルネットワークの弱点に対処するために,視覚変換器とMLPベースのモデルが開発されている。 この領域で使用される変圧器の新規性と自己着脱機構のため、これらのアーキテクチャがどの程度腐敗にロバストであるかは定かではない。 データ拡張は、モデルが汚職に対して堅牢であることには不可欠であると主張する研究もあるが、アーキテクチャが汚職に対する堅牢性に与える影響について検討する。 視覚トランスフォーマーアーキテクチャは本質的にResNet-50やMLP-Mixersよりも堅牢である。 また、ResNet-50の5倍のパラメータを持つ視覚変換器は、より多くの形状バイアスを持つことがわかった。 私たちのコードは再現できます。

Recently, vision transformers and MLP-based models have been developed in order to address some of the prevalent weaknesses in convolutional neural networks. Due to the novelty of transformers being used in this domain along with the self-attention mechanism, it remains unclear to what degree these architectures are robust to corruptions. Despite some works proposing that data augmentation remains essential for a model to be robust against corruptions, we propose to explore the impact that the architecture has on corruption robustness. We find that vision transformer architectures are inherently more robust to corruptions than the ResNet-50 and MLP-Mixers. We also find that vision transformers with 5 times fewer parameters than a ResNet-50 have more shape bias. Our code is available to reproduce.
翻訳日:2021-06-25 15:15:12 公開日:2021-06-24
# 完全な解釈可能なディープニューラルネットワークに向けて:まだあるか?

Towards Fully Interpretable Deep Neural Networks: Are We There Yet? ( http://arxiv.org/abs/2106.13164v1 )

ライセンス: Link先を確認
Sandareka Wickramanayake, Wynne Hsu, Mong Li Lee(参考訳) 優れたパフォーマンスにもかかわらず、Deep Neural Networks(DNN)は、人工知能(AI)システムに対するユーザの信頼を妨げるブラックボックスとして振る舞う。 ブラックボックスDNNのオープンに関する研究は、ポストホック法と本質的に解釈可能なDNNに大きく分類することができる。 ポストホックな解釈法に関する多くの調査が行われてきたが、本質的に解釈可能なdnnへの取り組みは少ない。 本稿では,畳み込みニューラルネットワーク(CNN)に着目し,本質的な解釈可能性を持つDNNの開発手法について述べる。 目的は、異なる解釈要求を満たすことができる完全に解釈可能なDNNへの現在の進歩を理解することである。 最後に、現在の作業のギャップを特定し、潜在的研究方向性を提案する。

Despite the remarkable performance, Deep Neural Networks (DNNs) behave as black-boxes hindering user trust in Artificial Intelligence (AI) systems. Research on opening black-box DNN can be broadly categorized into post-hoc methods and inherently interpretable DNNs. While many surveys have been conducted on post-hoc interpretation methods, little effort is devoted to inherently interpretable DNNs. This paper provides a review of existing methods to develop DNNs with intrinsic interpretability, with a focus on Convolutional Neural Networks (CNNs). The aim is to understand the current progress towards fully interpretable DNNs that can cater to different interpretation requirements. Finally, we identify gaps in current work and suggest potential research directions.
翻訳日:2021-06-25 15:14:58 公開日:2021-06-24
# FitVid:Pixel-Levelビデオ予測のオーバーフィッティング

FitVid: Overfitting in Pixel-Level Video Prediction ( http://arxiv.org/abs/2106.13195v1 )

ライセンス: Link先を確認
Mohammad Babaeizadeh, Mohammad Taghi Saffar, Suraj Nair, Sergey Levine, Chelsea Finn, Dumitru Erhan(参考訳) 次に何が起こるかを予測するエージェントは、追加のトレーニングなしで計画することで、さまざまなタスクを実行することができる。 さらに、そのようなエージェントは現実世界の複雑なダイナミクスを内部的に表現することができ、様々な視覚的知覚タスクに有用な表現を得ることができる。 これにより、観測された過去と潜在的に将来の行動に基づいて、ビデオの将来のフレームを予測することができる。 既存のビデオ予測モデルは、単純な狭いベンチマークで有望な結果を示しているが、より複雑なダイナミクスやより広いドメインを持つ実際のデータセットで低品質の予測を生成する。 トレーニングデータに不適合なことが、低品質な予測の主要な原因の1つであるという証拠が増えている。 本稿では,現在の映像モデルにおけるパラメータの非効率使用が,不適合の主な原因であると主張する。 そこで本研究では,共通ベンチマークを過大に満たしながら,現在の最先端モデルと同様のパラメータ数を持つfitvidという新しいアーキテクチャを提案する。 オーバーフィッティングの結果を分析し、トレーニングデータを繰り返して高品質なアウトプットを生成するような予期せぬ結果を生み出す方法や、既存の画像拡張技術を用いてどのように軽減できるかを示す。 その結果、FitVidは4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。

An agent that is capable of predicting what happens next can perform a variety of tasks through planning with no additional training. Furthermore, such an agent can internally represent the complex dynamics of the real-world and therefore can acquire a representation useful for a variety of visual perception tasks. This makes predicting the future frames of a video, conditioned on the observed past and potentially future actions, an interesting task which remains exceptionally challenging despite many recent advances. Existing video prediction models have shown promising results on simple narrow benchmarks but they generate low quality predictions on real-life datasets with more complicated dynamics or broader domain. There is a growing body of evidence that underfitting on the training data is one of the primary causes for the low quality predictions. In this paper, we argue that the inefficient use of parameters in the current video models is the main reason for underfitting. Therefore, we introduce a new architecture, named FitVid, which is capable of severe overfitting on the common benchmarks while having similar parameter count as the current state-of-the-art models. We analyze the consequences of overfitting, illustrating how it can produce unexpected outcomes such as generating high quality output by repeating the training data, and how it can be mitigated using existing image augmentation techniques. As a result, FitVid outperforms the current state-of-the-art models across four different video prediction benchmarks on four different metrics.
翻訳日:2021-06-25 15:14:48 公開日:2021-06-24
# TagRuler: デモによるスパンレベルデータプログラミングのためのインタラクティブツール

TagRuler: Interactive Tool for Span-Level Data Programming by Demonstration ( http://arxiv.org/abs/2106.12767v1 )

ライセンス: Link先を確認
Dongjin Choi and Sara Evensen and \c{C}a\u{g}atay Demiralp and Estevam Hruschka(参考訳) 機械学習研究の分野での急速な発展にもかかわらず、教師付き学習のための高品質なラベルの収集は多くのアプリケーションにとってボトルネックとなっている。 この難しさは、NLPタスクの最先端モデルがより深く複雑になり、微調整に必要となるトレーニングデータの量が増えつつあるという事実によって悪化する。 データプログラミングを含む弱監督手法は、この問題に対処し、ノイズの多いラベルソースを使用してラベル収集のコストを削減する。 しかし、最近までデータプログラミングはプログラミングの仕方を知っているユーザーにしかアクセスできなかった。 このギャップを埋めるために、実証フレームワークによるデータプログラミングが提案され、ドメインエキスパートがラベル付けしたいくつかの例に基づいたラベル付け関数の自動生成が容易になった。 このフレームワークは、文書分類のための高精度なラベリングモデルの生成に成功している。 本研究では DPBD フレームワークを,最も時間を要する NLP ラベルタスクの1つであるスパンレベルアノテーションタスクに拡張する。 私たちはTagRulerという新しいツールを構築しました。アノテータがプログラミングなしでスパンレベルのラベリング関数を簡単に構築できるようにし、異なるラベリングモデルとアクティブな学習戦略間のトレードオフを探索できるようにします。 提案手法を用いて,異なるスパンレベルのアノテーションタスクに対する手作業によるラベリングと比較して,アノテータが高いf1スコアを達成できることを実験的に実証した。

Despite rapid developments in the field of machine learning research, collecting high-quality labels for supervised learning remains a bottleneck for many applications. This difficulty is exacerbated by the fact that state-of-the-art models for NLP tasks are becoming deeper and more complex, often increasing the amount of training data required even for fine-tuning. Weak supervision methods, including data programming, address this problem and reduce the cost of label collection by using noisy label sources for supervision. However, until recently, data programming was only accessible to users who knew how to program. To bridge this gap, the Data Programming by Demonstration framework was proposed to facilitate the automatic creation of labeling functions based on a few examples labeled by a domain expert. This framework has proven successful for generating high-accuracy labeling models for document classification. In this work, we extend the DPBD framework to span-level annotation tasks, arguably one of the most time-consuming NLP labeling tasks. We built a novel tool, TagRuler, that makes it easy for annotators to build span-level labeling functions without programming and encourages them to explore trade-offs between different labeling models and active learning strategies. We empirically demonstrated that an annotator could achieve a higher F1 score using the proposed tool compared to manual labeling for different span-level annotation tasks.
翻訳日:2021-06-25 15:14:27 公開日:2021-06-24
# 低リソース高表現性音声のための明示的持続時間モデルを用いた非自己回帰tt

Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech ( http://arxiv.org/abs/2106.12896v1 )

ライセンス: Link先を確認
Raahil Shah, Kamil Pokora, Abdelhamid Ezzerg, Viacheslav Klimkov, Goeric Huybrechts, Bartosz Putrycz, Daniel Korzekwa, Thomas Merritt(参考訳) 最近のニューラルテキスト音声(TTS)アプローチは高品質な音声を生成するが、通常はターゲット話者からの大量の録音を必要とする。 先行研究では,高品質ttを生成するための3段階の手法を提案し,トレーニングに必要なデータ量を大幅に削減した。 しかし, この手法では, 高い表現力を持つ音声に対して, 自然性レベルにおける天井効果が認められている。 本稿では,ターゲット話者から15分間の音声データを用いて,高い表現力を持つTS音声を構築する手法を提案する。 現在の最先端のアプローチと比較して,提案手法では音声の自然性が23.3%,話者の類似性が16.3%向上している。 さらに,15分間の話者データを用いて,tacotron2ベースのフルデータモデル(約10時間)の自然性と話者の類似性を一致させた。 1) 自己回帰型注意型ttsモデルから, 注意を外部持続時間モデルに置き換えた非自己回帰型モデルに変更すること, 2) 追加条件付き生成敵ネットワーク(cgan)ベースの微調整ステップを提案する。

Whilst recent neural text-to-speech (TTS) approaches produce high-quality speech, they typically require a large amount of recordings from the target speaker. In previous work, a 3-step method was proposed to generate high-quality TTS while greatly reducing the amount of data required for training. However, we have observed a ceiling effect in the level of naturalness achievable for highly expressive voices when using this approach. In this paper, we present a method for building highly expressive TTS voices with as little as 15 minutes of speech data from the target speaker. Compared to the current state-of-the-art approach, our proposed improvements close the gap to recordings by 23.3% for naturalness of speech and by 16.3% for speaker similarity. Further, we match the naturalness and speaker similarity of a Tacotron2-based full-data (~10 hours) model using only 15 minutes of target speaker data, whereas with 30 minutes or more, we significantly outperform it. The following improvements are proposed: 1) changing from an autoregressive, attention-based TTS model to a non-autoregressive model replacing attention with an external duration model and 2) an additional Conditional Generative Adversarial Network (cGAN) based fine-tuning step.
翻訳日:2021-06-25 15:14:04 公開日:2021-06-24
# RikoNet: 新しいアニメレコメンデーションエンジン

RikoNet: A Novel Anime Recommendation Engine ( http://arxiv.org/abs/2106.12970v1 )

ライセンス: Link先を確認
Badal Soni, Debangan Thakuria, Nilutpal Nath, Navarun Das and Bhaskarananda Boro(参考訳) アニメは今日、特に若い世代の間で非常に好評である。 利用可能な番組のジャンルが多々ある中、エンターテイメント業界のこのニッチなセクションに、ますます多くの人々が惹きつけている。 近年,アニメが主流となってきており,ユーザの気遣いや視聴習慣に関する情報が不足している。 そのため、この比較的目立たないエンタテインメントメディアのレコメンデーションエンジンを構築するのは難しい作業である。 本研究では,新たなアニメジャンルやタイトルを探求する手段として,レコメンデーションシステムとして機能するハイブリッドレコメンデーションシステムを構築した。 我々は,この分野の一般的な傾向とユーザの監視習慣を分析し,効果的なソリューションを考案した。 我々のソリューションは、評価の予測と埋め込みの生成のタスクにディープオートエンコーダを使用します。 その後,アニメタイトルの埋め込みを用いてクラスタを形成した。 これらのクラスターは類似性のあるアニメの検索空間を形成し、ユーザーが好んだアニメに似たアニメを見つけるのに用いられる。 この方法は予測された評価と組み合わせて、新しいハイブリッドフィルタを形成する。 本稿では、このアイデアを実証し、実装されたモデルの性能を既存の最先端技術と比較する。

Anime is quite well-received today, especially among the younger generations. With many genres of available shows, more and more people are increasingly getting attracted to this niche section of the entertainment industry. As anime has recently garnered mainstream attention, we have insufficient information regarding users' penchant and watching habits. Therefore, it is an uphill task to build a recommendation engine for this relatively obscure entertainment medium. In this attempt, we have built a novel hybrid recommendation system that could act both as a recommendation system and as a means of exploring new anime genres and titles. We have analyzed the general trends in this field and the users' watching habits for coming up with our efficacious solution. Our solution employs deep autoencoders for the tasks of predicting ratings and generating embeddings. Following this, we formed clusters using the embeddings of the anime titles. These clusters form the search space for anime with similarities and are used to find anime similar to the ones liked and disliked by the user. This method, combined with the predicted ratings, forms the novel hybrid filter. In this article, we have demonstrated this idea and compared the performance of our implemented model with the existing state-of-the-art techniques.
翻訳日:2021-06-25 15:13:41 公開日:2021-06-24
# Fea2Fea: グラフニューラルネットワークによる構造的特徴相関の探索

Fea2Fea: Exploring Structural Feature Correlations via Graph Neural Networks ( http://arxiv.org/abs/2106.13061v1 )

ライセンス: Link先を確認
Jiaqing Xie, Rex Ying(参考訳) 構造的特徴はグラフデータセットの重要な特徴である。 しかし、共分散に基づく特徴の相関分析はいくつかあるが、グラフニューラルネットワークモデルを用いたグラフ上の構造的特徴相関の探索には関連性がない。 本稿では,低次元空間における特徴量予測パイプライン(fea2fea)に着目し,グラフニューラルネットワークに基づく構造的特徴量相関に関する予備結果について検討する。 その結果, 構造的特徴の間には高い相関関係があることが示唆された。 グラフニューラルネットワークによってフィルタリングされる初期ノード機能と冗長な機能の組み合わせにより、グラフデータセットの分類精度が向上した。 特徴間の埋め込みを結合する結合法の違いを比較し,最も単純な方法が最適であることを示す。 合成幾何グラフを一般化し、2つの構造的特徴間の予測困難に関する結果を証明する。

Structural features are important features in graph datasets. However, although there are some correlation analysis of features based on covariance, there is no relevant research on exploring structural feature correlation on graphs with graph neural network based models. In this paper, we introduce graph feature to feature (Fea2Fea) prediction pipelines in a low dimensional space to explore some preliminary results on structural feature correlation, which is based on graph neural network. The results show that there exists high correlation between some of the structural features. A redundant feature combination with initial node features, which is filtered by graph neural network has improved its classification accuracy in some graph datasets. We compare the difference between concatenation methods on connecting embeddings between features and show that the simplest is the best. We generalize on the synthetic geometric graphs and certify the results on prediction difficulty between two structural features.
翻訳日:2021-06-25 15:13:26 公開日:2021-06-24
# 潜在空間コロケーションによるモデルベース強化学習

Model-Based Reinforcement Learning via Latent-Space Collocation ( http://arxiv.org/abs/2106.13229v1 )

ライセンス: Link先を確認
Oleh Rybkin, Chuning Zhu, Anusha Nagabandi, Kostas Daniilidis, Igor Mordatch, Sergey Levine(参考訳) 画像などの生の高次元観測のみを利用して将来計画する能力は、自律エージェントに幅広い能力を与えることができる。 将来の行動を直接計画する視覚モデルに基づく強化学習(rl)手法は、短期的な推論のみを必要とするタスクに対して印象的な結果を示すが、これらの手法は時間的に拡張されたタスクに支障をきたす。 我々は、アクションの効果が時間とともに大きく重なり、最適化が困難であるため、アクションではなく状態のシーケンスを計画することで、長いホリゾンタスクの解決が容易であると主張する。 これを実現するために、最適制御文学における長い水平タスクに対する良い結果を示すコロケーションの概念を導き、学習された潜在状態空間モデルを利用して画像ベースの設定に適応する。 得られた潜在コロケーション法(LatCo)は潜在状態の軌跡を最適化し、より少ない報酬と長期目標を持つタスクにおける視覚モデルに基づくRLの撮影方法を改善する。 ビデオとコードはhttps://orybkin.gith ub.io/latco/。

The ability to plan into the future while utilizing only raw high-dimensional observations, such as images, can provide autonomous agents with broad capabilities. Visual model-based reinforcement learning (RL) methods that plan future actions directly have shown impressive results on tasks that require only short-horizon reasoning, however, these methods struggle on temporally extended tasks. We argue that it is easier to solve long-horizon tasks by planning sequences of states rather than just actions, as the effects of actions greatly compound over time and are harder to optimize. To achieve this, we draw on the idea of collocation, which has shown good results on long-horizon tasks in optimal control literature, and adapt it to the image-based setting by utilizing learned latent state space models. The resulting latent collocation method (LatCo) optimizes trajectories of latent states, which improves over previously proposed shooting methods for visual model-based RL on tasks with sparse rewards and long-term goals. Videos and code at https://orybkin.gith ub.io/latco/.
翻訳日:2021-06-25 15:13:14 公開日:2021-06-24
# 教師なし機械学習のためのテンソルネットワーク

Tensor networks for unsupervised machine learning ( http://arxiv.org/abs/2106.12974v1 )

ライセンス: Link先を確認
Jing Liu, Sujie Li, Jiang Zhang, Pan Zhang(参考訳) 高次元データの合同分布のモデル化は教師なし機械学習の中心的な課題である。 近年, テンソルネットワークに基づく学習モデル開発への関心が高まっており, エンタングルメント特性を用いた表現力の理論的理解の利点や, 古典計算と量子計算を接続するブリッジとして注目されている。 しかし、既存のテンソルネットワークに基づく教師なしモデルは、その性能は制限されたボルツマンマシンやニューラルネットワークのような標準モデルよりもはるかに悪いため、原理の証明としてのみ機能する。 本稿では,量子多体物理学の行列状態と機械学習の自己回帰モデルを組み合わせたテンソルネットワークモデルであるAutoregressive Matrix Product States(AMPS)を提案する。 このモデルは正規化確率とアンバイアスサンプリングの正確な計算と表現力の明確な理論的理解を楽しむ。 本稿では,合成および実世界のデータ生成モデルと統計物理学における強化学習の2つの応用を用いて,モデルの性能を実証する。 大規模数値実験により,提案モデルが既存のテンソルネットワークモデルや制限ボルツマンマシンを大きく上回り,最先端のニューラルネットワークモデルと競合することを示した。

Modeling the joint distribution of high-dimensional data is a central task in unsupervised machine learning. In recent years, many interests have been attracted to developing learning models based on tensor networks, which have advantages of theoretical understandings of the expressive power using entanglement properties, and as a bridge connecting the classical computation and the quantum computation. Despite the great potential, however, existing tensor-network-based unsupervised models only work as a proof of principle, as their performances are much worse than the standard models such as the restricted Boltzmann machines and neural networks. In this work, we present the Autoregressive Matrix Product States (AMPS), a tensor-network-based model combining the matrix product states from quantum many-body physics and the autoregressive models from machine learning. The model enjoys exact calculation of normalized probability and unbiased sampling, as well as a clear theoretical understanding of expressive power. We demonstrate the performance of our model using two applications, the generative modeling on synthetic and real-world data, and the reinforcement learning in statistical physics. Using extensive numerical experiments, we show that the proposed model significantly outperforms the existing tensor-network-based models and the restricted Boltzmann machines, and is competitive with the state-of-the-art neural network models.
翻訳日:2021-06-25 15:12:54 公開日:2021-06-24
# 深層学習のための医用画像データセットの体系的収集

A Systematic Collection of Medical Image Datasets for Deep Learning ( http://arxiv.org/abs/2106.12864v1 )

ライセンス: Link先を確認
Johann Li, Guangming Zhu, Cong Hua, Mingtao Feng, BasheerBennamoun, Ping Li, Xiaoyuan Lu, Juan Song, Peiyi Shen, Xu Xu, Lin Mei, Liang Zhang, Syed Afaq Ali Shah, Mohammed Bennamoun(参考訳) 医療やその他の分野における人工知能(AI)による驚くべき成功は、AIが人間のようなパフォーマンスを達成することを証明している。 しかし、成功は常に挑戦を伴う。 ディープラーニングアルゴリズムはデータに依存し、トレーニングのために大きなデータセットを必要とする。 医用画像領域におけるデータ不足は、深層学習を医用画像解析に応用するためのボトルネックとなる。 医用画像の取得、注釈、分析は費用がかかり、それらの使用は倫理的制約によって制限される。 人的専門知識や資金といった多くのリソースも必要です。 これにより、非医学研究者が有用で大規模な医療データにアクセスすることが困難になる。 そこで本論文は,可能な限り包括的に,深層学習研究の課題と関連する医用画像データセットのコレクションを提供する。 2013年から2020年にかけて主に報告された約300のデータセットと課題の情報を収集し、頭部と頸部、胸部と腹部、病理と血液、および‘others’の4つのカテゴリに分類した。 本研究の目的は,1) 臨床画像解析のためのデータセットの発見に有効な,最も最新かつ完全なリストを提供すること,2) 関連データセットにおける手法の性能と堅牢性を検証し評価する方法論を研究者に案内すること,3) 関連する医療トピックに関するアルゴリズムに'route'を提供すること,および,リーダーボードに挑戦すること,の3つである。

The astounding success made by artificial intelligence (AI) in healthcare and other fields proves that AI can achieve human-like performance. However, success always comes with challenges. Deep learning algorithms are data-dependent and require large datasets for training. The lack of data in the medical imaging field creates a bottleneck for the application of deep learning to medical image analysis. Medical image acquisition, annotation, and analysis are costly, and their usage is constrained by ethical restrictions. They also require many resources, such as human expertise and funding. That makes it difficult for non-medical researchers to have access to useful and large medical data. Thus, as comprehensive as possible, this paper provides a collection of medical image datasets with their associated challenges for deep learning research. We have collected information of around three hundred datasets and challenges mainly reported between 2013 and 2020 and categorized them into four categories: head & neck, chest & abdomen, pathology & blood, and ``others''. Our paper has three purposes: 1) to provide a most up to date and complete list that can be used as a universal reference to easily find the datasets for clinical image analysis, 2) to guide researchers on the methodology to test and evaluate their methods' performance and robustness on relevant datasets, 3) to provide a ``route'' to relevant algorithms for the relevant medical topics, and challenge leaderboards.
翻訳日:2021-06-25 15:12:33 公開日:2021-06-24
# ニューラルイメージ圧縮のためのレート歪み特性モデリング

Rate Distortion Characteristic Modeling for Neural Image Compression ( http://arxiv.org/abs/2106.12954v1 )

ライセンス: Link先を確認
Chuanmin Jia, Ziqing Ge, Shanshe Wang, Siwei Ma, Wen Gao(参考訳) エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。 しかし、r-d空間において異なる点に到達するために異なるモデルが訓練される必要がある。 本稿では,NICにおけるR-D特性解析とモデリングの問題点について考察する。 深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数を定式化する。 このように、連続ビットレートポイントは、単一のトレーニングネットワークを介してそのようなモデルを活用することでエレガントに実現できる。 本稿では,対象のビットレートと自動エンコーダの潜在変数のバイナリ表現との関係を学習するためのプラグインモジュールを提案する。 さらに、符号化パラメータ$\lambda$の関数としてNICの速度特性と歪み特性をモデル化する。 提案手法は適用が容易であり, nicの実用化に資する固定レート符号化手法と競合する符号化性能が得られることを示す。 さらに,単一ネットワークを用いたビットレート誤差の少ないnicレート制御に提案モデルを適用することができた。

End-to-end optimization capability offers neural image compression (NIC) superior lossy compression performance. However, distinct models are required to be trained to reach different points in the rate-distortion (R-D) space. In this paper, we consider the problem of R-D characteristic analysis and modeling for NIC. We make efforts to formulate the essential mathematical functions to describe the R-D behavior of NIC using deep network and statistical modeling. Thus continuous bit-rate points could be elegantly realized by leveraging such model via a single trained network. In this regard, we propose a plugin-in module to learn the relationship between the target bit-rate and the binary representation for the latent variable of auto-encoder. Furthermore, we model the rate and distortion characteristic of NIC as a function of the coding parameter $\lambda$ respectively. Our experiments show our proposed method is easy to adopt and obtains competitive coding performance with fixed-rate coding approaches, which would benefit the practical deployment of NIC. In addition, the proposed model could be applied to NIC rate control with limited bit-rate error using a single network.
翻訳日:2021-06-25 15:11:48 公開日:2021-06-24
# 多モード構造MRIによる拡散重み画像の方向合成のためのQ空間条件付き翻訳ネットワーク

Q-space Conditioned Translation Networks for Directional Synthesis of Diffusion Weighted Images from Multi-modal Structural MRI ( http://arxiv.org/abs/2106.13188v1 )

ライセンス: Link先を確認
Mengwei Ren, Heejong Kim, Neel Dey, Guido Gerig(参考訳) 拡散MRIモデリングにおける最近のディープラーニングアプローチは、疎サンプリングDWIから直接ミクロ組織指標を予測することによって、密度サンプリング拡散強調画像(DWI)の必要性を回避する。 しかし、トレーニングと再構築の間に静的$q$-spaceサンプリングの非現実的な仮定を暗黙的に行う。 さらに、このような手法は、マイクロ構造指標やトラクトグラフィーの推定を含む使用法として、可変サンプルDWIの下流での使用を制限することができる。 得られた構造画像(例えば、B0, T1, T2)を任意の$q$-spaceサンプリングで合成し、高品質なDWI合成のための生成逆変換フレームワークを提案する。 我々の翻訳ネットワークは、連続的な$q$-space情報に基づく内部表現を線形に変調し、固定サンプリングスキームの必要性をなくす。 さらに, この手法により, 疎サンプルDWIでは特に重要となる, 任意のサブサンプリングDWIから高品質な微構造マップを下流で推定することができる。 近年,提案手法により,合成画像から推定されるスカラー微細構造指標の精度により,dwi合成精度の向上と下流ユーティリティの高信頼化が実現されている。 コードはhttps://github.com/m engweiren/q-space-co nditioned-dwi- synthesisで入手できる。

Current deep learning approaches for diffusion MRI modeling circumvent the need for densely-sampled diffusion-weighted images (DWIs) by directly predicting microstructural indices from sparsely-sampled DWIs. However, they implicitly make unrealistic assumptions of static $q$-space sampling during training and reconstruction. Further, such approaches can restrict downstream usage of variably sampled DWIs for usages including the estimation of microstructural indices or tractography. We propose a generative adversarial translation framework for high-quality DWI synthesis with arbitrary $q$-space sampling given commonly acquired structural images (e.g., B0, T1, T2). Our translation network linearly modulates its internal representations conditioned on continuous $q$-space information, thus removing the need for fixed sampling schemes. Moreover, this approach enables downstream estimation of high-quality microstructural maps from arbitrarily subsampled DWIs, which may be particularly important in cases with sparsely sampled DWIs. Across several recent methodologies, the proposed approach yields improved DWI synthesis accuracy and fidelity with enhanced downstream utility as quantified by the accuracy of scalar microstructure indices estimated from the synthesized images. Code is available at https://github.com/m engweiren/q-space-co nditioned-dwi-synthe sis.
翻訳日:2021-06-25 15:11:31 公開日:2021-06-24
# スパース信号のマルチリファレンスアライメント、一様不確かさ原理とベルトウェイ問題

Multi-Reference Alignment for sparse signals, Uniform Uncertainty Principles and the Beltway Problem ( http://arxiv.org/abs/2106.12996v1 )

ライセンス: Link先を確認
Subhro Ghosh and Philippe Rigollet(参考訳) 低温電子顕微鏡(cryo-EM)のような最先端の応用によって動機付けられたマルチ参照アライメント(MRA)モデルは、アイソメトリーのグループの潜時動作の下で画像の繰り返しの測定から未知の信号の学習を伴っている。 かなりの関心が寄せられているにもかかわらず、このモデルにおける推定速度を理解するための明確な図が最近になって現れ、特にアプリケーションに非常に関係のある高雑音のシステムである$\sigma \gg 1$ において顕著である。 最近の研究では、フーリエ変換がフルサポートを持つある信号に対して、通常のモデルで発生する従来の$\sigma^2$とは対照的に、$\sigma^6$という漸近的なサンプル複雑性が明らかにされている。 これらの結果は、多くの場合、より優れたサンプルの複雑さが達成できるMRAモデルに関する変動を調査するきっかけとなった。 本稿では,古典的MRAモデルにおいても,emph{sparse}信号は中間的な$\sigma^4$サンプル複雑性を示すことを示す。 本研究は,応用数学におけるmra推定問題と2つの古典的話題,組合せ最適化による \textit{beltway problem} と調和解析による \textit{uniform uncertainty principles} の関連を探究し,活用する。

Motivated by cutting-edge applications like cryo-electron microscopy (cryo-EM), the Multi-Reference Alignment (MRA) model entails the learning of an unknown signal from repeated measurements of its images under the latent action of a group of isometries and additive noise of magnitude $\sigma$. Despite significant interest, a clear picture for understanding rates of estimation in this model has emerged only recently, particularly in the high-noise regime $\sigma \gg 1$ that is highly relevant in applications. Recent investigations have revealed a remarkable asymptotic sample complexity of order $\sigma^6$ for certain signals whose Fourier transforms have full support, in stark contrast to the traditional $\sigma^2$ that arise in regular models. Often prohibitively large in practice, these results have prompted the investigation of variations around the MRA model where better sample complexity may be achieved. In this paper, we show that \emph{sparse} signals exhibit an intermediate $\sigma^4$ sample complexity even in the classical MRA model. Our results explore and exploit connections of the MRA estimation problem with two classical topics in applied mathematics: the \textit{beltway problem} from combinatorial optimization, and \textit{uniform uncertainty principles} from harmonic analysis.
翻訳日:2021-06-25 15:11:12 公開日:2021-06-24
# 教師なし文字レベル変換のためのニューラルネットワークと有限状態モデルの比較誤差解析

Comparative Error Analysis in Neural and Finite-state Models for Unsupervised Character-level Transduction ( http://arxiv.org/abs/2106.12698v1 )

ライセンス: Link先を確認
Maria Ryskina, Eduard Hovy, Taylor Berg-Kirkpatrick, Matthew R. Gormley(参考訳) 伝統的に、文字レベルのトランスダクション問題は、基礎となるプロセスの構造的および言語的知識を符号化するために設計された有限状態モデルで解決されている。 教師なしの学習シナリオに注目して,2つのモデルクラスを並べて比較した結果,同等のパフォーマンスを達成しても,異なるタイプのエラーが発生しやすいことがわかった。 2つの教師なしタスクを用いて異なるエラークラスの分布を分析し、非公式にローマ字化されたテキストを言語(ロシア語、アラビア語、カンナダ語)のネイティブスクリプトに変換し、近縁な2つの言語(セルビア語、ボスニア語)間で翻訳する。 最後に,復号時における有限状態モデルとシーケンス・ツー・シーケンスモデルの組み合わせが,出力の量的および質的影響について検討する。

Traditionally, character-level transduction problems have been solved with finite-state models designed to encode structural and linguistic knowledge of the underlying process, whereas recent approaches rely on the power and flexibility of sequence-to-sequence models with attention. Focusing on the less explored unsupervised learning scenario, we compare the two model classes side by side and find that they tend to make different types of errors even when achieving comparable performance. We analyze the distributions of different error classes using two unsupervised tasks as testbeds: converting informally romanized text into the native script of its language (for Russian, Arabic, and Kannada) and translating between a pair of closely related languages (Serbian and Bosnian). Finally, we investigate how combining finite-state and sequence-to-sequence models at decoding time affects the output quantitatively and qualitatively.
翻訳日:2021-06-25 15:10:44 公開日:2021-06-24
# 自動ICD符号化のためのモデリングラベル相関

Modeling Diagnostic Label Correlation for Automatic ICD Coding ( http://arxiv.org/abs/2106.12800v1 )

ライセンス: Link先を確認
Shang-Chi Tsai, Chao-Wei Huang, Yun-Nung Chen(参考訳) 電子健康記録(EHR)に記載されている臨床記録から,多ラベル分類課題として定式化された診断符号の予測は困難である。 ラベルの大きなセット、階層的な依存関係、不均衡なデータなどは、この予測タスクを極めて困難にします。 既存の作業の多くは、ラベル間の依存関係を無視して、ラベルごとにバイナリ予測を構築した。 この問題に対処するために,ラベル相関をキャプチャして自動ICD符号化を改善するための2段階フレームワークを提案する。 具体的には,ラベルセット分布推定器をトレーニングし,ベース予測器によって生成されたラベルセット候補の確率を再評価する。 本稿では,医療用コード予測モジュールとしてラベルセット分布を学習するための最初の試みである。 実験では,提案フレームワークはMIMICベンチマークデータセット上で最高の性能の予測器を改善することができる。 プロジェクトのソースコードはhttps://github.com/M iuLab/ICD-Correlatio nで公開されている。

Given the clinical notes written in electronic health records (EHRs), it is challenging to predict the diagnostic codes which is formulated as a multi-label classification task. The large set of labels, the hierarchical dependency, and the imbalanced data make this prediction task extremely hard. Most existing work built a binary prediction for each label independently, ignoring the dependencies between labels. To address this problem, we propose a two-stage framework to improve automatic ICD coding by capturing the label correlation. Specifically, we train a label set distribution estimator to rescore the probability of each label set candidate generated by a base predictor. This paper is the first attempt at learning the label set distribution as a reranking module for medical code prediction. In the experiments, our proposed framework is able to improve upon best-performing predictors on the benchmark MIMIC datasets. The source code of this project is available at https://github.com/M iuLab/ICD-Correlatio n.
翻訳日:2021-06-25 15:10:28 公開日:2021-06-24
# OKGIT: 暗黙の型によるオープン知識グラフリンク予測

OKGIT: Open Knowledge Graph Link Prediction with Implicit Types ( http://arxiv.org/abs/2106.12806v1 )

ライセンス: Link先を確認
Chandrahas, Partha Pratim Talukdar(参考訳) Open Knowledge Graphs (OpenKG) は、OpenIEツールを使用してコーパスから抽出された(tesla, return to, New York)三つ組(頭名詞句、関係名詞句、尾名詞句)の集合を指す。 OpenKGはドメインのブートストラップが容易だが、非常に疎いため、エンドタスクで直接使用することはできない。 したがって、新しい事実、すなわちリンク予測を予測するタスクは、テキスト理解、質問応答、web検索クエリの推薦といった下流タスクでこれらのグラフを使用する際に重要なステップとなる。 OpenKGsの埋め込み学習はリンク予測のアプローチのひとつで、最近注目を集めている。 しかし、注意深い検討の結果、現在のOpenKGリンク予測アルゴリズムは、与えられた名詞と関係句の非互換な型を持つ名詞句(NP)をしばしば予測することがわかった。 この課題に対処し、新しい型適合スコアと型正規化を用いたOpenKGリンク予測を改善するOKGITを提案する。 複数のデータセットに対する広範な実験により,提案手法はリンク予測タスクにおいてタイプ互換のNPを生成しつつ,最先端の性能を実現する。

Open Knowledge Graphs (OpenKG) refer to a set of (head noun phrase, relation phrase, tail noun phrase) triples such as (tesla, return to, new york) extracted from a corpus using OpenIE tools. While OpenKGs are easy to bootstrap for a domain, they are very sparse and far from being directly usable in an end task. Therefore, the task of predicting new facts, i.e., link prediction, becomes an important step while using these graphs in downstream tasks such as text comprehension, question answering, and web search query recommendation. Learning embeddings for OpenKGs is one approach for link prediction that has received some attention lately. However, on careful examination, we found that current OpenKG link prediction algorithms often predict noun phrases (NPs) with incompatible types for given noun and relation phrases. We address this problem in this work and propose OKGIT that improves OpenKG link prediction using novel type compatibility score and type regularization. With extensive experiments on multiple datasets, we show that the proposed method achieves state-of-the-art performance while producing type compatible NPs in the link prediction task.
翻訳日:2021-06-25 15:10:13 公開日:2021-06-24
# オンライン支援フォーラムにおける自己認識型カウンセリングエキスパートの探索

Exploring Self-Identified Counseling Expertise in Online Support Forums ( http://arxiv.org/abs/2106.12976v1 )

ライセンス: Link先を確認
Allison Lahnala, Yuntian Zhao, Charles Welch, Jonathan K. Kummerfeld, Lawrence An, Kenneth Resnicow, Rada Mihalcea, Ver\'onica P\'erez-Rosas(参考訳) オンラインヘルスフォーラムに参加する人が増えているため、受け取ったアドバイスの質を理解することが重要である。 本稿では,メンタルヘルスに関する投稿を援助する上での専門知識の役割について考察する。 本研究では,(1)ピアとの相互作用,(2)自己識別型メンタルヘルス専門家との相互作用の差異について検討する。 まず、分類器がこれらの2つのグループを区別できることを示し、それらの言語使用が実際に異なることを示す。 この違いを理解するために,本研究では,そのコメントが言語的側面だけでなく,支配的な言語や言語的スタイルのマッチングにも関与するかどうかなど,係り受けの側面に対処するいくつかの分析を行う。 我々の研究は、医療専門家がソーシャルネットワークで健康情報や支援をどう扱うかを理解するための開発努力に貢献する。 より広義には、オンラインコミュニティにおける支援的なエンゲージメントを育むインタラクションのスタイルをより深く理解するためのステップである。

A growing number of people engage in online health forums, making it important to understand the quality of the advice they receive. In this paper, we explore the role of expertise in responses provided to help-seeking posts regarding mental health. We study the differences between (1) interactions with peers; and (2) interactions with self-identified mental health professionals. First, we show that a classifier can distinguish between these two groups, indicating that their language use does in fact differ. To understand this difference, we perform several analyses addressing engagement aspects, including whether their comments engage the support-seeker further as well as linguistic aspects, such as dominant language and linguistic style matching. Our work contributes toward the developing efforts of understanding how health experts engage with health information- and support-seekers in social networks. More broadly, it is a step toward a deeper understanding of the styles of interactions that cultivate supportive engagement in online communities.
翻訳日:2021-06-25 15:09:52 公開日:2021-06-24
# EUDグラフを木に分割する - 迅速かつクラッチなアプローチ

Splitting EUD graphs into trees: A quick and clatty approach ( http://arxiv.org/abs/2106.13155v1 )

ライセンス: Link先を確認
Mark Anderson and Carlos G\'omez Rodr\'iguez(参考訳) We present the system submit from the FASTPARSE team for the EUD Shared Task at IWPT 2021。 私たちは昨年、効率性に焦点を当ててその仕事に携わった。 今年は、限られた時間予算で新しいアイデアを試すことに注力しました。 本システムは,言語基準に基づいて,EUDグラフを複数の木に分割する。 これらの木をシーケンシャルラベル構文解析器を用いて予測し, eud グラフに合成する。 結果は比較的貧弱であったが、完全な災害ではなかったため、システムの粗い端を磨くことで改善できたと考えられる。

We present the system submission from the FASTPARSE team for the EUD Shared Task at IWPT 2021. We engaged in the task last year by focusing on efficiency. This year we have focused on experimenting with new ideas on a limited time budget. Our system is based on splitting the EUD graph into several trees, based on linguistic criteria. We predict these trees using a sequence-labelling parser and combine them into an EUD graph. The results were relatively poor, although not a total disaster and could probably be improved with some polishing of the system's rough edges.
翻訳日:2021-06-25 15:09:36 公開日:2021-06-24
# 長期自己紹介によるビデオ超解像

Video Super-Resolution with Long-Term Self-Exemplars ( http://arxiv.org/abs/2106.12778v1 )

ライセンス: Link先を確認
Guotao Meng, Yue Wu, Sijin Li, Qifeng Chen(参考訳) 既存のビデオスーパーレゾリューション手法では、いくつかの隣接するフレームを使用して、各フレームの高解像度画像を生成することが多い。 しかし、遠隔フレーム間の冗長な情報はこれらの方法では十分に活用されておらず、異なるスケールで同じインスタンスのパッチが遠隔フレームにまたがって現れる。 そこで本研究では,遠隔フレームにまたがる類似のパッチ(自己紹介)を活用する,長期的クロススケールアグリゲーションを用いたビデオ超解像手法を提案する。 我々のモデルは、類似したパッチから派生した特徴を融合するマルチ参照アライメントモジュールで構成されており、高品質な超解像を実現するために、遠隔参照の特徴を融合する。 また,参照型超解像のための新しい実用的な学習戦略を提案する。 提案手法の性能を評価するために,収集したcarcamデータセットとwaymoオープンデータセットについて広範な実験を行い,本手法が最先端手法を上回ることを示す。 ソースコードは公開される予定だ。

Existing video super-resolution methods often utilize a few neighboring frames to generate a higher-resolution image for each frame. However, the redundant information between distant frames has not been fully exploited in these methods: corresponding patches of the same instance appear across distant frames at different scales. Based on this observation, we propose a video super-resolution method with long-term cross-scale aggregation that leverages similar patches (self-exemplars) across distant frames. Our model also consists of a multi-reference alignment module to fuse the features derived from similar patches: we fuse the features of distant references to perform high-quality super-resolution. We also propose a novel and practical training strategy for referenced-based super-resolution. To evaluate the performance of our proposed method, we conduct extensive experiments on our collected CarCam dataset and the Waymo Open dataset, and the results demonstrate our method outperforms state-of-the-art methods. Our source code will be publicly available.
翻訳日:2021-06-25 15:09:00 公開日:2021-06-24
# 手話自動生成に向けて

Towards Automatic Speech to Sign Language Generation ( http://arxiv.org/abs/2106.12790v1 )

ライセンス: Link先を確認
Parul Kapoor, Rudrabha Mukhopadhyay, Sindhu B Hegde, Vinay Namboodiri, C V Jawahar(参考訳) 我々は,音声セグメントのみから連続手話ビデオを生成するという極めて困難な課題を,初めて解決することを目指している。 この分野での最近の取り組みは、他のモダリティを考慮せずに、人間の注釈付きテキストからこのようなビデオを生成することに重点を置いている。 しかし, 音声を手話に置き換えることは, 難聴者とのコミュニケーションにおいて, 現実的な解決法であることが証明された。 そこで本研究では,より自然な,連続的,自由に発声できる語彙の入力・設計手法としてテキストを使用する必要性を解消した。 現在のデータセットは音声から直接手話を生成するには不十分であるため、音声レベルのアノテーション、テキスト書き起こし、対応する手話ビデオからなる最初のインド手話データセットを収集、リリースする。 次に,音声セグメントからシグナのポーズを生成するためのマルチタスクトランスフォーマーネットワークを提案する。 音声対テキストを補助タスクとして追加したクロスモーダル判別器を用いて,エンドツーエンドで連続的な手話ポーズ列の生成を学習する。 広範な実験と他のベースラインとの比較は、我々のアプローチの有効性を示しています。 また,ネットワークの異なるモジュールの効果を分析するために,さらにアブレーション研究を行っている。 補足材料には、いくつかの結果を含むデモビデオが添付されている。

We aim to solve the highly challenging task of generating continuous sign language videos solely from speech segments for the first time. Recent efforts in this space have focused on generating such videos from human-annotated text transcripts without considering other modalities. However, replacing speech with sign language proves to be a practical solution while communicating with people suffering from hearing loss. Therefore, we eliminate the need of using text as input and design techniques that work for more natural, continuous, freely uttered speech covering an extensive vocabulary. Since the current datasets are inadequate for generating sign language directly from speech, we collect and release the first Indian sign language dataset comprising speech-level annotations, text transcripts, and the corresponding sign-language videos. Next, we propose a multi-tasking transformer network trained to generate signer's poses from speech segments. With speech-to-text as an auxiliary task and an additional cross-modal discriminator, our model learns to generate continuous sign pose sequences in an end-to-end manner. Extensive experiments and comparisons with other baselines demonstrate the effectiveness of our approach. We also conduct additional ablation studies to analyze the effect of different modules of our network. A demo video containing several results is attached to the supplementary material.
翻訳日:2021-06-25 15:08:44 公開日:2021-06-24
# 長距離注意によるディープフェイク映像の検出

Detection of Deepfake Videos Using Long Distance Attention ( http://arxiv.org/abs/2106.12832v1 )

ライセンス: Link先を確認
Wei Lu, Lingyi Liu, Junwei Luo, Xianfeng Zhao, Yicong Zhou, Jiwu Huang(参考訳) 近年、ディープフェイク技術の急速な進歩により、顔ビデオの偽造は、非常に欺かれやすいビデオコンテンツを生成し、深刻なセキュリティ上の脅威をもたらす可能性がある。 そしてこのような偽ビデオの検出は、もっと緊急で難しい。 多くの既存の検出方法は、問題をバニラ二項分類問題として扱う。 本稿では,偽の顔と実顔の差異が非常に微妙なので,この問題を特別な細粒度分類問題として扱う。 既存の顔偽造法のほとんどは,空間領域における生成的欠陥や時間領域におけるフレーム間不整合など,空間領域と時間領域に共通するアーティファクトを残している。 また,グローバルな視点でそれぞれ空間的・時間的偽証跡を捕捉する2つの成分を持つ時空間モデルを提案する。 この2つのコンポーネントは、新しい長距離注意機構を用いて設計されている。 空間領域の1つのコンポーネントは1フレームでアーティファクトをキャプチャするために使用され、時間領域のもう1つのコンポーネントは連続フレームでアーティファクトをキャプチャするために使用される。 それらはパッチの形でアテンションマップを生成します。 このアテンション手法は,グローバルな情報の組み立てや地域統計情報の抽出に寄与する,より広いビジョンを持つ。 最後に、注意マップを使用して、他のきめ細かい分類方法と同様に、ネットワークが顔のピボット部分に集中するように誘導する。 異なる公開データセットを用いた実験結果から,提案手法が最先端の性能を達成し,提案手法が顔偽造の重要な部品を効果的に捕捉できることを示した。

With the rapid progress of deepfake techniques in recent years, facial video forgery can generate highly deceptive video contents and bring severe security threats. And detection of such forgery videos is much more urgent and challenging. Most existing detection methods treat the problem as a vanilla binary classification problem. In this paper, the problem is treated as a special fine-grained classification problem since the differences between fake and real faces are very subtle. It is observed that most existing face forgery methods left some common artifacts in the spatial domain and time domain, including generative defects in the spatial domain and inter-frame inconsistencies in the time domain. And a spatial-temporal model is proposed which has two components for capturing spatial and temporal forgery traces in global perspective respectively. The two components are designed using a novel long distance attention mechanism. The one component of the spatial domain is used to capture artifacts in a single frame, and the other component of the time domain is used to capture artifacts in consecutive frames. They generate attention maps in the form of patches. The attention method has a broader vision which contributes to better assembling global information and extracting local statistic information. Finally, the attention maps are used to guide the network to focus on pivotal parts of the face, just like other fine-grained classification methods. The experimental results on different public datasets demonstrate that the proposed method achieves the state-of-the-art performance, and the proposed long distance attention method can effectively capture pivotal parts for face forgery.
翻訳日:2021-06-25 15:08:24 公開日:2021-06-24
# 教師なし深部画像縫合:画像への縫合特徴の再構築

Unsupervised Deep Image Stitching: Reconstructing Stitched Features to Images ( http://arxiv.org/abs/2106.12859v1 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao(参考訳) 従来の特徴ベースの画像縫合技術は、特徴検出の品質に大きく依存しており、少ない特徴や低解像度の画像縫合に失敗することが多い。 学習ベースの画像ステッチリングソリューションはラベル付きデータの欠如のためにほとんど研究されないため、教師付きメソッドは信頼できない。 そこで,本研究では,教師なし画像アライメントと教師なし画像再構成の2段階からなる教師なし深部画像アライメントフレームワークを提案する。 第1段階では、大規模なベースラインシーンに適した教師なしホモグラフィネットワークを制約するアブレーションに基づく損失を設計する。 さらに、入力画像をステッチ領域空間に反動させる変圧器層を導入する。 第2段階では、画素レベルの不一致をある程度特徴レベルで除去できるという知見に動機付けられ、特徴から画素へのアーティファクトを除去するための教師なし画像再構成ネットワークを設計する。 具体的には、低分解能変形分枝と高分解能洗練分枝で再構成ネットワークを実装でき、画像ステッチの変形規則を学習し、同時に解像度を向上させることができる。 評価ベンチマークを確立し、学習フレームワークを訓練するために、教師なし深層画像縫合のための包括的な実世界の画像データセットを提示し、リリースする。 広範な実験により,本手法は他の最先端ソリューションよりも優れていることが示された。 教師付きソリューションと比較しても、画像ステッチの質は依然としてユーザに好まれる。

Traditional feature-based image stitching technologies rely heavily on feature detection quality, often failing to stitch images with few features or low resolution. The learning-based image stitching solutions are rarely studied due to the lack of labeled data, making the supervised methods unreliable. To address the above limitations, we propose an unsupervised deep image stitching framework consisting of two stages: unsupervised coarse image alignment and unsupervised image reconstruction. In the first stage, we design an ablation-based loss to constrain an unsupervised homography network, which is more suitable for large-baseline scenes. Moreover, a transformer layer is introduced to warp the input images in the stitching-domain space. In the second stage, motivated by the insight that the misalignments in pixel-level can be eliminated to a certain extent in feature-level, we design an unsupervised image reconstruction network to eliminate the artifacts from features to pixels. Specifically, the reconstruction network can be implemented by a low-resolution deformation branch and a high-resolution refined branch, learning the deformation rules of image stitching and enhancing the resolution simultaneously. To establish an evaluation benchmark and train the learning framework, a comprehensive real-world image dataset for unsupervised deep image stitching is presented and released. Extensive experiments well demonstrate the superiority of our method over other state-of-the-art solutions. Even compared with the supervised solutions, our image stitching quality is still preferred by users.
翻訳日:2021-06-25 15:07:57 公開日:2021-06-24
# 連続ノベルティ検出

Continual Novelty Detection ( http://arxiv.org/abs/2106.12964v1 )

ライセンス: Link先を確認
Rahaf Aljundi, Daniel Olmeda Reino, Nikolay Chumerin, Richard E. Turner(参考訳) ノベルティ検出方法は、モデルのトレーニングセットに代表されないサンプルを特定し、誤解を招く予測をフラグ付け、デプロイ時により柔軟性と透明性をもたらす。 しかし、この領域の研究はオフライン環境での新規性検出のみを検討してきた。 近年、コンピュータビジョンコミュニティでは、新しいドメイン、新しいクラス、新しいタスクを表すデータの新しいバッチが、異なる時点で利用可能になるような、より柔軟なフレームワークである継続的学習(continual learning)が、アプリケーションが求められている。 この設定では、ノベルティ検出はより重要で、興味深く、困難になる。 本研究は,この2つの問題間の重要な関係を特定し,連続学習環境下での新規性検出問題を検討する。 本稿では,連続ノベルティ検出問題を定式化し,連続学習環境下でのいくつかのノベルティ検出手法を比較した。 連続学習は新規性検出アルゴリズムの動作に影響を及ぼし、新規性検出は連続学習者の動作に関する洞察を特定できることを示す。 さらに,ベースラインを提案し,研究の方向性について議論する。 この2つの問題の結合は、ビジョンモデルを実践するための有望な方向であると考えています。

Novelty Detection methods identify samples that are not representative of a model's training set thereby flagging misleading predictions and bringing a greater flexibility and transparency at deployment time. However, research in this area has only considered Novelty Detection in the offline setting. Recently, there has been a growing realization in the computer vision community that applications demand a more flexible framework - Continual Learning - where new batches of data representing new domains, new classes or new tasks become available at different points in time. In this setting, Novelty Detection becomes more important, interesting and challenging. This work identifies the crucial link between the two problems and investigates the Novelty Detection problem under the Continual Learning setting. We formulate the Continual Novelty Detection problem and present a benchmark, where we compare several Novelty Detection methods under different Continual Learning settings. We show that Continual Learning affects the behaviour of novelty detection algorithms, while novelty detection can pinpoint insights in the behaviour of a continual learner. We further propose baselines and discuss possible research directions. We believe that the coupling of the two problems is a promising direction to bring vision models into practice.
翻訳日:2021-06-25 15:07:26 公開日:2021-06-24
# SGTBN:シングルラインLiDARから高密度深度マップを生成する

SGTBN: Generating Dense Depth Maps from Single-Line LiDAR ( http://arxiv.org/abs/2106.12994v1 )

ライセンス: Link先を確認
Hengjie Lu, Shugong Xu, Shan Cao(参考訳) 深度補完はスパース深度マップとアライメントされたRGB画像から深度マップを生成することを目的としている。 しかし、現在の深度補完法は、非常に高価な64行のLiDAR(約10万ドル)を使用してスパース深度マップを取得し、アプリケーションシナリオを制限する。 64ラインのLiDARと比較すると、シングルラインのLiDARはずっと安く、より堅牢である。 そこで本研究では, 単線LiDAR情報と整列RGB画像から深度マップを生成することを目的とした, 単線深度完備化の問題に対処する手法を提案する。 既存の64線深度補完データセット(KITTI)に基づいて,一直線深度補完データセットを提案する。 グローバル情報とローカル情報を抽出・融合するグローバル分枝とローカル分枝を含むsemantic guided two-branch network(sgtbn)と呼ばれるネットワークが提案されている。 我々のネットワークではセマンティック誘導深度サンプリングモジュールを用いてRGB画像のセマンティック情報を完全に活用している。 通常のMSE損失を除いて、ネットワーク内の高次3次元幾何学の制約を増やすために、仮想正規損失を追加する。 我々のネットワークは, 単線深度完了タスクにおいて最先端の処理性能を上回る。 さらに, 単分子深度推定と比較して, 精度とモデルサイズに有意な利点がある。

Depth completion aims to generate a dense depth map from the sparse depth map and aligned RGB image. However, current depth completion methods use extremely expensive 64-line LiDAR(about $100,000) to obtain sparse depth maps, which will limit their application scenarios. Compared with the 64-line LiDAR, the single-line LiDAR is much less expensive and much more robust. Therefore, we propose a method to tackle the problem of single-line depth completion, in which we aim to generate a dense depth map from the single-line LiDAR info and the aligned RGB image. A single-line depth completion dataset is proposed based on the existing 64-line depth completion dataset(KITTI). A network called Semantic Guided Two-Branch Network(SGTBN) which contains global and local branches to extract and fuse global and local info is proposed for this task. A Semantic guided depth upsampling module is used in our network to make full use of the semantic info in RGB images. Except for the usual MSE loss, we add the virtual normal loss to increase the constraint of high-order 3D geometry in our network. Our network outperforms the state-of-the-art in the single-line depth completion task. Besides, compared with the monocular depth estimation, our method also has significant advantages in precision and model size.
翻訳日:2021-06-25 15:07:09 公開日:2021-06-24
# 時間的行動局在のより強固な特徴を探る

Exploring Stronger Feature for Temporal Action Localization ( http://arxiv.org/abs/2106.13014v1 )

ライセンス: Link先を確認
Zhiwu Qing and Xiang Wang and Ziyuan Huang and Yutong Feng and Shiwei Zhang and jianwen Jiang and Mingqian Tang and Changxin Gao and Nong Sang(参考訳) 時間的アクションローカライゼーションは、アクションカテゴリによる開始と終了の時間をローカライズすることを目的としている。 GPUメモリによって制限されたメインストリームメソッドは、各ビデオの機能を事前に抽出する。 したがって、特徴品質は検出性能の上限を決定する。 本技術報告では, 古典的畳み込みベースバックボーンと最近の変圧器ベースバックボーンの急増について検討した。 変換器を用いた手法は畳み込み方式よりも優れた分類性能が得られるが,精度の高い動作提案は生成できない。 さらに、空間情報の損失を低減するためにフレーム解像度を大きくした特徴抽出は、時間的行動局所化の性能を効果的に向上させることができる。 最後に,2020年のマルチモデルアンサンブルの結果より1.87%高いbmn+tcanetという単純な組み合わせで,単一のスローファスト機能を持つバリデーションセットのマップで42.42%を達成した。 最後に,CVPR2021 HACSによる時間的行動局所化チャレンジのランク1を達成した。

Temporal action localization aims to localize starting and ending time with action category. Limited by GPU memory, mainstream methods pre-extract features for each video. Therefore, feature quality determines the upper bound of detection performance. In this technical report, we explored classic convolution-based backbones and the recent surge of transformer-based backbones. We found that the transformer-based methods can achieve better classification performance than convolution-based, but they cannot generate accuracy action proposals. In addition, extracting features with larger frame resolution to reduce the loss of spatial information can also effectively improve the performance of temporal action localization. Finally, we achieve 42.42% in terms of mAP on validation set with a single SlowFast feature by a simple combination: BMN+TCANet, which is 1.87% higher than the result of 2020's multi-model ensemble. Finally, we achieve Rank 1st on the CVPR2021 HACS supervised Temporal Action Localization Challenge.
翻訳日:2021-06-25 15:06:48 公開日:2021-06-24
# ChaLearn氏、人を見つめる - インペイントと課題のデノベーション

ChaLearn Looking at People: Inpainting and Denoising challenges ( http://arxiv.org/abs/2106.13071v1 )

ライセンス: Link先を確認
Sergio Escalera and Marti Soler and Stephane Ayache and Umut Guclu and Jun Wan and Meysam Madadi and Xavier Baro and Hugo Jair Escalante and Isabelle Guyon(参考訳) 不完全な情報を扱うことは、機械学習と計算知性の文脈でよく研究されている問題である。 しかし、コンピュータビジョンの文脈では、問題は特定のシナリオ(例えば、特定の種類の画像における特定の種類の閉塞)でのみ研究されているが、視覚データに不完全な情報を持つことは一般的である。 本章では、WCCI2018のコンペティションプログラムの一部であり、ECCV2018とコラボされた衛星イベントである画像や映像の描画に焦点を当てた学術コンペティションの設計について述べる。 ChaLearn Looking at People Inpainting Challengeは、画像やビデオから行方不明や隠蔽された情報を回復する手法の開発を促進することで、視覚的インパインティングの最先端化を目的としている。 3つのトラックが提案され、人間の身体のポーズ推定、テキストのオーバーレイ除去、指紋のデノーミングといった視覚的塗布が役立つが、それでも難しい。 本章では,3つの新しいデータセットのリリース,評価指標,ベースライン,評価プロトコルの記述を含む,課題の設計について説明する。 課題の結果を詳細に分析・議論し,このイベントから得られた結論を概説した。

Dealing with incomplete information is a well studied problem in the context of machine learning and computational intelligence. However, in the context of computer vision, the problem has only been studied in specific scenarios (e.g., certain types of occlusions in specific types of images), although it is common to have incomplete information in visual data. This chapter describes the design of an academic competition focusing on inpainting of images and video sequences that was part of the competition program of WCCI2018 and had a satellite event collocated with ECCV2018. The ChaLearn Looking at People Inpainting Challenge aimed at advancing the state of the art on visual inpainting by promoting the development of methods for recovering missing and occluded information from images and video. Three tracks were proposed in which visual inpainting might be helpful but still challenging: human body pose estimation, text overlays removal and fingerprint denoising. This chapter describes the design of the challenge, which includes the release of three novel datasets, and the description of evaluation metrics, baselines and evaluation protocol. The results of the challenge are analyzed and discussed in detail and conclusions derived from this event are outlined.
翻訳日:2021-06-25 15:06:32 公開日:2021-06-24
# VOLO:視覚認識の視覚的見通し

VOLO: Vision Outlooker for Visual Recognition ( http://arxiv.org/abs/2106.13112v1 )

ライセンス: Link先を確認
Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan(参考訳) 視覚認識は長年にわたって畳み込み神経ネットワーク(cnns)によって支配されてきた。 近年,vts (pre-vailing vision transformers) は,imagenet classifica-tion における自己着脱型モデルの強力な性能を示しているが,その性能は最新の sota cnns に劣っている。 本研究では,パフォーマンスギャップを解消し,注意ベースモデルがCNNよりも優れていることを示す。 Ima-geNet分類におけるViTの性能を制限する主な要因は,トークン表現に微細な特徴をエンコードする際の有効性が低いことである。 これを解決するために,目新しさに注意を向け,単純で汎用的なアーキテクチャであるvision outlooker(volo)を提案する。 粗いレベルでのグローバルデペン・ダレンシ・モデリングに焦点を当てた自己注意とは違って、視点の注目は、より細かいレベルの特徴や文脈を効果的にエンコードすることを目的としている。 実験によると、imagenet-1k分類ではvoloが87.1%のtop-1精度を達成し、トレーニングデータなしでこのベンチマークで87%の精度を超えた最初のモデルとなった。 さらに、事前訓練されたVOLOは、セマンティックセグメンテーションのような下流タスクによく転送される。 都市景観検証セットで84.3% mIoU、ADE20Kバリデーションセットで54.3%を得る。 コードはhttps://github.com/s ail-sg/voloで入手できる。

Visual recognition has been dominated by convolutionalneural networks (CNNs) for years. Though recently the pre-vailing vision transformers (ViTs) have shown great poten-tial of self-attention based models in ImageNet classifica-tion, their performance is still inferior to latest SOTA CNNsif no extra data are provided. In this work, we aim to closethe performance gap and demonstrate that attention-basedmodel s are indeed able to outperform CNNs. We found thatthe main factor limiting the performance of ViTs for Ima-geNet classification is their low efficacy in encoding fine-level features into the token representations. To resolvethis, we introduce a noveloutlook attentionand present asimple and general architecture, termed Vision Outlooker(VOLO). Unlike self-attention that focuses on global depen-dency modeling at a coarse level, the outlook attention aimsto efficiently encode finer-level features and contexts intotokens, which are shown to be critical for recognition per-formance but largely ignored by the self-attention. Experi-ments show that our VOLO achieves 87.1% top-1 accuracyon ImageNet-1K classification, being the first model exceed-ing 87% accuracy on this competitive benchmark, withoutusing any extra training data. In addition, the pre-trainedVOLO transfers well to downstream tasks, such as seman-tic segmentation. We achieve 84.3% mIoU score on thecityscapes validation set and 54.3% on the ADE20K valida-tion set. Code is available at https://github.com/s ail-sg/volo.
翻訳日:2021-06-25 15:06:10 公開日:2021-06-24
# FaDIV-Syn:高速深度非依存ビュー合成

FaDIV-Syn: Fast Depth-Independent View Synthesis ( http://arxiv.org/abs/2106.13139v1 )

ライセンス: Link先を確認
Andre Rochow, Max Schwarz, Michael Weinmann, Sven Behnke(参考訳) 高速深度に依存しないビュー合成法であるFaDIV-Synを紹介する。 我々のマルチビューアプローチは、視線合成法がしばしばその深度推定段階によって制限される問題に対処し、誤った深度予測が大きな予測誤差をもたらす可能性がある。 この問題を回避するため,複数の入力画像を対象のフレームに効率よくワープし,推定深度を推定する。 結果として得られるテンソル表現は、ゲート畳み込みを持つU-NetライクなCNNに入力され、新しい出力ビューを直接生成する。 したがって、横方向の明示的な深さ推定を行う。 これにより、透明で反射的で、機能のないシーン部分の効率とパフォーマンスが向上する。 FaDIV-Synは、補間タスクと補間タスクの両方を処理でき、大規模なRealEstate10kデータセット上で、最先端の補間メソッドより優れている。 同等の手法とは対照的に、軽量アーキテクチャのためリアルタイム操作が可能である。 さらに,FaDIV-Synのデータ効率を,より少ないサンプルから高分解能への一般化と深度離散化による任意の深度範囲の訓練により実証する。

We introduce FaDIV-Syn, a fast depth-independent view synthesis method. Our multi-view approach addresses the problem that view synthesis methods are often limited by their depth estimation stage, where incorrect depth predictions can lead to large projection errors. To avoid this issue, we efficiently warp multiple input images into the target frame for a range of assumed depth planes. The resulting tensor representation is fed into a U-Net-like CNN with gated convolutions, which directly produces the novel output view. We therefore side-step explicit depth estimation. This improves efficiency and performance on transparent, reflective, and feature-less scene parts. FaDIV-Syn can handle both interpolation and extrapolation tasks and outperforms state-of-the-art extrapolation methods on the large-scale RealEstate10k dataset. In contrast to comparable methods, it is capable of real-time operation due to its lightweight architecture. We further demonstrate data efficiency of FaDIV-Syn by training from fewer examples as well as its generalization to higher resolutions and arbitrary depth ranges under severe depth discretization.
翻訳日:2021-06-25 15:05:40 公開日:2021-06-24
# 計画による学習:言語によるグローバルイメージ編集

Learning by Planning: Language-Guided Global Image Editing ( http://arxiv.org/abs/2106.13156v1 )

ライセンス: Link先を確認
Jing Shi, Ning Xu, Yihang Xu, Trung Bui, Franck Dernoncourt, Chenliang Xu(参考訳) 近年,言語指導によるグローバル画像編集は,アプリケーションの可能性の増大に伴って注目を集めている。 しかし、従来のganベースの手法は、ドメイン固有の低解像度データに制限されるだけでなく、解釈可能性に欠ける。 この課題を克服するために, 曖昧な編集言語要求を, コントラスト, 輝度, 彩度などの一連の編集操作にマッピングするテキスト・ツー・オペレーションモデルを開発した。 各操作は解釈可能で微分可能である。 さらに、タスク内の唯一の監視対象イメージは、シーケンシャルな決定の安定したトレーニングには不十分である。 そこで本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する新しい操作計画アルゴリズムを提案する。 新たに収集したma5k-reqデータセットとgierデータセットの比較実験により,本手法の利点を示す。 コードはhttps://jshi31.githu b.io/T2ONetで入手できる。

Recently, language-guided global image editing draws increasing attention with growing application potentials. However, previous GAN-based methods are not only confined to domain-specific, low-resolution data but also lacking in interpretability. To overcome the collective difficulties, we develop a text-to-operation model to map the vague editing language request into a series of editing operations, e.g., change contrast, brightness, and saturation. Each operation is interpretable and differentiable. Furthermore, the only supervision in the task is the target image, which is insufficient for a stable training of sequential decisions. Hence, we propose a novel operation planning algorithm to generate possible editing sequences from the target image as pseudo ground truth. Comparison experiments on the newly collected MA5k-Req dataset and GIER dataset show the advantages of our methods. Code is available at https://jshi31.githu b.io/T2ONet.
翻訳日:2021-06-25 15:05:22 公開日:2021-06-24
# 識別ウェーブレットサブバンドを用いた差分モーフィック顔検出

Differential Morph Face Detection using Discriminative Wavelet Sub-bands ( http://arxiv.org/abs/2106.13178v1 )

ライセンス: Link先を確認
Baaria Chaudhary, Poorya Aghdaie, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) 顔認識システムはモルヒネ攻撃に対して極めて脆弱であり、変形した顔参照画像は2つ以上の異なる同一性として正常に検証できる。 本稿では,非効率な2次元離散ウェーブレット変換(DWT)を利用して顔形態を識別する形態攻撃検出アルゴリズムを提案する。 我々のフレームワークのコアは、画像領域で識別できない変形過程から生じる成果物を、空間周波数領域でより容易に識別できることである。 識別ウェーブレットサブバンドは、実画像と形態画像との差を強調することができる。 この目的のために、マルチレベルDWTは全画像に適用され、それぞれ48の中間帯域と高周波サブバンドが生成される。 各サブバンドのエントロピー分布は、ボナfideおよびmorph画像の両方について別々に計算される。 いくつかのサブバンドについては、ボナファイド画像におけるサブバンドのエントロピーと、モルヒド画像における同一サブバンドのエントロピーとの間に顕著な違いがある。 その結果、KLD(Kullback-Liebler Divergence)を用いてこれらの差を利用して最も識別性の高いサブバンドを分離する。 ネットワークトレーニングにおいて,サブバンドがKLD値によって識別され,KLD値が最も高い22のサブバンドが選択されるかを測定する。 次に,これらの22個のサブバンドを用いてディープシャムニューラルネットワークを訓練し,差分モーフアタック検出を行う。 モーフィックアタック検出における識別ウェーブレットサブバンドの有効性を検証し,これらのサブバンドを訓練したディープニューラルネットワークがモーフィックイメージを正確に識別できることを示す。

Face recognition systems are extremely vulnerable to morphing attacks, in which a morphed facial reference image can be successfully verified as two or more distinct identities. In this paper, we propose a morph attack detection algorithm that leverages an undecimated 2D Discrete Wavelet Transform (DWT) for identifying morphed face images. The core of our framework is that artifacts resulting from the morphing process that are not discernible in the image domain can be more easily identified in the spatial frequency domain. A discriminative wavelet sub-band can accentuate the disparity between a real and a morphed image. To this end, multi-level DWT is applied to all images, yielding 48 mid and high-frequency sub-bands each. The entropy distributions for each sub-band are calculated separately for both bona fide and morph images. For some of the sub-bands, there is a marked difference between the entropy of the sub-band in a bona fide image and the identical sub-band's entropy in a morphed image. Consequently, we employ Kullback-Liebler Divergence (KLD) to exploit these differences and isolate the sub-bands that are the most discriminative. We measure how discriminative a sub-band is by its KLD value and the 22 sub-bands with the highest KLD values are chosen for network training. Then, we train a deep Siamese neural network using these 22 selected sub-bands for differential morph attack detection. We examine the efficacy of discriminative wavelet sub-bands for morph attack detection and show that a deep neural network trained on these sub-bands can accurately identify morph imagery.
翻訳日:2021-06-25 15:05:08 公開日:2021-06-24
# 医用画像の協調学習におけるデータ不均一性と生成的再生

Handling Data Heterogeneity with Generative Replay in Collaborative Learning for Medical Imaging ( http://arxiv.org/abs/2106.13208v1 )

ライセンス: Link先を確認
Liangqiong Qu, Niranjan Balachandar, Miao Zhang, Daniel Rubin(参考訳) 複数の機関で、プライバシー保護の方法でディープニューラルネットワークの協調的かつ分散的なトレーニングを可能にするコラボレーション学習は、医療アプリケーションにとって価値のあるテクニックとして急速に発展しつつある。 しかし、その分散性は、しばしば組織間のデータ分散の著しい不均一性をもたらす。 既存の協調学習アプローチでは、組織間のデータに不均一性が存在することや、わずかに歪んだラベル分布のみを研究することが一般的である。 本稿では,協調学習手法におけるデータ不均一性の課題に対処する新しい再生戦略を提案する。 タスク性能のモデルを直接訓練する代わりに、最近の画像合成技術を活用して新しいデュアルモデルアーキテクチャを開発する: プライマリモデルが目的のタスクを学習し、補助的な「生成再生モデル」が入力画像によく似た画像を生成するか、潜時変数の抽出を支援する。 生成的再生戦略は柔軟であり、既存の協調学習手法に組み込んで、機関間のデータの均一性を扱う能力を改善するか、あるいはコミュニケーションコストを削減するために、新しく個別の協調学習フレームワークとして使用される。 実験結果は,施設間で異種データを扱う際に提案手法が有効であることを示す。 高均一なデータ分割では,糖尿病網膜症分類データセットの予測精度が約4.88%向上し,骨年齢予測データセットの平均解像値が約49.8%減少した。

Collaborative learning, which enables collaborative and decentralized training of deep neural networks at multiple institutions in a privacy-preserving manner, is rapidly emerging as a valuable technique in healthcare applications. However, its distributed nature often leads to significant heterogeneity in data distributions across institutions. Existing collaborative learning approaches generally do not account for the presence of heterogeneity in data among institutions, or only mildly skewed label distributions are studied. In this paper, we present a novel generative replay strategy to address the challenge of data heterogeneity in collaborative learning methods. Instead of directly training a model for task performance, we leverage recent image synthesis techniques to develop a novel dual model architecture: a primary model learns the desired task, and an auxiliary "generative replay model" either synthesizes images that closely resemble the input images or helps extract latent variables. The generative replay strategy is flexible to use, can either be incorporated into existing collaborative learning methods to improve their capability of handling data heterogeneity across institutions, or be used as a novel and individual collaborative learning framework (termed FedReplay) to reduce communication cost. Experimental results demonstrate the capability of the proposed method in handling heterogeneous data across institutions. On highly heterogeneous data partitions, our model achieves ~4.88% improvement in the prediction accuracy on a diabetic retinopathy classification dataset, and ~49.8% reduction of mean absolution value on a Bone Age prediction dataset, respectively, compared to the state-of-the art collaborative learning methods.
翻訳日:2021-06-25 15:04:41 公開日:2021-06-24
# 多モデル転送学習による知識マイニングと文書分類の自動システム

An Automated Knowledge Mining and Document Classification System with Multi-model Transfer Learning ( http://arxiv.org/abs/2106.12744v1 )

ライセンス: Link先を確認
Jia Wei Chong, Zhiyuan Chen and Mei Shin Oh(参考訳) サービスマニュアルドキュメントは、サービスエンジニアにガイドラインと知識を提供するため、エンジニアリング会社にとって重要です。 しかし、リソースの複雑さのため、サービスエンジニアがドキュメントから特定の知識を取得するのは不便で非効率になっている。 本研究では,新しい多モデル転送学習手法を用いた知識マイニングと文書分類の自動化システムを提案する。 特に, ファインチューニング, プルーニング, マルチモデル方式の3つの効果的な手法により, システムの分類性能が向上した。 微細チューニング技術は、フィードフォワードニューラルネットワーク層を追加することで、事前トレーニングされたBERTモデルを最適化し、プルーニング技術はBERTモデルを新しいデータで再トレーニングする。 マルチモデル手法は、細調整プロセス中にデータ順序のランダム性を克服するために複数のBERTモデルを初期化し、訓練する。 トレーニングプロセスの最初のイテレーションでは、複数のBERTモデルが同時にトレーニングされています。 その後、トレーニングプロセスの次のフェーズに、次の2つのイテレーションでベストモデルが選択され、他のBERTモデルのトレーニングプロセスが終了する。 提案システムの性能評価は,BERT と BERT-CNN の2つの頑健なベースライン手法との比較により行った。 CoLA(Corp of Linguistic Acceptability)データセットの実験結果から,提案手法はこれらの基準手法よりも精度とMCCスコアの点で優れていることが示された。

Service manual documents are crucial to the engineering company as they provide guidelines and knowledge to service engineers. However, it has become inconvenient and inefficient for service engineers to retrieve specific knowledge from documents due to the complexity of resources. In this research, we propose an automated knowledge mining and document classification system with novel multi-model transfer learning approaches. Particularly, the classification performance of the system has been improved with three effective techniques: fine-tuning, pruning, and multi-model method. The fine-tuning technique optimizes a pre-trained BERT model by adding a feed-forward neural network layer and the pruning technique is used to retrain the BERT model with new data. The multi-model method initializes and trains multiple BERT models to overcome the randomness of data ordering during the fine-tuning process. In the first iteration of the training process, multiple BERT models are being trained simultaneously. The best model is then selected for the next phase of the training process with another two iterations and the training processes for other BERT models will be terminated. The performance of the proposed system has been evaluated by comparing with two robust baseline methods, BERT and BERT-CNN. Experimental results on a widely used Corpus of Linguistic Acceptability (CoLA) dataset have shown that the proposed techniques perform better than these baseline methods in terms of accuracy and MCC score.
翻訳日:2021-06-25 15:04:13 公開日:2021-06-24
# 機械学習を用いた自動農業商品価格予測システム

Automated Agriculture Commodity Price Prediction System with Machine Learning Techniques ( http://arxiv.org/abs/2106.12747v1 )

ライセンス: Link先を確認
Zhiyuan Chen, Howe Seng Goh, Kai Ling Sin, Kelly Lim, Nicole Ka Hei Chung and Xin Yu Liew(参考訳) 本研究の目的は,新しい機械学習技術を用いた自動農業商品価格予測システムの研究と設計である。 農業商品価格の膨大な歴史的データの増加と価格変動の正確な予測の必要性により、このソリューションは統計手法から機械学習領域へと大きく変化してきた。 しかし、歴史資料からの適切なセットの選択は依然として限定的である。 一方で、機械学習手法を実装する場合、グローバルソリューションに最適なパラメータを持つ適切なモデルを見つける場合、非線形性や次元の呪いを避けることは依然として最大の課題であり、機械学習戦略の研究が必要である。 本研究では,農業商品価格を予測するWebベースの自動システムを提案する。 2つの実験では、ARIMA、SVR、Prophet、XGBoost、LSTMの5つの一般的な機械学習アルゴリズムをマレーシアの大規模な歴史的データセットと比較し、提案システムの予測エンジンとして平均0.304の平均二乗誤差を持つLSTMモデルを選択した。

The intention of this research is to study and design an automated agriculture commodity price prediction system with novel machine learning techniques. Due to the increasing large amounts historical data of agricultural commodity prices and the need of performing accurate prediction of price fluctuations, the solution has largely shifted from statistical methods to machine learning area. However, the selection of proper set from historical data for forecasting still has limited consideration. On the other hand, when implementing machine learning techniques, finding a suitable model with optimal parameters for global solution, nonlinearity and avoiding curse of dimensionality are still biggest challenges, therefore machine learning strategies study are needed. In this research, we propose a web-based automated system to predict agriculture commodity price. In the two series experiments, five popular machine learning algorithms, ARIMA, SVR, Prophet, XGBoost and LSTM have been compared with large historical datasets in Malaysia and the most optimal algorithm, LSTM model with an average of 0.304 mean-square error has been selected as the prediction engine of the proposed system.
翻訳日:2021-06-25 15:03:14 公開日:2021-06-24
# クラスタリングアルゴリズムの体系的選択とその評価

A review of systematic selection of clustering algorithms and their evaluation ( http://arxiv.org/abs/2106.12792v1 )

ライセンス: Link先を確認
Marc Wegmann, Domenique Zipperling, Jonas Hillenbrand and J\"urgen Fleischer(参考訳) データ分析は、産業における価値創造に不可欠である。 このコンテキストにおけるクラスタ分析は、事前知識のほとんど、あるいは全くないデータセットを探索し、未知のパターンを識別することができる。 大きな)データ複雑性が次元のボリューム、バラエティ、ベロシティで増加するにつれ、これはさらに重要になります。 クラスタ分析のための多くのツールが初期から開発されており、さまざまなクラスタリングアルゴリズムは巨大である。 データ分析の結果には,適切なクラスタリング手順の選択が不可欠であるため,ユーザは生データから知識を抽出する作業を支援する必要がある。 そこで本論文の目的は,クラスタリングアルゴリズムとそれに対応する検証概念のための体系的選択論理の同定にある。 目標は、潜在的なユーザが自分のニーズと基盤となるデータクラスタリングの問題の性質に最適なアルゴリズムを選択できるようにすることだ。 さらに、ユーザーはクラスタリング結果を理解するために正しい検証概念を選択することができる。 本稿では,包括的文献レビューに基づき,クラスタリング手法の評価と検証概念の選択のための評価基準を提案する。 この基準はいくつかの共通アルゴリズムに適用され、基礎となるデータ構造を考慮した疑似符号ベースのルーチンの導入によってアルゴリズムの選択プロセスが支持される。

Data analysis plays an indispensable role for value creation in industry. Cluster analysis in this context is able to explore given datasets with little or no prior knowledge and to identify unknown patterns. As (big) data complexity increases in the dimensions volume, variety, and velocity, this becomes even more important. Many tools for cluster analysis have been developed from early on and the variety of different clustering algorithms is huge. As the selection of the right clustering procedure is crucial to the results of the data analysis, users are in need for support on their journey of extracting knowledge from raw data. Thus, the objective of this paper lies in the identification of a systematic selection logic for clustering algorithms and corresponding validation concepts. The goal is to enable potential users to choose an algorithm that fits best to their needs and the properties of their underlying data clustering problem. Moreover, users are supported in selecting the right validation concepts to make sense of the clustering results. Based on a comprehensive literature review, this paper provides assessment criteria for clustering method evaluation and validation concept selection. The criteria are applied to several common algorithms and the selection process of an algorithm is supported by the introduction of pseudocode-based routines that consider the underlying data structure.
翻訳日:2021-06-25 15:02:56 公開日:2021-06-24
# Heterophilic Graphs を用いたノード分類のための単純なSVDモデル

Simple Truncated SVD based Model for Node Classification on Heterophilic Graphs ( http://arxiv.org/abs/2106.12807v1 )

ライセンス: Link先を確認
Vijay Lingam, Rahul Ragesh, Arun Iyer, Sundararajan Sellamanickam(参考訳) グラフニューラルネットワーク(gnns)は、ノードラベルに対して強い相同性を示すグラフにおいて優れた性能を示している。 接続ノードには同じラベルがあります しかし、それらはヘテロ親和グラフ上では不十分である。 近年のアプローチでは、アグリゲーションスキームの変更、適応グラフフィルタの設計などが行われている。 この制限に対処するためです それにもかかわらず、異種グラフのパフォーマンスは依然として貧弱である。 本稿では, トポロジ構造とノード特徴のトランク付き特異値分解(TSVD)を利用した簡易な代替手法を提案する。 提案手法は異種グラフの最先端手法よりも30%以上の性能向上を実現している。 この研究は、アグリゲーションベースのアプローチと異なる方法に関する初期の調査である。 実験結果から,親水性設定のための凝集方法の代替案を検討することが重要である可能性が示唆された。

Graph Neural Networks (GNNs) have shown excellent performance on graphs that exhibit strong homophily with respect to the node labels i.e. connected nodes have same labels. However, they perform poorly on heterophilic graphs. Recent approaches have typically modified aggregation schemes, designed adaptive graph filters, etc. to address this limitation. In spite of this, the performance on heterophilic graphs can still be poor. We propose a simple alternative method that exploits Truncated Singular Value Decomposition (TSVD) of topological structure and node features. Our approach achieves up to ~30% improvement in performance over state-of-the-art methods on heterophilic graphs. This work is an early investigation into methods that differ from aggregation based approaches. Our experimental results suggest that it might be important to explore other alternatives to aggregation methods for heterophilic setting.
翻訳日:2021-06-25 15:02:37 公開日:2021-06-24
# Information Bottleneck:(量子化)ニューラルネットワークの厳密な解析

Information Bottleneck: Exact Analysis of (Quantized) Neural Networks ( http://arxiv.org/abs/2106.12912v1 )

ライセンス: Link先を確認
Stephan Sloth Lorenzen and Christian Igel and Mads Nielsen(参考訳) 深いニューラルネットワークを分析する手段として、情報ボトルネック(IB)の原則が提案されている。 学習力学は、隠れた層と入力と出力の間の相互情報(MI)を検査することによって研究される。 特に、トレーニング中の別のフィッティングと圧縮フェーズが報告されている。 これは、観測が再現可能ではなく、使用する活性化関数の種類とmiの推定方法に強く依存しているという主張を含むいくつかの論争を引き起こした。 本研究は,MI計算における結合方法の違いが,IB予想を支持するか否定するか,定性的に異なる結果をもたらすことを確認した。 論争を解決するために,MI が非自明で正確に計算できるような環境で IB の原理を考察する。 我々は、量子化されたニューラルネットワークのダイナミクス、すなわち、MIを計算する際に近似を必要としないように、ディープラーニングシステム全体を識別する。 これにより,測定誤差を伴わずに情報の流れを定量化できる。 この設定では,すべての層に適合する相と,すべての実験において出力層に圧縮相が観察され,隠蔽層内の圧縮は活性化関数の種類に依存した。 本研究は,MI 計算において,初期 IB は binning のアーティファクトではないことを示す。 しかし、一部のネットワークでは圧縮フェーズが観察できないという批判的な主張も事実である。

The information bottleneck (IB) principle has been suggested as a way to analyze deep neural networks. The learning dynamics are studied by inspecting the mutual information (MI) between the hidden layers and the input and output. Notably, separate fitting and compression phases during training have been reported. This led to some controversy including claims that the observations are not reproducible and strongly dependent on the type of activation function used as well as on the way the MI is estimated. Our study confirms that different ways of binning when computing the MI lead to qualitatively different results, either supporting or refusing IB conjectures. To resolve the controversy, we study the IB principle in settings where MI is non-trivial and can be computed exactly. We monitor the dynamics of quantized neural networks, that is, we discretize the whole deep learning system so that no approximation is required when computing the MI. This allows us to quantify the information flow without measurement errors. In this setting, we observed a fitting phase for all layers and a compression phase for the output layer in all experiments; the compression in the hidden layers was dependent on the type of activation function. Our study shows that the initial IB results were not artifacts of binning when computing the MI. However, the critical claim that the compression phase may not be observed for some networks also holds true.
翻訳日:2021-06-25 15:02:22 公開日:2021-06-24
# 生成逆ネットによるマルコフ人口動態の抽象化

Abstraction of Markov Population Dynamics via Generative Adversarial Nets ( http://arxiv.org/abs/2106.12981v1 )

ライセンス: Link先を確認
Francesca Cairoli, Ginevra Carbone, Luca Bortolussi(参考訳) マルコフの集団モデルは、複雑なシステムの力学をモデル化するために使われる広く普及した形式であり、システム生物学やその他の多くの分野に応用されている。 連続時間におけるマルコフ確率過程は、しばしばシミュレーションによって分析されるが、これは大きなシステムや剛性システム、特に膨大な数のシミュレーションが必要な場合(例えば)にはコストがかかる。 マルチスケールモデルで)。 計算負荷を減らす戦略は人口モデルを抽象化し、より単純な確率モデルに置き換え、シミュレートを速くする。 ここでは、このアイデアを追求し、過去の研究に基づいて、連続空間と離散時間で確率軌道を生成できる生成器を構築する。 このジェネレータは生成逆数設定で元のモデルのシミュレーションから自動的に学習される。 ディープニューラルネットワークやディリクレプロセスに依存する従来の研究と比較して、単一のトランジションカーネルではなく、完全な軌道を学ぶのに十分な柔軟性を持つ、アート生成モデルの状態の使用について検討する。

Markov Population Models are a widespread formalism used to model the dynamics of complex systems, with applications in Systems Biology and many other fields. The associated Markov stochastic process in continuous time is often analyzed by simulation, which can be costly for large or stiff systems, particularly when a massive number of simulations has to be performed (e.g. in a multi-scale model). A strategy to reduce computational load is to abstract the population model, replacing it with a simpler stochastic model, faster to simulate. Here we pursue this idea, building on previous works and constructing a generator capable of producing stochastic trajectories in continuous space and discrete time. This generator is learned automatically from simulations of the original model in a Generative Adversarial setting. Compared to previous works, which rely on deep neural networks and Dirichlet processes, we explore the use of state of the art generative models, which are flexible enough to learn a full trajectory rather than a single transition kernel.
翻訳日:2021-06-25 15:01:25 公開日:2021-06-24
# 有限ホリゾンmdpに対する完全問題依存的後悔下限

A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs ( http://arxiv.org/abs/2106.13013v1 )

ライセンス: Link先を確認
Andrea Tirinzoni, Matteo Pirotta, Alessandro Lazaric(参考訳) 有限水平タブ状マルコフ決定過程 (MDPs) において, 後悔最小化のための新しい漸近的問題依存下界を導出する。 従来の作業(例えばエルゴード型MDP)と同様に、低いバウンドは最適化問題の解であるが、我々の導出は、MDPの力学を明示的に説明する状態-作用対上の訪問分布にさらなる制約を加える必要があることを明らかにする。 我々は、mdpの異なる複雑さがいかに大きく異なるかを示す一連の例を通して、低いバウンドの特性を提供する。 1) まず「難解」な MDP のインスタンスを考える。そこでは,力学に基づく新しい制約が,古典的解析に比べて大きな下界(すなわち,大きな後悔)をもたらす。 2) この結果から, 特定のMDPインスタンスに先立って得られた結果が得られた。 3) 最後に、ある「単純な」mdpでは、下限は一般的な場合よりもかなり小さく、最小の動作ギャップではスケールしないことを示す。 この最後の結果(最大$poly(h)$項、ただし$h$は地平線)は、楽観的アルゴリズムのポリシーギャップに基づく後悔の上限を提供することによって達成可能であることを示す。

We derive a novel asymptotic problem-dependent lower-bound for regret minimization in finite-horizon tabular Markov Decision Processes (MDPs). While, similar to prior work (e.g., for ergodic MDPs), the lower-bound is the solution to an optimization problem, our derivation reveals the need for an additional constraint on the visitation distribution over state-action pairs that explicitly accounts for the dynamics of the MDP. We provide a characterization of our lower-bound through a series of examples illustrating how different MDPs may have significantly different complexity. 1) We first consider a "difficult" MDP instance, where the novel constraint based on the dynamics leads to a larger lower-bound (i.e., a larger regret) compared to the classical analysis. 2) We then show that our lower-bound recovers results previously derived for specific MDP instances. 3) Finally, we show that, in certain "simple" MDPs, the lower bound is considerably smaller than in the general case and it does not scale with the minimum action gap at all. We show that this last result is attainable (up to $poly(H)$ terms, where $H$ is the horizon) by providing a regret upper-bound based on policy gaps for an optimistic algorithm.
翻訳日:2021-06-25 15:01:07 公開日:2021-06-24
# メモリ専門家追跡のためのレグレトバウンドの改善

Improved Regret Bounds for Tracking Experts with Memory ( http://arxiv.org/abs/2106.13021v1 )

ライセンス: Link先を確認
James Robinson, Mark Herbster(参考訳) 本研究では,Bousquet と Warmuth を意識した長期記憶保証を備えた非定常環境におけるエキスパートアドバイスによる逐次予測の問題に対処する [4]。 我々は、最もよく知られた後悔境界を改善する線形時間アルゴリズムを提供する[26]。 このアルゴリズムは相対エントロピー投影ステップを含む。 この予測は、例えばポートフォリオ最適化のような暗黙のコストで重み更新を行うという従来の重み共有アプローチよりも有利である。 我々は、この射影ステップを線形時間で計算するアルゴリズムを与える。

We address the problem of sequential prediction with expert advice in a non-stationary environment with long-term memory guarantees in the sense of Bousquet and Warmuth [4]. We give a linear-time algorithm that improves on the best known regret bounds [26]. This algorithm incorporates a relative entropy projection step. This projection is advantageous over previous weight-sharing approaches in that weight updates may come with implicit costs as in for example portfolio optimization. We give an algorithm to compute this projection step in linear time, which may be of independent interest.
翻訳日:2021-06-25 15:00:43 公開日:2021-06-24
# 高速カウントスケッチによる効率的なテンソル収縮

Efficient Tensor Contraction via Fast Count Sketch ( http://arxiv.org/abs/2106.13062v1 )

ライセンス: Link先を確認
Xingyu Cao, Jiani Liu(参考訳) スケッチは次元の縮小と加速のためにランダムハッシュ関数を使用する。 count sketch (cs)、tensor sketch (ts)、higher-order count sketch (hcs)といった既存のスケッチ手法は、いくつかのtensorベースのアプリケーションで低精度か低速かのどちらかである。 本稿では,入力テンソルの空間情報を十分に保存できるため,入力テンソルのベクトル形式に複数の短いハッシュ関数に基づく高速カウントスケッチ(FCS)を適用する。 入力テンソルがCANDECOMP/PARAFAC分解(CPD)を許容すると、FCSは高速フーリエ変換を用いてCSとHCSを加速し、低次テンソルに対してTSと漸近的に同じ計算複雑性を示す。 FCSの有効性は、CPD、テンソル回帰ネットワーク圧縮、Kronecker製品圧縮によって検証される。 実験の結果、近似精度と計算効率の点で優れた性能を示す。

Sketching uses randomized Hash functions for dimensionality reduction and acceleration. The existing sketching methods, such as count sketch (CS), tensor sketch (TS), and higher-order count sketch (HCS), either suffer from low accuracy or slow speed in some tensor based applications. In this paper, the proposed fast count sketch (FCS) applies multiple shorter Hash functions based CS to the vector form of the input tensor, which is more accurate than TS since the spatial information of the input tensor can be preserved more sufficiently. When the input tensor admits CANDECOMP/PARAFAC decomposition (CPD), FCS can accelerate CS and HCS by using fast Fourier transform, which exhibits a computational complexity asymptotically identical to TS for low-order tensors. The effectiveness of FCS is validated by CPD, tensor regression network compression, and Kronecker product compression. Experimental results show its superior performance in terms of approximation accuracy and computational efficiency.
翻訳日:2021-06-25 15:00:35 公開日:2021-06-24
# オフポリティ評価によるメタ強化学習のためのグラディエント推定器の統合

Unifying Gradient Estimators for Meta-Reinforcement Learning via Off-Policy Evaluation ( http://arxiv.org/abs/2106.13125v1 )

ライセンス: Link先を確認
Yunhao Tang, Tadashi Kozuno, Mark Rowland, R\'emi Munos, Michal Valko(参考訳) モデル非依存なメタ強化学習は、値関数のヘッセン行列の推定を必要とする。 これは実装の観点からは困難であり、繰り返しの政策勾配推定が偏りのあるヘッセン推定に繋がる可能性がある。 本研究では,オフポリシー評価に基づいて,価値関数の高次導関数を推定するための統一フレームワークを提案する。 本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。 このフレームワークはまた、自動微分ライブラリで容易に実装でき、実際にパフォーマンス向上につながる新しい見積もりのファミリーへの扉を開く。

Model-agnostic meta-reinforcement learning requires estimating the Hessian matrix of value functions. This is challenging from an implementation perspective, as repeatedly differentiating policy gradient estimates may lead to biased Hessian estimates. In this work, we provide a unifying framework for estimating higher-order derivatives of value functions, based on off-policy evaluation. Our framework interprets a number of prior approaches as special cases and elucidates the bias and variance trade-off of Hessian estimates. This framework also opens the door to a new family of estimates, which can be easily implemented with auto-differentiation libraries, and lead to performance gains in practice.
翻訳日:2021-06-25 15:00:17 公開日:2021-06-24
# 条件付きGANを用いた医用画像の個人データ共有のための深層学習手法

A Deep Learning Approach to Private Data Sharing of Medical Images Using Conditional GANs ( http://arxiv.org/abs/2106.13199v1 )

ライセンス: Link先を確認
Hanxi Sun, Jason Plawinski, Sajanth Subramaniam, Amir Jamaludin, Timor Kadir, Aimee Readie, Gregory Ligozio, David Ohlssen, Mark Baillie, Thibaud Coroller(参考訳) 臨床研究からのデータ共有は、革新的なデータ駆動研究を促進し、最終的には公衆衛生の改善につながる。 しかし、医療データの共有は機密性の高い個人情報を危険にさらす可能性がある。 これは通常、遅くて高価なプロセスである匿名化によって解決される。 匿名化の代替手段は、実際のデータに似た振る舞いを持つが、プライバシを保持する合成データセットを共有することだ。 NovartisとOxford Big Data Instituteのコラボレーションの一環として,COSENTYX (secukinumab) Ankylosing Spondylitis (AS) の臨床研究に基づく合成データセットを作成した。 椎体(VUs)の合成磁気共鳴画像(MRI)を生成するために補助分類器GAN(ac-GAN)を適用した。 画像はVU位置(頸、胸、腰椎)で調整される。 本稿では,合成データセットを生成し,画像忠実性,サンプル多様性,データセットプライバシという3つの指標に沿って,その特性を詳細に分析する手法を提案する。

Sharing data from clinical studies can facilitate innovative data-driven research and ultimately lead to better public health. However, sharing biomedical data can put sensitive personal information at risk. This is usually solved by anonymization, which is a slow and expensive process. An alternative to anonymization is sharing a synthetic dataset that bears a behaviour similar to the real data but preserves privacy. As part of the collaboration between Novartis and the Oxford Big Data Institute, we generate a synthetic dataset based on COSENTYX (secukinumab) Ankylosing Spondylitis (AS) clinical study. We apply an Auxiliary Classifier GAN (ac-GAN) to generate synthetic magnetic resonance images (MRIs) of vertebral units (VUs). The images are conditioned on the VU location (cervical, thoracic and lumbar). In this paper, we present a method for generating a synthetic dataset and conduct an in-depth analysis on its properties of along three key metrics: image fidelity, sample diversity and dataset privacy.
翻訳日:2021-06-25 15:00:07 公開日:2021-06-24
# 交差点での自動運転戦略:シナリオ,最新技術,今後の展望

Autonomous Driving Strategies at Intersections: Scenarios, State-of-the-Art, and Future Outlooks ( http://arxiv.org/abs/2106.13052v1 )

ライセンス: Link先を確認
Lianzhen Wei, Zirui Li, Jianwei Gong, Cheng Gong, Jiachen Li(参考訳) 交差点シナリオの複雑でダイナミックな特徴から,近年のインテリジェント交通システム研究において,交差点における自律運転戦略は難しい問題であり,ホットポイントとなっている。 本稿では交差点における最先端の自動運転戦略について概説する。 まず、共通タイプの交差点シナリオ、対応するシミュレーションプラットフォーム、および関連するデータセットを列挙し分析する。 第2に,これまでの研究を概観し,既存の自動運転戦略の特徴を整理し,いくつかのカテゴリに分類した。 最後に、既存の自動運転戦略の問題点を指摘し、いくつかの貴重な研究展望を提示する。

Due to the complex and dynamic character of intersection scenarios, the autonomous driving strategy at intersections has been a difficult problem and a hot point in the research of intelligent transportation systems in recent years. This paper gives a brief summary of state-of-the-art autonomous driving strategies at intersections. Firstly, we enumerate and analyze common types of intersection scenarios, corresponding simulation platforms, as well as related datasets. Secondly, by reviewing previous studies, we have summarized characteristics of existing autonomous driving strategies and classified them into several categories. Finally, we point out problems of the existing autonomous driving strategies and put forward several valuable research outlooks.
翻訳日:2021-06-25 14:59:28 公開日:2021-06-24
# 対象ゼロリソース言語に関連する言語学習における音響単語埋め込みの多言語間伝達

Multilingual transfer of acoustic word embeddings improves when training on languages related to the target zero-resource language ( http://arxiv.org/abs/2106.12834v1 )

ライセンス: Link先を確認
Christiaan Jacobs and Herman Kamper(参考訳) 音響単語埋め込みモデルは、可変長音声セグメントを固定次元ベクトルにマッピングし、効率的な音声探索と発見を可能にする。 以前の研究では、ターゲット言語でラベル付きデータが利用できないゼロリソース設定で埋め込みを取得する方法が検討されている。 単一の教師付き多言語モデルは、複数の十分なリソースを持つ言語からのラベル付きデータを使用して訓練され、ターゲットのゼロリソース言語に適用されます。 しかし、トレーニング言語の特定の選択が下流のパフォーマンスにどのように影響するかはまだ不明である。 具体的には、ターゲットに関連するトレーニング言語を使うことが有益かどうかを問う。 南アフリカで話されている11の言語からのデータを用いて、言語ごとのデータ量を制御しながら、異なる言語ファミリーからのデータを追加する実験を行った。 単語の識別とクエリ・バイ・サンプル検索評価において,同族言語による学習が大きな改善をもたらすことを示す。 よりきめ細かい分析を通して、単一の関連言語でもトレーニングが最大の利益をもたらすことを示す。 また、関係のない言語からのデータを追加することは、一般的にパフォーマンスを損なわないこともわかりました。

Acoustic word embedding models map variable duration speech segments to fixed dimensional vectors, enabling efficient speech search and discovery. Previous work explored how embeddings can be obtained in zero-resource settings where no labelled data is available in the target language. The current best approach uses transfer learning: a single supervised multilingual model is trained using labelled data from multiple well-resourced languages and then applied to a target zero-resource language (without fine-tuning). However, it is still unclear how the specific choice of training languages affect downstream performance. Concretely, here we ask whether it is beneficial to use training languages related to the target. Using data from eleven languages spoken in Southern Africa, we experiment with adding data from different language families while controlling for the amount of data per language. In word discrimination and query-by-example search evaluations, we show that training on languages from the same family gives large improvements. Through finer-grained analysis, we show that training on even just a single related language gives the largest gain. We also find that adding data from unrelated languages generally doesn't hurt performance.
翻訳日:2021-06-25 14:58:57 公開日:2021-06-24
# QASR: QCRI Aljazeera Speech Resource -- 大規模注釈付きアラビア語音声コーパス

QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic Speech Corpus ( http://arxiv.org/abs/2106.13000v1 )

ライセンス: Link先を確認
Hamdy Mubarak, Amir Hussein, Shammur Absar Chowdhury, Ahmed Ali(参考訳) 本稿では,放送領域から収集したアラビア語音声コーパス,QASRを紹介する。 この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。 データセットは、オーディオセグメントに合わせて、軽量に教師付き書き起こしでリリースされる。 以前のデータセットとは異なり、QASRは言語的に動機付けられたセグメンテーション、句読点、話者情報などを含む。 QASRは、音声認識システム、音響および/または言語に基づくアラビア方言の識別、句読点復元、話者識別、話者リンク、および音声データのための潜在的NLPモジュールの訓練および評価に適している。 QASRの書き起こしに加えて、より優れた言語モデルの設計と訓練を支援するために、130万ワードのデータセットをリリースする。 qasrで訓練されたエンドツーエンドの自動音声認識は、従来のmgb-2コーパスと比較して競合語誤り率を報告している。 本稿では,音声認識などの下流自然言語処理タスクのベースライン結果について述べる。 また,第1回アラビア語句読点復元基準について報告する。 コーパスを研究コミュニティに提供します。

We introduce the largest transcribed Arabic speech corpus, QASR, collected from the broadcast domain. This multi-dialect speech dataset contains 2,000 hours of speech sampled at 16kHz crawled from Aljazeera news channel. The dataset is released with lightly supervised transcriptions, aligned with the audio segments. Unlike previous datasets, QASR contains linguistically motivated segmentation, punctuation, speaker information among others. QASR is suitable for training and evaluating speech recognition systems, acoustics- and/or linguistics- based Arabic dialect identification, punctuation restoration, speaker identification, speaker linking, and potentially other NLP modules for spoken data. In addition to QASR transcription, we release a dataset of 130M words to aid in designing and training a better language model. We show that end-to-end automatic speech recognition trained on QASR reports a competitive word error rate compared to the previous MGB-2 corpus. We report baseline results for downstream natural language processing tasks such as named entity recognition using speech transcript. We also report the first baseline for Arabic punctuation restoration. We make the corpus available for the research community.
翻訳日:2021-06-25 14:58:38 公開日:2021-06-24
# ランク欠陥ヤコビアンを用いた非線形等式制約付き最適化のための確率列二次最適化アルゴリズム

A Stochastic Sequential Quadratic Optimization Algorithm for Nonlinear Equality Constrained Optimization with Rank-Deficient Jacobians ( http://arxiv.org/abs/2106.13015v1 )

ライセンス: Link先を確認
Albert S. Berahas, Frank E. Curtis, Michael J. O'Neill, Daniel P. Robinson(参考訳) 確率関数の期待により目的関数が定義される滑らかな非線形等式制約最適化問題を解くために、逐次二次最適化アルゴリズムを提案する。 提案手法のアルゴリズム構造は,本論文において広く有効であることが知られているステップ分解戦略に基づいており,各探索方向を正規ステップ(線形化可能)と接ステップ(制約ジャコビアンの零空間を客観的に減少させる)の和として計算する。 しかし,本手法は,制約ジャコビアンがランクが不足している場合であっても,確率的客観的勾配推定が可能であり,収束保証も有する点において,他の文献と一意なものである。 数値実験の結果,本アルゴリズムは一般的な代替手法と比較して優れた性能を示すことがわかった。

A sequential quadratic optimization algorithm is proposed for solving smooth nonlinear equality constrained optimization problems in which the objective function is defined by an expectation of a stochastic function. The algorithmic structure of the proposed method is based on a step decomposition strategy that is known in the literature to be widely effective in practice, wherein each search direction is computed as the sum of a normal step (toward linearized feasibility) and a tangential step (toward objective decrease in the null space of the constraint Jacobian). However, the proposed method is unique from others in the literature in that it both allows the use of stochastic objective gradient estimates and possesses convergence guarantees even in the setting in which the constraint Jacobians may be rank deficient. The results of numerical experiments demonstrate that the algorithm offers superior performance when compared to popular alternatives.
翻訳日:2021-06-25 14:58:21 公開日:2021-06-24
# 深い視覚特徴の統合によるトポロジカル意味マッピング

Topological Semantic Mapping by Consolidation of Deep Visual Features ( http://arxiv.org/abs/2106.12709v1 )

ライセンス: Link先を確認
Ygor C. N. Sousa, Hansenclever F. Bassani(参考訳) 最近の文献では、画像のセマンティック特性を認識するためにCNN(Convolutional Neural Networks)を使用するセマンティックマッピング手法を導入している。 プロパティの種類(例)。 :部屋の大きさ,場所カテゴリー,対象)とそのクラス(例。 キッチンとトイレ(場所)は通常、事前に定義され、特定のタスクに制限される。 したがって、地図の構築中に取得・処理された全ての視覚データは失われ、認識された意味的特性のみが地図上に残る。 対照的に,本研究では,ロボットが操作する環境の複数ビューで捉えた2次元画像から,CNNによって抽出された深い視覚的特徴を利用するトポロジ的意味マッピング手法を導入し,各トポロジ的ノードがカバーする領域で取得した視覚的特徴の総合表現を作成する。 これらの統合表現は、領域の意味的特性を柔軟に認識し、様々な視覚的タスクで使用できる。 実世界の屋内データセットを用いて行った実験は、この手法が領域の視覚的特徴を統合し、オブジェクトやカテゴリを意味的特性として認識し、画像のトポロジカルな位置を非常に有望な結果で示すことができることを示した。 対象物をGoogLeNetの分類層を用いて再訓練することなく分類し,浅い多層パーセプトロンを用いて位置分類を行う。

Many works in the recent literature introduce semantic mapping methods that use CNNs (Convolutional Neural Networks) to recognize semantic properties in images. The types of properties (eg.: room size, place category, and objects) and their classes (eg.: kitchen and bathroom, for place category) are usually predefined and restricted to a specific task. Thus, all the visual data acquired and processed during the construction of the maps are lost and only the recognized semantic properties remain on the maps. In contrast, this work introduces a topological semantic mapping method that uses deep visual features extracted by a CNN, the GoogLeNet, from 2D images captured in multiple views of the environment as the robot operates, to create consolidated representations of visual features acquired in the regions covered by each topological node. These consolidated representations allow flexible recognition of semantic properties of the regions and use in a range of visual tasks. The experiments, performed using a real-world indoor dataset, showed that the method is able to consolidate the visual features of regions and use them to recognize objects and place categories as semantic properties, and to indicate the topological location of images, with very promising results. The objects are classified using the classification layer of GoogLeNet, without retraining, and the place categories are recognized using a shallow Multilayer Perceptron.
翻訳日:2021-06-25 14:57:18 公開日:2021-06-24
# ビデオ符号化におけるcnnに基づくフィルタリングのためのグローバル外観と局所符号化歪みに基づく融合フレームワーク

A Global Appearance and Local Coding Distortion based Fusion Framework for CNN based Filtering in Video Coding ( http://arxiv.org/abs/2106.12746v1 )

ライセンス: Link先を確認
Jian Yue, Yanbo Gao, Shuai Li, Hui Yuan, Fr\'ed\'eric Dufaux(参考訳) ループ内フィルタリングは、ブロックアーティファクトを削除するために再構成されたフレームを処理するためにビデオ符号化で使用される。 畳み込みニューラルネットワーク(CNN)の開発により、CNNは画像デノイズ化タスクとして扱うことができるため、ループ内フィルタリングのために探索されてきた。 しかし、歪んだ画像であることに加えて、映像符号化におけるブロックベースの符号化操作の固定線でも再構成されたフレームが得られる。 同様の特性の符号化単位に基づく符号化歪みを持つ。 そこで本稿では, 符号化の固定パイプラインによる破壊テクスチャのグローバルな外観復元と局所的な符号化歪み復元という2つの側面から, フィルタリング問題に対処する。 これにより、高レベルグローバル特徴ストリーム、高レベルローカル特徴ストリーム、低レベルローカル特徴ストリームを用いて、3ストリームグローバル外観と局所符号化歪みに基づく融合ネットワークを開発する。 異なる特徴の必要性を検証し,グローバルな特徴と局所的な特徴がフィルタリングにおいて相互に補完し,組み合わせることでより良い性能が得られることを示す。 私たちの知る限りでは、上記のグローバルな外観と局所的な符号化歪み復元の側面から、ビデオフィルタリングプロセスを明確に特徴付ける最初の方法であり、フィルタ技術を開発するための明確な道筋を提供する。 実験の結果,提案手法は,HEVC参照ソフトウェアと比較して,AI,LDP,RA設定の平均値で13.5%,11.3%,11.7%のBD-Rate削減を実現していることがわかった。

In-loop filtering is used in video coding to process the reconstructed frame in order to remove blocking artifacts. With the development of convolutional neural networks (CNNs), CNNs have been explored for in-loop filtering considering it can be treated as an image de-noising task. However, in addition to being a distorted image, the reconstructed frame is also obtained by a fixed line of block based encoding operations in video coding. It carries coding-unit based coding distortion of some similar characteristics. Therefore, in this paper, we address the filtering problem from two aspects, global appearance restoration for disrupted texture and local coding distortion restoration caused by fixed pipeline of coding. Accordingly, a three-stream global appearance and local coding distortion based fusion network is developed with a high-level global feature stream, a high-level local feature stream and a low-level local feature stream. Ablation study is conducted to validate the necessity of different features, demonstrating that the global features and local features can complement each other in filtering and achieve better performance when combined. To the best of our knowledge, we are the first one that clearly characterizes the video filtering process from the above global appearance and local coding distortion restoration aspects with experimental verification, providing a clear pathway to developing filter techniques. Experimental results demonstrate that the proposed method significantly outperforms the existing single-frame based methods and achieves 13.5%, 11.3%, 11.7% BD-Rate saving on average for AI, LDP and RA configurations, respectively, compared with the HEVC reference software.
翻訳日:2021-06-25 14:56:52 公開日:2021-06-24
# ドライバ中心型リスクオブジェクト識別

Driver-centric Risk Object Identification ( http://arxiv.org/abs/2106.13201v1 )

ライセンス: Link先を確認
Chengxi Li, Stanley H. Chan, Yi-Ting Chen(参考訳) 大量の交通事故がドライバーのミスによるものである。 死亡率を減らすため、ドライバーが潜在的なリスクを特定するためのインテリジェントな運転システムの開発が急務である。 リスク状況は、既存の研究における衝突予測に基づいて一般的に定義される。 しかし、衝突は交通シナリオにおけるリスクの1つのタイプに過ぎない。 より一般的な定義が必要だと考えています。 本研究では,ドライバ中心の新たなリスク定義,すなわち,リスク対象がドライバの行動に影響を及ぼすことを提案する。 この定義に基づいて、リスクオブジェクト識別と呼ばれる新しいタスクが導入される。 タスクを因果効果問題として定式化し,状況認識と因果推論のモデルから着想を得て,新たな2段階リスクオブジェクト識別フレームワークを提案する。 運転者中心型リスクオブジェクト識別(ROI)データセットを算出し,提案システムを評価する。 我々は、ROIデータセットの強いベースラインと比較して、最先端のリスクオブジェクト識別性能を示す。 さらに、設計の選択を正当化するために、広範なアブレーション研究を行っています。

A massive number of traffic fatalities are due to driver errors. To reduce fatalities, developing intelligent driving systems assisting drivers to identify potential risks is in urgent need. Risky situations are generally defined based on collision prediction in existing research. However, collisions are only one type of risk in traffic scenarios. We believe a more generic definition is required. In this work, we propose a novel driver-centric definition of risk, i.e., risky objects influence driver behavior. Based on this definition, a new task called risk object identification is introduced. We formulate the task as a cause-effect problem and present a novel two-stage risk object identification framework, taking inspiration from models of situation awareness and causal inference. A driver-centric Risk Object Identification (ROI) dataset is curated to evaluate the proposed system. We demonstrate state-of-the-art risk object identification performance compared with strong baselines on the ROI dataset. In addition, we conduct extensive ablative studies to justify our design choices.
翻訳日:2021-06-25 14:56:24 公開日:2021-06-24
# HyperNeRF: トポロジカルに可変なニューラルラジアンス場のための高次元表現

HyperNeRF: A Higher-Dimensional Representation for Topologically Varying Neural Radiance Fields ( http://arxiv.org/abs/2106.13228v1 )

ライセンス: Link先を確認
Keunhong Park, Utkarsh Sinha, Peter Hedman, Jonathan T. Barron, Sofien Bouaziz, Dan B Goldman, Ricardo Martin-Brualla, Steven M. Seitz(参考訳) neural radiance fields (nerf) は前例のない忠実度でシーンを再構築することができ、最近の様々な作品では、動的シーンを扱うためにnerfを拡張している。 このような非剛性シーンを再構築するための一般的なアプローチは、入力画像の各座標から標準テンプレート座標空間への学習された変形場マッピングを使用することである。 しかし、位相変化は変形場の不連続性を必要とするため、これらの変形に基づくアプローチはトポロジーの変化のモデル化に苦しむが、これらの変形場は必ずしも連続である。 我々は、nerfを高次元空間に持ち上げ、各入力画像に対応する5次元放射率場をこの「超空間」を通してスライスとして表現することで、この制限に対処する。 本手法は,高次元表面のスライスとして表面の進化をモデル化するレベルセット法に着想を得たものである。 提案手法は,2つのタスクにおいて, (i) 「モーメント(moments)」,すなわち, 入力画像に見られるシーンの構成を, 視覚的な可視性を維持しながらスムーズに補間し, (ii) 固定された瞬間に新規な視点合成を行うことで評価する。 提案手法は,HyperNeRFをダブした手法で,両タスクの既存手法よりも有意差で優れていることを示す。 Nerfiesと比較して、HyperNeRFはLPIPSによって測定された平均誤差率を補間で8.6%、新規ビュー合成で8.8%削減する。

Neural Radiance Fields (NeRF) are able to reconstruct scenes with unprecedented fidelity, and various recent works have extended NeRF to handle dynamic scenes. A common approach to reconstruct such non-rigid scenes is through the use of a learned deformation field mapping from coordinates in each input image into a canonical template coordinate space. However, these deformation-based approaches struggle to model changes in topology, as topological changes require a discontinuity in the deformation field, but these deformation fields are necessarily continuous. We address this limitation by lifting NeRFs into a higher dimensional space, and by representing the 5D radiance field corresponding to each individual input image as a slice through this "hyper-space". Our method is inspired by level set methods, which model the evolution of surfaces as slices through a higher dimensional surface. We evaluate our method on two tasks: (i) interpolating smoothly between "moments", i.e., configurations of the scene, seen in the input images while maintaining visual plausibility, and (ii) novel-view synthesis at fixed moments. We show that our method, which we dub HyperNeRF, outperforms existing methods on both tasks by significant margins. Compared to Nerfies, HyperNeRF reduces average error rates by 8.6% for interpolation and 8.8% for novel-view synthesis, as measured by LPIPS.
翻訳日:2021-06-25 14:56:12 公開日:2021-06-24
# 依存フレームワークにおけるU統計による収束・分離の3つの速度

Three rates of convergence or separation via U-statistics in a dependent framework ( http://arxiv.org/abs/2106.12796v1 )

ライセンス: Link先を確認
Quentin Duchemin, Yohann De Castro and Claire Lacour(参考訳) 現代の確率・統計学におけるU統計学の多様さにもかかわらず、依存フレームワークにおける非漸近的分析は見過ごされた可能性がある。 最近の研究では、一様エルゴードマルコフ鎖に対する位数 2 の u-統計量に対する新しい濃度不等式が証明されている。 本稿では,3つの研究分野における知識の現況を推し進めることで,この理論的突破口を動作させた。 まず、MCMC法によるトレースクラス積分作用素のスペクトル推定のための新しい指数関数不等式を確立する。 この新奇性は、この結果が正の固有値と負の固有値を持つカーネルに対して成り立つことである。 さらに、ペアワイズ損失関数とマルコフ連鎖サンプルを扱うオンラインアルゴリズムの一般化性能について検討する。 オンライン学習者によって生成された仮説のシーケンスから低いリスク仮説を抽出する方法を示すことにより、オンラインからバッチへの変換結果を提供する。 最終的に、マルコフ連鎖の不変測度の密度に関する適合性テストの非漸近的解析を与える。 我々は、l_2$距離に基づくテストが所定のパワーを持つ代替品のクラスを同定する。

Despite the ubiquity of U-statistics in modern Probability and Statistics, their non-asymptotic analysis in a dependent framework may have been overlooked. In a recent work, a new concentration inequality for U-statistics of order two for uniformly ergodic Markov chains has been proved. In this paper, we put this theoretical breakthrough into action by pushing further the current state of knowledge in three different active fields of research. First, we establish a new exponential inequality for the estimation of spectra of trace class integral operators with MCMC methods. The novelty is that this result holds for kernels with positive and negative eigenvalues, which is new as far as we know. In addition, we investigate generalization performance of online algorithms working with pairwise loss functions and Markov chain samples. We provide an online-to-batch conversion result by showing how we can extract a low risk hypothesis from the sequence of hypotheses generated by any online learner. We finally give a non-asymptotic analysis of a goodness-of-fit test on the density of the invariant measure of a Markov chain. We identify some classes of alternatives over which our test based on the $L_2$ distance has a prescribed power.
翻訳日:2021-06-25 14:55:23 公開日:2021-06-24
# 効率的な低電力ニューラルネットワーク加速器設計のための構築キット

A Construction Kit for Efficient Low Power Neural Network Accelerator Designs ( http://arxiv.org/abs/2106.12810v1 )

ライセンス: Link先を確認
Petar Jokic, Erfan Azarkhish, Andrea Bonetti, Marc Pons, Stephane Emery, and Luca Benini(参考訳) エッジに組み込みニューラルネットワーク処理を実装するには、高速な計算性能と低消費電力のハードウェアアクセラレーションが必要となる。 ネットワークアーキテクチャの急速な進化とアルゴリズム機能によって、アクセラレータの設計は常に更新され、改善されている。 ハードウェア設計の選択を評価し比較するために、デザイナーは文学における数多くのアクセラレータ実装を参照することができる。 サーベイはこれらの研究の概要を提供するが、しばしばシステムレベルとベンチマーク固有のパフォーマンス指標に制限されるため、各最適化手法の個々の効果を定量的に比較することは困難である。 これは新しい加速器の設計に対する最適化の評価を複雑にし、研究の進捗を遅くする。 本稿では,最近の研究で使用されているニューラルネットワークアクセラレーション最適化手法に関する調査を行い,エッジ処理性能に対する個々の影響を報告する。 これは最適化のリストとその定量的効果を構築キットとして提示し、各ビルディングブロックの設計選択を別々に評価できる。 最大10万倍のメモリ節約から33倍のエネルギー削減までの最適化が報告されており、チップ設計者は効率的な低消費電力ニューラルネットワークアクセラレータを実装するための設計選択の概要を提供する。

Implementing embedded neural network processing at the edge requires efficient hardware acceleration that couples high computational performance with low power consumption. Driven by the rapid evolution of network architectures and their algorithmic features, accelerator designs are constantly updated and improved. To evaluate and compare hardware design choices, designers can refer to a myriad of accelerator implementations in the literature. Surveys provide an overview of these works but are often limited to system-level and benchmark-specific performance metrics, making it difficult to quantitatively compare the individual effect of each utilized optimization technique. This complicates the evaluation of optimizations for new accelerator designs, slowing-down the research progress. This work provides a survey of neural network accelerator optimization approaches that have been used in recent works and reports their individual effects on edge processing performance. It presents the list of optimizations and their quantitative effects as a construction kit, allowing to assess the design choices for each building block separately. Reported optimizations range from up to 10'000x memory savings to 33x energy reductions, providing chip designers an overview of design choices for implementing efficient low power neural network accelerators.
翻訳日:2021-06-25 14:54:01 公開日:2021-06-24
# クラスタ化一般化による個人化フェデレーション学習

Personalized Federated Learning with Clustered Generalization ( http://arxiv.org/abs/2106.13044v1 )

ライセンス: Link先を確認
Xueyang Tang, Song Guo, Jingcai Guo(参考訳) 我々は近年,非I.D.の課題に対処することを目的としたPFLについて検討している。 federated learning (fl) 設定のデータ。 pflと従来のflの主な違いはトレーニング対象であり、pflのパーソナライズされたモデルは通常、パーソナライズ(通常ローカルモデルから)とトレーニングモデルでの一般化(通常グローバルモデルから)の間のトレードオフを追求する。 従来のfl法は、よく開発されたグローバルモデルとローカルモデルの両方のため、この目標を達成できない。 一般的なPFLアプローチは、通常、局所モデルのトレーニングプロセスを導き、適切な一般化の度合いをそれらに移すためのグローバルモデルを維持する。 しかし、唯一のグローバルモデルは1つの一般化の方向しか提供できず、複数のローカルデータセットにまたがる豊富な統計学的多様性が存在する場合、いくつかのローカルモデルに負の影響を伝達する可能性さえある。 我々の観測から、ほとんどの実データや合成データの分布はある程度クラスター化されがちであり、一般化の異なる方向がPFLを促進すると論じている。 本稿では,FLにおける統計的不均一性の問題に対処するため,クラスタ化一般化という新しい概念を提案する。 具体的には、サーバ内の複数のグローバル(一般化された)モデルを維持し、クライアントの対応するローカルモデルクラスタの量に関連付けるとともに、PFLを効率よく堅牢に解決できる二段階最適化問題として定式化する。 また, 詳細な理論解析を行い, 滑らかな非凸目的に対する収束保証を提供する。 合成データと実データの両方における実験結果は、我々のアプローチが最先端をかなり上回っていることを示している。

We study the recent emerging personalized federated learning (PFL) that aims at dealing with the challenging problem of Non-I.I.D. data in the federated learning (FL) setting. The key difference between PFL and conventional FL lies in the training target, of which the personalized models in PFL usually pursue a trade-off between personalization (i.e., usually from local models) and generalization (i.e., usually from the global model) on trained models. Conventional FL methods can hardly meet this target because of their both well-developed global and local models. The prevalent PFL approaches usually maintain a global model to guide the training process of local models and transfer a proper degree of generalization to them. However, the sole global model can only provide one direction of generalization and may even transfer negative effects to some local models when rich statistical diversity exists across multiple local datasets. Based on our observation, most real or synthetic data distributions usually tend to be clustered to some degree, of which we argue different directions of generalization can facilitate the PFL. In this paper, we propose a novel concept called clustered generalization to handle the challenge of statistical heterogeneity in FL. Specifically, we maintain multiple global (generalized) models in the server to associate with the corresponding amount of local model clusters in clients, and further formulate the PFL as a bi-level optimization problem that can be solved efficiently and robustly. We also conduct detailed theoretical analysis and provide the convergence guarantee for the smooth non-convex objectives. Experimental results on both synthetic and real datasets show that our approach surpasses the state-of-the-art by a significant margin.
翻訳日:2021-06-25 14:51:58 公開日:2021-06-24
# Fold2Seq:タンパク質設計のための複合配列(1D)-Fold(3D)埋め込みに基づく生成モデル

Fold2Seq: A Joint Sequence(1D)-Fold(3D ) Embedding-based Generative Model for Protein Design ( http://arxiv.org/abs/2106.13058v1 )

ライセンス: Link先を確認
Yue Cao and Payel Das and Vijil Chenthamarakshan and Pin-Yu Chen and Igor Melnyk and Yang Shen(参考訳) 所望の3Dトポロジカルフォールドのための新規なタンパク質配列を設計することは、タンパク質工学の基本的な作業である。 問題となるのは、複雑なシーケンス-フォールドの関係と、折りたたみ内のシーケンス(その構造と関数)の多様性を捉えるのが困難であることである。 このような課題を克服するため,我々は,特定の標的フォールドに条件付けられたタンパク質配列を設計するためのトランスフォーマティブベースの生成フレームワークfold2seqを提案する。 複雑なシーケンス-構造関係をモデル化するために、fold2seqは3dボクセル内の二次構造要素の密度からトランスフォーマーとフォールドを用いたシーケンス埋め込みを共同で学習する。 データ駆動の深部生成モデルや物理ベースのRosettaDesignを含む既存の最先端手法と比較して,Fold2Seqの高速,カバレッジ,信頼性の観点から,単一,高分解能,かつ完全な構造入力を持つテストセットについて,Fold2Seqの性能および同等の性能を実証した。 fold-based fold2seqのユニークな利点は、構造ベースの深層モデルやrosettadesignと比較して、低品質、不完全、曖昧な入力構造に由来する3つの実世界の課題においてより顕著になる。 ソースコードとデータはhttps://github.com/i bm/fold2seqで入手できる。

Designing novel protein sequences for a desired 3D topological fold is a fundamental yet non-trivial task in protein engineering. Challenges exist due to the complex sequence--fold relationship, as well as the difficulties to capture the diversity of the sequences (therefore structures and functions) within a fold. To overcome these challenges, we propose Fold2Seq, a novel transformer-based generative framework for designing protein sequences conditioned on a specific target fold. To model the complex sequence--structure relationship, Fold2Seq jointly learns a sequence embedding using a transformer and a fold embedding from the density of secondary structural elements in 3D voxels. On test sets with single, high-resolution and complete structure inputs for individual folds, our experiments demonstrate improved or comparable performance of Fold2Seq in terms of speed, coverage, and reliability for sequence design, when compared to existing state-of-the-art methods that include data-driven deep generative models and physics-based RosettaDesign. The unique advantages of fold-based Fold2Seq, in comparison to a structure-based deep model and RosettaDesign, become more evident on three additional real-world challenges originating from low-quality, incomplete, or ambiguous input structures. Source code and data are available at https://github.com/I BM/fold2seq.
翻訳日:2021-06-25 14:51:28 公開日:2021-06-24
# 確率射影分割:複数正規化器を用いたサドルポイント問題の解法

Stochastic Projective Splitting: Solving Saddle-Point Problems with Multiple Regularizers ( http://arxiv.org/abs/2106.13067v1 )

ライセンス: Link先を確認
Patrick R. Johnstone, Jonathan Eckstein, Thomas Flynn, Shinjae Yoo(参考訳) 本稿では,単調包含問題に対する射影分割(ps)系の新しい確率的変種を提案する。 グラデーション降下上昇に伴う収束問題やそのような状況における現在のデファクト標準アプローチを伴わない、ロバストMLのようなアプリケーションで生じるmin-maxおよび非協調ゲーム定式化を解くことができる。 我々の提案は、(決定論的ではなく)確率的勾配オラクルを使用できるPSの最初のバージョンである。 また、複数の制約や非滑らかな正規化器をプロジェクションや近位演算子を介して容易に扱えるようにして、min-maxゲームを解決する最初の確率的方法でもある。 分布的に頑健なスパースロジスティック回帰問題に関する数値実験に近づいた。

We present a new, stochastic variant of the projective splitting (PS) family of algorithms for monotone inclusion problems. It can solve min-max and noncooperative game formulations arising in applications such as robust ML without the convergence issues associated with gradient descent-ascent, the current de facto standard approach in such situations. Our proposal is the first version of PS able to use stochastic (as opposed to deterministic) gradient oracles. It is also the first stochastic method that can solve min-max games while easily handling multiple constraints and nonsmooth regularizers via projection and proximal operators. We close with numerical experiments on a distributionally robust sparse logistic regression problem.
翻訳日:2021-06-25 14:51:00 公開日:2021-06-24
# salt: sea lice adaptive lattice tracking -- 改良された海洋モデルを生成するための教師なしアプローチ

SALT: Sea lice Adaptive Lattice Tracking -- An Unsupervised Approach to Generate an Improved Ocean Model ( http://arxiv.org/abs/2106.13202v1 )

ライセンス: Link先を確認
Ju An Park, Vikram Voleti, Kathryn E. Thomas, Alexander Wong and Jason L. Deglint(参考訳) 気候変動による海洋の温暖化は、海藻としても知られる生態寄生性の甲殻類の増加につながり、野生のサケの個体数に重大な生態的損失をもたらし、養殖場に大きな経済的損失をもたらす可能性がある。 海藻群集の拡散を駆動する主な輸送機構は、地表付近の海流である。 現在、海藻の分布を推定する戦略は計算的に複雑であり、本格的解析に限界がある。 そこで本研究では,海藻の分散分布と空間分布を効率的に推定するために,海藻適応格子追跡手法を提案する。 具体的には、局所的な海洋特性に基づいて、オーシャンモデルの格子グラフにノードをマージすることで、適応的な空間メッシュを生成する。 SALTはノルウェーのHardangerfjordの地中電流データを用いて,標準手法との整合性を保ちながら効率の向上を示す。 提案手法は, 変動する気候下での海洋ライス寄生圧マップの予測モデルにより, 積極的養殖管理の促進を約束するものである。

Warming oceans due to climate change are leading to increased numbers of ectoparasitic copepods, also known as sea lice, which can cause significant ecological loss to wild salmon populations and major economic loss to aquaculture sites. The main transport mechanism driving the spread of sea lice populations are near-surface ocean currents. Present strategies to estimate the distribution of sea lice larvae are computationally complex and limit full-scale analysis. Motivated to address this challenge, we propose SALT: Sea lice Adaptive Lattice Tracking approach for efficient estimation of sea lice dispersion and distribution in space and time. Specifically, an adaptive spatial mesh is generated by merging nodes in the lattice graph of the Ocean Model based on local ocean properties, thus enabling highly efficient graph representation. SALT demonstrates improved efficiency while maintaining consistent results with the standard method, using near-surface current data for Hardangerfjord, Norway. The proposed SALT technique shows promise for enhancing proactive aquaculture management through predictive modelling of sea lice infestation pressure maps in a changing climate.
翻訳日:2021-06-25 14:50:49 公開日:2021-06-24
# AudioCLIP:CLIPを画像、テキスト、オーディオに拡張

AudioCLIP: Extending CLIP to Image, Text and Audio ( http://arxiv.org/abs/2106.13043v1 )

ライセンス: Link先を確認
Andrey Guzhov, Federico Raue, J\"orn Hees, Andreas Dengel(参考訳) 過去には、音の分類の急速な発展は、他の領域からの手法の適用から大きな恩恵を受けている。 今日、我々はドメイン固有のタスクとアプローチを融合する傾向を観察し、コミュニティに新しい優れたモデルを提供する。 本稿では,テキストや画像に加えて音声を扱うCLIPモデルの拡張について述べる。 提案モデルでは,AudioSetデータセットを用いてESResNeXtオーディオモデルをCLIPフレームワークに組み込む。 このような組み合わせにより、提案モデルでは、ゼロショット推論方式で見えないデータセットに一般化するCLIPの能力を保ちながら、バイモーダルとアンモダルの分類とクエリを行うことができる。 AudioCLIPは、環境音分類(ESC)タスクにおいて、UrbanSound8Kで90.07%、ESC-50データセットで97.15%の精度で、他のアプローチよりも優れた、新しい最先端結果を達成する。 さらに、同じデータセットで0ショットのESCタスクにそれぞれ68.78%と69.40%の新しいベースラインを設定する。 最後に,提案モデルのクロスモーダルクエリ性能と,完全および部分的トレーニングが結果に与える影響についても評価した。 再現性のため、私たちのコードは公開されます。

In the past, the rapidly evolving field of sound classification greatly benefited from the application of methods from other domains. Today, we observe the trend to fuse domain-specific tasks and approaches together, which provides the community with new outstanding models. In this work, we present an extension of the CLIP model that handles audio in addition to text and images. Our proposed model incorporates the ESResNeXt audio-model into the CLIP framework using the AudioSet dataset. Such a combination enables the proposed model to perform bimodal and unimodal classification and querying, while keeping CLIP's ability to generalize to unseen datasets in a zero-shot inference fashion. AudioCLIP achieves new state-of-the-art results in the Environmental Sound Classification (ESC) task, out-performing other approaches by reaching accuracies of 90.07% on the UrbanSound8K and 97.15% on the ESC-50 datasets. Further it sets new baselines in the zero-shot ESC-task on the same datasets 68.78% and 69.40%, respectively). Finally, we also assess the cross-modal querying performance of the proposed model as well as the influence of full and partial training on the results. For the sake of reproducibility, our code is published.
翻訳日:2021-06-25 14:50:25 公開日:2021-06-24
# 戦略分類のための代替マイクロファウンデーション

Alternative Microfoundations for Strategic Classification ( http://arxiv.org/abs/2106.12705v1 )

ライセンス: Link先を確認
Meena Jagadeesan, Celestine Mendler-D\"unner, Moritz Hardt(参考訳) 機械学習のコンテキストにおける戦略的行動について推論する場合、合理的エージェントの標準的なマイクロファウンデーションと統計的決定理論を基礎とする分類を組み合わせる傾向があります。 本稿では,これらの標準成分の直接的な組み合わせが,限定的な記述的価値と規範的価値という脆い解概念につながることを論じる。 まず,完全情報を持つ有理エージェントが,経験的に観察されない決定規則に対する集合的応答の不連続を生じさせることを示す。 第二に、任意の正のエージェントが完全に戦略的でない場合、望ましい安定点 -- 分類器が必要とするデータに対して最適である -- が存在しなくなる。 第3に、標準的なマイクロファウンデーションの下での最適決定規則は、エージェントの行動に関する幅広い仮定の中で社会的負担として知られる負の外部性の尺度を最大化する。 これらの制限を認識して、バイナリ分類のための標準マイクロファウンデーションに代わる方法を模索する。 まず、エージェントが決定ルールにどう反応するかに関する考えられる仮定の空間をナビゲートするのに役立つデシデラタのセットを記述することから始める。 特に,特徴操作に関する自然な制約を分析し,安定点の存在を保証するのに十分な特性について論じる。 これらの知見に基づいて,ノイズ応答モデルを提案する。 平滑化分析と経験的観察から着想を得たノイズ応答はエージェント応答に不完全性が組み込まれ、標準マイクロファウンデーションの限界を緩和する。 モデルでは, 分析性を維持し, 安定点に対するより強固な洞察を導き, 最適な社会的負担を少なくする。

When reasoning about strategic behavior in a machine learning context it is tempting to combine standard microfoundations of rational agents with the statistical decision theory underlying classification. In this work, we argue that a direct combination of these standard ingredients leads to brittle solution concepts of limited descriptive and prescriptive value. First, we show that rational agents with perfect information produce discontinuities in the aggregate response to a decision rule that we often do not observe empirically. Second, when any positive fraction of agents is not perfectly strategic, desirable stable points -- where the classifier is optimal for the data it entails -- cease to exist. Third, optimal decision rules under standard microfoundations maximize a measure of negative externality known as social burden within a broad class of possible assumptions about agent behavior. Recognizing these limitations we explore alternatives to standard microfoundations for binary classification. We start by describing a set of desiderata that help navigate the space of possible assumptions about how agents respond to a decision rule. In particular, we analyze a natural constraint on feature manipulations, and discuss properties that are sufficient to guarantee the robust existence of stable points. Building on these insights, we then propose the noisy response model. Inspired by smoothed analysis and empirical observations, noisy response incorporates imperfection in the agent responses, which we show mitigates the limitations of standard microfoundations. Our model retains analytical tractability, leads to more robust insights about stable points, and imposes a lower social burden at optimality.
翻訳日:2021-06-25 14:49:09 公開日:2021-06-24
# 熱音響不安定のモデル化と予測のための神経ode

Neural ODE to model and prognose thermoacoustic instability ( http://arxiv.org/abs/2106.12758v1 )

ライセンス: Link先を確認
Jayesh Dhadphale, Vishnu R. Unni, Abhishek Saha, R. I. Sujith(参考訳) 反応流系では、高振幅圧力変動を特徴とする熱音響不安定性は、非定常熱放出率と燃焼器の音場との正の結合によって駆動される。 系の制御パラメータが変化し, 熱音響不安定に近づくと, 音圧振動と放熱速度振動が同期する。 その結果、乱流燃焼器における熱音響不安定の開始時、系ダイナミクスはカオス振動から間欠的な状態を経て周期振動へと遷移する。 熱音響系は伝統的に非定常熱源と音響サブシステムのモデルを結合してモデル化され、それぞれ独立に推定される。 非定常熱源、火炎、音響揺らぎに対する応答は、外部非定常強制を導入することで特徴づけられる。 これにより、音響摂動に対する火炎の非線形応答を得るための強力な励起モジュールが必要となる。 個々のサブシステムを特徴づける代わりに、熱音響系全体をモデル化する神経常微分方程式(neural ODE)フレームワークを導入する。 熱音響系のニューラルODEモデルは、外部摂動を導入することなく同時に測定される熱放出率と圧力変動の時系列を用いて、それらの相互作用をモデル化する。 さらに、ニューラルオードのパラメータを用いて、系の力学の近接を示す異常測度を定義し、サイクル振動を制限することにより、熱音響不安定の開始に対する早期警報信号を提供する。

In reacting flow systems, thermoacoustic instability characterized by high amplitude pressure fluctuations, is driven by a positive coupling between the unsteady heat release rate and the acoustic field of the combustor. When the underlying flow is turbulent, as a control parameter of the system is varied and the system approach thermoacoustic instability, the acoustic pressure oscillations synchronize with heat release rate oscillations. Consequently, during the onset of thermoacoustic instability in turbulent combustors, the system dynamics transition from chaotic oscillations to periodic oscillations via a state of intermittency. Thermoacoustic systems are traditionally modeled by coupling the model for the unsteady heat source and the acoustic subsystem, each estimated independently. The response of the unsteady heat source, the flame, to acoustic fluctuations are characterized by introducing external unsteady forcing. This necessitates a powerful excitation module to obtain the nonlinear response of the flame to acoustic perturbations. Instead of characterizing individual subsystems, we introduce a neural ordinary differential equation (neural ODE) framework to model the thermoacoustic system as a whole. The neural ODE model for the thermoacoustic system uses time series of the heat release rate and the pressure fluctuations, measured simultaneously without introducing any external perturbations, to model their coupled interaction. Further, we use the parameters of neural ODE to define an anomaly measure that represents the proximity of system dynamics to limit cycle oscillations and thus provide an early warning signal for the onset of thermoacoustic instability.
翻訳日:2021-06-25 14:48:45 公開日:2021-06-24
# 密度制約強化学習

Density Constrained Reinforcement Learning ( http://arxiv.org/abs/2106.12764v1 )

ライセンス: Link先を確認
Zengyi Qin, Yuxiao Chen, Chuchu Fan(参考訳) 本研究では,従来検討されていた値関数ではなく,状態密度関数に直接制約を設定することによって,制約付き強化学習(CRL)を新しい視点から研究する。 状態密度は、明確な物理的および数学的解釈を持ち、リソース制限や安全要件といった幅広い制約を表現できる。 密度制約はまた、システム仕様をエンコードする値関数ベースの制約によって要求されるコスト関数の設計とチューニングの時間を要するプロセスを避けることができる。 密度関数とq関数の双対性を利用して、密度制約付きrl問題を最適に解く効果的なアルゴリズムを開発し、制約を満たすことを保証した。 提案アルゴリズムは, ポリシー更新が不完全である場合でも, 境界誤差のある準最適解に収束することを示す。 我々は,最先端のcrl法に対するアプローチの利点を実証するために,一連の包括的な実験を行い,安全性・ジャイムなどの標準crlベンチマークと同様に,幅広い密度制約タスクを行った。

We study constrained reinforcement learning (CRL) from a novel perspective by setting constraints directly on state density functions, rather than the value functions considered by previous works. State density has a clear physical and mathematical interpretation, and is able to express a wide variety of constraints such as resource limits and safety requirements. Density constraints can also avoid the time-consuming process of designing and tuning cost functions required by value function-based constraints to encode system specifications. We leverage the duality between density functions and Q functions to develop an effective algorithm to solve the density constrained RL problem optimally and the constrains are guaranteed to be satisfied. We prove that the proposed algorithm converges to a near-optimal solution with a bounded error even when the policy update is imperfect. We use a set of comprehensive experiments to demonstrate the advantages of our approach over state-of-the-art CRL methods, with a wide range of density constrained tasks as well as standard CRL benchmarks such as Safety-Gym.
翻訳日:2021-06-25 14:48:22 公開日:2021-06-24
# se(3)多様体上のhamiltonian-based neural ode networkによるダイナミクス学習と制御

Hamiltonian-based Neural ODE Networks on the SE(3) Manifold For Dynamics Learning and Control ( http://arxiv.org/abs/2106.12782v1 )

ライセンス: Link先を確認
Thai Duong and Nikolay Atanasov(参考訳) ロボットのダイナミクスの正確なモデルは、安全で安定した制御と新しい操作条件への一般化に不可欠である。 しかし、手動で設計したモデルは、注意深いパラメータチューニングの後でも精度が不十分である可能性がある。 これにより、状態制御トラジェクトリのトレーニングセット上で、ロボットのダイナミクスを近似するための機械学習技術の使用が動機となる。 地上、空中、水中の車両を含む多くのロボットのダイナミクスは、se(3)のポーズと一般的な速度で記述され、エネルギー原理の保存を満足している。 本稿では,神経常微分方程式(ode)ネットワークの構造のse(3)多様体上でのハミルトンの定式化を提案し,剛体のダイナミクスを近似する。 ブラックボックスODEネットワークとは対照的に,我々の定式化は建設による全エネルギー保存を保証する。 本研究は, 学習された低アクチュエータSE(3)ハミルトン力学のエネルギー形状制御と減衰注入制御を開発し, 振子系, 剛体系, 四角形系など, 各種プラットフォームでの安定化と軌道追尾の統一的手法を実現する。

Accurate models of robot dynamics are critical for safe and stable control and generalization to novel operational conditions. Hand-designed models, however, may be insufficiently accurate, even after careful parameter tuning. This motivates the use of machine learning techniques to approximate the robot dynamics over a training set of state-control trajectories. The dynamics of many robots, including ground, aerial, and underwater vehicles, are described in terms of their SE(3) pose and generalized velocity, and satisfy conservation of energy principles. This paper proposes a Hamiltonian formulation over the SE(3) manifold of the structure of a neural ordinary differential equation (ODE) network to approximate the dynamics of a rigid body. In contrast to a black-box ODE network, our formulation guarantees total energy conservation by construction. We develop energy shaping and damping injection control for the learned, potentially under-actuated SE(3) Hamiltonian dynamics to enable a unified approach for stabilization and trajectory tracking with various platforms, including pendulum, rigid-body, and quadrotor systems.
翻訳日:2021-06-25 14:48:06 公開日:2021-06-24
# GNMR:低位行列回復のための証明可能な一線アルゴリズム

GNMR: A provable one-line algorithm for low rank matrix recovery ( http://arxiv.org/abs/2106.12933v1 )

ライセンス: Link先を確認
Pini Zilber and Boaz Nadler(参考訳) 行列補完や行列センシングを含む低ランク行列回復問題は、幅広い応用に現れる。 本稿では、ガウス・ニュートン線形化に基づく低階行列回復のための極めて単純な反復アルゴリズム GNMR を提案する。 理論的には、行列センシングと行列完了設定の両方において、GNMRの回復保証を導出する。 gnmrの重要な性質は、因子行列をその反復を通じてほぼ平衡に保つことである。 実験面では,一様サンプリングによる行列補完では,GNMRはいくつかの一般的な手法よりも優れており,特に情報限界に近づいた観測は少ない。

Low rank matrix recovery problems, including matrix completion and matrix sensing, appear in a broad range of applications. In this work we present GNMR -- an extremely simple iterative algorithm for low rank matrix recovery, based on a Gauss-Newton linearization. On the theoretical front, we derive recovery guarantees for GNMR in both the matrix sensing and matrix completion settings. A key property of GNMR is that it implicitly keeps the factor matrices approximately balanced throughout its iterations. On the empirical front, we show that for matrix completion with uniform sampling, GNMR performs better than several popular methods, especially when given very few observations close to the information limit.
翻訳日:2021-06-25 14:47:47 公開日:2021-06-24
# fund2vec:グラフ学習による相互資金の類似性

Fund2Vec: Mutual Funds Similarity using Graph Learning ( http://arxiv.org/abs/2106.12987v1 )

ライセンス: Link先を確認
Vipul Satone, Dhruv Desai, Dhagash Mehta(参考訳) 基礎となるポートフォリオに関する類似した相互資金の特定は、ファンドレコメンデーションシステム、競合分析、ポートフォリオ分析、マーケティングとセールスなど、金融サービスにおける多くの応用を見出した。 伝統的な手法は定性的であり、バイアスになりやすく、しばしば再現できない、または、生のデータからポートフォリオ内の全てのニュアンス(非線形性)を捉えないことが知られている。 本稿では,ネットワークの埋め込み低次元表現を学習する高度な機械学習手法であるnode2vecを用いて,資金の重み付け2部ネットワーク表現とその基盤資産データに基づく類似資金の同定手法を提案する。 埋め込み \emph{Fund2Vec} と呼ぶ。 私たちの研究は、ポートフォリオ間の構造的類似性を単にポートフォリオの重複ではなく識別する、ファンド・アセット・ネットワークの重み付けされた2部ネットワーク表現に関する最初の研究である。

Identifying similar mutual funds with respect to the underlying portfolios has found many applications in financial services ranging from fund recommender systems, competitors analysis, portfolio analytics, marketing and sales, etc. The traditional methods are either qualitative, and hence prone to biases and often not reproducible, or, are known not to capture all the nuances (non-linearities) among the portfolios from the raw data. We propose a radically new approach to identify similar funds based on the weighted bipartite network representation of funds and their underlying assets data using a sophisticated machine learning method called Node2Vec which learns an embedded low-dimensional representation of the network. We call the embedding \emph{Fund2Vec}. Ours is the first ever study of the weighted bipartite network representation of the funds-assets network in its original form that identifies structural similarity among portfolios as opposed to merely portfolio overlaps.
翻訳日:2021-06-25 14:47:17 公開日:2021-06-24
# 浅い表現は深い:不確実性認識と最悪のランダム特徴ダイナミクスの学習

Shallow Representation is Deep: Learning Uncertainty-aware and Worst-case Random Feature Dynamics ( http://arxiv.org/abs/2106.13066v1 )

ライセンス: Link先を確認
Diego Agudelo-Espa\~na, Yassine Nemmour, Bernhard Sch\"olkopf, Jia-Jie Zhu(参考訳) ランダム特徴は、カーネルメソッドの理論的な厳密性を継承し、現代の学習タスクにスケールアップできる強力な普遍関数近似器である。 本稿では、不確実なシステムモデルを普遍再生カーネルヒルベルト空間における未知あるいは不確実な滑らかな関数とみなす。 浅層ベイズ型ニューラルネットワークと等価な不確定なパラメータを持つランダム特徴を用いて、一段階のダイナミクス関数を直接近似することにより、力学系全体を多層ニューラルネットワークと見なす。 ハミルトン力学の構造をエクスプロイトすると、ポントリャーギンの最小原理を用いた最悪の場合のダイナミクスの実現は、ディープネット上でフランク・ウルフアルゴリズムを実行することと等価であることを示す。 動的学習に関する様々な数値実験は、モデリング手法の能力を示している。

Random features is a powerful universal function approximator that inherits the theoretical rigor of kernel methods and can scale up to modern learning tasks. This paper views uncertain system models as unknown or uncertain smooth functions in universal reproducing kernel Hilbert spaces. By directly approximating the one-step dynamics function using random features with uncertain parameters, which are equivalent to a shallow Bayesian neural network, we then view the whole dynamical system as a multi-layer neural network. Exploiting the structure of Hamiltonian dynamics, we show that finding worst-case dynamics realizations using Pontryagin's minimum principle is equivalent to performing the Frank-Wolfe algorithm on the deep net. Various numerical experiments on dynamics learning showcase the capacity of our modeling methodology.
翻訳日:2021-06-25 14:46:39 公開日:2021-06-24
# 密度汎関数近似をテームする機械学習--コンセンサス材料設計の原理への新たな道

Machine learning to tame divergent density functional approximations: a new path to consensus materials design principles ( http://arxiv.org/abs/2106.13109v1 )

ライセンス: Link先を確認
Chenru Duan, Shuxin Chen, Michael G. Taylor, Fang Liu, and Heather J. Kulik(参考訳) 高速材料発見には,密度汎関数理論 (DFT) と機械学習 (ML) の加速による仮想高スループットスクリーニング (VHTS) が不可欠である。 必要により、単一の密度汎関数近似(DFA)を用いて効率的なDFTベースのワークフローを実行する。 しかしながら、異なるdfaで評価された特性は、高速スクリーニングが最も必要であり、正確なベンチマークがしばしば利用できない電子構造(例えば、開殻遷移金属錯体、tmcs)において異なうことが期待できる。 DFAバイアスの効果を定量化するために、我々は、複数の家族と「群」にまたがる23の代表的DFA(例えば、半局所から二重ハイブリッド)と2000以上のMCCの基底セットから、迅速に特性予測を得るアプローチを導入する。 計算特性(例えばスピン状態秩序とフロンティア軌道ギャップ)はDFAによって自然に異なるが、高線形相関は全てのDFAにわたって持続する。 DFA毎に独立したMLモデルをトレーニングし、特徴重要度における収束傾向を観察する。 我々は、23のDFAすべてから情報を得たMLモデルを訓練し、182k以上のTMCの特性(例えばスピン分割エネルギー)を予測する戦略を考案した。 ANNが予測するDFA特性のコンセンサスを必要とすることにより、典型的に用いられる単一DFAアプローチに対して、これらの計算鉛化合物と文学的な化合物との対応性を改善する。 特徴分析とコンセンサスに基づくMLは、実用的なDFTの精度制限を克服するために、効率的で代替的なパスを提供する。

Computational virtual high-throughput screening (VHTS) with density functional theory (DFT) and machine-learning (ML)-acceleration is essential in rapid materials discovery. By necessity, efficient DFT-based workflows are carried out with a single density functional approximation (DFA). Nevertheless, properties evaluated with different DFAs can be expected to disagree for the cases with challenging electronic structure (e.g., open shell transition metal complexes, TMCs) for which rapid screening is most needed and accurate benchmarks are often unavailable. To quantify the effect of DFA bias, we introduce an approach to rapidly obtain property predictions from 23 representative DFAs spanning multiple families and "rungs" (e.g., semi-local to double hybrid) and basis sets on over 2,000 TMCs. Although computed properties (e.g., spin-state ordering and frontier orbital gap) naturally differ by DFA, high linear correlations persist across all DFAs. We train independent ML models for each DFA and observe convergent trends in feature importance; these features thus provide DFA-invariant, universal design rules. We devise a strategy to train ML models informed by all 23 DFAs and use them to predict properties (e.g., spin-splitting energy) of over 182k TMCs. By requiring consensus of the ANN-predicted DFA properties, we improve correspondence of these computational lead compounds with literature-mined, experimental compounds over the single-DFA approach typically employed. Both feature analysis and consensus-based ML provide efficient, alternative paths to overcome accuracy limitations of practical DFT.
翻訳日:2021-06-25 14:46:26 公開日:2021-06-24
# (参考訳) 熱源系の温度場再構成のための物理インフォームド深可逆回帰モデル [全文訳有]

Physics-Informed Deep Reversible Regression Model for Temperature Field Reconstruction of Heat-Source Systems ( http://arxiv.org/abs/2106.11929v2 )

ライセンス: CC0 1.0
Zhiqiang Gong and Weien Zhou and Jun Zhang and Wei Peng and Wen Yao(参考訳) 工学系における熱源成分の寿命における温度モニタリングは、これらの熱源の正常な作業と長時間の作業性を確保するために必須となる。 しかし、主に補間推定を用いて限られた観測点から温度値で温度場全体を再構成する従来の手法では、正確な推定には大量の温度テンソルが必要となる。 これにより、システムの可用性と信頼性が低下し、監視コストが大幅に増加する可能性がある。 さらに、深層モデルのトレーニングには限定されたラベル付きトレーニングサンプルが利用可能である。 この問題を解決するために,熱源系(TFR-HSS)の温度場再構成のための物理インフォームド深部可逆回帰モデルを開発した。 まず,熱源系の温度場再構成タスクを数学的に定義し,問題を数値的にモデル化し,さらにこれを画像から画像への回帰問題に変換する。 次に, 深層モデルの前方および後方伝播の法則に基づき, 境界付近の物理情報をより良く学習し, 復元性能を向上させる深層可逆回帰モデルを開発した。 最後に,熱伝導の物理的特性と境界条件を考慮し,4つのトレーニング損失を含む物理に変形した再構成損失を提案し,これらの損失を教師なしで深層サロゲートモデルを学ぶ。 TFR-HSSタスクに対する物理インフォームド深部可逆回帰モデルの有効性と有効性を示すため、典型的な2次元熱源系に対して実験を行った。

Temperature monitoring during the life time of heat source components in engineering systems becomes essential to ensure the normal work and even the long working life of these heat sources. However, prior methods, which mainly use the interpolate estimation to reconstruct the whole temperature field with the temperature value from limited monitoring points, require large amounts of temperature tensors for an accurate estimation. This may decrease the availability and reliability of the system and sharply increase the monitoring cost. Furthermore, limited number of labelled training samples are available for the training of deep models. To solve this problem, this work develops a novel physics-informed deep reversible regression models for temperature field reconstruction of heat-source systems (TFR-HSS), which can better reconstruct the temperature field with the given limited monitoring points unsupervisedly. First, we define the temperature field reconstruction task of heat-source systems mathematically, numerically model the problem, and further transform the problem as an image-to-image regression problem. Then, based on the law of forward and backward propagation of deep models, this work develops the deep reversible regression model which can better learn the physical information near the boundary and improve the reconstruction performance. Finally, considering the physical characteristics of heat conduction as well as the boundary conditions, this work proposes the physics-informed reconstruction loss including four training losses and joint learns the deep surrogate model with these losses unsupervisedly. Experimental studies have conducted over typical two-dimensional heat-source systems to demonstrate the effectiveness and efficiency of the proposed physics-informed deep reversible regression models for TFR-HSS task.
翻訳日:2021-06-25 12:20:31 公開日:2021-06-24
# (参考訳) 形態的にリッチな言語に対する語彙制約付き機械翻訳 [全文訳有]

End-to-End Lexically Constrained Machine Translation for Morphologically Rich Languages ( http://arxiv.org/abs/2106.12398v2 )

ライセンス: CC BY 4.0
Josef Jon and Jo\~ao Paulo Aires and Du\v{s}an Vari\v{s} and Ond\v{r}ej Bojar(参考訳) 語彙的に制約された機械翻訳では、特定の単語やフレーズの存在や欠如を強制して出力文を操作できる。 現在のアプローチでは、翻訳に現れる用語を強制することはできるが、制約語形式を生成された出力の他の部分と一致させるのに苦労することが多い。 手動分析の結果、英語からチェコ語への翻訳における基準制約モデルの出力エラーの46%が合意に関連していることがわかった。 本研究は, 機械翻訳による単語の正しいインフレクションを許容する機構について検討する。 特に,入力シーケンスの一部として制約を付与したモデルトレーニングに基づく手法に着目した。 本手法は, 自動評価と手動評価の両方における制約項の翻訳を, 一致の誤りを減らすことにより改善することを示す。 提案手法は,新しい誤りや翻訳の全体的な品質を低下させることなく,屈折誤差を除去する。

Lexically constrained machine translation allows the user to manipulate the output sentence by enforcing the presence or absence of certain words and phrases. Although current approaches can enforce terms to appear in the translation, they often struggle to make the constraint word form agree with the rest of the generated output. Our manual analysis shows that 46% of the errors in the output of a baseline constrained model for English to Czech translation are related to agreement. We investigate mechanisms to allow neural machine translation to infer the correct word inflection given lemmatized constraints. In particular, we focus on methods based on training the model with constraints provided as part of the input sequence. Our experiments on the English-Czech language pair show that this approach improves the translation of constrained terms in both automatic and manual evaluation by reducing errors in agreement. Our approach thus eliminates inflection errors, without introducing new errors or decreasing the overall quality of the translation.
翻訳日:2021-06-25 11:58:00 公開日:2021-06-24
# (参考訳) ニューラルファッション画像のキャプション : データ多様性の会計 [全文訳有]

Neural Fashion Image Captioning : Accounting for Data Diversity ( http://arxiv.org/abs/2106.12154v2 )

ライセンス: CC BY-SA 4.0
Gilles Hacheme, Noureini Sayouti(参考訳) 画像キャプションはアプリケーション分野が拡大しており、ファッションも例外ではない。 自動アイテム記述を持つことは、何十万もの画像をホストするファッションwebプラットフォームにとって非常に興味深いことです。 本論文はファッション画像のキャプションを初めて行う手法の1つである。 InFashAIv1データセットには、約16万のアフリカのファッションアイテムイメージとそのタイトル、価格、一般的な説明が含まれている。 InFashAIv1に加えて、よく知られたDeepFashionデータセットも使用しました。 キャプションはCNNエンコーダとRNNデコーダで作られたShow and Tellモデルを使って生成される。 両データセットのモデルを共同でトレーニングすることで,アフリカのスタイルのファッションイメージのキャプション品質が向上し,西洋スタイルのデータからの移行学習が示唆された。 infashaiv1データセットはgithubでリリースされ、より多様性のある作業を促進する。

Image captioning has increasingly large domains of application, and fashion is not an exception. Having automatic item descriptions is of great interest for fashion web platforms hosting sometimes hundreds of thousands of images. This paper is one of the first tackling image captioning for fashion images. To contribute addressing dataset diversity issues, we introduced the InFashAIv1 dataset containing almost 16.000 African fashion item images with their titles, prices and general descriptions. We also used the well known DeepFashion dataset in addition to InFashAIv1. Captions are generated using the Show and Tell model made of CNN encoder and RNN Decoder. We showed that jointly training the model on both datasets improves captions quality for African style fashion images, suggesting a transfer learning from Western style data. The InFashAIv1 dataset is released on Github to encourage works with more diversity inclusion.
翻訳日:2021-06-25 11:33:12 公開日:2021-06-24
# グレースフル劣化と関連分野

Graceful Degradation and Related Fields ( http://arxiv.org/abs/2106.11119v2 )

ライセンス: Link先を確認
Jack Dymond(参考訳) 機械学習モデルが、トレーニング対象の分布外にあるデータに遭遇すると、不適切な振る舞いをする傾向があり、最も顕著なのは、誤った予測における過度な自信である。 このような行動は、現実世界の機械学習システムに破壊的な影響を与える。 この分野では、優雅な分解は、この分散データに遭遇するモデル性能の最適化を指す。 この研究は、優雅な劣化の定義と議論であり、どのようにデプロイされた視覚システムに適用できるかを示す。 この後、関連する分野の調査が行われ、優雅な分解問題をアクティブかつパッシブなアプローチに分割する。 受動的アプローチでは、優雅な劣化は自己完結した方法でモデルによって処理され達成され、アクティブアプローチでは、疫学的不確実性に遭遇するとモデルが更新される。 この研究は問題の重要性を伝え、優雅な劣化を認識した機械学習戦略の開発を促進することを目的としている。

When machine learning models encounter data which is out of the distribution on which they were trained they have a tendency to behave poorly, most prominently over-confidence in erroneous predictions. Such behaviours will have disastrous effects on real-world machine learning systems. In this field graceful degradation refers to the optimisation of model performance as it encounters this out-of-distribution data. This work presents a definition and discussion of graceful degradation and where it can be applied in deployed visual systems. Following this a survey of relevant areas is undertaken, novelly splitting the graceful degradation problem into active and passive approaches. In passive approaches, graceful degradation is handled and achieved by the model in a self-contained manner, in active approaches the model is updated upon encountering epistemic uncertainties. This work communicates the importance of the problem and aims to prompt the development of machine learning strategies that are aware of graceful degradation.
翻訳日:2021-06-25 11:21:39 公開日:2021-06-24
# Trinity: 複雑な空間データセットのためのノーコードAIプラットフォーム

Trinity: A No-Code AI platform for complex spatial datasets ( http://arxiv.org/abs/2106.11756v3 )

ライセンス: Link先を確認
C.V.Krishnakumar Iyer, Feili Hou, Henry Wang, Yonghong Wang, Kay Oh, Swetava Ganguli, Vipul Pandey(参考訳) 本稿では,機械学習研究者と非技術領域の専門家の両方が,さまざまな複雑な問題を解決するために,ドメイン固有の信号やデータセットを実験可能にすることを目的として,trinityと呼ばれる非コード人工知能(ai)プラットフォームを提案する。 この多様な問題を解決する汎用性は、複雑な時空間データセットを変換して、標準的なディープラーニングモデル、この場合、畳み込みニューラルネットワーク(cnns)によって利用しやすくし、標準的な方法で異なる問題を定式化する能力を与えることによって達成される。 セマンティクスのセグメンテーション。 複雑な機能エンジニアリング、ディープラーニングカーネル、スケーラブルなデータ処理メカニズムのデリバティブをホストする機能ストアである直感的なユーザインターフェースによって、Trinityは、ドメインの専門家がビジネスクリティカルな問題を解決する上で、科学者やエンジニアとステージを共有するための強力なプラットフォームを提供する。 迅速なプロトタイピングと迅速な実験を可能にし、モデルの構築とデプロイを標準化することで、生産までの時間を短縮する。 本稿では,Trinityとその設計の背景にある私たちのモチベーションとサンプルアプリケーションを展示することで,AIを用いたバーを低くするというアイデアを動機づける。

We present a no-code Artificial Intelligence (AI) platform called Trinity with the main design goal of enabling both machine learning researchers and non-technical geospatial domain experts to experiment with domain-specific signals and datasets for solving a variety of complex problems on their own. This versatility to solve diverse problems is achieved by transforming complex Spatio-temporal datasets to make them consumable by standard deep learning models, in this case, Convolutional Neural Networks (CNNs), and giving the ability to formulate disparate problems in a standard way, eg. semantic segmentation. With an intuitive user interface, a feature store that hosts derivatives of complex feature engineering, a deep learning kernel, and a scalable data processing mechanism, Trinity provides a powerful platform for domain experts to share the stage with scientists and engineers in solving business-critical problems. It enables quick prototyping, rapid experimentation and reduces the time to production by standardizing model building and deployment. In this paper, we present our motivation behind Trinity and its design along with showcasing sample applications to motivate the idea of lowering the bar to using AI.
翻訳日:2021-06-25 11:21:24 公開日:2021-06-24
# CPM-2:大規模費用対効果事前訓練言語モデル

CPM-2: Large-scale Cost-effective Pre-trained Language Models ( http://arxiv.org/abs/2106.10715v3 )

ライセンス: Link先を確認
Zhengyan Zhang, Yuxian Gu, Xu Han, Shengqi Chen, Chaojun Xiao, Zhenbo Sun, Yuan Yao, Fanchao Qi, Jian Guan, Pei Ke, Yanzheng Cai, Guoyang Zeng, Zhixing Tan, Zhiyuan Liu, Minlie Huang, Wentao Han, Yang Liu, Xiaoyan Zhu, Maosong Sun(参考訳) 近年,事前学習型言語モデル (PLM) のサイズは跳躍と境界によって増大している。 しかし、これらの大規模PLMの効率問題は現実のシナリオでの利用を制限する。 本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。 1)スクラッチからトレーニングモデルに代えて既存のplmを活用し,事前学習プロセスを高速化するために知識継承を導入する。 2)大規模PLMを用いた即時チューニングのベストプラクティスを検討する。 従来の微調整に比べて、プロンプトチューニングはタスク固有のパラメータの数を大幅に減少させる。 (3)計算資源が限られている大規模PLMを使用するための新しい推論ツールキットInfMoEを実装した。 コスト効率のよいパイプラインに基づいて、100億のパラメータを持つエンコーダ・デコーダバイリンガルモデル(CPM-2)と、1980億のパラメータを持つMoEバージョンという2つのモデルを事前訓練する。 実験では,下流タスクにおけるCPM-2とmT5を比較した。 実験の結果, CPM-2は汎用言語知能に優れていた。 さらに,InfMoEを1つのGPU上で数千億のパラメータを持つ大規模モデルの推論を行う際の効率を検証する。 すべてのソースコードとモデルパラメータはhttps://github.com/T singhuaAI/CPMで入手できる。

In recent years, the size of pre-trained language models (PLMs) has grown by leaps and bounds. However, efficiency issues of these large-scale PLMs limit their utilization in real-world scenarios. We present a suite of cost-effective techniques for the use of PLMs to deal with the efficiency issues of pre-training, fine-tuning, and inference. (1) We introduce knowledge inheritance to accelerate the pre-training process by exploiting existing PLMs instead of training models from scratch. (2) We explore the best practice of prompt tuning with large-scale PLMs. Compared with conventional fine-tuning, prompt tuning significantly reduces the number of task-specific parameters. (3) We implement a new inference toolkit, namely InfMoE, for using large-scale PLMs with limited computational resources. Based on our cost-effective pipeline, we pre-train two models: an encoder-decoder bilingual model with 11 billion parameters (CPM-2) and its corresponding MoE version with 198 billion parameters. In our experiments, we compare CPM-2 with mT5 on downstream tasks. Experimental results show that CPM-2 has excellent general language intelligence. Moreover, we validate the efficiency of InfMoE when conducting inference of large-scale models having tens of billions of parameters on a single GPU. All source code and model parameters are available at https://github.com/T singhuaAI/CPM.
翻訳日:2021-06-25 11:21:02 公開日:2021-06-24
# MG-DVD:動的不均一グラフ学習に基づくマルウェア検出のためのリアルタイムフレームワーク

MG-DVD: A Real-time Framework for Malware Variant Detection Based on Dynamic Heterogeneous Graph Learning ( http://arxiv.org/abs/2106.12288v2 )

ライセンス: Link先を確認
Chen Liu, Bo Li, Jun Zhao, Ming Su, Xu-Dong Liu(参考訳) 新たなマルウェアをリアルタイムで検出することは、サイバーリスクを軽減し、積極的に侵入を阻止するために重要である。 本稿では,動的異種グラフ学習に基づく新しい検出フレームワークMG-DVDを提案する。 特にmg-dvdは、マルウェア変異体の細かな実行イベントストリームを動的ヘテロジニアスグラフにモデル化し、マルウェアオブジェクト間の実世界のメタグラフを調査し、マルウェアとその変異種間のより識別的な悪意のある進化パターンを効果的に特徴付ける。 そして、MG-DVDは2つの動的ウォークに基づく異種グラフ学習法を示し、より包括的なマルウェアの表現を学習し、グラフ再学習のコストを大幅に削減する。 その結果、MG-DVDはマルウェアの変種をリアルタイムで検出する機能を備えており、意味のあるメタグラフを導入することにより、より優れた解釈性を示す。 大規模サンプルの総合的な実験により,提案したMG-DVDは,有効性と効率の観点から,マルウェアの変異を検出する最先端の手法より優れていることが示された。

Detecting the newly emerging malware variants in real time is crucial for mitigating cyber risks and proactively blocking intrusions. In this paper, we propose MG-DVD, a novel detection framework based on dynamic heterogeneous graph learning, to detect malware variants in real time. Particularly, MG-DVD first models the fine-grained execution event streams of malware variants into dynamic heterogeneous graphs and investigates real-world meta-graphs between malware objects, which can effectively characterize more discriminative malicious evolutionary patterns between malware and their variants. Then, MG-DVD presents two dynamic walk-based heterogeneous graph learning methods to learn more comprehensive representations of malware variants, which significantly reduces the cost of the entire graph retraining. As a result, MG-DVD is equipped with the ability to detect malware variants in real time, and it presents better interpretability by introducing meaningful meta-graphs. Comprehensive experiments on large-scale samples prove that our proposed MG-DVD outperforms state-of-the-art methods in detecting malware variants in terms of effectiveness and efficiency.
翻訳日:2021-06-25 11:20:42 公開日:2021-06-24