このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201118となっている論文です。

PDF登録状況(公開日: 20201118)

TitleAuthorsAbstract論文公表日・翻訳日
# 全スライド画像分割解析のための一般化ディープラーニングフレームワーク

A Generalized Deep Learning Framework for Whole-Slide Image Segmentation and Analysis ( http://arxiv.org/abs/2001.00258v2 )

ライセンス: Link先を確認
Mahendra Khened, Avinash Kori, Haran Rajkumar, Balaji Srinivasan, Ganapathy Krishnamurthi(参考訳) 病理組織分析は癌診断と予後における金の基準と考えられている。 これらの画像の大きさと潜在的ながん症例の増加を考えると、病理学者の助けとなる自動化された解決策が極めて望ましい。 近年,深層学習に基づく手法は,デジタル化スライドの分析を含む多種多様な画像解析タスクにおいて,技術成果の状況を提供してきた。 しかし, 画像サイズと病理組織学的タスクの変動性は, 病理組織学的画像解析のための統合的枠組みの開発を困難にしている。 組織組織解析のための深層学習フレームワークを提案する。 我々は,camlyon (breast cancer metastases), digestpath (colon cancer), paip (liver cancer) データセットを含むいくつかのオープンソースデータセット上で,トレーニングと推論を含むフレームワークの汎用性を示す。 本稿では,データとモデルに関する複数の不確実性,すなわちアレテータ型と認識型について論じる。 同時に,tgaデータを用いたサンプル評価を行い,異なるデータ分布をまたいだモデル一般化を実証する。 CAMELYON16テストデータ(n=139)の病変検出ではFROCスコアが0.86、CAMELYON17テストデータ(n=500)ではCohenのKappaスコアが0.9090(オープンリーダーボードでは3位)であった。 腫瘍の分節作業におけるダイジェストパステストデータ(n=212)では,0.782点(チャレンジ4位)を得た。 生存性腫瘍分画に対するPAIP試験データ(n=40)では,ジャカード指数0.75(チャレンジ3位)が達成され,生存性腫瘍負担では0.633(チャレンジ2位)が達成された。 フレームワーク全体と関連するドキュメントは、GitHubとPyPiで無償公開しています。

Histopathology tissue analysis is considered the gold standard in cancer diagnosis and prognosis. Given the large size of these images and the increase in the number of potential cancer cases, an automated solution as an aid to histopathologists is highly desirable. In the recent past, deep learning-based techniques have provided state of the art results in a wide variety of image analysis tasks, including analysis of digitized slides. However, the size of images and variability in histopathology tasks makes it a challenge to develop an integrated framework for histopathology image analysis. We propose a deep learning-based framework for histopathology tissue analysis. We demonstrate the generalizability of our framework, including training and inference, on several open-source datasets, which include CAMELYON (breast cancer metastases), DigestPath (colon cancer), and PAIP (liver cancer) datasets. We discuss multiple types of uncertainties pertaining to data and model, namely aleatoric and epistemic, respectively. Simultaneously, we demonstrate our model generalization across different data distribution by evaluating some samples on TCGA data. On CAMELYON16 test data (n=139) for the task of lesion detection, the FROC score achieved was 0.86 and in the CAMELYON17 test-data (n=500) for the task of pN-staging the Cohen's kappa score achieved was 0.9090 (third in the open leaderboard). On DigestPath test data (n=212) for the task of tumor segmentation, a Dice score of 0.782 was achieved (fourth in the challenge). On PAIP test data (n=40) for the task of viable tumor segmentation, a Jaccard Index of 0.75 (third in the challenge) was achieved, and for viable tumor burden, a score of 0.633 was achieved (second in the challenge). Our entire framework and related documentation are freely available at GitHub and PyPi.
翻訳日:2023-01-16 09:29:58 公開日:2020-11-18
# 物理対応ニューラルネットワークによる逆PDE問題の解法

Solving inverse-PDE problems with physics-aware neural networks ( http://arxiv.org/abs/2001.03608v3 )

ライセンス: Link先を確認
Samira Pakravan, Pouria A. Mistani, Miguel Angel Aragon-Calvo, Frederic Gibou(参考訳) 偏微分方程式(pdes)の逆問題の文脈において未知の場を見つけるための新しい合成フレームワークを提案する。 意味的オートエンコーダのカスタム層としての偏微分方程式に対する既存の数値アルゴリズムの精度と信頼性を、ディープニューラルネットワークを普遍関数推定器として高表現性に融合する。 我々の設計は、計算数学、機械学習、パターン認識の技術を一つの傘の下にまとめ、ドメイン固有の知識と物理的な制約を組み込んで隠れたフィールドを発見する。 ネットワークは、制御方程式を損失関数に組み込んだり、トレーニング可能な畳み込み層に依存してデータから適切な離散化を見つける既存の方法と対照的に、ハードコードpdeソルバ層を介して制御物理学を明示的に認識している。 これにより、計算負荷は隠れたフィールドの発見のみに焦点が当てられ、データ効率が向上する。 このアーキテクチャを Blended inverse-PDE network (以下 BiPDE network と呼ぶ) と呼び、1次元と2次元のポアソン問題における変数拡散係数と1次元の時間依存性および非線形バーガース方程式の拡散係数を復元する適用性を示した。 このアプローチがノイズに対して堅牢であることも示しています。

We propose a novel composite framework to find unknown fields in the context of inverse problems for partial differential equations (PDEs). We blend the high expressibility of deep neural networks as universal function estimators with the accuracy and reliability of existing numerical algorithms for partial differential equations as custom layers in semantic autoencoders. Our design brings together techniques of computational mathematics, machine learning and pattern recognition under one umbrella to incorporate domain-specific knowledge and physical constraints to discover the underlying hidden fields. The network is explicitly aware of the governing physics through a hard-coded PDE solver layer in contrast to most existing methods that incorporate the governing equations in the loss function or rely on trainable convolutional layers to discover proper discretizations from data. This subsequently focuses the computational load to only the discovery of the hidden fields and therefore is more data efficient. We call this architecture Blended inverse-PDE networks (hereby dubbed BiPDE networks) and demonstrate its applicability for recovering the variable diffusion coefficient in Poisson problems in one and two spatial dimensions, as well as the diffusion coefficient in the time-dependent and nonlinear Burgers' equation in one dimension. We also show that this approach is robust to noise.
翻訳日:2023-01-12 23:55:48 公開日:2020-11-18
# 深層学習による弱教師付きインスタンスセグメンテーション

Weakly Supervised Instance Segmentation by Deep Community Learning ( http://arxiv.org/abs/2001.11207v3 )

ライセンス: Link先を確認
Jaedong Hwang, Seohyun Kim, Jeany Son, Bohyung Han(参考訳) 複数のタスクによる深層コミュニティ学習に基づく弱教師付きインスタンスセグメンテーションアルゴリズムを提案する。 このタスクは、弱教師付きオブジェクト検出とセマンティックセグメンテーションの組み合わせとして定式化され、同じクラスの個々のオブジェクトを別々に識別し、セグメンテーションする。 我々は,境界ボックス回帰,インスタンスマスク生成,インスタンスセグメンテーション,特徴抽出を伴うオブジェクト検出の正のフィードバックループを持つ,統合型ディープニューラルネットワークアーキテクチャを設計することでこの問題に対処した。 ネットワークの各コンポーネントは、他のコンポーネントとのアクティブなインタラクションによって精度が向上し、モデルのエンドツーエンドなトレーサビリティによって、結果の堅牢性と再現性が向上します。 提案アルゴリズムは,標準ベンチマークデータセット上でのFast R-CNNやMask R-CNNなどの追加トレーニングを使わずに,弱教師付き環境での最先端性能を実現する。 我々のアルゴリズムの実装はプロジェクトのWebページで見ることができる。

We present a weakly supervised instance segmentation algorithm based on deep community learning with multiple tasks. This task is formulated as a combination of weakly supervised object detection and semantic segmentation, where individual objects of the same class are identified and segmented separately. We address this problem by designing a unified deep neural network architecture, which has a positive feedback loop of object detection with bounding box regression, instance mask generation, instance segmentation, and feature extraction. Each component of the network makes active interactions with others to improve accuracy, and the end-to-end trainability of our model makes our results more robust and reproducible. The proposed algorithm achieves state-of-the-art performance in the weakly supervised setting without any additional training such as Fast R-CNN and Mask R-CNN on the standard benchmark dataset. The implementation of our algorithm is available on the project webpage: https://cv.snu.ac.kr/research/WSIS_CL.
翻訳日:2023-01-05 12:20:19 公開日:2020-11-18
# 物体検出のためのマルチタスクインクリメンタル学習

Multi-Task Incremental Learning for Object Detection ( http://arxiv.org/abs/2002.05347v3 )

ライセンス: Link先を確認
Xialei Liu, Hao Yang, Avinash Ravichandran, Rahul Bhotika, Stefano Soatto(参考訳) マルチタスクは、知識と計算を共有しながら、複数のタスクを学習する。 しかし、古いデータにアクセスせずにインクリメンタルに学習すると、過去の知識を壊滅的に忘れてしまう。 既存のオブジェクト検出器のほとんどはドメイン固有で静的だが、一部はインクリメンタルに学習されるが、1つのドメイン内でのみ学習される。 さまざまなドメインでオブジェクト検出器を段階的にトレーニングすることはほとんどない。 本研究では,オブジェクト検出のための様々な領域とカテゴリにまたがる3つのインクリメンタル学習シナリオを提案する。 破滅的忘れを緩和するために, ボトムアップとトップダウンの両方の注意を生かして, 蒸留の重要な情報を抽出する注意的特徴蒸留を提案する。 次に,提案した蒸留法を異なるシナリオで系統的に解析する。 共通理解とは対照的に、ドメインギャップはインクリメンタルな検出に対してよりマイナスの影響が小さいことが分かりました。 ドメインギャップが大きい場合,特にカテゴリ差が大きい場合には,3つの異なるサンプル法を探索し,提案する適応サンプリング法がデータセット全体から多様で有意義なサンプルを選択するのに有効であることを示す。 実験結果から、7つのオブジェクト検出ベンチマークデータセットの3つのシナリオにおいて,大幅な改善が得られた。

Multi-task learns multiple tasks, while sharing knowledge and computation among them. However, it suffers from catastrophic forgetting of previous knowledge when learned incrementally without access to the old data. Most existing object detectors are domain-specific and static, while some are learned incrementally but only within a single domain. Training an object detector incrementally across various domains has rarely been explored. In this work, we propose three incremental learning scenarios across various domains and categories for object detection. To mitigate catastrophic forgetting, attentive feature distillation is proposed to leverages both bottom-up and top-down attentions to extract important information for distillation. We then systematically analyze the proposed distillation method in different scenarios. We find out that, contrary to common understanding, domain gaps have smaller negative impact on incremental detection, while category differences are problematic. For the difficult cases, where the domain gaps and especially category differences are large, we explore three different exemplar sampling methods and show the proposed adaptive sampling method is effective to select diverse and informative samples from entire datasets, to further prevent forgetting. Experimental results show that we achieve the significant improvement in three different scenarios across seven object detection benchmark datasets.
翻訳日:2023-01-01 13:21:12 公開日:2020-11-18
# 逆画像問題に対する調整不要プラグアンドプレイ近似アルゴリズム

Tuning-free Plug-and-Play Proximal Algorithm for Inverse Imaging Problems ( http://arxiv.org/abs/2002.09611v2 )

ライセンス: Link先を確認
Kaixuan Wei, Angelica Aviles-Rivero, Jingwei Liang, Ying Fu, Carola-Bibiane Sch\"onlieb, Hua Huang(参考訳) plug-and-play (pnp) は非凸フレームワークであり、admmや他の近位アルゴリズムと高度なデノイザープリエントを組み合わせたものである。 近年、PnPは、特にディープラーニングベースのデノイザの統合によって、大きな経験的成功を遂げている。 しかし、PnPベースのアプローチの大きな問題は、手動パラメータの調整が必要であることである。 画像条件やシーン内容の相違点から高品質な結果を得る必要がある。 本研究では,ペナルティパラメータ,消音強度,終端時間を含む内部パラメータを自動的に決定できるチューニングフリーなpnp近位アルゴリズムを提案する。 提案手法の重要な部分はパラメータの自動探索のためのポリシーネットワークを開発することであり,モデルフリーとモデルベース深層強化学習を併用して効果的に学習することができる。 我々は,数値的および視覚的な実験により,学習方針が異なる状態に対して異なるパラメータをカスタマイズ可能であり,多くの場合,既存の手作りの基準よりも効率的かつ効果的であることを実証する。 さらに, プラグド・デノイザの実践的考察を考察し, 学習政策と合わせて最先端の成果を得た。 これは線形および非線形の逆イメージング問題の両方に共通しており、特に、圧縮センシングmriおよび位相検索において有望な結果を示す。

Plug-and-play (PnP) is a non-convex framework that combines ADMM or other proximal algorithms with advanced denoiser priors. Recently, PnP has achieved great empirical success, especially with the integration of deep learning-based denoisers. However, a key problem of PnP based approaches is that they require manual parameter tweaking. It is necessary to obtain high-quality results across the high discrepancy in terms of imaging conditions and varying scene content. In this work, we present a tuning-free PnP proximal algorithm, which can automatically determine the internal parameters including the penalty parameter, the denoising strength and the terminal time. A key part of our approach is to develop a policy network for automatic search of parameters, which can be effectively learned via mixed model-free and model-based deep reinforcement learning. We demonstrate, through numerical and visual experiments, that the learned policy can customize different parameters for different states, and often more efficient and effective than existing handcrafted criteria. Moreover, we discuss the practical considerations of the plugged denoisers, which together with our learned policy yield state-of-the-art results. This is prevalent on both linear and nonlinear exemplary inverse imaging problems, and in particular, we show promising results on Compressed Sensing MRI and phase retrieval.
翻訳日:2022-12-29 19:36:56 公開日:2020-11-18
# 重みのメカニズム:直列接続の連結における定数の追加

Weight mechanism: adding a constant in concatenation of series connect ( http://arxiv.org/abs/2003.03500v2 )

ライセンス: Link先を確認
Xiaojie Qi(参考訳) 浅い層における特徴マップはテクスチャや形状のような画像属性とより関連があるのに対し、抽象的な意味表現は深い層に存在するというコンセンサスである。 一方、畳み込み操作の過程でいくつかの画像情報が失われる。 自然に、直接的に組み合わせて、結合や付加によって失われた詳細な情報を得る。 実際、機能融合で流れる画像表現は意味的表現と完全には一致せず、異なる層における意味的偏差も情報の浄化を損なうため、無用な情報が融合層に混在する。 したがって, 融合層間のギャップを狭め, 融合時の騒音の影響を低減することが重要である。 本稿では,級数接続の連結における特徴写像間のギャップを低減するためのウェイト機構を提案し,残りのU-Netにおける級数接続の連結の重みを変更することにより,マサチューセッツの建築データセットに対して0.80% mIoUの改善が得られた。 具体的には、ウェイトメカニズムをテストするためにFused U-Netという新しいアーキテクチャを設計し、0.12% mIoUの改善ももたらした。

It is a consensus that feature maps in the shallow layer are more related to image attributes such as texture and shape, whereas abstract semantic representation exists in the deep layer. Meanwhile, some image information will be lost in the process of the convolution operation. Naturally, the direct method is combining them together to gain lost detailed information through concatenation or adding. In fact, the image representation flowed in feature fusion can not match with the semantic representation completely, and the semantic deviation in different layers also destroy the information purification, that leads to useless information being mixed into the fusion layers. Therefore, it is crucial to narrow the gap among the fused layers and reduce the impact of noises during fusion. In this paper, we propose a method named weight mechanism to reduce the gap between feature maps in concatenation of series connection, and we get a better result of 0.80% mIoU improvement on Massachusetts building dataset by changing the weight of the concatenation of series connection in residual U-Net. Specifically, we design a new architecture named fused U-Net to test weight mechanism, and it also gains 0.12% mIoU improvement.
翻訳日:2022-12-25 19:48:53 公開日:2020-11-18
# 復元からの復元:擬似クリーン画像による単一画像の表示

Restore from Restored: Single Image Denoising with Pseudo Clean Image ( http://arxiv.org/abs/2003.04721v3 )

ライセンス: Link先を確認
Seunghwan Lee, Dongkyu Lee, Donghyeon Cho, Jiwon Kim, Tae Hyun Kim(参考訳) 本研究では,完全事前学習された画像復号化ネットワークの性能を大幅に向上させる,"restore-from-restored"という,シンプルで効果的な微調整アルゴリズムを提案する。 多くの教師付きdenoisingアプローチは、大きな外部トレーニングデータセットを使用して満足な結果を生成することができる。 しかし、これらの手法はテスト画像の内部情報の使用に制限がある。 対照的に、近年の自己教師付きアプローチでは、特定のテスト入力からの情報を利用することで、入力画像のノイズを除去できる。 しかし,そのような手法はガウス雑音などの既知の雑音に対して,教師付き手法に比べて比較的低い性能を示す。 したがって、外部情報と内部情報を組み合わせるために、テスト時に擬似トレーニングセットを用いて、事前学習したデノイザーを完全に微調整する。 内部自己相似パッチ(パッチ再帰)を利用することにより、与えられた特定の入力画像にベースラインネットワークを適用することができる。 提案手法は,最先端のデノナイジングネットワーク上で容易に利用でき,さらに実雑音画像を含む多数のデノナイジングベンチマークデータセットの性能を向上させることができることを示す。

In this study, we propose a simple and effective fine-tuning algorithm called "restore-from-restored", which can greatly enhance the performance of fully pre-trained image denoising networks. Many supervised denoising approaches can produce satisfactory results using large external training datasets. However, these methods have limitations in using internal information available in a given test image. By contrast, recent self-supervised approaches can remove noise in the input image by utilizing information from the specific test input. However, such methods show relatively lower performance on known noise types such as Gaussian noise compared to supervised methods. Thus, to combine external and internal information, we fine-tune the fully pre-trained denoiser using pseudo training set at test time. By exploiting internal self-similar patches (i.e., patch-recurrence), the baseline network can be adapted to the given specific input image. We demonstrate that our method can be easily employed on top of the state-of-the-art denoising networks and further improve the performance on numerous denoising benchmark datasets including real noisy images.
翻訳日:2022-12-25 09:19:35 公開日:2020-11-18
# オブジェクト指向ナビゲーションにおける階層関係の学習

Learning hierarchical relationships for object-goal navigation ( http://arxiv.org/abs/2003.06749v2 )

ライセンス: Link先を確認
Yiding Qiu, Anwesan Pal, Henrik I. Christensen(参考訳) ナビゲーションの一部としてオブジェクトを直接検索することは、小さなアイテムに課題をもたらす。 コンテキストをオブジェクト関係の形で利用することで、階層的なターゲット探索を効率的に行うことができる。 現在のアプローチのほとんどは、自然環境でオブジェクトの関係を学ばずに、報酬ベースの学習アプローチに直接感覚入力を組み込む傾向にあり、ドメインをまたがってあまり一般化しない。 本稿では,メモリを利用した屋内空間におけるナビゲーションのための統合階層的オブジェクト学習(MJOLNIR)を提案する。 複数の環境環境で実施された大規模な実験では、成功率(SR)とパス長(SPL)の重み付けにより、既存の最先端ナビゲーション手法よりも82.9\%と93.5\%の利益が得られた。 また、我々のモデルは、よく知られた過適合問題に悩まされることなく、他のアルゴリズムよりもはるかに早く収束することを学ぶ。 追加資料とコードの詳細はhttps://sites.google.com/eng.ucsd.edu/mjolnir.comで確認できる。

Direct search for objects as part of navigation poses a challenge for small items. Utilizing context in the form of object-object relationships enable hierarchical search for targets efficiently. Most of the current approaches tend to directly incorporate sensory input into a reward-based learning approach, without learning about object relationships in the natural environment, and thus generalize poorly across domains. We present Memory-utilized Joint hierarchical Object Learning for Navigation in Indoor Rooms (MJOLNIR), a target-driven navigation algorithm, which considers the inherent relationship between target objects, and the more salient contextual objects occurring in its surrounding. Extensive experiments conducted across multiple environment settings show an $82.9\%$ and $93.5\%$ gain over existing state-of-the-art navigation methods in terms of the success rate (SR), and success weighted by path length (SPL), respectively. We also show that our model learns to converge much faster than other algorithms, without suffering from the well-known overfitting problem. Additional details regarding the supplementary material and code are available at https://sites.google.com/eng.ucsd.edu/mjolnir.
翻訳日:2022-12-23 08:47:33 公開日:2020-11-18
# 列車-テストの解像度差の修正: FixEfficientNet

Fixing the train-test resolution discrepancy: FixEfficientNet ( http://arxiv.org/abs/2003.08237v5 )

ライセンス: Link先を確認
Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Herv\'e J\'egou(参考訳) 本稿では,最近の訓練手順,特に列車画像と試験画像の相違を補正する手法を用いて,効率の高い画像分類器の性能を広範囲に分析する。 FixEfficientNetと呼ばれる結果のネットワークは、同じ数のパラメータで初期アーキテクチャを著しく上回る。 例えば、FixEfficientNet-B0は、追加のトレーニングデータなしでトレーニングされ、5.3Mパラメータを持つImageNet上で79.3%のトップ-1の精度を達成する。 これは300mのラベルのない画像で訓練されたノイズの多い学生effernet-b0に対して、0.5%の絶対的な改善である。 300Mの未ラベル画像の監督が弱く、FixResでさらに最適化されたEfficientNet-L2は88.5%のトップ-1精度(トップ5:98.7%)を達成した。 これらの改善は、通常、Imagenetで使用されるプロトコルよりもクリーンなプロトコルで徹底的に評価され、特に、ImageNet-v2の実験的な設定では、過度に適合する傾向が低く、ImageNet Real Labelsでは改善が継続されていることを示す。 どちらの場合も、私たちは新しい芸術の状況を確立します。

This paper provides an extensive analysis of the performance of the EfficientNet image classifiers with several recent training procedures, in particular one that corrects the discrepancy between train and test images. The resulting network, called FixEfficientNet, significantly outperforms the initial architecture with the same number of parameters. For instance, our FixEfficientNet-B0 trained without additional training data achieves 79.3% top-1 accuracy on ImageNet with 5.3M parameters. This is a +0.5% absolute improvement over the Noisy student EfficientNet-B0 trained with 300M unlabeled images. An EfficientNet-L2 pre-trained with weak supervision on 300M unlabeled images and further optimized with FixRes achieves 88.5% top-1 accuracy (top-5: 98.7%), which establishes the new state of the art for ImageNet with a single crop. These improvements are thoroughly evaluated with cleaner protocols than the one usually employed for Imagenet, and particular we show that our improvement remains in the experimental setting of ImageNet-v2, that is less prone to overfitting, and with ImageNet Real Labels. In both cases we also establish the new state of the art.
翻訳日:2022-12-22 09:40:06 公開日:2020-11-18
# 胸部CTからのCOVID-19関連CTパターンの自動定量化

Automated Quantification of CT Patterns Associated with COVID-19 from Chest CT ( http://arxiv.org/abs/2004.01279v7 )

ライセンス: Link先を確認
Shikha Chaganti, Abishek Balachandran, Guillaume Chabin, Stuart Cohen, Thomas Flohr, Bogdan Georgescu, Philippe Grenier, Sasa Grbic, Siqi Liu, Fran\c{c}ois Mellot, Nicolas Murray, Savvas Nicolaou, William Parker, Thomas Re, Pina Sanelli, Alexander W. Sauter, Zhoubing Xu, Youngjin Yoo, Valentin Ziebandt, Dorin Comaniciu(参考訳) 目的:新型コロナウイルス(COVID-19)に共通する異常なCTパターン、すなわち地面ガラスの不透明度と凝縮を自動的に分離・定量する手法を提案する。 材料, 方法: 本回顧研究では, 9749胸部ctボリュームのデータセットに基づいて, 胸部ctを入力し, 病変, 肺, 葉を3次元に分割した。 この方法は、深層学習と深部強化学習に基づいて、新型コロナウイルスの異常の程度と高い不透明度の有無を定量化し、肺の重症度と葉への関与の2つの組み合わせを出力する。 第1の測度(PO, PHO)はグローバルであり、第2の測度(LSS, LHOS)はローブワイズである。 このアルゴリズムの評価は、2002-Present(2020年4月)に収集されたカナダ、ヨーロッパ、米国からの200人の参加者(100人のCOVID-19患者と100人の健康管理)のCTに報告されている。 基底真理は、病変、肺、葉のマニュアルアノテーションによって確立される。 予測と基底真理を比較するために相関分析と回帰分析を行った。 結果: PHOは0.92(P < .001), PHOは0.97(P < .001), LSSは0.91(P < .001), LHOSは0.90(P < .001)であった。 健常者100名中98名が1%未満であり,2名が1~2%であった。 重症度スコアを計算する自動処理時間は、手動アノテーションに必要な30分に対して、ケースあたり10秒であった。 結論: 新しい方法では, COVID-19に関連するCT異常領域と計算値(PO, PHO), および (LSS, LHOS) 重症度スコアを抽出する。

Purpose: To present a method that automatically segments and quantifies abnormal CT patterns commonly present in coronavirus disease 2019 (COVID-19), namely ground glass opacities and consolidations. Materials and Methods: In this retrospective study, the proposed method takes as input a non-contrasted chest CT and segments the lesions, lungs, and lobes in three dimensions, based on a dataset of 9749 chest CT volumes. The method outputs two combined measures of the severity of lung and lobe involvement, quantifying both the extent of COVID-19 abnormalities and presence of high opacities, based on deep learning and deep reinforcement learning. The first measure of (PO, PHO) is global, while the second of (LSS, LHOS) is lobewise. Evaluation of the algorithm is reported on CTs of 200 participants (100 COVID-19 confirmed patients and 100 healthy controls) from institutions from Canada, Europe and the United States collected between 2002-Present (April, 2020). Ground truth is established by manual annotations of lesions, lungs, and lobes. Correlation and regression analyses were performed to compare the prediction to the ground truth. Results: Pearson correlation coefficient between method prediction and ground truth for COVID-19 cases was calculated as 0.92 for PO (P < .001), 0.97 for PHO(P < .001), 0.91 for LSS (P < .001), 0.90 for LHOS (P < .001). 98 of 100 healthy controls had a predicted PO of less than 1%, 2 had between 1-2%. Automated processing time to compute the severity scores was 10 seconds per case compared to 30 minutes required for manual annotations. Conclusion: A new method segments regions of CT abnormalities associated with COVID-19 and computes (PO, PHO), as well as (LSS, LHOS) severity scores.
翻訳日:2022-12-17 13:14:17 公開日:2020-11-18
# 制御可能行動のための弱改良強化学習

Weakly-Supervised Reinforcement Learning for Controllable Behavior ( http://arxiv.org/abs/2004.02860v2 )

ライセンス: Link先を確認
Lisa Lee, Benjamin Eysenbach, Ruslan Salakhutdinov, Shixiang Shane Gu, Chelsea Finn(参考訳) 強化学習(rl)は、タスクを解決するためのアクションを取るための強力なフレームワークである。 しかし、多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。 代わりに、意味的に意味のあるタスクにタスクの空間を制限できるだろうか? 本稿では,このタスクの意味的に意味のある部分空間を,無意味な"チャフ"タスクの巨大な空間から自動的に分離する,弱い監督を用いる枠組みを提案する。 この学習された部分空間は効率的な探索を可能にし、状態間の距離を捉える表現を提供する。 さまざまな困難でビジョンに基づく継続的制御の問題において、我々のアプローチは、特に環境の複雑さが増すにつれて、実質的なパフォーマンス向上につながります。

Reinforcement learning (RL) is a powerful framework for learning to take actions to solve tasks. However, in many settings, an agent must winnow down the inconceivably large space of all possible tasks to the single task that it is currently being asked to solve. Can we instead constrain the space of tasks to those that are semantically meaningful? In this work, we introduce a framework for using weak supervision to automatically disentangle this semantically meaningful subspace of tasks from the enormous space of nonsensical "chaff" tasks. We show that this learned subspace enables efficient exploration and provides a representation that captures distance between states. On a variety of challenging, vision-based continuous control problems, our approach leads to substantial performance gains, particularly as the complexity of the environment grows.
翻訳日:2022-12-16 06:10:10 公開日:2020-11-18
# OptiGAN: ゴール最適化シーケンス生成のためのジェネレータネットワーク

OptiGAN: Generative Adversarial Networks for Goal Optimized Sequence Generation ( http://arxiv.org/abs/2004.07534v10 )

ライセンス: Link先を確認
Mahmoud Hossam, Trung Le, Viet Huynh, Michael Papasimeon, and Dinh Phung(参考訳) シーケンス生成タスクの難題の1つは、特定の目的を持ったシーケンスを最適化した生成である。 現在の逐次生成モデルは、タスク特有の目的や特性を直接最適化することなく、トレーニングデータを密接に模倣するためのシーケンスを生成する。 本稿では,GAN(Generative Adversarial Networks)とRL(Reinforcement Learning)の両方を組み込んだ生成モデルOptiGANを紹介する。 我々のモデルはテキストおよび実数値シーケンス生成に適用し、ganおよびrlベースラインよりも高い所望のスコアを達成できるが、出力サンプルの多様性は犠牲にしない。

One of the challenging problems in sequence generation tasks is the optimized generation of sequences with specific desired goals. Current sequential generative models mainly generate sequences to closely mimic the training data, without direct optimization of desired goals or properties specific to the task. We introduce OptiGAN, a generative model that incorporates both Generative Adversarial Networks (GAN) and Reinforcement Learning (RL) to optimize desired goal scores using policy gradients. We apply our model to text and real-valued sequence generation, where our model is able to achieve higher desired scores out-performing GAN and RL baselines, while not sacrificing output sample diversity.
翻訳日:2022-12-12 21:00:57 公開日:2020-11-18
# 反射に気をつけろ! ベースインフレクション符号化による非標準英語のNLPの改善

Mind Your Inflections! Improving NLP for Non-Standard Englishes with Base-Inflection Encoding ( http://arxiv.org/abs/2004.14870v4 )

ライセンス: Link先を確認
Samson Tan, Shafiq Joty, Lav R. Varshney, Min-Yen Kan(参考訳) インフレクションの変化は、コロキアル・シンガポール英語やアフリカ・アメリカン・バーナキュラー英語のような世界英語の一般的な特徴である。 人間の読者による理解は、通常、非標準反射によって損なわれないが、現在のNLPシステムはまだ堅牢ではない。 そこで本研究では, 文法情報を特殊記号として取り戻す前に, 屈折語を基本形に縮小し, 英語テキストをトークン化する手法であるbiteを提案する。 我々のエンコーディングを用いた下流タスクのための微調整済みnlpモデルは、クリーンデータのパフォーマンスを維持しながら、逆行に対して防御する。 BITEを用いたモデルは、明示的なトレーニングや翻訳モデルなしで非標準の屈折を持つ方言よりも一般化され、BITEで訓練するとより早く収束する。 最後に,我々のエンコーディングが,一般的なデータ駆動サブワードトークン化器の語彙効率を向上させることを示す。 語彙効率を定量的に評価する先行研究は行われていないので,その指標を提案する。

Inflectional variation is a common feature of World Englishes such as Colloquial Singapore English and African American Vernacular English. Although comprehension by human readers is usually unimpaired by non-standard inflections, current NLP systems are not yet robust. We propose Base-Inflection Encoding (BITE), a method to tokenize English text by reducing inflected words to their base forms before reinjecting the grammatical information as special symbols. Fine-tuning pretrained NLP models for downstream tasks using our encoding defends against inflectional adversaries while maintaining performance on clean data. Models using BITE generalize better to dialects with non-standard inflections without explicit training and translation models converge faster when trained with BITE. Finally, we show that our encoding improves the vocabulary efficiency of popular data-driven subword tokenizers. Since there has been no prior work on quantitatively evaluating vocabulary efficiency, we propose metrics to do so.
翻訳日:2022-12-08 02:47:51 公開日:2020-11-18
# Visuo-Linguistic Question Answering (VLQA) Challenge

Visuo-Linguistic Question Answering (VLQA) Challenge ( http://arxiv.org/abs/2005.00330v3 )

ライセンス: Link先を確認
Shailaja Keyur Sampat, Yezhou Yang and Chitta Baral(参考訳) 画像とテキストを一緒に理解することは、認知と高度な人工知能(AI)システムの構築の重要な側面である。 コミュニティとしては、言語とビジョンドメインを別々に比較して優れたベンチマークを達成していますが、共同推論は現在でも最先端のコンピュータビジョンと自然言語処理(NLP)システムにおいて課題です。 本稿では,与えられた画像文のモダリティに関する共同推論を導出し,VLQA課題コーパスを質問応答設定でコンパイルする新しいタスクを提案する。 各データセットの項目は画像と読み上げ文で構成されており、質問は視覚的情報とテキスト情報の両方を結合するように設計されている。 まず,vlqaサブセットを解決するための最善のビジョン言語アーキテクチャを探求し,十分な推論ができないことを示す。 基本性能がわずかに向上したモジュラー手法を開発するが、それでも人的性能には及ばない。 VLQAは、ビジュオ言語的文脈を推論するための良いベンチマークになるだろうと考えています。 データセット、コード、リーダーボードはhttps://shailaja183.github.io/vlqa/で入手できる。

Understanding images and text together is an important aspect of cognition and building advanced Artificial Intelligence (AI) systems. As a community, we have achieved good benchmarks over language and vision domains separately, however joint reasoning is still a challenge for state-of-the-art computer vision and natural language processing (NLP) systems. We propose a novel task to derive joint inference about a given image-text modality and compile the Visuo-Linguistic Question Answering (VLQA) challenge corpus in a question answering setting. Each dataset item consists of an image and a reading passage, where questions are designed to combine both visual and textual information i.e., ignoring either modality would make the question unanswerable. We first explore the best existing vision-language architectures to solve VLQA subsets and show that they are unable to reason well. We then develop a modular method with slightly better baseline performance, but it is still far behind human performance. We believe that VLQA will be a good benchmark for reasoning over a visuo-linguistic context. The dataset, code and leaderboard is available at https://shailaja183.github.io/vlqa/.
翻訳日:2022-12-07 22:35:26 公開日:2020-11-18
# time-aware attentive memory networkによるシーケンシャルレコメンデーション

Sequential Recommender via Time-aware Attentive Memory Network ( http://arxiv.org/abs/2005.08598v2 )

ライセンス: Link先を確認
Wendi Ji, Keqiang Wang, Xiaoling Wang, TingWei Chen and Alexandra Cristea(参考訳) レコメンデーションシステムは、ユーザーが成長を続けるアイテムのコーパスから最も好まれるコンテンツを見つけるのを支援する。 1) 行動は文中の単語よりもはるかに複雑であるため、従来の注意的・反復的なモデルはユーザの好みの時間的ダイナミクスを捉えるのに失敗する可能性がある。 2) ユーザの嗜好は多様かつ進化しており,長期記憶と短期意図を統合することは困難である。 本稿では,情報フィルタリングと状態遷移の両方において,時間的情報を考慮し,注意機構と繰り返し単位を改善するための時間的ゲーティング手法を提案する。 さらに、長期および短期の選好を統合できるマルチホップ時間認識型記憶ネットワーク(mtam)を提案する。 提案する時間対応gruネットワークを用いて,短期的意図を学習し,ユーザメモリ内の先行レコードを保持する。 短期的意図をクエリとして扱い,提案する時間認識的注意を通してマルチホップメモリ読み出し操作の設計を行い,現在の意図と長期記憶に基づいてユーザ表現を生成する。 提案手法は候補検索タスクに対してスケーラブルであり,ドット生成型top-kレコメンデーションに対する潜在因子分解の非線形一般化と見なすことができる。 最後に,6つのベンチマークデータセットについて広範な実験を行い,MTAMおよび時間的ゲーティング手法の有効性を実証した。

Recommendation systems aim to assist users to discover most preferred contents from an ever-growing corpus of items. Although recommenders have been greatly improved by deep learning, they still faces several challenges: (1) Behaviors are much more complex than words in sentences, so traditional attentive and recurrent models may fail in capturing the temporal dynamics of user preferences. (2) The preferences of users are multiple and evolving, so it is difficult to integrate long-term memory and short-term intent. In this paper, we propose a temporal gating methodology to improve attention mechanism and recurrent units, so that temporal information can be considered in both information filtering and state transition. Additionally, we propose a Multi-hop Time-aware Attentive Memory network (MTAM) to integrate long-term and short-term preferences. We use the proposed time-aware GRU network to learn the short-term intent and maintain prior records in user memory. We treat the short-term intent as a query and design a multi-hop memory reading operation via the proposed time-aware attention to generate user representation based on the current intent and long-term memory. Our approach is scalable for candidate retrieval tasks and can be viewed as a non-linear generalization of latent factorization for dot-product based Top-K recommendation. Finally, we conduct extensive experiments on six benchmark datasets and the experimental results demonstrate the effectiveness of our MTAM and temporal gating methodology.
翻訳日:2022-12-02 00:34:10 公開日:2020-11-18
# 重畳音声の多チャンネル音声認識

Audio-visual Multi-channel Recognition of Overlapped Speech ( http://arxiv.org/abs/2005.08571v2 )

ライセンス: Link先を確認
Jianwei Yu, Bo Wu, Rongzhi Gu, Shi-Xiong Zhang, Lianwu Chen, Yong Xu. Meng Yu, Dan Su, Dong Yu, Xunying Liu, Helen Meng(参考訳) 重複した音声の自動音声認識(ASR)は現在でも非常に難しい課題である。 この目的のために、マルチチャネルマイクロホンアレイデータは最先端asrシステムで広く使われている。 本稿では,音響信号の劣化に対する視覚的モダリティの相違を動機として,密に統合された分離フロントエンドと認識バックエンドを備えた多チャンネル重畳音声認識システムを提案する。 マルチチャンネル音声分離のフロントエンドコンポーネントである \textit{tf masking}, \textit{filter\&sum}, \textit{mask-based mvdr} ビームフォーミング手法を開発した。 分離成分と認識成分との誤差コストのミスマッチを低減するため,接続性時間分類(CTC)損失関数や,スケール不変信号とノイズ比(Si-SNR)誤差コストによるマルチタスク基準補間を用いて,共同調整を行った。 提案するマルチチャネルavsrシステムは、リップリード文2(lrs2)データセットのシミュレーションまたは再生を用いて構築された重畳音声における最大6.81\%(26.83\%相対)と22.22\%(56.87\%相対)の絶対単語誤り率(wer)で、ベースラインオーディオのみasrシステムを上回ることを提案している。

Automatic speech recognition (ASR) of overlapped speech remains a highly challenging task to date. To this end, multi-channel microphone array data are widely used in state-of-the-art ASR systems. Motivated by the invariance of visual modality to acoustic signal corruption, this paper presents an audio-visual multi-channel overlapped speech recognition system featuring tightly integrated separation front-end and recognition back-end. A series of audio-visual multi-channel speech separation front-end components based on \textit{TF masking}, \textit{filter\&sum} and \textit{mask-based MVDR} beamforming approaches were developed. To reduce the error cost mismatch between the separation and recognition components, they were jointly fine-tuned using the connectionist temporal classification (CTC) loss function, or a multi-task criterion interpolation with scale-invariant signal to noise ratio (Si-SNR) error cost. Experiments suggest that the proposed multi-channel AVSR system outperforms the baseline audio-only ASR system by up to 6.81\% (26.83\% relative) and 22.22\% (56.87\% relative) absolute word error rate (WER) reduction on overlapped speech constructed using either simulation or replaying of the lipreading sentence 2 (LRS2) dataset respectively.
翻訳日:2022-12-02 00:16:46 公開日:2020-11-18
# 改良型ニューラルトランスデューサのための新しいトレーニングパイプライン

A New Training Pipeline for an Improved Neural Transducer ( http://arxiv.org/abs/2005.09319v2 )

ライセンス: Link先を確認
Albert Zeyer, Andr\'e Merboldt, Ralf Schl\"uter, Hermann Ney(参考訳) RNNトランスデューサは、有望なエンドツーエンドモデル候補である。 従来のトレーニング基準と,すべてのアライメントに対する完全なマージン化と,トレーニングを単純化し,改善し,スピードアップする一般的な最大近似を比較した。 また、元のニューラルネットワークモデルから一般化し、最大近似のために可能になったより強力なモデルを研究する。 さらに、RNN-T、RNA、CTCをカバーする出力ラベルトポロジーを一般化する。 外部アライメントの効果など,これらすべての側面からいくつかの研究を行っている。 我々は、トランスデューサモデルが注意モデルよりも長いシーケンスでより一般化することを見出した。 最後のトランスデューサモデルは、switchboard 300hの注目モデルを6%以上上回っています。

The RNN transducer is a promising end-to-end model candidate. We compare the original training criterion with the full marginalization over all alignments, to the commonly used maximum approximation, which simplifies, improves and speeds up our training. We also generalize from the original neural network model and study more powerful models, made possible due to the maximum approximation. We further generalize the output label topology to cover RNN-T, RNA and CTC. We perform several studies among all these aspects, including a study on the effect of external alignments. We find that the transducer model generalizes much better on longer sequences than the attention model. Our final transducer model outperforms our attention model on Switchboard 300h by over 6% relative WER.
翻訳日:2022-12-01 12:54:57 公開日:2020-11-18
# 簡単な注意モデルを用いたsEMGジェスチャー認識

sEMG Gesture Recognition with a Simple Model of Attention ( http://arxiv.org/abs/2006.03645v2 )

ライセンス: Link先を確認
David Josephs, Carson Drake, Andrew Heroy, John Santerre(参考訳) 筋電制御は、ロボット人工装具分野における主要な研究分野の1つである。 我々は、表面筋電図(sEMG)信号分類の研究を行い、そこでは、単純で斬新な注意に基づくアプローチが業界をリードし、より複雑で最先端のモデルを普遍的に打ち負かしている。 新たなアテンションベースモデルでは,53本の指,手首,握り動作を含む業界標準データセットのベンチマークを達成し,高度な信号処理とCNNベースのアプローチの両面で改善した。 直感的なモデルによる強い結果は、sEMGが人工装具だけでなく、神経変性疾患の診断と予後、コンピュータによる外科手術、高度なロボット制御など、他の重要な分野にも応用できる将来的な機械学習研究の道のりであることを示唆している。 我々はこの提案を広範囲なアブレーション研究によって補強し、安価な消費者級センサによって収集されたノイズの多いsegデータからニューラルネットワークが高次時空間的特徴を容易に抽出できることを実証する。

Myoelectric control is one of the leading areas of research in the field of robotic prosthetics. We present our research in surface electromyography (sEMG) signal classification, where our simple and novel attention-based approach now leads the industry, universally beating more complex, state-of-the-art models. Our novel attention-based model achieves benchmark leading results on multiple industry-standard datasets including 53 finger, wrist, and grasping motions, improving over both sophisticated signal processing and CNN-based approaches. Our strong results with a straightforward model also indicate that sEMG represents a promising avenue for future machine learning research, with applications not only in prosthetics, but also in other important areas, such as diagnosis and prognostication of neurodegenerative diseases, computationally mediated surgeries, and advanced robotic control. We reinforce this suggestion with extensive ablative studies, demonstrating that a neural network can easily extract higher order spatiotemporal features from noisy sEMG data collected by affordable, consumer-grade sensors.
翻訳日:2022-11-25 03:35:34 公開日:2020-11-18
# 顔の錯覚による犯罪

The Criminality From Face Illusion ( http://arxiv.org/abs/2006.03895v2 )

ライセンス: Link先を確認
Kevin W. Bowyer, Michael King, Walter Scheirer and Kushal Vangara(参考訳) 顔画像の自動解析は、人の性別、年齢、人種、表情、身体質量指数、その他のさまざまな指標や状況に関する予測を生成することができる。 いくつかの最近の出版物は、犯罪/非犯罪としての地位を予測するために人の顔のイメージを分析することに成功したと主張している。 顔から犯罪を予測することは、最初は他の顔分析と似ているように思えるかもしれないが、私たちは、犯罪から顔からアルゴリズムを作成する試みは必ず失敗し、最近の出版物で実験結果が期待できるような錯覚は、不適切な実験デザインから生じる錯覚であり、顔の錯覚から犯罪を信じるための社会的コストが大きい可能性があると主張している。

The automatic analysis of face images can generate predictions about a person's gender, age, race, facial expression, body mass index, and various other indices and conditions. A few recent publications have claimed success in analyzing an image of a person's face in order to predict the person's status as Criminal / Non-Criminal. Predicting criminality from face may initially seem similar to other facial analytics, but we argue that attempts to create a criminality-from-face algorithm are necessarily doomed to fail, that apparently promising experimental results in recent publications are an illusion resulting from inadequate experimental design, and that there is potentially a large social cost to belief in the criminality from face illusion.
翻訳日:2022-11-24 21:58:45 公開日:2020-11-18
# CARTによるスパースラーニング

Sparse learning with CART ( http://arxiv.org/abs/2006.04266v2 )

ライセンス: Link先を確認
Jason M. Klusowski(参考訳) 二元分割を持つ決定木は、分類と回帰木(cart)の方法論を用いて一般に構築される。 回帰モデルの場合、このアプローチは、特定の変数に沿って二乗誤差(不純物)の和を最大化する分割点に従って、データを2つのホモ固有娘ノードに再帰的に分割する。 本稿では,CART法を用いて構築した回帰木の統計的特性について検討する。 そこで,各ノードにおける最適決定切り株と応答データとのピアソン相関によって学習誤差が制御され,分割点上の事前分布を構築し,非線形最適化問題の解法によって境界付けられた。 我々は, トレーニング誤差とピアソン相関の関係を利用して, 試料径の対数スケールでCARTが最適に複雑かつ良質なトレードオフを達成できることを示す。 回帰モデルの次元と潜在構造に適応するデータ依存量は、予測誤差の収束率を制御していると考えられる。

Decision trees with binary splits are popularly constructed using Classification and Regression Trees (CART) methodology. For regression models, this approach recursively divides the data into two near-homogenous daughter nodes according to a split point that maximizes the reduction in sum of squares error (the impurity) along a particular variable. This paper aims to study the statistical properties of regression trees constructed with CART methodology. In doing so, we find that the training error is governed by the Pearson correlation between the optimal decision stump and response data in each node, which we bound by constructing a prior distribution on the split points and solving a nonlinear optimization problem. We leverage this connection between the training error and Pearson correlation to show that CART with cost-complexity pruning achieves an optimal complexity/goodness-of-fit tradeoff when the depth scales with the logarithm of the sample size. Data dependent quantities, which adapt to the dimensionality and latent structure of the regression model, are seen to govern the rates of convergence of the prediction error.
翻訳日:2022-11-24 07:54:43 公開日:2020-11-18
# 誘導バイアスを用いた深層学習から記号モデルを発見する

Discovering Symbolic Models from Deep Learning with Inductive Biases ( http://arxiv.org/abs/2006.11287v2 )

ライセンス: Link先を確認
Miles Cranmer, Alvaro Sanchez-Gonzalez, Peter Battaglia, Rui Xu, Kyle Cranmer, David Spergel, Shirley Ho(参考訳) 我々は,強い帰納バイアスを導入することによって,学習深層モデルの記号表現を蒸留する一般手法を開発した。 グラフニューラルネットワーク(GNN)に注目します。 我々はまず,教師付き環境でGNNを訓練する際,まず疎密な潜在表現を奨励し,次に学習モデルの構成要素に記号回帰を適用し,明示的な物理的関係を抽出する。 我々は、力の法則やハミルトニアンを含む正しい既知の方程式をニューラルネットワークから抽出できることを見出した。 次に, この手法を非自明な宇宙論の例, 詳細なダークマターシミュレーションに適用し, 近傍の宇宙構造の質量分布からダークマターの濃度を予測できる新しい解析式を発見する。 また,本手法を用いてGNNから抽出した記号表現は,GNN自体よりも分布外データに一般化された。 我々のアプローチは、ニューラルネットワークを解釈し、学習した表現から新しい物理原理を発見するための代替手段を提供する。

We develop a general approach to distill symbolic representations of a learned deep model by introducing strong inductive biases. We focus on Graph Neural Networks (GNNs). The technique works as follows: we first encourage sparse latent representations when we train a GNN in a supervised setting, then we apply symbolic regression to components of the learned model to extract explicit physical relations. We find the correct known equations, including force laws and Hamiltonians, can be extracted from the neural network. We then apply our method to a non-trivial cosmology example-a detailed dark matter simulation-and discover a new analytic formula which can predict the concentration of dark matter from the mass distribution of nearby cosmic structures. The symbolic expressions extracted from the GNN using our technique also generalized to out-of-distribution data better than the GNN itself. Our approach offers alternative directions for interpreting neural networks and discovering novel physical principles from the representations they learn.
翻訳日:2022-11-19 04:41:34 公開日:2020-11-18
# Gradient-EM Bayesianメタラーニング

Gradient-EM Bayesian Meta-learning ( http://arxiv.org/abs/2006.11764v2 )

ライセンス: Link先を確認
Yayi Zou, Xiaoqi Lu(参考訳) ベイズメタラーニングは、不確実性評価を伴う新しいタスクへの堅牢で高速な適応を可能にする。 ベイズメタラーニングの背後にある重要なアイデアは、階層モデルの経験的ベイズ推論である。 本研究では,gradient-emアルゴリズムに基づく変種の提案を行う前に,既存の手法を多種含むように拡張する。 提案手法は, 深層ニューラルネットワークを消費するメタ更新段階におけるバックプロパゲーション計算を回避し, 計算効率を向上させる。 さらに、メタ更新から切り離して内部更新最適化手順に柔軟性を提供する。 正弦波回帰, 少数ショット画像分類, およびポリシーに基づく強化学習実験により, 本手法は計算コストを抑えて精度を向上するだけでなく, 不確実性に対しても頑健であることが示された。

Bayesian meta-learning enables robust and fast adaptation to new tasks with uncertainty assessment. The key idea behind Bayesian meta-learning is empirical Bayes inference of hierarchical model. In this work, we extend this framework to include a variety of existing methods, before proposing our variant based on gradient-EM algorithm. Our method improves computational efficiency by avoiding back-propagation computation in the meta-update step, which is exhausting for deep neural networks. Furthermore, it provides flexibility to the inner-update optimization procedure by decoupling it from meta-update. Experiments on sinusoidal regression, few-shot image classification, and policy-based reinforcement learning show that our method not only achieves better accuracy with less computation cost, but is also more robust to uncertainty.
翻訳日:2022-11-18 11:40:16 公開日:2020-11-18
# 相関入力を持つ最適制御タスクのためのスパース符号によるニューロダイナミックプログラミングの高速化と効率向上

A sparse code increases the speed and efficiency of neuro-dynamic programming for optimal control tasks with correlated inputs ( http://arxiv.org/abs/2006.11968v3 )

ライセンス: Link先を確認
Peter N. Loxley(参考訳) 神経科学におけるスパース符号は、感覚データの他の神経表現よりも特定の計算上の利点をもたらすことが提案されている。 この観点から,神経力学計画法で解く最適制御タスクにおいて,自然画像を表現するためにスパース符号を用い,その計算特性について検討した。 中心的な発見は、線形ネットワークへの特徴入力が相関すると、同じサイズの入力を持つ任意の完全コードに対して、オーバーコンプリートスパースコードは、ネットワークのメモリ容量を可能な限り効率的に増加させ、ネットワーク重みを学習する速度を高めることである。 完全なスパース符号は、最小二乗問題の設計行列を全ランクの1つに変換するために特徴入力を関連付けることで、線形ネットワークのメモリ容量を最大化する。 また、最小二乗問題のヘッセン行列を条件付け、最適のネットワーク重みへの収束率を増大させる。 他の種類の関連コードもこれを実現する。 しかし、オーバーコンプリートスパースコードは、ほぼデコリ関連であることが判明し、同じサイズの入力から、およそデコリ関連の機能の多くを抽出し、任意のコンプリートコードで可能以上のメモリ容量を効率的に増やすことができる。 これは、ネットワークに潜在的に多くの最適制御タスクを格納するために、逐次学習で使用されるが、破滅的な忘れは分割表現によって避けられ、各パーティションの状態を一般化するコスト対ゴー関数近似器が得られる。 密集したコードやローカルコードよりもスパースコードのアドバンテージも議論されている。

Sparse codes in neuroscience have been suggested to offer certain computational advantages over other neural representations of sensory data. To explore this viewpoint, a sparse code is used to represent natural images in an optimal control task solved with neuro-dynamic programming, and its computational properties are investigated. The central finding is that when feature inputs to a linear network are correlated, an over-complete sparse code increases the memory capacity of the network in an efficient manner beyond that possible for any complete code with the same-sized input, and also increases the speed of learning the network weights. A complete sparse code is found to maximise the memory capacity of a linear network by decorrelating its feature inputs to transform the design matrix of the least-squares problem to one of full rank. It also conditions the Hessian matrix of the least-squares problem, thereby increasing the rate of convergence to the optimal network weights. Other types of decorrelating codes would also achieve this. However, an over-complete sparse code is found to be approximately decorrelated, extracting a larger number of approximately decorrelated features from the same-sized input, allowing it to efficiently increase memory capacity beyond that possible for any complete code: a 2.25 times over-complete sparse code is shown to at least double memory capacity compared with a complete sparse code using the same input. This is used in sequential learning to store a potentially large number of optimal control tasks in the network, while catastrophic forgetting is avoided using a partitioned representation, yielding a cost-to-go function approximator that generalizes over the states in each partition. Sparse code advantages over dense codes and local codes are also discussed.
翻訳日:2022-11-18 04:35:18 公開日:2020-11-18
# 部分空間拡散による離間

Disentangling by Subspace Diffusion ( http://arxiv.org/abs/2006.12982v2 )

ライセンス: Link先を確認
David Pfau, Irina Higgins, Aleksandar Botev and S\'ebastien Racani\`ere(参考訳) 本稿では,データ多様体の対称性に基づく解離のための新しい非パラメトリックアルゴリズム,Geometric Manifold Component Estimator (GEOMANCER)を提案する。 GEOMANCER は Higgins et al. (2018): 作用する物体の軌道の観測からのみリー群を分解する方法を学ぶことは可能か? データ多様体の完全な教師なし因子分解は、多様体の真の計量が知られ、各因子多様体が非自明なホロノミー(例えば3dの回転)を持つ場合に可能である。 我々のアルゴリズムはランダムウォーク拡散の下で不変な部分空間を推定し、微分幾何学からド・ラム分解を近似する。 いくつかの複素合成多様体に対するGEOMANCERの有効性を示す。 本研究は,教師なし距離学習が可能かという問題に対して,教師なし距離学習が可能かという疑問を減らし,表現学習の幾何学的性質に関する統一的な洞察を与える。

We present a novel nonparametric algorithm for symmetry-based disentangling of data manifolds, the Geometric Manifold Component Estimator (GEOMANCER). GEOMANCER provides a partial answer to the question posed by Higgins et al. (2018): is it possible to learn how to factorize a Lie group solely from observations of the orbit of an object it acts on? We show that fully unsupervised factorization of a data manifold is possible if the true metric of the manifold is known and each factor manifold has nontrivial holonomy -- for example, rotation in 3D. Our algorithm works by estimating the subspaces that are invariant under random walk diffusion, giving an approximation to the de Rham decomposition from differential geometry. We demonstrate the efficacy of GEOMANCER on several complex synthetic manifolds. Our work reduces the question of whether unsupervised disentangling is possible to the question of whether unsupervised metric learning is possible, providing a unifying insight into the geometric nature of representation learning.
翻訳日:2022-11-17 22:08:09 公開日:2020-11-18
# ヘビーテールバンドのミニマックス政策

Minimax Policy for Heavy-tailed Bandits ( http://arxiv.org/abs/2007.10493v2 )

ライセンス: Link先を確認
Lai Wei and Vaibhav Srivastava(参考訳) 我々は,最悪の後悔と重み付き報酬分布の下で,確率的マルチアーマッド・バンドイット(MAB)問題を考察した。 我々は、飽和経験平均を用いて、ガウス以下の報酬分布に対するミニマックスポリシー MOSS を修正し、ロバスト MOSS と呼ばれる新しいアルゴリズムを設計する。 報酬分布に対する1+\epsilon$の注文がある場合、洗練された戦略は、分布依存の対数後悔を維持しながら、下限に合致する最悪のケースの後悔を持つ。

We study the stochastic Multi-Armed Bandit (MAB) problem under worst-case regret and heavy-tailed reward distribution. We modify the minimax policy MOSS for the sub-Gaussian reward distribution by using saturated empirical mean to design a new algorithm called Robust MOSS. We show that if the moment of order $1+\epsilon$ for the reward distribution exists, then the refined strategy has a worst-case regret matching the lower bound while maintaining a distribution-dependent logarithm regret.
翻訳日:2022-11-08 12:54:19 公開日:2020-11-18
# 回折表面の全光情報処理能力

All-Optical Information Processing Capacity of Diffractive Surfaces ( http://arxiv.org/abs/2007.12813v2 )

ライセンス: Link先を確認
Onur Kulce, Deniz Mengu, Yair Rivenson, Aydogan Ozcan(参考訳) 材料と表面の精密な工学は、光学と光子学の最近の進歩の核心にある。 新しい機能を持つ材料工学に関するこれらの進歩は、光間相互作用と回折によって計算と機械学習のタスクを実行できる訓練可能な表面を設計するためのエキサイティングな道を開いた。 本稿では、与えられた入力と出力フィールドの間の全光学計算タスクを実行するために訓練された回折曲面によって形成されたコヒーレント光ネットワークの情報処理能力を分析する。 入力フィールドと出力フィールドの間の複素値変換をカバーする全光学解空間の次元性は、入力フィールドと出力フィールド・オブ・ビューの範囲によって決定される限界まで、光学ネットワーク内の回折面の数に線形に比例することを示した。 より多くのトレーニング可能な曲面からなるより深い微分ネットワークは、より大きな入力場とより大きな出力場の間の複素値線形変換の高次元部分空間をカバーでき、単一のトレーニング可能な微分曲面と比較して、異なる画像分類タスクに対する統計的推論、学習および一般化能力の点で、深度優位性を示す。 これらの解析と結論は、プラズモニックおよび/または誘電体ベースのメタサーフェスや、全光学プロセッサを形成するのに使用できる平面光学など、様々な形態の回折表面に適用できる。

Precise engineering of materials and surfaces has been at the heart of some of the recent advances in optics and photonics. These advances around the engineering of materials with new functionalities have also opened up exciting avenues for designing trainable surfaces that can perform computation and machine learning tasks through light-matter interaction and diffraction. Here, we analyze the information processing capacity of coherent optical networks formed by diffractive surfaces that are trained to perform an all-optical computational task between a given input and output field-of-view. We show that the dimensionality of the all-optical solution space covering the complex-valued transformations between the input and output fields-of-view is linearly proportional to the number of diffractive surfaces within the optical network, up to a limit that is dictated by the extent of the input and output fields-of-view. Deeper diffractive networks that are composed of larger numbers of trainable surfaces can cover a higher dimensional subspace of the complex-valued linear transformations between a larger input field-of-view and a larger output field-of-view, and exhibit depth advantages in terms of their statistical inference, learning and generalization capabilities for different image classification tasks, when compared with a single trainable diffractive surface. These analyses and conclusions are broadly applicable to various forms of diffractive surfaces, including e.g., plasmonic and/or dielectric-based metasurfaces and flat optics that can be used to form all-optical processors.
翻訳日:2022-11-07 00:33:11 公開日:2020-11-18
# SMSテキスト正規化のためのベイズTRIEモデルの改良

An improved Bayesian TRIE based model for SMS text normalization ( http://arxiv.org/abs/2008.01297v2 )

ライセンス: Link先を確認
Abhinava Sikdar, Niladri Chatterjee(参考訳) SMSテキストの正規化(テキスト言語として知られる)は10年以上続いている。 この三重項データ構造に基づく確率論的アプローチは,前述したhmmに基づく手法よりも優れた性能を示すことが判明した文献で提案されている。 しかし、三重項に基づく手法の成功は、単語発生の確率がどの程度正確に推定されるかに大きく依存する。 本研究では,新しいトレーニングアルゴリズムと確率生成手法とともに,既存のTrieモデルの構造的変更を提案する。 提案する三重項の統計的性質に関する2つの定理を証明し、単語の出現確率の偏りのない一貫した推定子であると主張する。 我々はさらに、我々のモデルをノイズチャネルに基づく誤り訂正のパラダイムに融合させ、ダマラウ・レヴェンシュテイン距離を超えるヒューリスティックを提供する。 また,我々の主張を裏付けるシミュレーションを行い,提案手法が従来よりも優れていることを示す。

Normalization of SMS text, commonly known as texting language, is being pursued for more than a decade. A probabilistic approach based on the Trie data structure was proposed in literature which was found to be better performing than HMM based approaches proposed earlier in predicting the correct alternative for an out-of-lexicon word. However, success of the Trie based approach depends largely on how correctly the underlying probabilities of word occurrences are estimated. In this work we propose a structural modification to the existing Trie-based model along with a novel training algorithm and probability generation scheme. We prove two theorems on statistical properties of the proposed Trie and use them to claim that is an unbiased and consistent estimator of the occurrence probabilities of the words. We further fuse our model into the paradigm of noisy channel based error correction and provide a heuristic to go beyond a Damerau Levenshtein distance of one. We also run simulations to support our claims and show superiority of the proposed scheme over previous works.
翻訳日:2022-11-03 00:49:38 公開日:2020-11-18
# 移動式ソフトセンサの設計法とその応用

A Novel Method For Designing Transferable Soft Sensors And Its Application ( http://arxiv.org/abs/2008.02186v2 )

ライセンス: Link先を確認
Hossein Shahabadi Farahani, Alireza Fatehi, Alireza Nadali and Mahdi Aliyari Shoorehdeli(参考訳) 本稿では,移動可能なソフトセンサを設計するための新しい手法を提案する。 ソフトセンシングは、植物の状態モニタリングにおけるデータ駆動手法の重要な応用の1つである。 硬いセンサーは様々な植物で容易に使用できるが、ソフトセンサーは設計されている特定の植物に限定されており、新しい植物では使用できない。 本稿では,データ駆動型状態監視システムにおけるこの問題に対する解決策を提案する。 データ駆動手法は、モデルが構築されるデータの分布が、モデルが適用されるデータの分布と一致しない可能性があるという事実に苦しむ。 これは最終的にモデルの精度を低下させる。 そこで我々は,DANN-R(Domain Adversarial Neural Network Regression)と呼ばれる,新たな伝達学習に基づく回帰手法を提案し,トランスファー可能なソフトセンサの設計に利用した。 産業用発電所のSCADAシステムから収集したデータを用いて,提案手法の有効性を総合的に検討した。 その結果,提案する移動性ソフトセンサが新しいプラントに適応できることが判明した。

In this paper, a new approach is proposed for designing transferable soft sensors. Soft sensing is one of the significant applications of data-driven methods in the condition monitoring of plants. While hard sensors can be easily used in various plants, soft sensors are confined to the specific plant they are designed for and cannot be used in a new plant or even used in some new working conditions in the same plant. In this paper, a solution is proposed for this underlying obstacle in data-driven condition monitoring systems. Data-driven methods suffer from the fact that the distribution of the data by which the models are constructed may not be the same as the distribution of the data to which the model will be applied. This ultimately leads to the decline of models accuracy. We proposed a new transfer learning (TL) based regression method, called Domain Adversarial Neural Network Regression (DANN-R), and employed it for designing transferable soft sensors. We used data collected from the SCADA system of an industrial power plant to comprehensively investigate the functionality of the proposed method. The result reveals that the proposed transferable soft sensor can successfully adapt to new plants.
翻訳日:2022-11-02 19:06:01 公開日:2020-11-18
# iv-slam: 同時ローカライゼーションとマッピングのためのイントロスペクティブビジョン

IV-SLAM: Introspective Vision for Simultaneous Localization and Mapping ( http://arxiv.org/abs/2008.02760v2 )

ライセンス: Link先を確認
Sadegh Rabiee and Joydeep Biswas(参考訳) 既存の視覚的同時ローカライゼーションとマッピング(V-SLAM)のソリューションでは、特徴抽出とマッチングにおける誤差は独立で同一分布(d)であると仮定しているが、この仮定は真ではないことが知られている。 さらに、V-SLAMアルゴリズムは、知覚された画像がスペクトル反射、レンズフレア、ダイナミックオブジェクトの影などの困難な条件を含む場合、破滅的な追跡障害を引き起こす傾向にある。 このような障害に対処するため、以前の作業では、より堅牢なビジュアルフロントエンドの構築に重点を置いていた。 本稿では,これらの課題に対処するための根本的に異なるアプローチであるSLAM(IV-SLAM)のイントロスペクティブビジョンを提案する。 iv-slamは、視覚特徴から再投影エラーのノイズプロセスを明示的にモデル化し、それゆえ、非i.i.d.d.では、iv-slamがそのような文脈認識ノイズモデルを学ぶためにトレーニングデータを集めるための自律的教師付きアプローチを導入する。 この学習ノイズモデルを用いて、IV-SLAMは特徴抽出をガイドし、低ノイズをもたらす可能性のある画像の一部からより多くの特徴を抽出し、さらに学習ノイズモデルを結合最大推定に組み込むことにより、上記のタイプのエラーに対して堅牢になる。 IV-SLAMの実証実験結果を示す。 1)入力画像における誤差の発生源を正確に予測することができる。 2)V-SLAMと比較してトラッキングエラーを低減し, 3) V-SLAMと比較して, 実際のロボットデータに対して, トラッキング障害間の平均距離を70%以上増加させる。

Existing solutions to visual simultaneous localization and mapping (V-SLAM) assume that errors in feature extraction and matching are independent and identically distributed (i.i.d), but this assumption is known to not be true -- features extracted from low-contrast regions of images exhibit wider error distributions than features from sharp corners. Furthermore, V-SLAM algorithms are prone to catastrophic tracking failures when sensed images include challenging conditions such as specular reflections, lens flare, or shadows of dynamic objects. To address such failures, previous work has focused on building more robust visual frontends, to filter out challenging features. In this paper, we present introspective vision for SLAM (IV-SLAM), a fundamentally different approach for addressing these challenges. IV-SLAM explicitly models the noise process of reprojection errors from visual features to be context-dependent, and hence non-i.i.d. We introduce an autonomously supervised approach for IV-SLAM to collect training data to learn such a context-aware noise model. Using this learned noise model, IV-SLAM guides feature extraction to select more features from parts of the image that are likely to result in lower noise, and further incorporate the learned noise model into the joint maximum likelihood estimation, thus making it robust to the aforementioned types of errors. We present empirical results to demonstrate that IV-SLAM 1) is able to accurately predict sources of error in input images, 2) reduces tracking error compared to V-SLAM, and 3) increases the mean distance between tracking failures by more than 70% on challenging real robot data compared to V-SLAM.
翻訳日:2022-11-02 07:57:18 公開日:2020-11-18
# SNoRe: シンボリックノード表現のスケーラブルな教師なし学習

SNoRe: Scalable Unsupervised Learning of Symbolic Node Representations ( http://arxiv.org/abs/2009.04535v2 )

ライセンス: Link先を確認
Sebastian Me\v{z}nar, Nada Lavra\v{c}, Bla\v{z} \v{S}krlj(参考訳) 複雑な実生活ネットワークから学ぶことは活発な研究分野であり、情報豊富な低次元ネットワークノード表現を学習する最近の進歩である。 しかし、最先端の手法は必ずしも解釈可能ではないため、明示的なバイアス検出が重要となるバイオメディカルまたはユーザプロファイリングタスクのセンシティブな設定に完全には適用できない。 提案するsnore(symbolic node representations)アルゴリズムは、特徴として機能する近傍ハッシュの類似性に基づいて、個々のネットワークノードのシンボリックで理解可能な表現を学習することができる。 SNoReの解釈可能な特徴は、個々の予測を直接説明するのに適しており、広く使われているインスタンス説明ツールSHAPと組み合わせて、与えられた分類における個々の特徴の関連性を表すノモグラムを得る。 我々の知る限り、これは構造ノード埋め込み設定における最初の試みの1つである。 11のリアルライフデータセットに関する実験的評価において、snoreは変動グラフオートエンコーダ、node2vec、lineといった強力なベースラインと競合することが判明した。 SNoReのベクトル化実装は大規模ネットワークにスケールし、現代のネットワーク学習および分析タスクに適している。

Learning from complex real-life networks is a lively research area, with recent advances in learning information-rich, low-dimensional network node representations. However, state-of-the-art methods are not necessarily interpretable and are therefore not fully applicable to sensitive settings in biomedical or user profiling tasks, where explicit bias detection is highly relevant. The proposed SNoRe (Symbolic Node Representations) algorithm is capable of learning symbolic, human-understandable representations of individual network nodes, based on the similarity of neighborhood hashes which serve as features. SNoRe's interpretable features are suitable for direct explanation of individual predictions, which we demonstrate by coupling it with the widely used instance explanation tool SHAP to obtain nomograms representing the relevance of individual features for a given classification. To our knowledge, this is one of the first such attempts in a structural node embedding setting. In the experimental evaluation on eleven real-life datasets, SNoRe proved to be competitive to strong baselines, such as variational graph autoencoders, node2vec and LINE. The vectorized implementation of SNoRe scales to large networks, making it suitable for contemporary network learning and analysis tasks.
翻訳日:2022-10-20 20:36:34 公開日:2020-11-18
# 因果DAGのスケーラブルベイズ学習に向けて

Towards Scalable Bayesian Learning of Causal DAGs ( http://arxiv.org/abs/2010.00684v2 )

ライセンス: Link先を確認
Jussi Viinikka, Antti Hyttinen, Johan Pensar, Mikko Koivisto(参考訳) 有向非巡回グラフ, dag, および受動的に観測された完全データから誘導される因果効果のベイズ推定法を提案する。 提案手法は,ベイズネットワークを学習するための最近のマルコフ連鎖モンテカルロスキームを基盤とし,各ノードに候補親の少人数$k$を割り当てることにより,グラフの後方からの効率的な近似サンプリングを可能にする。 本稿では,空間と時間要件を大幅に削減するアルゴリズム手法を提案する。 さらに,被被覆後質量を最大化するために,ノードごとに候補親を選択する問題についても検討した。 最後に、線形ガウスDAGモデルにおける因果効果を推定するための新しいベイズアプローチとサンプリング手法を組み合わせる。 数値実験により,祖先-従属関係の検出における提案手法の性能を実証し,因果効果の推定において,ベイズ法が先行手法よりも優れることを示した。

We give methods for Bayesian inference of directed acyclic graphs, DAGs, and the induced causal effects from passively observed complete data. Our methods build on a recent Markov chain Monte Carlo scheme for learning Bayesian networks, which enables efficient approximate sampling from the graph posterior, provided that each node is assigned a small number $K$ of candidate parents. We present algorithmic techniques to significantly reduce the space and time requirements, which make the use of substantially larger values of $K$ feasible. Furthermore, we investigate the problem of selecting the candidate parents per node so as to maximize the covered posterior mass. Finally, we combine our sampling method with a novel Bayesian approach for estimating causal effects in linear Gaussian DAG models. Numerical experiments demonstrate the performance of our methods in detecting ancestor-descendant relations, and in causal effect estimation our Bayesian method is shown to outperform previous approaches.
翻訳日:2022-10-12 22:33:14 公開日:2020-11-18
# SRLGRN:Semantic Role Labeling Graph Reasoning Network

SRLGRN: Semantic Role Labeling Graph Reasoning Network ( http://arxiv.org/abs/2010.03604v2 )

ライセンス: Link先を確認
Chen Zheng, Parisa Kordjamshidi(参考訳) この研究は、マルチホップ質問応答(QA)に対する学習と推論の課題を扱う。 本稿では,文の意味的構造に基づくグラフ推論ネットワークを提案する。 提案したグラフは、タイプ文(クエクション、タイトル、その他の文)のノードを含む異質な文書レベルグラフであり、引数をノードとして含み、エッジとして述語する文ごとにサブグラフをラベル付けするセマンティックロールである。 SRLから派生した引数の型、引数のフレーズ、エッジの意味をグラフエンコーダに組み込むことは、推論パスの発見と説明可能性にも役立ちます。 提案手法は,最近の最先端モデルと比較して,HotpotQAトラクタ設定ベンチマークにおける競合性能を示す。

This work deals with the challenge of learning and reasoning over multi-hop question answering (QA). We propose a graph reasoning network based on the semantic structure of the sentences to learn cross paragraph reasoning paths and find the supporting facts and the answer jointly. The proposed graph is a heterogeneous document-level graph that contains nodes of type sentence (question, title, and other sentences), and semantic role labeling sub-graphs per sentence that contain arguments as nodes and predicates as edges. Incorporating the argument types, the argument phrases, and the semantics of the edges originated from SRL predicates into the graph encoder helps in finding and also the explainability of the reasoning paths. Our proposed approach shows competitive performance on the HotpotQA distractor setting benchmark compared to the recent state-of-the-art models.
翻訳日:2022-10-09 23:30:02 公開日:2020-11-18
# ディリクレグラフ変分オートエンコーダ

Dirichlet Graph Variational Autoencoder ( http://arxiv.org/abs/2010.04408v2 )

ライセンス: Link先を確認
Jia Li, Tomasyu Yu, Jiajin Li, Honglei Zhang, Kangfei Zhao, YU Rong, Hong Cheng, Junzhou Huang(参考訳) グラフニューラルネットワーク(GNN)と変分オートエンコーダ(VAE)は、潜在因子を持つグラフのモデリングや生成に広く利用されている。 しかし、これらの潜在的な要因が何で、なぜうまく機能するのか、明確な説明はない。 本稿では,グラフクラスタメンバシップを潜在因子とするDGVAE(Dirichlet Graph Variational Autoencoder)を提案する。 本研究では,VAEに基づくグラフ生成とバランスの取れたグラフカットを結合し,VAEに基づくグラフ生成の内部メカニズムの理解と改善を行う。 具体的には,まず,dgvaeの再構成用語を原則的にバランスのとれたグラフカットとして解釈する。 さらに、バランスグラフカットにおける低パス特性を動機として、入力グラフをクラスタメンバシップにエンコードする、Heattsと呼ばれるGNNの新しい変種を提案する。 ヒートツはテイラー級数を用いて熱カーネルを高速に計算し、グラフ畳み込みネットワーク(GCN)よりも低いパス特性を持つ。 グラフ生成とグラフクラスタリングの実験を通じて,提案フレームワークの有効性を実証する。

Graph Neural Networks (GNNs) and Variational Autoencoders (VAEs) have been widely used in modeling and generating graphs with latent factors. However, there is no clear explanation of what these latent factors are and why they perform well. In this work, we present Dirichlet Graph Variational Autoencoder (DGVAE) with graph cluster memberships as latent factors. Our study connects VAEs based graph generation and balanced graph cut, and provides a new way to understand and improve the internal mechanism of VAEs based graph generation. Specifically, we first interpret the reconstruction term of DGVAE as balanced graph cut in a principled way. Furthermore, motivated by the low pass characteristics in balanced graph cut, we propose a new variant of GNN named Heatts to encode the input graph into cluster memberships. Heatts utilizes the Taylor series for fast computation of heat kernels and has better low pass characteristics than Graph Convolutional Networks (GCN). Through experiments on graph generation and graph clustering, we demonstrate the effectiveness of our proposed framework.
翻訳日:2022-10-09 05:57:50 公開日:2020-11-18
# 潜在変数因果グラフ推定のための一般化独立雑音条件

Generalized Independent Noise Condition for Estimating Latent Variable Causal Graphs ( http://arxiv.org/abs/2010.04917v2 )

ライセンス: Link先を確認
Feng Xie, Ruichu Cai, Biwei Huang, Clark Glymour, Zhifeng Hao, Kun Zhang(参考訳) 因果発見は、観測データの基礎となる因果構造やモデルを取り戻すことを目的としている。 特定の領域での成功にもかかわらず、既存の手法の多くは観測された変数間の因果関係に焦点を当てているが、多くのシナリオでは観測されたものは基礎となる因果変数(例えば画像ピクセル)ではなく、因果関係を持つ潜在因果変数や共同創設者によって生成される。 そこで,本稿では,潜在共起者が因果関係にある線形非ガウス型潜在変数モデル (linglams) について検討し,そのような潜在変数グラフを推定するための一般化された独立雑音 (gin) 条件を提案する。 具体的には、2つの観測されたランダムベクトル $\mathbf{Y}$ と $\mathbf{Z}$ に対して、GIN が成り立つのは、$\omega^{\intercal}\mathbf{Y}$ と $\mathbf{Z}$ が統計的に独立である場合に限りであり、$\omega$ は $\mathbf{Y}$ と $\mathbf{Z}$ の交叉共分散から特徴づけられるベクトルである。 グラフィカルな見方では、概して、GIN は $\mathbf{Y}$ d-分離 $\mathbf{Y}$ from $\mathbf{Z}$ において変数の因果的に早く潜伏する共通原因を示唆している。 興味深いことに、共起者がいなければ、原因が原因に対する影響を後退させるエラーから独立しているという独立したノイズ条件は、ジンの特別な場合と見なすことができる。 さらに、GINは潜伏変数の探索と因果方向を含む因果構造の同定に有効であることを示す。 さらに,これらの目標を達成するための再帰学習アルゴリズムを考案する。 合成および実世界のデータに対する実験結果から,本手法の有効性が示された。

Causal discovery aims to recover causal structures or models underlying the observed data. Despite its success in certain domains, most existing methods focus on causal relations between observed variables, while in many scenarios the observed ones may not be the underlying causal variables (e.g., image pixels), but are generated by latent causal variables or confounders that are causally related. To this end, in this paper, we consider Linear, Non-Gaussian Latent variable Models (LiNGLaMs), in which latent confounders are also causally related, and propose a Generalized Independent Noise (GIN) condition to estimate such latent variable graphs. Specifically, for two observed random vectors $\mathbf{Y}$ and $\mathbf{Z}$, GIN holds if and only if $\omega^{\intercal}\mathbf{Y}$ and $\mathbf{Z}$ are statistically independent, where $\omega$ is a parameter vector characterized from the cross-covariance between $\mathbf{Y}$ and $\mathbf{Z}$. From the graphical view, roughly speaking, GIN implies that causally earlier latent common causes of variables in $\mathbf{Y}$ d-separate $\mathbf{Y}$ from $\mathbf{Z}$. Interestingly, we find that the independent noise condition, i.e., if there is no confounder, causes are independent from the error of regressing the effect on the causes, can be seen as a special case of GIN. Moreover, we show that GIN helps locate latent variables and identify their causal structure, including causal directions. We further develop a recursive learning algorithm to achieve these goals. Experimental results on synthetic and real-world data demonstrate the effectiveness of our method.
翻訳日:2022-10-08 22:47:21 公開日:2020-11-18
# 最大の教師、失敗とは: 可用性とエネルギー消費に基づくsfc配置のための強化学習の使用

The Greatest Teacher, Failure is: Using Reinforcement Learning for SFC Placement Based on Availability and Energy Consumption ( http://arxiv.org/abs/2010.05711v2 )

ライセンス: Link先を確認
Guto Leoni Santos, Theo Lynn, Judith Kelner, Patricia Takako Endo(参考訳) ソフトウェア定義ネットワーク(SDN)とネットワーク機能仮想化(NFV)はネットワークをプログラマブルにし、その結果、より柔軟でアジャイルになっている。 サービスレベルの合意を満たし、レガシネットワークのさらなる活用、より高速なサービス展開、支出削減を達成するため、通信事業者はますます複雑なサービス機能チェーン(sfc)を展開している。 SFCの利点にも拘わらず、クラウドからエッジへの異質性やダイナミズムの増加は、ネットワーク機能の追加や削除、可用性の維持、サービスの質、コストの最小化といった、重要なSFC配置上の課題をもたらす。 本稿では, 動的SFC配置に対する強化学習(RL)に基づくアベイラビリティとエネルギーを考慮したソリューションを提案する。 ブラジルの国立教育研究ネットワークバックボーンであるrede nacional de ensino e pesquisa (rnp) ネットワークに基づく基底真理ネットワークトポロジーのシミュレーションを用いて,2つのポリシー対応rlアルゴリズムである advantage actor-critic (a2c) とproximal policy optimization (ppo2) を比較した。 シミュレーションの結果, PPO2は一般にA2Cより優れ, 受容率とエネルギー消費の両面でグリージーなアプローチであった。 A2Cは、ネットワークサーバがより多くのコンピューティングリソースを持つシナリオでPPO2を上回った。

Software defined networking (SDN) and network functions virtualisation (NFV) are making networks programmable and consequently much more flexible and agile. To meet service level agreements, achieve greater utilisation of legacy networks, faster service deployment, and reduce expenditure, telecommunications operators are deploying increasingly complex service function chains (SFCs). Notwithstanding the benefits of SFCs, increasing heterogeneity and dynamism from the cloud to the edge introduces significant SFC placement challenges, not least adding or removing network functions while maintaining availability, quality of service, and minimising cost. In this paper, an availability- and energy-aware solution based on reinforcement learning (RL) is proposed for dynamic SFC placement. Two policy-aware RL algorithms, Advantage Actor-Critic (A2C) and Proximal Policy Optimisation (PPO2), are compared using simulations of a ground truth network topology based on the Rede Nacional de Ensino e Pesquisa (RNP) Network, Brazil's National Teaching and Research Network backbone. The simulation results showed that PPO2 generally outperformed A2C and a greedy approach both in terms of acceptance rate and energy consumption. A2C outperformed PPO2 only in the scenario where network servers had a greater number of computing resources.
翻訳日:2022-10-08 08:01:19 公開日:2020-11-18
# Attentive Graph Convolutional Networksを用いたSupertagging Combinatoryカテゴリ文法

Supertagging Combinatory Categorial Grammar with Attentive Graph Convolutional Networks ( http://arxiv.org/abs/2010.06115v2 )

ライセンス: Link先を確認
Yuanhe Tian, Yan Song, Fei Xia(参考訳) スーパータギングは従来,文脈情報の効果的なモデリングが極めて重要である,組合せ分類文法(CCG)解析における重要なタスクとみなされてきた。 しかし、既存の研究では、強力なエンコーダ(bi-LSTMなど)を応用することを除いて、文脈的特徴を活用する努力が限られている。 本稿では,文脈情報を活用する新しい手法により,ニューラルネットワークのCCGスーパータグ付けを向上するための注意グラフ畳み込みネットワークを提案する。 具体的には、レキシコンから抽出したチャンク(n-gram)からグラフを構築し、グラフに注意を向け、チャンク内外のコンテキストから異なる単語対を重み付けし、それに応じてスーパータグ付けを容易にする。 CCGbankで行った実験は、我々のアプローチがスーパータグとパーシングの両方で過去のすべての研究より優れていることを示した。 さらに, 単語ペアから識別的に学習し, CCGスーパータグ付けを強化する手法における各コンポーネントの有効性を考察した。

Supertagging is conventionally regarded as an important task for combinatory categorial grammar (CCG) parsing, where effective modeling of contextual information is highly important to this task. However, existing studies have made limited efforts to leverage contextual features except for applying powerful encoders (e.g., bi-LSTM). In this paper, we propose attentive graph convolutional networks to enhance neural CCG supertagging through a novel solution of leveraging contextual information. Specifically, we build the graph from chunks (n-grams) extracted from a lexicon and apply attention over the graph, so that different word pairs from the contexts within and across chunks are weighted in the model and facilitate the supertagging accordingly. The experiments performed on the CCGbank demonstrate that our approach outperforms all previous studies in terms of both supertagging and parsing. Further analyses illustrate the effectiveness of each component in our approach to discriminatively learn from word pairs to enhance CCG supertagging.
翻訳日:2022-10-07 23:30:44 公開日:2020-11-18
# 重度クラス不均衡下における多層セグメンテーション:屋根損傷評価における事例研究

Multi-class segmentation under severe class imbalance: A case study in roof damage assessment ( http://arxiv.org/abs/2010.07151v2 )

ライセンス: Link先を確認
Jean-Baptiste Boin, Nat Roth, Jigar Doshi, Pablo Llueca, Nicolas Borensztein(参考訳) 屋根の損傷分類と頭上画像からのセグメンテーションの課題は, 独特な課題である。 この作業では、強いクラス不均衡によって生じる課題に対処することを選択します。 この問題を軽減するための4つの異なる手法を提案する。 マイノリティクラスをオーバーサンプリングすることでデータをネットワークに供給する新たなスキームと、その他の3つのネットワークアーキテクチャの改善により、モデルのマクロ平均F1スコアを39.9%向上させ、特にマイノリティクラスにおいてセグメンテーション性能の向上を実現する。

The task of roof damage classification and segmentation from overhead imagery presents unique challenges. In this work we choose to address the challenge posed due to strong class imbalance. We propose four distinct techniques that aim at mitigating this problem. Through a new scheme that feeds the data to the network by oversampling the minority classes, and three other network architectural improvements, we manage to boost the macro-averaged F1-score of a model by 39.9 percentage points, thus achieving improved segmentation performance, especially on the minority classes.
翻訳日:2022-10-07 13:47:51 公開日:2020-11-18
# 目で車線を見張る:リアルタイム注意誘導車線検出

Keep your Eyes on the Lane: Real-time Attention-guided Lane Detection ( http://arxiv.org/abs/2010.12035v2 )

ライセンス: Link先を確認
Lucas Tabelini, Rodrigo Berriel, Thiago M. Paix\~ao, Claudine Badue, Alberto F. De Souza, Thiago Oliveira-Santos(参考訳) 現代の車線検出手法は、複雑な実世界のシナリオにおいて顕著な性能を達成したが、自動運転車にとって重要なリアルタイム効率の維持に多くの問題がある。 本稿では,他の一般的な深部物体検出器と同様に,機能プーリングステップにアンカーを使用するアンカーベースの深部レーン検出モデルである laneatt を提案する。 レーンは規則的なパターンを踏襲し,高い相関関係にあるため,グローバルな情報は,特に閉塞や線路マーカーの欠如などの条件において,それらの位置を推測することが重要であるという仮説を立てる。 そこで本研究では,グローバル情報を集約する新しいアンカーベースの注意機構を提案する。 このモデルは、文献で最も広く使われている3つのデータセットで広く評価された。 その結果,本手法は高効率・高効率両立を示す最先端手法よりも優れていた。 さらに、実際に有用な効率性トレードオフオプションに関する議論とともに、アブレーション研究を行う。

Modern lane detection methods have achieved remarkable performances in complex real-world scenarios, but many have issues maintaining real-time efficiency, which is important for autonomous vehicles. In this work, we propose LaneATT: an anchor-based deep lane detection model, which, akin to other generic deep object detectors, uses the anchors for the feature pooling step. Since lanes follow a regular pattern and are highly correlated, we hypothesize that in some cases global information may be crucial to infer their positions, especially in conditions such as occlusion, missing lane markers, and others. Thus, this work proposes a novel anchor-based attention mechanism that aggregates global information. The model was evaluated extensively on three of the most widely used datasets in the literature. The results show that our method outperforms the current state-of-the-art methods showing both higher efficacy and efficiency. Moreover, an ablation study is performed along with a discussion on efficiency trade-off options that are useful in practice.
翻訳日:2022-10-04 07:08:01 公開日:2020-11-18
# 人間レベル性能によるクレーターの自動検出

Automated crater detection with human level performance ( http://arxiv.org/abs/2010.12520v2 )

ライセンス: Link先を確認
Christopher Lee, James Hogan(参考訳) クレーターカタログは地質図の重要な部分であるが、時間を要する。 本稿では,専門家と競合し,数百倍高速な自動クレーター検出アルゴリズム(CDA)を提案する。 CDAは複数のニューラルネットワークを使用して、デジタル地形モデルと熱赤外画像の処理を行い、火星の表面のクレーターを特定し、発見する。 我々は、さらなる後処理フィルタを使用して、潜在的な偽クレーター検出を洗練・除去し、精度を改善し、Lee (2019)と比較して10%の精度でリコールを行う。 現在、既知のクレーターの80%が直径3kmを超えており、7,000のクレーターが新たに発見されている(クレーターの13%)。 我々のカタログと他の独立したカタログの中央値の違いは、位置と直径の2-4%であり、他のカタログ間比較とインラインである。 CDAは火星の地球地図や赤外線画像の処理に使われており、ソフトウェアと生成されたグローバルカタログはhttps://doi.org/10.5683/SP2/CFUNIIで公開されている。

Crater cataloging is an important yet time-consuming part of geological mapping. We present an automated Crater Detection Algorithm (CDA) that is competitive with expert-human researchers and hundreds of times faster. The CDA uses multiple neural networks to process digital terrain model and thermal infra-red imagery to identify and locate craters across the surface of Mars. We use additional post-processing filters to refine and remove potential false crater detections, improving our precision and recall by 10% compared to Lee (2019). We now find 80% of known craters above 3km in diameter, and identify 7,000 potentially new craters (13% of the identified craters). The median differences between our catalog and other independent catalogs is 2-4% in location and diameter, in-line with other inter-catalog comparisons. The CDA has been used to process global terrain maps and infra-red imagery for Mars, and the software and generated global catalog are available at https://doi.org/10.5683/SP2/CFUNII.
翻訳日:2022-10-04 00:13:12 公開日:2020-11-18
# 衛星画像による建物損傷評価のための双方向特徴融合ネットワーク

Cross-directional Feature Fusion Network for Building Damage Assessment from Satellite Imagery ( http://arxiv.org/abs/2010.14014v2 )

ライセンス: Link先を確認
Yu Shen, Sijie Zhu, Taojiannan Yang, Chen Chen(参考訳) 自然災害(地震、ハリケーンなど)が発生した場合、迅速かつ効果的な対応が必要となる。 衛星画像からの損傷評価は、効果的な応答を行う前に重要となる。 高解像度の衛星画像は、分析のための事前および事後シーンに豊富な情報を提供する。 しかし、既存のほとんどの作品では、相関を考慮せずに、単に事前イメージと後イメージを入力として用いている。 本稿では,先行画像と後画像の相関関係をよりよく解明するための,新たな双方向融合戦略を提案する。 さらに、ハードクラスの課題に取り組むために、データ拡張手法であるCutMixを利用する。 提案手法は,大規模建物被害評価データセット-xBD上での最先端性能を実現する。

Fast and effective responses are required when a natural disaster (e.g., earthquake, hurricane, etc.) strikes. Building damage assessment from satellite imagery is critical before an effective response is conducted. High-resolution satellite images provide rich information with pre- and post-disaster scenes for analysis. However, most existing works simply use pre- and post-disaster images as input without considering their correlations. In this paper, we propose a novel cross-directional fusion strategy to better explore the correlations between pre- and post-disaster images. Moreover, the data augmentation method CutMix is exploited to tackle the challenge of hard classes. The proposed method achieves state-of-the-art performance on a large-scale building damage assessment dataset -- xBD.
翻訳日:2022-10-02 12:15:59 公開日:2020-11-18
# マルチニューラルハッシュコードとブルームフィルタを用いた効率的な画像検索

Efficient image retrieval using multi neural hash codes and bloom filters ( http://arxiv.org/abs/2011.03234v2 )

ライセンス: Link先を確認
Sourin Chakrabarti(参考訳) 本稿では,複数のニューラルハッシュ符号を用いて画像検索を効率よく改良し,事前に偽陽性を識別することにより,ブルームフィルタを用いたクエリ数を制限することを目的とする。 画像検索タスクのためのニューラルネットワークを含む従来のアプローチは、特徴抽出に高層層を使用する傾向がある。 しかし、下位層の活性化は多くのシナリオでより効果的であることが証明されている。 提案手法では,PCAを用いて圧縮し,修正されたマルチk平均アプローチを用いてバイナリシークエンシングを行った後,ブルームフィルタに送出する特徴マップを作成するために,下位層と上位層の両方の特徴のパワーを組み合わせた局所的な深部畳み込みニューラルネットワークを利用する。 得られた特徴マップは、まず、意味的に類似した画像に対して上位層の画像を比較し、その後、構造的類似性を求める下位層に向かって徐々に移動させることにより、階層的に粗い粒度で画像検索プロセスにおいてさらに使用される。 検索中、クエリ画像のニューラルネットワークハッシュが再度計算され、ブルームフィルタでクエリ画像がセットに存在しないか、おそらく存在するかが分かる。 ブルームフィルタが必ずしもクエリを除外しない場合は、画像検索プロセスに入る。 このアプローチは、並列クエリをサポートするため、イメージストアが分散している場合に特に有用である。

This paper aims to deliver an efficient and modified approach for image retrieval using multiple neural hash codes and limiting the number of queries using bloom filters by identifying false positives beforehand. Traditional approaches involving neural networks for image retrieval tasks tend to use higher layers for feature extraction. But it has been seen that the activations of lower layers have proven to be more effective in a number of scenarios. In our approach, we have leveraged the use of local deep convolutional neural networks which combines the powers of both the features of lower and higher layers for creating feature maps which are then compressed using PCA and fed to a bloom filter after binary sequencing using a modified multi k-means approach. The feature maps obtained are further used in the image retrieval process in a hierarchical coarse-to-fine manner by first comparing the images in the higher layers for semantically similar images and then gradually moving towards the lower layers searching for structural similarities. While searching, the neural hashes for the query image are again calculated and queried in the bloom filter which tells us whether the query image is absent in the set or maybe present. If the bloom filter doesn't necessarily rule out the query, then it goes into the image retrieval process. This approach can be particularly helpful in cases where the image store is distributed since the approach supports parallel querying.
翻訳日:2022-09-29 04:41:36 公開日:2020-11-18
# 写真から皮膚病変の自動診断のための深層転写学習

Deep Transfer Learning for Automated Diagnosis of Skin Lesions from Photographs ( http://arxiv.org/abs/2011.04475v3 )

ライセンス: Link先を確認
Emma Rocheteau, Doyoon Kim(参考訳) メラノーマは皮膚がんの最も一般的な形態ではないが、最も致命的なものである。 現在、この病気は専門家の皮膚科医によって診断されており、費用がかかり、治療に適度なアクセスが必要である。 近年の深層学習の進歩は、診断性能の向上、緊急紹介の迅速化、臨床医の負担軽減につながる可能性がある。 スマートフォンを通じてこの技術は、金融上の制約や2020年の新型コロナウイルス(covid-19)のキャンセルなど、世界の遠隔地など、通常の医療サービスにアクセスできない人々にリーチすることができる。 そこで我々は,ImageNet上で事前学習したモデルパラメータとメラノーマ検出の微調整を利用して,様々な伝達学習手法を検討した。 我々は、EfficientNet、MnasNet、MobileNet、DenseNet、SqueezeNet、ShuffleNet、GoogleNet、ResNet、ResNeXt、VGG、トランスファーラーニングなしの単純なCNNを比較した。 移動体ネットワークの効率性(転送学習)は、受信機動作特性曲線(AUROC)0.931$\pm$0.005、高精度リコール曲線(AUPRC)0.840$\pm$0.010の領域で最高の平均性能を達成する。 これは一般的な実践者(0.83$\pm$0.03 AUROC)や皮膚科医(0.91$\pm$0.02 AUROC)よりもはるかに優れている。

Melanoma is not the most common form of skin cancer, but it is the most deadly. Currently, the disease is diagnosed by expert dermatologists, which is costly and requires timely access to medical treatment. Recent advances in deep learning have the potential to improve diagnostic performance, expedite urgent referrals and reduce burden on clinicians. Through smart phones, the technology could reach people who would not normally have access to such healthcare services, e.g. in remote parts of the world, due to financial constraints or in 2020, COVID-19 cancellations. To this end, we have investigated various transfer learning approaches by leveraging model parameters pre-trained on ImageNet with finetuning on melanoma detection. We compare EfficientNet, MnasNet, MobileNet, DenseNet, SqueezeNet, ShuffleNet, GoogleNet, ResNet, ResNeXt, VGG and a simple CNN with and without transfer learning. We find the mobile network, EfficientNet (with transfer learning) achieves the best mean performance with an area under the receiver operating characteristic curve (AUROC) of 0.931$\pm$0.005 and an area under the precision recall curve (AUPRC) of 0.840$\pm$0.010. This is significantly better than general practitioners (0.83$\pm$0.03 AUROC) and dermatologists (0.91$\pm$0.02 AUROC).
翻訳日:2022-09-29 04:40:04 公開日:2020-11-18
# efficientpose: 効率的で正確でスケーラブルなエンドツーエンドの6dマルチオブジェクトポーズ推定アプローチ

EfficientPose: An efficient, accurate and scalable end-to-end 6D multi object pose estimation approach ( http://arxiv.org/abs/2011.04307v2 )

ライセンス: Link先を確認
Yannick Bukschat, Marcus Vetter(参考訳) 本稿では、6次元オブジェクトのポーズ推定のための新しいアプローチであるEfficientPoseを紹介する。 提案手法は,幅広い計算資源に対して精度が高く,効率的かつスケーラブルである。 さらに、複数のオブジェクトやインスタンスの2Dバウンディングボックスを検出し、ひとつのショットで完全な6Dポーズを見積もることができる。 これにより、他のアプローチが抱える複数のオブジェクトを扱う際のランタイムの大幅な増加が排除される。 これらのアプローチは、まずキーポイントなどの2Dターゲットを検出し、その後、各オブジェクトに対する6Dポーズに対するパースペクティブ-n-Point問題を解決することを目的としている。 また,直接6次元ポーズ推定手法の新たな拡張手法を提案し,性能向上と一般化を図っている。 提案手法は,RGB入力を用いた6次元ポーズ推定ベンチマークデータセットLinemodにおけるADD(-S)測定値の97.35%の新たな精度を実現するとともに,27FPS以上のエンド・ツー・エンド動作を実現している。 複数のオブジェクトとインスタンスの固有の処理と、融合したシングルショット2dオブジェクト検出と6dポーズ推定を通じて、複数のオブジェクト(8)のエンドツーエンドでも26fps以上で動作し、多くの現実世界シナリオに非常に魅力的です。 コードはhttps://github.com/ybkscht/EfficientPose.comで公開される。

In this paper we introduce EfficientPose, a new approach for 6D object pose estimation. Our method is highly accurate, efficient and scalable over a wide range of computational resources. Moreover, it can detect the 2D bounding box of multiple objects and instances as well as estimate their full 6D poses in a single shot. This eliminates the significant increase in runtime when dealing with multiple objects other approaches suffer from. These approaches aim to first detect 2D targets, e.g. keypoints, and solve a Perspective-n-Point problem for their 6D pose for each object afterwards. We also propose a novel augmentation method for direct 6D pose estimation approaches to improve performance and generalization, called 6D augmentation. Our approach achieves a new state-of-the-art accuracy of 97.35% in terms of the ADD(-S) metric on the widely-used 6D pose estimation benchmark dataset Linemod using RGB input, while still running end-to-end at over 27 FPS. Through the inherent handling of multiple objects and instances and the fused single shot 2D object detection as well as 6D pose estimation, our approach runs even with multiple objects (eight) end-to-end at over 26 FPS, making it highly attractive to many real world scenarios. Code will be made publicly available at https://github.com/ybkscht/EfficientPose.
翻訳日:2022-09-28 01:27:57 公開日:2020-11-18
# 物体検出のための最適損失関数:夜間車両検出を事例として

Optimized Loss Functions for Object detection: A Case Study on Nighttime Vehicle Detection ( http://arxiv.org/abs/2011.05523v2 )

ライセンス: Link先を確認
Shang Jiang, Haoran Qin, Bingli Zhang, Jieyu Zheng(参考訳) 損失関数はオブジェクト検出タスクにおける検出精度に影響を与える重要な要素である。 本稿では,2つの損失関数の分類と局所化を同時に最適化する。 まず、分類損失関数における標準クロスエントロピー損失によるIoU係数の乗算により、局所化と分類の相関が確立される。 本研究は, 正試料の局在化精度向上に相関を応用した既存研究と比較し, 正試料の正試料の非正試料化率の低減を目的とした相関式を用いて, 正試料の非正試料化率の低減を図る。 また, 予測ボックスと目標ボックス間のマハラノビス距離を組み込むことにより, DIoU損失の勾配不整合問題を解消し, 局所化精度を向上させることで, MIoU という新たなローカライゼーション損失を提案する。 最後に、夜間車両検出のための十分な実験が2つのデータセットで行われている。 提案した損失関数を用いた列車よりも,検出性能が良好に向上することを示す。 ソースコードとトレーニングされたモデルはhttps://github.com/therebellll/NegIoU-PosIoU-Miouで公開されている。

Loss functions is a crucial factor that affecting the detection precision in object detection task. In this paper, we optimize both two loss functions for classification and localization simultaneously. Firstly, by multiplying an IoU-based coefficient by the standard cross entropy loss in classification loss function, the correlation between localization and classification is established. Compared to the existing studies, in which the correlation is only applied to improve the localization accuracy for positive samples, this paper utilizes the correlation to obtain the really hard negative samples and aims to decrease the misclassified rate for negative samples. Besides, a novel localization loss named MIoU is proposed by incorporating a Mahalanobis distance between predicted box and target box, which eliminate the gradients inconsistency problem in the DIoU loss, further improving the localization accuracy. Finally, sufficient experiments for nighttime vehicle detection have been done on two datasets. Our results show than when train with the proposed loss functions, the detection performance can be outstandingly improved. The source code and trained models are available at https://github.com/therebellll/NegIoU-PosIoU-Miou.
翻訳日:2022-09-27 00:17:28 公開日:2020-11-18
# doc2dial:ゴール指向ドキュメント・グラウンド対話データセット

doc2dial: A Goal-Oriented Document-Grounded Dialogue Dataset ( http://arxiv.org/abs/2011.06623v2 )

ライセンス: Link先を確認
Song Feng, Hui Wan, Chulaka Gunasekara, Siva Sankalp Patel, Sachindra Joshi, Luis A. Lastras(参考訳) 本稿では,文書に基づいた新たな目標指向対話データセットである doc2dial を紹介する。 著者らがエンドユーザーを導くためにどのように文書を構成するかに触発されて、まず、テキストセクション間の上位関係に対応するコンテンツ要素と、セクション内の談話単位間の下位関係に基づいて対話フローを構築する。 次に,これらの対話フローを参加者に提示し,会話発話を作成する。 データセットには、約4800件の注釈付き会話があり、平均14回の会話は4つのドメインから480以上の文書にまとめられている。 従来の文書地上対話データセットと比較して、このデータセットは情報検索会話における様々な対話シーンをカバーしている。 データセットの汎用性を評価するために、複数の対話モデリングタスクとベースラインアプローチを導入する。

We introduce doc2dial, a new dataset of goal-oriented dialogues that are grounded in the associated documents. Inspired by how the authors compose documents for guiding end users, we first construct dialogue flows based on the content elements that corresponds to higher-level relations across text sections as well as lower-level relations between discourse units within a section. Then we present these dialogue flows to crowd contributors to create conversational utterances. The dataset includes about 4800 annotated conversations with an average of 14 turns that are grounded in over 480 documents from four domains. Compared to the prior document-grounded dialogue datasets, this dataset covers a variety of dialogue scenes in information-seeking conversations. For evaluating the versatility of the dataset, we introduce multiple dialogue modeling tasks and present baseline approaches.
翻訳日:2022-09-26 07:07:53 公開日:2020-11-18
# 不均一グラフ協調フィルタリング

Heterogeneous Graph Collaborative Filtering ( http://arxiv.org/abs/2011.06807v2 )

ライセンス: Link先を確認
Zekun Li, Yujia Zheng, Shu Wu, Xiaoyu Zhang, Liang Wang(参考訳) グラフベース協調フィルタリング(cf)アルゴリズムが注目を集めている。 この文献における既存の作業は、通常、ユーザとアイテムが2つの独立したノードセットであり、それらの間のエッジがそれらの相互作用を示す二部グラフとして、ユーザとテムの相互作用をモデル化する。 次に、二部グラフ上の高次接続をモデル化することにより、ユーザの未観測の嗜好を活用できる。 本研究では,ユーザ間インタラクションを,インタラクションを示すユーザ間エッジだけでなく,類似性を示すユーザ間エッジで構成される異種グラフとしてモデル化する。 我々はヘテロジニアスグラフ協調フィルタリング(HGCF)を開発し、ヘテロジニアスグラフへの埋め込み伝搬により相互作用信号と類似信号の両方を明示的にキャプチャできるGCNベースのフレームワークを開発した。 ヘテロジニアスグラフは二部グラフよりも接続性が高いので、スパーシティの問題を軽減することができ、高価な高次接続モデリングの需要を低減できる。 3つの公開ベンチマークで実施された大規模な実験は、最先端技術よりも優位性を示している。 さらに,HGCFの合理性と有効性を正当化し,ユーザエッジの重要性を検証した。

Graph-based collaborative filtering (CF) algorithms have gained increasing attention. Existing work in this literature usually models the user-item interactions as a bipartite graph, where users and items are two isolated node sets and edges between them indicate their interactions. Then, the unobserved preference of users can be exploited by modeling high-order connectivity on the bipartite graph. In this work, we propose to model user-item interactions as a heterogeneous graph which consists of not only user-item edges indicating their interaction but also user-user edges indicating their similarity. We develop heterogeneous graph collaborative filtering (HGCF), a GCN-based framework which can explicitly capture both the interaction signal and similarity signal through embedding propagation on the heterogeneous graph. Since the heterogeneous graph is more connected than the bipartite graph, the sparsity issue can be alleviated and the demand for expensive high-order connectivity modeling can be lowered. Extensive experiments conducted on three public benchmarks demonstrate its superiority over the state-of-the-arts. Further analysis verifies the importance of user-user edges in the graph, justifying the rationality and effectiveness of HGCF.
翻訳日:2022-09-26 00:29:54 公開日:2020-11-18
# Deep-RLS:非線形PCAに対するモデルに基づくディープラーニングアプローチ

Deep-RLS: A Model-Inspired Deep Learning Approach to Nonlinear PCA ( http://arxiv.org/abs/2011.07458v2 )

ライセンス: Link先を確認
Zahra Esmaeilbeig, Shahin Khobahi, Mojtaba Soltanalian(参考訳) 本研究では,非線形主成分分析(pca)におけるモデルベース深層学習の応用について考察する。 本稿では,Deep-RLS(Deep-RLS)と呼ばれるタスクベースのディープラーニング手法を提案する。この手法は,よく知られた再帰最小二乗法(RLS)アルゴリズムの繰り返しを,非線形PCAを実行するためにディープニューラルネットワークの層に展開する。 特に、ブラインドソース分離(BSS)問題に対する非線形PCAを定式化し、Deep-RLSが従来のRSSアルゴリズムと比較してBSSのソース信号の復元精度を大幅に向上することを示す。

In this work, we consider the application of model-based deep learning in nonlinear principal component analysis (PCA). Inspired by the deep unfolding methodology, we propose a task-based deep learning approach, referred to as Deep-RLS, that unfolds the iterations of the well-known recursive least squares (RLS) algorithm into the layers of a deep neural network in order to perform nonlinear PCA. In particular, we formulate the nonlinear PCA for the blind source separation (BSS) problem and show through numerical analysis that Deep-RLS results in a significant improvement in the accuracy of recovering the source signals in BSS when compared to the traditional RLS algorithm.
翻訳日:2022-09-25 07:14:59 公開日:2020-11-18
# 教師付きディープラーニングのための新しい類似性空間

A New Similarity Space Tailored for Supervised Deep Metric Learning ( http://arxiv.org/abs/2011.08325v2 )

ライセンス: Link先を確認
Pedro H. Barros, Fabiane Queiroz, Flavio Figueredo, Jefersson A. dos Santos, Heitor S. Ramos(参考訳) 本稿では,新しいメトリクス学習手法を提案する。 この領域の多くの作品とは異なり、我々はオートエンコーダによって得られる新しい潜在空間を定義した。 新しい空間、すなわち S-空間は、オブジェクトの対が類似/異な位置を記述する異なる領域に分割される。 これらの地域を特定するためのメーカーを見つけます。 カーネルベースのt-student分布を用いてオブジェクト間の類似性を推定し、マーカーの距離と新しいデータ表現を測定する。 提案手法では,s空間におけるマーカーの位置を推定し,同一空間内の物体を同時に表現する。 さらに,類似のマーカーが完全に崩壊するのを避けるための新しい正規化関数を提案する。 例えば、類似した対象の群が非随伴領域にある場合、この提案が複素空間を表現できるという証拠を示す。 提案手法は,28種類の実世界の異種データセットを用いた9種類の距離メトリック学習手法(4つがディープラーニングに基づく)と比較した。 4つの定量的指標によると,本手法は文献から得られた9つの戦略をすべて克服する。

We propose a novel deep metric learning method. Differently from many works on this area, we defined a novel latent space obtained through an autoencoder. The new space, namely S-space, is divided into different regions that describe the positions where pairs of objects are similar/dissimilar. We locate makers to identify these regions. We estimate the similarities between objects through a kernel-based t-student distribution to measure the markers' distance and the new data representation. In our approach, we simultaneously estimate the markers' position in the S-space and represent the objects in the same space. Moreover, we propose a new regularization function to avoid similar markers to collapse altogether. We present evidences that our proposal can represent complex spaces, for instance, when groups of similar objects are located in disjoint regions. We compare our proposal to 9 different distance metric learning approaches (four of them are based on deep-learning) on 28 real-world heterogeneous datasets. According to the four quantitative metrics used, our method overcomes all the nine strategies from the literature.
翻訳日:2022-09-24 23:48:08 公開日:2020-11-18
# エネルギー効率向上のためのエッジインテリジェンスと5G以上の資源配分

Edge Intelligence for Energy-efficient Computation Offloading and Resource Allocation in 5G Beyond ( http://arxiv.org/abs/2011.08442v2 )

ライセンス: Link先を確認
Yueyue Dai, Ke Zhang, Sabita Maharjan, and Yan Zhang(参考訳) このネットワークは、エンドデバイス、エッジサーバ、クラウドの異種機能を活用でき、計算のオフロードを通じて計算集約的で遅延に敏感なアプリケーションを可能にする可能性がある。 しかし、マルチユーザ無線ネットワークでは、多様なアプリケーション要件とデバイス間の通信のための様々な無線アクセスモードの可能性により、最適な計算オフロード方式の設計が困難となる。 さらに、無線チャネル状態や利用可能な帯域幅や計算リソースなどの変数を含む完全なネットワーク情報へのアクセスも大きな問題である。 深層強化学習(Dep Reinforcement Learning, DRL)は、そのような問題に限定的で精度の低いネットワーク情報で対処する新興技術である。 本稿では,DRLを用いて,システムエネルギー消費を最小化するための最適計算オフロードと資源配分戦略を設計する。 まず、すべてのデバイスと基地局が計算能力を持つマルチユーザエッジクラウドオーケストレーションネットワークを提案する。 次に,マルコフ決定過程(MDP)として計算オフロードと資源配分問題を定式化し,システムエネルギー消費を最小化する新しいDRLアルゴリズムを提案する。 実世界のデータセットに基づく数値計算の結果、DRLに基づく提案アルゴリズムはシステムエネルギー消費の点でベンチマークポリシーを著しく上回っていることが示された。 広範なシミュレーションにより,学習率,割引率,デバイス数などが提案アルゴリズムの性能に大きく影響することが示された。

5G beyond is an end-edge-cloud orchestrated network that can exploit heterogeneous capabilities of the end devices, edge servers, and the cloud and thus has the potential to enable computation-intensive and delay-sensitive applications via computation offloading. However, in multi user wireless networks, diverse application requirements and the possibility of various radio access modes for communication among devices make it challenging to design an optimal computation offloading scheme. In addition, having access to complete network information that includes variables such as wireless channel state, and available bandwidth and computation resources, is a major issue. Deep Reinforcement Learning (DRL) is an emerging technique to address such an issue with limited and less accurate network information. In this paper, we utilize DRL to design an optimal computation offloading and resource allocation strategy for minimizing system energy consumption. We first present a multi-user end-edge-cloud orchestrated network where all devices and base stations have computation capabilities. Then, we formulate the joint computation offloading and resource allocation problem as a Markov Decision Process (MDP) and propose a new DRL algorithm to minimize system energy consumption. Numerical results based on a real-world dataset demonstrate that the proposed DRL-based algorithm significantly outperforms the benchmark policies in terms of system energy consumption. Extensive simulations show that learning rate, discount factor, and number of devices have considerable influence on the performance of the proposed algorithm.
翻訳日:2022-09-24 17:40:27 公開日:2020-11-18
# 複数視点からの3次元形状再構成のための分割とインペラアプローチ

A Divide et Impera Approach for 3D Shape Reconstruction from Multiple Views ( http://arxiv.org/abs/2011.08534v2 )

ライセンス: Link先を確認
Riccardo Spezialetti, David Joseph Tan, Alessio Tonioni, Keisuke Tateno, Federico Tombari(参考訳) ディープラーニングによる最近のブレークスルーによって、物体の3d形状を単一の画像や複数の画像から推定する手法が人気を集めている。 ほとんどのアプローチは、標準的なポーズで完全なオブジェクトの形状を後退させ、おそらくは学習された事前に基づいて隠蔽された部分を外挿する。 しかし、その視点不変技術は入力画像から見えるユニークな構造を捨てることが多い。 対照的に、本稿では、与えられたビューから可視情報をマージすることで、視点変化の再構築を頼りにすることを提案する。 我々のアプローチは3つのステップに分けられる。 オブジェクトのスパースビューから始めて、すべてのペア間の相対的なポーズを推定することにより、それらを共通の座標系に整列する。 そして、伝統的なボクセル彫刻に触発されて、画像のシルエットとそれらの相対的なポーズから取られた物体の占有グリッドを生成します。 最後に,初期復元を洗練し,各視点から細部を保存したクリーンな3dモデルを構築した。 提案手法を検証するために,相対的なポーズ推定と3次元形状再構成の観点から,ShapeNet参照ベンチマークの総合評価を行った。

Estimating the 3D shape of an object from a single or multiple images has gained popularity thanks to the recent breakthroughs powered by deep learning. Most approaches regress the full object shape in a canonical pose, possibly extrapolating the occluded parts based on the learned priors. However, their viewpoint invariant technique often discards the unique structures visible from the input images. In contrast, this paper proposes to rely on viewpoint variant reconstructions by merging the visible information from the given views. Our approach is divided into three steps. Starting from the sparse views of the object, we first align them into a common coordinate system by estimating the relative pose between all the pairs. Then, inspired by the traditional voxel carving, we generate an occupancy grid of the object taken from the silhouette on the images and their relative poses. Finally, we refine the initial reconstruction to build a clean 3D model which preserves the details from each viewpoint. To validate the proposed method, we perform a comprehensive evaluation on the ShapeNet reference benchmark in terms of relative pose estimation and 3D shape reconstruction.
翻訳日:2022-09-24 16:57:14 公開日:2020-11-18
# ディジタル双対ネットワークにおける確率計算オフロードの深部強化学習

Deep Reinforcement Learning for Stochastic Computation Offloading in Digital Twin Networks ( http://arxiv.org/abs/2011.08430v2 )

ライセンス: Link先を確認
Yueyue Dai (Member, IEEE), Ke Zhang, Sabita Maharjan (Senior Member, IEEE), and Yan Zhang (Fellow, IEEE)(参考訳) 産業用iot(industrial internet of things, iiot)の急速な発展は、ネットワーク効率を改善するためにデジタル化への産業生産を必要とする。 Digital Twinは、物理的なオブジェクトの仮想モデルを作成することによって、IIoTのデジタルトランスフォーメーションを強化する、有望な技術である。 しかし、IIoTにおけるネットワーク効率のプロビジョニングは、リソース制約されたデバイス、確率的タスク、リソースの不均一性のため、非常に難しい。 IIoTネットワークの分散リソースは、計算オフロードによって効率よく利用でき、データ処理効率を高めながら、エネルギー消費を減らすことができる。 本稿では,IIoTシステムにおけるネットワークトポロジと確率的タスク到着モデルを構築するための新しいパラダイムであるDigital Twin Networks(DTN)を提案する。 次に, 長期エネルギー効率を最小化するために, 確率計算オフロードと資源割当問題を定式化する。 定式化問題は確率的プログラミング問題であるため、リアプノフ最適化手法を用いて元の問題を決定論的な時間スロット問題に変換する。 最後に,AAC(Asynchronous Actor-Critic)アルゴリズムを提案する。 その結果,提案手法がベンチマークを著しく上回る結果が得られた。

The rapid development of Industrial Internet of Things (IIoT) requires industrial production towards digitalization to improve network efficiency. Digital Twin is a promising technology to empower the digital transformation of IIoT by creating virtual models of physical objects. However, the provision of network efficiency in IIoT is very challenging due to resource-constrained devices, stochastic tasks, and resources heterogeneity. Distributed resources in IIoT networks can be efficiently exploited through computation offloading to reduce energy consumption while enhancing data processing efficiency. In this paper, we first propose a new paradigm Digital Twin Networks (DTN) to build network topology and the stochastic task arrival model in IIoT systems. Then, we formulate the stochastic computation offloading and resource allocation problem to minimize the long-term energy efficiency. As the formulated problem is a stochastic programming problem, we leverage Lyapunov optimization technique to transform the original problem into a deterministic per-time slot problem. Finally, we present Asynchronous Actor-Critic (AAC) algorithm to find the optimal stochastic computation offloading policy. Illustrative results demonstrate that our proposed scheme is able to significantly outperforms the benchmarks.
翻訳日:2022-09-24 15:55:12 公開日:2020-11-18
# 自由生活ウェアラブルデータからの生理的表現の自己制御的伝達学習

Self-supervised transfer learning of physiological representations from free-living wearable data ( http://arxiv.org/abs/2011.12121v1 )

ライセンス: Link先を確認
Dimitris Spathis, Ignacio Perez-Pozuelo, Soren Brage, Nicholas J. Wareham and Cecilia Mascolo(参考訳) スマートウォッチのようなウェアラブルデバイスは、自由生活環境で身体活動を客観的に監視するツールとして、ますます人気が高まっている。 これまでの研究は、人間の行動認識の純粋に監督されたタスクに重点を置いており、低レベルの信号から高レベルの健康結果を推測することに成功した。 そこで本研究では,意味ラベルのない活動と心拍(HR)信号を用いた自己教師付き表現学習手法を提案する。 深層ニューラルネットワークでは,活動データの監視信号としてHR応答を設定し,その基礎となる生理的関係を活用する。 また,一般人口の長期HR分布を考慮に入れた独自の量的損失関数を提案する。 我々は、我々のモデルを、最大の自由生活複合センシングデータセット(手首加速度計とウェアラブルECGデータの280万時間以上)で評価する。 私たちの貢献は2つあります。 一 トレーニング前作業は、安価な活動センサのみに基づいてHRを正確に予測できるモデルを作成し、 二 ウィンドウレベルからユーザレベルに学習した潜伏表現(埋め込み)を集約する簡単な方法を提案することにより、このタスクを通じて取得した情報を活用する。 特に, 組込みは, 線形分類器を用いた伝達学習, 生理学的に意味のあるパーソナライズされた情報をキャプチャすることで, 様々な下流タスクに一般化できることを示す。 例えば、個人の健康、フィットネス、人口統計の特徴に関連する変数を予測し、教師なしのオートエンコーダや一般的なバイオマーカーよりも優れています。 総じて,大規模健康とライフスタイルモニタリングに影響を及ぼす行動・生理データに対する,最初のマルチモーダル自己教師あり手法を提案する。

Wearable devices such as smartwatches are becoming increasingly popular tools for objectively monitoring physical activity in free-living conditions. To date, research has primarily focused on the purely supervised task of human activity recognition, demonstrating limited success in inferring high-level health outcomes from low-level signals. Here, we present a novel self-supervised representation learning method using activity and heart rate (HR) signals without semantic labels. With a deep neural network, we set HR responses as the supervisory signal for the activity data, leveraging their underlying physiological relationship. In addition, we propose a custom quantile loss function that accounts for the long-tailed HR distribution present in the general population. We evaluate our model in the largest free-living combined-sensing dataset (comprising >280k hours of wrist accelerometer & wearable ECG data). Our contributions are two-fold: i) the pre-training task creates a model that can accurately forecast HR based only on cheap activity sensors, and ii) we leverage the information captured through this task by proposing a simple method to aggregate the learnt latent representations (embeddings) from the window-level to user-level. Notably, we show that the embeddings can generalize in various downstream tasks through transfer learning with linear classifiers, capturing physiologically meaningful, personalized information. For instance, they can be used to predict variables associated with individuals' health, fitness and demographic characteristics, outperforming unsupervised autoencoders and common bio-markers. Overall, we propose the first multimodal self-supervised method for behavioral and physiological data with implications for large-scale health and lifestyle monitoring.
翻訳日:2022-09-24 05:28:08 公開日:2020-11-18
# 機械学習による幼児死亡率の早期評価における出生前要因の影響

The Influences of Pre-birth Factors in Early Assessment of Child Mortality using Machine Learning Techniques ( http://arxiv.org/abs/2011.09536v1 )

ライセンス: Link先を確認
Asadullah Hill Galib, Nadia Nahar, and B M Mainul Hossain(参考訳) 子どもの死亡率の分析は、国の政策やプログラムに関係しているため重要である。 幼児死亡の原因のパターンと傾向の早期評価は、意思決定者がニーズを評価し、介入を優先し、進捗を監視するのに役立つ。 児の産後因子、例えばリアルタイム臨床データ、子供の健康データなどは、小児死亡研究において頻繁に用いられる。 しかし、幼児死亡の早期評価においては、出生前因子は出産後因子よりも実用的で有益である。 本研究は、出生前要因である出生前履歴、母性歴史、再生履歴、社会経済状態等を取り入れて、子供の死亡率を分類することを目的とする。 特徴の相対的重要性を評価するために、情報ゲイン属性評価器(IG)を用いる。 児童死亡率の分類には、4つの機械学習アルゴリズムが評価される。 その結果, 小児死亡率の分類においてAUCスコア0.947を達成し, 臨床基準を上回る結果を得た。 精度、精度、リコール、およびf-1スコアに関しても、結果は顕著で均一である。 バングラデシュのような途上国では、出生前の要因による幼児死亡率の早期評価は、出生後の要因の不確実性を避けるために効果的かつ実現可能である。

Analysis of child mortality is crucial as it pertains to the policy and programs of a country. The early assessment of patterns and trends in causes of child mortality help decision-makers assess needs, prioritize interventions, and monitor progress. Post-birth factors of the child, such as real-time clinical data, health data of the child, etc. are frequently used in child mortality studies. However, in the early assessment of child mortality, pre-birth factors would be more practical and beneficial than the post-birth factors. This study aims at incorporating pre-birth factors, such as birth history, maternal history, reproduction history, socioeconomic condition, etc. for classifying child mortality. To assess the relative importance of the features, Information Gain (IG) attribute evaluator is employed. For classifying child mortality, four machine learning algorithms are evaluated. Results show that the proposed approach achieved an AUC score of 0.947 in classifying child mortality which outperformed the clinical standards. In terms of accuracy, precision, recall, and f-1 score, the results are also notable and uniform. In developing countries like Bangladesh, the early assessment of child mortality using pre-birth factors would be effective and feasible as it avoids the uncertainty of the post-birth factors.
翻訳日:2022-09-24 05:24:27 公開日:2020-11-18
# サファリ:イマジネーションによる安全でアクティブなロボット模倣学習

SAFARI: Safe and Active Robot Imitation Learning with Imagination ( http://arxiv.org/abs/2011.09586v1 )

ライセンス: Link先を確認
Norman Di Palo, Edward Johns(参考訳) 模倣学習における主要な問題の一つは、専門家が与えた一連のデモンストレーションの対象とせず、分配外の状況に直面するエージェントの誤った行動である。 本研究では,新しい能動学習制御アルゴリズムSAFARIを導入することで,この問題に対処する。 訓練中、エージェントはこれらの分散状態が満たされた場合に、さらなる人間のデモンストレーションを要求することができる。 デプロイメントでは、振る舞いクローンを使ったモデルフリーな動作とモデルベースの計画を組み合わせることで、状態の分散シフトを低減する。 本手法は,より情報的な実演を収集し,テスト時の状態分布シフトを最小限にすることで,受動模倣学習に対する操作タスクセットの性能向上を実証的に実証する。 また,この手法によってエージェントが自律的に障害を迅速かつ安全に予測できることを示す。

One of the main issues in Imitation Learning is the erroneous behavior of an agent when facing out-of-distribution situations, not covered by the set of demonstrations given by the expert. In this work, we tackle this problem by introducing a novel active learning and control algorithm, SAFARI. During training, it allows an agent to request further human demonstrations when these out-of-distribution situations are met. At deployment, it combines model-free acting using behavioural cloning with model-based planning to reduce state-distribution shift, using future state reconstruction as a test for state familiarity. We empirically demonstrate how this method increases the performance on a set of manipulation tasks with respect to passive Imitation Learning, by gathering more informative demonstrations and by minimizing state-distribution shift at test time. We also show how this method enables the agent to autonomously predict failure rapidly and safely.
翻訳日:2022-09-24 05:24:08 公開日:2020-11-18
# NeVer 2.0: ディープニューラルネットワークの学習、検証、修復

NeVer 2.0: Learning, Verification and Repair of Deep Neural Networks ( http://arxiv.org/abs/2011.09933v1 )

ライセンス: Link先を確認
Dario Guidotti, Luca Pulina, Armando Tacchella(参考訳) 本研究では,深層ニューラルネットワークの自動合成と解析のための新システムであるNeVer 2.0のプロトタイプについて紹介する。NeVer 2.0は,ニューラルネットワークの学習,自動検証,修復を単一のツールに統合した最初のパッケージであるNeVerから設計思想を裏付ける。 NeVer 2.0の目標は、最先端の学習フレームワークの選択を活用し、それらを検証アルゴリズムに統合することで、スケーラビリティの課題を緩和し、障害のあるネットワークの修復を可能にすることにある。

In this work, we present an early prototype of NeVer 2.0, a new system for automated synthesis and analysis of deep neural networks.NeVer 2.0borrows its design philosophy from NeVer, the first package that integrated learning, automated verification and repair of (shallow) neural networks in a single tool. The goal of NeVer 2.0 is to provide a similar integration for deep networks by leveraging a selection of state-of-the-art learning frameworks and integrating them with verification algorithms to ease the scalability challenge and make repair of faulty networks possible.
翻訳日:2022-09-24 05:23:50 公開日:2020-11-18
# グラフニューラルネットワークとディープアルゴリズム展開を用いた効率的な電力割当

Efficient power allocation using graph neural networks and deep algorithm unfolding ( http://arxiv.org/abs/2012.02250v1 )

ライセンス: Link先を確認
Arindam Chowdhury, Gunjan Verma, Chirag Rao, Ananthram Swami and Santiago Segarra(参考訳) 単一ホップアドホック無線ネットワークにおける最適電力配分の問題について検討する。 この問題を解決するために,我々は,WMMSE (Unfolded WMMSE) と呼ばれる反復重み付き最小二乗誤差法 (WMMSE) のアルゴリズム的展開に着想を得たハイブリッドニューラルネットワークアーキテクチャを提案する。 uwmmse内の学習可能な重みは、無線ネットワークのフェーディング干渉係数によって時間的に変動するグラフが与えられるグラフニューラルネットワーク(gnns)を用いてパラメータ化される。 これらのGNNは、パワー割り当て問題の複数のインスタンスに基づいて勾配降下法を用いて訓練される。 訓練後、UWMMSEはWMMSEに匹敵する性能を達成し、計算複雑性を大幅に低減する。 この現象は、密度や大きさの異なる無線ネットワークへのロバスト性と一般化とともに、数値実験によって示される。

We study the problem of optimal power allocation in a single-hop ad hoc wireless network. In solving this problem, we propose a hybrid neural architecture inspired by the algorithmic unfolding of the iterative weighted minimum mean squared error (WMMSE) method, that we denote as unfolded WMMSE (UWMMSE). The learnable weights within UWMMSE are parameterized using graph neural networks (GNNs), where the time-varying underlying graphs are given by the fading interference coefficients in the wireless network. These GNNs are trained through a gradient descent approach based on multiple instances of the power allocation problem. Once trained, UWMMSE achieves performance comparable to that of WMMSE while significantly reducing the computational complexity. This phenomenon is illustrated through numerical experiments along with the robustness and generalization to wireless networks of different densities and sizes.
翻訳日:2022-09-24 05:23:40 公開日:2020-11-18
# ドメイン特化停止語リストを用いたテキストマイニングの高速化

Accelerating Text Mining Using Domain-Specific Stop Word Lists ( http://arxiv.org/abs/2012.02294v1 )

ライセンス: Link先を確認
Farah Alshanik, Amy Apon, Alexander Herzog, Ilya Safro, Justin Sybrandt(参考訳) テキストの前処理はテキストマイニングの重要なステップである。 予測アルゴリズムの品質に悪影響を及ぼす、あるいは十分な情報を持たない単語を除去することは、テキストインデックス作成において重要な保存技術であり、計算効率が向上する。 通常、ドメインに関係なく、一般的な停止語リストがデータセットに適用される。 しかし、多くの共通語はドメインによって異なるが、特定のドメイン内では意味を持たない。 コーパス内でのドメイン固有の共通単語の排除は特徴空間の次元性を減少させ、テキストマイニングタスクの性能を向上させる。 本稿では,超平面的手法と呼ばれるドメイン固有語の自動抽出のための数学的手法を提案する。 この新しいアプローチは、ベクトル空間における単語の低次元表現の概念と超平面からの距離に依存する。 ハイパープレーンベースのアプローチは、無関係な特徴を排除してテキスト次元を著しく削減することができる。 ハイパープレーンに基づくアプローチと,他の特徴選択手法である \c{hi}2 と相互情報との比較を行った。 3つの異なるデータセットと5つの分類アルゴリズムについて実験を行い、次元の縮小と分類性能の向上を計測した。 その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。 ドメイン固有の単語を識別する計算時間は、相互情報よりもかなり低い。

Text preprocessing is an essential step in text mining. Removing words that can negatively impact the quality of prediction algorithms or are not informative enough is a crucial storage-saving technique in text indexing and results in improved computational efficiency. Typically, a generic stop word list is applied to a dataset regardless of the domain. However, many common words are different from one domain to another but have no significance within a particular domain. Eliminating domain-specific common words in a corpus reduces the dimensionality of the feature space, and improves the performance of text mining tasks. In this paper, we present a novel mathematical approach for the automatic extraction of domain-specific words called the hyperplane-based approach. This new approach depends on the notion of low dimensional representation of the word in vector space and its distance from hyperplane. The hyperplane-based approach can significantly reduce text dimensionality by eliminating irrelevant features. We compare the hyperplane-based approach with other feature selection methods, namely \c{hi}2 and mutual information. An experimental study is performed on three different datasets and five classification algorithms, and measure the dimensionality reduction and the increase in the classification performance. Results indicate that the hyperplane-based approach can reduce the dimensionality of the corpus by 90% and outperforms mutual information. The computational time to identify the domain-specific words is significantly lower than mutual information.
翻訳日:2022-09-24 05:23:26 公開日:2020-11-18
# 転がり軸受の早期故障予測のための劣化の追跡と可視化

Tracking and Visualizing Signs of Degradation for an Early Failure Prediction of a Rolling Bearing ( http://arxiv.org/abs/2011.09086v1 )

ライセンス: Link先を確認
Sana Talmoudi (1), Tetsuya Kanada (2) and Yasuhisa Hirata (3) ((1) Department of Robotics, Graduate Faculty of Engineering, Tohoku University, (2) D'isum Inc.)(参考訳) 予測メンテナンス、すなわち障害から数ステップ先にある障害を予測することは、業界における4.0の柱の1つです。 その効果的な方法は、障害が発生する前に劣化の早期兆候を追跡することである。 本稿では,機械の故障予測手法を提案する。 提案手法は, 機械による振動データの全スペクトルとデータ可視化技術を組み合わせたものである。 このスキームは、必要なトレーニングデータやインストール後のクイックスタートによって特徴付けられる。 まず,切り抜きや複雑な特徴抽出を伴わない全スペクトル(高次元データベクトル)を用い,高次元ベクトルを2次元マップにマッピングすることでデータの挙動を可視化することを提案する。 そして、プロセスの単純さを保証し、重要な情報を見渡す可能性を減らすと同時に、人間フレンドリーで人間に理解可能なアウトプットを提供することができます。 第2に、正規データからなる2dマップ上にターゲットマシンのリアルタイム周波数スペクトルデータをプロットして、適切なタイミングで障害を十分な時間をかけて予測し、メンテナンスするリアルタイムデータトラッカ(rtdt)を提案する。 第3に,公的なデータセットであるimsデータセットが提供する実世界のテスト・トゥ・フェール測定から,軸受の振動データを用いた実験結果を示す。

Predictive maintenance, i.e. predicting failure to be few steps ahead of the fault, is one of the pillars of Industry 4.0. An effective method for that is to track early signs of degradation before a failure happens. This paper presents an innovative failure predictive scheme for machines. The proposed scheme combines the use of full spectrum of the vibration data caused by the machines and data visualization technologies. This scheme is featured by no training data required and by quick start after installation. First, we propose to use full spectrum (as high-dimensional data vector) with no cropping and no complex feature extraction and to visualize data behavior by mapping the high dimensional vectors into a 2D map. We then can ensure the simplicity of process and less possibility of overlooking of important information as well as providing a human-friendly and human-understandable output. Second, we propose Real-Time Data Tracker (RTDT) which predicts the failure at an appropriate time with sufficient time for maintenance by plotting real-time frequency spectrum data of the target machine on the 2D map composed from normal data. Third, we show the test results of our proposal using vibration data of bearings from real-world test-to-failure measurements provided by the public dataset, the IMS dataset.
翻訳日:2022-09-24 05:22:48 公開日:2020-11-18
# 未知の通信速度下での移動ロボットによる伝達とナビゲーションの学習制御

Learning control for transmission and navigation with a mobile robot under unknown communication rates ( http://arxiv.org/abs/2011.09193v1 )

ライセンス: Link先を確認
L. Busoniu, V. S. Varma, J. Loheac, A. Codrean, O. Stefan, I.-C. Morarescu, and S. Lasaulce(参考訳) 遠隔地を調査したり監視したりするタスクでは、自律ロボットは、未知の位置依存の送信レートで無線ネットワーク上でデータを送信しながら移動しなければならない。 このようなロボットの場合、最小時間内にデータバッファを送信し、ゴール位置へもナビゲートする問題を考える。 サンプルからレート関数を推定する機械学習コンポーネントと、現在のレート関数の推定値に基づいてロボットを動かす最適な制御コンポーネントからなる2つのアプローチが提案されている。 目標位置のない場合に簡単な障害物回避を行う。 大規模なシミュレーションでは、これらの手法は既知のレートや未知のレートのベースラインと比較して競争性能が向上する。 Parrot AR.Drone2がバッファの送信をうまく学習する実際の屋内実験が提供される。

In tasks such as surveying or monitoring remote regions, an autonomous robot must move while transmitting data over a wireless network with unknown, position-dependent transmission rates. For such a robot, this paper considers the problem of transmitting a data buffer in minimum time, while possibly also navigating towards a goal position. Two approaches are proposed, each consisting of a machine-learning component that estimates the rate function from samples; and of an optimal-control component that moves the robot given the current rate function estimate. Simple obstacle avoidance is performed for the case without a goal position. In extensive simulations, these methods achieve competitive performance compared to known-rate and unknown-rate baselines. A real indoor experiment is provided in which a Parrot AR.Drone 2 successfully learns to transmit the buffer.
翻訳日:2022-09-24 05:22:27 公開日:2020-11-18
# flaas: サービスとしての連合学習

FLaaS: Federated Learning as a Service ( http://arxiv.org/abs/2011.09359v1 )

ライセンス: Link先を確認
Nicolas Kourtellis and Kleomenis Katevas and Diego Perino(参考訳) フェデレートラーニング(FL)は、分散型のプライバシ保護方式で機械学習モデルを構築するための有望な技術として浮上している。 実際、flはユーザーデバイスのローカルトレーニングを可能にし、ユーザーデータを中央集権サーバに転送することを避け、異なるプライバシーメカニズムで強化することができる。 flは最近実システムにデプロイされているが、異なるサードパーティアプリケーション間での協調モデリングの可能性はまだ検討されていない。 本稿では,この課題に対処し,許可とプライバシ管理,ユーザビリティ,階層モデルトレーニングといった課題に対処し,サードパーティアプリケーションコラボレーションモデル構築のさまざまなシナリオを実現するシステムであるFLaaS(Federated Learning as a Service)を提案する。 FLaaSはさまざまな運用環境にデプロイできる。 概念実証として,携帯電話に実装し,実機シミュレーションによる実機結果の実用的意義を,オンデバイスでのcpuコスト,メモリフットプリント,flモデルラウンド毎の消費電力などに関して議論する。 そこで本研究では,100台のデバイスにまたがる画像オブジェクト検出のためのユニークなflモデルやジョイントflモデルの構築において,flaasが実現可能であることを示す。

Federated Learning (FL) is emerging as a promising technology to build machine learning models in a decentralized, privacy-preserving fashion. Indeed, FL enables local training on user devices, avoiding user data to be transferred to centralized servers, and can be enhanced with differential privacy mechanisms. Although FL has been recently deployed in real systems, the possibility of collaborative modeling across different 3rd-party applications has not yet been explored. In this paper, we tackle this problem and present Federated Learning as a Service (FLaaS), a system enabling different scenarios of 3rd-party application collaborative model building and addressing the consequent challenges of permission and privacy management, usability, and hierarchical model training. FLaaS can be deployed in different operational environments. As a proof of concept, we implement it on a mobile phone setting and discuss practical implications of results on simulated and real devices with respect to on-device training CPU cost, memory footprint and power consumed per FL model round. Therefore, we demonstrate FLaaS's feasibility in building unique or joint FL models across applications for image object detection in a few hours, across 100 devices.
翻訳日:2022-09-24 05:22:16 公開日:2020-11-18
# ロボット学習と制御のための解析的ダイアボロモデル

An analytical diabolo model for robotic learning and control ( http://arxiv.org/abs/2011.09068v1 )

ライセンス: Link先を確認
Felix von Drigalski, Devwrat Joshi, Takayuki Murooka, Kazutoshi Tanaka, Masashi Hamaya and Yoshihisa Ijiri(参考訳) 本稿では,シミュレーションエージェントがdiaboloをプレイしたり,実際のデュアルロボットアームシステム上で動作させたりできるdiaboloモデルを提案する。 まず、diabolo-stringシステムの分析モデルを導出し、その精度をモーションキャプチャによって記録したデータを用いて比較する。 モデルが精度と物理的に一貫した振る舞いの両面で,ディープラーニングに基づく予測器よりも優れていることを示す。 次に,所望のダイアボロ軌道を生成するロボット軌跡生成のための最適制御に基づく手法と,高レベル動作をロボット動作に変換するシステムについて述べる。 最後に、diaboloをプレイし、それを人間のプレーヤーに投げてキャッチすることで、実際のロボットシステム上でこの手法をテストします。

In this paper, we present a diabolo model that can be used for training agents in simulation to play diabolo, as well as running it on a real dual robot arm system. We first derive an analytical model of the diabolo-string system and compare its accuracy using data recorded via motion capture, which we release as a public dataset of skilled play with diabolos of different dynamics. We show that our model outperforms a deep-learning-based predictor, both in terms of precision and physically consistent behavior. Next, we describe a method based on optimal control to generate robot trajectories that produce the desired diabolo trajectory, as well as a system to transform higher-level actions into robot motions. Finally, we test our method on a real robot system by playing the diabolo, and throwing it to and catching it from a human player.
翻訳日:2022-09-24 05:15:53 公開日:2020-11-18
# ソフトアクター臨界に対する重み付きエントロピー修正

Weighted Entropy Modification for Soft Actor-Critic ( http://arxiv.org/abs/2011.09083v1 )

ライセンス: Link先を確認
Yizhou Zhao, Song-Chun Zhu(参考訳) 強化学習 (rl) における最大シャノンエントロピーの原理を, 事前知識, 経験再生, 政策の進化過程と結びついた定性的な重み付き状態-作用対を特徴付けることによって, 重み付きエントロピーに一般化する。 本稿では,実装の単純さに拘わらず,ムジョコタスクの最先端性能をもたらす重み関数の導入による自己バランス探索を動機とするアルゴリズムを提案する。

We generalize the existing principle of the maximum Shannon entropy in reinforcement learning (RL) to weighted entropy by characterizing the state-action pairs with some qualitative weights, which can be connected with prior knowledge, experience replay, and evolution process of the policy. We propose an algorithm motivated for self-balancing exploration with the introduced weight function, which leads to state-of-the-art performance on Mujoco tasks despite its simplicity in implementation.
翻訳日:2022-09-24 05:15:39 公開日:2020-11-18
# アクロボットの強化学習に基づく制御に関する実験的研究

Experimental Study on Reinforcement Learning-based Control of an Acrobot ( http://arxiv.org/abs/2011.09246v1 )

ライセンス: Link先を確認
Leo Dostal, Alexej Bespalko, and Daniel A. Duecker(参考訳) 本稿では,人工知能(ai)が強化学習(rl)を用いて交流ロボットを制御する方法に関する計算および実験結果を示す。 このように、実験的なセットアップは、ロボット工学およびエネルギー収穫アプリケーションに興味のある組み込みシステムとして設計される。 具体的には、交流ロボットの角速度の制御と、運動量とポテンシャルエネルギーの合計である全エネルギーの制御について研究する。 すなわち、RLアルゴリズムは、アクロボットの第1振り子の角速度またはエネルギーを所望の値に駆動するように設計されている。 これにより、acrobotのunctuated pendulumのリブレーションまたは完全な回転が達成される。 さらに、アクロボット制御の研究を行い、状態空間の離散化、エピソード長、動作空間、または駆動振子の質量がRL制御に与える影響について考察する。 さらに多くのシミュレーションと実験により、パラメータ変動の影響が評価される。

We present computational and experimental results on how artificial intelligence (AI) learns to control an Acrobot using reinforcement learning (RL). Thereby the experimental setup is designed as an embedded system, which is of interest for robotics and energy harvesting applications. Specifically, we study the control of angular velocity of the Acrobot, as well as control of its total energy, which is the sum of the kinetic and the potential energy. By this means the RL algorithm is designed to drive the angular velocity or the energy of the first pendulum of the Acrobot towards a desired value. With this, libration or full rotation of the unactuated pendulum of the Acrobot is achieved. Moreover, investigations of the Acrobot control are carried out, which lead to insights about the influence of the state space discretization, the episode length, the action space or the mass of the driven pendulum on the RL control. By further numerous simulations and experiments the effects of parameter variations are evaluated.
翻訳日:2022-09-24 05:15:29 公開日:2020-11-18
# 非対称プライベートセット交差点と接触追跡および非対称垂直フェデレート機械学習への応用

Asymmetric Private Set Intersection with Applications to Contact Tracing and Private Vertical Federated Machine Learning ( http://arxiv.org/abs/2011.09350v1 )

ライセンス: Link先を確認
Nick Angelou, Ayoub Benaissa, Bogdan Cebere, William Clark, Adam James Hall, Michael A. Hoeh, Daniel Liu, Pavlos Papadopoulos, Robin Roehm, Robert Sandmann, Phillipp Schoppmann, Tom Titcombe(参考訳) 非対称なプライベートセット交差点(PSI)とPSI-Cardinality(PSI-C)のための多言語クロスプラットフォームオープンソースライブラリを提案する。 本プロトコルでは,従来のDDHベースのPSIとPSI-CプロトコルとBloomフィルタに基づく圧縮を組み合わせることで,非対称環境における通信の低減を図る。 現在、私たちのライブラリはC++、C、Go、WebAssembly、JavaScript、Python、Rustをサポートし、従来のハードウェア(x86)とブラウザターゲットの両方で動作する。 さらに,このライブラリを2つのユースケースに適用する。 (i)既存のアプローチと互換性があるが、プライバシー保証を改善したプライバシー保護接触追跡プロトコル (II)垂直分割データに基づくプライバシー保護機械学習。

We present a multi-language, cross-platform, open-source library for asymmetric private set intersection (PSI) and PSI-Cardinality (PSI-C). Our protocol combines traditional DDH-based PSI and PSI-C protocols with compression based on Bloom filters that helps reduce communication in the asymmetric setting. Currently, our library supports C++, C, Go, WebAssembly, JavaScript, Python, and Rust, and runs on both traditional hardware (x86) and browser targets. We further apply our library to two use cases: (i) a privacy-preserving contact tracing protocol that is compatible with existing approaches, but improves their privacy guarantees, and (ii) privacy-preserving machine learning on vertically partitioned data.
翻訳日:2022-09-24 05:14:51 公開日:2020-11-18
# ディープqラーニングを用いた適応競合ウィンドウ設計

Adaptive Contention Window Design using Deep Q-learning ( http://arxiv.org/abs/2011.09418v1 )

ライセンス: Link先を確認
Abhishek Kumar, Gunjan Verma, Chirag Rao, Ananthram Swami, and Santiago Segarra(参考訳) ランダムアクセス無線ネットワークにおける適応競合窓(CW)設計の問題について検討する。 より正確には、我々のゴールは、他のノードのMCWも変化も知らないネットワークレベルのユーティリティを最大化するために、最小のCW(MCW)パラメータを動的に適応できるインテリジェントノードを設計することである。 この目的を達成するために,ローカルチャネル観測によるシステム知識の欠如を回避するための強化学習(RL)フレームワークを採用し,高いユーティリティを実現するためのアクションに報いる。 これらの望ましい動作を効率的に学習するために,多層知覚を用いてq値関数をパラメトリ化する深層q学習手法を提案する。 特に,基礎的深層Qネットワークに対する経験的改善を取り入れたレインボーエージェントを実装した。 ns3シミュレータを用いた数値実験により,提案するrlエージェントは最適に近い性能を示し,既存の学習と非学習に基づく代替手段を著しく改善した。

We study the problem of adaptive contention window (CW) design for random-access wireless networks. More precisely, our goal is to design an intelligent node that can dynamically adapt its minimum CW (MCW) parameter to maximize a network-level utility knowing neither the MCWs of other nodes nor how these change over time. To achieve this goal, we adopt a reinforcement learning (RL) framework where we circumvent the lack of system knowledge with local channel observations and we reward actions that lead to high utilities. To efficiently learn these preferred actions, we follow a deep Q-learning approach, where the Q-value function is parametrized using a multi-layer perception. In particular, we implement a rainbow agent, which incorporates several empirical improvements over the basic deep Q-network. Numerical experiments based on the NS3 simulator reveal that the proposed RL agent performs close to optimal and markedly improves upon existing learning and non-learning based alternatives.
翻訳日:2022-09-24 05:14:08 公開日:2020-11-18
# 強力なデータ強化は、正確なトレードオフなしに中毒やバックドア攻撃を予防する

Strong Data Augmentation Sanitizes Poisoning and Backdoor Attacks Without an Accuracy Tradeoff ( http://arxiv.org/abs/2011.09527v1 )

ライセンス: Link先を確認
Eitan Borgnia, Valeriia Cherepanova, Liam Fowl, Amin Ghiasi, Jonas Geiping, Micah Goldblum, Tom Goldstein, Arjun Gupta(参考訳) データ中毒やバックドア攻撃は、トレーニングデータを悪意ある修正によって被害者モデルを操作する。 この脅威の高まりを踏まえて、最近の業界専門家の調査では、データ中毒に関する民間セクターの懸念が高まった。 中毒に対する以前の多くの防御は、ますます強烈な攻撃に直面して失敗するか、パフォーマンスを著しく低下させた。 しかし、mixupやCutMixのような強力なデータ拡張は、パフォーマンスを損なうことなく、毒やバックドア攻撃の脅威を著しく減少させる可能性がある。 適応性中毒に対するこの簡易防御の有効性をさらに検証し,DP-SGD防衛を含むベースラインと比較した。 バックドアのコンテキストでは、CutMixは攻撃を大幅に軽減し、同時にバリデーションの精度を9%向上させる。

Data poisoning and backdoor attacks manipulate victim models by maliciously modifying training data. In light of this growing threat, a recent survey of industry professionals revealed heightened fear in the private sector regarding data poisoning. Many previous defenses against poisoning either fail in the face of increasingly strong attacks, or they significantly degrade performance. However, we find that strong data augmentations, such as mixup and CutMix, can significantly diminish the threat of poisoning and backdoor attacks without trading off performance. We further verify the effectiveness of this simple defense against adaptive poisoning methods, and we compare to baselines including the popular differentially private SGD (DP-SGD) defense. In the context of backdoors, CutMix greatly mitigates the attack while simultaneously increasing validation accuracy by 9%.
翻訳日:2022-09-24 05:13:09 公開日:2020-11-18
# 全スライド画像における胃シグナレット環細胞癌分類の深層学習モデル

Deep learning models for gastric signet ring cell carcinoma classification in whole slide images ( http://arxiv.org/abs/2011.09247v1 )

ライセンス: Link先を確認
Fahdi Kanavati, Shin Ichihara, Michael Rambeau, Osamu Iizuka, Koji Arihiro, Masayuki Tsuneki(参考訳) 胃のシグレットリング細胞癌(SRCC)は稀なタイプの癌であり、徐々に発生が増加する。 病理学者は, 細胞形態学的, びまん性浸潤様式により検出が困難であり, 進行期において予後不良である。 SRCCの発見を病理学者が支援できる計算病理ツールは、大きな恩恵となるだろう。 本稿では,伝達学習,完全教師付き学習,弱教師付き学習を用いて深層学習モデルを訓練し,1,765個のWSIを用いて全スライド画像(WSI)のSRCCを予測する。 約500枚の画像の4つの異なるテストセットでモデルを評価した。 最良モデルは4つのテストセットすべてで少なくとも0.99の曲線(auc)下の受信者作用素曲線(roc)領域を達成し、srcc wsi分類の最高基準性能を設定した。

Signet ring cell carcinoma (SRCC) of the stomach is a rare type of cancer with a slowly rising incidence. It tends to be more difficult to detect by pathologists mainly due to its cellular morphology and diffuse invasion manner, and it has poor prognosis when detected at an advanced stage. Computational pathology tools that can assist pathologists in detecting SRCC would be of a massive benefit. In this paper, we trained deep learning models using transfer learning, fully-supervised learning, and weakly-supervised learning to predict SRCC in Whole Slide Images (WSIs) using a training set of 1,765 WSIs. We evaluated the models on four different test sets of about 500 images each. The best model achieved a Receiver Operator Curve (ROC) area under the curve (AUC) of at least 0.99 on all four test sets, setting a top baseline performance for SRCC WSI classification.
翻訳日:2022-09-24 05:06:37 公開日:2020-11-18
# あいまいな深度画像からの多次元可塑性形状補完

Diverse Plausible Shape Completions from Ambiguous Depth Images ( http://arxiv.org/abs/2011.09390v1 )

ライセンス: Link先を確認
Brad Saund and Dmitry Berenson(参考訳) 2.5次元深度画像から多種多様な3次元再構成を生成するネットワークアーキテクチャpssnetを提案する。 既存の手法では、複数の形状が観測と一致している場合でも、単一の形状に小さなバリエーションしか生じない傾向にある。 訓練中、学習した形状境界ボックス特徴をサイド情報として提供して、変動オートエンコーダを変更する。 これらの機能はトレーニング中に知られているので、エンコーダに教師付き損失とデコーダにノイズレス値を加えることができる。 評価するために,ネットワークから完成度の集合をサンプリングし,各実験観察値に適合する可能な形状のセットを構築し,形状のセット上で定義された自明な多様性計量を用いて比較する。 本手法は,シェープネットミューグと部分的にオクルードされたycbオブジェクトを用いて実験を行い,曖昧さの少ないデータセットで比較可能であり,多くの形状が観測された奥行き画像に適合する場合に既存の手法よりも優れることを示す。 物体を隠蔽・乱雑に把握する際の物理ロボット上でのPSSNetの利用例を示す。

We propose PSSNet, a network architecture for generating diverse plausible 3D reconstructions from a single 2.5D depth image. Existing methods tend to produce only small variations on a single shape, even when multiple shapes are consistent with an observation. To obtain diversity we alter a Variational Auto Encoder by providing a learned shape bounding box feature as side information during training. Since these features are known during training, we are able to add a supervised loss to the encoder and noiseless values to the decoder. To evaluate, we sample a set of completions from a network, construct a set of plausible shape matches for each test observation, and compare using our plausible diversity metric defined over sets of shapes. We perform experiments using Shapenet mugs and partially-occluded YCB objects and find that our method performs comparably in datasets with little ambiguity, and outperforms existing methods when many shapes plausibly fit an observed depth image. We demonstrate one use for PSSNet on a physical robot when grasping objects in occlusion and clutter.
翻訳日:2022-09-24 05:06:22 公開日:2020-11-18
# blind hyperspectral image unmixing用畳み込みオートエンコーダ

Convolutional Autoencoder for Blind Hyperspectral Image Unmixing ( http://arxiv.org/abs/2011.09420v1 )

ライセンス: Link先を確認
Yasiru Ranasinghe, Sanjaya Herath, Kavinga Weerasooriya, Mevan Ekanayake, Roshan Godaliyadda, Parakrama Ekanayake, Vijitha Herath(参考訳) リモートセンシングコンテキストにおけるスペクトルアンミックス(英: Unmixing)とは、混合画素を2つの基本的代表、すなわちエンドメンバーとアブリダンスに分解する技法である。 本稿では,超スペクトル画像に対してブラインド・アンミキシングを行うための新しいアーキテクチャを提案する。 提案するアーキテクチャは畳み込み層とオートエンコーダで構成される。 エンコーダは畳み込み層によって生成される特徴空間を潜在空間表現に変換する。 そして、これらの潜在特性から、デコーダは、アーキテクチャの入力であるモノクロ画像のロールアウト画像を再構成し、各シングルバンド画像に順次供給する。 実超スペクトルデータを用いた実験結果から,提案アルゴリズムは既存未混合手法よりも高い性能を示し,RMSEとSADを指標とした終端抽出の競争結果が得られた。

In the remote sensing context spectral unmixing is a technique to decompose a mixed pixel into two fundamental representatives: endmembers and abundances. In this paper, a novel architecture is proposed to perform blind unmixing on hyperspectral images. The proposed architecture consists of convolutional layers followed by an autoencoder. The encoder transforms the feature space produced through convolutional layers to a latent space representation. Then, from these latent characteristics the decoder reconstructs the roll-out image of the monochrome image which is at the input of the architecture; and each single-band image is fed sequentially. Experimental results on real hyperspectral data concludes that the proposed algorithm outperforms existing unmixing methods at abundance estimation and generates competitive results for endmember extraction with RMSE and SAD as the metrics, respectively.
翻訳日:2022-09-24 05:06:03 公開日:2020-11-18
# 水中ロボットインタラクションのための視覚的ダイバーター顔認識

Visual Diver Face Recognition for Underwater Human-Robot Interaction ( http://arxiv.org/abs/2011.09556v1 )

ライセンス: Link先を確認
Jungseok Hong, Sadman Sakib Enan, Christopher Morse, Junaed Sattar(参考訳) 本稿では,水中ロボットによるスキューバダイバー識別のための深層学習顔認識手法を提案する。 具体的には,スキューバマスクや呼吸装置で顔が不明瞭な水中ダイバーを識別する手法を提案する。 本研究は,水中の光学的歪みによる顔の特徴や画像劣化を著しく排除した人物の頑健な顔識別に寄与する。 ダイバーを正しく認識する能力により、自律型水中車両(auv)は、人間とロボットチームの正しい人物と協調して作業を行い、ロボットの指揮を許可された者のみから指示を受け付けることができる。 提案するフレームワークは,異なるデータ拡張と生成手法により,現実世界のダイバーの顔から識別的特徴を学習できることを実証する。 実験により,本フレームワークは最先端(SOTA)アルゴリズムと比較して3倍の精度向上を実現し,ロボットプラットフォームへの組込み推論に適していることが示された。

This paper presents a deep-learned facial recognition method for underwater robots to identify scuba divers. Specifically, the proposed method is able to recognize divers underwater with faces heavily obscured by scuba masks and breathing apparatus. Our contribution in this research is towards robust facial identification of individuals under significant occlusion of facial features and image degradation from underwater optical distortions. With the ability to correctly recognize divers, autonomous underwater vehicles (AUV) will be able to engage in collaborative tasks with the correct person in human-robot teams and ensure that instructions are accepted from only those authorized to command the robots. We demonstrate that our proposed framework is able to learn discriminative features from real-world diver faces through different data augmentation and generation techniques. Experimental evaluations show that this framework achieves a 3-fold increase in prediction accuracy compared to the state-of-the-art (SOTA) algorithms and is well-suited for embedded inference on robotic platforms.
翻訳日:2022-09-24 05:05:49 公開日:2020-11-18
# ACRONYM:シミュレーションに基づく大規模グラフデータセット

ACRONYM: A Large-Scale Grasp Dataset Based on Simulation ( http://arxiv.org/abs/2011.09584v1 )

ライセンス: Link先を確認
Clemens Eppner, Arsalan Mousavian, Dieter Fox(参考訳) 本稿では,物理シミュレーションに基づくロボットグリップ計画のためのデータセットACRONYMを紹介する。 データセットは17.7Mのパラレルジャウグリップを含み、262のカテゴリから8872のオブジェクトにまたがっており、それぞれが物理シミュレータから得られた把握結果とラベル付けされている。 この大規模で多様なデータセットの価値を、2つの最先端の学習に基づく把握計画アルゴリズムをトレーニングするために利用する。 握り性能は、元の小さなデータセットと比較して大幅に向上する。 データとツールはhttps://sites.google.com/nvidia.com/graspdatasetからアクセスできる。

We introduce ACRONYM, a dataset for robot grasp planning based on physics simulation. The dataset contains 17.7M parallel-jaw grasps, spanning 8872 objects from 262 different categories, each labeled with the grasp result obtained from a physics simulator. We show the value of this large and diverse dataset by using it to train two state-of-the-art learning-based grasp planning algorithms. Grasp performance improves significantly when compared to the original smaller dataset. Data and tools can be accessed at https://sites.google.com/nvidia.com/graspdataset.
翻訳日:2022-09-24 05:05:31 公開日:2020-11-18
# ゲームプラン:AIがフットボールに何ができるか、フットボールがAIに何ができるか

Game Plan: What AI can do for Football, and What Football can do for AI ( http://arxiv.org/abs/2011.09192v1 )

ライセンス: Link先を確認
Karl Tuyls, Shayegan Omidshafiei, Paul Muller, Zhe Wang, Jerome Connor, Daniel Hennes, Ian Graham, William Spearman, Tim Waskett, Dafydd Steele, Pauline Luc, Adria Recasens, Alexandre Galashov, Gregory Thornton, Romuald Elie, Pablo Sprechmann, Pol Moreno, Kris Cao, Marta Garnelo, Praneet Dutta, Michal Valko, Nicolas Heess, Alex Bridgland, Julien Perolat, Bart De Vylder, Ali Eslami, Mark Rowland, Andrew Jaegle, Remi Munos, Trevor Back, Razia Ahamed, Simon Bouton, Nathalie Beauguerlange, Jackson Broshear, Thore Graepel, Demis Hassabis(参考訳) 人工知能(ai)と機械学習の急速な進歩は、野球、バスケットボール、テニスなど、様々なチームや個人スポーツで前例のない分析可能性を開いた。 最近では、プロチームによるデータ収集の大幅な増加、計算能力の向上、機械学習の進歩などにより、サッカーにai技術が適用され、個々の選手と協調したチームの行動分析に関わる新たな科学的課題への対処が目標となっている。 予測的および規範的サッカー分析に関連する研究課題は、統計学習、ゲーム理論、コンピュータビジョンの交差点における新しい発展と進歩を必要とする。 本稿では,AI研究におけるこれらの分野の組み合わせが,今後数年間のプロチーム,観客,放送者に相互利益を提供しながら,どのようにしてユニークなマイクロコズムを形成するのかを概観する。 この双対性によって、サッカーアナリティクスは、サッカー自体を変えるだけでなく、この領域がaiの分野にどのような意味を持つのかという点で、非常に大きな価値を持つゲームチェンジャーとなります。 予測モデルを用いた反事実分析の実証的な例や、ペナルティキックのゲーム理論分析とプレイヤー属性の統計的学習を組み合わせることを含む、上記の分野と組み合わせることで可能な分析のタイプを概観し、実証する。 我々は、他のスポーツ(現実と仮想)への拡張の可能性を含む、想定された下流の影響を強調して締めくくった。

The rapid progress in artificial intelligence (AI) and machine learning has opened unprecedented analytics possibilities in various team and individual sports, including baseball, basketball, and tennis. More recently, AI techniques have been applied to football, due to a huge increase in data collection by professional teams, increased computational power, and advances in machine learning, with the goal of better addressing new scientific challenges involved in the analysis of both individual players' and coordinated teams' behaviors. The research challenges associated with predictive and prescriptive football analytics require new developments and progress at the intersection of statistical learning, game theory, and computer vision. In this paper, we provide an overarching perspective highlighting how the combination of these fields, in particular, forms a unique microcosm for AI research, while offering mutual benefits for professional teams, spectators, and broadcasters in the years to come. We illustrate that this duality makes football analytics a game changer of tremendous value, in terms of not only changing the game of football itself, but also in terms of what this domain can mean for the field of AI. We review the state-of-the-art and exemplify the types of analysis enabled by combining the aforementioned fields, including illustrative examples of counterfactual analysis using predictive models, and the combination of game-theoretic analysis of penalty kicks with statistical learning of player attributes. We conclude by highlighting envisioned downstream impacts, including possibilities for extensions to other sports (real and virtual).
翻訳日:2022-09-24 05:04:57 公開日:2020-11-18
# ベイジアンネットワークを用いた連系・自律車両のシステムレベルサイバー攻撃脆弱性の評価

Assessment of System-Level Cyber Attack Vulnerability for Connected and Autonomous Vehicles Using Bayesian Networks ( http://arxiv.org/abs/2011.09436v1 )

ライセンス: Link先を確認
Gurcan Comert, Mashrur Chowdhury, David M. Nicol(参考訳) 本研究では,ネットワークと自律走行車両の枠組み下でのインテリジェント交通システムに対する確率的グラフィカルモデルに基づいて,サイバー攻撃の脆弱性とその影響を定量化する手法を提案する。 各種のサイバー攻撃脆弱性とその影響を、選択した性能指標に基づいて、インテリジェント信号および協調適応クルーズ制御(CACC)アプリケーションに対して算出する。 平均交叉キューの長さ、停止数、平均速度、遅延の点で脆弱性の影響を示す数値的な例が与えられる。 冗長なシステムを持たないシグナルネットワークでは、平均的なキューと遅延をそれぞれ$3\%$と$15\%$と$4\%$と$17\%$に増加させることができる。 caccアプリケーションでは、低速情報の摂動時には、衝撃レベルが平均で50〜%の遅延差に達する。 攻撃者によって著しく異なる速度特性が挿入されると、遅延差は通常の交通条件の100/%以上増加する。

This study presents a methodology to quantify vulnerability of cyber attacks and their impacts based on probabilistic graphical models for intelligent transportation systems under connected and autonomous vehicles framework. Cyber attack vulnerabilities from various types and their impacts are calculated for intelligent signals and cooperative adaptive cruise control (CACC) applications based on the selected performance measures. Numerical examples are given that show impact of vulnerabilities in terms of average intersection queue lengths, number of stops, average speed, and delays. At a signalized network with and without redundant systems, vulnerability can increase average queues and delays by $3\%$ and $15\%$ and $4\%$ and $17\%$, respectively. For CACC application, impact levels reach to $50\%$ delay difference on average when low amount of speed information is perturbed. When significantly different speed characteristics are inserted by an attacker, delay difference increases beyond $100\%$ of normal traffic conditions.
翻訳日:2022-09-24 05:04:33 公開日:2020-11-18
# ビッグデータと機械学習による中国における1日あたりのno2濃度の推定

Estimates of daily ground-level NO2 concentrations in China based on big data and machine learning approaches ( http://arxiv.org/abs/2011.09013v1 )

ライセンス: Link先を確認
Xinyu Dou, Cuijuan Liao, Hengqi Wang, Ying Huang, Ying Tu, Xiaomeng Huang, Yiran Peng, Biqing Zhu, Jianguang Tan, Zhu Deng, Nana Wu, Taochun Sun, Piyu Ke, Zhu Liu(参考訳) 二酸化窒素(NO2)は大気汚染物質の中で最も重要なものの一つである。 しかし、現在の地上レベルのNO2濃度データは、ソースデータの質の低さとモデルの計算能力のために、高解像度のカバレッジや全国規模のフルカバレッジが欠如している。 本研究は,過去6年間(2013~2018年)の中国における地中NO2濃度の全国分布と,比較的高時空間分解能(0.25度,日間隔)を推定した初めてのものである。 我々は、マルチソースパラメータを用いた推定のために、ランダムフォレストモデル統合K平均(RF-K)を開発した。 気象パラメータ,衛星検索パラメータに加えて,人間活動の影響を評価するために初めて社会経済的パラメータを導入する。 その結果, 1) RF-Kモデルは他のモデルよりも優れた予測性能を示し, R2 = 0.64 (MAPE = 34.78%) が得られた。 2)中国におけるno2の年間平均濃度は上昇傾向が弱かった。 北京-天津-河北地域、揚子江デルタ、パール川デルタなどの経済圏では、特に春にはno2濃度が減少または維持された。 我々のデータセットはこれらの領域で汚染物質制御目標が達成されていることを検証した。 本研究は, 全国のNO2濃度を地図化することにより, 中国における大気質管理の質の高いタイムリーなデータを提供する。 改良された機械学習手法に基づき,高空間-時間分解能の大気汚染物質濃度マップを迅速に作成するためのユニバーサルモデルフレームワークを提案する。

Nitrogen dioxide (NO2) is one of the most important atmospheric pollutants. However, current ground-level NO2 concentration data are lack of either high-resolution coverage or full coverage national wide, due to the poor quality of source data and the computing power of the models. To our knowledge, this study is the first to estimate the ground-level NO2 concentration in China with national coverage as well as relatively high spatiotemporal resolution (0.25 degree; daily intervals) over the newest past 6 years (2013-2018). We advanced a Random Forest model integrated K-means (RF-K) for the estimates with multi-source parameters. Besides meteorological parameters, satellite retrievals parameters, we also, for the first time, introduce socio-economic parameters to assess the impact by human activities. The results show that: (1) the RF-K model we developed shows better prediction performance than other models, with cross-validation R2 = 0.64 (MAPE = 34.78%). (2) The annual average concentration of NO2 in China showed a weak increasing trend . While in the economic zones such as Beijing-Tianjin-Hebei region, Yangtze River Delta, and Pearl River Delta, the NO2 concentration there even decreased or remained unchanged, especially in spring. Our dataset has verified that pollutant controlling targets have been achieved in these areas. With mapping daily nationwide ground-level NO2 concentrations, this study provides timely data with high quality for air quality management for China. We provide a universal model framework to quickly generate a timely national atmospheric pollutants concentration map with a high spatial-temporal resolution, based on improved machine learning methods.
翻訳日:2022-09-24 05:04:17 公開日:2020-11-18
# 交通パラメータ予測のための改良グレイシステムモデル

Improved Grey System Models for Predicting Traffic Parameters ( http://arxiv.org/abs/2011.09469v1 )

ライセンス: Link先を確認
Gurcan Comert, Negash Begashaw, Nathan Huynh(参考訳) リアルタイム経路案内, ランプ計測, 混雑価格, 特別イベント交通管理などの交通応用においては, 正確な短期交通流予測が必要である。 そこで本稿では,gm(1,1$|cos(\omega t)$),gm(1,1$|sin(\omega t)$),gm(1,1$|sin(\omega t)$),gm(1,1$|e^{-at}$,$sin(\omega t)$,$cos(\omega t)$)という,いくつかの新しいシステムモデルを提案する。 提案モデルの性能を評価するため, GM(1,1)モデル, フーリエ誤り訂正の有無を問わないGrey Verhulstモデル, 線形時系列モデル, 非線形時系列モデルなどのベンチマークモデルと比較した。 評価は、カリフォルニア、バージニア、オレゴンのループ検出器およびプローブ車両データを用いて行われる。 ベンチマークモデルのうち、フーリエによる誤差補正グレーバールストモデルはgm(1,1)モデル、線形時系列モデル、非線形時系列モデルよりも優れていた。 逆に、3つのモデル、gm(1,1$|cos(\omega t)$)、gm(1,1$|sin(\omega t)$,$cos(\omega t)$)、gm(1,1$|e^{-at}$,$sin(\omega t)$,$cos(\omega t)$)は、根平均二乗誤差(root mean squared error)、および8,2\%$,5,8\%$,4,2\%$である。 提案したGreyシステムモデルは、場所(例えば、すべての道路タイプでうまく機能する)や交通パラメータ(例えば、速度、走行時間、占有量、体積)に適応しており、訓練に十分なデータポイントを必要としない(4つの観測結果が十分である)。

In transportation applications such as real-time route guidance, ramp metering, congestion pricing and special events traffic management, accurate short-term traffic flow prediction is needed. For this purpose, this paper proposes several novel \textit{online} Grey system models (GM): GM(1,1$|cos(\omega t)$), GM(1,1$|sin(\omega t)$, $cos(\omega t)$), and GM(1,1$|e^{-at}$,$sin(\omega t)$,$cos(\omega t)$). To evaluate the performance of the proposed models, they are compared against a set of benchmark models: GM(1,1) model, Grey Verhulst models with and without Fourier error corrections, linear time series model, and nonlinear time series model. The evaluation is performed using loop detector and probe vehicle data from California, Virginia, and Oregon. Among the benchmark models, the error corrected Grey Verhulst model with Fourier outperformed the GM(1,1) model, linear time series, and non-linear time series models. In turn, the three proposed models, GM(1,1$|cos(\omega t)$), GM(1,1$|sin(\omega t)$,$cos(\omega t)$), and GM(1,1$|e^{-at}$,$sin(\omega t)$,$cos(\omega t)$), outperformed the Grey Verhulst model in prediction by at least $65\%$, $16\%$, and $11\%$, in terms of Root Mean Squared Error, and by $82\%$, $58\%$, and $42\%$, in terms of Mean Absolute Percentage Error, respectively. It is observed that the proposed Grey system models are more adaptive to location (e.g., perform well for all roadway types) and traffic parameters (e.g., speed, travel time, occupancy, and volume), and they do not require as many data points for training (4 observations are found to be sufficient).
翻訳日:2022-09-24 04:59:14 公開日:2020-11-18
# 非線形多重場相互作用ニューラルドキュメントランキング

Non-Linear Multiple Field Interactions Neural Document Ranking ( http://arxiv.org/abs/2011.09580v1 )

ライセンス: Link先を確認
Kentaro Takiguchi, Niall Twomey, Luis M. Vaquero(参考訳) ランキングタスクは通常、ページの本体のテキストとページ上のユーザのアクション(クリック)に基づいて行われる。 ランキングエクスペリエンス(例えば、他のフィールドのテキスト、ユーザによるクエリ、イメージなど)をよりコンテキスト的にするために活用できる要素は他にもあります。 2つの異なるデータセットで複数のフィールドランク付けのためのフィールドインタラクションの詳細な分析を行った。 完全なドキュメント構造を生かした作品もあるが、いくつかの側面は未検討のままである。 この研究は、クエリフィールド相互作用、非線形フィールド相互作用、基礎となるニューラルネットワークのアーキテクチャがパフォーマンスにどのように影響するかを示す、以前の分析に基づいて構築される。

Ranking tasks are usually based on the text of the main body of the page and the actions (clicks) of users on the page. There are other elements that could be leveraged to better contextualise the ranking experience (e.g. text in other fields, query made by the user, images, etc). We present one of the first in-depth analyses of field interaction for multiple field ranking in two separate datasets. While some works have taken advantage of full document structure, some aspects remain unexplored. In this work we build on previous analyses to show how query-field interactions, non-linear field interactions, and the architecture of the underlying neural model affect performance.
翻訳日:2022-09-24 04:58:04 公開日:2020-11-18
# 拡張現実と製造実行システムの統合による産業4.0の認知レベルの実現

Implementing the Cognition Level for Industry 4.0 by integrating Augmented Reality and Manufacturing Execution Systems ( http://arxiv.org/abs/2011.10482v1 )

ライセンス: Link先を確認
Alfonso Di Pace and Giuseppe Fenza and Mariacristina Gallo and Vincenzo Loia and Aldo Meglio and Francesco Orciuoli(参考訳) 現在の産業慣行において、センサー、データ取得システム、コンピュータネットワークの可用性と価格の面での指数的な成長は、工場に生産、物流、サービスと高度に統合されたサイバー物理システム(CPS)を実装するよう強制している。 これは現在の工場を経済的に有望な産業4.0に転換した。 industry 4.0は第4次産業革命としても知られ、サイバー技術、モノのインターネット、サービスの統合に関するレバーである。 本稿では,既存の製造実行システム(MES)をCPSに統合した認知レベルを作成する拡張現実(AR)ベースのシステムを提案する。 アプリケーションシナリオを説明することによって、ARテクノロジによってCPSに提供される機会を強調する、という考え方だ。 実際の工場で分析されたこのシステムは、物理世界とデジタル世界を強く統合する能力を示している。 さらに,実施した調査(状況把握グローバルアセスメント手法に基づく)により,生産監視,進捗状況,作業者の状況把握全般において有意な優位性が示された。

In the current industrial practices, the exponential growth in terms of availability and affordability of sensors, data acquisition systems, and computer networks forces factories to move toward implementing high integrating Cyber-Physical Systems (CPS) with production, logistics, and services. This transforms today's factories into Industry 4.0 factories with significant economic potential. Industry 4.0, also known as the fourth Industrial Revolution, levers on the integration of cyber technologies, the Internet of Things, and Services. This paper proposes an Augmented Reality (AR)-based system that creates a Cognition Level that integrates existent Manufacturing Execution Systems (MES) to CPS. The idea is to highlight the opportunities offered by AR technologies to CPS by describing an application scenario. The system, analyzed in a real factory, shows its capacity to integrate physical and digital worlds strongly. Furthermore, the conducted survey (based on the Situation Awareness Global Assessment Technique method) reveals significant advantages in terms of production monitoring, progress, and workers' Situation Awareness in general.
翻訳日:2022-09-24 04:57:52 公開日:2020-11-18
# アルツハイマー病の自動診断における韻律, 声質, 語彙の特徴の組み合わせ

Combining Prosodic, Voice Quality and Lexical Features to Automatically Detect Alzheimer's Disease ( http://arxiv.org/abs/2011.09272v1 )

ライセンス: Link先を確認
Mireia Farr\'us, Joan Codina-Filb\`a(参考訳) アルツハイマー病(ad、英: alzheimer's disease)は、現在最も一般的な認知症であり、その自動検出は、早期に症状を識別するのに役立つ。 さらに,AD自動検出システムの開発には,音声データに基づく非侵入的手法が不可欠である。 本稿では,ADReSSチャレンジへの貢献として,自発音声からのAD自動検出を改善することを目的とする。 この目的のために、年齢、性別、AD条件バランスの108人の参加者からの録音は、AD/非AD条件への分類と、MMSE(Mini-Mental State Examination)スコアに対する回帰という2つの異なるタスクを実行するためのトレーニングセットとして使用されてきた。 どちらのタスクも、語彙情報とターンテイク情報に基づいて、音声から28の機能(韻律と声質に基づく)と51機能を抽出する。 その結果,ランダムフォレスト分類器を用いた分類精度は最大87.5 %,RMSEの4.54 %,確率勾配勾配の線形回帰を用いた。 以上の結果から, 音声および語彙的特徴によるアルツハイマー病の自動検出が期待できる。

Alzheimer's Disease (AD) is nowadays the most common form of dementia, and its automatic detection can help to identify symptoms at early stages, so that preventive actions can be carried out. Moreover, non-intrusive techniques based on spoken data are crucial for the development of AD automatic detection systems. In this light, this paper is presented as a contribution to the ADReSS Challenge, aiming at improving AD automatic detection from spontaneous speech. To this end, recordings from 108 participants, which are age-, gender-, and AD condition-balanced, have been used as training set to perform two different tasks: classification into AD/non-AD conditions, and regression over the Mini-Mental State Examination (MMSE) scores. Both tasks have been performed extracting 28 features from speech -- based on prosody and voice quality -- and 51 features from the transcriptions -- based on lexical and turn-taking information. Our results achieved up to 87.5 % of classification accuracy using a Random Forest classifier, and 4.54 of RMSE using a linear regression with stochastic gradient descent over the provided test set. This shows promising results in the automatic detection of Alzheimer's Disease through speech and lexical features.
翻訳日:2022-09-24 04:56:56 公開日:2020-11-18
# error-bounded lossy compressionを用いた新しいメモリ効率の高いディープラーニング学習フレームワーク

A Novel Memory-Efficient Deep Learning Training Framework via Error-Bounded Lossy Compression ( http://arxiv.org/abs/2011.09017v1 )

ライセンス: Link先を確認
Sian Jin, Guanpeng Li, Shuaiwen Leon Song, Dingwen Tao(参考訳) 予測精度と分析品質に対する要求が高まっているため、ディープニューラルネットワーク(DNN)はますます深く、より広く、非線形になってきている。 DNNモデルをトレーニングする場合、中間活性化データは前方伝播中にメモリに保存し、後方伝播のために復元する必要がある。 しかし、GPUのような最先端のアクセラレータは、ハードウェア設計の制約によりメモリ容量が非常に限られており、大規模なDNNをトレーニングする際の最大バッチサイズを著しく制限している。 本稿では,エラーバウンドのロスイッチ圧縮を利用した新しいメモリ駆動型高性能dnnトレーニングフレームワークを提案し,大規模ネットワークのトレーニングを実現するために,トレーニングのメモリ要求を大幅に削減する。 JPEGなどの画像ベース損失圧縮機を用いてアクティベーションデータを圧縮する最先端のソリューションとは異なり,本フレームワークは厳密なエラー制御機構を用いて,エラー境界損失圧縮を設計する。 具体的には,変更したアクティベーションデータから勾配への圧縮誤差伝播に関する理論的解析を行い,トレーニングプロセス全体における変化勾配の影響を実験的に検討する。 これらの分析に基づいて、損失圧縮エラーバウンドを動的に設定し、トレーニングバッチサイズを調整し、保存メモリ空間を高速化するために、改良された損失圧縮機と適応型スキームを提案する。 我々は4つのDNNとImageNetデータセットによる最先端のソリューションに対する設計を評価する。 その結果,提案フレームワークは,ベースライントレーニングと最先端フレームワークをそれぞれ圧縮することで,最大13.5倍,1.8倍のトレーニングメモリ使用量を大幅に削減できることがわかった。

Deep neural networks (DNNs) are becoming increasingly deeper, wider, and non-linear due to the growing demands on prediction accuracy and analysis quality. When training a DNN model, the intermediate activation data must be saved in the memory during forward propagation and then restored for backward propagation. However, state-of-the-art accelerators such as GPUs are only equipped with very limited memory capacities due to hardware design constraints, which significantly limits the maximum batch size and hence performance speedup when training large-scale DNNs. In this paper, we propose a novel memory-driven high performance DNN training framework that leverages error-bounded lossy compression to significantly reduce the memory requirement for training in order to allow training larger networks. Different from the state-of-the-art solutions that adopt image-based lossy compressors such as JPEG to compress the activation data, our framework purposely designs error-bounded lossy compression with a strict error-controlling mechanism. Specifically, we provide theoretical analysis on the compression error propagation from the altered activation data to the gradients, and then empirically investigate the impact of altered gradients over the entire training process. Based on these analyses, we then propose an improved lossy compressor and an adaptive scheme to dynamically configure the lossy compression error-bound and adjust the training batch size to further utilize the saved memory space for additional speedup. We evaluate our design against state-of-the-art solutions with four popular DNNs and the ImageNet dataset. Results demonstrate that our proposed framework can significantly reduce the training memory consumption by up to 13.5x and 1.8x over the baseline training and state-of-the-art framework with compression, respectively, with little or no accuracy loss.
翻訳日:2022-09-24 04:56:35 公開日:2020-11-18
# softseg: 画像分割のためのソフト対バイナリトレーニングの利点

SoftSeg: Advantages of soft versus binary training for image segmentation ( http://arxiv.org/abs/2011.09041v1 )

ライセンス: Link先を確認
Charley Gros, Andreanne Lemay, Julien Cohen-Adad(参考訳) ほとんどの画像分割アルゴリズムは、ピクセルごとの分類タスクとして定式化されたバイナリマスクで訓練される。 しかし、医用イメージングのようなアプリケーションでは、この「黒と白」のアプローチは、2つの組織間のコントラストがしばしば不定義であり、つまり物体の端にあるボクセルには組織が混ざっているため、あまりにも制約が強い。 その結果、単一の「ハード」ラベルを割り当てると、有害な近似が得られる。 代わりに、非バイナリ値を含むソフトな予測は、その制限を克服する。 我々は、ソフトグラウンドの真理ラベルを活用するディープラーニングトレーニングアプローチであるSoftSegを紹介し、バイナリ予測に縛られない。 SoftSegは、分類問題ではなくレグレッションを解決することを目指している。 これは使用によって達成される (i)前処理及びデータ拡張後のバイナリ化なし。 (二)正規化したReLU最終活性化層(シグモイドの代わりに)及び (iii)回帰損失関数(従来のダイス損失の代わりに)。 この3つの特徴が脊髄灰白質からの3つのオープンソースのMRIセグメント化データセット,多発性硬化性脳病変,マルチモーダル脳腫瘍セグメント化課題に与える影響について検討した。 複数のクロスバリデーションを繰り返して、softsegは従来のアプローチを上回り、grey matterデータセット(p=0.001)ではdiceスコアが2.0%、ms病変では3.3%、脳腫瘍では6.5%増加した。 SoftSegは組織界面で一貫したソフト予測を生成し、小さな物体に対する感度を高める。 ソフトラベルの豊かさは, 実験間変動, 部分体積効果を示し, モデルの不確実性推定を補完する。 開発したトレーニングパイプラインは、既存のディープラーニングアーキテクチャの大部分に簡単に組み込める。 これは既に ivadomed (https://ivadomed.org) で実装されている。

Most image segmentation algorithms are trained on binary masks formulated as a classification task per pixel. However, in applications such as medical imaging, this "black-and-white" approach is too constraining because the contrast between two tissues is often ill-defined, i.e., the voxels located on objects' edges contain a mixture of tissues. Consequently, assigning a single "hard" label can result in a detrimental approximation. Instead, a soft prediction containing non-binary values would overcome that limitation. We introduce SoftSeg, a deep learning training approach that takes advantage of soft ground truth labels, and is not bound to binary predictions. SoftSeg aims at solving a regression instead of a classification problem. This is achieved by using (i) no binarization after preprocessing and data augmentation, (ii) a normalized ReLU final activation layer (instead of sigmoid), and (iii) a regression loss function (instead of the traditional Dice loss). We assess the impact of these three features on three open-source MRI segmentation datasets from the spinal cord gray matter, the multiple sclerosis brain lesion, and the multimodal brain tumor segmentation challenges. Across multiple cross-validation iterations, SoftSeg outperformed the conventional approach, leading to an increase in Dice score of 2.0% on the gray matter dataset (p=0.001), 3.3% for the MS lesions, and 6.5% for the brain tumors. SoftSeg produces consistent soft predictions at tissues' interfaces and shows an increased sensitivity for small objects. The richness of soft labels could represent the inter-expert variability, the partial volume effect, and complement the model uncertainty estimation. The developed training pipeline can easily be incorporated into most of the existing deep learning architectures. It is already implemented in the freely-available deep learning toolbox ivadomed (https://ivadomed.org).
翻訳日:2022-09-24 04:56:06 公開日:2020-11-18
# よりインフォームドなランダムサンプルコンセンサス

More Informed Random Sample Consensus ( http://arxiv.org/abs/2011.09116v1 )

ライセンス: Link先を確認
Guoxiang Zhang and YangQuan Chen(参考訳) ランダムサンプルコンセンサス(RANSAC)は、堅牢なモデル適合アルゴリズムである。 画像スティッチや点雲登録など多くの分野で広く使われている。 RANSACでは、データは仮説生成のために一様にサンプリングされる。 しかし、この一様サンプリング戦略は、多くの問題に関する全ての情報を十分に活用していない。 本稿では,l\'{e}vy分布を用いてデータソートアルゴリズムとともにデータをサンプリングする手法を提案する。 提案手法の仮説サンプリングステップでは,不規則集合内のデータ点の確率に基づいてデータをソートするソートアルゴリズムを用いてデータをソートする。 次に、L\'{e}vy分布のソートされたデータから仮説をサンプリングする。 提案手法はシミュレーションと実世界の公開データセットの両方で評価される。 本手法は, 均一なベースライン法よりも優れた結果を示す。

Random sample consensus (RANSAC) is a robust model-fitting algorithm. It is widely used in many fields including image-stitching and point cloud registration. In RANSAC, data is uniformly sampled for hypothesis generation. However, this uniform sampling strategy does not fully utilize all the information on many problems. In this paper, we propose a method that samples data with a L\'{e}vy distribution together with a data sorting algorithm. In the hypothesis sampling step of the proposed method, data is sorted with a sorting algorithm we proposed, which sorts data based on the likelihood of a data point being in the inlier set. Then, hypotheses are sampled from the sorted data with L\'{e}vy distribution. The proposed method is evaluated on both simulation and real-world public datasets. Our method shows better results compared with the uniform baseline method.
翻訳日:2022-09-24 04:55:21 公開日:2020-11-18
# graphspy: デッドストア検出のためのグラフニューラルネットワークによるプログラムセマンティクスレベルの埋め込み

GRAPHSPY: Fused Program Semantic-Level Embedding via Graph Neural Networks for Dead Store Detection ( http://arxiv.org/abs/2011.09501v1 )

ライセンス: Link先を確認
Yixin Guo, Pengcheng Li, Yingwei Luo, Xiaolin Wang, Zhenlin Wang(参考訳) プロダクションソフトウェアはしばしば、データ構造、プログラミングの抽象化、保守的なコンパイラ最適化の不適切な使用によって生じるパフォーマンス上の非効率の問題に悩まされる。 不要なメモリ操作を避けることが望ましい。 しかし、既存の作業では、非常に高いオーバーヘッドでプログラム全体をきめ細かな監視方法を使用することが多い。 そこで本稿では,低オーバーヘッドで不必要なメモリ操作をインテリジェントに識別する学習支援手法を提案する。 プログラム構造,実行順序,動的状態に関するプログラムセマンティクスを抽出するために,いくつかの有意なグラフニューラルネットワークモデルを適用することにより,組込みによる不要なメモリ操作を導出する,新しいハイブリッドなプログラム埋め込み手法を提案する。 私たちは、実世界のベンチマークから取得した数万のサンプルでモデルをトレーニングします。 その結果,本モデルは90%の精度を達成でき,最先端ツールのオーバーヘッドの約半分しか発生しないことがわかった。

Production software oftentimes suffers from the issue of performance inefficiencies caused by inappropriate use of data structures, programming abstractions, and conservative compiler optimizations. It is desirable to avoid unnecessary memory operations. However, existing works often use a whole-program fine-grained monitoring method with incredibly high overhead. To this end, we propose a learning-aided approach to identify unnecessary memory operations intelligently with low overhead. By applying several prevalent graph neural network models to extract program semantics with respect to program structure, execution order and dynamic states, we present a novel, hybrid program embedding approach so that to derive unnecessary memory operations through the embedding. We train our model with tens of thousands of samples acquired from a set of real-world benchmarks. Results show that our model achieves 90% of accuracy and incurs only around a half of time overhead of the state-of-art tool.
翻訳日:2022-09-24 04:48:43 公開日:2020-11-18
# Triplet強化オートエンコーダを用いたベクトル置換不変ベクトル埋め込み

Vector Embeddings with Subvector Permutation Invariance using a Triplet Enhanced Autoencoder ( http://arxiv.org/abs/2011.09550v1 )

ライセンス: Link先を確認
Mark Alan Matties(参考訳) ディープニューラルネットワーク(DNN)オートエンコーダ(AE)の使用は、その広範な適用性のために最近爆発的に増加した。 しかし、再構成エラーだけを最小限に抑えるために訓練された標準DNN AEによって生成された埋め込み表現は、必ずしもデータのより微妙なパターンを明らかにするとは限らない。 時には、オートエンコーダは1つ以上の損失関数の形でさらなる方向を必要とする。 本稿では,三重項損失により拡張されたオートエンコーダを用いて,構成部分ベクトルの置換によって関連するベクトルのクラスタリングを促進する。 このアプローチにより、そのような置換にほぼ不変なベクトルの埋め込みを作成することができる。 そして、これらの不変埋め込みを分類やクラスタリングなどの他の問題へのインプットとして使用し、それらの問題の検出精度を向上させることができる。

The use of deep neural network (DNN) autoencoders (AEs) has recently exploded due to their wide applicability. However, the embedding representation produced by a standard DNN AE that is trained to minimize only the reconstruction error does not always reveal more subtle patterns in the data. Sometimes, the autoencoder needs further direction in the form of one or more additional loss functions. In this paper, we use an autoencoder enhanced with triplet loss to promote the clustering of vectors that are related through permutations of constituent subvectors. With this approach, we can create an embedding of the vector that is nearly invariant to such permutations. We can then use these invariant embeddings as inputs to other problems, like classification and clustering, and improve detection accuracy in those problems.
翻訳日:2022-09-24 04:48:15 公開日:2020-11-18
# ドメインの強化:ロバスト計画によるドメイン知識の欠如への対処

Domain Concretization from Examples: Addressing Missing Domain Knowledge via Robust Planning ( http://arxiv.org/abs/2011.09034v1 )

ライセンス: Link先を確認
Akshay Sharma, Piyush Rajesh Medikeri and Yu Zhang(参考訳) 完全なドメイン知識の仮定は、現実世界におけるロボット計画と意思決定には必須ではない。 これは設計上の欠陥やドメインの分岐や資格に起因する可能性がある。 そのような場合、既存の計画と学習アルゴリズムは、非常に望ましくない振る舞いを生み出す可能性がある。 この問題は、エージェントが特定の知識に気づいていないという意味では部分的可観測性よりも、部分的に可観測性である(未知の未知と未知の未知の違い)。 本稿では、ドメイン抽象化の逆問題であるDomain Concretizationの問題として、これを定式化する。 設計者および教師が提供した不完全なドメインモデルに基づいて,提案アルゴリズムは最小限のモデル仮定で設定した候補モデルを探索する。 そして、候補モデルの集合の下で成功の最大確率を持つロバストな計画を生成する。 モデル空間における標準的な検索定式化に加えて,検索時間を改善するためにサンプルベースの検索手法とオンライン版を提案する。 完全モデルからドメインの特徴を取り除き,不完全性を導入したICCドメインとシミュレーションロボティクスドメインに対して,我々のアプローチを検証した。 その結果,計画アルゴリズムはコストに大きな影響を及ぼすことなく,計画の成功率を高めることがわかった。

The assumption of complete domain knowledge is not warranted for robot planning and decision-making in the real world. It could be due to design flaws or arise from domain ramifications or qualifications. In such cases, existing planning and learning algorithms could produce highly undesirable behaviors. This problem is more challenging than partial observability in the sense that the agent is unaware of certain knowledge, in contrast to it being partially observable: the difference between known unknowns and unknown unknowns. In this work, we formulate it as the problem of Domain Concretization, an inverse problem to domain abstraction. Based on an incomplete domain model provided by the designer and teacher traces from human users, our algorithm searches for a candidate model set under a minimalistic model assumption. It then generates a robust plan with the maximum probability of success under the set of candidate models. In addition to a standard search formulation in the model-space, we propose a sample-based search method and also an online version of it to improve search time. We tested our approach on IPC domains and a simulated robotics domain where incompleteness was introduced by removing domain features from the complete model. Results show that our planning algorithm increases the plan success rate without impacting the cost much.
翻訳日:2022-09-24 04:47:29 公開日:2020-11-18
# オントロジーデータアクセスにおけるクエリ表現可能性と検証

Query Expressibility and Verification in Ontology-Based Data Access ( http://arxiv.org/abs/2011.09176v1 )

ライセンス: Link先を確認
Carsten Lutz, Johannes Marti, Leif Sabellek(参考訳) オントロジーベースのデータアクセスでは、複数のデータソースがオントロジーとマッピングを使って統合される。 実際には、オントロジーとマッピングは、まずソース上で最も重要なクエリのみをサポートし、次に徐々に拡張して追加クエリを有効にするように設計されている。 本稿では,そのようなアプローチを支援する2つの推論問題について考察する。 表現性問題は、あるソースクエリ$q_s$がターゲットクエリ(すなわち、オントロジーの語彙上)として表現可能かどうかを問うとともに、検証問題はさらに、候補ターゲットクエリ$q_t$を付与し、$q_t$が$q_s$を表すかどうかを問う。 我々は(U)CQをソースクエリとターゲットクエリとGAVマッピングとみなし、どちらもDL-Liteで$\Pi^p_2$-complete、ソースクエリがルートされたときにELとELHIでcoNExpTime-complete、制約のないソースクエリで2ExpTime-completeであることを示す。

In ontology-based data access, multiple data sources are integrated using an ontology and mappings. In practice, this is often achieved by a bootstrapping process, that is, the ontology and mappings are first designed to support only the most important queries over the sources and then gradually extended to enable additional queries. In this paper, we study two reasoning problems that support such an approach. The expressibility problem asks whether a given source query $q_s$ is expressible as a target query (that is, over the ontology's vocabulary) and the verification problem asks, additionally given a candidate target query $q_t$, whether $q_t$ expresses $q_s$. We consider (U)CQs as source and target queries and GAV mappings, showing that both problems are $\Pi^p_2$-complete in DL-Lite, coNExpTime-complete between EL and ELHI when source queries are rooted, and 2ExpTime-complete for unrestricted source queries.
翻訳日:2022-09-24 04:47:13 公開日:2020-11-18
# フロンティア保護型オントロジ型問合せの1次書き換え可能性

First-Order Rewritability of Frontier-Guarded Ontology-Mediated Queries ( http://arxiv.org/abs/2011.09314v1 )

ライセンス: Link先を確認
Pablo Barcelo, Gerald Berger, Carsten Lutz, Andreas Pieris(参考訳) 我々は,(より前に)保護された存在規則と(結合性のある)結合性クエリに基づくオントロジー型クエリ(omq)に注目し,omqが一階のクエリとして書き換えられるかどうかという,fo-rewritabilityの問題を考察する。 私たちは2つの異なるアプローチを採用します。 最初のアプローチでは、標準的な双方向交互パリティツリーオートマトンを使用する。 厳密な複雑性境界には至らないが、広く知られているツールに基づいた透明なソリューションを提供する。 第2のアプローチは、コストオートマトンとして知られる高度なオートマトンモデルに依存している。 これにより、2ExpTime完全であることを示すことができます。 どちらの手法も、独立性のあるFO-rewritabilityのセマンティックな特徴を提供する。

We focus on ontology-mediated queries (OMQs) based on (frontier-)guarded existential rules and (unions of) conjunctive queries, and we investigate the problem of FO-rewritability, i.e., whether an OMQ can be rewritten as a first-order query. We adopt two different approaches. The first approach employs standard two-way alternating parity tree automata. Although it does not lead to a tight complexity bound, it provides a transparent solution based on widely known tools. The second approach relies on a sophisticated automata model, known as cost automata. This allows us to show that our problem is 2ExpTime-complete. In both approaches, we provide semantic characterizations of FO-rewritability that are of independent interest.
翻訳日:2022-09-24 04:46:54 公開日:2020-11-18
# 進化的アルゴリズムを用いた戦士ロボットの行動調査

Investigation of Warrior Robots Behavior by Using Evolutionary Algorithms ( http://arxiv.org/abs/2011.09455v1 )

ライセンス: Link先を確認
Shahriar Sharifi Borojerdi, Mehdi Karimi, Ehsan Amiri(参考訳) 本研究では,進化的アルゴリズムを用いてロボットの動作,特に戦士ロボットについて検討する。 この種のアルゴリズムは、ロボットの行動が集団行動に類似する性質にインスパイアされている。 ミツバチのような生物の集団的行動は、相互作用や協力に依存する何らかの機能を行うには、その中の全ての生物がその義務を果たすために、よく組織化されたシステムが必要であることが示されている。 インテリジェンスを持たないロボットに対しては、アルゴリズムを定義し、簡単なシミュレーションで結果を示すことができる。

In this study, we review robots behavior especially warrior robots by using evolutionary algorithms. This kind of algorithms is inspired by nature that causes robots behaviors get resemble to collective behavior. Collective behavior of creatures such as bees was shown that do some functions which depended on interaction and cooperation would need to a well-organized system so that all creatures within it carry out their duty, very well. For robots which do not have any intelligence, we can define an algorithm and show the results by a simple simulation.
翻訳日:2022-09-24 04:46:30 公開日:2020-11-18
# 逆ロバスト性のための文脈融合

Contextual Fusion For Adversarial Robustness ( http://arxiv.org/abs/2011.09526v1 )

ライセンス: Link先を確認
Aiswarya Akumalla, Seth Haney, Maksim Bazhenov(参考訳) 哺乳類の脳は、個々の感覚モダリティに特化している脳の領域からの情報を統合することで、複雑な推論タスクをゲシュタルト的に処理する。 これにより、堅牢性が向上し、一般化能力が向上する。 対照的に、ディープニューラルネットワークは通常、ある特定の情報ストリームを処理するように設計され、様々なタイプの敵対的摂動に影響を受けやすい。 敵攻撃の検出と防御には多くの方法が存在するが、それらは様々な攻撃を一般化せず、クリーンで不飽和なデータのパフォーマンスに悪影響を及ぼす。 そこで我々はPlaces-CNNとImagenet-CNNから抽出した背景特徴と前景特徴を組み合わせた融合モデルを開発した。 我々は,CIFAR-10およびMS COCOデータセットに対する,人間の知覚可能な(例えばガウスのぼかし)およびネットワーク知覚可能な(例えば勾配に基づく)攻撃に対する対向的堅牢性を維持するための融合手法の利点を検証した。 グラデーションに基づく攻撃では, 融合は非摂動データの性能を低下させることなく, 対向的再訓練を必要とせず, 分類の大幅な改善を図っている。 融解モデルではガウスのぼかし型摂動も改善した。 融合アプローチによる性能向上は、画像コンテキストの変動性に依存するが、画像のクラスでは、そのコンテキストに大きな違いがある。 また,既知の敵の存在下での分類器決定のバイアスに対する正規化の効果を実証する。 この生物学的にインスピレーションを受けた、複数のモダリティにまたがる情報の統合アプローチは、現在の技術手法と相補的な敵の堅牢性を改善する新しい方法を提供する。

Mammalian brains handle complex reasoning tasks in a gestalt manner by integrating information from regions of the brain that are specialised to individual sensory modalities. This allows for improved robustness and better generalisation ability. In contrast, deep neural networks are usually designed to process one particular information stream and susceptible to various types of adversarial perturbations. While many methods exist for detecting and defending against adversarial attacks, they do not generalise across a range of attacks and negatively affect performance on clean, unperturbed data. We developed a fusion model using a combination of background and foreground features extracted in parallel from Places-CNN and Imagenet-CNN. We tested the benefits of the fusion approach on preserving adversarial robustness for human perceivable (e.g., Gaussian blur) and network perceivable (e.g., gradient-based) attacks for CIFAR-10 and MS COCO data sets. For gradient based attacks, our results show that fusion allows for significant improvements in classification without decreasing performance on unperturbed data and without need to perform adversarial retraining. Our fused model revealed improvements for Gaussian blur type perturbations as well. The increase in performance from fusion approach depended on the variability of the image contexts; larger increases were seen for classes of images with larger differences in their contexts. We also demonstrate the effect of regularization to bias the classifier decision in the presence of a known adversary. We propose that this biologically inspired approach to integrate information across multiple modalities provides a new way to improve adversarial robustness that can be complementary to current state of the art approaches.
翻訳日:2022-09-24 04:40:31 公開日:2020-11-18
# 深層学習モデルを用いた患者非依存てんかん発作予測

Patient-independent Epileptic Seizure Prediction using Deep Learning Models ( http://arxiv.org/abs/2011.09581v1 )

ライセンス: Link先を確認
Theekshana Dissanayake, Tharindu Fernando, Simon Denman, Sridha Sridharan, Clinton Fookes(参考訳) 目的:てんかんはヒトで最も多い神経疾患の一つであり、重度の脳損傷、脳卒中、脳腫瘍を引き起こす可能性がある。 発作の早期発見は怪我の軽減に役立ち、てんかん患者の治療に役立てることができる。 発作予知システムの目的は、発作が起こる前に起こる前頭前脳のステージを正常に識別することである。 患者非依存の発作予測モデルは、データセット内の複数の被験者に正確なパフォーマンスを提供するように設計されており、発作予測問題の現実的な解決策として特定されている。 しかし、脳波データの高オブジェクト間変動に適応するモデルの設計には、ほとんど注意が払われていない。 方法: 異なる学習戦略を持つ2つの患者に依存しないディープラーニングアーキテクチャを提案する。 結果:CHB-MIT-EEGデータセットの精度は88.81%,91.54%であった。 結論: 提案する学習戦略に基づいてトレーニングされたシアムモデルは、発作を予測しながら、患者のデータの変化に関するパターンを学習することができる。 意義: 本モデルは, 患者非依存的な発作予測に優れた性能を示し, 同一アーキテクチャをモデル適応後の患者固有の分類器として用いることができる。 本研究は,脳卒中予知タスクにおける分類器の行動を理解するためにモデル解釈を用いた最初の研究であり,本モデルが利用するmfcc特徴マップは,間期および前ictal脳の状態に関連する予測バイオマーカーを含んでいることを示した。

Objective: Epilepsy is one of the most prevalent neurological diseases among humans and can lead to severe brain injuries, strokes, and brain tumors. Early detection of seizures can help to mitigate injuries, and can be used to aid the treatment of patients with epilepsy. The purpose of a seizure prediction system is to successfully identify the pre-ictal brain stage, which occurs before a seizure event. Patient-independent seizure prediction models are designed to offer accurate performance across multiple subjects within a dataset, and have been identified as a real-world solution to the seizure prediction problem. However, little attention has been given for designing such models to adapt to the high inter-subject variability in EEG data. Methods: We propose two patient-independent deep learning architectures with different learning strategies that can learn a global function utilizing data from multiple subjects. Results: Proposed models achieve state-of-the-art performance for seizure prediction on the CHB-MIT-EEG dataset, demonstrating 88.81% and 91.54% accuracy respectively. Conclusions: The Siamese model trained on the proposed learning strategy is able to learn patterns related to patient variations in data while predicting seizures. Significance: Our models show superior performance for patient-independent seizure prediction, and the same architecture can be used as a patient-specific classifier after model adaptation. We are the first study that employs model interpretation to understand classifier behavior for the task for seizure prediction, and we also show that the MFCC feature map utilized by our models contains predictive biomarkers related to interictal and pre-ictal brain states.
翻訳日:2022-09-24 04:39:26 公開日:2020-11-18
# 統計的モデルに基づくニューラルネットワークの評価

Statistical model-based evaluation of neural networks ( http://arxiv.org/abs/2011.09015v1 )

ライセンス: Link先を確認
Sandipan Das, Prakash B. Gohain, Alireza M. Javid, Yonina C. Eldar, Saikat Chatterjee(参考訳) 統計的モデルに基づくデータ生成を用いて,ニューラルネットワーク(NN)の評価のための実験装置を開発した。 このセットアップは、NNs vis-a-vis minimum-mean-square-error (MMSE)パフォーマンス境界のベンチマークに役立つ。 これにより、トレーニングデータサイズ、データ次元、データ幾何、ノイズ、トレーニング条件とテスト条件のミスマッチの影響をテストすることができます。 提案したセットアップでは,ガウス混合分布を用いて,競合するNNの集合をトレーニングおよびテストするためのデータを生成する。 実験により,nnsの適切な適用と設計のためのデータの種類と統計条件の理解の重要性が示された。

Using a statistical model-based data generation, we develop an experimental setup for the evaluation of neural networks (NNs). The setup helps to benchmark a set of NNs vis-a-vis minimum-mean-square-error (MMSE) performance bounds. This allows us to test the effects of training data size, data dimension, data geometry, noise, and mismatch between training and testing conditions. In the proposed setup, we use a Gaussian mixture distribution to generate data for training and testing a set of competing NNs. Our experiments show the importance of understanding the type and statistical conditions of data for appropriate application and design of NNs
翻訳日:2022-09-24 04:38:39 公開日:2020-11-18
# サッカー所有物の瞬間的期待値の微粒度評価のための枠組み

A framework for the fine-grained evaluation of the instantaneous expected value of soccer possessions ( http://arxiv.org/abs/2011.09426v1 )

ライセンス: Link先を確認
Javier Fernandez (1 and 2), Luke Bornn (3), Daniel Cervone (4) ((1) Polytechnic University of Catalonia, (2) FC Barcelona, (3) Simon Fraser University, (4) Zelus Analytics)(参考訳) サッカー所有物の期待保持値(EPV)は、いつでも次のゴールを決め、獲得する可能性を表す。 EPVを別々に見積もる一連のサブコンポーネントに分解することにより、観察と潜在的行動の両方の影響を評価する能力を持つサッカー実践者に提供する包括的な分析フレームワークを開発する。 サッカーにおける未探索問題の集合を含む,EVVのすべてのコンポーネントに対する校正モデルが得られることを示す。 低レベルの時空間データから学習する一連のディープニューラルネットワークアーキテクチャから、潜在的パスに対する視覚的に解釈可能な確率曲面を生成する。 さらに,具体的ゲーム状況の豊かな解釈をコーチに提供する新しい実践的応用のシリーズを提示する。

The expected possession value (EPV) of a soccer possession represents the likelihood of a team scoring or receiving the next goal at any time instance. By decomposing the EPV into a series of subcomponents that are estimated separately, we develop a comprehensive analysis framework providing soccer practitioners with the ability to evaluate the impact of both observed and potential actions. We show we can obtain calibrated models for all the components of EPV, including a set of yet-unexplored problems in soccer. We produce visually-interpretable probability surfaces for potential passes from a series of deep neural network architectures that learn from low-level spatiotemporal data. Additionally, we present a series of novel practical applications providing coaches with an enriched interpretation of specific game situations.
翻訳日:2022-09-24 04:38:10 公開日:2020-11-18
# TJU-DHD:オブジェクト検出のための多値高分解能データセット

TJU-DHD: A Diverse High-Resolution Dataset for Object Detection ( http://arxiv.org/abs/2011.09170v1 )

ライセンス: Link先を確認
Yanwei Pang and Jiale Cao and Yazhao Li and Jin Xie and Hanqing Sun and Jinfeng Gong(参考訳) 自動車、歩行者、そしてライダーは、自動運転車とビデオ監視の知覚モジュールにとって、最も重要で興味深いオブジェクトである。 しかし、そのような重要な物体(例えば小さな物体)を検出する技術の現状は、実用システムの需要を満足させるには程遠い。 大規模で多種多様な高解像度データセットは、要求を満たすためのより良いオブジェクト検出方法を開発する上で重要な役割を果たす。 ウェブサイトから収集されたMS COCOのような既存の大規模なデータセットは、特定のシナリオに焦点を当てていない。 さらに、特定のシナリオから収集された一般的なデータセット(KITTIやCitypersonsなど)は、画像やインスタンスの数、解像度、多様性に制限されている。 この問題を解決するために,多種多様な高解像度データセット(TJU-DHD)を構築した。 データセットには115,354枚の高解像度画像(52%は解像度1624$\times $1200ピクセル、48%は解像度2,560$\times $1,440ピクセル)と709,330個のラベル付きオブジェクトがあり、規模と外観に大きなばらつきがある。 一方、データセットは季節のばらつき、照明のばらつき、天候のばらつきの多様性に富んでいる。 さらに、新しい多様な歩行者データセットも構築されている。 4つの異なる検出器(一段RetinaNet、アンカーフリーFCOS、二段FPN、カスケードR-CNN)を用いて、物体検出と歩行者検出に関する実験を行った。 新たに構築されたデータセットは、この2つのシーンにおける物体検出と歩行者検出の研究を促進できることを願っている。 データセットはhttps://github.com/tjubiit/TJU-DHDで公開されている。

Vehicles, pedestrians, and riders are the most important and interesting objects for the perception modules of self-driving vehicles and video surveillance. However, the state-of-the-art performance of detecting such important objects (esp. small objects) is far from satisfying the demand of practical systems. Large-scale, rich-diversity, and high-resolution datasets play an important role in developing better object detection methods to satisfy the demand. Existing public large-scale datasets such as MS COCO collected from websites do not focus on the specific scenarios. Moreover, the popular datasets (e.g., KITTI and Citypersons) collected from the specific scenarios are limited in the number of images and instances, the resolution, and the diversity. To attempt to solve the problem, we build a diverse high-resolution dataset (called TJU-DHD). The dataset contains 115,354 high-resolution images (52% images have a resolution of 1624$\times$1200 pixels and 48% images have a resolution of at least 2,560$\times$1,440 pixels) and 709,330 labeled objects in total with a large variance in scale and appearance. Meanwhile, the dataset has a rich diversity in season variance, illumination variance, and weather variance. In addition, a new diverse pedestrian dataset is further built. With the four different detectors (i.e., the one-stage RetinaNet, anchor-free FCOS, two-stage FPN, and Cascade R-CNN), experiments about object detection and pedestrian detection are conducted. We hope that the newly built dataset can help promote the research on object detection and pedestrian detection in these two scenes. The dataset is available at https://github.com/tjubiit/TJU-DHD.
翻訳日:2022-09-24 04:31:28 公開日:2020-11-18
# Res-GCNN:人間の軌道予測のための軽量残差グラフ畳み込みニューラルネットワーク

Res-GCNN: A Lightweight Residual Graph Convolutional Neural Networks for Human Trajectory Forecasting ( http://arxiv.org/abs/2011.09214v1 )

ライセンス: Link先を確認
Yanwu Ge, Mingliang Song(参考訳) 自動運転車(advs)は、渋滞問題を解決し、交通事故の数を減らすという大きな希望を持っている。 ADV周辺の交通機関の正確な軌道予測は安全かつ効率的な運転を実現する上で重要である。 特に歩行者は、複雑な社会的反動とランダムに動くパターンのため、より予測が難しい。 本稿では,構築したグラフの隣接行列を用いて,ペデストライアンの対話的挙動をモデル化した残差グラフ畳み込みニューラルネットワーク(Res-GCNN)を提案する。 提案するRes-GCNNは約6.4キロのパラメータしか持たない軽量な手法であるが,本実験の結果,0.65mのFDE(Final Displacement Error)において,アートの状態を13.3%向上させることができた。 平均dis-placement error (ade) については、亜最適結果(0.37m)を達成するが、これも非常に競争力がある。 Res-GCNNはNVIDIA GeForce RTX1080Ti GPUを使用してプラットフォームで評価されており、データセット全体の推論時間はわずか2.2マイクロ秒である。 提案手法は他の手法と比較して精度と時間効率の予測に有効である可能性が示唆された。 コードはGitHubで公開されている。

Autonomous driving vehicles (ADVs) hold great hopes to solve traffic congestion problems and reduce the number of traffic accidents. Accurate trajectories prediction of other traffic agents around ADVs is of key importance to achieve safe and efficient driving. Pedestrians, particularly, are more challenging to forecast due to their complex social in-teractions and randomly moving patterns. We propose a Residual Graph Convolutional Neural Network (Res-GCNN), which models the interactive behaviors of pedes-trians by using the adjacent matrix of the constructed graph for the current scene. Though the proposed Res-GCNN is quite lightweight with only about 6.4 kilo parameters which outperforms all other methods in terms of parameters size, our experimental results show an improvement over the state of art by 13.3% on the Final Displacement Error (FDE) which reaches 0.65 meter. As for the Average Dis-placement Error (ADE), we achieve a suboptimal result (the value is 0.37 meter), which is also very competitive. The Res-GCNN is evaluated in the platform with an NVIDIA GeForce RTX1080Ti GPU, and its mean inference time of the whole dataset is only about 2.2 microseconds. Compared with other methods, the proposed method shows strong potential for onboard application accounting for forecasting accuracy and time efficiency. The code will be made publicly available on GitHub.
翻訳日:2022-09-24 04:30:59 公開日:2020-11-18
# 画像間翻訳のためのオンラインファインチューニング

Online Exemplar Fine-Tuning for Image-to-Image Translation ( http://arxiv.org/abs/2011.09330v1 )

ライセンス: Link先を確認
Taewon Kang, Soohyun Kim, Sunwoo Kim, Seungryong Kim(参考訳) ディープ畳み込みニューラルネットワーク(CNN)において、既存の画像から画像への変換を解決する技術は、一般に、ドメイン固有およびタスク固有ベンチマーク上のネットワークパラメータを最適化するトレーニングフェーズを必要とするため、適用性や一般化性が制限される。 本稿では,本論文で提案するオンライン・エクセプラー・ファイン・チューニング(oeft)と呼ばれるオンライン画像対が与えられた場合,オンライン・最適化によるexemplar-based translation(exemplar fine-tuning)の解法を初めて提案する。 我々は、対応微調整と複数のGANインバージョンという2つのサブネットワークを設計し、これらのネットワークパラメータと潜時符号の最適化を行う。 我々のフレームワークは、既存の手法の主な課題であるオフライントレーニングフェーズを必要とせず、オンラインの最適化を可能にするためにトレーニング済みのネットワークを必要としています。 実験結果から,本フレームワークは画像ペアを認識不能にし,集中的なトレーニングフェーズを必要とする最先端技術よりも明らかに優れる。

Existing techniques to solve exemplar-based image-to-image translation within deep convolutional neural networks (CNNs) generally require a training phase to optimize the network parameters on domain-specific and task-specific benchmarks, thus having limited applicability and generalization ability. In this paper, we propose a novel framework, for the first time, to solve exemplar-based translation through an online optimization given an input image pair, called online exemplar fine-tuning (OEFT), in which we fine-tune the off-the-shelf and general-purpose networks to the input image pair themselves. We design two sub-networks, namely correspondence fine-tuning and multiple GAN inversion, and optimize these network parameters and latent codes, starting from the pre-trained ones, with well-defined loss functions. Our framework does not require the off-line training phase, which has been the main challenge of existing methods, but the pre-trained networks to enable optimization in online. Experimental results prove that our framework is effective in having a generalization power to unseen image pairs and clearly even outperforms the state-of-the-arts needing the intensive training phase.
翻訳日:2022-09-24 04:29:31 公開日:2020-11-18
# 画像ハッシュ機能に対する逆衝突攻撃

Adversarial collision attacks on image hashing functions ( http://arxiv.org/abs/2011.09473v1 )

ライセンス: Link先を確認
Brian Dolhansky, Cristian Canton Ferrer(参考訳) 知覚アルゴリズムによる画像のハッシュ化は、重複画像検出問題を解決する一般的なアプローチである。 しかし、知覚的画像ハッシュアルゴリズムは微分可能であり、勾配に基づく逆攻撃に対して脆弱である。 我々は,画像の修正によって無関係なハッシュを生成することができるだけでなく,ソースとターゲット画像の正確なハッシュ衝突を極小逆転摂動によって生成できることを実証した。 ホワイトボックスの設定では、これらの衝突は、ほとんどすべてのイメージペアとハッシュタイプ(深いハッシュと非学習ハッシュの両方を含む)に複製することができる。 さらに、ハッシュ関数の出力以外のポイントを攻撃することで、攻撃者は特定のアルゴリズムの詳細を知る必要をなくし、異なるハッシュサイズやモデルアーキテクチャにまたがる衝突を引き起こす。 これらの技術を用いて、敵は重複画像検出サービスのイメージルックアップテーブルを汚染し、未定義または不要な振る舞いをもたらす。 最後に、勾配に基づく画像ハッシュ攻撃に対する潜在的な軽減策をいくつか提示する。

Hashing images with a perceptual algorithm is a common approach to solving duplicate image detection problems. However, perceptual image hashing algorithms are differentiable, and are thus vulnerable to gradient-based adversarial attacks. We demonstrate that not only is it possible to modify an image to produce an unrelated hash, but an exact image hash collision between a source and target image can be produced via minuscule adversarial perturbations. In a white box setting, these collisions can be replicated across nearly every image pair and hash type (including both deep and non-learned hashes). Furthermore, by attacking points other than the output of a hashing function, an attacker can avoid having to know the details of a particular algorithm, resulting in collisions that transfer across different hash sizes or model architectures. Using these techniques, an adversary can poison the image lookup table of a duplicate image detection service, resulting in undefined or unwanted behavior. Finally, we offer several potential mitigations to gradient-based image hash attacks.
翻訳日:2022-09-24 04:29:06 公開日:2020-11-18
# TRAT:時空間特徴を用いた注意による追跡

TRAT: Tracking by Attention Using Spatio-Temporal Features ( http://arxiv.org/abs/2011.09524v1 )

ライセンス: Link先を確認
Hasan Saribas, Hakan Cevikalp, Okan K\"op\"ukl\"u, Bedirhan Uzun(参考訳) ロバストなオブジェクト追跡には、追跡されたオブジェクトの外観、動き、そして時間とともに進化する知識が必要である。 動きは特に高速移動物体に特有で補完的な情報を提供するが、最近の追跡アーキテクチャのほとんどは、主に物体の出現情報に焦点を当てている。 本稿では,空間的特徴と時間的特徴の両方を用いた2ストリーム深層ニューラルネットワークトラッカを提案する。 私たちのアーキテクチャはATOMトラッカー上で開発され、2つのバックボーンを含んでいる。 (i)外観特徴を捉えた2D-CNNネットワーク (II)3D-CNNネットワークによる動作特徴のキャプチャ。 2つのネットワークによって返される機能は、注意ベースのFeature Aggregation Module (FAM)で融合される。 アーキテクチャ全体が統一されているため、エンドツーエンドでトレーニングすることができる。 実験の結果,提案したトラッカーTRAT (TRacking by Attention) は,ほとんどのベンチマークにおいて最先端性能を実現し,ベースラインのATOMトラッカーよりも大幅に優れていた。

Robust object tracking requires knowledge of tracked objects' appearance, motion and their evolution over time. Although motion provides distinctive and complementary information especially for fast moving objects, most of the recent tracking architectures primarily focus on the objects' appearance information. In this paper, we propose a two-stream deep neural network tracker that uses both spatial and temporal features. Our architecture is developed over ATOM tracker and contains two backbones: (i) 2D-CNN network to capture appearance features and (ii) 3D-CNN network to capture motion features. The features returned by the two networks are then fused with attention based Feature Aggregation Module (FAM). Since the whole architecture is unified, it can be trained end-to-end. The experimental results show that the proposed tracker TRAT (TRacking by ATtention) achieves state-of-the-art performance on most of the benchmarks and it significantly outperforms the baseline ATOM tracker.
翻訳日:2022-09-24 04:28:51 公開日:2020-11-18
# 視覚分類のためのガウス混合への深い特徴空間形成

Shaping Deep Feature Space towards Gaussian Mixture for Visual Classification ( http://arxiv.org/abs/2011.09066v1 )

ライセンス: Link先を確認
Weitao Wan, Jiansheng Chen, Cheng Yu, Tong Wu, Yuanyi Zhong, Ming-Hsuan Yang(参考訳) ソフトマックスクロスエントロピー損失関数は様々なタスクの深層モデルの訓練に広く用いられている。 本研究では,視覚分類のためのディープニューラルネットワークのためのガウス混合(gm)損失関数を提案する。 ソフトマックスのクロスエントロピー損失とは違い,本手法はガウス混合分布に対する深い特徴空間を明示的に形成する。 分類マージンと可能性正規化により、GM損失は高い分類性能と特徴分布の正確なモデリングの両方を促進する。 GM損失は、入力の特徴分布とトレーニングセットの相違に基づいて、逆例のような異常な入力を区別するために容易に使用できる。 さらに、理論解析により、gm損失を用いて対称特徴空間が達成できることが示され、これはモデルが敵対的攻撃に対してロバストに実行することを可能にする。 提案モデルは, 余分な学習パラメータを使わずに, 容易かつ効率的に実装できる。 提案手法は画像分類だけでなく,異なる脅威モデルによる強攻撃によって生じる敵例の堅牢な検出にも有効であることを示す。

The softmax cross-entropy loss function has been widely used to train deep models for various tasks. In this work, we propose a Gaussian mixture (GM) loss function for deep neural networks for visual classification. Unlike the softmax cross-entropy loss, our method explicitly shapes the deep feature space towards a Gaussian Mixture distribution. With a classification margin and a likelihood regularization, the GM loss facilitates both high classification performance and accurate modeling of the feature distribution. The GM loss can be readily used to distinguish abnormal inputs, such as the adversarial examples, based on the discrepancy between feature distributions of the inputs and the training set. Furthermore, theoretical analysis shows that a symmetric feature space can be achieved by using the GM loss, which enables the models to perform robustly against adversarial attacks. The proposed model can be implemented easily and efficiently without using extra trainable parameters. Extensive evaluations demonstrate that the proposed method performs favorably not only on image classification but also on robust detection of adversarial examples generated by strong attacks under different threat models.
翻訳日:2022-09-24 04:23:08 公開日:2020-11-18
# 回転不変点雲解析のための深部位置・関係特徴学習

Deep Positional and Relational Feature Learning for Rotation-Invariant Point Cloud Analysis ( http://arxiv.org/abs/2011.09080v1 )

ライセンス: Link先を確認
Ruixuan Yu, Xin Wei, Federico Tombari, and Jian Sun(参考訳) 本稿では,点雲解析のための回転不変深層ネットワークを提案する。 ポイントベースディープネットワークは、点座標に基づいて概ね整列した3次元形状を認識するように設計されている。 ネットワークの入力としての点の距離や角度などの幾何的特徴は回転不変であるが、点の位置情報を失う。 本研究では,点の位置情報を入力として組み込んで回転不変性を付与し,点雲の深層ネットワークを提案する。 ネットワークは階層的であり、2つのモジュールに依存している: 位置特徴埋め込みブロックと関係特徴埋め込みブロックである。 モジュールとネットワーク全体は、入力として点雲を処理する際に回転不変であることが証明されている。 ベンチマークデータセットに最先端の分類とセグメンテーション性能を示す実験を行い,ネットワーク設計の有効性を示す。

In this paper we propose a rotation-invariant deep network for point clouds analysis. Point-based deep networks are commonly designed to recognize roughly aligned 3D shapes based on point coordinates, but suffer from performance drops with shape rotations. Some geometric features, e.g., distances and angles of points as inputs of network, are rotation-invariant but lose positional information of points. In this work, we propose a novel deep network for point clouds by incorporating positional information of points as inputs while yielding rotation-invariance. The network is hierarchical and relies on two modules: a positional feature embedding block and a relational feature embedding block. Both modules and the whole network are proven to be rotation-invariant when processing point clouds as input. Experiments show state-of-the-art classification and segmentation performances on benchmark datasets, and ablation studies demonstrate effectiveness of the network design.
翻訳日:2022-09-24 04:22:55 公開日:2020-11-18
# unsupervised vehicle re-identificationのためのビューポイントアウェアプログレッシブクラスタリング

Viewpoint-aware Progressive Clustering for Unsupervised Vehicle Re-identification ( http://arxiv.org/abs/2011.09099v1 )

ライセンス: Link先を確認
Aihua Zheng, Xia Sun, Chenglong Li, Jin Tang(参考訳) スマートシティにおける大規模インテリジェントモニタリングの重要性から,車両再識別(re-id)は活発な作業である。 近年の急速な進歩にもかかわらず、既存の手法のほとんどは、時間と労力の両方を消費し、実際のシナリオへの応用を制限する、監視された方法で車両のリidタスクを処理する。 近年,教師なしのRe-ID手法は,ドメイン適応やクラスタリングに基づく手法を探求することによって,優れた性能を実現している。 しかし、車両画像が異なる視点で大きな外観変化を示すため、これらの手法を直接Re-IDに一般化することはできない。 この問題に対処するために、教師なし車両Re-IDのための視点対応クラスタリングアルゴリズムを提案する。 特に、まず、予測された視点に従って特徴空間全体を異なる部分空間に分割し、次に、サンプル間の正確な関係をマイニングするためにプログレッシブクラスタリングを行う。 2つの多視点ベンチマークデータセット veri と veri-wild における最先端手法に対する包括的実験は、教師なし車両のリidを処理しながら、ドメイン適応シナリオで提案手法の有望性能を検証する。

Vehicle re-identification (Re-ID) is an active task due to its importance in large-scale intelligent monitoring in smart cities. Despite the rapid progress in recent years, most existing methods handle vehicle Re-ID task in a supervised manner, which is both time and labor-consuming and limits their application to real-life scenarios. Recently, unsupervised person Re-ID methods achieve impressive performance by exploring domain adaption or clustering-based techniques. However, one cannot directly generalize these methods to vehicle Re-ID since vehicle images present huge appearance variations in different viewpoints. To handle this problem, we propose a novel viewpoint-aware clustering algorithm for unsupervised vehicle Re-ID. In particular, we first divide the entire feature space into different subspaces according to the predicted viewpoints and then perform a progressive clustering to mine the accurate relationship among samples. Comprehensive experiments against the state-of-the-art methods on two multi-viewpoint benchmark datasets VeRi and VeRi-Wild validate the promising performance of the proposed method in both with and without domain adaption scenarios while handling unsupervised vehicle Re-ID.
翻訳日:2022-09-24 04:22:00 公開日:2020-11-18
# 表情合成のための局所受容野学習のためのマスク線形回帰

Masked Linear Regression for Learning Local Receptive Fields for Facial Expression Synthesis ( http://arxiv.org/abs/2011.09104v1 )

ライセンス: Link先を確認
Nazar Khan, Arbish Akram, Arif Mahmood, Sania Ashraf, Kashif Murtaza(参考訳) 表情認識と比較して、表情合成は非常に高次元のマッピングが必要である。 この問題は画像サイズの増加によって悪化し、既存の表現合成アプローチを比較的小さな画像に制限する。 顔の表情は, 疎に分布し, 局所的に相互に相関する変化を呈することが多い。 この観測を利用して、表現合成モデルにおけるパラメータの数を著しく削減することができる。 そこで本研究では,表情の局所的およびスパース構造を利用したリッジ回帰の制約付きバージョンを提案する。 我々はこのモデルを局所受容場を学ぶためのマスキング回帰と考える。 既存のアプローチとは対照的に,提案手法はより大きな画像サイズで効率的に訓練することができる。 3つの公開データセットを用いた実験により、我々のモデルは平均二乗誤差、視覚的品質、計算および空間的複雑さの点で、$\ell_0, \ell_1$および$\ell_2$-regression、SVDベースのアプローチ、カーネル化された回帰よりもはるかに優れていることが示された。 パラメータ数の削減により、より小さなデータセットでトレーニングした後でも、より一般化できる。 提案アルゴリズムは、Pix2Pix, CycleGAN, StarGAN, GANimationなどの最先端のGANと比較される。 これらのganは、テストとトレーニング分布が似ている限り、フォトリアリスティックな結果を生み出す。 対照的に,提案アルゴリズムは,データセット外の写真や鉛筆スケッチ,さらには動物の顔よりも大幅に一般化されている。

Compared to facial expression recognition, expression synthesis requires a very high-dimensional mapping. This problem exacerbates with increasing image sizes and limits existing expression synthesis approaches to relatively small images. We observe that facial expressions often constitute sparsely distributed and locally correlated changes from one expression to another. By exploiting this observation, the number of parameters in an expression synthesis model can be significantly reduced. Therefore, we propose a constrained version of ridge regression that exploits the local and sparse structure of facial expressions. We consider this model as masked regression for learning local receptive fields. In contrast to the existing approaches, our proposed model can be efficiently trained on larger image sizes. Experiments using three publicly available datasets demonstrate that our model is significantly better than $\ell_0, \ell_1$ and $\ell_2$-regression, SVD based approaches, and kernelized regression in terms of mean-squared-error, visual quality as well as computational and spatial complexities. The reduction in the number of parameters allows our method to generalize better even after training on smaller datasets. The proposed algorithm is also compared with state-of-the-art GANs including Pix2Pix, CycleGAN, StarGAN and GANimation. These GANs produce photo-realistic results as long as the testing and the training distributions are similar. In contrast, our results demonstrate significant generalization of the proposed algorithm over out-of-dataset human photographs, pencil sketches and even animal faces.
翻訳日:2022-09-24 04:21:43 公開日:2020-11-18
# 対数プロファイル:事前学習CNNにおける外分布・対数サンプルの検出

Adversarial Profiles: Detecting Out-Distribution & Adversarial Samples in Pre-trained CNNs ( http://arxiv.org/abs/2011.09123v1 )

ライセンス: Link先を確認
Arezoo Rajabi, Rakesh B. Bobba(参考訳) 畳み込みニューラルネットワーク(CNN)の精度が高いにもかかわらず、敵や外分布の例には弱い。 これらのばかげた例に対してCNNを検出または堅牢にする手法は多数提案されている。 しかし、そのような手法の多くは、ネットワークの再トレーニングや検出パラメータのチューニングのために、幅広い騙しの例にアクセスする必要がある。 本稿では,CNNの再訓練や,多種多様な不正な事例へのアクセスを必要とせずに,事前学習したCNNに対して,敵対的かつ非分配的な事例を検出する手法を提案する。 この目的のために,1つの攻撃生成手法のみを用いて,各クラスに対する攻撃プロファイルを作成する。 次に、事前に訓練されたCNNの周りに検出器をラップし、各入力に生成した逆プロファイルを適用し、出力を使用して入力が正当かどうかを決定する。 mnistデータセットを用いた本手法の初期評価では,少なくとも92例,59%の検出において,逆プロファイルに基づく検出が有効であることが示された。

Despite high accuracy of Convolutional Neural Networks (CNNs), they are vulnerable to adversarial and out-distribution examples. There are many proposed methods that tend to detect or make CNNs robust against these fooling examples. However, most such methods need access to a wide range of fooling examples to retrain the network or to tune detection parameters. Here, we propose a method to detect adversarial and out-distribution examples against a pre-trained CNN without needing to retrain the CNN or needing access to a wide variety of fooling examples. To this end, we create adversarial profiles for each class using only one adversarial attack generation technique. We then wrap a detector around the pre-trained CNN that applies the created adversarial profile to each input and uses the output to decide whether or not the input is legitimate. Our initial evaluation of this approach using MNIST dataset show that adversarial profile based detection is effective in detecting at least 92 of out-distribution examples and 59% of adversarial examples.
翻訳日:2022-09-24 04:21:01 公開日:2020-11-18
# deepnag: 深い非敵のジェスチャー生成

DeepNAG: Deep Non-Adversarial Gesture Generation ( http://arxiv.org/abs/2011.09149v1 )

ライセンス: Link先を確認
Mehran Maghoumi, Eugene M. Taranta II, Joseph J. LaViola Jr(参考訳) 分類性能を改善するための合成データ生成(データ拡張)はよく研究されている問題である。 近年,gan (generative adversarial networks) は画像データ拡張性能が優れているが,ジェスチャ合成に適さないことが注目されている。 さらにganは、同時生成器と判別器ネットワークのトレーニングを禁止する。 この作業では両方の問題に取り組みます。 我々はまず,DeepGANと呼ばれるジェスチャー合成のための新しいデバイスに依存しないGANモデルについて論じる。 その後、動的時間ワープと平均ハウスドルフ距離に基づく新たな微分損失関数を導入してDeepNAGを定式化し、識別器を必要とせずにDeepGANの発電機を訓練する。 評価を通じて、DeepGANとDeepNAGの有用性を、6つのデータセットでデータ拡張を使用して5つの認識器を訓練する2つの代替手法と比較する。 さらに,HyPEベンチマークに基づくAmazon Mechanical Turkユーザスタディを用いて,合成サンプルの知覚品質について検討した。 DeepNAGはDeepGANの精度、トレーニング時間(最大17倍高速)、リアリズムに優れており、ジェネレータネットワークの設計とジェスチャ合成のためのトレーニングにおける新たな研究への扉を開く。 ソースコードはhttps://www.deepnag.comで閲覧できます。

Synthetic data generation to improve classification performance (data augmentation) is a well-studied problem. Recently, generative adversarial networks (GAN) have shown superior image data augmentation performance, but their suitability in gesture synthesis has received inadequate attention. Further, GANs prohibitively require simultaneous generator and discriminator network training. We tackle both issues in this work. We first discuss a novel, device-agnostic GAN model for gesture synthesis called DeepGAN. Thereafter, we formulate DeepNAG by introducing a new differentiable loss function based on dynamic time warping and the average Hausdorff distance, which allows us to train DeepGAN's generator without requiring a discriminator. Through evaluations, we compare the utility of DeepGAN and DeepNAG against two alternative techniques for training five recognizers using data augmentation over six datasets. We further investigate the perceived quality of synthesized samples via an Amazon Mechanical Turk user study based on the HYPE benchmark. We find that DeepNAG outperforms DeepGAN in accuracy, training time (up to 17x faster), and realism, thereby opening the door to a new line of research in generator network design and training for gesture synthesis. Our source code is available at https://www.deepnag.com.
翻訳日:2022-09-24 04:20:16 公開日:2020-11-18
# ジェネリックオントロジーデザインパターン:時間的役割と変化

Generic Ontology Design Patterns: Roles and Change over Time ( http://arxiv.org/abs/2011.09353v1 )

ライセンス: Link先を確認
Bernd Krieg-Br\"uckner and Till Mossakowski and Mihai Codescu(参考訳) この章では、オントロジデザインパターンを適応可能な方法で表現し、インスタンス化する方法論として、汎用オントロジデザインパターンであるgodpsを提案し、ドメインの専門家(および他のユーザ)がオントロジを散らかすことなく安全に利用できるようにする。

In this chapter we propose Generic Ontology Design Patterns, GODPs, as a methodology for representing and instantiating ontology design patterns in a way that is adaptable, and allows domain experts (and other users) to safely use them without cluttering their ontologies.
翻訳日:2022-09-24 04:13:56 公開日:2020-11-18
# 独立した学習は、starcraftのマルチエージェントチャレンジで必要か?

Is Independent Learning All You Need in the StarCraft Multi-Agent Challenge? ( http://arxiv.org/abs/2011.09533v1 )

ライセンス: Link先を確認
Christian Schroeder de Witt, Tarun Gupta, Denys Makoviichuk, Viktor Makoviychuk, Philip H.S. Torr, Mingfei Sun, Shimon Whiteson(参考訳) 近年のemph{centralized training with decentralized execution}セッティングにおける協調型マルチエージェント強化学習へのアプローチは、集中型結合値関数を推定する。 本稿では,各エージェントが局所値関数を単純に推定する独立学習形式である独立学習(IPPO)が,理論上の欠点があるにもかかわらず,従来のマルチエージェントベンチマークスイートであるSMACにおいて,ハイパーパラメータチューニングの少ない,最先端のジョイントラーニングアプローチと同等以上の性能を発揮することを示す。 我々はIPPOをいくつかの変種と比較した。その結果、IPPOの強い性能は、ある種の環境非定常性に対する堅牢性に起因する可能性がある。

Most recently developed approaches to cooperative multi-agent reinforcement learning in the \emph{centralized training with decentralized execution} setting involve estimating a centralized, joint value function. In this paper, we demonstrate that, despite its various theoretical shortcomings, Independent PPO (IPPO), a form of independent learning in which each agent simply estimates its local value function, can perform just as well as or better than state-of-the-art joint learning approaches on popular multi-agent benchmark suite SMAC with little hyperparameter tuning. We also compare IPPO to several variants; the results suggest that IPPO's strong performance may be due to its robustness to some forms of environment non-stationarity.
翻訳日:2022-09-24 04:13:48 公開日:2020-11-18
# 産業におけるセマンティックCPPS 4.0

Semantic CPPS in Industry 4.0 ( http://arxiv.org/abs/2011.11395v1 )

ライセンス: Link先を確認
Giuseppe Fenza and Mariacristina Gallo and Vincenzo Loia and Domenico Marinoand Francesco Orciuoli and Alberto Volpe(参考訳) サイバー物理システム(cps)は、第4次産業革命の時代に重要な役割を果たしている。 近年,産業生産へのcpsの適用は,それらをサイバーフィジカル生産システム(cpps)と呼ぶ専門化に繋がる。 cpsとcppsは相互運用性の問題に対処できるはずだ、なぜなら彼らの本質的な要件の1つは、他のシステムとのインタフェースと協調能力である。 一方、Industry 4.0のビジョンを完全に実現するためには、水平、垂直、エンドツーエンドの統合に対処し、サプライチェーン全体の完全な認識を可能にする必要がある。 この文脈では、セマンティックウェブ標準と技術は、異種産業資産間の通信を可能にする機械解釈可能な方法で製造知識を表現するための有望な役割を担っている。 本稿では, スマートな製造環境において, セマンティックなデータストリームの収集と処理を主目的としたa5Cアーキテクチャを実現するためのセマンティックなWebモデルの統合を提案する。 重要な産業オントロジーとセマンティック技術の分析により、総合的有効性(OEE)を監視するための事例シナリオをインスタンス化できます。 このソリューションは意味データストリームを表現するためにSOSAオントロジーを使用する。 次に、C-SPARQLクエリを定義し、提案した目的に対処するための有用なKPIを定期的に実行する。

Cyber-Physical Systems (CPS) play a crucial role in the era of the 4thIndustrial Revolution. Recently, the application of the CPS to industrial manufacturing leads to a specialization of them referred as Cyber-Physical Production Systems (CPPS). Among other challenges, CPS and CPPS should be able to address interoperability issues, since one of their intrinsic requirement is the capability to interface and cooperate with other systems. On the other hand, to fully realize theIndustry 4.0 vision, it is required to address horizontal, vertical, and end-to-end integration enabling a complete awareness through the entire supply chain. In this context, Semantic Web standards and technologies may have a promising role to represent manufacturing knowledge in a machine-interpretable way for enabling communications among heterogeneous Industrial assets. This paper proposes an integration of Semantic Web models available at state of the art for implementing a5C architecture mainly targeted to collect and process semantic data stream in a way that would unlock the potentiality of data yield in a smart manufacturing environment. The analysis of key industrial ontologies and semantic technologies allows us to instantiate an example scenario for monitoring Overall Equipment Effectiveness(OEE). The solution uses the SOSA ontology for representing the semantic datastream. Then, C-SPARQL queries are defined for periodically carrying out useful KPIs to address the proposed aim.
翻訳日:2022-09-24 04:13:08 公開日:2020-11-18
# adcpnet:リアルタイムステレオマッチングのための適応的不一致候補予測ネットワーク

ADCPNet: Adaptive Disparity Candidates Prediction Network for Efficient Real-Time Stereo Matching ( http://arxiv.org/abs/2011.09023v1 )

ライセンス: Link先を確認
He Dai, Xuchong Zhang, Yongli Zhao, Hongbin Sun(参考訳) 様々な領域におけるステレオビジョンシステムの適用には,効率的な実時間不等式推定が不可欠である。 近年,大規模ネットワークモデルのメモリ制約や速度制限を大幅に緩和した。 それにもかかわらず、以前の粗大な設計は全て一定オフセットと3段階以上のステージを使用して、粗大な格差マップを徐々に洗練し、モバイル機器に展開する際の計算精度と推論時間が不満足な結果となった。 本稿では,より正確な不一致候補が得られさえすれば,粗一致誤差を少ない段数で効率的に補正できることを示す。 そこで,多様な対象の異なる補正要件を満たす動的オフセット予測モジュールを提案し,効率的な2段階フレームワークを設計する。 また, コンパクトコストボリュームの局所的な統計特性と整合性が高いため, 性能をさらに向上するための不一致非依存畳み込みを提案する。 複数のデータセットやプラットフォームに対する評価結果から,提案するネットワークは,特にモバイルデバイスにおいて,精度と速度の面で,最先端の軽量モデルよりも優れていることが示された。 コードは利用可能になる。

Efficient real-time disparity estimation is critical for the application of stereo vision systems in various areas. Recently, stereo network based on coarse-to-fine method has largely relieved the memory constraints and speed limitations of large-scale network models. Nevertheless, all of the previous coarse-to-fine designs employ constant offsets and three or more stages to progressively refine the coarse disparity map, still resulting in unsatisfactory computation accuracy and inference time when deployed on mobile devices. This paper claims that the coarse matching errors can be corrected efficiently with fewer stages as long as more accurate disparity candidates can be provided. Therefore, we propose a dynamic offset prediction module to meet different correction requirements of diverse objects and design an efficient two-stage framework. Besides, we propose a disparity-independent convolution to further improve the performance since it is more consistent with the local statistical characteristics of the compact cost volume. The evaluation results on multiple datasets and platforms clearly demonstrate that, the proposed network outperforms the state-of-the-art lightweight models especially for mobile devices in terms of accuracy and speed. Code will be made available.
翻訳日:2022-09-24 04:12:37 公開日:2020-11-18
# WMT20のためのUbiqus English-Inuktitut System

The Ubiqus English-Inuktitut System for WMT20 ( http://arxiv.org/abs/2011.09249v1 )

ライセンス: Link先を確認
Fran\c{c}ois Hernandez and Vincent Nguyen(参考訳) 本稿では,UbiqusによるWMT20英語-イヌクティトゥット共用ニュース翻訳タスクについて述べる。 私たちのメインシステムは,多言語アプローチに基づいて,複数の凝集言語でトランスフォーマーモデルを共同トレーニングしています。 イングリッシュ・イヌクティトゥット翻訳タスクは、データ選択、準備、トークン化から品質評価まで、あらゆるステップにおいて困難である。 難易度は、イヌクティトゥット語の特徴と低リソースの文脈の両方から生じる。

This paper describes Ubiqus' submission to the WMT20 English-Inuktitut shared news translation task. Our main system, and only submission, is based on a multilingual approach, jointly training a Transformer model on several agglutinative languages. The English-Inuktitut translation task is challenging at every step, from data selection, preparation and tokenization to quality evaluation down the line. Difficulties emerge both because of the peculiarities of the Inuktitut language as well as the low-resource context.
翻訳日:2022-09-24 04:04:42 公開日:2020-11-18
# master thesis: トークン化学習によるニューラル手話翻訳

Master Thesis: Neural Sign Language Translation by Learning Tokenization ( http://arxiv.org/abs/2011.09289v1 )

ライセンス: Link先を確認
Alptekin Orbay(参考訳) 本稿では,トークン化層とニューラル機械翻訳(NMT)の2つの部分からなるニューラル手話翻訳(NSLT)を改善するためのマルチタスク学習手法を提案する。 トークン化のパートでは、手話(SL)ビデオを他の部分に送出する方法に重点を置いている。 nmt研究はいくつかの研究者を惹きつけ、大きな進歩に貢献した。 これまでの入力トークン化には、フレームレベルとグロスレベルの2つの主要なレベルがある。 グロースはワールドライクな中間的なプレゼンテーションであり、SL特有のものだ。 そこで我々は,他のドメインに適用可能な汎用的なサインレベルトークン化層を開発することを目的としている。 いくつかの実験で現在のトークン化アプローチを調査し、その弱点を説明することから始める。 提案手法では,トランスファー学習,マルチタスク学習,非教師なしドメイン適応を本研究に導入し,さらなる監督を行う。 我々は,SL間の知識伝達を実現し,BLEU-4では5ポイント,ROUGEスコアでは8ポイントの翻訳品質を向上させることに成功した。 第2に,全トークン化アプローチにおける広範囲な実験により,身体部位の効果を示す。 これらとは別に、時間と空間の観点から効率を改善するために3d-cnnを採用しています。 最後に、光度レベルトークン化よりも符号レベルトークン化の利点について論じる。 そこで本提案手法では,弱監督源を活用することで,より高いスコアを得るための光沢レベルアノテーションの必要性を解消する。

In this thesis, we propose a multitask learning based method to improve Neural Sign Language Translation (NSLT) consisting of two parts, a tokenization layer and Neural Machine Translation (NMT). The tokenization part focuses on how Sign Language (SL) videos should be represented to be fed into the other part. It has not been studied elaborately whereas NMT research has attracted several researchers contributing enormous advancements. Up to now, there are two main input tokenization levels, namely frame-level and gloss-level tokenization. Glosses are world-like intermediate presentation and unique to SLs. Therefore, we aim to develop a generic sign-level tokenization layer so that it is applicable to other domains without further effort. We begin with investigating current tokenization approaches and explain their weaknesses with several experiments. To provide a solution, we adapt Transfer Learning, Multitask Learning and Unsupervised Domain Adaptation into this research to leverage additional supervision. We succeed in enabling knowledge transfer between SLs and improve translation quality by 5 points in BLEU-4 and 8 points in ROUGE scores. Secondly, we show the effects of body parts by extensive experiments in all the tokenization approaches. Apart from these, we adopt 3D-CNNs to improve efficiency in terms of time and space. Lastly, we discuss the advantages of sign-level tokenization over gloss-level tokenization. To sum up, our proposed method eliminates the need for gloss level annotation to obtain higher scores by providing additional supervision by utilizing weak supervision sources.
翻訳日:2022-09-24 04:04:34 公開日:2020-11-18
# lava: 対話政策最適化のための変分オートエンコーディングによる潜在アクションスペース

LAVA: Latent Action Spaces via Variational Auto-encoding for Dialogue Policy Optimization ( http://arxiv.org/abs/2011.09378v1 )

ライセンス: Link先を確認
Nurul Lubis, Christian Geishauser, Michael Heck, Hsien-chin Lin, Marco Moresi, Carel van Niekerk and Milica Ga\v{s}i\'c(参考訳) 強化学習(rl)により、タスク指向の対話システムがタスク完了に向けて会話を操ることができる。 エンドツーエンド設定では、システム語彙全体をアクション空間として単語レベルの逐次決定プロセスで応答を構築することができる。 このような方法で訓練されたポリシーは、専門家が定義したアクション空間を必要としないが、大きなアクション空間と長い軌跡を扱う必要があり、RLは実用的ではない。 変分モデルの潜在空間を作用空間として使うことはこの問題を緩和する。 しかし、現在のアプローチではトレーニングにインフォームド事前を使用し、コンテキストのみに基づいて潜伏分布を最適化している。 したがって、潜在表現が真に異なる行動の特徴を符号化するかどうかは不明である。 本稿では,予備学習,事前学習,インフォームド事前学習,マルチタスク学習という,潜在変数分布を形成する補助タスクを活用する3つの方法について検討する。 補助タスクとして応答自動エンコーディングを選択し、計算コストを低くし、付加データもラベルも必要とせず、対話応答の生成要因をキャプチャする。 我々の手法は、エンドツーエンドの対話ポリシー最適化をサポートし、最先端の成功率を達成する、よりアクション特性の潜在表現をもたらす。 これらの結果は、エンド・ツー・エンドの対話モデルにおけるRLの広範使用を保証している。

Reinforcement learning (RL) can enable task-oriented dialogue systems to steer the conversation towards successful task completion. In an end-to-end setting, a response can be constructed in a word-level sequential decision making process with the entire system vocabulary as action space. Policies trained in such a fashion do not require expert-defined action spaces, but they have to deal with large action spaces and long trajectories, making RL impractical. Using the latent space of a variational model as action space alleviates this problem. However, current approaches use an uninformed prior for training and optimize the latent distribution solely on the context. It is therefore unclear whether the latent representation truly encodes the characteristics of different actions. In this paper, we explore three ways of leveraging an auxiliary task to shape the latent variable distribution: via pre-training, to obtain an informed prior, and via multitask learning. We choose response auto-encoding as the auxiliary task, as this captures the generative factors of dialogue responses while requiring low computational cost and neither additional data nor labels. Our approach yields a more action-characterized latent representations which support end-to-end dialogue policy optimization and achieves state-of-the-art success rates. These results warrant a more wide-spread use of RL in end-to-end dialogue models.
翻訳日:2022-09-24 04:04:11 公開日:2020-11-18
# 対話状態追跡モデルのタスク外訓練

Out-of-Task Training for Dialog State Tracking Models ( http://arxiv.org/abs/2011.09379v1 )

ライセンス: Link先を確認
Michael Heck, Carel van Niekerk, Nurul Lubis, Christian Geishauser, Hsien-Chin Lin, Marco Moresi, Milica Ga\v{s}i\'c(参考訳) ダイアログ状態追跡(DST)は重度のデータ間隔に悩まされる。 多くの自然言語処理(NLP)タスクは転送学習やマルチタスク学習の恩恵を受けるが、ダイアログではこれらの手法は利用可能なデータ量や対話アプリケーションの特異性によって制限される。 本研究では,関係のないnlpタスクからの非ダイアログデータを,ダイアログ状態トラッカのトレーニングに有効活用する。 これにより、DST固有のデータ空間の問題を軽減するために、無関係なNLPコーパスの多さへの扉を開く。

Dialog state tracking (DST) suffers from severe data sparsity. While many natural language processing (NLP) tasks benefit from transfer learning and multi-task learning, in dialog these methods are limited by the amount of available data and by the specificity of dialog applications. In this work, we successfully utilize non-dialog data from unrelated NLP tasks to train dialog state trackers. This opens the door to the abundance of unrelated NLP corpora to mitigate the data sparsity issue inherent to DST.
翻訳日:2022-09-24 04:03:50 公開日:2020-11-18
# 単語埋め込みのトポロジー:特異性はポリセミーを反映している

Topology of Word Embeddings: Singularities Reflect Polysemy ( http://arxiv.org/abs/2011.09413v1 )

ライセンス: Link先を確認
Alexander Jakubowski, Milica Ga\v{s}i\'c, Marcus Zibrowius(参考訳) 多様体仮説は、単語ベクトルが周囲のベクトル空間内の部分多様体上に存在することを示唆する。 我々は、より正確には、それらの点のいくつかを同定して得られる多様体の特異商であるピンテッド多様体上に存在することを期待すべきであると主張する。 識別された特異点は多義語、すなわち複数の意味を持つ単語に対応する。 我々の見解は、単元語と多元語は近隣のトポロジーに基づいて区別できることを示唆している。 1) 単語の意味の実際の数と相関する永続的ホモロジーに基づくトポロジカルな多意味性尺度を導入する。 2)SemEval-2010における単語センス誘導・曖昧化問題に対する単純なトポロジ的動機付けの解法を提案する。

The manifold hypothesis suggests that word vectors live on a submanifold within their ambient vector space. We argue that we should, more accurately, expect them to live on a pinched manifold: a singular quotient of a manifold obtained by identifying some of its points. The identified, singular points correspond to polysemous words, i.e. words with multiple meanings. Our point of view suggests that monosemous and polysemous words can be distinguished based on the topology of their neighbourhoods. We present two kinds of empirical evidence to support this point of view: (1) We introduce a topological measure of polysemy based on persistent homology that correlates well with the actual number of meanings of a word. (2) We propose a simple, topologically motivated solution to the SemEval-2010 task on Word Sense Induction & Disambiguation that produces competitive results.
翻訳日:2022-09-24 04:03:40 公開日:2020-11-18
# 言語モデルを用いたスペイン語詩の韻律パターンの予測

Predicting metrical patterns in Spanish poetry with language models ( http://arxiv.org/abs/2011.09567v1 )

ライセンス: Link先を確認
Javier de la Rosa, Salvador Ros, Elena Gonz\'alez-Blanco(参考訳) 本稿では,スペインで使用可能な自動メトリックパターン識別システムと,同じタスクで訓練された言語モデルの微調整による広範囲な実験を比較した。 当初セマンティックなタスクに適したモデルとして考えられたが、この結果から、BERTベースのモデルはスペイン語スキャンに十分な構造情報を保持することが示唆された。

In this paper, we compare automated metrical pattern identification systems available for Spanish against extensive experiments done by fine-tuning language models trained on the same task. Despite being initially conceived as a model suitable for semantic tasks, our results suggest that BERT-based models retain enough structural information to perform reasonably well for Spanish scansion.
翻訳日:2022-09-24 04:03:01 公開日:2020-11-18
# オントロジーに基づくユーザ中心自動テキスト要約(OATS) : 新型コロナウイルスリスクファクターを例として

Ontology-based and User-focused Automatic Text Summarization (OATS): Using COVID-19 Risk Factors as an Example ( http://arxiv.org/abs/2012.02028v1 )

ライセンス: Link先を確認
Po-Hsu Allen Chen, Amy Leibrand, Jordan Vasko, Mitch Gauthier(参考訳) 本稿では,ユーザの焦点に合わせた情報を含む文を抽出することにより,非構造化テキストからテキスト要約を自動生成する,新しいオントロジーに基づくユーザ中心自動テキスト要約(OATS)システムを提案する。 oatsは、オントロジーベースのトピック識別とユーザ中心のテキスト要約の2つのモジュールで構成されており、まず、関連するドキュメントをユーザーの興味に合わせて識別するためにオントロジーベースのアプローチを使用し、その後、質問応答モデルから抽出された回答を、テキスト要約の生成のためにユーザから指定された質問を用いて活用する。 新型コロナウイルス(covid-19)パンデミック(covid-19)との闘いを支援するため,医療コミュニティが関連する科学文献を正確に特定し,covid-19に関連するリスクファクターを効果的に検証するために,covid-19リスクファクターを例に用いた。

This paper proposes a novel Ontology-based and user-focused Automatic Text Summarization (OATS) system, in the setting where the goal is to automatically generate text summarization from unstructured text by extracting sentences containing the information that aligns to the user's focus. OATS consists of two modules: ontology-based topic identification and user-focused text summarization; it first utilizes an ontology-based approach to identify relevant documents to user's interest, and then takes advantage of the answers extracted from a question answering model using questions specified from users for the generation of text summarization. To support the fight against the COVID-19 pandemic, we used COVID-19 risk factors as an example to demonstrate the proposed OATS system with the aim of helping the medical community accurately identify relevant scientific literature and efficiently review the information that addresses risk factors related to COVID-19.
翻訳日:2022-09-24 04:02:54 公開日:2020-11-18
# スパイクニューラルネットワークにおける時間的特徴抽出のための生物解析不可能な遅延学習

Bio-plausible Unsupervised Delay Learning for Extracting Temporal Features in Spiking Neural Networks ( http://arxiv.org/abs/2011.09380v1 )

ライセンス: Link先を確認
Alireza Nadafian, Mohammad Ganjtabesh(参考訳) ニューロン間の伝導遅延の可塑性は学習において重要な役割を果たす。 しかし、この変調のための脳の正確なメカニズムはまだ未解決の問題である。 シナプス遅延の正確な調整を理解することは、効果的な脳にインスパイアされた計算モデルの開発に役立つ。 本稿では,スパイクニューラルネットワークのシナプス遅延を調節するための教師なしの生物学的に妥当な学習規則を提案する。 そこで我々は,学習規則がニューロンに時相パターンを繰り返し学習する能力を与えることを示す数学的証明を行った。 さらに,提案する遅延学習規則をランダムドットキネマトグラムに適用したstdpベースのスパイキングニューラルネットワークを用いた実験結果から,時間的特徴抽出における遅延学習規則の有効性が示唆された。

The plasticity of the conduction delay between neurons plays a fundamental role in learning. However, the exact underlying mechanisms in the brain for this modulation is still an open problem. Understanding the precise adjustment of synaptic delays could help us in developing effective brain-inspired computational models in providing aligned insights with the experimental evidence. In this paper, we propose an unsupervised biologically plausible learning rule for adjusting the synaptic delays in spiking neural networks. Then, we provided some mathematical proofs to show that our learning rule gives a neuron the ability to learn repeating spatio-temporal patterns. Furthermore, the experimental results of applying an STDP-based spiking neural network equipped with our proposed delay learning rule on Random Dot Kinematogram indicate the efficacy of the proposed delay learning rule in extracting temporal features.
翻訳日:2022-09-24 04:02:34 公開日:2020-11-18
# CNNとSVMを用いた舌の色とリントの特徴に基づく胃癌の検出精度を高める方法の提案

Proposing method to Increase the detection accuracy of stomach cancer based on colour and lint features of tongue using CNN and SVM ( http://arxiv.org/abs/2011.09962v1 )

ライセンス: Link先を確認
Elham Gholami, Seyed Reza Kamel Tabbakh, Maryam Kheirabadi(参考訳) 現在、胃癌は多くの人の生活に影響を及ぼす病気の1つである。 早期発見と精度は、この種のがんを見つける上で主要な、そして重要な課題である。 本稿では,ディープ畳み込みニューラルネットワークとサポートベクターマシンを用いて,lintを用いた癌診断の精度を向上させる手法と舌の色特徴について述べる。 提案手法では,まず,深度RCNN} \color{black} Recursive Convolutional Neural Network (R-CNN) \color{black} を用いて,顔画像から舌領域を分離する。 必要な前処理後、畳み込みニューラルネットワークへの画像が提供され、トレーニングおよびテスト操作が起動される。 以上の結果から, 提案法は舌の面積だけでなく, 非患者からの患者も正確に識別できることがわかった。 実験によれば、密度ネットネットワークは他のディープアーキテクチャよりも高い精度を持つ。 実験の結果, 胃癌検出のためのネットワークの精度は91%に達し, 最先端の手法と比較して, 方法の優位性を示した。

Today, gastric cancer is one of the diseases which affected many people's life. Early detection and accuracy are the main and crucial challenges in finding this kind of cancer. In this paper, a method to increase the accuracy of the diagnosis of detecting cancer using lint and colour features of tongue based on deep convolutional neural networks and support vector machine is proposed. In the proposed method, the region of tongue is first separated from the face image by {deep RCNN} \color{black} Recursive Convolutional Neural Network (R-CNN) \color{black}. After the necessary preprocessing, the images to the convolutional neural network are provided and the training and test operations are triggered. The results show that the proposed method is correctly able to identify the area of the tongue as well as the patient's person from the non-patient. Based on experiments, the DenseNet network has the highest accuracy compared to other deep architectures. The experimental results show that the accuracy of this network for gastric cancer detection reaches 91% which shows the superiority of method in comparison to the state-of-the-art methods.
翻訳日:2022-09-24 04:02:20 公開日:2020-11-18
# RSINet: オンラインビジュアルトラッキングのための回転スケール不変ネットワーク

RSINet: Rotation-Scale Invariant Network for Online Visual Tracking ( http://arxiv.org/abs/2011.09153v1 )

ライセンス: Link先を確認
Yang Fang, Geun-Sik Jo and Chang-Hee Lee(参考訳) 多くのシームズネットワークベースのトラッカーは、モデル更新なしで追跡処理を行い、ターゲット固有の変動を適応的に学習することができない。 さらに、シアーム系トラッカーは、余分な背景ノイズを含む軸配置境界ボックスを生成し、移動物体の回転とスケール変換を正確に推定できず、追跡性能を低下させる可能性がある。 本稿では,上記の問題に対処するための新しい回転スケール不変ネットワーク(rsinet)を提案する。 我々のRSINetトラッカーは、ターゲット・ディトラクタ識別部とローテーション・スケール推定部から構成されており、ローテーションとスケールの知識はエンドツーエンドでマルチタスク学習法によって明示的に学習することができる。 追加では、追跡モデルを適応的に最適化し、時空間エネルギー制御の下で更新することにより、モデルの安定性と信頼性を保証し、トラッキング効率を向上する。 OTB-100, VOT2018, LaSOTベンチマークの総合的な実験により,提案したRSINetトラッカーは,45FPS程度のリアルタイム速度で動作しながら,最近のトラッカーと比較して新しい最先端性能が得られることを示した。

Most Siamese network-based trackers perform the tracking process without model update, and cannot learn targetspecific variation adaptively. Moreover, Siamese-based trackers infer the new state of tracked objects by generating axis-aligned bounding boxes, which contain extra background noise, and are unable to accurately estimate the rotation and scale transformation of moving objects, thus potentially reducing tracking performance. In this paper, we propose a novel Rotation-Scale Invariant Network (RSINet) to address the above problem. Our RSINet tracker consists of a target-distractor discrimination branch and a rotation-scale estimation branch, the rotation and scale knowledge can be explicitly learned by a multi-task learning method in an end-to-end manner. In addtion, the tracking model is adaptively optimized and updated under spatio-temporal energy control, which ensures model stability and reliability, as well as high tracking efficiency. Comprehensive experiments on OTB-100, VOT2018, and LaSOT benchmarks demonstrate that our proposed RSINet tracker yields new state-of-the-art performance compared with recent trackers, while running at real-time speed about 45 FPS.
翻訳日:2022-09-24 03:56:00 公開日:2020-11-18
# 時空間ニューラルネットワークと動的視覚センサを用いた高速動作理解

Fast Motion Understanding with Spatiotemporal Neural Networks and Dynamic Vision Sensors ( http://arxiv.org/abs/2011.09427v1 )

ライセンス: Link先を確認
Anthony Bisulco, Fernando Cladera Ojeda, Volkan Isler, Daniel D. Lee(参考訳) 本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。 代表的なシナリオとして,休息中のロボットが15m/s以上の速さで接近する物体に反応するケースを考察する。 一般的なフレームレートのイメージセンサは、そのような物体を数フレームしか観測しないため、基礎となる動きの推定は、標準的なコンピュータビジョンシステムやアルゴリズムにとって大きな課題となる。 本稿では,昆虫などの動物が比較的単純な視覚システムでこの問題を解決する方法を提案する。 我々のソリューションは、DVSからイベントストリームを取得し、まず複数の時間スケールにわたる因果指数フィルタで時間イベントを符号化する。 これらのフィルタを畳み込みニューラルネットワーク(cnn)と組み合わせることで,時空間的特徴を効率的に抽出する。 複合ネットワークは、予測された物体の衝突時間と予測された衝突点の両方を離散極線上に出力することを学習する。 これらの臨界推定は、入ってくるオブジェクトに適切に反応するために、ネットワークによって最小限の遅延で計算される。 我々は,24.73{\deg} 誤差を${\theta}$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で23.4m/sで動くおもちゃのダートに対して,我々のシステムの結果を強調した。

This paper presents a Dynamic Vision Sensor (DVS) based system for reasoning about high speed motion. As a representative scenario, we consider the case of a robot at rest reacting to a small, fast approaching object at speeds higher than 15m/s. Since conventional image sensors at typical frame rates observe such an object for only a few frames, estimating the underlying motion presents a considerable challenge for standard computer vision systems and algorithms. In this paper we present a method motivated by how animals such as insects solve this problem with their relatively simple vision systems. Our solution takes the event stream from a DVS and first encodes the temporal events with a set of causal exponential filters across multiple time scales. We couple these filters with a Convolutional Neural Network (CNN) to efficiently extract relevant spatiotemporal features. The combined network learns to output both the expected time to collision of the object, as well as the predicted collision point on a discretized polar grid. These critical estimates are computed with minimal delay by the network in order to react appropriately to the incoming object. We highlight the results of our system to a toy dart moving at 23.4m/s with a 24.73{\deg} error in ${\theta}$, 18.4mm average discretized radius prediction error, and 25.03% median time to collision prediction error.
翻訳日:2022-09-24 03:55:37 公開日:2020-11-18
# 一次パラメータに基づくフィルタ付き連結車両のサイクル・サイクル待ち時間推定

Cycle-to-Cycle Queue Length Estimation from Connected Vehicles with Filtering on Primary Parameters ( http://arxiv.org/abs/2011.09370v1 )

ライセンス: Link先を確認
Gurcan Comert, Negash Begashaw(参考訳) 連結車両からの推定モデルは、しばしば到着率や市場浸透率などの低レベルパラメータを既知のように仮定し、リアルタイムで推定する。 低市場浸透率では、そのようなパラメータ推定器は大きなエラーを発生させ、推定キュー長は制御や操作のアプリケーションでは非効率になる。 低レベルパラメータ推定の精度を向上させるために,連結車両情報フィルタリングが待ち行列長推定モデルに与える影響を検討する。 フィルタはマルチレベルリアルタイム推定器として使用される。 マイクロシミュレーションを用いて、既知の到着率と市場浸透率シナリオに対する精度をテストする。 短期的または動的プロセスの有効性を理解するため、到着率と市場浸透率を15分毎に変更する。 その結果, パラメータ推定器は, カルマンフィルタとパーティクルフィルタを用いて15分以内に真の値を見つけ, 特に市場浸透率の低いパラメータシナリオの精度を達成し, 達成できることがわかった。 また、連結車両が存在しない場合の待ち行列長は、平均推定値の入力よりも優れている。 さらに,2つのフィルタリングアルゴリズムは,0.1秒未満の計算時間を必要とするリアルタイムアプリケーションに適していることを示した。

Estimation models from connected vehicles often assume low level parameters such as arrival rates and market penetration rates as known or estimate them in real-time. At low market penetration rates, such parameter estimators produce large errors making estimated queue lengths inefficient for control or operations applications. In order to improve accuracy of low level parameter estimations, this study investigates the impact of connected vehicles information filtering on queue length estimation models. Filters are used as multilevel real-time estimators. Accuracy is tested against known arrival rate and market penetration rate scenarios using microsimulations. To understand the effectiveness for short-term or for dynamic processes, arrival rates, and market penetration rates are changed every 15 minutes. The results show that with Kalman and Particle filters, parameter estimators are able to find the true values within 15 minutes and meet and surpass the accuracy of known parameter scenarios especially for low market penetration rates. In addition, using last known estimated queue lengths when no connected vehicle is present performs better than inputting average estimated values. Moreover, the study shows that both filtering algorithms are suitable for real-time applications that require less than 0.1 second computational time.
翻訳日:2022-09-24 03:55:15 公開日:2020-11-18
# 高分解能3D LGE CMRのための物理誘導型ディープラーニング再構成

Self-Supervised Physics-Guided Deep Learning Reconstruction For High-Resolution 3D LGE CMR ( http://arxiv.org/abs/2011.09414v1 )

ライセンス: Link先を確認
Burhaneddin Yaman, Chetan Shenoy, Zilin Deng, Steen Moeller, Hossam El-Rewaidy, Reza Nezafat, and Mehmet Ak\c{c}akaya(参考訳) 心筋病変の診断基準としては,後期ガドリニウム増強(LGE)心筋MRI(CMR)が有用である。 3D等方性LGE CMRは2Dイメージングと比較してカバレッジと解像度が改善されている。 しかし、長いスキャン時間とコントラストウォッシュアウトのため、画像のアクセラレーションが必要となる。 物理誘導型ディープラーニング(PG-DL)アプローチは近年,MRIの高速化戦略として注目されている。 PG-DL法のトレーニングは通常、3D LGE CMRでは困難である完全サンプリングされたデータを参照して実施される。 近年,完全サンプルデータなしでPG-DL技術を訓練するための自己教師付き学習手法が提案されている。 本研究では,この自己教師あり学習アプローチを3dイメージングに拡張するとともに,3dボリュームの小さなトレーニングデータベースサイズに関する課題に取り組む。 その結果,6倍加速に対する提案手法は3倍加速における圧縮センシング手法よりも優れていることがわかった。

Late gadolinium enhancement (LGE) cardiac MRI (CMR) is the clinical standard for diagnosis of myocardial scar. 3D isotropic LGE CMR provides improved coverage and resolution compared to 2D imaging. However, image acceleration is required due to long scan times and contrast washout. Physics-guided deep learning (PG-DL) approaches have recently emerged as an improved accelerated MRI strategy. Training of PG-DL methods is typically performed in supervised manner requiring fully-sampled data as reference, which is challenging in 3D LGE CMR. Recently, a self-supervised learning approach was proposed to enable training PG-DL techniques without fully-sampled data. In this work, we extend this self-supervised learning approach to 3D imaging, while tackling challenges related to small training database sizes of 3D volumes. Results and a reader study on prospectively accelerated 3D LGE show that the proposed approach at 6-fold acceleration outperforms the clinically utilized compressed sensing approach at 3-fold acceleration.
翻訳日:2022-09-24 03:54:13 公開日:2020-11-18
# DPPに基づくコミュニティQAに基づく多変量および非冗長解集合抽出

Diverse and Non-redundant Answer Set Extraction on Community QA based on DPPs ( http://arxiv.org/abs/2011.09140v1 )

ライセンス: Link先を確認
Shogo Fujita and Tomohide Shibata and Manabu Okumura(参考訳) コミュニティベースの質問応答(CQA)プラットフォームでは、ユーザが多くの回答から有用な情報を得るのに時間がかかる。 1つの解決策は回答ランキング法であるが、ユーザは依然としてトップランクの回答を注意深く読む必要がある。 本稿では,回答のランク付けではなく,多様で非冗長な回答集合を選択する新しいタスクを提案する。 本手法はDPP(Determinantal Point Process)に基づいて,BERTを用いて回答の重要度と類似度を算出する。 本研究では,日本のcqaサイトに着目したデータセットを構築し,提案手法が複数のベースライン手法を上回っていることを示す実験を行った。

In community-based question answering (CQA) platforms, it takes time for a user to get useful information from among many answers. Although one solution is an answer ranking method, the user still needs to read through the top-ranked answers carefully. This paper proposes a new task of selecting a diverse and non-redundant answer set rather than ranking the answers. Our method is based on determinantal point processes (DPPs), and it calculates the answer importance and similarity between answers by using BERT. We built a dataset focusing on a Japanese CQA site, and the experiments on this dataset demonstrated that the proposed method outperformed several baseline methods.
翻訳日:2022-09-24 03:53:40 公開日:2020-11-18
# ユーザと製品コンテキストによる文書レベル感性分析の改善

Improving Document-Level Sentiment Analysis with User and Product Context ( http://arxiv.org/abs/2011.09210v1 )

ライセンス: Link先を確認
Chenyang Lyu, Jennifer Foster, Yvette Graham(参考訳) ユーザや製品情報をエンコードして文書レベルの感情分析を改善する過去の作業は、現在のレビューのテキストのみを考慮することに限られている。 我々は,感情予測時に利用可能な追加のレビューテキストを組み込むことによって,予測の指導に有意な意味があることを実証する。 まず、問題のレビューの著者に属する、利用可能なすべての履歴レビューテキストを取り込む。 第2に,現在の製品(他のユーザによる)に関連する歴史的レビューの包含について検討する。 私たちは、同一ユーザによって書かれたレビューの表現を、同じ製品について明示的に保存し、モデルを特定のユーザと製品に対してすべてのレビューを記憶させます。 さらに、テキスト中の単語同士が直接参加できるように、以前の作業で使われた階層的アーキテクチャを廃止する。 IMDB、Yelp 2013、Yelp 2014データセットの実験結果は、最高のケースで2ポイント以上の最先端の改善を示している。

Past work that improves document-level sentiment analysis by encoding user and product information has been limited to considering only the text of the current review. We investigate incorporating additional review text available at the time of sentiment prediction that may prove meaningful for guiding prediction. Firstly, we incorporate all available historical review text belonging to the author of the review in question. Secondly, we investigate the inclusion of historical reviews associated with the current product (written by other users). We achieve this by explicitly storing representations of reviews written by the same user and about the same product and force the model to memorize all reviews for one particular user and product. Additionally, we drop the hierarchical architecture used in previous work to enable words in the text to directly attend to each other. Experiment results on IMDB, Yelp 2013 and Yelp 2014 datasets show improvement to state-of-the-art of more than 2 percentage points in the best case.
翻訳日:2022-09-24 03:53:28 公開日:2020-11-18
# 自己教師型事前学習音声・言語特徴を用いた連続音声感情認識

On the use of Self-supervised Pre-trained Acoustic and Linguistic Features for Continuous Speech Emotion Recognition ( http://arxiv.org/abs/2011.09212v1 )

ライセンス: Link先を確認
Manon Macary, Marie Tahon, Yannick Est\`eve, Anthony Rousseau(参考訳) 特徴抽出のための事前学習は、音声およびテキストコンテンツのより良い連続表現を得るための、ますます研究されているアプローチである。 本研究は,自己教師型学習モデルとしてwav2vec と camemBERT を用いて,アロサットの音声(SER)から連続的な感情認識を行う。 著者らにとって,本論文は,Wav2vecとBERTライクな事前学習特徴の併用が連続SERタスクに非常に関係していることを示す最初の研究であり,通常は少量のラベル付きトレーニングデータによって特徴づけられる。 concordance correlation coefficient(ccc)によって評価された実験では、alloatデータセットにword2vecワード埋め込みと組み合わせてmfccを使用する場合、0.592ではなく0.825のccc値に達することが示されている。

Pre-training for feature extraction is an increasingly studied approach to get better continuous representations of audio and text content. In the present work, we use wav2vec and camemBERT as self-supervised learned models to represent our data in order to perform continuous emotion recognition from speech (SER) on AlloSat, a large French emotional database describing the satisfaction dimension, and on the state of the art corpus SEWA focusing on valence, arousal and liking dimensions. To the authors' knowledge, this paper presents the first study showing that the joint use of wav2vec and BERT-like pre-trained features is very relevant to deal with continuous SER task, usually characterized by a small amount of labeled training data. Evaluated by the well-known concordance correlation coefficient (CCC), our experiments show that we can reach a CCC value of 0.825 instead of 0.592 when using MFCC in conjunction with word2vec word embedding on the AlloSat dataset.
翻訳日:2022-09-24 03:53:15 公開日:2020-11-18
# ビデオキャプションのためのニューロシンボリック表現:視覚と言語に誘導的ビアーゼを応用した1例

Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language ( http://arxiv.org/abs/2011.09530v1 )

ライセンス: Link先を確認
Hassan Akbari, Hamid Palangi, Jianwei Yang, Sudha Rao, Asli Celikyilmaz, Roland Fernandez, Paul Smolensky, Jianfeng Gao, Shih-Fu Chang(参考訳) 神経シンボリック表現は視覚と言語の構造情報を学習するのに有効であることが証明されている。 本稿では,ビデオキャプションのためのマルチモーダルニューロシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。 本手法は,ビデオとそれらのペアテキスト記述の関係を学習する辞書学習に基づく手法である。 これらの関係を相対的な役割と呼び、それを利用して各トークンの役割を注意して認識する。 これにより、キャプションタスクに対するモダリティ固有の帰納バイアスを含む、より構造化され解釈可能なアーキテクチャが得られる。 直感的には、モデルは所定のビデオとテキストのペアで、空間的、時間的、および相互モーダルな関係を学習することができる。 提案手法では,マルチモーダル構造のキャプチャ能力が向上し,キャプションの質が向上し,キャプションの品質が向上した。 2つの確立されたビデオキャプションデータセットに対する実験により,提案手法の有効性が検証された。 さらに人による評価を行い、生成されたキャプションの接地と関連性を測定し、提案モデルに対する一貫した改善を観察する。 コードとトレーニングされたモデルはhttps://github.com/hassanhub/R3Transformerで見ることができる。

Neuro-symbolic representations have proved effective in learning structure information in vision and language. In this paper, we propose a new model architecture for learning multi-modal neuro-symbolic representations for video captioning. Our approach uses a dictionary learning-based method of learning relations between videos and their paired text descriptions. We refer to these relations as relative roles and leverage them to make each token role-aware using attention. This results in a more structured and interpretable architecture that incorporates modality-specific inductive biases for the captioning task. Intuitively, the model is able to learn spatial, temporal, and cross-modal relations in a given pair of video and text. The disentanglement achieved by our proposal gives the model more capacity to capture multi-modal structures which result in captions with higher quality for videos. Our experiments on two established video captioning datasets verifies the effectiveness of the proposed approach based on automatic metrics. We further conduct a human evaluation to measure the grounding and relevance of the generated captions and observe consistent improvement for the proposed model. The codes and trained models can be found at https://github.com/hassanhub/R3Transformer
翻訳日:2022-09-24 03:47:26 公開日:2020-11-18
# 深部強化学習と超広帯域を用いた屋内ポイントツーポイントナビゲーション

Indoor Point-to-Point Navigation with Deep Reinforcement Learning and Ultra-wideband ( http://arxiv.org/abs/2011.09241v1 )

ライセンス: Link先を確認
Enrico Sutera, Vittorio Mazzia, Francesco Salvetti, Giovanni Fantin and Marcello Chiaberge(参考訳) 屋内の自律ナビゲーションには、ロボットが散らかっている、非構造的でダイナミックな環境を案内できる、正確で正確なローカライズシステムが必要である。 超広帯域(UWB)技術は、屋内位置決めシステムとして、正確な位置決めと追跡を提供するが、移動障害や非視線発生はノイズや信頼性の低い信号を生成する。 センサーノイズ、非モデル化されたダイナミックス、環境変化と組み合わせることで、ロボットの誘導アルゴリズムが失敗する可能性がある。 本稿では,UWBローカライゼーション技術と組み合わせることで,高効率で低計算コストのローカルプランナである深部強化学習(RL)が,ノイズショートレンジ誘導システム完全解の堅牢かつ弾力性を実現することを実証する。 ロボットの動作とタスクの制約をカプセル化したシミュレーション環境でRLエージェントを訓練し,UWBの局所化を用いた2回以上の実験実験を行い,実環境で学習したポイントツーポイントナビゲーションポリシーを検証した。 実環境における超広帯域雑音定位と組み合わせて展開する低域センサ信号を直接ロボット制御にマッピングする,計算効率のよいエンドツーエンドポリシーは,堅牢でスケーラブルで低コストなナビゲーションシステムを実現することができることを示す。

Indoor autonomous navigation requires a precise and accurate localization system able to guide robots through cluttered, unstructured and dynamic environments. Ultra-wideband (UWB) technology, as an indoor positioning system, offers precise localization and tracking, but moving obstacles and non-line-of-sight occurrences can generate noisy and unreliable signals. That, combined with sensors noise, unmodeled dynamics and environment changes can result in a failure of the guidance algorithm of the robot. We demonstrate how a power-efficient and low computational cost point-to-point local planner, learnt with deep reinforcement learning (RL), combined with UWB localization technology can constitute a robust and resilient to noise short-range guidance system complete solution. We trained the RL agent on a simulated environment that encapsulates the robot dynamics and task constraints and then, we tested the learnt point-to-point navigation policies in a real setting with more than two-hundred experimental evaluations using UWB localization. Our results show that the computational efficient end-to-end policy learnt in plain simulation, that directly maps low-range sensors signals to robot controls, deployed in combination with ultra-wideband noisy localization in a real environment, can provide a robust, scalable and at-the-edge low-cost navigation system solution.
翻訳日:2022-09-24 03:47:05 公開日:2020-11-18
# Core-sets入門: 最新調査

Introduction to Core-sets: an Updated Survey ( http://arxiv.org/abs/2011.09384v1 )

ライセンス: Link先を確認
Dan Feldman(参考訳) 最適化や機械学習の問題では、通常、ある計量空間に点を付ける一連の項目が与えられ、その目標は、ある候補解の空間上の目的関数を最小化または最大化することである。 例えば、クラスタリング問題において、入力は計量空間内の点の集合であり、共通の目標は、これらの点への距離の和を最小化する他の空間(点、直線)における中心の集合を計算することである。 データベースクエリでは、$k$ Centerの特定のクエリセットに対して、そのような部分を計算する必要があります。 しかし従来のアルゴリズムでは,gpsやオーディオ,あるいはクラウドに到達したビデオなどのセンサや,スマートフォンやロボットといった弱いデバイスのネットワークから,無限に分散したストリームを並列処理する必要のある現代的なシステムでは処理できない。 コアセットは入力された"ビッグデータ"の"小さなデータ"の要約であり、可能なクエリはすべて、両方のデータセットでほぼ同じ答えを持つ。 一般的なテクニックは、ストリーミング、分散、動的データの効率的なcoreset \changed{maintenance}を可能にする。 従来のアルゴリズムは、近似最適解を維持するためにこれらのコアセットに適用することができる。 課題は、サイズと近似誤差のトレードオフを証明可能なコアセットを設計することである。 この調査はこのような構造をふりかえりにまとめ、最先端の技術を統一し、単純化することを目的としています。

In optimization or machine learning problems we are given a set of items, usually points in some metric space, and the goal is to minimize or maximize an objective function over some space of candidate solutions. For example, in clustering problems, the input is a set of points in some metric space, and a common goal is to compute a set of centers in some other space (points, lines) that will minimize the sum of distances to these points. In database queries, we may need to compute such a some for a specific query set of $k$ centers. However, traditional algorithms cannot handle modern systems that require parallel real-time computations of infinite distributed streams from sensors such as GPS, audio or video that arrive to a cloud, or networks of weaker devices such as smartphones or robots. Core-set is a "small data" summarization of the input "big data", where every possible query has approximately the same answer on both data sets. Generic techniques enable efficient coreset \changed{maintenance} of streaming, distributed and dynamic data. Traditional algorithms can then be applied on these coresets to maintain the approximated optimal solutions. The challenge is to design coresets with provable tradeoff between their size and approximation error. This survey summarizes such constructions in a retrospective way, that aims to unified and simplify the state-of-the-art.
翻訳日:2022-09-24 03:46:42 公開日:2020-11-18
# 深部生成モデルを用いたデータ駆動加速度図合成

Data-driven Accelerogram Synthesis using Deep Generative Models ( http://arxiv.org/abs/2011.09038v1 )

ライセンス: Link先を確認
Manuel A. Florez, Michaelangelo Caporale, Pakpoom Buabthong, Zachary E. Ross, Domniki Asimaki and Men-Andrin Meier(参考訳) シナリオ地震による地盤運動のロバスト推定は多くの工学的応用において重要である。 我々は、GAN(Generative Adversarial Networks)の最近の進歩を活用し、地震加速時間履歴を合成する新しい枠組みを開発する。 提案手法はwasserstein ganの定式化を拡張し,連続的な物理変数の組で条件づけされた基底運動の生成を可能にする。 本モデルは,日本からの強震動記録の固有確率分布を近似するために訓練された。 学習した生成器モデルは,大小,距離,および$v_{s30}$を条件とした現実的な3成分加速度を合成できることを示す。 本モデルは加速度スペクトルと波形エンベロープの期待される統計的特徴を捉える。 出力地震計は、適切なエネルギー量と相対開始タイミングでクリアp及びs波の到来を表示する。 合成ピークグラウンド加速(PGA)の推定値も観測値と一致している。 トレーニングプロセスの安定性を評価し,モデルハイパーパラメータをチューニングする,一連のメトリクスを開発する。 さらに, 訓練された発電機ネットワークは, 地震動記録が存在しない状況に介在可能であることを示す。 本手法は, 工学目的の加速度計のオンデマンド合成を可能にする。

Robust estimation of ground motions generated by scenario earthquakes is critical for many engineering applications. We leverage recent advances in Generative Adversarial Networks (GANs) to develop a new framework for synthesizing earthquake acceleration time histories. Our approach extends the Wasserstein GAN formulation to allow for the generation of ground-motions conditioned on a set of continuous physical variables. Our model is trained to approximate the intrinsic probability distribution of a massive set of strong-motion recordings from Japan. We show that the trained generator model can synthesize realistic 3-Component accelerograms conditioned on magnitude, distance, and $V_{s30}$. Our model captures the expected statistical features of the acceleration spectra and waveform envelopes. The output seismograms display clear P and S-wave arrivals with the appropriate energy content and relative onset timing. The synthesized Peak Ground Acceleration (PGA) estimates are also consistent with observations. We develop a set of metrics that allow us to assess the training process's stability and tune model hyperparameters. We further show that the trained generator network can interpolate to conditions where no earthquake ground motion recordings exist. Our approach allows the on-demand synthesis of accelerograms for engineering purposes.
翻訳日:2022-09-24 03:46:19 公開日:2020-11-18
# アクティブマターシステムにおける相挙動の機械学習

Machine Learning for Phase Behavior in Active Matter Systems ( http://arxiv.org/abs/2011.09458v1 )

ライセンス: Link先を確認
Austin R. Dulaney and John F. Brady(参考訳) 本研究では, 動的ブラウン粒子 (ABP) の懸濁液中における運動性誘導相分離 (MIPS) の予測に, 粒子レベルでの位相の概念を作成することにより, 深層学習技術を用いることを実証した。 グラフニューラルネットワークと完全に接続されたネットワークを使用することで、個々の粒子の特徴を用いて、粒子がどのフェーズに属するかを予測する。 これにより、希薄粒子の分数を計算し、系が均質な希薄、密度、共存領域にあるかどうかを判定することができる。 シミュレーションから計算したMIPSビノダルとの比較を行った。 両者の強い合意は、機械学習がAPPの位相挙動を決定する効果的な方法を提供し、より複雑な位相図を決定するのに役立つことを示唆している。

We demonstrate that deep learning techniques can be used to predict motility induced phase separation (MIPS) in suspensions of active Brownian particles (ABPs) by creating a notion of phase at the particle level. Using a fully connected network in conjunction with a graph neural network we use individual particle features to predict to which phase a particle belongs. From this, we are able to compute the fraction of dilute particles to determine if the system is in the homogeneous dilute, dense, or coexistence region. Our predictions are compared against the MIPS binodal computed from simulation. The strong agreement between the two suggests that machine learning provides an effective way to determine the phase behavior of ABPs and could prove useful for determining more complex phase diagrams.
翻訳日:2022-09-24 03:44:55 公開日:2020-11-18
# 関数空間における変分推論の理解

Understanding Variational Inference in Function-Space ( http://arxiv.org/abs/2011.09421v1 )

ライセンス: Link先を確認
David R. Burt, Sebastian W. Ober, Adri\`a Garriga-Alonso, Mark van der Wilk(参考訳) 最近の研究は、パラメータの後方分布を近似することなく、ベイズモデルの「関数空間」あるいは予測後分布を直接近似しようと試みている。 これは例えば、前者のみを必要とするベイズニューラルネットワークにおいて魅力的であり、後者は表現が難しい。 本研究では,本設定におけるkullback-leiblerの発散の利点と限界について述べる。 例えば、広域なパラメトリック分布と(非退化)ガウス過程によって引き起こされる後続部分とのKLの発散を最小化することは、未定義の目的関数につながることを示す。 そこで我々は,近似品質を直接測定する関数空間推論手法のベンチマークとしてベイズ線形回帰法を提案する。 この手法を,sun, zhang, shi, grosse (2018)で検討された目的関数と推論スキームの側面を評価するために応用し,予測性能とは対照的にベイズ推論の近似の質を強調する。

Recent work has attempted to directly approximate the `function-space' or predictive posterior distribution of Bayesian models, without approximating the posterior distribution over the parameters. This is appealing in e.g. Bayesian neural networks, where we only need the former, and the latter is hard to represent. In this work, we highlight some advantages and limitations of employing the Kullback-Leibler divergence in this setting. For example, we show that minimizing the KL divergence between a wide class of parametric distributions and the posterior induced by a (non-degenerate) Gaussian process prior leads to an ill-defined objective function. Then, we propose (featurized) Bayesian linear regression as a benchmark for `function-space' inference methods that directly measures approximation quality. We apply this methodology to assess aspects of the objective function and inference scheme considered in Sun, Zhang, Shi, and Grosse (2018), emphasizing the quality of approximation to Bayesian inference as opposed to predictive performance.
翻訳日:2022-09-24 03:38:23 公開日:2020-11-18
# データフリー知識蒸留における任意移動集合の有効性

Effectiveness of Arbitrary Transfer Sets for Data-free Knowledge Distillation ( http://arxiv.org/abs/2011.09113v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Konda Reddy Mopuri, Anirban Chakraborty(参考訳) 知識蒸留は深層ニューラルネットワーク間の学習を伝達する効果的な方法である。 通常、教師モデルのトレーニングに使用されたデータセットは、学生に知識の伝達を行うための「トランスファーセット」として選択される。 しかし、このオリジナルのトレーニングデータは、プライバシーや感受性の懸念から、常に自由に利用できるとは限らない。 そのようなシナリオでは、既存のアプローチでは、元のトレーニングデータセットを表す合成集合を反復的に構成するか、一度に1つのサンプルを合成するか、そのような転送集合を構成するために生成モデルを学ぶかのどちらかである。 しかしながら、これら2つのアプローチは複雑な最適化(GANトレーニングまたは1つのサンプルを合成するためのいくつかのバックプロパゲーションステップ)を伴い、しばしば計算コストがかかる。 本稿では,単純な代替手段として,ランダムノイズ,公開合成,自然データセットなどの「任意移動集合」の有効性について検討する。 mnist,fmnist,cifar-10,cifar-100など,複数のベンチマークデータセットで広範な実験を行い,このデータセットが「目標クラスバランス」である場合,任意のデータを用いて知識蒸留を行うことによる驚くべき有効性を発見し検証した。 この重要な観察は、データフリーな知識蒸留タスクのベースライン設計につながる可能性があると考えています。

Knowledge Distillation is an effective method to transfer the learning across deep neural networks. Typically, the dataset originally used for training the Teacher model is chosen as the "Transfer Set" to conduct the knowledge transfer to the Student. However, this original training data may not always be freely available due to privacy or sensitivity concerns. In such scenarios, existing approaches either iteratively compose a synthetic set representative of the original training dataset, one sample at a time or learn a generative model to compose such a transfer set. However, both these approaches involve complex optimization (GAN training or several backpropagation steps to synthesize one sample) and are often computationally expensive. In this paper, as a simple alternative, we investigate the effectiveness of "arbitrary transfer sets" such as random noise, publicly available synthetic, and natural datasets, all of which are completely unrelated to the original training dataset in terms of their visual or semantic contents. Through extensive experiments on multiple benchmark datasets such as MNIST, FMNIST, CIFAR-10 and CIFAR-100, we discover and validate surprising effectiveness of using arbitrary data to conduct knowledge distillation when this dataset is "target-class balanced". We believe that this important observation can potentially lead to designing baselines for the data-free knowledge distillation task.
翻訳日:2022-09-24 03:37:24 公開日:2020-11-18
# CGAP2:ジェスチャーの早期検出のためのコンテキストとギャップ認識型ポーズフレームワーク

CGAP2: Context and gap aware predictive pose framework for early detection of gestures ( http://arxiv.org/abs/2011.09216v1 )

ライセンス: Link先を確認
Nishant Bhattacharya and Suresh Sundaram(参考訳) 自動運転車の運転に対する関心が高まっているため、人間と車両の相互作用に対する効率的な予測ジェスチャー認識システムの必要性が等しく高まっている。 既存のジェスチャー認識アルゴリズムは主に歴史的データに制限されている。 本稿では,ジェスチャーの予測的認識のための将来的なポーズデータを予測する,新しいコンテキストとギャップ認識型ポーズ予測フレームワーク(CGAP2)を提案する。 CGAP2は、将来のフレームを予測するためのポーズ予測モジュールと組み合わせたエンコーダ・デコーダアーキテクチャを実装している。 cgap2ポーズ予測モジュールは3次元畳み込み層を使用し、供給されるポーズフレーム数、各ポーズフレーム間の時間差、予測されたポーズフレーム数に依存する。 CGAP2の性能はMPJPEメトリックを用いてHuman3.6Mデータセットで評価される。 予め15フレームのポーズ予測を行うには、79.0mmの誤差が与えられる。 ポーズ予測モジュールは26Mパラメータのみで構成され、NVidia RTX Titan上で50FPSで動作可能である。 さらに、アブレーション研究は、ポーズ予測モジュールにより高いコンテキスト情報を供給することは、予測認識に不利であることを示す。 CGAP2は、他のジェスチャー認識システムに比べて1秒のアドバンテージがある。

With a growing interest in autonomous vehicles' operation, there is an equally increasing need for efficient anticipatory gesture recognition systems for human-vehicle interaction. Existing gesture-recognition algorithms have been primarily restricted to historical data. In this paper, we propose a novel context and gap aware pose prediction framework(CGAP2), which predicts future pose data for anticipatory recognition of gestures in an online fashion. CGAP2 implements an encoder-decoder architecture paired with a pose prediction module to anticipate future frames followed by a shallow classifier. CGAP2 pose prediction module uses 3D convolutional layers and depends on the number of pose frames supplied, the time difference between each pose frame, and the number of predicted pose frames. The performance of CGAP2 is evaluated on the Human3.6M dataset with the MPJPE metric. For pose prediction of 15 frames in advance, an error of 79.0mm is achieved. The pose prediction module consists of only 26M parameters and can run at 50 FPS on the NVidia RTX Titan. Furthermore, the ablation study indicates supplying higher context information to the pose prediction module can be detrimental for anticipatory recognition. CGAP2 has a 1-second time advantage compared to other gesture recognition systems, which can be crucial for autonomous vehicles.
翻訳日:2022-09-24 03:36:22 公開日:2020-11-18
# 動的シーンにおける自己教師付き深層学習のための注意分離・集約ネットワーク

Attentional Separation-and-Aggregation Network for Self-supervised Depth-Pose Learning in Dynamic Scenes ( http://arxiv.org/abs/2011.09369v1 )

ライセンス: Link先を確認
Feng Gao, Jincheng Yu, Hao Shen, Yu Wang, Huazhong Yang(参考訳) エピポーラプロジェクションからの自己監督によるラベルなしビデオからの深度とエゴモーションの学習は、視覚に基づくロボットの3D知覚の堅牢性と精度を向上させる。 しかし、エゴモーションによって計算される剛性プロジェクションは、移動物体の点などすべてのシーンポイントを表現できないため、これらの領域では誤ったガイダンスが導かれる。 この問題に対処するために,アテンショナル・アグリゲーション・ネットワーク(ASANet)を提案する。アテンショナル・アグリゲーション・ネットワークは,アテンション・メカニズムを通じてシーンの静的・動的特性を識別・抽出することができる。 さらに,asanetをエンコーダとして,さらに2つのデコーダを分離して,カメラのエゴモーションとシーンのダイナミックモーションフィールドを推定する新しいモーションネットを提案する。 次に,動的学習のための移動物体を自動的に検出する自動選択手法を提案する。 実験により,本手法がKITTIベンチマークの最先端性能を実現することを示す。

Learning depth and ego-motion from unlabeled videos via self-supervision from epipolar projection can improve the robustness and accuracy of the 3D perception and localization of vision-based robots. However, the rigid projection computed by ego-motion cannot represent all scene points, such as points on moving objects, leading to false guidance in these regions. To address this problem, we propose an Attentional Separation-and-Aggregation Network (ASANet), which can learn to distinguish and extract the scene's static and dynamic characteristics via the attention mechanism. We further propose a novel MotionNet with an ASANet as the encoder, followed by two separate decoders, to estimate the camera's ego-motion and the scene's dynamic motion field. Then, we introduce an auto-selecting approach to detect the moving objects for dynamic-aware learning automatically. Empirical experiments demonstrate that our method can achieve the state-of-the-art performance on the KITTI benchmark.
翻訳日:2022-09-24 03:35:14 公開日:2020-11-18
# シーケンスレベル混合サンプルデータ拡張

Sequence-Level Mixed Sample Data Augmentation ( http://arxiv.org/abs/2011.09039v1 )

ライセンス: Link先を確認
Demi Guo, Yoon Kim and Alexander M. Rush(参考訳) 経験的な成功にもかかわらず、ニューラルネットワークは自然言語の構成的側面を捉えるのに苦労している。 本研究は、シーケンス対シーケンス問題に対するニューラルモデルにおける合成行動を促進するための単純なデータ拡張手法を提案する。 私たちのアプローチであるseqmixは、トレーニングセットから入出力シーケンスをソフトに組み合わせて、新しい合成例を作成します。 提案手法は,SwitchOutやワードドロップアウトといった既存の手法と結合し,これらの手法がすべて一つの目的の変種を近似していることを示す。 seqmixは、強いトランスフォーマーベースラインよりも、5つの異なる翻訳データセットで、一貫して1.0 bleuの改善をもたらす。 SCANやセマンティックパースといった強力な構成の一般化を必要とするタスクに関して、SeqMixはさらに改善されている。

Despite their empirical success, neural networks still have difficulty capturing compositional aspects of natural language. This work proposes a simple data augmentation approach to encourage compositional behavior in neural models for sequence-to-sequence problems. Our approach, SeqMix, creates new synthetic examples by softly combining input/output sequences from the training set. We connect this approach to existing techniques such as SwitchOut and word dropout, and show that these techniques are all approximating variants of a single objective. SeqMix consistently yields approximately 1.0 BLEU improvement on five different translation datasets over strong Transformer baselines. On tasks that require strong compositional generalization such as SCAN and semantic parsing, SeqMix also offers further improvements.
翻訳日:2022-09-24 03:29:15 公開日:2020-11-18
# SemEval-2020 Task 9: Code-Mixed Sentiment 分類のための Transformer を用いたロバストシステム

Palomino-Ochoa at SemEval-2020 Task 9: Robust System based on Transformer for Code-Mixed Sentiment Classification ( http://arxiv.org/abs/2011.09448v1 )

ライセンス: Link先を確認
Daniel Palomino and Jose Ochoa-Luna(参考訳) 本稿では,スペイン語と英語の感情分類タスクを混合するトランスファー学習システムを提案する。 提案手法では,最先端の言語モデルBERTを使用し,UMMFiT転送学習パイプラインに組み込む。 この組み合わせにより、コード混合(英語とスペイン語)ツイートの極性検出を予測できる。 提案した29のシステムの中では,SemEval 2020 Task 9のSentimix Spanglishテストセットにおいて,我々のアプローチ(dplominop)が第4位にランクされている。 実際,本システムでは,重み付きF1スコア値0.755が容易に再現可能であり,ソースコードと実装の詳細が利用可能である。

We present a transfer learning system to perform a mixed Spanish-English sentiment classification task. Our proposal uses the state-of-the-art language model BERT and embed it within a ULMFiT transfer learning pipeline. This combination allows us to predict the polarity detection of code-mixed (English-Spanish) tweets. Thus, among 29 submitted systems, our approach (referred to as dplominop) is ranked 4th on the Sentimix Spanglish test set of SemEval 2020 Task 9. In fact, our system yields the weighted-F1 score value of 0.755 which can be easily reproduced -- the source code and implementation details are made available.
翻訳日:2022-09-24 03:29:04 公開日:2020-11-18
# 胸部x線写真から細粒度ラベルの抽出と学習

Extracting and Learning Fine-Grained Labels from Chest Radiographs ( http://arxiv.org/abs/2011.09517v1 )

ライセンス: Link先を確認
Tanveer Syeda-Mahmood, Ph.D, K.C.L Wong, Ph.D, Joy T. Wu, M.D., M.P.H, Ashutosh Jadhav, Ph.D, Orest Boyko, M.D. Ph.D(参考訳) 胸部X線写真は、救急室や集中治療室で最も一般的な診断検査である。 近年、多くの研究者が胸部x線データセットを開発し、不透明度、質量、結節などの粗い発見クラスを識別するためのディープラーニングモデルを開発した。 本稿では胸部X線画像の微細なラベル抽出と学習に焦点を当てた。 具体的には,ボキャブラリ駆動概念抽出と,依存構文解析木におけるフラサールグルーピングを組み合わせることで,x線レポートから細粒度ラベルを抽出する新しい手法を開発した。 これまでで最大の発見スペクトルを示す457個の細粒度ラベルが選択され、詳細な分類のために設計された新しいディープラーニングモデルをトレーニングするために十分な量のデータセットが得られた。 高精度なラベル抽出プロセスと,詳細なラベルの信頼性のある学習結果を示す。 結果として得られたネットワークは、我々の知る限り、9つの修飾子を含む画像中の発見のきめ細かい記述を初めて認識したものだ。

Chest radiographs are the most common diagnostic exam in emergency rooms and intensive care units today. Recently, a number of researchers have begun working on large chest X-ray datasets to develop deep learning models for recognition of a handful of coarse finding classes such as opacities, masses and nodules. In this paper, we focus on extracting and learning fine-grained labels for chest X-ray images. Specifically we develop a new method of extracting fine-grained labels from radiology reports by combining vocabulary-driven concept extraction with phrasal grouping in dependency parse trees for association of modifiers with findings. A total of 457 fine-grained labels depicting the largest spectrum of findings to date were selected and sufficiently large datasets acquired to train a new deep learning model designed for fine-grained classification. We show results that indicate a highly accurate label extraction process and a reliable learning of fine-grained labels. The resulting network, to our knowledge, is the first to recognize fine-grained descriptions of findings in images covering over nine modifiers including laterality, location, severity, size and appearance.
翻訳日:2022-09-24 03:28:53 公開日:2020-11-18
# Unityを使ってインテリジェンスを解決

Using Unity to Help Solve Intelligence ( http://arxiv.org/abs/2011.09294v1 )

ライセンス: Link先を確認
Tom Ward, Andrew Bolt, Nik Hemmings, Simon Carter, Manuel Sanchez, Ricardo Barreira, Seb Noury, Keith Anderson, Jay Lemmon, Jonathan Coe, Piotr Trochim, Tom Handley, Adrian Bolton(参考訳) 人工知能の追求において、我々の進歩の最も重要な測定は、幅広い環境で目標を達成するためのエージェントの能力である。 このような環境を構築するための既存のプラットフォームは、通常、彼らが構築した技術によって制約されるため、進捗を評価するのに必要なシナリオのサブセットしか提供できない。 これらの欠点を克服するために,我々は,より多様で複雑な仮想シミュレーションを作成するために,広く認知され包括的なゲームエンジンであるunityについて紹介する。 本稿では,強化学習の分野を中心に,これらの環境の作成を容易にするために開発された概念とコンポーネントについて述べる。 また,実験結果の堅牢性と再現性を向上させるために,環境のパッケージングと再配布に実践的なアプローチを導入する。 他のソリューションと比較して、Unityの使用の汎用性を説明するために、論文から得られたアプローチを使ってすでに作成された環境を強調します。 私たちは、Unityを私たちのニーズにどう適用したかからインスピレーションを得て、親しみが増すにつれて、アプローチからますます多様で複雑な環境が生まれることを期待しています。

In the pursuit of artificial general intelligence, our most significant measurement of progress is an agent's ability to achieve goals in a wide range of environments. Existing platforms for constructing such environments are typically constrained by the technologies they are founded on, and are therefore only able to provide a subset of scenarios necessary to evaluate progress. To overcome these shortcomings, we present our use of Unity, a widely recognized and comprehensive game engine, to create more diverse, complex, virtual simulations. We describe the concepts and components developed to simplify the authoring of these environments, intended for use predominantly in the field of reinforcement learning. We also introduce a practical approach to packaging and re-distributing environments in a way that attempts to improve the robustness and reproducibility of experiment results. To illustrate the versatility of our use of Unity compared to other solutions, we highlight environments already created using our approach from published papers. We hope that others can draw inspiration from how we adapted Unity to our needs, and anticipate increasingly varied and complex environments to emerge from our approach as familiarity grows.
翻訳日:2022-09-24 03:27:48 公開日:2020-11-18
# 保守作業支援のための行動可能な知識グラフに基づく認知的アプローチ

A Cognitive Approach based on the Actionable Knowledge Graph for supporting Maintenance Operations ( http://arxiv.org/abs/2011.09554v1 )

ライセンス: Link先を確認
Giuseppe Fenza, Mariacristina Gallo, Vincenzo Loia, Domenico Marino, Francesco Orciuoli(参考訳) 産業4.0の時代には、認知コンピューティングとその実現技術(人工知能、機械学習など)によって、適切なタイミングで関連情報を提供し、構造化企業のデータベースから検索し、技術マニュアルや介入レポートなどの非構造化文書を提供することで、メンテナンスを支援するシステムを定義することができる。 さらに、コンテキスト情報は、計画と介入の実行の両方において、サポートを調整する上で重要な役割を果たす。 コンテキスト情報は、センサー、ウェアラブルデバイス、屋内および屋外の位置情報システム、およびオブジェクト認識機能(固定カメラまたはウェアラブルカメラを使用して)の助けを借りて検出することができる。 本研究では,過去の介入から学び,時間,予算,スコープの観点から,メンテナンスプラクティスを改善するためのコンテキストレコメンデーションを生成する認知システムを提案する。 このシステムは、これらの目的を達成するために、形式的な概念モデル、漸進学習、ランキングアルゴリズムを使用する。

In the era of Industry 4.0, cognitive computing and its enabling technologies (Artificial Intelligence, Machine Learning, etc.) allow to define systems able to support maintenance by providing relevant information, at the right time, retrieved from structured companies' databases, and unstructured documents, like technical manuals, intervention reports, and so on. Moreover, contextual information plays a crucial role in tailoring the support both during the planning and the execution of interventions. Contextual information can be detected with the help of sensors, wearable devices, indoor and outdoor positioning systems, and object recognition capabilities (using fixed or wearable cameras), all of which can collect historical data for further analysis. In this work, we propose a cognitive system that learns from past interventions to generate contextual recommendations for improving maintenance practices in terms of time, budget, and scope. The system uses formal conceptual models, incremental learning, and ranking algorithms to accomplish these objectives.
翻訳日:2022-09-24 03:27:30 公開日:2020-11-18
# XAI手法評価のための地上構造記述データ

Data Representing Ground-Truth Explanations to Evaluate XAI Methods ( http://arxiv.org/abs/2011.09892v1 )

ライセンス: Link先を確認
Shideh Shams Amiri, Rosina O. Weber, Prateek Goel, Owen Brooks, Archer Gandley, Brian Kitchell, Aaron Zehm(参考訳) 説明可能な人工知能(xai)の手法は、既存の帰属的アプローチ、感度分析、特徴の金のセット、公理、画像のデモンストレーションといったモデルを理解することに焦点を当てた、解釈可能な機械学習(iml)研究に端を発するアプローチで現在評価されている。 これらの手法には、現在のXAIアプローチが、現場の一貫した進歩に向けて調査を導くことができないことを示すような問題がある。 説明責任決定を裏付ける精度は測定されず、一方のXAI法が他方よりも優れているか、既存のモデルの弱点があるのかを判断することは事実上不可能であり、どの研究質問がどの分野に進むかのガイダンスは残っていない。 その他の分野は、通常、地上データを使用し、ベンチマークを作成する。 XAI や IML では、地上真実の説明を表すデータは一般的には使われない。 理由の一つは、説明が主観的であり、あるユーザーを満足させる説明が他のユーザーを満足させないという意味である。 これらの問題を克服するために,XAI手法の精度を評価するために用いられる正準方程式を用いた説明法を提案する。 本論文のコントリビューションには,地中構造説明を表す合成データ作成手法,3つのデータセット,これらのデータセットを用いたLIMEの評価,および既存のXAIアプローチを評価する上での課題と潜在的メリットの予備的分析が含まれる。 人中心研究に基づく評価手法は,本論文の範囲外である。

Explainable artificial intelligence (XAI) methods are currently evaluated with approaches mostly originated in interpretable machine learning (IML) research that focus on understanding models such as comparison against existing attribution approaches, sensitivity analyses, gold set of features, axioms, or through demonstration of images. There are problems with these methods such as that they do not indicate where current XAI approaches fail to guide investigations towards consistent progress of the field. They do not measure accuracy in support of accountable decisions, and it is practically impossible to determine whether one XAI method is better than the other or what the weaknesses of existing models are, leaving researchers without guidance on which research questions will advance the field. Other fields usually utilize ground-truth data and create benchmarks. Data representing ground-truth explanations is not typically used in XAI or IML. One reason is that explanations are subjective, in the sense that an explanation that satisfies one user may not satisfy another. To overcome these problems, we propose to represent explanations with canonical equations that can be used to evaluate the accuracy of XAI methods. The contributions of this paper include a methodology to create synthetic data representing ground-truth explanations, three data sets, an evaluation of LIME using these data sets, and a preliminary analysis of the challenges and potential benefits in using these data to evaluate existing XAI approaches. Evaluation methods based on human-centric studies are outside the scope of this paper.
翻訳日:2022-09-24 03:27:13 公開日:2020-11-18
# プラグ・アンド・プレイ学習ガウス混合近似メッセージパッシング

Plug-And-Play Learned Gaussian-mixture Approximate Message Passing ( http://arxiv.org/abs/2011.09388v1 )

ライセンス: Link先を確認
Osman Musa, Peter Jung and Giuseppe Caire(参考訳) ディープ展開は、古典的な信号処理アルゴリズムの高速化とチューニングに非常に成功したアプローチであった。 本稿では,任意のi.i.d.ソースに適したプラグ・アンド・プレイ圧縮センシング(cs)リカバリアルゴリズムである学習型ガウス混合型amp(l-gm-amp)を提案する。 我々のアルゴリズムはborgerdingの学習amp(lamp)に基づいているが、アルゴリズム内で普遍的な分別関数を採用することで大幅に改善されている。 頑健で柔軟なデノイザー(denoiser)は、ガウス混合(gm)に先行するモデリングソースの副産物であり、混合分布と同様に連続的で離散的に近似することができる。 そのパラメータは標準バックプロパゲーションアルゴリズムを用いて学習される。 提案手法のロバスト性を示すために,混合分布と離散分布の両方に対してモンテカルロ(mc)シミュレーションを行う。 数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。

Deep unfolding showed to be a very successful approach for accelerating and tuning classical signal processing algorithms. In this paper, we propose learned Gaussian-mixture AMP (L-GM-AMP) - a plug-and-play compressed sensing (CS) recovery algorithm suitable for any i.i.d. source prior. Our algorithm builds upon Borgerding's learned AMP (LAMP), yet significantly improves it by adopting a universal denoising function within the algorithm. The robust and flexible denoiser is a byproduct of modelling source prior with a Gaussian-mixture (GM), which can well approximate continuous, discrete, as well as mixture distributions. Its parameters are learned using standard backpropagation algorithm. To demonstrate robustness of the proposed algorithm, we conduct Monte-Carlo (MC) simulations for both mixture and discrete distributions. Numerical evaluation shows that the L-GM-AMP algorithm achieves state-of-the-art performance without any knowledge of the source prior.
翻訳日:2022-09-24 03:26:30 公開日:2020-11-18
# マルチクラスアプローチ-ゼロショット学習を用いたテキスト記述に基づく視覚分類器の構築

A Multi-class Approach -- Building a Visual Classifier based on Textual Descriptions using Zero-Shot Learning ( http://arxiv.org/abs/2011.09236v1 )

ライセンス: Link先を確認
Preeti Jagdish Sajjan and Frank G. Glavin(参考訳) 画像分類のための機械学習(ML)技術は、通常、モデルをトレーニングするためにラベル付きイメージを多く必要としており、テスト中は、トレーニングに使用するものと同じドメインに属するイメージを使用する必要がある。 本稿では,データ不足と分類モデルの制約付き予測という,MLの主な2つのハードルを克服する。 そこで我々は,ゼロショット学習(zsl)と標準自然言語処理という,トランスファー学習の概念を用いた視覚分類器を導入する。 特定のクラスに対して学習するのではなく、ラベル付き画像をテキスト記述にマッピングすることで分類器を訓練する。 転校学習は、類似する領域にまたがる知識の伝達を伴う。 ZSLは、将来の認識タスクのトレーニング中に学んだ知識を知的に適用する。 ZSLはクラスを2つのタイプとして区別する。 senクラスはモデルを訓練したクラスであり、unseenクラスはモデルをテストしたクラスです。 未確認クラスからの例は、トレーニング段階では出ていない。 この領域における初期の研究はバイナリ分類器の開発に重点を置いていたが、本稿ではゼロショット学習アプローチを用いた多クラス分類器を提案する。

Machine Learning (ML) techniques for image classification routinely require many labelled images for training the model and while testing, we ought to use images belonging to the same domain as those used for training. In this paper, we overcome the two main hurdles of ML, i.e. scarcity of data and constrained prediction of the classification model. We do this by introducing a visual classifier which uses a concept of transfer learning, namely Zero-Shot Learning (ZSL), and standard Natural Language Processing techniques. We train a classifier by mapping labelled images to their textual description instead of training it for specific classes. Transfer learning involves transferring knowledge across domains that are similar. ZSL intelligently applies the knowledge learned while training for future recognition tasks. ZSL differentiates classes as two types: seen and unseen classes. Seen classes are the classes upon which we have trained our model and unseen classes are the classes upon which we test our model. The examples from unseen classes have not been encountered in the training phase. Earlier research in this domain focused on developing a binary classifier but, in this paper, we present a multi-class classifier with a Zero-Shot Learning approach.
翻訳日:2022-09-24 03:19:25 公開日:2020-11-18
# ランダム化された自己組織化マップ

Randomized Self Organizing Map ( http://arxiv.org/abs/2011.09534v1 )

ライセンス: Link先を確認
Nicolas P. Rougier and Georgios Is. Detorakis(参考訳) 本稿では, 2次元多様体上のニューロンのランダム配置を, 様々な位相を導出可能な青色雑音分布に従って考慮し, 自己組織化マップアルゴリズムのバリエーションを提案する。 これらのトポロジーは、特に高次元データにおいて、より柔軟な自己組織化を可能にするランダムな(しかし制御可能な)不連続性を持っている。 提案アルゴリズムはMNIST手書き桁データセットと同様に1次元,2次元,3次元のタスクでテストされ,スペクトル解析とトポロジカルデータ解析ツールを用いて検証される。 また,神経障害や神経新生の場合に,ランダム化された自己組織化マップを適切に再編成する能力を示した。

We propose a variation of the self organizing map algorithm by considering the random placement of neurons on a two-dimensional manifold, following a blue noise distribution from which various topologies can be derived. These topologies possess random (but controllable) discontinuities that allow for a more flexible self-organization, especially with high-dimensional data. The proposed algorithm is tested on one-, two- and three-dimensions tasks as well as on the MNIST handwritten digits dataset and validated using spectral analysis and topological data analysis tools. We also demonstrate the ability of the randomized self-organizing map to gracefully reorganize itself in case of neural lesion and/or neurogenesis.
翻訳日:2022-09-24 03:18:49 公開日:2020-11-18
# スパイクニューラルネットワークのための時間的サロゲートバックプロパゲーション

Temporal Surrogate Back-propagation for Spiking Neural Networks ( http://arxiv.org/abs/2011.09964v1 )

ライセンス: Link先を確認
Yukun Yang(参考訳) スパイキングニューラルネットワーク(snn)は通常、ニューラルネットワーク(ann)よりもエネルギー効率が良く、その働き方は脳と非常に似ています。 バックプロパゲーション(BP)は近年、ANNのトレーニングにおいて強力な力を示している。 しかし、スパイク挙動は微分不可能であるため、BPは直接SNNに適用することはできない。 先行研究は、代理勾配またはランダムネスによって、空間的および時間的方向のBP勾配を近似するいくつかの方法を示したが、各ステップ間のリセット機構によって導入された時間依存性を省略した。 本稿では, 理論的な完了を目標とし, 欠落項の効果を徹底的に検討する。 リセット機構の時間依存性を追加することで、新しいアルゴリズムはおもちゃのデータセットの学習率調整よりも頑健になるが、cifar-10のような大きな学習タスクではそれほど改善はない。 経験的に言えば、不足している用語の利点は、追加の計算オーバーヘッドに値しない。 多くの場合、欠落した項は無視できる。

Spiking neural networks (SNN) are usually more energy-efficient as compared to Artificial neural networks (ANN), and the way they work has a great similarity with our brain. Back-propagation (BP) has shown its strong power in training ANN in recent years. However, since spike behavior is non-differentiable, BP cannot be applied to SNN directly. Although prior works demonstrated several ways to approximate the BP-gradient in both spatial and temporal directions either through surrogate gradient or randomness, they omitted the temporal dependency introduced by the reset mechanism between each step. In this article, we target on theoretical completion and investigate the effect of the missing term thoroughly. By adding the temporal dependency of the reset mechanism, the new algorithm is more robust to learning-rate adjustments on a toy dataset but does not show much improvement on larger learning tasks like CIFAR-10. Empirically speaking, the benefits of the missing term are not worth the additional computational overhead. In many cases, the missing term can be ignored.
翻訳日:2022-09-24 03:18:37 公開日:2020-11-18
# 微調整コモンセンス言語モデルは本当に一般化されるか?

Do Fine-tuned Commonsense Language Models Really Generalize? ( http://arxiv.org/abs/2011.09159v1 )

ライセンス: Link先を確認
Mayank Kejriwal and Ke Shen(参考訳) 近年,RoBERTaやGPT-3のようなトランスフォーマーベースの手法は,質問応答やコモンセンス推論などの自然言語処理タスクにおいて,大きな実験的進歩をもたらしている。 後者は通常、複数のベンチマークを通じて、前者の複数選択インスタンスとして評価される。 allen institute(commonsense reasoning benchmarksにおける最先端のパフォーマンスの評価)がホストする影響力のあるリーダボードによると、このようなトランスフォーマーメソッドに基づくモデルは、人間的なパフォーマンスに近づいており、多くのベンチマークで平均精度は80%以上である。 これらはcommonsenseベンチマークであるため、commonsense推論を一般化したモデルは、複数のcommonsenseベンチマークでパフォーマンス損失を多く経験するべきではない。 本稿では,厳密な科学的研究を設計・実施することで,一般化問題を詳細に研究する。 5つの共通ベンチマーク、複数の制御、統計分析を用いて、微調整されたコモンセンス言語モデルが実験装置に適度な変更を加えても、まだ十分に一般化できないという明確な証拠を見つけ、実際はデータセットバイアスの影響を受けやすいかもしれない。 また,質的・一貫性的分析を含む選択的研究を行い,より深い知見を得た。

Recently, transformer-based methods such as RoBERTa and GPT-3 have led to significant experimental advances in natural language processing tasks such as question answering and commonsense reasoning. The latter is typically evaluated through multiple benchmarks framed as multiple-choice instances of the former. According to influential leaderboards hosted by the Allen Institute (evaluating state-of-the-art performance on commonsense reasoning benchmarks), models based on such transformer methods are approaching human-like performance and have average accuracy well over 80% on many benchmarks. Since these are commonsense benchmarks, a model that generalizes on commonsense reasoning should not experience much performance loss across multiple commonsense benchmarks. In this paper, we study the generalization issue in detail by designing and conducting a rigorous scientific study. Using five common benchmarks, multiple controls and statistical analysis, we find clear evidence that fine-tuned commonsense language models still do not generalize well, even with moderate changes to the experimental setup, and may, in fact, be susceptible to dataset bias. We also perform selective studies, including qualitative and consistency analyses, to gain deeper insight into the problem.
翻訳日:2022-09-24 03:18:21 公開日:2020-11-18