このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210512となっている論文です。

PDF登録状況(公開日: 20210512)

TitleAuthorsAbstract論文公表日・翻訳日
# 完全サンプリングされた接地真実を伴わない相互加速MRI合成の半教師付き学習

Semi-Supervised Learning of Mutually Accelerated MRI Synthesis without Fully-Sampled Ground Truths ( http://arxiv.org/abs/2011.14347v2 )

ライセンス: Link先を確認
Mahmut Yurt, Salman Ul Hassan Dar, Muzaffer \"Ozbey, Berk T{\i}naz, Kader Karl{\i} O\u{g}uz, Tolga \c{C}ukur(参考訳) 学習ベースの合成マルチコントラストMRIは、ソースとターゲットのドメインサンプルがペアリングされているかペアリングされていないかに関わらず、ソースとターゲットのコントラストの高品質な画像を使用して訓練されたディープモデルを必要とする。 これにより、全MRIコントラストの完全サンプリングによる取得が望ましくないため、スキャンコストや時間に制限があるため、現実的でない可能性がある。 本稿では,ソースコントラストとターゲットコントラストの加速取得から直接高品質な対象画像の復元を学習する,新しい半教師付き深層生成モデルを提案する。 これを実現するために,提案モデルでは,画像,k空間,対向領域における新たなマルチコイルテンソル損失を導入した。 これらの選択的損失は、取得したk空間サンプルのみに基づいており、取得したk空間領域と取得されていないk空間領域の関係を捉えるために、被験者間でランダム化されたサンプリングマスクが使用される。 マルチコントラストニューロイメージングデータセットに関する包括的実験は、半教師付きアプローチがゴールド標準の完全教師付きモデルと同等のパフォーマンスをもたらすことを証明し、アンサンプリングされたデータの再構成に基づいて合成を学習するカスケード型アプローチよりも優れています。 そこで, 提案手法は, コントラストセットとk空間をまたいで相互にアンサンプされた加速MRI取得の実現可能性と有用性の向上に大きく貢献する。

Learning-based synthetic multi-contrast MRI commonly involves deep models trained using high-quality images of source and target contrasts, regardless of whether source and target domain samples are paired or unpaired. This results in undesirable reliance on fully-sampled acquisitions of all MRI contrasts, which might prove impractical due to limitations on scan costs and time. Here, we propose a novel semi-supervised deep generative model that instead learns to recover high-quality target images directly from accelerated acquisitions of source and target contrasts. To achieve this, the proposed model introduces novel multi-coil tensor losses in image, k-space and adversarial domains. These selective losses are based only on acquired k-space samples, and randomized sampling masks are used across subjects to capture relationships among acquired and non-acquired k-space regions. Comprehensive experiments on multi-contrast neuroimaging datasets demonstrate that our semi-supervised approach yields equivalent performance to gold-standard fully-supervised models, while outperforming a cascaded approach that learns to synthesize based on reconstructions of undersampled data. Therefore, the proposed approach holds great promise to improve the feasibility and utility of accelerated MRI acquisitions mutually undersampled across both contrast sets and k-space.
翻訳日:2021-06-07 08:57:37 公開日:2021-05-12
# 少数の学習をより強くするアンサンブル

Ensemble Making Few-Shot Learning Stronger ( http://arxiv.org/abs/2105.11904v1 )

ライセンス: Link先を確認
Qing Lin, Yongbin Liu, Wen Wen, Zhihua Tao(参考訳) さまざまなタスクを完了するための有効な手段として、数少ない学習が提案され、急速に発展している。 多くの少数ショットモデルが関係学習に広く使われている。 しかし、これらのモデルには、例えば、長距離依存関係のcnn、ローカル機能でのtransformerなど、セマンティック機能の特定の側面を捉えることが欠けている。 一つのモデルが様々な関係学習に適応することは困難であり、結果として高分散問題が発生する。 アンサンブル戦略は、数発の関係抽出の精度を改善し、高い分散リスクを軽減するために競争する可能性がある。 本稿では,分散を小さくするためのアンサンブル手法を検討し,関係レベルの特徴を校正するために,微調整と特徴注意戦略を導入する。 数ショットの相関学習タスクの結果、我々のモデルは従来の最先端モデルよりも大幅に優れていた。

Few-shot learning has been proposed and rapidly emerging as a viable means for completing various tasks. Many few-shot models have been widely used for relation learning tasks. However, each of these models has a shortage of capturing a certain aspect of semantic features, for example, CNN on long-range dependencies part, Transformer on local features. It is difficult for a single model to adapt to various relation learning, which results in the high variance problem. Ensemble strategy could be competitive on improving the accuracy of few-shot relation extraction and mitigating high variance risks. This paper explores an ensemble approach to reduce the variance and introduces fine-tuning and feature attention strategies to calibrate relation-level features. Results on several few-shot relation learning tasks show that our model significantly outperforms the previous state-of-the-art models.
翻訳日:2021-06-06 08:50:08 公開日:2021-05-12
# ラテンアメリカにおけるsars-cov-2とcovid-19に関する実用的予防ガイドラインは、機械学習技術と人工知能に触発されたものである。 事例研究:コロンビア

Some Pragmatic Prevention's Guidelines regarding SARS-CoV-2 and COVID-19 in Latin-America inspired by mixed Machine Learning Techniques and Artificial Mathematical Intelligence. Case Study: Colombia ( http://arxiv.org/abs/2105.12213v1 )

ライセンス: Link先を確認
Danny A. J. Gomez-Ramirez, Yoe A. Herrera-Jaramillo, Johana C. Ortega-Giraldo, Alex M. Ardila-Garcia(参考訳) 我々は、特定のAI技術、意見マイニング、人工数学的知能(AMI)と、新型コロナウイルスSARS-CoV-2の拡散とコロンビアでのCOVID-19感染症の発生に関する公開データを組み合わせた強化された方法論を使用している。 その結果,AMIに出現する基本認知メカニズムのグローバルな分類と,コロンビアの公衆衛生や主流ソーシャルメディアからの適切な文脈情報から得られた概念的ツールとともに,コロンビアにおける初期安全・安定生活環境の再構築のための具体的な予防ガイドラインを,同様のラテンアメリカ諸国で拡張的に述べることができた。 より具体的には, (1) 創造的可視化と効果的な計画, 2) 建設的言語フレームワークの継続的な利用, 3) 美的ルーチンの頻繁かつ適度な使用,の3つのガイドラインについて述べる。 生物学的な観点からではなく、認知的・行動的な観点から効果的なツールとして理解すべきである。 さらに、第1の2つのガイドラインは、人間全体に対するCOVID-19の世界的な影響に関する第3のガイドラインと一体的な協力で承認されるべきである。

We use an enhanced methodology combining specific forms of AI techniques, opinion mining and artificial mathematical intelligence (AMI), with public data on the spread of the coronavirus SARS-CoV-2 and the incidence of COVID-19 disease in Colombia during the first three months since the first reported positive case. The results obtained, together with conceptual tools coming from the global taxonomy of fundamental cognitive mechanisms emerging in AMI and with suitable contextual information from Colombian public health and mainstream social media, allowed us to stating specific preventive guidelines for a better restructuring of initial safe and stable life conditions in Colombia, and in an extended manner in similar Latin American Countries. More specifically, we describe three major guidelines: 1) regular creative visualization and effective planning, 2) the continuous use of constructive linguistic frameworks, and 3) frequent and moderate use of kinesthetic routines. They should be understood as effective tools from a cognitive and behavioural perspective, rather than from a biological one. Even more, the first two guidelines should be acknowledged in integral cooperation with the third one regarding the global effect of COVID-19 in human beings as a whole, this includes the mind and body.
翻訳日:2021-06-06 08:49:18 公開日:2021-05-12
# PV-RAFT:点雲のシーンフロー推定のための点-軸相関場

PV-RAFT: Point-Voxel Correlation Fields for Scene Flow Estimation of Point Clouds ( http://arxiv.org/abs/2012.00987v2 )

ライセンス: Link先を確認
Yi Wei, Ziyi Wang, Yongming Rao, Jiwen Lu, Jie Zhou(参考訳) 本稿では,点雲からのシーンフローを推定するPV-RAFT法を提案する。 点雲は不規則で秩序がないため、3次元空間における全対の場から特徴を効率的に抽出することは困難であり、全対の相関がシーンフロー推定において重要な役割を果たす。 この問題に対処するために、点対の局所的および長距離的依存関係をキャプチャする点-ボクセル相関場を提案する。 点に基づく相関を捉えるために,k-nearest近傍探索を適用し,局所領域のきめ細かい情報を保存する。 複数スケールで点雲を酸化することにより、長距離対応をモデル化するためのピラミッド相関ボクセルを構築する。 PV-RAFTは,これら2種類の相関関係を統合し,全対関係を用いて,小型・大型の変位の両処理を行う。 提案手法をFlyingThings3DとKITTI Scene Flow 2015データセットで評価した。 実験の結果,PV-RAFTは最先端手法よりも顕著に優れていた。

In this paper, we propose a Point-Voxel Recurrent All-Pairs Field Transforms (PV-RAFT) method to estimate scene flow from point clouds. Since point clouds are irregular and unordered, it is challenging to efficiently extract features from all-pairs fields in the 3D space, where all-pairs correlations play important roles in scene flow estimation. To tackle this problem, we present point-voxel correlation fields, which capture both local and long-range dependencies of point pairs. To capture point-based correlations, we adopt the K-Nearest Neighbors search that preserves fine-grained information in the local region. By voxelizing point clouds in a multi-scale manner, we construct pyramid correlation voxels to model long-range correspondences. Integrating these two types of correlations, our PV-RAFT makes use of all-pairs relations to handle both small and large displacements. We evaluate the proposed method on the FlyingThings3D and KITTI Scene Flow 2015 datasets. Experimental results show that PV-RAFT outperforms state-of-the-art methods by remarkable margins.
翻訳日:2021-05-25 04:00:43 公開日:2021-05-12
# 神経テレポーテーション

Neural Teleportation ( http://arxiv.org/abs/2012.01118v2 )

ライセンス: Link先を確認
Marco Armenta, Thierry Judge, Nathan Painchaud, Youssef Skandarani, Carl Lemaire, Gabriel Gibeau Sanchez, Philippe Spino, Pierre-Marc Jodoin(参考訳) 本稿では,ニューラルネットワークの重み付けを初期化し,より高速な収束を実現するための簡単な操作であるニューラルテレポーテーションを紹介する。 神経テレポーテーション(neural teleportation)は、クイバー表現の同型をニューラルネットワークに適用した結果である。 このプロセスは、入出力関数を変更せずに、重み空間内の新しい位置へネットワークを「テイルポート」する。 ニューラルテレポーテーションの概念は、あらゆるニューラルネットワークアーキテクチャ、アクティベーション機能、タスクに一般化される。 ネットワークを初期化速度-アップ収束時にテレポーティングする、という仮説を検証する実験がいくつか実施されている。 最後に,テレポーテーションに関する数学的および経験的な知見について述べる。

In this paper, we introduce neural teleportation, a simple operation one can use to initialize the weights of a neural network and gain faster convergence. Neural teleportation is the consequence of applying isomorphisms of quiver representations to neural networks. This process "teleports" a network to a new position in the weight space while leaving its input-to-output function unchanged. The concept of neural teleportation generalizes to any neural network architecture, activation function and task. We run several experiments that validate our hypothesis: teleporting a network at initialization speeds-up convergence. Finally, we discuss several mathematical and empirical findings concerning teleportation.
翻訳日:2021-05-25 03:45:22 公開日:2021-05-12
# 顔認識のための共同顔画像復元とフロンダリゼーション

Joint Face Image Restoration and Frontalization for Recognition ( http://arxiv.org/abs/2105.09907v1 )

ライセンス: Link先を確認
Xiaoguang Tu, Jian Zhao, Qiankun Liu, Wenjie Ai, Guodong Guo, Zhifeng Li, Wei Liu, and Jiashi Feng(参考訳) 現実世界のシナリオでは、大きなポーズ、悪い照明、低解像度、ぼやけ、ノイズなど、多くの要因が顔認識性能を損なう可能性がある。 これらの課題に対処するため、以前の取り組みは通常、まず品質の低い顔から高品質な顔に復元し、次に顔認識を行う。 しかし、これらの手法のほとんどは段階的であり、それは準最適であり、現実から逸脱する。 本稿では,これらすべての課題を,制約のない顔認識のために共同で解決する。 そこで本研究では, 任意の顔ポーズ下での低品質顔から表向きの高画質顔の復元を目的としたマルチデグレード顔復元(mdfr)モデルを提案する。 まず、MDFRは、任意の低品質要素で入力顔画像から特徴表現を抽出し、それを高品質に復元する、よく設計されたエンコーダデコーダアーキテクチャである。 第二に、MDFRは3DベースのPose Normalization Module (PNM)とともにポーズ残留学習戦略を導入し、入力された初期ポーズと実際の正面ポーズの間のポーズギャップを知覚し、顔の正面化を導く。 最後に、mdfrは、単一の統一ネットワークによって、前面化された高品質の顔画像を生成することができ、顔のアイデンティティを保存する強力な能力を示す。 制御されたベンチマークと内部ベンチマークの質的および定量的実験は、顔のフロンダル化と顔の復元における最先端の手法よりもMDFRの方が優れていることを示した。

In real-world scenarios, many factors may harm face recognition performance, e.g., large pose, bad illumination,low resolution, blur and noise. To address these challenges, previous efforts usually first restore the low-quality faces to high-quality ones and then perform face recognition. However, most of these methods are stage-wise, which is sub-optimal and deviates from the reality. In this paper, we address all these challenges jointly for unconstrained face recognition. We propose an Multi-Degradation Face Restoration (MDFR) model to restore frontalized high-quality faces from the given low-quality ones under arbitrary facial poses, with three distinct novelties. First, MDFR is a well-designed encoder-decoder architecture which extracts feature representation from an input face image with arbitrary low-quality factors and restores it to a high-quality counterpart. Second, MDFR introduces a pose residual learning strategy along with a 3D-based Pose Normalization Module (PNM), which can perceive the pose gap between the input initial pose and its real-frontal pose to guide the face frontalization. Finally, MDFR can generate frontalized high-quality face images by a single unified network, showing a strong capability of preserving face identity. Qualitative and quantitative experiments on both controlled and in-the-wild benchmarks demonstrate the superiority of MDFR over state-of-the-art methods on both face frontalization and face restoration.
翻訳日:2021-05-21 19:18:39 公開日:2021-05-12
# ベイジアンニューラルネットワークのための高性能fpgaベース加速器

High-Performance FPGA-based Accelerator for Bayesian Neural Networks ( http://arxiv.org/abs/2105.09163v1 )

ライセンス: Link先を確認
Hongxiang Fan, Martin Ferianc, Miguel Rodrigues, Hongyu Zhou, Xinyu Niu and Wayne Luk(参考訳) ニューラルネットワーク(NN)は、画像認識、意思決定、レコメンデーションシステムなど、幅広いアプリケーションでその可能性を実証している。 しかし、標準NNは、医療や自動運転車を含む多くの安全上重要なアプリケーションにとって重要なモデル不確実性を捉えることができない。 対照的に、ベイジアンニューラルネットワーク(BNN)は数学的接地を通して予測の不確実性を表現することができる。 しかしながら、BNNは高価な計算コストと限られたハードウェア性能のため、工業的にはあまり使われていない。 本研究は,モンテカルロ・ドロップアウトから推定されるBNNを高速化するFPGAベースのハードウェアアーキテクチャを提案する。 他の最先端のbnn加速器と比較して、提案された加速器は最大4倍のエネルギー効率と9倍の計算効率を達成できる。 部分ベイズ推論を考慮し、ハードウェアとアルゴリズム性能のトレードオフを探求する自動フレームワークを提案する。 提案するフレームワークが設計空間の最適点を効果的に発見できることを実証するために大規模な実験を行った。

Neural networks (NNs) have demonstrated their potential in a wide range of applications such as image recognition, decision making or recommendation systems. However, standard NNs are unable to capture their model uncertainty which is crucial for many safety-critical applications including healthcare and autonomous vehicles. In comparison, Bayesian neural networks (BNNs) are able to express uncertainty in their prediction via a mathematical grounding. Nevertheless, BNNs have not been as widely used in industrial practice, mainly because of their expensive computational cost and limited hardware performance. This work proposes a novel FPGA-based hardware architecture to accelerate BNNs inferred through Monte Carlo Dropout. Compared with other state-of-the-art BNN accelerators, the proposed accelerator can achieve up to 4 times higher energy efficiency and 9 times better compute efficiency. Considering partial Bayesian inference, an automatic framework is proposed, which explores the trade-off between hardware and algorithmic performance. Extensive experiments are conducted to demonstrate that our proposed framework can effectively find the optimal points in the design space.
翻訳日:2021-05-20 18:30:12 公開日:2021-05-12
# (参考訳) 意識的なAI [全文訳有]

Conscious AI ( http://arxiv.org/abs/2105.07879v1 )

ライセンス: CC BY 4.0
Hadi Esmaeilzadeh and Reza Vaezi(参考訳) 人工知能(AI)の最近の進歩は、分類タスクの人間のスケールのスピードと精度を実現している。 結果として、これらの能力により、aiは、低レベルのサービスジョブにおける基本的な機械的および分析的タスクのような分類を含む多くのヒューマンアクティビティの代替となる。 現在のシステムは、パターンを認識して分類する必要はない。 しかし、AIが直感や共感を必要とするより複雑なタスクに進むためには、メタ思考、創造性、共感などの能力が人間の自己認識や意識に似ています。 このようなパラダイムシフトは、自然選択と進化のプロセスを通じて人間に起こったことと同様の、意識に対する人工知能の状態の根本的なシフトによってのみ可能と論じる。 そこで本稿は,AIにおける意識の出現要件を理論的に検討することを目的とする。 また、人間と言語的に区別できない機械を最終的に作り出そうとする支配的なパラダイムとは対照的に、意識的なAIがどのように検出され、どのように表現されるかという原則的な理解も提供する。

Recent advances in artificial intelligence (AI) have achieved human-scale speed and accuracy for classification tasks. In turn, these capabilities have made AI a viable replacement for many human activities that at their core involve classification, such as basic mechanical and analytical tasks in low-level service jobs. Current systems do not need to be conscious to recognize patterns and classify them. However, for AI to progress to more complicated tasks requiring intuition and empathy, it must develop capabilities such as metathinking, creativity, and empathy akin to human self-awareness or consciousness. We contend that such a paradigm shift is possible only through a fundamental shift in the state of artificial intelligence toward consciousness, a shift similar to what took place for humans through the process of natural selection and evolution. As such, this paper aims to theoretically explore the requirements for the emergence of consciousness in AI. It also provides a principled understanding of how conscious AI can be detected and how it might be manifested in contrast to the dominant paradigm that seeks to ultimately create machines that are linguistically indistinguishable from humans.
翻訳日:2021-05-20 07:12:05 公開日:2021-05-12
# (参考訳) 双極波に対する準曲面の逆設計のための深層学習手法 [全文訳有]

A deep learning approach for inverse design of the metasurface for dual-polarized waves ( http://arxiv.org/abs/2105.08508v1 )

ライセンス: CC BY 4.0
Fardin Ghorbani, Javad Shabanpour, Sina Beyraghi, Hossein Soleimani, Homayoon Oraizi, Mohammad Soleimani(参考訳) 従来のメタ曲面設計と比較して、機械学習に基づく手法は、最近、メタ曲面の逆実現のための刺激的なプラットフォームを作成した。 本稿では,TE波とTM波の両方に対して,超広帯域の作業周波数帯における出力単位セル構造の生成にDeep Neural Network(DNN)を用いた。 4 GHz から45 GHz までの広い作業周波数でメタ曲面を自動生成するため,データセットで生成した単位セルが所望の作業周波数帯で単一または複数ノッチを生成できるように 8 個のリング状のパターンを意図的に設計する。 最終メタサーフェス構造はランダムに分布する「0」と「1」のいずれでも形成できるという一般的なアプローチと比較して、ここでは制限された出力構造を提案する。 出力を制限することにより、計算回数を削減し、学習速度を増加させる。 さらに,ネットワークの精度が91\%に達することを示した。 TE波とTM波の両方の時間的最適化アルゴリズムを使わずに最終単位セルを直接確保し、高い平均精度でメタ曲面設計の効果的な戦略を約束するので、設計者は設計目標のみに集中する必要がある。

Compared to the conventional metasurface design, machine learning-based methods have recently created an inspiring platform for an inverse realization of the metasurfaces. Here, we have used the Deep Neural Network (DNN) for the generation of desired output unit cell structures in an ultra-wide working frequency band for both TE and TM polarized waves. To automatically generate metasurfaces in a wide range of working frequencies from 4 to 45 GHz, we deliberately design an 8 ring-shaped pattern in such a way that the unit-cells generated in the dataset can produce single or multiple notches in the desired working frequency band. Compared to the general approach, whereby the final metasurface structure may be formed by any randomly distributed "0" and "1", we propose here a restricted output structure. By restricting the output, the number of calculations will be reduced and the learning speed will be increased. Moreover, we have shown that the accuracy of the network reaches 91\%. Obtaining the final unit cell directly without any time-consuming optimization algorithms for both TE and TM polarized waves, and high average accuracy, promises an effective strategy for the metasurface design; thus, the designer is required only to focus on the design goal.
翻訳日:2021-05-20 06:55:26 公開日:2021-05-12
# MMGET:一般化エビデンス理論のためのマルコフモデル

MMGET: A Markov model for generalized evidence theory ( http://arxiv.org/abs/2105.07952v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 実生活では、多くの情報が時折融合します。 実際の状況を適切に記述するために、多くの理論が提案されている。 中でも、デンプスター・シェーファー証拠理論は不確定な情報を管理するのに非常に有用である。 オープンワールドの複雑な状況に適応するために、一般化されたエビデンス理論が設計されている。 しかし、すべてが順番に発生し、互いに基礎となる関係を持つ。 情報の詳細をさらに具現化し、実世界の状況に適合させるため、マルコフモデルは、提供された証拠から完全な情報量を抽出する一般的なエビデンス理論に導入される。 さらに,提案手法の正当性と合理性を検証する数値例も提案されている。

In real life, lots of information merges from time to time. To appropriately describe the actual situations, lots of theories have been proposed. Among them, Dempster-Shafer evidence theory is a very useful tool in managing uncertain information. To better adapt to complex situations of open world, a generalized evidence theory is designed. However, everything occurs in sequence and owns some underlying relationships with each other. In order to further embody the details of information and better conforms to situations of real world, a Markov model is introduced into the generalized evidence theory which helps extract complete information volume from evidence provided. Besides, some numerical examples is offered to verify the correctness and rationality of the proposed method.
翻訳日:2021-05-18 17:21:50 公開日:2021-05-12
# (参考訳) ポメラニアにおける廃棄物検出--環境廃棄物検出のための非営利プロジェクト [全文訳有]

Waste detection in Pomerania: non-profit project for detecting waste in environment ( http://arxiv.org/abs/2105.06808v1 )

ライセンス: CC BY 4.0
Sylwia Majchrowska, Agnieszka Miko{\l}ajczyk, Maria Ferlin, Zuzanna Klawikowska, Marta A. Plantykow, Arkadiusz Kwasigroch, Karol Majek(参考訳) 廃棄物汚染は現代世界で最も重要な環境問題の一つである。 リサイクルの重要性は経済的にも生態学的にもよく知られており、産業は高い効率を要求する。 研究チームは, 世界の廃棄物汚染問題と闘うために, 廃棄物検出と分類における人工知能の利用に関する包括的な研究を行った。 その結果,リッターの検出と分類を可能にするオープンソースフレームワークが開発された。 最後のパイプラインは2つのニューラルネットワークで構成されており、ひとつはリッターを検出し、もうひとつはリッター分類に責任を持つ。 廃棄物は, バイオ, ガラス, 金属, プラスチック, 非リサイクル性, その他, 紙, 未知の7種類に分類される。 提案手法は, 廃棄物検出における平均精度の70%, テストデータセットにおける分類精度の約75%を達成する。 研究で使用されたコードはオンラインで公開されている。

Waste pollution is one of the most significant environmental issues in the modern world. The importance of recycling is well known, either for economic or ecological reasons, and the industry demands high efficiency. Our team conducted comprehensive research on Artificial Intelligence usage in waste detection and classification to fight the world's waste pollution problem. As a result an open-source framework that enables the detection and classification of litter was developed. The final pipeline consists of two neural networks: one that detects litter and a second responsible for litter classification. Waste is classified into seven categories: bio, glass, metal and plastic, non-recyclable, other, paper and unknown. Our approach achieves up to 70% of average precision in waste detection and around 75% of classification accuracy on the test dataset. The code used in the studies is publicly available online.
翻訳日:2021-05-18 03:07:35 公開日:2021-05-12
# (参考訳) tablex: 科学表から構造化およびコンテンツ情報抽出のためのベンチマークデータセット [全文訳有]

TabLeX: A Benchmark Dataset for Structure and Content Information Extraction from Scientific Tables ( http://arxiv.org/abs/2105.06400v1 )

ライセンス: CC BY 4.0
Harsh Desai, Pratik Kayal, Mayank Singh(参考訳) 学術論文の表から情報抽出(IE)は複雑な表表表現と複雑な組込みテキストのために困難である。 本稿では,学術論文から生成された表画像からなる大規模ベンチマークデータセットTabLeXを提案する。 TabLeXは2つのサブセットで構成されており、1つはテーブル構造抽出用、もう1つはテーブルコンテンツ抽出用である。 各テーブルイメージには対応するLATEXソースコードが添付されている。 堅牢なテーブルIEツールの開発を容易にするため、TabLeXにはさまざまなアスペクト比とさまざまなフォントのイメージが含まれている。 分析の結果,現状のテーブル抽出モデルの欠点が明らかとなり,単純なテーブル画像でも失敗することが判明した。 最後に、パフォーマンススコアを報告するためにトランスフォーマティブベースの既存のベースラインを実験する。 静的ベンチマークとは対照的に、このデータセットはより複雑で多様なテーブルを一定間隔で拡張する予定である。

Information Extraction (IE) from the tables present in scientific articles is challenging due to complicated tabular representations and complex embedded text. This paper presents TabLeX, a large-scale benchmark dataset comprising table images generated from scientific articles. TabLeX consists of two subsets, one for table structure extraction and the other for table content extraction. Each table image is accompanied by its corresponding LATEX source code. To facilitate the development of robust table IE tools, TabLeX contains images in different aspect ratios and in a variety of fonts. Our analysis sheds light on the shortcomings of current state-of-the-art table extraction models and shows that they fail on even simple table images. Towards the end, we experiment with a transformer-based existing baseline to report performance scores. In contrast to the static benchmarks, we plan to augment this dataset with more complex and diverse tables at regular intervals.
翻訳日:2021-05-15 04:10:13 公開日:2021-05-12
# (参考訳) 光曲線からの外惑星検出のための片腕CNN [全文訳有]

A one-armed CNN for exoplanet detection from light curves ( http://arxiv.org/abs/2105.06292v1 )

ライセンス: CC BY 4.0
Koko Visser and Bas Bosma and Eric Postma(参考訳) 我々は、外惑星検出のための片腕簡易畳み込みニューラルネットワーク(CNN)であるGenesisを提案し、より複雑な2本腕CNNであるAstronetと比較した。 さらに,モンテカルロのクロスバリデーションが外惑星検出性能の推定に与える影響について検討した。 最後に,入力解像度を2倍にすることで,その性能への影響を評価する。 i) 生成の複雑さ、すなわち、フリーパラメータの数を95%以上減少させると、astronetと比較してパフォーマンスコストが約0.5%小さくなること、(ii) モンテカルロのクロスバリデーションは、当初の推定よりも約0.7%低いより現実的なパフォーマンス推定を提供し、(iii) 入力解像度の2倍の増加は、平均パフォーマンスを約0.5%減少させる。 より浅いCNNアーキテクチャの探索は、調査全体にわたるCNNベースの外惑星検出の一般化性を向上させるために有用である。

We propose Genesis, a one-armed simplified Convolutional Neural Network (CNN)for exoplanet detection, and compare it to the more complex, two-armed CNN called Astronet. Furthermore, we examine how Monte Carlo cross-validation affects the estimation of the exoplanet detection performance. Finally, we increase the input resolution twofold to assess its effect on performance. The experiments reveal that (i)the reduced complexity of Genesis, i.e., a more than 95% reduction in the number of free parameters, incurs a small performance cost of about 0.5% compared to Astronet, (ii) Monte Carlo cross-validation provides a more realistic performance estimate that is almost 0.7% below the original estimate, and (iii) the twofold increase in input resolution decreases the average performance by about 0.5%. We conclude by arguing that further exploration of shallower CNN architectures may be beneficial in order to improve the generalizability of CNN-based exoplanet detection across surveys.
翻訳日:2021-05-15 03:34:20 公開日:2021-05-12
# (参考訳) 箱から外へ:現実の世界を具体化したナビゲーション [全文訳有]

Out of the Box: Embodied Navigation in the Real World ( http://arxiv.org/abs/2105.05873v1 )

ライセンス: CC0 1.0
Roberto Bigazzi, Federico Landi, Marcella Cornia, Silvia Cascianelli, Lorenzo Baraldi and Rita Cucchiara(参考訳) Embodied AIの研究分野は、強力なシミュレーションプラットフォームと、屋内およびフォトリアリスティック環境の3Dデータの提供により、視覚ナビゲーションと探索の大幅な進歩を目撃している。 これらの2つの要因は、ほぼ完璧なポイントゴールナビゲーションを達成できる新しい世代のインテリジェントエージェントへの扉を開いた。 しかし、そのようなアーキテクチャは通常、数十億ではなく数百万のフレームで訓練され、シミュレーションでテストされる。 大きな熱意とともに、これらの結果は、何人の研究者がこれらの進歩から効果的に恩恵を受けるのか? 本研究では,シミュレーションで得られた知識を実世界へ伝達する方法を詳述する。 そこで本研究では,環境シミュレータでトレーニングされたモデルのsim2実適応能力を損なうアーキテクチャ上の不一致について述べるとともに,実世界のシナリオにおける配置を指向した新しいソリューションを提案する。 そして、私たちのモデルを1台のIntel RealSenseカメラを備えたローコストロボットであるLoCoBotにデプロイします。 これまでの作業とは異なり、私たちのテストシーンはシミュレーションでエージェントに利用できません。 環境は事前にエージェントにアクセスできないため、シーン固有のセマンティクスの優先順位はカウントできない。 このようにして、研究グループ(潜在的に他の分野から)がエージェントビジュアルナビゲーション機能をサービスとして利用する必要がある設定を再現する。 本実験は,実世界において得られたモデルをデプロイする場合,満足な結果が得られることを示す。 私たちのコードとモデルはhttps://github.com/a imagelab/loconavで利用可能です。

The research field of Embodied AI has witnessed substantial progress in visual navigation and exploration thanks to powerful simulating platforms and the availability of 3D data of indoor and photorealistic environments. These two factors have opened the doors to a new generation of intelligent agents capable of achieving nearly perfect PointGoal Navigation. However, such architectures are commonly trained with millions, if not billions, of frames and tested in simulation. Together with great enthusiasm, these results yield a question: how many researchers will effectively benefit from these advances? In this work, we detail how to transfer the knowledge acquired in simulation into the real world. To that end, we describe the architectural discrepancies that damage the Sim2Real adaptation ability of models trained on the Habitat simulator and propose a novel solution tailored towards the deployment in real-world scenarios. We then deploy our models on a LoCoBot, a Low-Cost Robot equipped with a single Intel RealSense camera. Different from previous work, our testing scene is unavailable to the agent in simulation. The environment is also inaccessible to the agent beforehand, so it cannot count on scene-specific semantic priors. In this way, we reproduce a setting in which a research group (potentially from other fields) needs to employ the agent visual navigation capabilities as-a-Service. Our experiments indicate that it is possible to achieve satisfying results when deploying the obtained model in the real world. Our code and models are available at https://github.com/a imagelab/LoCoNav.
翻訳日:2021-05-15 03:26:57 公開日:2021-05-12
# (参考訳) 言語グラフと単語埋め込みでコードネームをプレイする [全文訳有]

Playing Codenames with Language Graphs and Word Embeddings ( http://arxiv.org/abs/2105.05885v1 )

ライセンス: CC BY 4.0
Divya Koyyalagunta, Anna Sun, Rachel Lea Draelos, Cynthia Rudin(参考訳) ボードゲームやビデオゲームは人工知能の研究で何十年にもわたって研究されてきたが、挑戦的な単語ゲームは比較的未開拓のままである。 言葉ゲームはチェスやポーカーのようなゲームほど制約されない。 代わりに、ワードゲーム戦略は、単語同士の関連性に対するプレイヤーの理解によって定義される。 Game Codenamesという単語は、単語間の関係の常識的理解を研究するユニークな機会を提供する。 本稿では,言語グラフBabelNetや,Word2vec,GloVe,fast Text,BERTなどの埋め込み手法からCodenamesのヒントを生成するアルゴリズムを提案する。 本稿では,手掛かりの質を測る新たなスコアリング機能を導入し,辞書に基づく単語表現と文書の頻度を組み込んだ重み付け語DETECTを提案する。 我々はBabelNet-Word Selection Framework(BabelNet-W SF)を開発し、BabelNetの手がかり品質を改善し、これまでCodenameの言語グラフの活用を妨げていた計算障壁を克服した。 人間の評価装置による大規模な実験により、提案した技術革新が最先端のパフォーマンスを向上し、場合によっては最大102.8%の精度が向上することを示した。 全体として、この研究は、共通感覚言語理解のためのワードゲームとアプローチの形式的研究を前進させる。

Although board games and video games have been studied for decades in artificial intelligence research, challenging word games remain relatively unexplored. Word games are not as constrained as games like chess or poker. Instead, word game strategy is defined by the players' understanding of the way words relate to each other. The word game Codenames provides a unique opportunity to investigate common sense understanding of relationships between words, an important open challenge. We propose an algorithm that can generate Codenames clues from the language graph BabelNet or from any of several embedding methods - word2vec, GloVe, fastText or BERT. We introduce a new scoring function that measures the quality of clues, and we propose a weighting term called DETECT that incorporates dictionary-based word representations and document frequency to improve clue selection. We develop BabelNet-Word Selection Framework (BabelNet-WSF) to improve BabelNet clue quality and overcome the computational barriers that previously prevented leveraging language graphs for Codenames. Extensive experiments with human evaluators demonstrate that our proposed innovations yield state-of-the-art performance, with up to 102.8% improvement in precision@2 in some cases. Overall, this work advances the formal study of word games and approaches for common sense language understanding.
翻訳日:2021-05-15 03:17:11 公開日:2021-05-12
# (参考訳) 黒か白か中立か: 読者が黄色かスキントーンの絵文字から身元を認識 [全文訳有]

Black or White but never neutral: How readers perceive identity from yellow or skin-toned emoji ( http://arxiv.org/abs/2105.05887v1 )

ライセンス: CC BY 4.0
Alexander Robertson, Walid Magdy, Sharon Goldwater(参考訳) 社会学と言語学の研究は、人々は自分のアイデンティティを表現するだけでなく、他人のアイデンティティを理解するために言語を使用していることを示している。 近年の研究は、絵文字の肌色修飾子を用いて、ソーシャルメディア上でのアイデンティティ表現と絵文字使用の関連性を確立している。 この発見に動機づけられた本書は、言語と同様に、読者がそのような自己表現行為に敏感であるかどうかを問うもので、著者のアイデンティティを理解するためにそれらを使用する。 ソーシャルメディア投稿のテキストと絵文字のコンテンツが参加者に提示される前に注意深く制御された行動実験(n=488)では、肯定的な—絵文字は著者のアイデンティティの優れたシグナルである。 その信号は、言語でエンコードされたものと、相補的なものである。 参加者グループ(自己同一の民族に基づく)は、デフォルトの黄色の絵文字の場合を除いて、このシグナルをどのように知覚するかに何の差も示さなかった。 どちらのグループもこれを白人のアイデンティティと結びつけたが、白人の参加者では効果が強かった。 絵文字が社会変数をインデクシングできるという発見は、研究者にとって実験的な応用になるだけでなく、デザイナーにも影響をもたらすでしょう。

Research in sociology and linguistics shows that people use language not only to express their own identity but to understand the identity of others. Recent work established a connection between expression of identity and emoji usage on social media, through use of emoji skin tone modifiers. Motivated by that finding, this work asks if, as with language, readers are sensitive to such acts of self-expression and use them to understand the identity of authors. In behavioral experiments (n=488), where text and emoji content of social media posts were carefully controlled before being presented to participants, we find in the affirmative -- emoji are a salient signal of author identity. That signal is distinct from, and complementary to, the one encoded in language. Participant groups (based on self-identified ethnicity) showed no differences in how they perceive this signal, except in the case of the default yellow emoji. While both groups associate this with a White identity, the effect was stronger in White participants. Our finding that emoji can index social variables will have experimental applications for researchers but also implications for designers: supposedly ``neutral`` defaults may be more representative of some users than others.
翻訳日:2021-05-15 02:53:31 公開日:2021-05-12
# (参考訳) BERTよりはマシだが、ベースラインよりはマシだ [全文訳有]

Better than BERT but Worse than Baseline ( http://arxiv.org/abs/2105.05915v1 )

ライセンス: CC BY 4.0
Boxiang Liu, Jiaji Huang, Xingyu Cai, Kenneth Church(参考訳) 本稿では,abbreviation Definition Identification (ADI)タスクにおけるBERT-SQuADとAb3Pを比較した。 ADIはテキストを入力し、短いフォーム(略/誤記)と長いフォーム(例)を出力する。 BERTの再ランクはBERTよりも改善されるが、Ab3Pルールベースのベースラインに到達できない。 BERTに欠けているものは何か? rerankingはcharmatchとfreqという2つの新機能を導入した。 第1の機能は頭字語で文字の制約を利用する機会を識別し,第2の機能は文書間の頻度制約を利用する機会を識別する。

This paper compares BERT-SQuAD and Ab3P on the Abbreviation Definition Identification (ADI) task. ADI inputs a text and outputs short forms (abbreviations/acron yms) and long forms (expansions). BERT with reranking improves over BERT without reranking but fails to reach the Ab3P rule-based baseline. What is BERT missing? Reranking introduces two new features: charmatch and freq. The first feature identifies opportunities to take advantage of character constraints in acronyms and the second feature identifies opportunities to take advantage of frequency constraints across documents.
翻訳日:2021-05-15 02:25:55 公開日:2021-05-12
# (参考訳) ゼロショットマルチラベル分類のための意味的多様性学習 [全文訳有]

Semantic Diversity Learning for Zero-Shot Multi-label Classification ( http://arxiv.org/abs/2105.05926v1 )

ライセンス: CC BY 4.0
Avi Ben-Cohen, Nadav Zamir, Emanuel Ben Baruch, Itamar Friedman, Lihi Zelnik-Manor(参考訳) 画像に関連付けられた複数のラベルを識別するためのニューラルネットワークモデルをトレーニングすることは、特に多くの意味的に多様なラベルを描写する画像において困難である。 この課題が困難であるように、自然画像の画像検索など、現実世界の多くのケースを表現するため、取り組むことが必須の課題である。 イメージを1つの埋め込みベクトルで表現することは、一般的に行われているように、関連性のあるラベルと未知のラベルの両方を正確にランク付けするのに十分ではない。 本研究では、画像とラベルの意味的多様性をサポートするマルチラベルゼロショット学習のためのエンドツーエンドモデルトレーニングを提案する。 そこで本研究では, 主埋め込みベクトルを持つ埋め込み行列を相補的損失関数を用いて学習する手法を提案する。 さらに, 学習中, 組込み行列の多様性を促進するために, 高い意味的多様性を示す損失関数画像サンプルの重み付けを提案する。 提案手法は,複数の共通データセット(NUS-Wide,COCO,Open Images)において,タグベース画像検索におけるゼロショットモデルの品質向上を示す。

Training a neural network model for recognizing multiple labels associated with an image, including identifying unseen labels, is challenging, especially for images that portray numerous semantically diverse labels. As challenging as this task is, it is an essential task to tackle since it represents many real-world cases, such as image retrieval of natural images. We argue that using a single embedding vector to represent an image, as commonly practiced, is not sufficient to rank both relevant seen and unseen labels accurately. This study introduces an end-to-end model training for multi-label zero-shot learning that supports semantic diversity of the images and labels. We propose to use an embedding matrix having principal embedding vectors trained using a tailored loss function. In addition, during training, we suggest up-weighting in the loss function image samples presenting higher semantic diversity to encourage the diversity of the embedding matrix. Extensive experiments show that our proposed method improves the zero-shot model's quality in tag-based image retrieval achieving SoTA results on several common datasets (NUS-Wide, COCO, Open Images).
翻訳日:2021-05-15 02:18:19 公開日:2021-05-12
# (参考訳) 言語的特徴が言語間伝達に与える影響の分析 [全文訳有]

Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer ( http://arxiv.org/abs/2105.05975v1 )

ライセンス: CC BY 4.0
B{\l}a\.zej Dolicki and Gerasimos Spanakis(参考訳) 対象言語にデータが少ない、あるいは全くない場合には、異なる言語でのトレーニングが驚くほど良い結果をもたらすという証拠が増えている。 しかしながら、現在トレーニング(ソース)言語を選択するための確立したガイドラインは存在しない。 この問題を解決するため,我々は最先端の多言語モデルを分析し,言語間の良好な伝達にどのような影響を及ぼすかを見極めようとする。 多言語NLP文学の大多数とは対照的に、私たちは英語だけでなく、約30言語のグループでトレーニングしています。 また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。 構文的特徴の重要性は下流のタスクによって大きく異なり、すべてのNLPタスクに対して優れたパフォーマンス予測器となる機能は1つもない。 その結果、ターゲット言語である$L_1$に対して、すべてのNLPタスクに最適な言語である$L_2$(ブルガリア語では、最高のソース言語はPOSタグでフランス語、NERでロシア語、NLIでタイ語)が存在することを期待するべきではない。 本稿では,統計的および機械学習手法を用いて,伝達品質に影響を与える最も重要な言語的特徴について論じる。

There is an increasing amount of evidence that in cases with little or no data in a target language, training on a different language can yield surprisingly good results. However, currently there are no established guidelines for choosing the training (source) language. In attempt to solve this issue we thoroughly analyze a state-of-the-art multilingual model and try to determine what impacts good transfer between languages. As opposed to the majority of multilingual NLP literature, we don't only train on English, but on a group of almost 30 languages. We show that looking at particular syntactic features is 2-4 times more helpful in predicting the performance than an aggregated syntactic similarity. We find out that the importance of syntactic features strongly differs depending on the downstream task - no single feature is a good performance predictor for all NLP tasks. As a result, one should not expect that for a target language $L_1$ there is a single language $L_2$ that is the best choice for any NLP task (for instance, for Bulgarian, the best source language is French on POS tagging, Russian on NER and Thai on NLI). We discuss the most important linguistic features affecting the transfer quality using statistical and machine learning methods.
翻訳日:2021-05-15 02:04:03 公開日:2021-05-12
# (参考訳) DONet:高速MR画像再構成のためのデュアルオクタベネットワーク [全文訳有]

DONet: Dual-Octave Network for Fast MR Image Reconstruction ( http://arxiv.org/abs/2105.05980v1 )

ライセンス: CC BY 4.0
Chun-Mei Feng, Zhanyuan Yang, Huazhu Fu, Yong Xu, Jian Yang, Ling Shao(参考訳) 磁気共鳴(MR)画像取得は本質的に長いプロセスであり、その加速は長い間研究の対象となっている。 これは、並列イメージングによって、複数のアンダーサンプリング画像を同時に取得することで、一般的に実現される。 本稿では,MR画像の高速並列化のために,MRデータの実像と虚像の両方から,マルチスケールの空間周波数特徴を学習できるDual-Octave Network(DONet)を提案する。 より具体的に言うと、私たちのDONetはDual-Octaveの畳み込み(Dual-OctConv)で構成されています。 各dual-octconvでは、入力特徴写像と畳み込み核はまず2つの成分(ie, real, imaginary)に分割され、その後空間周波数に応じて4つのグループに分割される。 次に、グループ内情報更新およびグループ間情報交換を行い、異なるグループ間でコンテキスト情報を集約する。 i) 様々な空間周波数における現実と想像上のコンポーネント間の情報相互作用と融合を促進し、よりリッチな表現能力を達成する。 (ii)各双対octconvにおける実数群と虚数群の間の密接な接続は、特徴の再利用により、特徴の伝播をより効率的にする。 (iii)dontは、実成分と虚成分の両方の複数の空間周波数特徴を学習することで受容場を拡大する。 異なるアンダーサンプリングパターンとアクセラレーション因子による2つの一般的なデータセット(e, 臨床膝, 高速MRI)の広範囲な実験により, 並列MR画像再構成におけるモデルの有用性が示された。

Magnetic resonance (MR) image acquisition is an inherently prolonged process, whose acceleration has long been the subject of research. This is commonly achieved by obtaining multiple undersampled images, simultaneously, through parallel imaging. In this paper, we propose the Dual-Octave Network (DONet), which is capable of learning multi-scale spatial-frequency features from both the real and imaginary components of MR data, for fast parallel MR image reconstruction. More specifically, our DONet consists of a series of Dual-Octave convolutions (Dual-OctConv), which are connected in a dense manner for better reuse of features. In each Dual-OctConv, the input feature maps and convolutional kernels are first split into two components (ie, real and imaginary), and then divided into four groups according to their spatial frequencies. Then, our Dual-OctConv conducts intra-group information updating and inter-group information exchange to aggregate the contextual information across different groups. Our framework provides three appealing benefits: (i) It encourages information interaction and fusion between the real and imaginary components at various spatial frequencies to achieve richer representational capacity. (ii) The dense connections between the real and imaginary groups in each Dual-OctConv make the propagation of features more efficient by feature reuse. (iii) DONet enlarges the receptive field by learning multiple spatial-frequency features of both the real and imaginary components. Extensive experiments on two popular datasets (ie, clinical knee and fastMRI), under different undersampling patterns and acceleration factors, demonstrate the superiority of our model in accelerated parallel MR image reconstruction.
翻訳日:2021-05-15 01:48:59 公開日:2021-05-12
# (参考訳) トランスファーラーニングによるコード自動補完の改善 [全文訳有]

Improving Code Autocompletion with Transfer Learning ( http://arxiv.org/abs/2105.05991v1 )

ライセンス: CC BY 4.0
Wen Zhou, Seohyun Kim, Vijayaraghavan Murali, Gareth Ari Aye(参考訳) ソフトウェア言語モデルは、コード補完の使用を予測する有望な結果を達成した。 近年,プログラマのIDEアクティビティから収集した実世界のデータセットのトレーニングから,自動補完予測の精度が12.8%向上した。 しかし、ターゲットプログラミング言語におけるIDE自動補完の限られた例がモデルトレーニングに利用できるとしたらどうだろう? 本稿では,非ide,非オートコンプリート,異言語サンプルコード列に対する事前学習型オートコンプリートモデルの有効性について検討する。 これらの教師なし事前トレーニングは、非常に小さな微調整データセットで50%以上、50kラベル付き例で10%以上、モデルの精度を向上させる。 私たちは、A/Bテストを通じて、何千ものIDEオートコンプリートユーザに対して、これらの事前トレーニングの実際の影響を確認します。

Software language models have achieved promising results predicting code completion usages, and several industry studies have described successful IDE integrations. Recently, accuracy in autocompletion prediction improved 12.8% from training on a real-world dataset collected from programmers' IDE activity. But what if limited examples of IDE autocompletion in the target programming language are available for model training? In this paper, we investigate the efficacy of pretraining autocompletion models on non-IDE, non-autocompletion, and different-language example code sequences. We find that these unsupervised pretrainings improve model accuracy by over 50% on very small fine-tuning datasets and over 10% on 50k labeled examples. We confirm the real-world impact of these pretrainings in an online setting through A/B testing on thousands of IDE autocompletion users, finding that pretraining is responsible for increases of up to 6.63% autocompletion usage.
翻訳日:2021-05-15 01:25:12 公開日:2021-05-12
# (参考訳) 低リソース言語に対する多言語攻撃言語識別 [全文訳有]

Multilingual Offensive Language Identification for Low-resource Languages ( http://arxiv.org/abs/2105.05996v1 )

ライセンス: CC BY 4.0
Tharindu Ranasinghe, Marcos Zampieri(参考訳) 悪質なコンテンツはソーシャルメディアに広まり、企業や政府機関への懸念の理由となっている。 このような内容の様々な形態(例)を検出するための研究手法が最近いくつか発表された。 ヘイトスピーチ、サイバーいじめ、サイバー攻撃)。 これらの研究の大部分が英語を扱うのは、ほとんどの注釈付きデータセットが英語のデータを含んでいるためである。 本稿では,低リソース言語における言語間文脈単語埋め込みと伝達学習を適用して,利用可能な英語データセットを活用する。 我々は、アラビア語、ベンガル語、デンマーク語、ギリシャ語、ヒンディー語、スペイン語、トルコ語で比較データに基づいて予測を行う。 trac-2 タスクにおける bengali の 0.8415 f1 マクロ、デンマーク語では 0.8532 f1マクロ、ギリシャ語では 0.8701 f1マクロ、hasoc 2019 タスクでは 0.8568 f1マクロ、スペイン語では 0.7513 f1マクロ、semeval-2019 task 5 (hateval) では、我々のアプローチが、これら3つの言語で最近共有タスクに提出された最良のシステムと比較できることを示した。 さらに,offenseval 2020共有タスクのトレーニングと開発セットを用いて,アラビア語とトルコ語の競争力を報告した。 すべての言語での結果は、このタスクに対する言語間コンテキスト埋め込みと転送学習のロバスト性を確認した。

Offensive content is pervasive in social media and a reason for concern to companies and government organizations. Several studies have been recently published investigating methods to detect the various forms of such content (e.g. hate speech, cyberbullying, and cyberaggression). The clear majority of these studies deal with English partially because most annotated datasets available contain English data. In this paper, we take advantage of available English datasets by applying cross-lingual contextual word embeddings and transfer learning to make predictions in low-resource languages. We project predictions on comparable data in Arabic, Bengali, Danish, Greek, Hindi, Spanish, and Turkish. We report results of 0.8415 F1 macro for Bengali in TRAC-2 shared task, 0.8532 F1 macro for Danish and 0.8701 F1 macro for Greek in OffensEval 2020, 0.8568 F1 macro for Hindi in HASOC 2019 shared task and 0.7513 F1 macro for Spanish in in SemEval-2019 Task 5 (HatEval) showing that our approach compares favourably to the best systems submitted to recent shared tasks on these three languages. Additionally, we report competitive performance on Arabic, and Turkish using the training and development sets of OffensEval 2020 shared task. The results for all languages confirm the robustness of cross-lingual contextual embeddings and transfer learning for this task.
翻訳日:2021-05-15 01:11:28 公開日:2021-05-12
# 消音変圧器による綴り補正

Spelling Correction with Denoising Transformer ( http://arxiv.org/abs/2105.05977v1 )

ライセンス: Link先を確認
Alex Kuznetsov, Hector Urdiales(参考訳) 本稿では,検索クエリや個々の単語など,短い入力文字列に対してスペル補正を行う手法を提案する。 その核となるのは、人間が示すエラーパターンに密接に従う人工的タイプミスを生成する手順である。 この手順は、トランスフォーマーアーキテクチャに基づく生産用綴り補正モデルを訓練するために使用される。 このモデルは、現在HubSpot製品検索で提供されている。 タイポ生成に対する我々のアプローチは,人間のパターンを無視したノイズ付加の広範な実践よりも優れていることを示す。 また、我々のアプローチが、ラベル付きデータを用いることなく、アラビア語、ギリシャ語、ロシア語、セツワナ語のスペル補正モデルにどのように拡張されるかを示す。

We present a novel method of performing spelling correction on short input strings, such as search queries or individual words. At its core lies a procedure for generating artificial typos which closely follow the error patterns manifested by humans. This procedure is used to train the production spelling correction model based on a transformer architecture. This model is currently served in the HubSpot product search. We show that our approach to typo generation is superior to the widespread practice of adding noise, which ignores human patterns. We also demonstrate how our approach may be extended to resource-scarce settings and train spelling correction models for Arabic, Greek, Russian, and Setswana languages, without using any labeled data.
翻訳日:2021-05-14 14:14:04 公開日:2021-05-12
# 動的アイソメトリ:ニューラルネットワークのプルーニングの欠如成分

Dynamical Isometry: The Missing Ingredient for Neural Network Pruning ( http://arxiv.org/abs/2105.05916v1 )

ライセンス: Link先を確認
Huan Wang, Can Qin, Yue Bai, Yun Fu(参考訳) 最近のいくつかの研究(40,24)では、ニューラルネットワークのプルーニングにおいて興味深い現象が観察されている。 残念ながら、その理由はいまだに解明されていない。 本論文は, 動的アイソメトリーのレンズ [42] による説明を目的としている。 具体的には、ニューラルネットワークのプルーニングを異常な観点から調べる: ファインタニングのイニシャル化としてプルーニングを行い、継承したウェイトがファインタニングの優れた初期化に役立つかどうかを問う。 動的等長法からの洞察は否定的な答えを示唆する。 その重要な役割にもかかわらず、この問題はコミュニティによって認識されていない。 本稿では,この問題の理解が極めて重要であることを示すとともに,上述の微調整率に関するミステリーを説明するとともに,プルーニングの価値に関するミステリーを明らかにする [5, 30]。 プルーニングに関するより明確な理論的理解に加えて、問題の解決は実践においてかなりのパフォーマンス上のメリットをもたらす可能性がある。

Several recent works [40, 24] observed an interesting phenomenon in neural network pruning: A larger finetuning learning rate can improve the final performance significantly. Unfortunately, the reason behind it remains elusive up to date. This paper is meant to explain it through the lens of dynamical isometry [42]. Specifically, we examine neural network pruning from an unusual perspective: pruning as initialization for finetuning, and ask whether the inherited weights serve as a good initialization for the finetuning? The insights from dynamical isometry suggest a negative answer. Despite its critical role, this issue has not been well-recognized by the community so far. In this paper, we will show the understanding of this problem is very important -- on top of explaining the aforementioned mystery about the larger finetuning rate, it also unveils the mystery about the value of pruning [5, 30]. Besides a clearer theoretical understanding of pruning, resolving the problem can also bring us considerable performance benefits in practice.
翻訳日:2021-05-14 14:12:33 公開日:2021-05-12
# mate-kd: masked adversarial text, a companion to knowledge distillation

MATE-KD: Masked Adversarial TExt, a Companion to Knowledge Distillation ( http://arxiv.org/abs/2105.05912v1 )

ライセンス: Link先を確認
Ahmad Rashid, Vasileios Lioutas and Mehdi Rezagholizadeh(参考訳) 大規模な事前学習型言語モデルの出現は、自然言語処理(NLP)分野の急速な進歩をもたらした。 標準ベンチマークにおけるこれらのモデルの性能はスケールするが、知識蒸留のような圧縮技術はそれらを実用的にするための鍵となっている。 本稿では,知識蒸留の性能を向上させる新しいテキストベース対逆学習アルゴリズムであるMATE-KDを提案する。 MATE-KDはまず,教師と学生のログのばらつきを最大化することにより,マスク付き言語モデルベースの生成器を摂動テキストに訓練する。 そして、知識蒸留を用いて、原本および摂動訓練試料の両方で生徒を訓練する。 我々は,BERTモデルを用いたアルゴリズムをGLUEベンチマークで評価し,MATE-KDが競合する対角学習やデータ拡張ベースラインより優れていることを示す。 GLUEテストセットでは、RoBERTaベースのモデルがBERT-Largeより優れています。

The advent of large pre-trained language models has given rise to rapid progress in the field of Natural Language Processing (NLP). While the performance of these models on standard benchmarks has scaled with size, compression techniques such as knowledge distillation have been key in making them practical. We present, MATE-KD, a novel text-based adversarial training algorithm which improves the performance of knowledge distillation. MATE-KD first trains a masked language model based generator to perturb text by maximizing the divergence between teacher and student logits. Then using knowledge distillation a student is trained on both the original and the perturbed training samples. We evaluate our algorithm, using BERT-based models, on the GLUE benchmark and demonstrate that MATE-KD outperforms competitive adversarial learning and data augmentation baselines. On the GLUE test set our 6 layer RoBERTa based model outperforms BERT-Large.
翻訳日:2021-05-14 14:10:06 公開日:2021-05-12
# クラスタ化サンプリング:フェデレートラーニングにおけるクライアント選択の低分散化と表現性の向上

Clustered Sampling: Low-Variance and Improved Representativity for Clients Selection in Federated Learning ( http://arxiv.org/abs/2105.05883v1 )

ライセンス: Link先を確認
Yann Fraboni, Richard Vidal, Laetitia Kameni, Marco Lorenzi(参考訳) 本研究は,フェデレートラーニング(FL)におけるサーバとクライアント間の通信を最適化する問題に対処する。 FLにおける現在のサンプリングアプローチは、サーバ・クライアント間の通信とトレーニングの安定性の観点からバイアスまたは非最適である。 この問題を克服するために,クライアント選択に \textit{clustered sampling} を導入する。 クラスタ化サンプリングにより、FLにおけるクライアントの表現性が向上し、クライアントの確率的集約重みのばらつきが軽減されることを示す。 1)サンプルサイズと2)モデルの類似性に基づいてクライアントの集約を可能にする2つの異なるクラスタリングアプローチを提供する。 非イドおよびアンバランスなシナリオにおける一連の実験を通して、クラスタ化サンプリングによるモデルアグリゲーションが、標準サンプリングアプローチと比較してトレーニングの収束と変動性を改善することを実証する。 我々のアプローチはクライアント側で追加の操作を必要とせず、標準のfl実装にシームレスに統合することができる。 最後に、クラスタ化サンプリングは、プライバシ向上のための既存の方法や技術、モデル圧縮による通信の削減と互換性がある。

This work addresses the problem of optimizing communications between server and clients in federated learning (FL). Current sampling approaches in FL are either biased, or non optimal in terms of server-clients communications and training stability. To overcome this issue, we introduce \textit{clustered sampling} for clients selection. We prove that clustered sampling leads to better clients representatitivity and to reduced variance of the clients stochastic aggregation weights in FL. Compatibly with our theory, we provide two different clustering approaches enabling clients aggregation based on 1) sample size, and 2) models similarity. Through a series of experiments in non-iid and unbalanced scenarios, we demonstrate that model aggregation through clustered sampling consistently leads to better training convergence and variability when compared to standard sampling approaches. Our approach does not require any additional operation on the clients side, and can be seamlessly integrated in standard FL implementations. Finally, clustered sampling is compatible with existing methods and technologies for privacy enhancement, and for communication reduction through model compression.
翻訳日:2021-05-14 14:09:36 公開日:2021-05-12
# 混合モデルによる急性頭蓋内出血の再建

Unsupervised Acute Intracranial Hemorrhage Segmentation with Mixture Models ( http://arxiv.org/abs/2105.05891v1 )

ライセンス: Link先を確認
Kimmo K\"arkk\"ainen, Shayan Fazeli, Majid Sarrafzadeh(参考訳) 頭蓋内出血は、血管が脳組織や頭蓋内の他の場所で破裂または漏れたときに起こる。 身体的外傷や様々な疾患によって引き起こされ、多くの場合、死に至る。 治療はできるだけ早く開始しなければならないため,出血の診断は迅速かつ正確に行う必要がある。 診断は通常、脳全体に多数の断面画像を含むctスキャンを分析する放射線科医によって行われる。 各イメージを手動で分析するのは非常に時間がかかるが、自動化技術はプロセスのスピードアップに役立つ。 最近の研究の多くは、教師付き機械学習アルゴリズムを使用することでこの問題を解決することに重点を置いているが、プライバシー上の懸念から、公開可能なトレーニングデータが不足している。 この問題は教師なしのアルゴリズムで解決できる。 本稿では,混合モデルに基づく完全教師なしアルゴリズムを提案する。 このアルゴリズムは,出血と健康組織の性質が異なる分布に従うという事実を利用しており,それらの分布を適切に定式化することで,期待最大化プロセスで分離することができる。 また, このアルゴリズムは, 騒がしいボクセルを含まずにすべての出血領域を発見できるように, クラスタ数を適応的に決定できる。 様々な大きさと強度の異なる出血型を全て含む公開データセット上でのアルゴリズムの結果を実証し,従来の非教師なし・教師なしのアルゴリズムと比較した。 その結果,我々のアルゴリズムは,ほとんどの出血型で他のアルゴリズムよりも優れていた。

Intracranial hemorrhage occurs when blood vessels rupture or leak within the brain tissue or elsewhere inside the skull. It can be caused by physical trauma or by various medical conditions and in many cases leads to death. The treatment must be started as soon as possible, and therefore the hemorrhage should be diagnosed accurately and quickly. The diagnosis is usually performed by a radiologist who analyses a Computed Tomography (CT) scan containing a large number of cross-sectional images throughout the brain. Analysing each image manually can be very time-consuming, but automated techniques can help speed up the process. While much of the recent research has focused on solving this problem by using supervised machine learning algorithms, publicly-available training data remains scarce due to privacy concerns. This problem can be alleviated by unsupervised algorithms. In this paper, we propose a fully-unsupervised algorithm which is based on the mixture models. Our algorithm utilizes the fact that the properties of hemorrhage and healthy tissues follow different distributions, and therefore an appropriate formulation of these distributions allows us to separate them through an Expectation-Maximiza tion process. In addition, our algorithm is able to adaptively determine the number of clusters such that all the hemorrhage regions can be found without including noisy voxels. We demonstrate the results of our algorithm on publicly-available datasets that contain all different hemorrhage types in various sizes and intensities, and our results are compared to earlier unsupervised and supervised algorithms. The results show that our algorithm can outperform the other algorithms with most hemorrhage types.
翻訳日:2021-05-14 14:06:48 公開日:2021-05-12
# リアルタイムビデオメイクアップ合成のためのディープグラフィックスエンコーダ

Deep Graphics Encoder for Real-Time Video Makeup Synthesis from Example ( http://arxiv.org/abs/2105.06407v1 )

ライセンス: Link先を確認
Robin Kips, Ruowei Jiang, Sileye Ba, Edmund Phung, Parham Aarabi, Pietro Gori, Matthieu Perrot, Isabelle Bloch(参考訳) メイクアップ仮想トライオンは広く普及しているが、化粧品の画像を合成するためのコンピュータグラフィックスレンダリングエンジンのパラメータ化は依然として難しい課題である。 本稿では,画像から自動メイクアップ合成を行う逆コンピュータグラフィックス法について,メイクアップされた人物像をレンダリングパラメータの空間にマッピングするモデルについて学習する。 この方法は、アーティストがリアルな仮想化粧品画像を自動的に作成したり、消費者が好みの基準画像から抽出した化粧品を仮想的に試すために使うことができる。

While makeup virtual-try-on is now widespread, parametrizing a computer graphics rendering engine for synthesizing images of a given cosmetics product remains a challenging task. In this paper, we introduce an inverse computer graphics method for automatic makeup synthesis from a reference image, by learning a model that maps an example portrait image with makeup to the space of rendering parameters. This method can be used by artists to automatically create realistic virtual cosmetics image samples, or by consumers, to virtually try-on a makeup extracted from their favorite reference image.
翻訳日:2021-05-14 14:05:13 公開日:2021-05-12
# グラフを用いた機械学習のためのWeisfeiler-Lemanアルゴリズムのパワー

The Power of the Weisfeiler-Leman Algorithm for Machine Learning with Graphs ( http://arxiv.org/abs/2105.05911v1 )

ライセンス: Link先を確認
Christopher Morris, Matthias Fey, Nils M. Kriege(参考訳) 近年、グラフ同型問題の有名なヒューリスティックであるweisfeiler-lemanアルゴリズムに基づくアルゴリズムとニューラルネットワークが、グラフとリレーショナルデータを用いた(教師あり)機械学習の強力なツールとして登場した。 本稿では,機械学習環境におけるアルゴリズムの利用について概観する。 理論的な背景を論じ、グラフとノードの分類にどのように使うかを示し、最近の拡張とニューラルアーキテクチャとの関係について論じる。 さらに,研究を刺激するための現在の応用状況と今後の方向性について概説する。

In recent years, algorithms and neural architectures based on the Weisfeiler-Leman algorithm, a well-known heuristic for the graph isomorphism problem, emerged as a powerful tool for (supervised) machine learning with graphs and relational data. Here, we give a comprehensive overview of the algorithm's use in a machine learning setting. We discuss the theoretical background, show how to use it for supervised graph- and node classification, discuss recent extensions, and its connection to neural architectures. Moreover, we give an overview of current applications and future directions to stimulate research.
翻訳日:2021-05-14 14:04:44 公開日:2021-05-12
# 資源制約ハードウェアにおける分類モデルのためのオープンソースツール

An Open-Source Tool for Classification Models in Resource-Constrained Hardware ( http://arxiv.org/abs/2105.05983v1 )

ライセンス: Link先を確認
Lucas Tsutsui da Silva, Vinicius M. A. Souza, Gustavo E. A. P. A. Batista(参考訳) 環境からリアルタイム情報を感知、測定、収集する必要のあるアプリケーションは、しばしば3つの主な制限、すなわち電力消費、コスト、インフラの欠如に直面する。 これらの制限によって課される課題のほとんどは、環境を感知するハードウェアに機械学習(ml)分類器を組み込んで、低レベルのデータストリームを解釈可能なスマートセンサーを作成することで対処できる。 しかし,このアプローチが低コストであるためには,低消費電力マイクロコントローラなどの非リソースハードウェアでの実行に適した高効率な分類器が必要である。 本稿では,リソース制約ハードウェアの分類器を開発するパイプラインを実装したembmlという組み込み機械学習ツールを提案する。 実装の詳細を説明し、精度、分類時間、メモリ使用量を考慮した分類器の包括的分析を行う。 さらに,その分類器の性能を関連ツールで生成した分類器と比較し,ツールがコンパクトかつ高精度な分類アルゴリズムの多種多様なセットを提供することを示す。 最後に,病気ベクター蚊に対するスマートセンサとトラップの実用化において,embml分類器を検証する。

Applications that need to sense, measure, and gather real-time information from the environment frequently face three main restrictions: power consumption, cost, and lack of infrastructure. Most of the challenges imposed by these limitations can be better addressed by embedding Machine Learning (ML) classifiers in the hardware that senses the environment, creating smart sensors able to interpret the low-level data stream. However, for this approach to be cost-effective, we need highly efficient classifiers suitable to execute in unresourceful hardware, such as low-power microcontrollers. In this paper, we present an open-source tool named EmbML - Embedded Machine Learning that implements a pipeline to develop classifiers for resource-constrained hardware. We describe its implementation details and provide a comprehensive analysis of its classifiers considering accuracy, classification time, and memory usage. Moreover, we compare the performance of its classifiers with classifiers produced by related tools to demonstrate that our tool provides a diverse set of classification algorithms that are both compact and accurate. Finally, we validate EmbML classifiers in a practical application of a smart sensor and trap for disease vector mosquitoes.
翻訳日:2021-05-14 14:04:35 公開日:2021-05-12
# 低ランク最適化の新しい視点

A new perspective on low-rank optimization ( http://arxiv.org/abs/2105.05947v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Ryan Cory-Wright, Jean Pauphilet(参考訳) 最適化、機械学習、統計学を通じて多くの低ランク問題において重要な問題は、単純な低ランク集合の凸船体を特徴づけ、これらの凸船体を巧みに応用して、強力で計算的に抽出可能な凸緩和を得ることである。 我々は,視線関数の行列アナログである行列パースペクティブ関数を起動し,低ランク制約下での凸二次グラフ,行列指数関数,行列パワー関数の凸殻を明示的に特徴付ける。 さらに,これらの特徴を応用して,階数回帰,非負行列因子分解,因子分析など,様々な低ランク問題に対して強い緩和を与える。 これらの緩和は半定値および行列パワーコーンの制約によってモデル化でき、従ってトラクタブルに最適化できる。 提案手法は,混合整数最適化における視点再構成手法を並列化し一般化し,幅広い問題に対して新たな緩和をもたらす。

A key question in many low-rank problems throughout optimization, machine learning, and statistics is to characterize the convex hulls of simple low-rank sets and judiciously apply these convex hulls to obtain strong yet computationally tractable convex relaxations. We invoke the matrix perspective function - the matrix analog of the perspective function-and characterize explicitly the convex hull of epigraphs of convex quadratic, matrix exponential, and matrix power functions under low-rank constraints. Further, we exploit these characterizations to develop strong relaxations for a variety of low-rank problems including reduced rank regression, non-negative matrix factorization, and factor analysis. We establish that these relaxations can be modeled via semidefinite and matrix power cone constraints, and thus optimized over tractably. The proposed approach parallels and generalizes the perspective reformulation technique in mixed-integer optimization, and leads to new relaxations for a broad class of problems.
翻訳日:2021-05-14 14:03:00 公開日:2021-05-12
# 混合線形回帰モデルのパラメータ推定のための効率的なアルゴリズム

Efficient Algorithms for Estimating the Parameters of Mixed Linear Regression Models ( http://arxiv.org/abs/2105.05953v1 )

ライセンス: Link先を確認
Babak Barazandeh, Ali Ghafelebashi, Meisam Razaviyayn, Ram Sriharsha(参考訳) 混合線形回帰(MLR)モデルは、線形モデルの混合を用いて非線形分布をモデル化するための最も典型的な統計ツールの一つである。 MLRモデルの付加雑音がガウスである場合、期待最大化(EM)アルゴリズムはMLRパラメータの最大推定に広く用いられるアルゴリズムである。 しかし、ノイズがガウス的でない場合、EMアルゴリズムのステップはクローズドフォームの更新ルールを持たず、EMアルゴリズムは非現実的である。 本研究では,加法雑音が非ガウス分布を持つ場合のMLRモデルのパラメータの最大推定について検討する。 特に、ノイズがラプラシアン分布を持つ場合を考え、最初にガウスの場合とは異なり、この場合のEMアルゴリズムの結果として生じるサブプロブレムが閉形式更新規則を持たないことを示し、この場合のEMの使用を妨げている。 そこで本研究では,乗算器の交互方向法(ADMM)とEMアルゴリズムのアイデアを組み合わせた新しいアルゴリズムを提案する。 数値実験により,非ガウス雑音の場合,emアルゴリズムを統計的精度,計算時間で上回ることを示す。

Mixed linear regression (MLR) model is among the most exemplary statistical tools for modeling non-linear distributions using a mixture of linear models. When the additive noise in MLR model is Gaussian, Expectation-Maximiza tion (EM) algorithm is a widely-used algorithm for maximum likelihood estimation of MLR parameters. However, when noise is non-Gaussian, the steps of EM algorithm may not have closed-form update rules, which makes EM algorithm impractical. In this work, we study the maximum likelihood estimation of the parameters of MLR model when the additive noise has non-Gaussian distribution. In particular, we consider the case that noise has Laplacian distribution and we first show that unlike the the Gaussian case, the resulting sub-problems of EM algorithm in this case does not have closed-form update rule, thus preventing us from using EM in this case. To overcome this issue, we propose a new algorithm based on combining the alternating direction method of multipliers (ADMM) with EM algorithm idea. Our numerical experiments show that our method outperforms the EM algorithm in statistical accuracy and computational time in non-Gaussian noise case.
翻訳日:2021-05-14 14:02:43 公開日:2021-05-12
# 連続時間ネットワークにおける頻繁なパターンマイニング

Frequent Pattern Mining in Continuous-time Temporal Networks ( http://arxiv.org/abs/2105.06399v1 )

ライセンス: Link先を確認
Ali Jazayeri and Christopher C. Yang(参考訳) ネットワークは、異なる分野において非常に表現力のあるツールとして使用される。 近年,時間的ネットワークの分析とマイニングが注目されている。 頻繁なパターンマイニングはネットワーク科学における重要な課題と考えられている。 多くの応用に加えて、ネットワーク内の頻繁なパターンマイニングの調査は、クラスタリング、準クライクおよびクライクマイニング、リンク予測といった他の分析アプローチに直接影響を与える。 時間ネットワークにおける頻繁なパターンマイニングのためのアルゴリズムのほとんど全てにおいて、ネットワークは静的ネットワークのシーケンスとして表現される。 そして、ネットワーク間またはネットワーク内パターンをマイニングする。 この種の表現は、鉱業問題に対して計算表現性トレードオフを課す。 本稿では,ネットワークの時間的側面を損失なく保存できる新しい表現手法を提案する。 次に,制約付き区間グラフ(CIG)の概念を紹介する。 次に,時間的ネットワークデータセットにおける頻繁な時間パターンの完全集合をマイニングするための一連のアルゴリズムを開発した。 また、時間的データ収集におけるノイズ耐性を許容する4つの同型の定義についても検討する。 3つの実世界のデータセットのためのアルゴリズムの実装は、提案するアルゴリズムの実用性と、様々な設定で未知のパターンを検出する能力を証明する。

Networks are used as highly expressive tools in different disciplines. In recent years, the analysis and mining of temporal networks have attracted substantial attention. Frequent pattern mining is considered an essential task in the network science literature. In addition to the numerous applications, the investigation of frequent pattern mining in networks directly impacts other analytical approaches, such as clustering, quasi-clique and clique mining, and link prediction. In nearly all the algorithms proposed for frequent pattern mining in temporal networks, the networks are represented as sequences of static networks. Then, the inter- or intra-network patterns are mined. This type of representation imposes a computation-expressi veness trade-off to the mining problem. In this paper, we propose a novel representation that can preserve the temporal aspects of the network losslessly. Then, we introduce the concept of constrained interval graphs (CIGs). Next, we develop a series of algorithms for mining the complete set of frequent temporal patterns in a temporal network data set. We also consider four different definitions of isomorphism to allow noise tolerance in temporal data collection. Implementing the algorithm for three real-world data sets proves the practicality of the proposed algorithm and its capability to discover unknown patterns in various settings.
翻訳日:2021-05-14 14:01:38 公開日:2021-05-12
# 平易なファインタニングを超えて:社会的常識のための事前訓練モデルの改善

Go Beyond Plain Fine-tuning: Improving Pretrained Models for Social Commonsense ( http://arxiv.org/abs/2105.05913v1 )

ライセンス: Link先を確認
Ting-Yun Chang, Yang Liu, Karthik Gopalakrishnan, Behnam Hedayatnia, Pei Zhou, Dilek Hakkani-Tur(参考訳) 事前訓練された言語モデルは、最近多くのNLPタスクで顕著な性能を示している。 しかし、彼らの社会的知性は、現在の状況や他者の精神状態について常識的推論を必要とする。 言語モデルのソーシャルインテリジェンスの改善に向けて,社会的・感情的なコモンセンス推論を必要とする課題であるSocial IQAデータセットに注目した。 事前トレーニングされたrobertaとgpt2モデルをベースに,いくつかのアーキテクチャのバリエーションと拡張を提案し,外部のcommonsense corporaを活用して,ソーシャルiqaのモデルを最適化する。 提案システムは,リーダーボード上の上位モデルと競合する結果を得る。 この研究は、事前訓練された言語モデルの強みを示し、特定のタスクのパフォーマンスを改善するための実行可能な方法を提供する。

Pretrained language models have demonstrated outstanding performance in many NLP tasks recently. However, their social intelligence, which requires commonsense reasoning about the current situation and mental states of others, is still developing. Towards improving language models' social intelligence, we focus on the Social IQA dataset, a task requiring social and emotional commonsense reasoning. Building on top of the pretrained RoBERTa and GPT2 models, we propose several architecture variations and extensions, as well as leveraging external commonsense corpora, to optimize the model for Social IQA. Our proposed system achieves competitive results as those top-ranking models on the leaderboard. This work demonstrates the strengths of pretrained language models, and provides viable ways to improve their performance for a particular task.
翻訳日:2021-05-14 14:01:20 公開日:2021-05-12
# NLPチャレンジのためのマルチモーダルデータセットの設計

Designing Multimodal Datasets for NLP Challenges ( http://arxiv.org/abs/2105.05999v1 )

ライセンス: Link先を確認
James Pustejovsky, Eben Holderness, Jingxuan Tu, Parker Glenn, Kyeongmin Rim, Kelley Lynch, Richard Brutti(参考訳) 本稿では,自然言語処理(NLP)の課題に対するマルチモーダルデータセットの設計と開発を,より広義の常識的推論を表現し,テキスト情報と視覚情報の静的アライメントを通じて,行動や事象のダイナミクスをよりよく反映する,という2つの点で拡張すべきである,と論じる。 我々は,コミュニケーションや推論において人間が持つ言語的・認知的能力を反映した課題や課題を,単に孤立したタスクにおけるシステムのパフォーマンスではなく,特定する。 課題ベースタスクと能力ベースパフォーマンスの区別を導入し、マルチモーダルレシピコレクション(http://r2vq.org/)上での能力ベース理解をテストするために設計された診断データセットRecipe-to-Video Questions (R2VQ)について述べる。 コーパスには、このような推論タスクをサポートし、NLPシステムの評価に使用する質問ファミリーの豊富なセットを支援する詳細なアノテーションが含まれている。

In this paper, we argue that the design and development of multimodal datasets for natural language processing (NLP) challenges should be enhanced in two significant respects: to more broadly represent commonsense semantic inferences; and to better reflect the dynamics of actions and events, through a substantive alignment of textual and visual information. We identify challenges and tasks that are reflective of linguistic and cognitive competencies that humans have when speaking and reasoning, rather than merely the performance of systems on isolated tasks. We introduce the distinction between challenge-based tasks and competence-based performance, and describe a diagnostic dataset, Recipe-to-Video Questions (R2VQ), designed for testing competence-based comprehension over a multimodal recipe collection (http://r2vq.org/). The corpus contains detailed annotation supporting such inferencing tasks and facilitating a rich set of question families that we use to evaluate NLP systems.
翻訳日:2021-05-14 14:01:07 公開日:2021-05-12
# このビデオはどうしたの? ディープフェイク検出のための説明器の比較

What's wrong with this video? Comparing Explainers for Deepfake Detection ( http://arxiv.org/abs/2105.05902v1 )

ライセンス: Link先を確認
Samuele Pino, Mark James Carman, Paolo Bestagini(参考訳) deepfakes(ディープフェイク)は、個人の顔が別の顔に置き換えられたコンピュータ操作ビデオである。 このような偽造物を作るソフトウェアは使いやすく、ずっと人気があり、個人的評判や治安に深刻な脅威をもたらす。 ディープフェイクを検出するための分類器の品質は、より大規模なデータセットのリリースによって改善されているが、なぜ特定のビデオがフェイクとしてラベル付けされたのかを理解することは、ペースを保たない。 本研究では,実映像と偽動画のラベル付けを説明するために,ホワイトボックス,ブラックボックス,モデル固有の手法を開発し,拡張し,比較する。 特に,Deepfake Detection Challenge (DFDC)データセットに基づいてトレーニングされたEfficientNetに基づく最先端検出器の予測を説明するタスクに,SHAP,GradCAM,自己注意モデルを適用する。 得られた説明結果を比較し,視覚的特徴と望ましい特徴を定量化するための指標を提案するとともに,説明者の有用性に関するユーザの意見収集を行う。

Deepfakes are computer manipulated videos where the face of an individual has been replaced with that of another. Software for creating such forgeries is easy to use and ever more popular, causing serious threats to personal reputation and public security. The quality of classifiers for detecting deepfakes has improved with the releasing of ever larger datasets, but the understanding of why a particular video has been labelled as fake has not kept pace. In this work we develop, extend and compare white-box, black-box and model-specific techniques for explaining the labelling of real and fake videos. In particular, we adapt SHAP, GradCAM and self-attention models to the task of explaining the predictions of state-of-the-art detectors based on EfficientNet, trained on the Deepfake Detection Challenge (DFDC) dataset. We compare the obtained explanations, proposing metrics to quantify their visual features and desirable characteristics, and also perform a user survey collecting users' opinions regarding the usefulness of the explainers.
翻訳日:2021-05-14 14:00:23 公開日:2021-05-12
# 人の注意の痕跡をモデル化して、どこを見るべきかを考える

Connecting What to Say With Where to Look by Modeling Human Attention Traces ( http://arxiv.org/abs/2105.05964v1 )

ライセンス: Link先を確認
Zihang Meng, Licheng Yu, Ning Zhang, Tamara Berg, Babak Damavandi, Vikas Singh, Amy Bearman(参考訳) 画像,テキスト,人間の注意跡を共同でモデル化する統合フレームワークを提案する。 私たちの作品は、最近のローカライズされたナラティブアノテーションフレームワーク[30]上に構築されており、与えられたキャプションの各単語はマウスのトレースセグメントとペアリングされています。 本研究では,(1)画像とキャプション(視覚的接地)に与えられたトレースを予測し,(2)画像のみに与えられるキャプションとトレースを予測する2つの新しいタスクを提案する。 人為的トレースのノイズや、視覚的にグラウンド化できない単語の存在のため、各単語のグラウンド化を学習することは困難である。 本稿では,2つのタスク(トレース生成とキャプション生成の制御)を共同で訓練した新しいモデルアーキテクチャを提案する。 生成したトレースの品質を評価するために,異なる長さの2つのトレースを比較可能な局所二部マッチング(LBM)距離測定法を提案する。 広範な実験により,モデルが不完全なトレーニングデータに頑健であることを示し,ベースラインを明確なマージンで上回った。 さらに,提案課題に事前学習したモデルが,COCOのガイド画像キャプションの下流タスクにも有効であることを示す。 私たちのコードとプロジェクトページは公開されています。

We introduce a unified framework to jointly model images, text, and human attention traces. Our work is built on top of the recent Localized Narratives annotation framework [30], where each word of a given caption is paired with a mouse trace segment. We propose two novel tasks: (1) predict a trace given an image and caption (i.e., visual grounding), and (2) predict a caption and a trace given only an image. Learning the grounding of each word is challenging, due to noise in the human-provided traces and the presence of words that cannot be meaningfully visually grounded. We present a novel model architecture that is jointly trained on dual tasks (controlled trace generation and controlled caption generation). To evaluate the quality of the generated traces, we propose a local bipartite matching (LBM) distance metric which allows the comparison of two traces of different lengths. Extensive experiments show our model is robust to the imperfect training data and outperforms the baselines by a clear margin. Moreover, we demonstrate that our model pre-trained on the proposed tasks can be also beneficial to the downstream task of COCO's guided image captioning. Our code and project page are publicly available.
翻訳日:2021-05-14 14:00:05 公開日:2021-05-12
# 動的新しい視点合成のための神経軌道場

Neural Trajectory Fields for Dynamic Novel View Synthesis ( http://arxiv.org/abs/2105.05994v1 )

ライセンス: Link先を確認
Chaoyang Wang, Ben Eckart, Simon Lucey, Orazio Gallo(参考訳) 限られた写真セットからフォトリアリスティックなビューをレンダリングする最近のアプローチは、静的なシーンの写真とのインタラクションの境界を押し上げています。 モーメントを再現する能力、すなわち時間変化のシーケンスは、おそらくさらに興味深いシナリオであるが、ほとんど解決されていない。 DCT-NeRFは動的シーンの座標に基づくニューラル表現である。 DCTNeRFは空間の各点に対する入力シーケンス上で滑らかで安定した軌道を学習する。 これにより、シーケンス内の任意の2つのフレーム間の一貫性が強化され、特にダイナミックな領域において、高品質な再構築が可能になります。

Recent approaches to render photorealistic views from a limited set of photographs have pushed the boundaries of our interactions with pictures of static scenes. The ability to recreate moments, that is, time-varying sequences, is perhaps an even more interesting scenario, but it remains largely unsolved. We introduce DCT-NeRF, a coordinatebased neural representation for dynamic scenes. DCTNeRF learns smooth and stable trajectories over the input sequence for each point in space. This allows us to enforce consistency between any two frames in the sequence, which results in high quality reconstruction, particularly in dynamic regions.
翻訳日:2021-05-14 13:59:45 公開日:2021-05-12
# 製品関係予測のためのグラフニューラルネットワークアプローチ

A Graph Neural Network Approach for Product Relationship Prediction ( http://arxiv.org/abs/2105.05881v1 )

ライセンス: Link先を確認
Faez Ahmed, Yaxin Cui, Yan Fu, Wei Chen(参考訳) グラフニューラルネットワークは近年、薬物発見、レコメンデーションシステム、画像分類、ソーシャルネットワーク分析、自然言語理解など、多くの機械学習タスクに革命をもたらした。 本稿では,製品間の関係をモデル化し,製品ネットワークにおける予測を行う上での有効性を示す。 プロダクトをノードとして表現し、それらの関係をグラフのエッジとして表現することにより、誘導型グラフニューラルネットワークアプローチであるGraphSAGEが、ノードとエッジの連続表現を効率的に学習できることを示す。 これらの表現は、価格、ブランド、エンジニアリング属性などの製品の特徴情報もキャプチャする。 これらは製品間の関係の存在を予測するための分類モデルと組み合わされる。 提案手法は,中国自動車市場を事例として,指数関数的ランダムグラフモデルに基づく予測手法と比較して,予測性能が2倍になることを示す。 バニラグラフSAGEは、予測を行うために部分的なネットワークを必要とするが、この制限を回避するために 'adjacency prediction model' を導入する。 これにより、近隣情報がない場合に製品関係を予測することができる。 最後に、置換に基づく解釈可能性分析が、デザイン属性が製品間の関係の予測にどのように影響するかを示す。 この研究は、様々な市場で製品間の関係を予測する体系的な手法を提供する。

Graph Neural Networks have revolutionized many machine learning tasks in recent years, ranging from drug discovery, recommendation systems, image classification, social network analysis to natural language understanding. This paper shows their efficacy in modeling relationships between products and making predictions for unseen product networks. By representing products as nodes and their relationships as edges of a graph, we show how an inductive graph neural network approach, named GraphSAGE, can efficiently learn continuous representations for nodes and edges. These representations also capture product feature information such as price, brand, or engineering attributes. They are combined with a classification model for predicting the existence of the relationship between products. Using a case study of the Chinese car market, we find that our method yields double the prediction performance compared to an Exponential Random Graph Model-based method for predicting the co-consideration relationship between cars. While a vanilla GraphSAGE requires a partial network to make predictions, we introduce an `adjacency prediction model' to circumvent this limitation. This enables us to predict product relationships when no neighborhood information is known. Finally, we demonstrate how a permutation-based interpretability analysis can provide insights on how design attributes impact the predictions of relationships between products. This work provides a systematic method to predict the relationships between products in many different markets.
翻訳日:2021-05-14 13:54:38 公開日:2021-05-12
# 反事実正規化による潜在事象予測エンコーディング

Latent Event-Predictive Encodings through Counterfactual Regularization ( http://arxiv.org/abs/2105.05894v1 )

ライセンス: Link先を確認
Dania Humaidan, Sebastian Otte, Christian Gumbsch, Charley Wu, Martin V. Butz(参考訳) インテリジェントシステムにとって重要な課題は、継続的データストリームから構造を推論することだ。 事象予測認知の理論は、脳が感覚運動情報をコンパクトなイベントエンコーディングにセグメントし、環境力学を予測し解釈するために使用されることを示唆している。 本稿では,新しい正則化方式を用いたSUGAR(Surprise-GAted Recurrent Neural Network)を提案する。 階層的シーケンス予測タスクでモデルをテストし,隠れグラフ構造を交互に生成する。 我々のモデルは、タスクの時間的ダイナミクスを潜在事象予測エンコーディングに圧縮し、ノイズのある隠れ信号が与えられた瞬間にイベント遷移を予測することを学習する。 反事実正規化項の追加により、1つの潜在コードから次のコードへの流体遷移が保証され、結果として生じる潜在コードは合成特性を示す。 実装されたメカニズムは、階層的推論、計画、意思決定など、他のドメインで有用なアプリケーション群を提供する。

A critical challenge for any intelligent system is to infer structure from continuous data streams. Theories of event-predictive cognition suggest that the brain segments sensorimotor information into compact event encodings, which are used to anticipate and interpret environmental dynamics. Here, we introduce a SUrprise-GAted Recurrent neural network (SUGAR) using a novel form of counterfactual regularization. We test the model on a hierarchical sequence prediction task, where sequences are generated by alternating hidden graph structures. Our model learns to both compress the temporal dynamics of the task into latent event-predictive encodings and anticipate event transitions at the right moments, given noisy hidden signals about them. The addition of the counterfactual regularization term ensures fluid transitions from one latent code to the next, whereby the resulting latent codes exhibit compositional properties. The implemented mechanisms offer a host of useful applications in other domains, including hierarchical reasoning, planning, and decision making.
翻訳日:2021-05-14 13:54:15 公開日:2021-05-12
# Slower is Better: Revisiting the Forgetting Mechanism in LSTM for Slower Information Decay

Slower is Better: Revisiting the Forgetting Mechanism in LSTM for Slower Information Decay ( http://arxiv.org/abs/2105.05944v1 )

ライセンス: Link先を確認
Hsiang-Yun Sherry Chien, Javier S. Turek, Nicole Beckage, Vy A. Vo, Christopher J. Honey, Ted L. Willke(参考訳) 逐次情報には短距離から長距離の依存関係が含まれているが、しかしながら、長時間の情報を学習することは、繰り返し発生するニューラルネットワークの課題である。 長い短期記憶ネットワーク(LSTM)の改善にもかかわらず、忘れるメカニズムは情報の指数関数的な減衰をもたらし、長期情報の取得能力を制限する。 本稿では、低速な電力法減衰関数に沿って情報を忘れることを学習する、電力法忘れゲートを提案する。 具体的には、新しいゲートは、電力法則減衰係数pを制御することを学び、ネットワークがタスク要求に応じて情報減衰率を調整する。 実験の結果,LPTMは画像分類,言語モデリング,分類タスクにおいて,数百要素を超える長距離依存性を効果的に捕捉し,バニラLSTMの性能を向上させることができることがわかった。 また, p の初期化, p を一定値に設定し, pLSTM ネットワーク内の細胞を破滅させることにより, 補正された忘れ門を検査した。 その結果、情報減衰は学習可能な減衰係数pで制御でき、pLSTMはその優れた性能を達成できることがわかった。 さらに,複数の領域における他の再帰的ネットワークよりも優れた長期的依存関係を学習できることを見出した。そのようなゲーティング機構は,リカレントニューラルネットワークにおける長期的情報学習を改善するために,他のアーキテクチャに統合することができる。

Sequential information contains short- to long-range dependencies; however, learning long-timescale information has been a challenge for recurrent neural networks. Despite improvements in long short-term memory networks (LSTMs), the forgetting mechanism results in the exponential decay of information, limiting their capacity to capture long-timescale information. Here, we propose a power law forget gate, which instead learns to forget information along a slower power law decay function. Specifically, the new gate learns to control the power law decay factor, p, allowing the network to adjust the information decay rate according to task demands. Our experiments show that an LSTM with power law forget gates (pLSTM) can effectively capture long-range dependencies beyond hundreds of elements on image classification, language modeling, and categorization tasks, improving performance over the vanilla LSTM. We also inspected the revised forget gate by varying the initialization of p, setting p to a fixed value, and ablating cells in the pLSTM network. The results show that the information decay can be controlled by the learnable decay factor p, which allows pLSTM to achieve its superior performance. Altogether, we found that LSTM with the proposed forget gate can learn long-term dependencies, outperforming other recurrent networks in multiple domains; such gating mechanism can be integrated into other architectures for improving the learning of long timescale information in recurrent neural networks.
翻訳日:2021-05-14 13:53:59 公開日:2021-05-12
# インクリメンタルエンティティ分解における不整合クラスタ検出のためのグラフニューラルネットワーク

Graph Neural Networks for Inconsistent Cluster Detection in Incremental Entity Resolution ( http://arxiv.org/abs/2105.05957v1 )

ライセンス: Link先を確認
Robert A. Barton, Tal Neiman, Changhe Yuan(参考訳) オンラインストアは、バンドルや代替品などの製品関係を利用して、カタログの品質を改善し、無数の選択肢を通じて顧客を誘導することが多い。 ペアワイズ製品マッチングモデルを用いたエンティティ解決は、製品間の関係を推測する手段を提供する。 成熟したデータリポジトリでは、関係は概ね正しいが、元のデータやエンティティの解決システムにおけるエラーのため、漸進的な改善が必要である。 関係の健全性を改善するために、インクリメンタルエンティティ解決(IER)アプローチを考案することが重要である。 しかし、IERに関する既存の研究のほとんどは、新しい製品や情報を既存の関係に追加することに焦点を当てている。 現在の関係において低い品質を検出するための研究は、比較的少ない。 本稿では,共存しない既存関連製品群である不整合クラスタ(ic)を同定する新しい手法を提案する。 本研究では,重み付けエッジとして類似度を有する製品のグラフを複数のクラスタに分割するべきかどうかを予測する教師付き学習タスクとして,一貫性のないクラスタの同定を行う。 この場合、問題は重み付きグラフの分類タスクとなり、グラフニューラルネットワーク(GNN)のような現代的なツールの興味深い応用領域を表す。 既存のMessage Passing Neural Networkがこのタスクにおいて、従来のグラフ処理技術を超えるパフォーマンスを示す。 また,このタスクにおけるgnnの性能をさらに向上させるメッセージパッシングニューラルネットのための新しいメッセージアグリゲーション手法を開発した。 このモデルを合成データセット、公開ベンチマークデータセット、および内部アプリケーションに適用する。 この結果は,IERにおけるグラフ分類の価値と,グラフ分割に有用な表現を開発するためのグラフニューラルネットワークの能力を示す。

Online stores often utilize product relationships such as bundles and substitutes to improve their catalog quality and guide customers through myriad choices. Entity resolution using pairwise product matching models offers a means of inferring relationships between products. In mature data repositories, the relationships may be mostly correct but require incremental improvements owing to errors in the original data or in the entity resolution system. It is critical to devise incremental entity resolution (IER) approaches for improving the health of relationships. However, most existing research on IER focuses on the addition of new products or information into existing relationships. Relatively little research has been done for detecting low quality within current relationships. This paper proposes a novel method for identifying inconsistent clusters (IC), existing groups of related products that do not belong together. We propose to treat the identification of inconsistent clusters as a supervised learning task which predicts whether a graph of products with similarities as weighted edges should be partitioned into multiple clusters. In this case, the problem becomes a classification task on weighted graphs and represents an interesting application area for modern tools such as Graph Neural Networks (GNNs). We demonstrate that existing Message Passing neural networks perform well at this task, exceeding traditional graph processing techniques. We also develop a novel message aggregation scheme for Message Passing Neural Networks that further improves the performance of GNNs on this task. We apply the model to synthetic datasets, a public benchmark dataset, and an internal application. Our results demonstrate the value of graph classification in IER and the ability of graph neural networks to develop useful representations for graph partitioning.
翻訳日:2021-05-14 13:53:31 公開日:2021-05-12
# 制約の存在下での分類決定の十分な理由

Sufficient reasons for classifier decisions in the presence of constraints ( http://arxiv.org/abs/2105.06001v1 )

ライセンス: Link先を確認
Niku Gorji, Sasha Rubin(参考訳) 分類器はブール関数を記述し、正に分類されるインスタンスの背後にある理由は、そのインスタンスによって満足される関数の素実装である。 これらの作業の欠点の1つは、基礎となるデータが制約されていることが分かっているシナリオを明示的に扱っていないことである。 我々は、制約を考慮に入れようとして、素実装にもとづくより一般的な理論を提案する。 主なアイデアは、制約の存在下で分類子を部分ブール関数、すなわち制約を満たさないインスタンスで定義されていない関数を記述するものとして見ることである。 この単純なアイデアが、それ以上(時にはそれ以上)簡潔な理由をもたらすことを証明します。 すなわち、制約を考慮に入れない(例えば、無視したり、負のインスタンスとして捉える)ことは、制約を考慮に入れている理由によって仮定される理由をもたらす。 実データから学習した合成分類器と分類器について,この改良手法について述べる。

Recent work has unveiled a theory for reasoning about the decisions made by binary classifiers: a classifier describes a Boolean function, and the reasons behind an instance being classified as positive are the prime-implicants of the function that are satisfied by the instance. One drawback of these works is that they do not explicitly treat scenarios where the underlying data is known to be constrained, e.g., certain combinations of features may not exist, may not be observable, or may be required to be disregarded. We propose a more general theory, also based on prime-implicants, tailored to taking constraints into account. The main idea is to view classifiers in the presence of constraints as describing partial Boolean functions, i.e., that are undefined on instances that do not satisfy the constraints. We prove that this simple idea results in reasons that are no less (and sometimes more) succinct. That is, not taking constraints into account (e.g., ignored, or taken as negative instances) results in reasons that are subsumed by reasons that do take constraints into account. We illustrate this improved parsimony on synthetic classifiers and classifiers learned from real data.
翻訳日:2021-05-14 13:51:00 公開日:2021-05-12
# FeTS (Feerated tumor Segmentation) の挑戦

The Federated Tumor Segmentation (FeTS) Challenge ( http://arxiv.org/abs/2105.05874v1 )

ライセンス: Link先を確認
Sarthak Pati, Ujjwal Baid, Maximilian Zenk, Brandon Edwards, Micah Sheller, G. Anthony Reina, Patrick Foley, Alexey Gruzdev, Jason Martin, Shadi Albarqouni, Yong Chen, Russell Taki Shinohara, Annika Reinke, David Zimmerer, John B. Freymann, Justin S. Kirby, Christos Davatzikos, Rivka R. Colen, Aikaterini Kotrotsou, Daniel Marcus, Mikhail Milchenko, Arash Nazer, Hassan Fathallah-Shaykh, Roland Wiest Andras Jakab, Marc-Andre Weber, Abhishek Mahajan, Lena Maier-Hein, Jens Kleesiek, Bjoern Menze, Klaus Maier-Hein, Spyridon Bakas(参考訳) 本論文は,FeTS(Federated tumor Segmentation)の2021年の課題として,フェデレートラーニングに関する最初の課題について述べる。 しかし、「実世界の」臨床データに対する実際の参加(勝利でさえ)アルゴリズムのパフォーマンスは、課題に含まれるデータは、通常、少数の機関で非常に制御された設定で取得されるため、しばしば不明である。 このような課題において、ますます多くの機関からデータを集めるという明らかな解決策は、プライバシーと所有権のハードルのためにうまくスケールしない。 これらの懸念を和らげるために,我々は,内在性異質性(外観,形状,組織学)脳腫瘍(グリオーマ)の分節モデルの開発と評価に向け,FeTSチャレンジ2021を提案する。 具体的には、FeTS 2021チャレンジでは、BraTS 2020チャレンジから取得した多施設磁気共鳴イメージング(MRI)スキャンと、現実世界のフェデレーション(https://www.fets.ai /)のコラボレーティブネットワークに含まれる様々なリモート独立機関を用いている。 fetsチャレンジのゴールは、1)複数の地理的に異なる機関からの連合学習によって知識を得たコンセンサスモデルのトレーニングに対する最適な重み集約アプローチの特定、2)脳腫瘍のセグメンテーションモデルの「野生」における一般化可能性の連合評価、の2つのタスクによって直接表現される。 トレーニングデータセットの一部ではない機関分布のデータについて。

This manuscript describes the first challenge on Federated Learning, namely the Federated Tumor Segmentation (FeTS) challenge 2021. International challenges have become the standard for validation of biomedical image analysis methods. However, the actual performance of participating (even the winning) algorithms on "real-world" clinical data often remains unclear, as the data included in challenges are usually acquired in very controlled settings at few institutions. The seemingly obvious solution of just collecting increasingly more data from more institutions in such challenges does not scale well due to privacy and ownership hurdles. Towards alleviating these concerns, we are proposing the FeTS challenge 2021 to cater towards both the development and the evaluation of models for the segmentation of intrinsically heterogeneous (in appearance, shape, and histology) brain tumors, namely gliomas. Specifically, the FeTS 2021 challenge uses clinically acquired, multi-institutional magnetic resonance imaging (MRI) scans from the BraTS 2020 challenge, as well as from various remote independent institutions included in the collaborative network of a real-world federation (https://www.fets.ai /). The goals of the FeTS challenge are directly represented by the two included tasks: 1) the identification of the optimal weight aggregation approach towards the training of a consensus model that has gained knowledge via federated learning from multiple geographically distinct institutions, while their data are always retained within each institution, and 2) the federated evaluation of the generalizability of brain tumor segmentation models "in the wild", i.e. on data from institutional distributions that were not part of the training datasets.
翻訳日:2021-05-14 13:50:25 公開日:2021-05-12
# イベントカメラを用いたビデオストリーム中のアーティファクトの削除

Removing Blocking Artifacts in Video Streams Using Event Cameras ( http://arxiv.org/abs/2105.05973v1 )

ライセンス: Link先を確認
Henry H. Chopp, Srutarshi Banerjee, Oliver Cossairt, Aggelos K. Katsaggelos(参考訳) 本稿では,ビデオストリーム中のブロッキングアーティファクトを,ニューロモルフィックセンサからのイベントを用いて除去する畳み込みニューラルネットワークであるeverestnetを提案する。 まず,クワッドツリー構造を用いてビデオフレームを分解し,ブロッキングアーティファクトを生成し,制約の厳しい帯域内における映像送信をシミュレートする。 ニューロモルフィックセンサーからのイベントもシミュレートされるが、完全に伝達される。 歪んだフレームとイベントストリームを使用することで、EveRestNetは画質を向上させることができる。

In this paper, we propose EveRestNet, a convolutional neural network designed to remove blocking artifacts in videostreams using events from neuromorphic sensors. We first degrade the video frame using a quadtree structure to produce the blocking artifacts to simulate transmitting a video under a heavily constrained bandwidth. Events from the neuromorphic sensor are also simulated, but are transmitted in full. Using the distorted frames and the event stream, EveRestNet is able to improve the image quality.
翻訳日:2021-05-14 13:49:54 公開日:2021-05-12
# いくつかの方向距離を持つ最適輸送

Optimal transport with some directed distances ( http://arxiv.org/abs/2105.05989v1 )

ライセンス: Link先を確認
Wolfgang Stummer(参考訳) 量子関数間の有向距離のツールキットを提案する。 これを用いることで、例えば、新しい最適輸送(ot)問題を解決する。 ワッサーシュタイン距離を通して表されるいくつかの顕著なOTをかなり柔軟にする。

We present a toolkit of directed distances between quantile functions. By employing this, we solve some new optimal transport (OT) problems which e.g. considerably flexibilize some prominent OTs expressed through Wasserstein distances.
翻訳日:2021-05-14 13:49:08 公開日:2021-05-12
# Pybulletを用いたロボットマニピュレーションのためのオープンソースの多目的強化学習環境

An Open-Source Multi-Goal Reinforcement Learning Environment for Robotic Manipulation with Pybullet ( http://arxiv.org/abs/2105.05985v1 )

ライセンス: Link先を確認
Xintong Yang, Ze Ji, Jing Wu, Yu-Kun Lai(参考訳) この作業は、商用のmujocoエンジンをベースにしたopenai gymのマルチゴールロボット操作環境を、オープンソースのpybulletエンジンに再実装したものだ。 両環境における隠れ体験リプレイ支援Deep Deterministic Policy Gradient エージェントの性能を比較することで,オリジナル環境の再実装に成功したことを実証する。 さらに、ユーザに対して、ジョイントコントロールモードにアクセスするための新しいAPI、カスタマイズ可能なカメラと内蔵オンハンドカメラによる画像観察と目標を提供する。 さらに,多段階,多ゴール,長水平,スパースなロボット操作タスクのセットを設計し,これらの課題に対する新たな目標条件強化学習アルゴリズムの創出を目指す。 マルチステップ操作タスクをベンチマークするために,簡単な,人間優先のカリキュラム学習手法を用いる。 この種の課題に関する今後の研究機会についても論じる。

This work re-implements the OpenAI Gym multi-goal robotic manipulation environment, originally based on the commercial Mujoco engine, onto the open-source Pybullet engine. By comparing the performances of the Hindsight Experience Replay-aided Deep Deterministic Policy Gradient agent on both environments, we demonstrate our successful re-implementation of the original environment. Besides, we provide users with new APIs to access a joint control mode, image observations and goals with customisable camera and a built-in on-hand camera. We further design a set of multi-step, multi-goal, long-horizon and sparse reward robotic manipulation tasks, aiming to inspire new goal-conditioned reinforcement learning algorithms for such challenges. We use a simple, human-prior-based curriculum learning method to benchmark the multi-step manipulation tasks. Discussions about future research opportunities regarding this kind of tasks are also provided.
翻訳日:2021-05-14 13:49:06 公開日:2021-05-12
# 協調インテリジェンスのためのニューラルネットワーク特徴テンソルの軽量圧縮

Lightweight compression of neural network feature tensors for collaborative intelligence ( http://arxiv.org/abs/2105.06002v1 )

ライセンス: Link先を確認
Robert A. Cohen, Hyomin Choi, Ivan V. Baji\'c(参考訳) 協調的なインテリジェンスアプリケーションでは、ディープニューラルネットワーク(DNN)の一部が携帯電話やエッジデバイスのような比較的低複雑さのデバイスにデプロイされ、残りのDNNはクラウドなどより多くのコンピューティングリソースが利用できる場所で処理される。 本稿では,分割DNN層のアクティベーションのコーディングに特化して設計された軽量圧縮技術を提案する。 また,クリップアクティベーションに最適化したエントロピー拘束量子化設計アルゴリズムを提案する。 一般的な物体検出と分類DNNに適用すると、32ビット浮動小数点のアクティベーションを0.6から0.8ビットまで圧縮でき、精度を1%以下に抑えることができた。 HEVCと比較すると、軽量コーデックは推論精度を最大1.3%向上させることができた。 この軽量圧縮技術の性能と単純さは、エッジ/クラウドアプリケーションのための分割ニューラルネットワークでレイヤのアクティベーションをコーディングする魅力的な選択肢となる。

In collaborative intelligence applications, part of a deep neural network (DNN) is deployed on a relatively low-complexity device such as a mobile phone or edge device, and the remainder of the DNN is processed where more computing resources are available, such as in the cloud. This paper presents a novel lightweight compression technique designed specifically to code the activations of a split DNN layer, while having a low complexity suitable for edge devices and not requiring any retraining. We also present a modified entropy-constrained quantizer design algorithm optimized for clipped activations. When applied to popular object-detection and classification DNNs, we were able to compress the 32-bit floating point activations down to 0.6 to 0.8 bits, while keeping the loss in accuracy to less than 1%. When compared to HEVC, we found that the lightweight codec consistently provided better inference accuracy, by up to 1.3%. The performance and simplicity of this lightweight compression technique makes it an attractive option for coding a layer's activations in split neural networks for edge/cloud applications.
翻訳日:2021-05-14 13:48:51 公開日:2021-05-12
# 制御センシングと深部能動推論による異常検出

Anomaly Detection via Controlled Sensing and Deep Active Inference ( http://arxiv.org/abs/2105.06288v1 )

ライセンス: Link先を確認
Geethu Joseph, Chen Zhong, M. Cenk Gursoy, Senem Velipasalar, Pramod K. Varshney(参考訳) 本稿では,与えられたプロセス群の中で異常なプロセスを見つけることを目的とした異常検出問題に対処する。 この目的のために、意思決定エージェントは、瞬時にプロセスのサブセットを探索し、対応するプロセスが異常であるか否かを示すバイナリ変数の潜在的誤推定を得る。 エージェントは、異常なプロセスを特定するのに十分な数の測定値を得るまで、プロセスの探索を続けます。 そこで本研究では,任意の瞬間にどのプロセスを調べるかを決定し,所望の値を超える精度で異常を検知し,意思決定の遅延と測定総数を最小限に抑える逐次選択アルゴリズムを開発した。 本アルゴリズムは,自由エネルギーの概念を最大化するために逐次決定を行う一般的な枠組みである能動推論に基づいている。 我々は,選択方針の目的を用いて自由エネルギーを定義し,ディープニューラルネットワーク近似を用いたアクティブ推論フレームワークを実装した。 数値実験を用いて,本アルゴリズムをアクター・アクティビティ強化学習に基づく最先端の手法と比較し,アルゴリズムの優れた性能を示す。

In this paper, we address the anomaly detection problem where the objective is to find the anomalous processes among a given set of processes. To this end, the decision-making agent probes a subset of processes at every time instant and obtains a potentially erroneous estimate of the binary variable which indicates whether or not the corresponding process is anomalous. The agent continues to probe the processes until it obtains a sufficient number of measurements to reliably identify the anomalous processes. In this context, we develop a sequential selection algorithm that decides which processes to be probed at every instant to detect the anomalies with an accuracy exceeding a desired value while minimizing the delay in making the decision and the total number of measurements taken. Our algorithm is based on active inference which is a general framework to make sequential decisions in order to maximize the notion of free energy. We define the free energy using the objectives of the selection policy and implement the active inference framework using a deep neural network approximation. Using numerical experiments, we compare our algorithm with the state-of-the-art method based on deep actor-critic reinforcement learning and demonstrate the superior performance of our algorithm.
翻訳日:2021-05-14 13:47:17 公開日:2021-05-12
# 学習型制御センシングによる異常検出のためのスケーラブルアルゴリズム

A Scalable Algorithm for Anomaly Detection via Learning-Based Controlled Sensing ( http://arxiv.org/abs/2105.06289v1 )

ライセンス: Link先を確認
Geethu Joseph, M. Cenk Gursoy, Pramod K. Varshney(参考訳) 与えられた集合からプロセスを順次選択・観察し、それらの間に異常を見出す問題に対処する。 意思決定者は、一度に1つのプロセスを観察し、対応するプロセスが異常であるか否かのノイズの2値指標を得る。 そこで本研究では,ある時点で観察すべきプロセスを瞬時に選択し,観察を停止するタイミングを決定し,異常なプロセスについて決定する異常検出アルゴリズムを開発した。 検出アルゴリズムの目的は、意思決定の遅延を最小限にしつつ、所望の値を超える精度で決定に到達することである。 本アルゴリズムは,各過程が正常か異常かの限界確率を用いて定義されたマルコフ決定過程に依存する。 本研究では,deep actor-critic reinforcement learningフレームワークを用いて検出アルゴリズムを実装した。 プロセス数に指数関数的複雑性を持つこのトピックの以前の作業とは異なり、このアルゴリズムはプロセス数に多項式となる計算とメモリの要件を持っている。 本手法を最先端手法と比較し,数値実験を用いて有効性を示す。

We address the problem of sequentially selecting and observing processes from a given set to find the anomalies among them. The decision-maker observes one process at a time and obtains a noisy binary indicator of whether or not the corresponding process is anomalous. In this setting, we develop an anomaly detection algorithm that chooses the process to be observed at a given time instant, decides when to stop taking observations, and makes a decision regarding the anomalous processes. The objective of the detection algorithm is to arrive at a decision with an accuracy exceeding a desired value while minimizing the delay in decision making. Our algorithm relies on a Markov decision process defined using the marginal probability of each process being normal or anomalous, conditioned on the observations. We implement the detection algorithm using the deep actor-critic reinforcement learning framework. Unlike prior work on this topic that has exponential complexity in the number of processes, our algorithm has computational and memory requirements that are both polynomial in the number of processes. We demonstrate the efficacy of our algorithm using numerical experiments by comparing it with the state-of-the-art methods.
翻訳日:2021-05-14 13:46:57 公開日:2021-05-12
# 単一センサ加速度計を用いたデュシェンヌ筋ジストロフィー(DMD)の歩行特性:古典的機械学習とディープラーニングアプローチ

Gait Characterization in Duchenne Muscular Dystrophy (DMD) Using a Single-Sensor Accelerometer: Classical Machine Learning and Deep Learning Approaches ( http://arxiv.org/abs/2105.06295v1 )

ライセンス: Link先を確認
Albara Ah Ramli, Huanle Zhang, Jiahui Hou, Rex Liu, Xin Liu, Alina Nicorici, Daniel Aranki, Corey Owens, Poonam Prasad, Craig McDonald, Erik Henricson(参考訳) デュシェンヌ型筋ジストロフィー(DMD)と発達期(TD)の小児の歩行パターンの相違は目に見えるが、歩行実験室外におけるこれらの相違の定量化は解明されている。 典型的速度域を横断するアブレーション中, 腰輪式iPhone加速度計を用いて縦, 縦, 後部加速度を測定した。 3~15歳の6人のTD児と6人のDMD児が、スローウォークからランニングスピード6MWT、100m走/ウォーク100MRWを含む7つの歩行/ランニング課題を経験した。 抽出した特徴と生データを用いて,DMDとTDコントロール児を区別するために,CFを抽出し,複数の人工知能(AI)ツールを応用した。 抽出CFは, 歩幅を小さくし, 総力(TP)の縦横方向成分が短く, トレンテレンバーグ型歩行はDMDでよく見られた。 CFと生データを用いたAI手法は,DMD制御とTD制御の異なる速度での差別化において非効率に変化し,精度は91%を超えた。 消費者レベルのスマートフォンからの加速度計データを用いたAIツールを用いて、幼児から10代前半までのMDD歩行障害を識別できることを実証した。

Differences in gait patterns of children with Duchenne muscular dystrophy (DMD) and typically developing (TD) peers are visible to the eye, but quantification of those differences outside of the gait laboratory has been elusive. We measured vertical, mediolateral, and anteroposterior acceleration using a waist-worn iPhone accelerometer during ambulation across a typical range of velocities. Six TD and six DMD children from 3-15 years of age underwent seven walking/running tasks, including five 25m walk/run tests at a slow walk to running speeds, a 6-minute walk test (6MWT), and a 100-meter-run/walk (100MRW). We extracted temporospatial clinical gait features (CFs) and applied multiple Artificial Intelligence (AI) tools to differentiate between DMD and TD control children using extracted features and raw data. Extracted CFs showed reduced step length and a greater mediolateral component of total power (TP) consistent with shorter strides and Trendelenberg-like gait commonly observed in DMD. AI methods using CFs and raw data varied ineffectiveness at differentiating between DMD and TD controls at different speeds, with an accuracy of some methods exceeding 91%. We demonstrate that by using AI tools with accelerometer data from a consumer-level smartphone, we can identify DMD gait disturbance in toddlers to early teens.
翻訳日:2021-05-14 13:46:41 公開日:2021-05-12
# StutterNet: Time Delay Neural Network を用いた散乱検出

StutterNet: Stuttering Detection Using Time Delay Neural Network ( http://arxiv.org/abs/2105.05599v1 )

ライセンス: Link先を確認
Shakeel A. Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni(参考訳) 本稿では,多種多様な不純物の検出と同定が可能な,新しい深層学習に基づくスッタリング検出法であるstutternetについて述べる。 この分野での既存の作業のほとんどは、自動音声認識(asr)と言語モデルを組み合わせて検出する。 ASRモジュールに依存する既存の手法と比較して,本手法は音響信号のみに依存する。 我々は、分散発話の文脈的側面を捉えるのに適した時間遅延ニューラルネットワーク(TDNN)を用いる。 我々は,100名以上の話者からなるu class stutteringデータセット上でシステムを評価する。 提案手法は,有望な結果を達成し,最先端の残差ニューラルネットワーク法より優れる。 また,提案手法のトレーニング可能なパラメータの数は,TDNNのパラメータ共有方式により大幅に減少した。

This paper introduce StutterNet, a novel deep learning based stuttering detection capable of detecting and identifying various types of disfluencies. Most of the existing work in this domain uses automatic speech recognition (ASR) combined with language models for stuttering detection. Compared to the existing work, which depends on the ASR module, our method relies solely on the acoustic signal. We use a time-delay neural network (TDNN) suitable for capturing contextual aspects of the disfluent utterances. We evaluate our system on the UCLASS stuttering dataset consisting of more than 100 speakers. Our method achieves promising results and outperforms the state-of-the-art residual neural network based method. The number of trainable parameters of the proposed method is also substantially less due to the parameter sharing scheme of TDNN.
翻訳日:2021-05-14 13:44:41 公開日:2021-05-12
# 血糖値の予測に対する関数近似法

A function approximation approach to the prediction of blood glucose levels ( http://arxiv.org/abs/2105.05893v1 )

ライセンス: Link先を確認
H.N. Mhaskar, S.V. Pereverzyev, M.D. van der Walt(参考訳) 連続グルコースモニタリング(cgm)装置の読影に基づく血糖値のリアルタイム予測の問題は,糖尿病治療において非常に重要であり,近年,特に機械学習に基づく研究が盛んに行われている。 30、60、または90分の予測地平線での正確な予測は、何百万ドルもの緊急医療費を節約できる可能性がある。 本稿では、この問題を関数近似の1つとして扱い、時間$t+h$(ここでは予測水平線$h$)のBGレベルの値が、時間$t$よりも前の$d$の未知の関数であると考えられる。 この未知函数は、特に$d$次元ユークリッド空間の未知の部分多様体上で支持される。 多様体学習は、データ全体を事前に知る必要がある半教師付き設定で古典的に行われるが、近年のアイデアを用いて教師付き設定における正確な関数近似、すなわち対象関数のモデルを構築する。 そこで本研究では,最先端臨床研究のpred-egaグリッドを用いて評価を行い,本手法が通常の深層ネットワーク,特に低血糖および高血糖環境よりも優れた性能を示す。 この作業で注目すべき点は、トレーニングデータとテストデータが異なるディストリビューションから来る可能性があることだ。

The problem of real time prediction of blood glucose (BG) levels based on the readings from a continuous glucose monitoring (CGM) device is a problem of great importance in diabetes care, and therefore, has attracted a lot of research in recent years, especially based on machine learning. An accurate prediction with a 30, 60, or 90 minute prediction horizon has the potential of saving millions of dollars in emergency care costs. In this paper, we treat the problem as one of function approximation, where the value of the BG level at time $t+h$ (where $h$ the prediction horizon) is considered to be an unknown function of $d$ readings prior to the time $t$. This unknown function may be supported in particular on some unknown submanifold of the $d$-dimensional Euclidean space. While manifold learning is classically done in a semi-supervised setting, where the entire data has to be known in advance, we use recent ideas to achieve an accurate function approximation in a supervised setting; i.e., construct a model for the target function. We use the state-of-the-art clinically relevant PRED-EGA grid to evaluate our results, and demonstrate that for a real life dataset, our method performs better than a standard deep network, especially in hypoglycemic and hyperglycemic regimes. One noteworthy aspect of this work is that the training data and test data may come from different distributions.
翻訳日:2021-05-14 13:44:31 公開日:2021-05-12
# 多チャンネル音声認識のためのアテンションベースニューラルビームフォーミング層

Attention-based Neural Beamforming Layers for Multi-channel Speech Recognition ( http://arxiv.org/abs/2105.05920v1 )

ライセンス: Link先を確認
Bhargav Pulugundla, Yang Gao, Brian King, Gokce Keskin, Harish Mallidi, Minhua Wu, Jasha Droppo, Roland Maas(参考訳) 注意に基づくビームフォーマは、最近マルチチャネル音声認識に有効であることが示されている。 しかし、ローカル情報を取得する能力は低い。 本研究では,畳み込みニューラルネットワークとビームフォーミングの注意を組み合わせる2次元convアテンションモジュールを提案する。 我々は、入力チャネル内および入力チャネル間の相関関係を明示的にモデル化するために、自己および相互アテンションを適用した。 エンドツーエンドの2D Conv-Attentionモデルは、マルチヘッドの自己アテンションとスーパーディレクティブベースのニューラルビームフォーマと比較される。 社内のマルチチャネルデータセットをトレーニングし,評価する。 その結果,ベースラインニューラルビームフォーマに対する提案モデルによるwerの3.8%の相対的改善が認められた。

Attention-based beamformers have recently been shown to be effective for multi-channel speech recognition. However, they are less capable at capturing local information. In this work, we propose a 2D Conv-Attention module which combines convolution neural networks with attention for beamforming. We apply self- and cross-attention to explicitly model the correlations within and between the input channels. The end-to-end 2D Conv-Attention model is compared with a multi-head self-attention and superdirective-based neural beamformers. We train and evaluate on an in-house multi-channel dataset. The results show a relative improvement of 3.8% in WER by the proposed model over the baseline neural beamformer.
翻訳日:2021-05-14 13:44:09 公開日:2021-05-12
# (参考訳) 古典データのための量子機械学習

Quantum Machine Learning For Classical Data ( http://arxiv.org/abs/2105.03684v2 )

ライセンス: CC BY-SA 4.0
Leonard Wossnig(参考訳) この論文では、量子コンピューティングと教師あり機械学習アルゴリズムの交点について研究し、古典的データを扱う教師あり機械学習のための量子アルゴリズムについて検討する。 この研究領域は、最近広く注目を集めているコンピュータ科学の研究領域である量子機械学習の傘下にある。 特に,教師付き機械学習アルゴリズムの高速化に量子コンピュータがどの程度使えるかを検討する。 この目的は、教師付き機械学習のための量子アルゴリズム技術の現状の約束と限界を明確に理解することだけでなく、このエキサイティングな分野における将来の研究の方向性を定義することである。 まず、統計学習理論のレンズを通して、教師付き量子機械学習(QML)アルゴリズムを考察する。 このフレームワークでは、最適学習率の要求の下で、教師付きQMLアルゴリズムの大規模集合の計算複雑性に基づいた新しい境界を導出する。 次に、最もよく知られた教師付きQMLアルゴリズムの主要なサブルーチンである高密度ハミルトニアンのハミルトンシミュレーションに新しい境界を与え、それからほぼ同じ複雑さを持つ古典的アルゴリズムを導出する。 次に,最近の量子インスパイアされた結果と並列性を示し,これらの結果が量子機械学習アプリケーションに与える影響を説明する。 QMLアルゴリズムの利点が大きい分野を探すため、量子ボルツマンマシンのための新しいアルゴリズムを提案し、量子データのための量子アルゴリズムは古典的アプローチよりも指数関数的な優位性を持つQMLの最も有望な応用の1つであると論じる。

In this dissertation, we study the intersection of quantum computing and supervised machine learning algorithms, which means that we investigate quantum algorithms for supervised machine learning that operate on classical data. This area of research falls under the umbrella of quantum machine learning, a research area of computer science which has recently received wide attention. In particular, we investigate to what extent quantum computers can be used to accelerate supervised machine learning algorithms. The aim of this is to develop a clear understanding of the promises and limitations of the current state of the art of quantum algorithms for supervised machine learning, but also to define directions for future research in this exciting field. We start by looking at supervised quantum machine learning (QML) algorithms through the lens of statistical learning theory. In this framework, we derive novel bounds on the computational complexities of a large set of supervised QML algorithms under the requirement of optimal learning rates. Next, we give a new bound for Hamiltonian simulation of dense Hamiltonians, a major subroutine of most known supervised QML algorithms, and then derive a classical algorithm with nearly the same complexity. We then draw the parallels to recent "quantum-inspired&quo t; results, and will explain the implications of these results for quantum machine learning applications. Looking for areas which might bear larger advantages for QML algorithms, we finally propose a novel algorithm for Quantum Boltzmann machines, and argue that quantum algorithms for quantum data are one of the most promising applications for QML with potentially exponential advantage over classical approaches.
翻訳日:2021-05-14 03:34:27 公開日:2021-05-12
# (参考訳) appealNet: DNN推論のための効率的かつ高精度なエッジ/クラウドコラボレーションアーキテクチャ [全文訳有]

AppealNet: An Efficient and Highly-Accurate Edge/Cloud Collaborative Architecture for DNN Inference ( http://arxiv.org/abs/2105.04104v2 )

ライセンス: CC BY 4.0
Min Li, Yu Li, Ye Tian, Li Jiang and Qiang Xu(参考訳) 本稿では,最先端ソリューションよりもディープラーニング(dl)タスクを効率的に実行する新しいエッジ/クラウド協調アーキテクチャである appealnet を提案する。 与えられた入力に対して、 appealnetは、リソース制約のあるエッジデバイスにデプロイされたdlモデルによってうまく処理できるかどうかを正確に予測し、そうでなければ、クラウドにデプロイされるより強力なdlモデルにアピールする。 これは、エッジ/クラウド協調アーキテクチャの精度と計算/通信コストのトレードオフを最適化し、推論の難しさを明示的に考慮した、双方向のニューラルネットワークアーキテクチャを採用することで実現される。 いくつかの画像分類データセットの実験結果は、既存の手法と比較して40%以上の省エネ効果が得られた。

This paper presents AppealNet, a novel edge/cloud collaborative architecture that runs deep learning (DL) tasks more efficiently than state-of-the-art solutions. For a given input, AppealNet accurately predicts on-the-fly whether it can be successfully processed by the DL model deployed on the resource-constrained edge device, and if not, appeals to the more powerful DL model deployed at the cloud. This is achieved by employing a two-head neural network architecture that explicitly takes inference difficulty into consideration and optimizes the tradeoff between accuracy and computation/communic ation cost of the edge/cloud collaborative architecture. Experimental results on several image classification datasets show up to more than 40% energy savings compared to existing techniques without sacrificing accuracy.
翻訳日:2021-05-14 03:24:02 公開日:2021-05-12
# (参考訳) 捕獲再捕獲設計に基づく個体数の推定と推定信頼性の評価

Estimation of population size based on capture recapture designs and evaluation of the estimation reliability ( http://arxiv.org/abs/2105.05373v1 )

ライセンス: CC BY 4.0
Yue You, Mark van der Laan, Philip Collender, Qu Cheng, Alan Hubbard, Nicholas P Jewell, Zhiyue Tom Hu, Robin Mejia and Justin Remais(参考訳) そこで本研究では,Kサンプルのキャプチャー・キャプチャー設計に基づく個体数推定手法を提案する。 観測データはni.i.dのサンプルとして定式化される。 各ベクトルの k 番目の成分が k 番目のサンプルによって捕獲されていることを示す二進指標の k 次元ベクトルは、非零捕獲ベクトルを持つ対象のみが観察される。 対象量は、観測対象と観測対象の両方で非ゼロのベクトルの非条件確率である。 我々は,K次元分布の1つの制約(同定仮定)を仮定し,対象量を同定し,統計モデルを制限しないモデルをカバーする。 線形および対数線形モデルにおけるk-ウェイ相互作用や独立性、条件付き独立性など、捕獲-回収モデルを特定するために一般的に想定される線形および非線形制約の解を提案する。 制約の選択が推定値に劇的な影響を与えていることを示し、制約が設計によって保持されることが重要であることを示す。 対数-線型モデルにおけるk-ウェイ相互作用の一般に仮定される制約に対して、統計対象パラメータは、2^k - 1$の観測可能な捕獲パターンが存在する場合にのみ定義され、従って次元の呪いに苦しむ。 本研究は, 単値対象パラメータに対する適合性を目標とし, セル間のスムーズなスムーズなラッソモデルに基づくターゲットMLEを提案する。 各同定仮定に対して、推定器の性能を正しく不正確な同定仮定の下で評価するために、シミュレーション推論と信頼区間を提供する。 提案手法は,中国南西部の地域からの多ソース監視データを用いて寄生虫感染の有病率を推定するために,既存の推定値とともに適用した。

We propose a modern method to estimate population size based on capture-recapture designs of K samples. The observed data is formulated as a sample of n i.i.d. K-dimensional vectors of binary indicators, where the k-th component of each vector indicates the subject being caught by the k-th sample, such that only subjects with nonzero capture vectors are observed. The target quantity is the unconditional probability of the vector being nonzero across both observed and unobserved subjects. We cover models assuming a single constraint (identification assumption) on the K-dimensional distribution such that the target quantity is identified and the statistical model is unrestricted. We present solutions for linear and non-linear constraints commonly assumed to identify capture-recapture models, including no K-way interaction in linear and log-linear models, independence or conditional independence. We demonstrate that the choice of constraint has a dramatic impact on the value of the estimand, showing that it is crucial that the constraint is known to hold by design. For the commonly assumed constraint of no K-way interaction in a log-linear model, the statistical target parameter is only defined when each of the $2^K - 1$ observable capture patterns is present, and therefore suffers from the curse of dimensionality. We propose a targeted MLE based on undersmoothed lasso model to smooth across the cells while targeting the fit towards the single valued target parameter of interest. For each identification assumption, we provide simulated inference and confidence intervals to assess the performance on the estimator under correct and incorrect identifying assumptions. We apply the proposed method, alongside existing estimators, to estimate prevalence of a parasitic infection using multi-source surveillance data from a region in southwestern China, under the four identification assumptions.
翻訳日:2021-05-13 23:46:00 公開日:2021-05-12
# (参考訳) ccn gacワークショップ: 生物リカレントニューラルネットワークにおける学習の課題 [全文訳有]

CCN GAC Workshop: Issues with learning in biological recurrent neural networks ( http://arxiv.org/abs/2105.05382v1 )

ライセンス: CC BY 4.0
Luke Y. Prince, Ellen Boven, Roy Henha Eyono, Arna Ghosh, Joe Pemberton, Franz Scherr, Claudia Clopath, Rui Ponte Costa, Wolfgang Maass, Blake A. Richards, Cristina Savin, Katharina Anna Wilmes(参考訳) この視点のピースは、2020年にcomputation cognitive neuroscience (ccn) conferenceによって組織されたgenerative adversarial collaboration (gac)シリーズを通じて生まれた。 我々は、生物学のリカレントニューラルネットワークで学習がどのように実装されているかを理解するために、理論神経科学の分野から多くの専門家を集めました。 本稿では,生物学習に関する一般的な仮定と実験神経科学から得られた知見の概観を概観し,人工知能で一般的に用いられる反復型ニューラルネットワークにおける勾配型学習の効率と対比する。 ワークショップでは、シナプス可塑性、ニューラルサーキット、理論-実験分割、目的関数といった重要な課題について概説する。 最後に、これらの問題に明確性をもたらす新しい研究を設計する際に、理論的および実験的神経科学者の両方に推奨する。

This perspective piece came about through the Generative Adversarial Collaboration (GAC) series of workshops organized by the Computational Cognitive Neuroscience (CCN) conference in 2020. We brought together a number of experts from the field of theoretical neuroscience to debate emerging issues in our understanding of how learning is implemented in biological recurrent neural networks. Here, we will give a brief review of the common assumptions about biological learning and the corresponding findings from experimental neuroscience and contrast them with the efficiency of gradient-based learning in recurrent neural networks commonly used in artificial intelligence. We will then outline the key issues discussed in the workshop: synaptic plasticity, neural circuits, theory-experiment divide, and objective functions. Finally, we conclude with recommendations for both theoretical and experimental neuroscientists when designing new studies that could help to bring clarity to these issues.
翻訳日:2021-05-13 23:44:27 公開日:2021-05-12
# (参考訳) 等質ベクトル束と$G$-同変畳み込みニューラルネットワーク [全文訳有]

Homogeneous vector bundles and $G$-equivariant convolutional neural networks ( http://arxiv.org/abs/2105.05400v1 )

ライセンス: CC BY 4.0
Jimmy Aronsson(参考訳) G$-equivariant convolutional Neural Network (GCNN) は、均一な$G$-space $\mathcal{M}$で定義されたデータの幾何学的深層学習モデルである。 GCNNは$\mathcal{M}$でグローバル対称性を尊重するように設計されており、学習を容易にする。 本稿では、同次空間 $\mathcal{M} = G/K$ 上の GCNN を、一モジュラーリー群 $G$ およびコンパクト部分群 $K \leq G$ の場合に解析する。 等質ベクトルバンドルがGCNNの自然な設定であることを実証する。 また、再生カーネルヒルベルト空間を用いて、$G$-同変層を畳み込み層として表現するための正確な基準を得る。 この基準はその後、帯域幅の基準として記述され、いくつかのグループでさらに強い結果をもたらす。

$G$-equivariant convolutional neural networks (GCNNs) is a geometric deep learning model for data defined on a homogeneous $G$-space $\mathcal{M}$. GCNNs are designed to respect the global symmetry in $\mathcal{M}$, thereby facilitating learning. In this paper, we analyze GCNNs on homogeneous spaces $\mathcal{M} = G/K$ in the case of unimodular Lie groups $G$ and compact subgroups $K \leq G$. We demonstrate that homogeneous vector bundles is the natural setting for GCNNs. We also use reproducing kernel Hilbert spaces to obtain a precise criterion for expressing $G$-equivariant layers as convolutional layers. This criterion is then rephrased as a bandwidth criterion, leading to even stronger results for some groups.
翻訳日:2021-05-13 23:36:50 公開日:2021-05-12
# (参考訳) 構造案内車線検出 [全文訳有]

Structure Guided Lane Detection ( http://arxiv.org/abs/2105.05403v1 )

ライセンス: CC BY 4.0
Jinming Su, Chao Chen, Ke Zhang, Junfeng Luo, Xiaoming Wei and Xiaolin Wei(参考訳) 近年、車線検出はディープニューラルネットワークと自律運転の急速な発展で大きな進歩を遂げている。 しかし、レーンの特徴付け、シーンとレーンの構造的関係のモデル化、レーンのより多くの属性(例と型)のサポートなど、主に3つの問題が存在する。 本稿では,これらの問題を解決するための新しい構造誘導フレームワークを提案する。 フレームワークではまず,各インスタンスを特徴付ける新しいレーン表現を導入する。 そして、様々なレーンを効率的に捕捉する集中アンカーを生成するために、トップダウン消滅点誘導アンカー機構を提案する。 次に、レーンの知覚を改善するために多層構造制約を用いる。 この過程では、アンカー周辺の特徴と車線詳細の復元をボトムアップから促進するためにバイナリセグメンテーションによる画素レベルの知覚を導入し、レーン周辺のモデル構造(すなわち並列)にレーンレベルの関係を前進させ、シーンの観点から画像の異なる領域に適応的に注目する。 構造誘導の助けを借りて、アンカーは効果的に分類され、正確な位置と形状を得るために後退する。 公開ベンチマークデータセットに関する広範な実験は、提案手法が1つのgpu上で117fpsで最先端のメソッドを上回ることを示している。

Recently, lane detection has made great progress with the rapid development of deep neural networks and autonomous driving. However, there exist three mainly problems including characterizing lanes, modeling the structural relationship between scenes and lanes, and supporting more attributes (e.g., instance and type) of lanes. In this paper, we propose a novel structure guided framework to solve these problems simultaneously. In the framework, we first introduce a new lane representation to characterize each instance. Then a topdown vanishing point guided anchoring mechanism is proposed to produce intensive anchors, which efficiently capture various lanes. Next, multi-level structural constraints are used to improve the perception of lanes. In the process, pixel-level perception with binary segmentation is introduced to promote features around anchors and restore lane details from bottom up, a lane-level relation is put forward to model structures (i.e., parallel) around lanes, and an image-level attention is used to adaptively attend different regions of the image from the perspective of scenes. With the help of structural guidance, anchors are effectively classified and regressed to obtain precise locations and shapes. Extensive experiments on public benchmark datasets show that the proposed approach outperforms state-of-the-art methods with 117 FPS on a single GPU.
翻訳日:2021-05-13 23:12:57 公開日:2021-05-12
# (参考訳) 人間-コンピュータインタラクションから人間-AIインタラクションへ:人間中心AIの実現に向けた新たな課題と機会

From Human-Computer Interaction to Human-AI Interaction: New Challenges and Opportunities for Enabling Human-Centered AI ( http://arxiv.org/abs/2105.05424v1 )

ライセンス: CC BY 4.0
Wei Xu, Marvin J. Dainoff, Liezhong Ge, Zaifeng Gao(参考訳) AIは人間に恩恵を与えたが、適切に開発されていなければ人間を傷つけることもある。 我々は、HCIの観点から、AIシステムの開発における現在の研究の文献レビューを行った。 他のアプローチとは異なり、私たちの焦点はAI技術のユニークな特徴と非AIコンピューティングシステムとAIシステムの違いにあります。 2019年に提案した人間中心型AI(HCAI)アプローチをさらに詳しく検討する。 本レビューと分析は,非aiコンピューティングシステムにおいてhci専門家が遭遇していない,aiシステム開発におけるユニークな課題を浮き彫りにする。 HCAIの実装をさらに進めるために、我々は、学際的なコラボレーションとして人間-AIインタラクション(HAII)の研究と応用を促進する。 HCIの専門家が主要なHAII領域にユニークな貢献を行う上で重要な役割を果たす機会はたくさんあります。 HAII領域における将来のHCI実践を支援するため,HCI手法の強化と戦略的勧告も提供する。 結論として、HAII研究と応用の促進がHCAIの実装をさらに促進し、HCI専門家がAIシステムのユニークな問題に対処し、人間中心のAIシステムを開発することを可能にすると信じている。

While AI has benefited humans, it may also harm humans if not appropriately developed. We conducted a literature review of current related work in developing AI systems from an HCI perspective. Different from other approaches, our focus is on the unique characteristics of AI technology and the differences between non-AI computing systems and AI systems. We further elaborate on the human-centered AI (HCAI) approach that we proposed in 2019. Our review and analysis highlight unique issues in developing AI systems which HCI professionals have not encountered in non-AI computing systems. To further enable the implementation of HCAI, we promote the research and application of human-AI interaction (HAII) as an interdisciplinary collaboration. There are many opportunities for HCI professionals to play a key role to make unique contributions to the main HAII areas as we identified. To support future HCI practice in the HAII area, we also offer enhanced HCI methods and strategic recommendations. In conclusion, we believe that promoting the HAII research and application will further enable the implementation of HCAI, enabling HCI professionals to address the unique issues of AI systems and develop human-centered AI systems.
翻訳日:2021-05-13 23:00:45 公開日:2021-05-12
# (参考訳) TextOCR:任意の形のシーンテキストの大規模エンドツーエンド推論を目指して [全文訳有]

TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text ( http://arxiv.org/abs/2105.05486v1 )

ライセンス: CC BY 4.0
Amanpreet Singh, Guan Pang, Mandy Toh, Jing Huang, Wojciech Galuba, Tal Hassner(参考訳) textvqaとtextcapsデータセットに必要なテキストベース推論の重要なコンポーネントは、光学式文字認識(ocr)システムを使用して画像中のテキストを検出し認識することである。 現状のシステムは,これらのデータセットに対する接地真理テキストアノテーションの有効性の欠如と,OCR分野の進歩を許さない実画像上でのシーンテキスト検出と認識データセットの欠如と,OCRシステムから切り離されたシーンテキストベースの推論の評価に障害がある。 本研究では,テキストvqaデータセットから実画像に900kアノテートされた単語を抽出し,任意の形状のテキスト検出と認識を行うtextocrを提案する。 現状のテキスト認識(OCR)モデルはTextOCRではうまく動作せず,TextOCR上でのトレーニングは,他の複数のOCRデータセット上での最先端のパフォーマンス向上にも有効であることを示す。 我々は、TextOCRトレーニングされたOCRモデルを使用して、PixelM4Cモデルを作成し、画像上のシーンテキストベースの推論をエンドツーエンドで行えるようにし、いくつかの設計選択を再検討し、TextVQAデータセット上で新しい最先端パフォーマンスを実現することができる。

A crucial component for the scene text based reasoning required for TextVQA and TextCaps datasets involve detecting and recognizing text present in the images using an optical character recognition (OCR) system. The current systems are crippled by the unavailability of ground truth text annotations for these datasets as well as lack of scene text detection and recognition datasets on real images disallowing the progress in the field of OCR and evaluation of scene text based reasoning in isolation from OCR systems. In this work, we propose TextOCR, an arbitrary-shaped scene text detection and recognition with 900k annotated words collected on real images from TextVQA dataset. We show that current state-of-the-art text-recognition (OCR) models fail to perform well on TextOCR and that training on TextOCR helps achieve state-of-the-art performance on multiple other OCR datasets as well. We use a TextOCR trained OCR model to create PixelM4C model which can do scene text based reasoning on an image in an end-to-end fashion, allowing us to revisit several design choices to achieve new state-of-the-art performance on TextVQA dataset.
翻訳日:2021-05-13 22:59:33 公開日:2021-05-12
# (参考訳) LipBaB: ReLUネットワークの正確なリプシッツ定数の計算 [全文訳有]

LipBaB: Computing exact Lipschitz constant of ReLU networks ( http://arxiv.org/abs/2105.05495v1 )

ライセンス: CC BY 4.0
Aritra Bhowmick, Meenakshi D'Souza, G. Srinivasa Raghavan(参考訳) ニューラルネットワークのリプシッツ定数は、堅牢性証明から正規化からニューラルネットワークコントローラを持つシステムの安定性解析まで、ディープラーニングのいくつかの文脈において重要な役割を果たす。 したがって、リプシッツ定数の厳密な境界を持つことが重要である。 本稿では、ReLUアクティベーション機能を持つディープニューラルネットワークの局所リプシッツ定数の証明済み境界を任意の精度で計算するための分岐およびバウンドフレームワークであるLipBaBを紹介する。 我々は、入力領域内で生じるネットワークの異なる活性化パターンに対応するジャコビアンのノルムにバインドすることでこれを達成する。 このアルゴリズムは任意の p-ノルムに対するリプシッツ定数の正確な計算を提供することができる。

The Lipschitz constant of neural networks plays an important role in several contexts of deep learning ranging from robustness certification and regularization to stability analysis of systems with neural network controllers. Obtaining tight bounds of the Lipschitz constant is therefore important. We introduce LipBaB, a branch and bound framework to compute certified bounds of the local Lipschitz constant of deep neural networks with ReLU activation functions up to any desired precision. We achieve this by bounding the norm of the Jacobians, corresponding to different activation patterns of the network caused within the input domain. Our algorithm can provide provably exact computation of the Lipschitz constant for any p-norm.
翻訳日:2021-05-13 22:32:22 公開日:2021-05-12
# (参考訳) マルチラベル雑音下におけるリモートセンシング画像分類のための新しい不確実性認識協調学習法 [全文訳有]

A Novel Uncertainty-aware Collaborative Learning Method for Remote Sensing Image Classification Under Multi-Label Noise ( http://arxiv.org/abs/2105.05496v1 )

ライセンス: CC BY 4.0
Ahmet Kerem Aksoy, Mahdyar Ravanbakhsh, Tristan Kreuziger, Begum Demir(参考訳) リモートセンシング(RS)では、マルチラベル分類(MLC)のための複数のランドカバークラスラベルで注釈付けされた多数の信頼できるトレーニング画像を集めるのに時間と費用がかかる。 この問題に対処するために、一般に利用可能なテーマ製品は、RS画像にゼロラベルのコストでアノテートするためにしばしば使用される。 しかし、この場合、トレーニングセットには、学習プロセスを歪ませるノイズの多いマルチラベルが含まれ、不正確な予測をもたらす。 本稿では,mlc問題における入力依存(ヘテロシステティック)マルチラベル雑音下で深層分類器を訓練する,設計者に依存しない共用多段学習(ccml)手法を提案する。 提案したCCMLは,1)グループラッソモジュール,2)離散モジュール,3)フリップモジュール,および4)スワップモジュールの4つの主要モジュールを通して,ノイズの多いマルチラベル画像を特定し,ランク付けし,修正する。 グループラッソモジュールは、2つの協調ネットワークの集約に基づいてラベルの不確実性を推定することにより、潜在的にノイズの多いラベルを検出する。 相違モジュールは、2つのネットワークが同じ予測を得ながら多様な特徴を学習することを保証する。 スイッチングモジュールは識別されたノイズラベルを補正し、スワップモジュールは2つのネットワーク間でランキング情報を交換する。 マルチラベルRS画像アーカイブIR-BigEarthNetで行った実験は、提案したCCMLの極端なマルチラベルノイズレートでの堅牢性を確認する。

In remote sensing (RS), collecting a large number of reliable training images annotated by multiple land-cover class labels for multi-label classification (MLC) is time-consuming and costly. To address this problem, the publicly available thematic products are often used for annotating RS images with zero-labeling cost. However, in this case the training set can include noisy multi-labels that distort the learning process, resulting in inaccurate predictions. This paper proposes an architect-independen t Consensual Collaborative Multi-Label Learning (CCML) method to train deep classifiers under input-dependent (heteroscedastic) multi-label noise in the MLC problems. The proposed CCML identifies, ranks, and corrects noisy multi-label images through four main modules: 1) group lasso module; 2) discrepancy module; 3) flipping module; and 4) swap module. The group lasso module detects the potentially noisy labels by estimating the label uncertainty based on the aggregation of two collaborative networks. The discrepancy module ensures that the two networks learn diverse features, while obtaining the same predictions. The flipping module corrects the identified noisy labels, and the swap module exchanges the ranking information between the two networks. The experiments conducted on the multi-label RS image archive IR-BigEarthNet confirm the robustness of the proposed CCML under extreme multi-label noise rates.
翻訳日:2021-05-13 22:18:21 公開日:2021-05-12
# (参考訳) 条件付き有理通信の確率論的モデリング

Probabilistic modelling of rational communication with conditionals ( http://arxiv.org/abs/2105.05502v1 )

ライセンス: CC BY 4.0
Britta Grusdt and Daniel Lassiter and Michael Franke(参考訳) 多くの作品が条件文の意味を精査しているが、その実用的使用と解釈の形式モデルにはかなり注意が払われていない。 ここでは,高度に構成された世界状態の勾配的信念を柔軟に統合する条件付きについて,実用的推論に確率論的アプローチを適用する。 我々は,話者の発話生成プロトコルに関する仮定に基づいて,世界の因果構造と先行語と先行語の合同確率に関する先行的信念の聴取者の更新をモデル化する。 本モデルでは, 自然の文脈的仮定が与えられた場合, 疫学的な推測, 条件的完全性, 条件の先行と連続との依存性など, 文献で証明された多くの推論を均一に説明できることを示す。 提案手法は,Douven (2012) が条件付き音声の更新について導入した3つのパズルを説明する上でも有効である,と論じる。

While a large body of work has scrutinized the meaning of conditional sentences, considerably less attention has been paid to formal models of their pragmatic use and interpretation. Here, we take a probabilistic approach to pragmatic reasoning about conditionals which flexibly integrates gradient beliefs about richly structured world states. We model listeners' update of their prior beliefs about the causal structure of the world and the joint probabilities of the consequent and antecedent based on assumptions about the speaker's utterance production protocol. We show that, when supplied with natural contextual assumptions, our model uniformly explains a number of inferences attested in the literature, including epistemic inferences, Conditional Perfection and the dependency between antecedent and consequent of a conditional. We argue that this approach also helps explain three puzzles introduced by Douven (2012) about updating with conditionals: depending on the utterance context, the listener's belief in the antecedent may increase, decrease or remain unchanged.
翻訳日:2021-05-13 22:07:30 公開日:2021-05-12
# (参考訳) ローカライゼーション・フュージョンのタンパリングのためのオペレーションワイドアテンションネットワーク [全文訳有]

Operation-wise Attention Network for Tampering Localization Fusion ( http://arxiv.org/abs/2105.05515v1 )

ライセンス: CC BY 4.0
Polychronis Charitidis, Giorgos Kordopatis-Zilos, Symeon Papadopoulos, Ioannis Kompatsiaris(参考訳) 本研究では,画像改ざんのための深層学習に基づくアプローチを提案する。 このアプローチは、複数の画像解析アルゴリズムの結果を組み合わせることを目的としており、専門家の知識を必要とせず、エンドユーザによる解釈が容易な、融合したローカライズマップを提供する。 我々の融合フレームワークは、JPEG画像上のローカライズをスプライシングするための5つの個別タンパリングローカライズ手法を含む。 提案するディープラーニング融合モデルは,入力信号に応じて適切な操作を選択するための注意機構により重み付けされ,複数の操作を並列に実行する画像復元タスクのために最初に提案された適応型アーキテクチャである。 この重み付けプロセスは、複数の画像解析アルゴリズムの出力信号が組み合わされた場合のように、入力信号が非常に多様である場合に非常に有用である。 公に入手可能な3つの鑑識データセットにおける評価は、提案手法のパフォーマンスが競合的であることを示しており、多くのケースにおいて、個々の鑑識技術や最近提案された別の融合フレームワークを上回っている。

In this work, we present a deep learning-based approach for image tampering localization fusion. This approach is designed to combine the outcomes of multiple image forensics algorithms and provides a fused tampering localization map, which requires no expert knowledge and is easier to interpret by end users. Our fusion framework includes a set of five individual tampering localization methods for splicing localization on JPEG images. The proposed deep learning fusion model is an adapted architecture, initially proposed for the image restoration task, that performs multiple operations in parallel, weighted by an attention mechanism to enable the selection of proper operations depending on the input signals. This weighting process can be very beneficial for cases where the input signal is very diverse, as in our case where the output signals of multiple image forensics algorithms are combined. Evaluation in three publicly available forensics datasets demonstrates that the performance of the proposed approach is competitive, outperforming the individual forensics techniques as well as another recently proposed fusion framework in the majority of cases.
翻訳日:2021-05-13 22:06:30 公開日:2021-05-12
# (参考訳) Swin-Unet:Unetライクな医用画像セグメンテーション用Pure Transformer [全文訳有]

Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2105.05537v1 )

ライセンス: CC BY 4.0
Hu Cao, Yueyue Wang, Joy Chen, Dongsheng Jiang, Xiaopeng Zhang, Qi Tian, Manning Wang(参考訳) 過去数年間、畳み込みニューラルネットワーク(CNN)は医療画像解析においてマイルストーンを達成した。 特に、U字型アーキテクチャとスキップ接続に基づくディープニューラルネットワークは、様々な医療画像タスクに広く応用されている。 しかし、CNNは優れた性能を発揮しているが、畳み込み操作の局所性のため、グローバルと長距離のセマンティック情報相互作用をうまく学べない。 本稿では,医療画像分割のためのunetライクなトランスフォーマであるswin-unetを提案する。 トークン化されたイメージパッチは、ローカルグローバルセマンティック特徴学習のためのスキップ接続を備えたトランスフォーマベースのu字型エンコーダ-デコーダアーキテクチャに供給される。 具体的には,コンテキスト特徴を抽出するエンコーダとしてシフトウインドウを用いた階層型スウィントランスを用いた。 また、パッチ展開層を有する対称スウィントランスフォーマーベースのデコーダは、特徴写像の空間解像度を復元するためのアップサンプリング操作を行うように設計されている。 入力と出力の4倍の直接サンプリングとアップサンプリングの下では、純粋なトランスフォーマーベースのU字型エンコーダ・デコーダネットワークがフルコンボリュータとコンボリュータの組み合わせでこれらの手法より優れていることを示す。 コードとトレーニングされたモデルはhttps://github.com/H uCaoFighting/Swin-Un et.comで公開される。

In the past few years, convolutional neural networks (CNNs) have achieved milestones in medical image analysis. Especially, the deep neural networks based on U-shaped architecture and skip-connections have been widely applied in a variety of medical image tasks. However, although CNN has achieved excellent performance, it cannot learn global and long-range semantic information interaction well due to the locality of the convolution operation. In this paper, we propose Swin-Unet, which is an Unet-like pure Transformer for medical image segmentation. The tokenized image patches are fed into the Transformer-based U-shaped Encoder-Decoder architecture with skip-connections for local-global semantic feature learning. Specifically, we use hierarchical Swin Transformer with shifted windows as the encoder to extract context features. And a symmetric Swin Transformer-based decoder with patch expanding layer is designed to perform the up-sampling operation to restore the spatial resolution of the feature maps. Under the direct down-sampling and up-sampling of the inputs and outputs by 4x, experiments on multi-organ and cardiac segmentation tasks demonstrate that the pure Transformer-based U-shaped Encoder-Decoder network outperforms those methods with full-convolution or the combination of transformer and convolution. The codes and trained models will be publicly available at https://github.com/H uCaoFighting/Swin-Un et.
翻訳日:2021-05-13 21:56:10 公開日:2021-05-12
# (参考訳) ベイジアン・エビデンシャル・ラーニングを用いた実験設計のための新しい枠組み:ウェルヘッド保護区域の場合

A new framework for experimental design using Bayesian Evidential Learning: the case of wellhead protection area ( http://arxiv.org/abs/2105.05539v1 )

ライセンス: CC BY 4.0
Robin Thibaut, Eric Laloy, Thomas Hermans(参考訳) 本研究では,少数の追跡実験 (予測器) から, 油圧導電率 (K) の分布に影響を及ぼすウェルヘッド保護領域 (WHPA, target) の形状と範囲を予測した。 私たちの最初の目標は、予測者と目標との直接的な関係を機械学習を用いて発見することを目的として、ベイズ証拠学習(bel)フレームワーク内でwhpaの確率的予測を行うことです。 この関係は、Kの以前の分布から得られた訓練モデル(400)から学習され、関連する400組のシミュレーション予測器とターゲットは、フォワードモデリングによって得られる。 新たに収集したフィールドデータは、対応するwhpaの近似的な後方分布を予測するために直接使用できる。 後部WHPA分布の不確実範囲は、データソースの数と位置(インジェクション井戸)に影響される。 第2の目的は、whpaの後方の不確かさを最小限に抑えるデータソースロケーションの最適設計をベルに拡張することである。 一度トレーニングすると、belモデルは新しい入力データに対応する後方不確かさの計算を可能にするため、平均化や近似化をせずに明示的に行うことができる。 修正ハウスドルフ距離と構造類似度指数を用いてWHPAの後方不確かさ範囲を推定する。 注入井戸数の増加は、導出後WHPAの不確実性を効果的に減少させる。 また,k-foldクロスバリデーション法により,どのインジェクション井戸が他のものよりも有益であるかを推定できる。 全体として、実験設計へのBELの適用により、測定データの情報内容の最大化が可能なデータソースを特定できる。

In this contribution, we predict the wellhead protection area (WHPA, target), the shape and extent of which is influenced by the distribution of hydraulic conductivity (K), from a small number of tracing experiments (predictor). Our first objective is to make stochastic predictions of the WHPA within the Bayesian Evidential Learning (BEL) framework, which aims to find a direct relationship between predictor and target using machine learning. This relationship is learned from a small set of training models (400) sampled from the prior distribution of K. The associated 400 pairs of simulated predictors and targets are obtained through forward modelling. Newly collected field data can then be directly used to predict the approximate posterior distribution of the corresponding WHPA. The uncertainty range of the posterior WHPA distribution is affected by the number and position of data sources (injection wells). Our second objective is to extend BEL to identify the optimal design of data source locations that minimizes the posterior uncertainty of the WHPA. This can be done explicitly, without averaging or approximating because once trained, the BEL model allows the computation of the posterior uncertainty corresponding to any new input data. We use the Modified Hausdorff Distance and the Structural Similarity index metrics to estimate the posterior uncertainty range of the WHPA. Increasing the number of injection wells effectively reduces the derived posterior WHPA uncertainty. Our approach can also estimate which injection wells are more informative than others, as validated through a k-fold cross-validation procedure. Overall, the application of BEL to experimental design makes it possible to identify the data sources maximizing the information content of any measurement data.
翻訳日:2021-05-13 21:38:37 公開日:2021-05-12
# (参考訳) 自然言語推論におけるジェンダーバイアスの評価 [全文訳有]

Evaluating Gender Bias in Natural Language Inference ( http://arxiv.org/abs/2105.05541v1 )

ライセンス: CC BY 4.0
Shanya Sharma, Manan Dey and Koustuv Sinha(参考訳) ジェンダーバイアスステレオタイプは最近、自然言語処理において重大な倫理的懸念を提起している。 しかし、推論による自然言語理解における性別バイアスの検出と評価の進歩は限られており、さらなる調査が必要である。 本研究では,ジェンダーニュートラルな前提とジェンダー固有の仮説を組み合わせた課題を構築することで,これらのバイアスを測定するための評価手法を提案する。 我々は,職業を用いたジェンダーステレオタイプの存在について,最先端のNLIモデルを調査するために,課題タスクを利用する。 以上の結果から,MNLIデータセットとSNLIデータセットをトレーニングした3つのモデル(BERT,RoBERTa,BART)は,性別による予測誤差が有意に高いことが示唆された。 また、性別バランスの取れたデータセットを確実にするために、トレーニングデータセットを増強するといったデバイアス技術が、特定のケースでそのようなバイアスを減らすのに役立つこともわかりました。

Gender-bias stereotypes have recently raised significant ethical concerns in natural language processing. However, progress in detection and evaluation of gender bias in natural language understanding through inference is limited and requires further investigation. In this work, we propose an evaluation methodology to measure these biases by constructing a challenge task that involves pairing gender-neutral premises against a gender-specific hypothesis. We use our challenge task to investigate state-of-the-art NLI models on the presence of gender stereotypes using occupations. Our findings suggest that three models (BERT, RoBERTa, BART) trained on MNLI and SNLI datasets are significantly prone to gender-induced prediction errors. We also find that debiasing techniques such as augmenting the training dataset to ensure a gender-balanced dataset can help reduce such bias in certain cases.
翻訳日:2021-05-13 21:37:25 公開日:2021-05-12
# (参考訳) さよならマラヴィラ! スペイン語におけるマルチモーダルサーカズム検出:データセットとベースライン [全文訳有]

!Qu\'e maravilla! Multimodal Sarcasm Detection in Spanish: a Dataset and a Baseline ( http://arxiv.org/abs/2105.05542v1 )

ライセンス: CC BY 4.0
Khalid Alnajjar and Mika H\"am\"al\"ainen(参考訳) 我々はスペイン語で最初のマルチモーダル・サーカズムデータセットを構築した。 audiovisualデータセットは、ビデオとオーディオにアライメントされたsarcasmアノテートされたテキストで構成されている。 このデータセットは2種類のスペイン語、ラテンアメリカの品種、半島のスペイン語の品種を表しており、このグローバルな言語に対するより広い方言のカバレッジを保証している。 本稿では,今後研究のベースラインとなるサーカズム検出モデルをいくつか提示する。 その結果, テキストのみを用いた結果(89%)は, テキストとオーディオを組み合わせる場合 (91.9%) よりも悪いことがわかった。 最後に、テキスト、オーディオ、ビデオのすべてのモダリティ(93.1%)を組み合わせると、最良の結果が得られる。

We construct the first ever multimodal sarcasm dataset for Spanish. The audiovisual dataset consists of sarcasm annotated text that is aligned with video and audio. The dataset represents two varieties of Spanish, a Latin American variety and a Peninsular Spanish variety, which ensures a wider dialectal coverage for this global language. We present several models for sarcasm detection that will serve as baselines in the future research. Our results show that results with text only (89%) are worse than when combining text with audio (91.9%). Finally, the best results are obtained when combining all the modalities: text, audio and video (93.1%).
翻訳日:2021-05-13 21:24:05 公開日:2021-05-12
# (参考訳) 過パラメータ化深部線形ネットワークの収束解析と主成分バイアス [全文訳有]

Convergence Analysis of Over-parameterized Deep Linear Networks, and the Principal Components Bias ( http://arxiv.org/abs/2105.05553v1 )

ライセンス: CC BY 4.0
Guy Hacohen and Daphna Weinshall(参考訳) 異なるアーキテクチャの畳み込みニューラルネットワークは、イメージを同じ順序で分類することを学ぶようだ。 この現象を理解するために、過度にパラメータ化された深層線形ネットワークモデルを再検討する。 このモデルの学習力学を解析したところ、パラメータの収束速度は、データの大きな主成分に対応する方向に沿って指数関数的に速く、特異値によって支配される。 この収束パターンを主成分バイアス(PCバイアス)と呼ぶ。 学習の初期段階において,PCバイアスが線形ネットワークと非線形ネットワークの両方の学習順序を合理化することを示す。 結果とスペクトルバイアスを比較し、両方のバイアスを独立して見ることができ、異なる方法で学習の順序に影響を与えることを示す。 最後に, pc-biasは, 一般的な初期化スキームの利点, 早期停止がpcaとの関連性, ランダムラベルが与えられた場合のディープネットワークの収束が遅くなる理由など, 様々な現象を説明できる。

Convolutional Neural networks of different architectures seem to learn to classify images in the same order. To understand this phenomenon, we revisit the over-parametrized deep linear network model. Our analysis of this model's learning dynamics reveals that the convergence rate of its parameters is exponentially faster along directions corresponding to the larger principal components of the data, at a rate governed by the singular values. We term this convergence pattern the Principal Components bias (PC-bias). We show how the PC-bias streamlines the order of learning of both linear and non-linear networks, more prominently in earlier stages of learning. We then compare our results to the spectral bias, showing that both biases can be seen independently, and affect the order of learning in different ways. Finally, we discuss how the PC-bias can explain several phenomena, including the benefits of prevalent initialization schemes, how early stopping may be related to PCA, and why deep networks converge more slowly when given random labels.
翻訳日:2021-05-13 21:15:28 公開日:2021-05-12
# (参考訳) オープンピット鉱山における鉱業のレガシ問題--再自然化と土地利用の革新と支援 [全文訳有]

Mining Legacy Issues in Open Pit Mining sites: Innovation & Support of Renaturalization and Land Utilization ( http://arxiv.org/abs/2105.05557v1 )

ライセンス: CC BY 4.0
Christopher Schr\"oder, Kim B\"urgl, Yves Annanias, Andreas Niekler, Lydia M\"uller, Daniel Wiegreffe, Christian Bender, Christoph Mengs, Gerik Scheuermann, Gerhard Heyer(参考訳) 露天掘り鉱山は世界中に多くの地域を残した。 これらの地域を再利用するには、土地全体を自然化する必要がある。 その後の持続的使用や新しい一次利用への移動には、多くの汚染された場所や土壌情報を永久に管理する必要がある。 ほとんどの場合、この情報は、非構造化データコレクションやファイルフォルダ内の専門家レポート形式で利用可能であり、最善のケースではデジタル化される。 データのサイズと複雑さのため、信頼できるステートメントを作成できるように、このデータの概観を得ることは困難である。 これは、これらの領域をアフターユースに迅速に移行する上で最も重要な障害の1つである。 この問題に対する情報に基づくアプローチは、環境問題、健康、気候活動に関する持続可能な開発目標の達成を支援する。 我々は,光学的文字認識,テキスト分類,アクティブラーニング,地理情報システムの可視化のスタックを用いて,その情報を効果的にマイニングし,可視化する。 次に,抽出した情報を地理座標にリンクし,地理情報システムを用いて可視化する。 私たちのデータセットはトレーニングデータを提供しないので、アクティブラーニングは重要な役割を果たす。 合計で9つのカテゴリを処理し、データセットでその表現を積極的に学習します。 我々は,OCR,アクティブラーニング,テキスト分類を別々に評価し,システムの性能を報告する。 アクティブラーニングとテキスト分類の結果は2つある: 制約に関するカテゴリが十分に機能する($.85 F1)のに対して、7つのトピック指向のカテゴリは人間のコーダーにとって複雑であり、その結果、中等度評価スコア($.70 F1)を得た。

Open pit mines left many regions worldwide inhospitable or uninhabitable. To put these regions back into use, entire stretches of land must be renaturalized. For the sustainable subsequent use or transfer to a new primary use, many contaminated sites and soil information have to be permanently managed. In most cases, this information is available in the form of expert reports in unstructured data collections or file folders, which in the best case are digitized. Due to size and complexity of the data, it is difficult for a single person to have an overview of this data in order to be able to make reliable statements. This is one of the most important obstacles to the rapid transfer of these areas to after-use. An information-based approach to this issue supports fulfilling several Sustainable Development Goals regarding environment issues, health and climate action. We use a stack of Optical Character Recognition, Text Classification, Active Learning and Geographic Information System Visualization to effectively mine and visualize this information. Subsequently, we link the extracted information to geographic coordinates and visualize them using a Geographic Information System. Active Learning plays a vital role because our dataset provides no training data. In total, we process nine categories and actively learn their representation in our dataset. We evaluate the OCR, Active Learning and Text Classification separately to report the performance of the system. Active Learning and text classification results are twofold: Whereas our categories about restrictions work sufficient ($>$.85 F1), the seven topic-oriented categories were complicated for human coders and hence the results achieved mediocre evaluation scores ($<$.70 F1).
翻訳日:2021-05-13 20:48:10 公開日:2021-05-12
# (参考訳) ビジネスプロセスの残時間予測改善のためのニューラルネットワークによる不確かさの学習 [全文訳有]

Learning Uncertainty with Artificial Neural Networks for Improved Remaining Time Prediction of Business Processes ( http://arxiv.org/abs/2105.05559v1 )

ライセンス: CC BY 4.0
Hans Weytjens and Jochen De Weerdt(参考訳) 人工ニューラルネットワークは、完全に不確実で結果に関係なく、常に予測を行う。 この不確実性の不確実性は、実際に採用する上での大きな障害である。 しかし、データ内のモデル不確実性と観測ノイズの2つの主要な不確かさを推定する手法が存在する。 ベイズニューラルネットワークは理論上、その予測のモデルの不確実性を学ぶことができるモデルである。 これらのモデルと損失関数のマイナーな修正により、個々のサンプルの観測ノイズも学習できる。 本稿では,これらの手法を予測プロセス監視に適用した最初の論文である。 より正確な予測に寄与し、迅速に働くことが分かりました。 しかし、彼らの主な利点は、品質の低い予測から高品質を分離し、信頼区間を構築することができる不確実性の推定そのものにある。 これは多くの興味深い応用をもたらし、より小さなデータセットを持つ予測システムを早期に導入し、人間とのより良い協力を促進する。

Artificial neural networks will always make a prediction, even when completely uncertain and regardless of the consequences. This obliviousness of uncertainty is a major obstacle towards their adoption in practice. Techniques exist, however, to estimate the two major types of uncertainty: model uncertainty and observation noise in the data. Bayesian neural networks are theoretically well-founded models that can learn the model uncertainty of their predictions. Minor modifications to these models and their loss functions allow learning the observation noise for individual samples as well. This paper is the first to apply these techniques to predictive process monitoring. We found that they contribute towards more accurate predictions and work quickly. However, their main benefit resides with the uncertainty estimates themselves that allow the separation of higher-quality from lower-quality predictions and the building of confidence intervals. This leads to many interesting applications, enables an earlier adoption of prediction systems with smaller datasets and fosters a better cooperation with humans.
翻訳日:2021-05-13 20:34:27 公開日:2021-05-12
# (参考訳) 音声言語のニューラルモデルにおける離散表現 [全文訳有]

Discrete representations in neural models of spoken language ( http://arxiv.org/abs/2105.05582v1 )

ライセンス: CC BY 4.0
Bertrand Higy, Lieke Gelderloos, Afra Alishahi and Grzegorz Chrupa{\l}a(参考訳) ニューラルネットワークで使われる分散表現と連続表現は、一般的にシンボリックである言語学で使われる表現と相反する。 ベクトル量子化は、本質的にその言語的表現に近い離散神経表現を誘導する方法として提案されている。 しかし、そのような離散表現を分析するのにどの指標が最適かは明らかではない。 音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。 我々は, (i) アーキテクチャ選択の影響, (ii) 学習目標とトレーニングデータセット, (iii) 評価指標の体系的分析を行う。 異なる評価指標が矛盾する結果をもたらすことが分かりました。 特に,評価における音素三重項の最小対の使用は,完全な発話に適用される指標とは異なり,より大きな埋め込みを阻害することがわかった。

The distributed and continuous representations used by neural networks are at odds with representations employed in linguistics, which are typically symbolic. Vector quantization has been proposed as a way to induce discrete neural representations that are closer in nature to their linguistic counterparts. However, it is not clear which metrics are the best-suited to analyze such discrete representations. We compare the merits of four commonly used metrics in the context of weakly supervised models of spoken language. We perform a systematic analysis of the impact of (i) architectural choices, (ii) the learning objective and training dataset, and (iii) the evaluation metric. We find that the different evaluation metrics can give inconsistent results. In particular, we find that the use of minimal pairs of phoneme triples as stimuli during evaluation disadvantages larger embeddings, unlike metrics applied to complete utterances.
翻訳日:2021-05-13 20:23:25 公開日:2021-05-12
# (参考訳) 確率的推論と意味埋め込みによる教師なし知識グラフアライメント [全文訳有]

Unsupervised Knowledge Graph Alignment by Probabilistic Reasoning and Semantic Embedding ( http://arxiv.org/abs/2105.05596v1 )

ライセンス: CC BY 4.0
Zhiyuan Qi, Ziheng Zhang, Jiaoyan Chen, Xi Chen, Yuejia Xiang, Ningyu Zhang, Yefeng Zheng(参考訳) 知識グラフ(KG)アライメントは、2つのKG間のマッピング(等価実体、関係など)を発見することである。 既存の手法は埋め込みベースモデルと従来の推論と語彙マッチングベースシステムに分けられる。 前者はクロスKG埋め込みを通じてエンティティの類似性を計算するが、それらは通常、優れたパフォーマンスと論理的に間違ったマッピングを避けるための適切な推論の欠如のために、理想的な教師付き学習環境に依存している。 本研究では,これら2つの解を組み合わせることを目的として,確率論的推論とセマンティック埋め込みに基づくPRASEという反復的フレームワークを提案する。 PARISと呼ばれる確率論的推論システムからエンティティマッピングを通じてKGの埋め込みを学び、その結果のエンティティマッピングと埋め込みをPARISにフィードバックして拡張する。 PRASEフレームワークは、異なる埋め込みベースのモデルと互換性があり、複数のデータセットの実験では、その最先端性能が実証されている。

Knowledge Graph (KG) alignment is to discover the mappings (i.e., equivalent entities, relations, and others) between two KGs. The existing methods can be divided into the embedding-based models, and the conventional reasoning and lexical matching based systems. The former compute the similarity of entities via their cross-KG embeddings, but they usually rely on an ideal supervised learning setting for good performance and lack appropriate reasoning to avoid logically wrong mappings; while the latter address the reasoning issue but are poor at utilizing the KG graph structures and the entity contexts. In this study, we aim at combining the above two solutions and thus propose an iterative framework named PRASE which is based on probabilistic reasoning and semantic embedding. It learns the KG embeddings via entity mappings from a probabilistic reasoning system named PARIS, and feeds the resultant entity mappings and embeddings back into PARIS for augmentation. The PRASE framework is compatible with different embedding-based models, and our experiments on multiple datasets have demonstrated its state-of-the-art performance.
翻訳日:2021-05-13 20:08:00 公開日:2021-05-12
# (参考訳) ROSEFusion:高速カメラ動作下でのオンライン線量再構成のためのランダム最適化 [全文訳有]

ROSEFusion: Random Optimization for Online Dense Reconstruction under Fast Camera Motion ( http://arxiv.org/abs/2105.05600v1 )

ライセンス: CC BY 4.0
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu(参考訳) RGB-Dシークエンスに基づくオンラインリコンストラクションは、これまで比較的遅いカメラモーション(1m/s)に制限されてきた。 非常に速いカメラの動き(例えば3m/s)の下では、再構築は最先端の手法でも容易に崩れる。 高速モーションは深度融合に2つの課題をもたらす:1)フレーム間の大きな回転によるカメラポーズ最適化の非線形性、2)動きのぼかしによる確実に追跡可能な特徴の欠如。 本稿では,ランダムな最適化,特に粒子フィルタ最適化(PFO)を用いた慣性測定がない場合に,高速モーションカメラ追跡の難しさに対処することを提案する。 計算集約的な粒子サンプリングと標準PFOの更新を克服するため,粒子群テンプレート(PST)を更新することでランダム化探索を高速化することを提案する。 pstは、カメラポーズの6d空間の単位球面内で均一に事前サンプリングされた粒子の集合である。 Swarm Intelligenceによって導かれるプリサンプリングされたPSTの移動と再スケーリングにより、我々の方法は数万の粒子を誘導し、優れた局所最適化を極めて高速かつ堅牢にカバーすることができる。 候補ポーズを表す粒子を、深度モデル適合度に基づいて定義された適合関数で評価する。 そのため,本手法は深度のみであり,非対応であり,ToF法に基づく深度は運動ぼけに対する耐性が高いため,運動ぼけ障害を緩和する。 効率的なテンプレートベースのパーティクルセットの進化と効果的なフィットネス機能により,ループ閉鎖や大域的なポーズ最適化を伴わずに,リアルタイムフレームレートで高速カメラ動作(最大4m/s)下での良好なポーズトラッキングを実現する。 RGB-Dシークエンスの公開データセットに関する広範な評価、特に新しい高速カメラモーションのベンチマークを通じて、我々の手法が芸術的状況に対して有益であることを示す。

Online reconstruction based on RGB-D sequences has thus far been restrained to relatively slow camera motions (<1m/s). Under very fast camera motion (e.g., 3m/s), the reconstruction can easily crumble even for the state-of-the-art methods. Fast motion brings two challenges to depth fusion: 1) the high nonlinearity of camera pose optimization due to large inter-frame rotations and 2) the lack of reliably trackable features due to motion blur. We propose to tackle the difficulties of fast-motion camera tracking in the absence of inertial measurements using random optimization, in particular, the Particle Filter Optimization (PFO). To surmount the computation-intensiv e particle sampling and update in standard PFO, we propose to accelerate the randomized search via updating a particle swarm template (PST). PST is a set of particles pre-sampled uniformly within the unit sphere in the 6D space of camera pose. Through moving and rescaling the pre-sampled PST guided by swarm intelligence, our method is able to drive tens of thousands of particles to locate and cover a good local optimum extremely fast and robustly. The particles, representing candidate poses, are evaluated with a fitness function defined based on depth-model conformance. Therefore, our method, being depth-only and correspondence-free, mitigates the motion blur impediment as ToF-based depths are often resilient to motion blur. Thanks to the efficient template-based particle set evolution and the effective fitness function, our method attains good quality pose tracking under fast camera motion (up to 4m/s) in a realtime framerate without including loop closure or global pose optimization. Through extensive evaluations on public datasets of RGB-D sequences, especially on a newly proposed benchmark of fast camera motion, we demonstrate the significant advantage of our method over the state of the arts.
翻訳日:2021-05-13 19:53:18 公開日:2021-05-12
# (参考訳) OutFlip: 自然言語攻撃による未知のインテント検出のためのドメイン外サンプル生成 [全文訳有]

OutFlip: Generating Out-of-Domain Samples for Unknown Intent Detection with Natural Language Attack ( http://arxiv.org/abs/2105.05601v1 )

ライセンス: CC BY 4.0
DongHyun Choi, Myeong Cheol Shin, EungGyun Kim, Dong Ryeol Shin(参考訳) オフ・オブ・ドメイン(OOD)入力検出はタスク指向の対話システムにおいて不可欠である。 本稿では,ドメイン内トレーニングデータセットのみを自動生成するOutFlipを提案する。 ホワイトボックス自然言語攻撃法hotflipを改訂し、逆の例の代わりにドメイン外サンプルを生成する。 評価結果は,OutFlip生成したドメイン外サンプルをトレーニングデータセットに統合することで,意図分類モデルのドメイン外検出性能を大幅に向上できることを示した。

Out-of-domain (OOD) input detection is vital in a task-oriented dialogue system since the acceptance of unsupported inputs could lead to an incorrect response of the system. This paper proposes OutFlip, a method to generate out-of-domain samples using only in-domain training dataset automatically. A white-box natural language attack method HotFlip is revised to generate out-of-domain samples instead of adversarial examples. Our evaluation results showed that integrating OutFlip-generated out-of-domain samples into the training dataset could significantly improve an intent classification model's out-of-domain detection performance.
翻訳日:2021-05-13 19:16:03 公開日:2021-05-12
# (参考訳) スペクトル記述子と多様体正規化の関数マッピングに基づくクロスモーダルおよびマルチモーダルデータ解析

Cross-Modal and Multimodal Data Analysis Based on Functional Mapping of Spectral Descriptors and Manifold Regularization ( http://arxiv.org/abs/2105.05631v1 )

ライセンス: CC BY 4.0
Maysam Behmanesh, Peyman Adibi, Jocelyn Chanussot, Sayyed Mohammad Saeed Ehsani(参考訳) マルチモーダル多様体モデリング手法は、スペクトル幾何対応データ解析を、関連するいくつかの相補的モダリティから学習へと拡張する。 これらの手法のほとんどは、2つの主要な仮定に基づいている: 1)各モダリティに同じ種類のデータサンプルがあり、2)モダリティ間の少なくとも部分対応が事前の知識として与えられている。 本研究は2つの新しいマルチモーダルモデリング手法を提案する。 第1の方法は、特定の事前知識を伴わずに異種データのマルチモーダル情報問題に対処する一般的な分析フレームワークを確立する。 この目的のために、まず、スペクトルグラフウェーブレットシグネチャ(SGWS)を用いて局所記述子を抽出することにより、各多様体の局所性を同定する。 そこで我々は,SGWS記述子 (FMBSD) 間の関数マッピングに基づいて,点対応を見つけるための多様体正規化フレームワークを提案する。 第2の方法は、FMBSD法に基づいてモダリティ間の対応を決定するマルチモーダル不均質のマルチクラス分類問題に使用されるポイントワイド対応(M$^2$CPC)に基づく多様体正規化多重モーダル分類である。 FMBSD法を3つの共通なクロスモーダル検索データセットで評価し,M$^2$CPC法を3つのベンチマークマルチモーダル・マルチクラス分類データセットで評価した結果,その有効性と優位性を示した。

Multimodal manifold modeling methods extend the spectral geometry-aware data analysis to learning from several related and complementary modalities. Most of these methods work based on two major assumptions: 1) there are the same number of homogeneous data samples in each modality, and 2) at least partial correspondences between modalities are given in advance as prior knowledge. This work proposes two new multimodal modeling methods. The first method establishes a general analyzing framework to deal with the multimodal information problem for heterogeneous data without any specific prior knowledge. For this purpose, first, we identify the localities of each manifold by extracting local descriptors via spectral graph wavelet signatures (SGWS). Then, we propose a manifold regularization framework based on the functional mapping between SGWS descriptors (FMBSD) for finding the pointwise correspondences. The second method is a manifold regularized multimodal classification based on pointwise correspondences (M$^2$CPC) used for the problem of multiclass classification of multimodal heterogeneous, which the correspondences between modalities are determined based on the FMBSD method. The experimental results of evaluating the FMBSD method on three common cross-modal retrieval datasets and evaluating the (M$^2$CPC) method on three benchmark multimodal multiclass classification datasets indicate their effectiveness and superiority over state-of-the-art methods.
翻訳日:2021-05-13 19:05:20 公開日:2021-05-12
# (参考訳) segmenter: 意味セグメンテーションのためのトランスフォーマー [全文訳有]

Segmenter: Transformer for Semantic Segmentation ( http://arxiv.org/abs/2105.05633v1 )

ライセンス: CC BY 4.0
Robin Strudel, Ricardo Garcia, Ivan Laptev, Cordelia Schmid(参考訳) 画像分割はしばしば個々の画像パッチのレベルで曖昧であり、ラベルのコンセンサスに達するために文脈情報を必要とする。 本稿ではセマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介する。 畳み込みに基づくアプローチとは対照的に,私たちのアプローチでは,第1層とネットワーク全体において,すでにグローバルなコンテキストをモデル化することが可能です。 最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。 そのため、画像パッチに対応する出力埋め込みに頼り、これらの埋め込みから、ポイントワイド線形デコーダやマスクトランスフォーマーデコーダを用いたクラスラベルを得る。 画像分類のために事前訓練されたモデルを活用し、セマンティックセグメンテーションのために利用可能な中規模のデータセットでそれらを微調整できることを示す。 線形デコーダは、既に優れた結果が得られるが、クラスマスクを生成するマスクトランスフォーマによってさらに性能が向上する。 異なるパラメータが与える影響,特に大きなモデルや小さなパッチサイズでの性能が向上することを示すため,広範囲なアブレーション研究を行った。 Segmenterはセマンティックセグメンテーションの優れた結果を得る。 これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。

Image segmentation is often ambiguous at the level of individual image patches and requires contextual information to reach label consensus. In this paper we introduce Segmenter, a transformer model for semantic segmentation. In contrast to convolution based approaches, our approach allows to model global context already at the first layer and throughout the network. We build on the recent Vision Transformer (ViT) and extend it to semantic segmentation. To do so, we rely on the output embeddings corresponding to image patches and obtain class labels from these embeddings with a point-wise linear decoder or a mask transformer decoder. We leverage models pre-trained for image classification and show that we can fine-tune them on moderate sized datasets available for semantic segmentation. The linear decoder allows to obtain excellent results already, but the performance can be further improved by a mask transformer generating class masks. We conduct an extensive ablation study to show the impact of the different parameters, in particular the performance is better for large models and small patch sizes. Segmenter attains excellent results for semantic segmentation. It outperforms the state of the art on the challenging ADE20K dataset and performs on-par on Pascal Context and Cityscapes.
翻訳日:2021-05-13 19:04:06 公開日:2021-05-12
# (参考訳) モデル診断はどの程度信頼できるのか? [全文訳有]

How Reliable are Model Diagnostics? ( http://arxiv.org/abs/2105.05641v1 )

ライセンス: CC BY 4.0
Vamsi Aribandi, Yi Tay, Donald Metzler(参考訳) モデルの振る舞いをより深く理解するために、精度やbleuのような単純な測定基準を超えたモデル診断を目的としたプローブのスイートを開発するための最近の動きがある。 モデルやトレーニングのセットアップに関する洞察を提供する上で,これらの診断はどの程度信頼できるのか? 我々は,事前学習された言語モデルの3つの最近の診断試験を批判的に検討し,確率ベースおよび表現ベースモデル診断は,従来考えられていたほど信頼できないことを見出した。 また,経験的知見に基づいて,実践者や研究者の推薦を定式化する。

In the pursuit of a deeper understanding of a model's behaviour, there is recent impetus for developing suites of probes aimed at diagnosing models beyond simple metrics like accuracy or BLEU. This paper takes a step back and asks an important and timely question: how reliable are these diagnostics in providing insight into models and training setups? We critically examine three recent diagnostic tests for pre-trained language models, and find that likelihood-based and representation-based model diagnostics are not yet as reliable as previously assumed. Based on our empirical findings, we also formulate recommendations for practitioners and researchers.
翻訳日:2021-05-13 18:44:18 公開日:2021-05-12
# (参考訳) 自己回帰型ニューラルネットワークによるモンテカルロクラスタ更新 [全文訳有]

Unbiased Monte Carlo Cluster Updates with Autoregressive Neural Networks ( http://arxiv.org/abs/2105.05650v1 )

ライセンス: CC BY 4.0
Dian Wu, Riccardo Rossi, Giuseppe Carleo(参考訳) 複雑な高次元確率密度の効率的なサンプリングは計算科学における中心的な課題である。 自己回帰型ニューラルネットワークに基づく機械学習技術は、物理学に興味を持つ確率分布のよい近似を提供することが最近示されている。 本研究では,これらの変分近似に関連する固有バイアスを除去し,マルコフ鎖モンテカルロと組み合わせ,クラスタ更新を効率的に生成するシステムを提案する。 提案手法は,条件付き確率のニューラルネットワーク表現に基づく対称性強化クラスタ更新に基づく。 このような有限クラスタ更新は、グローバルなニューラルアップデートに関連するエルゴディダリティ問題を回避するために不可欠であることを示す。 古典スピン系における一階および二階相転移の手法をテストし、特に臨界系におけるその生存可能性、あるいは準安定状態の存在を証明した。

Efficient sampling of complex high-dimensional probability densities is a central task in computational science. Machine Learning techniques based on autoregressive neural networks have been recently shown to provide good approximations of probability distributions of interest in physics. In this work, we propose a systematic way to remove the intrinsic bias associated with these variational approximations, combining it with Markov-chain Monte Carlo in an automatic scheme to efficiently generate cluster updates, which is particularly useful for models for which no efficient cluster update scheme is known. Our approach is based on symmetry-enforced cluster updates building on the neural-network representation of conditional probabilities. We demonstrate that such finite-cluster updates are crucial to circumvent ergodicity problems associated with global neural updates. We test our method for first- and second-order phase transitions in classical spin systems, proving in particular its viability for critical systems, or in the presence of metastable states.
翻訳日:2021-05-13 18:33:47 公開日:2021-05-12
# (参考訳) サポートベクターマシンを用いたゲームの自動分類 [全文訳有]

Automatic Classification of Games using Support Vector Machine ( http://arxiv.org/abs/2105.05674v1 )

ライセンス: CC BY 4.0
Ismo Horppu, Antti Nikander, Elif Buyukcan, Jere M\"akiniemi, Amin Sorkhei, Frederick Ayala-G\'omez(参考訳) ゲーム開発者は、ゲームマーケット分析を行う際に、カスタムゲームジャンルの可用性の恩恵を受ける。 この情報は、市場における機会を見つけ、新しいゲームの計画をより成功させるのに役立つ。 本稿では,ゲームカテゴリーの予測に優れた分類器を求める。 予測はゲームの説明とタイトルに基づいている。 ドキュメントタームマトリックスを生成するために,2443のios app storeゲームをデータセットとして使用しています。 次元の呪いを減らすために、潜在意味インデクシングを使い、項次元をおよそ1/9に減らす。 サポートベクトルマシン 教師付き学習モデルは、事前処理されたデータに適合する。 モデルパラメータはグリッド検索と20倍のクロスバリデーションを使って最適化される。 最良のモデルは、平均精度77%、約70%、信頼度95%である。 ゲーム市場調査を支援するために,開発した分類器が社内で使用されている。

Game developers benefit from availability of custom game genres when doing game market analysis. This information can help them to spot opportunities in market and make them more successful in planning a new game. In this paper we find good classifier for predicting category of a game. Prediction is based on description and title of a game. We use 2443 iOS App Store games as data set to generate a document-term matrix. To reduce the curse of dimensionality we use Latent Semantic Indexing, which, reduces the term dimension to approximately 1/9. Support Vector Machine supervised learning model is fit to pre-processed data. Model parameters are optimized using grid search and 20-fold cross validation. Best model yields to 77% mean accuracy or roughly 70% accuracy with 95% confidence. Developed classifier has been used in-house to assist games market research.
翻訳日:2021-05-13 18:21:19 公開日:2021-05-12
# (参考訳) 自己教師付きグラフ表現学習のためのマルチスケールコントラストシームネットワーク [全文訳有]

Multi-Scale Contrastive Siamese Networks for Self-Supervised Graph Representation Learning ( http://arxiv.org/abs/2105.05682v1 )

ライセンス: CC BY 4.0
Ming Jin, Yizhen Zheng, Yuan-Fang Li, Chen Gong, Chuan Zhou, Shirui Pan(参考訳) グラフ表現学習は、グラフ構造化データの処理において重要な役割を果たす。 しかし、グラフ表現学習の先行技術はラベル情報に大きく依存している。 本稿では,近年のグラフコントラスト学習とシームズネットワークの視覚表現学習の成功に触発されて,シームズ自己蒸留をマルチスケールコントラスト学習で強化してノード表現を学習する,新たな自己教師型アプローチを提案する。 具体的には、まず、局所的な視点とグローバルな視点に基づいて、入力グラフから2つの拡張ビューを生成する。 次に、異なるビューとネットワーク間のノード表現間の合意を最大化するために、クロスビューとクロスネットワークコントラストネスという2つの目的を用いる。 提案手法の有効性を示すため,実世界の5つのデータセットを用いて実験を行った。 提案手法は, 最新の結果を得るだけでなく, 半教師が有する結果を大きく超えている。

Graph representation learning plays a vital role in processing graph-structured data. However, prior arts on graph representation learning heavily rely on the labeling information. To overcome this problem, inspired by the recent success of graph contrastive learning and Siamese networks in visual representation learning, we propose a novel self-supervised approach in this paper to learn node representations by enhancing Siamese self-distillation with multi-scale contrastive learning. Specifically, we first generate two augmented views from the input graph based on local and global perspectives. Then, we employ two objectives called cross-view and cross-network contrastiveness to maximize the agreement between node representations across different views and networks. To demonstrate the effectiveness of our approach, we perform empirical experiments on five real-world datasets. Our method not only achieves new state-of-the-art results but also surpasses some semi-supervised counterparts by large margins.
翻訳日:2021-05-13 18:11:58 公開日:2021-05-12
# (参考訳) 放射移動方程式の機械学習モーメント閉包モデルI:勾配に基づく閉包を直接学習する

Machine learning moment closure models for the radiative transfer equation I: directly learning a gradient based closure ( http://arxiv.org/abs/2105.05690v1 )

ライセンス: CC BY 4.0
Juntao Huang, Yingda Cheng, Andrew J. Christlieb, Luke F. Roberts(参考訳) 本稿では,スラブ幾何学における放射移動方程式のモーメントクロージャ問題に対して,データ駆動型アプローチを用いて機械学習を適用する。 閉ざされた高次モーメントを学習する代わりに、ニューラルネットワークを用いて高次モーメントの勾配を直接学習することを提案する。 この新しいアプローチは、我々が自由ストリーミング制限のために導出する完全閉包と一致し、自然な出力正規化も提供する。 可変散乱問題、ガウス音源問題、および2つの材料問題を含む様々なベンチマークテストは、機械学習クロージャモデルの精度と一般化性の両方を示している。

In this paper, we take a data-driven approach and apply machine learning to the moment closure problem for radiative transfer equation in slab geometry. Instead of learning the unclosed high order moment, we propose to directly learn the gradient of the high order moment using neural networks. This new approach is consistent with the exact closure we derive for the free streaming limit and also provides a natural output normalization. A variety of benchmark tests, including the variable scattering problem, the Gaussian source problem and the two material problem, show both good accuracy and generalizability of our machine learning closure model.
翻訳日:2021-05-13 17:58:46 公開日:2021-05-12
# (参考訳) 3次元表情認識のための深層および浅層共分散特徴量化 [全文訳有]

Deep and Shallow Covariance Feature Quantization for 3D Facial Expression Recognition ( http://arxiv.org/abs/2105.05708v1 )

ライセンス: CC BY 4.0
Walid Hariri, Nadir Farah, Dinesh Kumar Vishwakarma(参考訳) 近年,3次元顔スキャンによる表情認識(fer)が注目されている。 表情認識法の大部分は,主に2次元画像を用いて提案されている。 これらの方法は、照明の変化やポーズの変化など、いくつかの問題に苦しむ。 さらに、3次元画像からの2次元マッピングでは、顔の幾何的および位相的特徴が欠如している可能性がある。 そこで, この問題を解決するために, マルチモーダル2D+3D特徴量に基づく手法を提案する。 変換された2次元画像から3次元画像から浅部特徴と畳み込みニューラルネットワーク(CNN)を用いて深部特徴を抽出する。 これらの機能をコンパクトな表現に組み合わせると、共分散行列は、片手で記述子の代わりに両方の特徴のディスクリプタとして使われる。 共分散行列学習を多様体層として使用し、深共分散行列の大きさを小さくし、その多様体構造を維持しながらその識別力を増強する。 次に、Bag-of-Features(BoF) パラダイムを用いて、フラット化後の共分散行列を定量化する。 そこで我々は,浅層特徴と深層特徴を用いた2つのコードブックを得た。 グローバルコードブックはSVM分類器のフィードに使用される。 BU-3DFEとBosphorusのデータセットでは最先端の手法と比較して高い分類性能が達成されている。

Facial expressions recognition (FER) of 3D face scans has received a significant amount of attention in recent years. Most of the facial expression recognition methods have been proposed using mainly 2D images. These methods suffer from several issues like illumination changes and pose variations. Moreover, 2D mapping from 3D images may lack some geometric and topological characteristics of the face. Hence, to overcome this problem, a multi-modal 2D + 3D feature-based method is proposed. We extract shallow features from the 3D images, and deep features using Convolutional Neural Networks (CNN) from the transformed 2D images. Combining these features into a compact representation uses covariance matrices as descriptors for both features instead of single-handedly descriptors. A covariance matrix learning is used as a manifold layer to reduce the deep covariance matrices size and enhance their discrimination power while preserving their manifold structure. We then use the Bag-of-Features (BoF) paradigm to quantize the covariance matrices after flattening. Accordingly, we obtained two codebooks using shallow and deep features. The global codebook is then used to feed an SVM classifier. High classification performances have been achieved on the BU-3DFE and Bosphorus datasets compared to the state-of-the-art methods.
翻訳日:2021-05-13 17:57:51 公開日:2021-05-12
# (参考訳) 力学系における表現 [全文訳有]

Representation in Dynamical Systems ( http://arxiv.org/abs/2105.05714v1 )

ライセンス: CC BY 4.0
Matthew Hutson(参考訳) 脳はしばしばコンピュータと呼ばれ、チューリングマシンに似ており、それは心が数字のような離散的なシンボルを操作できるからである。 しかし脳は、チューリングマシンというよりも、Wattの知事のような動的システムだ。 動的システムは「表現」を使って動作させることができるか? この論文は、デジタルコンピュータのようにはいかないが、できると主張している。 代わりに、世界の側面に立つために、カオス的誘惑者のような数学的概念を用いて最もよく説明される現象を使用する。

The brain is often called a computer and likened to a Turing machine, in part because the mind can manipulate discrete symbols such as numbers. But the brain is a dynamical system, more like a Watt governor than a Turing machine. Can a dynamical system be said to operate using "representations" ;? This paper argues that it can, although not in the way a digital computer does. Instead, it uses phenomena best described using mathematic concepts such as chaotic attractors to stand in for aspects of the world.
翻訳日:2021-05-13 17:35:15 公開日:2021-05-12
# (参考訳) イマジネーションを実践する:モデルに基づく強化学習における想像軌道の信頼 [全文訳有]

Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning ( http://arxiv.org/abs/2105.05716v1 )

ライセンス: CC BY-SA 4.0
Adrian Remonda, Eduardo Veas, Granit Luzhnica(参考訳) モデルベース強化学習(MBRL)は、世界の不完全なモデルを用いて将来の状態の軌跡を想像し、報酬関数を最大化するために最良の行動を計画する。 これらの軌道は不完全であり、MBRLはモデル予測制御(MPC)に頼って軌道をゼロから連続的に再現することでこれを克服しようとする。 このような想像された軌道の再生成は、大きな計算コストと、長い後退地平線を持つタスクの複雑さの増加をもたらす。 本論文は, 将来, 想定される軌道が, 許容される報酬を維持しつつ, どこまで信頼できるかを検討することを目的とする。 まず,いくつかの難解なベンチマーク制御タスクにおいて,連続するステップ数に対して系統的スキップ再計算を行うための誤り解析を行った。 第2に,想定された軌道を信頼し行動するタイミング,期待に対する最近の誤りを見る方法,あるいはその実行に対して想定される行動の信頼性を比較する方法を提案する。 第3に,世界のモデルを訓練しながら,想像力に及ぼす行動の影響を評価する。 その結果、想像力に基づく行動は、許容される報酬を保ちながら、環境に応じて計算を少なくとも20%、最大80%削減できることが示された。

Model based reinforcement learning (MBRL) uses an imperfect model of the world to imagine trajectories of future states and plan the best actions to maximize a reward function. These trajectories are imperfect and MBRL attempts to overcome this by relying on model predictive control (MPC) to continuously re-imagine trajectories from scratch. Such re-generation of imagined trajectories carries the major computational cost and increasing complexity in tasks with longer receding horizon. This paper aims to investigate how far in the future the imagined trajectories can be relied upon while still maintaining acceptable reward. Firstly, an error analysis is presented for systematic skipping recalculations for varying number of consecutive steps.% in several challenging benchmark control tasks. Secondly, we propose two methods offering when to trust and act upon imagined trajectories, looking at recent errors with respect to expectations, or comparing the confidence in an action imagined against its execution. Thirdly, we evaluate the effects of acting upon imagination while training the model of the world. Results show that acting upon imagination can reduce calculations by at least 20% and up to 80%, depending on the environment, while retaining acceptable reward.
翻訳日:2021-05-13 17:26:50 公開日:2021-05-12
# (参考訳) 秘密共有と分散最適化を用いたフェデレーションXGBoostの効率的な学習フレームワーク [全文訳有]

An Efficient Learning Framework For Federated XGBoost Using Secret Sharing And Distributed Optimization ( http://arxiv.org/abs/2105.05717v1 )

ライセンス: CC BY 4.0
Lunchen Xie, Jiaqi Liu, Songtao Lu, Tsung-hui Chang, Qingjiang Shi(参考訳) XGBoostは、より優れた学習精度と効率のため、業界で最も広く使われている機械学習モデルの1つである。 ビッグデータ問題におけるデータ分離の問題を対象として、セキュアで効率的なフェデレーションXGBoost(FedXGB)モデルをデプロイすることが重要です。 既存のFedXGBモデルには、データ漏洩の問題があるか、重い通信と計算オーバーヘッドを持つ2要素設定にのみ適用可能である。 本稿では,xgboostの分割基準計算プロセスを秘密共有設定で再構成し,分散最適化を利用したリーフ重量計算問題を解くセキュリティ保証とともに,ロスレス連立xgb学習フレームワークを提案する。 注目すべきは、モデルセキュリティの徹底的な分析も提供され、複数の数値結果は、ベンチマークデータセットの最先端モデルと比較して提案されたFedXGBの優位性を示している。

XGBoost is one of the most widely used machine learning models in the industry due to its superior learning accuracy and efficiency. Targeting at data isolation issues in the big data problems, it is crucial to deploy a secure and efficient federated XGBoost (FedXGB) model. Existing FedXGB models either have data leakage issues or are only applicable to the two-party setting with heavy communication and computation overheads. In this paper, a lossless multi-party federated XGB learning framework is proposed with a security guarantee, which reshapes the XGBoost's split criterion calculation process under a secret sharing setting and solves the leaf weight calculation problem by leveraging distributed optimization. Remarkably, a thorough analysis of model security is provided as well, and multiple numerical results showcase the superiority of the proposed FedXGB compared with the state-of-the-art models on benchmark datasets.
翻訳日:2021-05-13 17:11:18 公開日:2021-05-12
# (参考訳) BertGCN:GCNとBERTを組み合わせたトランスダクティブテキスト分類 [全文訳有]

BertGCN: Transductive Text Classification by Combining GCN and BERT ( http://arxiv.org/abs/2105.05727v1 )

ライセンス: CC BY-SA 4.0
Yuxiao Lin, Yuxian Meng, Xiaofei Sun, Qinghong Han, Kun Kuang, Jiwei Li and Fei Wu(参考訳) 本研究では,テキスト分類のための大規模事前学習とトランスダクティブ学習を組み合わせたモデルbertgcnを提案する。 BertGCNはデータセット上に異種グラフを構築し、BERT表現を使用してドキュメントをノードとして表現する。 BertGCN内でBERTとGCNモジュールを共同でトレーニングすることにより、大量の生データを活用する大規模事前学習と、グラフ畳み込みによってラベルの影響を伝播することにより、トレーニングデータと未ラベルテストデータの表現を共同で学習するトランスダクティブ学習という、両方の世界の利点を活用することができる。 実験により、BertGCNは幅広いテキスト分類データセット上でSOTA性能を達成することが示された。 コードはhttps://github.com/Z eroRin/BertGCN.comで入手できる。

In this work, we propose BertGCN, a model that combines large scale pretraining and transductive learning for text classification. BertGCN constructs a heterogeneous graph over the dataset and represents documents as nodes using BERT representations. By jointly training the BERT and GCN modules within BertGCN, the proposed model is able to leverage the advantages of both worlds: large-scale pretraining which takes the advantage of the massive amount of raw data and transductive learning which jointly learns representations for both training data and unlabeled test data by propagating label influence through graph convolution. Experiments show that BertGCN achieves SOTA performances on a wide range of text classification datasets. Code is available at https://github.com/Z eroRin/BertGCN.
翻訳日:2021-05-13 16:46:18 公開日:2021-05-12
# (参考訳) FeatureCloud AI Store for Federated Learning in Biomedicine and Beyond

The FeatureCloud AI Store for Federated Learning in Biomedicine and Beyond ( http://arxiv.org/abs/2105.05734v1 )

ライセンス: CC BY 4.0
Julian Matschinske, Julian Sp\"ath, Reza Nasirigerdeh, Reihaneh Torkzadehmahani, Anne Hartebrodt, Bal\'azs Orb\'an, S\'andor Fej\'er, Olga Zolotareva, Mohammad Bakhtiari, B\'ela Bihari, Marcus Bloice, Nina C Donner, Walid Fdhila, Tobias Frisch, Anne-Christin Hauschild, Dominik Heider, Andreas Holzinger, Walter H\"otzendorfer, Jan Hospes, Tim Kacprowski, Markus Kastelitz, Markus List, Rudolf Mayer, M\'onika Moga, Heimo M\"uller, Anastasia Pustozerova, Richard R\"ottger, Anna Saranti, Harald HHW Schmidt, Christof Tschohl, Nina K Wenke, Jan Baumbach(参考訳) 機械学習(ML)と人工知能(AI)は多くの分野で有望な結果を示しており、利用可能なデータの増加によって駆動されている。 しかし、このデータは様々な機関に分散しており、プライバシー上の懸念から共有することはできない。 federated learning(fl)のようなプライバシ保護手法では、機密データを共有することなくmlモデルをトレーニングすることが可能だが、実装には時間がかかり、高度なプログラミングスキルが必要である。 ここでは,生物医学研究やその他のアプリケーションのためのオールインワンプラットフォームとして,fl用のfeaturecloud ai storeを提案する。 これにより、開発者とエンドユーザにとって、この複雑さの大部分を排除し、利用可能なアプリのコレクションを備えた拡張可能なAIストアを提供する。 統合されたアプリは、集中型MLと同じような結果をもたらし、典型的数の協力者に対してうまくスケールし、セキュアなマルチパーティ計算(SMPC)と組み合わせることで、FLアルゴリズムをバイオメディカルおよび臨床環境において安全かつ容易に適用できるようにする。

Machine Learning (ML) and Artificial Intelligence (AI) have shown promising results in many areas and are driven by the increasing amount of available data. However, this data is often distributed across different institutions and cannot be shared due to privacy concerns. Privacy-preserving methods, such as Federated Learning (FL), allow for training ML models without sharing sensitive data, but their implementation is time-consuming and requires advanced programming skills. Here, we present the FeatureCloud AI Store for FL as an all-in-one platform for biomedical research and other applications. It removes large parts of this complexity for developers and end-users by providing an extensible AI Store with a collection of ready-to-use apps. We show that the federated apps produce similar results to centralized ML, scale well for a typical number of collaborators and can be combined with Secure Multiparty Computation (SMPC), thereby making FL algorithms safely and easily applicable in biomedical and clinical environments.
翻訳日:2021-05-13 16:37:29 公開日:2021-05-12
# (参考訳) 正規化制約下での自動エンコーディング [全文訳有]

Autoencoding Under Normalization Constraints ( http://arxiv.org/abs/2105.05735v1 )

ライセンス: CC BY 4.0
Sangwoong Yoon, Yung-Kyun Noh, Frank Chongwoo Park(参考訳) Likelihoodは、外れ値検出の標準的な見積もりである。 正規化制約の具体的役割は、最大確率を用いてサンプルが学習された場合、OOD(out-of-distribut ion)レジームが小さいことを保証することである。 オートエンコーダはそのような正規化のプロセスを持っていないため、明らかにOODである場合でも、しばしば外れ値を認識することができない。 オートエンコーダから構築した正規化確率モデルである正規化オートエンコーダ(NAE)を提案する。 NAEの確率密度は、従来のエネルギーベースモデルとは異なるオートエンコーダの再構成誤差を用いて定義される。 本モデルでは, 負サンプルの再構成を抑制し, 異常検出性能を大幅に向上させることで正規化を強制する。 実験結果より, アウトリア検出と分布内試料生成におけるNAEの有効性が確認された。

Likelihood is a standard estimate for outlier detection. The specific role of the normalization constraint is to ensure that the out-of-distribution (OOD) regime has a small likelihood when samples are learned using maximum likelihood. Because autoencoders do not possess such a process of normalization, they often fail to recognize outliers even when they are obviously OOD. We propose the Normalized Autoencoder (NAE), a normalized probabilistic model constructed from an autoencoder. The probability density of NAE is defined using the reconstruction error of an autoencoder, which is differently defined in the conventional energy-based model. In our model, normalization is enforced by suppressing the reconstruction of negative samples, significantly improving the outlier detection performance. Our experimental results confirm the efficacy of NAE, both in detecting outliers and in generating in-distribution samples.
翻訳日:2021-05-13 16:36:18 公開日:2021-05-12
# (参考訳) 大出力空間での学習のためのサンプリングとラベル付けバイアス [全文訳有]

Disentangling Sampling and Labeling Bias for Learning in Large-Output Spaces ( http://arxiv.org/abs/2105.05736v1 )

ライセンス: CC BY 4.0
Ankit Singh Rawat, Aditya Krishna Menon, Wittawat Jitkrittum, Sadeep Jayasumana, Felix X. Yu, Sashank Reddi, Sanjiv Kumar(参考訳) 負のサンプリングスキームは、全てのラベルを考慮に入れた計算コストのかかる損失関数を近似する手段を提供することで、多数のクラスを与えられた効率的なトレーニングを可能にする。 本稿では,これらのスキームとラベルの不均衡に対応するための損失修正手法の新たな関連性を示す。 異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。 さらに,すべてのラベルのサブセットによる処理から生じるサンプリングバイアスと,ラベルの不均衡に起因するデータに固有のラベルバイアスの両方に明示的に対処するための統一的な手段を提供する。 ロングテール分類と検索ベンチマークの結果を実証的に検証した。

Negative sampling schemes enable efficient training given a large number of classes, by offering a means to approximate a computationally expensive loss function that takes all labels into account. In this paper, we present a new connection between these schemes and loss modification techniques for countering label imbalance. We show that different negative sampling schemes implicitly trade-off performance on dominant versus rare labels. Further, we provide a unified means to explicitly tackle both sampling bias, arising from working with a subset of all labels, and labeling bias, which is inherent to the data due to label imbalance. We empirically verify our findings on long-tail classification and retrieval benchmarks.
翻訳日:2021-05-13 15:54:57 公開日:2021-05-12
# (参考訳) ニュースドメインのための質問・回答システムの構築 [全文訳有]

Building a Question and Answer System for News Domain ( http://arxiv.org/abs/2105.05744v1 )

ライセンス: CC BY-SA 4.0
Sandipan Basu, Aravind Gaddala, Pooja Chetan, Garima Tiwari, Narayana Darapaneni, Sadwik Parvathaneni, Anwesh Reddy Paduri(参考訳) このプロジェクトは、ニュースドメインに質問応答システムを構築しようとしている。 我々はアテンション機構を用いてスパンベースモデルを構築し、このモデルでは、段落の開始と終了のトークンの位置に関する質問に対する回答を予測する。 モデルのトレーニングにはSQuAD 2.0(Stanford Question and Answer)データセット[1]を使用しました。 SQuAD 2.0をうまく活用するには、システムは可能な限り質問に答えるだけでなく、段落によって回答が支持されず、回答を控えるかどうかを判断する必要がある。 私たちのモデルアーキテクチャは、埋め込み層、rnn層、アテンション層という3つの層で構成されています。 埋め込み層ではGloVeとUniversal Sentence Encoderを使用しました。 RNNレイヤのために、bi-LSTMと Stacked LSTMを含むRNNレイヤのバリエーションを構築し、Context to Question Attentionを使用して注意層を構築し、革新的な双方向アテンション層を即興で実装しました。 GloVe EmbeddingとBi-LSTMとContext to Question Attentionを組み合わせることで,F1スコア,EMが33.095,EMが33.094となった。 また,トランスファー学習を活用し,bertを用いたトランスフォーマーモデルを構築した。 BERTベースのモデルはそれぞれ57.513と49.769のF1スコアとEMを達成した。 BERTモデルは,様々な質問に答える上で,あらゆる面で優れていると結論付けた。

This project attempts to build a Question- Answering system in the News Domain, where Passages will be News articles, and anyone can ask a Question against it. We have built a span-based model using an Attention mechanism, where the model predicts the answer to a question as to the position of the start and end tokens in a paragraph. For training our model, we have used the Stanford Question and Answer (SQuAD 2.0) dataset[1]. To do well on SQuAD 2.0, systems must not only answer questions when possible but also determine when no answer is supported by the paragraph and abstain from answering. Our model architecture comprises three layers- Embedding Layer, RNN Layer, and the Attention Layer. For the Embedding layer, we used GloVe and the Universal Sentence Encoder. For the RNN Layer, we built variations of the RNN Layer including bi-LSTM and Stacked LSTM and we built an Attention Layer using a Context to Question Attention and also improvised on the innovative Bidirectional Attention Layer. Our best performing model which uses GloVe Embedding combined with Bi-LSTM and Context to Question Attention achieved an F1 Score and EM of 33.095 and 33.094 respectively. We also leveraged transfer learning and built a Transformer based model using BERT. The BERT-based model achieved an F1 Score and EM of 57.513 and 49.769 respectively. We concluded that the BERT model is superior in all aspects of answering various types of questions.
翻訳日:2021-05-13 15:22:10 公開日:2021-05-12
# (参考訳) 構成分布意味論における世界文脈を用いた会話否定 [全文訳有]

Conversational Negation using Worldly Context in Compositional Distributional Semantics ( http://arxiv.org/abs/2105.05748v1 )

ライセンス: CC BY 4.0
Benjamin Rodatz, Razin A. Shaikh and Lia Yeh(参考訳) 構成分布意味論における論理否定に世界的文脈(優先知識)を適用することにより、操作的会話否定をモデル化する枠組みを提案する。 一言で言えば、我々のフレームワークは、人間が否定をどう知覚するかに似た否定を生み出すことができる。 この枠組みは、重みの意味に対する論理的否定を、さらに別の意味よりも、包含階層においてより近いものに補正する。 提案するフレームワークは、論理的否定、構成、および世界的文脈生成の異なる選択に対応するために柔軟である。 特に,行列逆数を用いた新しい論理否定の提案と動機付けを行う。 重み付けされた包含情報をエンコードするために密度行列を活用し,実験を行い,対話型否定フレームワークの感性を検証する。 否定語に基づく減算否定と位相数の組み合わせは,人間の格付けと0.635の最も高いピアソン相関をもたらすと結論づけた。

We propose a framework to model an operational conversational negation by applying worldly context (prior knowledge) to logical negation in compositional distributional semantics. Given a word, our framework can create its negation that is similar to how humans perceive negation. The framework corrects logical negation to weight meanings closer in the entailment hierarchy more than meanings further apart. The proposed framework is flexible to accommodate different choices of logical negations, compositions, and worldly context generation. In particular, we propose and motivate a new logical negation using matrix inverse. We validate the sensibility of our conversational negation framework by performing experiments, leveraging density matrices to encode graded entailment information. We conclude that the combination of subtraction negation and phaser in the basis of the negated word yields the highest Pearson correlation of 0.635 with human ratings.
翻訳日:2021-05-13 15:13:59 公開日:2021-05-12
# (参考訳) ノイズ比較によるロバストアルゴリズムの設計方法 oracle [全文訳有]

How to Design Robust Algorithms using Noisy Comparison Oracle ( http://arxiv.org/abs/2105.05782v1 )

ライセンス: CC BY 4.0
Raghavendra Addanki, Sainyam Galhotra, Barna Saha(参考訳) 最大値,最近値,最遠値などのメトリックベースの比較操作は,$k$-centerクラスタリングや集約階層クラスタリングなど,さまざまなクラスタリング技術を研究する上での基礎となる。 これらの手法はレコード間のペアワイズ距離の正確な推定に依存する。 しかし、レコードの正確な特徴と対距離を計算することはしばしば困難であり、時には不可能である。 我々は「点 u は v に近いか、w は x に近いか?」のようなクエリされた点間の相対距離を比較する比較オラクルの形で弱い監督を利用することで、この課題を回避する。 しかし、いくつかのクエリは、比較oracleを使用して、他のクエリよりも答えやすい可能性がある。 これを2つの異なるノイズモデル(adversarial and probabilistic noise)を導入することで捉える。 本稿では,これらのノイズモデルに基づく最接近探索,最接近探索,最遠探索など様々な問題について検討する。 これらの比較操作のために開発した手法に基づき、k中心クラスタリングと凝集階層クラスタリングのためのロバストアルゴリズムを与える。 提案アルゴリズムは高い確率で良好な近似保証を実現し,クエリの複雑さを解析する。 本手法の有効性と効率を実世界の様々なデータセットで実証的に評価する。

Metric based comparison operations such as finding maximum, nearest and farthest neighbor are fundamental to studying various clustering techniques such as $k$-center clustering and agglomerative hierarchical clustering. These techniques crucially rely on accurate estimation of pairwise distance between records. However, computing exact features of the records, and their pairwise distances is often challenging, and sometimes not possible. We circumvent this challenge by leveraging weak supervision in the form of a comparison oracle that compares the relative distance between the queried points such as `Is point u closer to v or w closer to x?'. However, it is possible that some queries are easier to answer than others using a comparison oracle. We capture this by introducing two different noise models called adversarial and probabilistic noise. In this paper, we study various problems that include finding maximum, nearest/farthest neighbor search under these noise models. Building upon the techniques we develop for these comparison operations, we give robust algorithms for k-center clustering and agglomerative hierarchical clustering. We prove that our algorithms achieve good approximation guarantees with a high probability and analyze their query complexity. We evaluate the effectiveness and efficiency of our techniques empirically on various real-world datasets.
翻訳日:2021-05-13 14:58:48 公開日:2021-05-12
# (参考訳) 画像自動スタイリングのための高速深層学習ネットワーク [全文訳有]

A Fast Deep Learning Network for Automatic Image Auto-Straightening ( http://arxiv.org/abs/2105.05787v1 )

ライセンス: CC BY 4.0
Ionut Mironica and Andrei Zugravu(参考訳) 画像の向きを変えることは、すべての写真家にとって日常的なタスクである。 この作業は人間の目でも複雑で、特に水平線や他の水平線や垂直線が失われている場合は複雑である。 本稿では,画像回転補正に特化した新しい深層学習ネットワークを提案する。画像からの長線検出に特化した長方形奥行き畳み込みと,方向誤差問題に対処する新しい適応型損失関数を提案する。 人造構造のような少数の画像カテゴリでのみ回転誤差を検出できる他の方法と比較して、提案手法は、例えば、肖像画、風景、スポーツ、夜の写真など、より多種多様な写真に利用することができる。 さらに、このモデルはモバイルデバイスに対応しており、写真とビデオの両方でリアルタイムで実行することができる。 異なるデータセット上での我々のモデルの広範な評価は、特定の種類の画像に依存しない、著しく一般化していることを示している。 最後に、最先端のメソッドを著しく上回り、優れた結果を得る。

Rectifying the orientation of images represents a daily task for every photographer. This task may be complicated even for the human eye, especially when the horizon or other horizontal and vertical lines in the image are missing. In this paper we address this problem and propose a new deep learning network specially adapted for image rotation correction: we introduce the rectangle-shaped depthwise convolutions which are specialized in detecting long lines from the image and a new adapted loss function that addresses the problem of orientation errors. Compared to other methods that are able to detect rotation errors only on few image categories, like man-made structures, the proposed method can be used on a larger variety of photographs e.g., portraits, landscapes, sport, night photos etc. Moreover, the model is adapted to mobile devices and can be run in real time, both for pictures and for videos. An extensive evaluation of our model on different datasets shows that it remarkably generalizes, not being dependent on any particular type of image. Finally, we significantly outperform the state-of-the-art methods, providing superior results.
翻訳日:2021-05-13 14:14:03 公開日:2021-05-12
# (参考訳) 不確実性下における簡易意思決定のための確率損失とそのオンライン評価 [全文訳有]

Probabilistic Loss and its Online Characterization for Simplified Decision Making Under Uncertainty ( http://arxiv.org/abs/2105.05789v1 )

ライセンス: CC BY 4.0
Andrey Zhitnikov, Vadim Indelman(参考訳) 意思決定プロセスによって生じる計算負担を緩和することが長年の目標である。 この機構の単純化に対する感度の同定は、大きな影響をもたらす。 しかし、不確実性の下で意思決定を行うアルゴリズムは通常、その効果を定量化せずに近似やヒューリスティックに依存する。 したがって、困難なシナリオはそのような手法の性能を著しく損なう可能性がある。 本稿では, 標準近似を取り除き, 従来抑制されていた確率的変動源をすべて考慮し, 意思決定機構全体を拡張する。 この拡張に加えて、私たちの重要な貢献は、オンラインの簡易化の影響を評価し制御しながら意思決定を簡素化する新しいフレームワークです。 さらに, 帰納に関する新たな確率的境界を提示し, 計画のための信念表現におけるサンプル数を削減し, この枠組みを用いた単純化の効果をオンライン上で特徴付ける。 最後に,本手法の利点を広範囲なシミュレーションにより検証する。

It is a long-standing objective to ease the computation burden incurred by the decision making process. Identification of this mechanism's sensitivity to simplification has tremendous ramifications. Yet, algorithms for decision making under uncertainty usually lean on approximations or heuristics without quantifying their effect. Therefore, challenging scenarios could severely impair the performance of such methods. In this paper, we extend the decision making mechanism to the whole by removing standard approximations and considering all previously suppressed stochastic sources of variability. On top of this extension, our key contribution is a novel framework to simplify decision making while assessing and controlling online the simplification's impact. Furthermore, we present novel stochastic bounds on the return and characterize online the effect of simplification using this framework on a particular simplification technique - reducing the number of samples in belief representation for planning. Finally, we verify the advantages of our approach through extensive simulations.
翻訳日:2021-05-13 14:07:28 公開日:2021-05-12
# (参考訳) 偏光カメラを用いた深部スナップショットhdr再構成 [全文訳有]

Deep Snapshot HDR Reconstruction Based on the Polarization Camera ( http://arxiv.org/abs/2105.05824v1 )

ライセンス: CC BY 4.0
Juiwen Ting, Xuesong Wu, Kangkang Hu, Hong Zhang(参考訳) 近年のオンチップマイクロポーラライザ技術により,従来のカメラと同等の操作で,空間的に整列し,時間的に同期した4つの偏光画像が得られるようになった。 本稿では,高ダイナミックレンジ(hdr)イメージングにおけるセンサ技術の利用について検討する。 具体的には、偏光フィルタの向きを変えることで自然光を異なる減衰にすることができることを観察し、偏光カメラが捉えた複数の画像を異なる露光時間で捉えた集合として扱う。 本研究では,まず,偏光画像中の画素の露光時間と光の偏光方向,程度,角度の関係について検討した。 次に,この偏光画像を用いてhdr画像を復元する深部スナップショットhdr再構成フレームワークを提案する。 偏極HDRデータセットを作成し、我々のアプローチを訓練し評価する。 提案手法は最先端HDR再構成アルゴリズムに対して良好に動作することを示す。

The recent development of the on-chip micro-polarizer technology has made it possible to acquire four spatially aligned and temporally synchronized polarization images with the same ease of operation as a conventional camera. In this paper, we investigate the use of this sensor technology in high-dynamic-range (HDR) imaging. Specifically, observing that natural light can be attenuated differently by varying the orientation of the polarization filter, we treat the multiple images captured by the polarization camera as a set captured under different exposure times. In our approach, we first study the relationship among polarizer orientation, degree and angle of polarization of light to the exposure time of a pixel in the polarization image. Subsequently, we propose a deep snapshot HDR reconstruction framework to recover an HDR image using the polarization images. A polarized HDR dataset is created to train and evaluate our approach. We demonstrate that our approach performs favorably against state-of-the-art HDR reconstruction algorithms.
翻訳日:2021-05-13 13:29:45 公開日:2021-05-12
# (参考訳) ブレークスルーショートカット:ビデオ対応学習における完全畳み込み型サイクルコンシスタンスの検討 [全文訳有]

Breaking Shortcut: Exploring Fully Convolutional Cycle-Consistency for Video Correspondence Learning ( http://arxiv.org/abs/2105.05838v1 )

ライセンス: CC BY 4.0
Yansong Tang, Zhenyu Jiang, Zhenda Xie, Yue Cao, Zheng Zhang, Philip H. S. Torr, Han Hu(参考訳) 以前のサイクル一貫性対応学習法は、通常訓練にイメージパッチを利用する。 本稿では,推論プロセスによりシンプルで一貫性のある完全畳み込み法を提案する。 モデル崩壊における完全畳み込み学習結果を直接適用しながら,この崩壊現象の背景にある下線的理由について検討し,ピクセルの絶対位置が,有意義な視覚表現の学習を妨げるようなサイクルコンシステンスを容易に達成するための近道であることを示す。 この絶対位置ショートカットを破るために, 異なる作物を前後のフレームに適用し, 同じフレームの作物同士の対応を確立するために, 特徴ウォーピングを採用することを提案する。 前者の手法では、前後のトラックで対応するピクセルに絶対位置が異なるように強制し、後者は前方と後方のトラック間のショートカットを効果的にブロックする。 ポーズ追跡,顔ランドマーク追跡,ビデオオブジェクトセグメンテーションのための3つのラベル伝搬ベンチマークにおいて,本手法は,バニラ完全畳み込み型サイクル・コンシステンシー法の結果を大きく改善し,自己教師ありの最先端手法と比較して,非常に競争力の高い性能を実現する。

Previous cycle-consistency correspondence learning methods usually leverage image patches for training. In this paper, we present a fully convolutional method, which is simpler and more coherent to the inference process. While directly applying fully convolutional training results in model collapse, we study the underline reason behind this collapse phenomenon, indicating that the absolute positions of pixels provide a shortcut to easily accomplish cycle-consistence, which hinders the learning of meaningful visual representations. To break this absolute position shortcut, we propose to apply different crops for forward and backward frames, and adopt feature warping to establish correspondence between two crops of a same frame. The former technique enforces the corresponding pixels at forward and back tracks to have different absolute positions, and the latter effectively blocks the shortcuts going between forward and back tracks. In three label propagation benchmarks for pose tracking, face landmark tracking and video object segmentation, our method largely improves the results of vanilla fully convolutional cycle-consistency method, achieving very competitive performance compared with the self-supervised state-of-the-art approaches.
翻訳日:2021-05-13 13:21:17 公開日:2021-05-12
# (参考訳) カーネルの薄型化

Kernel Thinning ( http://arxiv.org/abs/2105.05842v1 )

ライセンス: CC BY 4.0
Raaz Dwivedi, Lester Mackey(参考訳) カーネルのシントニングは、$\mathbb{P}$ on $\mathbb{R}^d$の分布により良いモンテカルロ近似を生成するための単純なアルゴリズムである。 n$ 入力ポイント、適切な再生成カーネル $\mathbf{k}$、および $\mathcal{o}(n^2)$ time が与えられると、カーネルシンニングは関連する再生成カーネルヒルベルト空間内のすべての関数に対して、同等の積分誤差を持つ$\sqrt{n}$ポイントを返す。 高確率では、積分誤差の最大誤差は$\mathcal{o}_d(n^{-\frac{1}{2}}\sqrt{\log n})$ で、コンパクトにサポートされている$\mathbb{p}$ と $\mathcal{o}_d(n^{-\frac{1}{2}} \sqrt{(\log n)^{d+1}\log\log n})$ for sub-exponential $\mathbb{p}$ である。 対照的に、等サイズのi.i.d。 サンプルは$\mathbb{p}$ で$\omega(n^{-\frac14})$ 統合エラーを被る。 このサブ指数保証は、$[0,1]^d$ で一様$\mathbb{p}$ の古典的な準モンテカルロ誤差率に似ているが、$\mathbb{r}^d$ の一般分布と幅広い共通カーネルに適用できる。 我々は,gaussian,mat\'ern,b-splineカーネルの非漸近的最大平均偏差境界を明示的に導出し,i.i.d.上でのカーネル薄化の実用的利点を示す2つのヴィグネットを提示する。 マルコフ連鎖モンテカルロ薄膜のサンプリングと標準化。

We introduce kernel thinning, a simple algorithm for generating better-than-Monte-Ca rlo approximations to distributions $\mathbb{P}$ on $\mathbb{R}^d$. Given $n$ input points, a suitable reproducing kernel $\mathbf{k}$, and $\mathcal{O}(n^2)$ time, kernel thinning returns $\sqrt{n}$ points with comparable integration error for every function in the associated reproducing kernel Hilbert space. With high probability, the maximum discrepancy in integration error is $\mathcal{O}_d(n^{-\frac{1}{2}}\sqrt{\log n})$ for compactly supported $\mathbb{P}$ and $\mathcal{O}_d(n^{-\frac{1}{2}} \sqrt{(\log n)^{d+1}\log\log n})$ for sub-exponential $\mathbb{P}$. In contrast, an equal-sized i.i.d. sample from $\mathbb{P}$ suffers $\Omega(n^{-\frac14})$ integration error. Our sub-exponential guarantees resemble the classical quasi-Monte Carlo error rates for uniform $\mathbb{P}$ on $[0,1]^d$ but apply to general distributions on $\mathbb{R}^d$ and a wide range of common kernels. We use our results to derive explicit non-asymptotic maximum mean discrepancy bounds for Gaussian, Mat\'ern, and B-spline kernels and present two vignettes illustrating the practical benefits of kernel thinning over i.i.d. sampling and standard Markov chain Monte Carlo thinning.
翻訳日:2021-05-13 13:07:22 公開日:2021-05-12
# (参考訳) 形態的生産性の欲求と再帰的探索 [全文訳有]

The Greedy and Recursive Search for Morphological Productivity ( http://arxiv.org/abs/2105.05790v1 )

ライセンス: CC BY 4.0
Caleb Belth, Sarah Payne, Deniz Beser, Jordan Kodner, Charles Yang(参考訳) 子どもが言語の形態に関する知識を身につけると、新しい単語に一般化できる生産的なプロセスが必ず見つかる。 形態素学習は、完全に生産的な規則でさえ例外があり、例えば英語の過去時制動詞の場合のように、不規則動詞に対する-ed規則が特徴である。 許容原則は、生産的ルールが耐えうる例外の正確なしきい値を提供する最近の提案である。 しかし、これまでの経験的応用では、研究者は単語の集合上で定義された規則を完全に指定する必要がある。 本稿では,ルールを自動的に仮定し,語彙よりも生産性を評価する欲望検索モデルを提案する。 幅広い生産性の探索が失敗すると、モデルは再帰的に語彙を分割し、より狭いルールで生産性の探索を継続する。 幼児向け入力から心理的に現実的なデータに基づいて学習したモデルでは,ドイツ名詞の多元化の悪名高い症例を含む,幼児形態獲得で観察される発達パターンを示す。 また、トレーニングデータのほんの一部しか受け取っていないにもかかわらず、現在のニューラルネットワークモデルの応答よりも、人間の被験者によく似たニュアンスワードに対する応答を生成する。

As children acquire the knowledge of their language's morphology, they invariably discover the productive processes that can generalize to new words. Morphological learning is made challenging by the fact that even fully productive rules have exceptions, as in the well-known case of English past tense verbs, which features the -ed rule against the irregular verbs. The Tolerance Principle is a recent proposal that provides a precise threshold of exceptions that a productive rule can withstand. Its empirical application so far, however, requires the researcher to fully specify rules defined over a set of words. We propose a greedy search model that automatically hypothesizes rules and evaluates their productivity over a vocabulary. When the search for broader productivity fails, the model recursively subdivides the vocabulary and continues the search for productivity over narrower rules. Trained on psychologically realistic data from child-directed input, our model displays developmental patterns observed in child morphology acquisition, including the notoriously complex case of German noun pluralization. It also produces responses to nonce words that, despite receiving only a fraction of the training data, are more similar to those of human subjects than current neural network models' responses are.
翻訳日:2021-05-13 12:51:19 公開日:2021-05-12
# 画像合成における拡散モデルビートgans

Diffusion Models Beat GANs on Image Synthesis ( http://arxiv.org/abs/2105.05233v2 )

ライセンス: Link先を確認
Prafulla Dhariwal, Alex Nichol(参考訳) 拡散モデルでは,現在の生成モデルよりも画像サンプルの品質が向上することを示す。 我々は,一連のアブレーションにより,より優れたアーキテクチャを求めることにより,無条件画像合成においてこれを実現する。 条件付き画像合成では、分類器からの勾配を用いて、サンプル品質の多様性をトレードオフする単純で計算効率のよい方法である分類器ガイダンスにより、サンプル品質をさらに改善する。 ImageNet 128$\times$128, ImageNet 256$\times$256, ImageNet 512$\times$512では7.72, ImageNet 128$\times$128, 4.59, ImageNet 512$\times$512では2.97のFIDを実現しています。 最後に、分類器誘導はアップサンプリング拡散モデルとうまく結合し、ImageNet 512$\times$512でFIDを3.85に改善する。 コードをhttps://github.com/o penai/guided-diffusi onでリリースします。

We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. For conditional image synthesis, we further improve sample quality with classifier guidance: a simple, compute-efficient method for trading off diversity for sample quality using gradients from a classifier. We achieve an FID of 2.97 on ImageNet 128$\times$128, 4.59 on ImageNet 256$\times$256, and 7.72 on ImageNet 512$\times$512, and we match BigGAN-deep even with as few as $25$ forward passes per sample, all while maintaining better coverage of the distribution. Finally, we find that classifier guidance combines well with upsampling diffusion models, further improving FID to 3.85 on ImageNet 512$\times$512. We release our code at https://github.com/o penai/guided-diffusi on
翻訳日:2021-05-13 12:38:02 公開日:2021-05-12
# AdaMML:効率的なビデオ認識のための適応型マルチモーダル学習

AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition ( http://arxiv.org/abs/2105.05165v2 )

ライセンス: Link先を確認
Rameswar Panda, Chun-Fu Chen, Quanfu Fan, Ximeng Sun, Kate Saenko, Aude Oliva, Rogerio Feris(参考訳) モデルの性能向上に様々なモダリティを活用するマルチモーダル学習は,ビデオ認識において広く利用されている。 従来のマルチモーダル学習は優れた認識結果を提供するが、計算コストは現実世界の多くのアプリケーションに対する影響を制限する。 本稿では,入力に条件づけされたセグメント毎に最適なモダリティをオンザフライで選択し,効率的な映像認識を実現する適応型マルチモーダル学習フレームワークadammlを提案する。 具体的には、ビデオセグメントが与えられると、マルチモーダルポリシネットワークを使用して、認識モデルによる処理に使用するモダリティを判断し、精度と効率の両立を目標とする。 標準バックプロパゲーションを用いた認識モデルと協調してポリシーネットワークを効率的に訓練する。 4つの挑戦的な多種多様なデータセットに対する広範囲な実験により、提案手法は、入力によらずすべてのモダリティを単純に使用する従来のベースラインと比較して35%-55%の計算削減を実現し、また最先端の手法よりも精度が一貫した改善を実現した。

Multi-modal learning, which focuses on utilizing various modalities to improve the performance of a model, is widely used in video recognition. While traditional multi-modal learning offers excellent recognition results, its computational expense limits its impact for many real-world applications. In this paper, we propose an adaptive multi-modal learning framework, called AdaMML, that selects on-the-fly the optimal modalities for each segment conditioned on the input for efficient video recognition. Specifically, given a video segment, a multi-modal policy network is used to decide what modalities should be used for processing by the recognition model, with the goal of improving both accuracy and efficiency. We efficiently train the policy network jointly with the recognition model using standard back-propagation. Extensive experiments on four challenging diverse datasets demonstrate that our proposed adaptive approach yields 35%-55% reduction in computation when compared to the traditional baseline that simply uses all the modalities irrespective of the input, while also achieving consistent improvements in accuracy over the state-of-the-art methods.
翻訳日:2021-05-13 12:37:39 公開日:2021-05-12
# サロゲート支援アクティブサブスペースとアクティブサブスペースアシストサロゲート-高次元構造信頼性解析のための新しいパラダイム

Surrogate assisted active subspace and active subspace assisted surrogate -- A new paradigm for high dimensional structural reliability analysis ( http://arxiv.org/abs/2105.04979v2 )

ライセンス: Link先を確認
Navaneeth N. and Souvik Chakraborty(参考訳) 複雑なシステムにおける信頼性解析は、しばしば計算コストがかかる。 特に,高入力次元のシステムを扱う場合,信頼性評価は大変な作業となる。 時間消費と高価な評価に関連する問題を克服するための一般的なアプローチは、代理モデルの構築である。 しかし、これらの計算効率の良いモデルはしばしば次元の呪いに苦しむ。 したがって、高次元問題に対する代理モデルのトレーニングは簡単ではない。 そこで本稿では,高次元信頼性解析問題を解くための枠組みを提案する。 基本前提は、活性部分空間アルゴリズムを用いて発見された低次元多様体上の代理モデルを訓練することである。 しかし、アクティブ部分空間を用いた低次元多様体の学習は、応答変数の勾配に関する情報を必要とするため、非自明である。 そこで本研究では,sparse active subspace (sas) アルゴリズムを用いて,sparse active subspace (sas) アルゴリズムを提案する。 SASを用いて同定された低次元多様体に高次元入力を投影する。 高忠実度サーロゲートモデルは、低次元多様体上の入力を出力応答にマッピングするために用いられる。 文献からの3つのベンチマーク信頼性解析問題を用いて,提案手法の有効性を示す。 その結果,既存の文献の信頼性解析手法と比較して,提案手法の精度と効率性が示唆された。

Performing reliability analysis on complex systems is often computationally expensive. In particular, when dealing with systems having high input dimensionality, reliability estimation becomes a daunting task. A popular approach to overcome the problem associated with time-consuming and expensive evaluations is building a surrogate model. However, these computationally efficient models often suffer from the curse of dimensionality. Hence, training a surrogate model for high-dimensional problems is not straightforward. Henceforth, this paper presents a framework for solving high-dimensional reliability analysis problems. The basic premise is to train the surrogate model on a low-dimensional manifold, discovered using the active subspace algorithm. However, learning the low-dimensional manifold using active subspace is non-trivial as it requires information on the gradient of the response variable. To address this issue, we propose using sparse learning algorithms in conjunction with the active subspace algorithm; the resulting algorithm is referred to as the sparse active subspace (SAS) algorithm. We project the high-dimensional inputs onto the identified low-dimensional manifold identified using SAS. A high-fidelity surrogate model is used to map the inputs on the low-dimensional manifolds to the output response. We illustrate the efficacy of the proposed framework by using three benchmark reliability analysis problems from the literature. The results obtained indicate the accuracy and efficiency of the proposed approach compared to already established reliability analysis methods in the literature.
翻訳日:2021-05-13 12:37:19 公開日:2021-05-12
# 非定常分布に対する適応潜在空間チューニング

Adaptive Latent Space Tuning for Non-Stationary Distributions ( http://arxiv.org/abs/2105.03584v2 )

ライセンス: Link先を確認
Alexander Scheinker, Frederick Cropp, Sergio Paiagua, Daniele Filippetto(参考訳) 畳み込みニューラルネットワーク(CNN)のような強力なディープラーニングツールは、データから直接大規模な複雑なシステムの入出力関係を学習することができる。 エンコーダデコーダディープcnnは、画像から直接特徴を抽出し、一般的な低次元の潜在空間内でスカラー入力と混合し、複雑な物理現象を表す新しい複雑な2d出力を生成することができる。 ディープラーニング手法が直面する重要な課題の1つは、再学習が不可能な時間とともに特徴が急速に変化する大規模非定常システムである。 本稿では,リアルタイムフィードバックに基づくディープエンコーダ・デコーダ方式cnnの低次元潜在空間の適応チューニング法を提案する。 電場加速と集束磁界)が時間とともに急速に変化している粒子加速器において、時間変化の粒子ビームの特性を予測するための我々の手法を実証する。

Powerful deep learning tools, such as convolutional neural networks (CNN), are able to learn the input-output relationships of large complicated systems directly from data. Encoder-decoder deep CNNs are able to extract features directly from images, mix them with scalar inputs within a general low-dimensional latent space, and then generate new complex 2D outputs which represent complex physical phenomenon. One important challenge faced by deep learning methods is large non-stationary systems whose characteristics change quickly with time for which re-training is not feasible. In this paper we present a method for adaptive tuning of the low-dimensional latent space of deep encoder-decoder style CNNs based on real-time feedback to quickly compensate for unknown and fast distribution shifts. We demonstrate our approach for predicting the properties of a time-varying charged particle beam in a particle accelerator whose components (accelerating electric fields and focusing magnetic fields) are also quickly changing with time.
翻訳日:2021-05-13 12:37:00 公開日:2021-05-12
# アンタングル表現による自己教師付き逆例検出

Self-Supervised Adversarial Example Detection by Disentangled Representation ( http://arxiv.org/abs/2105.03689v2 )

ライセンス: Link先を確認
Zhaoxi Zhang, Leo Yu Zhang, Xufei Zheng, Shengshan Hu, Jinyu Tian, Jiantao Zhou(参考訳) 深層学習モデルは、悪意のある目的のために精巧に設計され、人間の知覚システムには受け入れられない敵の例に弱いことが知られている。 autoencoderは、良質な例だけを訓練すると、敵の例がより大きな再構成エラーをもたらすという仮定に基づいて、(監視された)敵検出に広く使われている。 しかし、訓練における逆例の欠如やオートエンコーダの強大な一般化能力のため、この仮定は実際には必ずしも成り立たない。 この問題を軽減するために,オートエンコーダ構造下の画像の絡み合った表現を用いて,逆例を検出する。 入力画像をクラスの特徴や意味的特徴として切り離すことで,識別器ネットワークが支援するオートエンコーダを,正しくペア化されたクラス/セマンティック特徴と誤ってペア化されたクラス/セマンティック特徴の両方でトレーニングし,良さと反例を再構築する。 これは逆例の振る舞いを模倣し、オートエンコーダの不要な一般化能力を減らすことができる。 現状の自己監視検出手法と比較して,本手法は,異なるデータセット(MNIST, Fashion-MNIST, CIFAR-10),異なる敵攻撃手法(FGSM, BIM, PGD, DeepFool, CW),および異なる犠牲者モデル(8層CNN, 16層VGG)に対して,より優れた性能を示す。 本手法は, 対人攻撃と異なる被害者モデル(30件の攻撃設定)下での最先端の自己監視検出手法と比較し, 多くの攻撃設定において, 各種測定(AUC, FPR, TPR)において優れた性能を示す。 理想的には、AUCは1ドルであり、我々の方法はすべての攻撃に対してCIFAR-10で0.99+$を達成する。 特に、他のオートエンコーダベースの検出器とは異なり、我々の手法は適応的な敵に対する抵抗を与えることができる。

Deep learning models are known to be vulnerable to adversarial examples that are elaborately designed for malicious purposes and are imperceptible to the human perceptual system. Autoencoder, when trained solely over benign examples, has been widely used for (self-supervised) adversarial detection based on the assumption that adversarial examples yield larger reconstruction error. However, because lacking adversarial examples in its training and the too strong generalization ability of autoencoder, this assumption does not always hold true in practice. To alleviate this problem, we explore to detect adversarial examples by disentangled representations of images under the autoencoder structure. By disentangling input images as class features and semantic features, we train an autoencoder, assisted by a discriminator network, over both correctly paired class/semantic features and incorrectly paired class/semantic features to reconstruct benign and counterexamples. This mimics the behavior of adversarial examples and can reduce the unnecessary generalization ability of autoencoder. Compared with the state-of-the-art self-supervised detection methods, our method exhibits better performance in various measurements (i.e., AUC, FPR, TPR) over different datasets (MNIST, Fashion-MNIST and CIFAR-10), different adversarial attack methods (FGSM, BIM, PGD, DeepFool, and CW) and different victim models (8-layer CNN and 16-layer VGG). We compare our method with the state-of-the-art self-supervised detection methods under different adversarial attacks and different victim models (30 attack settings), and it exhibits better performance in various measurements (AUC, FPR, TPR) for most attacks settings. Ideally, AUC is $1$ and our method achieves $0.99+$ on CIFAR-10 for all attacks. Notably, different from other Autoencoder-based detectors, our method can provide resistance to the adaptive adversary.
翻訳日:2021-05-13 12:36:45 公開日:2021-05-12
# KDExplainer:知識蒸留を説明するタスク指向の注意モデル

KDExplainer: A Task-oriented Attention Model for Explaining Knowledge Distillation ( http://arxiv.org/abs/2105.04181v2 )

ライセンス: Link先を確認
Mengqi Xue, Jie Song, Xinchao Wang, Ying Chen, Xingen Wang, Mingli Song(参考訳) 知識蒸留(KD)は、最近、コンパクトディープニューラルネットワーク(DNN)を学習するための効果的なスキームとして登場した。 有望な結果が得られたにも拘わらず、KDの振る舞いを解釈する根拠はまだほとんど検討されていない。 本稿では,KDExplainerと呼ばれる新しいタスク指向のアテンションモデルを紹介し,バニラKDを支える動作機構について光を当てる。 kdexplainerの核心には、階層的な専門家の混合(hme)があり、マルチクラス分類をマルチタスクバイナリに再構成する。 自由形式のDNNからKDExplainerへの知識の抽出を通じて、KDは異なるサブタスク間の知識衝突を暗黙的に変調し、実際にはラベルスムース化よりもずっと多くのものを提供する。 そこで本研究では,仮想アテンションモジュール(Virtual attention Module, VAM)と呼ばれる,様々なDNNとシームレスに統合して,KD下での性能を向上させるポータブルツールについても紹介する。 実験の結果,vamを搭載した学生モデルが,評価値の異なる非vamモデルよりも高い値を示した。 さらに、他のKD法と組み合わせた場合、VAMはバニラKDによってのみ動機付けられているにもかかわらず、結果の促進に長けている。 コードはhttps://github.com/z ju-vipa/kdexplainerで入手できる。

Knowledge distillation (KD) has recently emerged as an efficacious scheme for learning compact deep neural networks (DNNs). Despite the promising results achieved, the rationale that interprets the behavior of KD has yet remained largely understudied. In this paper, we introduce a novel task-oriented attention model, termed as KDExplainer, to shed light on the working mechanism underlying the vanilla KD. At the heart of KDExplainer is a Hierarchical Mixture of Experts (HME), in which a multi-class classification is reformulated as a multi-task binary one. Through distilling knowledge from a free-form pre-trained DNN to KDExplainer, we observe that KD implicitly modulates the knowledge conflicts between different subtasks, and in reality has much more to offer than label smoothing. Based on such findings, we further introduce a portable tool, dubbed as virtual attention module (VAM), that can be seamlessly integrated with various DNNs to enhance their performance under KD. Experimental results demonstrate that with a negligible additional cost, student models equipped with VAM consistently outperform their non-VAM counterparts across different benchmarks. Furthermore, when combined with other KD methods, VAM remains competent in promoting results, even though it is only motivated by vanilla KD. The code is available at https://github.com/z ju-vipa/KDExplainer.
翻訳日:2021-05-13 12:36:09 公開日:2021-05-12
# 注意に基づくGCNとセマンティックマッチング最適化によるオープンセット領域認識

Open Set Domain Recognition via Attention-Based GCN and Semantic Matching Optimization ( http://arxiv.org/abs/2105.04967v2 )

ライセンス: Link先を確認
Xinxing He, Yuan Yuan, Zhiyu Jiang(参考訳) オープンセットドメイン認識は近年注目を集めている。 この課題は、手動でラベル付けされたソースドメイン内のすべての既知のクラスと、ターゲット固有の未知のカテゴリからなる、実用的な未ラベルのターゲットドメイン内の各サンプルを具体的に分類することを目的としている。 注釈付きトレーニングデータや未知カテゴリの属性情報がないため、この作業は特に困難である。 さらに、ラベル空間とデータ分布におけるドメインの不一致は、既知のクラスから未知のクラスに転送される知識をさらに妨げます。 これらの問題に対処するため,本研究では,注目に基づくGCNとセマンティックマッチングの最適化に基づくエンドツーエンドモデルを提案する。 さらに、ドメインギャップを段階的に橋渡しするために、粗大なセマンティックマッチング最適化手法を提案する。 実験結果から,提案モデルが未知のクラスの画像認識に優れるだけでなく,対象領域の様々な開放性にも適応できることが確認された。

Open set domain recognition has got the attention in recent years. The task aims to specifically classify each sample in the practical unlabeled target domain, which consists of all known classes in the manually labeled source domain and target-specific unknown categories. The absence of annotated training data or auxiliary attribute information for unknown categories makes this task especially difficult. Moreover, exiting domain discrepancy in label space and data distribution further distracts the knowledge transferred from known classes to unknown classes. To address these issues, this work presents an end-to-end model based on attention-based GCN and semantic matching optimization, which first employs the attention mechanism to enable the central node to learn more discriminating representations from its neighbors in the knowledge graph. Moreover, a coarse-to-fine semantic matching optimization approach is proposed to progressively bridge the domain gap. Experimental results validate that the proposed model not only has superiority on recognizing the images of known and unknown classes, but also can adapt to various openness of the target domain.
翻訳日:2021-05-13 12:35:47 公開日:2021-05-12
# 多重ディスパッチによる高性能シンボリック数値

High-performance symbolic-numerics via multiple dispatch ( http://arxiv.org/abs/2105.03949v2 )

ライセンス: Link先を確認
Shashi Gowda, Yingbo Ma, Alessandro Cheli, Maja Gwozdz, Viral B. Shah, Alan Edelman, Christopher Rackauckas(参考訳) 数学コンピューティングが高レベル言語でより民主化されるにつれて、ドメイン科学者やエンジニアがコード最適化の知識を必要とせずに最高のパフォーマンスをマシンから得るためには、高性能なシンボリック数値システムが必要である。 もちろん、ユーザは異なる代数的特性を持つために、あるいは効率的なデータ構造を使用するために、異なる用語タイプが必要です。 そこで我々は,動的多重ディスパッチを用いた拡張可能なシンボルシステムであるSymbolics.jlを開発した。 本研究では, 一般性を犠牲にすることなく, 速度を向上できる抽象用語インタフェースについて詳述する。 実装に依存しないアクションでジェネリックapiを定式化することで、既存の項書き換え子を変更することなく、システムに最適化されたデータ構造を遡及的に追加できることを示します。 一般記号変換において項構成を最適化し,113倍の加速度を与える方法を示す。 さらに、このような汎用APIは、補完的な項書き換えの実装を可能にすることを示す。 従来の項書き換え単純化子とe-graphに基づく項書き換え単純化子を交換する能力を示す。 本稿では,表現評価中のCPUサイクル数を最小化する電子グラフ規則を提示し,実世界のリアクションネットワークシミュレーションを単純化してランタイムを半減させる方法を示す。 さらに,多重ディスパッチトレーシングによって自動的に記号表現に変換可能な反応拡散型偏微分方程式ソルバを示し,その高速化と並列化を行い,157倍のシミュレーション高速化を実現する。 モデリングとシミュレーションに特化した次世代シンボリック数値計算環境としてsymbols.jlを提案する。

As mathematical computing becomes more democratized in high-level languages, high-performance symbolic-numeric systems are necessary for domain scientists and engineers to get the best performance out of their machine without deep knowledge of code optimization. Naturally, users need different term types either to have different algebraic properties for them, or to use efficient data structures. To this end, we developed Symbolics.jl, an extendable symbolic system which uses dynamic multiple dispatch to change behavior depending on the domain needs. In this work we detail an underlying abstract term interface which allows for speed without sacrificing generality. We show that by formalizing a generic API on actions independent of implementation, we can retroactively add optimized data structures to our system without changing the pre-existing term rewriters. We showcase how this can be used to optimize term construction and give a 113x acceleration on general symbolic transformations. Further, we show that such a generic API allows for complementary term-rewriting implementations. We demonstrate the ability to swap between classical term-rewriting simplifiers and e-graph-based term-rewriting simplifiers. We showcase an e-graph ruleset which minimizes the number of CPU cycles during expression evaluation, and demonstrate how it simplifies a real-world reaction-network simulation to halve the runtime. Additionally, we show a reaction-diffusion partial differential equation solver which is able to be automatically converted into symbolic expressions via multiple dispatch tracing, which is subsequently accelerated and parallelized to give a 157x simulation speedup. Together, this presents Symbolics.jl as a next-generation symbolic-numeric computing environment geared towards modeling and simulation.
翻訳日:2021-05-13 12:35:31 公開日:2021-05-12
# ソースコンディショニングマスクスパン予測による語彙制約付きニューラルマシン翻訳の改善

Improving Lexically Constrained Neural Machine Translation with Source-Conditioned Masked Span Prediction ( http://arxiv.org/abs/2105.05498v1 )

ライセンス: Link先を確認
Gyubok Lee, Seongjun Yang, Edward Choi(参考訳) 正確な用語の生成は、ニューラルネットワーク翻訳(nmt)システムの実用性と信頼性にとって重要な要素である。 これに対処するため、レキシカル制約のあるnmtは、翻訳に予め規定された単語やフレーズが現れるように、様々な方法を探索する。 しかし多くの場合、これらの手法は概ねユニグラムとビグラム(>98%)の一般ドメインコーパスで評価される。 本稿では,より長いn-gramと高度専門用語を持つドメイン固有コーパスからなる,より困難なセットアップに取り組む。 生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加し、BLEUスコアとともに用語翻訳の改善を観察する。 2つの言語ペアにおける3つのドメイン特化コーパスの実験結果から,提案手法は,テスト時の用語辞書の有無に関わらず動作可能な既存の語彙制約付き手法の性能を向上させることができることが示された。

Generating accurate terminology is a crucial component for the practicality and reliability of neural machine translation (NMT) systems. To address this, lexically constrained NMT explores various methods to ensure pre-specified words and phrases to appear in the translations. In many cases, however, those methods are evaluated on general domain corpora, where the terms are mostly uni- and bi-grams (>98%). In this paper, we instead tackle a more challenging setup consisting of domain-specific corpora with much longer n-gram and highly specialized terms. To encourage span-level representations in generation, we additionally impose a source-sentence conditioned masked span prediction loss in the decoder and observe improvements on both terminology translation as well as BLEU scores. Experimental results on three domain-specific corpora in two language pairs demonstrate that the proposed training scheme can improve the performance of existing lexically constrained methods that can operate both with or without a term dictionary at test time.
翻訳日:2021-05-13 12:35:06 公開日:2021-05-12
# モデル非依存型メタラーニングにおける表現の類似性の検討

Exploring the Similarity of Representations in Model-Agnostic Meta-Learning ( http://arxiv.org/abs/2105.05757v1 )

ライセンス: Link先を確認
Thomas Goerttler and Klaus Obermayer(参考訳) 近年,モデルに依存しないメタラーニング(MAML)はメタラーニングにおいて最も有望なアプローチの1つである。 強化学習のような様々な問題に適用できるが、わずかな学習タスクでも良い結果が得られる。 これらのタスクにおける大きな成功に加えて、なぜこれほどうまく機能するのか、まだ完全には明らかにされていない。 最近の研究は、MAMLが急速に学習するよりもむしろ機能を再利用することを示唆している。 本稿では,MAMLの表現を解析することによって,この問題のより深い理解を促したい。 神経科学の確立した手法である表現類似性分析(RSA)をMAMLの少数ショット学習インスタンス化に適用する。 我々の分析の一部は、機能の再利用が支配的であるという一般的な結果を支持しているが、それらの結論に対する議論も明らかにしている。 入力層に近いレイヤの類似性の増加は、モデルではなく、学習タスク自体から生じます。 さらに、内部勾配ステップ後の表現は、メタトレーニング中の変化よりも広範な表現の変更を行う。

In past years model-agnostic meta-learning (MAML) has been one of the most promising approaches in meta-learning. It can be applied to different kinds of problems, e.g., reinforcement learning, but also shows good results on few-shot learning tasks. Besides their tremendous success in these tasks, it has still not been fully revealed yet, why it works so well. Recent work proposes that MAML rather reuses features than rapidly learns. In this paper, we want to inspire a deeper understanding of this question by analyzing MAML's representation. We apply representation similarity analysis (RSA), a well-established method in neuroscience, to the few-shot learning instantiation of MAML. Although some part of our analysis supports their general results that feature reuse is predominant, we also reveal arguments against their conclusion. The similarity-increase of layers closer to the input layers arises from the learning task itself and not from the model. In addition, the representations after inner gradient steps make a broader change to the representation than the changes during meta-training.
翻訳日:2021-05-13 12:34:49 公開日:2021-05-12
# 高次元ベイズ推論のためのマルチスケール非可逆生成ネットワーク

Multiscale Invertible Generative Networks for High-Dimensional Bayesian Inference ( http://arxiv.org/abs/2105.05489v1 )

ライセンス: Link先を確認
Shumao Zhang, Pengchuan Zhang, Thomas Y. Hou(参考訳) 本研究では,多スケール構造を利用して高次元ベイズ推定を解くマルチスケールインバータブル生成ネットワーク(msign)と関連する学習アルゴリズムを提案する。 次元の呪いに対処するため、msignは後方の低次元の性質を利用して、サンプルの反復的なサンプリングと精錬によって粗大から細かなスケール(低次元から高次元)のサンプルを生成する。 MsIGNはジェフリーズ発散を最小限に抑えるために多段階的に訓練されており、高次元の場合のモード降下を避ける。 2つの高次元ベイズ逆問題に対して、MsIGNの後方近似と多重モードキャプチャにおける従来の手法よりも優れた性能を示す。 自然な画像合成タスクでは、MsIGNはベースラインモデルよりもビット単位の次元で優れた性能を達成し、中間層におけるニューロンの解釈可能性を大きく向上させる。

We propose a Multiscale Invertible Generative Network (MsIGN) and associated training algorithm that leverages multiscale structure to solve high-dimensional Bayesian inference. To address the curse of dimensionality, MsIGN exploits the low-dimensional nature of the posterior, and generates samples from coarse to fine scale (low to high dimension) by iteratively upsampling and refining samples. MsIGN is trained in a multi-stage manner to minimize the Jeffreys divergence, which avoids mode dropping in high-dimensional cases. On two high-dimensional Bayesian inverse problems, we show superior performance of MsIGN over previous approaches in posterior approximation and multiple mode capture. On the natural image synthesis task, MsIGN achieves superior performance in bits-per-dimension over baseline models and yields great interpret-ability of its neurons in intermediate layers.
翻訳日:2021-05-13 12:34:34 公開日:2021-05-12
# ヒントをいただけませんか。 デファジブル推論のための推論グラフの生成

Could you give me a hint? Generating inference graphs for defeasible reasoning ( http://arxiv.org/abs/2105.05418v1 )

ライセンス: Link先を確認
Aman Madaan, Dheeraj Rajagopal, Niket Tandon, Yiming Yang, Eduard Hovy(参考訳) 矛盾する推論は、新しい証拠を考慮して結論を覆すことができる推論の方法である。 哲学やAI文学でよく使われる手法は、推論グラフをサポートする手作業による議論である。 推論グラフは推論に非常に有用であるが、大規模に構築することは困難である。 本稿では,推論グラフがサポートする推論の種類を共有する他のNLPタスクからの移動学習を通じて,そのような推論グラフを自動的に生成する。 自動計測と人的評価により,提案手法は難解な推論タスクに対して有意義なグラフを生成する。 このタスクにおける人間の正確性は、生成されたグラフのコンサルティングによって20%向上する。 我々の研究は、機械推論が人間の推論に役立つ場合に、エキサイティングな新しい研究の道を開く。 (難解なクエリ毎に23万のインフルエンサーグラフのデータセットが配置されている。 https://tinyurl.com/ defeasiblegraphs.)

Defeasible reasoning is the mode of reasoning where conclusions can be overturned by taking into account new evidence. A commonly used method in philosophy and AI literature is to handcraft argumentation supporting inference graphs. While humans find inference graphs very useful for reasoning, constructing them at scale is difficult. In this paper, we automatically generate such inference graphs through transfer learning from another NLP task that shares the kind of reasoning that inference graphs support. Through automated metrics and human evaluation, we find that our method generates meaningful graphs for the defeasible inference task. Human accuracy on this task improves by 20% by consulting the generated graphs. Our findings open up exciting new research avenues for cases where machine reasoning can help human reasoning. (A dataset of 230,000 influence graphs for each defeasible query is located at: https://tinyurl.com/ defeasiblegraphs.)
翻訳日:2021-05-13 12:34:19 公開日:2021-05-12
# 気候政策のためのNLP : 完全かつ効果的な気候行動のための知識プラットフォームの構築

NLP for Climate Policy: Creating a Knowledge Platform for Holistic and Effective Climate Action ( http://arxiv.org/abs/2105.05621v1 )

ライセンス: Link先を確認
Pradip Swarnakar and Ashutosh Modi(参考訳) 気候変動は我々の時代の燃える問題であり、国連の持続可能な開発目標(SDG)13は地球温暖化対策を要求している。 2015年、パリで世界各国首脳は、二酸化炭素排出量削減に向けた自発的な措置を取ることを約束する合意に署名した。 しかし、規模、規模、気候の作用過程は、特に先進国と発展途上国の間で世界規模で異なる。 そのため、議会からソーシャルメディアまで、気候変動に関する議論や議論は、政策設計や実施に不可欠な幅広い情報源からデータを集めている。 欠点は、現在、構造化および非構造化データソースから生まれた世界中に分散した知識をプールするメカニズムを持っていないことです。 本論文は,NLP技術が気候政策研究にどのように応用され,社会全般に貢献するかを理論的に論じる。 特に,NLPと気候政策研究の共生を4つの手法で実証する。 最初の1つは、自動コンテンツ分析を用いた気候政策に関する主要なトピックを扱う。 第2の方法論では,主要な俳優の気候政策に対する見解(感想)を考察する。 第3のテクニックは、気候アクターのプロまたはアンチ気候指向に対する信念を探求する。 最後に、気候知識グラフの開発について論じる。 本論文は, 総合的な気候政策と効果的な気候行動の定式化に, 知識プラットフォームの構築が寄与すると主張する。 このような知識プラットフォームは、政府、ビジネス、市民社会、科学コミュニティなど、様々な社会分野の政策担当者の様々な意見を統合するだろう。 政策立案者は多種多様な世論を総合的なプラットフォームで見ることで、情報的な決定を下すことができるため、研究成果は効果的な気候行動に価値をもたらすだろう。

Climate change is a burning issue of our time, with the Sustainable Development Goal (SDG) 13 of the United Nations demanding global climate action. Realizing the urgency, in 2015 in Paris, world leaders signed an agreement committing to taking voluntary action to reduce carbon emissions. However, the scale, magnitude, and climate action processes vary globally, especially between developed and developing countries. Therefore, from parliament to social media, the debates and discussions on climate change gather data from wide-ranging sources essential to the policy design and implementation. The downside is that we do not currently have the mechanisms to pool the worldwide dispersed knowledge emerging from the structured and unstructured data sources. The paper thematically discusses how NLP techniques could be employed in climate policy research and contribute to society's good at large. In particular, we exemplify symbiosis of NLP and Climate Policy Research via four methodologies. The first one deals with the major topics related to climate policy using automated content analysis. We investigate the opinions (sentiments) of major actors' narratives towards climate policy in the second methodology. The third technique explores the climate actors' beliefs towards pro or anti-climate orientation. Finally, we discuss developing a Climate Knowledge Graph. The present theme paper further argues that creating a knowledge platform would help in the formulation of a holistic climate policy and effective climate action. Such a knowledge platform would integrate the policy actors' varied opinions from different social sectors like government, business, civil society, and the scientific community. The research outcome will add value to effective climate action because policymakers can make informed decisions by looking at the diverse public opinion on a comprehensive platform.
翻訳日:2021-05-13 12:34:07 公開日:2021-05-12
# Priberam Labs at NTCIR-15 ShiNRA2020-ML: Classification Task

Priberam Labs at the NTCIR-15 SHINRA2020-ML: Classification Task ( http://arxiv.org/abs/2105.05605v1 )

ライセンス: Link先を確認
Ruben Cardoso, Afonso Mendes, Andre Lamurias(参考訳) Wikipediaは285の言語で利用できるオンライン百科事典である。 それは極めて関連する知識ベース(KB)を構成し、いくつかの目的のために自動システムによって活用できる。 しかし、そのような情報の構造や組織は自動解析や理解が難しいわけではなく、そのため、この知識を構築する必要がある。 現在のShiNRA2020-MLタスクの目標は、ウィキペディアページを活用して、拡張名前付きエンティティ(ENE)オントロジーに属する268の階層カテゴリに該当するエンティティを分類することである。 本研究では,多言語BERTにより得られる文脈的埋め込みに基づく3つの異なるモデルを提案する。 我々は、オントロジー階層の明示的使用と使用のない線形層とGRU(Gated Recurrent Units)層の性能について検討する。 また、ラベルのスコアに基づいてBERTの埋め込みと選択基準を活用するために、いくつかのプーリング戦略をテストする。 細かいチューニングプロセス(ゼロショット言語)では見られないものを含め、さまざまな言語で優れたパフォーマンスを実現できたのです。

Wikipedia is an online encyclopedia available in 285 languages. It composes an extremely relevant Knowledge Base (KB), which could be leveraged by automatic systems for several purposes. However, the structure and organisation of such information are not prone to automatic parsing and understanding and it is, therefore, necessary to structure this knowledge. The goal of the current SHINRA2020-ML task is to leverage Wikipedia pages in order to categorise their corresponding entities across 268 hierarchical categories, belonging to the Extended Named Entity (ENE) ontology. In this work, we propose three distinct models based on the contextualised embeddings yielded by Multilingual BERT. We explore the performances of a linear layer with and without explicit usage of the ontology's hierarchy, and a Gated Recurrent Units (GRU) layer. We also test several pooling strategies to leverage BERT's embeddings and selection criteria based on the labels' scores. We were able to achieve good performance across a large variety of languages, including those not seen during the fine-tuning process (zero-shot languages).
翻訳日:2021-05-13 12:33:29 公開日:2021-05-12
# MESINESPにおける医療用テキストタスクの多ラベル分類

Priberam at MESINESP Multi-label Classification of Medical Texts Task ( http://arxiv.org/abs/2105.05614v1 )

ライセンス: Link先を確認
Ruben Cardoso, Zita Marinho, Afonso Mendes, Sebasti\~ao Miranda(参考訳) 医学記事は、多くの医療従事者や専門家に、芸術的治療と診断の現状を提供する。 MEDLINEのような既存の公開データベースには2700万以上の記事があり、効率的な検索エンジンを使わずに関連コンテンツを抽出することは困難である。 情報検索ツールは、記事や治療に有意義なレコメンデーションをナビゲートし提供するために不可欠である。 これらの項目を幅広い医療トピックに分類することで、関連記事の検索を改善することができる。 MESINESPタスクに考慮された医療ラベルのセットは数千のラベル(DeCSコード)の順序に基づいており、これは極端なマルチラベル分類問題に該当する。 医療トピックの不均一で階層的な構造は、手動で記事の分類を極端に面倒で費用がかかる。 したがって、分類のプロセスを自動化することが不可欠である。 一般的な機械学習アルゴリズムは、このような大量のラベルで計算的に要求され、そのようなデータセットでより良いリコールを達成することは、未解決の問題となる。 この研究は、BioASQ タスク Mesinesp における Priberam の参加を示している。 サポートベクトルマシン(SVM)、カスタマイズされた検索エンジン(Priberam Search)、BERTベースの分類器、および以前のモデルのSVMランクアンサンブルの4つのモデルを用いて、大規模なマルチラベル分類問題に対処する。 その結果、すべての3つのモデルがうまく動作し、最高のパフォーマンスはアンサンブルによって達成され、priberamが現在のチャレンジで6位となり、2番目に優れたチームとなった。

Medical articles provide current state of the art treatments and diagnostics to many medical practitioners and professionals. Existing public databases such as MEDLINE contain over 27 million articles, making it difficult to extract relevant content without the use of efficient search engines. Information retrieval tools are crucial in order to navigate and provide meaningful recommendations for articles and treatments. Classifying these articles into broader medical topics can improve the retrieval of related articles. The set of medical labels considered for the MESINESP task is on the order of several thousands of labels (DeCS codes), which falls under the extreme multi-label classification problem. The heterogeneous and highly hierarchical structure of medical topics makes the task of manually classifying articles extremely laborious and costly. It is, therefore, crucial to automate the process of classification. Typical machine learning algorithms become computationally demanding with such a large number of labels and achieving better recall on such datasets becomes an unsolved problem. This work presents Priberam's participation at the BioASQ task Mesinesp. We address the large multi-label classification problem through the use of four different models: a Support Vector Machine (SVM), a customised search engine (Priberam Search), a BERT based classifier, and a SVM-rank ensemble of all the previous models. Results demonstrate that all three individual models perform well and the best performance is achieved by their ensemble, granting Priberam the 6th place in the present challenge and making it the 2nd best team.
翻訳日:2021-05-13 12:33:12 公開日:2021-05-12
# ゼロショット科学質問応答のための説明知識の符号化

Encoding Explanatory Knowledge for Zero-shot Science Question Answering ( http://arxiv.org/abs/2105.05737v1 )

ライセンス: Link先を確認
Zili Zhou, Marco Valentino, Donal Landers, Andre Freitas(参考訳) 本稿では,N-XKT (Neural encoding based on eXplanatory Knowledge Transfer)について述べる。 我々は,N-XKTが科学質問回答(QA)の精度と一般化を向上できることを実証した。 具体的には、背景説明知識コーパスから事実を活用することにより、N-XKTモデルはゼロショットQAに対して明確な改善を示す。 さらに,N-XKTをターゲットQAデータセット上で微調整し,より高速な収束とより正確な結果が得られることを示す。 N-XKTモデルの性能と異なるカテゴリの知識がゼロショット一般化タスクに与える影響を定量的に解析する。

This paper describes N-XKT (Neural encoding based on eXplanatory Knowledge Transfer), a novel method for the automatic transfer of explanatory knowledge through neural encoding mechanisms. We demonstrate that N-XKT is able to improve accuracy and generalization on science Question Answering (QA). Specifically, by leveraging facts from background explanatory knowledge corpora, the N-XKT model shows a clear improvement on zero-shot QA. Furthermore, we show that N-XKT can be fine-tuned on a target QA dataset, enabling faster convergence and more accurate results. A systematic analysis is conducted to quantitatively analyze the performance of the N-XKT model and the impact of different categories of knowledge on the zero-shot generalization task.
翻訳日:2021-05-13 12:32:47 公開日:2021-05-12
# オフライン強化学習に向けた解釈可能な性能解析:データセットの観点から

Interpretable performance analysis towards offline reinforcement learning: A dataset perspective ( http://arxiv.org/abs/2105.05473v1 )

ライセンス: Link先を確認
Chenyang Xi, Bo Tang, Jiajun Shen, Xinfu Liu, Feiyu Xiong, Xueying Li(参考訳) オフライン強化学習(rl)は、データ収集が困難、時間がかかり、コストがかかる、現実世界の幅広いアプリケーションのために、人工知能研究の焦点となっている。 本稿では,まず,探索・活用傾向の観点から,既存のオフラインrlアルゴリズムの2次元分類法を提案する。 第2に,外挿誤差の上限の明示的表現を導出し,異なる種類のアルゴリズムの性能と状態下での動作の分布との相関について検討する。 具体的には、十分な量のステートアクションタプルに対する厳密な仮定を緩和します。 したがって、バッチ制約型q-learning(bcq)が他の既存の技術よりも優れている理由を説明できる。 第三に、低平均エピソードリターンのデータセット上でのBCQの弱点を特定した後、トップリターン選択機構に基づく修正版を提案する。 最後に、Atariドメイン上でRL easy go(RLEG)というベンチマークプラットフォームを作成します。 完全なデータセットとチェックポイントが提供されるオフラインRLアルゴリズムの公正かつ包括的な競合に対して、オープンソースにしています。

Offline reinforcement learning (RL) has increasingly become the focus of the artificial intelligent research due to its wide real-world applications where the collection of data may be difficult, time-consuming, or costly. In this paper, we first propose a two-fold taxonomy for existing offline RL algorithms from the perspective of exploration and exploitation tendency. Secondly, we derive the explicit expression of the upper bound of extrapolation error and explore the correlation between the performance of different types of algorithms and the distribution of actions under states. Specifically, we relax the strict assumption on the sufficiently large amount of state-action tuples. Accordingly, we provably explain why batch constrained Q-learning (BCQ) performs better than other existing techniques. Thirdly, after identifying the weakness of BCQ on dataset of low mean episode returns, we propose a modified variant based on top return selection mechanism, which is proved to be able to gain state-of-the-art performance on various datasets. Lastly, we create a benchmark platform on the Atari domain, entitled RL easy go (RLEG), at an estimated cost of more than 0.3 million dollars. We make it open-source for fair and comprehensive competitions between offline RL algorithms with complete datasets and checkpoints being provided.
翻訳日:2021-05-13 12:32:36 公開日:2021-05-12
# 「Alexa、楽しんだらどうしますか?」 仮想アシスタントで遊び心のあるリクエストを特徴付ける

"Alexa, what do you do for fun?" Characterizing playful requests with virtual assistants ( http://arxiv.org/abs/2105.05571v1 )

ライセンス: Link先を確認
Chen Shani, Alexander Libov, Sofia Tolmach, Liane Lewin-Eytan, Yoelle Maarek, Dafna Shahaf(参考訳) amazonのalexa、appleのsiri、google home、microsoftのcortanaといったバーチャルアシスタントは、私たちの日常生活においてユビキタスになりつつあり、電話や音楽再生など、日々のさまざまなタスクでユーザーを助けることに成功しています。 しかしそれでも彼らは遊び心のある発話に苦しむが、これは文字通り解釈されるものではない。 例えば、ジョークや不条理な要求、“あなたは暗闇を恐れていますか? 「誰が犬を放したの?」 a zillion gummy bears"または"order a zillion gummy bears"。 現在、仮想アシスタントは、缶詰の返信で対処されるハードコードされたものを除いて、そのような発話に無関係な答えを返すことが多い。 遊び心のある発話を自動的に検出する課題に対処するため,まず,遊び心のある人間の仮想アシスタントインタラクションの異なるタイプを特徴付ける。 本稿では,alexaからの現実世界のトラフィックを分析し,ユーモア理論に根ざした遊び心のある要求の分類を紹介する。 次に、ユーザが仮想アシスタントを人として参照する、ひとつのノード、ペルソナライゼーションに焦点を当てます("What do you do for fun? 我々の予想では、このような発話を理解することで仮想アシスタントのユーザエクスペリエンスが向上する。 We performed a Wizard-of-Oz user study and showed that endowing virtual assistant s with the ability of humorous opportunity has indeed to increase user satisfaction。 この研究が、問題の風景の理解に寄与し、バーチャルアシスタントにユーモアのセンスを与えるというビジョンに向けて、新しいアイデアとテクニックを刺激することを望む。

Virtual assistants such as Amazon's Alexa, Apple's Siri, Google Home, and Microsoft's Cortana, are becoming ubiquitous in our daily lives and successfully help users in various daily tasks, such as making phone calls or playing music. Yet, they still struggle with playful utterances, which are not meant to be interpreted literally. Examples include jokes or absurd requests or questions such as, "Are you afraid of the dark?", "Who let the dogs out?", or "Order a zillion gummy bears". Today, virtual assistants often return irrelevant answers to such utterances, except for hard-coded ones addressed by canned replies. To address the challenge of automatically detecting playful utterances, we first characterize the different types of playful human-virtual assistant interaction. We introduce a taxonomy of playful requests rooted in theories of humor and refined by analyzing real-world traffic from Alexa. We then focus on one node, personification, where users refer to the virtual assistant as a person ("What do you do for fun?"). Our conjecture is that understanding such utterances will improve user experience with virtual assistants. We conducted a Wizard-of-Oz user study and showed that endowing virtual assistant s with the ability to identify humorous opportunities indeed has the potential to increase user satisfaction. We hope this work will contribute to the understanding of the landscape of the problem and inspire novel ideas and techniques towards the vision of giving virtual assistants a sense of humor.
翻訳日:2021-05-13 12:32:17 公開日:2021-05-12
# $\ell_1$-正規化ロジスティック回帰のための効率的な投影ニューラルネットワーク

An efficient projection neural network for $\ell_1$-regularized logistic regression ( http://arxiv.org/abs/2105.05449v1 )

ライセンス: Link先を確認
Majid Mohammadi, Amir Ahooye Atashin, Damian A. Tamburri(参考訳) $\ell_1$正規化はロジスティック回帰に使われ、過剰フィッティングを回避し、特徴選択に推定スパース係数を使用する。 しかし、そのような正規化の課題は、$\ell_1$ノルムは微分不可能であり、凸最適化の標準的なアルゴリズムがこの問題に適用できないことである。 本稿では,$\ell_1$-regularize d logistics regression のための単純な投影ニューラルネットワークを提案する。 文献における多くの解法とは対照的に、提案されたニューラルネットワークは追加の補助変数や滑らかな近似を必要としないため、プロジェクション演算子のおかげで、その複雑性は$\ell_1$正規化を伴わないロジスティック回帰の勾配降下とほとんど同じである。 また、リアプノフ理論を用いて、提案したニューラルネットワークの収束について検討し、任意の初期値を持つ問題の解に収束することを示す。 提案したニューラルソリューションは、実行時間に関して最先端の手法を著しく上回り、精度とAUROCの点で競合する。

$\ell_1$ regularization has been used for logistic regression to circumvent the overfitting and use the estimated sparse coefficient for feature selection. However, the challenge of such a regularization is that the $\ell_1$ norm is not differentiable, making the standard algorithms for convex optimization not applicable to this problem. This paper presents a simple projection neural network for $\ell_1$-regularized logistics regression. In contrast to many available solvers in the literature, the proposed neural network does not require any extra auxiliary variable nor any smooth approximation, and its complexity is almost identical to that of the gradient descent for logistic regression without $\ell_1$ regularization, thanks to the projection operator. We also investigate the convergence of the proposed neural network by using the Lyapunov theory and show that it converges to a solution of the problem with any arbitrary initial value. The proposed neural solution significantly outperforms state-of-the-art methods with respect to the execution time and is competitive in terms of accuracy and AUROC.
翻訳日:2021-05-13 12:31:33 公開日:2021-05-12
# 構造的健康モニタリングのためのリスクベースアクティブラーニングについて

On risk-based active learning for structural health monitoring ( http://arxiv.org/abs/2105.05622v1 )

ライセンス: Link先を確認
A.J. Hughes, L.A. Bull, P. Gardner, R.J. Barthorpe, N. Dervilis, K. Worden(参考訳) 構造的健康モニタリングシステムの開発と実施の主な動機は、構造的健康監視システムの運用と整備に関する情報的決定を行う能力を得ることである。 残念ながら、モニタリングシステムの実装前には、関心の構造に関する健康状態情報に対応する測定データの記述ラベルがほとんど利用できない。 この問題は、決定支援型SHMシステムのための統計的分類器の開発において、従来の教師なしおよび教師なしのアプローチの適用性を制限している。 本稿では,クラスラベル情報の問合せを,各初等データポイントに対する当該情報の期待値に導かれる,アクティブラーニングのリスクベースの定式化について述べる。 構造的健康モニタリングに適用すると、その状態を決定するために、クラスラベルの照会を関心の構造の検査にマッピングすることができる。 本稿では,リスクベースのアクティブラーニングプロセスを代表的数値例を用いて説明・可視化し,z24ブリッジベンチマークに適用する。 ケーススタディの結果から,意思決定者の性能は,統計的分類器のリスクベースのアクティブラーニングによって向上し,意思決定プロセス自体が考慮されることが示された。

A primary motivation for the development and implementation of structural health monitoring systems, is the prospect of gaining the ability to make informed decisions regarding the operation and maintenance of structures and infrastructure. Unfortunately, descriptive labels for measured data corresponding to health-state information for the structure of interest are seldom available prior to the implementation of a monitoring system. This issue limits the applicability of the traditional supervised and unsupervised approaches to machine learning in the development of statistical classifiers for decision-supporting SHM systems. The current paper presents a risk-based formulation of active learning, in which the querying of class-label information is guided by the expected value of said information for each incipient data point. When applied to structural health monitoring, the querying of class labels can be mapped onto the inspection of a structure of interest in order to determine its health state. In the current paper, the risk-based active learning process is explained and visualised via a representative numerical example and subsequently applied to the Z24 Bridge benchmark. The results of the case studies indicate that a decision-maker's performance can be improved via the risk-based active learning of a statistical classifier, such that the decision process itself is taken into account.
翻訳日:2021-05-13 12:31:15 公開日:2021-05-12
# 集中治療室における呼吸不全の早期予測

Early prediction of respiratory failure in the intensive care unit ( http://arxiv.org/abs/2105.05728v1 )

ライセンス: Link先を確認
Matthias H\"user, Martin Faltys, Xinrui Lyu, Chris Barber, Stephanie L. Hyland, Tobias M. Merz, Gunnar R\"atsch(参考訳) 集中治療室(ICU)では呼吸不全の発生が一般的である。 ICU患者モニタリングシステムからの膨大なデータ量は、臨床医によるタイムリーかつ包括的な分析を困難にしますが、機械学習アルゴリズムによる自動処理には理想的です。 呼吸障害の早期予測は、呼吸不全のリスクのある患者に臨床医に警告し、早期患者の再評価と治療調整を可能にする。 本研究では,中等度/重度呼吸不全を事前に8時間まで予測する早期警報システムを提案する。 当システムでは,第3次ICUへの6万回以上の入院を含むデータセットであるHIRID-IIをトレーニングした。 アラームは通常、呼吸不全の開始の数時間前に引き起こされる。 パルスオキシメトリー酸素飽和度とインスパイアされた酸素分画に基づいて,従来の臨床判断を模した臨床ベースラインを上回っている。 モデルイントロスペクションと診断のために,モデル入力データと予測を視覚的に探索するWebブラウザベースのシステムを開発した。

The development of respiratory failure is common among patients in intensive care units (ICU). Large data quantities from ICU patient monitoring systems make timely and comprehensive analysis by clinicians difficult but are ideal for automatic processing by machine learning algorithms. Early prediction of respiratory system failure could alert clinicians to patients at risk of respiratory failure and allow for early patient reassessment and treatment adjustment. We propose an early warning system that predicts moderate/severe respiratory failure up to 8 hours in advance. Our system was trained on HiRID-II, a data-set containing more than 60,000 admissions to a tertiary care ICU. An alarm is typically triggered several hours before the beginning of respiratory failure. Our system outperforms a clinical baseline mimicking traditional clinical decision-making based on pulse-oximetric oxygen saturation and the fraction of inspired oxygen. To provide model introspection and diagnostics, we developed an easy-to-use web browser-based system to explore model input data and predictions visually.
翻訳日:2021-05-13 12:30:57 公開日:2021-05-12
# 単純性バイアスの解法--高次OOD一般化による解の様々なモデル集合の訓練

Evading the Simplicity Bias: Training a Diverse Set of Models Discovers Solutions with Superior OOD Generalization ( http://arxiv.org/abs/2105.05612v1 )

ライセンス: Link先を確認
Damien Teney, Ehsan Abbasnejad, Simon Lucey, Anton van den Hengel(参考訳) sgdでトレーニングされたニューラルネットワークは、最近、線形予測的特徴に優先的に依存し、複雑で等予測的特徴を無視できることが示されている。 この単純さのバイアスは、分布外の堅牢性(OOD)の欠如を説明することができる。 学習すべきタスクが複雑になればなるほど、統計的アーティファクト(すなわち、統計的アーティファクト)がより複雑になる。 選択バイアス(sprious correlations)は学習するメカニズムよりも単純である。 単純さのバイアスを軽減し,ood一般化を改善できることを実証する。 我々は、入力勾配のアライメントにペナルティを用いて、データに異なる方法で適合するように、類似したモデルのセットを訓練する。 これがより複雑な予測パターンの学習を引き起こすことを理論的および実証的に示す。 OOD一般化は基本的に、i.d.以外の情報を必要とする。 例えば、複数のトレーニング環境、偽りの例、その他のサイド情報などです。 このアプローチは、この要件を独立したモデル選択段階に延期できることを示しています。 偏りのあるデータの視覚認識と視覚領域の一般化を行うsoma結果を得る。 単純さのバイアスを回避した最初の方法であるこの方法は、ディープラーニングにおける帰納的バイアスをよりよく理解し制御する必要性を強調している。

Neural networks trained with SGD were recently shown to rely preferentially on linearly-predictive features and can ignore complex, equally-predictive ones. This simplicity bias can explain their lack of robustness out of distribution (OOD). The more complex the task to learn, the more likely it is that statistical artifacts (i.e. selection biases, spurious correlations) are simpler than the mechanisms to learn. We demonstrate that the simplicity bias can be mitigated and OOD generalization improved. We train a set of similar models to fit the data in different ways using a penalty on the alignment of their input gradients. We show theoretically and empirically that this induces the learning of more complex predictive patterns. OOD generalization fundamentally requires information beyond i.i.d. examples, such as multiple training environments, counterfactual examples, or other side information. Our approach shows that we can defer this requirement to an independent model selection stage. We obtain SOTA results in visual recognition on biased data and generalization across visual domains. The method - the first to evade the simplicity bias - highlights the need for a better understanding and control of inductive biases in deep learning.
翻訳日:2021-05-13 12:30:28 公開日:2021-05-12
# 対照的な視覚的表現学習はいつ働くのか?

When Does Contrastive Visual Representation Learning Work? ( http://arxiv.org/abs/2105.05837v1 )

ライセンス: Link先を確認
Elijah Cole, Xuan Yang, Kimberly Wilber, Oisin Mac Aodha, Serge Belongie(参考訳) 近年の自己教師あり表現学習技術は,imagenet分類における教師なし学習と教師なし学習のギャップをほとんど埋めている。 ImageNetでの事前トレーニングの特質は比較的よく理解されているが、他のデータセットでこの成功を複製するための広く受け入れられているベストプラクティスはいまだに欠けている。 この方向の第一歩として,4つの大規模データセット上でのコントラスト的自己教師付き学習について検討した。 データ量、データドメイン、データ品質、タスク粒度といったレンズを通して、自己監督学習の成功に必要な条件に関する新たな洞察を提供する。 例えば, (i)500k画像を超える追加事前学習データの利点は控えめであり, (ii) 他領域からの事前学習画像の追加は, より一般的な表現に繋がらず, (iii) 劣化事前学習画像は, 教師付きおよび自己監督型事前学習に異なる影響を与え, (iv) 視覚的分類タスクにおいて教師付き学習よりもはるかに遅れた対照的な学習ラグがある。

Recent self-supervised representation learning techniques have largely closed the gap between supervised and unsupervised learning on ImageNet classification. While the particulars of pretraining on ImageNet are now relatively well understood, the field still lacks widely accepted best practices for replicating this success on other datasets. As a first step in this direction, we study contrastive self-supervised learning on four diverse large-scale datasets. By looking through the lenses of data quantity, data domain, data quality, and task granularity, we provide new insights into the necessary conditions for successful self-supervised learning. Our key findings include observations such as: (i) the benefit of additional pretraining data beyond 500k images is modest, (ii) adding pretraining images from another domain does not lead to more general representations, (iii) corrupted pretraining images have a disparate impact on supervised and self-supervised pretraining, and (iv) contrastive learning lags far behind supervised learning on fine-grained visual classification tasks.
翻訳日:2021-05-13 12:30:11 公開日:2021-05-12
# 単一画像と映像から新しいシーン構成を生成するための学習

Learning to Generate Novel Scene Compositions from Single Images and Videos ( http://arxiv.org/abs/2105.05847v1 )

ライセンス: Link先を確認
Vadim Sushko, Juergen Gall, Anna Khoreva(参考訳) 低データ体制におけるGANのトレーニングは、過度に適合すると記憶や訓練の分岐につながることが多いため、依然として課題である。 本研究では,1枚の画像や1枚のビデオのトレーニングセットからサンプルを生成することができるOne-Shot GANを提案する。 本研究では,シーンレイアウトのリアリズムとは別個に内部コンテンツを判断するためのコンテンツとレイアウトブランチを備えた2分岐判別器を提案する。 これにより、元のサンプルのコンテキストを保ちながら、内容やレイアウトの異なる、視覚的に可視で斬新なシーンの合成が可能になる。 従来のシングルイメージのGANモデルと比較して、One-Shot GANはより高い多様性と合成品質を達成する。 また、単一の画像設定に限らず、導入した単一のビデオの設定でうまく学習することができる。

Training GANs in low-data regimes remains a challenge, as overfitting often leads to memorization or training divergence. In this work, we introduce One-Shot GAN that can learn to generate samples from a training set as little as one image or one video. We propose a two-branch discriminator, with content and layout branches designed to judge the internal content separately from the scene layout realism. This allows synthesis of visually plausible, novel compositions of a scene, with varying content and layout, while preserving the context of the original sample. Compared to previous single-image GAN models, One-Shot GAN achieves higher diversity and quality of synthesis. It is also not restricted to the single image setting, successfully learning in the introduced setting of a single video.
翻訳日:2021-05-13 12:29:52 公開日:2021-05-12
# 深層アンサンブルにおける精度-プライバシートレードオフ

Accuracy-Privacy Trade-off in Deep Ensemble ( http://arxiv.org/abs/2105.05381v1 )

ライセンス: Link先を確認
Shahbaz Rezaei, Zubair Shafiq, Xin Liu(参考訳) ディープアンサンブル学習は、複数のニューラルネットワークをトレーニングし、出力を融合することで、分類精度を向上させることを目的としている。 精度を向上させることが広く示されている。 同時に、アンサンブル学習は、特定のデータサンプルを使用してターゲットモデルをトレーニングしたかどうかを攻撃者の目標とする、メンバーシップ推論(MI)の観点からプライバシー漏洩を軽減するためにも提案されている。 本稿では,これらの2つの学習目標,すなわち精度とプライバシを改善し,相互に直接衝突することを示す。 幅広いデータセットとモデルアーキテクチャを用いて、深いアンサンブル学習におけるプライバシと精度のトレードオフを実証的に実証する。 アンサンブルは、プライバシまたは正確性の両方を改善することができるが、同時にはならない。アンサンブルが分類精度を改善すると、MI攻撃の有効性も向上する。 本研究は,アンサンブルを構成するモデル間の予測信頼度や合意など,センセンシングにおけるプライバシリークに寄与するさまざまな要因を分析した。 正規化や差分プライバシーなどのMI攻撃に対する防御効果の評価は,MI攻撃の有効性を軽減できるが,同時にアンサンブルの精度を低下させることができることを示す。 ソースコードはhttps://github.com/s hrezaei/mi-on-elで入手できる。

Deep ensemble learning aims to improve the classification accuracy by training several neural networks and fusing their outputs. It has been widely shown to improve accuracy. At the same time, ensemble learning has also been proposed to mitigate privacy leakage in terms of membership inference (MI), where the goal of an attacker is to infer whether a particular data sample has been used to train a target model. In this paper, we show that these two goals of ensemble learning, namely improving accuracy and privacy, directly conflict with each other. Using a wide range of datasets and model architectures, we empirically demonstrate the trade-off between privacy and accuracy in deep ensemble learning. We find that ensembling can improve either privacy or accuracy, but not both simultaneously -- when ensembling improves the classification accuracy, the effectiveness of the MI attack also increases. We analyze various factors that contribute to such privacy leakage in ensembling such as prediction confidence and agreement between models that constitute the ensemble. Our evaluation of defenses against MI attacks, such as regularization and differential privacy, shows that they can mitigate the effectiveness of the MI attack but simultaneously degrade ensemble accuracy. The source code is available at https://github.com/s hrezaei/MI-on-EL.
翻訳日:2021-05-13 12:29:41 公開日:2021-05-12
# LassoのLook-Aheadスクリーニングルール

Look-Ahead Screening Rules for the Lasso ( http://arxiv.org/abs/2105.05648v1 )

ライセンス: Link先を確認
Johan Larsson(参考訳) ラッソは、レグレッション問題の解ベクトル(係数)において、特に観測数に対して多くの予測子が存在する場合の縮小とスパーシリティを誘導する一般的な方法である。 しかし、この高次元の設定でラッソを解くことは計算的に要求される。 幸いなことに、この需要はモデルに適合する前に予測器を破棄するスクリーニングルールを使用することで緩和され、解決すべき問題が低減される。 本稿では,新しいスクリーニング戦略であるルック・ア・ヘッド・スクリーニングを提案する。 提案手法は安全なスクリーニングルールを用いて,与えられた予測器がモデルに入力できない範囲のペナルティ値を求め,その経路の残りに沿って予測器をスクリーニングする。 実験では,これらのルックアヘッドスクリーニングルールにより,既存のスクリーニング戦略の性能が向上することを示す。

The lasso is a popular method to induce shrinkage and sparsity in the solution vector (coefficients) of regression problems, particularly when there are many predictors relative to the number of observations. Solving the lasso in this high-dimensional setting can, however, be computationally demanding. Fortunately, this demand can be alleviated via the use of screening rules that discard predictors prior to fitting the model, leading to a reduced problem to be solved. In this paper, we present a new screening strategy: look-ahead screening. Our method uses safe screening rules to find a range of penalty values for which a given predictor cannot enter the model, thereby screening predictors along the remainder of the path. In experiments we show that these look-ahead screening rules improve the performance of existing screening strategies.
翻訳日:2021-05-13 12:29:19 公開日:2021-05-12
# AdderNetのためのWinogradアルゴリズム

Winograd Algorithm for AdderNet ( http://arxiv.org/abs/2105.05530v1 )

ライセンス: Link先を確認
Wenshuo Li, Hanting Chen, Mingqiang Huang, Xinghao Chen, Chunjing Xu, Yunhe Wang(参考訳) adder neural network (addernet) は、オリジナルの大規模な乗算を畳み込みで置き換え、ハイパフォーマンスを維持した新しいディープモデルである。 加算のハードウェアの複雑さは乗算の複雑さよりもはるかに低いので、全体のエネルギー消費は大幅に減少する。 本稿では,AdderNetのハードウェアオーバーヘッドをさらに最適化するために,コンボリューションの高速化と計算コスト削減のための高速アルゴリズムであるWinogradアルゴリズムについて検討する。 残念ながら、従来のWinogradアルゴリズムは、乗算における分配法則が l1-ノルムに対して有効でないため、AdderNetsに直接適用することはできない。 そこで我々は、ウィノグラード方程式の要素次乗法を加算で置き換え、出力特徴の表現能力を向上して性能を維持できる変換行列を新たに開発する。 また,形式的矛盾による負の影響を軽減するため,l2-to-l1トレーニング戦略を提案する。 FPGAとベンチマークの両方の実験結果から,従来のAdderNetの精度に影響を与えることなく,新たな手法によりエネルギー消費をさらに削減できることが示された。

Adder neural network (AdderNet) is a new kind of deep model that replaces the original massive multiplications in convolutions by additions while preserving the high performance. Since the hardware complexity of additions is much lower than that of multiplications, the overall energy consumption is thus reduced significantly. To further optimize the hardware overhead of using AdderNet, this paper studies the winograd algorithm, which is a widely used fast algorithm for accelerating convolution and saving the computational costs. Unfortunately, the conventional Winograd algorithm cannot be directly applied to AdderNets since the distributive law in multiplication is not valid for the l1-norm. Therefore, we replace the element-wise multiplication in the Winograd equation by additions and then develop a new set of transform matrixes that can enhance the representation ability of output features to maintain the performance. Moreover, we propose the l2-to-l1 training strategy to mitigate the negative impacts caused by formal inconsistency. Experimental results on both FPGA and benchmarks show that the new method can further reduce the energy consumption without affecting the accuracy of the original AdderNet.
翻訳日:2021-05-13 12:28:42 公開日:2021-05-12
# 固定構造ベイズネットワークのほぼ線形時間におけるロバスト学習

Robust Learning of Fixed-Structure Bayesian Networks in Nearly-Linear Time ( http://arxiv.org/abs/2105.05555v1 )

ライセンス: Link先を確認
Yu Cheng and Honghao Lin(参考訳) 我々は,サンプルの$\epsilon$-fractionが敵対的に破損するベイズネットワークを学習する問題について検討する。 基礎となるグラフ構造が知られている完全観測可能なケースに焦点を当てる。 本研究では,この問題に対して次元非依存な誤りを保証した最初の近似時間アルゴリズムを提案する。 比較エラー保証を持つ従来のロバストアルゴリズムは、少なくとも$(d/\epsilon)$という係数で遅く、ここで$d$はベイズネットワーク内の変数の数、$\epsilon$は破損したサンプルの分数である。 私たちのアルゴリズムと分析は、以前の研究よりもかなりシンプルです。 ベイズネットワークのロバストな学習とロバストな平均推定との直接的な関係を確立することでこれを実現できる。 提案アルゴリズムのサブルーチンとして,入力サンプルの非ゼロ数に対して,実行時間がほぼ直線であるロバスト平均推定アルゴリズムを開発した。

We study the problem of learning Bayesian networks where an $\epsilon$-fraction of the samples are adversarially corrupted. We focus on the fully-observable case where the underlying graph structure is known. In this work, we present the first nearly-linear time algorithm for this problem with a dimension-independen t error guarantee. Previous robust algorithms with comparable error guarantees are slower by at least a factor of $(d/\epsilon)$, where $d$ is the number of variables in the Bayesian network and $\epsilon$ is the fraction of corrupted samples. Our algorithm and analysis are considerably simpler than those in previous work. We achieve this by establishing a direct connection between robust learning of Bayesian networks and robust mean estimation. As a subroutine in our algorithm, we develop a robust mean estimation algorithm whose runtime is nearly-linear in the number of nonzeros in the input samples, which may be of independent interest.
翻訳日:2021-05-13 12:28:24 公開日:2021-05-12
# 20-foldaccelerated 7t fmri : referenceless self-supervised deep learning reconstruction

20-fold Accelerated 7T fMRI Using Referenceless Self-Supervised Deep Learning Reconstruction ( http://arxiv.org/abs/2105.05827v1 )

ライセンス: Link先を確認
Omer Burak Demirel, Burhaneddin Yaman, Logan Dowdle, Steen Moeller, Luca Vizioli, Essa Yacoub, John Strupp, Cheryl A. Olman, K\^amil U\u{g}urbil and Mehmet Ak\c{c}akaya(参考訳) 脳全体の高空間分解能と時間分解能は、fMRIにおける神経活動の正確な解決に不可欠である。 したがって、高速イメージング技術は、高い時空間分解能でカバレッジを向上させる。 ヒトコネクトームプロジェクトのような超高磁場fmriを含む大規模な研究において、平面内加速度と同時マルチスライス(sms)イメージングが使用されている。 しかしながら、さらに高い加速速度では、これらの方法はエイリアスやノイズアーティファクトのために確実に利用できない。 深層学習(DL)再建技術は近年,高加速度MRIの改善に大きく関心を集めている。 DL再構成の教師付き学習は一般的に、高分解能fMRI研究では利用できない完全サンプルのトレーニングデータセットを必要とする。 この課題に対処するために、自己教師付き学習は、アンダーサンプルデータセットのみを用いたDL再構築のトレーニングとして提案され、教師付き学習と同じようなパフォーマンスを示している。 本研究では,5倍のSMSと4倍の面内7T fMRIデータを用いて物理誘導型DL再構成を行う。 以上の結果から,我々の自己管理型DL再構成では,この20倍加速で高画質な画像が生成され,既存の手法よりも大幅に改善されていることがわかった。

High spatial and temporal resolution across the whole brain is essential to accurately resolve neural activities in fMRI. Therefore, accelerated imaging techniques target improved coverage with high spatio-temporal resolution. Simultaneous multi-slice (SMS) imaging combined with in-plane acceleration are used in large studies that involve ultrahigh field fMRI, such as the Human Connectome Project. However, for even higher acceleration rates, these methods cannot be reliably utilized due to aliasing and noise artifacts. Deep learning (DL) reconstruction techniques have recently gained substantial interest for improving highly-accelerated MRI. Supervised learning of DL reconstructions generally requires fully-sampled training datasets, which is not available for high-resolution fMRI studies. To tackle this challenge, self-supervised learning has been proposed for training of DL reconstruction with only undersampled datasets, showing similar performance to supervised learning. In this study, we utilize a self-supervised physics-guided DL reconstruction on a 5-fold SMS and 4-fold in-plane accelerated 7T fMRI data. Our results show that our self-supervised DL reconstruction produce high-quality images at this 20-fold acceleration, substantially improving on existing methods, while showing similar functional precision and temporal effects in the subsequent analysis compared to a standard 10-fold accelerated acquisition.
翻訳日:2021-05-13 12:28:07 公開日:2021-05-12
# NLU課題としてのニュース見出しグループ化

News Headline Grouping as a Challenging NLU Task ( http://arxiv.org/abs/2105.05391v1 )

ライセンス: Link先を確認
Philippe Laban, Lucas Bandarkar, Marti A. Hearst(参考訳) 自然言語理解(NLU)の最近の進歩により、最新のモデルは、多くの標準的なタスクにおいて、人間のパフォーマンスを上回っている。 これらの印象的な結果によって、コミュニティはデータセットの制限を内省し、より微妙な課題に繰り返した。 本稿では,20,056組のニュース見出しからなる見出しグループ化(hlg)と対応するデータセット(hlgd)のタスクについて紹介する。 HLGDでは、人間のアノテータは0.9F-1のハイパフォーマンスを達成し、現在の最先端のトランスフォーマーモデルは0.75F-1にしか達せず、さらなる改善に向けた道を開く。 さらに,最良教師付きモデルの3F-1以内を達成できるヘッドライングルーピングタスクのための非教師付きヘッドラインジェネレータスワップモデルを提案する。 最後に,一貫性テストを用いて高パフォーマンスモデルを分析し,その予測に一貫性がないことを見出し,現在のアーキテクチャのモデリング限界を明らかにする。

Recent progress in Natural Language Understanding (NLU) has seen the latest models outperform human performance on many standard tasks. These impressive results have led the community to introspect on dataset limitations, and iterate on more nuanced challenges. In this paper, we introduce the task of HeadLine Grouping (HLG) and a corresponding dataset (HLGD) consisting of 20,056 pairs of news headlines, each labeled with a binary judgement as to whether the pair belongs within the same group. On HLGD, human annotators achieve high performance of around 0.9 F-1, while current state-of-the art Transformer models only reach 0.75 F-1, opening the path for further improvements. We further propose a novel unsupervised Headline Generator Swap model for the task of HeadLine Grouping that achieves within 3 F-1 of the best supervised model. Finally, we analyze high-performing models with consistency tests, and find that models are not consistent in their predictions, revealing modeling limits of current architectures.
翻訳日:2021-05-13 12:27:45 公開日:2021-05-12
# 社会的コモンセンス課題の事前学習モデルへのコモンセンス知識グラフの導入

Incorporating Commonsense Knowledge Graph in Pretrained Models for Social Commonsense Tasks ( http://arxiv.org/abs/2105.05457v1 )

ライセンス: Link先を確認
Ting-Yun Chang, Yang Liu, Karthik Gopalakrishnan, Behnam Hedayatnia, Pei Zhou, Dilek Hakkani-Tur(参考訳) 事前訓練された言語モデルは近年多くのNLPタスクに優れていますが、社会的知性はまだ不十分です。 これを実現するには、マシンは我々の複雑な世界をより一般的に理解し、特定の下流タスクに適合する以外に常識推論を行う能力を開発する必要がある。 概念ネットのような外部コモンセンス知識グラフ(KG)は、単語とその関係に関する豊富な情報を提供する。 そこで,一般的なコモンセンス学習に向けて,<emph{implicitly} と<emph{explicitly} の2つのアプローチを提案する。 本稿では,ソーシャルコモンセンス推論タスクであるSocialIQAにおいて,限定的および完全トレーニングデータ体制において,提案手法の有効性を実証する。

Pretrained language models have excelled at many NLP tasks recently; however, their social intelligence is still unsatisfactory. To enable this, machines need to have a more general understanding of our complicated world and develop the ability to perform commonsense reasoning besides fitting the specific downstream tasks. External commonsense knowledge graphs (KGs), such as ConceptNet, provide rich information about words and their relationships. Thus, towards general commonsense learning, we propose two approaches to \emph{implicitly} and \emph{explicitly} infuse such KGs into pretrained language models. We demonstrate our proposed methods perform well on SocialIQA, a social commonsense reasoning task, in both limited and full training data regimes.
翻訳日:2021-05-13 12:27:26 公開日:2021-05-12
# SemEval-2021 Task 1: Enhancing Model Generalization and Robustness for Lexical Complexity Prediction

OCHADAI-KYODAI at SemEval-2021 Task 1: Enhancing ModelGeneralization and Robustness for Lexical Complexity Prediction ( http://arxiv.org/abs/2105.05535v1 )

ライセンス: Link先を確認
Yuki Taya, Lis Kanashiro Pereira, Fei Cheng, and Ichiro Kobayashi(参考訳) 本稿では,単語と多語表現(mwes)の語彙複雑性を予測するアンサンブルモデルを提案する。 モデルは、目的語で文を入力するか、MWEandがその複雑性スコアを出力する。 このタスクにおける重要な課題は、注釈付きデータの限定化であり、我々のモデルは、ディフフェレント状態の変換器ベースランゲージモデル(BERTとRoBERTa)からの制約付きコンテキスト表現に依存し、モデル一般化とロバスト性をさらに強化するための様々なトレーニング手法である。 さらに、トレーニング中に手作りの機能を付加して文脈表現を豊かにすることを提案し、我々のモデルは、両方のサブタスクにおいて上位10システムの中で競合的な結果を得た。

We propose an ensemble model for predictingthe lexical complexity of words and multiwordexpressions (MWEs). The model receives asinput a sentence with a target word or MWEand outputs its complexity score. Given thata key challenge with this task is the limitedsize of annotated data, our model relies onpretrained contextual representations from dif-ferent state-of-the-art transformer-based lan-guage models (i.e., BERT and RoBERTa), andon a variety of training methods for further en-hancing model generalization and robustness:multi-ste p fine-tuning and multi-task learning,and adversarial training. Additionally, we pro-pose to enrich contextual representations byadding hand-crafted features during training.Our model achieved competitive results andranked among the top-10 systems in both sub-tasks.
翻訳日:2021-05-13 12:27:13 公開日:2021-05-12
# kleister: 複雑なレイアウトを持つ長いドキュメントを含むキー情報抽出データセット

Kleister: Key Information Extraction Datasets Involving Long Documents with Complex Layouts ( http://arxiv.org/abs/2105.05796v1 )

ライセンス: Link先を確認
Tomasz Stanis{\l}awek and Filip Grali\'nski and Anna Wr\'oblewska and Dawid Lipi\'nski and Agnieszka Kaliska and Paulina Rosalska and Bartosz Topolski and Przemys{\l}aw Biecek(参考訳) キー情報抽出(KIE)タスクの関連性は、自然言語処理問題においてますます重要である。 しかし、この分野のソリューションのベンチマークとして機能する問題は、まだいくつかある。 このギャップを埋めるために、2つの新しいデータセット(Kleister NDAとKleister Charity)を導入します。 スキャンされ、デジタル化された長い英語の文書が混在している。 これらのデータセットにおいて、NLPシステムは、テキストと構造的レイアウトの両方の機能を用いて、様々なタイプのエンティティを発見または推測することが期待されている。 クライスター・チャリティのデータセットは、2,788の慈善団体の年次財務報告と61,643のユニークなページ、21,612のエンティティで構成されている。 Kleister NDAデータセットには540の非開示協定があり、3,229のユニークなページと2,160のエンティティが抽出されている。 我々は、KIEドメイン(Flair, BERT, RoBERTa, LayoutLM, LAMBERT)からの最先端のベースラインシステムを提供し、我々のデータセットが既存のモデルに強力な課題をもたらすことを示す。 最良のモデルは kleister nda と kleister charity データセットでそれぞれ 81.77% と 83.57% の f1-score を達成した。 データセットを共有し、より深く複雑な情報抽出タスクの進捗を促進する。

The relevance of the Key Information Extraction (KIE) task is increasingly important in natural language processing problems. But there are still only a few well-defined problems that serve as benchmarks for solutions in this area. To bridge this gap, we introduce two new datasets (Kleister NDA and Kleister Charity). They involve a mix of scanned and born-digital long formal English-language documents. In these datasets, an NLP system is expected to find or infer various types of entities by employing both textual and structural layout features. The Kleister Charity dataset consists of 2,788 annual financial reports of charity organizations, with 61,643 unique pages and 21,612 entities to extract. The Kleister NDA dataset has 540 Non-disclosure Agreements, with 3,229 unique pages and 2,160 entities to extract. We provide several state-of-the-art baseline systems from the KIE domain (Flair, BERT, RoBERTa, LayoutLM, LAMBERT), which show that our datasets pose a strong challenge to existing models. The best model achieved an 81.77% and an 83.57% F1-score on respectively the Kleister NDA and the Kleister Charity datasets. We share the datasets to encourage progress on more in-depth and complex information extraction tasks.
翻訳日:2021-05-13 12:26:55 公開日:2021-05-12
# 因果関係が部分的に分かっている場合のデータ駆動決定のためのベイズモデル平均化

Bayesian Model Averaging for Data Driven Decision Making when Causality is Partially Known ( http://arxiv.org/abs/2105.05395v1 )

ライセンス: Link先を確認
Marios Papamichalis, Abhishek Ray, Ilias Bilionis, Karthik Kannan, Rajiv Krishnamurthy(参考訳) 確率的機械学習モデルは、因果関係ではなく相関関係を見出すため、介入の決定に役立たないことが多い。 もし観測データが利用可能で実験が不可能であれば、介入の影響を研究するための正しいアプローチはパールの因果関係の枠組みを呼び出すことである。 そのフレームワークでさえも、基礎となる因果グラフが知られていると仮定している。 因果構造が分かっていない場合、観測データから因果依存関係を見つけるために、既定のアルゴリズムを使うことがある。 しかし、因果構造を開発する際にも、意思決定者の事前の知識も考慮する手法は存在しない。 本研究の目的は,因果グラフの不確実性と意思決定者からの事前知識の存在下で観察データから意思決定を行う合理的な手法を開発することである。 ベイズモデル平均化(bma)のようなアンサンブル手法を用いて,データ生成プロセスを表す因果グラフの集合を推定する。 我々は、潜在的な介入の期待値とリスクを明示的に計算することで決定する。 異なる例のコンテキストに適用することで、私たちのアプローチを実証します。

Probabilistic machine learning models are often insufficient to help with decisions on interventions because those models find correlations - not causal relationships. If observational data is only available and experimentation are infeasible, the correct approach to study the impact of an intervention is to invoke Pearl's causality framework. Even that framework assumes that the underlying causal graph is known, which is seldom the case in practice. When the causal structure is not known, one may use out-of-the-box algorithms to find causal dependencies from observational data. However, there exists no method that also accounts for the decision-maker's prior knowledge when developing the causal structure either. The objective of this paper is to develop rational approaches for making decisions from observational data in the presence of causal graph uncertainty and prior knowledge from the decision-maker. We use ensemble methods like Bayesian Model Averaging (BMA) to infer set of causal graphs that can represent the data generation process. We provide decisions by computing the expected value and risk of potential interventions explicitly. We demonstrate our approach by applying them in different example contexts.
翻訳日:2021-05-13 12:26:36 公開日:2021-05-12
# MT:シーンテキスト検出のための多視点特徴学習ネットワーク

MT: Multi-Perspective Feature Learning Network for Scene Text Detection ( http://arxiv.org/abs/2105.05455v1 )

ライセンス: Link先を確認
Chuang Yang, Mulin Chen, Yuan Yuan (Senior Member, IEEE), and Qi Wang (Senior Member, IEEE)(参考訳) シーンテキストを理解するための重要な技術であるテキスト検出は、魅力的な研究トピックとなっている。 様々なシーンテキストを検出するために、研究者は異なる利点を持つ多くの検出器を提案する: 検出ベースのモデルは高速検出速度を享受し、セグメンテーションベースのアルゴリズムはテキスト形状に制限されない。 しかし、ほとんどのインテリジェントシステムでは、検出器は高速かつ精度で任意の形のテキストを検出する必要がある。 そこで本研究では,推論段階では1つのバイナリ・マスクのみを用いて粘着性のある任意の形状のテキストを検出できるmtという効率的なパイプラインを設計した。 本稿では,(1)高い検出精度を維持しつつ推論プロセスを高速化する軽量検出フレームワーク,(2)マスクを正確にセグメント化するためのより識別的な表現を学ぶマルチパースペクティブ機能モジュール,(3)提案されたモデルのトレーニングのために,多要素制約iou最小化損失を導入すること,の3つの側面への貢献について述べる。 MTの有効性は、4つの実世界のシーンテキストデータセットで評価され、最先端の競合他社をはるかに上回っている。

Text detection, the key technology for understanding scene text, has become an attractive research topic. For detecting various scene texts, researchers propose plenty of detectors with different advantages: detection-based models enjoy fast detection speed, and segmentation-based algorithms are not limited by text shapes. However, for most intelligent systems, the detector needs to detect arbitrary-shaped texts with high speed and accuracy simultaneously. Thus, in this study, we design an efficient pipeline named as MT, which can detect adhesive arbitrary-shaped texts with only a single binary mask in the inference stage. This paper presents the contributions on three aspects: (1) a light-weight detection framework is designed to speed up the inference process while keeping high detection accuracy; (2) a multi-perspective feature module is proposed to learn more discriminative representations to segment the mask accurately; (3) a multi-factor constraints IoU minimization loss is introduced for training the proposed model. The effectiveness of MT is evaluated on four real-world scene text datasets, and it surpasses all the state-of-the-art competitors to a large extent.
翻訳日:2021-05-13 12:24:37 公開日:2021-05-12
# CT-Net:任意幾何変化を伴うガーメント転送のための補完的転送ネットワーク

CT-Net: Complementary Transfering Network for Garment Transfer with Arbitrary Geometric Changes ( http://arxiv.org/abs/2105.05497v1 )

ライセンス: Link先を確認
Fan Yang, Guosheng Lin(参考訳) 衣服の移動は、異なる人物画像間で衣装を転送することを目的として、現実のアプリケーションで大きな可能性を秘めている。 しかし、重度の不一致や重度の閉塞を伴う画像間の衣料移動は依然として課題である。 本研究では,異なるレベルの幾何学的変化を適応的にモデル化し,異なる人物間での移動を行うための補完的伝達ネットワーク(CT-Net)を提案する。 具体的には、ct-netは3つのモジュールから構成されている: 1) 補完的ウォーピングモジュール まず2つの補完的ウォーピングを推定し、望ましい服を異なる粒度で転送する。 2)合成画像における身体部位の保存または生成を導く目標配置を予測するためにレイアウト予測モジュールが提案されている。 3) 動的融合モジュールは, 相補的なワープの利点を適応的に組み合わせて, 衣服の移動結果をレンダリングする。 DeepFashionデータセット上で行った大規模な実験により、当社のネットワークは高品質な衣料品の転送画像を合成し、定性的かつ定量的に最先端の手法を著しく上回ることを示した。

Garment transfer shows great potential in realistic applications with the goal of transfering outfits across different people images. However, garment transfer between images with heavy misalignments or severe occlusions still remains as a challenge. In this work, we propose Complementary Transfering Network (CT-Net) to adaptively model different levels of geometric changes and transfer outfits between different people. In specific, CT-Net consists of three modules: 1) A complementary warping module first estimates two complementary warpings to transfer the desired clothes in different granularities. 2) A layout prediction module is proposed to predict the target layout, which guides the preservation or generation of the body parts in the synthesized images. 3) A dynamic fusion module adaptively combines the advantages of the complementary warpings to render the garment transfer results. Extensive experiments conducted on DeepFashion dataset demonstrate that our network synthesizes high-quality garment transfer images and significantly outperforms the state-of-art methods both qualitatively and quantitatively.
翻訳日:2021-05-13 12:24:18 公開日:2021-05-12
# 条件付き生成ネットワークのためのラベル幾何認識判別器

Label Geometry Aware Discriminator for Conditional Generative Networks ( http://arxiv.org/abs/2105.05501v1 )

ライセンス: Link先を確認
Suman Sapkota, Bidur Khanal, Binod Bhattarai, Bishesh Khanal, Tae-Kyun Kim(参考訳) 条件付き生成逆数ネットワーク(GAN)を用いたマルチドメイン画像・画像変換は,所望の目標クラスで高画質な画像を生成することができるが,これらの合成画像は画像分類などの下流教師付きタスクの改善に必ずしも役立っていない。 合成例で下流タスクを改善するためには、多くのラベル付き条件付きGANが識別器にソフトマックスクロスエントロピー損失に基づく補助分類器を追加することで達成しようとする、未知の条件分布に対する忠実度の高い画像を生成する必要がある。 近年の研究では、深層特徴のユークリッド空間におけるソフトマックス損失はそれらの固有角分布を生かさないことが示唆されているため、補助分類器における損失を、固有角分布の恩恵を受ける付加的角マージン(aam)損失に置き換えるとともに、クラス内コンパクト性とクラス間分離を促進し、高忠実度画像の生成を支援する。 本稿では,2つの顔表現と自然画像分類データセットであるRaFDとCIFAR-100について検証する。 提案手法は,下流分類タスクにおける合成データの影響評価,予測精度スコアと平均信頼度スコアを用いた教師タスクのデータ拡張の有用性評価,よく知られたFID測定値など,いくつかの評価基準において,最先端の手法よりも優れている。

Multi-domain image-to-image translation with conditional Generative Adversarial Networks (GANs) can generate highly photo realistic images with desired target classes, yet these synthetic images have not always been helpful to improve downstream supervised tasks such as image classification. Improving downstream tasks with synthetic examples requires generating images with high fidelity to the unknown conditional distribution of the target class, which many labeled conditional GANs attempt to achieve by adding soft-max cross-entropy loss based auxiliary classifier in the discriminator. As recent studies suggest that the soft-max loss in Euclidean space of deep feature does not leverage their intrinsic angular distribution, we propose to replace this loss in auxiliary classifier with an additive angular margin (AAM) loss that takes benefit of the intrinsic angular distribution, and promotes intra-class compactness and inter-class separation to help generator synthesize high fidelity images. We validate our method on RaFD and CIFAR-100, two challenging face expression and natural image classification data set. Our method outperforms state-of-the-art methods in several different evaluation criteria including recently proposed GAN-train and GAN-test metrics designed to assess the impact of synthetic data on downstream classification task, assessing the usefulness in data augmentation for supervised tasks with prediction accuracy score and average confidence score, and the well known FID metric.
翻訳日:2021-05-13 12:23:58 公開日:2021-05-12
# オブジェクトベースの拡張はリモートセンシングセマンティックセマンティックセグメンテーションの品質を改善する

Object-Based Augmentation Improves Quality of Remote SensingSemantic Segmentation ( http://arxiv.org/abs/2105.05516v1 )

ライセンス: Link先を確認
Svetlana Illarionova, Sergey Nesteruk, Dmitrii Shadrin, Vladimir Ignatiev, Mariia Pukalchik, Ivan Oseledets(参考訳) 今日、ディープ畳み込みニューラルネットワーク(CNN)は、ほとんどのコンピュータビジョン問題の限界を押し上げ、トレンドを定義し、最先端の結果を設定する。 オブジェクト検出やセマンティックセグメンテーションなどのリモートセンシングタスクでは、CNNはSotAのパフォーマンスに達する。 しかし、正確な性能を得るためには、CNNは高い品質のトレーニングデータを必要とする。 希少物体と環境条件の変動は予測安定性と精度に強く影響を及ぼす。 これらのデータ制限を克服するために、データ拡張技術を含む様々なアプローチを検討することが一般的である。 本研究では,オブジェクトベース拡張の開発とテストに焦点をあてる。 この手法の実用性はリモートセンシング領域で示され、最も要求された非効率的な拡張技術の一つである。 本研究では,トレーニングサンプル数を大幅に増加させるジオリファレンス画像拡張のための新しいパイプラインを提案する。 提示されたパイプラインはオブジェクトベースの拡張(OBA)と呼ばれ、オブジェクトのセグメンテーションマスクを利用して、ターゲットオブジェクトとさまざまなラベルのないバックグラウンドを使用して、新しいリアルなトレーニングシーンを生成する。 6つの異なるCNNアーキテクチャを用いたビルディングセグメンテーションデータセットのアプローチを検証し、提案手法が全テストモデルに有効であることを示す。 また,さらなる強化戦略の最適化により,結果が向上することを示す。 提案手法はU-Netモデル予測を0.78から0.83F1スコアに有意義に改善する。

Today deep convolutional neural networks (CNNs) push the limits for most computer vision problems, define trends, and set state-of-the-art results. In remote sensing tasks such as object detection and semantic segmentation, CNNs reach the SotA performance. However, for precise performance, CNNs require much high-quality training data. Rare objects and the variability of environmental conditions strongly affect prediction stability and accuracy. To overcome these data restrictions, it is common to consider various approaches including data augmentation techniques. This study focuses on the development and testing of object-based augmentation. The practical usefulness of the developed augmentation technique is shown in the remote sensing domain, being one of the most demanded ineffective augmentation techniques. We propose a novel pipeline for georeferenced image augmentation that enables a significant increase in the number of training samples. The presented pipeline is called object-based augmentation (OBA) and exploits objects' segmentation masks to produce new realistic training scenes using target objects and various label-free backgrounds. We test the approach on the buildings segmentation dataset with six different CNN architectures and show that the proposed method benefits for all the tested models. We also show that further augmentation strategy optimization can improve the results. The proposed method leads to the meaningful improvement of U-Net model predictions from 0.78 to 0.83 F1-score.
翻訳日:2021-05-13 12:23:28 公開日:2021-05-12
# SauvolaNet: 劣化文書のバイナリ化のための適応型 Sauvola ネットワークの学習

SauvolaNet: Learning Adaptive Sauvola Network for Degraded Document Binarization ( http://arxiv.org/abs/2105.05521v1 )

ライセンス: Link先を確認
Deng Li, Yue Wu and Yicong Zhou(参考訳) 従来のソーボラ局所画像閾値法に触発されて,深層ニューラルネットワーク(dnn)の観点から体系的に研究し,ddb(degraded document binarization)と呼ばれる新しいソリューションを提案する。 説明可能な3つのモジュール、Multi-Window Sauvola (MWS)、Pixelwise Window Attention (PWA)、Adaptive Sauolva Threshold (AST)で構成されている。 MWSモジュールは古典的なソーヴォーラを忠実に反映しているが、トレーニング可能なパラメータとマルチウィンドウ設定を備えている。 PWAモジュールは、各ピクセル位置の好みのウィンドウサイズを推定する。 ASTモジュールは、さらにMWSおよびPWAからの出力を集約し、各画素位置の最終的な適応閾値を予測する。 その結果、SauvolaNetはエンドツーエンドのトレーニングが可能になり、必要なネットワークパラメータの数を40Kに大幅に削減します。 一方、DDBタスクのState-of-The-Art(SoT A)パフォーマンスを実現しています -- SauvolaNetは、13の公開ドキュメントバイナライゼーションデータセットに関する広範な研究において、少なくともSoTAバイナライゼーションソリューションに匹敵するものです。 ソースコードはhttps://github.com/l eedeng/sauvolanetで入手できます。

Inspired by the classic Sauvola local image thresholding approach, we systematically study it from the deep neural network (DNN) perspective and propose a new solution called SauvolaNet for degraded document binarization (DDB). It is composed of three explainable modules, namely, Multi-Window Sauvola (MWS), Pixelwise Window Attention (PWA), and Adaptive Sauolva Threshold (AST). The MWS module honestly reflects the classic Sauvola but with trainable parameters and multi-window settings. The PWA module estimates the preferred window sizes for each pixel location. The AST module further consolidates the outputs from MWS and PWA and predicts the final adaptive threshold for each pixel location. As a result, SauvolaNet becomes end-to-end trainable and significantly reduces the number of required network parameters to 40K -- it is only 1\% of MobileNetV2. In the meantime, it achieves the State-of-The-Art (SoTA) performance for the DDB task -- SauvolaNet is at least comparable to, if not better than, SoTA binarization solutions in our extensive studies on the 13 public document binarization datasets. Our source code is available at https://github.com/L eedeng/SauvolaNet.
翻訳日:2021-05-13 12:23:07 公開日:2021-05-12
# WildGait: ローサーベイランスストリームからの歩行表現の学習

WildGait: Learning of Gait Representations from Raw Surveillance Streams ( http://arxiv.org/abs/2105.05528v1 )

ライセンス: Link先を確認
Adrian Cosma, Emilian Radoi(参考訳) 個人識別における歩行の使用は、非侵襲的、控えめで、協力を必要とせず、他のバイオメトリックスと比べて見えにくいといった重要な利点がある。 既存の歩行認識手法では、カメラの前で1人が何回も直線で歩き回っているような、協調歩行シナリオが必要となる。 我々は、カメラフィードが複数の人を捉え、多くの場合、カメラの前に1回しか通らない現実のシナリオの難題に対処することを目指している。 我々は,歩行者の動作情報のみを使用して,見た目に基づく情報を持たないプライバシー問題に対処する。 そこで本研究では,生のリアルタイム監視ストリームから得られた多数の自動注釈付きスケルトンシーケンス上で時空間グラフ畳み込みネットワークを訓練し,有用な歩行シグネチャを学習する,新しい弱教師付き学習フレームワークwildgaitを提案する。 以上の結果から,現状のポーズに基づく歩容認識ソリューションは,微調整により認識精度を上回った。 提案手法は,制約のない環境,特にアノテート量が少ない環境での歩行認識の訓練において信頼性が高い。 CASIA-Bでは84.43%、FVGでは71.3%、トレーニングデータでは10%に過ぎなかった。 これは、事前トレーニングせずに同じネットワークを使用する場合の、各データセットの29%と38%の精度向上からなる。

The use of gait for person identification has important advantages such as being non-invasive, unobtrusive, not requiring cooperation and being less likely to be obscured compared to other biometrics. Existing methods for gait recognition require cooperative gait scenarios, in which a single person is walking multiple times in a straight line in front of a camera. We aim to address the hard challenges of real-world scenarios in which camera feeds capture multiple people, who in most cases pass in front of the camera only once. We address privacy concerns by using only motion information of walking individuals, with no identifiable appearance-based information. As such, we propose a novel weakly supervised learning framework, WildGait, which consists of training a Spatio-Temporal Graph Convolutional Network on a large number of automatically annotated skeleton sequences obtained from raw, real-world, surveillance streams to learn useful gait signatures. Our results show that, with fine-tuning, we surpass in terms of recognition accuracy the current state-of-the-art pose-based gait recognition solutions. Our proposed method is reliable in training gait recognition methods in unconstrained environments, especially in settings with scarce amounts of annotated data. We obtain an accuracy of 84.43% on CASIA-B and 71.3% on FVG, while using only 10% of the available training data. This consists of 29% and 38% accuracy improvement on the respective datasets when using the same network without pretraining.
翻訳日:2021-05-13 12:22:42 公開日:2021-05-12
# deep spiking convolutional neural network for single object localization based based deep continuous local learning (情報ネットワーク)

Deep Spiking Convolutional Neural Network for Single Object Localization Based On Deep Continuous Local Learning ( http://arxiv.org/abs/2105.05609v1 )

ライセンス: Link先を確認
Sami Barchid, Jos\'e Mennesson, Chaabane Dj\'eraba(参考訳) ニューロモルフィックハードウェアの出現により、スパイクニューラルネットワークは、人工ニューラルネットワークのエネルギー効率の良い代替手段となり得る。 しかし、コンピュータビジョンタスクの実行にスパイクニューラルネットワークを使うことは、主に数字認識のような単純なタスクに焦点を当て、制限されている。 より複雑なタスク(例えば、)を扱うのは難しいままです。 セグメンテーション(セグメンテーション、オブジェクト検出) これらのタスクのためにディープスパイクニューラルネットワークの作業が少ないためです。 本稿では,スパイキングニューラルネットワークを用いた最新のコンピュータビジョンに向けて,第一歩を踏み出すことを目的とした。 グレースケール画像における単一物体の局所化のための深部畳み込みスパイクニューラルネットワークを提案する。 本稿では,局所的な代理勾配に基づく学習を可能にするスパイキングモデルであるDECOLLEに基づくネットワークを提案する。 Oxford-IIIT-Petで報告された奨励的な結果は、将来的にはより精巧な視覚タスクのために教師付き学習アプローチによるスパイクニューラルネットワークの活用を検証する。

With the advent of neuromorphic hardware, spiking neural networks can be a good energy-efficient alternative to artificial neural networks. However, the use of spiking neural networks to perform computer vision tasks remains limited, mainly focusing on simple tasks such as digit recognition. It remains hard to deal with more complex tasks (e.g. segmentation, object detection) due to the small number of works on deep spiking neural networks for these tasks. The objective of this paper is to make the first step towards modern computer vision with supervised spiking neural networks. We propose a deep convolutional spiking neural network for the localization of a single object in a grayscale image. We propose a network based on DECOLLE, a spiking model that enables local surrogate gradient-based learning. The encouraging results reported on Oxford-IIIT-Pet validates the exploitation of spiking neural networks with a supervised learning approach for more elaborate vision tasks in the future.
翻訳日:2021-05-13 12:22:19 公開日:2021-05-12
# VL-NMS:2段階のビジュアルランゲージマッチングにおけるボットネックの提案

VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language Matching ( http://arxiv.org/abs/2105.05636v1 )

ライセンス: Link先を確認
Wenbo Ma, Long Chen, Hanwang Zhang, Jian Shao, Yueting Zhuang, Jun Xiao(参考訳) マルチモーダル入力をマッチングするための一般的なフレームワークは、1)オブジェクト検出器による提案の検出、2)テキストクエリと提案のマッチングという2段階のプロセスに基づいている。 既存の2段階のソリューションは、おもにマッチングステップにフォーカスしている。 そこで本論文では,提案の2段階における役割間で明らかな<emph{mismatch} を見落としている。提案は,検出信頼度(すなわちクエリ非依存)に基づいてのみ提案を生成し,提案にはテキストクエリ(すなわちクエリアウェア)で言及されるすべてのインスタンスが含まれていることを期待する。 このミスマッチにより、フィルタリングプロセス中にテキストクエリに関連する提案が抑制され、結果としてマッチング性能が制限される可能性がある。 そこで本研究では,まず最初にクエリ対応の提案を行う手法であるVL-NMSを提案する。 VL-NMSは、すべてのインスタンスをクリティカルオブジェクトとみなし、各提案をクリティカルオブジェクトと整合させるスコアを予測する軽量モジュールを導入している。 これらのスコアはNMS操作を誘導し、テキストクエリに関係のない提案をフィルタリングし、クリティカルオブジェクトのリコールを増やし、マッチング性能を大幅に改善する。 VL-NMSはマッチングステップに依存しないため、どの最先端の2段階マッチング手法にも容易に統合できる。 我々は,VL-NMSが2つのマルチモーダルマッチングタスク,すなわち表現接地と画像テキストマッチングに有効であることを示す。 いくつかのベースラインとベンチマークに関する大規模なアブレーション研究は、一貫してVL-NMSの優位性を証明している。

The prevailing framework for matching multimodal inputs is based on a two-stage process: 1) detecting proposals with an object detector and 2) matching text queries with proposals. Existing two-stage solutions mostly focus on the matching step. In this paper, we argue that these methods overlook an obvious \emph{mismatch} between the roles of proposals in the two stages: they generate proposals solely based on the detection confidence (i.e., query-agnostic), hoping that the proposals contain all instances mentioned in the text query (i.e., query-aware). Due to this mismatch, chances are that proposals relevant to the text query are suppressed during the filtering process, which in turn bounds the matching performance. To this end, we propose VL-NMS, which is the first method to yield query-aware proposals at the first stage. VL-NMS regards all mentioned instances as critical objects, and introduces a lightweight module to predict a score for aligning each proposal with a critical object. These scores can guide the NMS operation to filter out proposals irrelevant to the text query, increasing the recall of critical objects, resulting in a significantly improved matching performance. Since VL-NMS is agnostic to the matching step, it can be easily integrated into any state-of-the-art two-stage matching methods. We validate the effectiveness of VL-NMS on two multimodal matching tasks, namely referring expression grounding and image-text matching. Extensive ablation studies on several baselines and benchmarks consistently demonstrate the superiority of VL-NMS.
翻訳日:2021-05-13 12:22:06 公開日:2021-05-12
# FlipReID: 個人再同定におけるトレーニングと推論のギャップを埋める

FlipReID: Closing the Gap between Training and Inference in Person Re-Identification ( http://arxiv.org/abs/2105.05639v1 )

ライセンス: Link先を確認
Xingyang Ni, Esa Rahtu(参考訳) ニューラルネットワークはデータ重視であるため、トレーニングにデータ拡張を導入することは、データセットを拡張し、一般化を改善するための広く採用されているテクニックである。 一方,複数サンプル(テスト時間拡張)の集約予測により,さらなる性能向上が期待できる。 人物再識別モデルでは、元の画像と水平に反転した変種の両方の埋め込みを抽出することが一般的である。 最後の表現は上記の特徴ベクトルの平均である。 しかし、そのようなスキームはトレーニングと推論の間のギャップ、すなわち推論で計算される平均特徴ベクトルはトレーニングパイプラインの一部ではない。 本研究では,flipreid構造をフリップ損失で考案し,この問題に対処する。 具体的には、FlipReID構造を用いたモデルは、元の画像とフリップ画像とを同時にトレーニングし、フリップロスを組み込むことで、対応する画像対の特徴ベクトル間の平均2乗誤差を最小化する。 広範な実験により,本手法が一貫した改善をもたらすことが示された。 特に,最大人物識別データセットであるMSMT17の新たな記録を設定した。 ソースコードはhttps://github.com/n ixingyang/FlipReIDで入手できる。

Since neural networks are data-hungry, incorporating data augmentation in training is a widely adopted technique that enlarges datasets and improves generalization. On the other hand, aggregating predictions of multiple augmented samples (i.e., test-time augmentation) could boost performance even further. In the context of person re-identification models, it is common practice to extract embeddings for both the original images and their horizontally flipped variants. The final representation is the mean of the aforementioned feature vectors. However, such scheme results in a gap between training and inference, i.e., the mean feature vectors calculated in inference are not part of the training pipeline. In this study, we devise the FlipReID structure with the flipping loss to address this issue. More specifically, models using the FlipReID structure are trained on the original images and the flipped images simultaneously, and incorporating the flipping loss minimizes the mean squared error between feature vectors of corresponding image pairs. Extensive experiments show that our method brings consistent improvements. In particular, we set a new record for MSMT17 which is the largest person re-identification dataset. The source code is available at https://github.com/n ixingyang/FlipReID.
翻訳日:2021-05-13 12:21:39 公開日:2021-05-12
# FDAN:ビデオスーパーリゾリューションのためのフロー誘導型変形性アライメントネットワーク

FDAN: Flow-guided Deformable Alignment Network for Video Super-Resolution ( http://arxiv.org/abs/2105.05640v1 )

ライセンス: Link先を確認
Jiayi Lin, Yan Huang, Liang Wang(参考訳) ビデオ超解法(VSR)のほとんどの手法は、隣接するフレームとこれらのフレームのマイニング情報を整列することで、ビデオ参照フレームを強化する。 近年, 変形可能なアライメントは, 隣接するフレームと参照フレームを適応的にアライメントできる, 顕著な性能のために, VSRコミュニティで広く注目を集めている。 しかし, 局所的損失駆動オフセット予測と明示的な動作制約の欠如により, 変形可能なアライメント手法はいまだに高速動作に苦しむことが実験的に判明した。 そこで我々は,MFE(Matching-based Flow Estimation)モジュールを提案し,グローバルな意味的特徴マッチングを行い,各位置の粗いオフセットとして光フローを推定する。 また, 変形可能な畳み込みに光学フローを統合するために, fdm (flow-guided deformable module) を提案する。 FDMは、光学フローを使用して、最初に隣接するフレームをワープする。 そして、歪んだ隣接するフレームと参照フレームを使用して、粗いオフセット毎に細かいオフセットのセットを予測する。 一般に,2つのベンチマークデータセットにおける最先端性能に到達しつつ,計算とメモリ消費において競争力を保った,フロー誘導変形アライメントネットワーク(fdan)と呼ばれるエンド・ツー・エンドのディープネットワークを提案する。

Most Video Super-Resolution (VSR) methods enhance a video reference frame by aligning its neighboring frames and mining information on these frames. Recently, deformable alignment has drawn extensive attention in VSR community for its remarkable performance, which can adaptively align neighboring frames with the reference one. However, we experimentally find that deformable alignment methods still suffer from fast motion due to locally loss-driven offset prediction and lack explicit motion constraints. Hence, we propose a Matching-based Flow Estimation (MFE) module to conduct global semantic feature matching and estimate optical flow as coarse offset for each location. And a Flow-guided Deformable Module (FDM) is proposed to integrate optical flow into deformable convolution. The FDM uses the optical flow to warp the neighboring frames at first. And then, the warped neighboring frames and the reference one are used to predict a set of fine offsets for each coarse offset. In general, we propose an end-to-end deep network called Flow-guided Deformable Alignment Network (FDAN), which reaches the state-of-the-art performance on two benchmark datasets while is still competitive in computation and memory consumption.
翻訳日:2021-05-13 12:21:20 公開日:2021-05-12
# PoseContrast: Pose-Aware Contrastive Learningを用いた野生におけるクラス非依存的オブジェクト視点推定

PoseContrast: Class-Agnostic Object Viewpoint Estimation in the Wild with Pose-Aware Contrastive Learning ( http://arxiv.org/abs/2105.05643v1 )

ライセンス: Link先を確認
Yang Xiao, Yuming Du, Renaud Marlet(参考訳) 野生の任意の物体のポーズ(視点)を推定することの必要性に動機づけられ, 希少なデータセットと小さなデータセットのみをカバーし, 3次元形状の知識を持たない, クラス非依存な3次元物体ポーズ推定の課題を考察する。 このアイデアは、見掛けられたクラスで学んだ機能を活用して、目に見えないクラスのポーズを見積もることを目的としているが、同じようなジオメトリや標準フレームを見掛けられたクラスと共有する。 そこで我々は,すべての対象クラスに重みを共有することで,クラス非依存の直接ポーズ推定器を訓練し,(i)事前訓練,自己監督,コントラストに基づく特徴の利用,(ii)ポーズ対応データ拡張,(iii)ポーズ対応コントラスト損失の3つの主要な要素を有するコントラスト学習手法を導入する。 我々は、pascal3d+とobjectnet3d、およびpix3dをクロスデータセットで実験した。 追加形状情報を使用する方法や検出された境界ボックスを使用する場合を含め,最先端の結果を報告する。

Motivated by the need of estimating the pose (viewpoint) of arbitrary objects in the wild, which is only covered by scarce and small datasets, we consider the challenging problem of class-agnostic 3D object pose estimation, with no 3D shape knowledge. The idea is to leverage features learned on seen classes to estimate the pose for classes that are unseen, yet that share similar geometries and canonical frames with seen classes. For this, we train a direct pose estimator in a class-agnostic way by sharing weights across all object classes, and we introduce a contrastive learning method that has three main ingredients: (i) the use of pre-trained, self-supervised, contrast-based features; (ii) pose-aware data augmentations; (iii) a pose-aware contrastive loss. We experimented on Pascal3D+ and ObjectNet3D, as well as Pix3D in a cross-dataset fashion, with both seen and unseen classes. We report state-of-the-art results, including against methods that use additional shape information, and also when we use detected bounding boxes.
翻訳日:2021-05-13 12:20:53 公開日:2021-05-12
# 性別推論は本当に解決された問題なのか?

Is Gender "In-the-Wild" Inference Really a Solved Problem? ( http://arxiv.org/abs/2105.05794v1 )

ライセンス: Link先を確認
Tiago Roxo and Hugo Proen\c{c}a(参考訳) ソフトバイオメトリックス分析は、様々な応用との関連性を考えると、重要な研究テーマと見なされている。 しかし、しばしば解決された課題と見なされるが、様々な画像条件、非協調的なポーズ、オクルージョンの下では、野生環境での実行は非常に困難である。 本研究は,性別特性を対象とし,画像(解像度,明度,ぼやけ)と主観的特徴(顔と身体のキーポイントの信頼度)に関する推論の可能性について広範な分析を行った。 3つの最先端データセット(PETA,PA-100K,RAP)と5つの個人属性認識モデルを用いて,特徴分析と性別推定の精度をShapley値を用いて相関させ,各画像・オブジェクトベース特徴の重要性を認識できるようにする。 さらに、顔に基づく性別推定を分析し、そのポーズ効果を評価する。 その結果,1) 画像の特徴が低品質データに影響を及ぼすこと,2) 画像品質の上昇が主観的特徴の重要度に変換されること,3) 顔による性別推定精度が画像品質の上昇と相関すること,4) 被験者の正面ポーズが顔に対する暗黙の注意を促すことが示唆された。 報告された結果は、通常は視覚的監視条件に対応する、制御されていない屋外環境における推論アプローチのその後の発展の基盤とみなす。

Soft biometrics analysis is seen as an important research topic, given its relevance to various applications. However, even though it is frequently seen as a solved task, it can still be very hard to perform in wild conditions, under varying image conditions, uncooperative poses, and occlusions. Considering the gender trait as our topic of study, we report an extensive analysis of the feasibility of its inference regarding image (resolution, luminosity, and blurriness) and subject-based features (face and body keypoints confidence). Using three state-of-the-art datasets (PETA, PA-100K, RAP) and five Person Attribute Recognition models, we correlate feature analysis with gender inference accuracy using the Shapley value, enabling us to perceive the importance of each image/subject-based feature. Furthermore, we analyze face-based gender inference and assess the pose effect on it. Our results suggest that: 1) image-based features are more influential for low-quality data; 2) an increase in image quality translates into higher subject-based feature importance; 3) face-based gender inference accuracy correlates with image quality increase; and 4) subjects' frontal pose promotes an implicit attention towards the face. The reported results are seen as a basis for subsequent developments of inference approaches in uncontrolled outdoor environments, which typically correspond to visual surveillance conditions.
翻訳日:2021-05-13 12:20:30 公開日:2021-05-12
# 最新情報とは? 質問駆動型ニュースチャットボット

What's The Latest? A Question-driven News Chatbot ( http://arxiv.org/abs/2105.05392v1 )

ライセンス: Link先を確認
Philippe Laban, John Canny, Marti A. Hearst(参考訳) この作業では、さまざまなニュース記事からコンテンツを引き出し、そのニュースについてユーザと会話する自動ニュースチャットボットについて記述する。 システムの主要なコンポーネントは、ニュース記事の話題チャットルームへの自動整理、自動生成された質問の会話への統合、反復的な提案を避けるために現在提示する質問を選択する新しい方法などである。 本稿では,本システムを用いたニュース読者が,特定のニュース記事のマルチターン会話に成功していることを示す,ユーザビリティ調査の結果について述べる。

This work describes an automatic news chatbot that draws content from a diverse set of news articles and creates conversations with a user about the news. Key components of the system include the automatic organization of news articles into topical chatrooms, integration of automatically generated questions into the conversation, and a novel method for choosing which questions to present which avoids repetitive suggestions. We describe the algorithmic framework and present the results of a usability study that shows that news readers using the system successfully engage in multi-turn conversations about specific news stories.
翻訳日:2021-05-13 12:20:02 公開日:2021-05-12
# UIUC_BioNLP at SemEval-2021 Task 11: A Cascade of Neural Models for Structureuring Scholarly NLP Contributions

UIUC_BioNLP at SemEval-2021 Task 11: A Cascade of Neural Models for Structuring Scholarly NLP Contributions ( http://arxiv.org/abs/2105.05435v1 )

ライセンス: Link先を確認
Haoyang Liu, M. Janina Sarol and Halil Kilicoglu(参考訳) 我々は,NLP出版物の学術的貢献を自動的に構造化するために,文分類,句認識,三重抽出を行うニューラルネットワークのカスケードを提案する。 論文の中で最も重要なコントリビューション文を特定するために,位置特徴付きBERT分類器を用いた(Subtask 1)。 BERT-CRFモデルを用いて,コントリビューション文中の関連フレーズの認識と特徴付けを行った(Subtask 2)。 3つの要素がテキストで表現されたかどうかと方法に基づいて,トリプルを複数のタイプに分類し,それぞれの型をbertベースの分類器とルール(サブタスク3)で対応させた。 本システムは第1相評価では第2位,第2相評価では両部で第1位であった。 Pharse 1 の提出エラーを修正した後、我々の手法は全体として最良の結果をもたらす。 本稿では,システム記述に加えて,その強みと限界を浮き彫りにして,結果のさらなる分析を行う。 私たちはコードをhttps://github.com/l iu-hy/nlp-contrib-gr aphで公開しています。

We propose a cascade of neural models that performs sentence classification, phrase recognition, and triple extraction to automatically structure the scholarly contributions of NLP publications. To identify the most important contribution sentences in a paper, we used a BERT-based classifier with positional features (Subtask 1). A BERT-CRF model was used to recognize and characterize relevant phrases in contribution sentences (Subtask 2). We categorized the triples into several types based on whether and how their elements were expressed in text, and addressed each type using separate BERT-based classifiers as well as rules (Subtask 3). Our system was officially ranked second in Phase 1 evaluation and first in both parts of Phase 2 evaluation. After fixing a submission error in Pharse 1, our approach yields the best results overall. In this paper, in addition to a system description, we also provide further analysis of our results, highlighting its strengths and limitations. We make our code publicly available at https://github.com/L iu-Hy/nlp-contrib-gr aph.
翻訳日:2021-05-13 12:19:52 公開日:2021-05-12
# 時間空間進化物理系モデリングのための完全畳み込みニューラルネットワークの再現性について

On the reproducibility of fully convolutional neural networks for modeling time-space evolving physical systems ( http://arxiv.org/abs/2105.05482v1 )

ライセンス: Link先を確認
Wagner Gon\c{c}alves Pinto, Antonio Alguacil and Micha\"el Bauerheim(参考訳) ディープラーニング完全畳み込みニューラルネットワークの再現性は、同じ条件(データベース、ハイパーパラメータ、ハードウェア)で複数の同じネットワークを非決定論的グラフィックス処理ユニット(gpu)操作でトレーニングすることで評価される。 時間空間の進化する物理系の典型的な2次元音響波の伝搬は、再帰的および非再帰的タスクの両方で研究される。 モデル特性(重み、特徴フィールド)の大幅な変化が観察される。 様々な伝搬ベンチマークでテストすると、これらのモデルは高い偏差で体系的に推定を返却し、特に非決定性による変動を強く増幅する反復解析を行う。 ダブル浮動小数点精度で実施したトレーニングは、ネットワークパラメータとテストエラー範囲の両方のばらつきを大幅に低減し、見積もりをわずかに改善する。

Reproducibility of a deep-learning fully convolutional neural network is evaluated by training several times the same network on identical conditions (database, hyperparameters, hardware) with non-deterministic Graphics Processings Unit (GPU) operations. The propagation of two-dimensional acoustic waves, typical of time-space evolving physical systems, is studied on both recursive and non-recursive tasks. Significant changes in models properties (weights, featured fields) are observed. When tested on various propagation benchmarks, these models systematically returned estimations with a high level of deviation, especially for the recurrent analysis which strongly amplifies variability due to the non-determinism. Trainings performed with double floating-point precision provide slightly better estimations and a significant reduction of the variability of both the network parameters and its testing error range.
翻訳日:2021-05-13 12:19:32 公開日:2021-05-12
# 交通データ予測のための深層学習モデルに関する実証実験

An Empirical Experiment on Deep Learning Models for Predicting Traffic Data ( http://arxiv.org/abs/2105.05504v1 )

ライセンス: Link先を確認
Hyunwook Lee, Cheonbok Park, Seungmin Jin, Hyeshin Chu, Jaegul Choo, Sungahn Ko(参考訳) 都市交通渋滞の増大に対処するため、研究者は交通管理領域の意思決定者を支援するためのディープラーニングモデルを提案した。 提案されたモデルは近年大幅に改善されているが、モデルのデプロイ前に答える必要がある疑問が残っている。 例えば、最近提案されたモデルは、しばしば異なるデータセットや実験環境で評価されているため、どのモデルが最先端のパフォーマンスを提供するかを判断することは困難である。 また、交通条件が突然変化する場合(ラッシュ時など)にどのモデルが機能するかを決定することも困難である。 本研究では,2つの質問に答える2つの実験を行う。 第1の実験では,最先端モデルと同一の公開データセットを用いて,一貫した実験環境下でのモデル性能を比較する実験を行った。 次にデータセット内の時間領域のセットを抽出し、その速度が突然変化し、これらの領域を使用して、難しい間隔でモデル性能を探索する。 実験結果から,Graph-WaveNet と GMAN は一般に高い性能を示した。 また、予測モデルにはデータや間隔の異なるパフォーマンスが伴う傾向があり、現実の展開において困難な間隔でのモデルの詳細な分析が求められる。

To tackle ever-increasing city traffic congestion problems, researchers have proposed deep learning models to aid decision-makers in the traffic control domain. Although the proposed models have been remarkably improved in recent years, there are still questions that need to be answered before deploying models. For example, it is difficult to figure out which models provide state-of-the-art performance, as recently proposed models have often been evaluated with different datasets and experiment environments. It is also difficult to determine which models would work when traffic conditions change abruptly (e.g., rush hour). In this work, we conduct two experiments to answer the two questions. In the first experiment, we conduct an experiment with the state-of-the-art models and the identical public datasets to compare model performance under a consistent experiment environment. We then extract a set of temporal regions in the datasets, whose speeds change abruptly and use these regions to explore model performance with difficult intervals. The experiment results indicate that Graph-WaveNet and GMAN show better performance in general. We also find that prediction models tend to have varying performances with data and intervals, which calls for in-depth analysis of models on difficult intervals for real-world deployment.
翻訳日:2021-05-13 12:19:19 公開日:2021-05-12
# 高次元実験設計とカーネルバンド

High-Dimensional Experimental Design and Kernel Bandits ( http://arxiv.org/abs/2105.05806v1 )

ライセンス: Link先を確認
Romain Camilleri and Julian Katz-Samuels and Kevin Jamieson(参考訳) 近年, 最適線形実験設計の手法が活用され, 線形バンディットの最先端技術が得られるようになった。 G$-optimalデザインのような目的から返される設計は、実際にはポテンシャル測定ベクトルのプール上の確率分布である。 したがって、このアプローチの1つのニュアンスは、この連続確率分布を$N$の測定の離散代入に変換するタスクである。 洗練された丸め技術が提案されているが、$d$次元では、少なくとも$d$, $d \log(\log(d))$, $d^2$は解の準最適性に基づいて必要である。 この論文では、RKHSの実験的な設計のように、$N$が$d$よりもはるかに小さいかもしれない設定に興味があります。 本研究では,従来の丸め手順とほぼ同じ性能保証を達成しつつ,次元$d$への依存を解放する丸め手順を提案する。 我々は,問題を低次元空間に投影し,少なくとも実効次元の概念として$N$を必要とするラウンドリングを行うベースラインに対する手続きを評価する。 我々はまた,新たな手法をカーネル化されたバンディットのための新しいアルゴリズムで活用し,後悔の最小化と純粋な探索のための最先端の成果を得る。 既存のucbのようなアプローチに対する我々のアプローチの利点は、カーネルバンディットアルゴリズムがモデルの誤特定にも頑健であることです。

In recent years methods from optimal linear experimental design have been leveraged to obtain state of the art results for linear bandits. A design returned from an objective such as $G$-optimal design is actually a probability distribution over a pool of potential measurement vectors. Consequently, one nuisance of the approach is the task of converting this continuous probability distribution into a discrete assignment of $N$ measurements. While sophisticated rounding techniques have been proposed, in $d$ dimensions they require $N$ to be at least $d$, $d \log(\log(d))$, or $d^2$ based on the sub-optimality of the solution. In this paper we are interested in settings where $N$ may be much less than $d$, such as in experimental design in an RKHS where $d$ may be effectively infinite. In this work, we propose a rounding procedure that frees $N$ of any dependence on the dimension $d$, while achieving nearly the same performance guarantees of existing rounding procedures. We evaluate the procedure against a baseline that projects the problem to a lower dimensional space and performs rounding which requires $N$ to just be at least a notion of the effective dimension. We also leverage our new approach in a new algorithm for kernelized bandits to obtain state of the art results for regret minimization and pure exploration. An advantage of our approach over existing UCB-like approaches is that our kernel bandit algorithms are also robust to model misspecification.
翻訳日:2021-05-13 12:19:00 公開日:2021-05-12
# CTRの予測をもう一度見る: 注意はすべて必要か?

Looking at CTR Prediction Again: Is Attention All You Need? ( http://arxiv.org/abs/2105.05563v1 )

ライセンス: Link先を確認
Yuan Cheng and Yanbo Xue(参考訳) クリックスルー率(CTR)予測は、ウェブ検索、レコメンデーションシステム、オンライン広告表示において重要な問題である。 優れた機能インタラクションを学ぶことは、ユーザの好みをアイテムに反映するために不可欠です。 ディープラーニングに基づく多くのCTR予測モデルが提案されているが、研究者は通常、最先端のパフォーマンスを達成するかどうかにのみ注意を払っており、フレームワーク全体が妥当かどうかを無視している。 本研究では,CTR予測問題を再定義するために,経済学における離散選択モデルを用い,自己認識機構に基づく汎用ニューラルネットワークフレームワークを提案する。 その結果,既存のCTR予測モデルのほとんどは,提案した汎用フレームワークと一致していることがわかった。 また,提案フレームワークの表現力とモデルの複雑さ,既存モデルへの潜在的な拡張についても検討した。 そして最後に、公開データセットに関する実験結果を通じて、私たちの洞察を実証し、検証します。

Click-through rate (CTR) prediction is a critical problem in web search, recommendation systems and online advertisement displaying. Learning good feature interactions is essential to reflect user's preferences to items. Many CTR prediction models based on deep learning have been proposed, but researchers usually only pay attention to whether state-of-the-art performance is achieved, and ignore whether the entire framework is reasonable. In this work, we use the discrete choice model in economics to redefine the CTR prediction problem, and propose a general neural network framework built on self-attention mechanism. It is found that most existing CTR prediction models align with our proposed general framework. We also examine the expressive power and model complexity of our proposed framework, along with potential extensions to some existing models. And finally we demonstrate and verify our insights through some experimental results on public datasets.
翻訳日:2021-05-13 12:18:36 公開日:2021-05-12
# エージェントベースプレイヤ体験テストにおけるイベント駆動感情の評価遷移システム

An Appraisal Transition System for Event-driven Emotions in Agent-based Player Experience Testing ( http://arxiv.org/abs/2105.05589v1 )

ライセンス: Link先を確認
Saba Gholizadeh Ansari, I. S. W. B. Prasetya, Mehdi Dastani, Frank Dignum, Gabriele Keller(参考訳) プレイヤーエクスペリエンス(PX)評価はゲーム産業における関心分野となっている。 コンピュータゲームにおけるプレイヤーの体験を理解し評価するために、いくつかの手動PX技術が導入されている。 しかし、プレイヤーエクスペリエンスの自動テストは、まだ対処する必要がある。 自動プレイヤ体験テストフレームワークは、設計者が人間のプレイヤーを必要とせずに開発初期段階のPX要求を評価することを可能にする。 本稿では,イベントベース感情の形式モデルを提案することで,自動プレイヤ体験テスト手法を提案する。 特に,ortony,clore,collin s(occ)の感情理論を用いて関連する感情を形式化するイベントベースの遷移システムについて論じる。 このモデルの動作プロトタイプは、戦術エージェントプログラミングライブラリであるAplib上で統合され、3Dゲームケーススタディで感情を評価できるインテリジェントなPXテストエージェントを作成する。 結果はグラフィカルに表示されます。 ヒートマップのように テストエージェントの感情の可視化は、最終的にゲームデザイナーがプレイヤーに特定の体験をもたらすコンテンツを作成するのに役立つだろう。

Player experience (PX) evaluation has become a field of interest in the game industry. Several manual PX techniques have been introduced to assist developers to understand and evaluate the experience of players in computer games. However, automated testing of player experience still needs to be addressed. An automated player experience testing framework would allow designers to evaluate the PX requirements in the early development stages without the necessity of participating human players. In this paper, we propose an automated player experience testing approach by suggesting a formal model of event-based emotions. In particular, we discuss an event-based transition system to formalize relevant emotions using Ortony, Clore, & Collins (OCC) theory of emotions. A working prototype of the model is integrated on top of Aplib, a tactical agent programming library, to create intelligent PX test agents, capable of appraising emotions in a 3D game case study. The results are graphically shown e.g. as heat maps. Emotion visualization of the test agent would ultimately help game designers in creating content that evokes a certain experience in players.
翻訳日:2021-05-13 12:18:23 公開日:2021-05-12
# 積層音響・テキスト符号化:事前学習されたモデルを音声翻訳エンコーダに統合する

Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained Models into Speech Translation Encoders ( http://arxiv.org/abs/2105.05752v1 )

ライセンス: Link先を確認
Chen Xu, Bojie Hu, Yanyang Li, Yuhao Zhang, shen huang, Qi Ju, Tong Xiao, Jingbo Zhu(参考訳) 音声翻訳データが少ないことから,エンコーダ事前学習はエンドツーエンド音声翻訳(ST)において有望である。 しかし、stエンコーダは自動音声認識(asr)や機械翻訳(mt)エンコーダの単純な例ではない。 例えば、ASRエンコーダには翻訳に必要な大域的文脈表現がないのに対し、MTエンコーダは長大だが局所的な音響シーケンスを扱うように設計されていない。 本研究では,音声翻訳のための重畳音響・テキスト符号化手法を提案する。 我々のエンコーダは、通常通り音響シーケンスを処理することから始まり、後に入力シーケンスのグローバル表現のためのMTエンコーダのように振る舞う。 このように、事前訓練されたモデルをシステムに組み込むのは簡単です。 また,事前学習したASRエンコーダとMTエンコーダとの整合性を緩和する適応モジュールと,事前学習した知識を保存するための多教師知識蒸留法を開発する。 LibriSpeech En-Fr と MuST-C En-De の実験結果から,本手法が18.3 と 25.2 のBLEU 点の最先端性能を実現することが示された。 我々の知る限り、我々は、大規模なASRおよびMTデータが利用可能である場合に、カスケードSTと同等またはそれ以上のBLEU性能を達成するエンドツーエンドSTシステムを開発した最初の人である。

Encoder pre-training is promising in end-to-end Speech Translation (ST), given the fact that speech-to-translatio n data is scarce. But ST encoders are not simple instances of Automatic Speech Recognition (ASR) or Machine Translation (MT) encoders. For example, we find ASR encoders lack the global context representation, which is necessary for translation, whereas MT encoders are not designed to deal with long but locally attentive acoustic sequences. In this work, we propose a Stacked Acoustic-and-Textual Encoding (SATE) method for speech translation. Our encoder begins with processing the acoustic sequence as usual, but later behaves more like an MT encoder for a global representation of the input sequence. In this way, it is straightforward to incorporate the pre-trained models into the system. Also, we develop an adaptor module to alleviate the representation inconsistency between the pre-trained ASR encoder and MT encoder, and a multi-teacher knowledge distillation method to preserve the pre-training knowledge. Experimental results on the LibriSpeech En-Fr and MuST-C En-De show that our method achieves the state-of-the-art performance of 18.3 and 25.2 BLEU points. To our knowledge, we are the first to develop an end-to-end ST system that achieves comparable or even better BLEU performance than the cascaded ST counterpart when large-scale ASR and MT data is available.
翻訳日:2021-05-13 12:18:05 公開日:2021-05-12
# オンラインニュースにおけるブランド重要度調査による選挙結果予測

Forecasting election results by studying brand importance in online news ( http://arxiv.org/abs/2105.05762v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon(参考訳) 本研究は,ビッグテキストデータにおけるブランド重要度の新しい尺度であるセマンティックブランドスコアを用いて,オンラインニュースに基づく選挙予測を行う。 約35,000のオンラインニュース記事が共起語ネットワークに変換され、ソーシャルネットワーク分析とテキストマイニングの手法とツールを組み合わせて分析された。 イタリアでの4つの投票イベントの予測は、選挙、住民投票、自治体選挙の2回にわたる様々な投票システムに一貫した結果をもたらした。 本研究は,オンラインビッグデータに基づく予測に着目した選挙予測に関する研究に寄与し,比較的高速かつ容易に適用可能な方法論を通じて,オンラインニュースのテキスト分析に関する新たな視点を提供する。 この研究は、候補者と政党のブランド的重要性と選挙結果との関係も示唆している。

This study uses the semantic brand score, a novel measure of brand importance in big textual data, to forecast elections based on online news. About 35,000 online news articles were transformed into networks of co-occurring words and analyzed by combining methods and tools from social network analysis and text mining. Forecasts made for four voting events in Italy provided consistent results across different voting systems: a general election, a referendum, and a municipal election in two rounds. This work contributes to the research on electoral forecasting by focusing on predictions based on online big data; it offers new perspectives regarding the textual analysis of online news through a methodology which is relatively fast and easy to apply. This study also suggests the existence of a link between the brand importance of political candidates and parties and electoral results.
翻訳日:2021-05-13 12:17:40 公開日:2021-05-12
# 意味的ブランドスコア

The Semantic Brand Score ( http://arxiv.org/abs/2105.05781v1 )

ライセンス: Link先を確認
A Fronzetti Colladon(参考訳) 意味ブランドスコア(semantic brand score, sbs)は、意味分析とソーシャルネットワークの手法を組み合わせた、テキストデータに基づくブランド重要度の新しい尺度である。 このメトリクスは、さまざまなコンテキストや製品、市場、言語で使用できるため、柔軟性がある。 ブランドだけでなく、複数の単語セットにも適用される。 SBSはブランドの有病率、多様性、接続性の3つの次元と共に説明され、ブランドエクイティや単語共起ネットワークの研究に貢献している。 企業内の意思決定プロセスを支援するために、例えば、企業の株価を予測したり、競合他社に対してブランドの重要性を評価するために利用することができる。 一方SBSは、ブランドエクイティの精通した構成と、ビッグデータ時代におけるブランドの効果的な戦略的管理のための新たな視点を提供する。

The Semantic Brand Score (SBS) is a new measure of brand importance calculated on text data, combining methods of social network and semantic analysis. This metric is flexible as it can be used in different contexts and across products, markets and languages. It is applicable not only to brands, but also to multiple sets of words. The SBS, described together with its three dimensions of brand prevalence, diversity and connectivity, represents a contribution to the research on brand equity and on word co-occurrence networks. It can be used to support decision-making processes within companies; for example, it can be applied to forecast a company's stock price or to assess brand importance with respect to competitors. On the one side, the SBS relates to familiar constructs of brand equity, on the other, it offers new perspectives for effective strategic management of brands in the era of big data.
翻訳日:2021-05-13 12:17:26 公開日:2021-05-12
# ベルの定理における因果ネットワークと選択の自由

Causal networks and freedom of choice in Bell's theorem ( http://arxiv.org/abs/2105.05721v1 )

ライセンス: Link先を確認
Rafael Chaves, George Moreno, Emanuele Polino, Davide Poderini, Iris Agresti, Alessia Suprano, Mariana R. Barros, Gonzalo Carvacho, Elie Wolfe, Askery Canabarro, Robert W. Spekkens, Fabio Sciarrino(参考訳) ベルの定理は一般に量子論が局所隠れ変数モデルと相容れないという証明として理解される。 より一般に、ベルの不等式が破られることは、古典的な因果モデルと量子相関を説明できないことの証となる。 しかしながらベルの不等式違反は、あるレベルの測定依存が許される古典的なモデル、すなわち、観測者による選択が測定対象のシステムを生成するソースと相関できるような古典的なモデルを除外しない。 ここでは,ネットワーク内でベル試験をアレンジすれば,測定依存性のレベルが定量的に上限値になることを示す。 さらに、これらの結果は、多くの因果ネットワークの非線形ベル不等式を導出し、それらに違反する量子的に実現可能な相関関係を同定するためにも適用可能であることを証明した。

Bell's theorem is typically understood as the proof that quantum theory is incompatible with local hidden variable models. More generally, we can see the violation of a Bell inequality as witnessing the impossibility of explaining quantum correlations with classical causal models. The violation of a Bell inequality, however, does not exclude classical models where some level of measurement dependence is allowed, that is, the choice made by observers can be correlated with the source generating the systems to be measured. Here we show that the level of measurement dependence can be quantitatively upper bounded if we arrange the Bell test within a network. Furthermore, we also prove that these results can be adapted in order to derive non-linear Bell inequalities for a large class of causal networks and to identify quantumly realizable correlations which violate them.
翻訳日:2021-05-13 12:17:09 公開日:2021-05-12
# 食品画像分割のための大規模ベンチマーク

A Large-Scale Benchmark for Food Image Segmentation ( http://arxiv.org/abs/2105.05409v1 )

ライセンス: Link先を確認
Xiongwei Wu, Xin Fu, Ying Liu, Ee-Peng Lim, Steven C.H. Hoi, Qianru Sun(参考訳) 食品画像のセグメンテーションは、食品のカロリーや栄養素を推定するといった健康関連アプリケーションを開発する上で、重要かつ不可欠である。 Existing food image segmentation models are underperforming due to two reasons: (1) there is a lack of high quality food image datasets with fine-grained ingredient labels and pixel-wise location masks -- the existing datasets either carry coarse ingredient labels or are small in size; and (2) the complex appearance of food makes it difficult to localize and recognize ingredients in food images, e.g., the ingredients may overlap one another in the same image, and the identical ingredient may appear distinctly in different food images. 本研究では,9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築した。 これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。 さらに,多モード事前学習手法であるrelemを提案する。relemは,食品の知識が豊富で意味的なセグメンテーションモデルに明示的に対応している。 実験では、3つの一般的なセマンティックセグメンテーション手法(Dilated Convolution based、Feature Pyramid based、Vision Transformer based)をベースラインとして使用し、新しいデータセット上でReLeMと同様に評価する。 私たちは、FoodSeg103(およびその拡張FoodSeg154)とReLeMを使用した事前訓練されたモデルが、詳細な食品画像理解のための将来の作業を促進するためのベンチマークとなると信じています。 これらのデータセットとメソッドはすべて、 \url{https://xiongweiwu.g ithub.io/foodseg103. html}で公開しています。

Food image segmentation is a critical and indispensible task for developing health-related applications such as estimating food calories and nutrients. Existing food image segmentation models are underperforming due to two reasons: (1) there is a lack of high quality food image datasets with fine-grained ingredient labels and pixel-wise location masks -- the existing datasets either carry coarse ingredient labels or are small in size; and (2) the complex appearance of food makes it difficult to localize and recognize ingredients in food images, e.g., the ingredients may overlap one another in the same image, and the identical ingredient may appear distinctly in different food images. In this work, we build a new food image dataset FoodSeg103 (and its extension FoodSeg154) containing 9,490 images. We annotate these images with 154 ingredient classes and each image has an average of 6 ingredient labels and pixel-wise masks. In addition, we propose a multi-modality pre-training approach called ReLeM that explicitly equips a segmentation model with rich and semantic food knowledge. In experiments, we use three popular semantic segmentation methods (i.e., Dilated Convolution based, Feature Pyramid based, and Vision Transformer based) as baselines, and evaluate them as well as ReLeM on our new datasets. We believe that the FoodSeg103 (and its extension FoodSeg154) and the pre-trained models using ReLeM can serve as a benchmark to facilitate future works on fine-grained food image understanding. We make all these datasets and methods public at \url{https://xiongweiwu.g ithub.io/foodseg103. html}.
翻訳日:2021-05-13 12:16:53 公開日:2021-05-12
# AVA: 視覚認知に対する敵対的警戒攻撃

AVA: Adversarial Vignetting Attack against Visual Recognition ( http://arxiv.org/abs/2105.05558v1 )

ライセンス: Link先を確認
Binyu Tian and Felix Juefei-Xu and Qing Guo and Xiaofei Xie and Xiaohong Li and Yang Liu(参考訳) ヴィネッティング(vignetting)は、ほぼすべての光学系において、画像の角に向かって放射強度が暗くなる現象である。 写真に共通する効果であり、通常はわずかな強度の変化として現れるため、通常は写真の一部と見なされ、後処理を望まない。 この自然な利点から,本研究では,故意に誤解を招く情報を埋め込み,ノイズパターンを伴わない自然な敵対的例を作成することを目的とした,新たな視点,すなわちadversarial vignetting attack(ava)からヴィネッティングを考察する。 この例は最先端の深層畳み込みニューラルネットワーク(CNN)を騙すことができるが、人間には受け入れられない。 そこで本研究では,まず,対象のcnnモデルの誘導により物理パラメータ(照明係数,焦点長など)を調整したヴィネッティングの物理モデルに基づくラジアル・等方性逆ヴィネッティング攻撃(ri-ava)を提案する。 異なるcnn間の高い転送性を実現するため,我々はさらに,有効なナビネット領域をラジアル異方性と形状フリーにすることで,ラジアル異方性逆ヴィネッティング攻撃(ra-ava)を提案する。 さらに, 逆ヴィネッティング領域と物理パラメータを共同で解くための幾何認識レベルセット最適化手法を提案する。 提案手法を3つの一般的なデータセット(dev, cifar10, tiny imagenet)で検証し,cnn4つ,例えばresnet50, efficientnet-b0, densenet121, mobilenet-v2を攻撃し,トランスファー可能性と画質の両方において,ベースライン法よりも提案手法のアドバンテージを実証した。

Vignetting is an inherited imaging phenomenon within almost all optical systems, showing as a radial intensity darkening toward the corners of an image. Since it is a common effect for photography and usually appears as a slight intensity variation, people usually regard it as a part of a photo and would not even want to post-process it. Due to this natural advantage, in this work, we study vignetting from a new viewpoint, i.e., adversarial vignetting attack (AVA), which aims to embed intentionally misleading information into vignetting and produce a natural adversarial example without noise patterns. This example can fool the state-of-the-art deep convolutional neural networks (CNNs) but is imperceptible to humans. To this end, we first propose the radial-isotropic adversarial vignetting attack (RI-AVA) based on the physical model of vignetting, where the physical parameters (e.g., illumination factor and focal length) are tuned through the guidance of target CNN models. To achieve higher transferability across different CNNs, we further propose radial-anisotropic adversarial vignetting attack (RA-AVA) by allowing the effective regions of vignetting to be radial-anisotropic and shape-free. Moreover, we propose the geometry-aware level-set optimization method to solve the adversarial vignetting regions and physical parameters jointly. We validate the proposed methods on three popular datasets, i.e., DEV, CIFAR10, and Tiny ImageNet, by attacking four CNNs, e.g., ResNet50, EfficientNet-B0, DenseNet121, and MobileNet-V2, demonstrating the advantages of our methods over baseline methods on both transferability and image quality.
翻訳日:2021-05-13 12:16:27 公開日:2021-05-12
# 繰り返しボトムアップトップダウン処理による画像解釈

Image interpretation by iterative bottom-up top-down processing ( http://arxiv.org/abs/2105.05592v1 )

ライセンス: Link先を確認
Shimon Ullman, Liav Assif, Alona Strugatski, Ben-Zion Vatashsky, Hila Levy, Aviv Netanyahu, Adam Yaari(参考訳) シーン理解には、シーンコンポーネントとそのプロパティと相互関係の抽出と表現が必要である。 本稿では,ボトムアップ (bu) とトップダウン (td) ネットワークを組み合わせた反復プロセスによって,画像から意味のあるシーン構造を抽出するモデルについて述べる。 モデルは、3つのコンポーネントの反復的な使用によってシーン表現を構成する。 最初のモデルコンポーネントは、選択されたシーン要素、プロパティ、リレーションを抽出するBUストリームである。 第2成分(認知増強)は、関連する非視覚的記憶表現に基づいて抽出された視覚的表現を増強する。 また、第3のコンポーネントであるTDストリームへの入力をTD命令の形式で提供し、次に実行するタスクをモデルに指示する。 その後、TDストリームはBUビジュアルストリームをガイドし、選択したタスクを次のサイクルで実行する。 この過程において、画像から抽出された視覚表現と関連する非視覚表現とを組み合わせることで、シーンから抽出された視覚情報と、世界の記憶された知識の両方に基づいて最終シーン表現を行うことができる。 本稿では,次のtd命令を自動的に選択するアルゴリズムを含む,興味のあるシーン構造からtd命令のシーケンスを抽出した方法について述べる。 抽出過程は組合せ一般化の点で有利な性質を有し、新しいシーン構造や訓練中に見られないオブジェクト、プロパティ、関係の新たな組み合わせにうまく一般化する。 最後に、このモデルと人間の視覚の関連する側面を比較し、シーン理解の過程で視覚と認知の要素を統合するためにbu-tdスキームを使用する方向を提案する。

Scene understanding requires the extraction and representation of scene components together with their properties and inter-relations. We describe a model in which meaningful scene structures are extracted from the image by an iterative process, combining bottom-up (BU) and top-down (TD) networks, interacting through a symmetric bi-directional communication between them (counter-streams structure). The model constructs a scene representation by the iterative use of three components. The first model component is a BU stream that extracts selected scene elements, properties and relations. The second component (cognitive augmentation) augments the extracted visual representation based on relevant non-visual stored representations. It also provides input to the third component, the TD stream, in the form of a TD instruction, instructing the model what task to perform next. The TD stream then guides the BU visual stream to perform the selected task in the next cycle. During this process, the visual representations extracted from the image can be combined with relevant non-visual representations, so that the final scene representation is based on both visual information extracted from the scene and relevant stored knowledge of the world. We describe how a sequence of TD-instructions is used to extract from the scene structures of interest, including an algorithm to automatically select the next TD-instruction in the sequence. The extraction process is shown to have favorable properties in terms of combinatorial generalization, generalizing well to novel scene structures and new combinations of objects, properties and relations not seen during training. Finally, we compare the model with relevant aspects of the human vision, and suggest directions for using the BU-TD scheme for integrating visual and cognitive components in the process of scene understanding.
翻訳日:2021-05-13 12:15:52 公開日:2021-05-12
# 方向性gan:生成ネットワークのための新しい条件付け戦略

Directional GAN: A Novel Conditioning Strategy for Generative Networks ( http://arxiv.org/abs/2105.05712v1 )

ライセンス: Link先を確認
Shradha Agrawal, Shankar Venkitachalam, Dhanya Raghu, Deepak Pai(参考訳) 画像コンテンツは、マーケティングキャンペーン、ウェブサイト、バナーの主要な要素である。 今日、マーケターやデザイナーは、このようなプロフェッショナルな品質コンテンツの作成にかなりの時間とお金を費やしている。 我々は、GAN(Generative Adversarial Networks)を用いて、このプロセスを単純化する。 本論文では,無条件画像生成タスク用に訓練された生成器を用いて,与えられた意味属性に基づく画像生成を可能にする,単純で新しい条件付け戦略を提案する。 我々のアプローチは、潜在空間における関連する意味属性の方向ベクトルを用いて、潜在ベクトルを変更することに基づいている。 本手法は離散的(バイナリとマルチクラス)と連続的なイメージ属性の両方で動作するように設計されている。 提案手法であるDirectional GANを複数のパブリックデータセットに適用し,属性毎に平均86.4%の精度で適用可能であることを示す。

Image content is a predominant factor in marketing campaigns, websites and banners. Today, marketers and designers spend considerable time and money in generating such professional quality content. We take a step towards simplifying this process using Generative Adversarial Networks (GANs). We propose a simple and novel conditioning strategy which allows generation of images conditioned on given semantic attributes using a generator trained for an unconditional image generation task. Our approach is based on modifying latent vectors, using directional vectors of relevant semantic attributes in latent space. Our method is designed to work with both discrete (binary and multi-class) and continuous image attributes. We show the applicability of our proposed approach, named Directional GAN, on multiple public datasets, with an average accuracy of 86.4% across different attributes.
翻訳日:2021-05-13 12:15:26 公開日:2021-05-12
# 量子線形分類器の構造リスク最小化

Structural risk minimization for quantum linear classifiers ( http://arxiv.org/abs/2105.05566v1 )

ライセンス: Link先を確認
Casper Gyurik, Dyon van Vreumingen, and Vedran Dunjko(参考訳) 量子機械学習(QML)は、量子コンピューティングの短期的な「キラーアプリケーション」の候補として一般的に注目されている。 この文脈では、パラメータ化量子回路に基づくQMLモデルは、短期デバイスの実装に適しており、古典的コンピュータで効率的に達成できる以上の計算能力を利用することができる機械学習モデルのファミリーを構成する。 しかし、これらのモデル(例えば、トレーニング精度と一般化性能のバランスをとるために、その表現性を制御する方法など)を最大限に活用する方法は理解できない。 本稿では,構造的リスク最小化を実現する新しい方法,すなわち,トレーニング精度と一般化性能のバランスをとることを目的として,明示的および暗黙的量子線形分類器(quantum variational method,quantum kernel estimator)と呼ばれる2つの密接な関連qmlモデルの容量測定について検討する。 特に、QMLモデルで使用される観測値のランクとフロベニウスノルムが、モデルのキャパシティを密接に制御する。 さらに,これらのモデルパラメータがQMLモデルのトレーニング精度に与える影響を理論的に検討する。 具体的には、正しい分類のために高いランクの可観測性を必要とするデータセットが存在し、特定のフロベニウスノルムの可観測性を用いて与えられたマージンでしか分類できないデータセットが存在することを示す。 本結果は,QMLモデルの構造的リスク最小化を行うための新しい選択肢を提供する。

Quantum machine learning (QML) stands out as one of the typically highlighted candidates for quantum computing's near-term "killer application". In this context, QML models based on parameterized quantum circuits comprise a family of machine learning models that are well suited for implementations on near-term devices and that can potentially harness computational powers beyond what is efficiently achievable on a classical computer. However, how to best use these models -- e.g., how to control their expressivity to best balance between training accuracy and generalization performance -- is far from understood. In this paper we investigate capacity measures of two closely related QML models called explicit and implicit quantum linear classifiers (also called the quantum variational method and quantum kernel estimator) with the objective of identifying new ways to implement structural risk minimization -- i.e., how to balance between training accuracy and generalization performance. In particular, we identify that the rank and Frobenius norm of the observables used in the QML model closely control the model's capacity. Additionally, we theoretically investigate the effect that these model parameters have on the training accuracy of the QML model. Specifically, we show that there exists datasets that require a high-rank observable for correct classification, and that there exists datasets that can only be classified with a given margin using an observable of at least a certain Frobenius norm. Our results provide new options for performing structural risk minimization for QML models.
翻訳日:2021-05-13 12:15:13 公開日:2021-05-12
# データサイエンスの自動化 - 展望と課題

Automating Data Science: Prospects and Challenges ( http://arxiv.org/abs/2105.05699v1 )

ライセンス: Link先を確認
Tijl De Bie, Luc De Raedt, Jos\'e Hern\'andez-Orallo, Holger H. Hoos, Padhraic Smyth, Christopher K. I. Williams(参考訳) 典型的なデータサイエンスプロジェクトの複雑さと人間の専門知識に対する要求を考えると、自動化はデータサイエンスプロセスを変える可能性がある。 主な洞察: * データサイエンスにおける自動化は、データ科学者の仕事の促進と変革を目的としています。 ※データサイエンスの重要な部分は、特にautomated machine learning(automl)などの技術が普及しているモデリング段階において、すでに自動化されています。 * その他の側面は自動化が難しい。技術的課題だけでなく、オープンでコンテキストに依存したタスクは人間のインタラクションを必要とするからだ。

Given the complexity of typical data science projects and the associated demand for human expertise, automation has the potential to transform the data science process. Key insights: * Automation in data science aims to facilitate and transform the work of data scientists, not to replace them. * Important parts of data science are already being automated, especially in the modeling stages, where techniques such as automated machine learning (AutoML) are gaining traction. * Other aspects are harder to automate, not only because of technological challenges, but because open-ended and context-dependent tasks require human interaction.
翻訳日:2021-05-13 12:14:46 公開日:2021-05-12
# SimNet: 機械学習を用いたコンピュータアーキテクチャシミュレーション

SimNet: Computer Architecture Simulation using Machine Learning ( http://arxiv.org/abs/2105.05821v1 )

ライセンス: Link先を確認
Lingda Li, Santosh Pandey, Thomas Flynn, Hang Liu, Noel Wheeler, Adolfy Hoisie(参考訳) サイクル精度シミュレータは、建築研究、設計、開発に欠かせないツールであるが、その実用性は、調査中の現実的な問題に対する極端に長い時間的解決によって制限されている。 この研究は、機械学習(ML)を用いて離散イベントシミュレーションを加速する、協調的な取り組みを説明する。 まず、静的命令/アーキテクチャ特性と動的実行コンテキストの両方を考慮したMLベースの命令遅延予測フレームワークを構築する。 次に、提案した命令遅延予測器に基づいてGPU加速並列シミュレータを実装し、そのシミュレーション精度とスループットを最先端シミュレータに対して検証し評価する。 最新のgpuを活用することで、mlベースのシミュレータは従来のシミュレータを大幅に上回っている。

While cycle-accurate simulators are essential tools for architecture research, design, and development, their practicality is limited by an extremely long time-to-solution for realistic problems under investigation. This work describes a concerted effort, where machine learning (ML) is used to accelerate discrete-event simulation. First, an ML-based instruction latency prediction framework that accounts for both static instruction/architec ture properties and dynamic execution context is constructed. Then, a GPU-accelerated parallel simulator is implemented based on the proposed instruction latency predictor, and its simulation accuracy and throughput are validated and evaluated against a state-of-the-art simulator. Leveraging modern GPUs, the ML-based simulator outperforms traditional simulators significantly.
翻訳日:2021-05-13 12:14:37 公開日:2021-05-12
# ニューラルネットワークを用いたパラメトリック不確かさをもつ非線形系の離散時間縮退制御

Discrete-time Contraction-based Control of Nonlinear Systems with Parametric Uncertainties using Neural Networks ( http://arxiv.org/abs/2105.05432v1 )

ライセンス: Link先を確認
Lai Wei, Ryan McCloy and Jie Bao(参考訳) プロセス産業におけるフレキシブルな製造は、市場需要に基づいた時間変化のセットポイント(製品仕様など)を達成するために制御システムを必要とする。 収縮理論は、非線形システムの参照独立系解析と追跡制御のための有用な枠組みを提供する。 しかし、制御収縮計量と制御則の決定は一般の非線形系では極めて困難である。 本研究は,ニューラルネットワークを用いた離散時間収縮解析と制御へのアプローチを展開する。 この方法論では、ニューラルネットワークをトレーニングして、収縮メトリックとフィードバックゲインを学習する。 結果として得られた収縮ベースのコントローラは、トレーニングされたニューラルネットワークを組み込み、コントローラー構造を再設計することなく、完全なモデル不確実性を備えた時間変化参照の効率的なトラッキングを実現することができる。 これは、産業(化学)プロセスでよく見られるプロセスモデルにおける有界パラメトリック不確実性に対処できる堅牢なアプローチである。 上記のアプローチを説明するためのシミュレーション例が提供されている。

Flexible manufacturing in the process industry requires control systems to achieve time-varying setpoints (e.g., product specifications) based on market demand. Contraction theory provides a useful framework for reference-independen t system analysis and tracking control for nonlinear systems. However, determination of the control contraction metrics and control laws can be very difficult for general nonlinear systems. This work develops an approach to discrete-time contraction analysis and control using neural networks. The methodology involves training a neural network to learn a contraction metric and feedback gain. The resulting contraction-based controller embeds the trained neural network and is capable of achieving efficient tracking of time-varying references, with a full range of model uncertainty, without the need for controller structure redesign. This is a robust approach that can deal with bounded parametric uncertainties in the process model, which are commonly encountered in industrial (chemical) processes. Simulation examples are provided to illustrate the above approach.
翻訳日:2021-05-13 12:14:24 公開日:2021-05-12
# モーメント不確かさ下での滑らかな信号からのグラフの学習

Learning Graphs from Smooth Signals under Moment Uncertainty ( http://arxiv.org/abs/2105.05458v1 )

ライセンス: Link先を確認
Xiaolu Wang, Yuen-Man Pun, Anthony Man-Cho So(参考訳) 与えられた滑らかなグラフ信号の集合からグラフ構造を推定する問題を考察する。 認識されるグラフ信号の数は、常に有限でありうるノイズなので、データ分布の統計的性質は曖昧である。 従来のグラフ学習モデルは、この分布の不確実性を考慮していないため、パフォーマンスは異なるデータセットに敏感である可能性がある。 本稿では,第1モーメントと第2モーメントの不確かさをスムーズなグラフ学習モデルに組み込んだグラフ学習に対する分布論的ロバストなアプローチを提案する。 具体的には,グラフ学習モデルを最小限の最適化問題とし,さらに線形制約を伴う非凸最小化問題として再構成する。 提案した定式化では、多くの既存の作品で直感的に採用されているラプラシアン正則化器の理論的解釈が見つかる。 第一モーメントの不確実性は目的関数において厄介な二乗根項をもたらすが、制約全体にわたって確率 1 の滑らかさ特性を享受できることを証明する。 我々は,効率的な射影勾配降下法(PGD)を開発し,その大域的反復収束を臨界点まで確立する。 本モデルの有効性とpgdアルゴリズムの有効性を検証するため,合成データと実データの両方について広範な実験を行った。 現状のスムーズなグラフ学習法と比較すると,様々な評価指標を用いて,信号の集団間での優れた,より堅牢な性能を示す。

We consider the problem of inferring the graph structure from a given set of smooth graph signals. The number of perceived graph signals is always finite and possibly noisy, thus the statistical properties of the data distribution is ambiguous. Traditional graph learning models do not take this distributional uncertainty into account, thus performance may be sensitive to different sets of data. In this paper, we propose a distributionally robust approach to graph learning, which incorporates the first and second moment uncertainty into the smooth graph learning model. Specifically, we cast our graph learning model as a minimax optimization problem, and further reformulate it as a nonconvex minimization problem with linear constraints. In our proposed formulation, we find a theoretical interpretation of the Laplacian regularizer, which is adopted in many existing works in an intuitive manner. Although the first moment uncertainty leads to an annoying square root term in the objective function, we prove that it enjoys the smoothness property with probability 1 over the entire constraint. We develop a efficient projected gradient descent (PGD) method and establish its global iterate convergence to a critical point. We conduct extensive experiments on both synthetic and real data to verify the effectiveness of our model and the efficiency of the PGD algorithm. Compared with the state-of-the-art smooth graph learning methods, our approach exhibits superior and more robust performance across different populations of signals in terms of various evaluation metrics.
翻訳日:2021-05-13 12:14:10 公開日:2021-05-12
# サイクルコードのための周期同変ニューラルデコーダ

Cyclically Equivariant Neural Decoders for Cyclic Codes ( http://arxiv.org/abs/2105.05540v1 )

ライセンス: Link先を確認
Xiangyu Chen and Min Ye(参考訳) ニューラルデコーダは、bpアルゴリズム内のトレリスグラフをニューラルネットワークと見なす古典的な信念伝達(bp)デコードアルゴリズムの一般化として導入され、トレリスグラフの重みをニューラルネットワークのトレーニングによって最適化した。 本研究では, 循環的不変性を利用して, サイクリック符号のニューラルデコーダを提案する。 より正確には、入力の循環的なシフトが出力の循環的なシフトをもたらすように、ニューラルデコーダの重みにシフト不変構造を課す。 BCH符号と句読解されたリード・ミュラー符号(RM)符号による広範囲なシミュレーションにより、我々の新しいデコーダは巡回符号を復号する際に、常に従来の神経デコーダより優れていたことが示される。 最後に,BCH符号と句読点RM符号の復号誤り確率を大幅に低減できるリスト復号法を提案する。 特定のハイレートコードでは、リストデコーダとMaximum Likelihoodデコーダの差は0.1$dB未満である。 https://github.com/c yclicallyneuraldecod er/CyclicallyEquivar iantNeuralDecodersで利用可能なコード

Neural decoders were introduced as a generalization of the classic Belief Propagation (BP) decoding algorithms, where the Trellis graph in the BP algorithm is viewed as a neural network, and the weights in the Trellis graph are optimized by training the neural network. In this work, we propose a novel neural decoder for cyclic codes by exploiting their cyclically invariant property. More precisely, we impose a shift invariant structure on the weights of our neural decoder so that any cyclic shift of inputs results in the same cyclic shift of outputs. Extensive simulations with BCH codes and punctured Reed-Muller (RM) codes show that our new decoder consistently outperforms previous neural decoders when decoding cyclic codes. Finally, we propose a list decoding procedure that can significantly reduce the decoding error probability for BCH codes and punctured RM codes. For certain high-rate codes, the gap between our list decoder and the Maximum Likelihood decoder is less than $0.1$dB. Code available at https://github.com/c yclicallyneuraldecod er/CyclicallyEquivar iantNeuralDecoders
翻訳日:2021-05-13 12:13:44 公開日:2021-05-12
# モバイルエッジネットワークにおける強化学習支援キャッシングに関する調査

A Survey on Reinforcement Learning-Aided Caching in Mobile Edge Networks ( http://arxiv.org/abs/2105.05564v1 )

ライセンス: Link先を確認
Nikolaos Nomikos, Spyros Zoupanos, Themistoklis Charalambous, Ioannis Krikids, Athina Petropulu(参考訳) モバイルネットワークは、データ量とユーザ密度が大幅に増加している。 この問題を軽減する効率的な手法は、固定アクセスポイントやモバイルアクセスポイント、さらにはユーザデバイスといったエッジネットワークノードのキャッシュを利用して、データをユーザに近づけることである。 一方、機械学習と無線ネットワークの融合は、複雑性の高い従来の最適化アプローチとは対照的に、ネットワーク最適化のための実行可能な手段を提供する。 さまざまな機械学習カテゴリの中で、強化学習はトレーニングのための大量の履歴データに頼ることなく、オンラインおよび自律的な操作を行う。 本調査では,従来のキャッシュ方式よりもネットワークゲインの達成率を高めることを目的とした,強化学習支援モバイルエッジキャッシュを提案する。 固定, 車両, 飛行ネットワークなどの無線環境における第6世代(6G)ネットワークの不均一性を考慮し, 従来のアーキテクチャから離れて学習支援エッジキャッシングを行う。 さらに、スペクトル、エネルギー及びキャッシング効率、平均遅延、バックホール及びフロントホールオフロード等の所望の性能指標に応じた分類を提供する。 最後に、この重要な研究分野へのさらなる関心を刺激するために、いくつかのオープンな課題について論じる。

Mobile networks are experiencing tremendous increase in data volume and user density. An efficient technique to alleviate this issue is to bring the data closer to the users by exploiting the caches of edge network nodes, such as fixed or mobile access points and even user devices. Meanwhile, the fusion of machine learning and wireless networks offers a viable way for network optimization as opposed to traditional optimization approaches which incur high complexity, or fail to provide optimal solutions. Among the various machine learning categories, reinforcement learning operates in an online and autonomous manner without relying on large sets of historical data for training. In this survey, reinforcement learning-aided mobile edge caching is presented, aiming at highlighting the achieved network gains over conventional caching approaches. Taking into account the heterogeneity of sixth generation (6G) networks in various wireless settings, such as fixed, vehicular and flying networks, learning-aided edge caching is presented, departing from traditional architectures. Furthermore, a categorization according to the desirable performance metric, such as spectral, energy and caching efficiency, average delay, and backhaul and fronthaul offloading is provided. Finally, several open issues are discussed, targeting to stimulate further interest in this important research field.
翻訳日:2021-05-13 12:13:24 公開日:2021-05-12
# 多層ネットワークを用いた知識グラフのテーマレコメンデーション

Thematic recommendations on knowledge graphs using multilayer networks ( http://arxiv.org/abs/2105.05733v1 )

ライセンス: Link先を確認
Mariano Beguerisse-D\'iaz, Dimitrios Korkinof, Till Hoffmann(参考訳) 本稿では,知識グラフ(KG)の多層ネットワーク表現に基づくテーマレコメンデーションの生成と評価を行うフレームワークを提案する。 この表現では、各層はKG内の異なるタイプの関係を符号化し、有向層間結合は異なる役割において同じエンティティを接続する。 異なるタイプの接続の相対的重要性は、データから推定したり、ドメインの知識を組み込んだり、異なるユースケースに対処したり、ビジネスロジックを尊重したりできる直感的なサリエンスマトリックスによって捉えられる。 パーソナライズされたPageRankアルゴリズムをKGの多層モデルに適用し,項目列レコメンデーションを生成する。 これらのレコメンデーションはコンテンツに関する知識を反映しており、テーマやコールドスタートのレコメンデーション設定に適している。 ユーザデータからセマンティックレコメンデーションを評価することは,ユーザイテム評価に依存するレコメンデーションを評価する手法を開発しながら,そのセマンティックな性質を尊重することによる,ユニークな課題を示す。 また,ユーザデータからsalience matrixを推定できることを示した。 提案手法は,協調フィルタリングによりサブパリティが向上するabテストにおいて,消費メトリクスを著しく改善することにより,その有用性を示す。 また,公開データを用いた映画レコメンデーションにもアプローチを適用し,その結果の再現性を確保する。 提案手法は,既存のテーマレコメンデーション手法よりも優れており,協調フィルタリング手法と競合することを示す。

We present a framework to generate and evaluate thematic recommendations based on multilayer network representations of knowledge graphs (KGs). In this representation, each layer encodes a different type of relationship in the KG, and directed interlayer couplings connect the same entity in different roles. The relative importance of different types of connections is captured by an intuitive salience matrix that can be estimated from data, tuned to incorporate domain knowledge, address different use cases, or respect business logic. We apply an adaptation of the personalised PageRank algorithm to multilayer models of KGs to generate item-item recommendations. These recommendations reflect the knowledge we hold about the content and are suitable for thematic and/or cold-start recommendation settings. Evaluating thematic recommendations from user data presents unique challenges that we address by developing a method to evaluate recommendations relying on user-item ratings, yet respecting their thematic nature. We also show that the salience matrix can be estimated from user data. We demonstrate the utility of our methods by significantly improving consumption metrics in an AB test where collaborative filtering delivered subpar performance. We also apply our approach to movie recommendation using publicly-available data to ensure the reproducibility of our results. We demonstrate that our approach outperforms existing thematic recommendation methods and is even competitive with collaborative filtering approaches.
翻訳日:2021-05-13 12:13:03 公開日:2021-05-12
# 自己愛機構に基づく大域的構造認識ドラム転写

Global Structure-Aware Drum Transcription Based on Self-Attention Mechanisms ( http://arxiv.org/abs/2105.05791v1 )

ライセンス: Link先を確認
Ryoto Ishizuka, Ryo Nishikimi, Kazuyoshi Yoshii(参考訳) 本稿では,ドラムのフレームレベルのオンセット確率を推定する従来のADT法とは対照的に,音楽信号からタトゥムレベルのドラムスコアを直接推定する自動ドラム書き起こし(ADT)手法について述べる。 タトゥムレベルスコアを推定するために,音楽信号から潜時特徴を抽出するフレームレベルエンコーダと,タトゥムレベルにプールされた潜時特徴からドラムスコアを推定するタトゥムレベルデコーダとからなる深部転写モデルを提案する。 繰り返しニューラルネットワーク(RNN)で学習し難いドラムスコアのグローバルな繰り返し構造を捉えるため,デコーダにタタム同期位置符号化を用いた自己注意機構を導入する。 組データの不足量から自己愛着型モデルの訓練の難しさを軽減し、推定スコアの音楽的自然性を向上させるため、ドラムスコアの膨大なコレクションから事前学習された自己愛着機構を備えたグローバル構造認識マスク言語(score)モデルを用いた正規化訓練手法を提案する。 実験結果から, 正規化モデルが従来のRNNモデルよりも, タタムレベルの誤差率とフレームレベルのF尺度で優れていたことが判明した。

This paper describes an automatic drum transcription (ADT) method that directly estimates a tatum-level drum score from a music signal, in contrast to most conventional ADT methods that estimate the frame-level onset probabilities of drums. To estimate a tatum-level score, we propose a deep transcription model that consists of a frame-level encoder for extracting the latent features from a music signal and a tatum-level decoder for estimating a drum score from the latent features pooled at the tatum level. To capture the global repetitive structure of drum scores, which is difficult to learn with a recurrent neural network (RNN), we introduce a self-attention mechanism with tatum-synchronous positional encoding into the decoder. To mitigate the difficulty of training the self-attention-based model from an insufficient amount of paired data and improve the musical naturalness of the estimated scores, we propose a regularized training method that uses a global structure-aware masked language (score) model with a self-attention mechanism pretrained from an extensive collection of drum scores. Experimental results showed that the proposed regularized model outperformed the conventional RNN-based model in terms of the tatum-level error rate and the frame-level F-measure, even when only a limited amount of paired data was available so that the non-regularized model underperformed the RNN-based model.
翻訳日:2021-05-13 12:12:41 公開日:2021-05-12
# 動的チャネルアクセスと電力制御における対向強化学習

Adversarial Reinforcement Learning in Dynamic Channel Access and Power Control ( http://arxiv.org/abs/2105.05817v1 )

ライセンス: Link先を確認
Feng Wang, M. Cenk Gursoy, and Senem Velipasalar(参考訳) 近年,無線通信における資源割当の効率化にDRL(Deep reinforcement Learning)が用いられている。 本稿では,DRLエージェントの敵攻撃に対する脆弱性について検討する。 特に,無線干渉チャネルにおいて動的チャネルアクセスと電力制御の両方を行う複数のdrlエージェントについて検討する。 これらのDRLエージェントに対しては、DRLエージェントであるジャマーを設計する。 本稿では,聴取フェーズを利用してユーザの総和率を著しく低下させる逆ジャミング攻撃方式を提案する。 その後,最小限の遷移相関を持つリロードモデル(再訓練時に回避)により,そのような妨害攻撃に対するアンサンブル政策防衛戦略を策定する。

Deep reinforcement learning (DRL) has recently been used to perform efficient resource allocation in wireless communications. In this paper, the vulnerabilities of such DRL agents to adversarial attacks is studied. In particular, we consider multiple DRL agents that perform both dynamic channel access and power control in wireless interference channels. For these victim DRL agents, we design a jammer, which is also a DRL agent. We propose an adversarial jamming attack scheme that utilizes a listening phase and significantly degrades the users' sum rate. Subsequently, we develop an ensemble policy defense strategy against such a jamming attacker by reloading models (saved during retraining) that have minimum transition correlation.
翻訳日:2021-05-13 12:12:15 公開日:2021-05-12