このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210415となっている論文です。

PDF登録状況(公開日: 20210415)

TitleAuthorsAbstract論文公表日・翻訳日
# きめ細かい画像認識のための神経原型木

Neural Prototype Trees for Interpretable Fine-grained Image Recognition ( http://arxiv.org/abs/2012.02046v2 )

ライセンス: Link先を確認
Meike Nauta, Ron van Bree, Christin Seifert(参考訳) プロトタイプベースの手法では、解釈可能な表現を用いて深層学習モデルのブラックボックスの性質に対処する。 本稿では,細粒画像認識のための本質的解釈可能なディープラーニング手法であるneural prototype tree(prototree)を提案する。 prototreeはプロトタイプ学習と決定木を組み合わせることで、設計によってグローバルに解釈可能なモデルとなる。 さらに、ProtoTreeは、ツリーを通る決定パスをアウトラインすることで、単一の予測をローカルに説明できる。 バイナリツリーの各ノードには、トレーニング可能なプロトタイプ部分が含まれています。 画像中のこの学習されたプロトタイプの有無は、ノードへのルーティングを決定する。 そのため、意思決定は人間の推論と似ている: 鳥は赤い喉を持っているか? そして、長いくちばしは? そしてハチドリだ! 我々は,アンサンブル法,プルーニング法,二元化法を用いて,精度-解釈可能性のトレードオフをチューニングする。 精度を犠牲にすることなく刈り取りを施し,200種から鳥を分類する経路に沿って8つの学習済みのプロトタイプを持つ小さな木を育てた。 5 ProtoTreesのアンサンブルは、CUB-200-2011とスタンフォード・カーズ・データセットの競争精度を達成する。 コードはhttps://github.com/M -Nauta/ProtoTreeで入手できる。

Prototype-based methods use interpretable representations to address the black-box nature of deep learning models, in contrast to post-hoc explanation methods that only approximate such models. We propose the Neural Prototype Tree (ProtoTree), an intrinsically interpretable deep learning method for fine-grained image recognition. ProtoTree combines prototype learning with decision trees, and thus results in a globally interpretable model by design. Additionally, ProtoTree can locally explain a single prediction by outlining a decision path through the tree. Each node in our binary tree contains a trainable prototypical part. The presence or absence of this learned prototype in an image determines the routing through a node. Decision making is therefore similar to human reasoning: Does the bird have a red throat? And an elongated beak? Then it's a hummingbird! We tune the accuracy-interpretab ility trade-off using ensemble methods, pruning and binarizing. We apply pruning without sacrificing accuracy, resulting in a small tree with only 8 learned prototypes along a path to classify a bird from 200 species. An ensemble of 5 ProtoTrees achieves competitive accuracy on the CUB-200- 2011 and Stanford Cars data sets. Code is available at https://github.com/M -Nauta/ProtoTree
翻訳日:2021-05-23 15:14:31 公開日:2021-04-15
# 時相グラフニューラルネットワークを用いた縦振動予測

Longitudinal Citation Prediction using Temporal Graph Neural Networks ( http://arxiv.org/abs/2012.05742v2 )

ライセンス: Link先を確認
Andreas Nugaard Holm, Barbara Plank, Dustin Wright, Isabelle Augenstein(参考訳) 引用数予測 (citation count prediction) は、紙が一定時間後に得た引用数を予測するタスクである。 以前の作業では、これを静的予測タスクと見なしていた。 論文とその引用が時間とともに進化するにつれて、論文が受け取る引用数のダイナミクスを考えると論理的に思える。 本稿では,シーケンス励磁予測の課題を紹介する。 目標は、学術研究が経時的に受ける引用回数の軌跡を正確に予測することである。 我々は,論文を引用の構造化ネットワークとみなし,トポロジカルな情報を学習信号として用いることを提案する。 さらに,この動的引用ネットワークが時間とともにどのように変化するか,著者や会場,要約といった紙メタデータの影響も学習する。 新しい課題にアプローチするために,42年以上にわたるSemantic Scholarから動的励振ネットワークを導出した。 本稿では,グラフ畳み込みネットワークとシーケンス予測を組み合わせてトポロジ的・時間的情報を利用するモデルを提案し,それを複数のベースラインと比較し,トポロジ的・時間的情報の重要性を検証し,モデル性能を解析する。 実験の結果,時間的・トポロジカルな情報を活用することで,引用回数の予測性能が大きく向上することがわかった。

Citation count prediction is the task of predicting the number of citations a paper has gained after a period of time. Prior work viewed this as a static prediction task. As papers and their citations evolve over time, considering the dynamics of the number of citations a paper will receive would seem logical. Here, we introduce the task of sequence citation prediction. The goal is to accurately predict the trajectory of the number of citations a scholarly work receives over time. We propose to view papers as a structured network of citations, allowing us to use topological information as a learning signal. Additionally, we learn how this dynamic citation network changes over time and the impact of paper meta-data such as authors, venues and abstracts. To approach the new task, we derive a dynamic citation network from Semantic Scholar spanning over 42 years. We present a model which exploits topological and temporal information using graph convolution networks paired with sequence prediction, and compare it against multiple baselines, testing the importance of topological and temporal information and analyzing model performance. Our experiments show that leveraging both the temporal and topological information greatly increases the performance of predicting citation counts over time.
翻訳日:2021-05-15 06:37:57 公開日:2021-04-15
# (参考訳) 部品間相関を考慮した単眼リアルタイムフルボディキャプチャ [全文訳有]

Monocular Real-time Full Body Capture with Inter-part Correlations ( http://arxiv.org/abs/2012.06087v2 )

ライセンス: CC BY 4.0
Yuxiao Zhou, Marc Habermann, Ikhsanul Habibie, Ayush Tewari, Christian Theobalt, Feng Xu(参考訳) 本稿では,体と手の形状と運動を1色画像から動的3次元顔モデルと共に推定する,実時間フルボディキャプチャの最初の手法を提案する。 提案手法では,体と手の相関を高い計算効率で活用する新しいニューラルネットワークアーキテクチャを用いる。 従来の研究とは異なり、我々のアプローチは手、体、顔に焦点を当てた複数のデータセットで共同で訓練されており、すべての部分が同時に注釈付けされたデータを必要とすることなく、十分な多様性で作成することがより困難である。 このようなマルチデータセットトレーニングの可能性は、より優れた一般化能力を実現する。 従来のモノキュラーフルボディ法とは対照的に, 統計的顔モデルの形状, 表現, アルベド, 照明パラメータを推定することで, より表現力のある3次元顔形状と色彩を捉えている。 提案手法は,より高速かつ完全な顔再構成を実現するとともに,公開ベンチマーク上での競合精度を実現する。

We present the first method for real-time full body capture that estimates shape and motion of body and hands together with a dynamic 3D face model from a single color image. Our approach uses a new neural network architecture that exploits correlations between body and hands at high computational efficiency. Unlike previous works, our approach is jointly trained on multiple datasets focusing on hand, body or face separately, without requiring data where all the parts are annotated at the same time, which is much more difficult to create at sufficient variety. The possibility of such multi-dataset training enables superior generalization ability. In contrast to earlier monocular full body methods, our approach captures more expressive 3D face geometry and color by estimating the shape, expression, albedo and illumination parameters of a statistical face model. Our method achieves competitive accuracy on public benchmarks, while being significantly faster and providing more complete face reconstructions.
翻訳日:2021-05-14 10:11:56 公開日:2021-04-15
# (参考訳) COVID-19インフォデミック」とその他の陰謀説のツイート:探索的研究 [全文訳有]

"Thought I'd Share First" and Other Conspiracy Theory Tweets from the COVID-19 Infodemic: Exploratory Study ( http://arxiv.org/abs/2012.07729v2 )

ライセンス: CC BY 4.0
Dax Gerts, Courtney D. Shelley, Nidhi Parikh, Travis Pitts, Chrysm Watson Ross, Geoffrey Fairchild, Nidia Yadria Vaquera Chavez, Ashlynn R. Daughton(参考訳) 背景:新型コロナウイルス(covid-19)の流行により、多くの人が自宅で隔離され、人々はニュースやソーシャルなつながりのためにソーシャルメディアに目を向けるようになった。 ソーシャルメディア上での拡散を監視することは、公衆衛生に悪影響を及ぼす可能性のあるアイデアの進化を理解する上で重要である。 結果: モデルラベルデータを用いた分析は, 誤報指標の一致率の増加に有用であった。 4つの陰謀論(F1スコア 0.347 から 0.857 まで)で、与えられた陰謀論がより狭く定義されるにつれて、この性能は増大した。 我々は、誤報ツイートは、非誤報ツイートよりもネガティブな感情を示し、理論は時間とともに進化し、無関係な陰謀論や現実世界の出来事から詳細を取り入れていることを示した。 結論:ここでは健康関連の誤情報に焦点を当てるが、この組み合わせは公衆衛生に特有ではなく、一般に誤情報の特徴付けに有用である。 初期のメッセージングは、広まる前に一般化された誤情報を先延ばしすることを目的としているが、後のメッセージングでは、進化する陰謀論とそれぞれの新たな側面を標的にする必要がある。

Background: The COVID-19 outbreak has left many people isolated within their homes; these people are turning to social media for news and social connection, which leaves them vulnerable to believing and sharing misinformation. Health-related misinformation threatens adherence to public health messaging, and monitoring its spread on social media is critical to understanding the evolution of ideas that have potentially negative public health impacts. Results: Analysis using model-labeled data was beneficial for increasing the proportion of data matching misinformation indicators. Random forest classifier metrics varied across the four conspiracy theories considered (F1 scores between 0.347 and 0.857); this performance increased as the given conspiracy theory was more narrowly defined. We showed that misinformation tweets demonstrate more negative sentiment when compared to nonmisinformation tweets and that theories evolve over time, incorporating details from unrelated conspiracy theories as well as real-world events. Conclusions: Although we focus here on health-related misinformation, this combination of approaches is not specific to public health and is valuable for characterizing misinformation in general, which is an important first step in creating targeted messaging to counteract its spread. Initial messaging should aim to preempt generalized misinformation before it becomes widespread, while later messaging will need to target evolving conspiracy theories and the new facets of each as they become incorporated.
翻訳日:2021-05-08 21:31:56 公開日:2021-04-15
# FLAVR:高速フレーム補間のためのフロー非依存ビデオ表現

FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation ( http://arxiv.org/abs/2012.08512v2 )

ライセンス: Link先を確認
Tarun Kalluri, Deepak Pathak, Manmohan Chandraker, Du Tran(参考訳) ビデオフレーム補間法の多くは、隣接するビデオフレーム間の双方向光フローを計算し、次に適切なワーピングアルゴリズムを用いて出力フレームを生成する。 しかし、オプティカルフローに依存するアプローチは、ビデオから直接オクルージョンや複雑な非線形運動のモデル化に失敗し、広く展開するには適さない追加のボトルネックをもたらす。 flavrはフレキシブルで効率的なアーキテクチャで、3dの時空畳み込みを利用して、エンドツーエンドの学習とビデオフレーム補間の推論を可能にする。 本手法は, 非線形動作, 複雑な閉塞, 時間的抽象化の推論を効率よく学習し, 映像補間性能を向上すると同時に, 光流や深度マップの形での追加入力を必要としない。 その単純さから、flavrは補間精度を損なうことなく、現在最も正確なマルチフレーム補間法よりも3倍高速な推論速度を提供できる。 さらに,FLAVRを広範囲の挑戦的設定で評価し,Vimeo-90K, UCF101, DAVIS, Adobe, GoProなどの一般的なベンチマークと比較し,定性的かつ定量的な結果を一貫して示す。 最後に,ビデオフレーム補間用flavrが,アクション認識,光フロー推定,動き拡大のための有用な自己教師付きプリテキストタスクとして機能することを示す。

A majority of methods for video frame interpolation compute bidirectional optical flow between adjacent frames of a video, followed by a suitable warping algorithm to generate the output frames. However, approaches relying on optical flow often fail to model occlusions and complex non-linear motions directly from the video and introduce additional bottlenecks unsuitable for widespread deployment. We address these limitations with FLAVR, a flexible and efficient architecture that uses 3D space-time convolutions to enable end-to-end learning and inference for video frame interpolation. Our method efficiently learns to reason about non-linear motions, complex occlusions and temporal abstractions, resulting in improved performance on video interpolation, while requiring no additional inputs in the form of optical flow or depth maps. Due to its simplicity, FLAVR can deliver 3x faster inference speed compared to the current most accurate method on multi-frame interpolation without losing interpolation accuracy. In addition, we evaluate FLAVR on a wide range of challenging settings and consistently demonstrate superior qualitative and quantitative results compared with prior methods on various popular benchmarks including Vimeo-90K, UCF101, DAVIS, Adobe, and GoPro. Finally, we demonstrate that FLAVR for video frame interpolation can serve as a useful self-supervised pretext task for action recognition, optical flow estimation, and motion magnification.
翻訳日:2021-05-07 05:19:14 公開日:2021-04-15
# (参考訳) グラフ注意ネットワークとメッセージパッシングニューラルネットワークによる有機分子の自由解離エネルギーのペアワイド原子間相互作用による正確な予測 [全文訳有]

Accurate Prediction of Free Solvation Energy of Organic Molecules via Graph Attention Network and Message Passing Neural Network from Pairwise Atomistic Interactions ( http://arxiv.org/abs/2105.02048v1 )

ライセンス: CC BY 4.0
Ramin Ansari and Amirata Ghorbani(参考訳) 深層学習に基づく手法は、医薬品産業における様々な分子特性の予測に広く応用され、ますます成功している。 溶解自由エネルギーは、有機合成、医薬化学、薬物の放出、生物学的プロセスの分野で重要な指標である。 しかし、正確な溶解自由エネルギー決定は時間を要する実験プロセスである。 さらに, 物理試料が存在しない場合, 解解自由エネルギーを評価するのに有用である。 本研究では,graph neural network (gnn) アーキテクチャに基づく自由解法エネルギー予測問題に対して,メッセージパッシングニューラルネットワーク (mpnn) とgraph attention network (gat) の2つの新しいモデルを提案する。 GNNは、分子内の大量の記述子に頼ることなく、グラフ構造から直接低次元の特徴として分子の予測情報を要約することができる。 その結果、これらのモデルは各分子で実験を行うのに時間を要することなく、分子特性の正確な予測を行うことができる。 提案手法は, 解解自由エネルギー予測のタスクにおいて, 既存の機械学習手法に加えて, 量子力学および分子動力学の手法を上回っていることを示す。 このような有望な予測モデルは薬剤分子のスクリーニングの効率を高めることに応用され、分子薬理学の発展を促進するのに有用なツールであると信じている。

Deep learning based methods have been widely applied to predict various kinds of molecular properties in the pharmaceutical industry with increasingly more success. Solvation free energy is an important index in the field of organic synthesis, medicinal chemistry, drug delivery, and biological processes. However, accurate solvation free energy determination is a time-consuming experimental process. Furthermore, it could be useful to assess solvation free energy in the absence of a physical sample. In this study, we propose two novel models for the problem of free solvation energy predictions, based on the Graph Neural Network (GNN) architectures: Message Passing Neural Network (MPNN) and Graph Attention Network (GAT). GNNs are capable of summarizing the predictive information of a molecule as low-dimensional features directly from its graph structure without relying on an extensive amount of intra-molecular descriptors. As a result, these models are capable of making accurate predictions of the molecular properties without the time consuming process of running an experiment on each molecule. We show that our proposed models outperform all quantum mechanical and molecular dynamics methods in addition to existing alternative machine learning based approaches in the task of solvation free energy prediction. We believe such promising predictive models will be applicable to enhancing the efficiency of the screening of drug molecules and be a useful tool to promote the development of molecular pharmaceutics.
翻訳日:2021-05-07 02:09:53 公開日:2021-04-15
# (参考訳) MRIによるアルツハイマー病の診断と予測のためのDeep and Conventional Machine Learningのクロスコホート一般化 [全文訳有]

Cross-Cohort Generalizability of Deep and Conventional Machine Learning for MRI-based Diagnosis and Prediction of Alzheimer's Disease ( http://arxiv.org/abs/2012.08769v2 )

ライセンス: CC BY 4.0
Esther E. Bron, Stefan Klein, Janne M. Papma, Lize C. Jiskoot, Vikram Venkatraghavan, Jara Linders, Pauline Aalten, Peter Paul De Deyn, Geert Jan Biessels, Jurgen A.H.R. Claassen, Huub A.M. Middelkoop, Marion Smits, Wiro J. Niessen, John C. van Swieten, Wiesje M. van der Flier, Inez H.G.B. Ramakers, Aad van der Lugt (for the Alzheimer's Disease Neuroimaging Initiative, on behalf of the Parelsnoer Neurodegenerative Diseases study group)(参考訳) 本研究は、アルツハイマー病(AD)患者のMRIによる分類と、外部データセットへの制御(CN)、および軽度認知障害(MCI)の個人におけるADへの変換予測タスクの一般化可能性を検証する。 従来のサポートベクターマシン(SVM)と、最小の事前処理またはより広範囲の事前処理を行った構造MRIスキャンに基づく深部畳み込みニューラルネットワーク(CNN)アプローチを用いて、変調グレーマター(GM)マップを作成した。 分類器はADNI(334 AD, 520 CN)のクロスバリデーションを用いて最適化され評価された。 訓練された分類器はadni mci患者(231人の変換器、628人の非変換器)と独立したhealth-ri parelsnoerデータセットでadへの変換を予測するために使用された。 199名のad患者、139名の主観的認知機能低下者、48名のmci患者を認知症に、91名のmci患者を認知症に転換した。 変調GMマップに基づくAD-CN分類は、SVM(0.940)とCNN(0.933)に類似したAUCとなった。 MCIにおける変換予測への応用により、SVM (0.756) はCNN (0.742) よりも大幅に性能が向上した。 外部検証では、性能はわずかに低下した。 AD-CNでは、SVM (0.896) と CNN (0.876) で同様のAUCを提供している。 MCIでの予測では、SVM (0.665) と CNN (0.702) のパフォーマンスが低下した。 SVMとCNNでは、変調GMマップに基づく分類は、最小処理された画像に基づく分類よりも著しく優れていた。 深部および従来型の分類器はAD分類でも同等に機能し, 外部コホートに適用した場合のみ, 性能はわずかに低下した。 この外部検証の取り組みは、機械学習の臨床への翻訳に寄与することを期待する。

This work validates the generalizability of MRI-based classification of Alzheimer's disease (AD) patients and controls (CN) to an external data set and to the task of prediction of conversion to AD in individuals with mild cognitive impairment (MCI). We used a conventional support vector machine (SVM) and a deep convolutional neural network (CNN) approach based on structural MRI scans that underwent either minimal pre-processing or more extensive pre-processing into modulated gray matter (GM) maps. Classifiers were optimized and evaluated using cross-validation in the ADNI (334 AD, 520 CN). Trained classifiers were subsequently applied to predict conversion to AD in ADNI MCI patients (231 converters, 628 non-converters) and in the independent Health-RI Parelsnoer data set. From this multi-center study representing a tertiary memory clinic population, we included 199 AD patients, 139 participants with subjective cognitive decline, 48 MCI patients converting to dementia, and 91 MCI patients who did not convert to dementia. AD-CN classification based on modulated GM maps resulted in a similar AUC for SVM (0.940) and CNN (0.933). Application to conversion prediction in MCI yielded significantly higher performance for SVM (0.756) than for CNN (0.742). In external validation, performance was slightly decreased. For AD-CN, it again gave similar AUCs for SVM (0.896) and CNN (0.876). For prediction in MCI, performances decreased for both SVM (0.665) and CNN (0.702). Both with SVM and CNN, classification based on modulated GM maps significantly outperformed classification based on minimally processed images. Deep and conventional classifiers performed equally well for AD classification and their performance decreased only slightly when applied to the external cohort. We expect that this work on external validation contributes towards translation of machine learning to clinical practice.
翻訳日:2021-05-06 11:20:27 公開日:2021-04-15
# 最近の抽象要約技術に関する調査

A Survey of Recent Abstract Summarization Techniques ( http://arxiv.org/abs/2105.00824v1 )

ライセンス: Link先を確認
Diyah Puspitaningrum(参考訳) 本稿では,最近の抽象要約手法T5,Pegasus,ProphetNe tについて検討する。 我々はこのシステムを2つの言語(英語とインドネシア語)で実装する。 英語とインドネシア語の複数のwikipediaデータセットに対する事前学習モデル(t5,3ペガサス,3つの預言者)の影響を調査し,その結果をwikipediaシステムの概要と比較した。 T5-Large、Pegasus-XSum、ProphetNet-CNNDMは最高の要約を提供する。 ROUGEのパフォーマンスに影響を与える最も重要な要因は、カバレッジ、密度、圧縮である。 スコアが高いほど、サマリーが良くなる。 ROUGEスコアに影響を与えるその他の要因としては、事前トレーニングの目標、データセットの特徴、事前トレーニングされたモデルをテストするために使用されるデータセット、言語間関数などがある。 1) 事前学習モデルに使用するデータセットが十分に大きく、言語横断目的を扱うための十分なインスタンスを含むこと, 2) 高度なプロセス(精細化)は合理的である。 事前学習モデルの訓練段階において、列車インファートレイン手順やゼロショット翻訳といった高度なプロセスを実装する前に、多くの言語からトピックを包括的にカバーする大規模なデータセットを使用することを推奨する。

This paper surveys several recent abstract summarization methods: T5, Pegasus, and ProphetNet. We implement the systems in two languages: English and Indonesian languages. We investigate the impact of pre-training models (one T5, three Pegasuses, three ProphetNets) on several Wikipedia datasets in English and Indonesian language and compare the results to the Wikipedia systems' summaries. The T5-Large, the Pegasus-XSum, and the ProphetNet-CNNDM provide the best summarization. The most significant factors that influence ROUGE performance are coverage, density, and compression. The higher the scores, the better the summary. Other factors that influence the ROUGE scores are the pre-training goal, the dataset's characteristics, the dataset used for testing the pre-trained model, and the cross-lingual function. Several suggestions to improve this paper's limitation are: 1) assure that the dataset used for the pre-training model must sufficiently large, contains adequate instances for handling cross-lingual purpose; 2) Advanced process (finetuning) shall be reasonable. We recommend using the large dataset consists of comprehensive coverage of topics from many languages before implementing advanced processes such as the train-infer-train procedure to the zero-shot translation in the training stage of the pre-training model.
翻訳日:2021-05-04 20:42:36 公開日:2021-04-15
# (参考訳) IoTデバイスにおけるマルウェア検出のためのフェデレーション学習 [全文訳有]

Federated Learning for Malware Detection in IoT Devices ( http://arxiv.org/abs/2104.09994v1 )

ライセンス: CC BY 4.0
Valerian Rey, Pedro Miguel S\'anchez S\'anchez, Alberto Huertas Celdr\'an, G\'er\^ome Bovet, Martin Jaggi(参考訳) 本研究は,IoTマルウェア検出に関するフェデレーション学習による可能性を調査し,この新しい学習パラダイムに固有のセキュリティ問題を研究する。 この文脈では、フェデレーション学習を使用してIoTデバイスに影響を与えるマルウェアを検出するフレームワークが提示される。 マルウェアの影響を受けながら、実際のIoTデバイスのネットワークトラフィックをデータセットでモデル化するN-BaIoTが、提案したフレームワークの評価に使用されている。 教師付きおよび教師なしのフェデレーションモデル(マルチ層パーセプトロンとオートエンコーダ)の両方が、N-BaIoTの目に見えないIoTデバイスに影響を及ぼすマルウェアを検知し、評価している。 さらに、パフォーマンスは従来の2つのアプローチと比較されている。 ひとつは、各参加者が自身のデータのみを使用してモデルをローカルにトレーニングすること、もうひとつは、グローバルモデルのトレーニングを担当する中央のエンティティとデータを共有させることです。 この比較は、フェデレーションおよび集中型手法で実施されたように、より多様で大規模なデータの使用がモデルの性能にかなりの影響を与えることを示した。 さらに、連合モデルは、参加者のプライバシーを保ちながら、集中型モデルと同様の結果を示す。 追加の貢献とフェデレーションアプローチの堅牢性を測定するために、フェデレーションモデルに毒を盛る悪意のある参加者が何人かいる敵対的な設定が検討されている。 ほとんどのフェデレーション学習アルゴリズムで使用されるベースラインモデルのアグリゲーションステップは、単一の敵であっても、異なる攻撃に対して非常に脆弱であるように見える。 そこで, 対策として機能する他のモデル集約関数の性能を, 同じ攻撃シナリオ下で評価する。 これらの機能は悪意のある参加者に対して大きな改善をもたらすが、フェデレーションアプローチを堅牢にするためには、まだまだ多くの努力が必要である。

This work investigates the possibilities enabled by federated learning concerning IoT malware detection and studies security issues inherent to this new learning paradigm. In this context, a framework that uses federated learning to detect malware affecting IoT devices is presented. N-BaIoT, a dataset modeling network traffic of several real IoT devices while affected by malware, has been used to evaluate the proposed framework. Both supervised and unsupervised federated models (multi-layer perceptron and autoencoder) able to detect malware affecting seen and unseen IoT devices of N-BaIoT have been trained and evaluated. Furthermore, their performance has been compared to two traditional approaches. The first one lets each participant locally train a model using only its own data, while the second consists of making the participants share their data with a central entity in charge of training a global model. This comparison has shown that the use of more diverse and large data, as done in the federated and centralized methods, has a considerable positive impact on the model performance. Besides, the federated models, while preserving the participant's privacy, show similar results as the centralized ones. As an additional contribution and to measure the robustness of the federated approach, an adversarial setup with several malicious participants poisoning the federated model has been considered. The baseline model aggregation averaging step used in most federated learning algorithms appears highly vulnerable to different attacks, even with a single adversary. The performance of other model aggregation functions acting as countermeasures is thus evaluated under the same attack scenarios. These functions provide a significant improvement against malicious participants, but more efforts are still needed to make federated approaches robust.
翻訳日:2021-05-04 06:59:51 公開日:2021-04-15
# (参考訳) テキストトランスフォーマーに対する勾配に基づく逆攻撃 [全文訳有]

Gradient-based Adversarial Attacks against Text Transformers ( http://arxiv.org/abs/2104.13733v1 )

ライセンス: CC BY 4.0
Chuan Guo, Alexandre Sablayrolles, Herv\'e J\'egou, Douwe Kiela(参考訳) トランスフォーマーモデルに対する最初の汎用勾配ベース攻撃を提案する。 一つの逆例を探す代わりに、連続値行列でパラメータ化された逆例の分布を探索し、勾配に基づく最適化を可能にする。 我々は、ホワイトボックス攻撃が様々な自然言語タスクにおいて最先端の攻撃性能を達成することを実証的に実証する。 さらに,ハードラベル出力のみを必要とせず,既存の手法と一致または超過することで,強力なブラックボックス転送攻撃が可能となることを示す。

We propose the first general-purpose gradient-based attack against transformer models. Instead of searching for a single adversarial example, we search for a distribution of adversarial examples parameterized by a continuous-valued matrix, hence enabling gradient-based optimization. We empirically demonstrate that our white-box attack attains state-of-the-art attack performance on a variety of natural language tasks. Furthermore, we show that a powerful black-box transfer attack, enabled by sampling from the adversarial distribution, matches or exceeds existing methods, while only requiring hard-label outputs.
翻訳日:2021-05-04 06:31:35 公開日:2021-04-15
# (参考訳) 予測-コレクタ(PC)時間差(TD)学習(PCTD) [全文訳有]

Predictor-Corrector( PC) Temporal Difference(TD) Learning (PCTD) ( http://arxiv.org/abs/2104.09620v1 )

ライセンス: CC BY 4.0
Caleb Bowyer(参考訳) 本稿では,ODEの数値近似とガレルキン緩和によるTD学習問題の定式化と解法から得られた知見を用いて,新しいTD学習アルゴリズムを提案する。 改良された数値法を適用した後、近似されるパラメータは、線形パラメータ化された値関数の構築に使用されるパラメータ$\theta(t)$のodeに対する解のtaylor級数誤差の最大値が保証される。 予測・コレクタ時間差(PCTD)とは、確率近似(Stochastic Approximation, SA)理論を用いて、連続時間ODEから変換された離散時間強化学習(RL)アルゴリズムである。 このアルゴリズムの因果的実装と非因果的実装の両方を提供し、シミュレーション結果は元のtd(0)アルゴリズムとpctd(0)の両バージョンを比較する無限ホライズンタスクとしてリストされる。

Using insight from numerical approximation of ODEs and the problem formulation and solution methodology of TD learning through a Galerkin relaxation, I propose a new class of TD learning algorithms. After applying the improved numerical methods, the parameter being approximated has a guaranteed order of magnitude reduction in the Taylor Series error of the solution to the ODE for the parameter $\theta(t)$ that is used in constructing the linearly parameterized value function. Predictor-Corrector Temporal Difference (PCTD) is what I call the translated discrete time Reinforcement Learning(RL) algorithm from the continuous time ODE using the theory of Stochastic Approximation(SA). Both causal and non-causal implementations of the algorithm are provided, and simulation results are listed for an infinite horizon task to compare the original TD(0) algorithm against both versions of PCTD(0).
翻訳日:2021-05-04 06:16:42 公開日:2021-04-15
# (参考訳) 有限ひずみ超弾性における濃度特徴を解決する混合深層エネルギー法 [全文訳有]

The mixed deep energy method for resolving concentration features in finite strain hyperelasticity ( http://arxiv.org/abs/2104.09623v1 )

ライセンス: CC BY-SA 4.0
Jan N. Fuhg, Nikolaos Bouklas(参考訳) 物理インフォームドニューラルネットワーク(PINN)の導入により、ソリッドメカニクスコミュニティにおけるPDEの普遍的近似として、ディープニューラルネットワークへの関心が高まっている。 近年,Deep Energy Method (DEM) が提案されている。 DEM は PDE の残量に基づく PINN とは対照的に、エネルギー最小化の原理に基づいている。 demの大きな利点は、強形式残差に基づく定式化と比較して低次導関数の近似を必要とすることである。 しかし、demと古典的なピン定式化は応力場と変位場の微妙な特徴、例えば固体力学の応用における濃度的特徴の解決に苦しむ。 本稿では,これらの特徴を有限ひずみ超弾性のために解くために,Deep Energy Method (DEM)の拡張を提案する。 開発フレームワークであるmixed deep energy method(mdem)は、最近導入された純粋な変位式にnnの追加出力としてストレス対策を導入している。 このアプローチにより、ノイマン境界条件はより正確に近似され、通常高濃度の原因となる空間的特徴に関する精度が向上する。 提案手法をより汎用的にするために,dlaunay積分に基づく数値積分スキームを導入し,ストレス集中度のある計算領域で一般的に必要とされるランダムトレーニングポイント位置集合にmdemフレームワークを利用可能にする。 提案手法の利点は,古典的なPINNとDEMの定式化の欠点を示しながら強調する。 この手法は、細かな幾何学的特徴と集中負荷を持つ領域を含む挑戦的な計算実験の前方計算において、有限要素法(FEM)に匹敵する結果を提供する。

The introduction of Physics-informed Neural Networks (PINNs) has led to an increased interest in deep neural networks as universal approximators of PDEs in the solid mechanics community. Recently, the Deep Energy Method (DEM) has been proposed. DEM is based on energy minimization principles, contrary to PINN which is based on the residual of the PDEs. A significant advantage of DEM, is that it requires the approximation of lower order derivatives compared to formulations that are based on strong form residuals. However both DEM and classical PINN formulations struggle to resolve fine features of the stress and displacement fields, for example concentration features in solid mechanics applications. We propose an extension to the Deep Energy Method (DEM) to resolve these features for finite strain hyperelasticity. The developed framework termed mixed Deep Energy Method (mDEM) introduces stress measures as an additional output of the NN to the recently introduced pure displacement formulation. Using this approach, Neumann boundary conditions are approximated more accurately and the accuracy around spatial features which are typically responsible for high concentrations is increased. In order to make the proposed approach more versatile, we introduce a numerical integration scheme based on Delaunay integration, which enables the mDEM framework to be used for random training point position sets commonly needed for computational domains with stress concentrations. We highlight the advantages of the proposed approach while showing the shortcomings of classical PINN and DEM formulations. The method is offering comparable results to Finite-Element Method (FEM) on the forward calculation of challenging computational experiments involving domains with fine geometric features and concentrated loads.
翻訳日:2021-05-04 06:08:25 公開日:2021-04-15
# LEx: マシンラーニングの説明層を運用するためのフレームワーク

LEx: A Framework for Operationalising Layers of Machine Learning Explanations ( http://arxiv.org/abs/2104.09612v1 )

ライセンス: Link先を確認
Ronal Singh, Upol Ehsan, Marc Cheong, Mark O. Riedl, Tim Miller(参考訳) いくつかの社会的要因は、人々がaiの説明にどう反応するかに影響する。 本稿では, 様々な説明の適切性を評価するためのレンズである, \textit{layers of explanation} (lex) というフレームワークを定義する。 このフレームワークは、特徴の \textit{sensitivity} (感情応答性) の概念とドメイン内の \textit{stakes} (決定の結果) のレベルを使って、異なるタイプの説明が与えられたコンテキストにおける \textit{ appropriate} であるかどうかを決定する。 このフレームワークを用いて、異なるドメインにおける異なるタイプの説明の適切性を評価する方法を示す。

Several social factors impact how people respond to AI explanations used to justify AI decisions affecting them personally. In this position paper, we define a framework called the \textit{layers of explanation} (LEx), a lens through which we can assess the appropriateness of different types of explanations. The framework uses the notions of \textit{sensitivity} (emotional responsiveness) of features and the level of \textit{stakes} (decision's consequence) in a domain to determine whether different types of explanations are \textit{appropriate} in a given context. We demonstrate how to use the framework to assess the appropriateness of different types of explanations in different domains.
翻訳日:2021-05-03 19:48:17 公開日:2021-04-15
# スポーツビデオのコントラスト学習:教師なし選手分類

Contrastive Learning for Sports Video: Unsupervised Player Classification ( http://arxiv.org/abs/2104.10068v1 )

ライセンス: Link先を確認
Maria Koshkina, Hemanth Pidaparthy, James H. Elder(参考訳) 我々は,チームスポーツにおける選手の無監督分類の問題に対処し,ジャージの色やデザインが事前に分かっていない場合に対処する。 埋め込みネットワークは,同一チームの選手に対して異なるチームの選手間の距離を最大化するために,ラベル付きデータなしで純粋に教師なしの方法で学習する,対照的な学習手法を採用する。 我々は,新しいホッケーデータセットを用いてアプローチを評価し,特にチーム割り当てを行う前に,教師なしの学習に限られたフレームしか使用できないリアルタイムアプリケーションにおいて,教師なしのアプローチよりも優れていることを示す。 また,1フレームで教師なしトレーニングを行った結果,500フレーム中97%の精度でゲーム時間17秒以内の精度で,コントラスト法が94%の精度で達成されていることを示す。 さらに,チーム分類によって選手位置の正確なチーム条件熱マップが計算可能かを示す。

We address the problem of unsupervised classification of players in a team sport according to their team affiliation, when jersey colours and design are not known a priori. We adopt a contrastive learning approach in which an embedding network learns to maximize the distance between representations of players on different teams relative to players on the same team, in a purely unsupervised fashion, without any labelled data. We evaluate the approach using a new hockey dataset and find that it outperforms prior unsupervised approaches by a substantial margin, particularly for real-time application when only a small number of frames are available for unsupervised learning before team assignments must be made. Remarkably, we show that our contrastive method achieves 94% accuracy after unsupervised training on only a single frame, with accuracy rising to 97% within 500 frames (17 seconds of game time). We further demonstrate how accurate team classification allows accurate team-conditional heat maps of player positioning to be computed.
翻訳日:2021-05-03 19:47:03 公開日:2021-04-15
# ビジネスにNLPを採用する上で考慮すべきコスト

Costs to Consider in Adopting NLP for Your Business ( http://arxiv.org/abs/2012.08958v2 )

ライセンス: Link先を確認
Made Nindyatama Nityasya, Haryo Akbarianto Wibowo, Radityo Eko Prasojo, Alham Fikri Aji(参考訳) 自然言語処理(nlp)の最近の進歩は、生産コストや利用コストにさかのぼることなく、深いトランスフォーマーベースのモデルを最先端技術として推進してきた。 これらの手法をビジネスに導入しようとしている企業は、構築する機械、データ、人的資源が不足しているため、困難に直面している。 我々は,古典学習アルゴリズムの性能とコストを,共通シーケンスおよびテキストラベリングタスクにおける最新のものと比較した。 産業データセットでは、コストが低いにもかかわらず、古典的なモデルはディープニューラルネットワークと同等に動作することがよくあります。 パフォーマンス向上とモデル間のコストのトレードオフを示し、AIピボットビジネスのさらなる洞察を提供する。 さらに、低コストのモデル、特に低リソース言語の研究も求めています。

Recent advances in Natural Language Processing (NLP) have largely pushed deep transformer-based models as the go-to state-of-the-art technique without much regard to the production and utilization cost. Companies planning to adopt these methods into their business face difficulties because of the lack of machine, data, and human resources to build them. We compare both the performance and the cost of classical learning algorithms to the latest ones in common sequence and text labeling tasks. In our industrial datasets, we find that classical models often perform on par with deep neural ones despite the lower cost. We show the trade-off between performance gain and the cost across the models to give more insights for AI-pivoting business. Further, we call for more research into low-cost models, especially for under-resourced languages.
翻訳日:2021-05-03 03:01:08 公開日:2021-04-15
# (参考訳) マルチショット時間イベントローカライズ:ベンチマーク [全文訳有]

Multi-shot Temporal Event Localization: a Benchmark ( http://arxiv.org/abs/2012.09434v2 )

ライセンス: CC BY 4.0
Xiaolong Liu (1), Yao Hu (2), Song Bai (2,3), Fei Ding (2), Xiang Bai (1), Philip H.S. Torr (3) ((1) Huazhong University of Science and Technology, (2) Alibaba Group, (3) University of Oxford)(参考訳) 時間的イベントやアクションのローカライゼーションにおける現在の発展は、通常、単一のカメラによってキャプチャされたアクションをターゲットにしている。 しかし、野生での広範な出来事や行動は、異なる位置にある複数のカメラによって一連のショットとして捉えられる。 本稿では,MUSES(MUlti-Shot Events)と呼ばれる大規模データセットを収集し,マルチショット時間的イベントローカライゼーションという課題を新たに提案する。 MUSESには合計716時間のイベントインスタンスが31,477件ある。 MUSESの中核となる性質は、インスタンスあたり平均19ショット、ビデオあたり176ショットのショットカットであり、大きな制約変動を引き起こす。 総合評価の結果, 時間的動作の局所化における最先端手法はIoU=0.5で13.1%のmAPしか達成できないことがわかった。 若干の貢献として,iou=0.5のthums14では18.9%,thums14では56.9%のマップを報告し,instance内変異を扱うための単純なベースラインアプローチを提案する。 この方向の研究を容易にするため、データセットとプロジェクトコードをhttps://songbai.site /muses/でリリースします。

Current developments in temporal event or action localization usually target actions captured by a single camera. However, extensive events or actions in the wild may be captured as a sequence of shots by multiple cameras at different positions. In this paper, we propose a new and challenging task called multi-shot temporal event localization, and accordingly, collect a large scale dataset called MUlti-Shot EventS (MUSES). MUSES has 31,477 event instances for a total of 716 video hours. The core nature of MUSES is the frequent shot cuts, for an average of 19 shots per instance and 176 shots per video, which induces large intrainstance variations. Our comprehensive evaluations show that the state-of-the-art method in temporal action localization only achieves an mAP of 13.1% at IoU=0.5. As a minor contribution, we present a simple baseline approach for handling the intra-instance variations, which reports an mAP of 18.9% on MUSES and 56.9% on THUMOS14 at IoU=0.5. To facilitate research in this direction, we release the dataset and the project code at https://songbai.site /muses/ .
翻訳日:2021-05-02 20:07:08 公開日:2021-04-15
# (参考訳) 物語的不整合検出 [全文訳有]

Narrative Incoherence Detection ( http://arxiv.org/abs/2012.11157v2 )

ライセンス: CC BY 4.0
Deng Cai and Yizhe Zhang and Yichen Huang and Wai Lam and Bill Dolan(参考訳) 本研究では, 意味的理解のための新しい場として, ナラティブ・アンコヒーレンス検出の課題を提案する。 具体的には,欠文と不一致文の検出に注目した。 単純な設定にもかかわらず、モデルが多文の物語を理解し分析し、文レベルでの一貫性を予測する必要があるため、このタスクは困難である。 この課題に向けた最初のステップとして、原文を直接解析する(\textit{token-level})か、学習した文表現を解析する(\textit{sentence-level})。 トークンレベルのモデリングは、入力に文が少なくなると性能が向上するが、文レベルのモデリングは長文の物語よりも優れ、効率性と柔軟性に優位性がある。 大規模データによる事前学習と補助文予測訓練により,文レベルのモデルの検出性能がさらに向上する。

We propose the task of narrative incoherence detection as a new arena for inter-sentential semantic understanding: Given a multi-sentence narrative, decide whether there exist any semantic discrepancies in the narrative flow. Specifically, we focus on the missing sentence and discordant sentence detection. Despite its simple setup, this task is challenging as the model needs to understand and analyze a multi-sentence narrative, and predict incoherence at the sentence level. As an initial step towards this task, we implement several baselines either directly analyzing the raw text (\textit{token-level}) or analyzing learned sentence representations (\textit{sentence-level}). We observe that while token-level modeling has better performance when the input contains fewer sentences, sentence-level modeling performs better on longer narratives and possesses an advantage in efficiency and flexibility. Pre-training on large-scale data and auxiliary sentence prediction training objective further boost the detection performance of the sentence-level model.
翻訳日:2021-04-29 09:00:59 公開日:2021-04-15
# 社会的NCE : 社会的認知行動表現の対照的な学習

Social NCE: Contrastive Learning of Socially-aware Motion Representations ( http://arxiv.org/abs/2012.11717v2 )

ライセンス: Link先を確認
Yuejiang Liu, Qi Yan, Alexandre Alahi(参考訳) 社会的に認識された動き表現の学習は、混雑した空間における人間の軌道予測とロボットナビゲーションの最近の進歩の核心である。 有望な進歩にもかかわらず、既存のニューラルモーションモデルは、危険なシナリオから収集されたサンプルを欠いた場合、クローズドループ操作(例えば出力衝突軌道)の一般化に苦慮することが多い。 そこで本研究では,否定的データ拡張を用いたコントラスト学習によってこの問題に取り組むことを提案する。 具体的には,正の未来の事象と負の事象を区別するための十分な情報を保持するために,符号化された動作表現を奨励する社会的対比的損失を導入する。 マルチエージェント・コンテキストにおける好ましくない状況に関するドメイン知識に基づいて、これらの負のサンプルを明示的に描画する。 実験結果から,提案手法は,最近の軌道予測,行動クローニング,強化学習アルゴリズムの衝突速度を劇的に低減し,いくつかのベンチマークで現在の最先端モデルを上回る結果を得た。 本手法は,ニューラルネットワークの設計に関する仮定をほとんど示さないため,神経運動モデルのロバスト性を促進する汎用的手法として使用できる。

Learning socially-aware motion representations is at the core of recent advances in human trajectory forecasting and robot navigation in crowded spaces. Despite promising progress, existing neural motion models often struggle to generalize in closed-loop operations (e.g., output colliding trajectories), when the training set lacks examples collected from dangerous scenarios. In this work, we propose to address this issue via contrastive learning with negative data augmentation. Concretely, we introduce a social contrastive loss that encourages the encoded motion representation to preserve sufficient information for distinguishing a positive future event from a set of negative ones. We explicitly draw these negative samples based on our domain knowledge of unfavorable circumstances in the multi-agent context. Experimental results show that the proposed method dramatically reduces the collision rates of recent trajectory forecasting, behavioral cloning and reinforcement learning algorithms, outperforming current state-of-the-art models on several benchmarks. Our method makes few assumptions about neural architecture designs, and hence can be used as a generic way to promote the robustness of neural motion models.
翻訳日:2021-04-27 06:47:02 公開日:2021-04-15
# (参考訳) 認知症高齢者の介護環境における追跡的動揺 [全文訳有]

Tracking agitation in people living with dementia in a care environment ( http://arxiv.org/abs/2104.09305v1 )

ライセンス: CC0 1.0
Shehroz S. Khan, Thaejaesh Sooriyakumaran, Katherine Rich, Sofija Spasojevic, Bing Ye, Kristine Newman, Andrea Iaboni, Alex Mihailidis(参考訳) 扇動は認知症(PwD)に罹患する人々の苦痛を伝える症状であり、それらと他人を危険にさらすことができる。 長期ケア(ltc)環境では、ケアスタッフはこれらの症状を、リスクを評価するために居住状況が変化したことを検知し、介入に対する反応を監視する手段として追跡し、文書化する。 しかし、この文書は時間がかかり、スタッフの制約のため、扇動のエピソードは観察されない可能性がある。 これはこれらの評価の信頼性に疑問を呈し、認知症の行動症状を追跡し監視するテクノロジーの機会を提供する。 本稿では,マルチモーダルウェアラブルデバイスを20ドルpwdで装着した認知症患者を対象とした2年間の実世界調査の結果について述べる。 この大規模マルチモーダル時系列データを用いて,8時間看護シフトにおける動揺の出現状況の追跡を行った。 このデータセットに基づくベースライン分類モデル(AUC=0.717)の開発とその後の改善(AUC=0.779)は、看護表に注釈付けイベントの処理を自動化するための基盤となる。

Agitation is a symptom that communicates distress in people living with dementia (PwD), and that can place them and others at risk. In a long term care (LTC) environment, care staff track and document these symptoms as a way to detect when there has been a change in resident status to assess risk, and to monitor for response to interventions. However, this documentation can be time-consuming, and due to staffing constraints, episodes of agitation may go unobserved. This brings into question the reliability of these assessments, and presents an opportunity for technology to help track and monitor behavioural symptoms in dementia. In this paper, we present the outcomes of a 2 year real-world study performed in a dementia unit, where a multi-modal wearable device was worn by $20$ PwD. In line with a commonly used clinical documentation tool, this large multi-modal time-series data was analyzed to track the presence of episodes of agitation in 8-hour nursing shifts. The development of a baseline classification model (AUC=0.717) on this dataset and subsequent improvement (AUC= 0.779) lays the groundwork for automating the process of annotating agitation events in nursing charts.
翻訳日:2021-04-24 15:22:25 公開日:2021-04-15
# (参考訳) KNIME-Workflowを用いたAIによるトピックモデリング [全文訳有]

AI supported Topic Modeling using KNIME-Workflows ( http://arxiv.org/abs/2104.09428v1 )

ライセンス: CC BY 4.0
Jamal Al Qundus, Silvio Peikert, Adrian Paschke(参考訳) トピックモデリングアルゴリズムは伝統的に、重み付き項のリストとしてトピックをモデル化する。 これらのトピックモデルは、テキストを分類したり、テキスト要約や事実抽出などのテキストマイニングタスクをサポートするために効果的に使用できる。 一般的な手順は、項周波数の統計分析に依存する。 この作業の焦点は、KNIMEワークフローにおける知識に基づくトピックモデリングサービスの実装である。 dbpediaベースのエンリッチメントアプローチの概要と、エンリッチメントされたトピックモデルの比較評価を、これまでの研究に基づいて概説する。 DBpedia-Spotlightは入力テキスト内のエンティティを識別するために使用され、DBpediaからの情報はこれらのエンティティを拡張するために使用される。 このアプローチを実装したknimeが開発したワークフローを提供し,知識ベース情報によるトピックモデリングと従来のldaとの比較を行った。 このトピックモデリングアプローチは、アルゴリズムと人間の両方による意味解釈を可能にする。

Topic modeling algorithms traditionally model topics as list of weighted terms. These topic models can be used effectively to classify texts or to support text mining tasks such as text summarization or fact extraction. The general procedure relies on statistical analysis of term frequencies. The focus of this work is on the implementation of the knowledge-based topic modelling services in a KNIME workflow. A brief description and evaluation of the DBPedia-based enrichment approach and the comparative evaluation of enriched topic models will be outlined based on our previous work. DBpedia-Spotlight is used to identify entities in the input text and information from DBpedia is used to extend these entities. We provide a workflow developed in KNIME implementing this approach and perform a result comparison of topic modeling supported by knowledge base information to traditional LDA. This topic modeling approach allows semantic interpretation both by algorithms and by humans.
翻訳日:2021-04-24 15:12:48 公開日:2021-04-15
# (参考訳) Vec2GC - テキスト表現のためのグラフベースのクラスタリング手法 [全文訳有]

Vec2GC -- A Graph Based Clustering Method for Text Representations ( http://arxiv.org/abs/2104.09439v1 )

ライセンス: CC BY 4.0
Rajesh N Rao, Manojit Chakraborty(参考訳) ラベル付きデータに制限があるNLPパイプラインは、ドキュメント処理の教師なし手法に依存している。 教師なしのアプローチは一般的に用語や文書のクラスタリングに依存する。 本稿では,新たなクラスタリングアルゴリズムであるVec2GC(Vector to Graph Communities)を導入する。 本手法は,テキスト表現学習を用いて作成した用語や文書の重み付きグラフ上で,コミュニティ検出を用いる。 vec2gcクラスタリングアルゴリズムは密度ベースのアプローチであり、階層的クラスタリングもサポートする。

NLP pipelines with limited or no labeled data, rely on unsupervised methods for document processing. Unsupervised approaches typically depend on clustering of terms or documents. In this paper, we introduce a novel clustering algorithm, Vec2GC (Vector to Graph Communities), an end-to-end pipeline to cluster terms or documents for any given text corpus. Our method uses community detection on a weighted graph of the terms or documents, created using text representation learning. Vec2GC clustering algorithm is a density based approach, that supports hierarchical clustering as well.
翻訳日:2021-04-24 14:51:09 公開日:2021-04-15
# PPGおよびrPPG信号を用いた深層学習に基づく血圧予測の評価

Assessment of deep learning based blood pressure prediction from PPG and rPPG signals ( http://arxiv.org/abs/2104.09313v1 )

ライセンス: Link先を確認
Fabian Schrumpf, Patrick Frenzel, Christoph Aust, Georg Osterhoff, Mirco Fuchs(参考訳) 非侵襲血圧(bp)測定にppg(photoplethysmogr aphy signal)を応用することは様々な理由から興味深い。 まず、PPGはフィンガークリップセンサーを使って容易に測定できる。 第2に、カメラベースのアプローチは、PPGに似たリモートPPG(rPPG)信号を導出することができ、したがって非侵襲的なBP測定の機会を提供する。 最近、機械学習技術に依存する様々な方法が公開された。 パフォーマンスは、問題となるデータの平均誤差(MAE)として報告されることが多い。 本研究の目的は, PPGおよびrPPGに基づくBP予測誤差を基礎となるデータ分布に対して解析することである。 まず、確立されたニューラルネットワーク(NN)アーキテクチャを訓練し、連続PSG信号から引き出された入力セグメントの適切なパラメータ化を導出する。 第二に、このパラメータ化をより大きなPSGデータセットに適用し、NNをトレーニングしてBPを予測する。 その結果、予測誤差はBP値の少ない値へと増大する。 第3に、rppgに基づくbp予測のためのnnsのトレーニングに転送学習を用いる。 結果のパフォーマンスはPSGのみのケースと似ている。 最後に,パーソナライゼーション手法を適用し,主題別データを用いてnnsを再トレーニングする。 これにより予測誤差がわずかに減少する。

Exploiting photoplethysmography signals (PPG) for non-invasive blood pressure (BP) measurement is interesting for various reasons. First, PPG can easily be measured using fingerclip sensors. Second, camera-based approaches allow to derive remote PPG (rPPG) signals similar to PPG and therefore provide the opportunity for non-invasive measurements of BP. Various methods relying on machine learning techniques have recently been published. Performances are often reported as the mean average error (MAE) on the data which is problematic. This work aims to analyze the PPG- and rPPG-based BP prediction error with respect to the underlying data distribution. First, we train established neural network (NN) architectures and derive an appropriate parameterization of input segments drawn from continuous PPG signals. Second, we apply this parameterization to a larger PPG dataset and train NNs to predict BP. The resulting prediction errors increase towards less frequent BP values. Third, we use transfer learning to train the NNs for rPPG based BP prediction. The resulting performances are similar to the PPG-only case. Finally, we apply a personalization technique and retrain our NNs with subject-specific data. This slightly reduces the prediction errors.
翻訳日:2021-04-20 14:18:37 公開日:2021-04-15
# カスケードへの学習:カスケード推論システムの精度と計算コストを改善するための信頼度校正

Learning to Cascade: Confidence Calibration for Improving the Accuracy and Computational Cost of Cascade Inference Systems ( http://arxiv.org/abs/2104.09286v1 )

ライセンス: Link先を確認
Shohei Enomoto, Takeharu Eda(参考訳) 近年、ディープニューラルネットワークは様々なアプリケーションで利用されるようになった。 ディープニューラルネットワークの精度が向上している一方で、予測結果の信頼性を示す信頼スコアがより重要になっている。 ディープニューラルネットワークは、精度が高いが信頼度が高いことが知られており、信頼度スコアの校正が重要である。 信頼度校正に関する多くの研究が行われている。 モデルの信頼度スコアを精度に合わせるように調整するが、信頼度スコアが信頼度スコアを使用するシステムのパフォーマンスを改善するかどうかは不明だ。 本稿では,信頼度スコアを用いたシステムの一つであるカスケード推論システムに着目し,推定精度と計算コストの観点からシステム性能を向上させるための信頼度スコアについて考察する。 そこで,本研究ではカスケードを学習する新しい信頼度校正手法を提案する。 カスケードへの学習は、信頼度校正のための損失項と元の損失項を同時に最適化する単純だが新しい方法である。 CIFAR-100とImageNetの2つのシステム設定を用いて実験を行い、既存のキャリブレーション手法のカスケード推論システムへの適用は時として悪化することを示した。 しかし、Learning to Cascadeは推論精度と計算コストのトレードオフを常に改善します。 カスケードへの学習の単純さは、既存のシステムのパフォーマンスを改善するために簡単に適用できる。

Recently, deep neural networks have become to be used in a variety of applications. While the accuracy of deep neural networks is increasing, the confidence score, which indicates the reliability of the prediction results, is becoming more important. Deep neural networks are seen as highly accurate but known to be overconfident, making it important to calibrate the confidence score. Many studies have been conducted on confidence calibration. They calibrate the confidence score of the model to match its accuracy, but it is not clear whether these confidence scores can improve the performance of systems that use confidence scores. This paper focuses on cascade inference systems, one kind of systems using confidence scores, and discusses the desired confidence score to improve system performance in terms of inference accuracy and computational cost. Based on the discussion, we propose a new confidence calibration method, Learning to Cascade. Learning to Cascade is a simple but novel method that optimizes the loss term for confidence calibration simultaneously with the original loss term. Experiments are conducted using two datasets, CIFAR-100 and ImageNet, in two system settings, and show that naive application of existing calibration methods to cascade inference systems sometimes performs worse. However, Learning to Cascade always achieves a better trade-off between inference accuracy and computational cost. The simplicity of Learning to Cascade allows it to be easily applied to improve the performance of existing systems.
翻訳日:2021-04-20 13:40:54 公開日:2021-04-15
# LSTMと条件付きVAEを用いたグラフ生成のための可変モデル

A Tunable Model for Graph Generation Using LSTM and Conditional VAE ( http://arxiv.org/abs/2104.09304v1 )

ライセンス: Link先を確認
Shohei Nakazawa, Yoshiki Sato, Kenji Nakagawa, Sho Tsugawa, Kohei Watabe(参考訳) グラフアプリケーションの開発により、グラフの生成モデルはより重要になっている。 古典的には、エッジとノードの事前定義された確率でグラフを生成する確率モデルが研究されている。 近年,機械学習を用いて実際のグラフデータから学習し,グラフの構造的特徴を再現するモデルが研究されている。 しかし、これらの機械学習に基づく従来の研究では、グラフの構造的特徴はデータから学べるが、特徴をチューニングして特定の特徴を持つグラフを生成することはできない。 本稿では,データからグラフの構造的特徴を学習しながら,特定の特徴をチューニングできる生成モデルを提案する。 確率モデルによって生成される様々な特徴を持つグラフのデータセットを用いて、我々のモデルが特定の特徴を持つグラフを生成できることを確認する。

With the development of graph applications, generative models for graphs have been more crucial. Classically, stochastic models that generate graphs with a pre-defined probability of edges and nodes have been studied. Recently, some models that reproduce the structural features of graphs by learning from actual graph data using machine learning have been studied. However, in these conventional studies based on machine learning, structural features of graphs can be learned from data, but it is not possible to tune features and generate graphs with specific features. In this paper, we propose a generative model that can tune specific features, while learning structural features of a graph from data. With a dataset of graphs with various features generated by a stochastic model, we confirm that our model can generate a graph with specific features.
翻訳日:2021-04-20 13:26:15 公開日:2021-04-15
# (参考訳) IoTビッグデータのための複数機能融合型ビデオ顔追跡 [全文訳有]

Multiple feature fusion-based video face tracking for IoT big data ( http://arxiv.org/abs/2104.08096v1 )

ライセンス: CC BY 4.0
Tianping Li, Zhifeng Liu, Jianping Qiao(参考訳) iotと人工知能技術の進歩と、セキュリティの参入管理や金融取引といった分野での急速なアプリケーション成長の必要性により、顔情報処理はアイデンティティ認証と情報セキュリティを実現する上で重要な手段となっている。 本稿では,積分ヒストグラムに基づく多機能融合アルゴリズムと,リアルタイム更新追跡粒子フィルタリングモジュールを提案する。 まず、エッジとカラーの特徴を抽出し、顔の特徴を記述するために色ヒストグラムとエッジの特徴を重み付けに重み付け手法を使用し、顔追跡の信頼性を向上させるために融合係数を用いて色とエッジの特徴の融合を適応させる。 そして、積分ヒストグラムを粒子フィルタリングアルゴリズムに統合し、複雑な粒子の計算手順を簡素化する。 最後に、粒子中心から電流モデルの端までの平均距離の変化と、ドリフト問題を低減するための初期モデルとに基づいて、トラッキングウィンドウサイズをリアルタイムに調整し、目標寸法を大きく変化させて安定したトラッキングを実現する。 その結果,このアルゴリズムは映像追跡精度を向上し,粒子操作の複雑さを単純化し,速度を向上し,反干渉能力とロバスト性が向上した。

With the advancement of IoT and artificial intelligence technologies, and the need for rapid application growth in fields such as security entrance control and financial business trade, facial information processing has become an important means for achieving identity authentication and information security. In this paper, we propose a multi-feature fusion algorithm based on integral histograms and a real-time update tracking particle filtering module. First, edge and colour features are extracted, weighting methods are used to weight the colour histogram and edge features to describe facial features, and fusion of colour and edge features is made adaptive by using fusion coefficients to improve face tracking reliability. Then, the integral histogram is integrated into the particle filtering algorithm to simplify the calculation steps of complex particles. Finally, the tracking window size is adjusted in real time according to the change in the average distance from the particle centre to the edge of the current model and the initial model to reduce the drift problem and achieve stable tracking with significant changes in the target dimension. The results show that the algorithm improves video tracking accuracy, simplifies particle operation complexity, improves the speed, and has good anti-interference ability and robustness.
翻訳日:2021-04-20 11:08:56 公開日:2021-04-15
# (参考訳) 個人化半監督型フェデレーション学習による人間活動認識 [全文訳有]

Personalized Semi-Supervised Federated Learning for Human Activity Recognition ( http://arxiv.org/abs/2104.08094v1 )

ライセンス: CC BY 4.0
Claudio Bettini, Gabriele Civitarese, Riccardo Presotto(参考訳) ヒューマンアクティビティ認識(har)のための最も効果的なデータ駆動手法は、センサデータの連続ストリームに適用された教師あり学習に基づいている。 しかし、これらのメソッドは、完全にラベル付きデータセットがあるドメイン内の制限されたアクティビティセットでうまく機能する。 大規模実世界展開における異なる被験者間の活動実行の多種間および異種間性に対処することは依然として課題である。 harの半教師付き学習アプローチは、現実的な設定に必要な大量のラベル付きデータを取得するという課題に対処するために提案されている。 しかしながら、彼らの集中型アーキテクチャは、多数のユーザを含むプロセスにおいてスケーラビリティとプライバシの問題を引き起こします。 フェデレートラーニング(FL)はこれらの問題を解決するための有望なパラダイムです。 しかし、HARのために提案されたFL手法は、参加するユーザが常にローカルモデルをトレーニングするためのラベルを取得できると仮定する。 本稿では,半教師付き学習とフェデレーション学習を組み合わせたHARの新しいハイブリッド手法であるFedHARを提案する。 実際、feedharはアクティブな学習とラベルの伝達を組み合わせることで、ラベルのないセンサーデータのローカルストリームを半自動的に注釈付けし、スケーラブルでプライバシを意識した方法でグローバルなアクティビティモデルを構築するためにflに依存しています。 FedHARには、グローバルモデルをユーザ毎にパーソナライズするトランスファー学習戦略も含まれている。 提案手法を2つの公開データセット上で評価した結果,FedHARが認識率とパーソナライズ能力に到達したことを示す。 大きな利点として、FedHARは、事前訓練されたモデルに適応するために、非常に限られた数のアノテートデータと、システムの使用中に急速に減少する少数のアクティブな学習質問しか必要とせず、HARのデータ不足問題に対する効果的でスケーラブルなソリューションへと繋がる。

The most effective data-driven methods for human activities recognition (HAR) are based on supervised learning applied to the continuous stream of sensors data. However, these methods perform well on restricted sets of activities in domains for which there is a fully labeled dataset. It is still a challenge to cope with the intra- and inter-variability of activity execution among different subjects in large scale real world deployment. Semi-supervised learning approaches for HAR have been proposed to address the challenge of acquiring the large amount of labeled data that is necessary in realistic settings. However, their centralised architecture incurs in the scalability and privacy problems when the process involves a large number of users. Federated Learning (FL) is a promising paradigm to address these problems. However, the FL methods that have been proposed for HAR assume that the participating users can always obtain labels to train their local models. In this work, we propose FedHAR: a novel hybrid method for HAR that combines semi-supervised and federated learning. Indeed, FedHAR combines active learning and label propagation to semi-automatically annotate the local streams of unlabeled sensor data, and it relies on FL to build a global activity model in a scalable and privacy-aware fashion. FedHAR also includes a transfer learning strategy to personalize the global model on each user. We evaluated our method on two public datasets, showing that FedHAR reaches recognition rates and personalization capabilities similar to state-of-the-art FL supervised approaches. As a major advantage, FedHAR only requires a very limited number of annotated data to populate a pre-trained model and a small number of active learning questions that quickly decrease while using the system, leading to an effective and scalable solution for the data scarcity problem of HAR.
翻訳日:2021-04-20 11:01:07 公開日:2021-04-15
# (参考訳) 機械学習とグリオ芽腫:2021年のバイオマーカー治療 [全文訳有]

Machine Learning and Glioblastoma: Treatment Response Monitoring Biomarkers in 2021 ( http://arxiv.org/abs/2104.08072v1 )

ライセンス: CC BY 4.0
Thomas Booth, Bernice Akpinar, Andrei Roman, Haris Shuaib, Aysha Luis, Alysha Chelliah, Ayisha Al Busaidi, Ayesha Mirchandani, Burcu Alparslan, Nina Mansoor, Keyoumars Ashkan, Sebastien Ourselin, Marc Modat(参考訳) 系統的レビューの目的は, 機械学習(ml)を用いて開発した成人のグリオブラスト腫治療反応モニタリングバイオマーカーの診断精度に関する最近の研究を評価することである。 記事は、MEDLINE、EMBASE、およびCochrane Registerを使って検索された。 対象は成人高悪性度グリオーマ患者で, 標準治療(最大切除, 併用放射線療法, 補助剤による放射線療法)を行った後, 経過観察を行い, 治療反応を判定した。 バイアスと適用可能性のリスクを quadas 2 法を用いて評価した。 保持テストセットとリコール、特異性、精度、F1スコア、バランスの取れた精度を計算した。 トレーニングセットは1038例,テストセットは233例であった。 進行の有無と模倣の有無を判定するために, 再手術時の追跡画像と病理組織学の基準基準の組み合わせを67%に適用した。 研究に含まれている患者は少数であり、バイアスのリスクが高く、研究デザイン(特に基準基準と患者選択との関連性)が懸念されていること、そしてエビデンスが低いことは、データから限られた結論を引き出すことができることを示唆している。 進行と模倣を区別するためにMRI機能を使用する機械学習モデルの優れた診断性能がある可能性が高い。 暗黙的特徴を用いたMLの診断性能は明示的特徴を用いたMLよりも優れていなかった。 グリオブラスト腫に対する治療応答モニタリングバイオマーカーとなるmlベースのソリューションは数多く存在する。 これを実現するために、MLモデルの開発と検証には、研究設計におけるコンファウンディングの可能性が慎重に検討された、大きく、十分に注釈付けられたデータセットが必要である。

The aim of the systematic review was to assess recently published studies on diagnostic test accuracy of glioblastoma treatment response monitoring biomarkers in adults, developed through machine learning (ML). Articles were searched for using MEDLINE, EMBASE, and the Cochrane Register. Included study participants were adult patients with high grade glioma who had undergone standard treatment (maximal resection, radiotherapy with concomitant and adjuvant temozolomide) and subsequently underwent follow-up imaging to determine treatment response status. Risk of bias and applicability was assessed with QUADAS 2 methodology. Contingency tables were created for hold-out test sets and recall, specificity, precision, F1-score, balanced accuracy calculated. Fifteen studies were included with 1038 patients in training sets and 233 in test sets. To determine whether there was progression or a mimic, the reference standard combination of follow-up imaging and histopathology at re-operation was applied in 67% of studies. The small numbers of patient included in studies, the high risk of bias and concerns of applicability in the study designs (particularly in relation to the reference standard and patient selection due to confounding), and the low level of evidence, suggest that limited conclusions can be drawn from the data. There is likely good diagnostic performance of machine learning models that use MRI features to distinguish between progression and mimics. The diagnostic performance of ML using implicit features did not appear to be superior to ML using explicit features. There are a range of ML-based solutions poised to become treatment response monitoring biomarkers for glioblastoma. To achieve this, the development and validation of ML models require large, well-annotated datasets where the potential for confounding in the study design has been carefully considered.
翻訳日:2021-04-20 10:43:56 公開日:2021-04-15
# (参考訳) 映像における人物再同定のための空間時間相関とトポロジー学習 [全文訳有]

Spatial-Temporal Correlation and Topology Learning for Person Re-Identification in Videos ( http://arxiv.org/abs/2104.08241v1 )

ライセンス: CC BY 4.0
Jiawei Liu, Zheng-Jun Zha, Wei Wu, Kecheng Zheng, Qibin Sun(参考訳) ビデオベースの人物再識別は、重複しないカメラビュー間でビデオシーケンスから歩行者をマッチングすることを目的としている。 ビデオ人物の再識別の鍵となる要素は、ビデオシーケンスから空間的手がかりと時間的手がかりの両方を効果的に活用することである。 本研究では,空間-時間相関・トポロジー学習フレームワーク(ctl)を提案し,空間-時間相関をモデル化し,識別的かつロバストな表現を追求する。 具体的には、CTLはCNNバックボーンとキーポイント推定器を使用して、グラフノードとして複数の粒度の人体から意味的局所的特徴を抽出する。 グローバルな文脈情報と人体の物理的つながりの両方を考慮し、コンテキスト強化トポロジーを探索し、マルチスケールグラフを構築する。 さらに、3次元グラフ畳み込みとクロススケールグラフ畳み込みをデザインし、階層的空間-時空間依存性と構造情報を取り込むための直接的クロス時空およびクロススケール情報伝達を容易にする。 2つの畳み込みを共同で行うことで、CTLは外観情報と相補的な包括的な手がかりを効果的に掘り下げ、表現能力を高める。 2つのビデオベンチマークによる大規模な実験により,提案手法の有効性と最先端性能が実証された。

Video-based person re-identification aims to match pedestrians from video sequences across non-overlapping camera views. The key factor for video person re-identification is to effectively exploit both spatial and temporal clues from video sequences. In this work, we propose a novel Spatial-Temporal Correlation and Topology Learning framework (CTL) to pursue discriminative and robust representation by modeling cross-scale spatial-temporal correlation. Specifically, CTL utilizes a CNN backbone and a key-points estimator to extract semantic local features from human body at multiple granularities as graph nodes. It explores a context-reinforced topology to construct multi-scale graphs by considering both global contextual information and physical connections of human body. Moreover, a 3D graph convolution and a cross-scale graph convolution are designed, which facilitate direct cross-spacetime and cross-scale information propagation for capturing hierarchical spatial-temporal dependencies and structural information. By jointly performing the two convolutions, CTL effectively mines comprehensive clues that are complementary with appearance information to enhance representational capacity. Extensive experiments on two video benchmarks have demonstrated the effectiveness of the proposed method and the state-of-the-art performance.
翻訳日:2021-04-20 10:24:44 公開日:2021-04-15
# (参考訳) 量子分類器を用いたヒッグス解析 [全文訳有]

Higgs analysis with quantum classifiers ( http://arxiv.org/abs/2104.07692v1 )

ライセンス: CC BY 4.0
Vasileios Belis, Samuel Gonz\'alez-Castillo, Christina Reissel, Sofia Vallecorsa, El\'ias F. Combarro, G\"unther Dissertori, Florentin Reiter(参考訳) 我々は、$t\bar{t}H(b\bar{b})$分類問題に対して、2つの量子分類器モデルを開発した。 量子機械学習 (qml) の手法は, 従来の ml 手法に比べて, 限られた数の qubit が現在のハードウェアで利用可能である場合においても, 低いトレーニングサンプルの場合において, 同様の,あるいはより優れた性能が得られるという概念の証明となる。 量子ビット数の少ないアルゴリズムを利用するため、シミュレーションハードウェアと実際の量子ハードウェアの両方に制限を課すため、異なる特徴削減法を調査した。 古典モデルと量子モデルの両方の性能への影響を評価した。 量子サポートベクトルマシン (qsvm) とカーネルベース手法, 変分量子回路 (vqc) という, 量子機械学習を指導する2つの主要なアプローチの1つである。

We have developed two quantum classifier models for the $t\bar{t}H(b\bar{b})$ classification problem, both of which fall into the category of hybrid quantum-classical algorithms for Noisy Intermediate Scale Quantum devices (NISQ). Our results, along with other studies, serve as a proof of concept that Quantum Machine Learning (QML) methods can have similar or better performance, in specific cases of low number of training samples, with respect to conventional ML methods even with a limited number of qubits available in current hardware. To utilise algorithms with a low number of qubits -- to accommodate for limitations in both simulation hardware and real quantum hardware -- we investigated different feature reduction methods. Their impact on the performance of both the classical and quantum models was assessed. We addressed different implementations of two QML models, representative of the two main approaches to supervised quantum machine learning today: a Quantum Support Vector Machine (QSVM), a kernel-based method, and a Variational Quantum Circuit (VQC), a variational approach.
翻訳日:2021-04-20 10:10:44 公開日:2021-04-15
# (参考訳) フィルタリング自己学習によるジェンダー翻訳精度の向上 [全文訳有]

Improving Gender Translation Accuracy with Filtered Self-Training ( http://arxiv.org/abs/2104.07695v1 )

ライセンス: CC BY 4.0
Prafulla Kumar Choubey, Anna Currey, Prashant Mathur, Georgiana Dinu(参考訳) 対象とする評価では、文脈から性別が明確であっても、機械翻訳システムはしばしば誤った性別を出力する。 さらに、これらの不正確な性翻訳は社会バイアスを反映または増幅する可能性がある。 本研究は,非曖昧な入力に対するジェンダー翻訳精度を向上させるための,ジェンダーフィルターによる自己学習手法を提案する。 このアプローチでは、ソース単言語コーパスと初期モデルを使用して、トレーニングデータに追加される性別固有の擬似並列コーパスを生成する。 我々は、ソースとターゲット側の性別別コーパスをフィルタリングし、文対が特定の性別を含むことを保証する。 英語から5言語への翻訳に関するアプローチを評価し,汎用翻訳品質を犠牲にすることなく,モデルが性別翻訳精度を向上させることを見出した。 さらに,スクラッチからのリトレーニング,微調整,トレーニングデータのバランス制御,前方翻訳,バックトランスレーションなど,いくつかの設定において,我々のアプローチの有効性を示す。

Targeted evaluations have found that machine translation systems often output incorrect gender, even when the gender is clear from context. Furthermore, these incorrectly gendered translations have the potential to reflect or amplify social biases. We propose a gender-filtered self-training technique to improve gender translation accuracy on unambiguously gendered inputs. This approach uses a source monolingual corpus and an initial model to generate gender-specific pseudo-parallel corpora which are then added to the training data. We filter the gender-specific corpora on the source and target sides to ensure that sentence pairs contain and correctly translate the specified gender. We evaluate our approach on translation from English into five languages, finding that our models improve gender translation accuracy without any cost to generic translation quality. In addition, we show the viability of our approach on several settings, including re-training from scratch, fine-tuning, controlling the balance of the training data, forward translation, and back-translation.
翻訳日:2021-04-20 09:58:21 公開日:2021-04-15
# (参考訳) セマンティックロールラベリングのための構文対応グラフ-グラフ変換器 [全文訳有]

Syntax-Aware Graph-to-Graph Transformer for Semantic Role Labelling ( http://arxiv.org/abs/2104.07704v1 )

ライセンス: CC BY 4.0
Alireza Mohammadshahi, James Henderson(参考訳) 意味的役割ラベリング(srl)の目的は、文の述語属性構造を認識することである。 近年のモデルでは、構文情報によりSRLの性能が向上することが示されているが、他の構文に依存しないアプローチは合理的な性能を達成した。 SRLタスクの構文情報をエンコードする最良の方法は、まだ未解決の問題である。 本稿では,構文構造をエンコードする構文認識型グラフ・ツー・グラフトランス(syng2g-tr)アーキテクチャを提案する。 このアプローチは、構文構造に従う注意パターンに対するソフトバイアスを付加するが、モデルはこの情報を使って別のパターンを学ぶことができる。 我々は、依存ベースとスパンベースの両方のSRLデータセットでモデルを評価し、CoNLL 2005とCoNLL 2009データセットで、ドメイン内およびドメイン外設定の両方で、従来の構文認識および構文非依存モデルよりも優れています。 私たちのアーキテクチャは一般的であり、望ましい下流タスクのグラフ情報をエンコードするために適用できます。

The goal of semantic role labelling (SRL) is to recognise the predicate-argument structure of a sentence. Recent models have shown that syntactic information can enhance the SRL performance, but other syntax-agnostic approaches achieved reasonable performance. The best way to encode syntactic information for the SRL task is still an open question. In this paper, we propose the Syntax-aware Graph-to-Graph Transformer (SynG2G-Tr) architecture, which encodes the syntactic structure with a novel way to input graph relations as embeddings directly into the self-attention mechanism of Transformer. This approach adds a soft bias towards attention patterns that follow the syntactic structure but also allows the model to use this information to learn alternative patterns. We evaluate our model on both dependency-based and span-based SRL datasets, and outperform all previous syntax-aware and syntax-agnostic models in both in-domain and out-of-domain settings, on the CoNLL 2005 and CoNLL 2009 datasets. Our architecture is general and can be applied to encode any graph information for a desired downstream task.
翻訳日:2021-04-20 09:35:56 公開日:2021-04-15
# (参考訳) 強化強化によるコントラスト学習 [全文訳有]

Contrastive Learning with Stronger Augmentations ( http://arxiv.org/abs/2104.07713v1 )

ライセンス: CC BY 4.0
Xiao Wang, Guo-Jun Qi(参考訳) 表現学習は、対照的な学習方法の進歩とともに著しく発展してきた。 これらの手法の多くは、同一のインスタンスから変換された画像を取得することができるように、IDを維持するために慎重に指定されている様々なデータ拡張の恩恵を受けている。 しかし、これら慎重に設計された変換は、他の変換によって露呈される新しいパターンをさらに探求することを制限する。 一方、我々の実験で見られるように、強い増強によって画像の構造が歪められ、検索が困難になった。 そこで本研究では,現在のコントラスト学習アプローチを補完するContrastive Learning with Stronger Augmentations~(CLSA) という一般的なフレームワークを提案する。 ここでは、表現バンク上の弱強調画像と強強調画像との分布ばらつきを利用して、インスタンスプールからの強拡張クエリの検索を監督する。 ImageNetデータセットと下流データセットの実験では、強化された画像からの情報がパフォーマンスを大幅に向上することを示した。 例えば、CLSAは1層の分類器を微調整した標準のResNet-50アーキテクチャでImageNetで76.2%というトップ1の精度を達成した。 コードと事前学習されたモデルはhttps://github.com/m aple-research-lab/cl saで入手できる。

Representation learning has significantly been developed with the advance of contrastive learning methods. Most of those methods have benefited from various data augmentations that are carefully designated to maintain their identities so that the images transformed from the same instance can still be retrieved. However, those carefully designed transformations limited us to further explore the novel patterns exposed by other transformations. Meanwhile, as found in our experiments, the strong augmentations distorted the images' structures, resulting in difficult retrieval. Thus, we propose a general framework called Contrastive Learning with Stronger Augmentations~(CLSA) to complement current contrastive learning approaches. Here, the distribution divergence between the weakly and strongly augmented images over the representation bank is adopted to supervise the retrieval of strongly augmented queries from a pool of instances. Experiments on the ImageNet dataset and downstream datasets showed the information from the strongly augmented images can significantly boost the performance. For example, CLSA achieves top-1 accuracy of 76.2% on ImageNet with a standard ResNet-50 architecture with a single-layer classifier fine-tuned, which is almost the same level as 76.5% of supervised results. The code and pre-trained models are available in https://github.com/m aple-research-lab/CL SA.
翻訳日:2021-04-20 09:16:31 公開日:2021-04-15
# (参考訳) マルチエージェント協調とソーシャルラーニングのための共同注意 [全文訳有]

Joint Attention for Multi-Agent Coordination and Social Learning ( http://arxiv.org/abs/2104.07750v1 )

ライセンス: CC BY 4.0
Dennis Lee, Natasha Jaques, Chase Kew, Douglas Eck, Dale Schuurmans, Aleksandra Faust(参考訳) 共同注意 - 他のエージェントと意図的に注意を調整し、同じことを相互に参加する能力 - は、人間の社会的認知の重要な構成要素である。 本稿では,マルチエージェント協調と社会学習を改善するメカニズムとして,共同注意が有用かどうかを問う。 本稿ではまず,視覚的注意を反復する深層強化学習(RL)エージェントを開発する。 次にエージェントを訓練し、各タイミングで環境に適用される注意重量と、他のエージェントの注意との差を最小限に抑える。 以上の結果から,協調行動空間を探索する指数関数的コストを低減し,協調課題を解決するエージェントの能力を向上させることを示唆する。 共同の注意は、複数の環境にまたがる競争集中型批評家のベースラインよりも高いパフォーマンスをもたらす。 さらに,協調を必要としない難解な探索作業が完了しても,協調的注意がエージェントの環境に存在する専門家から学ぶ能力を高めることを示した。 これらの結果から,共同注意は多エージェント学習に有用な帰納的バイアスである可能性が示唆された。

Joint attention - the ability to purposefully coordinate attention with another agent, and mutually attend to the same thing -- is a critical component of human social cognition. In this paper, we ask whether joint attention can be useful as a mechanism for improving multi-agent coordination and social learning. We first develop deep reinforcement learning (RL) agents with a recurrent visual attention architecture. We then train agents to minimize the difference between the attention weights that they apply to the environment at each timestep, and the attention of other agents. Our results show that this joint attention incentive improves agents' ability to solve difficult coordination tasks, by reducing the exponential cost of exploring the joint multi-agent action space. Joint attention leads to higher performance than a competitive centralized critic baseline across multiple environments. Further, we show that joint attention enhances agents' ability to learn from experts present in their environment, even when completing hard exploration tasks that do not require coordination. Taken together, these findings suggest that joint attention may be a useful inductive bias for multi-agent learning.
翻訳日:2021-04-20 08:56:22 公開日:2021-04-15
# (参考訳) AsymmNet:非対称ボトルネックを用いた超軽量畳み込みニューラルネットワークを目指して [全文訳有]

AsymmNet: Towards ultralight convolution neural networks using asymmetrical bottlenecks ( http://arxiv.org/abs/2104.07770v1 )

ライセンス: CC BY 4.0
Haojin Yang, Zhen Shen, Yucheng Zhao(参考訳) 深層畳み込みニューラルネットワーク(cnn)は、さまざまなアプリケーションで驚くべき結果を達成しています。 しかし、メモリや計算資源が限られているため、モバイルや組み込みデバイスでこれらのモデルを使用することは困難である。 近年, 逆残差ブロックはコンパクトCNNのアーキテクチャ設計における支配的ソリューションとなっている。 本研究では,既存の設計概念を包括的に検討し,逆残差の2つの点的畳み込みの機能的特徴を再考した。 非対称ボトルネックと呼ばれる新しい設計を提案する。 正確には、第1のポイントワイド畳み込み次元を調整し、特徴再利用による情報フローを強化し、保存された計算を第2のポイントワイド畳み込みへ移行する。 これにより、計算オーバーヘッドを増大させることなく精度をさらに向上できる。 非対称なボトルネックは、既存のCNNブロックのドロップイン代替として採用することができる。 したがって、適切な深さと幅条件に従ってこれらのブロックを簡単に積み重ねることで、AsymmNetを作成することができる。 大規模な実験により,提案したブロック設計は,モバイルネットワークにおける元の逆の残差ボトルネックよりも有益であることが示され,特に<220M MAddsの体制における超軽量CNNにとって有用である。 コードはhttps://github.com/S park001/AsymmNetで入手できる。

Deep convolutional neural networks (CNN) have achieved astonishing results in a large variety of applications. However, using these models on mobile or embedded devices is difficult due to the limited memory and computation resources. Recently, the inverted residual block becomes the dominating solution for the architecture design of compact CNNs. In this work, we comprehensively investigated the existing design concepts, rethink the functional characteristics of two pointwise convolutions in the inverted residuals. We propose a novel design, called asymmetrical bottlenecks. Precisely, we adjust the first pointwise convolution dimension, enrich the information flow by feature reuse, and migrate saved computations to the second pointwise convolution. By doing so we can further improve the accuracy without increasing the computation overhead. The asymmetrical bottlenecks can be adopted as a drop-in replacement for the existing CNN blocks. We can thus create AsymmNet by easily stack those blocks according to proper depth and width conditions. Extensive experiments demonstrate that our proposed block design is more beneficial than the original inverted residual bottlenecks for mobile networks, especially useful for those ultralight CNNs within the regime of <220M MAdds. Code is available at https://github.com/S park001/AsymmNet
翻訳日:2021-04-20 08:36:30 公開日:2021-04-15
# (参考訳) 高次元の不均質テンソル混合モデル

Heterogeneous Tensor Mixture Models in High Dimensions ( http://arxiv.org/abs/2104.07773v1 )

ライセンス: CC BY 4.0
Biao Cai, Jingfei Zhang and Will Wei Sun(参考訳) 不均一な共分散を伴うフレキシブルな高次元テンソル混合モデルを導入することにより、テンソルの連成モデルとクラスタリング集団の問題を考察する。 提案した混合モデルはテンソルデータの固有構造を利用しており、低ランクかつ内部スパースな手段と、分離可能かつ条件付きスパースな異種共分散を持つと考えられる。 我々は,Mステップの難解な最適化を複数の単純な条件最適化問題に分解する,効率的な高次元予測条件最適化(HECM)アルゴリズムを開発した。 提案するhecmアルゴリズムは,適切な初期化を伴い,実パラメータの統計的精度以下の近傍に幾何学的に収束することを示す。 このような理論解析は、em型推定とm-ステップにおける非凸目的関数の両方から生じる双対非凸性のため、非常に非自明である。 本手法の有効性は, シミュレーション研究および自閉症スペクトラム障害研究への応用を通じて実証され, 診断において重要な脳領域を同定する。

We consider the problem of jointly modeling and clustering populations of tensors by introducing a flexible high-dimensional tensor mixture model with heterogeneous covariances. The proposed mixture model exploits the intrinsic structures of tensor data, and is assumed to have means that are low-rank and internally sparse as well as heterogeneous covariances that are separable and conditionally sparse. We develop an efficient high-dimensional expectation-conditio nal-maximization (HECM) algorithm that breaks the challenging optimization in the M-step into several simpler conditional optimization problems, each of which is convex, admits regularization and has closed-form updating formulas. We show that the proposed HECM algorithm, with an appropriate initialization, converges geometrically to a neighborhood that is within statistical precision of the true parameter. Such a theoretical analysis is highly nontrivial due to the dual non-convexity arising from both the EM-type estimation and the non-convex objective function in the M-step. The efficacy of our proposed method is demonstrated through simulation studies and an application to an autism spectrum disorder study, where our analysis identifies important brain regions for diagnosis.
翻訳日:2021-04-20 08:23:12 公開日:2021-04-15
# (参考訳) リモートセンシングデータの分類における領域適応の最近の進歩

Recent Advances in Domain Adaptation for the Classification of Remote Sensing Data ( http://arxiv.org/abs/2104.07778v1 )

ライセンス: CC BY-SA 4.0
Devis Tuia, Claudio Persello, Lorenzo Bruzzone(参考訳) 大規模な地理的領域や短時間で取得したリモートセンシング画像の教師付き分類の成功は、分類アルゴリズムの訓練やモデルの定義に使用されるサンプルの表現力に大きく依存する。 マッピングに使われる画像(または空間領域)とは異なる画像(または空間領域)からトレーニングサンプルを収集すると、2つの分布間のスペクトルシフトがモデルに失敗する可能性が高い。 このような変化は、一般的に、取得と大気条件の違いや観測される物体の性質の変化によるものである。 データセットシフトに頑健な分類手法を設計するために、最近のリモートセンシング文献はドメイン適応(DA)アプローチに基づく解決策を検討した。 機械学習の文献に触発され、リモートセンシングデータ分類の特定の問題を解決するためにいくつかのda手法が提案されている。 本稿では, リモートセンシングにおけるdaの最近の進歩について批判的なレビューを行い, i) 不変特徴の選択, ii) 表現マッチング, iii) 分類器の適応, iv) 選択的サンプリングの4つのカテゴリに分けた手法の概要を紹介する。 本稿では,最近の手法の概要と,空間分解能とスペクトル分解能を特徴とする実リモートセンシング画像への検討手法の適用例を紹介する。 最後に,実際のアプリケーションシナリオで使用するメソッドの選択に関するガイドラインを提案する。

The success of supervised classification of remotely sensed images acquired over large geographical areas or at short time intervals strongly depends on the representativity of the samples used to train the classification algorithm and to define the model. When training samples are collected from an image (or a spatial region) different from the one used for mapping, spectral shifts between the two distributions are likely to make the model fail. Such shifts are generally due to differences in acquisition and atmospheric conditions or to changes in the nature of the object observed. In order to design classification methods that are robust to data-set shifts, recent remote sensing literature has considered solutions based on domain adaptation (DA) approaches. Inspired by machine learning literature, several DA methods have been proposed to solve specific problems in remote sensing data classification. This paper provides a critical review of the recent advances in DA for remote sensing and presents an overview of methods divided into four categories: i) invariant feature selection; ii) representation matching; iii) adaptation of classifiers and iv) selective sampling. We provide an overview of recent methodologies, as well as examples of application of the considered techniques to real remote sensing images characterized by very high spatial and spectral resolution. Finally, we propose guidelines to the selection of the method to use in real application scenarios.
翻訳日:2021-04-20 08:21:59 公開日:2021-04-15
# (参考訳) 教師付きリモートセンシング画像分類のためのアクティブラーニングアルゴリズムの検討 [全文訳有]

A survey of active learning algorithms for supervised remote sensing image classification ( http://arxiv.org/abs/2104.07784v1 )

ライセンス: CC BY-SA 4.0
Devis Tuia, Michele Volpi, Loris Copa, Mikhail Kanevski, Jordi Munoz-Mari(参考訳) 効率的なトレーニングセットを定義することは、リモートセンシングイメージ分類ルーチンの成功の最も繊細なフェーズの1つです。 問題の複雑さ、時間的および財政的なリソースの制限、および高いクラス内分散は、最適化データセットでトレーニングされた場合、アルゴリズムを失敗させる可能性がある。 アクティブラーニングは、サンプリングによるモデルパフォーマンスを反復的に改善することで、効率的なトレーニングセットを構築することを目的としている。 ユーザ定義ヒューリスティックは、クラスメンバーシップの不確実性の関数に従ってラベル付き画素をランク付けし、ユーザが最も不確実なピクセルに対してラベルを提供するように依頼する。 本稿では,アクティブラーニングアルゴリズムのメインファミリーである,委員会,大きなマージン,後続確率に基づくレビューと検証を行う。 それぞれについて,リモートセンシングコミュニティにおける最新の進歩を議論し,いくつかのヒューリスティックを詳細に検証した。 空間分解能やハイパースペクトル画像の分類など、いくつかの困難なリモートセンシングシナリオが検討されている。 最後に、優れたアーキテクチャを選択するためのガイドラインを、新規および/または未経験のユーザに提供します。

Defining an efficient training set is one of the most delicate phases for the success of remote sensing image classification routines. The complexity of the problem, the limited temporal and financial resources, as well as the high intraclass variance can make an algorithm fail if it is trained with a suboptimal dataset. Active learning aims at building efficient training sets by iteratively improving the model performance through sampling. A user-defined heuristic ranks the unlabeled pixels according to a function of the uncertainty of their class membership and then the user is asked to provide labels for the most uncertain pixels. This paper reviews and tests the main families of active learning algorithms: committee, large margin and posterior probability-based. For each of them, the most recent advances in the remote sensing community are discussed and some heuristics are detailed and tested. Several challenging remote sensing scenarios are considered, including very high spatial resolution and hyperspectral image classification. Finally, guidelines for choosing the good architecture are provided for new and/or unexperienced user.
翻訳日:2021-04-20 08:20:45 公開日:2021-04-15
# (参考訳) テキスト行認識モデルの再考 [全文訳有]

Rethinking Text Line Recognition Models ( http://arxiv.org/abs/2104.07787v1 )

ライセンス: CC BY 4.0
Daniel Hernandez Diaz, Siyang Qin, Reeve Ingle, Yasuhisa Fujii, Alessandro Bissacco(参考訳) 本稿では,テキスト線認識の問題について検討する。 シーンテキストや手書き文書などの特定のドメインを対象とするほとんどのアプローチとは異なり、ソースや入力のモダリティに関わらず、任意の画像からテキストを抽出できるユニバーサルアーキテクチャを開発するという一般的な問題について検討する。 2つのデコーダ群(コネクショニストの時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM,自己認識,GRCL)について検討し,その精度と性能をシーンや手書きテキストの公開データセットで比較した。 外部言語モデルと組み合わされ、パブリックデータと内部データの両方でトレーニングされた場合、ctcデコーダと結合したセルフアテンションエンコーダは、他のすべての言語よりも正確で計算の複雑さにおいて優れていることが判明した。 より一般的なトランスフォーマーベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を扱うことができる。 複数のソースから収集された内部データセットを用いて、比較的狭い画像幅とシーケンス長分布は、長い行の書き起こしに適用しても、トランスフォーマーアプローチの品質劣化を観察できないため、ライン認識器の精度を評価する際の現在の公開データセットの限界を明らかにする。

In this paper, we study the problem of text line recognition. Unlike most approaches targeting specific domains such as scene-text or handwritten documents, we investigate the general problem of developing a universal architecture that can extract text from any image, regardless of source or input modality. We consider two decoder families (Connectionist Temporal Classification and Transformer) and three encoder modules (Bidirectional LSTMs, Self-Attention, and GRCLs), and conduct extensive experiments to compare their accuracy and performance on widely used public datasets of scene and handwritten text. We find that a combination that so far has received little attention in the literature, namely a Self-Attention encoder coupled with the CTC decoder, when compounded with an external language model and trained on both public and internal data, outperforms all the others in accuracy and computational complexity. Unlike the more common Transformer-based models, this architecture can handle inputs of arbitrary length, a requirement for universal line recognition. Using an internal dataset collected from multiple sources, we also expose the limitations of current public datasets in evaluating the accuracy of line recognizers, as the relatively narrow image width and sequence length distributions do not allow to observe the quality degradation of the Transformer approach when applied to the transcription of long lines.
翻訳日:2021-04-20 07:58:37 公開日:2021-04-15
# (参考訳) PyTorch Geometric Temporal:ニューラル機械学習モデルを用いた時空間信号処理 [全文訳有]

PyTorch Geometric Temporal: Spatiotemporal Signal Processing with Neural Machine Learning Models ( http://arxiv.org/abs/2104.07788v1 )

ライセンス: CC BY 4.0
Benedek Rozemberczki and Paul Scherer and Yixuan He and George Panagopoulos and Maria Astefanoaei and Oliver Kiss and Ferenc Beres and Nicolas Collignon and Rik Sarkar(参考訳) PyTorch Geometric Temporalは,ニューラル時空間信号処理のための最先端機械学習アルゴリズムを組み合わせたディープラーニングフレームワークである。 このライブラリの主な目的は、研究者や機械学習実践者が統合された使いやすいフレームワークで時間的幾何学的深層学習を利用できるようにすることである。 PyTorch Geometric Temporalは、PyTorchエコシステムの既存のライブラリ、合理化されたニューラルネットワーク層の定義、バッチ処理用の時間スナップショットジェネレータ、統合ベンチマークデータセットの基盤として開発された。 これらの機能はチュートリアルのようなケーススタディで示されています。 実験では, 疫学予測, ライドヘイル需要予測, ウェブトラヒック管理など, 実世界の問題に対して, 図書館で実施したモデルの予測性能を示す。 ランタイムの感度分析は、フレームワークがリッチな時間的特徴と空間構造を持つwebスケールデータセット上で動作可能であることを示している。

We present PyTorch Geometric Temporal a deep learning framework combining state-of-the-art machine learning algorithms for neural spatiotemporal signal processing. The main goal of the library is to make temporal geometric deep learning available for researchers and machine learning practitioners in a unified easy-to-use framework. PyTorch Geometric Temporal was created with foundations on existing libraries in the PyTorch eco-system, streamlined neural network layer definitions, temporal snapshot generators for batching, and integrated benchmark datasets. These features are illustrated with a tutorial-like case study. Experiments demonstrate the predictive performance of the models implemented in the library on real world problems such as epidemiological forecasting, ridehail demand prediction and web-traffic management. Our sensitivity analysis of runtime shows that the framework can potentially operate on web-scale datasets with rich temporal features and spatial structure.
翻訳日:2021-04-20 07:36:00 公開日:2021-04-15
# (参考訳) アクティブラーニングに対するユーザの自信の学習 [全文訳有]

Learning User's confidence for active learning ( http://arxiv.org/abs/2104.07791v1 )

ライセンス: CC BY-SA 4.0
Devis Tuia, Jordi Munoz-Mari(参考訳) 本稿では,動作シナリオにおけるアクティブラーニングの適用性について検討し,特に,不確実性に応じて画素をランク付けするアクティブラーニングヒューリスティックスと,ピクセルコンテキストの均一性とユーザのシーンに関する知識の両方に関連するユーザのラベリングに対する信頼性の矛盾について考察する。 本稿では,ラベル付けにおけるユーザの信頼度を学習する分類器に基づくフィルタリング手法を提案する。 ユーザの信頼度を学習するモデルの能力について詳細に研究し、また、解決の効果を示すこともそのような学習課題である。 異なる解像度の2つのQuickBird画像(パンスハーペティングとパンスハーペニング)とユーザ委員会による実験により,従来のアクティブラーニングに関して有用なクエリの数を最大化するフィルタリング方式の有効性が証明された。

In this paper, we study the applicability of active learning in operative scenarios: more particularly, we consider the well-known contradiction between the active learning heuristics, which rank the pixels according to their uncertainty, and the user's confidence in labeling, which is related to both the homogeneity of the pixel context and user's knowledge of the scene. We propose a filtering scheme based on a classifier that learns the confidence of the user in labeling, thus minimizing the queries where the user would not be able to provide a class for the pixel. The capacity of a model to learn the user's confidence is studied in detail, also showing the effect of resolution is such a learning task. Experiments on two QuickBird images of different resolutions (with and without pansharpening) and considering committees of users prove the efficiency of the filtering scheme proposed, which maximizes the number of useful queries with respect to traditional active learning.
翻訳日:2021-04-20 07:20:32 公開日:2021-04-15
# (参考訳) 数値シミュレーションのための幾何符号化 [全文訳有]

Geometry encoding for numerical simulations ( http://arxiv.org/abs/2104.07792v1 )

ライセンス: CC BY-SA 4.0
Amir Maleki, Jan Heyse, Rishikesh Ranade, Haiyang He, Priya Kasimbeg and Jay Pathak(参考訳) 本稿では,機械学習に基づく数値シミュレーションに適した幾何符号化の概念を提案する。 特に、このエンコーディングの概念が、コンピュータビジョンやコンピュータグラフィックスといった他の分野で一般的に使用される他のエンコーディングアルゴリズムとどのように異なるかを説明する。 また,プロセッサ,圧縮機,評価器を含む複数のニューラルネットワークで構成されるモデルを提案する。 エンコーディングモデルと文献の類似モデルを比較します

We present a notion of geometry encoding suitable for machine learning-based numerical simulation. In particular, we delineate how this notion of encoding is different than other encoding algorithms commonly used in other disciplines such as computer vision and computer graphics. We also present a model comprised of multiple neural networks including a processor, a compressor and an evaluator.These parts each satisfy a particular requirement of our encoding. We compare our encoding model with the analogous models in the literature
翻訳日:2021-04-20 07:03:32 公開日:2021-04-15
# (参考訳) 合成前訓練によるロバストニューラルネットワーク検索モデルの構築 [全文訳有]

Towards Robust Neural Retrieval Models with Synthetic Pre-Training ( http://arxiv.org/abs/2104.07800v1 )

ライセンス: CC BY 4.0
Revanth Gangi Reddy, Vikas Yadav, Md Arafat Sultan, Martin Franz, Vittorio Castelli, Heng Ji, Avirup Sil(参考訳) 近年の研究では、汎用マシンリーディング理解(mrc)データセットが高性能ニューラルネットワーク検索(ir)システムのトレーニングに使用できることが示されている。 しかし、これまでのところ、ニューラルIRの評価は標準的な教師付き学習設定に限られており、従来の用語マッチングベースラインよりも優れていた。 我々は,ニューラルirのドメイン内およびドメイン外の評価を行い,ゼロショット設定を含むさまざまなシナリオにおけるロバスト性の向上を目指す。 本研究では,シーケンス・ツー・シーケンス・ジェネレータを用いて生成した合成トレーニング例を,本実験において,ドメイン内およびドメイン外の5つのテストセットにおける検索性能を向上させることを目的とした。

Recent work has shown that commonly available machine reading comprehension (MRC) datasets can be used to train high-performance neural information retrieval (IR) systems. However, the evaluation of neural IR has so far been limited to standard supervised learning settings, where they have outperformed traditional term matching baselines. We conduct in-domain and out-of-domain evaluations of neural IR, and seek to improve its robustness across different scenarios, including zero-shot settings. We show that synthetic training examples generated using a sequence-to-sequence generator can be effective towards this goal: in our experiments, pre-training with synthetic examples improves retrieval performance in both in-domain and out-of-domain evaluation on five different test sets.
翻訳日:2021-04-20 06:56:41 公開日:2021-04-15
# (参考訳) マルチモーダルリモートセンシング画像の半教師あり多様体アラインメント [全文訳有]

Semisupervised Manifold Alignment of Multimodal Remote Sensing Images ( http://arxiv.org/abs/2104.07803v1 )

ライセンス: CC BY-SA 4.0
Devis Tuia, Michele Volpi, Maxime Trolliet, Gustau Camps-Valls(参考訳) 本稿では,リモートセンシング画像の異なるモダリティ(領域)の多様体アライメント手法を提案する。 この問題は、マルチテンポラリ、マルチソース、マルチセンサー、マルチ角画像の集合が利用可能である場合に繰り返し発生する。 これらの状況では、画像領域の違いに対して、画像は理想的に空間的にコアレジストリされ、修正され、補償されるべきである。 このような手順はユーザのインタラクションを必要とし、多くのパラメータとヒューリスティックのチューニングを伴い、通常は別々に適用される。 センサと取得条件の変化は、画像分布(または多様体)のシフト、ツイスト、ワープ、折り畳みへと変換される。 提案した半教師付き多様体アライメント(SS-MA)法は、それらの多様体に直接作用する画像を整列させ、したがってスペクトルまたは空間の同じ解像度の画像に制限されない。 SS-MAは、異なるクラスのサンプルを分離しながら、同じクラスのサンプルを閉じます。 同時に、変換に沿って各多様体の幾何学を保存する。 この方法は、すべての画像が類似する潜在空間への線形可逆変換を構築し、適度な大きさの一般化固有問題を解くことに還元する。 SS-MAの玩具実例および実多角・多角・多ソース画像分類問題における性能について検討する。 この方法は強い変形に対してよく機能し、全ての領域の正確な分類につながる。

We introduce a method for manifold alignment of different modalities (or domains) of remote sensing images. The problem is recurrent when a set of multitemporal, multisource, multisensor and multiangular images is available. In these situations, images should ideally be spatially coregistred, corrected and compensated for differences in the image domains. Such procedures require the interaction of the user, involve tuning of many parameters and heuristics, and are usually applied separately. Changes of sensors and acquisition conditions translate into shifts, twists, warps and foldings of the image distributions (or manifolds). The proposed semisupervised manifold alignment (SS-MA) method aligns the images working directly on their manifolds, and is thus not restricted to images of the same resolutions, either spectral or spatial. SS-MA pulls close together samples of the same class while pushing those of different classes apart. At the same time, it preserves the geometry of each manifold along the transformation. The method builds a linear invertible transformation to a latent space where all images are alike, and reduces to solving a generalized eigenproblem of moderate size. We study the performance of SS-MA in toy examples and in real multiangular, multitemporal, and multisource image classification problems. The method performs well for strong deformations and leads to accurate classification for all domains.
翻訳日:2021-04-20 06:48:01 公開日:2021-04-15
# (参考訳) 具体的ミスマッチを伴う模倣学習における骨格特徴量補償 [全文訳有]

Skeletal Feature Compensation for Imitation Learning with Embodiment Mismatch ( http://arxiv.org/abs/2104.07810v1 )

ライセンス: CC BY 4.0
Eddy Hudson, Garrett Warnell, Faraz Torabi, Peter Stone(参考訳) 野生でのデモ(例)から学ぶ YouTubeビデオ)は模倣学習の目標だ。 しかし、この目標を達成するためには、模擬学習アルゴリズムは、デモ参加者と学習者が互いに異なる身体を持つ可能性があるという事実に対処する必要がある。 この「身体的ミスマッチ」は、近年の模倣学習アルゴリズムでは無視されている。 提案手法であるSILEM(\textbf{S}keletal feature compensation for \textbf{I}mitation \textbf{L}earning with \textbf{E}mbodiment \textbf{M}ismatch)は,学習者や専門家から得られた骨格特徴の違いを補償するアフィン変換を導入することで,特定の種類の実施ミスマッチに対処する。 我々は、PyBulletのHalfCheetahとAntに基づいておもちゃのドメインを作成し、SILEMのこの種のエンボディメントミスマッチに対する利点を評価する。 我々はまた、より現実的な問題に関する質的かつ定量的な結果も提供します -- ボストン・ダイナミクスのAtlasを含むシミュレーションされたヒューマノイドエージェントに、人間のデモを観察して歩くように教えています。

Learning from demonstrations in the wild (e.g. YouTube videos) is a tantalizing goal in imitation learning. However, for this goal to be achieved, imitation learning algorithms must deal with the fact that the demonstrators and learners may have bodies that differ from one another. This condition -- "embodiment mismatch" -- is ignored by many recent imitation learning algorithms. Our proposed imitation learning technique, SILEM (\textbf{S}keletal feature compensation for \textbf{I}mitation \textbf{L}earning with \textbf{E}mbodiment \textbf{M}ismatch), addresses a particular type of embodiment mismatch by introducing a learned affine transform to compensate for differences in the skeletal features obtained from the learner and expert. We create toy domains based on PyBullet's HalfCheetah and Ant to assess SILEM's benefits for this type of embodiment mismatch. We also provide qualitative and quantitative results on more realistic problems -- teaching simulated humanoid agents, including Atlas from Boston Dynamics, to walk by observing human demonstrations.
翻訳日:2021-04-20 06:24:04 公開日:2021-04-15
# (参考訳) パーティショナーシップを意識したトピック埋め込みを用いたCOVID-19ニュースのポーラライズトポイズドトポイクスの検出 [全文訳有]

Detecting Polarized Topics in COVID-19 News Using Partisanship-aware Contextualized Topic Embeddings ( http://arxiv.org/abs/2104.07814v1 )

ライセンス: CC BY 4.0
Zihao He, Negar Mokhberian, Antonio Camara, Andres Abeliuk, Kristina Lerman(参考訳) ニュースメディアの分極化の高まりは、熱狂的な意見の相違、論争、暴力までもが非難されている。 分極されたトピックの早期発見は、紛争の緩和に役立つ緊急事項である。 しかし、偏波の正確な測定は依然として研究課題である。 このギャップに対処するために、パルチザンニュースソースから偏光トピックを自動的に検出するPaCTE(Partisanship-a ware Contextualized Topic Embeddings)を提案する。 具体的には,ニュース記事のパルティナシップ認識を微調整した言語モデルを用いて,コーパスコンテキスト化トピック埋め込みにより,トピックに関するニュースソースのイデオロギーを表現し,コサイン類似性を用いてソース間の分極を測定する。 我々はこの手法を新型コロナウイルスのパンデミックに関するニュースのコーパスに適用する。 異なるニュースソースとトピックに対する広範な実験は、異なるニュースソース間のトピックの分極とアライメントを正確に捉える方法の有効性を示す。 結果の明確化と検証に役立ち,モラル基礎理論を用いて分極を説明する。

Growing polarization of the news media has been blamed for fanning disagreement, controversy and even violence. Early identification of polarized topics is thus an urgent matter that can help mitigate conflict. However, accurate measurement of polarization is still an open research challenge. To address this gap, we propose Partisanship-aware Contextualized Topic Embeddings (PaCTE), a method to automatically detect polarized topics from partisan news sources. Specifically, we represent the ideology of a news source on a topic by corpus-contextualize d topic embedding utilizing a language model that has been finetuned on recognizing partisanship of the news articles, and measure the polarization between sources using cosine similarity. We apply our method to a corpus of news about COVID-19 pandemic. Extensive experiments on different news sources and topics demonstrate the effectiveness of our method to precisely capture the topical polarization and alignment between different news sources. To help clarify and validate results, we explain the polarization using the Moral Foundation Theory.
翻訳日:2021-04-20 06:11:15 公開日:2021-04-15
# (参考訳) 鏡視下画像分類における分布外検出 [全文訳有]

Out-of-Distribution Detection for Dermoscopic Image Classification ( http://arxiv.org/abs/2104.07819v1 )

ライセンス: CC BY 4.0
Mohammadreza Mohseni, Jordan Yap, William Yolland, Majid Razmara, M Stella Atkins(参考訳) 深層ニューラルネットワークによって医療画像診断が可能であり、疾患クラスごとに十分なトレーニングデータがある。 しかし、訓練中に遭遇しない未知の病気クラスは、低い確率で予測しても必然的に誤分類される。 この問題は医用画像診断において特に重要であり、特に皮膚鏡などの同一画像領域から画像が得られた場合に、被検者不明の疾患の画像が診断のために提示される。 現在の分布外検出アルゴリズムは、分布内クラスが不均衡な場合に不公平に動作し、トレーニングセットで最も多い疾患を選択する。 これは、しばしば医学的に重要なまれな症例の誤診につながる可能性がある。 そこで我々は,神経ネットワークを訓練する新しい手法を開発し,皮膚疾患の画像の分布を分類し,検査時に皮膚内視鏡画像から新たな疾患を検出する。 提案手法は,データのバランスが取れない場合の分類バランスのよい精度を損なうだけでなく,バランスの取れた精度を一貫して向上させる。 また,実環境において発生する可能性のある多種多様な分散データの存在に基づいて,分散検出手法の有効性を検討するための重要な手法を提案する。

Medical image diagnosis can be achieved by deep neural networks, provided there is enough varied training data for each disease class. However, a hitherto unknown disease class not encountered during training will inevitably be misclassified, even if predicted with low probability. This problem is especially important for medical image diagnosis, when an image of a hitherto unknown disease is presented for diagnosis, especially when the images come from the same image domain, such as dermoscopic skin images. Current out-of-distribution detection algorithms act unfairly when the in-distribution classes are imbalanced, by favouring the most numerous disease in the training sets. This could lead to false diagnoses for rare cases which are often medically important. We developed a novel yet simple method to train neural networks, which enables them to classify in-distribution dermoscopic skin disease images and also detect novel diseases from dermoscopic images at test time. We show that our BinaryHeads model not only does not hurt classification balanced accuracy when the data is imbalanced, but also consistently improves the balanced accuracy. We also introduce an important method to investigate the effectiveness of out-of-distribution detection methods based on presence of varying amounts of out-of-distribution data, which may arise in real-world settings.
翻訳日:2021-04-20 05:57:33 公開日:2021-04-15
# (参考訳) 2型糖尿病の予測とケアマネジメントのための機械学習アプローチ

Machine Learning Approaches for Type 2 Diabetes Prediction and Care Management ( http://arxiv.org/abs/2104.07820v1 )

ライセンス: CC BY 4.0
Aloysius Lim, Ashish Singh, Jody Chiam, Carly Eckert, Vikas Kumar, Muhammad Aurangzeb Ahmad, Ankur Teredesai(参考訳) 糖尿病の予測とその合併症は, 様々な場面で研究されてきたが, 糖尿病の予測とケアマネジメントの問題点について, 総合的な概観は文献に発表されていない。 本論文では,糖尿病合併症予測の包括的概要と,現実的な医療管理の文脈におけるこの問題の解決をめざして,文献におけるこの欠失の解消を図る。 我々は、そのようなモデルの構築と展開の経験を通じて、実世界の臨床シナリオで遭遇した様々な問題について説明する。 本稿では,2型糖尿病(t2dm)を予測するための機械学習(ml)フレームワークと,リスク階層化,介入,管理のためのソリューションについて述べる。 これらのMLモデルは、医師が病気の管理と緩和についてどう考えるかに一致しており、それらはIdentify, Stratify, Engage, Measureという4つのステップから構成される。

Prediction of diabetes and its various complications has been studied in a number of settings, but a comprehensive overview of problem setting for diabetes prediction and care management has not been addressed in the literature. In this document we seek to remedy this omission in literature with an encompassing overview of diabetes complication prediction as well as situating this problem in the context of real world healthcare management. We illustrate various problems encountered in real world clinical scenarios via our own experience with building and deploying such models. In this manuscript we illustrate a Machine Learning (ML) framework for addressing the problem of predicting Type 2 Diabetes Mellitus (T2DM) together with a solution for risk stratification, intervention and management. These ML models align with how physicians think about disease management and mitigation, which comprises these four steps: Identify, Stratify, Engage, Measure.
翻訳日:2021-04-20 05:44:38 公開日:2021-04-15
# (参考訳) NePTuNe:知識グラフ補完のためのニューラルネットワークタッカーネットワーク [全文訳有]

NePTuNe: Neural Powered Tucker Network for Knowledge Graph Completion ( http://arxiv.org/abs/2104.07824v1 )

ライセンス: CC BY 4.0
Shashank Sonkar, Arzoo Katiyar and Richard G. Baraniuk(参考訳) 知識グラフは、実世界の事実の構造化表現を提供するために関係を通してエンティティをリンクします。 しかし、それらはしばしば不完全であり、それはすべての可算事実のごく一部に基づいているからである。 リンク予測による知識グラフ補完のタスクは、エンティティ間のリンクとして表される欠落した事実を推測することで、この課題を克服することを目的としている。 リンク予測の現在のアプローチは、テンソル因子化とディープラーニングを活用する。 因子化手法は,少数のパラメータによって急速に訓練・展開するが,基礎となる線形手法により表現力に制限がある。 深層学習法は表現力が高いが、計算コストも高く、訓練可能なパラメータの多さから過度に適合する傾向にある。 線形モデルの速度とサイズとを結合した新しいハイブリッドリンク予測モデルであるニューラルパワータッカーネットワーク(NePTuNe)を提案する。 我々は,NePTuNeがFB15K-237データセットの最先端性能とWN18RRデータセットの最先端性能を提供することを示した。

Knowledge graphs link entities through relations to provide a structured representation of real world facts. However, they are often incomplete, because they are based on only a small fraction of all plausible facts. The task of knowledge graph completion via link prediction aims to overcome this challenge by inferring missing facts represented as links between entities. Current approaches to link prediction leverage tensor factorization and/or deep learning. Factorization methods train and deploy rapidly thanks to their small number of parameters but have limited expressiveness due to their underlying linear methodology. Deep learning methods are more expressive but also computationally expensive and prone to overfitting due to their large number of trainable parameters. We propose Neural Powered Tucker Network (NePTuNe), a new hybrid link prediction model that couples the expressiveness of deep models with the speed and size of linear models. We demonstrate that NePTuNe provides state-of-the-art performance on the FB15K-237 dataset and near state-of-the-art performance on the WN18RR dataset.
翻訳日:2021-04-20 05:43:34 公開日:2021-04-15
# 学費予算でBERTを訓練する方法

How to Train BERT with an Academic Budget ( http://arxiv.org/abs/2104.07705v1 )

ライセンス: Link先を確認
Peter Izsak, Moshe Berchansky, Omer Levy(参考訳) 大規模な言語モデル \`a la BERT は NLP でユビキタスに使われているが、事前訓練は、資金の潤沢な産業実験室にしか手に入らない高級品だと考えられている。 そんなモデルをもっと控えめな予算でどうやって訓練できるのか? マスキング言語モデルの事前トレーニングを24時間で行うためのレシピを,低レンジ12gbのgpuを8台使用して紹介する。 ソフトウェア最適化,設計選択,ハイパーパラメータチューニングの組み合わせによって,初期トレーニングコストのごく一部で,グルータスク上でbertベースと競合するモデルを生成することが可能であることを実証した。

While large language models \`a la BERT are used ubiquitously in NLP, pretraining them is considered a luxury that only a few well-funded industry labs can afford. How can one train such models with a more modest budget? We present a recipe for pretraining a masked language model in 24 hours, using only 8 low-range 12GB GPUs. We demonstrate that through a combination of software optimizations, design choices, and hyperparameter tuning, it is possible to produce models that are competitive with BERT-base on GLUE tasks at a fraction of the original pretraining cost.
翻訳日:2021-04-19 14:40:35 公開日:2021-04-15
# BERTは臨床ノートに事前訓練されるか?

Does BERT Pretrained on Clinical Notes Reveal Sensitive Data? ( http://arxiv.org/abs/2104.07762v1 )

ライセンス: Link先を確認
Eric Lehman, Sarthak Jain, Karl Pichotta, Yoav Goldberg, Byron C. Wallace(参考訳) 電子健康記録 (ehr) から臨床記録を事前学習した大型変圧器は、予測的な臨床作業においてかなりの性能向上をもたらした。 このようなモデル(およびデータアクセスの必要性)をトレーニングするコストと、その実用性によって、パラメータ共有、すなわちclinicalbertのような事前トレーニング済みモデルのリリースが動機付けされる。 ほとんどの研究は、特定されたEHRを使用してきたが、多くの研究者は、BERTモデル(または同様のもの)をトレーニングする、機密性の高い非特定されたEHRの大規模なセットにアクセスすることができる。 もしそうなら、そのようなモデルの重みを解放することは安全だろうか? 本研究では、PHI(Personal Health Information)をトレーニングされたBERTから回収するためのアプローチの電池を設計する。 具体的には,患者の名前と関連した状態の回復を試みている。 簡単な探索法では,MIMIC-IIIコーパス上で訓練されたBERTから機密情報を有意に抽出できないことがわかった。 このような研究を容易にするために、実験的なセットアップとベースラインの探索モデルをhttps://github.com/e lehman16/exposing_pa tient_data_releaseで利用可能にします。

Large Transformers pretrained over clinical notes from Electronic Health Records (EHR) have afforded substantial gains in performance on predictive clinical tasks. The cost of training such models (and the necessity of data access to do so) coupled with their utility motivates parameter sharing, i.e., the release of pretrained models such as ClinicalBERT. While most efforts have used deidentified EHR, many researchers have access to large sets of sensitive, non-deidentified EHR with which they might train a BERT model (or similar). Would it be safe to release the weights of such a model if they did? In this work, we design a battery of approaches intended to recover Personal Health Information (PHI) from a trained BERT. Specifically, we attempt to recover patient names and conditions with which they are associated. We find that simple probing methods are not able to meaningfully extract sensitive information from BERT trained over the MIMIC-III corpus of EHR. However, more sophisticated "attacks" may succeed in doing so: To facilitate such research, we make our experimental setup and baseline probing models available at https://github.com/e lehman16/exposing_pa tient_data_release
翻訳日:2021-04-19 14:40:24 公開日:2021-04-15
# 健康成果の検出と分類 --ジョイントスパンの検出と分類-

Detect and Classify -- Joint Span Detection and Classification for Health Outcomes ( http://arxiv.org/abs/2104.07789v1 )

ライセンス: Link先を確認
Michael Abaho, Danushka Bollegala, Paula Williamson, Susanna Dodd(参考訳) 健康成果とは、治療の効果を捉え、評価するために用いられる測定または観察である。 テキストから健康結果の自動検出は、間違いなく医療意思決定に必要な証拠へのアクセスをスピードアップさせるだろう。 結果検出に関する以前の作業は、このタスクを、(a) シーケンスラベリングタスク、(b) 健康成果を記述したテキストスパンを検出すること、または(b) テキストのどこかで言及される結果に応じて、予め定義されたカテゴリに分類することを目的としている分類タスクとしてモデル化した。 しかし、このスパン検出と分類の分離はモデリングの観点から問題であり、与えられたテキストに存在する文レベルの情報と単語レベルの情報の全体構造的対応を無視する。 本稿では,単語レベル情報と文レベル情報の両方を用いて,結果スパン検出と結果型分類を同時に行う手法を提案する。 隠れベクトルに文脈情報を注入するだけでなく,単語レベルと文レベルの情報を適切に重み付けするためにラベルアテンションを用いる。 健康結果検出のためのベンチマークデータセットの実験結果から,我々のモデルは解離した手法よりも一貫して優れており,競争結果が報告されている。

A health outcome is a measurement or an observation used to capture and assess the effect of a treatment. Automatic detection of health outcomes from text would undoubtedly speed up access to evidence necessary in healthcare decision making. Prior work on outcome detection has modelled this task as either (a) a sequence labelling task, where the goal is to detect which text spans describe health outcomes or (b) a classification task, where the goal is to classify a text into a pre-defined set of categories depending on an outcome that is mentioned somewhere in that text. However, this decoupling of span detection and classification is problematic from a modelling perspective and ignores global structural correspondences between sentence-level and word-level information present in a given text. We propose a method that uses both word-level and sentence-level information to simultaneously perform outcome span detection and outcome type classification. In addition to injecting contextual information to hidden vectors, we use label attention to appropriately weight both word-level and sentence-level information. Experimental results on several benchmark datasets for health outcome detection show that our model consistently outperforms decoupled methods, reporting competitive results.
翻訳日:2021-04-19 14:40:03 公開日:2021-04-15
# サブ言語: 法律ドメインの事前訓練モデルに影響を与える重大な問題

Sublanguage: A Serious Issue Affects Pretrained Models in Legal Domain ( http://arxiv.org/abs/2104.07782v1 )

ライセンス: Link先を確認
Ha-Thanh Nguyen, Le-Minh Nguyen(参考訳) 法的な英語はすべての人にとって重要であるが、誰でも理解できるものではない。 トレーニング済みモデルは、さまざまな問題に対する現在のディープラーニングアプローチの中でベストプラクティスになっています。 もしこれらのモデルが法律のサブ言語を知らずに実際に適用されたら、それは無駄だろうし、危険かもしれない。 本稿では,BERTLawを法定サブ言語事前学習モデルとして導入することで,問題を提起し,簡単な解法を提案する。 ベースライン事前学習モデルと比較して,本手法の有効性を実証する実験を行った。

Legal English is a sublanguage that is important for everyone but not for everyone to understand. Pretrained models have become best practices among current deep learning approaches for different problems. It would be a waste or even a danger if these models were applied in practice without knowledge of the sublanguage of the law. In this paper, we raise the issue and propose a trivial solution by introducing BERTLaw a legal sublanguage pretrained model. The paper's experiments demonstrate the superior effectiveness of the method compared to the baseline pretrained model
翻訳日:2021-04-19 14:38:23 公開日:2021-04-15
# オントロジーに基づく特徴選択:調査

Ontology-based Feature Selection: A Survey ( http://arxiv.org/abs/2104.07720v1 )

ライセンス: Link先を確認
Konstantinos Sikelis, George E Tsekouras, Konstantinos I Kotis(参考訳) SemanticWebは、構造化およびリンクされたデータの分散Webに意味(意味)を追加するために、従来のWebの拡張として登場した。 オントロジーの核心にある概念は、情報とデータを意味的に記述し、構造化し、それを機械と人間が読める形式でソフトウェアやヒューマンエージェントに公開する手段を提供する。 ソフトウェアエージェントを実現するためには、強力な人工知能と機械学習技術を開発し、情報やデータソースから知識を抽出し、基礎となるオントロジーで表現することが不可欠である。 本調査は, テキスト, 画像, データベース, 人的知識など, オントロジーに基づく知識抽出の重要部分について, 特徴選択の課題を中心に考察することを目的としている。 まず、最も一般的な分類と特徴選択アルゴリズムのいくつかを簡潔に提示する。 次に,オントロジーを用いて特徴を表現し,特徴選択と分類を行う手法について述べる。 提案する例は,医療,観光,機械工学,土木工学など,多様な応用分野にまたがり,その実現可能性と適用可能性を示す。

The SemanticWeb emerged as an extension to traditionalWeb, towards adding meaning (semantics) to a distributed Web of structured and linked data. At its core, the concept of ontology provides the means to semantically describe and structure information and data and expose it to software and human agents in a machine and human-readable form. For software agents to be realized, it is crucial to develop powerful artificial intelligence and machine learning techniques, able to extract knowledge from information and data sources and represent it in the underlying ontology. This survey aims to provide insight into key aspects of ontology-based knowledge extraction, from various sources such as text, images, databases and human expertise, with emphasis on the task of feature selection. First, some of the most common classification and feature selection algorithms are briefly presented. Then, selected methodologies, which utilize ontologies to represent features and perform feature selection and classification, are described. The presented examples span diverse application domains, e.g., medicine, tourism, mechanical and civil engineering, and demonstrate the feasibility and applicability of such methods.
翻訳日:2021-04-19 14:35:06 公開日:2021-04-15
# 産業用人工知能の深部生成モデルを用いた効率的なリングトポロジー分散学習

Efficient Ring-topology Decentralized Federated Learning with Deep Generative Models for Industrial Artificial Intelligent ( http://arxiv.org/abs/2104.08100v1 )

ライセンス: Link先を確認
Zhao Wang, Yifan Hu, Jun Xiao, Chao Wu(参考訳) ディープラーニング技術を活用することによって、データ駆動型アプローチは、Industrial Indernet of Things(IIot)から生成されるデータの急速な増加によって大きな成功を収めた。 しかしながら、セキュリティやプライバシの懸念は、医療や自動運転など、多くの機密データ駆動産業シナリオにおいて、データプロバイダにとって障害となる。 多くのfederated learning(fl)アプローチが、iiotアプリケーション用のdnnで提案されているが、これらの作品は、データ不完全性、品質の低下、量不足、感度の低下などにより、データの使いやすさの低下に苦しめられている。 そこで,本稿では,DGMが先述したデータのユーザビリティ問題を解決するための有望なソリューションである,深層生成モデル(DGM)のためのリングトポジーベース分散フェデレーションラーニング(RDFL)方式を提案する。 既存のIIoT FLと比べ、RDFLスキームは通信効率を向上し、目標のIIoTタスクにおけるDGMを向上するためのトレーニング性能を維持する。 提案するRDFLでは,新たなリングFLトポロジとマップリデュースに基づく同期方式が設計され,分散FL性能と帯域幅利用が向上した。 さらに、通信効率とFLセキュリティをさらに向上するため、IPFS(InterPlanetary File System)を導入している。 RDFLの優位性を、独立分散(IID)データセットまたは非独立分散(Non-IID)データセットで実証する大規模な実験が行われた。

By leveraging deep learning based technologies, the data-driven based approaches have reached great success with the rapid increase of data generated of Industrial Indernet of Things(IIot). However, security and privacy concerns are obstacles for data providers in many sensitive data-driven industrial scenarios, such as healthcare and auto-driving. Many Federated Learning(FL) approaches have been proposed with DNNs for IIoT applications, these works still suffer from low usability of data due to data incompleteness, low quality, insufficient quantity, sensitivity, etc. Therefore, we propose a ring-topogy based decentralized federated learning(RDFL) scheme for Deep Generative Models(DGMs), where DGMs is a promising solution for solving the aforementioned data usability issues. Compare with existing IIoT FL works, our RDFL schemes provides communication efficiency and maintain training performance to boost DGMs in target IIoT tasks. A novel ring FL topology as well as a map-reduce based synchronizing method are designed in the proposed RDFL to improve decentralized FL performance and bandwidth utilization. In addition, InterPlanetary File System(IPFS) is introduced to further improve communication efficiency and FL security. Extensive experiments have been taken to demonstate the superiority of RDFL with either independent and identically distributed(IID) datasets or non-independent and identically distributed(Non-IID) datasets.
翻訳日:2021-04-19 14:34:48 公開日:2021-04-15
# オンライン学習プラットフォームにおける学習結果の比較研究

Comparative Study of Learning Outcomes for Online Learning Platforms ( http://arxiv.org/abs/2104.07763v1 )

ライセンス: Link先を確認
Francois St-Hilaire, Nathan Burns, Robert Belfer, Muhammad Shayan, Ariella Smofsky, Dung Do Vu, Antoine Frau, Joseph Potochny, Farid Faraji, Vincent Pavero, Neroli Ko, Ansona Onyi Ching, Sabina Elkins, Anush Stepanyan, Adela Matajova, Laurent Charlin, Yoshua Bengio, Iulian Vlad Serban and Ekaterina Kochmar(参考訳) パーソナライゼーションとアクティブラーニングは、学習の成功の鍵となる側面である。 これらの側面は、様々な能力を持つ学生間のギャップをシステムが適応し、閉じるのを助けるため、インテリジェントな教育アプリケーションにおいて対処することが重要であり、オンラインと遠隔学習の文脈においてますます重要になっている。 Aプラットフォームは、一連の講義ビデオと複数選択クイズを通じてコンテンツを配信する伝統的なモデルに従い、Bプラットフォームはパーソナライズされた学習環境を作成し、問題解決演習とパーソナライズされたフィードバックを提供する。 本研究は,2つのプラットフォーム上でデータサイエンスの入門講座を受講した参加者を対象に,事前評価と後評価のクイズを用いた研究結果について報告する。 我々は,プラットフォームbにおける学習結果の統計的に有意な増加を観察し,オンライン教育におけるアクティブラーニングと問題ベースラーニングを支援する高度に設計された技術の影響を浮き彫りにした。 また,自己評価アンケートの結果から,プラットフォームbを用いた被験者のメタ認知が向上することが示唆された。

Personalization and active learning are key aspects to successful learning. These aspects are important to address in intelligent educational applications, as they help systems to adapt and close the gap between students with varying abilities, which becomes increasingly important in the context of online and distance learning. We run a comparative head-to-head study of learning outcomes for two popular online learning platforms: Platform A, which follows a traditional model delivering content over a series of lecture videos and multiple-choice quizzes, and Platform B, which creates a personalized learning environment and provides problem-solving exercises and personalized feedback. We report on the results of our study using pre- and post-assessment quizzes with participants taking courses on an introductory data science topic on two platforms. We observe a statistically significant increase in the learning outcomes on Platform B, highlighting the impact of well-designed and well-engineered technology supporting active learning and problem-based learning in online education. Moreover, the results of the self-assessment questionnaire, where participants reported on perceived learning gains, suggest that participants using Platform B improve their metacognition.
翻訳日:2021-04-19 14:34:22 公開日:2021-04-15
# 表現学習のための視覚エンゲージメント信号の探索

Exploring Visual Engagement Signals for Representation Learning ( http://arxiv.org/abs/2104.07767v1 )

ライセンス: Link先を確認
Menglin Jia, Zuxuan Wu, Austin Reiter, Claire Cardie, Serge Belongie, Ser-Nam Lim(参考訳) ソーシャルメディアプラットフォームにおけるビジュアルエンゲージメントは、コメントや共有などを含む写真投稿とのインタラクションを含んでいる。 本稿では,表現学習の補助信号として視覚的エンゲージメントの手がかりを利用する。 しかし、エンゲージメント信号からの学習は、低レベルの視覚情報と高レベルの社会的相互作用のギャップを埋める方法が明確でないため、簡単ではない。 本稿では、ソーシャルイメージをクラスタ化エンゲージメント信号から導出した擬似ラベルにマッピングする、弱教師付き学習手法VisEを提案する。 この方法でトレーニングされたモデルが、感情認識や政治的バイアス検出といった主観的なコンピュータビジョンタスクにどのように役立つかを研究する。 広範な研究を通じて,従来の認識範囲を超えて,多様な分類タスクにおけるviseの有効性を実証的に実証した。

Visual engagement in social media platforms comprises interactions with photo posts including comments, shares, and likes. In this paper, we leverage such visual engagement clues as supervisory signals for representation learning. However, learning from engagement signals is non-trivial as it is not clear how to bridge the gap between low-level visual information and high-level social interactions. We present VisE, a weakly supervised learning approach, which maps social images to pseudo labels derived by clustered engagement signals. We then study how models trained in this way benefit subjective downstream computer vision tasks such as emotion recognition or political bias detection. Through extensive studies, we empirically demonstrate the effectiveness of VisE across a diverse set of classification tasks beyond the scope of conventional recognition.
翻訳日:2021-04-19 14:33:34 公開日:2021-04-15
# 小児骨年齢評価のためのリッジ回帰ニューラルネットワーク

Ridge Regression Neural Network for Pediatric Bone Age Assessment ( http://arxiv.org/abs/2104.07785v1 )

ライセンス: Link先を確認
Ibrahim Salim and A. Ben Hamza(参考訳) 骨年齢は、小児の骨格および生物学的成熟度を評価する上で重要な指標である。 骨年齢の遅れや増加は小児科医にとって深刻な懸念であり、骨の成熟度が年齢と一致しているかどうかを判断するために正確に評価する必要がある。 本稿では,標本分割とリッジ回帰を用いた骨年齢評価のための統一的深層学習フレームワークを提案する。 提案手法は2つの統合段階からなる。 第1段階では,画像アノテーションとセグメンテーションモデルを用いて,画像から手を切り離し,次に背景を除去する。 第2段階では, 分割小児ハンドラジオグラフィーから有意な特徴を学習するための事前学習畳み込みニューラルネットワークと, 骨年齢を予測するための隆起回帰出力層からなる回帰ニューラルネットワークアーキテクチャを設計する。 ハンドラジオグラフィーのデータセットを用いた実験的評価は,既存の深層学習による骨年齢評価法と比較して,我々のアプローチの競争力を示す。

Bone age is an important measure for assessing the skeletal and biological maturity of children. Delayed or increased bone age is a serious concern for pediatricians, and needs to be accurately assessed in a bid to determine whether bone maturity is occurring at a rate consistent with chronological age. In this paper, we introduce a unified deep learning framework for bone age assessment using instance segmentation and ridge regression. The proposed approach consists of two integrated stages. In the first stage, we employ an image annotation and segmentation model to annotate and segment the hand from the radiographic image, followed by background removal. In the second stage, we design a regression neural network architecture composed of a pre-trained convolutional neural network for learning salient features from the segmented pediatric hand radiographs and a ridge regression output layer for predicting the bone age. Experimental evaluation on a dataset of hand radiographs demonstrates the competitive performance of our approach in comparison with existing deep learning based methods for bone age assessment.
翻訳日:2021-04-19 14:33:21 公開日:2021-04-15
# Meta Faster R-CNN: 注意的特徴アライメントによる精度の高いFew-Shotオブジェクト検出を目指して

Meta Faster R-CNN: Towards Accurate Few-Shot Object Detection with Attentive Feature Alignment ( http://arxiv.org/abs/2104.07719v1 )

ライセンス: Link先を確認
Guangxing Han, Shiyuan Huang, Jiawei Ma, Yicheng He, Shih-Fu Chang(参考訳) Few-shot Object Detection (FSOD) は、少数の例でオブジェクトを検出することを目的としている。 多くの実用的なアプリケーションで必須ですが、今のところは困難です。 本稿では,データ不足ベースクラスから学習したメタ知識を新しいクラスに転送することで,メタラーニングに基づくマイショットオブジェクト検出手法を提案する。 提案手法は,提案に基づくオブジェクト検出フレームワークに粗いアプローチを取り入れ,プロトタイプベースの分類器を提案生成段階と分類段階の両方に統合する。 本稿では,従来のオブジェクト/オブジェクト分類器の代わりに,検索画像の特徴マップ内の各空間位置と空間プールされたクラス特徴との類似性を測定する軽量マッチングネットワークを学習し,カテゴリ固有の提案を生成し,新規クラスの提案リコールを改善することを提案する。 生成した提案と少数ショットクラス例の空間的不整合に対処するため,新しい注意的特徴アライメント法を提案し,少数ショットオブジェクト検出の性能を向上させる。 一方、ベースクラスの高速R-CNN検出ヘッドを共同で学習する。 複数のFSODベンチマークで実施した大規模な実験により,提案手法により,(インクリメンタルな)数ショットの学習条件下での成果が得られた。

Few-shot object detection (FSOD) aims to detect objects using only few examples. It's critically needed for many practical applications but so far remains challenging. We propose a meta-learning based few-shot object detection method by transferring meta-knowledge learned from data-abundant base classes to data-scarce novel classes. Our method incorporates a coarse-to-fine approach into the proposal based object detection framework and integrates prototype based classifiers into both the proposal generation and classification stages. To improve proposal generation for few-shot novel classes, we propose to learn a lightweight matching network to measure the similarity between each spatial position in the query image feature map and spatially-pooled class features, instead of the traditional object/nonobject classifier, thus generating category-specific proposals and improving proposal recall for novel classes. To address the spatial misalignment between generated proposals and few-shot class examples, we propose a novel attentive feature alignment method, thus improving the performance of few-shot object detection. Meanwhile we jointly learn a Faster R-CNN detection head for base classes. Extensive experiments conducted on multiple FSOD benchmarks show our proposed approach achieves state of the art results under (incremental) few-shot learning settings.
翻訳日:2021-04-19 14:31:21 公開日:2021-04-15
# 分散型asr訓練における話者識別の明確化と対応法

A Method to Reveal Speaker Identity in Distributed ASR Training, and How to Counter It ( http://arxiv.org/abs/2104.07815v1 )

ライセンス: Link先を確認
Trung Dang, Om Thakkar, Swaroop Ramaswamy, Rajiv Mathews, Peter Chin, Fran\c{c}oise Beaufays(参考訳) エンドツーエンド自動音声認識(ASR)モデルは、Stochastic Gradient Descent (SGD)のような最適化手法を用いて、音声による発話に対して一般的に訓練される。 フェデレーション学習のような分散環境では、モデルトレーニングはネットワーク上の勾配の伝達を必要とする。 本研究では,学習発話の話者の同一性を明らかにする最初の手法を,勾配のみへのアクセスで設計する。 本研究では,損失関数の第二導関数を必要とせず,計算コストのかかる入力再構成手法であるヘッセン自由勾配マッチングを提案する。 我々は,DeepSpeechモデルアーキテクチャを用いた手法の有効性を示し,LibriSpeechデータセット上で34%のトップ1精度(51%トップ5精度)で話者の身元を明らかにすることができることを示した。 さらに,SGDとDropoutの2つの手法が本手法の成功に及ぼす影響について検討した。 その結果,0.2のドロップアウト率で話者識別精度を0%から0.5%まで下げることができた。

End-to-end Automatic Speech Recognition (ASR) models are commonly trained over spoken utterances using optimization methods like Stochastic Gradient Descent (SGD). In distributed settings like Federated Learning, model training requires transmission of gradients over a network. In this work, we design the first method for revealing the identity of the speaker of a training utterance with access only to a gradient. We propose Hessian-Free Gradients Matching, an input reconstruction technique that operates without second derivatives of the loss function (required in prior works), which can be expensive to compute. We show the effectiveness of our method using the DeepSpeech model architecture, demonstrating that it is possible to reveal the speaker's identity with 34% top-1 accuracy (51% top-5 accuracy) on the LibriSpeech dataset. Further, we study the effect of two well-known techniques, Differentially Private SGD and Dropout, on the success of our method. We show that a dropout rate of 0.2 can reduce the speaker identity accuracy to 0% top-1 (0.5% top-5).
翻訳日:2021-04-19 14:31:00 公開日:2021-04-15
# 深層強化学習による量子アーキテクチャ探索

Quantum Architecture Search via Deep Reinforcement Learning ( http://arxiv.org/abs/2104.07715v1 )

ライセンス: Link先を確認
En-Jui Kuo, Yao-Lung L. Fang, Samuel Yen-Chi Chen(参考訳) 量子コンピューティングの最近の進歩は、量子コンピュータの現実的応用の構築にかなりの注目を集めている。 しかし、適切な量子回路アーキテクチャを設計するには専門家の知識が必要である。 例えば、できるだけ少ないゲートで特定の量子状態を生成する量子ゲート列を設計することは非自明である。 本稿では,この課題に対処するために,深層強化学習(DRL)の能力を備えた量子アーキテクチャ探索フレームワークを提案する。 提案したフレームワークでは,DRL エージェントは Pauli-$X$,$Y$,$Z$ 期待値と,対象量子状態の学習のための事前定義された量子演算セットにのみアクセスでき,アドバンテージアクタクリティカル (A2C) と近似ポリシー最適化 (PPO) アルゴリズムによって最適化される。 エージェント内の量子物理学の知識を符号化することなく、マルチキュービットGHZ状態に対する量子ゲート列の生成に成功したことを実証する。 我々のフレームワークの設計は比較的一般的であり、多くの量子状態に対するゲート合成とコンパイルを研究するために他のDRLアーキテクチャや最適化手法を利用できる。

Recent advances in quantum computing have drawn considerable attention to building realistic application for and using quantum computers. However, designing a suitable quantum circuit architecture requires expert knowledge. For example, it is non-trivial to design a quantum gate sequence for generating a particular quantum state with as fewer gates as possible. We propose a quantum architecture search framework with the power of deep reinforcement learning (DRL) to address this challenge. In the proposed framework, the DRL agent can only access the Pauli-$X$, $Y$, $Z$ expectation values and a predefined set of quantum operations for learning the target quantum state, and is optimized by the advantage actor-critic (A2C) and proximal policy optimization (PPO) algorithms. We demonstrate a successful generation of quantum gate sequences for multi-qubit GHZ states without encoding any knowledge of quantum physics in the agent. The design of our framework is rather general and can be employed with other DRL architectures or optimization methods to study gate synthesis and compilation for many quantum states.
翻訳日:2021-04-19 14:30:42 公開日:2021-04-15
# ランダム永続図生成

Random Persistence Diagram Generation ( http://arxiv.org/abs/2104.07737v1 )

ライセンス: Link先を確認
Farzana Nasrin, Theodore Papamarkou, and Vasileios Maroulas(参考訳) トポロジカルデータ分析(TDA)は、データの形状パターンを研究する。 永続ホモロジー(英: Persistent homology、PH)は、複数のスケールでデータのホモロジー的特徴を要約し、これを永続化図(PD)に格納するTDAにおいて広く使われている手法である。 TDAは高次元データセットの分析で一般的に使用されるため、統計解析を行うための十分な量のPDは一般に利用できないか、あるいは不規則な計算資源を必要とする。 本稿では,データからランダムなpdのシーケンスを生成する手法であるランダム・パーシステンス・ダイアグラム生成(rpdg)を提案する。 rpdgは(i)パーシステンスダイアグラムの推論のためのペアワイズ相互作用点過程に基づくパラメトリックモデルと(ii)pdsのサンプルを生成する可逆ジャンプマルコフ連鎖モンテカルロ(rj-mcmc)アルゴリズムによって基礎づけられる。 パラメトリックモデルはディリクレ分割を組み合わせて、PD内の点の位置の空間的均一性を捉え、ステップ関数を使ってそれらの相互相互作用を捉える。 RJ-MCMCアルゴリズムは、PDのサンプル間での点の過渡的な付加と除去、および同次元の転位を含む。 RPDGの有効性を例に示すとともに,既存手法との詳細な比較を行った。

Topological data analysis (TDA) studies the shape patterns of data. Persistent homology (PH) is a widely used method in TDA that summarizes homological features of data at multiple scales and stores this in persistence diagrams (PDs). As TDA is commonly used in the analysis of high dimensional data sets, a sufficiently large amount of PDs that allow performing statistical analysis is typically unavailable or requires inordinate computational resources. In this paper, we propose random persistence diagram generation (RPDG), a method that generates a sequence of random PDs from the ones produced by the data. RPDG is underpinned (i) by a parametric model based on pairwise interacting point processes for inference of persistence diagrams and (ii) by a reversible jump Markov chain Monte Carlo (RJ-MCMC) algorithm for generating samples of PDs. The parametric model combines a Dirichlet partition to capture spatial homogeneity of the location of points in a PD and a step function to capture the pairwise interaction between them. The RJ-MCMC algorithm incorporates trans-dimensional addition and removal of points and same-dimensional relocation of points across samples of PDs. The efficacy of RPDG is demonstrated via an example and a detailed comparison with other existing methods is presented.
翻訳日:2021-04-19 14:29:29 公開日:2021-04-15
# 時変インストゥルメンタル変数を用いた動的治療レジームの推定と改善

Estimating and Improving Dynamic Treatment Regimes With a Time-Varying Instrumental Variable ( http://arxiv.org/abs/2104.07822v1 )

ライセンス: Link先を確認
Shuxiao Chen, Bo Zhang(参考訳) 振り返り観測データから動的治療体制(DTR)を推定することは、ある程度の未測定条件が期待されるため困難である。 本研究では,未測定の共変量で処理と結果が一致した場合に,適切に定義された「最適」DTRを時変器用変数(IV)で推定する枠組みを構築し,潜在的な結果分布を部分的にのみ同定する。 部分的同定の下でベルマン方程式を導出し、それを用いて推定値(IV-最適DTR)の一般クラスを定義し、関連する推定問題を研究する。 次に、政策改善問題に対処するために、IV最適化フレームワークを拡張し、事前に規定されたベースラインDTRよりも悪く、潜在的に優れていることを保証したIV改善DTRを提供する。 重要なことは、我々のIV改善フレームワークは、未測定の共起仮定(NUCA)の下で最適であるDTRを厳格に改善する可能性を開くことである。 我々は, NUCAの下でのみ最適であるDTRに対して, IV-optimal DTRとIV-improved DTRの優れた性能を示す。 実データ例では, 経年観察レジストリーデータを, 経時的ivを用いた非コンプライアンスを伴う自然な二段階実験に組み込んで, 予後変数に基づいて母親を高レベルまたは低レベルの新生児集中治療単位に割り当てる有用なiv-optimal dtrを推定する。

Estimating dynamic treatment regimes (DTRs) from retrospective observational data is challenging as some degree of unmeasured confounding is often expected. In this work, we develop a framework of estimating properly defined "optimal" DTRs with a time-varying instrumental variable (IV) when unmeasured covariates confound the treatment and outcome, rendering the potential outcome distributions only partially identified. We derive a novel Bellman equation under partial identification, use it to define a generic class of estimands (termed IV-optimal DTRs), and study the associated estimation problem. We then extend the IV-optimality framework to tackle the policy improvement problem, delivering IV-improved DTRs that are guaranteed to perform no worse and potentially better than a pre-specified baseline DTR. Importantly, our IV-improvement framework opens up the possibility of strictly improving upon DTRs that are optimal under the no unmeasured confounding assumption (NUCA). We demonstrate via extensive simulations the superior performance of IV-optimal and IV-improved DTRs over the DTRs that are optimal only under the NUCA. In a real data example, we embed retrospective observational registry data into a natural, two-stage experiment with noncompliance using a time-varying IV and estimate useful IV-optimal DTRs that assign mothers to high-level or low-level neonatal intensive care units based on their prognostic variables.
翻訳日:2021-04-19 14:29:03 公開日:2021-04-15
# proteno:テキストから音声への高速展開のための限定データによるテキスト正規化

Proteno: Text Normalization with Limited Data for Fast Deployment in Text to Speech Systems ( http://arxiv.org/abs/2104.07777v1 )

ライセンス: Link先を確認
Shubhi Tyagi, Antonio Bonafonte, Jaime Lorenzo-Trueba, Javier Latorre(参考訳) 新しい言語におけるテキスト音声合成(TTS)のためのテキスト正規化(TN)システムの開発は困難である。 そこで本研究では,複数の言語で使用するデータのサイズを3%未満に抑えながら,複数の言語に対応可能な新しいアーキテクチャを提案する。 本稿では,TNをシーケンス分類問題として扱うとともに,学習データ自体からクラスの大部分と正規化を学習可能な粒度のトークン化機構を提案する。 これは、他のクラスに対する最小限の事前符号付き言語知識と結合する。 スペイン語とタミル語でTN for TTSの最初の結果を公開し、アプローチのパフォーマンスが以前の英語での作業と同等であることを示した。 実験に使用される注釈付きデータセットはすべて、https://github.com/a mazon-research/prote noでリリースされる。

Developing Text Normalization (TN) systems for Text-to-Speech (TTS) on new languages is hard. We propose a novel architecture to facilitate it for multiple languages while using data less than 3% of the size of the data used by the state of the art results on English. We treat TN as a sequence classification problem and propose a granular tokenization mechanism that enables the system to learn majority of the classes and their normalizations from the training data itself. This is further combined with minimal precoded linguistic knowledge for other classes. We publish the first results on TN for TTS in Spanish and Tamil and also demonstrate that the performance of the approach is comparable with the previous work done on English. All annotated datasets used for experimentation will be released at https://github.com/a mazon-research/prote no.
翻訳日:2021-04-19 14:28:00 公開日:2021-04-15
# 評価による投票データシミュレーションに関する一考察

A Note on Data Simulations for Voting by Evaluation ( http://arxiv.org/abs/2104.07666v1 )

ライセンス: Link先を確認
Antoine Rolland (ERIC), Jean-Baptiste Aubin (PSPM), Ir\`ene Gannaz (PSPM), Samuela Leoni(参考訳) 選好順序よりも評価入力に基づく投票ルールが最近提案されており、多数決、範囲投票、承認投票などがある。 伝統的に、投票規則の確率論的分析は、不偏文化(ic)や不偏文化(iac)モデルのような選好データを生成するためにシミュレーションモデルを使うことを前提としている。 しかし、これらのシミュレーションモデルは、必要な評価ではなく選好順序を生成するため、評価に基づく投票規則の分析には適していない。 本稿では,評価に基づく投票入力を生成するためのシミュレーションモデルを提案する。 これらのモデルは、古典的なモデルにインスパイアされ、推奨目的のために定義され、テストされ、比較される。

Voting rules based on evaluation inputs rather than preference orders have been recently proposed, like majority judgement, range voting or approval voting. Traditionally, probabilistic analysis of voting rules supposes the use of simulation models to generate preferences data, like the Impartial Culture (IC) or Impartial and Anonymous Culture (IAC) models. But these simulation models are not suitable for the analysis of evaluation-based voting rules as they generate preference orders instead of the needed evaluations. We propose in this paper several simulation models for generating evaluation-based voting inputs. These models, inspired by classical ones, are defined, tested and compared for recommendation purpose.
翻訳日:2021-04-19 14:23:39 公開日:2021-04-15
# カーネルとニューラルネットワーク近似を用いた高次元強化学習の$L^2$の解析

An $L^2$ Analysis of Reinforcement Learning in High Dimensions with Kernel and Neural Network Approximation ( http://arxiv.org/abs/2104.07794v1 )

ライセンス: Link先を確認
Jihao Long, Jiequn Han, E Weinan(参考訳) 高次元関数近似に基づく強化学習(RL)アルゴリズムは、多数の状態を持つ大規模問題において、大きな経験的成功を収めた。 しかし、そのようなアルゴリズムのほとんどの分析は、状態数と特徴数のいずれかを含む誤差境界を生じる。 本稿では,カーネル法あるいは2層ニューラルネットワークモデルを用いて関数近似を行う状況について,明示的な正規化を伴うQ-イテレーションアルゴリズムを用いて検討する。 我々は、$Hn$サンプルを持つ最適なポリシーに対して$\tilde{O}(H^3|\mathcal {A}|^{\frac14}n^{-\frac14})$を定め、$H$は各エピソードの長さであり、$|\mathcal {A}|$はアクション空間のサイズである。 解析では、近似q関数の$l^2$誤差を$n$データポイントを用いて解析する。 この結果はまだ有限サイズの作用空間を必要とするが、誤差境界は状態空間の次元性とは独立である。

Reinforcement learning (RL) algorithms based on high-dimensional function approximation have achieved tremendous empirical success in large-scale problems with an enormous number of states. However, most analysis of such algorithms gives rise to error bounds that involve either the number of states or the number of features. This paper considers the situation where the function approximation is made either using the kernel method or the two-layer neural network model, in the context of a fitted Q-iteration algorithm with explicit regularization. We establish an $\tilde{O}(H^3|\mathcal {A}|^{\frac14}n^{-\frac14})$ bound for the optimal policy with $Hn$ samples, where $H$ is the length of each episode and $|\mathcal {A}|$ is the size of action space. Our analysis hinges on analyzing the $L^2$ error of the approximated Q-function using $n$ data points. Even though this result still requires a finite-sized action space, the error bound is independent of the dimensionality of the state space.
翻訳日:2021-04-19 14:16:37 公開日:2021-04-15
# 肩部インプラントx線マニュファクチャラー分類:視覚トランスフォーマーによる探索

Shoulder Implant X-Ray Manufacturer Classification: Exploring with Vision Transformer ( http://arxiv.org/abs/2104.07667v1 )

ライセンス: Link先を確認
Meng Zhou, Shanglin Mo(参考訳) 肩置換手術は、整形外科において一般的で複雑な手術である。 それは、死んだ肩関節を人工インプラントで置き換えることだ。 市場には多くの人工インプラントメーカーがあり、それぞれが異なる構造を持つ異なるインプラントを他のプロバイダと比較することができる。 問題は, 患者が肩部インプラントの補綴物に何らかの問題を抱えており, 患者や医師のいずれにせよ, そのインプラントの製造者が不明な場合があるため, 製造者の正確な識別が治療前に鍵となる。 本稿では,肩関節インプラントの製作元を分類する様々な方法を紹介する。 私たちは、このタスクにVision Transformerアプローチを初めて使用します。

Shoulder replacement surgery, also called total shoulder replacement, is a common and complex surgery in Orthopedics discipline. It involves replacing a dead shoulder joint with an artificial implant. In the market, there are many artificial implant manufacturers and each of them may produce different implants with different structures compares to other providers. The problem arises in the following situation: a patient has some problems with the shoulder implant accessory and the manufacturer of that implant maybe unknown to either the patient or the doctor, therefore, correctly identification of the manufacturer is the key prior to the treatment. In this paper, we will demonstrate different methods for classifying the manufacturer of a shoulder implant. We will use Vision Transformer approach to this task for the first time ever
翻訳日:2021-04-19 14:14:04 公開日:2021-04-15
# 教師なし画像間翻訳のためのデュアルコントラスト学習

Dual Contrastive Learning for Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2104.07689v1 )

ライセンス: Link先を確認
Junlin Han, Mehrdad Shoeiby, Lars Petersson, Mohammad Ali Armin(参考訳) unsupervised image-to-image translationタスクは、非ペアトレーニングデータからソースドメインxとターゲットドメインyとのマッピングを見つけることを目的としている。 CUT(Unpaired Image-to-image Translation)のコントラスト学習は、両領域のエンコーダを1つだけ使用して、入力パッチと出力パッチの相互情報を最大化することにより、教師なし画像-画像翻訳をモデル化する。 本稿では,非ペアデータ間の効率的なマッピングを推定するために,コントラスト学習と二重学習(2つのエンコーダの展開)に基づく新しい手法を提案する。 さらに,CUTはモード崩壊に悩まされているが,本手法の変種は効率よくこの問題に対処する。 さらに,複数の画像翻訳タスクにおいて,最近のアプローチと比較して優れた性能を示す広範なアブレーション研究を通じて,このアプローチの利点を実証する。 最後に,教師なしメソッドと教師なしメソッドのギャップを効率的にクローズできることを示す。

Unsupervised image-to-image translation tasks aim to find a mapping between a source domain X and a target domain Y from unpaired training data. Contrastive learning for Unpaired image-to-image Translation (CUT) yields state-of-the-art results in modeling unsupervised image-to-image translation by maximizing mutual information between input and output patches using only one encoder for both domains. In this paper, we propose a novel method based on contrastive learning and a dual learning setting (exploiting two encoders) to infer an efficient mapping between unpaired data. Additionally, while CUT suffers from mode collapse, a variant of our method efficiently addresses this issue. We further demonstrate the advantage of our approach through extensive ablation studies demonstrating superior performance comparing to recent approaches in multiple challenging image translation tasks. Lastly, we demonstrate that the gap between unsupervised methods and supervised methods can be efficiently closed.
翻訳日:2021-04-19 14:13:52 公開日:2021-04-15
# 電子商取引プラットフォームにおけるカテゴリー勧告の変分推論

Variational Inference for Category Recommendation in E-Commerce platforms ( http://arxiv.org/abs/2104.07748v1 )

ライセンス: Link先を確認
Ramasubramanian Balasubramanian, Venugopal Mani, Abhinav Mathur, Sushant Kumar, Kannan Achan(参考訳) eコマースプラットフォーム上のユーザのカテゴリレコメンデーションは、Webサイトのトラフィックの流れを規定する上で重要なタスクである。 したがって、利用者がプラットフォームを旅するのを助け、新しいカテゴリーの発見を支援するために、正確で多様なカテゴリーの推奨事項を提示することが重要である。 カテゴリーレコメンデーションでしばしば過小評価される部分は、購入を繰り返すユーザーの傾向である。 この時間的行動の構造はより優れたカテゴリーの推薦のために収集することができ、本研究では変分推論によってこれを活用しようと試みる。 さらに、変分推論に基づく最適化を強化するために、よく知られたmetapath2vecアルゴリズムを用いて最適化器をより良い出発点に初期化する。 実世界の2つのデータセットで結果を実証し、我々のモデルが標準ベースライン法より優れていることを示す。

Category recommendation for users on an e-Commerce platform is an important task as it dictates the flow of traffic through the website. It is therefore important to surface precise and diverse category recommendations to aid the users' journey through the platform and to help them discover new groups of items. An often understated part in category recommendation is users' proclivity to repeat purchases. The structure of this temporal behavior can be harvested for better category recommendations and in this work, we attempt to harness this through variational inference. Further, to enhance the variational inference based optimization, we initialize the optimizer at better starting points through the well known Metapath2Vec algorithm. We demonstrate our results on two real-world datasets and show that our model outperforms standard baseline methods.
翻訳日:2021-04-19 14:12:40 公開日:2021-04-15
# 動作可能なモデル:ロボットスキルの教師なしオフライン強化学習

Actionable Models: Unsupervised Offline Reinforcement Learning of Robotic Skills ( http://arxiv.org/abs/2104.07749v1 )

ライセンス: Link先を確認
Yevgen Chebotar, Karol Hausman, Yao Lu, Ted Xiao, Dmitry Kalashnikov, Jake Varley, Alex Irpan, Benjamin Eysenbach, Ryan Julian, Chelsea Finn, Sergey Levine(参考訳) これまでに収集したオフラインデータから,手作業による報酬や追加のオンライン探索を行なわずに,有用なロボットスキルを習得する問題は,過去のロボットデータを再利用することで,ロボット学習のスケール化においてますます重要になっている。 特に,与えられたデータセットの任意の目標状態に到達することを学習することで,環境の機能的理解を学習する目的を提案する。 我々は,特に難易度の高いオフライン環境でのトレーニングを可能にする技術を開発し,後向きの学習による目標条件付きQ-ラーニングを採用する。 提案手法は高次元カメラ画像上で動作し,これまで見られなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。 また,本手法は,複数のエピソードにまたがって長いホリゾン目標を達成し,事前訓練や補助目的を通じて下流タスクに役立つリッチ表現を学習できることも示す。 実験のビデオはhttps://actionable-m odels.github.ioで見ることができる。

We consider the problem of learning useful robotic skills from previously collected offline data without access to manually specified rewards or additional online exploration, a setting that is becoming increasingly important for scaling robot learning by reusing past robotic data. In particular, we propose the objective of learning a functional understanding of the environment by learning to reach any goal state in a given dataset. We employ goal-conditioned Q-learning with hindsight relabeling and develop several techniques that enable training in a particularly challenging offline setting. We find that our method can operate on high-dimensional camera images and learn a variety of skills on real robots that generalize to previously unseen scenes and objects. We also show that our method can learn to reach long-horizon goals across multiple episodes, and learn rich representations that can help with downstream tasks through pre-training or auxiliary objectives. The videos of our experiments can be found at https://actionable-m odels.github.io
翻訳日:2021-04-19 14:12:28 公開日:2021-04-15
# 低所得国・中所得国における富のマイクロ評価

Micro-Estimates of Wealth for all Low- and Middle-Income Countries ( http://arxiv.org/abs/2104.07761v1 )

ライセンス: Link先を確認
Guanghua Chi, Han Fang, Sourav Chatterjee, Joshua E. Blumenstock(参考訳) 戦略的投資から人道援助の配分に至るまで、多くの重要な政策決定は、富と貧困の地理的分布に関するデータに依存している。 しかし、多くの貧困マップは時代遅れであり、非常に粗い粒度でしか存在しない。 ここでは、135の低所得国・中所得国(LMIC)の人口を2.4kmの解像度でカバーする、最初の富と貧困のマイクロ推定を開発する。 この推定は、衛星、携帯電話ネットワーク、地形地図、およびFacebookの集合的および非特定接続データからの膨大なおよび異種データに機械学習アルゴリズムを適用することによって構築される。 56 LMIC の全国代表世帯調査データを用いて推定値の校正を行い,その精度を18 カ国の4 つの個別世帯調査データを用いて検証した。 また、各マイクロ推定値に対して信頼区間を提供し、責任ある下流利用を促進する。 これらの見積もりは、新型コロナウイルス(COVID-19)のパンデミックに対する政策対応を目標とし、経済発展と成長の因果に関する新たな洞察の基盤を提供し、持続可能な開発目標を支持する責任ある政策作成を促進することを願って、公的に無料で提供される。

Many critical policy decisions, from strategic investments to the allocation of humanitarian aid, rely on data about the geographic distribution of wealth and poverty. Yet many poverty maps are out of date or exist only at very coarse levels of granularity. Here we develop the first micro-estimates of wealth and poverty that cover the populated surface of all 135 low and middle-income countries (LMICs) at 2.4km resolution. The estimates are built by applying machine learning algorithms to vast and heterogeneous data from satellites, mobile phone networks, topographic maps, as well as aggregated and de-identified connectivity data from Facebook. We train and calibrate the estimates using nationally-represent ative household survey data from 56 LMICs, then validate their accuracy using four independent sources of household survey data from 18 countries. We also provide confidence intervals for each micro-estimate to facilitate responsible downstream use. These estimates are provided free for public use in the hope that they enable targeted policy response to the COVID-19 pandemic, provide the foundation for new insights into the causes and consequences of economic development and growth, and promote responsible policymaking in support of the Sustainable Development Goals.
翻訳日:2021-04-19 14:10:29 公開日:2021-04-15
# 長期記憶と畳み込みニューラルネットワークを用いた家庭用機器の非インタラクティブ負荷モニタリングのための新しいハイブリッドディープラーニング手法

A Novel Hybrid Deep Learning Approach for Non-Intrusive Load Monitoring of Residential Appliance Based on Long Short Term Memory and Convolutional Neural Networks ( http://arxiv.org/abs/2104.07809v1 )

ライセンス: Link先を確認
Sobhan Naderian(参考訳) エネルギー分散(エネルギディスアグリゲーション、nonintrusive load monitoring, nilm)は、単入力ブラインドソース識別問題であり、ユーザの電力消費を機器レベルの計測に解釈することを目的としている。 本稿では、畳み込みニューラルネットワーク(CNN)と組み合わされたLSTM(Deep Recurrent long term memory)ネットワークを用いて、電力分散のための新しいアプローチを提案する。 ディープニューラルネットワークは、その複雑さと大量の訓練可能なパラメッターによって、この種の問題にとって重要な方法であることが示されている。 本論文で提案したハイブリッド手法は,両者の利点から,NILMの全体的な精度を著しく向上させることができる。 提案手法では、入力がメインのウィンドウであり、出力がターゲットアプライアンスのウィンドウであるsequence-to-sequence learningを用いた。 深層ニューラルネットワークのアプローチは、実世界の家庭エネルギーデータセット "refit" に適用されている。 本論文で紹介するREFIT電気負荷測定データセットは, 住宅の集合的負荷全体と, 住宅ごとの8秒間隔で, 英国中の20戸から2年間連続して収集した9件の家電機器計測データを含む。 提案手法は, 住宅エネルギーモニタリングにおける提案手法の有効性と優位性を実証し, 95.93%, 80.93%の精度向上とf1-score対策を実現した。 提案手法と最近発表された他の手法の比較は,深層ニューラルネットワークトレーニング可能なパラメータの精度,アプライアンス数,サイズに基づいて検討されている。 提案手法は他の手法と比較して顕著な性能を示す。

Energy disaggregation or nonintrusive load monitoring (NILM), is a single-input blind source discrimination problem, aims to interpret the mains user electricity consumption into appliance level measurement. This article presents a new approach for power disaggregation by using a deep recurrent long short term memory (LSTM) network combined with convolutional neural networks (CNN). Deep neural networks have been shown to be a significant way for these types of problems because of their complexity and huge number of trainable paramters. Hybrid method that proposed in the article could significantly increase the overall accuracy of NILM because it benefits from both network advantages. The proposed method used sequence-to-sequence learning, where the input is a window of the mains and the output is a window of the target appliance. The proposed deep neural network approach has been applied to real-world household energy dataset "REFIT". The REFIT electrical load measurements dataset described in this paper includes whole house aggregate loads and nine individual appliance measurements at 8-second intervals per house, collected continuously over a period of two years from 20 houses around the UK. The proposed method achieve significant performance, improving accuracy and F1-score measures by 95.93% and 80.93% ,respectively which demonstrates the effectiveness and superiority of the proposed approach for home energy monitoring. Comparison of proposed method and other recently published method has been presented and discussed based on accuracy, number of considered appliances and size of the deep neural network trainable parameters. The proposed method shows remarkable performance compare to other previous methods.
翻訳日:2021-04-19 14:10:09 公開日:2021-04-15
# (参考訳) ディープフットステップ分離と認識による受動的多人数識別 [全文訳有]

PURE: Passive mUlti-peRson idEntification via Deep Footstep Separation and Recognition ( http://arxiv.org/abs/2104.07177v1 )

ライセンス: CC BY 4.0
Chao Cai, Ruinan Jin, Peng Wang, Liyuan Ye, Hongbo Jiang, Jun Luo(参考訳) 近年,特殊な状況下では,従来のユーザ識別法 (顔や指紋など) を補完する手法として,<textit{passive behavior biometrics} (ジェスチャーや足跡など) が提案されているが,既存のセンシング技術では測定トレースが長く,同時に複数のユーザを識別することはできない。 そこで本研究では,ディープラーニングを利用した受動的多人数識別システムである \systemname\ を提案する。 systemname\ パッシブにユーザを識別するには、足跡にユニークな "footprints" を解読する。 既存の歩行可能な認識システムとは異なり、 \systemname\ は人の認識をわずか1ステップしか行わず、識別遅延を大幅に削減することができる。 歩行速度の変動や環境動態,さらには未知の目標に適応させるため,ドメインの一般性や識別精度を向上させるために,対向学習手法を適用した。 最後に、 \systemname\ は足跡の豊かさと空間的意識によって実現されるリプレイ攻撃から自らを守ることができる。 コモディティハードウェアを用いた \systemname\ プロトタイプを実装し,典型的な室内環境で評価する。 その結果, クロスドメイン識別精度は90%以上であった。

Recently, \textit{passive behavioral biometrics} (e.g., gesture or footstep) have become promising complements to conventional user identification methods (e.g., face or fingerprint) under special situations, yet existing sensing technologies require lengthy measurement traces and cannot identify multiple users at the same time. To this end, we propose \systemname\ as a passive multi-person identification system leveraging deep learning enabled footstep separation and recognition. \systemname\ passively identifies a user by deciphering the unique "footprints" in its footstep. Different from existing gait-enabled recognition systems incurring a long sensing delay to acquire many footsteps, \systemname\ can recognize a person by as few as only one step, substantially cutting the identification latency. To make \systemname\ adaptive to walking pace variations, environmental dynamics, and even unseen targets, we apply an adversarial learning technique to improve its domain generalisability and identification accuracy. Finally, \systemname\ can defend itself against replay attack, enabled by the richness of footstep and spatial awareness. We implement a \systemname\ prototype using commodity hardware and evaluate it in typical indoor settings. Evaluation results demonstrate a cross-domain identification accuracy of over 90\%.
翻訳日:2021-04-17 06:47:07 公開日:2021-04-15
# (参考訳) 空間相互作用モデリングのための畳み込み [全文訳有]

Convolutions for Spatial Interaction Modeling ( http://arxiv.org/abs/2104.07182v1 )

ライセンス: CC BY-SA 4.0
Zhaoen Su, Chao Wang, David Bradley, Carlos Vallespi-Gonzalez, Carl Wellington, Nemanja Djuric(参考訳) 多くの異なる分野において、オブジェクト間の相互作用は、その振る舞いを決定する上で重要な役割を果たす。 グラフニューラルネットワーク(GNN)は、インタラクションをモデリングするための強力なツールとして登場した。 本稿では,自律走行車周りのアクターの動きを予測する文脈における空間相互作用モデリングの問題点を考察し,GNNの代替手法について検討する。 我々は畳み込みを再考し、低レイテンシと空間的相互作用をモデル化する際にグラフネットワークに匹敵する性能を示し、時間クリティカルシステムにおいて効果的かつ効率的な代替手段を提供する。 さらに,提案手法の相互作用モデリングをさらに改善するために,新たな相互作用損失を提案する。

In many different fields interactions between objects play a critical role in determining their behavior. Graph neural networks (GNNs) have emerged as a powerful tool for modeling interactions, although often at the cost of adding considerable complexity and latency. In this paper, we consider the problem of spatial interaction modeling in the context of predicting the motion of actors around autonomous vehicles, and investigate alternative approaches to GNNs. We revisit convolutions and show that they can demonstrate comparable performance to graph networks in modeling spatial interactions with lower latency, thus providing an effective and efficient alternative in time-critical systems. Moreover, we propose a novel interaction loss to further improve the interaction modeling of the considered methods.
翻訳日:2021-04-17 06:23:21 公開日:2021-04-15
# (参考訳) IoTネットワークの汎用性向上のための説明可能な機械学習によるネットワーク侵入検知システム [全文訳有]

An Explainable Machine Learning-based Network Intrusion Detection System for Enabling Generalisability in Securing IoT Networks ( http://arxiv.org/abs/2104.07183v1 )

ライセンス: CC BY 4.0
Mohanad Sarhan, Siamak Layeghy, Marius Portmann(参考訳) 機械学習(ML)ベースのネットワーク侵入検知システムは、組織のセキュリティ姿勢を高める多くの利点をもたらす。 多くのシステムは研究コミュニティで設計・開発されており、特定のデータセットを用いて評価すると、しばしば完璧な検出率を達成する。 しかし、多くの学術研究が実践的な展開に翻訳されていない。 製品使用の欠如には、いくつかの原因がある。 本稿では,異なるネットワーク環境と攻撃タイプに設定した共通機能の汎用性を評価することにより,ギャップを狭める。 そのため、NetFlowとCICFlowMeterの2つの機能セットが3つのデータセットで評価されている。 CSE-CIC-IDS2018、BoT-IoT、ToN-IoT。 その結果,NetFlow機能セットは,異なるデータセット間の侵入を検出する際の2つのMLモデルの検出精度を向上させることがわかった。 さらに、学習モデルの複雑さのため、2つのMLモデルの分類決定を説明・解釈するために、説明可能なAI方法論であるSHAPが採用されている。 機能のShapley値は、最終ML予測に対する各機能の影響を決定するために、複数のデータセットにわたって分析されている。

Machine Learning (ML)-based network intrusion detection systems bring many benefits for enhancing the security posture of an organisation. Many systems have been designed and developed in the research community, often achieving a perfect detection rate when evaluated using certain datasets. However, the high number of academic research has not translated into practical deployments. There are a number of causes behind the lack of production usage. This paper tightens the gap by evaluating the generalisability of a common feature set to different network environments and attack types. Therefore, two feature sets (NetFlow and CICFlowMeter) have been evaluated across three datasets, i.e. CSE-CIC-IDS2018, BoT-IoT, and ToN-IoT. The results showed that the NetFlow feature set enhances the two ML models' detection accuracy in detecting intrusions across different datasets. In addition, due to the complexity of the learning models, the SHAP, an explainable AI methodology, has been adopted to explain and interpret the classification decisions of two ML models. The Shapley values of the features have been analysed across multiple datasets to determine the influence contributed by each feature towards the final ML prediction.
翻訳日:2021-04-17 06:05:55 公開日:2021-04-15
# (参考訳) 多類分類と含意データ駆動知能の粗大・微細な幾何学的情報内容 [全文訳有]

Coarse- and fine-scale geometric information content of Multiclass Classification and implied Data-driven Intelligence ( http://arxiv.org/abs/2104.07191v1 )

ライセンス: CC BY 4.0
Fushing Hsieh and Xiaodong Wang(参考訳) 特徴集合によって指定されたラベル付きポイントクラウドの集合によって定義される任意のマルチクラス分類(mcc)の下では、3つのクラウド間距離を明示的に測定することなく、ポイントクラウドの可能なすべてのトリプレットから確率的部分順序のみを抽出する。 このような部分順序の集まりがラベル空間上のラベル埋め込み木幾何を効率的に計算できることを実証する。 この木は、予測グラフや、正確に重み付けされたリンクを持つネットワークを生み出します。 これらの2つのマルチスケールジオメトリは、MCCの粗いスケール情報内容とみなす。 実際に彼らは、なぜ、どのようにラベル付けが行われるのかに関する説明可能な知識を共同で発見し、データによってサポートされている複数の候補ラベルでエラーフリーな予測を促進する。 ラベル内不均一性を明らかにするため,各点クラウド内で自然に発見されたクラスタをラベル付けし,データに含まれる微細な情報内容としてマルチスケール幾何を導出する。 この細かな取り組みは、我々の計算提案が、大きなラベル空間を持つMCC設定に対して実際にスケーラブルであることを示している。 全体として、データ駆動パターンと知識の計算された多スケール集合は、興味のシステムに関する可視で説明可能な主題知性を構築する基盤となる。

Under any Multiclass Classification (MCC) setting defined by a collection of labeled point-cloud specified by a feature-set, we extract only stochastic partial orderings from all possible triplets of point-cloud without explicitly measuring the three cloud-to-cloud distances. We demonstrate that such a collective of partial ordering can efficiently compute a label embedding tree geometry on the Label-space. This tree in turn gives rise to a predictive graph, or a network with precisely weighted linkages. Such two multiscale geometries are taken as the coarse scale information content of MCC. They indeed jointly shed lights on explainable knowledge on why and how labeling comes about and facilitates error-free prediction with potential multiple candidate labels supported by data. For revealing within-label heterogeneity, we further undergo labeling naturally found clusters within each point-cloud, and likewise derive multiscale geometry as its fine-scale information content contained in data. This fine-scale endeavor shows that our computational proposal is indeed scalable to a MCC setting having a large label-space. Overall the computed multiscale collective of data-driven patterns and knowledge will serve as a basis for constructing visible and explainable subject matter intelligence regarding the system of interest.
翻訳日:2021-04-17 05:53:03 公開日:2021-04-15
# (参考訳) 確率的ニューラルネットワークを用いたグラフベース熱慣性SLAM [全文訳有]

Graph-based Thermal-Inertial SLAM with Probabilistic Neural Networks ( http://arxiv.org/abs/2104.07196v1 )

ライセンス: CC BY 4.0
Muhamad Risqi U. Saputra, Pedro P. B. de Gusmao, Bing Wang, Andrew Markham, Niki Trigoni(参考訳) SLAMシステムは通常、周囲の環境を観察するために視覚ベースのセンサーを使用する。 しかし、このようなシステムの性能は周囲の照明条件に大きく依存する。 視界が悪くなる場合や、空中に浮かぶ微粒子の存在(例) 煙、ほこり、などなど 熱画像や慣性センサーに基づくような代替手段の方が有望である。 本稿では、SLAMフロントエンドにおけるニューラル抽象化とSLAMバックエンドにおけるロバストポーズグラフ最適化を組み合わせた、最初の完全熱慣性SLAMシステムを提案する。 本研究では,混合密度ネットワーク(mdn)によってパラメータ化された確率的ディープラーニングを用いて,フロントエンドにおけるセンサ抽象化をモデル化する。 熱画像からこの符号化をうまくモデル化するための重要な戦略は、正規化された14ビットラジオメトリックデータの使用、幻覚視覚(RGB)特徴の導入、MDNパラメータを推定するための特徴選択の導入である。 また、全SLAMシステムを実現するために、熱埋め込みベクトルからループクロージャを検出することができる効率的なグローバル画像記述子を設計する。 室内環境における自己収集型地上ロボットとハンドヘルドデータ,地下トンネルで収集された1つの公開データセット(サブトンネル)を用いて,大規模実験と解析を行った。 最後に, 正確な熱慣性SLAMシステムは, 良性および悪質な視認性の両方の条件下で実現可能であることを示す。

Simultaneous Localization and Mapping (SLAM) system typically employ vision-based sensors to observe the surrounding environment. However, the performance of such systems highly depends on the ambient illumination conditions. In scenarios with adverse visibility or in the presence of airborne particulates (e.g. smoke, dust, etc.), alternative modalities such as those based on thermal imaging and inertial sensors are more promising. In this paper, we propose the first complete thermal-inertial SLAM system which combines neural abstraction in the SLAM front end with robust pose graph optimization in the SLAM back end. We model the sensor abstraction in the front end by employing probabilistic deep learning parameterized by Mixture Density Networks (MDN). Our key strategies to successfully model this encoding from thermal imagery are the usage of normalized 14-bit radiometric data, the incorporation of hallucinated visual (RGB) features, and the inclusion of feature selection to estimate the MDN parameters. To enable a full SLAM system, we also design an efficient global image descriptor which is able to detect loop closures from thermal embedding vectors. We performed extensive experiments and analysis using three datasets, namely self-collected ground robot and handheld data taken in indoor environment, and one public dataset (SubT-tunnel) collected in underground tunnel. Finally, we demonstrate that an accurate thermal-inertial SLAM system can be realized in conditions of both benign and adverse visibility.
翻訳日:2021-04-17 05:41:02 公開日:2021-04-15
# (参考訳) 授業の抽象性を考慮した共同学習による音響シーン分類のための注意的最大特徴マップ [全文訳有]

Attentive Max Feature Map for Acoustic Scene Classification with Joint Learning considering the Abstraction of Classes ( http://arxiv.org/abs/2104.07213v1 )

ライセンス: CC BY 4.0
Hye-jin Shim, Ju-ho Kim, Jee-weon Jung, Ha-Jin Yu(参考訳) 注意機構は音響シーン分類において広く採用されている。 しかし,情報のみに注目する過程では,性能が向上する一方,過度に情報を捨てる傾向にあることがわかった。 そこで本研究では、注意機構をさらに詳しく解明し、上記の現象を緩和するために、注意と最大特徴写像の2つの効果的な手法を組み合わせた注意最大特徴写像と呼ばれるメカニズムを提案する。 さらに,DCASE2020チャレンジにおいて,既存のサブタスクA(10クラス)のラベルの上に,もともとサブタスクB(3クラス)用に生成された追加ラベルを利用する様々な共同学習手法について検討する。 2種類のラベルを同時に使用することは,2つのサブタスクのラベルが抽象化の程度が異なるため,有効であると考えています。 提案手法を2つ適用することにより,サブタスクA上の単一システム間の最先端性能を実現する。 さらに、このモデルはサブタスクbの要求に匹敵する複雑さを持っているため、サブタスクの両方の要求を満たすシステムを開発する可能性を示している。

The attention mechanism has been widely adopted in acoustic scene classification. However, we find that during the process of attention exclusively emphasizing information, it tends to excessively discard information although improving the performance. We propose a mechanism referred to as the attentive max feature map which combines two effective techniques, attention and max feature map, to further elaborate the attention mechanism and mitigate the abovementioned phenomenon. Furthermore, we explore various joint learning methods that utilize additional labels originally generated for subtask B (3-classes) on top of existing labels for subtask A (10-classes) of the DCASE2020 challenge. We expect that using two kinds of labels simultaneously would be helpful because the labels of the two subtasks differ in their degree of abstraction. Applying two proposed techniques, our proposed system achieves state-of-the-art performance among single systems on subtask A. In addition, because the model has a complexity comparable to subtask B's requirement, it shows the possibility of developing a system that fulfills the requirements of both subtasks; generalization on multiple devices and low-complexity.
翻訳日:2021-04-17 05:01:10 公開日:2021-04-15
# (参考訳) マルチタスクはセマンティックドリフトを抑制する [全文訳有]

Multitasking Inhibits Semantic Drift ( http://arxiv.org/abs/2104.07219v1 )

ライセンス: CC BY 4.0
Athul Paul Jacob, Mike Lewis, Jacob Andreas(参考訳) 知的エージェントが共通の目標を達成するためにコミュニケーションをとるとき、これらの目標がエージェントの言語をどのように形作るのか? 我々は,インストラクターエージェントが自然言語サブゴア記述を生成し,エグゼクティブエージェントがこれらの記述を低レベルのアクションにマップする潜在言語ポリシー(llps)における学習のダイナミクスについて検討する。 LLPは、長期強化学習の課題を解決し、タスク指向言語の使用を研究するためのリッチモデルを提供する。 しかし、以前の研究で、LPPトレーニングは意味的なドリフト(本来の自然言語の意味とは矛盾した方法でメッセージを使用すること)に傾向があることが判明した。 ここでは,マルチタスクトレーニングがこの問題に対する効果的な対策であることを理論的・実証的に証明し,複雑な戦略ゲームにおけるニューラルLPのマルチタスクトレーニングがドリフトを低減し,サンプル効率を向上することを示す。

When intelligent agents communicate to accomplish shared goals, how do these goals shape the agents' language? We study the dynamics of learning in latent language policies (LLPs), in which instructor agents generate natural-language subgoal descriptions and executor agents map these descriptions to low-level actions. LLPs can solve challenging long-horizon reinforcement learning problems and provide a rich model for studying task-oriented language use. But previous work has found that LLP training is prone to semantic drift (use of messages in ways inconsistent with their original natural language meanings). Here, we demonstrate theoretically and empirically that multitask training is an effective counter to this problem: we prove that multitask training eliminates semantic drift in a well-studied family of signaling games, and show that multitask training of neural LLPs in a complex strategy game reduces drift and while improving sample efficiency.
翻訳日:2021-04-17 04:50:24 公開日:2021-04-15
# (参考訳) テキストガイド:特徴量に基づくテキスト選択法による長文分類の品質向上 [全文訳有]

Text Guide: Improving the quality of long text classification by a text selection method based on feature importance ( http://arxiv.org/abs/2104.07225v1 )

ライセンス: CC BY 4.0
Krzysztof Fiok (1), Waldemar Karwowski (1), Edgar Gutierrez (1)(2), Mohammad Reza Davahli (1), Maciej Wilamowski (3), Tareq Ahram (1), Awad Al-Juaid (4), and Jozef Zurada (5) ((1) Department of Industrial Engineering and Management Systems, University of Central Florida, USA, (2) Center for Latin-American Logistics Innovation, LOGyCA, Bogota, Colombia (3) Faculty of Economic Sciences, University of Warsaw, Warsaw, Poland (4) Department of Industrial Engineering, College of Engineering, Taif University, Saudi Arabia (5) Business School, University of Louisville, USA)(参考訳) テキスト分類法の性能は過去10年間で512トークン未満のテキストインスタンスで大幅に向上した。 この限界は、長いテキストインスタンスを分析する計算コストが高いため、ほとんどの最先端のトランスフォーマーモデルで採用されている。 この問題を緩和し、より長いテキストの分類を改善するため、研究者は計算コストの根本的な原因を解明し、全てのトランスフォーマーモデルの主要な要素である注意機構の最適化を提案した。 本研究は,テキストの長い分類,すなわちテキストのインスタンス全体を一度に解析し,高い性能を合理的な計算コストで維持する能力の究極的な目標を追求するものではない。 その代わり,テキストガイドと呼ばれるテキストトランケーション手法を提案し,テキスト長を予め定義された制限に減らし,計算コストを低く抑えつつ,ナイーブおよびセミナイーブなアプローチよりも性能を向上させる。 テキストガイドは、特徴の重要性の概念、つまり説明可能な人工知能ドメインから恩恵を受ける。 テキストガイドは,Longformerなどの長文分類に特化して設計された最近の言語モデルの性能向上に有効であることを示す。 さらに,パラメータ最適化がテキストガイド性能の鍵であり,メソッドがデプロイされる前に実行する必要があることを発見した。 今後の実験では、この新しい方法によってさらなる利点がもたらされるかもしれない。

The performance of text classification methods has improved greatly over the last decade for text instances of less than 512 tokens. This limit has been adopted by most state-of-the-researc h transformer models due to the high computational cost of analyzing longer text instances. To mitigate this problem and to improve classification for longer texts, researchers have sought to resolve the underlying causes of the computational cost and have proposed optimizations for the attention mechanism, which is the key element of every transformer model. In our study, we are not pursuing the ultimate goal of long text classification, i.e., the ability to analyze entire text instances at one time while preserving high performance at a reasonable computational cost. Instead, we propose a text truncation method called Text Guide, in which the original text length is reduced to a predefined limit in a manner that improves performance over naive and semi-naive approaches while preserving low computational costs. Text Guide benefits from the concept of feature importance, a notion from the explainable artificial intelligence domain. We demonstrate that Text Guide can be used to improve the performance of recent language models specifically designed for long text classification, such as Longformer. Moreover, we discovered that parameter optimization is the key to Text Guide performance and must be conducted before the method is deployed. Future experiments may reveal additional benefits provided by this new method.
翻訳日:2021-04-17 04:30:43 公開日:2021-04-15
# (参考訳) 文別段落生成 [全文訳有]

Sentence-Permuted Paragraph Generation ( http://arxiv.org/abs/2104.07228v1 )

ライセンス: CC BY 4.0
Wenhao Yu, Chenguang Zhu, Tong Zhao, Zhichun Guo, Meng Jiang(参考訳) 多様な内容の項を生成することは、多くの応用において重要である。 既存の生成モデルは、固定された左右の文順によって、均質化された文脈から類似した内容を生成する。 提案手法は,複数節のコンテンツの多様性を改善するために文順を並べ替えることである。 本稿では,全ての文順序について,出力段落分布のログ類似度を最大化することを目的とした新しいフレームワークPermGenを提案する。 PermGenは階層的な位置埋め込みを使用し、文置換世代におけるトレーニング、デコード、候補ランキングの新しい手順を設計する。 3段落生成ベンチマークの実験は、PermGenが既存のモデルよりも高い品質でより多様な出力を生成することを示した。

Generating paragraphs of diverse contents is important in many applications. Existing generation models produce similar contents from homogenized contexts due to the fixed left-to-right sentence order. Our idea is permuting the sentence orders to improve the content diversity of multi-sentence paragraph. We propose a novel framework PermGen whose objective is to maximize the expected log-likelihood of output paragraph distributions with respect to all possible sentence orders. PermGen uses hierarchical positional embedding and designs new procedures for training, decoding, and candidate ranking in the sentence-permuted generation. Experiments on three paragraph generation benchmarks demonstrate PermGen generates more diverse outputs with a higher quality than existing models.
翻訳日:2021-04-17 04:16:40 公開日:2021-04-15
# (参考訳) 局所2値パターンヒストグラムアルゴリズムとCLAHEに基づく低分解能リアルタイム顔認識システムの改良 [全文訳有]

An Improved Real-Time Face Recognition System at Low Resolution Based on Local Binary Pattern Histogram Algorithm and CLAHE ( http://arxiv.org/abs/2104.07234v1 )

ライセンス: CC BY 4.0
Kamal Chandra Paul, Semih Aslan(参考訳) 本研究では、ポーズや感情、解像度のバリエーションのある15ピクセルの低解像度のリアルタイム顔認識システムを提案する。 lrd200とlrd100というデータセットを設計し、トレーニングと分類に使用しました。 顔検出部は、ヴィオラ・ジョーンズアルゴリズムを用い、顔認識部は、顔検出部から顔画像を受け取って、コントラスト限定適応ヒストグラム等化(CLAHE)と顔アライメントを用いた前処理による局所二分パターンヒストグラム(LBPH)アルゴリズムを用いて処理する。 このシステム内の顔データベースは、当社独自のスタンドアロンandroidアプリと、データベース更新によるトレーニングと認識プロセスの自動再起動を通じて更新することができます。 提案手法を用いて, 1人当たり200画像を含むlrd200データベースを用いて, 15pxで78.40%, 45pxで98.05%のリアルタイム顔認識精度を達成した。 データベース(LRD100)に1人100枚の画像があり、達成された精度は15pxで60.60%、45pxで95%である。 顔の両面に約30度の偏向があり、顔の認識精度は72.25%から81.85%であった。 この顔認識システムは、監視カメラがカメラから人物の距離のために低解像度の画像をキャプチャする法執行目的に使用できる。 また、空港やバス停などの監視システムとしても利用でき、犯罪の危険性を軽減できる。

This research presents an improved real-time face recognition system at a low resolution of 15 pixels with pose and emotion and resolution variations. We have designed our datasets named LRD200 and LRD100, which have been used for training and classification. The face detection part uses the Viola-Jones algorithm, and the face recognition part receives the face image from the face detection part to process it using the Local Binary Pattern Histogram (LBPH) algorithm with preprocessing using contrast limited adaptive histogram equalization (CLAHE) and face alignment. The face database in this system can be updated via our custom-built standalone android app and automatic restarting of the training and recognition process with an updated database. Using our proposed algorithm, a real-time face recognition accuracy of 78.40% at 15 px and 98.05% at 45 px have been achieved using the LRD200 database containing 200 images per person. With 100 images per person in the database (LRD100) the achieved accuracies are 60.60% at 15 px and 95% at 45 px respectively. A facial deflection of about 30 degrees on either side from the front face showed an average face recognition precision of 72.25% - 81.85%. This face recognition system can be employed for law enforcement purposes, where the surveillance camera captures a low-resolution image because of the distance of a person from the camera. It can also be used as a surveillance system in airports, bus stations, etc., to reduce the risk of possible criminal threats.
翻訳日:2021-04-17 03:58:33 公開日:2021-04-15
# (参考訳) 名前付きエンティティ認識のためのポイントワイズ相互情報による正規化モデル [全文訳有]

Regularizing Models via Pointwise Mutual Information for Named Entity Recognition ( http://arxiv.org/abs/2104.07249v1 )

ライセンス: CC BY 4.0
Minbyul Jeong and Jaewoo Kang(参考訳) Named Entity Recognition (NER)では、既存のベンチマークデータセットを解決するためにデータセットバイアスに焦点を当てることで、事前訓練された言語モデルが過大評価されている。 しかし、これらのバイアスは、弱い名前の規則性や多くの目に見えない言及のような実世界の状況に対処するために必要となる一般化を妨げている。 データセットバイアスの使用を緩和し、モデルが完全に活用されるようにするために、バイアスのみモデルをポイントワイズ相互情報(pmi)に置き換え、ドメイン内性能を上回って一般化能力を高めるデバイアス手法を提案する。 提案手法により,ベンチマークデータセットの単語とラベルの相関性が高く,サブワード頻度による情報統計を反映し,正例と負例のクラス不均衡を緩和する。 長い名前と複雑な構造を持つエンティティに対して、これらのエンティティは協調的あるいは特別な文字の偏りによって予測できる。 一般領域および生物医学領域の広範囲にわたる実験は、PMIの有効性と一般化能力を示す。

In Named Entity Recognition (NER), pre-trained language models have been overestimated by focusing on dataset biases to solve current benchmark datasets. However, these biases hinder generalizability which is necessary to address real-world situations such as weak name regularity and plenty of unseen mentions. To alleviate the use of dataset biases and make the models fully exploit data, we propose a debiasing method that our bias-only model can be replaced with a Pointwise Mutual Information (PMI) to enhance generalization ability while outperforming an in-domain performance. Our approach enables to debias highly correlated word and labels in the benchmark datasets; reflect informative statistics via subword frequency; alleviates a class imbalance between positive and negative examples. For long-named and complex-structure entities, our method can predict these entities through debiasing on conjunction or special characters. Extensive experiments on both general and biomedical domains demonstrate the effectiveness and generalization capabilities of the PMI.
翻訳日:2021-04-17 03:49:07 公開日:2021-04-15
# (参考訳) 初歩学習にはまだ埋め込み適応が必要である [全文訳有]

Embedding Adaptation is Still Needed for Few-Shot Learning ( http://arxiv.org/abs/2104.07255v1 )

ライセンス: CC BY 4.0
S\'ebastien M. R. Arnold and Fei Sha(参考訳) 新しく、より挑戦的なタスクセットを構築することは、少数ショットの分類方法を分析し理解するための実りある方法論である。 残念ながら、これらのタスクセットを構築する既存のアプローチは、多少不十分である。彼らは、トレーニングとテストのタスク分布が同一であると仮定するか、あるいは、通常、意味的なクラス関係を得ることのような追加の人的労力を必要とする"ワーストケース"哲学を取るかのどちらかである。 本稿では,人間知識を必要とせず,トレーナーとテストタスクセットを定義するための原則クラスタリング手法であるatgを提案する。 ATGは、事前に定義された量の情報を共有しながら、タスクの配布をトレーニングし、テストする。 セマンティック情報に依存するものを含め、既存のベンチマークよりも容易で、相互に、あるいは難しいタスクセットを生成するためのATGの有効性を実証的に実証する。 最後に、私たちは生成したタスクセットを活用して、少数ショットの分類に新たな光を当てています。

Constructing new and more challenging tasksets is a fruitful methodology to analyse and understand few-shot classification methods. Unfortunately, existing approaches to building those tasksets are somewhat unsatisfactory: they either assume train and test task distributions to be identical -- which leads to overly optimistic evaluations -- or take a "worst-case" philosophy -- which typically requires additional human labor such as obtaining semantic class relationships. We propose ATG, a principled clustering method to defining train and test tasksets without additional human knowledge. ATG models train and test task distributions while requiring them to share a predefined amount of information. We empirically demonstrate the effectiveness of ATG in generating tasksets that are easier, in-between, or harder than existing benchmarks, including those that rely on semantic information. Finally, we leverage our generated tasksets to shed a new light on few-shot classification: gradient-based methods -- previously believed to underperform -- can outperform metric-based ones when transfer is most challenging.
翻訳日:2021-04-17 03:29:11 公開日:2021-04-15
# (参考訳) 中心誘導型識別学習による弱監視ビデオ異常検出 [全文訳有]

Weakly Supervised Video Anomaly Detection via Center-guided Discriminative Learning ( http://arxiv.org/abs/2104.07268v1 )

ライセンス: CC BY 4.0
Boyang Wan, Yuming Fang, Xue Xia and Jiajie Mei(参考訳) 監視ビデオにおける異常検出は、異常なビデオコンテンツと持続時間の多様性のため、難しい課題である。 本稿では,映像の異常検出を,低監督下での映像の異常スコアに対する回帰問題とみなす。 そこで,本研究では,訓練段階においてビデオレベルのラベルのみを必要とするAnomaly Regression Net (AR-Net) と呼ばれる異常検出フレームワークを提案する。 さらに,異常検出のための識別的特徴を学習するために,提案するar-netの動的多重インスタンス学習損失と中心損失をデザインする。 前者は異常と通常のインスタンス間のクラス間距離を拡大するために使用され、後者は通常のインスタンス間のクラス間距離を減らすために提案されている。 包括的な実験は、難しいベンチマークで行われている。 我々の手法は上海Techデータセットにおけるビデオ異常検出のための新しい最先端結果をもたらす

Anomaly detection in surveillance videos is a challenging task due to the diversity of anomalous video content and duration. In this paper, we consider video anomaly detection as a regression problem with respect to anomaly scores of video clips under weak supervision. Hence, we propose an anomaly detection framework, called Anomaly Regression Net (AR-Net), which only requires video-level labels in training stage. Further, to learn discriminative features for anomaly detection, we design a dynamic multiple-instance learning loss and a center loss for the proposed AR-Net. The former is used to enlarge the inter-class distance between anomalous and normal instances, while the latter is proposed to reduce the intra-class distance of normal instances. Comprehensive experiments are performed on a challenging benchmark: ShanghaiTech. Our method yields a new state-of-the-art result for video anomaly detection on ShanghaiTech dataset
翻訳日:2021-04-17 02:58:16 公開日:2021-04-15
# (参考訳) pomdp計画のための適応的信念判別 [全文訳有]

Adaptive Belief Discretization for POMDP Planning ( http://arxiv.org/abs/2104.07276v1 )

ライセンス: CC BY 4.0
Divya Grover, Christos Dimitrakakis(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は環境とエージェントの相互作用を表現するために広く使われているモデルである。 エージェントは環境状態を観察しないため、その不確実性は通常確率論的信念によって表される。 考えられる信条の集合は無限であり、正確な計画が難しいが、信条空間の複雑性(従って計画の複雑さ)はその被覆数によって特徴づけられる。 多くのpomdpソルバは、信念空間を一様に判別し、(通常不明な)被覆数の観点から計画誤差を与える。 代わりに,適応的信念判別スキームを提案し,それに関連する計画誤差を与える。 さらに、POMDPパラメータに関する被覆数を特徴付ける。 これにより、値関数エラーをバウンドするために必要なプランナーの正確なメモリ要件を指定できます。 次に,このスキームを用いた新しい計算効率の高い解法を提案する。 さまざまなシナリオにおいて,我々のアルゴリズムが最先端技術と高い競争力を持つことを示す。

Partially Observable Markov Decision Processes (POMDP) is a widely used model to represent the interaction of an environment and an agent, under state uncertainty. Since the agent does not observe the environment state, its uncertainty is typically represented through a probabilistic belief. While the set of possible beliefs is infinite, making exact planning intractable, the belief space's complexity (and hence planning complexity) is characterized by its covering number. Many POMDP solvers uniformly discretize the belief space and give the planning error in terms of the (typically unknown) covering number. We instead propose an adaptive belief discretization scheme, and give its associated planning error. We furthermore characterize the covering number with respect to the POMDP parameters. This allows us to specify the exact memory requirements on the planner, needed to bound the value function error. We then propose a novel, computationally efficient solver using this scheme. We demonstrate that our algorithm is highly competitive with the state of the art in a variety of scenarios.
翻訳日:2021-04-17 02:49:48 公開日:2021-04-15
# (参考訳) Virtual Adversarial Discrete Perturbation を用いた一貫性トレーニング [全文訳有]

Consistency Training with Virtual Adversarial Discrete Perturbation ( http://arxiv.org/abs/2104.07284v1 )

ライセンス: CC BY 4.0
Jungsoo Park, Gyuwan Kim, Jaewoo Kang(参考訳) 本稿では,従来の入力と摂動入力とを併用したトレーニングモデルの予測を,予測の最も高いばらつきを生じさせる離散雑音を付加することにより効果的に整合性トレーニングフレームワークを提案する。 この仮想対向離散ノイズは、少数のトークンを交換し、オリジナルセマンティクスを可能な限り保ちながら、トレーニングモデルの決定境界を効率的に押し付けることによって得られる。 さらに,条件付き独立性仮定による摂動文のゆらぎを緩和するための反復的改良処理を行う。 提案手法は, 半教師付きテキスト分類タスクやロバスト性ベンチマークにおいて, テキスト編集, パラフラージング, 連続雑音を伴う他の一貫性トレーニングベースラインよりも優れることを示す。

We propose an effective consistency training framework that enforces a training model's predictions given original and perturbed inputs to be similar by adding a discrete noise that would incur the highest divergence between predictions. This virtual adversarial discrete noise obtained by replacing a small portion of tokens while keeping original semantics as much as possible efficiently pushes a training model's decision boundary. Moreover, we perform an iterative refinement process to alleviate the degraded fluency of the perturbed sentence due to the conditional independence assumption. Experimental results show that our proposed method outperforms other consistency training baselines with text editing, paraphrasing, or a continuous noise on semi-supervised text classification tasks and a robustness benchmark.
翻訳日:2021-04-17 02:40:44 公開日:2021-04-15
# (参考訳) 条件付き作用木による離散作用空間の一般化 [全文訳有]

Generalising Discrete Action Spaces with Conditional Action Trees ( http://arxiv.org/abs/2104.07294v1 )

ライセンス: CC BY 4.0
Christopher Bamford, Alvaro Ovalle(参考訳) アクション空間を構築するための強化学習(RL)環境には、それに続く規則が比較的少ない。 その結果、RLアルゴリズムを複数のコンポーネントを持つ大きなアクション空間を持つタスクに適用するには、異なるフォーマットに適応するための追加の労力が必要である。 本稿では,(1)rlにおけるアクション空間の構成法として,(2)複数のアクション空間仕様を一般化する手法,(2)アクション空間を複数のサブ空間に分解し,多段階意思決定アプローチを好むことによって,アクション空間を著しく削減するプロセスを定式化する手法,という2つの主な目的について紹介する。 本手法を検証したいくつかの概念実証実験を,rts型ゲームでよく見られるような,基本離散型アクション空間の環境から,大きな組合せ型アクション空間の環境まで紹介する。

There are relatively few conventions followed in reinforcement learning (RL) environments to structure the action spaces. As a consequence the application of RL algorithms to tasks with large action spaces with multiple components require additional effort to adjust to different formats. In this paper we introduce {\em Conditional Action Trees} with two main objectives: (1) as a method of structuring action spaces in RL to generalise across several action space specifications, and (2) to formalise a process to significantly reduce the action space by decomposing it into multiple sub-spaces, favoring a multi-staged decision making approach. We show several proof-of-concept experiments validating our scheme, ranging from environments with basic discrete action spaces to those with large combinatorial action spaces commonly found in RTS-style games.
翻訳日:2021-04-17 02:25:03 公開日:2021-04-15
# (参考訳) 3DCrowdNet: 野生における2D Pose-Guided3D Crowd Human Poseと形状推定 [全文訳有]

3DCrowdNet: 2D Human Pose-Guided3D Crowd Human Pose and Shape Estimation in the Wild ( http://arxiv.org/abs/2104.07300v1 )

ライセンス: CC BY 4.0
Hongsuk Choi, Gyeongsik Moon, JoonKyu Park, Kyoung Mu Lee(参考訳) 観客のシーンから正確な3Dのポーズと形状を復元することは、共通の存在にもかかわらず非常に困難であり、ほとんど研究されていない。 そこで,本稿では,3dポーズ誘導型3d群衆ポーズ推定システムである3dcrowdnetを提案する。 2次元人格推定手法は、群衆シーンを含む多人数2次元データセットを活用できるため、3次元人格推定法よりも群衆シーンにおける比較的頑健な出力を提供する。 一方、3D手法は3Dデータセットを利用しており、画像の大部分は群衆のない1人のアクターを含んでいる。 列車データの違いは、3Dメソッドが目標人物に焦点を合わせる能力を妨げている。 そこで,本研究では,対象人物に焦点をあて,人間に不可欠な情報を提供するネットワークを誘導する,市販の2Dポーズ推定装置からのロバストな2Dポーズ出力を利用するシステムの設計を行った。 我々の3DCrowdNetは、これまでの観客シーンよりも優れていた。 コードをリリースします。

Recovering accurate 3D human pose and shape from in-the-wild crowd scenes is highly challenging and barely studied, despite their common presence. In this regard, we present 3DCrowdNet, a 2D human pose-guided 3D crowd pose and shape estimation system for in-the-wild scenes. 2D human pose estimation methods provide relatively robust outputs on crowd scenes than 3D human pose estimation methods, as they can exploit in-the-wild multi-person 2D datasets that include crowd scenes. On the other hand, the 3D methods leverage 3D datasets, of which images mostly contain a single actor without a crowd. The train data difference impedes the 3D methods' ability to focus on a target person in in-the-wild crowd scenes. Thus, we design our system to leverage the robust 2D pose outputs from off-the-shelf 2D pose estimators, which guide a network to focus on a target person and provide essential human articulation information. We show that our 3DCrowdNet outperforms previous methods on in-the-wild crowd scenes. We will release the codes.
翻訳日:2021-04-17 02:10:12 公開日:2021-04-15
# (参考訳) transfernet: 関係グラフ上のマルチホップ質問応答のための効果的で透明なフレームワーク [全文訳有]

TransferNet: An Effective and Transparent Framework for Multi-hop Question Answering over Relation Graph ( http://arxiv.org/abs/2104.07302v1 )

ライセンス: CC BY 4.0
Jiaxin Shi, Shulin Cao, Lei Hou, Juanzi Li, Hanwang Zhang(参考訳) マルチホップ質問回答(Multi-hop Question Answering, QA)は、答えに向かうあらゆるステップにおいて、エンティティの関係を正確に推論する必要があるため、難しい課題である。 これらの関係は、知識グラフのラベル(例: \textit{spouse})やテキストコーパスのテキスト(例: \textit{ they have been married for 26 years})で表現することができる。 既存のモデルは通常、シーケンシャルな関係パスを予測したり、隠れたグラフの特徴を集約することで答えを推測する。 前者は最適化が難しく、後者は解釈不可能である。 本稿では,統一フレームワークでラベルとテキストの関係をサポートするマルチホップqaの有効かつ透明なモデルであるtransfernetを提案する。 TransferNetは複数のステップでエンティティを飛び越える。 それぞれのステップで、質問の異なる部分に参加し、関係に関するアクティブなスコアを計算し、その後、活性化された関係に沿って異なる方法で前のエンティティスコアを転送する。 我々は3つのデータセットに関する広範な実験を行い、TransferNetが最先端のモデルを大きく上回っていることを示す。 特にMetaQAでは、2-hopと3-hopの質問で100%の精度を実現している。 質的解析により、TransferNetは透明で解釈可能な中間結果を持つことを示す。

Multi-hop Question Answering (QA) is a challenging task because it requires precise reasoning with entity relations at every step towards the answer. The relations can be represented in terms of labels in knowledge graph (e.g., \textit{spouse}) or text in text corpus (e.g., \textit{they have been married for 26 years}). Existing models usually infer the answer by predicting the sequential relation path or aggregating the hidden graph features. The former is hard to optimize, and the latter lacks interpretability. In this paper, we propose TransferNet, an effective and transparent model for multi-hop QA, which supports both label and text relations in a unified framework. TransferNet jumps across entities at multiple steps. At each step, it attends to different parts of the question, computes activated scores for relations, and then transfer the previous entity scores along activated relations in a differentiable way. We carry out extensive experiments on three datasets and demonstrate that TransferNet surpasses the state-of-the-art models by a large margin. In particular, on MetaQA, it achieves 100\% accuracy in 2-hop and 3-hop questions. By qualitative analysis, we show that TransferNet has transparent and interpretable intermediate results.
翻訳日:2021-04-17 01:53:11 公開日:2021-04-15
# (参考訳) SiamCorners: ビジュアルトラッキングのためのSamese Corner Networks [全文訳有]

SiamCorners: Siamese Corner Networks for Visual Tracking ( http://arxiv.org/abs/2104.07303v1 )

ライセンス: CC BY 4.0
Kai Yang, Zhenyu He, Wenjie Pei, Zikun Zhou, Xin Li, Di Yuan and Haijun Zhang(参考訳) 地域提案ネットワーク(RPN)に基づく現在のシームズネットワークは,その精度と高効率性から,視覚的トラッキングに大きな注目を集めている。 しかしながら、RPNの設計には、モデルの適用性や利便性に影響を与えるアンカーボックスの数、スケール、アスペクト比の選択が含まれる。 さらに,これらのアンカーボックスは,接地真理バウンディングボックスとの交叉対(IoU)の計算などの複雑な計算を必要とするが,アンカーボックスに関連する問題のため,大規模画像ペア上でオフラインでエンドツーエンドにトレーニングされた単純なアンカーフリートラッカー(シームズコーナーネットワーク,SiamCorners)を提案する。 具体的には,目標のバウンディングボックス推定を一対のコーナー予測(右下隅と左上隅)に変換するために,修正されたコーナープーリング層を導入する。 ターゲットを一対のコーナーとして追跡することで、アンカーボックスの設計を避けることができる。 これにより、追跡アルゴリズム全体が、アンカーベースのトラッカーよりも柔軟でシンプルになる。 ネットワーク設計において,我々はさらに,コーナープーリングモジュールがディープネットワークにおける追跡対象の複数のコーナーを予測できる層別特徴集約戦略を導入する。 次に、これらの候補コーナーで最適なトラッキングボックスを選択するための新しいペナルティ用語を導入する。 最後に、SiamCornersは、高い実行速度を維持しながら、最先端のトラッカーに匹敵する実験結果を達成する。 特に、SiamCornersはNFS30では53.7%のAUC、UAV123では61.4%のAUCを達成している。

The current Siamese network based on region proposal network (RPN) has attracted great attention in visual tracking due to its excellent accuracy and high efficiency. However, the design of the RPN involves the selection of the number, scale, and aspect ratios of anchor boxes, which will affect the applicability and convenience of the model. Furthermore, these anchor boxes require complicated calculations, such as calculating their intersection-over-un ion (IoU) with ground truth bounding boxes.Due to the problems related to anchor boxes, we propose a simple yet effective anchor-free tracker (named Siamese corner networks, SiamCorners), which is end-to-end trained offline on large-scale image pairs. Specifically, we introduce a modified corner pooling layer to convert the bounding box estimate of the target into a pair of corner predictions (the bottom-right and the top-left corners). By tracking a target as a pair of corners, we avoid the need to design the anchor boxes. This will make the entire tracking algorithm more flexible and simple than anchorbased trackers. In our network design, we further introduce a layer-wise feature aggregation strategy that enables the corner pooling module to predict multiple corners for a tracking target in deep networks. We then introduce a new penalty term that is used to select an optimal tracking box in these candidate corners. Finally, SiamCorners achieves experimental results that are comparable to the state-of-art tracker while maintaining a high running speed. In particular, SiamCorners achieves a 53.7% AUC on NFS30 and a 61.4% AUC on UAV123, while still running at 42 frames per second (FPS).
翻訳日:2021-04-17 01:20:21 公開日:2021-04-15
# (参考訳) 量子ブロックチェーンのインターネット:安定デジタル通貨のセキュリティモデリングと動的リソース価格

Internet of quantum blockchains: security modeling and dynamic resource pricing for stable digital currency ( http://arxiv.org/abs/2104.07323v1 )

ライセンス: CC BY 4.0
Wanyang Dai(参考訳) internet of quantum blockchains (iob)が未来のインターネットになるだろう。 本稿では,IoBに対する新たなコントリビューションとして,量子超越性を考慮したセキュリティモデリングを実現するブロックベースの量子チャネルネットワーク技術を開発し,安定したデジタル通貨の動的価格設定によるIoBベースのFinTechプラットフォームモデルを確立する。 新しいコントリビューションの相互作用にも対処しています。 そこで我々は,量子鍵分布(qkd)を用いた時間と空間の量子絡み合いの観点から,量子チャネルネットワークによる一般化iobセキュリティモデルを確立する。 我々のIoBは、安定したデジタル通貨によるオンライン取引と支払い能力を持つ一般的な構造化物(サプライチェーンシステムなど)と対話でき、同期サービスを必要とするベクトル値のデータストリームを処理できます。 そこで、設計したQKDでは、秘密鍵と公開鍵のための一般化ランダム数生成器が、ゼロサムと非ゼロサムリソース競合価格の混合ポリシーによって提案される。 このポリシーの有効性は近似理論と数値計算による拡散モデリングによって正当化される。

Internet of quantum blockchains (IoB) will be the future Internet. In this paper, we make two new contributions to IoB: developing a block based quantum channel networking technology to handle its security modeling in face of the quantum supremacy and establishing IoB based FinTech platform model with dynamic pricing for stable digital currency. The interaction between our new contributions is also addressed. In doing so, we establish a generalized IoB security model by quantum channel networking in terms of both time and space quantum entanglements with quantum key distribution (QKD). Our IoB can interact with general structured things (e.g., supply chain systems) having online trading and payment capability via stable digital currency and can handle vector-valued data streams requiring synchronized services. Thus, within our designed QKD, a generalized random number generator for private and public keys is proposed by a mixed zero-sum and non-zero-sum resource-competition pricing policy. The effectiveness of this policy is justified by diffusion modeling with approximation theory and numerical implementations.
翻訳日:2021-04-17 00:51:16 公開日:2021-04-15
# (参考訳) OneLog: ソフトウェアログ異常検出におけるエンドツーエンドトレーニングを目指して [全文訳有]

OneLog: Towards End-to-End Training in Software Log Anomaly Detection ( http://arxiv.org/abs/2104.07324v1 )

ライセンス: CC BY 4.0
Shayan Hashemi, Mika M\"antyl\"a(参考訳) 近年,オンラインサービスやiotデバイスの普及に伴い,学界と産業の両方において,ソフトウェアログ異常検出が重要な関心事となっている。 しかし、本稿執筆時点では、ログ異常検出タスクへのほぼすべての貢献は、解析、ベクトル化、分類に基づく従来のアーキテクチャに準拠している。 本論文では、複数の小さなコンポーネントの代わりに大きなディープモデルを使用する新しいアプローチであるOneLogを提案する。 OneLogは従来のNLPタスクから派生した文字ベースの畳み込みニューラルネットワーク(CNN)を使用している。 これにより、モデルは一度に複数のデータセットを活用し、前のアーキテクチャで削除された数値と句読点を活用できる。 我々は,Hadoop Distributed File System (HDFS), BlueGene/L (BGL), Hadoop, OpenStackの4つのオープンデータセットを用いてOneLogを評価する。 単一プロジェクトおよび複数プロジェクトデータセットを用いてモデルを評価する。 さらに,合成進化データセットと事前異常検出テストを用いて,異常発生前の予測能力を示すロバスト性を評価する。 我々の知る限り、我々のマルチプロジェクトモデルはHDFS、Hadoop、BGLデータセットの最先端メソッドよりも優れており、それぞれ99.99、99.99、99.98のF1スコアを得る。 しかし、OneLogのOpenstackのパフォーマンスは21.18点のF1スコアに満足していない。 さらに、Onelogsのパフォーマンスは、HDFS、Hadoop、BGLのF1スコア99.95、99.92、99.98のノイズに悩まされている。

In recent years, with the growth of online services and IoT devices, software log anomaly detection has become a significant concern for both academia and industry. However, at the time of writing this paper, almost all contributions to the log anomaly detection task, follow the same traditional architecture based on parsing, vectorizing, and classifying. This paper proposes OneLog, a new approach that uses a large deep model based on instead of multiple small components. OneLog utilizes a character-based convolutional neural network (CNN) originating from traditional NLP tasks. This allows the model to take advantage of multiple datasets at once and take advantage of numbers and punctuations, which were removed in previous architectures. We evaluate OneLog using four open data sets Hadoop Distributed File System (HDFS), BlueGene/L (BGL), Hadoop, and OpenStack. We evaluate our model with single and multi-project datasets. Additionally, we evaluate robustness with synthetically evolved datasets and ahead-of-time anomaly detection test that indicates capabilities to predict anomalies before occurring. To the best of our knowledge, our multi-project model outperforms state-of-the-art methods in HDFS, Hadoop, and BGL datasets, respectively setting getting F1 scores of 99.99, 99.99, and 99.98. However, OneLog's performance on the Openstack is unsatisfying with F1 score of only 21.18. Furthermore, Onelogs performance suffers very little from noise showing F1 scores of 99.95, 99.92, and 99.98 in HDFS, Hadoop, and BGL.
翻訳日:2021-04-17 00:50:11 公開日:2021-04-15
# (参考訳) roc:covid-19に対する国からの反応のオントロジー [全文訳有]

ROC: An Ontology for Country Responses towards COVID-19 ( http://arxiv.org/abs/2104.07345v1 )

ライセンス: CC BY 4.0
Jamal Al Qundus, Ralph Sch\"afermeier, Naouel Karam, Silvio Peikert, Adrian Paschke(参考訳) roc onlogy for country response to covid-19は、新型コロナウイルス(covid-19)パンデミックに関するデータを収集、リンク、共有するためのモデルを提供する。 これは概念の表現と語彙の作成のためのセマンティックスタンダード(W3C標準RDF、OWL、SPARQL)に従う。 ROCは、異質なデータソースからのデータの統合を可能にする国策に焦点を当てている。 提案するオントロジーは, 各国の政府対応の有効性と副作用について, 統計的分析を容易にすることを目的としている。 オントロジーには、OxCGRTが公開情報から収集したデータが含まれている。 このデータは、ほとんどの国でECDCが提供する情報や、COVID-19のデータ収集に使われるさまざまなリポジトリから収集されている。

The ROC ontology for country responses to COVID-19 provides a model for collecting, linking and sharing data on the COVID-19 pandemic. It follows semantic standardization (W3C standards RDF, OWL, SPARQL) for the representation of concepts and creation of vocabularies. ROC focuses on country measures and enables the integration of data from heterogeneous data sources. The proposed ontology is intended to facilitate statistical analysis to study and evaluate the effectiveness and side effects of government responses to COVID-19 in different countries. The ontology contains data collected by OxCGRT from publicly available information. This data has been compiled from information provided by ECDC for most countries, as well as from various repositories used to collect data on COVID-19.
翻訳日:2021-04-17 00:39:10 公開日:2021-04-15
# (参考訳) Sum-Product Networkの高速プライベートパラメータ学習と評価 [全文訳有]

Fast Private Parameter Learning and Evaluation for Sum-Product Networks ( http://arxiv.org/abs/2104.07353v1 )

ライセンス: CC BY 4.0
Ernst Althaus, Mohammad Sadeq Dousti and Stefan Kramer(参考訳) 和積ネットワーク(SPN)は、複数の種類の推論を効率的に描画できるグラフィカルモデルである。 SPNの学習には、モデルのアーキテクチャを学習し、パラメータを学習する2つのタイプがある。 本稿では、アーキテクチャが固定されていると仮定して、和ノードの重み付けを学習し、データを複数のパーティ間で水平に分割する方法を示す。 計算は各参加者のプライバシーを保護します。 さらに、高速計算を可能にし、計算資源をほとんど必要としない(homomorphic)暗号化の代わりにシークレット共有を利用する。 この目的のために、近似実除算を計算するために新しい整数除算を用いる。 また,学習したSPNを用いて,簡便かつプライベートな評価を行うことができることを示す。

A sum-product network (SPN) is a graphical model that allows several types of inferences to be drawn efficiently. There are two types of learning for SPNs: Learning the architecture of the model, and learning the parameters. In this paper, we tackle the second problem: We show how to learn the weights for the sum nodes, assuming the architecture is fixed, and the data is horizontally partitioned between multiple parties. The computations will preserve the privacy of each participant. Furthermore, we will use secret sharing instead of (homomorphic) encryption, which allows fast computations and requires little computational resources. To this end, we use a novel integer division to compute approximate real divisions. We also show how simple and private evaluations can be performed using the learned SPN.
翻訳日:2021-04-17 00:30:21 公開日:2021-04-15
# (参考訳) 多言語翻訳のための適応スパース変換器 [全文訳有]

Adaptive Sparse Transformer for Multilingual Translation ( http://arxiv.org/abs/2104.07358v1 )

ライセンス: CC BY 4.0
Hongyu Gong, Xian Li, Dmitriy Genzel(参考訳) 多言語機械翻訳は、言語間の知識伝達のサポートや、多くのバイリンガルモデルと比較して訓練や展開のコストが低く、近年多くの注目を集めている。 多言語モデルの既知の課題は、否定的言語干渉である。 翻訳品質を向上させるために、より深いより広いアーキテクチャを、より大きなモデル容量のための多言語モデリングに適用し、同時に推論コストの増大に苦しむ。 近年の研究では、言語間で共有されるパラメータが干渉の原因であり、ポジティブな伝達を可能にする可能性があることが指摘されている。 これらの知見に基づき、多言語モデリングのための適応的かつスパースなアーキテクチャを提案し、モデルに共有および言語固有のパラメータを学習させ、正の伝達を改善し、干渉を軽減するように訓練する。 スパースアーキテクチャは推論効率を維持するサブネットワークのみを活性化し、適応設計は入力言語に基づいて異なるサブネットワークを選択する。 複数の公開データセットをまたいだ多言語翻訳で評価すると, 推論コストを増加させることなく, 翻訳品質の面では, 強いベースラインを上回っている。

Multilingual machine translation has attracted much attention recently due to its support of knowledge transfer among languages and the low cost of training and deployment compared with numerous bilingual models. A known challenge of multilingual models is the negative language interference. In order to enhance the translation quality, deeper and wider architectures are applied to multilingual modeling for larger model capacity, which suffers from the increased inference cost at the same time. It has been pointed out in recent studies that parameters shared among languages are the cause of interference while they may also enable positive transfer. Based on these insights, we propose an adaptive and sparse architecture for multilingual modeling, and train the model to learn shared and language-specific parameters to improve the positive transfer and mitigate the interference. The sparse architecture only activates a subnetwork which preserves inference efficiency, and the adaptive design selects different subnetworks based on the input languages. Evaluated on multilingual translation across multiple public datasets, our model outperforms strong baselines in terms of translation quality without increasing the inference cost.
翻訳日:2021-04-17 00:27:03 公開日:2021-04-15
# (参考訳) 過決定線形システムのスケール不変解と強化学習への応用

Scale Invariant Solutions for Overdetermined Linear Systems with Applications to Reinforcement Learning ( http://arxiv.org/abs/2104.07361v1 )

ライセンス: CC BY 4.0
Rahul Madhavan, Gugan Thoppe, Hemanta Makwana(参考訳) 過剰決定線形系は強化学習(例えばQ)や関数近似による値関数推定において一般的である。 しかし、標準の最小二乗基準は、大きなノルムを持つ行によって不規則に影響を受ける解をもたらす。 これは深刻な問題であり、特にこれらのシステムの行列がユーザ制御を超えている場合である。 そこで我々は,値関数推定のための2つの新しいアルゴリズム,正規化モンテカルロ法と正規化td(0)法を提案する。 また,本研究以外でも有用かもしれない適応的なステップサイズも導入する。 シミュレーションと理論的保証を用いて、アイデアの有効性を実証する。

Overdetermined linear systems are common in reinforcement learning, e.g., in Q and value function estimation with function approximation. The standard least-squares criterion, however, leads to a solution that is unduly influenced by rows with large norms. This is a serious issue, especially when the matrices in these systems are beyond user control. To address this, we propose a scale-invariant criterion that we then use to develop two novel algorithms for value function estimation: Normalized Monte Carlo and Normalized TD(0). Separately, we also introduce a novel adaptive stepsize that may be useful beyond this work as well. We use simulations and theoretical guarantees to demonstrate the efficacy of our ideas.
翻訳日:2021-04-17 00:13:01 公開日:2021-04-15
# (参考訳) 放射状可視化による機械学習モデルの比較と説明 [全文訳有]

Facilitating Machine Learning Model Comparison and Explanation Through A Radial Visualisation ( http://arxiv.org/abs/2104.07377v1 )

ライセンス: CC BY 4.0
Jianlong Zhou, Weidong Huang, and Fang Chen(参考訳) データセットに効果的な機械学習(ML)モデルを構築することは、さまざまなステップを含む難しい作業である。 最も重要なステップの1つは、生成された大量のMLモデルを比較して、デプロイメントに最適なものを見つけることである。 このようなモデルを動的な機能数と比較することは困難である。 比較は単にMLモデルのパフォーマンスの違いを見つけるだけでなく、ユーザーはML説明の特徴の重要性など、機能とモデルパフォーマンスの関係にも関心を持っている。 本稿では,あるデータセットの異なる特徴量で訓練されたMLモデルを比較し,暗黙的な依存関係を明らかにする新しい可視化手法であるRadialNet Chartを提案する。 radialnet chartでは、mlモデルと特徴はそれぞれ線と弧で表現される。 これらの線は再帰関数を用いて効果的に生成される。 動的特徴量を持つMLモデルの依存性を可視化構造にエンコードし、関連するライン接続から直接MLモデルとその依存する特徴を明らかにする。 mlモデルの性能情報はラジアルネットチャートで色と線幅でエンコードされる。 視覚化の構造とともに、特徴の重要性は、MLの説明のためにRadialNet Chartで直接認識することができる。

Building an effective Machine Learning (ML) model for a data set is a difficult task involving various steps. One of the most important steps is to compare generated substantial amounts of ML models to find the optimal one for the deployment. It is challenging to compare such models with dynamic number of features. Comparison is more than just finding differences of ML model performance, users are also interested in the relations between features and model performance such as feature importance for ML explanations. This paper proposes RadialNet Chart, a novel visualisation approach to compare ML models trained with a different number of features of a given data set while revealing implicit dependent relations. In RadialNet Chart, ML models and features are represented by lines and arcs respectively. These lines are generated effectively using a recursive function. The dependence of ML models with dynamic number of features is encoded into the structure of visualisation, where ML models and their dependent features are directly revealed from related line connections. ML model performance information is encoded with colour and line width in RadialNet Chart. Together with the structure of visualisation, feature importance can be directly discerned in RadialNet Chart for ML explanations.
翻訳日:2021-04-17 00:11:59 公開日:2021-04-15
# (参考訳) 技術的手続きにおけるエンティティの追跡 - 新しいデータセットとベースライン [全文訳有]

Tracking entities in technical procedures -- a new dataset and baselines ( http://arxiv.org/abs/2104.07378v1 )

ライセンス: CC BY 4.0
Saransh Goyal, Pratyush Pandey, Garima Gaur, Subhalingam D, Srikanta Bedathur, Maya Ramanath(参考訳) 技術手順でエンティティを追跡するための新しいデータセットであるtechtrackを紹介する。 WikiHowからオープンドメインの記事に注釈を付けたデータセットは、"プリンタの接続方法"など1351のプロシージャで構成され、1200以上のユニークなエンティティを1プロシージャあたり平均4.7のエンティティで識別する。 我々は,エンティティ追跡タスクにおける最先端モデルの性能を評価し,それらが人間のアノテーション性能よりかなり低いことを確認する。 我々は,テクトラックを用いて時相テキストからの手続きの理解研究を行う方法について述べる。

We introduce TechTrack, a new dataset for tracking entities in technical procedures. The dataset, prepared by annotating open domain articles from WikiHow, consists of 1351 procedures, e.g., "How to connect a printer", identifies more than 1200 unique entities with an average of 4.7 entities per procedure. We evaluate the performance of state-of-the-art models on the entity-tracking task and find that they are well below the human annotation performance. We describe how TechTrack can be used to take forward the research on understanding procedures from temporal texts.
翻訳日:2021-04-16 23:53:53 公開日:2021-04-15
# (参考訳) 自己教師付き音声表現学習におけるプリテキストタスク選択のための条件付き独立性 [全文訳有]

Conditional independence for pretext task selection in Self-supervised speech representation learning ( http://arxiv.org/abs/2104.07388v1 )

ライセンス: CC BY 4.0
Salah Zaiem, Titouan Parcollet, Slim Essid(参考訳) プレテキストタスクの解決を通じて、自己教師付き学習(SSL)はラベルのないデータを活用し、下流タスクの従来の入力機能を置き換える有用な潜在表現を抽出する。 一般的なプリテキストタスクは、元の信号から派生した擬似ラベル上でSSLモデルを事前訓練することである。 この手法は、様々な有意義な信号処理機能が擬似ラベルとして機能する音声データに特に有用である。 しかし、音声や他の種類のデータに対して擬似ラベルを選択するプロセスはほとんど未調査のままであり、現在、最終的な下流タスクの結果を観察している。 しかしながら、この方法論は計算量(hence carbon)の大幅なコストのため、スケールでは持続不可能である。 そこで本稿では,下流課題に対して適切な擬似ラベルを選択するための実践的・理論的枠組みを提案する。 より正確には、条件付き独立理論に基づく擬似ラベルユーティリティの機能推定器を提案するが、これは訓練を必要としない。 話者認識と自動音声認識による評価実験は,下流課題で観測された性能と提案手法で得られた有用性評価との間に有意な相関関係を示し,自己教師付き音声表現学習のための疑似ラベルの探索を容易にする。

Through solving pretext tasks, self-supervised learning (SSL) leverages unlabeled data to extract useful latent representations replacing traditional input features in the downstream task. A common pretext task consists in pretraining a SSL model on pseudo-labels derived from the original signal. This technique is particularly relevant for speech data where various meaningful signal processing features may serve as pseudo-labels. However, the process of selecting pseudo-labels, for speech or other types of data, remains mostly unexplored and currently relies on observing the results on the final downstream task. Nevertheless, this methodology is not sustainable at scale due to substantial computational (hence carbon) costs. Thus, this paper introduces a practical and theoretical framework to select relevant pseudo-labels with respect to a given downstream task. More precisely, we propose a functional estimator of the pseudo-label utility grounded in the conditional independence theory, which does not require any training. The experiments conducted on speaker recognition and automatic speech recognition validate our estimator, showing a significant correlation between the performance observed on the downstream task and the utility estimates obtained with our approach, facilitating the prospection of relevant pseudo-labels for self-supervised speech representation learning.
翻訳日:2021-04-16 23:49:10 公開日:2021-04-15
# (参考訳) 残差接続による深層カプセルネットワークの訓練 [全文訳有]

Training Deep Capsule Networks with Residual Connections ( http://arxiv.org/abs/2104.07393v1 )

ライセンス: CC BY 4.0
Josef Gugglberger, David Peer, Antonio Rodriguez-Sanchez(参考訳) capsule networkは、最近人気が高まっているニューラルネットワークの一種だ。 それらはカプセルと呼ばれるニューロンのグループで構成され、オブジェクトやオブジェクトの部分の特性をエンコードする。 カプセル間の接続は、低レベル層から上層層へのカプセルの出力をルーティングするアルゴリズムによって、オブジェクト間の部分的な関係を暗号化する。 カプセルネットワークは、MNIST、Fashion-MNIST、Small-NORBといった多くの挑戦的なコンピュータビジョンタスクにおいて、最先端の結果に到達することができる。 しかし、ほとんどのカプセルネットワークの実装では、2から3つのカプセル層を使用しており、その適用性を制限する。 このような制限を克服するためのアプローチのひとつは、より深いネットワークアーキテクチャをトレーニングすることだ。 本稿では,4つのデータセットと3つの異なるルーティングアルゴリズムを用いて,残差接続を用いた深層カプセルネットワークの訓練手法を提案する。 実験の結果,より深いカプセルネットワークのトレーニングでは,性能が向上することがわかった。 ソースコードはhttps://github.com/m oejoe95/res-capsnetで入手できる。

Capsule networks are a type of neural network that have recently gained increased popularity. They consist of groups of neurons, called capsules, which encode properties of objects or object parts. The connections between capsules encrypt part-whole relationships between objects through routing algorithms which route the output of capsules from lower level layers to upper level layers. Capsule networks can reach state-of-the-art results on many challenging computer vision tasks, such as MNIST, Fashion-MNIST, and Small-NORB. However, most capsule network implementations use two to three capsule layers, which limits their applicability as expressivity grows exponentially with depth. One approach to overcome such limitations would be to train deeper network architectures, as it has been done for convolutional neural networks with much increased success. In this paper, we propose a methodology to train deeper capsule networks using residual connections, which is evaluated on four datasets and three different routing algorithms. Our experimental results show that in fact, performance increases when training deeper capsule networks. The source code is available on https://github.com/m oejoe95/res-capsnet.
翻訳日:2021-04-16 23:38:16 公開日:2021-04-15
# (参考訳) 同時多能性ニューラルマシン翻訳 [全文訳有]

Simultaneous Multi-Pivot Neural Machine Translation ( http://arxiv.org/abs/2104.07410v1 )

ライセンス: CC BY 4.0
Raj Dabre, Aizhan Imankulova, Masahiro Kaneko, Abhisek Chakrabarty(参考訳) 並列コーパスはニューラルマシン翻訳(NMT)モデルのトレーニングには不可欠であり、ほとんどの言語ペアの並列コーパスは存在しないか不足している。 このような場合、ピボット言語nmtは、ソースとピボットとピボットとターゲット言語の間に並列コーパスが存在するようにピボット言語を使用する場合に有用である。 当然、ピボット言語翻訳の品質は、そのペアに対して妥当な大きさの直接並列コーパスで達成できるものよりも劣っている。 リアルタイム同時翻訳設定では、いくつかのソース語が利用可能になった時点でモデルを出力しなければならないため、ピボット言語翻訳の品質はさらに悪化する。 この問題を解決するために,多言語翻訳を提案し,ピボット言語を含む同時翻訳環境に適用する。 我々のアプローチでは、ソース言語を複数のピボットに同時翻訳し、マルチソースnmtを利用して同時にターゲット言語に翻訳する。 n-way parallel un corpus for arabic to english nmt via french and spanish as pivots を用いた低リソース環境における実験により、ピボット nmt の同時設定では、2つのピボット言語を用いた場合、最大5.8 bleu の改善につながることが判明した。

Parallel corpora are indispensable for training neural machine translation (NMT) models, and parallel corpora for most language pairs do not exist or are scarce. In such cases, pivot language NMT can be helpful where a pivot language is used such that there exist parallel corpora between the source and pivot and pivot and target languages. Naturally, the quality of pivot language translation is more inferior to what could be achieved with a direct parallel corpus of a reasonable size for that pair. In a real-time simultaneous translation setting, the quality of pivot language translation deteriorates even further given that the model has to output translations the moment a few source words become available. To solve this issue, we propose multi-pivot translation and apply it to a simultaneous translation setting involving pivot languages. Our approach involves simultaneously translating a source language into multiple pivots, which are then simultaneously translated together into the target language by leveraging multi-source NMT. Our experiments in a low-resource setting using the N-way parallel UN corpus for Arabic to English NMT via French and Spanish as pivots reveals that in a simultaneous pivot NMT setting, using two pivot languages can lead to an improvement of up to 5.8 BLEU.
翻訳日:2021-04-16 23:28:24 公開日:2021-04-15
# (参考訳) TransRPPG:3次元マスク顔提示検出用リモート光胸像変換器 [全文訳有]

TransRPPG: Remote Photoplethysmography Transformer for 3D Mask Face Presentation Attack Detection ( http://arxiv.org/abs/2104.07419v1 )

ライセンス: CC BY-SA 4.0
Zitong Yu, Xiaobai Li, Pichao Wang, Guoying Zhao(参考訳) 3Dマスク提示攻撃検出(PAD)は、3Dマスク攻撃から顔認識システムを保護する上で重要な役割を果たす。 近年, リモートフォトプレチモグラフィ (rppg) は, マスクの外観に頼らずに, 3dマスクパッドに内在するライブネス手がかりとして開発されている。 しかし、3DマスクPADのrPPG機能は、手作業で設計する専門家の知識を必要とするため、ディープラーニングとビッグデータ時代のさらなる進歩は制限されている。 本稿では,本文において本文の生長表現を効率よく学習するための純rPPG変換器(TransRPPG)フレームワークを提案する。 まず、rPPGに基づくマルチスケール空間時間マップ(MSTmap)を顔の皮膚と背景領域から構築する。 そして, この変換器は, MSTマップ内の生長表現のグローバルな関係を完全にマイニングし, 3次元マスク検出のバイナリ予測を行う。 総合的な実験を2つのベンチマークデータセットで行い、transrppgがデータセット内テストとデータセット横断テストの両方に有効であることを示す。 当社のTransRPPGは軽量で効率的(547Kパラメータと763M FLOPのみ)で、モバイルレベルのアプリケーションには有望です。

3D mask face presentation attack detection (PAD) plays a vital role in securing face recognition systems from emergent 3D mask attacks. Recently, remote photoplethysmography (rPPG) has been developed as an intrinsic liveness clue for 3D mask PAD without relying on the mask appearance. However, the rPPG features for 3D mask PAD are still needed expert knowledge to design manually, which limits its further progress in the deep learning and big data era. In this letter, we propose a pure rPPG transformer (TransRPPG) framework for learning intrinsic liveness representation efficiently. At first, rPPG-based multi-scale spatial-temporal maps (MSTmap) are constructed from facial skin and background regions. Then the transformer fully mines the global relationship within MSTmaps for liveness representation, and gives a binary prediction for 3D mask detection. Comprehensive experiments are conducted on two benchmark datasets to demonstrate the efficacy of the TransRPPG on both intra- and cross-dataset testings. Our TransRPPG is lightweight and efficient (with only 547K parameters and 763M FLOPs), which is promising for mobile-level applications.
翻訳日:2021-04-16 23:18:56 公開日:2021-04-15
# (参考訳) クロスドメインラベル適応姿勢検出 [全文訳有]

Cross-Domain Label-Adaptive Stance Detection ( http://arxiv.org/abs/2104.07467v1 )

ライセンス: CC BY 4.0
Momchil Hardalov, Arnav Arora, Preslav Nakov, Isabelle Augenstein(参考訳) スタンス検出は、著者の目標に対する視点の分類に関するものである。 例えば、ツイートのスタンスと記事全体に対するスタンス、クレームと(単純)トピックに対するスタンスなどだ。 さらに、ラベルのインベントリ、データ収集、アノテーションプロトコルを含むタスク定義も様々です。 これらの側面は、標準のドメイン適応アプローチの変更を必要とするため、ドメイン横断の研究を妨げる。 本稿では,16の姿勢検出データセットの詳細な分析を行い,それらからクロスドメイン学習の可能性について検討する。 さらに,ユーザ定義ラベルに対するドメイン外予測のためのエンド・ツー・エンドの教師なしフレームワークを提案する。 特に、専門家の混在やドメイン・アドバイザリのトレーニングとラベルの埋め込みといったドメイン適応技術を組み合わせて、(i)ドメイン内、すなわち、(ii)ドメイン外、すなわち目に見えないターゲットに対して、強力なベースラインよりも大きなパフォーマンス向上を示す。 最後に、クロスドメインの結果を徹底的に分析し、モデル性能に影響を与える重要な要因を強調する。

Stance detection concerns the classification of a writer's viewpoint towards a target. There are different task variants, e.g., stance of a tweet vs. a full article, or stance with respect to a claim vs. an (implicit) topic. Moreover, task definitions vary, which includes the label inventory, the data collection, and the annotation protocol. All these aspects hinder cross-domain studies, as they require changes to standard domain adaptation approaches. In this paper, we perform an in-depth analysis of 16 stance detection datasets, and we explore the possibility for cross-domain learning from them. Moreover, we propose an end-to-end unsupervised framework for out-of-domain prediction of unseen, user-defined labels. In particular, we combine domain adaptation techniques such as mixture of experts and domain-adversarial training with label embeddings, and we demonstrate sizable performance gains over strong baselines -- both (i) in-domain, i.e., for seen targets, and (ii) out-of-domain, i.e., for unseen targets. Finally, we perform an exhaustive analysis of the cross-domain results, and we highlight the important factors influencing the model performance.
翻訳日:2021-04-16 23:03:35 公開日:2021-04-15
# (参考訳) Lorentzian Graph Convolutional Networks [全文訳有]

Lorentzian Graph Convolutional Networks ( http://arxiv.org/abs/2104.07477v1 )

ライセンス: CC BY 4.0
Yiding Zhang, Xiao Wang, Chuan Shi, Nian Liu, Guojie Song(参考訳) グラフ畳み込みネットワーク(GCN)は近年かなりの研究注目を集めている。 ほとんどのGCNはユークリッド幾何学のノード表現を学習するが、これはグラフをスケールフリーあるいは階層構造で埋め込む場合に高い歪みをもたらす可能性がある。 近年、非ユークリッド幾何学、例えば双曲幾何学においてこの問題を扱うためにいくつかのGCNが提案されている。 双曲型GCNは有望な性能を達成するが、既存の双曲型グラフ演算は実際には双曲型幾何学に厳格に従えないため、双曲型GCNの性能を損なう可能性がある。 本稿では,学習ノードの特徴が双曲幾何学に従うことを厳格に保証する,ローレンツグラフ畳み込みネットワーク(lgcn)と呼ばれる新しい双曲型gcnを提案する。 具体的には、双曲型gcnのグラフ操作をローレンツ版、例えば特徴変換と非線形活性化で再構築する。 また、ローレンツ距離の遠心法に基づいてエレガントな近傍集約法を設計する。 さらに,提案するグラフ演算が双曲幾何学の異なるタイプにおいて等価であることを証明し,その正確性を示す。 6つのデータセットにおける実験により、lgcnは最先端の手法よりも優れた性能を示す。 LGCNは、既存の双曲GCNと比較して、木のようなグラフの表現を学ぶために歪みが低い。 また, グラフ演算を本論文で定義した操作に置き換えることで, 双曲型gcnの性能を向上できることがわかった。

Graph convolutional networks (GCNs) have received considerable research attention recently. Most GCNs learn the node representations in Euclidean geometry, but that could have a high distortion in the case of embedding graphs with scale-free or hierarchical structure. Recently, some GCNs are proposed to deal with this problem in non-Euclidean geometry, e.g., hyperbolic geometry. Although hyperbolic GCNs achieve promising performance, existing hyperbolic graph operations actually cannot rigorously follow the hyperbolic geometry, which may limit the ability of hyperbolic geometry and thus hurt the performance of hyperbolic GCNs. In this paper, we propose a novel hyperbolic GCN named Lorentzian graph convolutional network (LGCN), which rigorously guarantees the learned node features follow the hyperbolic geometry. Specifically, we rebuild the graph operations of hyperbolic GCNs with Lorentzian version, e.g., the feature transformation and non-linear activation. Also, an elegant neighborhood aggregation method is designed based on the centroid of Lorentzian distance. Moreover, we prove some proposed graph operations are equivalent in different types of hyperbolic geometry, which fundamentally indicates their correctness. Experiments on six datasets show that LGCN performs better than the state-of-the-art methods. LGCN has lower distortion to learn the representation of tree-likeness graphs compared with existing hyperbolic GCNs. We also find that the performance of some hyperbolic GCNs can be improved by simply replacing the graph operations with those we defined in this paper.
翻訳日:2021-04-16 22:41:36 公開日:2021-04-15
# (参考訳) 教師なし文字レベル分布マッチングを用いたクロスドメイン音声認識 [全文訳有]

Cross-domain Speech Recognition with Unsupervised Character-level Distribution Matching ( http://arxiv.org/abs/2104.07491v1 )

ライセンス: CC BY 4.0
Wenxin Hou, Jindong Wang, Xu Tan, Tao Qin, Takahiro Shinozaki(参考訳) エンドツーエンド自動音声認識(ASR)は,大規模学習データを用いて有望な性能を実現する。 しかし、トレーニングデータとテストデータのドメインミスマッチは、しばしば認識精度の低下につながることが知られている。 本研究では,ASRの教師なし領域適応に着目し,文字レベルの分布マッチング手法であるCMatchを提案する。 まず、各文字に属する特徴のラベルを得るために、コネクショニスト時間分類(CTC)擬似ラベルを用いてフレームレベルのラベル割り当てを行う。 そして,最大平均差を用いてキャラクタレベル分布をマッチングする。 自己学習技術を用いてアルゴリズムを訓練する。 Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。 また,フレームレベルラベル割り当てとトランスフォーマティブ適応の異なる戦略を包括的に分析した。

End-to-end automatic speech recognition (ASR) can achieve promising performance with large-scale training data. However, it is known that domain mismatch between training and testing data often leads to a degradation of recognition accuracy. In this work, we focus on the unsupervised domain adaptation for ASR and propose CMatch, a Character-level distribution matching method to perform fine-grained adaptation between each character in two domains. First, to obtain labels for the features belonging to each character, we achieve frame-level label assignment using the Connectionist Temporal Classification (CTC) pseudo labels. Then, we match the character-level distributions using Maximum Mean Discrepancy. We train our algorithm using the self-training technique. Experiments on the Libri-Adapt dataset show that our proposed approach achieves 14.39% and 16.50% relative Word Error Rate (WER) reduction on both cross-device and cross-environment ASR. We also comprehensively analyze the different strategies for frame-level label assignment and Transformer adaptations.
翻訳日:2021-04-16 22:15:49 公開日:2021-04-15
# (参考訳) 潜在ベイズサプライズによる自己監視探査 [全文訳有]

Self-Supervised Exploration via Latent Bayesian Surprise ( http://arxiv.org/abs/2104.07495v1 )

ライセンス: CC BY 4.0
Pietro Mazzaglia, Ozan Catal, Tim Verbelen, Bart Dhoedt(参考訳) 強化学習によるトレーニングには、エージェントがその目的を達成するために使用される報酬機能が必要である。 しかし、スムーズで十分に配慮された報酬の設計は、一般的には簡単ではなく、重要な人間工学的努力を必要とする。 自己監督的な方法で報酬を生成することは、エージェントに本質的な欲求を与え、環境を学び、探索することで、より一般的な行動を引き起こす可能性がある。 本研究では,不規則な特徴を再構築して学習する潜在状態変数に対するベイズ奇襲として計算される強化学習に対する内在的な報酬として,好奇心に基づくボーナスを提案する。 我々は,ゲームにおける環境探索,継続作業,ゲームスコアの把握という観点からエージェントのパフォーマンスを計測し,評価を行った。 我々のモデルは計算的に安価であり、いくつかの問題に対する最先端の性能を実証的に示す。 さらに, 確率的行動を伴う環境実験を行った結果, 単純な確率的行動に対して最も弾力性のあるアプローチが得られた。 さらなる可視化はプロジェクトのwebページで確認できる。 (https://lbsexplorat ion.github.io/)

Training with Reinforcement Learning requires a reward function that is used to guide the agent towards achieving its objective. However, designing smooth and well-behaved rewards is in general not trivial and requires significant human engineering efforts. Generating rewards in self-supervised way, by inspiring the agent with an intrinsic desire to learn and explore the environment, might induce more general behaviours. In this work, we propose a curiosity-based bonus as intrinsic reward for Reinforcement Learning, computed as the Bayesian surprise with respect to a latent state variable, learnt by reconstructing fixed random features. We extensively evaluate our model by measuring the agent's performance in terms of environment exploration, for continuous tasks, and looking at the game scores achieved, for video games. Our model is computationally cheap and empirically shows state-of-the-art performance on several problems. Furthermore, experimenting on an environment with stochastic actions, our approach emerged to be the most resilient to simple stochasticity. Further visualization is available on the project webpage.(https://lbs exploration.github.i o/)
翻訳日:2021-04-16 22:05:21 公開日:2021-04-15
# (参考訳) unmasking the mask -- マスキング言語モデルにおける社会的バイアスの評価 [全文訳有]

Unmasking the Mask -- Evaluating Social Biases in Masked Language Models ( http://arxiv.org/abs/2104.07496v1 )

ライセンス: CC BY 4.0
Masahiro Kaneko and Danushka Bollegala(参考訳) Masked Language Models (MLM) は、テキストエンコーダとして使われる多くの下流のNLPタスクにおいて、優れたパフォーマンスを示している。 残念ながら、MLMは社会的偏見のレベルを著しく心配していることも示している。 We show that the previously proposed evaluation metrics for quantifying the social biases in MLMs are problematic due to following reasons: (1) prediction accuracy of the masked tokens itself tend to be low in some MLMs, which raises questions regarding the reliability of the evaluation metrics that use the (pseudo) likelihood of the predicted tokens, and (2) the correlation between the prediction accuracy of the mask and the performance in downstream NLP tasks is not taken into consideration, and (3) high frequency words in the training data are masked more often, introducing noise due to this selection bias in the test cases. 上記の不整合を克服するために,mlmが入力を埋め込みた場合に,テストケース内のすべてのトークンを予測するバイアス評価尺度であるall unmasked likelihood (aul)を提案する。 AULはMLMの異なる種類のバイアスを正確に検出する。 また,注意重み付きALU(AULA)を文中のトークンの重要性に基づいて評価する手法を提案する。 しかし、AULやAULAと異なり、以前提案されたMLMのバイアス評価尺度は、測定されたバイアスを体系的に過大評価し、文脈における不正トークンの影響を強く受けている。

Masked Language Models (MLMs) have shown superior performances in numerous downstream NLP tasks when used as text encoders. Unfortunately, MLMs also demonstrate significantly worrying levels of social biases. We show that the previously proposed evaluation metrics for quantifying the social biases in MLMs are problematic due to following reasons: (1) prediction accuracy of the masked tokens itself tend to be low in some MLMs, which raises questions regarding the reliability of the evaluation metrics that use the (pseudo) likelihood of the predicted tokens, and (2) the correlation between the prediction accuracy of the mask and the performance in downstream NLP tasks is not taken into consideration, and (3) high frequency words in the training data are masked more often, introducing noise due to this selection bias in the test cases. To overcome the above-mentioned disfluencies, we propose All Unmasked Likelihood (AUL), a bias evaluation measure that predicts all tokens in a test case given the MLM embedding of the unmasked input. We find that AUL accurately detects different types of biases in MLMs. We also propose AUL with attention weights (AULA) to evaluate tokens based on their importance in a sentence. However, unlike AUL and AULA, previously proposed bias evaluation measures for MLMs systematically overestimate the measured biases, and are heavily influenced by the unmasked tokens in the context.
翻訳日:2021-04-16 21:49:53 公開日:2021-04-15
# (参考訳) ビジュアルダイアログのためのMRRモデルとNDCGモデルのアンサンブル

Ensemble of MRR and NDCG models for Visual Dialog ( http://arxiv.org/abs/2104.07511v1 )

ライセンス: CC BY 4.0
Idan Schwartz(参考訳) 人間の言語で会話し、視覚的コンテンツを理解するAIエージェントを評価することは難しい。 BLEUスコアのような生成メトリクスは、意味論よりも正しい構文を好む。 したがって、エージェントが候補オプションのセットをランク付けする差別的アプローチがしばしば用いられる。 平均相互ランク(mrr)メトリックは、1つの人間由来の回答のランクを考慮してモデルパフォーマンスを評価する。 しかし、このアプローチは、例えば意味的同値(例えば、'yeah' や 'yes')のような答えの曖昧さと同義性という新しい課題を提起する。 これに対処するため、正規化割引累積ゲイン(ndcg)メトリックは、密接なアノテーションによってすべての正しい答えの関連性を捉えるために使われてきた。 しかし、NDCGの計量は、「私は知らない」といった通常不確実な答えを好んでいる。 MRRとNDCGのメトリクスに優れたモデルを構築することは難しい。 理想的には、AIエージェントは人間のような回答に答え、どんな答えの正しさも検証すべきである。 この問題に対処するために、強いMRRとNDCGモデルをマージできる2段階の非パラメトリックランキング手法について述べる。 このアプローチを用いることで、ほとんどのMRR(70.41%対71.24%)とNDCG(72.16%対75.35%)を維持できる。 さらに,最近のvisual dialog 2020チャレンジでは,このアプローチが優勝した。 ソースコードはhttps://github.com/i dansc/mrr-ndcgで入手できる。

Assessing an AI agent that can converse in human language and understand visual content is challenging. Generation metrics, such as BLEU scores favor correct syntax over semantics. Hence a discriminative approach is often used, where an agent ranks a set of candidate options. The mean reciprocal rank (MRR) metric evaluates the model performance by taking into account the rank of a single human-derived answer. This approach, however, raises a new challenge: the ambiguity and synonymy of answers, for instance, semantic equivalence (e.g., `yeah' and `yes'). To address this, the normalized discounted cumulative gain (NDCG) metric has been used to capture the relevance of all the correct answers via dense annotations. However, the NDCG metric favors the usually applicable uncertain answers such as `I don't know. Crafting a model that excels on both MRR and NDCG metrics is challenging. Ideally, an AI agent should answer a human-like reply and validate the correctness of any answer. To address this issue, we describe a two-step non-parametric ranking approach that can merge strong MRR and NDCG models. Using our approach, we manage to keep most MRR state-of-the-art performance (70.41% vs. 71.24%) and the NDCG state-of-the-art performance (72.16% vs. 75.35%). Moreover, our approach won the recent Visual Dialog 2020 challenge. Source code is available at https://github.com/i dansc/mrr-ndcg.
翻訳日:2021-04-16 21:30:38 公開日:2021-04-15
# (参考訳) FedSAE: 異種システムにおける自己適応型フェデレーション学習フレームワーク [全文訳有]

FedSAE: A Novel Self-Adaptive Federated Learning Framework in Heterogeneous Systems ( http://arxiv.org/abs/2104.07515v1 )

ライセンス: CC BY 4.0
Li Li, Moming Duan, Duo Liu, Yu Zhang, Ao Ren, Xianzhang Chen, Yujuan Tan, Chengliang Wang(参考訳) federated learning (fl)は、何千ものエッジデバイスがサーバにデータを同心的にアップロードすることなく、ローカルにモデルをトレーニングできる、新しい分散機械学習である。 しかし、実際のフェデレーション設定はリソース制約があるため、flはシステムの不均一性に遭遇し、ストラグラーを多数直接引き起こし、間接的に大幅に精度を低下させる。 システムの不均一性に起因する問題を解決するために,デバイスの自動トレーニングタスクを調整する自己適応型フェデレーションフレームワークであるFedSAEを導入し,参加者を積極的に選択して性能劣化を緩和する。 本研究は,機器の履歴トレーニングタスクの完全な情報を利用して,各機器の安価なトレーニング作業を予測するFedSAEを提案する。 このようにして、FedSAEは各デバイスの信頼性を推定し、各ラウンドにおけるクライアント毎のトレーニング負荷量を自己適応的に調整することができる。 2) フレームワークとアクティブラーニングを組み合わせることで、参加者を自己適応的に選択します。 そして、このフレームワークはグローバルモデルの収束を加速する。 このフレームワークでは、サーバは、トレーニング損失に基づいて、デバイスのトレーニング値を評価する。 そして、サーバは、グローバルモデルに対してより大きな価値を持つクライアントを選択し、通信オーバーヘッドを減らす。 実験結果から,FedSAEはバニラFLフレームワークであるFedAvgよりも早く収束することが示唆された。 さらに、FedSAEはいくつかのフェデレーションデータセットでFedAvgよりも優れており、FedSAEはテスト精度を26.7%改善し、ストラグラーを平均で90.3%削減する。

Federated Learning (FL) is a novel distributed machine learning which allows thousands of edge devices to train model locally without uploading data concentrically to the server. But since real federated settings are resource-constrained , FL is encountered with systems heterogeneity which causes a lot of stragglers directly and then leads to significantly accuracy reduction indirectly. To solve the problems caused by systems heterogeneity, we introduce a novel self-adaptive federated framework FedSAE which adjusts the training task of devices automatically and selects participants actively to alleviate the performance degradation. In this work, we 1) propose FedSAE which leverages the complete information of devices' historical training tasks to predict the affordable training workloads for each device. In this way, FedSAE can estimate the reliability of each device and self-adaptively adjust the amount of training load per client in each round. 2) combine our framework with Active Learning to self-adaptively select participants. Then the framework accelerates the convergence of the global model. In our framework, the server evaluates devices' value of training based on their training loss. Then the server selects those clients with bigger value for the global model to reduce communication overhead. The experimental result indicates that in a highly heterogeneous system, FedSAE converges faster than FedAvg, the vanilla FL framework. Furthermore, FedSAE outperforms than FedAvg on several federated datasets - FedSAE improves test accuracy by 26.7% and reduces stragglers by 90.3% on average.
翻訳日:2021-04-16 21:29:25 公開日:2021-04-15
# (参考訳) ステレオマッチングのための分解モデル [全文訳有]

A Decomposition Model for Stereo Matching ( http://arxiv.org/abs/2104.07516v1 )

ライセンス: CC BY 4.0
Chengtang Yao, Yunde Jia, Huijun Di, Pengxiang Li, Yuwei Wu(参考訳) 本稿では,ステレオマッチングのための分解モデルを提案し,解像度が増加するにつれて計算コスト(時間とメモリコスト)が過度に増加する問題を解く。 元の解像度でのステレオマッチングの膨大なコストを削減するため、我々のモデルは、非常に低解像度での密マッチングのみを実行し、異なる高解像度でのスパースマッチングを使用して、失われた詳細の差をスケールごとに再現する。 ステレオマッチングの分解後,本モデルでは,隣接するスケールからの疎密度と疎密度を密閉マスクで反復的に融合させる。 また、融合結果を改善するための改良ネットワークも適用する。 PSMNet や GANet のような高性能な手法と比較して,提案手法は同等の差分推定結果を得ながら,10-100\times$の高速化を実現している。

In this paper, we present a decomposition model for stereo matching to solve the problem of excessive growth in computational cost (time and memory cost) as the resolution increases. In order to reduce the huge cost of stereo matching at the original resolution, our model only runs dense matching at a very low resolution and uses sparse matching at different higher resolutions to recover the disparity of lost details scale-by-scale. After the decomposition of stereo matching, our model iteratively fuses the sparse and dense disparity maps from adjacent scales with an occlusion-aware mask. A refinement network is also applied to improving the fusion result. Compared with high-performance methods like PSMNet and GANet, our method achieves $10-100\times$ speed increase while obtaining comparable disparity estimation results.
翻訳日:2021-04-16 20:41:14 公開日:2021-04-15
# (参考訳) インスツルメンツ音のインタラクティブ生成のためのスペクトログラム塗装 [全文訳有]

Spectrogram Inpainting for Interactive Generation of Instrument Sounds ( http://arxiv.org/abs/2104.07519v1 )

ライセンス: CC BY 4.0
Th\'eis Bazin and Ga\"etan Hadjeres and Philippe Esling and Mikhail Malt(参考訳) ディープニューラルネットワークを用いた音声合成の現代的アプローチは、特にきめ細かい条件付け情報が入手できない場合、制御が困難であり、ミュージシャンによる採用を妨げる。 本稿では,個別の楽器音の生成を印象づける作業として,新しい独特な手法を導入し,音を反復的に形作る手法を提案する。 そこで我々は,まず,VQ-VAE-2画像生成アーキテクチャをスペクトログラムに適応させて,実値の分光図をコンパクトな離散コードマップに変換する方法を提案する。 NSynthデータセットに提案したアーキテクチャをマスク再サンプリングタスクに適用する。 最も重要なことは、私たちはインタラクティブなWebインターフェースをオープンソースにして、アーティストや実践者向けに、新しいクリエイティブな用途に開放することで音を変換します。

Modern approaches to sound synthesis using deep neural networks are hard to control, especially when fine-grained conditioning information is not available, hindering their adoption by musicians. In this paper, we cast the generation of individual instrumental notes as an inpainting-based task, introducing novel and unique ways to iteratively shape sounds. To this end, we propose a two-step approach: first, we adapt the VQ-VAE-2 image generation architecture to spectrograms in order to convert real-valued spectrograms into compact discrete codemaps, we then implement token-masked Transformers for the inpainting-based generation of these codemaps. We apply the proposed architecture on the NSynth dataset on masked resampling tasks. Most crucially, we open-source an interactive web interface to transform sounds by inpainting, for artists and practitioners alike, opening up to new, creative uses.
翻訳日:2021-04-16 20:26:47 公開日:2021-04-15
# (参考訳) マルチエージェント強化学習に基づくモバイルアドホックコンピューティングのための符号化計算 [全文訳有]

Multi-Agent Reinforcement Learning Based Coded Computation for Mobile Ad Hoc Computing ( http://arxiv.org/abs/2104.07539v1 )

ライセンス: CC BY 4.0
Baoqian Wang, Junfei Xie, Kejie Lu, Yan Wan, Shengli Fu(参考訳) モバイルデバイスが自身のコンピューティングリソースを直接共有できるモバイルアドホックコンピューティング(MAHC)は、モバイルデバイスが必要とするコンピューティングリソースの需要の増加に対応するための、有望なソリューションである。 しかしながら,ノードの移動性,不安定で未知の通信環境,異質なデバイスの性質などにより,トポロジの変更やリンク障害が頻繁に発生するため,モバイルデバイスから他のモバイルデバイスへの計算タスクのオフロードは困難な課題である。 本稿では,ネットワーク変更への適応性,不確実なシステム障害に対する高効率性とロバスト性,ノードの不均一性の検討,分散負荷配分など,多くの有望な特徴を有するマルチエージェント強化学習(MARL)に基づく新しい符号化計算手法を提案する。 包括的シミュレーション研究により,提案手法は最先端分散コンピューティングスキームを上回ることができることが示された。

Mobile ad hoc computing (MAHC), which allows mobile devices to directly share their computing resources, is a promising solution to address the growing demands for computing resources required by mobile devices. However, offloading a computation task from a mobile device to other mobile devices is a challenging task due to frequent topology changes and link failures because of node mobility, unstable and unknown communication environments, and the heterogeneous nature of these devices. To address these challenges, in this paper, we introduce a novel coded computation scheme based on multi-agent reinforcement learning (MARL), which has many promising features such as adaptability to network changes, high efficiency and robustness to uncertain system disturbances, consideration of node heterogeneity, and decentralized load allocation. Comprehensive simulation studies demonstrate that the proposed approach can outperform state-of-the-art distributed computing schemes.
翻訳日:2021-04-16 20:13:07 公開日:2021-04-15
# (参考訳) 学習メトリクスを用いたニューラルマシン翻訳の逆最適化 [全文訳有]

Reward Optimization for Neural Machine Translation with Learned Metrics ( http://arxiv.org/abs/2104.07541v1 )

ライセンス: CC BY 4.0
Raphael Shu, Kang Min Yoo, Jung-Woo Ha(参考訳) ニューラルマシン翻訳(nmt)モデルは従来、トークンレベルの負のlog-likelihood(nll)で訓練されており、生成された翻訳が選択されたシーケンスレベルの評価基準に最適化されることは保証されていない。 BLEU を報奨として NMT を訓練するための複数の手法が提案されている。 しかし、BLEUの上昇は実際の品質向上に寄与せず、業界における応用を制限していると報告された。 近年、BLEUは最先端のモデルを扱う際の人間の判断と相関が低いことが明らかとなった。 これはモデルベースの評価指標の出現につながります。 これらの新しい指標は、人間の相関がはるかに高いことが示されている。 本稿では,最先端のモデルベースメトリクスBLEURTを用いてNMTモデルを最適化することが有用かどうかを検討する。 大規模NMTモデルに適した高速かつ安定な報酬最適化のための対照的なマージン損失を提案する。 実験では,スムーズなBLEUとBLEURTで訓練したモデルとベースラインモデルとの比較を行う。 その結果、BLEURTによる報酬最適化は、スムーズなBLEUでのトレーニングにおいて、限られた利得とは対照的に、メートル法スコアを大きなマージンで増加させることができることがわかった。 ヒトの評価では、BLEURTで訓練されたモデルは翻訳の精度とカバレッジを向上させる。 コードはhttps://github.com/n aver-ai/MetricMTから入手できる。

Neural machine translation (NMT) models are conventionally trained with token-level negative log-likelihood (NLL), which does not guarantee that the generated translations will be optimized for a selected sequence-level evaluation metric. Multiple approaches are proposed to train NMT with BLEU as the reward, in order to directly improve the metric. However, it was reported that the gain in BLEU does not translate to real quality improvement, limiting the application in industry. Recently, it became clear to the community that BLEU has a low correlation with human judgment when dealing with state-of-the-art models. This leads to the emerging of model-based evaluation metrics. These new metrics are shown to have a much higher human correlation. In this paper, we investigate whether it is beneficial to optimize NMT models with the state-of-the-art model-based metric, BLEURT. We propose a contrastive-margin loss for fast and stable reward optimization suitable for large NMT models. In experiments, we perform automatic and human evaluations to compare models trained with smoothed BLEU and BLEURT to the baseline models. Results show that the reward optimization with BLEURT is able to increase the metric scores by a large margin, in contrast to limited gain when training with smoothed BLEU. The human evaluation shows that models trained with BLEURT improve adequacy and coverage of translations. Code is available via https://github.com/n aver-ai/MetricMT.
翻訳日:2021-04-16 19:59:21 公開日:2021-04-15
# (参考訳) HIVE-COTE 2.0: 時系列分類のための新しいメタアンサンブル

HIVE-COTE 2.0: a new meta ensemble for time series classification ( http://arxiv.org/abs/2104.07551v1 )

ライセンス: CC BY 4.0
Matthew Middlehurst, James Large, Michael Flynn, Jason Lines, Aaron Bostrom and Anthony Bagnall(参考訳) Hierarchical Vote Collective of Transformation-based Ensembles (HIVE-COTE) は時系列分類のための異種メタアンサンブルである。 HIVE-COTEは、相非依存のシェープレット、back-of-wordsベースの辞書、相依存間隔を含む複数のドメインの分類器からアンサンブルを形成する。 2016年に初めて提案されて以来、このアルゴリズムはUCR時系列分類アーカイブの正確性のために最先端のままである。 徐々に更新され、現在の状態であるhive-cote 1.0になった。 この間、HIVE-COTEの精度と一致するアルゴリズムが提案されている。 本稿では,HIVE-COTEアルゴリズムの精度とユーザビリティを大幅に向上する包括的変更を提案する。 本稿では,既存のアンサンブルに取って代わる2つの新しい分類器である時間辞書アンサンブル (tde) と多種多様な表現標準間隔フォレスト (drcif) を紹介する。 さらに,新しいHIVE-COTE 2.0成分としてROCKET分類器のアンサンブルであるArsenalを導入する。 HIVE-COTE 2.0は、112のユニバリアイトUCRアーカイブデータセットと26のマルチバリアントUEAアーカイブデータセット上での最先端技術よりもはるかに正確であることを示す。

The Hierarchical Vote Collective of Transformation-based Ensembles (HIVE-COTE) is a heterogeneous meta ensemble for time series classification. HIVE-COTE forms its ensemble from classifiers of multiple domains, including phase-independent shapelets, bag-of-words based dictionaries and phase-dependent intervals. Since it was first proposed in 2016, the algorithm has remained state of the art for accuracy on the UCR time series classification archive. Over time it has been incrementally updated, culminating in its current state, HIVE-COTE 1.0. During this time a number of algorithms have been proposed which match the accuracy of HIVE-COTE. We propose comprehensive changes to the HIVE-COTE algorithm which significantly improve its accuracy and usability, presenting this upgrade as HIVE-COTE 2.0. We introduce two novel classifiers, the Temporal Dictionary Ensemble (TDE) and Diverse Representation Canonical Interval Forest (DrCIF), which replace existing ensemble members. Additionally, we introduce the Arsenal, an ensemble of ROCKET classifiers as a new HIVE-COTE 2.0 constituent. We demonstrate that HIVE-COTE 2.0 is significantly more accurate than the current state of the art on 112 univariate UCR archive datasets and 26 multivariate UEA archive datasets.
翻訳日:2021-04-16 19:43:03 公開日:2021-04-15
# (参考訳) 表型学習による途上国の効率的なクリックスルー率予測 [全文訳有]

Efficient Click-Through Rate Prediction for Developing Countries via Tabular Learning ( http://arxiv.org/abs/2104.07553v1 )

ライセンス: CC BY 4.0
Joonyoung Yi, Buru Chang(参考訳) 発展途上国におけるオンライン広告の急速な成長にもかかわらず、既存のctr予測モデルは、計算資源が限られているため、デプロイが困難である。 本稿では, CTR予測タスクと表型学習の関係をブリッジすることで, CTR予測モデルよりも表型学習モデルの方が効率的かつ効果的であることを示す。 8つの公開CTR予測データセットに対する大規模な実験により、表型学習モデルは12の最先端CTR予測モデルより優れていることが示された。 さらに、過パラメータのCTR予測モデルと比較して、高性能GPUを含む高価なコンピューティングリソースを使わずに、表型学習モデルを高速に訓練することができる。 最後に,実際のオンラインアプリケーション上でのa/bテストを通じて,表型学習モデルがオフラインパフォーマンスだけでなく,実際のユーザのctrも改善することを示す。

Despite the rapid growth of online advertisement in developing countries, existing highly over-parameterized Click-Through Rate (CTR) prediction models are difficult to be deployed due to the limited computing resources. In this paper, by bridging the relationship between CTR prediction task and tabular learning, we present that tabular learning models are more efficient and effective in CTR prediction than over-parameterized CTR prediction models. Extensive experiments on eight public CTR prediction datasets show that tabular learning models outperform twelve state-of-the-art CTR prediction models. Furthermore, compared to over-parameterized CTR prediction models, tabular learning models can be fast trained without expensive computing resources including high-performance GPUs. Finally, through an A/B test on an actual online application, we show that tabular learning models improve not only offline performance but also the CTR of real users.
翻訳日:2021-04-16 19:42:03 公開日:2021-04-15
# (参考訳) ゼロショット言語間意味解析 [全文訳有]

Zero-Shot Cross-lingual Semantic Parsing ( http://arxiv.org/abs/2104.07554v1 )

ライセンス: CC BY 4.0
Tom Sherborne, Mirella Lapata(参考訳) 言語間意味解析における最近の研究は、新しい言語への正確な構文解析をローカライズするために機械翻訳をうまく応用した。 しかし、これらの進歩は、全てのテスト言語に対して高品質な機械翻訳システムや単語調整器などのツールへのアクセスを前提としている。 これらの仮定を除去し、7つのテスト言語(DE, ZH, FR, ES, PT, HI, TR)の並列データを持たないゼロショット問題として言語間意味解析を研究する。 本稿では,各テスト言語における英語論理形式対データとラベルなし単言語発話のみを用いて,解析知識を追加言語に転送するマルチタスクエンコーダ・デコーダモデルを提案する。 我々はエンコーダを訓練し、論理形式や発話再構成の生成に最適化された言語に依存しない表現を生成する。 我々のシステムでは、ゼロショット解析を遅延空間アライメント問題として捉え、事前学習されたモデルを改善し、最小の言語間移動ペナルティを持つ論理形式を生成する。 OvernightとMultiATIS++の新たな実行可能なバージョンの実験結果によると、ゼロショットアプローチはバックトランスレーションベースラインよりも上であり、場合によっては監督された上限に近づく。

Recent work in crosslingual semantic parsing has successfully applied machine translation to localize accurate parsing to new languages. However, these advances assume access to high-quality machine translation systems, and tools such as word aligners, for all test languages. We remove these assumptions and study cross-lingual semantic parsing as a zero-shot problem without parallel data for 7 test languages (DE, ZH, FR, ES, PT, HI, TR). We propose a multi-task encoder-decoder model to transfer parsing knowledge to additional languages using only English-Logical form paired data and unlabeled, monolingual utterances in each test language. We train an encoder to generate language-agnostic representations jointly optimized for generating logical forms or utterance reconstruction and against language discriminability. Our system frames zero-shot parsing as a latent-space alignment problem and finds that pre-trained models can be improved to generate logical forms with minimal cross-lingual transfer penalty. Experimental results on Overnight and a new executable version of MultiATIS++ find that our zero-shot approach performs above back-translation baselines and, in some cases, approaches the supervised upper bound.
翻訳日:2021-04-16 19:32:55 公開日:2021-04-15
# (参考訳) uavネットワークのためのサーバレス連合学習 - アーキテクチャ,課題,機会 [全文訳有]

Serverless Federated Learning for UAV Networks: Architecture, Challenges, and Opportunities ( http://arxiv.org/abs/2104.07557v1 )

ライセンス: CC0 1.0
Yuben Qu, Haipeng Dai, Yan Zhuang, Jiafa Chen, Chao Dong, Fan Wu, Song Guo(参考訳) 無人航空機(UAV)、すなわちドローンは、民間と軍事の両方の分野における次世代無線ネットワークの広範な応用を支援するために計画されている。 人工知能(AI)、特に機械学習(ML)技術によるUAVネットワークインテリジェンスの強化は、前述のアプリケーションを実現するために必然的かつ魅力的である。 プライバシの懸念や受け入れられないレイテンシ,リソースの負担といった,UAVネットワークにおける従来のクラウド中心のMLの問題を解決するため,複数のUAVが生データを排除せずにMLモデルを協調的にトレーニングできる分散型ML技術(FL)が最近提案されている。 しかしながら、既存のflパラダイムのほとんどすべてがサーバベースであり、中央のエンティティがネットワーク全体のmlモデル集約と融合を担当しているため、単一障害点の問題が発生し、信頼性の低いノードとリンクの両方を持つuavネットワークには不適切である。 上記の問題に対処するため、本論文では、中央のエンティティを持たないUAVネットワーク内でFLを可能にするSELF-UN(\underline{SE}rver\underline{L}ess \underline{F}L for \underline{U}AV \underline{N}etworks)という新しいアーキテクチャを提案する。 また,自己統一アーキテクチャの実現可能性と有効性を検証するための予備シミュレーションを行った。 最後に,SELF-UNの主な課題と今後の研究方向性について論じる。

Unmanned aerial vehicles (UAVs), or say drones, are envisioned to support extensive applications in next-generation wireless networks in both civil and military fields. Empowering UAVs networks intelligence by artificial intelligence (AI) especially machine learning (ML) techniques is inevitable and appealing to enable the aforementioned applications. To solve the problems of traditional cloud-centric ML for UAV networks such as privacy concern, unacceptable latency, and resource burden, a distributed ML technique, i.e., federated learning (FL), has been recently proposed to enable multiple UAVs to collaboratively train ML model without letting out raw data. However, almost all existing FL paradigms are server-based, i.e., a central entity is in charge of ML model aggregation and fusion over the whole network, which could result in the issue of a single point of failure and are inappropriate to UAV networks with both unreliable nodes and links. To address the above issue, in this article, we propose a novel architecture called SELF-UN (\underline{SE}rver\underline{L}ess \underline{F}L for \underline{U}AV \underline{N}etworks), which enables FL within UAV networks without a central entity. We also conduct a preliminary simulation study to validate the feasibility and effectiveness of the SELF-UN architecture. Finally, we discuss the main challenges and potential research directions in the SELF-UN.
翻訳日:2021-04-16 19:13:57 公開日:2021-04-15
# (参考訳) BAM:シングルイメージ超解像のための軽量で高効率な平衡注意機構 [全文訳有]

BAM: A Lightweight and Efficient Balanced Attention Mechanism for Single Image Super Resolution ( http://arxiv.org/abs/2104.07566v1 )

ライセンス: CC BY 4.0
Fanyi Wang, Haotian Hu, Cheng Shen(参考訳) シングルイメージ超解像(SISR)はコンピュータビジョンの分野で最も難しい問題の一つである。 深層畳み込みニューラルネットワークに基づく手法の中で、注意機構は大きな可能性を示している。 しかし、多様なネットワークアーキテクチャのため、SISRタスクには普遍的な注意機構が欠如している。 本稿では,異なるSISRネットワークに適用可能な軽量かつ効率的な平衡注意機構(BAM)を提案する。 Avgpool Channel Attention Module (ACAM)とMaxpool Space Attention Module (MSAM)で構成されている。 これら2つのモジュールは、エラーの蓄積とクロストークを最小限に抑えるために並列に接続される。 注意生成における冗長な情報の望ましくない影響を低減するために,maxpool は空間的次元にまたがる特徴写像の難解な極点を拾い上げることができるため,avgpool をチャネル注意にのみ適用し,チャネル次元に沿った有用な特徴がsisrタスクの最大値の形で存在するため,maxpool を空間注意にのみ適用する。 bamの効率性とロバスト性を検証するために、最先端の12のsisrネットワークに適用し、うち8つが注目されていないため、bamを差し込み、4つが注目され、元のアテンションモジュールをbamに置き換えた。 set5, Set14, BSD100ベンチマークデータセットをx2, x3, x4のスケール係数で実験した。 その結果,BAMはネットワーク性能を向上できることがわかった。 さらに,BAMの最小性を証明するためにアブレーション実験を行った。 以上の結果から,BAMの並列構造はチャネルと空間的注意のバランスが良くなり,CBAM(Convolutional Block Attention Module)のシリーズ構造よりも優れていた。

Single image super-resolution (SISR) is one of the most challenging problems in the field of computer vision. Among the deep convolutional neural network based methods, attention mechanism has shown the enormous potential. However, due to the diverse network architectures, there is a lack of a universal attention mechanism for the SISR task. In this paper, we propose a lightweight and efficient Balanced Attention Mechanism (BAM), which can be generally applicable for different SISR networks. It consists of Avgpool Channel Attention Module (ACAM) and Maxpool Spatial Attention Module (MSAM). These two modules are connected in parallel to minimize the error accumulation and the crosstalk. To reduce the undesirable effect of redundant information on the attention generation, we only apply Avgpool for channel attention because Maxpool could pick up the illusive extreme points in the feature map across the spatial dimensions, and we only apply Maxpool for spatial attention because the useful features along the channel dimension usually exist in the form of maximum values for SISR task. To verify the efficiency and robustness of BAM, we apply it to 12 state-of-the-art SISR networks, among which eight were without attention thus we plug BAM in and four were with attention thus we replace its original attention module with BAM. We experiment on Set5, Set14 and BSD100 benchmark datasets with the scale factor of x2 , x3 and x4 . The results demonstrate that BAM can generally improve the network performance. Moreover, we conduct the ablation experiments to prove the minimalism of BAM. Our results show that the parallel structure of BAM can better balance channel and spatial attentions, thus outperforming the series structure of prior Convolutional Block Attention Module (CBAM).
翻訳日:2021-04-16 19:01:55 公開日:2021-04-15
# (参考訳) 質問応答における被験者の人口動態の影響の解明に向けて [全文訳有]

Towards Deconfounding the Influence of Subject's Demographic Characteristics in Question Answering ( http://arxiv.org/abs/2104.07571v1 )

ライセンス: CC BY 4.0
Maharshi Gor, Kellie Webster, and Jordan Boyd-Graber(参考訳) QAタスクは一般的なマシンインテリジェンスのベンチマークとして使用される。 したがって、堅牢なQA評価は重要であり、メトリクスはモデルがどのように質問に答えるかを示す必要があります。 しかし、主要なQAデータセットは、性別、職業、国籍に関する分布を歪めている。 モデルが一般化しているにもかかわらず、性別や国籍に基づいて精度が低いという証拠はほとんど見つからない。 代わりに、質問トピックや質問のあいまいさがより多様である。 QAシステムの一般化に適切にアクセスするには、より一般的なデータセットが必要である。

Question Answering (QA) tasks are used as benchmarks of general machine intelligence. Therefore, robust QA evaluation is critical, and metrics should indicate how models will answer any question. However, major QA datasets have skewed distributions over gender, profession, and nationality. Despite that skew, models generalize -- we find little evidence that accuracy is lower for people based on gender or nationality. Instead, there is more variation in question topic and question ambiguity. Adequately accessing the generalization of QA systems requires more representative datasets.
翻訳日:2021-04-16 18:40:05 公開日:2021-04-15
# (参考訳) ディープラーニングに基づくオンライン代替商品推薦の大規模化 [全文訳有]

Deep Learning-based Online Alternative Product Recommendations at Scale ( http://arxiv.org/abs/2104.07572v1 )

ライセンス: CC BY 4.0
Mingming Guo, Nian Yan, Xiquan Cui, San He Wu, Unaiza Ahsan, Rebecca West, Khalifeh Al Jadda(参考訳) 代替レコメンデーションシステムはeコマース企業にとって重要である。 彼らは顧客に対して、巨大な製品カタログを探索し、圧倒的な数の選択肢の中で適切な製品を見つけるように支援する。 しかし、顧客のニーズに合った代替プロダクトを推奨するのは非自明な作業です。 本稿では,テキスト製品情報(例えば,テキスト製品情報)を併用する。 代替商品を推薦するための製品タイトルと説明)および顧客の行動データ。 その結果, オフライン評価やリコール, 精度の面では, 代替製品のカバレッジが大幅に向上した。 最終A/Bテストでは,統計的に有意な変換率で変換率を12%向上させた。 製品情報のセマンティックな意味をより正確に把握するために,製品埋め込みを学習するための双方向LSTMを用いたSiamese Networkを構築した。 実際の顧客の嗜好にマッチする類似性空間を学習するために,ネットワークのトレーニングには,過去の顧客の行動から得られたデータをラベルとして併用する。 さらに,NMSLIBを用いて,数百万の製品に対する計算コストの高いkNN計算を高速化し,主要なeコマースサイトのカタログ全体にわたって,代替のレコメンデーションをスケールできるようにする。

Alternative recommender systems are critical for ecommerce companies. They guide customers to explore a massive product catalog and assist customers to find the right products among an overwhelming number of options. However, it is a non-trivial task to recommend alternative products that fit customer needs. In this paper, we use both textual product information (e.g. product titles and descriptions) and customer behavior data to recommend alternative products. Our results show that the coverage of alternative products is significantly improved in offline evaluations as well as recall and precision. The final A/B test shows that our algorithm increases the conversion rate by 12 percent in a statistically significant way. In order to better capture the semantic meaning of product information, we build a Siamese Network with Bidirectional LSTM to learn product embeddings. In order to learn a similarity space that better matches the preference of real customers, we use co-compared data from historical customer behavior as labels to train the network. In addition, we use NMSLIB to accelerate the computationally expensive kNN computation for millions of products so that the alternative recommendation is able to scale across the entire catalog of a major ecommerce site.
翻訳日:2021-04-16 18:20:34 公開日:2021-04-15
# (参考訳) 健康への個人知識グラフの適用 [全文訳有]

Applying Personal Knowledge Graphs to Health ( http://arxiv.org/abs/2104.07587v1 )

ライセンス: CC BY 4.0
Sola Shirai, Oshani Seneviratne, and Deborah L. McGuinness(参考訳) 個人の健康情報をカプセル化した知識グラフ(PHKG)は、知識駆動システムにおけるパーソナライズされた医療を可能にする。 本稿では,phkgの新しいパラダイムを取り囲む既存の作業の簡単な調査を行い,残る主な課題について紹介する。 個人知識グラフに関する予備的な探索は存在するが、PHKGsの開発は未検討のままである。 PHKGを十分に実現するためには、個人の健康知識の収集、リンク、維持に関する様々な課題に対処する必要がある。

Knowledge graphs that encapsulate personal health information, or personal health knowledge graphs (PHKG), can help enable personalized health care in knowledge-driven systems. In this paper we provide a short survey of existing work surrounding the emerging paradigm of PHKGs and highlight the major challenges that remain. We find that while some preliminary exploration exists on the topic of personal knowledge graphs, development of PHKGs remains under-explored. A range of challenges surrounding the collection, linkage, and maintenance of personal health knowledge remains to be addressed to fully realize PHKGs.
翻訳日:2021-04-16 18:14:58 公開日:2021-04-15
# (参考訳) 抽象要約のためのエンティティチェーンによる計画 [全文訳有]

Planning with Entity Chains for Abstractive Summarization ( http://arxiv.org/abs/2104.07606v1 )

ライセンス: CC BY 4.0
Shashi Narayan, Yao Zhao, Joshua Maynez, Gon\c{c}alo Simoes, Ryan McDonald(参考訳) 事前学習されたトランスフォーマーベースのシーケンス・ツー・シーケンスモデルは、要約を含む多くのテキスト生成タスクのgo-toソリューションとなっている。 しかし、これらのモデルによる結果は幻覚や無関係な通過などの重大な問題を含む傾向にある。 これらの問題を緩和する一つの解決策は、より優れたコンテンツ計画を神経要約に組み込むことである。 本稿では,エンティティチェーン(要約に記述されたエンティティのチェーン)を用いて,抽象的な要約の生成を計画し,基礎化することを提案する。 特に、エンティティチェーンにプリプレフィドすることで、ターゲットを増強します。 事前学習と微調整の両方をこのコンテンツ計画の目的で実験した。 CNN/DailyMail、SAMSum、XSumで評価すると、この目的で訓練されたモデルはエンティティの正しさと要約の簡潔さを改善し、SAMSumとXSumのROUGEで最先端のパフォーマンスを達成した。

Pre-trained transformer-based sequence-to-sequence models have become the go-to solution for many text generation tasks, including summarization. However, the results produced by these models tend to contain significant issues such as hallucinations and irrelevant passages. One solution to mitigate these problems is to incorporate better content planning in neural summarization. We propose to use entity chains (i.e., chains of entities mentioned in the summary) to better plan and ground the generation of abstractive summaries. In particular, we augment the target by prepending it with its entity chain. We experimented with both pre-training and finetuning with this content planning objective. When evaluated on CNN/DailyMail, SAMSum and XSum, models trained with this objective improved on entity correctness and summary conciseness, and achieved state-of-the-art performance on ROUGE for SAMSum and XSum.
翻訳日:2021-04-16 18:11:12 公開日:2021-04-15
# (参考訳) 画像構成改善のためのカメラビュー調整予測 [全文訳有]

Camera View Adjustment Prediction for Improving Image Composition ( http://arxiv.org/abs/2104.07608v1 )

ライセンス: CC BY 4.0
Yu-Chuan Su, Raviteja Vemulapalli, Ben Weiss, Chun-Te Chu, Philip Andrew Mansfield, Lior Shapira, Colvin Pitts(参考訳) 画像合成は、写真の品質において重要な役割を果たす。 しかし、すべてのカメラユーザーが、よく構成された写真の撮影に必要な知識や専門知識を持っているわけではない。 撮影後トリミングはコンポジションを改善することがあるが、撮影者がベストショットを撮影するためにカメラビューを調整する必要がある多くの一般的なシナリオでは機能しない。 この問題に対処するために,我々はカメラマンに撮影前にカメラの視点を調整する方法を提案する深層学習に基づくアプローチを提案する。 写真が撮られる前に合成を最適化することで、撮影者がより良い写真を撮れるようになる。 このタスクには公開可能なデータセットがないため、既存の画像トリミングデータセットを再利用してビュー調整データセットを作成する。 さらに,表示調整モデルの学習にラベル付き画像とラベルなし画像の両方を利用する2段階半教師付き手法を提案する。 実験の結果,提案する半教師付きアプローチは,対応する教師付き代替手法よりも優れており,提案する視点調整により画像構成が79%向上することが示された。

Image composition plays an important role in the quality of a photo. However, not every camera user possesses the knowledge and expertise required for capturing well-composed photos. While post-capture cropping can improve the composition sometimes, it does not work in many common scenarios in which the photographer needs to adjust the camera view to capture the best shot. To address this issue, we propose a deep learning-based approach that provides suggestions to the photographer on how to adjust the camera view before capturing. By optimizing the composition before a photo is captured, our system helps photographers to capture better photos. As there is no publicly-available dataset for this task, we create a view adjustment dataset by repurposing existing image cropping datasets. Furthermore, we propose a two-stage semi-supervised approach that utilizes both labeled and unlabeled images for training a view adjustment model. Experiment results show that the proposed semi-supervised approach outperforms the corresponding supervised alternatives, and our user study results show that the suggested view adjustment improves image composition 79% of the time.
翻訳日:2021-04-16 17:55:22 公開日:2021-04-15
# (参考訳) 協調解決のための適応型能動学習 [全文訳有]

Adaptive Active Learning for Coreference Resolution ( http://arxiv.org/abs/2104.07611v1 )

ライセンス: CC BY-SA 4.0
Michelle Yuan, Patrick Xia, Benjamin Van Durme, Jordan Boyd-Graber(参考訳) コリファレンス解決モデルのトレーニングには、包括的なラベル付きデータが必要です。 1つのデータセットでトレーニングされたモデルは、新しいドメインにうまく移行できません。 本稿では,個別アノテーションをインクリメンタルクラスタリングモデルに供給するコリファレンス解決のためのアクティブラーニング手法について検討する。 最近のインクリメンタルなコリファレンス解決の発展は、この設定でアクティブラーニングへの新しいアプローチを可能にする。 この新たなフレームワークを通じて,モデルの不確実性の発生源や読み取りとラベル付けコストのバランスなど,データ取得における重要な要素を分析する。 金のデータをシミュレートして様々な設定を探索する。 コリファレンスのためのデータバリアを低くすることで、コリファレンスリゾルバは、以前に考慮されていなかった一連のドメインに迅速に適応することができる。

Training coreference resolution models require comprehensively labeled data. A model trained on one dataset may not successfully transfer to new domains. This paper investigates an approach to active learning for coreference resolution that feeds discrete annotations to an incremental clustering model. The recent developments in incremental coreference resolution allow for a novel approach to active learning in this setting. Through this new framework, we analyze important factors in data acquisition, like sources of model uncertainty and balancing reading and labeling costs. We explore different settings through simulated labeling with gold data. By lowering the data barrier for coreference, coreference resolvers can rapidly adapt to a series of previously unconsidered domains.
翻訳日:2021-04-16 17:39:15 公開日:2021-04-15
# (参考訳) 時々訳語を欲しがる [全文訳有]

Sometimes We Want Translationese ( http://arxiv.org/abs/2104.07623v1 )

ライセンス: CC BY 4.0
Prasanna Parthasarathi, Koustuv Sinha, Joelle Pineau and Adina Williams(参考訳) ニューラルマシン翻訳(nmt)システムのここ数年の急速な進歩は、主に翻訳品質の向上、そして第二の焦点として、入力摂動(例えば)に対する堅牢性の向上に向けられている。 綴りと文法上の誤り) パフォーマンスと堅牢性は重要な目標ですが、これらに過度に注目することで、他の重要な特性を見渡すリスクがあります。 本稿では,いくつかの応用において,原文(入力)への忠実さは,(出力)翻訳に異常な言語パターンを導入することを意味するとしても,保存することが重要であるという事実に留意する。 語順摂動の場合に着目し,NMTシステムが堅牢性や忠実性を示すかどうかを定量的に定量化する手法を提案する。 トークンの削除や注入をせずに,文の語順を乱す関数のスイートを探索し,頑健性と忠実性の両方の観点から対象側の効果を測定する。 いくつかの実験条件において、忠実性よりも頑健性に対する強い傾向を観察する。 これらの結果から,nmtの忠実性と堅牢性とのトレードオフをより深く理解することができ,ユーザがより自律性を持ち,ユースケースに最適なプロパティを選択するための制御性を持つシステムを開発する可能性を開くことができる。

Rapid progress in Neural Machine Translation (NMT) systems over the last few years has been driven primarily towards improving translation quality, and as a secondary focus, improved robustness to input perturbations (e.g. spelling and grammatical mistakes). While performance and robustness are important objectives, by over-focusing on these, we risk overlooking other important properties. In this paper, we draw attention to the fact that for some applications, faithfulness to the original (input) text is important to preserve, even if it means introducing unusual language patterns in the (output) translation. We propose a simple, novel way to quantify whether an NMT system exhibits robustness and faithfulness, focusing on the case of word-order perturbations. We explore a suite of functions to perturb the word order of source sentences without deleting or injecting tokens, and measure the effects on the target side in terms of both robustness and faithfulness. Across several experimental conditions, we observe a strong tendency towards robustness rather than faithfulness. These results allow us to better understand the trade-off between faithfulness and robustness in NMT, and opens up the possibility of developing systems where users have more autonomy and control in selecting which property is best suited for their use case.
翻訳日:2021-04-16 17:26:27 公開日:2021-04-15
# (参考訳) 多言語変換器におけるデミスティフィケーション最適化問題 [全文訳有]

Demystify Optimization Challenges in Multilingual Transformers ( http://arxiv.org/abs/2104.07639v1 )

ライセンス: CC BY 4.0
Xian Li, Hongyu Gong(参考訳) 多言語トランスフォーマーはパラメータ効率と言語間転送を改善する。 多言語モデルを効果的に訓練する方法は研究されていない。 多言語機械翻訳をテストベッドとして使用し、損失景観とパラメータ可塑性の観点から最適化課題を考察する。 不均衡なトレーニングデータは、主要なパラメータのほぼ直交勾配と最適化の軌跡によって特徴づけられ、高リソース言語と低リソース言語間のタスク干渉を引き起こすことが判明した。 損失面の局所曲率は干渉の程度に影響を及ぼし、既存のデータサブサンプリングのヒューリスティックスは、高いリソース言語と低いリソース言語とのトレードオフに直面しながら、シャープさを暗黙的に減少させる。 本稿では,特に低リソースに対する最適化と一般化の両立を両立させる多目的最適化アルゴリズム,curvature aware task scaling (cats)を提案する。 TED、WMT、OPUS-100ベンチマークの実験では、CATSがParetoの精度を向上し、100言語規模の大規模な多言語設定に効果的に適用できることが示されている。

Multilingual Transformer improves parameter efficiency and crosslingual transfer. How to effectively train multilingual models has not been well studied. Using multilingual machine translation as a testbed, we study optimization challenges from loss landscape and parameter plasticity perspectives. We found that imbalanced training data poses task interference between high and low resource languages, characterized by nearly orthogonal gradients for major parameters and the optimization trajectory being mostly dominated by high resource. We show that local curvature of the loss surface affects the degree of interference, and existing heuristics of data subsampling implicitly reduces the sharpness, although still face a trade-off between high and low resource languages. We propose a principled multi-objective optimization algorithm, Curvature Aware Task Scaling (CATS), which improves both optimization and generalization especially for low resource. Experiments on TED, WMT and OPUS-100 benchmarks demonstrate that CATS advances the Pareto front of accuracy while being efficient to apply to massive multilingual settings at the scale of 100 languages.
翻訳日:2021-04-16 17:09:05 公開日:2021-04-15
# (参考訳) 教師なし平行テキストマイニングのためのバイリンガルアライメントの多言語アライメントへの変換 [全文訳有]

Bilingual alignment transfers to multilingual alignment for unsupervised parallel text mining ( http://arxiv.org/abs/2104.07642v1 )

ライセンス: CC BY 4.0
Chih-chan Tien, Shane Steinert-Threlkeld(参考訳) 本研究は, 対あるいは不対のバイリンガルテキストを用いた言語間文表現学習手法を提案する。 我々は、言語間アライメント戦略は転送可能であり、2つの言語のみをアライメントするように訓練されたモデルは、多言語的によりアライメントされた表現を符号化できると仮定する。 このようなバイリンガルアライメントから多言語アライメントへの変換は、2つのピボット言語から他の言語対への双対ピボット変換である。 この理論を考察するために,教師なし文を用いた教師なしモデルと,教師なし言語モデル XLM-R に基づくビットテックスを用いた1対1教師付きモデルを訓練する。 実験は,教師なしバイテキストマイニングのタスクにおいて,教師なしモデルが教師なし検索の最先端に到達し,代替シングルペア教師付きモデルが多言語教師なしモデルの性能に接近する2つのデータセット上で,普遍文エンコーダとしてモデルを評価する。 その結果,提案するバイリンガル学習手法を多言語アライメントの高い文表現に応用できることが示唆された。

This work presents methods for learning cross-lingual sentence representations using paired or unpaired bilingual texts. We hypothesize that the cross-lingual alignment strategy is transferable, and therefore a model trained to align only two languages can encode multilingually more aligned representations. And such transfer from bilingual alignment to multilingual alignment is a dual-pivot transfer from two pivot languages to other language pairs. To study this theory, we train an unsupervised model with unpaired sentences and another single-pair supervised model with bitexts, both based on the unsupervised language model XLM-R. The experiments evaluate the models as universal sentence encoders on the task of unsupervised bitext mining on two datasets, where the unsupervised model reaches the state of the art of unsupervised retrieval, and the alternative single-pair supervised model approaches the performance of multilingually supervised models. The results suggest that bilingual training techniques as proposed can be applied to get sentence representations with higher multilingual alignment.
翻訳日:2021-04-16 16:42:42 公開日:2021-04-15
# (参考訳) 多言語BERTモデルは堅牢か? 多言語質問応答に対する敵意攻撃の事例研究 [全文訳有]

Are Multilingual BERT models robust? A Case Study on Adversarial Attacks for Multilingual Question Answering ( http://arxiv.org/abs/2104.07646v1 )

ライセンス: CC BY 4.0
Sara Rosenthal, Mihaela Bornea, Avirup Sil(参考訳) 近年, 単言語質問応答モデル(QA)の弱点を利用して, 文節に逆文を追加する手法が提案されている。 これらの攻撃により、最先端の性能はほぼ50%低下した。 本稿では,多言語BERT上で事前学習した多言語QA(MLQA)システムに対して,対数文に対する攻撃戦略を用いて,最大85%の性能低下を図った。 QAペア内の他の言語に関係なく、モデルが英語と質問の言語に優先順位を与えることを示す。 さらに、トレーニング中に攻撃戦略を追加することで攻撃を軽減できることも示しています。

Recent approaches have exploited weaknesses in monolingual question answering (QA) models by adding adversarial statements to the passage. These attacks caused a reduction in state-of-the-art performance by almost 50%. In this paper, we are the first to explore and successfully attack a multilingual QA (MLQA) system pre-trained on multilingual BERT using several attack strategies for the adversarial statement reducing performance by as much as 85%. We show that the model gives priority to English and the language of the question regardless of the other languages in the QA pair. Further, we also show that adding our attack strategies during training helps alleviate the attacks.
翻訳日:2021-04-16 16:27:39 公開日:2021-04-15
# (参考訳) mlf-core: 決定論的機械学習のためのフレームワーク

mlf-core: a framework for deterministic machine learning ( http://arxiv.org/abs/2104.07651v1 )

ライセンス: CC BY-SA 4.0
Lukas Heumos, Philipp Ehmele, Kevin Menden, Luis Kuhn Cuellar, Edmund Miller, Steffen Lemke, Gisela Gabernet and Sven Nahnsen(参考訳) 機械学習は近年大きく成長している。 しかし、これまでの研究では、機械学習における再現可能性の危機が強調されていた。 不再現性の理由は多様体である。 主要な機械学習ライブラリは、原子操作に基づく非決定論的アルゴリズムの使用をデフォルトとする。 すべてのランダムな種を固定するだけでは、決定論的機械学習には不十分である。 この欠点を克服するため、さまざまな機械学習ライブラリが非決定論的アルゴリズムと同等の決定論的アルゴリズムをリリースした。 これらのアルゴリズムが決定性と実行に与える影響を評価した。 これらの結果をもとに,再現可能な機械学習のための要件セットを定式化し,これらの要件を満たし維持するための機械学習プロジェクトを支援する,新たなソフトウェアソリューションであるmlf-core ecosystemを開発した。 tensorflowを用いた単一細胞オートエンコーダ,ctスキャンによる肝腫瘍分離のためのpytorchベースのu-netモデル,xgboostを用いた遺伝子発現プロファイルに基づく肝癌分類器など,mlf-coreを用いた生体医学分野の完全な再現性モデルの開発を行った。

Machine learning has shown extensive growth in recent years. However, previously existing studies highlighted a reproducibility crisis in machine learning. The reasons for irreproducibility are manifold. Major machine learning libraries default to the usage of non-deterministic algorithms based on atomic operations. Solely fixing all random seeds is not sufficient for deterministic machine learning. To overcome this shortcoming, various machine learning libraries released deterministic counterparts to the non-deterministic algorithms. We evaluated the effect of these algorithms on determinism and runtime. Based on these results, we formulated a set of requirements for reproducible machine learning and developed a new software solution, the mlf-core ecosystem, which aids machine learning projects to meet and keep these requirements. We applied mlf-core to develop fully reproducible models in various biomedical fields including a single cell autoencoder with TensorFlow, a PyTorch-based U-Net model for liver-tumor segmentation in CT scans, and a liver cancer classifier based on gene expression profiles with XGBoost.
翻訳日:2021-04-16 16:13:25 公開日:2021-04-15
# (参考訳) Zooming SlowMo: 時空ビデオ超解法のための効率的なワンステージフレームワーク [全文訳有]

Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video Super-Resolution ( http://arxiv.org/abs/2104.07473v1 )

ライセンス: CC BY 4.0
Xiaoyu Xiang, Yapeng Tian, Yulun Zhang, Yun Fu, Jan P. Allebach, Chenliang Xu(参考訳) 本稿では,低解像度(LR)および低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的とした,時空間ビデオ超解像について述べる。 na\"iveメソッドは、vfi(video frame interpolation)とvsr(video super- resolution)という2つのサブタスクに分解する。 しかしながら、この問題では時間的補間と空間拡大が関係している。 2段階のアプローチでは、この性質を完全には利用できない。 さらに、最先端のVFIまたはVSRディープネットワークは、高画質のフォトリアリスティックビデオフレームを得るために、通常大きなフレーム再構成モジュールを持っているため、2段階のアプローチは大きなモデルを持ち、比較的時間がかかる。 この問題を克服するために、入力LRとLFRビデオから直接HRスローモーション映像シーケンスを再構成できるワンステージ時空間ビデオ超解像フレームワークを提案する。 VFIモデルのように、欠落したLR中間フレームを再構成する代わりに、特徴のある時間的補間モジュールによって局所的な時間的コンテキストをキャプチャするLRフレームの特徴を時間的に補間する。 広範に使用されているベンチマーク実験により,提案フレームワークはクリーンかつノイズの多いLRフレームにおいて,質的かつ定量的な性能を達成するだけでなく,最近の最先端の2段階ネットワークよりも数倍高速であることが示された。 ソースコードはhttps://github.com/M ukosame/Zooming-Slow -Mo-CVPR-2020で公開されている。

In this paper, we address the space-time video super-resolution, which aims at generating a high-resolution (HR) slow-motion video from a low-resolution (LR) and low frame rate (LFR) video sequence. A na\"ive method is to decompose it into two sub-tasks: video frame interpolation (VFI) and video super-resolution (VSR). Nevertheless, temporal interpolation and spatial upscaling are intra-related in this problem. Two-stage approaches cannot fully make use of this natural property. Besides, state-of-the-art VFI or VSR deep networks usually have a large frame reconstruction module in order to obtain high-quality photo-realistic video frames, which makes the two-stage approaches have large models and thus be relatively time-consuming. To overcome the issues, we present a one-stage space-time video super-resolution framework, which can directly reconstruct an HR slow-motion video sequence from an input LR and LFR video. Instead of reconstructing missing LR intermediate frames as VFI models do, we temporally interpolate LR frame features of the missing LR frames capturing local temporal contexts by a feature temporal interpolation module. Extensive experiments on widely used benchmarks demonstrate that the proposed framework not only achieves better qualitative and quantitative performance on both clean and noisy LR frames but also is several times faster than recent state-of-the-art two-stage networks. The source code is released in https://github.com/M ukosame/Zooming-Slow -Mo-CVPR-2020 .
翻訳日:2021-04-16 16:12:22 公開日:2021-04-15
# (参考訳) モーショングルーピングによる自己監督型ビデオオブジェクトセグメンテーション [全文訳有]

Self-supervised Video Object Segmentation by Motion Grouping ( http://arxiv.org/abs/2104.07658v1 )

ライセンス: CC BY 4.0
Charig Yang, Hala Lamdouar, Erika Lu, Andrew Zisserman, Weidi Xie(参考訳) 動物は運動を理解するために高度に機能的な視覚システムを進化させ、複雑な環境下でも知覚を補助している。 本稿では,動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムの開発に向けて研究する。 動きのセグメンテーション。 まず、光学フローフレームを一次オブジェクトと背景に分割する簡単なトランスフォーマを導入する。 第二に、アーキテクチャを自己管理的な方法でトレーニングする。 手動アノテーションを使わずに。 第3に,本手法のいくつかの重要な要素を分析し,その必要性を検証するために徹底的なアブレーション研究を行う。 第4に,提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。 光フローのみを入力として使用するが、従来の最先端の自己監視手法に匹敵する結果が得られる一方で、桁違いに高速である。 さらに,既存のビデオセグメンテーションモデルにおける視覚的出現に対するバイアスを強調し,他の自己監督的アプローチを著しく上回り,上位監督的アプローチと良好に比較し,挑戦的カモフラージュデータセット(MoCA)を評価した。

Animals have evolved highly functional visual systems to understand motion, assisting perception even under complex environments. In this paper, we work towards developing a computer vision system able to segment objects by exploiting motion cues, i.e. motion segmentation. We make the following contributions: First, we introduce a simple variant of the Transformer to segment optical flow frames into primary objects and the background. Second, we train the architecture in a self-supervised manner, i.e. without using any manual annotations. Third, we analyze several critical components of our method and conduct thorough ablation studies to validate their necessity. Fourth, we evaluate the proposed architecture on public benchmarks (DAVIS2016, SegTrackv2, and FBMS59). Despite using only optical flow as input, our approach achieves superior or comparable results to previous state-of-the-art self-supervised methods, while being an order of magnitude faster. We additionally evaluate on a challenging camouflage dataset (MoCA), significantly outperforming the other self-supervised approaches, and comparing favourably to the top supervised approach, highlighting the importance of motion cues, and the potential bias towards visual appearance in existing video segmentation models.
翻訳日:2021-04-16 15:43:58 公開日:2021-04-15
# ニューラルエージェント反復型言語学習における効率的なメッセージングと入力変動の影響

The Effect of Efficient Messaging and Input Variability on Neural-Agent Iterated Language Learning ( http://arxiv.org/abs/2104.07637v1 )

ライセンス: Link先を確認
Yuchen Lian, Arianna Bisazza and Tessa Verhoef(参考訳) 自然言語は一般的に、構成的役割を伝える様々な戦略のトレードオフを示す。 しかし、ニューラルネットワークベースのエージェント(chaabouni et al., 2019b)による反復型言語学習の最近のシミュレーションでは、同様のトレードオフは観測されていない。 本研究は,エージェントの労力に基づく圧力の欠如と,初期入力言語における変数の欠如という,2つの重要な要因から,この結果を再評価するものである。

Natural languages commonly display a trade-off among different strategies to convey constituent roles. A similar trade-off, however, has not been observed in recent simulations of iterated language learning with neural network based agents (Chaabouni et al., 2019b). In this work, we re-evaluate this result in the light of two important factors, namely: the lack of effort-based pressure in the agents and the lack of variability in the initial input language.
翻訳日:2021-04-16 15:19:46 公開日:2021-04-15
# 時制言語モデル:イベントの流れを理解するための言語モデルを教える

Time-Stamped Language Model: Teaching Language Models to Understand the Flow of Events ( http://arxiv.org/abs/2104.07635v1 )

ライセンス: Link先を確認
Hossein Rajaby Faghihi and Parisa Kordjamshidi(参考訳) テキストに記述された手順全体のエンティティの追跡は、プロセスで記述された世界の動的な性質のために難しい。 まず,この課題を質問応答問題として定式化することを提案する。 これにより、手続き的テキスト理解に適応することで、他のQAベンチマークで事前訓練されたトランスフォーマーベースの言語モデルを使用することができる。 第2に,トランスフォーマティブな言語モデルではイベントの流れ自体をエンコードできないため,タイムスタンプエンコーディングを導入することでイベント情報をlmsアーキテクチャでエンコードする時間スタンプ言語モデル~(tslmモデル)を提案する。 Proparaデータセットで評価したモデルでは、F1スコアが3.1\%上昇した状態での公開結果の改善が示されている。 さらに,本モデルでは,NPN-Cookingデータセット上の位置予測タスクについて,より良い結果が得られる。 その結果,本手法は一般に手続き的テキスト理解に有効であることが示唆された。

Tracking entities throughout a procedure described in a text is challenging due to the dynamic nature of the world described in the process. Firstly, we propose to formulate this task as a question answering problem. This enables us to use pre-trained transformer-based language models on other QA benchmarks by adapting those to the procedural text understanding. Secondly, since the transformer-based language models cannot encode the flow of events by themselves, we propose a Time-Stamped Language Model~(TSLM model) to encode event information in LMs architecture by introducing the timestamp encoding. Our model evaluated on the Propara dataset shows improvements on the published state-of-the-art results with a $3.1\%$ increase in F1 score. Moreover, our model yields better results on the location prediction task on the NPN-Cooking dataset. This result indicates that our approach is effective for procedural text understanding in general.
翻訳日:2021-04-16 15:19:39 公開日:2021-04-15
# 分散ネットワーククラスタリングのための変分共埋め込み学習

Variational Co-embedding Learning for Attributed Network Clustering ( http://arxiv.org/abs/2104.07295v1 )

ライセンス: Link先を確認
Shuiqiao Yang, Sunny Verma, Borui Cai, Jiaojiao Jiang, Kun Yu, Fang Chen, Shui Yu(参考訳) 属性ネットワーククラスタリングの最近の研究は、グラフ畳み込みを利用してノード埋め込みを取得し、同時に埋め込み空間上でクラスタリング割り当てを行う。 グラフ畳み込みはノード埋め込み学習のための構造的情報と帰属的情報を組み合わせるので効果的である。 しかし、そのような作業の大きな制限は、グラフ畳み込みがノードのローカル近傍からの属性情報のみを組み込むが、ノードと属性の間の相互親和性を利用することができないことである。 本稿では,属性付きネットワーククラスタリング(VCLANC)のための変分共埋め込み学習モデルを提案する。 VCLANCは、ノードと属性を同時に埋め込む2つの変分自動エンコーダで構成されている。 これに基づいて、ノードと属性間の相互親和性情報は埋め込み空間から再構成することができ、表現学習のための追加の自己教師付き知識として機能する。 同時に、トレーニング可能なガウス混合モデルをノードクラスタリングの割り当てを推測するために、事前として使用する。 推定されたクラスタの性能を高めるために、ガウス前駆体の中央における相互距離損失とノード埋め込みにおけるクラスタリング割り当て強化損失を用いる。 4つの実世界帰結型ネットワークデータセットの実験結果は,提案するvclancが帰結型ネットワーククラスタリングに有効であることを示す。

Recent works for attributed network clustering utilize graph convolution to obtain node embeddings and simultaneously perform clustering assignments on the embedding space. It is effective since graph convolution combines the structural and attributive information for node embedding learning. However, a major limitation of such works is that the graph convolution only incorporates the attribute information from the local neighborhood of nodes but fails to exploit the mutual affinities between nodes and attributes. In this regard, we propose a variational co-embedding learning model for attributed network clustering (VCLANC). VCLANC is composed of dual variational auto-encoders to simultaneously embed nodes and attributes. Relying on this, the mutual affinity information between nodes and attributes could be reconstructed from the embedding space and served as extra self-supervised knowledge for representation learning. At the same time, trainable Gaussian mixture model is used as priors to infer the node clustering assignments. To strengthen the performance of the inferred clusters, we use a mutual distance loss on the centers of the Gaussian priors and a clustering assignment hardening loss on the node embeddings. Experimental results on four real-world attributed network datasets demonstrate the effectiveness of the proposed VCLANC for attributed network clustering.
翻訳日:2021-04-16 15:19:27 公開日:2021-04-15
# 混合時間領域適応によるアクションセグメンテーション

Action Segmentation with Mixed Temporal Domain Adaptation ( http://arxiv.org/abs/2104.07461v1 )

ライセンス: Link先を確認
Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib(参考訳) アクションセグメンテーションの主な進歩は、教師付き学習のための濃密な注釈付きデータである。 フレームレベルのアクションに対する手動アノテーションは時間を要するため、ドメイン適応(DA)問題としてこの問題を定式化することで、より容易に取得可能な、非ラベル付き動画の補助的利用を提案する。 近年,様々なDA手法が提案されているが,そのほとんどは空間方向のみに開発されている。 そこで本稿では,フレームレベルとビデオレベルの組込み特徴空間を協調的に整列する混合時間領域適応(mtda)を提案し,さらに,フレームレベルの特徴をより高いドメインの相違に合わせることに焦点を当てたドメインアテンション機構と統合することで,より効果的なドメイン適応を実現する。 最後に、提案手法を3つの挑戦的データセット(GTEA、50Salads、Breakfast)で評価し、MTDAが3つのデータセットの現在の最先端メソッドよりも大きなマージン(例えば、Breakfast)で優れていることを検証する。 F1@50で6.4%、GTEAで6.8%)。

The main progress for action segmentation comes from densely-annotated data for fully-supervised learning. Since manual annotation for frame-level actions is time-consuming and challenging, we propose to exploit auxiliary unlabeled videos, which are much easier to obtain, by shaping this problem as a domain adaptation (DA) problem. Although various DA techniques have been proposed in recent years, most of them have been developed only for the spatial direction. Therefore, we propose Mixed Temporal Domain Adaptation (MTDA) to jointly align frame- and video-level embedded feature spaces across domains, and further integrate with the domain attention mechanism to focus on aligning the frame-level features with higher domain discrepancy, leading to more effective domain adaptation. Finally, we evaluate our proposed methods on three challenging datasets (GTEA, 50Salads, and Breakfast), and validate that MTDA outperforms the current state-of-the-art methods on all three datasets by large margins (e.g. 6.4% gain on F1@50 and 6.8% gain on the edit score for GTEA).
翻訳日:2021-04-16 15:19:09 公開日:2021-04-15
# エンドツーエンド音声理解のための連続トークンインタフェースと事前学習したネットワークの統合

Integration of Pre-trained Networks with Continuous Token Interface for End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2104.07253v1 )

ライセンス: Link先を確認
Seunghyun Seo, Donghyun Kwak, Bowon Lee(参考訳) ほとんどのEnd-to-End(E2E)SLUネットワークは、事前訓練されたASRネットワークを活用しているが、それでもSLUタスクにとって重要な発話の意味を理解する能力が欠けている。 この問題を解決するために、最近提案された研究は、事前学習されたNLUネットワークを使用する。 しかし、両方の事前訓練されたネットワークを完全に活用することは簡単ではなく、知識蒸留、クロスモーダルな共有埋め込み、インターフェイスとのネットワーク統合といった多くのソリューションが提案された。 両ネットワークが同じ語彙で事前学習された場合,ASRおよびNLUネットワークの接合表現である,新しいインタフェース,連続トークンインタフェース(CTI)を備えたE2E SLUネットワークの簡易かつ堅牢な統合手法を提案する。 ノイズレベルが唯一の違いであるため、ASRネットワークの出力を直接NLUネットワークに供給する。 したがって、Gumbel-Softmaxのような追加モジュールを使わずに、私たちのSLUネットワークをE2E方式でトレーニングすることができる。 我々は,sluデータセットに挑戦するslurpを用いてモデルを評価し,意図分類とスロット充填タスクの両方において最先端のスコアを得る。 また,Musked Language Model で事前学習した NLU ネットワークは,CTI のノイズの多いテキスト表現を利用することができる。 さらに,ctiとの統合後も,異種データからのマルチタスク学習で学習できることを示す。

Most End-to-End (E2E) SLU networks leverage the pre-trained ASR networks but still lack the capability to understand the semantics of utterances, crucial for the SLU task. To solve this, recently proposed studies use pre-trained NLU networks. However, it is not trivial to fully utilize both pre-trained networks; many solutions were proposed, such as Knowledge Distillation, cross-modal shared embedding, and network integration with Interface. We propose a simple and robust integration method for the E2E SLU network with novel Interface, Continuous Token Interface (CTI), the junctional representation of the ASR and NLU networks when both networks are pre-trained with the same vocabulary. Because the only difference is the noise level, we directly feed the ASR network's output to the NLU network. Thus, we can train our SLU network in an E2E manner without additional modules, such as Gumbel-Softmax. We evaluate our model using SLURP, a challenging SLU dataset and achieve state-of-the-art scores on both intent classification and slot filling tasks. We also verify the NLU network, pre-trained with Masked Language Model, can utilize a noisy textual representation of CTI. Moreover, we show our model can be trained with multi-task learning from heterogeneous data even after integration with CTI.
翻訳日:2021-04-16 15:18:48 公開日:2021-04-15
# 事実確認クレームの検出における文脈の役割

The Role of Context in Detecting Previously Fact-Checked Claims ( http://arxiv.org/abs/2104.07423v1 )

ライセンス: Link先を確認
Shaden Shaar, Firoj Alam, Giovanni Da San Martino, Preslav Nakov(参考訳) 近年、インターネット上での表現の自由とソーシャルメディアの台頭により、偽情報や誤情報がオンラインで拡散している。 この問題に対処するために, (i) 正確かつ信頼性の高い手動ファクトチェック, (ii) 高速かつスケーラブルな自動ファクトチェック, 説明可能性と信頼性の欠如という2つのソリューションが提案されている。 十分な手作業による事実チェッククレームが蓄積されたことにより、そのクレームが以前に事実チェックされたかどうかをチェックする中核的なアプローチが浮上した。 これは、人間による事実チェックと関連する事実チェックの記事での説明のおかげで、信頼性と説明可能性を提供すると同時に、自動的に作成することができる。 これは比較的新しい研究の方向性であり、ここでは文脈が本当に重要である政治的議論における主張に焦点を当てる。 そこで本研究では,クレームの文脈をモデル化することによる影響について検討する。すなわち,議論のソース側,すなわち対象側,すなわち事実確認説明書において。 我々は、局所的なコンテキスト、グローバルなコンテキスト、および共参照解像度によってモデル化し、transformer-xhを用いてターゲットのテキストを推論することでこれを行う。 実験の結果,それぞれが貴重な情報源であるが,ソース側コンテキストのモデル化の方が重要であり,絶対的な改善点が10点以上あることが分かった。

Recent years have seen the proliferation of disinformation and misinformation online, thanks to the freedom of expression on the Internet and to the rise of social media. Two solutions were proposed to address the problem: (i) manual fact-checking, which is accurate and credible, but slow and non-scalable, and (ii) automatic fact-checking, which is fast and scalable, but lacks explainability and credibility. With the accumulation of enough manually fact-checked claims, a middle-ground approach has emerged: checking whether a given claim has previously been fact-checked. This can be made automatically, and thus fast, while also offering credibility and explainability, thanks to the human fact-checking and explanations in the associated fact-checking article. This is a relatively new and understudied research direction, and here we focus on claims made in a political debate, where context really matters. Thus, we study the impact of modeling the context of the claim: both on the source side, i.e., in the debate, as well as on the target side, i.e., in the fact-checking explanation document. We do this by modeling the local context, the global context, as well as by means of co-reference resolution, and reasoning over the target text using Transformer-XH. The experimental results show that each of these represents a valuable information source, but that modeling the source-side context is more important, and can yield 10+ points of absolute improvement.
翻訳日:2021-04-16 15:18:25 公開日:2021-04-15
# オートチューニング型シム・トゥ・リアルトランスファー

Auto-Tuned Sim-to-Real Transfer ( http://arxiv.org/abs/2104.07662v1 )

ライセンス: Link先を確認
Yuqing Du, Olivia Watkins, Trevor Darrell, Pieter Abbeel, Deepak Pathak(参考訳) シミュレーションでトレーニングされたポリシは,実世界のダイナミクスや視覚特性を正確に把握できない‘現実のギャップ’のため,実世界に移行すると失敗することが多い。 ドメインのランダム化のようなこの問題に対処するための現在のアプローチは、システムパラメータをどの程度ランダム化するかを決定するために、事前の知識と工学を必要としている。 本稿では,実世界の生のRGB画像のみを用いて,報酬や推定状態を定義することなく,実世界に合わせてシミュレータシステムパラメータを自動調整する手法を提案する。 我々の重要な洞察は、パラメータの自動チューニングを探索問題として再構成し、シミュレーションシステムパラメータを現実のシステムパラメータに反復的にシフトさせることである。 本研究では,一連の観測と行動とシステムパラメータが与えられた場合,与えられたパラメータが観測に使用される真のパラメータよりも高いか低いかを予測するサーチパラムモデル(spm)を提案する。 sim-to-simとsim-to-realの両方における複数のロボット制御タスクにおける本手法の評価を行った。 project video and code at https://yuqingd.gith ub.io/autotuned-sim2 real/

Policies trained in simulation often fail when transferred to the real world due to the `reality gap' where the simulator is unable to accurately capture the dynamics and visual properties of the real world. Current approaches to tackle this problem, such as domain randomization, require prior knowledge and engineering to determine how much to randomize system parameters in order to learn a policy that is robust to sim-to-real transfer while also not being too conservative. We propose a method for automatically tuning simulator system parameters to match the real world using only raw RGB images of the real world without the need to define rewards or estimate state. Our key insight is to reframe the auto-tuning of parameters as a search problem where we iteratively shift the simulation system parameters to approach the real-world system parameters. We propose a Search Param Model (SPM) that, given a sequence of observations and actions and a set of system parameters, predicts whether the given parameters are higher or lower than the true parameters used to generate the observations. We evaluate our method on multiple robotic control tasks in both sim-to-sim and sim-to-real transfer, demonstrating significant improvement over naive domain randomization. Project videos and code at https://yuqingd.gith ub.io/autotuned-sim2 real/
翻訳日:2021-04-16 15:18:00 公開日:2021-04-15
# 中国語誤り訂正のためのアライメント非依存モデル

An Alignment-Agnostic Model for Chinese Text Error Correction ( http://arxiv.org/abs/2104.07190v1 )

ライセンス: Link先を確認
Liying Zheng, Yue Deng, Weishun Song, Liang Xu, Jing Xiao(参考訳) 本稿では,中国語母語話者に共通する誤り文字,欠落文字,冗長文字を用いて,漢字誤りの訂正方法について検討する。 検出訂正フレームワークに基づく既存のモデルの多くは誤り文字の誤りを訂正できるが、欠落文字や冗長文字を扱うことはできない。 理由は、修正前後の文の長さが同じではないため、モデル入力と出力の矛盾が生じるからである。 seq2seqベースまたはシーケンスタグ付け法はこの問題に対する解決策を提供し、英語の文脈では比較的良い結果を得たが、実験結果に従って中国語の文脈ではうまく機能しない。 本研究では,アライメントに依存しない新たな検出補正フレームワークを提案する。つまり,テキストアライメントと非アライメントの両方に対応できると同時に,アノテートされたデータが提供されていない場合にはコールドスタートモデルとしても機能する。 3つのデータセットに対する実験結果から,本手法は有効であり,既存のモデルで最高の性能を発揮することが示された。

This paper investigates how to correct Chinese text errors with types of mistaken, missing and redundant characters, which is common for Chinese native speakers. Most existing models based on detect-correct framework can correct mistaken characters errors, but they cannot deal with missing or redundant characters. The reason is that lengths of sentences before and after correction are not the same, leading to the inconsistence between model inputs and outputs. Although the Seq2Seq-based or sequence tagging methods provide solutions to the problem and achieved relatively good results on English context, but they do not perform well in Chinese context according to our experimental results. In our work, we propose a novel detect-correct framework which is alignment-agnostic, meaning that it can handle both text aligned and non-aligned occasions, and it can also serve as a cold start model when there are no annotated data provided. Experimental results on three datasets demonstrate that our method is effective and achieves the best performance among existing published models.
翻訳日:2021-04-16 15:16:51 公開日:2021-04-15
# BERTを用いた感情動態モデリング

Emotion Dynamics Modeling via BERT ( http://arxiv.org/abs/2104.07252v1 )

ライセンス: Link先を確認
Haiqin Yang and Jianping Shen(参考訳) 感情のダイナミクスモデリングは会話における感情認識において重要なタスクである。 共感的対話システムを構築する際の会話感情を予測することを目的としている。 既存の研究は主にリカレントニューラルネットワーク(RNN)に基づくモデルを開発する。 会話におけるトークン表現学習を改善するために最近開発された事前学習戦略のパワーを享受することはできない。 より真面目な話として、RNN上の特徴を組み立てることによって、インターロケータの依存性と、インターロケータ間の感情的影響を区別することは困難である。 本稿では,対話的感情力学のインターロケータ間およびインターロケータ間依存性を具体的に把握する,BERTに基づく一連のモデルを開発する。 具体的には、まずBERTをRNNに置換し、トークン表現を強化する。 そして、会話中の発話を直接リンクするためにフラット構造化BERT(F−BERT)を適用し、さらに階層構造BERT(H−BERT)を用いて発話をリンクする際のインターロケータを識別する。 より重要なことは、空間的時間構造を持つBERT、すなわちST-BERTが、インターロケータ間の感情的影響をさらに決定するために提案されることである。 最後に、会話ベンチマークデータセットにおける2つの一般的な感情認識に関する広範囲な実験を行い、提案モデルが、それぞれ最先端のベースラインに対して約5\%と10\%の改善を達成できることを実証する。

Emotion dynamics modeling is a significant task in emotion recognition in conversation. It aims to predict conversational emotions when building empathetic dialogue systems. Existing studies mainly develop models based on Recurrent Neural Networks (RNNs). They cannot benefit from the power of the recently-developed pre-training strategies for better token representation learning in conversations. More seriously, it is hard to distinguish the dependency of interlocutors and the emotional influence among interlocutors by simply assembling the features on top of RNNs. In this paper, we develop a series of BERT-based models to specifically capture the inter-interlocutor and intra-interlocutor dependencies of the conversational emotion dynamics. Concretely, we first substitute BERT for RNNs to enrich the token representations. Then, a Flat-structured BERT (F-BERT) is applied to link up utterances in a conversation directly, and a Hierarchically-struc tured BERT (H-BERT) is employed to distinguish the interlocutors when linking up utterances. More importantly, a Spatial-Temporal-str uctured BERT, namely ST-BERT, is proposed to further determine the emotional influence among interlocutors. Finally, we conduct extensive experiments on two popular emotion recognition in conversation benchmark datasets and demonstrate that our proposed models can attain around 5\% and 10\% improvement over the state-of-the-art baselines, respectively.
翻訳日:2021-04-16 15:16:33 公開日:2021-04-15
# XTREME-R: より密着した多言語評価を目指して

XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation ( http://arxiv.org/abs/2104.07412v1 )

ライセンス: Link先を確認
Sebastian Ruder, Noah Constant, Jan Botha, Aditya Siddhant, Orhan Firat, Jinlan Fu, Pengfei Liu, Junjie Hu, Graham Neubig, Melvin Johnson(参考訳) 機械学習は、過去1年間に多言語自然言語処理機能に顕著な進歩をもたらした。 例えば、最新の技術はXTREMEマルチ言語ベンチマークの最先端性能を13ポイント以上改善した。 人レベルのパフォーマンスに対する大きなギャップは残っているが、いくつかのタスクでは、他のタスクよりも改善が簡単になっている。 本稿では,言語間移動学習の現状を分析し,いくつかの教訓を要約する。 XTREME を XTREME-R に拡張し,言語に依存しない検索タスクを含む 10 個の自然言語理解タスクを改良し,50 種類の言語をカバーした。 さらに,対話型公開リーダボードを通じて,多言語診断スイートと詳細なマルチデータセット評価機能を提供し,そのようなモデルの理解を深める。

Machine learning has brought striking advances in multilingual natural language processing capabilities over the past year. For example, the latest techniques have improved the state-of-the-art performance on the XTREME multilingual benchmark by more than 13 points. While a sizeable gap to human-level performance remains, improvements have been easier to achieve in some tasks than in others. This paper analyzes the current state of cross-lingual transfer learning and summarizes some lessons learned. In order to catalyze meaningful progress, we extend XTREME to XTREME-R, which consists of an improved set of ten natural language understanding tasks, including challenging language-agnostic retrieval tasks, and covers 50 typologically diverse languages. In addition, we provide a massively multilingual diagnostic suite and fine-grained multi-dataset evaluation capabilities through an interactive public leaderboard to gain a better understanding of such models.
翻訳日:2021-04-16 15:16:12 公開日:2021-04-15
# 後処理が文脈的単語表現に及ぼす影響

Effect of Post-processing on Contextualized Word Representations ( http://arxiv.org/abs/2104.07456v1 )

ライセンス: Link先を確認
Hassan Sajjad and Firoj Alam and Fahim Dalvi and Nadir Durrani(参考訳) 静的埋め込みの事後処理は、語彙レベルとシーケンスレベルのタスクの両方のパフォーマンスを改善するために示されてきた。 しかし、文脈的埋め込みに対する後処理は未研究の問題である。 本研究では,事前学習した言語モデルの異なる層から得られた文脈的埋め込みに対する後処理の有用性を疑問視する。 具体的には、zスコア、min-max正規化、およびAll-but-the-top法によるトップ原理成分の除去により、個々のニューロンの活性化を標準化する。 さらに,単語表現に単位長正規化を適用する。 事前訓練されたモデルの多種多様なセットにおいて、後処理は語彙的タスク(単語類似性や類似性など)とシーケンス分類タスクの両方の表現に存在する重要な情報であることを示す。 以上の知見は,文脈化表現を用いたテレグラフ研究に関連する興味深い点を示し,z-score正規化をアプリケーションで使用する際に考慮すべき重要なステップとして提案する。

Post-processing of static embedding has beenshown to improve their performance on both lexical and sequence-level tasks. However, post-processing for contextualized embeddings is an under-studied problem. In this work, we question the usefulness of post-processing for contextualized embeddings obtained from different layers of pre-trained language models. More specifically, we standardize individual neuron activations using z-score, min-max normalization, and by removing top principle components using the all-but-the-top method. Additionally, we apply unit length normalization to word representations. On a diverse set of pre-trained models, we show that post-processing unwraps vital information present in the representations for both lexical tasks (such as word similarity and analogy)and sequence classification tasks. Our findings raise interesting points in relation to theresearch studies that use contextualized representations, and suggest z-score normalization as an essential step to consider when using them in an application.
翻訳日:2021-04-16 15:15:57 公開日:2021-04-15
# プレトレーニングトランスを用いた遠隔教師付き関係抽出のためのサンプルベース学習法

A Sample-Based Training Method for Distantly Supervised Relation Extraction with Pre-Trained Transformers ( http://arxiv.org/abs/2104.07512v1 )

ライセンス: Link先を確認
Mehrdad Nasser, Mohamad Bagher Sajadi, Behrouz Minaei-Bidgoli(参考訳) 複数インスタンス学習(MIL)は,遠隔教師付き関係抽出(DSRE)の標準学習パラダイムとなっている。 しかし、バッグレベルでの関係抽出を行うため、深層トランスフォーマーニューラルネットワークのような大きな文エンコーダと組み合わせた場合、MILはトレーニングのための重要なハードウェア要件がある。 本稿では,これらのハードウェア要件を緩和するDSREの新しいサンプリング手法を提案する。 提案手法では,バッチ内の袋からランダムに文章をサンプリングすることで,バッチ内の文数を制限する。 しかし、これは袋から有効な文を失うコストにかかっている。 ランダムサンプリングによる問題を軽減するために,学習モデルのアンサンブルを用いて予測を行う。 提案した学習環境を用いて,NYTデータセット上でBERTを微調整することで,提案手法の有効性を示す。 提案手法は, AUC および P@N 測定値において, 従来の最先端手法よりも有意に優れていた。

Multiple instance learning (MIL) has become the standard learning paradigm for distantly supervised relation extraction (DSRE). However, due to relation extraction being performed at bag level, MIL has significant hardware requirements for training when coupled with large sentence encoders such as deep transformer neural networks. In this paper, we propose a novel sampling method for DSRE that relaxes these hardware requirements. In the proposed method, we limit the number of sentences in a batch by randomly sampling sentences from the bags in the batch. However, this comes at the cost of losing valid sentences from bags. To alleviate the issues caused by random sampling, we use an ensemble of trained models for prediction. We demonstrate the effectiveness of our approach by using our proposed learning setting to fine-tuning BERT on the widely NYT dataset. Our approach significantly outperforms previous state-of-the-art methods in terms of AUC and P@N metrics.
翻訳日:2021-04-16 15:15:41 公開日:2021-04-15
# Retrieval Augmentationは会話における幻覚を減らす

Retrieval Augmentation Reduces Hallucination in Conversation ( http://arxiv.org/abs/2104.07567v1 )

ライセンス: Link先を確認
Kurt Shuster, Spencer Poff, Moya Chen, Douwe Kiela, Jason Weston(参考訳) 人間的な会話能力の増大にもかかわらず、最先端の対話モデルは事実の誤りや知識の幻覚に悩まされることが多い(Roller et al., 2020)。 この研究で我々は、複雑なマルチターンの対話コンテキストに基づいたクエリと会話の一貫性のある応答の生成を必要とするため、ナレッジグラウンドの対話において、最近、オープンドメインのQA(Lewis et al., 2020b; Izacard and Grave, 2020)に有効であることが示されているニューラル-retrieval-in-the-lo opアーキテクチャの使用について検討した。 我々は,会話能力を維持しながら知識性を最大化することを目的として,レトリバー,ランチャー,エンコーダ・デコーダといった複数のコンポーネントを用いた各種アーキテクチャについて検討した。 我々は,2つの知識に基づく会話タスクにおいて,最高のモデルが最先端のパフォーマンスを得ることを示す。 モデルは、オープンドメインの会話能力を示し、トレーニングデータにないシナリオに効果的に一般化し、人間の評価によって検証されたように、最先端のチャットボットにおける知識幻覚の既知の問題を実質的に低減する。

Despite showing increasingly human-like conversational abilities, state-of-the-art dialogue models often suffer from factual incorrectness and hallucination of knowledge (Roller et al., 2020). In this work we explore the use of neural-retrieval-in- the-loop architectures - recently shown to be effective in open-domain QA (Lewis et al., 2020b; Izacard and Grave, 2020) - for knowledge-grounded dialogue, a task that is arguably more challenging as it requires querying based on complex multi-turn dialogue context and generating conversationally coherent responses. We study various types of architectures with multiple components - retrievers, rankers, and encoder-decoders - with the goal of maximizing knowledgeability while retaining conversational ability. We demonstrate that our best models obtain state-of-the-art performance on two knowledge-grounded conversational tasks. The models exhibit open-domain conversational capabilities, generalize effectively to scenarios not within the training data, and, as verified by human evaluations, substantially reduce the well-known problem of knowledge hallucination in state-of-the-art chatbots.
翻訳日:2021-04-16 15:15:28 公開日:2021-04-15
# ExplaGraphs: 構造化コモンセンス推論のための説明グラフ生成タスク

ExplaGraphs: An Explanation Graph Generation Task for Structured Commonsense Reasoning ( http://arxiv.org/abs/2104.07644v1 )

ライセンス: Link先を確認
Swarnadeep Saha, Prateek Yadav, Lisa Bauer, Mohit Bansal(参考訳) 最近のcommonsense-reasonin gタスクは、モデルが特定のコンテキストに対してマルチチョイスの質問に答える自然界において、通常差別的である。 識別タスクは、モデルの推論と予測を基礎となるコモンセンス知識で適切に評価できないため、制限されている。 また、そのようなモデルが「正しい理由」ではなく、推論ショートカットを使用することも可能にします。 本研究では,姿勢予測のための説明グラフ生成のための新しい生成および構造化コモンセンス推論タスク(および関連するデータセット)であるExplaGraphsを提案する。 具体的には、信念と議論が与えられた場合、モデルは、議論が信念を支持しているかどうかを予測し、予測されたスタンスに対する非自明で完全で曖昧な説明として機能する常識強化グラフを生成する必要がある。 データセットの説明グラフはクラウドソーシングを通じて収集され、新たなグラフ収集フレームワークにより、複数の検証と精細化ラウンドを通じてグラフの品質が向上します。 グラフの83%は、様々な構造と推論深度を持つ外部の常識ノードを含んでいる。 また,生成したグラフの構造的および意味的正確性と,そのヒューマン・ライティング・グラフとの適合性をチェックするマルチレベル評価フレームワークを提案する。 我々は,bart や t5 のような最先端テキスト生成モデルを用いて説明グラフを生成し,人間のパフォーマンスに大きなギャップがあることを観察し,この新たなコモンセンスグラフに基づく説明生成タスクに有用な作業を促す。

Recent commonsense-reasonin g tasks are typically discriminative in nature, where a model answers a multiple-choice question for a certain context. Discriminative tasks are limiting because they fail to adequately evaluate the model's ability to reason and explain predictions with underlying commonsense knowledge. They also allow such models to use reasoning shortcuts and not be "right for the right reasons". In this work, we present ExplaGraphs, a new generative and structured commonsense-reasonin g task (and an associated dataset) of explanation graph generation for stance prediction. Specifically, given a belief and an argument, a model has to predict whether the argument supports or counters the belief and also generate a commonsense-augmente d graph that serves as non-trivial, complete, and unambiguous explanation for the predicted stance. The explanation graphs for our dataset are collected via crowdsourcing through a novel Collect-Judge-And-Re fine graph collection framework that improves the graph quality via multiple rounds of verification and refinement. A significant 83% of our graphs contain external commonsense nodes with diverse structures and reasoning depths. We also propose a multi-level evaluation framework that checks for the structural and semantic correctness of the generated graphs and their plausibility with human-written graphs. We experiment with state-of-the-art text generation models like BART and T5 to generate explanation graphs and observe that there is a large gap with human performance, thereby encouraging useful future work for this new commonsense graph-based explanation generation task.
翻訳日:2021-04-16 15:15:08 公開日:2021-04-15
# AdaPrompt:関係抽出のための適応型プロンプトベースファインタニング

AdaPrompt: Adaptive Prompt-based Finetuning for Relation Extraction ( http://arxiv.org/abs/2104.07650v1 )

ライセンス: Link先を確認
Xiang Chen, Xin Xie, Ningyu Zhang, Jiahuan Yan, Shumin Deng, Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen(参考訳) 本稿では,関係抽出タスクをマスク言語モデリングとして再構築し,適応型プロンプトベースファインタニング手法を提案する。 複雑な複数ラベル空間を扱うために,関係ラベルを可変数のラベルトークンに散布する適応ラベル単語選択機構を提案する。 さらに,モデルが文脈表現学習に集中するよう促す補助エンティティ識別器オブジェクトを導入する。 ベンチマークデータセットに関する広範囲な実験は、我々のアプローチが、少ない時間と監督された設定の両方でより良いパフォーマンスを達成できることを示しています。

In this paper, we reformulate the relation extraction task as mask language modeling and propose a novel adaptive prompt-based finetuning approach. We propose an adaptive label words selection mechanism that scatters the relation label into variable number of label tokens to handle the complex multiple label space. We further introduce an auxiliary entity discriminator object to encourage the model to focus on context representation learning. Extensive experiments on benchmark datasets demonstrate that our approach can achieve better performance on both the few-shot and supervised setting.
翻訳日:2021-04-16 15:14:41 公開日:2021-04-15
# 言語横断モデルを用いたジェンダーバイアスの定量化

Quantifying Gender Bias Towards Politicians in Cross-Lingual Language Models ( http://arxiv.org/abs/2104.07505v1 )

ライセンス: Link先を確認
Karolina Sta\'nczak, Sagnik Ray Choudhury, Tiago Pimentel, Ryan Cotterell, Isabelle Augenstein(参考訳) 大規模な事前学習型言語モデルの普及により、NLPシステムの性能は大幅に改善されているが、近年の研究では、これらのモデルが自然言語における社会的バイアスを継承していることが示されている。 本稿では,ジェンダーバイアスに関する多言語研究を政治家に対して実施するために,ジェンダーバイアスに関する事前学習言語モデルを簡易に探索する手法を提案する。 我々は、世界中のほとんどの国から250万人の政治家のデータセットを構築し、それらの政治家の名前に関する形容詞と動詞の使用量を性別の機能として定量化する。 我々は6つの異なる言語モデリングアーキテクチャで7つの言語で研究を行っている。 以上の結果から,事前学習言語モデルにおける政治家に対する態度は,使用言語に大きく依存していることが示唆された。 最後に,これまでの研究とは対照的に,より大きな言語モデルでは,より小さい言語モデルよりも男女関係の偏りが強くない傾向が示唆された。

While the prevalence of large pre-trained language models has led to significant improvements in the performance of NLP systems, recent research has demonstrated that these models inherit societal biases extant in natural language. In this paper, we explore a simple method to probe pre-trained language models for gender bias, which we use to effect a multi-lingual study of gender bias towards politicians. We construct a dataset of 250k politicians from most countries in the world and quantify adjective and verb usage around those politicians' names as a function of their gender. We conduct our study in 7 languages across 6 different language modeling architectures. Our results demonstrate that stance towards politicians in pre-trained language models is highly dependent on the language used. Finally, contrary to previous findings, our study suggests that larger language models do not tend to be significantly more gender-biased than smaller ones.
翻訳日:2021-04-16 15:14:32 公開日:2021-04-15
# ストリートマップに基づく自律運転におけるセマンティックセグメンテーションの検証

Street-Map Based Validation of Semantic Segmentation in Autonomous Driving ( http://arxiv.org/abs/2104.07538v1 )

ライセンス: Link先を確認
Laura von Rueden, Tim Wirtz, Fabian Hueger, Jan David Schneider, Nico Piatkowski, Christian Bauckhage(参考訳) 自動運転のための人工知能は、安全性と堅牢性に関する厳格な要件を満たす必要がある。 しかし、現在の検証手法は、主に真理データを必要とするため、コストがかかり、適用性に制限がある。 道路地図からa-priori知識を用いたモデル非依存検証により,これらの制約を克服する。 特にセマンティックセグメンテーションマスクの検証方法を示し,OpenStreetMapを用いたアプローチの可能性を示す。 偽陽性または負の道路セグメントを示す検証指標を導入する。 検証手法の他に,車両のGPS位置を補正し,より正確な位置推定をストリートマップに基づく検証に利用できるようにする手法を提案する。 最後に,Cityscapesデータセットの定量的結果から,セマンティックセグメンテーションマスクの誤りを実際に発見できることを示す。

Artificial intelligence for autonomous driving must meet strict requirements on safety and robustness, which motivates the thorough validation of learned models. However, current validation approaches mostly require ground truth data and are thus both cost-intensive and limited in their applicability. We propose to overcome these limitations by a model agnostic validation using a-priori knowledge from street maps. In particular, we show how to validate semantic segmentation masks and demonstrate the potential of our approach using OpenStreetMap. We introduce validation metrics that indicate false positive or negative road segments. Besides the validation approach, we present a method to correct the vehicle's GPS position so that a more accurate localization can be used for the street-map based validation. Lastly, we present quantitative results on the Cityscapes dataset indicating that our validation approach can indeed uncover errors in semantic segmentation masks.
翻訳日:2021-04-16 15:14:19 公開日:2021-04-15
# 知識グラフリンク予測のためのノード共起型グラフニューラルネットワーク

Node Co-occurrence based Graph Neural Networks for Knowledge Graph Link Prediction ( http://arxiv.org/abs/2104.07396v1 )

ライセンス: Link先を確認
Dai Quoc Nguyen and Vinh Tong and Dinh Phung and Dat Quoc Nguyen(参考訳) 我々は,知識グラフ補完(リンク予測)を改善するために,エンティティ間の共起と関係をグラフニューラルネットワークに統合することを目的とした,NoKEという新しい埋め込みモデルを導入する。 知識グラフが与えられたとき、nokeはエンティティと関係を個々のノードとして考える単一のグラフを構成する。 ノード間のエッジの重みを、エンティティとリレーションの共起に基づいて計算する。 次に、NoKEはバニラGNNを使用してエンティティとリレーショナルノードのベクトル表現を更新し、スコア関数を採用してトリプルスコアを生成する。 総合的な実験結果から,我々のNoKEは3つの新しい,挑戦的で困難なベンチマークデータセットであるCoDExを知識グラフの補完に適用し,その単純さと有効性を示す。

We introduce a novel embedding model, named NoKE, which aims to integrate co-occurrence among entities and relations into graph neural networks to improve knowledge graph completion (i.e., link prediction). Given a knowledge graph, NoKE constructs a single graph considering entities and relations as individual nodes. NoKE then computes weights for edges among nodes based on the co-occurrence of entities and relations. Next, NoKE utilizes vanilla GNNs to update vector representations for entity and relation nodes and then adopts a score function to produce the triple scores. Comprehensive experimental results show that our NoKE obtains state-of-the-art results on three new, challenging, and difficult benchmark datasets CoDEx for knowledge graph completion, demonstrating the power of its simplicity and effectiveness.
翻訳日:2021-04-16 15:13:31 公開日:2021-04-15
# 事前訓練された言語モデルによるデータセットの生成

Generating Datasets with Pretrained Language Models ( http://arxiv.org/abs/2104.07540v1 )

ライセンス: Link先を確認
Timo Schick and Hinrich Sch\"utze(参考訳) 事前訓練された言語モデルから高品質な文埋め込みを得るには、追加の事前学習目的で拡張するか、大量のラベル付きテキストペアで微調整する必要がある。 後者のアプローチは一般的に前者よりも優れていますが、十分なサイズの適切なデータセットを生成するには、多大な人的努力が必要です。 本稿では,ラベル付きデータや微調整や事前学習目的の変更を必要とせず,高品質な組込みを実現するために,事前学習済み言語モデルをどのように活用できるかを示す。 完全に教師なしのアプローチは、いくつかの英語意味テキスト類似性データセットの強いベースラインを上回る。

To obtain high-quality sentence embeddings from pretrained language models, they must either be augmented with additional pretraining objectives or finetuned on large amounts of labeled text pairs. While the latter approach typically outperforms the former, it requires great human effort to generate suitable datasets of sufficient size. In this paper, we show how large pretrained language models can be leveraged to obtain high-quality embeddings without requiring any labeled data, finetuning or modifications to their pretraining objective: We utilize their generative abilities to generate entire datasets of labeled text pairs from scratch, which can then be used for regular finetuning of much smaller models. Our fully unsupervised approach outperforms strong baselines on several English semantic textual similarity datasets.
翻訳日:2021-04-16 15:13:18 公開日:2021-04-15
# AIにおける不確実性への対処 - インターバル回帰のレビューと次のステップ

Towards Handling Uncertainty-at-Sourc e in AI -- A Review and Next Steps for Interval Regression ( http://arxiv.org/abs/2104.07245v1 )

ライセンス: Link先を確認
Shaily Kabir, Christian Wagner and Zack Ellerby(参考訳) 統計とAIのほとんどは、情報源間の不一致やばらつき(すなわち、ソース間の不確実性)をモデル化することで洞察を引き出す。 しかし、センサ出力や人間の反応など、個々の測定値(内部またはソース内)のレベルで生じる不確実性に注目している研究が増えている。 ここで、基本データ型として数値ではなく間隔を採用することは、効率良く、強力で、挑戦的な方法を提供する -- 不確実性をソースとして体系的に捉え、情報容量を増加させ、最終的には洞察の機会を提供する。 近年、人間の参加者を含むインターバル値データの取得が進み、インターバルで直接機械学習を行うことが重要なステップである。 本稿では,近年の成長領域である区間値データの線形回帰に着目し,AIにおける間隔の広範化に欠かせない基礎を提供する。 我々は,最先端手法の詳細な分析を行い,特性の異なるデータセットに適用した場合の動作,利点,落とし穴を明らかにする。 数学的コヒーレンス(英語版)の保存、すなわちモデルが区間の基本的な数学的特性を維持することを保証するという課題に特に重点を置いており、この論文はそれを保証するために既存のアプローチの拡張を推し進めている。 モデル解釈可能性の最大化を目的として設計された、区間値回帰出力の新しい可視化と共に、合成データと実世界のデータの両方を使用して、注意深く設計された実験が行われる。 最後に、特定の特性を持つデータセットに対するメソッド適合性について提案し、残すべき課題と、不確実性のあるソースを扱う能力を持つAIを開発するための重要な次のステップを強調する。

Most of statistics and AI draw insights through modelling discord or variance between sources of information (i.e., inter-source uncertainty). Increasingly, however, research is focusing upon uncertainty arising at the level of individual measurements (i.e., within- or intra-source), such as for a given sensor output or human response. Here, adopting intervals rather than numbers as the fundamental data-type provides an efficient, powerful, yet challenging way forward -- offering systematic capture of uncertainty-at-sourc e, increasing informational capacity, and ultimately potential for insight. Following recent progress in the capture of interval-valued data, including from human participants, conducting machine learning directly upon intervals is a crucial next step. This paper focuses on linear regression for interval-valued data as a recent growth area, providing an essential foundation for broader use of intervals in AI. We conduct an in-depth analysis of state-of-the-art methods, elucidating their behaviour, advantages, and pitfalls when applied to datasets with different properties. Specific emphasis is given to the challenge of preserving mathematical coherence -- i.e., ensuring that models maintain fundamental mathematical properties of intervals throughout -- and the paper puts forward extensions to an existing approach to guarantee this. Carefully designed experiments, using both synthetic and real-world data, are conducted -- with findings presented alongside novel visualizations for interval-valued regression outputs, designed to maximise model interpretability. Finally, the paper makes recommendations concerning method suitability for data sets with specific properties and highlights remaining challenges and important next steps for developing AI with the capacity to handle uncertainty-at-sourc e.
翻訳日:2021-04-16 15:13:07 公開日:2021-04-15
# 深部ニューラルネットワークの高精度・メモリ効率推論のためのオールユーカンフィット8ビットフレキシブル浮動小数点行列

All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and Memory-Efficient Inference of Deep Neural Networks ( http://arxiv.org/abs/2104.07329v1 )

ライセンス: Link先を確認
Cheng-Wei Huang, Tim-Wei Chen, and Juinn-Dar Huang(参考訳) 現代のディープニューラルネットワーク(DNN)モデルは、良い推論結果を得るためには、一般的に大量の重みとアクティベーション値を必要とする。 これらのデータは必然的に大量のオフチップメモリ容量/帯域幅を必要とし、高い精度の浮動小数点フォーマットで表現された場合、状況はさらに悪化する。 異なる8ビット浮動小数点のフォーマットでこれらのデータを表現するための努力が続けられているが、それでも注目すべき精度の損失は避けられない。 本稿では,指数/屈折場のビット幅,指数バイアス,さらには符号ビットの存在さえ定義可能な,非常に柔軟な8ビット浮動小数点(FFP8)フォーマットを提案する。 また,モデル推論の精度を最大化できるように,これらの要因を適切に決定する手法を提案する。 この手法の基礎はキーとなる観測に基づいており、最大等級と値分布は、ほとんどのDNNモデルにおける重みとアクティベーションの相違点である。 実験結果から,モデル再トレーニングを必要とせずとも,複数の代表的な画像分類モデルに対して,FFP8フォーマットが0.1\%\sim 0.3\%の極めて低い精度の損失を達成できた。 さらに、古典的な浮動小数点処理ユニットをFFP8準拠のユニットにするのは簡単で、余分なハードウェアコストは小さい。

Modern deep neural network (DNN) models generally require a huge amount of weight and activation values to achieve good inference outcomes. Those data inevitably demand a massive off-chip memory capacity/bandwidth, and the situation gets even worse if they are represented in high-precision floating-point formats. Effort has been made for representing those data in different 8-bit floating-point formats, nevertheless, a notable accuracy loss is still unavoidable. In this paper we introduce an extremely flexible 8-bit floating-point (FFP8) format whose defining factors - the bit width of exponent/fraction field, the exponent bias, and even the presence of the sign bit - are all configurable. We also present a methodology to properly determine those factors so that the accuracy of model inference can be maximized. The foundation of this methodology is based on a key observation - both the maximum magnitude and the value distribution are quite dissimilar between weights and activations in most DNN models. Experimental results demonstrate that the proposed FFP8 format achieves an extremely low accuracy loss of $0.1\%\sim 0.3\%$ for several representative image classification models even without the need of model retraining. Besides, it is easy to turn a classical floating-point processing unit into an FFP8-compliant one, and the extra hardware cost is minor.
翻訳日:2021-04-16 15:12:39 公開日:2021-04-15
# Sparse Online relative similarity learning

Sparse online relative similarity learning ( http://arxiv.org/abs/2104.07501v1 )

ライセンス: Link先を確認
Dezhong Yao, Peilin Zhao, Chen Yu, Hai Jin, Bin Li(参考訳) 多くのデータマイニングや機械学習のタスクでは、類似度尺度の品質がパフォーマンスの鍵となります。 データセットから良質な類似度尺度を自動的に見つけ出すために,距離学習と類似度学習を提案する。 距離学習は、正の半定値(PSD)行列に基づいてマハラノビス距離を学習し、目的間の距離を測定する一方、類似性学習はPSD制約なしで直接類似性関数を学習し、より魅力的なものにすることを目的としている。 オンライン学習はオフライン学習よりもスケーラブルであるため、既存の類似学習アルゴリズムのほとんどはオンライン類似学習方式である。 しかし、既存のオンライン類似性学習アルゴリズムの多くは、dがインスタンスの次元であるd2パラメータで完全な行列を学習する。 これは高メモリと計算の複雑さのため、高次元タスクでは明らかに非効率である。 この問題を解決するために,学習プロセス中にスパースモデルを学習し,メモリと計算コストを大幅に削減する,複数のSparse Online Relative similarity (SORS)学習アルゴリズムを導入する。 提案アルゴリズムを理論的に解析し,実世界の高次元データセット上で評価する。 実験結果の増大は,効率と有効性の観点から,我々のアプローチの利点を示している。

For many data mining and machine learning tasks, the quality of a similarity measure is the key for their performance. To automatically find a good similarity measure from datasets, metric learning and similarity learning are proposed and studied extensively. Metric learning will learn a Mahalanobis distance based on positive semi-definite (PSD) matrix, to measure the distances between objectives, while similarity learning aims to directly learn a similarity function without PSD constraint so that it is more attractive. Most of the existing similarity learning algorithms are online similarity learning method, since online learning is more scalable than offline learning. However, most existing online similarity learning algorithms learn a full matrix with d 2 parameters, where d is the dimension of the instances. This is clearly inefficient for high dimensional tasks due to its high memory and computational complexity. To solve this issue, we introduce several Sparse Online Relative Similarity (SORS) learning algorithms, which learn a sparse model during the learning process, so that the memory and computational cost can be significantly reduced. We theoretically analyze the proposed algorithms, and evaluate them on some real-world high dimensional datasets. Encouraging empirical results demonstrate the advantages of our approach in terms of efficiency and efficacy.
翻訳日:2021-04-16 15:12:14 公開日:2021-04-15
# 反復バリーセンター流れ

Iterative Barycenter Flows ( http://arxiv.org/abs/2104.07232v1 )

ライセンス: Link先を確認
David I. Inouye, Zeyu Zhou, Ziyu Gong, Pradeep Ravikumar(参考訳) 2つ以上の分布を共有表現にマッピングするタスクには、フェア表現、バッチ効果緩和、教師なしドメイン適応など多くのアプリケーションがある。 しかし、既存の定式化の多くは2つの分布の設定のみを考慮し、さらに、識別可能で一意な共有潜在表現を持たない。 最適輸送理論を用いて、対称モンジュ写像問題(英語版)と呼ばれるモンジュ割当問題の自然な多重分布拡大を考察し、ワッサースタイン・バリセン問題と同値であることを示す。 しかし、バリセンターへのマップを見積もるのは困難だ。 事前の方法は、しばしば輸送コストを無視したり、逆の方法に依存したり、離散分布でのみ機能する。 そこで本研究では, 2 以上の分布とそれに対応するバーリーセンタの間の可逆写像を単純な反復フロー法で推定する。 提案手法は各イテレーションを2つのサブプロブレムに分解する: 1) 単純な分布を推定し、2) 既知閉形式OT結果を用いて、バリセンターへの可逆写像を推定する。 我々の経験的結果は、この反復アルゴリズムがバリセンターへの写像を近似することを示す。

The task of mapping two or more distributions to a shared representation has many applications including fair representations, batch effect mitigation, and unsupervised domain adaptation. However, most existing formulations only consider the setting of two distributions, and moreover, do not have an identifiable, unique shared latent representation. We use optimal transport theory to consider a natural multiple distribution extension of the Monge assignment problem we call the symmetric Monge map problem and show that it is equivalent to the Wasserstein barycenter problem. Yet, the maps to the barycenter are challenging to estimate. Prior methods often ignore transportation cost, rely on adversarial methods, or only work for discrete distributions. Therefore, our goal is to estimate invertible maps between two or more distributions and their corresponding barycenter via a simple iterative flow method. Our method decouples each iteration into two subproblems: 1) estimate simple distributions and 2) estimate the invertible maps to the barycenter via known closed-form OT results. Our empirical results give evidence that this iterative algorithm approximates the maps to the barycenter.
翻訳日:2021-04-16 15:11:54 公開日:2021-04-15
# 過パラメータ浅層ニューラルネットワークを用いたエネルギーベースモデルについて

On Energy-Based Models with Overparametrized Shallow Neural Networks ( http://arxiv.org/abs/2104.07531v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Alberto Bietti, Eric Vanden-Eijnden, Joan Bruna(参考訳) エネルギーベースモデル(EBMs)は、生成モデリングのためのシンプルだが強力なフレームワークである。 これらは、関連するギブズ測度を定義する訓練可能なエネルギー関数に基づいており、MCMCのようなよく確立された統計ツールを通じて訓練およびサンプル化することができる。 ニューラルネットワークはエネルギー関数近似器として使用することができ、リッチな表現モデルとデータ構造を組み込む柔軟なデバイスの両方を提供する。 本研究では、浅いニューラルネットワークに焦点を当てる。 ハイパーパラメータ化ニューラルネットワークの初期理論を基礎として,いわゆる"アクティブ"ニューラルネットワークでトレーニングされたモデルが,関連する"lazy"やカーネルレジームよりも統計的に有利な結果をもたらし,教師付き学習ですでに観察されているような,データ分散における隠れた低次元構造への適応性の向上につながることを示す。 本研究は, 最大確率とスタイン不一致推定値の両方をカバーし, 合成データを用いた数値実験により理論結果を検証した。

Energy-based models (EBMs) are a simple yet powerful framework for generative modeling. They are based on a trainable energy function which defines an associated Gibbs measure, and they can be trained and sampled from via well-established statistical tools, such as MCMC. Neural networks may be used as energy function approximators, providing both a rich class of expressive models as well as a flexible device to incorporate data structure. In this work we focus on shallow neural networks. Building from the incipient theory of overparametrized neural networks, we show that models trained in the so-called "active" regime provide a statistical advantage over their associated "lazy" or kernel regime, leading to improved adaptivity to hidden low-dimensional structure in the data distribution, as already observed in supervised learning. Our study covers both maximum likelihood and Stein Discrepancy estimators, and we validate our theoretical results with numerical experiments on synthetic data.
翻訳日:2021-04-16 15:11:34 公開日:2021-04-15
# ディープニューラルネットワークは顔のアクションユニットを忘れるのか? --健康関連表情認識における伝達学習の効果を探る

Do Deep Neural Networks Forget Facial Action Units? -- Exploring the Effects of Transfer Learning in Health Related Facial Expression Recognition ( http://arxiv.org/abs/2104.07389v1 )

ライセンス: Link先を確認
Pooja Prajod, Dominik Schiller, Tobias Huber, Elisabeth Andr\'e(参考訳) 本稿では,感情から痛みへの表情の自動認識におけるトランスファー学習の効果について検討する。 この目的のために、まずVGG16畳み込みニューラルネットワークを訓練し、8つのカテゴリーの感情を自動的に識別する。 そして、このネットワークのさらに大きな部分を微調整し、痛みの自動認識のタスクに適した表現を学習する。 次に、これらの微調整表現を感情認識の本来のタスクに再び適用し、モデル間のパフォーマンスの相違をさらに調査する。 2番目のステップでは、レイヤーワイズ・レバレンス・プロパゲーション(Layer-wise Relevance Propagation)を使用して、これまで正確に予測されていたが、現在では正しく分類されているモデルの予測を分析する。 この分析に基づいて、モデルで忘れられたことの仮説を生成するために、人間の観察者の視覚検査を頼りにしている。 最後に,概念埋め込み分析手法を用いて,これらの仮説を定量的に検証する。 以上の結果から,痛み認識に完全調整されたネットワークは,表情認識に関係するが痛み認識には関連しない2つのアクションユニットに注意を払わなかった。

In this paper, we present a process to investigate the effects of transfer learning for automatic facial expression recognition from emotions to pain. To this end, we first train a VGG16 convolutional neural network to automatically discern between eight categorical emotions. We then fine-tune successively larger parts of this network to learn suitable representations for the task of automatic pain recognition. Subsequently, we apply those fine-tuned representations again to the original task of emotion recognition to further investigate the differences in performance between the models. In the second step, we use Layer-wise Relevance Propagation to analyze predictions of the model that have been predicted correctly previously but are now wrongly classified. Based on this analysis, we rely on the visual inspection of a human observer to generate hypotheses about what has been forgotten by the model. Finally, we test those hypotheses quantitatively utilizing concept embedding analysis methods. Our results show that the network, which was fully fine-tuned for pain recognition, indeed payed less attention to two action units that are relevant for expression recognition but not for pain recognition.
翻訳日:2021-04-16 15:11:17 公開日:2021-04-15
# リハーサル:継続学習におけるサンプルの再検討の限界とメリット

Rehearsal revealed: The limits and merits of revisiting samples in continual learning ( http://arxiv.org/abs/2104.07446v1 )

ライセンス: Link先を確認
Eli Verwimp, Matthias De Lange, Tinne Tuytelaars(参考訳) 非定常的なデータストリームから学び、破滅的な忘れを乗り越えることはまだ、機械学習研究にとって深刻な課題だ。 この研究は、最先端技術の改善を目指すのではなく、継続的な学習の最も確立された方法の一つであるリハーサルの限界とメリットについての洞察を提供する。 我々は、リハーサルで逐次訓練されたモデルは、タスク完了後に同じ低損失領域に留まる傾向にあるが、サンプルメモリに過度に適合し、一般化を損なうリスクがあると仮定する。 両行動の3つのベンチマークに関する概念的および強い実証的証拠を提供し、リハーサルと継続学習のダイナミクスに新たな洞察をもたらす。 最後に,研究成果に照らして,継続学習の重要な成果を解釈し,その成果をより深く理解する。

Learning from non-stationary data streams and overcoming catastrophic forgetting still poses a serious challenge for machine learning research. Rather than aiming to improve state-of-the-art, in this work we provide insight into the limits and merits of rehearsal, one of continual learning's most established methods. We hypothesize that models trained sequentially with rehearsal tend to stay in the same low-loss region after a task has finished, but are at risk of overfitting on its sample memory, hence harming generalization. We provide both conceptual and strong empirical evidence on three benchmarks for both behaviors, bringing novel insights into the dynamics of rehearsal and continual learning in general. Finally, we interpret important continual learning works in the light of our findings, allowing for a deeper understanding of their successes.
翻訳日:2021-04-16 15:10:59 公開日:2021-04-15
# see through gradients: gradinversionによる画像バッチリカバリ

See through Gradients: Image Batch Recovery via GradInversion ( http://arxiv.org/abs/2104.07586v1 )

ライセンス: Link先を確認
Hongxu Yin, Arun Mallya, Arash Vahdat, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov(参考訳) 深層ニューラルネットワークのトレーニングには、パラメータを更新するためにデータバッチからの勾配推定が必要である。 パラメータごとのグラディエントは、一連のデータに対して平均化されており、これは共同で協調し、フェデレートされた学習アプリケーションにおけるプライバシー保護トレーニングにとって安全であると推定されている。 以前の作業では、非常に制限のある条件(単一入力ポイント、非線形でないネットワーク、32x32 px入力バッチ)で入力データを回復する可能性を示しただけだった。 したがって, より大きなバッチに対する平均勾配は安全であると考えられた。 本研究では,イメージネット(1000クラス,224x224 px)のような複雑なデータセット上で,大規模なバッチ(8~48イメージ)からの入力イメージをResNets(50層)などの大規模ネットワークでも復元できるGradInversionを紹介する。 画像の忠実度を正則化しながら,ランダムノイズを自然な画像に変換する最適化タスクを定式化する。 また,クラスラベルリカバリのグラデーションを目標としたアルゴリズムを提案する。 さらに,ランダムな種から開始する複数のエージェントが連携して,元のデータバッチの再構築が強化されたグループ一貫性正規化フレームワークを提案する。 複雑なデータセット、ディープネットワーク、大規模なバッチサイズであっても、GradInversionを通じて、個々のイメージを高い忠実度で復元できるような、驚くほど大量の情報をエンコードする勾配を示す。

Training deep neural networks requires gradient estimation from data batches to update parameters. Gradients per parameter are averaged over a set of data and this has been presumed to be safe for privacy-preserving training in joint, collaborative, and federated learning applications. Prior work only showed the possibility of recovering input data given gradients under very restrictive conditions - a single input point, or a network with no non-linearities, or a small 32x32 px input batch. Therefore, averaging gradients over larger batches was thought to be safe. In this work, we introduce GradInversion, using which input images from a larger batch (8 - 48 images) can also be recovered for large networks such as ResNets (50 layers), on complex datasets such as ImageNet (1000 classes, 224x224 px). We formulate an optimization task that converts random noise into natural images, matching gradients while regularizing image fidelity. We also propose an algorithm for target class label recovery given gradients. We further propose a group consistency regularization framework, where multiple agents starting from different random seeds work together to find an enhanced reconstruction of original data batch. We show that gradients encode a surprisingly large amount of information, such that all the individual images can be recovered with high fidelity via GradInversion, even for complex datasets, deep networks, and large batch sizes.
翻訳日:2021-04-16 15:10:44 公開日:2021-04-15
# シングルショット6Dオブジェクトポス推定のためのニューラルネットワークの出力パラメータ化の検討

Investigations on Output Parameterizations of Neural Networks for Single Shot 6D Object Pose Estimation ( http://arxiv.org/abs/2104.07528v1 )

ライセンス: Link先を確認
Kilian Kleeberger, Markus V\"olk, Richard Bormann, Marco F. Huber(参考訳) 単発アプローチは様々なコンピュータビジョンタスクで大きな成功を収めた。 6次元オブジェクトポーズ推定のための良いパラメータ化を見つけることは、まだ未解決の課題である。 本研究では、単発6Dオブジェクトのポーズ推定のためのニューラルネットワークの出力に対する異なるパラメータ化を提案する。 我々の学習に基づくアプローチは、2つの公開ベンチマークデータセット上で最先端のパフォーマンスを達成する。 さらに,追加のicp改良を必要とせず,実世界のロボット把持作業においてポーズ推定が有効であることを示す。

Single shot approaches have demonstrated tremendous success on various computer vision tasks. Finding good parameterizations for 6D object pose estimation remains an open challenge. In this work, we propose different novel parameterizations for the output of the neural network for single shot 6D object pose estimation. Our learning-based approach achieves state-of-the-art performance on two public benchmark datasets. Furthermore, we demonstrate that the pose estimates can be used for real-world robotic grasping tasks without additional ICP refinement.
翻訳日:2021-04-16 15:10:21 公開日:2021-04-15
# 強化学習に基づく多領域サイバー空間における隠れ攻撃経路の発見

Discover the Hidden Attack Path in Multi-domain Cyberspace Based on Reinforcement Learning ( http://arxiv.org/abs/2104.07195v1 )

ライセンス: Link先を確認
Lei Zhang, Wei Bai, Wei Li, Shiming Xia, Qibin Zheng(参考訳) 本研究では,サイバースペースのセキュリティ構成を分析するための学習的アプローチを提案する。 従来の方法とは異なり、私たちのアプローチは過去の経験から学び、時間とともに改善する能力を持っています。 特に,攻撃者としてより多くのエージェントを訓練するにつれて,従来手法,特にマルチドメインサイバースペースにおいて,隠れ攻撃経路の発見が向上する。 これらの結果を達成するために,強化学習(rl)問題として攻撃経路の発見を提案し,エージェントにマルチドメインサイバースペース攻撃経路の発見を訓練する。 RLポリシーにより、より隠れた攻撃経路とより短い攻撃経路を発見できるため、RLにマルチドメインアクション選択モジュールを導入する。 提案手法により,より隠れた攻撃経路とより短い攻撃経路を発見し,サイバースペースのセキュリティ設定の弱点を分析することを目的とする。 最後に,提案手法を検証すべく,サイバースペース実験環境をシミュレートし,本手法が既存のベースライン手法よりも隠れたマルチドメイン攻撃経路や攻撃経路を発見できることを実証した。

In this work, we present a learning-based approach to analysis cyberspace security configuration. Unlike prior methods, our approach has the ability to learn from past experience and improve over time. In particular, as we train over a greater number of agents as attackers, our method becomes better at discovering hidden attack paths for previously methods, especially in multi-domain cyberspace. To achieve these results, we pose discovering attack paths as a Reinforcement Learning (RL) problem and train an agent to discover multi-domain cyberspace attack paths. To enable our RL policy to discover more hidden attack paths and shorter attack paths, we ground representation introduction an multi-domain action select module in RL. Our objective is to discover more hidden attack paths and shorter attack paths by our proposed method, to analysis the weakness of cyberspace security configuration. At last, we designed a simulated cyberspace experimental environment to verify our proposed method, the experimental results show that our method can discover more hidden multi-domain attack paths and shorter attack paths than existing baseline methods.
翻訳日:2021-04-16 15:10:14 公開日:2021-04-15
# D-Cliques: トポロジによる分散型フェデレーション学習における非IIDの補正

D-Cliques: Compensating NonIIDness in Decentralized Federated Learning with Topology ( http://arxiv.org/abs/2104.07365v1 )

ライセンス: Link先を確認
Aur\'elien Bellet, Anne-Marie Kermarrec, Erick Lavoie(参考訳) フェデレートラーニングでトレーニングされた機械学習モデルの収束速度は、非独立的で同一に分散された(非IID)データパーティションによって著しく影響を受けます。 本稿では,非IIDの重要データである局所クラスバイアスの影響を,基礎となる通信トポロジを慎重に設計することで,大幅に低減できることを示す。 D-Cliques は,clique 内の局所的な関節分布が大域的なクラス分布を表すような,相互接続されたclique 内のノードをグループ化することで勾配バイアスを低減する新しいトポロジーである。 また、分散SGDの更新を非バイアス勾配に適応させ、D-Cliquesで効果的な運動量を実現する方法を示す。 MNIST と CIFAR10 に関する実証的な評価は,本手法が完全連結トポロジーと同様の収束速度を提供し,エッジ数やメッセージ数を大幅に削減することを示した。 1000ノードのトポロジでは、d-cliquesは98%のエッジと96%のメッセージを必要とする。

The convergence speed of machine learning models trained with Federated Learning is significantly affected by non-independent and identically distributed (non-IID) data partitions, even more so in a fully decentralized setting without a central server. In this paper, we show that the impact of local class bias, an important type of data non-IIDness, can be significantly reduced by carefully designing the underlying communication topology. We present D-Cliques, a novel topology that reduces gradient bias by grouping nodes in interconnected cliques such that the local joint distribution in a clique is representative of the global class distribution. We also show how to adapt the updates of decentralized SGD to obtain unbiased gradients and implement an effective momentum with D-Cliques. Our empirical evaluation on MNIST and CIFAR10 demonstrates that our approach provides similar convergence speed as a fully-connected topology with a significant reduction in the number of edges and messages. In a 1000-node topology, D-Cliques requires 98% less edges and 96% less total messages, with further possible gains using a small-world topology across cliques.
翻訳日:2021-04-16 15:09:56 公開日:2021-04-15
# nice: 最寄りのインスタンス反事実説明のためのアルゴリズム

NICE: An Algorithm for Nearest Instance Counterfactual Explanations ( http://arxiv.org/abs/2104.07411v1 )

ライセンス: Link先を確認
Dieter Brughmans and David Martens(参考訳) 本稿では,不均質な表データに対して反事実的説明を生成する新しいアルゴリズムである nice を提案する。 アルゴリズムの設計は、リアルタイムのデプロイメントでしばしば発生するアルゴリズムの要件を特に考慮します。すべての予測に対して説明を提供する能力、実行時の効率性、任意の分類モデル(非微分可能なものも含む)を扱える能力です。 より具体的には、最寄りのインスタンスからの情報を利用して検索プロセスをスピードアップするアプローチです。 我々はniceの4つのバージョンを提案し、そのうちの3つが以下の特性の1つについて説明を最適化する。 10個のデータセットを広範囲に比較した結果,本アルゴリズムは現在の状態よりもすべての特性において優れた性能を示す。 これらの分析は、一方のプラウジブリティと他方の近接性または疎性の間のトレードオフを示し、他方の最適化手法は好みのトレードオフを選択する選択を提供する。 NICEのオープンソース実装はhttps://github.com/A DMAntwerp/NICEで見ることができる。

In this paper we suggest NICE: a new algorithm to generate counterfactual explanations for heterogeneous tabular data. The design of our algorithm specifically takes into account algorithmic requirements that often emerge in real-life deployments: the ability to provide an explanation for all predictions, being efficient in run-time, and being able to handle any classification model (also non-differentiable ones). More specifically, our approach exploits information from a nearest instance tospeed up the search process. We propose four versions of NICE, where three of them optimize the explanations for one of the following properties: sparsity, proximity or plausibility. An extensive empirical comparison on 10 datasets shows that our algorithm performs better on all properties than the current state-of-the-art. These analyses show a trade-off between on the one hand plausiblity and on the other hand proximity or sparsity, with our different optimization methods offering the choice to select the preferred trade-off. An open-source implementation of NICE can be found at https://github.com/A DMAntwerp/NICE.
翻訳日:2021-04-16 15:09:35 公開日:2021-04-15
# 新型コロナウイルス診断と重症度定量のための低レベル胸部X線画像変換器

Vision Transformer using Low-level Chest X-ray Feature Corpus for COVID-19 Diagnosis and Severity Quantification ( http://arxiv.org/abs/2104.07235v1 )

ライセンス: Link先を確認
Sangjoon Park, Gwanghyun Kim, Yujin Oh, Joon Beom Seo, Sang Min Lee, Jin Hwan Kim, Sungjun Moon, Jae-Kwang Lim, Jong Chul Ye(参考訳) Chest X-ray(CXR)を使用して、新型コロナウイルスの重症度を診断し定量化する堅牢なアルゴリズムを開発するには、新型コロナウイルスのパンデミック下での収集が困難である、多くの精度の高いCOVID-19データセットが必要である。 一方で、cxrデータと他の発見は豊富である。 この状況は視覚変換器(ViT)アーキテクチャに理想的であり、自己認識機構による構造モデリングを通じて多くのラベルのないデータを使用できる。 しかし、標準vitの直接パッチフラット化やresnetバックボーンによる機能埋め込みはcxrを意図していないため、既存のvitの使用は最適ではない。 本稿では,この問題を解決するために,共通するcxr所見を抽出するバックボーンネットワークから得られた低レベルcxr特徴コーパスを用いた視覚トランスフォーマを提案する。 具体的には、バックボーンネットワークはまず大きなパブリックデータセットでトレーニングされ、統合、不透明、浮腫などの一般的な異常所見を検出する。 次に、新型コロナウイルスの診断と重症度定量化のためのトランスフォーマーモデルのコーパスとして、バックボーンネットワークからの埋め込み特徴を用いる。 汎用性を評価するために, 全く異なる機関の各種外部テストデータセット上でのモデル評価を行った。 実験結果から,本モデルは広く展開されていない正弦波の一般化能力に優れ,診断および重症度定量化タスクにおいて最先端の性能を実現できることを確認した。

Developing a robust algorithm to diagnose and quantify the severity of COVID-19 using Chest X-ray (CXR) requires a large number of well-curated COVID-19 datasets, which is difficult to collect under the global COVID-19 pandemic. On the other hand, CXR data with other findings are abundant. This situation is ideally suited for the Vision Transformer (ViT) architecture, where a lot of unlabeled data can be used through structural modeling by the self-attention mechanism. However, the use of existing ViT is not optimal, since feature embedding through direct patch flattening or ResNet backbone in the standard ViT is not intended for CXR. To address this problem, here we propose a novel Vision Transformer that utilizes low-level CXR feature corpus obtained from a backbone network that extracts common CXR findings. Specifically, the backbone network is first trained with large public datasets to detect common abnormal findings such as consolidation, opacity, edema, etc. Then, the embedded features from the backbone network are used as corpora for a Transformer model for the diagnosis and the severity quantification of COVID-19. We evaluate our model on various external test datasets from totally different institutions to evaluate the generalization capability. The experimental results confirm that our model can achieve the state-of-the-art performance in both diagnosis and severity quantification tasks with superior generalization capability, which are sine qua non of widespread deployment.
翻訳日:2021-04-16 15:08:50 公開日:2021-04-15
# バイナリ差分進化アルゴリズムを用いたCOVID-19診断に基づく特徴選択のための深層学習

Deep learning for COVID-19 diagnosis based feature selection using binary differential evolution algorithm ( http://arxiv.org/abs/2104.07279v1 )

ライセンス: Link先を確認
Mohammad Saber Iraji, Mohammad-Reza Feizi-Derakhshi, Jafar Tanha(参考訳) 新型コロナウイルスは急速に普及しており、これまでに多くの人の命を奪った。 ウイルスはヒトの肺に破壊的な影響を及ぼし、早期発見は非常に重要である。 深層畳み込みニューラルネットワークは、画像の分類に強力なツールである。 そこで本稿では,ディープネットワークに基づくハイブリッドアプローチを提案する。 画像にディープ畳み込みニューラルネットワークを適用して特徴ベクトルを抽出し,バイナリ微分メタヒューリスティックアルゴリズムにより有効特徴を選定した。 これらの最適化された機能はSVM分類器に与えられた。 新型コロナウイルス、肺炎、健康な3種類の画像からなるデータベース1092枚のX線サンプルが検討された。 提案手法は精度99.43%,感度99.16%,特異性99.57%を達成した。 提案手法はX線画像を用いた最近の新型コロナウイルス検出法より優れている。

The new Coronavirus is spreading rapidly and it has taken the lives of many people so far. The virus has destructive effects on the human lung and early detection is very important. Deep Convolution neural networks are a powerful tool in classifying images. Therefore, in this paper a hybrid approach based on a deep network is presented. Feature vectors were extracted by applying a deep convolution neural network on the images and effective features were selected by the binary differential meta-heuristic algorithm. These optimized features were given to the SVM classifier. A database consisting of three categories of images as COVID-19, pneumonia, and healthy included 1092 X-ray samples was considered. The proposed method achieved an accuracy of 99.43%, a sensitivity of 99.16%, and a specificity of 99.57%. Our results demonstrate the suggested approach is better than recent studies on COVID-19 detection with X-ray images.
翻訳日:2021-04-16 15:08:24 公開日:2021-04-15
# Image Super-Resolution by Iterative Refinement

Image Super-Resolution via Iterative Refinement ( http://arxiv.org/abs/2104.07636v1 )

ライセンス: Link先を確認
Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J. Fleet, Mohammad Norouzi(参考訳) 本稿では,再精製による超解像化手法SR3を提案する。 SR3は拡散確率モデルを条件付き画像生成に適用し、確率的復調過程を通じて超解像を行う。 推論は純粋なガウス雑音から始まり、様々なノイズレベルでの雑音化を訓練したu-netモデルを用いて、反復的にノイズ出力を洗練する。 SR3は、顔と自然画像の様々な倍率係数における超解像度タスクに強い性能を示す。 celeba-hqにおける標準8倍面超解像タスクの人間評価を行い,soma gan法との比較を行った。 SR3は50%近い愚かなレートを達成し、写真リアリスティックな出力を示唆する一方、GANは34%の愚かなレートを超えない。 さらに,生成モデルにスーパーレゾリューションモデルが連鎖したカスケード画像生成におけるsr3の有効性を示し,imagenetにおいて11.3の競合fidスコアを得た。

We present SR3, an approach to image Super-Resolution via Repeated Refinement. SR3 adapts denoising diffusion probabilistic models to conditional image generation and performs super-resolution through a stochastic denoising process. Inference starts with pure Gaussian noise and iteratively refines the noisy output using a U-Net model trained on denoising at various noise levels. SR3 exhibits strong performance on super-resolution tasks at different magnification factors, on faces and natural images. We conduct human evaluation on a standard 8X face super-resolution task on CelebA-HQ, comparing with SOTA GAN methods. SR3 achieves a fool rate close to 50%, suggesting photo-realistic outputs, while GANs do not exceed a fool rate of 34%. We further show the effectiveness of SR3 in cascaded image generation, where generative models are chained with super-resolution models, yielding a competitive FID score of 11.3 on ImageNet.
翻訳日:2021-04-16 15:08:11 公開日:2021-04-15
# ロバストニューラルネットワークは姿勢推定フィルタを上回る

Robust Neural Networks Outperform Attitude Estimation Filters ( http://arxiv.org/abs/2104.07391v1 )

ライセンス: Link先を確認
Daniel Weber, Clemens G\"uhmann, Thomas Seel(参考訳) 慣性センサーに基づく姿勢推定は、人間の動き追跡から自律空中および地上車両まで、様々な応用において重要な技術である。 応用シナリオは、実行された動作の特性、乱れの有無、環境条件が異なる。 現状の姿勢推定器はこれらの特性に対してよく一般化しないため、個々の動作特性や状況に対してパラメータを調整する必要がある。 本稿では,アプリケーション固有の適応を必要とせず,様々な動作ダイナミクス,環境,サンプリング速度にまたがるロバストな imu ベースの姿勢推定のためのリアルタイムニューラルネットワークである riann を提案する。 2つの公開データセットを手法開発とトレーニングに活用し,3つの異なるテストシナリオでトレーニングされたニューラルネットワークを評価するために,まったく異なるデータセットを4つ追加した。 RIANNは、特定のアプリケーション、同じセンサーハードウェア、または同じサンプリング周波数のデータセットからデータを見たことがなく、同じテストデータセット上でフィルタがチューニングされたとしても、RIANNは少なくとも、最先端の姿勢推定フィルタと同等の性能を示し、いくつかのケースでそれらを上回ります。 RIANNは多くのアプリケーションでプラグイン・アンド・プレイ・ソリューションを実現することが期待されている。 RIANNを公開しました。

Inertial-sensor-base d attitude estimation is a crucial technology in various applications, from human motion tracking to autonomous aerial and ground vehicles. Application scenarios differ in characteristics of the performed motion, presence of disturbances, and environmental conditions. Since state-of-the-art attitude estimators do not generalize well over these characteristics, their parameters must be tuned for the individual motion characteristics and circumstances. We propose RIANN, a real-time-capable neural network for robust IMU-based attitude estimation, which generalizes well across different motion dynamics, environments, and sampling rates, without the need for application-specific adaptations. We exploit two publicly available datasets for the method development and the training, and we add four completely different datasets for evaluation of the trained neural network in three different test scenarios with varying practical relevance. Results show that RIANN performs at least as well as state-of-the-art attitude estimation filters and outperforms them in several cases, even if the filter is tuned on the very same test dataset itself while RIANN has never seen data from that dataset, from the specific application, the same sensor hardware, or the same sampling frequency before. RIANN is expected to enable plug-and-play solutions in numerous applications, especially when accuracy is crucial but no ground-truth data is available for tuning or when motion and disturbance characteristics are uncertain. We made RIANN publicly available.
翻訳日:2021-04-16 15:07:56 公開日:2021-04-15
# 神経病理学的異質性モデリングのための再帰的ニューラルネットワークにおける人口動態的注意

Demographic-Guided Attention in Recurrent Neural Networks for Modeling Neuropathophysiologi cal Heterogeneity ( http://arxiv.org/abs/2104.07654v1 )

ライセンス: Link先を確認
Nicha C. Dvornek, Xiaoxiao Li, Juntang Zhuang, Pamela Ventola, and James S. Duncan(参考訳) 神経疾患の不均一な提示は、脳内で起こる病態的変化の潜在的な違いを示唆している。 本稿では,機能的磁気共鳴画像(fMRI)時系列データからの予測のために,階層的注意(DGA)機構を用いて,機能的ネットワークの異種パターンをモデル化する。 DGAヘッドから計算されたコンテキストは、個々の人口統計情報に基づいて適切な機能ネットワークに集中するために使用される。 ABIDE Iデータセットの3つのサブセットの分類を改良し、従来は最先端の結果が得られており、新しいデータへの一般化性を高めるために、Left-one-site-out cross-validationフレームワークによる性能評価を行った。 最後に,個別の人口分布変数に基づく機能的ネットワーク差を解釈する例を示す。

Heterogeneous presentation of a neurological disorder suggests potential differences in the underlying pathophysiological changes that occur in the brain. We propose to model heterogeneous patterns of functional network differences using a demographic-guided attention (DGA) mechanism for recurrent neural network models for prediction from functional magnetic resonance imaging (fMRI) time-series data. The context computed from the DGA head is used to help focus on the appropriate functional networks based on individual demographic information. We demonstrate improved classification on 3 subsets of the ABIDE I dataset used in published studies that have previously produced state-of-the-art results, evaluating performance under a leave-one-site-out cross-validation framework for better generalizeability to new data. Finally, we provide examples of interpreting functional network differences based on individual demographic variables.
翻訳日:2021-04-16 15:07:12 公開日:2021-04-15
# ループに言語学者を置くことはNLUデータ収集を改善するか?

Does Putting a Linguist in the Loop Improve NLU Data Collection? ( http://arxiv.org/abs/2104.07179v1 )

ライセンス: Link先を確認
Alicia Parrish, William Huang, Omar Agha, Soo-Hwan Lee, Nikita Nangia, Alex Warstadt, Karmanya Aggarwal, Emily Allaway, Tal Linzen and Samuel R. Bowman(参考訳) 多くのクラウドソースNLPデータセットは、データ収集が完了した後のみ識別される体系的なギャップとバイアスを含んでいる。 クラウドソーシング中の初期のデータサンプルからこれらの問題を特定することで、特に反復的に実施した場合、緩和がより効率的になる。 我々は、自然言語推論をテストケースとみなし、データ収集中に言語学者「ループ内」を置けば、タスクに新しい制約を導入することで、データのギャップを動的に識別し対処できるかどうかを問う。 i)ベースラインプロトコル,(ii)タスクの反復的に更新された制約に対する言語学者の介入,(iii)チャットルームを介して言語学者とクラウドワーカーの直接的なインタラクションを提供する言語学者のループ拡張,の3つのデータ収集プロトコルを直接比較する。 言語学者が関与して収集したデータセットは、品質を損なうことなく、ベースラインよりも確実に難しい。 しかし、トレーニングでこのデータを使用することでドメイン外モデルのパフォーマンスが向上する証拠は見つからず、チャットプラットフォームの追加は結果のデータセットに測定可能な影響を与えない。 専門家がデータセットのギャップやバイアスを動的に解決できるように、専門家分析データ収集の統合を提案する。

Many crowdsourced NLP datasets contain systematic gaps and biases that are identified only after data collection is complete. Identifying these issues from early data samples during crowdsourcing should make mitigation more efficient, especially when done iteratively. We take natural language inference as a test case and ask whether it is beneficial to put a linguist `in the loop' during data collection to dynamically identify and address gaps in the data by introducing novel constraints on the task. We directly compare three data collection protocols: (i) a baseline protocol, (ii) a linguist-in-the-loop intervention with iteratively-updated constraints on the task, and (iii) an extension of linguist-in-the-loop that provides direct interaction between linguists and crowdworkers via a chatroom. The datasets collected with linguist involvement are more reliably challenging than baseline, without loss of quality. But we see no evidence that using this data in training leads to better out-of-domain model performance, and the addition of a chat platform has no measurable effect on the resulting dataset. We suggest integrating expert analysis \textit{during} data collection so that the expert can dynamically address gaps and biases in the dataset.
翻訳日:2021-04-16 15:05:47 公開日:2021-04-15
# lattice-bert:中国語事前学習言語モデルにおけるマルチグラニュラ表現の活用

Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models ( http://arxiv.org/abs/2104.07204v1 )

ライセンス: Link先を確認
Yuxuan Lai, Yijia Liu, Yansong Feng, Songfang Huang and Dongyan Zhao(参考訳) 中国の事前訓練された言語モデルは通常、文字列としてテキストを処理するが、より粗い粒度、例えば単語を無視する。 本研究では,漢字とともに単語表現を明示的に組み込んだ中国語の事前学習パラダイムLattice-BERTを提案する。 具体的には、文中の文字と単語の格子グラフを構築し、これら全てのテキスト単位をトランスフォーマーに供給する。 自己注意層における格子構造を利用する格子位置注意機構を設計する。 さらに,不測のトリックの学習を回避しつつ,リッチで冗長な情報からモデルに学習を促すためのマスキングセグメント予測タスクを提案する。 11の中国語の自然言語理解タスクの実験では,12層設定で平均1.5%増加し,CLUEベンチマークのベースサイズモデル間で新たな最先端化を実現している。 さらなる分析により、Lattice-BERTは格子構造を利用することができ、その改善は冗長な情報と多粒度表現の探索から導かれる。 私たちのコードはhttps://github.com/a libaba/pretrained-la nguage-models/lattic ebertで利用可能です。

Chinese pre-trained language models usually process text as a sequence of characters, while ignoring more coarse granularity, e.g., words. In this work, we propose a novel pre-training paradigm for Chinese -- Lattice-BERT, which explicitly incorporates word representations along with characters, thus can model a sentence in a multi-granularity manner. Specifically, we construct a lattice graph from the characters and words in a sentence and feed all these text units into transformers. We design a lattice position attention mechanism to exploit the lattice structures in self-attention layers. We further propose a masked segment prediction task to push the model to learn from rich but redundant information inherent in lattices, while avoiding learning unexpected tricks. Experiments on 11 Chinese natural language understanding tasks show that our model can bring an average increase of 1.5% under the 12-layer setting, which achieves new state-of-the-art among base-size models on the CLUE benchmarks. Further analysis shows that Lattice-BERT can harness the lattice structures, and the improvement comes from the exploration of redundant information and multi-granularity representations. Our code will be available at https://github.com/a libaba/pretrained-la nguage-models/Lattic eBERT.
翻訳日:2021-04-16 15:05:24 公開日:2021-04-15
# RefSum: Refactoring Neural Summarization

RefSum: Refactoring Neural Summarization ( http://arxiv.org/abs/2104.07210v1 )

ライセンス: Link先を確認
Yixin Liu, Zi-Yi Dou, Pengfei Liu(参考訳) 最近のいくつかの作品は、異なる最先端システム間の相補性を示しているが、この問題をテキスト要約で調査しようとする作品はほとんどない。 他の分野の研究者は、この問題に対処するために再分類または積み重ねのテクニックを一般的に指している。 本稿では,テキスト要約と要約の組み合わせの統一的なビューを提供する新しいフレームワークRefactorを提案する動機となる,従来のメソッドのいくつかの制限を強調した。 実験では,2つのベースシステム,4つのデータセット,3つの異なるアプリケーションシナリオを包括的に評価する。 CNN/DailyMailデータセット(46.18 ROUGE-1)における最新の結果に加えて,提案手法が従来の手法の限界にどう対処するか,またRefactorモデルの有効性がパフォーマンス改善の洞察に光を当てている。 我々のシステムは、さらなる性能向上を実現するために、市販のツールとして、他の研究者が直接利用することができる。 すべてのコードをオープンソースにして、使用するための便利なインターフェースを提供します。 この作業のデモもhttp://explainaboard .nlpedia.ai/leaderbo ard/task-summ/index. phpで公開しました。

Although some recent works show potential complementarity among different state-of-the-art systems, few works try to investigate this problem in text summarization. Researchers in other areas commonly refer to the techniques of reranking or stacking to approach this problem. In this work, we highlight several limitations of previous methods, which motivates us to present a new framework Refactor that provides a unified view of text summarization and summaries combination. Experimentally, we perform a comprehensive evaluation that involves twenty-two base systems, four datasets, and three different application scenarios. Besides new state-of-the-art results on CNN/DailyMail dataset (46.18 ROUGE-1), we also elaborate on how our proposed method addresses the limitations of the traditional methods and the effectiveness of the Refactor model sheds light on insight for performance improvement. Our system can be directly used by other researchers as an off-the-shelf tool to achieve further performance improvements. We open-source all the code and provide a convenient interface to use it: https://github.com/y ixinL7/Refactoring-S ummarization. We have also made the demo of this work available at: http://explainaboard .nlpedia.ai/leaderbo ard/task-summ/index. php.
翻訳日:2021-04-16 15:05:04 公開日:2021-04-15
# 最左側のセグメントを決定する神経配列のセグメンテーション

Neural Sequence Segmentation as Determining the Leftmost Segments ( http://arxiv.org/abs/2104.07217v1 )

ライセンス: Link先を確認
Yangming Li, Lemao Liu, Kaisheng Yao(参考訳) テキストセグメンテーションの以前のメソッドは、主にトークンレベルにある。 等価性にもかかわらず、この性質はセグメント間の長期的な依存関係をキャプチャする可能性を完全に制限する。 本研究では,自然言語文をセグメントレベルで段階的に分割する新しいフレームワークを提案する。 セグメンテーションのすべてのステップにおいて、残りのシーケンスの一番左のセグメントを認識する。 実装には、フレーズ表現を構築するlstm-minus技術と、左端セグメントを決定するイテレーションをモデル化するrecurrent neural networks (rnn)が含まれる。 我々は3つのデータセットにまたがる構文的チャンキングと中国語部分音声(POS)のタグ付けに関する広範な実験を行い、我々の手法が過去の全てのベースラインを大きく上回っており、新しい最先端の結果が得られたことを実証した。 さらに,長文の分節化に関する質的分析と研究により,長期依存関係のモデル化の有効性が検証された。

Prior methods to text segmentation are mostly at token level. Despite the adequacy, this nature limits their full potential to capture the long-term dependencies among segments. In this work, we propose a novel framework that incrementally segments natural language sentences at segment level. For every step in segmentation, it recognizes the leftmost segment of the remaining sequence. Implementations involve LSTM-minus technique to construct the phrase representations and recurrent neural networks (RNN) to model the iterations of determining the leftmost segments. We have conducted extensive experiments on syntactic chunking and Chinese part-of-speech (POS) tagging across 3 datasets, demonstrating that our methods have significantly outperformed previous all baselines and achieved new state-of-the-art results. Moreover, qualitative analysis and the study on segmenting long-length sentences verify its effectiveness in modeling long-term dependencies.
翻訳日:2021-04-16 15:04:42 公開日:2021-04-15
# 文脈認知を伴う感情誘発ペア抽出のための二重質問注意ネットワーク

A Dual-Questioning Attention Network for Emotion-Cause Pair Extraction with Context Awareness ( http://arxiv.org/abs/2104.07221v1 )

ライセンス: Link先を確認
Qixuan Sun, Yaqi Yin and Hong Yu(参考訳) 感情分析における新たなタスクである感情誘発ペア抽出(ecpe)は、文書中の感情のペアとその対応する原因を抽出することを目的としている。 これは感情原因抽出(ECE)よりも難しい問題であり、ECEタスクにおいて重要な役割を果たす感情信号を必要としない。 既存の作業は、最初のステップで感情と原因を特定し、第2ステップでペアリングする、2段階のパイプラインに従っている。 しかし、文脈情報のないステップとペアの組み合わせによるエラー伝搬は有効性を制限している。 そこで本稿では,これらの制約を緩和するためのDual-Questioning Attention Networkを提案する。 具体的には、文脈的・意味的回答のための注意ネットワークを通じて、候補者の感情や要因を独立に問う。 また,ステップ間の誤差伝搬を制御する際の重み付き損失関数についても検討する。 実験結果から,本手法は複数の評価指標の基準値よりも優れた性能を示した。 ソースコードはhttps://github.com/Q ixuanSun/DQANで取得できる。

Emotion-cause pair extraction (ECPE), an emerging task in sentiment analysis, aims at extracting pairs of emotions and their corresponding causes in documents. This is a more challenging problem than emotion cause extraction (ECE), since it requires no emotion signals which are demonstrated as an important role in the ECE task. Existing work follows a two-stage pipeline which identifies emotions and causes at the first step and pairs them at the second step. However, error propagation across steps and pair combining without contextual information limits the effectiveness. Therefore, we propose a Dual-Questioning Attention Network to alleviate these limitations. Specifically, we question candidate emotions and causes to the context independently through attention networks for a contextual and semantical answer. Also, we explore how weighted loss functions in controlling error propagation between steps. Empirical results show that our method performs better than baselines in terms of multiple evaluation metrics. The source code can be obtained at https://github.com/Q ixuanSun/DQAN.
翻訳日:2021-04-16 15:04:28 公開日:2021-04-15
# 固有モデリングによる低リソースタスク指向セマンティックパーシング

Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling ( http://arxiv.org/abs/2104.07224v1 )

ライセンス: Link先を確認
Shrey Desai and Akshat Shrivastava and Alexander Zotov and Ahmed Aly(参考訳) タスク指向のセマンティックパーシングモデルは、新しいオントロジー(インテントとスロット)をサポートするために、教師付き微調整のために数千のサンプルをクラウドソースする。 これらのモデルは、オントロジラベルを独立した実体として扱い、その意味を本質的に導出するために並列データに依存している。 例えば、sl:time_zoneがカテゴリ型"slot"と言語ベースのスパン"time zone"を持っているという事実です。 このモチベーションを使って、オフラインとオンラインのステージでアプローチを構築します。 事前処理では,各オントロジーラベルに対して,その固有の特性をコンポーネントに抽出し,各コンポーネントをインベントリに挿入してソートする。 学習中、seq2seqを微調整し、発話と在庫をフレームにマッピングし、発話とオントロジーのトークンからなる木を解析する。 提案方式では,オントロジラベルを固有特性の結合として考慮し,低リソース環境での学習を実質的にブートストラップすることを推奨する。 TOPv2から得られた低リソースベンチマークを用いて、在庫パーサは、未確認領域から10個のサンプルを微調整すると、+15 EM絶対値(44%の相対値)でコピー生成パーサを上回ります。

Task-oriented semantic parsing models typically have high resource requirements: to support new ontologies (i.e., intents and slots), practitioners crowdsource thousands of samples for supervised fine-tuning. Partly, this is due to the structure of de facto copy-generate parsers; these models treat ontology labels as discrete entities, relying on parallel data to extrinsically derive their meaning. In our work, we instead exploit what we intrinsically know about ontology labels; for example, the fact that SL:TIME_ZONE has the categorical type "slot" and language-based span "time zone". Using this motivation, we build our approach with offline and online stages. During preprocessing, for each ontology label, we extract its intrinsic properties into a component, and insert each component into an inventory as a cache of sorts. During training, we fine-tune a seq2seq, pre-trained transformer to map utterances and inventories to frames, parse trees comprised of utterance and ontology tokens. Our formulation encourages the model to consider ontology labels as a union of its intrinsic properties, therefore substantially bootstrapping learning in low-resource settings. Experiments show our model is highly sample efficient: using a low-resource benchmark derived from TOPv2, our inventory parser outperforms a copy-generate parser by +15 EM absolute (44% relative) when fine-tuning on 10 samples from an unseen domain.
翻訳日:2021-04-16 15:04:15 公開日:2021-04-15
# オープンドメイン質問応答のための最小検索・読解システムの設計

Designing a Minimal Retrieve-and-Read System for Open-Domain Question Answering ( http://arxiv.org/abs/2104.07242v1 )

ライセンス: Link先を確認
Sohee Yang, Minjoon Seo(参考訳) オープンドメイン質問応答(QA)では、検索・読解機構は、クローズドブックQAモデルのパラメトリックアプローチと比較して、解釈可能性と知識の追加・削除・編集の容易性に固有の利点がある。 しかし、ドキュメントのコーパスとインデックスのため、大きなストレージフットプリントに悩まされることも知られている。 本稿では,オープンドメインqaシステムのフットプリントを最大160倍削減するための直交戦略について検討する。 その結果,エッジデバイスなどの高度に制約のあるサービス環境においても,dockerレベルのシステムサイズに匹敵する純粋パラメトリックモデルよりも精度が向上することが示された。

In open-domain question answering (QA), retrieve-and-read mechanism has the inherent benefit of interpretability and the easiness of adding, removing, or editing knowledge compared to the parametric approaches of closed-book QA models. However, it is also known to suffer from its large storage footprint due to its document corpus and index. Here, we discuss several orthogonal strategies to drastically reduce the footprint of a retrieve-and-read open-domain QA system by up to 160x. Our results indicate that retrieve-and-read can be a viable option even in a highly constrained serving environment such as edge devices, as we show that it can achieve better accuracy than a purely parametric model with comparable docker-level system size.
翻訳日:2021-04-16 15:03:48 公開日:2021-04-15
# TorontoCL at CMCL 2021 Shared Task: RoBERTa with Multi-Stage Fine-Tuning for Eye-Tracking Prediction (英語)

TorontoCL at CMCL 2021 Shared Task: RoBERTa with Multi-Stage Fine-Tuning for Eye-Tracking Prediction ( http://arxiv.org/abs/2104.07244v1 )

ライセンス: Link先を確認
Bai Li, Frank Rudzicz(参考訳) 読み上げ時の眼球運動データは、言語理解過程を理解するのに有用な情報源である。 本稿では,人間の読書パターンの予測に関するcmcl 2021共有タスクへの提案について述べる。 我々のモデルは5つの視線追跡特徴を予測するために回帰層を持つRoBERTaを用いている。 モデルをトレーニングするには、まずProvoコーパス(別のアイトラッキングデータセット)で微調整し、次にタスクデータで微調整します。 異なるTransformerモデルを比較し,性能向上のためにアンサンブル手法を適用した。 最後の応募では、この共有タスクに参加した13チーム中3位に、MAEスコア3.929を獲得しました。

Eye movement data during reading is a useful source of information for understanding language comprehension processes. In this paper, we describe our submission to the CMCL 2021 shared task on predicting human reading patterns. Our model uses RoBERTa with a regression layer to predict 5 eye-tracking features. We train the model in two stages: we first fine-tune on the Provo corpus (another eye-tracking dataset), then fine-tune on the task data. We compare different Transformer models and apply ensembling methods to improve the performance. Our final submission achieves a MAE score of 3.929, ranking 3rd place out of 13 teams that participated in this shared task.
翻訳日:2021-04-16 15:03:33 公開日:2021-04-15
# Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic Parsing (特集:情報ネットワーク)

Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic Parsing ( http://arxiv.org/abs/2104.07275v1 )

ライセンス: Link先を確認
Akshat Shrivastava, Pierce Chuang, Arun Babu, Shrey Desai, Abhinav Arora, Alexander Zotov, Ahmed Aly(参考訳) seq2seq, non-autoregressive, task-oriented parser をセマンティックフレームにマッピングするための効果的なレシピは、発話を$x$で符号化し、フレームの長さ |y| を予測し、発話トークンとオントロジートークンで |y| サイズのフレームをデコードする、3つのステップで進行する。 経験的に強いが、これらのモデルは典型的には長さ予測によってネックリングされ、小さな不正確さでさえ、結果として生じるフレームの構文的および意味的特性を変化させる。 本研究では,テキスト生成からスパン予測へデコードタスクをシフトするスパンポインターネットワーク,非自己回帰解析器を提案する。つまり,発話をフレームスロットに分散させると,テキスト(例:「6pm」)ではなくエンドポイント(例: [i, j])を生成する。 この出力空間の自然な量子化は金のフレームの変動性を減少させ、長さの予測を改善し、最終的に正確に一致する。 さらに、長さ予測がフレーム構文に責任を負い、デコーダがフレームセマンティクスに責任を持ち、粗大なモデルが生まれる。 いくつかのタスク指向のセマンティックパーシングデータセットに対するアプローチを評価する。 特に,TOPv2(Chen et al.)上で87EMを達成した非自己回帰パーサと自己回帰パーサ間の品質ギャップを橋渡しする。 2020). さらに、より一貫した金フレームにより、低リソース環境におけるクロスドメインおよびクロスランガル転送におけるモデル一般化の強力な改善を示す。 最後に, 出力語彙の低下により, 従来の非自己回帰型パーサーと比較して, 遅延の70%低減とビームサイズ5でのメモリの83%削減が観察された。

An effective recipe for building seq2seq, non-autoregressive, task-oriented parsers to map utterances to semantic frames proceeds in three steps: encoding an utterance $x$, predicting a frame's length |y|, and decoding a |y|-sized frame with utterance and ontology tokens. Though empirically strong, these models are typically bottle necked by length prediction, as even small inaccuracies change the syntactic and semantic characteristics of resulting frames. In our work, we propose span pointer networks, non-autoregressive parsers which shift the decoding task from text generation to span prediction; that is, when imputing utterance spans into frame slots, our model produces endpoints (e.g., [i, j]) as opposed to text (e.g., "6pm"). This natural quantization of the output space reduces the variability of gold frames, therefore improving length prediction and, ultimately, exact match. Furthermore, length prediction is now responsible for frame syntax and the decoder is responsible for frame semantics, resulting in a coarse-to-fine model. We evaluate our approach on several task-oriented semantic parsing datasets. Notably, we bridge the quality gap between non-autogressive and autoregressive parsers, achieving 87 EM on TOPv2 (Chen et al. 2020). Furthermore,due to our more consistent gold frames, we show strong improvements in model generalization in both cross-domain and cross-lingual transfer in low-resource settings. Finally, due to our diminished output vocabulary, we observe 70% reduction in latency and 83% reduction in memory at beam size 5 compared to prior non-autoregressive parsers.
翻訳日:2021-04-16 15:03:23 公開日:2021-04-15
# NT5! 数値推論のためのT5訓練

NT5?! Training T5 to Perform Numerical Reasoning ( http://arxiv.org/abs/2104.07307v1 )

ライセンス: Link先を確認
Peng-Jian Yang, Ying Ting Chen, Yuechan Chen, Daniel Cer(参考訳) テキスト上での数値推論(NRoT)は、既存の事前学習目標にうまく対応していないユニークな課題を示す。 NRoTのための訓練済みT5モデルを適応させる5つの連続訓練スケジュールを探索する。 最終モデルは T5 から適応するが,NRoT と一般読解に必要なスキルを強化するために設計された 3 つのデータセットを事前訓練した上で,DROP (Disdisrete Reasoning over Text) データセットを微調整する。 このトレーニングはDROPの調整されたF1パフォーマンス(数字中心のスコア)を45.90から70.83に改善する。 私たちのモデルは、同じデータセットを使用して、パラメータがかなり多いカスタムbertベースモデルであるgenbert(72.4)を閉じています。 我々は,分散モジュールとシンボルモジュール間の分割機能を手動で設計することなく,DROPの性能向上を図りながら,複数の数値推論データセットによるT5マルチタスクフレームワークのトレーニングを行うことを示す。

Numerical reasoning over text (NRoT) presents unique challenges that are not well addressed by existing pre-training objectives. We explore five sequential training schedules that adapt a pre-trained T5 model for NRoT. Our final model is adapted from T5, but further pre-trained on three datasets designed to strengthen skills necessary for NRoT and general reading comprehension before being fine-tuned on the Discrete Reasoning over Text (DROP) dataset. The training improves DROP's adjusted F1 performance (a numeracy-focused score) from 45.90 to 70.83. Our model closes in on GenBERT (72.4), a custom BERT-Base model using the same datasets with significantly more parameters. We show that training the T5 multitasking framework with multiple numerical reasoning datasets of increasing difficulty, good performance on DROP can be achieved without manually engineering partitioned functionality between distributed and symbol modules.
翻訳日:2021-04-16 15:02:54 公開日:2021-04-15
# UIT-E10dot3 at SemEval-2021 Task 5: Toxic Spans Detection with Named Entity Recognition and Question-Answering Approaches

UIT-E10dot3 at SemEval-2021 Task 5: Toxic Spans Detection with Named Entity Recognition and Question-Answering Approaches ( http://arxiv.org/abs/2104.07376v1 )

ライセンス: Link先を確認
Phu Gia Hoang, Luan Thanh Nguyen, Kiet Van Nguyen(参考訳) オンライン空間における有害なコメントの増加は、他の脆弱なユーザーに大きな影響を与えている。 このため、これに対処するためにかなりの努力がなされており、SemEval-2021 Task 5: Toxic Spans Detectionもその1つだ。 この課題は、与えられたテキストから有害なスパンを抽出することを競合者に求め、実験前にその構造を理解するためにいくつかの分析を行った。 本稿では,この課題を,paCyライブラリを用いた名前付きエンティティ認識と,ToxicBERTと組み合わせたRoBERTaによる質問応答という2つのアプローチで解決する。

The increment of toxic comments on online space is causing tremendous effects on other vulnerable users. For this reason, considerable efforts are made to deal with this, and SemEval-2021 Task 5: Toxic Spans Detection is one of those. This task asks competitors to extract spans that have toxicity from the given texts, and we have done several analyses to understand its structure before doing experiments. We solve this task by two approaches, Named Entity Recognition with spaCy library and Question-Answering with RoBERTa combining with ToxicBERT, and the former gains the highest F1-score of 66.99%.
翻訳日:2021-04-16 15:02:39 公開日:2021-04-15
# 非パラレルeコマースコーパスからのバイリンガル用語抽出

Bilingual Terminology Extraction from Non-Parallel E-Commerce Corpora ( http://arxiv.org/abs/2104.07398v1 )

ライセンス: Link先を確認
Hao Jia, Shuqin Gu, Yangbin Shi, Xiangyu Duan, Zhongkai Hu, Yuqi Zhang, Weihua Luo(参考訳) バイリンガル用語は自然言語処理(NLP)アプリケーションにとって重要な資源である。 バイリンガル用語対の取得は、人間の翻訳または並列データからの自動抽出である。 比較コーパスは、特にeコマースドメインにおいて、バイリンガル用語のペアを抽出するのにも良い資源になり得ることに気付きました。 並列コーパスは特にeコマース環境では乏しいが、同一ドメインの異なる言語での非並列コーパスは容易に利用できる。 本稿では,eコマースにおける非並列比較コーパスからバイリンガル用語を抽出する新しい枠組みを提案する。 eコマースにおける言語間事前学習の利点を生かして、ソースサイド用語とターゲットサイド文の深い意味関係を十分に活用することにより、対応するターゲット用語を抽出することができる。 各種言語対の実験結果から,本手法は各種の強いベースラインよりもはるかに優れた性能を示した。

Bilingual terminologies are important resources for natural language processing (NLP) applications. The acquisition of bilingual terminology pairs is either human translation or automatic extraction from parallel data. We notice that comparable corpora could also be a good resource for extracting bilingual terminology pairs, especially for e-commerce domain. The parallel corpora are particularly scarce in e-commerce settings, but the non-parallel corpora in different languages from the same domain are easily available. In this paper, we propose a novel framework of extracting bilingual terminologies from non-parallel comparable corpus in e-commerce. Benefiting from cross-lingual pre-training in e-commerce, our framework can extract the corresponding target terminology by fully utilizing the deep semantic relationship between source-side terminology and target-side sentence. Experimental results on various language pairs show that our approaches achieve significantly better performance than various strong baselines.
翻訳日:2021-04-16 15:02:25 公開日:2021-04-15
# Pseudo Zero Pronoun Resolutionはゼロアナフォラ分解能を改善する

Pseudo Zero Pronoun Resolution Improves Zero Anaphora Resolution ( http://arxiv.org/abs/2104.07425v1 )

ライセンス: Link先を確認
Ryuto Konno, Shun Kiyono, Yuichiroh Matsubayashi, Hiroki Ouchi, Kentaro Inui(参考訳) 事前訓練されたマスク付き言語モデル(MLM)の使用は、ゼロアナフォラ分解能(ZAR)の性能を大幅に改善した。 日本語ZARのための新しい事前学習タスクと微調整手法により、このアプローチをさらに拡張する。 我々の事前学習課題は、大規模生コーパスからZARに必要なアナフォリックリレーショナル知識を取得することである。 ZARモデルは事前訓練と同じ方法で微調整される。 実験の結果,提案手法は従来の最先端性能をはるかに上回り,残りの課題について考察した。

The use of pretrained masked language models (MLMs) has drastically improved the performance of zero anaphora resolution (ZAR). We further expand this approach with a novel pretraining task and finetuning method for Japanese ZAR. Our pretraining task aims to acquire anaphoric relational knowledge necessary for ZAR from a large-scale raw corpus. The ZAR model is finetuned in the same manner as pretraining. Our experiments show that combining the proposed methods surpasses previous state-of-the-art performance with large margins, providing insight on the remaining challenges.
翻訳日:2021-04-16 15:02:11 公開日:2021-04-15
# まず最悪なのは、ビーム検索中により良いジェンダー翻訳を見つけること

First the worst: Finding better gender translations during beam search ( http://arxiv.org/abs/2104.07429v1 )

ライセンス: Link先を確認
Danielle Saunders and Rosie Sallis and Bill Byrne(参考訳) ビーム探索のようなニューラルマシン翻訳推論は、モデルの下で最も可能性の高い出力を生成する。 これは、モデルによって示されるあらゆる人口統計バイアスを悪化させる可能性がある。 文法的ジェンダー翻訳における体系的な誤りから生じる性別バイアスに注目し, 人間の参照が誤って表現されたり誤解されたりする可能性がある。 この問題に対するほとんどのアプローチは、トレーニングデータまたはモデルを調整する。 対照的に、推論手順を単純に調整して実験する。 我々は,nbestリストをnbestリストに再配置する実験を行い,nbestリストの性別の多様性を向上させるためにデコード中に性別制約を適用した。 これらの手法を組み合わせることで、追加のバイリンガルデータや追加のNMTモデルを必要としないWinoMT精度を大幅に向上させることができる。

Neural machine translation inference procedures like beam search generate the most likely output under the model. This can exacerbate any demographic biases exhibited by the model. We focus on gender bias resulting from systematic errors in grammatical gender translation, which can lead to human referents being misrepresented or misgendered. Most approaches to this problem adjust the training data or the model. By contrast, we experiment with simply adjusting the inference procedure. We experiment with reranking nbest lists using gender features obtained automatically from the source sentence, and applying gender constraints while decoding to improve nbest list gender diversity. We find that a combination of these techniques allows large gains in WinoMT accuracy without requiring additional bilingual data or an additional NMT model.
翻訳日:2021-04-16 15:02:02 公開日:2021-04-15
# 中間表現を用いた事前学習モデルのアンロック合成一般化

Unlocking Compositional Generalization in Pre-trained Models Using Intermediate Representations ( http://arxiv.org/abs/2104.07478v1 )

ライセンス: Link先を確認
Jonathan Herzig, Peter Shaw, Ming-Wei Chang, Kelvin Guu, Panupong Pasupat, Yuan Zhang(参考訳) seq2seq(sequence-to- sequence)モデルは、意味構文解析において一般的であるが、分散構成の一般化に苦しむことが知られている。 特殊モデルアーキテクチャとセック2セックモデルの事前訓練がこの問題に対処するために提案されているが、前者は一般的なコストがかかり、後者は限られた成功しか示さない。 本稿では, モデルアーキテクチャを全く変更することなく, 中間表現が合成一般化に与える影響について検討し, 有効表現を設計するための重要な側面を同定する。 自然言語を直接実行可能な形式にマッピングする訓練の代わりに、自然言語とより強い構造的対応を持つ可逆的あるいは損失的な中間表現にマップする。 提案する中間表現と事前学習モデルの組み合わせは驚くほど効果的であり,CFQ(+14.8精度点)と3つのテキスト-SQLデータセット(+15.0から+19.4精度点)のテンプレートスプリット上で,最適な組み合わせが新しい最先端の状態を得られる。 この研究は、中間表現が事前訓練されたseq2seqモデルの合成一般化能力を改善するために重要かつ潜在的に見落とされた自由度を与えることを強調している。

Sequence-to-sequence (seq2seq) models are prevalent in semantic parsing, but have been found to struggle at out-of-distribution compositional generalization. While specialized model architectures and pre-training of seq2seq models have been proposed to address this issue, the former often comes at the cost of generality and the latter only shows limited success. In this paper, we study the impact of intermediate representations on compositional generalization in pre-trained seq2seq models, without changing the model architecture at all, and identify key aspects for designing effective representations. Instead of training to directly map natural language to an executable form, we map to a reversible or lossy intermediate representation that has stronger structural correspondence with natural language. The combination of our proposed intermediate representations and pre-trained models is surprisingly effective, where the best combinations obtain a new state-of-the-art on CFQ (+14.8 accuracy points) and on the template-splits of three text-to-SQL datasets (+15.0 to +19.4 accuracy points). This work highlights that intermediate representations provide an important and potentially overlooked degree of freedom for improving the compositional generalization abilities of pre-trained seq2seq models.
翻訳日:2021-04-16 15:01:49 公開日:2021-04-15
# マルチタスクトレーニングによるゼロショット多面的視覚接地単語埋め込み学習

Learning Zero-Shot Multifaceted Visually Grounded Word Embeddingsvia Multi-Task Training ( http://arxiv.org/abs/2104.07500v1 )

ライセンス: Link先を確認
Hassan Shahmohammadi, Hendrik P. A. Lensch, R. Harald Baayen(参考訳) 言語基盤は、言語(例えば言葉)の象徴的な表現を外界の豊かな知覚的知識に結びつけることを目的としている。 一般的なアプローチは、テキスト情報と視覚情報の両方を共通の空間に埋め込むことである。 本稿では,言語共起統計から得られる抽象的知識を,知覚情報を取得する過程で犠牲にしていると論じる。 本論文の焦点は,単語埋め込みを暗黙的に解き,この問題を解決することである。 2つのマッピングをジョイント空間に学習するのではなく、マルチタスク学習によってテキスト空間と接地空間の間の可逆的接地写像を決定することによってモダリティを統合する。 内在的および外在的タスクの評価は、我々の埋め込みが抽象語と具体語の両方に非常に有益であることを示している。 これらは人間の判断と強く相関しており、幅広いベンチマークで過去の作品より優れている。 当社の接地埋め込みはここで公開されている。

Language grounding aims at linking the symbolic representation of language (e.g., words) into the rich perceptual knowledge of the outside world. The general approach is to embed both textual and visual information into a common space -the grounded space-confined by an explicit relationship between both modalities. We argue that this approach sacrifices the abstract knowledge obtained from linguistic co-occurrence statistics in the process of acquiring perceptual information. The focus of this paper is to solve this issue by implicitly grounding the word embeddings. Rather than learning two mappings into a joint space, our approach integrates modalities by determining a reversible grounded mapping between the textual and the grounded space by means of multi-task learning. Evaluations on intrinsic and extrinsic tasks show that our embeddings are highly beneficial for both abstract and concrete words. They are strongly correlated with human judgments and outperform previous works on a wide range of benchmarks. Our grounded embeddings are publicly available here.
翻訳日:2021-04-16 15:01:25 公開日:2021-04-15
# 自然言語理解のためのプライバシ適応BERT

Privacy-Adaptive BERT for Natural Language Understanding ( http://arxiv.org/abs/2104.07504v1 )

ライセンス: Link先を確認
Chen Qu, Weize Kong, Liu Yang, Mingyang Zhang, Michael Bendersky and Marc Najork(参考訳) 自然言語理解(NLU)技術の最近の進歩を現実世界のアプリケーションに適用しようとすると、プライバシ保護は重要な課題となり、残念ながらうまく解決されていない。 そこで本研究では,ローカルプライバシ設定下でのNLUモデルの有効性を,広く使用されている事前学習言語モデル(LM)であるBERTを用いて改善する方法について検討する。 入力テキスト,トークン埋め込み,シーケンス表現といった言語モデリングの異なる段階において,局所微分プライバシーの緩和された変種であるdx-privacyの強みと弱みを体系的に研究する。 次に、プライバシーに制約のある微調整実験を行い、ローカルなプライバシー制約の下でBERTの有用性を明らかにする。 さらに、私たちの知る限りでは、プライバシ適応型LM事前学習手法を初めて提案し、民営化テキスト入力におけるモデル性能を大幅に向上させることができることを示す。 また,プライバシ保護のレベルを解釈し,プライバシパラメータ選択に関するガイダンスを提供する。

When trying to apply the recent advance of Natural Language Understanding (NLU) technologies to real-world applications, privacy preservation imposes a crucial challenge, which, unfortunately, has not been well resolved. To address this issue, we study how to improve the effectiveness of NLU models under a Local Privacy setting, using BERT, a widely-used pretrained Language Model (LM), as an example. We systematically study the strengths and weaknesses of imposing dx-privacy, a relaxed variant of Local Differential Privacy, at different stages of language modeling: input text, token embeddings, and sequence representations. We then focus on the former two with privacy-constrained fine-tuning experiments to reveal the utility of BERT under local privacy constraints. More importantly, to the best of our knowledge, we are the first to propose privacy-adaptive LM pretraining methods and demonstrate that they can significantly improve model performance on privatized text input. We also interpret the level of privacy preservation and provide our guidance on privacy parameter selections.
翻訳日:2021-04-16 15:01:10 公開日:2021-04-15
# バイオメディカル抽出質問応答のためのシーケンスタギング

Sequence Tagging for Biomedical Extractive Question Answering ( http://arxiv.org/abs/2104.07535v1 )

ライセンス: Link先を確認
Wonjin Yoon, Richard Jackson, Jaewoo Kang, Aron Lagerberg(参考訳) 抽出質問応答(EQA)の最近の研究は、与えられた問合せペアを予測するためのラベルを1つの解答に分割する単一スパン抽出設定をモデル化している。 この設定は一般領域 EQA にとって自然であり、一般領域の質問の大部分が単一のスパンで答えられる。 一般的なドメインEQAモデルに続いて、現在のバイオメディカルEQA(BioEQA)モデルは、シングルスパン抽出設定と後処理ステップを利用する。 本稿では, 一般領域と生物領域の質問分布の違いを調査し, バイオメディカルな質問は, ファクトイド型の回答よりもリスト型回答(複数回答)を必要とする可能性が高いことを明らかにする。 現実世界のユースケースでは、複数の質問タイプを扱うことができるバイオメディカルEQAモデルの必要性が強調される。 そこで本研究では,様々なフレーズを問答として直接解答する手法であるbioeqaのシーケンスタグ付け手法を提案する。 我々のアプローチは、トレーニングデータから質問に対する回答の数を決定することを学ぶことができる。 BioASQ 7b と 8b リスト型質問に対する実験結果は,処理後ステップを必要とせず,既存のモデルよりも優れていた。

Current studies in extractive question answering (EQA) have modeled single-span extraction setting, where a single answer span is a label to predict for a given question-passage pair. This setting is natural for general domain EQA as the majority of the questions in the general domain can be answered with a single span. Following general domain EQA models, current biomedical EQA (BioEQA) models utilize single-span extraction setting with post-processing steps. In this paper, we investigate the difference of the question distribution across the general and biomedical domains and discover biomedical questions are more likely to require list-type answers (multiple answers) than factoid-type answers (single answer). In real-world use cases, this emphasizes the need for Biomedical EQA models able to handle multiple question types. Based on this preliminary study, we propose a multi-span extraction setting, namely sequence tagging approach for BioEQA, which directly tackles questions with a variable number of phrases as their answer. Our approach can learn to decide the number of answers for a question from training data. Our experimental result on the BioASQ 7b and 8b list-type questions outperformed the best-performing existing models without requiring post-processing steps.
翻訳日:2021-04-16 15:00:52 公開日:2021-04-15
# 長ソースシーケンス生成のための階層学習

Hierarchical Learning for Generation with Long Source Sequences ( http://arxiv.org/abs/2104.07545v1 )

ライセンス: Link先を確認
Tobias Rohde, Xiaoxia Wu, Yinhan Liu(参考訳) current sequence to sequence (seq2seq)モデルの課題の一つは、要約や文書レベルの機械翻訳タスクのような長いシーケンスを処理することである。 これらのタスクは、モデルがトークンレベルと文と段落レベルを推論する必要がある。 我々は,複数のシーケンスから逐次タスクへ標準トランスフォーマーを上回る階層的アテンション・トランスフォーマティブ・ベース・アーキテクチャ(hat)を設計し,検討する。 特に,本モデルでは,ArXiv,CNN/DM,SAMSum ,AMIの4つの要約タスクに対して最先端の結果が得られ,PubMed R1 & R2 SOTAをさらに推し進める。 本モデルは,wmt19エンデ文書翻訳タスクにおいて,28 bleuで文書レベルの機械翻訳ベースラインを著しく上回っている。 また,階層型エンコーダ・デコーダの注意を可視化することで階層型層がどのように学習するかを検討する。 最後に,エンコーダのみの事前学習における階層学習について検討し,下流タスクの分類に基づく性能解析を行った。

One of the challenges for current sequence to sequence (seq2seq) models is processing long sequences, such as those in summarization and document level machine translation tasks. These tasks require the model to reason at the token level as well as the sentence and paragraph level. We design and study a new Hierarchical Attention Transformer-based architecture (HAT) that outperforms standard Transformers on several sequence to sequence tasks. In particular, our model achieves stateof-the-art results on four summarization tasks, including ArXiv, CNN/DM, SAMSum, and AMI, and we push PubMed R1 & R2 SOTA further. Our model significantly outperforms our document-level machine translation baseline by 28 BLEU on the WMT19 EN-DE document translation task. We also investigate what the hierarchical layers learn by visualizing the hierarchical encoder-decoder attention. Finally, we study hierarchical learning on encoder-only pre-training and analyze its performance on classification downstream tasks.
翻訳日:2021-04-16 15:00:32 公開日:2021-04-15
# Data-QuestEval: テキストセマンティック評価のための参照なしメトリクス

Data-QuestEval: A Referenceless Metric for Data to Text Semantic Evaluation ( http://arxiv.org/abs/2104.07555v1 )

ライセンス: Link先を確認
Cl\'ement Rebuffel, Thomas Scialom, Laure Soulier, Benjamin Piwowarski, Sylvain Lamprier, Jacopo Staiano, Geoffrey Scoutheeten, Patrick Gallinari(参考訳) 本稿では,テキスト-vs-TextメトリックであるQuestEvalをデータ-テキスト生成システムの評価に適用する方法について検討する。 QuestEvalは参照なしメトリックで、自動質問と回答によって、予測と構造化された入力データを直接比較する。 Data-to-Textへの適応は、マルチモーダル質問生成および回答(QG \& QA)システムを必要とするため、簡単ではない。 そこで本研究では,マルチモーダルQG/QAの学習を可能にする合成マルチモーダルコーパスの構築を提案する。 その結果、e2eとwebnlgベンチマークで人間の判断と最先端の相関が得られる。

In this paper, we explore how QuestEval, which is a Text-vs-Text metric, can be adapted for the evaluation of Data-to-Text Generation systems. QuestEval is a reference-less metric that compares the predictions directly to the structured input data by automatically asking and answering questions. Its adaptation to Data-to-Text is not straightforward as it requires multi-modal Question Generation and Answering (QG \& QA) systems. To this purpose, we propose to build synthetic multi-modal corpora that enables to train multi-modal QG/QA. The resulting metric is reference-less, multi-modal; it obtains state-of-the-art correlations with human judgement on the E2E and WebNLG benchmark.
翻訳日:2021-04-16 15:00:15 公開日:2021-04-15
# 文簡易化における自動評価の再検討

Rethinking Automatic Evaluation in Sentence Simplification ( http://arxiv.org/abs/2104.07560v1 )

ライセンス: Link先を確認
Thomas Scialom, Louis Martin, Jacopo Staiano, \'Eric Villemonte de la Clergerie, Beno\^it Sagot(参考訳) 自動評価は自然言語生成におけるオープンリサーチの課題である。 文の単純化という文脈では、これは特に難しい。タスクは自然に複雑な単語を同じ意味を持つ単純な単語に置き換えることを必要とする。 これにより、BLEUのようなn-gramベースのメトリクスの有効性が制限される。 NLGの最近の進歩と並行して、BERTScore for Machine Translationのような新しいメトリクスが提案されている。 要約において、QuestEvalメトリックは2つのテキストを質問して自動的に比較することを提案する。 本稿では,まず,文の簡略化に取り組むことを可能にするクエステバルの簡単な修正を提案する。 次に、相関関係 w.r.t を広範囲に評価する。 最近のBERTScoreやQuestEvalなど、いくつかのメトリクスに対する人間の判断は、後者が最先端の相関を得ており、BLEUやSARIのような標準メトリクスよりも優れていることを示している。 さらに重要なことは、相関の大部分が実際にはすべての指標に拍車をかけることを示しています。 この現象をさらに調査するため、評価された単純化の新たなコーパスを公開し、今回はシステムによってではなく、人間によって書かれた。 これにより、スプリアス相関を取り除き、元の相関とは全く異なる結論を導き、その結果、これらのメトリクスをよりよく理解することができます。 特に、従来のメトリクスのほとんどに対して、非常に低い相関関係に関する懸念を提起します。 以上の結果から, 意味保存の唯一の重要な尺度は, 課題適応であることがわかった。

Automatic evaluation remains an open research question in Natural Language Generation. In the context of Sentence Simplification, this is particularly challenging: the task requires by nature to replace complex words with simpler ones that shares the same meaning. This limits the effectiveness of n-gram based metrics like BLEU. Going hand in hand with the recent advances in NLG, new metrics have been proposed, such as BERTScore for Machine Translation. In summarization, the QuestEval metric proposes to automatically compare two texts by questioning them. In this paper, we first propose a simple modification of QuestEval allowing it to tackle Sentence Simplification. We then extensively evaluate the correlations w.r.t. human judgement for several metrics including the recent BERTScore and QuestEval, and show that the latter obtain state-of-the-art correlations, outperforming standard metrics like BLEU and SARI. More importantly, we also show that a large part of the correlations are actually spurious for all the metrics. To investigate this phenomenon further, we release a new corpus of evaluated simplifications, this time not generated by systems but instead, written by humans. This allows us to remove the spurious correlations and draw very different conclusions from the original ones, resulting in a better understanding of these metrics. In particular, we raise concerns about very low correlations for most of traditional metrics. Our results show that the only significant measure of the Meaning Preservation is our adaptation of QuestEval.
翻訳日:2021-04-16 15:00:02 公開日:2021-04-15
# 事前学習言語モデルにおける階層的フレーズ構造の構文摂動の相関

Syntactic Perturbations Reveal Representational Correlates of Hierarchical Phrase Structure in Pretrained Language Models ( http://arxiv.org/abs/2104.07578v1 )

ライセンス: Link先を確認
Matteo Alleman, Jonathan Mamou, Miguel A Del Rio, Hanlin Tang, Yoon Kim, SueYeon Chung(参考訳) 事前訓練された言語モデルのベクトルベース言語表現は、多くのNLPタスクに新しい標準を設定しているが、その内部動作の完全な説明はまだない。 特に、これらの表現によって、文レベルの構文のどの側面がキャプチャされるのか、ネットワークの積み重ねた層に沿ってどのように構築されるのかは、完全には明らかになっていない。 本稿では,これらの質問に対して,事前学習された言語モデルからの入力摂動に基づく表現の一般的なクラスで解き明かすことを目的とする。 計算および認知神経科学から表現不変性の概念をインポートし、これらの表現の感度を文中の様々な構造にテストするために設計された一連のプローブを実行する。 各プローブは、文中の単語をスワップし、乱れた文の表現を原文と比較する。 我々は,(1) 幅の異なるn-gramのランダムな摂動,(1) 表現が単語の位置に敏感な尺度の検証,(2) 統語句を形成するかしないかの2つのスパンの交換,(3) 統語句構造に敏感であるかの判定,(3) 統語句を分解しないかの2つの隣接する単語の交換,といった3つの異なる摂動を実験した。 これらの調査の結果は、トランスフォーマーが層に沿って文のより大きな部分に敏感に反応し、階層的な句構造がこの過程に果たす役割を示唆している。 より広範に、構造化された入力摂動は、しばしば不透明なディープラーニングシステムで実行できる分析の範囲を広げ、複雑なブラックボックスモデルを解釈するための既存のツール(教師付き線形プローブなど)の補完として機能することを示す。

While vector-based language representations from pretrained language models have set a new standard for many NLP tasks, there is not yet a complete accounting of their inner workings. In particular, it is not entirely clear what aspects of sentence-level syntax are captured by these representations, nor how (if at all) they are built along the stacked layers of the network. In this paper, we aim to address such questions with a general class of interventional, input perturbation-based analyses of representations from pretrained language models. Importing from computational and cognitive neuroscience the notion of representational invariance, we perform a series of probes designed to test the sensitivity of these representations to several kinds of structure in sentences. Each probe involves swapping words in a sentence and comparing the representations from perturbed sentences against the original. We experiment with three different perturbations: (1) random permutations of n-grams of varying width, to test the scale at which a representation is sensitive to word position; (2) swapping of two spans which do or do not form a syntactic phrase, to test sensitivity to global phrase structure; and (3) swapping of two adjacent words which do or do not break apart a syntactic phrase, to test sensitivity to local phrase structure. Results from these probes collectively suggest that Transformers build sensitivity to larger parts of the sentence along their layers, and that hierarchical phrase structure plays a role in this process. More broadly, our results also indicate that structured input perturbations widens the scope of analyses that can be performed on often-opaque deep learning systems, and can serve as a complement to existing tools (such as supervised linear probes) for interpreting complex black-box models.
翻訳日:2021-04-16 14:59:40 公開日:2021-04-15
# summvis:テキスト要約のためのモデル、データ、および評価のインタラクティブなビジュアル分析

SummVis: Interactive Visual Analysis of Models, Data, and Evaluation for Text Summarization ( http://arxiv.org/abs/2104.07605v1 )

ライセンス: Link先を確認
Jesse Vig, Wojciech Kryscinski, Karan Goel, Nazneen Fatema Rajani(参考訳) 新しいニューラルアーキテクチャ、トレーニング戦略、大規模コーパスの可用性は、抽象的テキスト要約の最近の進歩の原動力となっている。 しかしながら、ニューラルモデルのブラックボックスの性質、予測不能な評価指標、モデルとデータ分析のためのツール不足のため、要約モデルの真のパフォーマンスと失敗モードはほとんど不明である。 この制限に対処するため,抽象要約を可視化するオープンソースツールであるSummVisを導入し,テキスト要約に関連するモデル,データ,評価指標のきめ細かい分析を可能にする。 語彙的および意味的な視覚化を通じて、このツールは、事実整合性や抽象性といった重要な次元をまたいだ詳細なモデル予測のための簡単なエントリポイントを提供する。 このツールといくつかの事前計算されたモデル出力はhttps://github.com/r obustness-gym/summvi s.comで入手できる。

Novel neural architectures, training strategies, and the availability of large-scale corpora haven been the driving force behind recent progress in abstractive text summarization. However, due to the black-box nature of neural models, uninformative evaluation metrics, and scarce tooling for model and data analysis, the true performance and failure modes of summarization models remain largely unknown. To address this limitation, we introduce SummVis, an open-source tool for visualizing abstractive summaries that enables fine-grained analysis of the models, data, and evaluation metrics associated with text summarization. Through its lexical and semantic visualizations, the tools offers an easy entry point for in-depth model prediction exploration across important dimensions such as factual consistency or abstractiveness. The tool together with several pre-computed model outputs is available at https://github.com/r obustness-gym/summvi s.
翻訳日:2021-04-16 14:59:08 公開日:2021-04-15
# SINA-BERT : ペルシアの医学テキスト分析のための事前学習言語モデル

SINA-BERT: A pre-trained Language Model for Analysis of Medical Texts in Persian ( http://arxiv.org/abs/2104.07613v1 )

ライセンス: Link先を確認
Nasrin Taghizadeh and Ehsan Doostmohammadi and Elham Seifossadat and Hamid R. Rabiee and Maedeh S. Tahaei(参考訳) Sina-BERT は BERT (Devlin et al., 2018) で事前トレーニングされた言語モデルで、医療領域における高品質なペルシア語モデルの欠如に対処する。 SINA-BERTは、様々なオンラインリソースから収集されたフォーマルテキストや非公式テキストを含む大規模な医療コンテンツコーパスの事前学習を利用して、医療関連タスクのパフォーマンスを向上させる。 我々はSINA-BERTを用いて、医学的質問の分類、医学的感情分析、医学的質問の検索を行う。 それぞれのタスクに対して,ペルシャの注釈付きデータセットをトレーニングと評価のために開発し,特に複雑で長い医学的質問に対する各タスクのデータ表現を学習した。 同じアーキテクチャがタスク間で使用されているため、SINA-BERTは以前にペルシア語で使用できたBERTベースのモデルより優れている。

We have released Sina-BERT, a language model pre-trained on BERT (Devlin et al., 2018) to address the lack of a high-quality Persian language model in the medical domain. SINA-BERT utilizes pre-training on a large-scale corpus of medical contents including formal and informal texts collected from a variety of online resources in order to improve the performance on health-care related tasks. We employ SINA-BERT to complete following representative tasks: categorization of medical questions, medical sentiment analysis, and medical question retrieval. For each task, we have developed Persian annotated data sets for training and evaluation and learnt a representation for the data of each task especially complex and long medical questions. With the same architecture being used across tasks, SINA-BERT outperforms BERT-based models that were previously made available in the Persian language.
翻訳日:2021-04-16 14:58:56 公開日:2021-04-15
# 画像レベルの監視による構造認識セマンティックセグメンテーションの学習

Learning structure-aware semantic segmentation with image-level supervision ( http://arxiv.org/abs/2104.07216v1 )

ライセンス: Link先を確認
Jiawei Liu, Jing Zhang, Yicong Hong, Nick Barnes(参考訳) 画像レベルのラベルは、高価なピクセル単位のアノテーションと比較して、セマンティックセグメンテーションを弱教師付きで学習することができる。 このパイプライン内で、クラスアクティベーションマップ(CAM)を取得し、さらに擬似ラベルとして処理し、セマンティックセグメンテーションモデルを完全に教師された方法でトレーニングする。 本稿では,CAMにおける失われる構造情報は,下流セマンティックセマンティックセグメンテーションにおける適用を制限し,劣化した予測をもたらすことを論じる。 さらに、同じオブジェクト内の一貫性のないクラスアクティベーションスコアは、同じオブジェクトの各領域は同じ意味カテゴリーに属するべきであるという常識と矛盾する。 構造情報を用いて鋭い予測を行うために,劣化した予測をペナルティ化する補助的意味境界検出モジュールを導入する。 さらに、オブジェクト内部の一貫性の予測を促進するために、滑らかさ損失を採用する。 PASCAL-VOCデータセットの実験結果から,提案手法の有効性が示された。

Compared with expensive pixel-wise annotations, image-level labels make it possible to learn semantic segmentation in a weakly-supervised manner. Within this pipeline, the class activation map (CAM) is obtained and further processed to serve as a pseudo label to train the semantic segmentation model in a fully-supervised manner. In this paper, we argue that the lost structure information in CAM limits its application in downstream semantic segmentation, leading to deteriorated predictions. Furthermore, the inconsistent class activation scores inside the same object contradicts the common sense that each region of the same object should belong to the same semantic category. To produce sharp prediction with structure information, we introduce an auxiliary semantic boundary detection module, which penalizes the deteriorated predictions. Furthermore, we adopt smoothness loss to encourage prediction inside the object to be consistent. Experimental results on the PASCAL-VOC dataset illustrate the effectiveness of the proposed solution.
翻訳日:2021-04-16 14:57:03 公開日:2021-04-15
# 商標検索におけるマルチレゾリューション深層畳み込み特徴の地域的考察

Learning Regional Attention over Multi-resolution Deep Convolutional Features for Trademark Retrieval ( http://arxiv.org/abs/2104.07240v1 )

ライセンス: Link先を確認
Osman Tursun, Simon Denman, Sridha Sridharan, Clinton Fookes(参考訳) 大規模商標検索は重要なコンテンツに基づく画像検索タスクである。 最近の研究では、R-MAC(Regional-Maxim um Activation of Convolutions)に集約された既成の深い特徴が最先端の結果をもたらすことが示されている。 しかし、R-MACは背景の乱雑/自明な領域の存在に悩まされ、分散を拡大し、重要な空間情報を捨てる。 これらの欠点を克服するために、R-MACに3つの単純だが効果的な修正を導入する。 まず,空間情報の損失を最小限に抑えるために,和と最大プーリングを併用することを提案する。 また,背景乱れや重要でない領域を除去するために,ドメイン固有のソフトアテンションを用いる。 最後に、R-MACのスケール不変性を高めるためにマルチレゾリューション入力を追加する。 百万規模のMETUデータセット上でこれらの3つの修正を評価する。 以上の結果から,すべての修正は非自明な改善をもたらし,過去の成果を上回る結果となった。

Large-scale trademark retrieval is an important content-based image retrieval task. A recent study shows that off-the-shelf deep features aggregated with Regional-Maximum Activation of Convolutions (R-MAC) achieve state-of-the-art results. However, R-MAC suffers in the presence of background clutter/trivial regions and scale variance, and discards important spatial information. We introduce three simple but effective modifications to R-MAC to overcome these drawbacks. First, we propose the use of both sum and max pooling to minimise the loss of spatial information. We also employ domain-specific unsupervised soft-attention to eliminate background clutter and unimportant regions. Finally, we add multi-resolution inputs to enhance the scale-invariance of R-MAC. We evaluate these three modifications on the million-scale METU dataset. Our results show that all modifications bring non-trivial improvements, and surpass previous state-of-the-art results.
翻訳日:2021-04-16 14:56:47 公開日:2021-04-15
# 強データ拡張を用いた半教師付きセマンティクスセグメンテーションのための簡易ベースライン

A Simple Baseline for Semi-supervised Semantic Segmentation with Strong Data Augmentation ( http://arxiv.org/abs/2104.07256v1 )

ライセンス: Link先を確認
Jianlong Yuan, Yifan Liu, Chunhua Shen, Zhibin Wang, Hao Li(参考訳) 近年,セマンティクスセグメンテーションにおいて著しい進歩がみられた。 しかし、教師付きセマンティックセグメンテーションの成功は一般的に大量のラベル付きデータに依存しており、それは時間とコストがかかる。 画像分類におけるセミ教師あり学習手法の成功に触発されて,セマンティックセグメンテーションのためのシンプルで効果的なセミ教師あり学習フレームワークを提案する。 簡単な設計と訓練手法のセットは、半教師付きセマンティックセグメンテーションの性能を大幅に向上させることができる。 先行研究[3, 27]は,強い増分による大きな分布変化がバッチ正規化統計を損なうため,擬似ラベル学習において強力な増分を効率的に採用できない。 そこで我々は,この問題に対処し,セマンティックセグメンテーションにおける強化の重要性を示すために,新しいバッチ正規化(DSBN)を設計する。 さらに, 耐雑音性に優れた自己補正損失の設計を行う。 それぞれの成分の有効性を示す一連のアブレーション研究を行っている。 本手法は,Cityscapes と Pascal VOC データセットの半教師付き設定において,最先端の結果を得られる。

Recently, significant progress has been made on semantic segmentation. However, the success of supervised semantic segmentation typically relies on a large amount of labelled data, which is time-consuming and costly to obtain. Inspired by the success of semi-supervised learning methods in image classification, here we propose a simple yet effective semi-supervised learning framework for semantic segmentation. We demonstrate that the devil is in the details: a set of simple design and training techniques can collectively improve the performance of semi-supervised semantic segmentation significantly. Previous works [3, 27] fail to employ strong augmentation in pseudo label learning efficiently, as the large distribution change caused by strong augmentation harms the batch normalisation statistics. We design a new batch normalisation, namely distribution-specifi c batch normalisation (DSBN) to address this problem and demonstrate the importance of strong augmentation for semantic segmentation. Moreover, we design a self correction loss which is effective in noise resistance. We conduct a series of ablation studies to show the effectiveness of each component. Our method achieves state-of-the-art results in the semi-supervised settings on the Cityscapes and Pascal VOC datasets.
翻訳日:2021-04-16 14:56:36 公開日:2021-04-15
# ContactOpt: グラフプ改善のためのコンタクトの最適化

ContactOpt: Optimizing Contact to Improve Grasps ( http://arxiv.org/abs/2104.07267v1 )

ライセンス: Link先を確認
Patrick Grady, Chengcheng Tang, Christopher D. Twigg, Minh Vo, Samarth Brahmbhatt, Charles C. Kemp(参考訳) 手と物体の物理的接触は、人間の把握において重要な役割を担っている。 対象物との接触を期待する手ポーズを最適化することで,画像ベース手法により推定される手ポーズを改善することができることを示す。 ハンドメッシュとオブジェクトメッシュが与えられた場合、接点データに基づいてトレーニングされた深層モデルは、メッシュの表面上で望ましい接触を推測する。 次に、AtactOptは手の動きを効率よく最適化し、異なる接触モデルを用いて好ましい接触を実現する。 特に, 接触モデルでは, 手指の変形可能な軟部組織へのメッシュの侵入が促進される。 評価の結果,本手法は,真理の接点の一致度が向上し,運動的誤差が低く,被験者に好まれることがわかった。 コードとモデルはオンラインで入手できる。

Physical contact between hands and objects plays a critical role in human grasps. We show that optimizing the pose of a hand to achieve expected contact with an object can improve hand poses inferred via image-based methods. Given a hand mesh and an object mesh, a deep model trained on ground truth contact data infers desirable contact across the surfaces of the meshes. Then, ContactOpt efficiently optimizes the pose of the hand to achieve desirable contact using a differentiable contact model. Notably, our contact model encourages mesh interpenetration to approximate deformable soft tissue in the hand. In our evaluations, our methods result in grasps that better match ground truth contact, have lower kinematic error, and are significantly preferred by human participants. Code and models are available online.
翻訳日:2021-04-16 14:56:17 公開日:2021-04-15
# 分光MVIR : 3次元形状と分光反射率の同時再構成

Spectral MVIR: Joint Reconstruction of 3D Shape and Spectral Reflectance ( http://arxiv.org/abs/2104.07308v1 )

ライセンス: Link先を確認
Chunyu Li, Yusuke Monno, and Masatoshi Okutomi(参考訳) オブジェクトの高品質な3D形状を、通常のデバイス依存のRGBアルベドを超える固有のスペクトル反射特性で再構成し、幾何学と測光の両方の観点から高忠実度3Dモデルを必要とするアプリケーションへの扉を開く。 本稿では,標準RGBカメラとLED電球やLEDプロジェクタなどの低コスト照明装置を用いて撮像された多視点画像から,物体表面の各点の3次元形状とスペクトル反射率を共同で再構成する,スペクトルMVIR(Multi-View Inverse Rendering)手法を提案する。 i) 画像形成における幾何学的原理と測光的原理の両方を、カメラのスペクトル感度、光のスペクトルパワー分布、光源位置を明示的に考慮したレンダリングモデルを提案する。 (II) 導出モデルに基づいて,光源位置と影を推定しながら3次元形状と頂点ごとのスペクトル反射率を同時再構成するためのコスト最適化MVIRフレームワークを構築した。 既存のスペクトル3次元取得法と異なり、我々の手法は高価な特殊機器や幾何キャリブレーションを必要としない。 合成と実世界の両方のデータを用いた実験結果から、スペクトルMVIRは正確なスペクトル反射特性を持つ高品質な3Dモデルを得ることができることが示された。

Reconstructing an object's high-quality 3D shape with inherent spectral reflectance property, beyond typical device-dependent RGB albedos, opens the door to applications requiring a high-fidelity 3D model in terms of both geometry and photometry. In this paper, we propose a novel Multi-View Inverse Rendering (MVIR) method called Spectral MVIR for jointly reconstructing the 3D shape and the spectral reflectance for each point of object surfaces from multi-view images captured using a standard RGB camera and low-cost lighting equipment such as an LED bulb or an LED projector. Our main contributions are twofold: (i) We present a rendering model that considers both geometric and photometric principles in the image formation by explicitly considering camera spectral sensitivity, light's spectral power distribution, and light source positions. (ii) Based on the derived model, we build a cost-optimization MVIR framework for the joint reconstruction of the 3D shape and the per-vertex spectral reflectance while estimating the light source positions and the shadows. Different from most existing spectral-3D acquisition methods, our method does not require expensive special equipment and cumbersome geometric calibration. Experimental results using both synthetic and real-world data demonstrate that our Spectral MVIR can acquire a high-quality 3D model with accurate spectral reflectance property.
翻訳日:2021-04-16 14:56:06 公開日:2021-04-15
# 平面再現表現を用いた奥行き補完

Depth Completion using Plane-Residual Representation ( http://arxiv.org/abs/2104.07350v1 )

ライセンス: Link先を確認
Byeong-Uk Lee, Kyunghyun Lee, In So Kweon(参考訳) 深度補完の基本的な枠組みは、非常にスパースな入力データを用いてピクセル単位の深度マップを予測することである。 本稿では,回帰に基づく深さ推定問題を深度平面分類と回帰回帰の組合せに再構成することにより,この問題をより効果的に解決しようとする。 提案手法は,複数の離散した深度面の間にある画素がどの面にあるべきかを見極め,その距離を予測して最終深さ値を計算することで,まずスパース深度情報を密度化する。 これにより、ネットワークは絶対深度情報をどこからでも直接退避させる負担を軽減し、より正確な深度予測結果をより少ない計算力と推論時間で効果的に得ることができる。 まず、最も近い深度平面ラベル$p$と残値$r$で深度情報を解釈する新しい方法、Plane-Residual (PR)表現を導入する。 また、共有エンコーダと2つのデコーダからなるPR表現を利用して、画素の深度平面ラベルを分類し、一方は分類された深度平面から正規化距離を回帰する深度完備化ネットワークを提案する。 PR表現で深度情報を解釈し,それに対応する深度補完網を用いて,より高速な計算により深度補完性能を向上させることができた。

The basic framework of depth completion is to predict a pixel-wise dense depth map using very sparse input data. In this paper, we try to solve this problem in a more effective way, by reformulating the regression-based depth estimation problem into a combination of depth plane classification and residual regression. Our proposed approach is to initially densify sparse depth information by figuring out which plane a pixel should lie among a number of discretized depth planes, and then calculate the final depth value by predicting the distance from the specified plane. This will help the network to lessen the burden of directly regressing the absolute depth information from none, and to effectively obtain more accurate depth prediction result with less computation power and inference time. To do so, we firstly introduce a novel way of interpreting depth information with the closest depth plane label $p$ and a residual value $r$, as we call it, Plane-Residual (PR) representation. We also propose a depth completion network utilizing PR representation consisting of a shared encoder and two decoders, where one classifies the pixel's depth plane label, while the other one regresses the normalized distance from the classified depth plane. By interpreting depth information in PR representation and using our corresponding depth completion network, we were able to acquire improved depth completion performance with faster computation, compared to previous approaches.
翻訳日:2021-04-16 14:55:43 公開日:2021-04-15
# クエリとしてのポイント:ポイントによる弱半教師付きオブジェクト検出

Points as Queries: Weakly Semi-supervised Object Detection by Points ( http://arxiv.org/abs/2104.07434v1 )

ライセンス: Link先を確認
Liangyu Chen, Tong Yang, Xiangyu Zhang, Wei Zhang and Jian Sun(参考訳) そこで本研究では,弱い半教師付きオブジェクト検出タスクに対して,小さな完全注釈付き画像と大きな弱注釈付き画像からなる新たなポイントアノテート設定を提案する。 膨大なアノテーションの負担と検出性能のバランスを実現します。 この設定に基づき、既存の検出器を分析し、これらの検出器が注釈付点のパワーを十分に活用することが困難であることを突き止めた。 そこで本研究では,ポイントエンコーダを付加してDETRを拡張する新しい検出器であるPoint DETRを導入する。 各種データ設定におけるMS-COCOデータセットの大規模な実験により,本手法の有効性が示された。 特に、cocoから20%の完全なラベル付きデータを使用する場合、この検出器は、強力なベースライン(fcos)を2.0 apで上回る33.3 apという有望な性能を達成でき、ポイントアノテーションが様々なarメトリクスに10ポイント以上をもたらすことを実証する。

We propose a novel point annotated setting for the weakly semi-supervised object detection task, in which the dataset comprises small fully annotated images and large weakly annotated images by points. It achieves a balance between tremendous annotation burden and detection performance. Based on this setting, we analyze existing detectors and find that these detectors have difficulty in fully exploiting the power of the annotated points. To solve this, we introduce a new detector, Point DETR, which extends DETR by adding a point encoder. Extensive experiments conducted on MS-COCO dataset in various data settings show the effectiveness of our method. In particular, when using 20% fully labeled data from COCO, our detector achieves a promising performance, 33.3 AP, which outperforms a strong baseline (FCOS) by 2.0 AP, and we demonstrate the point annotations bring over 10 points in various AR metrics.
翻訳日:2021-04-16 14:55:19 公開日:2021-04-15
# オーディオ駆動型感情ビデオポートレイト

Audio-Driven Emotional Video Portraits ( http://arxiv.org/abs/2104.07452v1 )

ライセンス: Link先を確認
Xinya Ji, Hang Zhou, Kaisiyuan Wang, Wayne Wu, Chen Change Loy, Xun Cao, Feng Xu(参考訳) 従来の音声駆動音声ヘッド生成の成功にもかかわらず,従来の研究のほとんどは,音声内容と口形状の相関に着目している。 自然な人間の顔で最も重要な特徴の1つである顔の感情は、常に彼らの方法で無視される。 本研究では,高品質な映像ポートレートをオーディオによって駆動される感情的ダイナミックスによって合成するシステムであるEmotional Video Portraits(EVP)を紹介する。 具体的には,音声を2つの分離空間,すなわち持続時間非依存感情空間と継続時間依存コンテンツ空間に分解する,クロス再構成された感情不等角化手法を提案する。 歪んだ特徴により、ダイナミックな2次元の感情的な顔のランドマークを推論することができる。 次に, 推定されたランドマークと対象映像の自然な頭部ポーズのギャップを橋渡しすることにより, 最終的な高品質な映像画像を生成するためのターゲット適応型顔合成手法を提案する。 本手法の有効性を定性的かつ定量的に検証した。

Despite previous success in generating audio-driven talking heads, most of the previous studies focus on the correlation between speech content and the mouth shape. Facial emotion, which is one of the most important features on natural human faces, is always neglected in their methods. In this work, we present Emotional Video Portraits (EVP), a system for synthesizing high-quality video portraits with vivid emotional dynamics driven by audios. Specifically, we propose the Cross-Reconstructed Emotion Disentanglement technique to decompose speech into two decoupled spaces, i.e., a duration-independent emotion space and a duration dependent content space. With the disentangled features, dynamic 2D emotional facial landmarks can be deduced. Then we propose the Target-Adaptive Face Synthesis technique to generate the final high-quality video portraits, by bridging the gap between the deduced landmarks and the natural head poses of target videos. Extensive experiments demonstrate the effectiveness of our method both qualitatively and quantitatively.
翻訳日:2021-04-16 14:55:02 公開日:2021-04-15
# A-SDF:Articulated Shape Representationのための遠交符号距離関数の学習

A-SDF: Learning Disentangled Signed Distance Functions for Articulated Shape Representation ( http://arxiv.org/abs/2104.07645v1 )

ライセンス: Link先を確認
Jiteng Mu, Weichao Qiu, Adam Kortylewski, Alan Yuille, Nuno Vasconcelos, Xiaolong Wang(参考訳) 近年, 3次元剛体形状復元のための連続表現として, 暗黙関数の利用が大きな進歩を遂げている。 しかし、一般的な調音オブジェクトのモデリングに費やされる労力ははるかに少ない。 剛体と比較すると、明瞭な物体はより高い自由度を持つため、見えない形状に一般化することは困難である。 大きな形状のばらつきに対処するために,形状と調音を符号化するための別コードを持つ非交叉空間を持つ調音形状を表すArticulated Signed Distance Function (A-SDF)を導入する。 我々は,部分形状,調音状態,関節型,関節軸,関節位置に関する事前知識を仮定しない。 この不等角連続表現により, 調音入力を制御でき, 関節角度が未知覚のインスタンスを制御できることを実証する。 さらに,推論中にモデルを調整するためのテスト時間適応推論アルゴリズムを提案する。 本モデルは,偏点雲や実世界の奥行き画像など,分布外データや未認識データによく一般化する。

Recent work has made significant progress on using implicit functions, as a continuous representation for 3D rigid object shape reconstruction. However, much less effort has been devoted to modeling general articulated objects. Compared to rigid objects, articulated objects have higher degrees of freedom, which makes it hard to generalize to unseen shapes. To deal with the large shape variance, we introduce Articulated Signed Distance Functions (A-SDF) to represent articulated shapes with a disentangled latent space, where we have separate codes for encoding shape and articulation. We assume no prior knowledge on part geometry, articulation status, joint type, joint axis, and joint location. With this disentangled continuous representation, we demonstrate that we can control the articulation input and animate unseen instances with unseen joint angles. Furthermore, we propose a Test-Time Adaptation inference algorithm to adjust our model during inference. We demonstrate our model generalize well to out-of-distribution and unseen data, e.g., partial point clouds and real-world depth images.
翻訳日:2021-04-16 14:54:48 公開日:2021-04-15
# 幾何フリービュー合成:トランスフォーマーと3dプリエントなし

Geometry-Free View Synthesis: Transformers and no 3D Priors ( http://arxiv.org/abs/2104.07652v1 )

ライセンス: Link先を確認
Robin Rombach and Patrick Esser and Bj\"orn Ommer(参考訳) 一つの画像から新しいビューを合成するのに幾何モデルが必要か? 局所畳み込みと結びついたcnnは、幾何学的変換をモデル化するために明示的な3次元バイアスを必要とする。 対照的に,トランスフォーマーモデルでは,手作業による3次元バイアスを伴わずに全く新しいビューを合成できることを実証する。 i) ソースビューとターゲットビューの間の長距離3d対応を暗黙的に学習するグローバルアテンション機構と、(ii) 1つの画像から新しいビューを予測するのに固有の曖昧さを捉えるために必要な確率的定式化により、比較的小さな視点の変化に制限された以前のアプローチの限界を克服する。 我々は3Dプリエントをトランスフォーマーアーキテクチャに統合する様々な方法を評価する。 しかし, 実験の結果, このような幾何学的先行は不要であり, 変換器は画像間の3次元関係を暗黙的に学習できることがわかった。 さらに,本手法は,実現可能な実現可能性の全分布を網羅しながら,視覚的品質の観点から技術状況よりも優れる。 コードはhttps://git.io/JOnwn で入手できる。

Is a geometric model required to synthesize novel views from a single image? Being bound to local convolutions, CNNs need explicit 3D biases to model geometric transformations. In contrast, we demonstrate that a transformer-based model can synthesize entirely novel views without any hand-engineered 3D biases. This is achieved by (i) a global attention mechanism for implicitly learning long-range 3D correspondences between source and target views, and (ii) a probabilistic formulation necessary to capture the ambiguity inherent in predicting novel views from a single image, thereby overcoming the limitations of previous approaches that are restricted to relatively small viewpoint changes. We evaluate various ways to integrate 3D priors into a transformer architecture. However, our experiments show that no such geometric priors are required and that the transformer is capable of implicitly learning 3D relationships between images. Furthermore, this approach outperforms the state of the art in terms of visual quality while covering the full distribution of possible realizations. Code is available at https://git.io/JOnwn
翻訳日:2021-04-16 14:54:30 公開日:2021-04-15
# GANcraft:マインクラフトの3Dニューラルレンダリング

GANcraft: Unsupervised 3D Neural Rendering of Minecraft Worlds ( http://arxiv.org/abs/2104.07659v1 )

ライセンス: Link先を確認
Zekun Hao, Arun Mallya, Serge Belongie, Ming-Yu Liu(参考訳) GANcraftは、Minecraftで作成されたような、大規模な3Dブロック世界のフォトリアリスティック画像を生成する、教師なしのニューラルネットワークレンダリングフレームワークである。 提案手法は意味ブロックの世界を入力とし,各ブロックに土,草,水などの意味ラベルを付与する。 我々は,連続的なボリューム関数として世界を表現し,ユーザ制御カメラ用のビュー一貫性のあるフォトリアリスティック画像をレンダリングするようにモデルを訓練する。 ブロック世界における実画像のペア化がなければ,擬似地上真実と敵対的訓練に基づく訓練手法を考案する。 これは、シーンの幾何とビュー依存の外観を推定するために基底真理画像を必要とする、ビュー合成のためのニューラルネットワークレンダリングに関する以前の作業とは対照的である。 カメラの軌道に加え、GANcraftはシーンセマンティクスと出力スタイルの両方をユーザが制御できる。 強塩基性との比較実験により,光実写3次元ブロック世界合成におけるガンクラフトの有効性が示された。 プロジェクトのwebサイトはhttps://nvlabs.githu b.io/gancraft/。

We present GANcraft, an unsupervised neural rendering framework for generating photorealistic images of large 3D block worlds such as those created in Minecraft. Our method takes a semantic block world as input, where each block is assigned a semantic label such as dirt, grass, or water. We represent the world as a continuous volumetric function and train our model to render view-consistent photorealistic images for a user-controlled camera. In the absence of paired ground truth real images for the block world, we devise a training technique based on pseudo-ground truth and adversarial training. This stands in contrast to prior work on neural rendering for view synthesis, which requires ground truth images to estimate scene geometry and view-dependent appearance. In addition to camera trajectory, GANcraft allows user control over both scene semantics and output style. Experimental results with comparison to strong baselines show the effectiveness of GANcraft on this novel task of photorealistic 3D block world synthesis. The project website is available at https://nvlabs.githu b.io/GANcraft/ .
翻訳日:2021-04-16 14:54:11 公開日:2021-04-15
# COIL:文脈付き逆リストを用いた情報検索における厳密な語彙マッチングの再検討

COIL: Revisit Exact Lexical Match in Information Retrieval with Contextualized Inverted List ( http://arxiv.org/abs/2104.07186v1 )

ライセンス: Link先を確認
Luyu Gao, Zhuyun Dai, Jamie Callan(参考訳) bm25のような古典的な情報検索システムは正確な語彙マッチングに依存し、逆リストインデックスで効率的に検索を行う。 最近のニューラルIRモデルは、全てのクエリドキュメント用語をソフトなセマンティックマッチングにシフトするが、正確なマッチングシステムの計算効率は失われる。 本稿では,意味的語彙マッチングをもたらす文脈的完全マッチング検索アーキテクチャである coil を提案する。 COILスコアリングは、クエリドキュメントトークンのコンテキスト化表現の重複に基づく。 新しいアーキテクチャでは、コンテキスト化されたトークン表現を逆リストに格納し、正確なマッチングの効率と深層言語モデルの表現力を結合する。 実験結果から,コイルは古典語彙レトリバーや最先端のディープlmレトリバーに匹敵する低レイテンシを示した。

Classical information retrieval systems such as BM25 rely on exact lexical match and carry out search efficiently with inverted list index. Recent neural IR models shifts towards soft semantic matching all query document terms, but they lose the computation efficiency of exact match systems. This paper presents COIL, a contextualized exact match retrieval architecture that brings semantic lexical matching. COIL scoring is based on overlapping query document tokens' contextualized representations. The new architecture stores contextualized token representations in inverted lists, bringing together the efficiency of exact match and the representation power of deep language models. Our experimental results show COIL outperforms classical lexical retrievers and state-of-the-art deep LM retrievers with similar or smaller latency.
翻訳日:2021-04-16 14:53:55 公開日:2021-04-15
# UHD-BERT:フルランク化のための超高次元スパース表現

UHD-BERT: Bucketed Ultra-High Dimensional Sparse Representations for Full Ranking ( http://arxiv.org/abs/2104.07198v1 )

ライセンス: Link先を確認
Kyoung-Rok Jang, Junmo Kang, Giwon Hong, Sung-Hyon Myaeng, Joohee Park, Taewon Yoon, Heecheol Seo(参考訳) ニューラル・インフォメーション・サーチ(ir)モデルは、その意味マッチング能力が、単語ベースのシンボリックアプローチのよく知られた同義語や多義語問題を改善できるため、主に有望である。 しかし、ニューラルネットワークの高密度表現のパワーは非効率なコストを伴い、再ランカとしての使用を制限する。 一方、スパース表現は、シンボル的あるいは潜時的な表現を強化するのに役立ち、一方で、何十年も前から存在する象徴的赤外線技術に対処可能な、効率の逆インデックスを利用することができる。 疎外表現(記号的あるいは潜時表現に基づく)と密表現のトレードオフを超越するために,直接制御可能な空間性を備えた超高次元(UHD)表現スキームを提案する。 高次元で、各次元の意味を密な埋め込みよりも絡み合いや多面的なものにしようと試みる。 このスパーシティはベクトル計算の効率性だけでなく、解釈可能な概念に個々の次元を帰結させることができる。 我々のモデルであるUHD-BERTは,バケット法を用いて,BERT言語モデリングに基づく超高次元スパース表現の利点を最大化する。 この方法では、埋め込みの異なるセグメント(水平バケット)や、bert(垂直バケット)の複数の層からの埋め込みを選択してマージすることにより、多様な言語的側面を表現することができる。 高度に絡み合った(高次元)効率的な(スパース)表現の付加的かつ重要な利点は、このニューラルアプローチがよく研究されたシンボルIR技術(例えば逆インデックス、擬似関連フィードバック、BM25)と調和し、強力で効率的なニューラルシンボリック情報検索システムを構築することができることである。

Neural information retrieval (IR) models are promising mainly because their semantic matching capabilities can ameliorate the well-known synonymy and polysemy problems of word-based symbolic approaches. However, the power of neural models' dense representations comes at the cost of inefficiency, limiting it to be used as a re-ranker. Sparse representations, on the other hand, can help enhance symbolic or latent-term representations and yet take advantage of an inverted index for efficiency, being amenable to symbolic IR techniques that have been around for decades. In order to transcend the trade-off between sparse representations (symbolic or latent-term based) and dense representations, we propose an ultra-high dimensional (UHD) representation scheme equipped with directly controllable sparsity. With the high dimensionality, we attempt to make the meaning of each dimension less entangled and polysemous than dense embeddings. The sparsity allows for not only efficiency for vector calculations but also the possibility of making individual dimensions attributable to interpretable concepts. Our model, UHD-BERT, maximizes the benefits of ultra-high dimensional (UHD) sparse representations based on BERT language modeling, by adopting a bucketing method. With this method, different segments of an embedding (horizontal buckets) or the embeddings from multiple layers of BERT (vertical buckets) can be selected and merged so that diverse linguistic aspects can be represented. An additional and important benefit of our highly disentangled (high-dimensional) and efficient (sparse) representations is that this neural approach can be harmonized with well-studied symbolic IR techniques (e.g., inverted index, pseudo-relevance feedback, BM25), enabling us to build a powerful and efficient neuro-symbolic information retrieval system.
翻訳日:2021-04-16 14:53:45 公開日:2021-04-15
# BERTベースのトランスフォーマーは、ソーシャルメディアから健康情報の抽出をリードする

BERT based Transformers lead the way in Extraction of Health Information from Social Media ( http://arxiv.org/abs/2104.07367v1 )

ライセンス: Link先を確認
Sidharth R, Abhiraj Tiwari, Parthivi Choubey, Saisha Kashyap, Sahil Khose, Kumud Lakara, Nishesh Singh, Ujjwal Verma(参考訳) 本稿では,SMM4H(Social Media Mining for Health)2021の共有タスクについて述べる。 本研究では,(1)英語のつぶやき(Task-1)と(2)症状を含むCOVID-19ツイート(Task-6)の分類,抽出,正規化の2つのタスクに参加した。 最初のタスクに対する我々のアプローチは、バイナリ分類ヘッドを持つ言語表現モデルRoBERTaを使用する。 2つ目のタスクでは、RoBERTaをベースにしたBERTweetを使用します。 細調整は、両方のタスクで事前訓練されたモデルで実行される。 モデルは、カスタムドメイン固有の処理パイプラインの上に置かれる。 提案システムでは,subtask-1(a)の応募者の中で,f1-scoreが61%で第1位にランクインした。 サブタスク1(b)の場合、全投稿の平均スコアに対して最大で+8%のf1が改善され、f1-scoreが50%の値を得た。 BERTweetモデルはSMM4H 2021 Task-6で94%のスコアを記録した。

This paper describes our submissions for the Social Media Mining for Health (SMM4H)2021 shared tasks. We participated in 2 tasks:(1) Classification, extraction and normalization of adverse drug effect (ADE) mentions in English tweets (Task-1) and (2) Classification of COVID-19 tweets containing symptoms(Task-6). Our approach for the first task uses the language representation model RoBERTa with a binary classification head. For the second task, we use BERTweet, based on RoBERTa. Fine-tuning is performed on the pre-trained models for both tasks. The models are placed on top of a custom domain-specific processing pipeline. Our system ranked first among all the submissions for subtask-1(a) with an F1-score of 61%. For subtask-1(b), our system obtained an F1-score of 50% with improvements up to +8% F1 over the score averaged across all submissions. The BERTweet model achieved an F1 score of 94% on SMM4H 2021 Task-6.
翻訳日:2021-04-16 14:53:10 公開日:2021-04-15
# 不正検出システムにおける複数の証拠源を組み合わせたベイズモデルとデンプスターシェーファーモデル

Bayesian and Dempster-Shafer models for combining multiple sources of evidence in a fraud detection system ( http://arxiv.org/abs/2104.07440v1 )

ライセンス: Link先を確認
Fabrice Daniel(参考訳) 異なる情報源からの証拠を組み合わせることは、ベイズ法やデンプスター・シェーファー法で達成できる。 第1には事前と可能性の見積が必要であり、第2には後続確率の見積が必要であり、ソースの不正確さとそれら間の衝突の程度による不確実な情報による推論を可能にする。 本稿では,この2つの手法と,それらを不正検出の文脈におけるグローバルスコアの推定に適用する方法について述べる。

Combining evidence from different sources can be achieved with Bayesian or Dempster-Shafer methods. The first requires an estimate of the priors and likelihoods while the second only needs an estimate of the posterior probabilities and enables reasoning with uncertain information due to imprecision of the sources and with the degree of conflict between them. This paper describes the two methods and how they can be applied to the estimation of a global score in the context of fraud detection.
翻訳日:2021-04-16 14:51:48 公開日:2021-04-15
# 空間縮小型効率的なロボットナビゲーションのための規則ベース強化学習

Rule-Based Reinforcement Learning for Efficient Robot Navigation with Space Reduction ( http://arxiv.org/abs/2104.07282v1 )

ライセンス: Link先を確認
Yuanyang Zhu, Zhi Wang, Chunlin Chen, and Daoyi Dong(参考訳) 現実世界のデプロイメントでは、ロボットが複雑な環境で自律的にナビゲートできることが重要です。 伝統的な手法は通常、環境の内部マップを保持し、内部マップをナビゲートするためのローカライズとプランニングのアプローチと合わせて、いくつかの単純なルールを設計する。 これらのアプローチは、しばしば様々な仮定と事前知識を含む。 対照的に、最近の強化学習(RL)手法は、ロボットが当初未知の環境と相互作用するときに、モデルのない自己学習メカニズムを提供することができるが、非効率な探索のために現実のシナリオに展開する費用がかかる。 本稿では,RL手法を用いた効率的なナビゲーションに焦点をあて,これらの2種類の手法の利点をルールベースRL(RuRL)アルゴリズムに組み合わせて,サンプルの複雑さとコストを削減する。 まず、壁追従の法則を用いて閉ループ軌道を生成する。 第2に,軌道の縮小に還元則を適用し,冗長な探査空間を効果的に削減する。 さらに、最適航法経路が依然として縮小空間にあるという詳細な理論的保証を与える。 第3に, 縮小空間において, 初期のRL過程を加速させる探索戦略の指針として, Pledge 則を用いる。 ヘックスグリッド環境における実際のロボットナビゲーション問題に対する実験は、RuRLがナビゲーション性能を向上させることを実証している。

For real-world deployments, it is critical to allow robots to navigate in complex environments autonomously. Traditional methods usually maintain an internal map of the environment, and then design several simple rules, in conjunction with a localization and planning approach, to navigate through the internal map. These approaches often involve a variety of assumptions and prior knowledge. In contrast, recent reinforcement learning (RL) methods can provide a model-free, self-learning mechanism as the robot interacts with an initially unknown environment, but are expensive to deploy in real-world scenarios due to inefficient exploration. In this paper, we focus on efficient navigation with the RL technique and combine the advantages of these two kinds of methods into a rule-based RL (RuRL) algorithm for reducing the sample complexity and cost of time. First, we use the rule of wall-following to generate a closed-loop trajectory. Second, we employ a reduction rule to shrink the trajectory, which in turn effectively reduces the redundant exploration space. Besides, we give the detailed theoretical guarantee that the optimal navigation path is still in the reduced space. Third, in the reduced space, we utilize the Pledge rule to guide the exploration strategy for accelerating the RL process at the early stage. Experiments conducted on real robot navigation problems in hex-grid environments demonstrate that RuRL can achieve improved navigation performance.
翻訳日:2021-04-16 14:51:12 公開日:2021-04-15
# 現実世界の深部ニューラルネットワークに対するロバストなバックドア攻撃

Robust Backdoor Attacks against Deep Neural Networks in Real Physical World ( http://arxiv.org/abs/2104.07395v1 )

ライセンス: Link先を確認
Mingfu Xue, Can He, Shichang Sun, Jian Wang, Weiqiang Liu(参考訳) ディープニューラルネットワーク(DNN)は様々な応用に広く利用されている。 しかし、多くの研究により、DNNはバックドア攻撃に弱いことが示されている。 攻撃者はターゲットのDNNモデルに隠されたバックドアを作成し、特定のバックドアインスタンスを提出することで悪意のある振る舞いをトリガーすることができる。 しかし、既存のバックドアの作業はほとんどがデジタルドメインに焦点を当てており、実際の物理的世界のバックドア攻撃を調査する研究はほとんどない。 様々な物理的制約に制限され、現実世界におけるバックドア攻撃の性能は著しく低下する。 本稿では,物理世界のディープラーニングモデルに対するバックドア攻撃を実装するための,堅牢な物理バックドア攻撃法であるptb(physical transformations for backdoors)を提案する。 具体的には、トレーニング段階では、各モデルトレーニングのラウンドでこれらの注入されたバックドアインスタンス上で一連の物理変換を行い、バックドアが現実世界で経験できる様々な変換をシミュレートし、物理的堅牢性を向上させる。 現状の顔認識モデルによる実験結果から,PTBを使わずに実世界におけるバックドア攻撃の性能を大幅に向上させることができることがわかった。 様々な複雑な物理的条件下では、バックドアのインスタンスのごく一部(0.5%)を注入することで、VGGFace上でのTB法による物理的バックドア攻撃の成功率は82%、提案されたTB法を使わずにバックドア攻撃の攻撃成功率は11%未満となる。 一方、ターゲットDNNモデルの正常性能は影響を受けていない。 本稿は,物理バックドア攻撃のロバスト性に関する最初の研究であり,その後の物理バックドア攻撃のガイドラインを提供することを期待する。

Deep neural networks (DNN) have been widely deployed in various practical applications. However, many researches indicated that DNN is vulnerable to backdoor attacks. The attacker can create a hidden backdoor in target DNN model, and trigger the malicious behaviors by submitting specific backdoor instance. However, almost all the existing backdoor works focused on the digital domain, while few studies investigate the backdoor attacks in real physical world. Restricted to a variety of physical constrains, the performance of backdoor attacks in the real world will be severely degraded. In this paper, we propose a robust physical backdoor attack method, PTB (physical transformations for backdoors), to implement the backdoor attacks against deep learning models in the physical world. Specifically, in the training phase, we perform a series of physical transformations on these injected backdoor instances at each round of model training, so as to simulate various transformations that a backdoor may experience in real world, thus improves its physical robustness. Experimental results on the state-of-the-art face recognition model show that, compared with the methods that without PTB, the proposed attack method can significantly improve the performance of backdoor attacks in real physical world. Under various complex physical conditions, by injecting only a very small ratio (0.5%) of backdoor instances, the success rate of physical backdoor attacks with the PTB method on VGGFace is 82%, while the attack success rate of backdoor attacks without the proposed PTB method is lower than 11%. Meanwhile, the normal performance of target DNN model has not been affected. This paper is the first work on the robustness of physical backdoor attacks, and is hopeful for providing guideline for the subsequent physical backdoor works.
翻訳日:2021-04-16 14:50:49 公開日:2021-04-15
# 建設サプライチェーンの可視性に及ぼすブロックチェーンとスマートコントラクトの影響の測定

Measuring the Impact of Blockchain and Smart Contract on Construction Supply Chain Visibility ( http://arxiv.org/abs/2104.07532v1 )

ライセンス: Link先を確認
Hesam Hamledari and Martin Fischer(参考訳) この研究は、ブロックチェーンとスマートコントラクトが建設サプライチェーンの可視性および支払い(現金と製品フローのインターセクション)のコンテキストに与える影響を評価します。 比較実証実験(charrette test method)を使用して、商用建設プロジェクトでの最先端とブロックチェーン対応支払いシステムの可視性の比較を行う。 比較は4段階の粒度に及んだ。 1) ブロックチェーンによる情報完全性の向上,および情報正確性の向上は,それぞれ216%と261%である。 2) ブロックチェーン対応ソリューションは, 粒度の増加に対して頑健であり, 従来のソリューションでは50%, 66.7%, 情報の完全性, 正確性がそれぞれ低下した。 この論文は、ビジネス目的に基づく可視性と技術導入に寄与するメカニズムの議論から締めくくっている。

This work assesses the impact of blockchain and smart contract on the visibility of construction supply chain and in the context of payments (intersection of cash and product flows). It uses comparative empirical experiments (Charrette Test Method) to draw comparisons between the visibility of state-of-practice and blockchain-enabled payment systems in a commercial construction project. Comparisons were drawn across four levels of granularity. The findings are twofold: 1) blockchain improved information completeness and information accuracy respectively by an average 216% and 261% compared with the digital state-of-practice solution. The improvements were significantly more pronounced for inquiries that had higher product, trade, and temporal granularity; 2) blockchain-enabled solution was robust in the face of increased granularity, while the conventional solution experienced 50% and 66.7% decline respectively in completeness and accuracy of information. The paper concludes with a discussion of mechanisms contributing to visibility and technology adoption based on business objectives.
翻訳日:2021-04-16 14:50:20 公開日:2021-04-15
# AI体験を共同生成するプロセスモデルに向けて

Towards A Process Model for Co-Creating AI Experiences ( http://arxiv.org/abs/2104.07595v1 )

ライセンス: Link先を確認
Hariharan Subramonyam, Colleen Seifert, Eytan Adar(参考訳) デザイン素材としてのテクノロジーは魅力的だ。 設計者は材料の性質を探求し、その能力と限界を理解することを奨励し、生成的デザイン思考の前提となる。 しかし、材料としてaiは、その特性が設計プロセス自体の一部として現れるため、このアプローチに抵抗する。 したがって、デザイナーとAIエンジニアは、素材とアプリケーションエクスペリエンスの両方を作るために、新しい方法で協力する必要があります。 10組のデザイナーとエンジニアによるデザイン研究を通じて共同制作プロセスについて検討した。 ユーザデータによる‘プローブ’の設計は,AI資料を定義する上で有用なツールであることが分かっています。 データプローブを通じてデザイナは、想定されるAIエクスペリエンス(AIX)を設計的に表現して、望ましいAI特性を特定する。 データプローブは、異なる思考、物質テスト、設計検証を促進する。 本稿では,aixを共同生成するプロセスモデルを提案し,設計ツールにデータプローブを組み込むための設計上の考慮事項を提案する。

Thinking of technology as a design material is appealing. It encourages designers to explore the material's properties to understand its capabilities and limitations, a prerequisite to generative design thinking. However, as a material, AI resists this approach because its properties emerge as part of the design process itself. Therefore, designers and AI engineers must collaborate in new ways to create both the material and its application experience. We investigate the co-creation process through a design study with 10 pairs of designers and engineers. We find that design 'probes' with user data are a useful tool in defining AI materials. Through data probes, designers construct designerly representations of the envisioned AI experience (AIX) to identify desirable AI characteristics. Data probes facilitate divergent thinking, material testing, and design validation. Based on our findings, we propose a process model for co-creating AIX and offer design considerations for incorporating data probes in design tools.
翻訳日:2021-04-16 14:50:03 公開日:2021-04-15
# SCALE:Articulated Local Elementsの表面コーデックによる衣服ヒトのモデリング

SCALE: Modeling Clothed Humans with a Surface Codec of Articulated Local Elements ( http://arxiv.org/abs/2104.07660v1 )

ライセンス: Link先を確認
Qianli Ma, Shunsuke Saito, Jinlong Yang, Siyu Tang, Michael J. Black(参考訳) 衣服のモデル化と再構成は、調音性、非剛性変形、衣服の種類や地形の変化などにより困難である。 学習を可能にするためには、表現の選択が鍵となる。 最近の研究では、ニューラルネットワークを使ってローカルな表面要素をパラメータ化している。 このアプローチは局所的コヒーレントな幾何学と非平面的詳細を捉え、様々なトポロジーを扱うことができ、登録されたトレーニングデータを必要としない。 しかし、このような方法で3次元の衣服をモデル化することは、きめ細かい局所的な変形を捉えることに失敗し、一般化が不十分である。 まず,表面要素を人体モデルに基づいて変形させることにより,調音による大規模変形がトポロジカルな変化や局所的な衣服変形から明示的に分離されるようにする。 第2に,局所的特徴から局所的幾何を回帰することで,既存の神経表面要素の限界に対処し,表現性を大幅に改善する。 第3に, 物体形状を符号化した2次元パラメタライズ空間上のポーズ埋め込みを学習し, 非局所的なスプリアス相関を減らし, 見えないポーズへの一般化を改善する。 点雲からの複雑な衣服のモデル学習による表面表現の有効性を実証する。 衣服はトポロジーを変え、身体のトポロジーから逸脱することができる。 一度学習すると、これまで見えない動きをアニメーション化し、高品質の点雲を生成し、そこからニューラルネットワークでリアルな画像を生成する。 それぞれの技術貢献の重要性を評価し,提案手法が再現精度と推測時間において最先端の手法より優れていることを示す。 コードは https://qianlim.gith ub.io/SCALE で研究目的で公開されている。

Learning to model and reconstruct humans in clothing is challenging due to articulation, non-rigid deformation, and varying clothing types and topologies. To enable learning, the choice of representation is the key. Recent work uses neural networks to parameterize local surface elements. This approach captures locally coherent geometry and non-planar details, can deal with varying topology, and does not require registered training data. However, naively using such methods to model 3D clothed humans fails to capture fine-grained local deformations and generalizes poorly. To address this, we present three key innovations: First, we deform surface elements based on a human body model such that large-scale deformations caused by articulation are explicitly separated from topological changes and local clothing deformations. Second, we address the limitations of existing neural surface elements by regressing local geometry from local features, significantly improving the expressiveness. Third, we learn a pose embedding on a 2D parameterization space that encodes posed body geometry, improving generalization to unseen poses by reducing non-local spurious correlations. We demonstrate the efficacy of our surface representation by learning models of complex clothing from point clouds. The clothing can change topology and deviate from the topology of the body. Once learned, we can animate previously unseen motions, producing high-quality point clouds, from which we generate realistic images with neural rendering. We assess the importance of each technical contribution and show that our approach outperforms the state-of-the-art methods in terms of reconstruction accuracy and inference time. The code is available for research purposes at https://qianlim.gith ub.io/SCALE .
翻訳日:2021-04-16 14:49:10 公開日:2021-04-15
# StyleGANインバージョンのための簡易ベースライン

A Simple Baseline for StyleGAN Inversion ( http://arxiv.org/abs/2104.07661v1 )

ライセンス: Link先を確認
Tianyi Wei and Dongdong Chen and Wenbo Zhou and Jing Liao and Weiming Zhang and Lu Yuan and Gang Hua and Nenghai Yu(参考訳) 本稿では,事前学習したStyleGANを実際の顔画像編集タスクに使用可能にする上で,StyleGANの逆転が重要な役割を担っていることを明らかにする。 この問題には品質と効率に対する高い需要がある。 既存の最適化手法では高品質な結果が得られるが、最適化には長い時間がかかることが多い。 反対に、フォワードベースの手法は通常より速いが、結果の品質は劣っている。 本稿では,スタイルガンインバージョンのための新しいフィードフォワードネットワークを提案する。 1) スケールにまたがる複数の効率のよいヘッドを持つ浅層バックボーン, 2) 損失関数に対する多層id損失と多層顔解析損失, 3) 多段細分化について紹介する。 これらの設計を組み合わせることで、最適化ベースとフォワードベースの方法の利点をすべて活用する、シンプルで効率的なベースライン手法が形成される。 定量的および定性的な結果から,提案手法は従来の前方法よりも優れた性能を示し,最先端の最適化法と相容れない性能を示した。 さらに,本手法の有効性を示す実画像編集アプリケーションも多数存在する。 プロジェクトページは~\url{https://wty-ustc.git hub.io/inversion}です。

This paper studies the problem of StyleGAN inversion, which plays an essential role in enabling the pretrained StyleGAN to be used for real facial image editing tasks. This problem has the high demand for quality and efficiency. Existing optimization-based methods can produce high quality results, but the optimization often takes a long time. On the contrary, forward-based methods are usually faster but the quality of their results is inferior. In this paper, we present a new feed-forward network for StyleGAN inversion, with significant improvement in terms of efficiency and quality. In our inversion network, we introduce: 1) a shallower backbone with multiple efficient heads across scales; 2) multi-layer identity loss and multi-layer face parsing loss to the loss function; and 3) multi-stage refinement. Combining these designs together forms a simple and efficient baseline method which exploits all benefits of optimization-based and forward-based methods. Quantitative and qualitative results show that our method performs better than existing forward-based methods and comparably to state-of-the-art optimization-based methods, while maintaining the high efficiency as well as forward-based methods. Moreover, a number of real image editing applications demonstrate the efficacy of our method. Our project page is ~\url{https://wty-ustc.git hub.io/inversion}.
翻訳日:2021-04-16 14:48:43 公開日:2021-04-15
# 人工筋肉駆動ロボットのためのデータ駆動アクチュエータ選択

Data-driven Actuator Selection for Artificial Muscle-Powered Robots ( http://arxiv.org/abs/2104.07168v1 )

ライセンス: Link先を確認
Taylor West Henderson and Yuheng Zhi and Angela Liu and Michael C. Yip(参考訳) 人工筋肉は, 適合性, 柔軟性, コンパクト性から人気を博しているが, 筋力ロボットの設計において, 適切な動作戦略を決定づける簡単な方法が存在しないため, より広範な応用への転換が制限されている。 さらに、新しい筋肉運動技術が開発されると、既存のロボットの筋肉と比較するのは困難です。 人工筋肉の開発を加速するために,支援ベクトルマシン(SVM)を用いたロボット筋アクチュエータ選択のためのデータ駆動アプローチを提案する。 このファースト・オブ・its-kind方式によってユーザーは、どのアクチュエータが特定のニーズやアクティベーションのパフォーマンス基準に適合するかを知ることができる。 また、既存の、新しい、あるいはまだ発見されていない人工筋肉技術をベンチマークするプラットフォームも提供する。 本手法を既存のロボット筋肉設計でテストし,実世界のアプリケーションでの使用性を証明する。 我々は、世界中のグループから新しいアクチュエーターデータへの継続的なコントリビューションを可能にし、これらのモデルを拡張および拡張できるように、オープンアクセスでWeb検索可能なインターフェースを提供しています。

Even though artificial muscles have gained popularity due to their compliant, flexible, and compact properties, there currently does not exist an easy way of making informed decisions on the appropriate actuation strategy when designing a muscle-powered robot; thus limiting the transition of such technologies into broader applications. What's more, when a new muscle actuation technology is developed, it is difficult to compare it against existing robot muscles. To accelerate the development of artificial muscle applications, we propose a data driven approach for robot muscle actuator selection using Support Vector Machines (SVM). This first-of-its-kind method gives users gives users insight into which actuators fit their specific needs and actuation performance criteria, making it possible for researchers and engineer with little to no prior knowledge of artificial muscles to focus on application design. It also provides a platform to benchmark existing, new, or yet-to-be-discovered artificial muscle technologies. We test our method on unseen existing robot muscle designs to prove its usability on real-world applications. We provide an open-access, web-searchable interface for easy access to our models that will additionally allow for continuous contribution of new actuator data from groups around the world to enhance and expand these models.
翻訳日:2021-04-16 14:48:17 公開日:2021-04-15
# ディープニューラルネットワークを用いた観測不能分布系の状態とトポロジー推定

State and Topology Estimation for Unobservable Distribution Systems using Deep Neural Networks ( http://arxiv.org/abs/2104.07208v1 )

ライセンス: Link先を確認
B. Azimian, R. Sen Biswas, A. Pal, Lang Tong, Gautam Dasarathy(参考訳) リアルタイムオブザーバビリティが制限されているため,再構成可能な分散ネットワークの時間同期状態推定は困難である。 本稿では、位相同定(TI)と非平衡三相分布系状態推定(DSSE)のための深層学習(DL)に基づくアプローチを定式化し、この問題に対処する。 2つのディープニューラルネットワーク(DNN)は、シンクロファサー測定装置(SMD)で不完全な観測を行うシステムに対して、DNNベースのTIとDSSEを実装するために、順次的に運用するように訓練されている。 また、信頼性の高いTIとDSSEを容易にするための偏差測定選択のためのデータ駆動アプローチも提供する。 提案手法のロバスト性は,SMDの実測誤差モデルと再生可能エネルギーの存在を考慮することで実証される。 dnn-based dsse with classical linear state estimation (lse) の比較研究は、dl-based approachがsmdをかなり少なくして精度を向上させることを示している。

Time-synchronized state estimation for reconfigurable distribution networks is challenging because of limited real-time observability. This paper addresses this challenge by formulating a deep learning (DL)-based approach for topology identification (TI) and unbalanced three-phase distribution system state estimation (DSSE). Two deep neural networks (DNNs) are trained to operate in a sequential manner for implementing DNN-based TI and DSSE for systems that are incompletely observed by synchrophasor measurement devices (SMDs). A data-driven approach for judicious measurement selection to facilitate reliable TI and DSSE is also provided. Robustness of the proposed methodology is demonstrated by considering realistic measurement error models for SMDs as well as presence of renewable energy. A comparative study of the DNN-based DSSE with classical linear state estimation (LSE) indicates that the DL-based approach gives better accuracy with a significantly smaller number of SMDs
翻訳日:2021-04-16 14:47:56 公開日:2021-04-15
# NeuSE:協調フィルタリングのためのニューラルスナップショットアンサンブル手法

NeuSE: A Neural Snapshot Ensemble Method for Collaborative Filtering ( http://arxiv.org/abs/2104.07269v1 )

ライセンス: Link先を確認
Dongsheng Li, Haodong Liu, Chao Chen, Yingying Zhao, Stephen M. Chu, Bo Yang(参考訳) 協調フィルタリング(CF)アルゴリズムでは、最適モデルは通常、すべての観測データ上で平均化された経験的リスクを世界規模で最小化することによって学習される。 しかしながら、グローバルモデルはしばしばユーザ/イテム間のパフォーマンストレードオフによって得られる。すなわち、CFアルゴリズムの非凸最適化の問題により、すべてのユーザ/イテムがグローバルモデルに完全に適合しているわけではない。 アンサンブル学習は、複数の多様なモデルを学習することでこの問題に対処できるが、通常、大規模なデータセットや複雑なアルゴリズムの効率の問題に苦しむ。 本稿では,グローバルモデル学習中に得られた中間モデルをスナップショットモデルとして保持し,メモリネットワークベースの手法を用いて個々のユーザとイテムペアのスナップショットモデルを適応的に組み合わせる。 3つの実世界のデータセットに関する実証的研究により、提案手法は様々な協調フィルタリング手法に適用した場合の精度(最大15.9%の相対)を広範囲に、かつ著しく向上させることができることが示された。

In collaborative filtering (CF) algorithms, the optimal models are usually learned by globally minimizing the empirical risks averaged over all the observed data. However, the global models are often obtained via a performance tradeoff among users/items, i.e., not all users/items are perfectly fitted by the global models due to the hard non-convex optimization problems in CF algorithms. Ensemble learning can address this issue by learning multiple diverse models but usually suffer from efficiency issue on large datasets or complex algorithms. In this paper, we keep the intermediate models obtained during global model learning as the snapshot models, and then adaptively combine the snapshot models for individual user-item pairs using a memory network-based method. Empirical studies on three real-world datasets show that the proposed method can extensively and significantly improve the accuracy (up to 15.9% relatively) when applied to a variety of existing collaborative filtering methods.
翻訳日:2021-04-16 14:47:38 公開日:2021-04-15
# リードI心電図による心房細動の推定 : 心臓科医と機械学習モデル(CurAlive)との比較

Estimation of atrial fibrillation from lead-I ECGs: Comparison with cardiologists and machine learning model (CurAlive), a clinical validation study ( http://arxiv.org/abs/2104.07427v1 )

ライセンス: Link先を確認
N. Korucuk, C. Polat, E. S. Gunduz, O. Karaman, V. Tosun, M. Onac, N. Yildirim, Y. Cete, K. Polat(参考訳) 心不整脈の心電図診断は心疾患診断に重要である。 その強い予測特性のため、医療診断システムではニューラルネットワークが好まれる。 本研究では,人工知能を用いたリードI心電図による心房細動の検出手法を提案する。 本研究の目的は、12個のリード心電図を基準として、心臓科医と人工知能による診断の精度を比較することである。 提案モデルの性能を評価するため,中国生理信号チャレンジ2018からデータセットを収集した。 本研究では,正常正弦波リズム,心房細動,その他の3群で診断を行った。 NSRとAFIBを除く全てのリズムとビートはOTHERスーパークラスとしてラベル付けされた。 OTHERは1度の房室ブロック、伝導障害、左バンドル分岐ブロック、右バンドル分岐ブロック、未熟心房収縮、未熟心室収縮、STセグメント抑制、STセグメント型心電図を含む。 CurAlive A.I。 DenseNetをCNNアーキテクチャとして,連続ウェーブレット変換を特徴抽出法として用いたモデルでは,リードIのみでの心電図の分類において,心臓科医と比較して優れた性能を示した。 AIモデルは、重み付き平均精度、リコール、F1スコア、総精度94.1%、93.6%、93.7%、93.6%に達し、それぞれ平均精度、リコール、F1スコア、総精度82.2%、54.6%、57.5%、54.6%に達した。 本研究は,提案したCNNモデルCurAliveを用いて,リードI心電図を用いてAFIB,NSR,OTHERリズムを正確に診断し,AFIBの早期発見を促進できることを示した。 また、遠隔患者監視システムの一部として、異なるリスクグループに患者を識別することもできる。

Electrocardiogram recognition of cardiac arrhythmias is critical for cardiac abnormality diagnosis. Because of their strong prediction characteristics, artificial neural networks are the preferred method in medical diagnosis systems. This study presents a method to detect atrial fibrillation with lead-I ECGs using artificial intelligence. The aim of the study is to compare the accuracy of the diagnoses estimated by cardiologists and artificial intelligence over lead-I ECGs using 12-lead ECGs as references. To evaluate the performance of the proposed model, dataset were collected from China Physiological Signal Challenge 2018. In the study, diagnoses were examined in three groups as normal sinus rhythm, atrial fibrillation and OTHER. All rhythm and beat types except NSR and AFIB were labeled as OTHER super-class. OTHER contains First-degree atrioventricular blocks, Conduction disturbances, Left bundle branch block, Right bundle branch block, Premature atrial contraction, Premature ventricular contraction, ST-segment depression and ST-segment elevated type ECGs. CurAlive A.I. model which is using DenseNet as a CNN architecture and continuous wavelet transform as feature extraction method, showed a great performance on classifying ECGs from only lead-I compared to cardiologists. The AI model reached the weighted average precision, recall, F1-score and total accuracy 94.1%, 93.6%, 93.7% and 93.6% respectively, and the average of each of the three cardiologists has reached weighted average precision, recall, F1-score and total accuracy 82.2%, 54.6%, 57.5% and 54.6% respectively. This study showed that the proposed CNN model CurAlive, can be used to accurately diagnose AFIB, NSR, and OTHER rhythm using lead-I ECGs to accelerate the early detection of AFIB as a cardiologist assistant. It is also able to identify patients into different risk groups as part of remote patient monitoring systems.
翻訳日:2021-04-16 14:47:22 公開日:2021-04-15
# 難解な可能性に対するロバスト一般化ベイズ推論

Robust Generalised Bayesian Inference for Intractable Likelihoods ( http://arxiv.org/abs/2104.07359v1 )

ライセンス: Link先を確認
Takuo Matsubara, Jeremias Knoblauch, Fran\c{c}ois-Xavier Briol, Chris. J. Oates(参考訳) 一般化ベイズ推論(generalized bayesian inference)は、確率ではなく損失関数を使って事前の信念を更新する。 ここでは、シュタイン差分を損失関数とする一般化ベイズ推論を、その確率が難解な正規化定数を含むような応用によって動機付けられる。 この文脈において、シュタイン差分は正規化定数の評価を回避し、標準マルコフ連鎖モンテカルロを用いて閉形式またはアクセス可能な一般化後部を生成する。 理論的レベルでは、一般化された後部の整合性、漸近正規性、バイアスロス性を示し、これらの性質がスタインの相違の選択によってどのように影響するかを明らかにする。 そして、カーネルベースの指数関数型ファミリーモデルや非ガウス的グラフィカルモデルへの応用を含む、様々な難解分布に関する数値実験を行う。

Generalised Bayesian inference updates prior beliefs using a loss function, rather than a likelihood, and can therefore be used to confer robustness against possible misspecification of the likelihood. Here we consider generalised Bayesian inference with a Stein discrepancy as a loss function, motivated by applications in which the likelihood contains an intractable normalisation constant. In this context, the Stein discrepancy circumvents evaluation of the normalisation constant and produces generalised posteriors that are either closed form or accessible using standard Markov chain Monte Carlo. On a theoretical level, we show consistency, asymptotic normality, and bias-robustness of the generalised posterior, highlighting how these properties are impacted by the choice of Stein discrepancy. Then, we provide numerical experiments on a range of intractable distributions, including applications to kernel-based exponential family models and non-Gaussian graphical models.
翻訳日:2021-04-16 14:46:00 公開日:2021-04-15
# 畳み込みウェーブレットカーネルを用いたDual-GANに基づくエンドツーエンドF0音声変換

Towards end-to-end F0 voice conversion based on Dual-GAN with convolutional wavelet kernels ( http://arxiv.org/abs/2104.07283v1 )

ライセンス: Link先を確認
Cl\'ement Le Moine Veillon, Nicolas Obin and Axel Roebel(参考訳) 本稿では,表現型音声変換におけるF0変換のためのエンドツーエンドフレームワークを提案する。 異なる時間スケールでf0表現を学習するために第1のモジュールを使用し、一方の感情から他方への変換を学習するために第2の敵モジュールを使用する単一のニューラルネットワークを提案する。 第1モジュールは、F0変動の様々な時間スケールを効率的に符号化できるように、ウェーブレットカーネルを備えた畳み込み層からなる。 単一分解/変換ネットワークは、生のF0信号から直接変換に対して最適なF0分解をエンドツーエンドで学習することができる。

This paper presents a end-to-end framework for the F0 transformation in the context of expressive voice conversion. A single neural network is proposed, in which a first module is used to learn F0 representation over different temporal scales and a second adversarial module is used to learn the transformation from one emotion to another. The first module is composed of a convolution layer with wavelet kernels so that the various temporal scales of F0 variations can be efficiently encoded. The single decomposition/transf ormation network allows to learn in a end-to-end manner the F0 decomposition that are optimal with respect to the transformation, directly from the raw F0 signal.
翻訳日:2021-04-16 14:45:26 公開日:2021-04-15
# フェイクオーディオ検出のための連続学習

Continual Learning for Fake Audio Detection ( http://arxiv.org/abs/2104.07286v1 )

ライセンス: Link先を確認
Haoxin Ma, Jiangyan Yi, Jianhua Tao, Ye Bai, Zhengkun Tian, Chenglong Wang(参考訳) 偽音声攻撃は話者認証システムにとって大きな脅威となる。 現在の検出手法はデータセット固有のシナリオで有望な結果を得たが、見当たらないデータでは困難に直面する。 新しいデータを取り込むために、スクラッチから微調整と再トレーニングが適用されている。 しかし、微調整は以前のデータのパフォーマンスを低下させる。 再トレーニングには多くの時間と計算リソースが必要です。 また、一部の状況ではプライバシーのため、以前のデータは利用できない。 そこで本研究では,学習を継続的に行う手法であるフェイクの検出を行なわず,新たなスプーフィング攻撃を段階的に学習させる手法を提案する。 損失関数に知識蒸留損失を導入し、元のモデルの記憶を保存する。 実声の分布は異なるシナリオで一貫性があり、さらに正のサンプルアライメントを行うための別の制約として余分な埋め込み類似性損失が用いられる。 ASVspoof2019データセットで実験が行われる。 その結果,提案手法は平均誤差率を81.62%まで下げることで微調整よりも優れていた。

Fake audio attack becomes a major threat to the speaker verification system. Although current detection approaches have achieved promising results on dataset-specific scenarios, they encounter difficulties on unseen spoofing data. Fine-tuning and retraining from scratch have been applied to incorporate new data. However, fine-tuning leads to performance degradation on previous data. Retraining takes a lot of time and computation resources. Besides, previous data are unavailable due to privacy in some situations. To solve the above problems, this paper proposes detecting fake without forgetting, a continual-learning-b ased method, to make the model learn new spoofing attacks incrementally. A knowledge distillation loss is introduced to loss function to preserve the memory of original model. Supposing the distribution of genuine voice is consistent among different scenarios, an extra embedding similarity loss is used as another constraint to further do a positive sample alignment. Experiments are conducted on the ASVspoof2019 dataset. The results show that our proposed method outperforms fine-tuning by the relative reduction of average equal error rate up to 81.62%.
翻訳日:2021-04-16 14:45:15 公開日:2021-04-15
# 話者注意型音声感情認識

Speaker Attentive Speech Emotion Recognition ( http://arxiv.org/abs/2104.07288v1 )

ライセンス: Link先を確認
Cl\'ement Le Moine, Nicolas Obin and Axel Roebel(参考訳) 音声感情認識(SER)タスクは、Deep Neural Networks(DNN)の出現により、ここ数年で大幅に改善されている。 しかしながら、最も成功した方法でさえ、特定の話者やシナリオへの適応が必要なときにはまだ失敗し、必然的に人間に比べてパフォーマンスが劣る。 本稿では,感情認識ネットワークに話者同一性について教えるというアイデアに基づく新しい研究について述べる。 本システムは,話者認識と感情認識に特化した2つのACRNN分類器の組み合わせである。 1つ目は、音声信号の感情的な情報に焦点を合わせるのに大いに役立つ自己話者注意(SSA)メカニズムを通じて後者に通知する。 社会的態度データベース Att-HACK と IEMOCAP コーパスの実験は,提案手法の有効性を実証し,非重み付き平均リコールの観点から最先端のパフォーマンスを実現する。

Speech Emotion Recognition (SER) task has known significant improvements over the last years with the advent of Deep Neural Networks (DNNs). However, even the most successful methods are still rather failing when adaptation to specific speakers and scenarios is needed, inevitably leading to poorer performances when compared to humans. In this paper, we present novel work based on the idea of teaching the emotion recognition network about speaker identity. Our system is a combination of two ACRNN classifiers respectively dedicated to speaker and emotion recognition. The first informs the latter through a Self Speaker Attention (SSA) mechanism that is shown to considerably help to focus on emotional information of the speech signal. Experiments on social attitudes database Att-HACK and IEMOCAP corpus demonstrate the effectiveness of the proposed method and achieve the state-of-the-art performance in terms of unweighted average recall.
翻訳日:2021-04-16 14:45:00 公開日:2021-04-15
# 電気自動車充電ステーションのSCADAシステムにおけるディープラーニングを用いたランサムウェア検出

Ransomware Detection Using Deep Learning in the SCADA System of Electric Vehicle Charging Station ( http://arxiv.org/abs/2104.07409v1 )

ライセンス: Link先を確認
Manoj Basnet, Subash Poudyal, Mohd. Hasan Ali, Dipankar Dasgupta(参考訳) Supervisory Control and Data acquisition (SCADA) システムは、ネットワークアーキテクチャ、通信プロトコル、次世代通信技術(5G、6G、Wi-Fi 6)、モノのインターネット(IoT)の進化を継続的に活用している。 しかし、SCADAシステムはランサムウェア攻撃者にとって最も利益があり、順調なターゲットとなっている。 本稿では,Deep Neural Network (DNN), 1D Convolution Neural Network (CNN), long short-term memory (LSTM) Recurrent Neural Networkの3つのディープラーニングアルゴリズムの性能解析により,SCADA制御電気自動車充電ステーション(EVCS)におけるディープラーニングに基づく新しいランサムウェア検出フレームワークを提案する。 3つの深層学習に基づくシミュレーションフレームワークはすべて、平均精度(acc)97%、曲線下平均領域(auc)の98%以上、平均的な偽アラームレート(far)が1.88%未満の10倍の階層的クロスバリデーション下の平均f1-scoreを達成している。 ランサムウェアによる分散型サービス拒否(DDoS)攻撃は、SOC制御閾値を超えることによってSOCプロファイルをシフトする傾向にある。 攻撃の進行と侵入が増加するにつれて重症度が増加することが判明した。 また、ランサムウェア駆動の偽データ注入(FDI)攻撃は、SOC制御閾値を操作することで、BESまたは物理システム全体にダメージを与える可能性がある。 これは、ディープラーニングアルゴリズムがパフォーマンスメトリクス間のトレードオフに基づいてデプロイできる設計上の選択と最適化の問題です。

The Supervisory control and data acquisition (SCADA) systems have been continuously leveraging the evolution of network architecture, communication protocols, next-generation communication techniques (5G, 6G, Wi-Fi 6), and the internet of things (IoT). However, SCADA system has become the most profitable and alluring target for ransomware attackers. This paper proposes the deep learning-based novel ransomware detection framework in the SCADA controlled electric vehicle charging station (EVCS) with the performance analysis of three deep learning algorithms, namely deep neural network (DNN), 1D convolution neural network (CNN), and long short-term memory (LSTM) recurrent neural network. All three-deep learning-based simulated frameworks achieve around 97% average accuracy (ACC), more than 98% of the average area under the curve (AUC), and an average F1-score under 10-fold stratified cross-validation with an average false alarm rate (FAR) less than 1.88%. Ransomware driven distributed denial of service (DDoS) attack tends to shift the SOC profile by exceeding the SOC control thresholds. The severity has been found to increase as the attack progress and penetration increases. Also, ransomware driven false data injection (FDI) attack has the potential to damage the entire BES or physical system by manipulating the SOC control thresholds. It's a design choice and optimization issue that a deep learning algorithm can deploy based on the tradeoffs between performance metrics.
翻訳日:2021-04-16 14:44:47 公開日:2021-04-15
# QuickLoc: モバイルデバイスによる高速屋内ローカライゼーションのための適応型ディープラーニング

QuickLoc: Adaptive Deep-Learning for Fast Indoor Localization with Mobile Devices ( http://arxiv.org/abs/2104.07521v1 )

ライセンス: Link先を確認
Saideep Tiku, Prathmesh Kale, Sudeep Pasricha(参考訳) 屋内ローカライズサービスは、将来の都市におけるスマートサイバー物理システムの実現にとって重要な側面である。 このようなサービスは、様々な屋内および地下環境における人や資産のナビゲーションと追跡のプロセスを再発明する。 計算能力のあるスマートフォンの所有権の増大は、ディープラーニングによるポータブルフィンガープリントベースの屋内ローカライゼーションの基礎を築いた。 しかし、正確な測位への需要が増加するにつれて、関連するディープラーニングモデルの計算複雑性も増加する。 本稿では, 位置推定の精度を維持しつつ, 深層学習に基づく屋内定位フレームワークの計算要件を削減する手法を提案する。 提案手法は複数のスマートフォンにまたがって展開され,最大42%の予測遅延の低減と45%の予測エネルギーの低減を実現している。

Indoor localization services are a crucial aspect for the realization of smart cyber-physical systems within cities of the future. Such services are poised to reinvent the process of navigation and tracking of people and assets in a variety of indoor and subterranean environments. The growing ownership of computationally capable smartphones has laid the foundations of portable fingerprinting-based indoor localization through deep learning. However, as the demand for accurate localization increases, the computational complexity of the associated deep learning models increases as well. We present an approach for reducing the computational requirements of a deep learning-based indoor localization framework while maintaining localization accuracy targets. Our proposed methodology is deployed and validated across multiple smartphones and is shown to deliver up to 42% reduction in prediction latency and 45% reduction in prediction energy as compared to the best-known baseline deep learning-based indoor localization model.
翻訳日:2021-04-16 14:44:16 公開日:2021-04-15
# 生命予後のLiイオン電池終端の機能選択を伴う経時的線形モデリング

Piecewise-linear modelling with feature selection for Li-ion battery end of life prognosis ( http://arxiv.org/abs/2104.07576v1 )

ライセンス: Link先を確認
Samuel Greenbank, and David A. Howey(参考訳) リチウムイオン電池の劣化の複雑な性質から、多くの機械学習に基づく健康予測へのアプローチが文献で提案されている。 しかし、機械学習は計算集約的である。 線形アプローチは高速であるが、以前は予後を成功させるには柔軟すぎる。 どちらの手法も、入力の選択と品質はパフォーマンスの制限要因である。 Piecewise-linearモデルは、自動機能選択と組み合わせて、機械学習ほど計算集約的ではない、高速で柔軟な代替手段を提供する。 ここでは、電池の健康予測に対する分割線形アプローチをガウス過程回帰ツールと比較し、等しく良好な結果を得た。 入力特徴選択プロセスは,入力間の相関を制限する効果を示した。 さらなる実験により、分割線形アプローチは、入力サイズとトレーニングデータの可用性を変更するのに頑健であることが判明した。

The complex nature of lithium-ion battery degradation has led to many machine learning based approaches to health forecasting being proposed in literature. However, machine learning can be computationally intensive. Linear approaches are faster but have previously been too inflexible for successful prognosis. For both techniques, the choice and quality of the inputs is a limiting factor of performance. Piecewise-linear models, combined with automated feature selection, offer a fast and flexible alternative without being as computationally intensive as machine learning. Here, a piecewise-linear approach to battery health forecasting was compared to a Gaussian process regression tool and found to perform equally well. The input feature selection process demonstrated the benefit of limiting the correlation between inputs. Further trials found that the piecewise-linear approach was robust to changing input size and availability of training data.
翻訳日:2021-04-16 14:44:05 公開日:2021-04-15
# 集団反復学習制御:参照追跡タスクにおけるマルチエージェントシステムにおける多様性の活用

Collective Iterative Learning Control: Exploiting Diversity in Multi-Agent Systems for Reference Tracking Tasks ( http://arxiv.org/abs/2104.07620v1 )

ライセンス: Link先を確認
Michael Meindl, Fabio Molinari, Dustin Lehmann, Thomas Seel(参考訳) 本論文は,少数の試験において,同じ基準軌道を学習する自律エージェントのグループについて考察する。 本稿では,Iterative Learning Control(ILC)と集団入力更新戦略を組み合わせた新しい集団学習制御法(CILC)を提案する。 このような系の望ましい収束特性の条件を導出する。 提案手法は,エージェントの個別学習戦略の利点を組み合わせることで,単一エージェントiccのトレードオフや制限を克服できることを示す。 この利点は異種集団を設計することで活用され、すなわち、異なる学習法則が各エージェントに割り当てられる。 全ての理論的結果は、2輪倒立振子ロボット(TWIPR)のシミュレーションと実験で確認され、望ましい操作を共同で学習する。

This paper considers a group of autonomous agents learning to track the same given reference trajectory in a possibly small number of trials. We propose a novel collective learning control method (namely, CILC) that combines Iterative Learning Control (ILC) with a collective input update strategy. We derive conditions for desirable convergence properties of such systems. We show that the proposed method allows the collective to combine the advantages of the agents' individual learning strategies and thereby overcomes trade-offs and limitations of single-agent ILC. This benefit is leveraged by designing a heterogeneous collective, i.e., a different learning law is assigned to each agent. All theoretical results are confirmed in simulations and experiments with two-wheeled-inverted -pendulums robots (TWIPRs) that jointly learn to perform a desired maneuver.
翻訳日:2021-04-16 14:43:54 公開日:2021-04-15
# (参考訳) 分散非同期選択最適化(DASO)によるニューラルネットワークトレーニングの高速化 [全文訳有]

Accelerating Neural Network Training with Distributed Asynchronous and Selective Optimization (DASO) ( http://arxiv.org/abs/2104.05588v2 )

ライセンス: CC BY 4.0
Daniel Coquelin, Charlotte Debus, Markus G\"otz, Fabrice von der Lehr, James Kahn, Martin Siggel, and Achim Streit(参考訳) データとモデルの複雑さの増加に伴い、ニューラルネットワークのトレーニングに要する時間は大きくなっている。 トレーニング時間の指数的な増加に対応するため、ユーザは、コンピュータクラスタ上で大規模な分散リソースを使用するために、データ並列ニューラルネットワーク(DPNN)に目を向けている。 現在のDPNNアプローチでは、通信操作をブロックする全プロセスの勾配を同期し平均化することで、ネットワークパラメータの更新を実装している。 この同期はアルゴリズムのボトルネックの中心である。 これに対抗するために,マルチGPU計算ノードアーキテクチャを活用してネットワークトレーニングを高速化する分散非同期選択最適化(DASO)手法を提案する。 DASOはノードローカルネットワークとグローバルネットワークで構成される階層的非同期通信方式を用いて,学習過程におけるグローバル同期率を調整する。 DASOは従来のデータ並列トレーニング手法と比較して,従来のネットワークや最先端ネットワークでは最大34%のトレーニング時間を短縮できることを示す。

With increasing data and model complexities, the time required to train neural networks has become prohibitively large. To address the exponential rise in training time, users are turning to data parallel neural networks (DPNN) to utilize large-scale distributed resources on computer clusters. Current DPNN approaches implement the network parameter updates by synchronizing and averaging gradients across all processes with blocking communication operations. This synchronization is the central algorithmic bottleneck. To combat this, we introduce the Distributed Asynchronous and Selective Optimization (DASO) method which leverages multi-GPU compute node architectures to accelerate network training. DASO uses a hierarchical and asynchronous communication scheme comprised of node-local and global networks while adjusting the global synchronization rate during the learning process. We show that DASO yields a reduction in training time of up to 34% on classical and state-of-the-art networks, as compared to other existing data parallel training methods.
翻訳日:2021-04-16 12:51:14 公開日:2021-04-15
# (参考訳) 多変量深部証拠回帰 [全文訳有]

Multivariate Deep Evidential Regression ( http://arxiv.org/abs/2104.06135v2 )

ライセンス: CC BY 4.0
Nis Meinert and Alexander Lavin(参考訳) 機械学習システムでは、安全性クリティカルな領域にますます展開されるため、原則に基づく不確実性推論が必要となる。 不確実性認識ニューラルネットワークによる新しいアプローチでは、従来の決定論的手法よりも期待できるが、これらのネットワークの理論と実装におけるいくつかの重要なギャップは残っている。 本稿では,レグレッションベースニューラルネットワークからアレータ性およびてんかん性不確かさを抽出する手法を提案する。 上記の提案は、元のガウス確率関数よりも明らかな事前を配置し、ニューラルネットワークをトレーニングして、明らかな分布のハイパーパレルを推測する手法を導出する。 これにより、不確定な回帰タスクのための分散データのサンプリングや利用なしに、両方の不確実性を同時に抽出することができる。 我々は,未解決の問題を詳細に説明し,可能な解決策を提供し,多変量の場合の手法を一般化する。

There is significant need for principled uncertainty reasoning in machine learning systems as they are increasingly deployed in safety-critical domains. A new approach with uncertainty-aware neural networks shows promise over traditional deterministic methods, yet several important gaps in the theory and implementation of these networks remain. We discuss three issues with a proposed solution to extract aleatoric and epistemic uncertainties from regression-based neural networks. The aforementioned proposal derives a technique by placing evidential priors over the original Gaussian likelihood function and training the neural network to infer the hyperparemters of the evidential distribution. Doing so allows for the simultaneous extraction of both uncertainties without sampling or utilization of out-of-distribution data for univariate regression tasks. We describe the outstanding issues in detail, provide a possible solution, and generalize the technique for the multivariate case.
翻訳日:2021-04-16 12:39:07 公開日:2021-04-15
# (参考訳) MS2: 医療研究のマルチドキュメント要約 [全文訳有]

MS2: Multi-Document Summarization of Medical Studies ( http://arxiv.org/abs/2104.06486v2 )

ライセンス: CC BY 4.0
Jay DeYoung, Iz Beltagy, Madeleine van Zuylen, Bailey Kuehl, Lucy Lu Wang(参考訳) 医学的介入の有効性を評価するために、研究者は時間的かつ高度に手作業による文献レビューを行う必要がある。 NLPシステムは、この高価なプロセスの一部を自動化する、または補助するのに役立ちます。 この目的をサポートし、470k以上の文書と20kの要約のデータセットであるms^2(multi-document summarization of medical studies)をリリースする。 このデータセットは、複数の研究にまたがる矛盾する証拠を評価・集約できるシステムの開発を促進し、バイオメディカル領域における最初の大規模で一般公開された多文書要約データセットである。 我々は,BARTに基づく要約システムで実験を行い,有望な早期結果を得た。 自由テキストと構造化形式の両方で要約入力と目標を定式化し、最近提案されたメトリクスを修正し、システムの生成した要約の品質を評価する。 データとモデルはhttps://github.com/a llenai/ms2で入手できる。

To assess the effectiveness of any medical intervention, researchers must conduct a time-intensive and highly manual literature review. NLP systems can help to automate or assist in parts of this expensive process. In support of this goal, we release MS^2 (Multi-Document Summarization of Medical Studies), a dataset of over 470k documents and 20k summaries derived from the scientific literature. This dataset facilitates the development of systems that can assess and aggregate contradictory evidence across multiple studies, and is the first large-scale, publicly available multi-document summarization dataset in the biomedical domain. We experiment with a summarization system based on BART, with promising early results. We formulate our summarization inputs and targets in both free text and structured forms and modify a recently proposed metric to assess the quality of our system's generated summaries. Data and models are available at https://github.com/a llenai/ms2
翻訳日:2021-04-16 12:18:33 公開日:2021-04-15
# 機械翻訳におけるジェンダーバイアス

Gender Bias in Machine Translation ( http://arxiv.org/abs/2104.06001v2 )

ライセンス: Link先を確認
Beatrice Savoldi, Marco Gaido, Luisa Bentivogli, Matteo Negri, Marco Turchi(参考訳) 機械翻訳(mt)技術は,情報収集,詳細化,コミュニケーションのためのアクセス可能なショートカットを提供することで,日々の作業を容易にしてくれます。 しかし、ユーザーや社会全体に害を与える偏見に苦しむこともある。 比較的新しい調査分野として、mtのジェンダーバイアスは依然として内部結合性に欠けており、将来の研究を容易にする統一的な枠組みを提唱している。 この目的のために, i) 関連分野からの理論的洞察を踏まえて, バイアスの現在の概念化を批判的に検討する, ii) mtにおける性バイアス評価を目的とした先行分析を要約する, iii) これまで提案されてきた緩和戦略について議論する, iv) 今後の作業に向けた潜在的方向性を指摘する。

Machine translation (MT) technology has facilitated our daily tasks by providing accessible shortcuts for gathering, elaborating and communicating information. However, it can suffer from biases that harm users and society at large. As a relatively new field of inquiry, gender bias in MT still lacks internal cohesion, which advocates for a unified framework to ease future research. To this end, we: i) critically review current conceptualizations of bias in light of theoretical insights from related disciplines, ii) summarize previous analyses aimed at assessing gender bias in MT, iii) discuss the mitigating strategies proposed so far, and iv) point toward potential directions for future work.
翻訳日:2021-04-16 11:04:31 公開日:2021-04-15
# future is not one-dimensional: イベント予測のためのグラフモデリングベースの複合イベントスキーマインダクション

Future is not One-dimensional: Graph Modeling based Complex Event Schema Induction for Event Prediction ( http://arxiv.org/abs/2104.06344v2 )

ライセンス: Link先を確認
Manling Li, Sha Li, Zhenhailong Wang, Lifu Huang, Kyunghyun Cho, Heng Ji, Jiawei Han, Clare Voss(参考訳) イベントスキーマは、イベントのステレオタイプ構造とその接続に関する知識を符号化する。 イベントが広がるにつれて、スキーマは足場として機能することが不可欠である。 イベントスキーマ誘導に関するこれまでの研究は、原子イベントまたは線形時間イベントシーケンスに焦点を当てており、引数と引数関係によるイベント間の相互作用を無視している。 本稿では、イベント、引数、時間的接続、引数関係を含むグラフベースのスキーマ表現である、テンポラル複合イベントスキーマの概念を紹介する。 さらに,時間的複合イベントスキーマに従ってイベントインスタンスの出現をモデル化する時間的イベントグラフモデルを提案する。 このようなスキーマの構築と評価のために,イベントグラフを伴う6,399の文書を含む新しいスキーマ学習コーパスと,手動で構築したゴールドスキーマをリリースする。 スキーママッチングとインスタンスグラフパープレキシティによる本質的な評価は,線形表現と比較して確率的グラフスキーマライブラリの優れた品質を証明している。 スキーマ誘導イベント予測の外部評価は、イベントグラフモデルの予測能力をさらに証明し、HITS@1上での人間のスキーマとベースラインを17.8%以上上回る。

Event schemas encode knowledge of stereotypical structures of events and their connections. As events unfold, schemas are crucial to act as a scaffolding. Previous work on event schema induction either focuses on atomic events or linear temporal event sequences, ignoring the interplay between events via arguments and argument relations. We introduce the concept of Temporal Complex Event Schema: a graph-based schema representation that encompasses events, arguments, temporal connections and argument relations. Additionally, we propose a Temporal Event Graph Model that models the emergence of event instances following the temporal complex event schema. To build and evaluate such schemas, we release a new schema learning corpus containing 6,399 documents accompanied with event graphs, and manually constructed gold schemas. Intrinsic evaluation by schema matching and instance graph perplexity, prove the superior quality of our probabilistic graph schema library compared to linear representations. Extrinsic evaluation on schema-guided event prediction further demonstrates the predictive power of our event graph model, significantly surpassing human schemas and baselines by more than 17.8% on HITS@1.
翻訳日:2021-04-16 11:03:53 公開日:2021-04-15
# 必要なのは数ピクセルだけ。pixelpickによるセマンティックセグメンテーション

All you need are a few pixels: semantic segmentation with PixelPick ( http://arxiv.org/abs/2104.06394v2 )

ライセンス: Link先を確認
Gyungin Shin, Weidi Xie, Samuel Albanie(参考訳) セマンティックセグメンテーションの課題は、モデルトレーニングを監督するために高密度のピクセルレベルのアノテーションを取得することの禁止コストである。 そこで本研究では,十分なセグメンテーション性能を達成するためには,いくつかの精細なピクセルラベルだけでよいことを示す。 We make the following contributions: (i) We investigate the novel semantic segmentation setting in which labels are supplied only at sparse pixel locations, and show that deep neural networks can use a handful of such labels to good effect; (ii) We demonstrate how to exploit this phenomena within an active learning framework, termed PixelPick, to radically reduce labelling cost, and propose an efficient "mouse-free" annotation strategy to implement our approach; (iii) We conduct extensive experiments to study the influence of annotation diversity under a fixed budget, model pretraining, model capacity and the sampling mechanism for picking pixels in this low annotation regime; (iv) We provide comparisons to the existing state of the art in semantic segmentation with active learning, and demonstrate comparable performance with up to two orders of magnitude fewer pixel annotations on the CamVid, Cityscapes and PASCAL VOC 2012 benchmarks; (v) Finally, we evaluate the efficiency of our annotation pipeline and its sensitivity to annotator error to demonstrate its practicality.

A central challenge for the task of semantic segmentation is the prohibitive cost of obtaining dense pixel-level annotations to supervise model training. In this work, we show that in order to achieve a good level of segmentation performance, all you need are a few well-chosen pixel labels. We make the following contributions: (i) We investigate the novel semantic segmentation setting in which labels are supplied only at sparse pixel locations, and show that deep neural networks can use a handful of such labels to good effect; (ii) We demonstrate how to exploit this phenomena within an active learning framework, termed PixelPick, to radically reduce labelling cost, and propose an efficient "mouse-free" annotation strategy to implement our approach; (iii) We conduct extensive experiments to study the influence of annotation diversity under a fixed budget, model pretraining, model capacity and the sampling mechanism for picking pixels in this low annotation regime; (iv) We provide comparisons to the existing state of the art in semantic segmentation with active learning, and demonstrate comparable performance with up to two orders of magnitude fewer pixel annotations on the CamVid, Cityscapes and PASCAL VOC 2012 benchmarks; (v) Finally, we evaluate the efficiency of our annotation pipeline and its sensitivity to annotator error to demonstrate its practicality.
翻訳日:2021-04-16 11:03:35 公開日:2021-04-15
# (参考訳) デュアルドメインネットワークを用いた合成開口レーダ画像の変化検出

Change Detection in Synthetic Aperture Radar Images Using a Dual-Domain Network ( http://arxiv.org/abs/2104.06699v2 )

ライセンス: CC BY 4.0
Xiaofan Qu, Feng Gao, Junyu Dong, Qian Du, Heng-Chao Li(参考訳) 合成開口レーダ(SAR)画像からの変化検出は、非常に重要な課題である。 既存の手法は主に空間領域の特徴抽出に重点を置いており、周波数領域にはほとんど注目されていない。 さらに,パッチワイズ特徴解析では,限界領域におけるノイズ特性の導入も考えられる。 上記の2つの課題に取り組むため,我々はデュアルドメインネットワークを提案する。 具体的には、離散コサイン変換領域の特徴を考慮に入れ、変形したDCT係数を周波数領域分岐として提案モデルに統合する。 周波数領域と空間領域の両方の特徴表現を用いてスペックルノイズを軽減する。 さらに,各パッチの中央領域を強調するマルチリージョン畳み込みモジュールを提案する。 文脈情報と中心領域特徴を適応的にモデル化する。 3つのSARデータセットに対する実験結果から,提案モデルの有効性が示された。 私たちのコードはhttps://github.com/s ummitgao/sar_cd_ddne tで利用可能です。

Change detection from synthetic aperture radar (SAR) imagery is a critical yet challenging task. Existing methods mainly focus on feature extraction in spatial domain, and little attention has been paid to frequency domain. Furthermore, in patch-wise feature analysis, some noisy features in the marginal region may be introduced. To tackle the above two challenges, we propose a Dual-Domain Network. Specifically, we take features from the discrete cosine transform domain into consideration and the reshaped DCT coefficients are integrated into the proposed model as the frequency domain branch. Feature representations from both frequency and spatial domain are exploited to alleviate the speckle noise. In addition, we further propose a multi-region convolution module, which emphasizes the central region of each patch. The contextual information and central region features are modeled adaptively. The experimental results on three SAR datasets demonstrate the effectiveness of the proposed model. Our codes are available at https://github.com/s ummitgao/SAR_CD_DDNe t.
翻訳日:2021-04-16 09:18:43 公開日:2021-04-15
# (参考訳) DistGNN: 大規模グラフニューラルネットワークのためのスケーラブルな分散トレーニング

DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks ( http://arxiv.org/abs/2104.06700v2 )

ライセンス: CC BY 4.0
Vasimuddin Md, Sanchit Misra, Guixiang Ma, Ramanarayan Mohanty, Evangelos Georganas, Alexander Heinecke, Dhiraj Kalamkar, Nesreen K. Ahmed, Sasikanth Avancha(参考訳) グラフニューラルネットワーク(GNN)による大規模グラフの構造を学ぶためのフルバッチトレーニングは、数百の計算ノードにスケールする必要がある重要な問題である。 単一の計算ノードにおける大きなメモリ容量と帯域幅の要求と、複数のノードにわたる高い通信量のため、これは難しい。 本稿では,効率的な共有メモリ実装によるcpuクラスタのフルバッチトレーニングのためによく知られたディープグラフライブラリ(dgl)を最適化するdistgnn,最小頂点カットグラフ分割アルゴリズムを用いた通信削減,遅延更新アルゴリズムのファミリを用いた通信回避を提案する。 Reddit, OGB-Products, OGB-Papers, Proteinsの4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップを示し、128のCPUソケットを使用して最大97倍のスピードアップを実現した。

Full-batch training on Graph Neural Networks (GNN) to learn the structure of large graphs is a critical problem that needs to scale to hundreds of compute nodes to be feasible. It is challenging due to large memory capacity and bandwidth requirements on a single compute node and high communication volumes across multiple nodes. In this paper, we present DistGNN that optimizes the well-known Deep Graph Library (DGL) for full-batch training on CPU clusters via an efficient shared memory implementation, communication reduction using a minimum vertex-cut graph partitioning algorithm and communication avoidance using a family of delayed-update algorithms. Our results on four common GNN benchmark datasets: Reddit, OGB-Products, OGB-Papers and Proteins, show up to 3.7x speed-up using a single CPU socket and up to 97x speed-up using 128 CPU sockets, respectively, over baseline DGL implementations running on a single CPU socket
翻訳日:2021-04-16 09:18:00 公開日:2021-04-15
# AR-LSAT:テキストの分析的推論の検討

AR-LSAT: Investigating Analytical Reasoning of Text ( http://arxiv.org/abs/2104.06598v2 )

ライセンス: Link先を確認
Wanjun Zhong, Siyuan Wang, Duyu Tang, Zenan Xu, Daya Guo, Jiahai Wang, Jian Yin, Ming Zhou, Nan Duan(参考訳) 分析的推論は、システムが特定の状況を含むシナリオを分析し、結論を出すための推論を行う必要がある、不可欠で困難なタスクである。 本稿では,1991年から2016年までの法学校入学試験において,テキストの分析的推論の課題について検討し,新しいデータセットを導入する。 我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。 さらに,この推論課題に対処するために,(1)最先端の事前学習言語モデルを活用したトランスフォーマー方式と(2)記号的知識(例えば,参加者,事実,論理関数)を抽出して正当な解を推論する論理レベル推論フレームワークである解析推論機(arm)の設計を行った。 実験の結果,Transformerをベースとしたモデルでは,その性能がランダムな推測に近づき,ARMは記号的知識と解釈可能な推論ステップを活用して,より良い性能を達成するため,この課題を解決するのに苦労していることがわかった。 結果は、どちらの手法も人間のパフォーマンスよりはるかに遅れており、今後の研究に余地を残していることを示している。

Analytical reasoning is an essential and challenging task that requires a system to analyze a scenario involving a set of particular circumstances and perform reasoning over it to make conclusions. In this paper, we study the challenge of analytical reasoning of text and introduce a new dataset consisting of questions from the Law School Admission Test from 1991 to 2016. We analyze what knowledge understanding and reasoning abilities are required to do well on this task. Furthermore, to address this reasoning challenge, we design two different baselines: (1) a Transformer-based method which leverages the state-of-the-art pre-trained language models and (2) Analytical Reasoning Machine (ARM), a logical-level reasoning framework extracting symbolic knowledge (e.g, participants, facts, logical functions) to deduce legitimate solutions. In our experiments, we find that the Transformer-based models struggle to solve this task as their performance is close to random guess and ARM achieves better performance by leveraging symbolic knowledge and interpretable reasoning steps. Results show that both methods still lag far behind human performance, which leave further space for future research.
翻訳日:2021-04-16 09:14:29 公開日:2021-04-15