このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210827となっている論文です。

PDF登録状況(公開日: 20210827)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 知覚内符号切り換えのためのリトレーニングフリー音声認識の検討 [全文訳有]

Exploring Retraining-Free Speech Recognition for Intra-sentential Code-Switching ( http://arxiv.org/abs/2109.00921v1 )

ライセンス: CC BY 4.0
Zhen Huang, Xiaodan Zhuang, Daben Liu, Xiaoqiang Xiao, Yuchen Zhang, Sabato Marco Siniscalchi(参考訳) 本稿では,既存の音響モデル (AM) と言語モデル (LM) を利用したコードスイッチング (CS) 音声認識システムの構築に向けた最初の取り組みについて述べる。 このような野心的な目標を達成するために、外国語発音生成と言語モデル(LM)強化のための新たなメカニズムが考案された。 具体的には,既存の音声デコーダとLSTMに基づくG2Pモデルを用いて,母国語(NL)音素集合における外国語(FL)単語の高品質な発音を得るための自動的アプローチを設計した。 アクセント付き発音は、データから直接外国語を学習することで得られる。 さらに、元のNL LMを翻訳語対を用いてCS LMに変換し、NL LMの統計を借りることで、コードスイッチングLMをデプロイした。 実験結果から,人間のラベリングに基づく手法よりもアクセント付き外国語の発音の扱いが優れていることが明らかとなった。 さらに,従来の単言語ASRシステムで得られた単語誤り率の55.5%を,単言語認識精度を損なうことなく,文内CSタスクで15.3%に削減した。

In this paper, we present our initial efforts for building a code-switching (CS) speech recognition system leveraging existing acoustic models (AMs) and language models (LMs), i.e., no training required, and specifically targeting intra-sentential switching. To achieve such an ambitious goal, new mechanisms for foreign pronunciation generation and language model (LM) enrichment have been devised. Specifically, we have designed an automatic approach to obtain high quality pronunciation of foreign language (FL) words in the native language (NL) phoneme set using existing acoustic phone decoders and an LSTM-based grapheme-to-phoneme (G2P) model. Improved accented pronunciations have thus been obtained by learning foreign pronunciations directly from data. Furthermore, a code-switching LM was deployed by converting the original NL LM into a CS LM using translated word pairs and borrowing statistics for the NL LM. Experimental evidence clearly demonstrates that our approach better deals with accented foreign pronunciations than techniques based on human labeling. Moreover, our best system achieves a 55.5% relative word error rate reduction from 34.4%, obtained with a conventional monolingual ASR system, to 15.3% on an intra-sentential CS task without harming the monolingual recognition accuracy.
翻訳日:2021-09-05 09:15:45 公開日:2021-08-27
# (参考訳) 科学ピアレビューのためのオークションと予測市場

Auctions and Prediction Markets for Scientific Peer Review ( http://arxiv.org/abs/2109.00923v1 )

ライセンス: CC BY 4.0
Siddarth Srinivasan, Jamie Morgenstern(参考訳) 査読された出版物は、研究コミュニティが価値あると考えるアイデアを認定し、広める際の金の基準と考えられている。 しかし,本システムの主な欠点は,(1)大量の提出によるレビュアーの圧倒的需要,(2)レビュアーが参加するインセンティブの欠如,および質の高いレビューを提供するために必要な努力の欠如である。 本研究では,ピアレビュープロセスの改善を提案する機構設計手法を採用する。 本稿では,論文提出とレビュープロセスを結び付け,高品質なレビューと高品質な提出を同時にインセンティブする2段階のメカニズムを提案する。 最初の段階では、著者がレビュースロットのVCGオークションに参加し、論文を提出し、論文をレビューする際の期待値を示す入札を行う。 第2段階として,情報化文学における近年の研究を基盤とした新しい予測市場型メカニズム(h-dipp)を提案する。 第1段階のオークションで得た収入は、第2段階のレビューの質に応じてレビュワーに支払われる。

Peer reviewed publications are considered the gold standard in certifying and disseminating ideas that a research community considers valuable. However, we identify two major drawbacks of the current system: (1) the overwhelming demand for reviewers due to a large volume of submissions, and (2) the lack of incentives for reviewers to participate and expend the necessary effort to provide high-quality reviews. In this work, we adopt a mechanism-design approach to propose improvements to the peer review process. We present a two-stage mechanism which ties together the paper submission and review process, simultaneously incentivizing high-quality reviews and high-quality submissions. In the first stage, authors participate in a VCG auction for review slots by submitting their papers along with a bid that represents their expected value for having their paper reviewed. For the second stage, we propose a novel prediction market-style mechanism (H-DIPP) building on recent work in the information elicitation literature, which incentivizes participating reviewers to provide honest and effortful reviews. The revenue raised by the Stage I auction is used in Stage II to pay reviewers based on the quality of their reviews.
翻訳日:2021-09-05 09:02:58 公開日:2021-08-27
# 形状による生物・人工物の分類

Classifying Organisms and Artefacts By Their Shapes ( http://arxiv.org/abs/2109.00920v1 )

ライセンス: Link先を確認
Arianna Salili-James, Anne Mackay, Emilio Rodriguez-Alvarez, Diana Rodriguez-Perez, Thomas Mannack, Timothy A. Rawlings, A. Richard Palmer, Jonathan Todd, Terhi E. Riutta, Cate Macinnis-Ng, Zhitong Han, Megan Davies, Zinnia Thorpe, Stephen Marsland, and Armand M. Leroi(参考訳) 私たちはしばしば、オブジェクトを形によって分類したいと考えています。 実際、形状の研究は進化生物学、構造生物学、画像処理、考古学など多くの科学分野の重要な部分である。 最も広く使われている形状解析法である幾何形態計測は、形状が表現される数学的空間が線型であることを仮定する。 しかし、形状空間が実際はもっと複雑で、確実に非線形であることは、長い間知られていた。 この非線型性を考慮に入れ、形間の距離をより正確に推定する微分同型法は存在するが、実世界の問題にはほとんど適用されていない。 機械分類器を用いて, 様々な有機物や人工物の形状を記述・分類する手法について検討した。 その結果,正方形速度関数 (SRVF) は標準的な幾何形状法 (eigenshapes) など,他の手法よりも優れていることがわかった。 また、計算形状分類器は人間の専門家より優れており、SRVF間の最短経路は進化系列の中間ステップの形状を推定するためにも利用できることを示した。 本研究は, 自然科学と人間科学における多くの形状記述・分類問題に対する, 実用的で効果的な解法を提供するものである。

We often wish to classify objects by their shapes. Indeed, the study of shapes is an important part of many scientific fields such as evolutionary biology, structural biology, image processing, and archaeology. The most widely-used method of shape analysis, Geometric Morphometrics, assumes that that the mathematical space in which shapes are represented is linear. However, it has long been known that shape space is, in fact, rather more complicated, and certainly non-linear. Diffeomorphic methods that take this non-linearity into account, and so give more accurate estimates of the distances among shapes, exist but have rarely been applied to real-world problems. Using a machine classifier, we tested the ability of several of these methods to describe and classify the shapes of a variety of organic and man-made objects. We find that one method, the Square-Root Velocity Function (SRVF), is superior to all others, including a standard Geometric Morphometric method (eigenshapes). We also show that computational shape classifiers outperform human experts, and that the SRVF shortest-path between shapes can be used to estimate the shapes of intermediate steps in evolutionary series. Diffeomorphic shape analysis methods, we conclude, now provide practical and effective solutions to many shape description and classification problems in the natural and human sciences.
翻訳日:2021-09-05 08:55:01 公開日:2021-08-27
# (参考訳) 畳み込みニューラルネットワークによるフィールド再構成 [全文訳有]

A Convolutional Neural Network-based Approach to Field Reconstruction ( http://arxiv.org/abs/2108.13517v1 )

ライセンス: CC BY 4.0
Roberto Ponciroli and Andrea Rovinelli and Lander Ibarra(参考訳) この作品はieeeに提出され、出版される可能性がある。 著作権は通知なしで転送され、その後、このバージョンはアクセスできなくなる。 多くの応用において、領域の空間分布はスパイク、不連続、危険な異質性を検出するために注意深く監視される必要があるが、侵襲的監視アプローチは使用できない。 さらに、システムの正確なモデルの採用を防止することで、プロセスに関する技術的な仕様は利用できないかもしれない。 本研究では,これらの要求に対処可能な物理インフォームドデータ駆動アルゴリズムを提案する。 この手法は畳み込みニューラルネットワークにおける境界要素法(BEM)スキームの実装に基づいている。 連続的な数学的関数をパラメータの少ない数で表現する能力により、ネットワークは境界条件と領域内の測定値の少ない領域の任意の点におけるフィールド値を予測することができる。 ヘルムホルツ方程式が3次元領域上で記述した場を再構成するために,提案手法を適用した。 また,異なる物理的条件と異なるネットワーク構成を調査して感度解析を行った。 唯一の仮定はbemの適用性であるため、現在のアプローチは、水貯水池内の汚染物質源の局在から原子炉内の中性子フラックスの監視まで、幅広いプロセスの監視に適用することができる。

This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible. In many applications, the spatial distribution of a field needs to be carefully monitored to detect spikes, discontinuities or dangerous heterogeneities, but invasive monitoring approaches cannot be used. Besides, technical specifications about the process might not be available by preventing the adoption of an accurate model of the system. In this work, a physics-informed, data-driven algorithm that allows addressing these requirements is presented. The approach is based on the implementation of a boundary element method (BEM)-scheme within a convolutional neural network. Thanks to the capability of representing any continuous mathematical function with a reduced number of parameters, the network allows predicting the field value in any point of the domain, given the boundary conditions and few measurements within the domain. The proposed approach was applied to reconstruct a field described by the Helmholtz equation over a three-dimensional domain. A sensitivity analysis was also performed by investigating different physical conditions and different network configurations. Since the only assumption is the applicability of BEM, the current approach can be applied to the monitoring of a wide range of processes, from the localization of the source of pollutant within a water reservoir to the monitoring of the neutron flux in a nuclear reactor.
翻訳日:2021-09-02 07:54:39 公開日:2021-08-27
# (参考訳) Covid-19パンデミックに対する予防接種キャンペーンの効果のモデル化 [全文訳有]

Modeling the effect of the vaccination campaign on the Covid-19 pandemic ( http://arxiv.org/abs/2108.13908v1 )

ライセンス: CC BY 4.0
Mattia Angeli, Georgios Neofotistos, Marios Mattheakis and Efthimios Kaxiras(参考訳) 集団予防接種は、SARS-CoV-2(Covid-19) パンデミックと制限および予防措置の併用に重要である。 本研究では,予防接種キャンペーン中にコビッドウイルスの流行を予測できる数学的モデルであるSAIVRを紹介する。 SAIVRは、無症状 (A) とワクチン (V) のコンパートメントを考慮し、広く使われている感受性感染除去 (SIR) モデルを拡張している。 このモデルは、半教師付き機械学習手法を用いて推定されるいくつかのパラメータと初期条件を含む。 教師なしニューラルネットワークをトレーニングしてSAIVR微分方程式を解いた後、教師付きフレームワークは27か国の感染曲線に最も適合する最適な条件とパラメータを推定する。 これらの結果から, 日中感染率, ワクチン有効性, および, 広範囲の社会的ワクチン依存度, デンタルレベルにおいて, パンデミックの経時的変化について広範な研究を行った。 群れ免疫の概念は、異なるワクチン接種とより感染性の高いコビッドウイルスの変異を含む将来のシナリオを研究することで疑問視されている。

Population-wide vaccination is critical for containing the SARS-CoV-2 (Covid-19) pandemic when combined with restrictive and prevention measures. In this study, we introduce SAIVR, a mathematical model able to forecast the Covid-19 epidemic evolution during the vaccination campaign. SAIVR extends the widely used Susceptible-Infectio us-Removed (SIR) model by considering the Asymptomatic (A) and Vaccinated (V) compartments. The model contains several parameters and initial conditions that are estimated by employing a semi-supervised machine learning procedure. After training an unsupervised neural network to solve the SAIVR differential equations, a supervised framework then estimates the optimal conditions and parameters that best fit recent infectious curves of 27 countries. Instructed by these results, we performed an extensive study on the temporal evolution of the pandemic under varying values of roll-out daily rates, vaccine efficacy, and a broad range of societal vaccine hesitancy/denial levels. The concept of herd immunity is questioned by studying future scenarios which involve different vaccination efforts and more infectious Covid-19 variants.
翻訳日:2021-09-02 07:42:38 公開日:2021-08-27
# DoWhy: 因果推定の表現と検証における課題

DoWhy: Addressing Challenges in Expressing and Validating Causal Assumptions ( http://arxiv.org/abs/2108.13518v1 )

ライセンス: Link先を確認
Amit Sharma, Vasilis Syrgkanis, Cheng Zhang, Emre K{\i}c{\i}man(参考訳) 因果効果の推定には、効果の方向性、機器変数や仲介者の存在、そしてすべての関連する共同設立者が観察されるかどうかといった、データ生成プロセスに関する重要な仮定が含まれる。 これらの仮定の違反は、効果推定において重大な誤差をもたらす。 しかし、予測モデルに対するクロスバリデーションとは異なり、因果推定のためのグローバルバリデータ法は存在しない。 その結果、異なる因果的仮定を形式的に表現し、それらを(可能な限り)検証することは、あらゆる分析に不可欠となる。 因果グラフを通じて仮定を明示的に宣言し、これらの仮定のサブセットをチェックするために複数の検証テストを提供するフレームワークであるdowhyを提案する。 仮定を表現するための因果グラフ以外の新しい方法の開発、グラフの関連部分の学習における因果発見の役割、平均的および条件的治療効果の両方においてエラーをよりよく検出できる検証テストの開発です。 dowhyはhttps://github.com/m icrosoft/dowhyで入手できる。

Estimation of causal effects involves crucial assumptions about the data-generating process, such as directionality of effect, presence of instrumental variables or mediators, and whether all relevant confounders are observed. Violation of any of these assumptions leads to significant error in the effect estimate. However, unlike cross-validation for predictive models, there is no global validator method for a causal estimate. As a result, expressing different causal assumptions formally and validating them (to the extent possible) becomes critical for any analysis. We present DoWhy, a framework that allows explicit declaration of assumptions through a causal graph and provides multiple validation tests to check a subset of these assumptions. Our experience with DoWhy highlights a number of open questions for future research: developing new ways beyond causal graphs to express assumptions, the role of causal discovery in learning relevant parts of the graph, and developing validation tests that can better detect errors, both for average and conditional treatment effects. DoWhy is available at https://github.com/m icrosoft/dowhy.
翻訳日:2021-09-01 14:37:10 公開日:2021-08-27
# (参考訳) 瞬時・持続的時間現象の表現と処理 [全文訳有]

Representation and Processing of Instantaneous and Durative Temporal Phenomena ( http://arxiv.org/abs/2108.13365v1 )

ライセンス: CC BY 4.0
Manolis Pitsikalis, Alexei Lisitsa and Shan Luo(参考訳) 複合イベント処理システムにおけるイベント定義は、各システムの言語表現性によって制約される。 一部のシステムでは瞬時に複雑なイベントを定義できるが、他のシステムでは耐久性のある複合イベントを定義できる。 両方の選択肢を提供する例外はあるが、しばしばアレンの区間代数によって指定されるような区間関係が欠落する。 本稿では,複雑な事象処理を念頭に置いて,瞬時現象と耐久性現象の表現とそれらの時間関係を両立させる,新しい論理に基づく時相現象定義言語を提案する。 さらに,海事事件を規定する海事利用事例を用いて,提案言語の表現性を実証する。 最後に,ストリーム処理のための提案言語の実行セマンティクスを分析し,'phenesthe'実装プロトタイプを紹介する。

Event definitions in Complex Event Processing systems are constrained by the expressiveness of each system's language. Some systems allow the definition of instantaneous complex events, while others allow the definition of durative complex events. While there are exceptions that offer both options, they often lack of intervals relations such as those specified by the Allen's interval algebra. In this paper, we propose a new logic based temporal phenomena definition language, specifically tailored for Complex Event Processing, that allows the representation of both instantaneous and durative phenomena and the temporal relations between them. Moreover, we demonstrate the expressiveness of our proposed language by employing a maritime use case where we define maritime events of interest. Finally, we analyse the execution semantics of our proposed language for stream processing and introduce the `Phenesthe' implementation prototype.
翻訳日:2021-09-01 12:24:23 公開日:2021-08-27
# (参考訳) 低次モデリングのための畳み込みオートエンコーダ [全文訳有]

Convolutional Autoencoders for Reduced-Order Modeling ( http://arxiv.org/abs/2108.12453v1 )

ライセンス: CC BY 4.0
Sreeram Venkat, Ralph C. Smith, Carl T. Kelley(参考訳) 力学系の還元次モデルの構築では、適切な直交分解のような線形射影法が一般的に用いられる。 しかし、多くの力学系に対して、状態空間の低次元表現は、最も正確には \textit{nonlinear} 多様体で記述できる。 従来の研究では、ディープラーニングはトレーニングデータの可用性に依存しており、しばしば問題固有の \citep[see][]{carlberg_ca} であるにもかかわらず、非線形次元の削減を効率的に行うことができることが示されている。 本稿では、ランダム化学習データを用いて、波動および倉本-シヴァシンスキー方程式の非線形次元還元を行う畳み込みオートエンコーダを作成し、訓練する。 さらに,全次モデルサンプルとは独立な学習法を示し,多様体最小二乗ペトロフ・ガレルキン射影法を用いて,同じオートエンコーダを用いた熱,波,倉本-シヴァシンスキー方程式の還元次モデルを定義する。

In the construction of reduced-order models for dynamical systems, linear projection methods, such as proper orthogonal decompositions, are commonly employed. However, for many dynamical systems, the lower dimensional representation of the state space can most accurately be described by a \textit{nonlinear} manifold. Previous research has shown that deep learning can provide an efficient method for performing nonlinear dimension reduction, though they are dependent on the availability of training data and are often problem-specific \citep[see][]{carlberg_ca}. Here, we utilize randomized training data to create and train convolutional autoencoders that perform nonlinear dimension reduction for the wave and Kuramoto-Shivasinsky equations. Moreover, we present training methods that are independent of full-order model samples and use the manifold least-squares Petrov-Galerkin projection method to define a reduced-order model for the heat, wave, and Kuramoto-Shivasinsky equations using the same autoencoder.
翻訳日:2021-09-01 11:27:48 公開日:2021-08-27
# (参考訳) Pivots から Graphs: 一般化としてのAugmented CycleDensity から One Time InverseConsultation へ [全文訳有]

From Pivots to Graphs: Augmented CycleDensity as a Generalization to One Time InverseConsultation ( http://arxiv.org/abs/2108.12459v1 )

ライセンス: CC BY 4.0
Shashwat Goel and Kunwar Shaanjeet Singh Grover(参考訳) 本稿では,第4タスク推論辞書(TIAD 2021)共有タスクの一部として,生のバイリンガル辞書を用いて新しい翻訳を生成する手法について述べる。 本稿では,感覚情報や並列コーパスを必要としない技術手法の2つの状態,すなわちサイクル密度(CD)とOne Time Inverse Consultation(OTIC)の知見を組み合わせたフレームワークとして,ACD(Augmented Cycle Density)を提案する。 タスク結果は、ACDの予測である3つの未確認言語ペアのうち、OTICのカバレッジがほぼ同じ精度(76%)で2倍以上(74%)であることを示している。 ACDは、より優れた予測のためにリッチな多言語グラフを平均化するCDのスケーラビリティと、OTICのデータ効率を組み合わせる。

This paper describes an approach used to generate new translations using raw bilingual dictionaries as part of the 4th Task Inference Across Dictionaries (TIAD 2021) shared task. We propose Augmented Cycle Density (ACD) as a framework that combines insights from two state of the art methods that require no sense information and parallel corpora: Cycle Density (CD) and One Time Inverse Consultation (OTIC). The task results show that across 3 unseen language pairs, ACD's predictions, has more than double (74%) the coverage of OTIC at almost the same precision (76%). ACD combines CD's scalability - leveraging rich multilingual graphs for better predictions, and OTIC's data efficiency - producing good results with the minimum possible resource of one pivot language.
翻訳日:2021-09-01 11:14:57 公開日:2021-08-27
# (参考訳) ニューラルネットワークの近似ベイズ最適化 [全文訳有]

Approximate Bayesian Optimisation for Neural Networks ( http://arxiv.org/abs/2108.12461v1 )

ライセンス: CC BY 4.0
Nadhir Hassen, Irina Rish(参考訳) モデル選択の重要性を強調するために、機械学習アルゴリズムを自動化するための一連の作業が行われた。 最適な予測モデルとそのパラメータを選択するプロセスを自動化すれば、現実世界の幅広いアプリケーションを改善することができる。 ベイズ最適化 (bayesian optimization, bo) はブラックボックス最適化手法を用いて、獲得関数による探索・探索トレードオフ基準に従って解を提案する。 BOフレームワークは2つの重要な要素を課している: 未知の目的関数(データ依存)の事前の信念からなる確率的サロゲートモデルと、モデルに適した最適性を記述する目的関数である。 最良のモデルとその関連するハイパーパラメータを選択することは、非常に高価であり、典型的にはガウス過程(gps)と、その難解性から近似推論を適用する拡張を用いて適合する。 しかし,GPは観測回数とともに3次スケールするので,多くの評価を必要とする最適化対象の処理は困難である。 加えて、ほとんどの実データセットは、サロゲートモデル上で理想主義的な仮定をする非定常である。 統計的手法による解析的トラクタビリティと計算可能性の解決の必要性により、ベイズ最適化の効率性と適用性を確保することができる。 本稿では,関数上の分布をモデル化するためのGPの代替としてニューラルネットワークを用いることを検討するとともに,近似推論に基づく密度比推定とクラス確率推定のリンクを提供し,アルゴリズムの効率とトラクタビリティを提供する。

A body of work has been done to automate machine learning algorithm to highlight the importance of model choice. Automating the process of choosing the best forecasting model and its corresponding parameters can result to improve a wide range of real-world applications. Bayesian optimisation (BO) uses a blackbox optimisation methods to propose solutions according to an exploration-exploita tion trade-off criterion through acquisition functions. BO framework imposes two key ingredients: a probabilistic surrogate model that consist of prior belief of the unknown objective function(data-depend ant) and an objective function that describes how optimal is the model-fit. Choosing the best model and its associated hyperparameters can be very expensive, and is typically fit using Gaussian processes (GPs) and at some extends applying approximate inference due its intractability. However, since GPs scale cubically with the number of observations, it has been challenging to handle objectives whose optimization requires many evaluations. In addition, most real-dataset are non-stationary which make idealistic assumptions on surrogate models. The necessity to solve the analytical tractability and the computational feasibility in a stochastic fashion enables to ensure the efficiency and the applicability of Bayesian optimisation. In this paper we explore the use of neural networks as an alternative to GPs to model distributions over functions, we provide a link between density-ratio estimation and class probability estimation based on approximate inference, this reformulation provides algorithm efficiency and tractability.
翻訳日:2021-09-01 11:08:06 公開日:2021-08-27
# (参考訳) グラフニューラルネットワークを用いてディープニューラルネットワークの性能をモデル化する [全文訳有]

Using Graph Neural Networks to model the performance of Deep Neural Networks ( http://arxiv.org/abs/2108.12489v1 )

ライセンス: CC BY 4.0
Shikhar Singh, Benoit Steiner, James Hegarty, Hugh Leather(参考訳) 前例のない機械学習ソフトウェアの普及に伴い、このようなアプリケーションのために効率的なコードを生成する必要性がますます高まっている。 TVMやHalideのような最先端のディープラーニングコンパイラは、学習ベースのパフォーマンスモデルを使って、与えられたディープラーニングアルゴリズムの有効な実装の空間を探索する。 あるアプリケーションでは、モデルはハードウェア上でアプリケーションを実行することなく、実行時間のようなパフォーマンス指標を生成する。 このようなモデルは、ハードウェア上で膨大な数の候補実装(スケジュールと呼ばれる)をベンチマークする必要をなくし、コンパイルプロセスを高速化する。 既存のパフォーマンスモデルは、フィードフォワードネットワーク、リカレントネットワーク、決定ツリーアンサンブルを使用して、ニューラルネットワークの異なる実装のパフォーマンスを推定する。 グラフは、各ノードが計算段階または演算を表すディープラーニングネットワークをモデル化する自然で直感的な方法を示す。 これらのワークロードの固有のグラフ構造をパフォーマンスモデルに組み込むことで、ステージ間インタラクションの表現と学習が向上する。 性能モデルの精度は、探索戦略の効率に直接影響し、このクラスのディープラーニングコンパイラの重要な構成要素となる。 本研究では,グラフ表現を用いた新しいパフォーマンスモデルを開発した。 我々のモデルでは,各段階の計算は,ステージによって実行される操作をキャプチャする特徴を特徴とするノードを表す。 ノード間の相互作用はグラフ畳み込みによって達成される。 実験評価では, ハライドモデルとtvmモデルと比較して予測誤差が7:75x, 12倍低減した。

With the unprecedented proliferation of machine learning software, there is an ever-increasing need to generate efficient code for such applications. State-of-the-art deep-learning compilers like TVM and Halide incorporate a learning-based performance model to search the space of valid implementations of a given deep learning algorithm. For a given application, the model generates a performance metric such as the run time without executing the application on hardware. Such models speed up the compilation process by obviating the need to benchmark an enormous number of candidate implementations, referred to as schedules, on hardware. Existing performance models employ feed-forward networks, recurrent networks, or decision tree ensembles to estimate the performance of different implementations of a neural network. Graphs present a natural and intuitive way to model deep-learning networks where each node represents a computational stage or operation. Incorporating the inherent graph structure of these workloads in the performance model can enable a better representation and learning of inter-stage interactions. The accuracy of a performance model has direct implications on the efficiency of the search strategy, making it a crucial component of this class of deep-learning compilers. In this work, we develop a novel performance model that adopts a graph representation. In our model, each stage of computation represents a node characterized by features that capture the operations performed by the stage. The interaction between nodes is achieved using graph convolutions. Experimental evaluation shows a 7:75x and 12x reduction in prediction error compared to the Halide and TVM models, respectively.
翻訳日:2021-09-01 10:47:47 公開日:2021-08-27
# (参考訳) VisGraphNet:畳み込みニューラル特徴の複雑なネットワーク解釈 [全文訳有]

VisGraphNet: a complex network interpretation of convolutional neural features ( http://arxiv.org/abs/2108.12490v1 )

ライセンス: CC BY 4.0
Joao B. Florindo, Young-Sup Lee, Kyungkoo Jun, Gwanggil Jeon, Marcelo K. Albertini(参考訳) 本稿では,ニューラルネットワークの特徴マップをモデル化するための可視性グラフの利用を提案し,検討する。 複雑なネットワークの研究のために最初に考案されたこのモデルは、テクスチャ画像の分類に使用される。 この研究は、元のデータの上にこれらのグラフによって提供される別の視点によって動機づけられている。 提案手法の性能は, KTHTIPS-2b, FMD, UIUC, UMDの4つのベンチマークデータベースの分類において検証され, 葉のスキャン画像を用いて植物種の同定を行う。 本手法は他の最先端手法と競合し,テクスチャ分類におけるニューラルネットワークの利用についてより意味のある解釈を行うために,異なる文脈におけるデータ解析技術の可能性を確認した。

Here we propose and investigate the use of visibility graphs to model the feature map of a neural network. The model, initially devised for studies on complex networks, is employed here for the classification of texture images. The work is motivated by an alternative viewpoint provided by these graphs over the original data. The performance of the proposed method is verified in the classification of four benchmark databases, namely, KTHTIPS-2b, FMD, UIUC, and UMD and in a practical problem, which is the identification of plant species using scanned images of their leaves. Our method was competitive with other state-of-the-art approaches, confirming the potential of techniques used for data analysis in different contexts to give more meaningful interpretation to the use of neural networks in texture classification.
翻訳日:2021-09-01 10:30:37 公開日:2021-08-27
# (参考訳) 画像局所的特徴のフラクタル測度:テクスチャ認識への応用 [全文訳有]

Fractal measures of image local features: an application to texture recognition ( http://arxiv.org/abs/2108.12491v1 )

ライセンス: CC BY 4.0
Pedro M. Silva, Joao B. Florindo(参考訳) 本稿では,フラクタル測度(フラクタル次元,マルチフラクタルスペクトル,ラキュナリティー)と局所2値パターンを組み合わせたテクスチャ画像の分類法を提案する。 より具体的には、異なるレベルで閾値付けられたローカルバイナリコードのボックスカウント次元を計算して特徴ベクトルを構成する。 この提案は、KTHTIPS-2b、UDD、UIUCの3つのベンチマークデータベースの分類と、実世界の問題、すなわち、葉のスキャン画像を用いたブラジルの植物種(データベース1200Tex)の識別において評価されている。 提案手法は文献に報告されている他の最先端のソリューションと競合することを示した。 これらの結果から,テクスチャ分類のためのフラクタル次元が捉えたマルチスケール情報と,強力な局所符号化記述を組み合わせる可能性が示唆された。

Here we propose a new method for the classification of texture images combining fractal measures (fractal dimension, multifractal spectrum and lacunarity) with local binary patterns. More specifically we compute the box counting dimension of the local binary codes thresholded at different levels to compose the feature vector. The proposal is assessed in the classification of three benchmark databases: KTHTIPS-2b, UMD and UIUC as well as in a real-world problem, namely the identification of Brazilian plant species (database 1200Tex) using scanned images of their leaves. The proposed method demonstrated to be competitive with other state-of-the-art solutions reported in the literature. Such results confirmed the potential of combining a powerful local coding description with the multiscale information captured by the fractal dimension for texture classification.
翻訳日:2021-09-01 10:22:21 公開日:2021-08-27
# (参考訳) 深層ニューラルネットワークにおける逆移動性乱れ [全文訳有]

Disrupting Adversarial Transferability in Deep Neural Networks ( http://arxiv.org/abs/2108.12492v1 )

ライセンス: CC BY 4.0
Christopher Wiedeman, Ge Wang(参考訳) adversarial attack transferabilityはディープラーニングにおいてよく認識される現象である。 先行研究は、共通の逆部分空間と決定境界の間の相関を認識させることで、転送可能性について部分的に説明してきたが、それ以上の文献ではほとんど説明されていない。 本稿では,異なるモデル間の転送性は,異なるディープニューラルネットワークが抽出する特徴間の高い線形相関に起因することを提案する。 言い換えれば、パラメータ空間のように見える同じタスクで訓練された2つのモデルは、潜在空間間の自明なシフトと回転とともに、同じ方法で特徴を抽出する可能性が高い。 さらに, 潜在空間で抽出された特徴の相関を解消する特徴相関損失を適用することで, モデル間の敵攻撃の伝達可能性を大幅に低減し, モデルが意味的に異なる方法でタスクを完了することを示唆する。 最後に、この特徴相関損失を利用して、2つの有意義に異なる2つの入力情報のエンコードを生成するDual Neck Autoencoder (DNA)を提案する。

Adversarial attack transferability is a well-recognized phenomenon in deep learning. Prior work has partially explained transferability by recognizing common adversarial subspaces and correlations between decision boundaries, but we have found little explanation in the literature beyond this. In this paper, we propose that transferability between seemingly different models is due to a high linear correlation between features that different deep neural networks extract. In other words, two models trained on the same task that are seemingly distant in the parameter space likely extract features in the same fashion, just with trivial shifts and rotations between the latent spaces. Furthermore, we show how applying a feature correlation loss, which decorrelates the extracted features in a latent space, can drastically reduce the transferability of adversarial attacks between models, suggesting that the models complete tasks in semantically different ways. Finally, we propose a Dual Neck Autoencoder (DNA), which leverages this feature correlation loss to create two meaningfully different encodings of input information with reduced transferability.
翻訳日:2021-09-01 10:08:42 公開日:2021-08-27
# (参考訳) gaussian mixture variational autoencoderを用いたタンパク質折り畳みシミュレーションの変分埋め込み [全文訳有]

Variational embedding of protein folding simulations using gaussian mixture variational autoencoders ( http://arxiv.org/abs/2108.12493v1 )

ライセンス: CC BY 4.0
Mahdi Ghorbani, Samarjeet Prasad, Jeffery B. Klauda, Bernard R. Brooks(参考訳) 分子動力学シミュレーションを用いた生体分子のコンフォーマルサンプリングは、しばしば大量の高次元データを生成するため、従来の解析手法では解釈が困難である。 したがって,有用かつ関連性の高い情報を抽出するために次元化手法が必要である。 そこで我々は,生体分子配座の次元的縮小とクラスタリングを同時に行うことができる機械学習手法,ガウス混合変分オートエンコーダ(GMVAE)を考案する。 GMVAEはタンパク質の折りたたみ時の準安定状態に対応する高度に分離されたクラスターで、タンパク質の折りたたみの自由エネルギー景観の少ない表現を学習できることを示す。 GMVAEはガウスの混合物を前者に用いているため、タンパク質の折り畳み自由エネルギー景観のマルチベースの性質を直接認識することができる。 モデルをエンドツーエンドで微分可能にするために、Gumbel-softmax分布を用いる。 本モデルでは, 3つの長期的タンパク質の折りたたみ軌道上で実験を行い, GMVAEの埋め込みは, 折りたたみ状態と, 折りたたみ状態との相似性を示した。 さらに, GMVAEの潜伏空間を運動解析に利用し, この埋め込み上に構築されたマルコフ状態モデルが, 時間独立成分分析(TICA)などの厳密な動的埋め込みと密に一致した折り畳みおよび展開時間スケールを生成することを示す。

Conformational sampling of biomolecules using molecular dynamics simulations often produces large amount of high dimensional data that makes it difficult to interpret using conventional analysis techniques. Dimensionality reduction methods are thus required to extract useful and relevant information. Here we devise a machine learning method, Gaussian mixture variational autoencoder (GMVAE) that can simultaneously perform dimensionality reduction and clustering of biomolecular conformations in an unsupervised way. We show that GMVAE can learn a reduced representation of the free energy landscape of protein folding with highly separated clusters that correspond to the metastable states during folding. Since GMVAE uses a mixture of Gaussians as the prior, it can directly acknowledge the multi-basin nature of protein folding free-energy landscape. To make the model end-to-end differentialble, we use a Gumbel-softmax distribution. We test the model on three long-timescale protein folding trajectories and show that GMVAE embedding resembles the folding funnel with folded states down the funnel and unfolded states outer in the funnel path. Additionally, we show that the latent space of GMVAE can be used for kinetic analysis and Markov state models built on this embedding produce folding and unfolding timescales that are in close agreement with other rigorous dynamical embeddings such as time independent component analysis (TICA).
翻訳日:2021-09-01 09:49:24 公開日:2021-08-27
# (参考訳) t2強調mriにおけるマスクr-cnnの自動腎分画 [全文訳有]

Automated Kidney Segmentation by Mask R-CNN in T2-weighted Magnetic Resonance Imaging ( http://arxiv.org/abs/2108.12506v1 )

ライセンス: CC BY 4.0
Manu Goyal, Junyu Guo, Lauren Hinojosa, Keith Hulsey, Ivan Pedrosa(参考訳) 医学画像におけるディープラーニングアルゴリズムの最近の進歩にもかかわらず、MRI検査における腎臓の自動セグメンテーションアルゴリズムはいまだに不足している。 核磁気共鳴画像検査(MRI)における腎臓の自動分画は、腎疾患の放射能と機械学習解析を可能にするために重要である。 本研究では,T2強調Fast Spin Ecoスライス100回のMRI検査において,腎臓の自動分節法として人気のMask R-CNNを提案する。 本研究では,Msk R-CNNの性能向上のための後処理として形態的操作を提案する。 5倍のクロスバリデーションデータを用いて、提案するマスクr-cnnを70および10回のmri検査で訓練し検証し、残りの20回の検査で評価する。 提案手法は0.904で,iouは0.822であった。

Despite the recent advances of deep learning algorithms in medical imaging, the automatic segmentation algorithms for kidneys in MRI exams are still scarce. Automated segmentation of kidneys in Magnetic Resonance Imaging (MRI) exams are important for enabling radiomics and machine learning analysis of renal disease. In this work, we propose to use the popular Mask R-CNN for the automatic segmentation of kidneys in coronal T2-weighted Fast Spin Eco slices of 100 MRI exams. We propose the morphological operations as post-processing to further improve the performance of Mask R-CNN for this task. With 5-fold cross-validation data, the proposed Mask R-CNN is trained and validated on 70 and 10 MRI exams and then evaluated on the remaining 20 exams in each fold. Our proposed method achieved a dice score of 0.904 and IoU of 0.822.
翻訳日:2021-09-01 09:45:08 公開日:2021-08-27
# (参考訳) 記号:一般ゼロショット意味セグメンテーションのための空間情報組込み生成ネットワーク [全文訳有]

SIGN: Spatial-information Incorporated Generative Network for Generalized Zero-shot Semantic Segmentation ( http://arxiv.org/abs/2108.12517v1 )

ライセンス: CC BY 4.0
Jiaxin Cheng, Soumyaroop Nandi, Prem Natarajan, Wael Abd-Almageed(参考訳) 従来のゼロショット分類とは異なり、ゼロショットセマンティックセグメンテーションは画像レベルではなくピクセルレベルでクラスラベルを予測する。 ゼロショット意味セグメンテーション問題を解くとき、周辺文脈でのピクセルレベルの予測の必要性は、位置符号化を用いた空間情報の導入を動機付ける。 特徴レベルで空間情報を統合し、任意の画像サイズを処理できる相対的位置符号化の概念を導入することにより、標準的な位置符号化を改善する。 さらに,ゼロショットセマンティクスセグメンテーションにおいて,擬似ラベルを生成するために,セルフトレーニングが広く用いられている一方で,擬似ラベルに異なる重要性を付与し,パフォーマンスを向上させるための新しい知識蒸留誘導セルフトレーニング戦略であるアニールドセルフトレーニングを提案する。 提案した相対的位置エンコーディングとアナルド自己学習を総合的な実験評価で体系的に検討し,本手法の有効性を3つのベンチマークデータセットで検証した。

Unlike conventional zero-shot classification, zero-shot semantic segmentation predicts a class label at the pixel level instead of the image level. When solving zero-shot semantic segmentation problems, the need for pixel-level prediction with surrounding context motivates us to incorporate spatial information using positional encoding. We improve standard positional encoding by introducing the concept of Relative Positional Encoding, which integrates spatial information at the feature level and can handle arbitrary image sizes. Furthermore, while self-training is widely used in zero-shot semantic segmentation to generate pseudo-labels, we propose a new knowledge-distillati on-inspired self-training strategy, namely Annealed Self-Training, which can automatically assign different importance to pseudo-labels to improve performance. We systematically study the proposed Relative Positional Encoding and Annealed Self-Training in a comprehensive experimental evaluation, and our empirical results confirm the effectiveness of our method on three benchmark datasets.
翻訳日:2021-09-01 09:39:54 公開日:2021-08-27
# (参考訳) TweetBLM:Twitter上のブラックライブ関連マイクロブログのヘイトスピーチデータセットと分析 [全文訳有]

TweetBLM: A Hate Speech Dataset and Analysis of Black Lives Matter-related Microblogs on Twitter ( http://arxiv.org/abs/2108.12521v1 )

ライセンス: CC BY 4.0
Sumit Kumar, Raj Ratn Pranesh(参考訳) 過去数年間、さまざまなソーシャルメディアプラットフォームで、有害で憎悪的なコンテンツが著しく増加している。 最近、Black Lives Matter(ブラックライブ・マター・ムーブメント)が登場し、インターネット上でユーザーが生成した反応の雪崩を引き起こした。 本稿では,black lives matter関連tweet hate speech dataset tweetblmを提案する。 私たちのデータセットは、Black Lives Matter運動をターゲットとする、手動で注釈付きツイート9165です。 我々は、黒人コミュニティの運動から生じた人種差別に関する内容に基づいて、ツイートを2つのクラス、すなわちヘイトとノンヘイトに注釈付けした。 本研究では、データセットに関する有用な統計情報も生成し、データセットの分類タスクに対してランダムフォレスト、CNN、LSTM、BiLSTM、Fasttext、BERTbase、BERTlargeといった機械学習モデルの体系的解析を行った。 本研究は,インターネット上でのヘイトスピーチの識別と緩和のために,研究コミュニティの多大な努力に貢献することを目的としている。 データセットは公開されている。

In the past few years, there has been a significant rise in toxic and hateful content on various social media platforms. Recently Black Lives Matter movement came into the picture, causing an avalanche of user generated responses on the internet. In this paper, we have proposed a Black Lives Matter related tweet hate speech dataset TweetBLM. Our dataset comprises 9165 manually annotated tweets that target the Black Lives Matter movement. We annotated the tweets into two classes, i.e., HATE and NONHATE based on their content related to racism erupted from the movement for the black community. In this work, we also generated useful statistical insights on our dataset and performed a systematic analysis of various machine learning models such as Random Forest, CNN, LSTM, BiLSTM, Fasttext, BERTbase, and BERTlarge for the classification task on our dataset. Through our work, we aim at contributing to the substantial efforts of the research community for the identification and mitigation of hate speech on the internet. The dataset is publicly available.
翻訳日:2021-09-01 09:23:38 公開日:2021-08-27
# (参考訳) NLPにおける構造化アプリケーションのためのエネルギーベース近似ネットワークの学習

Learning Energy-Based Approximate Inference Networks for Structured Applications in NLP ( http://arxiv.org/abs/2108.12522v1 )

ライセンス: CC BY 4.0
Lifu Tu(参考訳) 自然言語処理(NLP)における構造化予測には長い歴史がある。 構造化されたアプリケーションの複雑なモデルは、学習と推論の難しさを伴います。 これらの困難により、研究者は単純な構造コンポーネント(例えば局所分類器)を持つモデルにもっと焦点をあてるようになる。 近年、深層表現学習が盛んに行われている。 一方、それらの手法の構造的構成要素は、通常比較的単純である。 この論文では複雑な構造モデルに焦点を当てる。 複雑な構造化モデルのための学習フレームワークと、より高速/高精度/探索誤差トレードオフを備えた推論手法を提供する。 論文はエネルギーモデルへの一般的な導入から始まる。 NLPや他の応用では、エネルギー関数はスコアリング関数の概念に匹敵する。 この論文では、エネルギー関数と異なるエネルギー関数を持つ構造モデルの概念について議論する。 そこで我々は,ニューラルネットワークを学習して,構造エネルギー関数の下でargmax推論を行う手法を提案し,トレーニングされたネットワークを"推論ネットワーク"あるいは"エネルギーベース推論ネットワーク"と呼ぶ。 次に,相反学習フレームワークを用いて,エネルギー関数と推論ネットワークを共同で学習する方法を開発する。 エネルギーベースモデルの推論と学習の難しさにもかかわらず、エネルギーベースモデルを構造化NLPアプリケーションに適用しやすくする手法を提案する。

Structured prediction in natural language processing (NLP) has a long history. The complex models of structured application come at the difficulty of learning and inference. These difficulties lead researchers to focus more on models with simple structure components (e.g., local classifier). Deep representation learning has become increasingly popular in recent years. The structure components of their method, on the other hand, are usually relatively simple. We concentrate on complex structured models in this dissertation. We provide a learning framework for complicated structured models as well as an inference method with a better speed/accuracy/searc h error trade-off. The dissertation begins with a general introduction to energy-based models. In NLP and other applications, an energy function is comparable to the concept of a scoring function. In this dissertation, we discuss the concept of the energy function and structured models with different energy functions. Then, we propose a method in which we train a neural network to do argmax inference under a structured energy function, referring to the trained networks as "inference networks" or "energy-based inference networks". We then develop ways of jointly learning energy functions and inference networks using an adversarial learning framework. Despite the inference and learning difficulties of energy-based models, we present approaches in this thesis that enable energy-based models more easily to be applied in structured NLP applications.
翻訳日:2021-09-01 09:17:06 公開日:2021-08-27
# 商用顔検出におけるロバスト性差

Robustness Disparities in Commercial Face Detection ( http://arxiv.org/abs/2108.12508v1 )

ライセンス: Link先を確認
Samuel Dooley and Tom Goldstein and John P. Dickerson(参考訳) 顔認識と分析システムは大企業によって導入され、過去10年間、学者や活動家によって批判されてきた。 システムパフォーマンスに焦点を当てた批判は、システムの出力の不一致、すなわち、異なるフィッツパトリックの皮膚タイプや知覚された性別で検出される顔の頻度を分析します。 しかし, 自然摂動条件下でのこれらのシステム出力の頑健さに着目する。 私たちは、Amazon Rekognition、Microsoft Azure、Google Cloud Platformの3つのシステムの堅牢性に関する、この種の詳細なベンチマークを初めて提示します。 我々は、標準と最近リリースされた学術的な顔データセットの両方を用いて、それぞれの堅牢性の傾向を定量的に分析する。 データセットやシステム全体では、年齢、男性、肌のタイプ、薄暗い照明を持つ個人の写真は、他のアイデンティティよりもエラーの影響を受けやすいことが一般的です。

Facial detection and analysis systems have been deployed by large companies and critiqued by scholars and activists for the past decade. Critiques that focus on system performance analyze disparity of the system's output, i.e., how frequently is a face detected for different Fitzpatrick skin types or perceived genders. However, we focus on the robustness of these system outputs under noisy natural perturbations. We present the first of its kind detailed benchmark of the robustness of three such systems: Amazon Rekognition, Microsoft Azure, and Google Cloud Platform. We use both standard and recently released academic facial datasets to quantitatively analyze trends in robustness for each. Across all the datasets and systems, we generally find that photos of individuals who are older, masculine presenting, of darker skin type, or have dim lighting are more susceptible to errors than their counterparts in other identities.
翻訳日:2021-08-31 15:04:16 公開日:2021-08-27
# 急性呼吸不全診断のための機械学習を用いた胸部X線と心電図データの組み合わせ

Combining chest X-rays and EHR data using machine learning to diagnose acute respiratory failure ( http://arxiv.org/abs/2108.12530v1 )

ライセンス: Link先を確認
Sarah Jabbour, David Fouhey, Ella Kazerooni, Jenna Wiens, Michael W Sjoding(参考訳) 急性呼吸不全を患う患者は、基礎疾患を正確に同定することが最善の治療法を決定する上で不可欠であるが、臨床診療における一般的な診断を区別することは困難である。 機械学習モデルは、急性呼吸不全患者の診断評価において、臨床的意思決定を増強し、医療診断を改善することができる。 機械学習モデルは胸部X線写真(例)の一般的な発見を特定するために開発された。 電子健康記録(ehr)からの臨床関連データを分析してこれらのアプローチを強化する肺炎は、急性呼吸不全の診断に役立つ可能性がある。 急性呼吸不全(肺炎、心不全、copd)の原因を予測するために、胸部x線写真と内科的コホートにおけるehrデータを用いて、医師の診断に基づいて機械学習モデルを訓練した。 また, 退院診断符号を用いて, 外部コホート患者のモデルも検討した。 胸部X線写真とERHデータを組み合わせたモデルでは, 肺炎, COPDに対してのみ, モダリティのモデルが優れていた。 肺炎では、AUROCは0.79 (0.78-0.79)、画像モデルAUROCは0.73 (0.72-0.75)、EHRモデルAUROCは0.73 (0.70-0.76)、 COPDは0.89 (0.83-0.91)、画像は0.85 (0.77-0.89)、心不全では0.80 (0.76-0.84)、画像は0.77 (0.71-0.81)、EHRは0.80 (0.75-0.82)であった。 外部コホートでは心不全とcopdでパフォーマンスは一致したが,肺炎ではやや低下した。 全体として、胸部X線写真とHRデータを併用した機械学習モデルは、急性呼吸不全の一般的な原因を正確に区別することができる。 これらのモデルが臨床現場で急性呼吸不全の診断に役立つかどうかを判断するには、さらなる研究が必要である。

When patients develop acute respiratory failure, accurately identifying the underlying etiology is essential for determining the best treatment, but it can be challenging to differentiate between common diagnoses in clinical practice. Machine learning models could improve medical diagnosis by augmenting clinical decision making and play a role in the diagnostic evaluation of patients with acute respiratory failure. While machine learning models have been developed to identify common findings on chest radiographs (e.g. pneumonia), augmenting these approaches by also analyzing clinically relevant data from the electronic health record (EHR) could aid in the diagnosis of acute respiratory failure. Machine learning models were trained to predict the cause of acute respiratory failure (pneumonia, heart failure, and/or COPD) using chest radiographs and EHR data from patients within an internal cohort using diagnoses based on physician chart review. Models were also tested on patients in an external cohort using discharge diagnosis codes. A model combining chest radiographs and EHR data outperformed models based on each modality alone for pneumonia and COPD. For pneumonia, the combined model AUROC was 0.79 (0.78-0.79), image model AUROC was 0.73 (0.72-0.75), and EHR model AUROC was 0.73 (0.70-0.76); for COPD, combined: 0.89 (0.83-0.91), image: 0.85 (0.77-0.89), and EHR: 0.80 (0.76-0.84); for heart failure, combined: 0.80 (0.77-0.84), image: 0.77 (0.71-0.81), and EHR: 0.80 (0.75-0.82). In the external cohort, performance was consistent for heart failure and COPD, but declined slightly for pneumonia. Overall, machine learning models combing chest radiographs and EHR data can accurately differentiate between common causes of acute respiratory failure. Further work is needed to determine whether these models could aid clinicians in the diagnosis of acute respiratory failure in clinical settings.
翻訳日:2021-08-31 15:04:01 公開日:2021-08-27
# 点雲上の内集団関係の学習

Learning Inner-Group Relations on Point Clouds ( http://arxiv.org/abs/2108.12468v1 )

ライセンス: Link先を確認
Haoxi Ran, Wei Zhuo, Jun Liu, Li Lu(参考訳) コンピュータビジョンにおける関係ネットワークの普及は、未探索の点ベース手法とは対照的である。 本稿では,局所関係演算子の可能性について検討し,その実現可能性について検討する。 グループ関係アグリゲータと呼ばれるスケーラブルで効率的なモジュールを提案する。 このモジュールは、幾何学的関係と意味的関係によって重みづけられた内集団点の特徴の集約に基づいて、群の特徴を計算する。 私たちはRPNetの設計にこのモジュールを採用しています。 さらに,分類とセグメンテーションのタスクに基づいて,深さと幅の両面でRPNetの拡張性を検証する。 驚くべきことに、実験的な結果は、より広いRPNetが分類に適合することを示している。 RPNetは、挑戦的なベンチマークで分類とセグメンテーションの最先端を達成する。 また、ローカルアグリゲータをpointnet++と比較し、約30%のパラメータと50%の計算節約を実現しました。 最後に,剛性変換と雑音に関してrpnetのロバスト性を明らかにする実験を行った。

The prevalence of relation networks in computer vision is in stark contrast to underexplored point-based methods. In this paper, we explore the possibilities of local relation operators and survey their feasibility. We propose a scalable and efficient module, called group relation aggregator. The module computes a feature of a group based on the aggregation of the features of the inner-group points weighted by geometric relations and semantic relations. We adopt this module to design our RPNet. We further verify the expandability of RPNet, in terms of both depth and width, on the tasks of classification and segmentation. Surprisingly, empirical results show that wider RPNet fits for classification, while deeper RPNet works better on segmentation. RPNet achieves state-of-the-art for classification and segmentation on challenging benchmarks. We also compare our local aggregator with PointNet++, with around 30% parameters and 50% computation saving. Finally, we conduct experiments to reveal the robustness of RPNet with regard to rigid transformation and noises.
翻訳日:2021-08-31 15:03:01 公開日:2021-08-27
# Wasserstein Barycenters レンズによるテキストの自動評価

Automatic Text Evaluation through the Lens of Wasserstein Barycenters ( http://arxiv.org/abs/2108.12463v1 )

ライセンス: Link先を確認
Pierre Colombo, Guillaume Staerman, Chloe Clavel, Pablo Piantanida(参考訳) 新しいメトリクス \texttt{BaryScore} は、深くコンテキスト化された埋め込み(\textit{e.g)に基づいたテキスト生成を評価する。 BERT, Roberta, ELMo) が導入された。 このメトリックは、最適なトランスポートツールである \textit{i.e.} に依存する新しいフレームワークによって動機付けられる。 が、wasserstein距離とbarycenter距離である。 深く文脈化された埋め込みの層出力をベクトル埋め込みではなく確率分布としてモデル化することで、このフレームワークはワッサースタイン空間トポロジーを通して異なる出力を集約する自然な方法を提供する。 さらに、メトリクスの理論的根拠を提供し、利用可能なソリューションの代替を提供する(例えば、\textit{e})。 moverscore と bertscore) である。 機械翻訳,要約,データ2テキスト生成,画像キャプションの4つのタスクで数値評価を行う。 以上の結果から,texttt{BaryScore} は他のBERT ベースの指標よりも優れており,特にテキスト要約において一貫した振る舞いを示すことがわかった。

A new metric \texttt{BaryScore} to evaluate text generation based on deep contextualized embeddings (\textit{e.g.}, BERT, Roberta, ELMo) is introduced. This metric is motivated by a new framework relying on optimal transport tools, \textit{i.e.}, Wasserstein distance and barycenter. By modelling the layer output of deep contextualized embeddings as a probability distribution rather than by a vector embedding; this framework provides a natural way to aggregate the different outputs through the Wasserstein space topology. In addition, it provides theoretical grounds to our metric and offers an alternative to available solutions (\textit{e.g.}, MoverScore and BertScore). Numerical evaluation is performed on four different tasks: machine translation, summarization, data2text generation and image captioning. Our results show that \texttt{BaryScore} outperforms other BERT based metrics and exhibits more consistent behaviour in particular for text summarization.
翻訳日:2021-08-31 15:02:47 公開日:2021-08-27
# 汎用音声対話表現のためのコードスイッチインスパイアロス

Code-switched inspired losses for generic spoken dialog representations ( http://arxiv.org/abs/2108.12465v1 )

ライセンス: Link先を確認
Emile Chapuis, Pierre Colombo, Matthieu Labeau, Chloe Clave(参考訳) 音声対話システムは、会話内の複数の言語と多言語性の両方を扱える必要がある(コードスイッチの場合、\textit{e})。 本研究では,多言語音声対話表現の学習に適した事前学習損失を提案する。 これらの損失の目標は、モデルをコード変更言語に公開することだ。 トレーニングをスケールアップするために、24.3Gトークンからなる巨大な多言語コーパスである \texttt{OpenSubtitles} から5つの言語(フランス語、イタリア語、英語、ドイツ語、スペイン語)で多言語会話からなる事前学習コーパスを自動構築する。 同じ言語で5つのダイアログアクトコーパスからなる新しいベンチマークである \texttt{miam} でジェネリック表現をテストし、2つの新しい多言語下流タスク(\textit{i.e} multilingual mask utterance search and multilingual inconsistency identification)をテストした。 実験の結果、新しいコードの変更による損失は、単言語と多言語の両方でより良いパフォーマンスを実現することがわかった。

Spoken dialog systems need to be able to handle both multiple languages and multilinguality inside a conversation (\textit{e.g} in case of code-switching). In this work, we introduce new pretraining losses tailored to learn multilingual spoken dialog representations. The goal of these losses is to expose the model to code-switched language. To scale up training, we automatically build a pretraining corpus composed of multilingual conversations in five different languages (French, Italian, English, German and Spanish) from \texttt{OpenSubtitles}, a huge multilingual corpus composed of 24.3G tokens. We test the generic representations on \texttt{MIAM}, a new benchmark composed of five dialog act corpora on the same aforementioned languages as well as on two novel multilingual downstream tasks (\textit{i.e} multilingual mask utterance retrieval and multilingual inconsistency identification). Our experiments show that our new code switched-inspired losses achieve a better performance in both monolingual and multilingual settings.
翻訳日:2021-08-31 15:02:30 公開日:2021-08-27
# ReGen:事前学習言語モデルを用いたテキストと知識ベース生成のための強化学習

ReGen: Reinforcement Learning for Text and Knowledge Base Generation using Pretrained Language Models ( http://arxiv.org/abs/2108.12472v1 )

ライセンス: Link先を確認
Pierre L. Dognin, Inkit Padhi, Igor Melnyk, Payel Das(参考訳) テキストから関連する知識ベース(kbs)を自動的に構築し、kbから意味的に意味のあるテキストを生成することは、機械学習の長年の目標である。 本稿では,強化学習(Reinforcement Learning, RL)を利用した双方向のテキストとグラフを生成するReGenを提案する。 グラフリニアイゼーションによって,生成方向に関わらず,シーケンス生成問題のシーケンスとして両方のタスクを再構成することが可能となり,モデル自体が自己批判的シーケンストレーニング(scst)につながる自身の批評家として採用されるシーケンストレーニングへの強化学習が利用可能となる。 我々は,WebNLG+ 2020 および TekGen データセット上で,SCST による RL の利用がグラフおよびテキスト生成に有効であることを示す広範な調査を行った。 本システムは,テキスト・ツー・グラフ・ツー・テキスト生成タスクにおける WebNLG 2020+ Challenge の公開結果を大幅に改善することで,WebNLG+ 2020 の最先端結果を提供する。

Automatic construction of relevant Knowledge Bases (KBs) from text, and generation of semantically meaningful text from KBs are both long-standing goals in Machine Learning. In this paper, we present ReGen, a bidirectional generation of text and graph leveraging Reinforcement Learning (RL) to improve performance. Graph linearization enables us to re-frame both tasks as a sequence to sequence generation problem regardless of the generative direction, which in turn allows the use of Reinforcement Learning for sequence training where the model itself is employed as its own critic leading to Self-Critical Sequence Training (SCST). We present an extensive investigation demonstrating that the use of RL via SCST benefits graph and text generation on WebNLG+ 2020 and TekGen datasets. Our system provides state-of-the-art results on WebNLG+ 2020 by significantly improving upon published results from the WebNLG 2020+ Challenge for both text-to-graph and graph-to-text generation tasks.
翻訳日:2021-08-31 14:59:08 公開日:2021-08-27
# 生成モデルによる高次元不均一データセットのマルチモーダルデータ融合

Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via Generative Models ( http://arxiv.org/abs/2108.12445v1 )

ライセンス: Link先を確認
Yasin Yilmaz, Mehmet Aktukmak, Alfred O. Hero(参考訳) 主成分分析、因子分析、多様体学習といった一般的な潜在空間埋め込み技術は、通常、均質なデータの効果的な表現を学ぶために用いられる。 しかし、これらは数値変数と分類変数の組み合わせである異種データ(例えば、GPSとテキストデータから生じるような)に容易に拡張できない。 本稿では,高次元不均一データから確率的生成モデルを教師なしで学習することに関心がある。 学習された生成モデルは、データの多次元に共通する要素をキャプチャする潜在統一表現を提供し、様々な機械学習タスクにマルチモーダルデータを融合可能にする。 ベイズ的アプローチに従い,分布の指数関数族を自然パラメータ化することで,異なるデータ型を結合する汎用フレームワークを提案する。 モデル推論を何千もの特徴を持つ数百万のインスタンスに拡張するために、非線形リンク関数を含む後続計算にLaplace-Bernstein近似を用いる。 提案手法は,実数値(ガウシアン)と分類的(多項)特徴を持つ不均質なデータセットについて詳細に提示する。 2つの高次元および異種データセット(nyc taxiおよびmovielens-10m)の実験は、異常検出、データインプテーション、レコメンダシステムなどの異なる機械学習タスクにおける提案アルゴリズムのスケーラビリティと競合性を示している。

The commonly used latent space embedding techniques, such as Principal Component Analysis, Factor Analysis, and manifold learning techniques, are typically used for learning effective representations of homogeneous data. However, they do not readily extend to heterogeneous data that are a combination of numerical and categorical variables, e.g., arising from linked GPS and text data. In this paper, we are interested in learning probabilistic generative models from high-dimensional heterogeneous data in an unsupervised fashion. The learned generative model provides latent unified representations that capture the factors common to the multiple dimensions of the data, and thus enable fusing multimodal data for various machine learning tasks. Following a Bayesian approach, we propose a general framework that combines disparate data types through the natural parameterization of the exponential family of distributions. To scale the model inference to millions of instances with thousands of features, we use the Laplace-Bernstein approximation for posterior computations involving nonlinear link functions. The proposed algorithm is presented in detail for the commonly encountered heterogeneous datasets with real-valued (Gaussian) and categorical (multinomial) features. Experiments on two high-dimensional and heterogeneous datasets (NYC Taxi and MovieLens-10M) demonstrate the scalability and competitive performance of the proposed algorithm on different machine learning tasks such as anomaly detection, data imputation, and recommender systems.
翻訳日:2021-08-31 14:56:44 公開日:2021-08-27
# 畳み込みニューラルネットワークを用いた物体検出におけるX線エネルギー応答画像の効果について

On the impact of using X-ray energy response imagery for object detection via Convolutional Neural Networks ( http://arxiv.org/abs/2108.12505v1 )

ライセンス: Link先を確認
Neelanjan Bhowmik, Yona Falinie A. Gaus, Toby P. Breckon(参考訳) 複雑で散在したX線セキュリティ画像内の禁止アイテムの自動検出は、自動禁止アイテム検出が主に擬似色(rgb})X線画像に焦点をあてる交通安全維持に不可欠である。 本研究では,Rgbと比較して,X線エネルギー応答(高,低)および実効zの影響を,X線バッグセキュリティスクリーニングにおける共同物体検出およびセグメンテーションタスクの深部畳み込みニューラルネットワーク(CNN)を用いて検討する。 本稿では,最先端のcnnアーキテクチャ(mask r-cnn,yolact,carafe, cascade mask r-cnn)を評価し,画像形状や解像度,素材色プロファイルの異なるx線セキュリティスキャナ間の「raw」変種画像によるモデルの転送可能性について検討する。 総じて,carafeを用いた最大検出性能は,rgb,high,low, effective-zのx線画像の組み合わせにより,6種類の対象検出問題に対して0.7平均精度(map)を得た。 また,rgb,高,低,実効Z画像を組み合わせた一クラス物体検出問題に対して,クロススキャナ転送性(AP: 0.835/0.611)の点で顕著な一般化能力を示した。

Automatic detection of prohibited items within complex and cluttered X-ray security imagery is essential to maintaining transport security, where prior work on automatic prohibited item detection focus primarily on pseudo-colour (rgb}) X-ray imagery. In this work we study the impact of variant X-ray imagery, i.e., X-ray energy response (high, low}) and effective-z compared to rgb, via the use of deep Convolutional Neural Networks (CNN) for the joint object detection and segmentation task posed within X-ray baggage security screening. We evaluate state-of-the-art CNN architectures (Mask R-CNN, YOLACT, CARAFE and Cascade Mask R-CNN) to explore the transferability of models trained with such 'raw' variant imagery between the varying X-ray security scanners that exhibits differing imaging geometries, image resolutions and material colour profiles. Overall, we observe maximal detection performance using CARAFE, attributable to training using combination of rgb, high, low, and effective-z X-ray imagery, obtaining 0.7 mean Average Precision (mAP) for a six class object detection problem. Our results also exhibit a remarkable degree of generalisation capability in terms of cross-scanner transferability (AP: 0.835/0.611) for a one class object detection problem by combining rgb, high, low, and effective-z imagery.
翻訳日:2021-08-31 14:55:33 公開日:2021-08-27
# youtubeチャンネルにおけるユーザの注意に関する観察を用いたニュースメディアの報告の事実性予測

Predicting the Factuality of Reporting of News Media Using Observations About User Attention in Their YouTube Channels ( http://arxiv.org/abs/2108.12519v1 )

ライセンス: Link先を確認
Krasimira Bozhanova, Yoan Dinkov, Ivan Koychev, Maria Castaldo, Tommaso Venturini, Preslav Nakov(参考訳) 本稿では,YouTubeチャンネルにおける利用者の注意周期を調査し,ニュースメディアの報道の事実を予測するための新しい枠組みを提案する。 特に、ビデオのビュー数、いいね!、嫌悪、コメントの数の時間的変化から派生した、豊富な機能セットを設計し、それをチャンネルレベルに集約します。 我々は,489のニュースメディアのYouTubeチャンネルにおけるユーザの注意を観察するデータセットを開発し,リリースする。 我々の実験は、最先端のテキスト表現に対する相補性と大きな改善の両方を示している。

We propose a novel framework for predicting the factuality of reporting of news media outlets by studying the user attention cycles in their YouTube channels. In particular, we design a rich set of features derived from the temporal evolution of the number of views, likes, dislikes, and comments for a video, which we then aggregate to the channel level. We develop and release a dataset for the task, containing observations of user attention on YouTube channels for 489 news media. Our experiments demonstrate both complementarity and sizable improvements over state-of-the-art textual representations.
翻訳日:2021-08-31 14:53:41 公開日:2021-08-27
# ラディンの絶滅危惧言語保存のための音声表現と音素分類

Speech Representations and Phoneme Classification for Preserving the Endangered Language of Ladin ( http://arxiv.org/abs/2108.12531v1 )

ライセンス: Link先を確認
Zane Durante, Leena Mathur, Eric Ye, Sichong Zhao, Tejas Ramdas, Khalil Iskarous(参考訳) 世界の7000の言語の大部分は、イタリア・アルプスからの絶滅危惧言語であるラディンを含む、この世紀中に絶滅すると予測されている。 言語の音韻構造と音韻構造を保存するために働く言語学者は、母語話者から毎分音声の書き起こしに何時間も費やすことができる。 本稿では,この問題を解決するために,32種類のラディン音素を分類するための音声表現と機械学習モデルについて,最初の分析を行う。 我々はイタリアの母語話者から収集されたファシアン方言ラディンの新たなデータセットを実験した。 フレームレベルおよびセグメントレベルの音声特徴抽出手法を作成し,9つの異なる音声表現を訓練した8つの分類器を用いて広範囲な実験を行った。 私たちの音声表現は、従来の特徴(MFCC、LPC)から、ディープニューラルネットワークモデル(オートエンコーダ、LSTMオートエンコーダ、WaveNet)で学んだ特徴まで様々でした。 音声信号の MFCC 表現に基づいて訓練した最高性能分類器は,すべてのラディン音素に対して平均86%の精度を達成した。 また,ラディン音素部分群では平均77%以上の確率を示した。 本研究は,識別的ラディン音素表現の学習に寄与し,機械学習と音声信号処理を活用してラディンや他の絶滅危惧言語を保存する可能性を示す。

A vast majority of the world's 7,000 spoken languages are predicted to become extinct within this century, including the endangered language of Ladin from the Italian Alps. Linguists who work to preserve a language's phonetic and phonological structure can spend hours transcribing each minute of speech from native speakers. To address this problem in the context of Ladin, our paper presents the first analysis of speech representations and machine learning models for classifying 32 phonemes of Ladin. We experimented with a novel dataset of the Fascian dialect of Ladin, collected from native speakers in Italy. We created frame-level and segment-level speech feature extraction approaches and conducted extensive experiments with 8 different classifiers trained on 9 different speech representations. Our speech representations ranged from traditional features (MFCC, LPC) to features learned with deep neural network models (autoencoders, LSTM autoencoders, and WaveNet). Our highest-performing classifier, trained on MFCC representations of speech signals, achieved an 86% average accuracy across all Ladin phonemes. We also obtained average accuracies above 77% for all Ladin phoneme subgroups examined. Our findings contribute insights for learning discriminative Ladin phoneme representations and demonstrate the potential for leveraging machine learning and speech signal processing to preserve Ladin and other endangered languages.
翻訳日:2021-08-31 14:53:31 公開日:2021-08-27
# 雑音データから線形演算子を学習するための収束率

Convergence Rates for Learning Linear Operators from Noisy Data ( http://arxiv.org/abs/2108.12515v1 )

ライセンス: Link先を確認
Maarten V. de Hoop, Nikola B. Kovachki, Nicholas H. Nelsen, Andrew M. Stuart(参考訳) ヒルベルト空間上で線形作用素を学習するベイズ逆問題について,無作為入力データを用いたノイズのある点的評価から検討する。 提案手法では, この対象演算子は, 与えられた統計モデルから生じるガウス前値および雑音共分散演算子と共有され, コンパクト, 有界, および非有界な対象演算子を扱うことができることを前提として, 自己随伴的かつ対角的であることを仮定する。 ボシュナーノルムの族に関して、データの数は無限大であり、推定誤差に関する関連する下限を導出する傾向があるため、後部収縮率を確立する。 大規模データ限界では, 後方平均点推定器に付随する, 最適に定義された過剰リスクと一般化ギャップ関数の漸近収束率も提供する。 これにより、後続の一貫性を非パラメトリック学習理論に接続する。 さらに、これらの収束率は、有界あるいはコンパクトな作用素の学習と比較して、非有界線型作用素の学習の難しさを強調し、定量化する。 数値実験はこの理論を検証し、より一般的な問題において同様の結論が期待できることを示した。

We study the Bayesian inverse problem of learning a linear operator on a Hilbert space from its noisy pointwise evaluations on random input data. Our framework assumes that this target operator is self-adjoint and diagonal in a basis shared with the Gaussian prior and noise covariance operators arising from the imposed statistical model and is able to handle target operators that are compact, bounded, or even unbounded. We establish posterior contraction rates with respect to a family of Bochner norms as the number of data tend to infinity and derive related lower bounds on the estimation error. In the large data limit, we also provide asymptotic convergence rates of suitably defined excess risk and generalization gap functionals associated with the posterior mean point estimator. In doing so, we connect the posterior consistency results to nonparametric learning theory. Furthermore, these convergence rates highlight and quantify the difficulty of learning unbounded linear operators in comparison with the learning of bounded or compact ones. Numerical experiments confirm the theory and demonstrate that similar conclusions may be expected in more general problem settings.
翻訳日:2021-08-31 14:51:09 公開日:2021-08-27
# 意見の変更: 時間順応的なスタンス分類

Opinions are Made to be Changed: Temporally Adaptive Stance Classification ( http://arxiv.org/abs/2108.12476v1 )

ライセンス: Link先を確認
Rabab Alkhalifa, Elena Kochkina, Arkaitz Zubiaga(参考訳) ソーシャルメディアの急速な発展と人々の見解を考えると、言葉の使用は時間とともに変化する。 したがって、古いテキストデータでトレーニングされた分類器の性能は、新しいデータでテストすると劇的に低下する可能性がある。 近年、スタンス分類の研究が進んでいるが、これらの分類器に持続的な性能を持たせるための努力は行われていない。 この現象を研究するために,2つの新しい大規模縦型姿勢データセットを導入する。 次に,姿勢分類器の性能持続性を時間とともに評価し,トレーニングとテストデータの時間的ギャップが大きくなると,それがどのように減衰するかを示す。 本稿では,姿勢分類器の訓練に用いる単語埋め込みの時間適応に基づく,この性能低下を緩和するための新しい手法を提案する。 これにより、費用のかかるアノテーション作業ではなく、現在の期間から簡単に利用できるラベルなしデータを利用することができます。 組込み適応に対するいくつかのアプローチを提案し比較し、インクリメンタル・テンポラル・アライメント(ITA)モデルが時間とともに性能低下を減少させる最良の結果をもたらすことを見出した。

Given the rapidly evolving nature of social media and people's views, word usage changes over time. Consequently, the performance of a classifier trained on old textual data can drop dramatically when tested on newer data. While research in stance classification has advanced in recent years, no effort has been invested in making these classifiers have persistent performance over time. To study this phenomenon we introduce two novel large-scale, longitudinal stance datasets. We then evaluate the performance persistence of stance classifiers over time and demonstrate how it decays as the temporal gap between training and testing data increases. We propose a novel approach to mitigate this performance drop, which is based on temporal adaptation of the word embeddings used for training the stance classifier. This enables us to make use of readily available unlabelled data from the current time period instead of expensive annotation efforts. We propose and compare several approaches to embedding adaptation and find that the Incremental Temporal Alignment (ITA) model leads to the best results in reducing performance drop over time.
翻訳日:2021-08-31 14:50:03 公開日:2021-08-27
# プロトタイプメモリによるテーブル・ツー・テキスト生成

Few-Shot Table-to-Text Generation with Prototype Memory ( http://arxiv.org/abs/2108.12516v1 )

ライセンス: Link先を確認
Yixuan Su, Zaiqiao Meng, Simon Baker, Nigel Collier(参考訳) ニューラルテーブル-テキスト生成モデルは、タスクの配列において顕著な進歩を遂げた。 しかし、ニューラルモデルのデータ不足の性質のため、彼らのパフォーマンスは大規模トレーニングの例に強く依存しており、実際のアプリケーションへの適用性を制限する。 そこで我々はP2G(Prototype-to-Gen erate)という新しいフレームワークを提案する。 提案フレームワークは、IRシステムと新しいプロトタイプセレクタによって共同で選択された検索されたプロトタイプを利用して、テーブルとテキスト間の構造的ギャップを埋めるモデルを支援する。 3つの最先端モデルを用いた3つのベンチマークデータセットの実験結果から,提案手法は各種評価指標のモデル性能を著しく改善することが示された。

Neural table-to-text generation models have achieved remarkable progress on an array of tasks. However, due to the data-hungry nature of neural models, their performances strongly rely on large-scale training examples, limiting their applicability in real-world applications. To address this, we propose a new framework: Prototype-to-Generat e (P2G), for table-to-text generation under the few-shot scenario. The proposed framework utilizes the retrieved prototypes, which are jointly selected by an IR system and a novel prototype selector to help the model bridging the structural gap between tables and texts. Experimental results on three benchmark datasets with three state-of-the-art models demonstrate that the proposed framework significantly improves the model performance across various evaluation metrics.
翻訳日:2021-08-31 14:49:46 公開日:2021-08-27
# Causal BootstrapsによるPulling Up: トレーニング前障害に対するCausal Data Augmentation

Pulling Up by the Causal Bootstraps: Causal Data Augmentation for Pre-training Debiasing ( http://arxiv.org/abs/2108.12510v1 )

ライセンス: Link先を確認
Sindhu C.M. Gowda, Shalmali Joshi, Haoran Zhang and Marzyeh Ghassemi(参考訳) 機械学習モデルは、多くの教師付き学習タスクで最先端のパフォーマンスを達成する。 しかし、以前の証拠は、これらのモデルが優れた予測性能のために近距離バイアスや(直観的には、試験中に保持されない相関)散発的な相関に依存することを学んでいることを示唆している。 このようなモデルは、正確な予測を提供するため、デプロイメント環境では信頼できない。 因果レンズから問題を見ることは有用であることが知られているが、機械学習パイプラインへの因果テクニックのシームレスな統合は複雑で高価である。 本研究では, 因果ブートストラップ (CB) と呼ばれる因果学習前脱バイアス法を, 5つの既成データ生成獲得シナリオに基づいて検討し, 拡張する。 これらの条件下では, バイアスが深層学習モデルの性能に与える影響を系統的に検討し, バイアスが適切に考慮されていない場合に, ショートカットバイアスに依存する傾向を示す。 このような因果的事前学習手法が,実世界のドメイン一般化ベンチマークタスクにおける偏りを緩和するために,既存のベースプラクティスを著しく上回ることを実証する。 この体系的な調査は、基盤となるデータ生成メカニズムの会計の重要性と、バイアスの形成にロバストな方法を開発するための因果的フレームワークによるデータ前処理パイプラインの強化を強調するものだ。

Machine learning models achieve state-of-the-art performance on many supervised learning tasks. However, prior evidence suggests that these models may learn to rely on shortcut biases or spurious correlations (intuitively, correlations that do not hold in the test as they hold in train) for good predictive performance. Such models cannot be trusted in deployment environments to provide accurate predictions. While viewing the problem from a causal lens is known to be useful, the seamless integration of causation techniques into machine learning pipelines remains cumbersome and expensive. In this work, we study and extend a causal pre-training debiasing technique called causal bootstrapping (CB) under five practical confounded-data generation-acquisiti on scenarios (with known and unknown confounding). Under these settings, we systematically investigate the effect of confounding bias on deep learning model performance, demonstrating their propensity to rely on shortcut biases when these biases are not properly accounted for. We demonstrate that such a causal pre-training technique can significantly outperform existing base practices to mitigate confounding bias on real-world domain generalization benchmarking tasks. This systematic investigation underlines the importance of accounting for the underlying data-generating mechanisms and fortifying data-preprocessing pipelines with a causal framework to develop methods robust to confounding biases.
翻訳日:2021-08-31 14:33:11 公開日:2021-08-27
# deep learning climate emulatorにおける特徴量の重要性

Feature Importance in a Deep Learning Climate Emulator ( http://arxiv.org/abs/2108.13203v1 )

ライセンス: Link先を確認
Wei Xu, Xihaier Luo, Yihui Ren, Ji Hwan Park, Shinjae Yoo, Balasubramanya T. Nadiga(参考訳) 本稿では,気候の深層学習(dl)エミュレータを"理解"するための重要度評価手法として,ポストホックな局所的説明手法のクラスを用いる。 具体的には,DenseNetエンコーダ・デコーダアーキテクチャを用いたマルチインプット単一出力エミュレータについて検討し,過去36ヶ月のSSTデータを用いて,海面温度(SST)の経年変化を1,6,9ヶ月のリードタイムで予測する訓練を行った。 まず,選択した地理的領域におけるモデル予測と選択した予測リード時間において重要な入力特徴を時空間的に同定する。 第2のステップでは、トレーニングサンプルに対する重要熱マップの集約を考慮し、一般化された意味での特徴的重要性の挙動についても検討する。 1)任意の地理的な場所における気候エミュレータの予測は、その周辺の小さな地区に支配的に依存する。2) 予測のリードタイムが長ければ長いほど、"importance"はより長くなり、3) 先行する順に、"importance" の時間的減衰は地理的な場所とは独立している。 結果を検証するためにアブレーション実験が採用されている。 気候力学の観点からは,これらの知見は局地的プロセスにおいて支配的な役割を担い,空間的・時間的スケールにおいて遠隔通信において無視可能な役割を担っていると考えられる。 ネットワークアーキテクチャの観点からは、入力と出力の時空間的関係は潜在的なモデル改善を示唆している。 我々は、現在進行中の作業で検討している手法のさらなる拡張について論じる。

We present a study using a class of post-hoc local explanation methods i.e., feature importance methods for "understanding" a deep learning (DL) emulator of climate. Specifically, we consider a multiple-input-singl e-output emulator that uses a DenseNet encoder-decoder architecture and is trained to predict interannual variations of sea surface temperature (SST) at 1, 6, and 9 month lead times using the preceding 36 months of (appropriately filtered) SST data. First, feature importance methods are employed for individual predictions to spatio-temporally identify input features that are important for model prediction at chosen geographical regions and chosen prediction lead times. In a second step, we also examine the behavior of feature importance in a generalized sense by considering an aggregation of the importance heatmaps over training samples. We find that: 1) the climate emulator's prediction at any geographical location depends dominantly on a small neighborhood around it; 2) the longer the prediction lead time, the further back the "importance" extends; and 3) to leading order, the temporal decay of "importance" is independent of geographical location. An ablation experiment is adopted to verify the findings. From the perspective of climate dynamics, these findings suggest a dominant role for local processes and a negligible role for remote teleconnections at the spatial and temporal scales we consider. From the perspective of network architecture, the spatio-temporal relations between the inputs and outputs we find suggest potential model refinements. We discuss further extensions of our methods, some of which we are considering in ongoing work.
翻訳日:2021-08-31 14:29:29 公開日:2021-08-27
# 不確実性を考慮した確率損失関数を用いたDNA符号化ライブラリカウントデータの機械学習

Machine learning on DNA-encoded library count data using an uncertainty-aware probabilistic loss function ( http://arxiv.org/abs/2108.12471v1 )

ライセンス: Link先を確認
Katherine S. Lim, Andrew G. Reidenbach, Bruce K. Hua, Jeremy W. Mason, Christopher J. Gerry, Paul A. Clemons, Connor W. Coley(参考訳) DNAエンコードライブラリー(DEL)スクリーニングと量的構造活性相関(QSAR)モデリングは、タンパク質標的を結合する小さな分子を見つけるために薬物発見に使用される2つの手法である。 QSARモデリングをDELデータに適用することで、オフDNA合成および評価のための化合物の選択が容易になる。 このような組み合わせのアプローチは、最近、DELデータのスパースでノイズの多い性質に対応するために、集約された「ディシンソン」のDEL豊かさを学習するためのバイナリ分類器の訓練によって示されている。 しかし、バイナリ分類器は、異なるレベルの濃縮を区別できず、ディシントン凝集中に情報が失われる可能性がある。 本稿では,delデータを効果的にデノベーションし,学習構造-活性関係(sar)を可視化する機会を導入するカスタム負のlog-likelihood loss関数を用いて,個々の分子のデル富化を学習する回帰アプローチを示す。 本手法はDEL実験ワークフローで使用されるシークエンシング過程のポアソン統計を頻繁な視点でモデル化する。 本稿では、CAIXに対する108k化合物のデータセットと、sEHおよびSIRT2に対する5.7M化合物のデータセットについて説明する。 負の対数類似損失関数によるデータの不確実性の処理により、モデルは低信頼の外れ値を無視しうる。 提案手法は, 新規構造に対する外挿の利点を示すものではないが, DELデータにおけるSARトレンドの同定と医薬用疎水剤の濃縮に有効なデノナイズと可視化パイプラインが期待できる。 さらに、不確実性認識回帰に対するこのアプローチは、確率性の性質が知られている、あるいはモデル化できる他のスパースまたはノイズデータセットに適用され、特に、我々が使用するポアソン濃縮比メトリックは、2つの実験条件間でカウントデータをシークエンシングする他の設定に適用することができる。

DNA-encoded library (DEL) screening and quantitative structure-activity relationship (QSAR) modeling are two techniques used in drug discovery to find small molecules that bind a protein target. Applying QSAR modeling to DEL data can facilitate the selection of compounds for off-DNA synthesis and evaluation. Such a combined approach has been shown recently by training binary classifiers to learn DEL enrichments of aggregated "disynthons" to accommodate the sparse and noisy nature of DEL data. However, a binary classifier cannot distinguish between different levels of enrichment, and information is potentially lost during disynthon aggregation. Here, we demonstrate a regression approach to learning DEL enrichments of individual molecules using a custom negative log-likelihood loss function that effectively denoises DEL data and introduces opportunities for visualization of learned structure-activity relationships (SAR). Our approach explicitly models the Poisson statistics of the sequencing process used in the DEL experimental workflow under a frequentist view. We illustrate this approach on a dataset of 108k compounds screened against CAIX, and a dataset of 5.7M compounds screened against sEH and SIRT2. Due to the treatment of uncertainty in the data through the negative log-likelihood loss function, the models can ignore low-confidence outliers. While our approach does not demonstrate a benefit for extrapolation to novel structures, we expect our denoising and visualization pipeline to be useful in identifying SAR trends and enriched pharmacophores in DEL data. Further, this approach to uncertainty-aware regression is applicable to other sparse or noisy datasets where the nature of stochasticity is known or can be modeled; in particular, the Poisson enrichment ratio metric we use can apply to other settings that compare sequencing count data between two experimental conditions.
翻訳日:2021-08-31 14:24:08 公開日:2021-08-27
# Mal2GCN:非負重み付きディープグラフ畳み込みネットワークを用いたロバストなマルウェア検出手法

Mal2GCN: A Robust Malware Detection Approach Using Deep Graph Convolutional Networks With Non-Negative Weights ( http://arxiv.org/abs/2108.12473v1 )

ライセンス: Link先を確認
Omid Kargarnovin, Amir Mahdi Sadeghzadeh, and Rasool Jalili(参考訳) さまざまな問題を解決するために機械学習を使うというペースが高まる中、これらのモデルを敵から守ることが研究者の主な関心事となっている。 最近の研究では、敵の環境では、機械学習モデルは敵の例に弱いことが示されており、敵はモデルを騙すために慎重に入力を作成することができる。 ディープニューラルネットワークの出現により、多くの研究者がディープニューラルネットワークを様々なタスクに使用し、素晴らしい結果を得た。 これらのモデルは、特にマルウェア検出などのセキュリティ関連分野において、安全に配置される前に攻撃に対して堅牢になる必要がある。 本稿では,ブラックボックスのソースコードをベースとしたマルウェア生成手法を提案し,実際の敵に対するマルウェア検出モデルの堅牢性を評価する。 提案手法は,マルウェア検出モデルを回避するために,マルウェアソースコードの様々な場所に敵のコードを注入する。 次に,ロバストなマルウェア検出モデルmal2gcnを提案する。 Mal2GCNは、グラフ畳み込みネットワークの表現力と非負の重み付け訓練法を組み合わせて、高い検出精度のマルウェア検出モデルを作成する。

With the growing pace of using machine learning to solve various problems, securing these models against adversaries has become one of the main concerns of researchers. Recent studies have shown that in an adversarial environment, machine learning models are vulnerable to adversarial examples, and adversaries can create carefully crafted inputs to fool the models. With the advent of deep neural networks, many researchers have used deep neural networks for various tasks, and have achieved impressive results. These models must become robust against attacks before being deployed safely, especially in security-related fields such as malware detection. In this paper, we first present a black-box source code-based adversarial malware generation approach that can be used to evaluate the robustness of malware detection models against real-world adversaries. The proposed approach injects adversarial codes into the various locations of malware source codes to evade malware detection models. We then propose Mal2GCN, a robust malware detection model. Mal2GCN uses the representation power of graph convolutional networks combined with the non-negative weights training method to create a malware detection model with high detection accuracy, which is also robust against adversarial attacks that add benign features to the input.
翻訳日:2021-08-31 14:23:34 公開日:2021-08-27
# 高忠実度深層学習に基づくMRI画像再構成

High Fidelity Deep Learning-based MRI Reconstruction with Instance-wise Discriminative Feature Matching Loss ( http://arxiv.org/abs/2108.12460v1 )

ライセンス: Link先を確認
Ke Wang, Jonathan I Tamir, Alfredo De Goyeneche, Uri Wollner, Rafi Brada, Stella Yu and Michael Lustig(参考訳) 目的: 深層学習に基づく再構成における微細構造とテクスチャの再現性を向上させること。 方法:新しいパッチベースのunsupervised Feature Loss(UFLoss)を提案し,DLベースの再構築フレームワークのトレーニングに組み込むことにより,知覚的類似性と高次統計量を維持する。 UFLossは類似のインスタンスを類似の低次元特徴ベクトルにマッピングすることでインスタンスレベルの識別を提供し、人間のアノテーションなしで訓練される。 訓練中に低次元特徴空間に付加的な損失関数を追加することで、アンサンプリングまたは破損したデータからの再構成フレームワークは、より細かいテクスチャ、鋭いエッジ、全体的な画質で元のものと近い、より現実的な画像を再現することができる。 提案するUFLossの性能は,2次元および3次元膝関節のMRI再構成とリフレクションアンダーサンプリングを併用したアンロールネットワークで実証された。 nrmse, ssim, および提案するuflosを含む定量的指標を用いて, 提案手法の性能を評価し, 他の手法と比較した。 結果: in-vivo実験では,uflossを添加することで,従来のl2損失を伴う学習ベースの手法と比較して,より鋭いエッジとより忠実なコントラストが促進されることが示された。 より詳細なテクスチャは2Dと3Dの膝のMR画像で見ることができる。 UFLoss を用いた再建は, より低い値の UFLoss を達成しつつ, 同等の NRMSE と高い SSIM が得られることを示す。 結論:uflossは,dlベースの再構築のトレーニングにより,より詳細なテクスチャ,より細かな特徴,よりシャープなエッジを,dlベースの再構築フレームワークの下で高画質で得ることができるパッチベースの教師なし学習機能損失である。

Purpose: To improve reconstruction fidelity of fine structures and textures in deep learning (DL) based reconstructions. Methods: A novel patch-based Unsupervised Feature Loss (UFLoss) is proposed and incorporated into the training of DL-based reconstruction frameworks in order to preserve perceptual similarity and high-order statistics. The UFLoss provides instance-level discrimination by mapping similar instances to similar low-dimensional feature vectors and is trained without any human annotation. By adding an additional loss function on the low-dimensional feature space during training, the reconstruction frameworks from under-sampled or corrupted data can reproduce more realistic images that are closer to the original with finer textures, sharper edges, and improved overall image quality. The performance of the proposed UFLoss is demonstrated on unrolled networks for accelerated 2D and 3D knee MRI reconstruction with retrospective under-sampling. Quantitative metrics including NRMSE, SSIM, and our proposed UFLoss were used to evaluate the performance of the proposed method and compare it with others. Results: In-vivo experiments indicate that adding the UFLoss encourages sharper edges and more faithful contrasts compared to traditional and learning-based methods with pure l2 loss. More detailed textures can be seen in both 2D and 3D knee MR images. Quantitative results indicate that reconstruction with UFLoss can provide comparable NRMSE and a higher SSIM while achieving a much lower UFLoss value. Conclusion: We present UFLoss, a patch-based unsupervised learned feature loss, which allows the training of DL-based reconstruction to obtain more detailed texture, finer features, and sharper edges with higher overall image quality under DL-based reconstruction frameworks.
翻訳日:2021-08-31 14:17:57 公開日:2021-08-27
# (参考訳) ユーザ中心半自動インフォグラフィック作成とレコメンデーション [全文訳有]

User-Centric Semi-Automated Infographics Authoring and Recommendation ( http://arxiv.org/abs/2108.11914v2 )

ライセンス: CC BY 4.0
Anjul Tyagi, Jian Zhao, Pushkar Patel, Swasti Khurana, Klaus Mueller(参考訳) インフォグラフィックの設計は、プロのデザイナーでさえ、非専門家や時間消費にとって退屈なプロセスである。 そこで本研究では,自動および半自動インフォグラフィック設計のための柔軟な枠組みを提案する。 このフレームワークはインフォグラフィックで主要なデザインコンポーネントをキャプチャし、生成ワークフローを3つのステップに合理化し、各アスペクトを独立して制御し、最適化することができる。 また,このフレームワークをベースとして,インフォグラフィックの異なるデザインコンポーネントの推薦を提供することで,入力から高品質なインフォグラフィックを作成できる対話型ツールである \name{} を提案する。 同時に、より経験豊富なデザイナーは、canvasを使ってツールにカスタムデザインとレイアウトのアイデアを提供し、自動生成プロセスの一部を制御できる。 作業の一環として、個別の視覚グループ(VG)と接続設計データセット(SVG)と、セグメント化されたVGを備えた1k完全インフォグラフィックイメージデータセットも提供しています。 このデータセットは、我々のフレームワークによって作成されたインフォグラフィックデザインの多様化に重要な役割を果たします。 我々は,類似ツールとの比較,初心者および専門家によるユーザスタディ,ケーススタディを用いて,アプローチを評価した。 その結果、我々のフレームワークと \name{} は、カスタマイズしたインフォグラフィックを作成し、様々なデザインを探索する上で優れていることを確認した。

Designing infographics can be a tedious process for non-experts and time-consuming even for professional designers. Based on the literature and a formative study, we propose a flexible framework for automated and semi-automated infographics design. This framework captures the main design components in infographics and streamlines the generation workflow into three steps, allowing users to control and optimize each aspect independently. Based on the framework, we also propose an interactive tool, \name{}, for assisting novice designers with creating high-quality infographics from an input in a markdown format by offering recommendations of different design components of infographics. Simultaneously, more experienced designers can provide custom designs and layout ideas to the tool using a canvas to control the automated generation process partially. As part of our work, we also contribute an individual visual group (VG) and connection designs dataset (in SVG), along with a 1k complete infographic image dataset with segmented VGs. This dataset plays a crucial role in diversifying the infographic designs created by our framework. We evaluate our approach with a comparison against similar tools, a user study with novice and expert designers, and a case study. Results confirm that our framework and \name{} excel in creating customized infographics and exploring a large variety of designs.
翻訳日:2021-08-31 11:34:32 公開日:2021-08-27
# (参考訳) 新しい顔提示攻撃の検出と継続学習 [全文訳有]

Detection and Continual Learning of Novel Face Presentation Attacks ( http://arxiv.org/abs/2108.12081v1 )

ライセンス: CC BY 4.0
Mohammad Rostami, Leonidas Spinoulas, Mohamed Hussein, Joe Mathai, Wael Abd-Almageed(参考訳) ディープラーニングの進歩と大規模なデータセットの可用性は、顔提示攻撃検出研究の大幅な改善につながった。 しかし、最先端のフェイスアンチスプーフィングシステムは、トレーニング中に見られない新しいタイプの攻撃に対して脆弱である。 さらに、そのような攻撃が正しく検出されたとしても、これらのシステムは新たに遭遇した攻撃に適応する能力に欠ける。 新しいタイプの攻撃を継続的に検出し、これらの攻撃タイプを識別する自己適応能力は、最初の検出フェーズの後、非常に魅力的である。 本稿では、深層ニューラルネットワークを用いて、トレーニングサンプルの分布外のネットワークの信頼性レベルを抑えることにより、観測された入力データポイント内の異常を潜在的に新しいタイプの攻撃として検出する。 次に、過去の学習した攻撃タイプを忘れずに、新しいタイプの攻撃に関する知識を組み込むために、experience replayを使用します。 提案手法の有効性を2つのベンチマークデータセットに示す実験結果と,多種多様な攻撃タイプを示す新たなデータセットを提案する。

Advances in deep learning, combined with availability of large datasets, have led to impressive improvements in face presentation attack detection research. However, state-of-the-art face antispoofing systems are still vulnerable to novel types of attacks that are never seen during training. Moreover, even if such attacks are correctly detected, these systems lack the ability to adapt to newly encountered attacks. The post-training ability of continually detecting new types of attacks and self-adaptation to identify these attack types, after the initial detection phase, is highly appealing. In this paper, we enable a deep neural network to detect anomalies in the observed input data points as potential new types of attacks by suppressing the confidence-level of the network outside the training samples' distribution. We then use experience replay to update the model to incorporate knowledge about new types of attacks without forgetting the past learned attack types. Experimental results are provided to demonstrate the effectiveness of the proposed method on two benchmark datasets as well as a newly introduced dataset which exhibits a large variety of attack types.
翻訳日:2021-08-30 20:01:13 公開日:2021-08-27
# (参考訳) 非言語技術におけるジェンダー排他性と非言語表現の課題 [全文訳有]

Harms of Gender Exclusivity and Challenges in Non-Binary Representation in Language Technologies ( http://arxiv.org/abs/2108.12084v1 )

ライセンス: CC BY 4.0
Sunipa Dev and Masoud Monajatipoor and Anaelia Ovalle and Arjun Subramonian and Jeff M Phillips and Kai-Wei Chang(参考訳) ジェンダーは言語タスクの文脈や言語モデルによって伝播されるステレオタイプを調べる際に広く議論される。 しかし、現在の議論では、主に性別を二元性として扱うが、これは非二項性同一性の周期的消去のような危害を持続することができる。 これらの危害は、非認知と社会における非バイナリ性に対する理解の欠如の結果である、モデルとデータセットのバイアスによって引き起こされる。 本稿では,その周辺のジェンダーと言語が複雑化していることを説明し,英語技術におけるジェンダーの扱いにかかわる害を理解するために,非バイナリ人を対象に調査を行う。 また、現在の言語表現(例えばGloVe, BERT)が、性別情報を均等にエンコードする表現のために認識し、対処する必要があるこれらの害や関連する課題を捕捉し、永続する方法について詳述する。

Gender is widely discussed in the context of language tasks and when examining the stereotypes propagated by language models. However, current discussions primarily treat gender as binary, which can perpetuate harms such as the cyclical erasure of non-binary gender identities. These harms are driven by model and dataset biases, which are consequences of the non-recognition and lack of understanding of non-binary genders in society. In this paper, we explain the complexity of gender and language around it, and survey non-binary persons to understand harms associated with the treatment of gender as binary in English language technologies. We also detail how current language representations (e.g., GloVe, BERT) capture and perpetuate these harms and related challenges that need to be acknowledged and addressed for representations to equitably encode gender information.
翻訳日:2021-08-30 19:37:33 公開日:2021-08-27
# (参考訳) オンライン行列プロファイルによるIT運用系列の異常検出 [全文訳有]

Anomaly Detection on IT Operation Series via Online Matrix Profile ( http://arxiv.org/abs/2108.12093v1 )

ライセンス: CC BY 4.0
Shi-Ying Lan, Run-Qing Chen, Wan-Lei Zhao(参考訳) 時系列における異常検出は、ITシステムのキーパフォーマンス指標(KPI)を監視するための基本的なタスクである。 文献にある既存のアプローチは多くのトレーニングリソースを必要とするか、実際のシナリオにデプロイするのが難しいかのどちらかです。 本稿では,トレーニングを必要としないオンライン行列プロファイルを提案し,この問題に対処する。 異常は、現在のものに最も近い過去のサブシーケンスを参照することによって検出される。 距離の重要度はオンライン行列プロファイルに基づいて,異常発生時の顕著なパターンを示す。 また, 検出精度をさらに高めるために, トレーニングフリーなスペクトル残差を組み込んだ。 さらに,提案手法は,導入したキャッシュ戦略により,少なくとも4回,時系列で高速化される。 既存のアプローチと比較して、オンラインマトリックスプロファイルは精度と効率のトレードオフが良好である。 さらに重要なのは、トレーニングされたモデルの制約なしに動作するという意味で、さまざまなタイプの時系列に汎用的であることだ。

Anomaly detection on time series is a fundamental task in monitoring the Key Performance Indicators (KPIs) of IT systems. The existing approaches in the literature either require a lot of training resources or are hard to be deployed in real scenarios. In this paper, the online matrix profile, which requires no training, is proposed to address this issue. The anomalies are detected by referring to the past subsequence that is the closest to the current one. The distance significance is introduced based on the online matrix profile, which demonstrates a prominent pattern when an anomaly occurs. Another training-free approach spectral residual is integrated into our approach to further enhance the detection accuracy. Moreover, the proposed approach is sped up by at least four times for long time series by the introduced cache strategy. In comparison to the existing approaches, the online matrix profile makes a good trade-off between accuracy and efficiency. More importantly, it is generic to various types of time series in the sense that it works without the constraint from any trained model.
翻訳日:2021-08-30 19:06:47 公開日:2021-08-27
# (参考訳) 単一チャンネル音声強調のためのフルアテンション双方向深層学習構造 [全文訳有]

Full Attention Bidirectional Deep Learning Structure for Single Channel Speech Enhancement ( http://arxiv.org/abs/2108.12105v1 )

ライセンス: CC BY 4.0
Yuzi Yan, Wei-Qiang Zhang, Michael T. Johnson(参考訳) 音声認識や音声合成などの他の重要な技術の基礎として、音声信号処理において音声強調は重要な領域である。 本稿では,音声強調のための新しい深層学習構造について述べる。 モデルでは,各焦点フレームの後に潜在情報を利用する双方向シーケンシャル・ツー・シーケンス法に"フル"な注意機構を導入する。 これは従来の注目に基づくRNN手法の拡張である。 提案アーキテクチャは,OM-LSA,CNN-LSTM,T-G SA,一方向注意に基づくLSTMベースラインと比較して,音声品質(PESQ)において優れた性能を実現する。

As the cornerstone of other important technologies, such as speech recognition and speech synthesis, speech enhancement is a critical area in audio signal processing. In this paper, a new deep learning structure for speech enhancement is demonstrated. The model introduces a "full" attention mechanism to a bidirectional sequence-to-sequence method to make use of latent information after each focal frame. This is an extension of the previous attention-based RNN method. The proposed bidirectional attention-based architecture achieves better performance in terms of speech quality (PESQ), compared with OM-LSA, CNN-LSTM, T-GSA and the unidirectional attention-based LSTM baseline.
翻訳日:2021-08-30 18:52:30 公開日:2021-08-27
# (参考訳) シミュレーションに基づく推論による車両運動パラメータの同定 [全文訳有]

Identification of Vehicle Dynamics Parameters Using Simulation-based Inference ( http://arxiv.org/abs/2108.12114v1 )

ライセンス: CC BY 4.0
Ali Boyali, Simon Thompson, David Robert Wong(参考訳) タイヤと車両パラメータの同定は、自動運転車の制御と計画のアルゴリズムを設計するための重要なステップである。 本稿では,パラメータ同定のための近似ベイズ計算法(abc)の現代的解釈であるシミュレーションベース推論(sbi)を提案する。 シミュレーションに基づく推論は、機械学習文学における新たな手法であり、複雑な問題における多くのパラメータ集合の正確な結果をもたらすことが証明されている。 本稿では,高非線形車両の動力学パラメータの同定を処理し,制御方程式のパラメータを精度良く推定できることを実証する。

Identifying tire and vehicle parameters is an essential step in designing control and planning algorithms for autonomous vehicles. This paper proposes a new method: Simulation-Based Inference (SBI), a modern interpretation of Approximate Bayesian Computation methods (ABC) for parameter identification. The simulation-based inference is an emerging method in the machine learning literature and has proven to yield accurate results for many parameter sets in complex problems. We demonstrate in this paper that it can handle the identification of highly nonlinear vehicle dynamics parameters and gives accurate estimates of the parameters for the governing equations.
翻訳日:2021-08-30 18:43:30 公開日:2021-08-27
# (参考訳) Canoe : ニューラルネットワークのための協調学習システム [全文訳有]

Canoe : A System for Collaborative Learning for Neural Nets ( http://arxiv.org/abs/2108.12124v1 )

ライセンス: CC BY 4.0
Harshit Daga, Yiwen Chen, Aastha Agrawal, Ada Gavrilovska(参考訳) エッジコンピューティングのような高度に分散した環境では、協調学習アプローチによってグローバルな共有モデルへの依存が促進され、各場所に適したモデルが好まれる。 個別の学習コンテキストに適したモデルを作成することは、データ転送の量を減らす一方、ピア間のコラボレーションは許容できるモデルパフォーマンスを提供する。 しかし、知識が正確なモデルスライスによって容易に引き起こされない深層学習モデルでは自明ではない、知識伝達メカニズムが利用可能であると仮定する。 Canoe - ニューラルネットワークの知識伝達を容易にするフレームワークを提案する。 Canoeは、ヘルパーノードのニューラルネットワークから重要なパラメータを動的に抽出する新しいシステムサポートを提供し、ターゲットノードの予測パフォーマンスを改善するために、マルチモデルブースティングベースのアプローチでこれを使用する。 異なるPyTorchとTensorFlowニューラルネットワークモデルによるCanoeの評価は、知識伝達機構が、独立した学習に比べて3.5倍までモデルの適応性を向上し、フェデレートされた学習に比べてデータ移動コストが大幅に削減されることを示した。

For highly distributed environments such as edge computing, collaborative learning approaches eschew the dependence on a global, shared model, in favor of models tailored for each location. Creating tailored models for individual learning contexts reduces the amount of data transfer, while collaboration among peers provides acceptable model performance. Collaboration assumes, however, the availability of knowledge transfer mechanisms, which are not trivial for deep learning models where knowledge isn't easily attributed to precise model slices. We present Canoe - a framework that facilitates knowledge transfer for neural networks. Canoe provides new system support for dynamically extracting significant parameters from a helper node's neural network and uses this with a multi-model boosting-based approach to improve the predictive performance of the target node. The evaluation of Canoe with different PyTorch and TensorFlow neural network models demonstrates that the knowledge transfer mechanism improves the model's adaptiveness to changes up to 3.5X compared to learning in isolation, while affording several magnitudes reduction in data movement costs compared to federated learning.
翻訳日:2021-08-30 18:30:05 公開日:2021-08-27
# (参考訳) 複雑なネットワークのダイナミクス予測のための並列機械学習 [全文訳有]

Parallel Machine Learning for Forecasting the Dynamics of Complex Networks ( http://arxiv.org/abs/2108.12129v1 )

ライセンス: CC BY 4.0
Keshav Srinivasan, Nolan Coble, Joy Hamlin, Thomas Antonsen, Edward Ott and Michelle Girvan(参考訳) 時系列データから大規模ネットワークのダイナミクスを予測することは、幅広い文脈において重要である。 本稿では、関心ネットワークのトポロジを模倣した並列アーキテクチャを用いて、このタスクのための機械学習手法を提案する。 本稿では,カオス型発振器ネットワーク上で貯留層計算を用いて実装した手法の有用性と拡張性を示す。 ネットワークリンクは, (i) ネットワークリンクが未知であり, (ii) 予測を概ね最適化するためのデータ駆動アプローチにより, ネットワークリンクは未知であり, 推測される。

Forecasting the dynamics of large complex networks from previous time-series data is important in a wide range of contexts. Here we present a machine learning scheme for this task using a parallel architecture that mimics the topology of the network of interest. We demonstrate the utility and scalability of our method implemented using reservoir computing on a chaotic network of oscillators. Two levels of prior knowledge are considered: (i) the network links are known; and (ii) the network links are unknown and inferred via a data-driven approach to approximately optimize prediction.
翻訳日:2021-08-30 18:06:45 公開日:2021-08-27
# (参考訳) Lyra: Turducken-Styleコード生成のベンチマーク [全文訳有]

Lyra: A Benchmark for Turducken-Style Code Generation ( http://arxiv.org/abs/2108.12144v1 )

ライセンス: CC BY 4.0
Qingyuan Liang, Zeyu Sun, Qihao Zhu, Wenjie Zhang, Lian Yu, Yingfei Xiong, Lu Zhang(参考訳) 手動のソフトウェア開発作業を減らすにはコード生成が不可欠である。 近年,ソースコードの自動生成にニューラルネットワークが用いられている。 有望だが、これらのアプローチは単一のプログラミング言語でコードを生成するタスクで評価される。 しかし、実際の開発では、あるプログラミング言語が別の言語に埋め込まれることがしばしばある。 例えば、SQLステートメントはPythonやJavaのような基本プログラミング言語の文字列として組み込まれ、JavaScriptプログラムはPHP、Java、Pythonのような厳格なプログラミング言語に埋め込まれることが多い。 これをturduckenスタイルのプログラミングと呼びます。 本稿では,新しいコード生成タスクを定義する。自然言語のコメントを前提として,組み込み言語を用いたベース言語でのプログラム生成を目標とする。 私たちの知る限り、これが最初のturduckenスタイルのコード生成タスクです。 このタスクでは、lyra:組込みsqlを備えたpythonのデータセットです。 このデータセットは、実際のプロジェクトから2000の注意深い注釈付きデータベース操作プログラムを含んでいる。 各プログラムには、中国語のコメントと英語のコメントがペアリングされる。 実験では,最先端技術であるtransformerをベースラインとして採用した。 最良の設定では、transformerは中国語と英語のコメントでそれぞれ0.5%と1.5%の正確なマッチング精度を達成している。 したがって、lyraはコード生成に新たな課題をもたらすと信じています。

Code generation is crucial to reduce manual software development efforts. Recently, neural techniques have been used to generate source code automatically. While promising, these approaches are evaluated on tasks for generating code in single programming languages. However, in actual development, one programming language is often embedded in another. For example, SQL statements are often embedded as strings in base programming languages such as Python and Java, and JavaScript programs are often embedded in sever-side programming languages, such as PHP, Java, and Python. We call this a turducken-style programming. In this paper, we define a new code generation task: given a natural language comment, this task aims to generate a program in a base language with an embedded language. To our knowledge, this is the first turducken-style code generation task. For this task, we present Lyra: a dataset in Python with embedded SQL. This dataset contains 2,000 carefully annotated database manipulation programs from real usage projects. Each program is paired with both a Chinese comment and an English comment. In our experiment, we adopted Transformer, a state-of-the-art technique, as the baseline. In the best setting, Transformer achieves 0.5% and 1.5% AST exact matching accuracy using Chinese and English comments, respectively. Therefore, we believe that Lyra provides a new challenge for code generation.
翻訳日:2021-08-30 18:04:35 公開日:2021-08-27
# (参考訳) リーマン最適化による確率的テンソル・トレインフォーマットのテンソル補完

Provable Tensor-Train Format Tensor Completion by Riemannian Optimization ( http://arxiv.org/abs/2108.12163v1 )

ライセンス: CC BY 4.0
Jian-Feng Cai, Jingyang Li, Dong Xia(参考訳) テンソルトレイン(TT)フォーマットは、構造上の高次テンソルを扱う上で魅力的な利点がある。 近年の10年間、様々な分野からTT形式テンソルが広く応用されているのを目撃してきた。 リーマン勾配降下 (rgrad) アルゴリズムを含む多くの高速アルゴリズムがtt形式テンソル完全化のために提案されている。 しかし、これらのアルゴリズムの理論的保証は、TT形式分解における複雑で再帰的な代数演算のために、ほとんど欠落または準最適である。 さらに、TT形式テンソルを扱うアルゴリズムが実質的に異なるため、TuckerやCPといった他のフォーマットのテンソルに対して確立された既存の結果は適用できない。 本稿では, TT形式テンソル完備化のためのRGradアルゴリズムの収束に関する理論的な最初の保証を, ほぼ最適なサンプルサイズ条件下で提供する。 RGradアルゴリズムは、リコンディショニングを必要とせずにテンソル条件数のない一定の収縮率で線形収束する。 また,同様のサンプルサイズ条件下で温かい初期化を実現するために,逐次2次モーメント法と呼ばれる新しい手法を提案する。 副産物として, 行列完全化のためのRGradアルゴリズムの先行研究を改良した。 数値実験により理論的な発見を確認し,tt形式分解による計算速度向上を示す。

The tensor train (TT) format enjoys appealing advantages in handling structural high-order tensors. The recent decade has witnessed the wide applications of TT-format tensors from diverse disciplines, among which tensor completion has drawn considerable attention. Numerous fast algorithms, including the Riemannian gradient descent (RGrad) algorithm, have been proposed for the TT-format tensor completion. However, the theoretical guarantees of these algorithms are largely missing or sub-optimal, partly due to the complicated and recursive algebraic operations in TT-format decomposition. Moreover, existing results established for the tensors of other formats, for example, Tucker and CP, are inapplicable because the algorithms treating TT-format tensors are substantially different and more involved. In this paper, we provide, to our best knowledge, the first theoretical guarantees of the convergence of RGrad algorithm for TT-format tensor completion, under a nearly optimal sample size condition. The RGrad algorithm converges linearly with a constant contraction rate that is free of tensor condition number without the necessity of re-conditioning. We also propose a novel approach, referred to as the sequential second-order moment method, to attain a warm initialization under a similar sample size requirement. As a byproduct, our result even significantly refines the prior investigation of RGrad algorithm for matrix completion. Numerical experiments confirm our theoretical discovery and showcase the computational speedup gained by the TT-format decomposition.
翻訳日:2021-08-30 17:50:12 公開日:2021-08-27
# (参考訳) Pseudo-labeling を用いた低リソースコード混合ドラヴィダ言語における攻撃言語同定 [全文訳有]

Offensive Language Identification in Low-resourced Code-mixed Dravidian languages using Pseudo-labeling ( http://arxiv.org/abs/2108.12177v1 )

ライセンス: CC BY 4.0
Adeep Hande, Karthik Puranik, Konthala Yasaswini, Ruba Priyadharshini, Sajeetha Thavareesan, Anbukkarasi Sampath, Kogilavani Shanmugavadivel, Durairaj Thenmozhi, Bharathi Raja Chakravarthi(参考訳) ソーシャルメディアは、コミュニケーションとデジタルマーケティングの主要なハブとなっている。 これらのプラットフォームは、テキスト、画像、ビデオにおける思考や事実の無料表示を可能にするため、個人やグループを攻撃的なコンテンツから保護するために、それらをスクリーニングする必要がある。 我々の研究は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類することを目的としています。 データセット上で擬似ラベルを生成することにより,攻撃的言語識別を改善する。 カスタムデータセットは、コードミキシングされたテキストをカナダ語、マラヤラム語、タミル語の各ドラヴィダ語に翻訳し、翻訳されたデータセットの擬似ラベルを生成する。 2つのデータセットは、生成された擬似ラベルを使って組み合わせられ、CMTRAと呼ばれるカスタムデータセットを生成する。 Dravidian言語はリソース不足のため、我々のアプローチは言語モデルのトレーニングデータの量を増やします。 新たに構築したデータセット上で,最近の事前学習言語モデルを微調整する。 事前訓練された言語埋め込みを抽出し、繰り返しニューラルネットワークに渡す。 カスタムデータセット上の微調整 ULMFiT は、3つの言語のコード混合テストセット上で最高の結果が得られることを観察する。 提案手法は,マラヤラム・イングリッシュとカナダ・イングリッシュのコード混合試験セットでそれぞれ0.9624と0.7306の競合重み付きF1スコアをそれぞれ獲得し,重み付きF1スコアの0.7934を達成した。

Social media has effectively become the prime hub of communication and digital marketing. As these platforms enable the free manifestation of thoughts and facts in text, images and video, there is an extensive need to screen them to protect individuals and groups from offensive content targeted at them. Our work intends to classify codemixed social media comments/posts in the Dravidian languages of Tamil, Kannada, and Malayalam. We intend to improve offensive language identification by generating pseudo-labels on the dataset. A custom dataset is constructed by transliterating all the code-mixed texts into the respective Dravidian language, either Kannada, Malayalam, or Tamil and then generating pseudo-labels for the transliterated dataset. The two datasets are combined using the generated pseudo-labels to create a custom dataset called CMTRA. As Dravidian languages are under-resourced, our approach increases the amount of training data for the language models. We fine-tune several recent pretrained language models on the newly constructed dataset. We extract the pretrained language embeddings and pass them onto recurrent neural networks. We observe that fine-tuning ULMFiT on the custom dataset yields the best results on the code-mixed test sets of all three languages. Our approach yields the best results among the benchmarked models on Tamil-English, achieving a weighted F1-Score of 0.7934 while scoring competitive weighted F1-Scores of 0.9624 and 0.7306 on the code-mixed test sets of Malayalam-English and Kannada-English, respectively.
翻訳日:2021-08-30 17:48:58 公開日:2021-08-27
# (参考訳) GLocal-K:Recommender システムのためのグローバルカーネルとローカルカーネル [全文訳有]

GLocal-K: Global and Local Kernels for Recommender Systems ( http://arxiv.org/abs/2108.12184v1 )

ライセンス: CC BY 4.0
Soyeon Caren Han, Taejun Lim, Siqu Long, Bernd Burgstaller, Josiah Poon(参考訳) レコメンダシステムは、通常、高次元のスパースユーザ-イット行列で動作する。 マトリックスの完成は、何千ものアイテムの小さなサブセットを見た何百万もの他のユーザーに基づいて、興味を予測するための非常に難しいタスクです。 本稿では,高次元スパースなユーザ・イット・マトリックスを少数の重要な特徴を持つ低次元空間に一般化し,表現することを目的とした,glocal-kと呼ばれるグローバル局所カーネルベースのマトリックス補完フレームワークを提案する。 我々のGLocal-Kは2つの主要な段階に分けられる。 まず,局所的なカーネル化重み行列を用いたオートエンコーダを事前学習し,これを2d-RBFカーネルを用いて一空間から特徴空間に変換する。 そして、予め訓練されたオートエンコーダは、各アイテムの特性をキャプチャする畳み込みベースのグローバルカーネルによって生成される格付け行列で微調整される。 当社のglocal-kモデルは,ユーザ項目のレーティングマトリックスのみを含む極端に低リソースな設定で,サイド情報を持たない。 我々のモデルは、ML-100K、ML-1M、Doubanの3つの協調フィルタリングベンチマークで最先端のベースラインを上回っている。

Recommender systems typically operate on high-dimensional sparse user-item matrices. Matrix completion is a very challenging task to predict one's interest based on millions of other users having each seen a small subset of thousands of items. We propose a Global-Local Kernel-based matrix completion framework, named GLocal-K, that aims to generalise and represent a high-dimensional sparse user-item matrix entry into a low dimensional space with a small number of important features. Our GLocal-K can be divided into two major stages. First, we pre-train an auto encoder with the local kernelised weight matrix, which transforms the data from one space into the feature space by using a 2d-RBF kernel. Then, the pre-trained auto encoder is fine-tuned with the rating matrix, produced by a convolution-based global kernel, which captures the characteristics of each item. We apply our GLocal-K model under the extreme low-resource setting, which includes only a user-item rating matrix, with no side information. Our model outperforms the state-of-the-art baselines on three collaborative filtering benchmarks: ML-100K, ML-1M, and Douban.
翻訳日:2021-08-30 17:00:55 公開日:2021-08-27
# (参考訳) バイオメディカルおよびCOVID-19問題に対する理想的な回答を見つけるための質問文抽出要約 [全文訳有]

Query-Focused Extractive Summarisation for Finding Ideal Answers to Biomedical and COVID-19 Questions ( http://arxiv.org/abs/2108.12189v1 )

ライセンス: CC BY 4.0
Diego Moll\'a (1 and 2), Urvashi Khanna (1), Dima Galat (1), Vincent Nguyen (2 and 3) Maciej Rybinski (3) ( (1) Macquarie University, (2) CSIRO Data61, (3) Australian National University)(参考訳) 本稿では,マッコーリー大学のBioASQ Synergy Taskへの参加とBioASQ9bのフェーズBについて述べる。 これらの課題のそれぞれにおいて,医療質問に対する理想的な回答を得るために,問合せに焦点をあてた抽出要約の利用に焦点を当てた。 synergyタスクは、新型コロナウイルス(covid-19)に関するエンドツーエンドの質問応答タスクであり、システムは、特定の質問に対して関連するドキュメント、スニペット、回答を返す必要がある。 学習データがないことを考慮し,bioasq8bトレーニングデータセットで学習したクエリ中心の要約システムを用いて,文書とスニペットを取得する手法を実験した。 システムによって回収された文書やスニペットの質が低かったことを踏まえ,回答の質は適度に良好であった。 BioASQ9bタスクのフェーズBでは、関連するドキュメントとスニペットがテストデータにすでに含まれていた。 本システムでは,スニペットを候補文に分割し,文分類設定の下でBERT変種を用いた。 システムは,質問文と候補文を入力として使用し,その候補文が理想的な回答の一部である可能性を予測する訓練を行った。 ランは、BioASQ9bの全てのバッチに対する全ての参加者の最高のROUGE-F1の結果を得た。 このことは、分類設定でBERTを使用することが理想的な答えを特定するための非常に強力なベースラインであることを示している。

This paper presents Macquarie University's participation to the BioASQ Synergy Task, and BioASQ9b Phase B. In each of these tasks, our participation focused on the use of query-focused extractive summarisation to obtain the ideal answers to medical questions. The Synergy Task is an end-to-end question answering task on COVID-19 where systems are required to return relevant documents, snippets, and answers to a given question. Given the absence of training data, we used a query-focused summarisation system that was trained with the BioASQ8b training data set and we experimented with methods to retrieve the documents and snippets. Considering the poor quality of the documents and snippets retrieved by our system, we observed reasonably good quality in the answers returned. For phase B of the BioASQ9b task, the relevant documents and snippets were already included in the test data. Our system split the snippets into candidate sentences and used BERT variants under a sentence classification setup. The system used the question and candidate sentence as input and was trained to predict the likelihood of the candidate sentence being part of the ideal answer. The runs obtained either the best or second best ROUGE-F1 results of all participants to all batches of BioASQ9b. This shows that using BERT in a classification setup is a very strong baseline for the identification of ideal answers.
翻訳日:2021-08-30 16:52:43 公開日:2021-08-27
# (参考訳) 論理抽出による翻訳誤り検出 [全文訳有]

Translation Error Detection as Rationale Extraction ( http://arxiv.org/abs/2108.12197v1 )

ライセンス: CC BY 4.0
Marina Fomicheva, Lucia Specia, Nikolaos Aletras(参考訳) 多言語事前学習表現に基づく最近の品質推定(QE)モデルは、翻訳文の全体的な品質を予測する際に非常に競争力のある結果を得た。 翻訳エラー、すなわち、予測する。 どの単語が間違っているかを正確に検出することは、特に限られたトレーニングデータで、より困難な作業である。 我々は、成功したqeモデルは、人間と異なり、翻訳エラーに依存し、文全体の品質を予測すると仮定する。 モデル予測を説明するために、入力に関連点を割り当てる一連の特徴属性法を探索することにより、最先端の文レベルQEモデルの振る舞いを調べ、その説明を示す。 これらのモデルから抽出された論理は、翻訳エラーの検出に使用できる。 そこで, (i) 単語レベルQEの新しい半教師付き手法を導入し, (ii) 特徴属性の妥当性を評価するための新しいベンチマークとしてQEタスクを提案する。 モデルの説明がいかに人間に解釈されるか

Recent Quality Estimation (QE) models based on multilingual pre-trained representations have achieved very competitive results when predicting the overall quality of translated sentences. Predicting translation errors, i.e. detecting specifically which words are incorrect, is a more challenging task, especially with limited amounts of training data. We hypothesize that, not unlike humans, successful QE models rely on translation errors to predict overall sentence quality. By exploring a set of feature attribution methods that assign relevance scores to the inputs to explain model predictions, we study the behaviour of state-of-the-art sentence-level QE models and show that explanations (i.e. rationales) extracted from these models can indeed be used to detect translation errors. We therefore (i) introduce a novel semi-supervised method for word-level QE and (ii) propose to use the QE task as a new benchmark for evaluating the plausibility of feature attribution, i.e. how interpretable model explanations are to humans.
翻訳日:2021-08-30 16:40:15 公開日:2021-08-27
# (参考訳) ProtoInfoMax: ドメイン外検出のための相互情報最大化を備えたプロトタイプネットワーク [全文訳有]

ProtoInfoMax: Prototypical Networks with Mutual Information Maximization for Out-of-Domain Detection ( http://arxiv.org/abs/2108.12229v1 )

ライセンス: CC BY 4.0
Iftitahu Ni'mah, Meng Fang, Vlado Menkovski, Mykola Pechenizkiy(参考訳) OOD(Out-of-Domain)インプットを検出する能力は、OODインプットがサポートされていないため、多くの現実世界のNLPアプリケーションにおいて重要な要件となっている。 しかし、OODトレーニングデータがゼロである現実的なシナリオでは、現在のアルゴリズムがそのような問題に確実に対処できるかどうか、実証的な疑問が残る。 本研究では,プロトタイプネットワークを拡張し,相互情報最大化(infomax)目標を用いて,ドメイン内(id)文とオード文を同時に処理する新しいアーキテクチャprotoinfomaxを提案する。 実験の結果,本手法はテキスト分類の低リソース設定におけるOOD検出性能を最大20%向上させることができることがわかった。 また、ProtoInfoMaxは、ニューラルネットワークの一般的な過信エラーの傾向が低く、より信頼性の高いIDとOOD予測結果をもたらすことを示す。

The ability to detect Out-of-Domain (OOD) inputs has been a critical requirement in many real-world NLP applications since the inclusion of unsupported OOD inputs may lead to catastrophic failure of systems. However, it remains an empirical question whether current algorithms can tackle such problem reliably in a realistic scenario where zero OOD training data is available. In this study, we propose ProtoInfoMax, a new architecture that extends Prototypical Networks to simultaneously process In-Domain (ID) and OOD sentences via Mutual Information Maximization (InfoMax) objective. Experimental results show that our proposed method can substantially improve performance up to 20% for OOD detection in low resource settings of text classification. We also show that ProtoInfoMax is less prone to typical over-confidence Error of Neural Networks, leading to more reliable ID and OOD prediction outcomes.
翻訳日:2021-08-30 16:27:10 公開日:2021-08-27
# (参考訳) 時間的)分布記述論理のための幾何学的モデル [全文訳有]

Geometric Models for (Temporally) Attributed Description Logics ( http://arxiv.org/abs/2108.12239v1 )

ライセンス: CC BY 4.0
Camille Bourgaux, Ana Ozaki, Jeff Z. Pan(参考訳) 存在論的知識を捉えうる知識グラフ埋め込みの探索において、存在規則の幾何学的モデルが最近導入された。 凸幾何領域はいわゆる準連鎖規則を捉えることが示されている。 帰結記述論理(dl)は、dl言語と知識グラフの間のギャップを埋めるために定義されており、その事実は、推論のために考慮される必要がある様々なアノテーションを伴うことが多い。 特に、時間的属性のDLは、意味論が時間的推論を許容する特定の属性によって富む。 本稿では,dl-liteファミリーのホルン方言の帰属的バージョンに着目し,知識グラフのための有望なツールである幾何モデルと(一時的)帰属dlsを考察する。 まず幾何学的モデルの定義を帰結したdlsに適用し、すべての満足できるオントロジーが凸幾何学的モデルを持つことを示す。 第2の貢献は、時間的属性の影響についての研究です。 時間的特性を持つDLは一般に凸幾何学モデルを持たないが,時間的属性の使用に制限を加えることで幾何的満足度を回復できることを示す。

In the search for knowledge graph embeddings that could capture ontological knowledge, geometric models of existential rules have been recently introduced. It has been shown that convex geometric regions capture the so-called quasi-chained rules. Attributed description logics (DL) have been defined to bridge the gap between DL languages and knowledge graphs, whose facts often come with various kinds of annotations that may need to be taken into account for reasoning. In particular, temporally attributed DLs are enriched by specific attributes whose semantics allows for some temporal reasoning. Considering that geometric models and (temporally) attributed DLs are promising tools designed for knowledge graphs, this paper investigates their compatibility, focusing on the attributed version of a Horn dialect of the DL-Lite family. We first adapt the definition of geometric models to attributed DLs and show that every satisfiable ontology has a convex geometric model. Our second contribution is a study of the impact of temporal attributes. We show that a temporally attributed DL may not have a convex geometric model in general but we can recover geometric satisfiability by imposing some restrictions on the use of the temporal attributes.
翻訳日:2021-08-30 16:13:22 公開日:2021-08-27
# (参考訳) 深層学習による音楽作曲についての一考察 [全文訳有]

Music Composition with Deep Learning: A Review ( http://arxiv.org/abs/2108.12290v1 )

ライセンス: CC BY 4.0
Carlos Hernandez-Olivan, Jose R. Beltran(参考訳) 作曲のような複雑な芸術作品を生成するには、音楽の階層構造に関連する様々な要因に依存する真の創造性を示す必要がある。 音楽生成はアルゴリズム的手法で行われており、近年はコンピュータビジョンなどの他の分野で使われているディープラーニングモデルと対立している。 本稿では,AIに基づく楽曲合成モデルと人間の楽曲合成と創造性プロセスの既存の関係について考察する。 本稿では,最近の音楽合成の深層学習モデルの概要を述べるとともに,理論的な観点から,これらのモデルと作曲過程を比較した。 我々は、AIと人間の作曲プロセスの類似性や創造性を備えた音楽を生成するために、現在のディープラーニングモデルの能力を分析することで、このタスクに最も関係のあるオープンな疑問に答えようとしている。

Generating a complex work of art such as a musical composition requires exhibiting true creativity that depends on a variety of factors that are related to the hierarchy of musical language. Music generation have been faced with Algorithmic methods and recently, with Deep Learning models that are being used in other fields such as Computer Vision. In this paper we want to put into context the existing relationships between AI-based music composition models and human musical composition and creativity processes. We give an overview of the recent Deep Learning models for music composition and we compare these models to the music composition process from a theoretical point of view. We have tried to answer some of the most relevant open questions for this task by analyzing the ability of current Deep Learning models to generate music with creativity or the similarity between AI and human composition processes, among others.
翻訳日:2021-08-30 15:38:59 公開日:2021-08-27
# (参考訳) 動的分布適応と多様体正規化を用いた教師付き異種転送学習の枠組み

A Framework for Supervised Heterogeneous Transfer Learning using Dynamic Distribution Adaptation and Manifold Regularization ( http://arxiv.org/abs/2108.12293v1 )

ライセンス: CC BY 4.0
Md Geaur Rahman and Md Zahidul Islam(参考訳) Transfer Learningは、ソースドメインから知識を転送することで、ターゲットドメインの分類器を学習することを目的としている。 しかし、特徴の相違と分布のばらつきという2つの主要な問題により、転送学習は実際には非常に難しい問題となる。 本稿では,多くのラベル付きレコードを持つソースドメインから知識を転送することで,ラベル付きトレーニングレコードが少ないターゲットドメインの分類器を構築するTLFというフレームワークを提案する。 既存のメソッドは1つの問題に集中し、もう1つの課題を次の作業に残すことが多いが、TLFは両方の問題を同時に扱うことができる。 TLFでは、ドメインをブリッジするピボットとして機能する共有ラベル分布を識別することで、特徴の相違を緩和する。 我々は、構造リスク関数、領域間の結合分布、および境界分布に基づく多様体の整合性を同時に最適化することにより、分布のばらつきを処理する。 さらに、多様体の整合性のために、k の値が TLF で自動的に決定されるレコードの k 近傍を同定することにより、その固有性を利用する。 さらに、負の転送が望まれないため、知識伝達中にソースピボットに属するソースレコードのみを考慮する。 TLFを利用可能な7つの自然データセット上で評価し、TLFの性能と11の最先端技術の性能を比較した。 また,困難状況下でのTLFの有効性についても検討した。 統計的手話検査やネメニイテスト分析を含む実験結果から,提案手法が最先端技術よりも優れていることが示唆された。

Transfer learning aims to learn classifiers for a target domain by transferring knowledge from a source domain. However, due to two main issues: feature discrepancy and distribution divergence, transfer learning can be a very difficult problem in practice. In this paper, we present a framework called TLF that builds a classifier for the target domain having only few labeled training records by transferring knowledge from the source domain having many labeled records. While existing methods often focus on one issue and leave the other one for the further work, TLF is capable of handling both issues simultaneously. In TLF, we alleviate feature discrepancy by identifying shared label distributions that act as the pivots to bridge the domains. We handle distribution divergence by simultaneously optimizing the structural risk functional, joint distributions between domains, and the manifold consistency underlying marginal distributions. Moreover, for the manifold consistency we exploit its intrinsic properties by identifying k nearest neighbors of a record, where the value of k is determined automatically in TLF. Furthermore, since negative transfer is not desired, we consider only the source records that are belonging to the source pivots during the knowledge transfer. We evaluate TLF on seven publicly available natural datasets and compare the performance of TLF against the performance of eleven state-of-the-art techniques. We also evaluate the effectiveness of TLF in some challenging situations. Our experimental results, including statistical sign test and Nemenyi test analyses, indicate a clear superiority of the proposed framework over the state-of-the-art techniques.
翻訳日:2021-08-30 15:13:47 公開日:2021-08-27
# (参考訳) contrastive mixup: 表ドメインのための自己教師あり学習 [全文訳有]

Contrastive Mixup: Self- and Semi-Supervised learning for Tabular Domain ( http://arxiv.org/abs/2108.12296v1 )

ライセンス: CC BY 4.0
Sajad Darabi, Shayan Fazeli, Ali Pazoki, Sriram Sankararaman, Majid Sarrafzadeh(参考訳) 近年,画像領域とテキスト領域における教師なし手法と教師なし手法のギャップを埋める研究が進んでいる。 これらのメソッドは、表ドメインに直接適応できないドメイン固有の拡張に依存している。 代わりに、表データのための半教師付き学習フレームワークであるContrastive Mixupを導入し、限られた注釈付きデータ設定でその効果を実証する。 提案手法は, サンプルを低次元の潜在空間にマッピングすることで, 多様体仮定の下でのミックスアップに基づく拡張を活用し, 同じラベル付きクラス内で高い類似性を持つように補間標本を奨励する。 ラベルのないサンプルは、コントラスト損失項で使用できる類似および異質なペアの組をさらに豊かにするために、トランスダクティブラベル伝播法によって追加的に使用される。 提案手法が公的な表表データセットと実世界の臨床データセットに与える影響を実証する。

Recent literature in self-supervised has demonstrated significant progress in closing the gap between supervised and unsupervised methods in the image and text domains. These methods rely on domain-specific augmentations that are not directly amenable to the tabular domain. Instead, we introduce Contrastive Mixup, a semi-supervised learning framework for tabular data and demonstrate its effectiveness in limited annotated data settings. Our proposed method leverages Mixup-based augmentation under the manifold assumption by mapping samples to a low dimensional latent space and encourage interpolated samples to have high a similarity within the same labeled class. Unlabeled samples are additionally employed via a transductive label propagation method to further enrich the set of similar and dissimilar pairs that can be used in the contrastive loss term. We demonstrate the effectiveness of the proposed framework on public tabular datasets and real-world clinical datasets.
翻訳日:2021-08-30 15:12:34 公開日:2021-08-27
# (参考訳) 建築エネルギーシミュレーションにおける分類と特徴選択の適用 [全文訳有]

Application of Classification and Feature Selection in Building Energy Simulations ( http://arxiv.org/abs/2108.12363v1 )

ライセンス: CC BY 4.0
Fatemeh Shahsavari, Zohreh Shaghaghian(参考訳) エネルギーパフォーマンスの構築は、パフォーマンスベースの設計決定における重要な特徴の1つです。 建築用封筒材は、建築エネルギー性能向上に重要な役割を果たす。 建築材料の熱特性は、建物エンベロープを通した熱伝達のレベルを決定するため、建物の年次熱エネルギー性能は決定される。 本研究は, 材料熱特性が建築熱負荷に及ぼす影響について, 線形判別分析 (LDA) 法を適用した。 主成分分析(PCA)と排他的特徴選択(EFS)の2つの手法が特徴選択に適用されている。 仮説設計のシナリオは、カリフォルニア州ロサンゼルスのオフィスビルに6つの代替素材で開発されている。 最適設計代替案はLDA結果に基づいて選択され、PCA法とEFS法に基づいてキー入力パラメータが決定される。 PCAの結果, 熱伝導率, 密度, 比熱容量, 厚さの4つのパラメータが, 建築熱挙動および熱エネルギー消費の面で最も重要な特徴であることが確認された。 この結果は、構築エネルギーシミュレーションツールの大部分の仮定と非常によく一致する。

Building energy performance is one of the key features in performance-based building design decision making. Building envelope materials can play a key role in improving building energy performance. The thermal properties of building materials determine the level of heat transfer through building envelope, thus the annual thermal energy performance of the building. This research applies the Linear Discriminant Analysis (LDA) method to study the effects of materials' thermal properties on building thermal loads. Two approaches are adopted for feature selection including the Principal Component Analysis (PCA) and the Exhaustive Feature Selection (EFS). A hypothetical design scenario is developed with six material alternatives for an office building in Los Angeles, California. The best design alternative is selected based on the LDA results and the key input parameters are determined based on the PCA and EFS methods. The PCA results confirm that among all thermal properties of the materials, the four parameters including thermal conductivity, density, specific heat capacity, and thickness are the most critical features, in terms of building thermal behavior and thermal energy consumption. This result matches quite well with the assumptions of most of the building energy simulation tools.
翻訳日:2021-08-30 14:57:54 公開日:2021-08-27
# (参考訳) ISNet:セマンティックセグメンテーションのための画像レベルと意味レベルコンテキストの統合 [全文訳有]

ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation ( http://arxiv.org/abs/2108.12382v1 )

ライセンス: CC BY 4.0
Zhenchao Jin, Bin Liu, Qi Chu, Nenghai Yu(参考訳) 共起型視覚パターンは、コンテキスト情報の集約を共通のパラダイムとし、セマンティックイメージセグメンテーションのためのピクセル表現を強化する。 既存のアプローチでは、画像全体、すなわち画像レベルのコンテキスト情報を集約する観点から、コンテキストのモデリングに焦点を当てている。 これらの手法は印象的ではあるが、同じカテゴリのピクセル表現、すなわち意味レベルの文脈情報の重要性を弱める。 そこで本稿では,画像レベルと意味レベルのコンテキスト情報をそれぞれ集約することにより,画素表現の強化を提案する。 まず、画像レベルコンテキストモジュールは、画像内の各ピクセルのコンテキスト情報をキャプチャするように設計されている。 第2に,各画素毎に同じカテゴリの表現を集約し,各カテゴリ領域を接地木分割の監督の下で学習する。 第3に,各画素表現と画像レベルの文脈情報,意味レベルの文脈情報との類似性を計算する。 最後に、画像レベルのコンテキスト情報と意味レベルのコンテキスト情報の両方を重み付けし、重み付けとして類似度を持たせてピクセル表現を増強する。 画像レベルのコンテキストとセマンティックレベルのコンテキストを統合することで,ade20k,lip,cocostuf f,cityscapesの4つのベンチマークにおいて,最先端の精度を報告できる。

Co-occurrent visual pattern makes aggregating contextual information a common paradigm to enhance the pixel representation for semantic image segmentation. The existing approaches focus on modeling the context from the perspective of the whole image, i.e., aggregating the image-level contextual information. Despite impressive, these methods weaken the significance of the pixel representations of the same category, i.e., the semantic-level contextual information. To address this, this paper proposes to augment the pixel representations by aggregating the image-level and semantic-level contextual information, respectively. First, an image-level context module is designed to capture the contextual information for each pixel in the whole image. Second, we aggregate the representations of the same category for each pixel where the category regions are learned under the supervision of the ground-truth segmentation. Third, we compute the similarities between each pixel representation and the image-level contextual information, the semantic-level contextual information, respectively. At last, a pixel representation is augmented by weighted aggregating both the image-level contextual information and the semantic-level contextual information with the similarities as the weights. Integrating the image-level and semantic-level context allows this paper to report state-of-the-art accuracy on four benchmarks, i.e., ADE20K, LIP, COCOStuff and Cityscapes.
翻訳日:2021-08-30 14:51:54 公開日:2021-08-27
# DomiKnowS:ディープラーニングにおけるシンボリックドメイン知識の統合のためのライブラリ

DomiKnowS: A Library for Integration of Symbolic Domain Knowledge in Deep Learning ( http://arxiv.org/abs/2108.12370v1 )

ライセンス: Link先を確認
Hossein Rajaby Faghihi, Quan Guo, Andrzej Uszok, Aliakbar Nafar, Elaheh Raisi, and Parisa Kordjamshidi(参考訳) ディープラーニングアーキテクチャにおけるドメイン知識の統合のためのライブラリを実演する。 このライブラリを使用すると、データの構造はグラフ宣言を通じて象徴的に表現され、出力や潜在変数に対する論理的な制約を深層モデルにシームレスに追加することができる。 ドメイン知識は明確に定義することができ、低データ体制の性能と一般化性に加えて、モデルの説明可能性を改善することができる。 このようなシンボリックモデルとサブシンボリックモデルを統合するためのいくつかのアプローチが導入されたが、そのような統合を汎用的にプログラミングするためのライブラリは存在せず、基礎となる様々なアルゴリズムが利用できる。 本ライブラリは,学習アルゴリズムから知識表現を分離しつつ,学習段階と推論段階の両方の統合を簡略化することを目的としている。 様々なNLPベンチマークタスクを紹介します。 このフレームワークはgithubで公開されている(https://github.com/ hlr/domiknows)。

We demonstrate a library for the integration of domain knowledge in deep learning architectures. Using this library, the structure of the data is expressed symbolically via graph declarations and the logical constraints over outputs or latent variables can be seamlessly added to the deep models. The domain knowledge can be defined explicitly, which improves the models' explainability in addition to the performance and generalizability in the low-data regime. Several approaches for such an integration of symbolic and sub-symbolic models have been introduced; however, there is no library to facilitate the programming for such an integration in a generic way while various underlying algorithms can be used. Our library aims to simplify programming for such an integration in both training and inference phases while separating the knowledge representation from learning algorithms. We showcase various NLP benchmark tasks and beyond. The framework is publicly available at Github(https://githu b.com/HLR/DomiKnowS) .
翻訳日:2021-08-30 14:26:06 公開日:2021-08-27
# 自動運転車の歩行者検出・追跡フレームワーク:カメラとLiDARデータの効率的な融合

A Pedestrian Detection and Tracking Framework for Autonomous Cars: Efficient Fusion of Camera and LiDAR Data ( http://arxiv.org/abs/2108.12375v1 )

ライセンス: Link先を確認
Muhammad Mobaidul Islam, Abdullah Al Redwan Newaz, and Ali Karimoddini(参考訳) 本稿では,カメラとLiDARセンサデータを用いた歩行者検出・追跡手法を提案する。 自動運転シナリオに関連する課題に対処するために,トラッキングと検出の統合フレームワークが提案されている。 検出フェーズは、LiDARストリームを計算的に抽出可能な深度画像に変換し、RGBと深度画像の両方の歩行者候補を特定するディープニューラルネットワークを開発する。 正確な情報を提供するため、カルマンフィルタを用いたマルチモーダルセンサ情報を用いて検出フェーズをさらに強化する。 トラッキングフェーズは、Kalmanフィルタ予測と、シーン内の複数の歩行者を追跡するための光フローアルゴリズムの組み合わせである。 我々は,我々のフレームワークを実際の運転データセット上で評価する。 実験の結果, 提案手法は, 歩行者検出のみを用いたベースライン法に比べて有意な性能改善が得られた。

This paper presents a novel method for pedestrian detection and tracking by fusing camera and LiDAR sensor data. To deal with the challenges associated with the autonomous driving scenarios, an integrated tracking and detection framework is proposed. The detection phase is performed by converting LiDAR streams to computationally tractable depth images, and then, a deep neural network is developed to identify pedestrian candidates both in RGB and depth images. To provide accurate information, the detection phase is further enhanced by fusing multi-modal sensor information using the Kalman filter. The tracking phase is a combination of the Kalman filter prediction and an optical flow algorithm to track multiple pedestrians in a scene. We evaluate our framework on a real public driving dataset. Experimental results demonstrate that the proposed method achieves significant performance improvement over a baseline method that solely uses image-based pedestrian detection.
翻訳日:2021-08-30 14:25:11 公開日:2021-08-27
# 入力摂動に対するニューラルネットワークモデルのロバスト性の評価

Evaluating the Robustness of Neural Language Models to Input Perturbations ( http://arxiv.org/abs/2108.12237v1 )

ライセンス: Link先を確認
Milad Moradi, Matthias Samwald(参考訳) 高性能ニューラルネットワークモデルは、幅広い自然言語処理(NLP)タスクについて最先端の結果を得た。 しかし、一般的なベンチマークデータセットの結果は、ノイズの多い現実世界のデータに適用した場合、モデルの信頼性と堅牢性を反映しないことが多い。 本研究では,入力テキストがNLPシステムで訓練されたデータ配信とわずかにノイズがあるような現実的なシナリオをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計,実装する。 異なるNLPタスクに対する包括的実験を行い、入力摂動の異なるタイプの処理におけるBERT、XLNet、RoBERTa、ELMoといった高性能言語モデルの能力について検討する。 その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。 モデルをさらに改善し、現在のベンチマークがモデル堅牢性を十分に反映していない点を強調します。 摂動入力の評価は、NLPシステムの堅牢性をより現実的に理解するために、広く使われているベンチマークを日常的に補完するべきであると論じる。

High-performance neural language models have obtained state-of-the-art results on a wide range of Natural Language Processing (NLP) tasks. However, results for common benchmark datasets often do not reflect model reliability and robustness when applied to noisy, real-world data. In this study, we design and implement various types of character-level and word-level perturbation methods to simulate realistic scenarios in which input texts may be slightly noisy or different from the data distribution on which NLP systems were trained. Conducting comprehensive experiments on different NLP tasks, we investigate the ability of high-performance language models such as BERT, XLNet, RoBERTa, and ELMo in handling different types of input perturbations. The results suggest that language models are sensitive to input perturbations and their performance can decrease even when small changes are introduced. We highlight that models need to be further improved and that current benchmarks are not reflecting model robustness well. We argue that evaluations on perturbed inputs should routinely complement widely-used benchmarks in order to yield a more realistic understanding of NLP systems robustness.
翻訳日:2021-08-30 14:24:56 公開日:2021-08-27
# 深層学習モデルは臨床テキストのノイズに対して堅牢ではない

Deep learning models are not robust against noise in clinical text ( http://arxiv.org/abs/2108.12242v1 )

ライセンス: Link先を確認
Milad Moradi, Kathrin Blagec, Matthias Samwald(参考訳) 人工知能(AI)システムは、人間の知性と専門知識を必要とする複雑なタスクを学習する能力によって、医療分野への関心が高まっている。 高性能自然言語処理(NLP)モデルを利用するAIシステムは、様々な臨床テキスト処理ベンチマークで最先端の結果を得た。 いくつかのタスクでは人間の精度よりも優れています。 しかし、このようなAIシステムの性能評価は、実際の状況においてこれらのシステムがいかに堅牢に動作できるかを適切に反映しない、キュレートされたクリーンなベンチマークデータセットの精度測定に限られている。 この課題に対処するために,臨床テキストデータにおける様々な種類のノイズや変動性をシミュレートする多種多様な摂動法を導入,実装する。 これらの摂動法によって生成される騒がしいサンプルは、しばしば人間が理解することができるが、aiシステムが誤った決定を下す可能性がある。 臨床テキスト処理タスクにおける広範囲な実験を行い,各種文字レベルおよび単語レベルのノイズに対する高性能NLPモデルのロバスト性を評価した。 その結果,NLPモデルの性能は,少量のノイズを含むと劣化することがわかった。 この研究は、臨床テキスト処理システムで使用されるAIモデルの脆弱性を明らかにするための重要なステップである。 提案手法は, 実環境において, ノイズの多いデータでNLPモデルがいかに頑健に動作できるかを評価するために, 性能評価試験に使用することができる。

Artificial Intelligence (AI) systems are attracting increasing interest in the medical domain due to their ability to learn complicated tasks that require human intelligence and expert knowledge. AI systems that utilize high-performance Natural Language Processing (NLP) models have achieved state-of-the-art results on a wide variety of clinical text processing benchmarks. They have even outperformed human accuracy on some tasks. However, performance evaluation of such AI systems have been limited to accuracy measures on curated and clean benchmark datasets that may not properly reflect how robustly these systems can operate in real-world situations. In order to address this challenge, we introduce and implement a wide variety of perturbation methods that simulate different types of noise and variability in clinical text data. While noisy samples produced by these perturbation methods can often be understood by humans, they may cause AI systems to make erroneous decisions. Conducting extensive experiments on several clinical text processing tasks, we evaluated the robustness of high-performance NLP models against various types of character-level and word-level noise. The results revealed that the NLP models performance degrades when the input contains small amounts of noise. This study is a significant step towards exposing vulnerabilities of AI models utilized in clinical text processing systems. The proposed perturbation methods can be used in performance evaluation tests to assess how robustly clinical NLP models can operate on noisy data, in real-world settings.
翻訳日:2021-08-30 14:24:36 公開日:2021-08-27
# TE-YOLOF:血液細胞検出のためのタイニーで効率的なYOLOF

TE-YOLOF: Tiny and efficient YOLOF for blood cell detection ( http://arxiv.org/abs/2108.12313v1 )

ライセンス: Link先を確認
Fanxin Xu, Xiangkui Li, Hang Yang, Yali Wang, Wei Xiang(参考訳) 顕微鏡画像における血液細胞検出は、医用画像処理研究の不可欠な分野である。 血液細胞の手動チェックに基づく疾患の検出は時間を要するため、深層畳み込みニューラルネットワークを用いた物体検出器を用いた血液細胞の検査は実現可能な解決策と考えられる。 本研究では, 赤血球, 白血球, 血小板などの血液細胞物体を検出するために, YOLOFに基づく物体検出法が提案されている。 この物体検出器はTE-YOLOF、Tiny、Efficient YOLOFと呼ばれ、拡張エンコーダを用いて単一レベルの特徴マップから情報を抽出するワンステージ検出器である。 効率性と柔軟性を向上させるため、提案したオブジェクト検出器のバックボーンとして、EfficientNet Convolutional Neural Networkが使用される。 さらに,ネットワークの性能向上とパラメータの最小化のために,奥行き分離可能な畳み込みを適用した。 また、マイシュ活性化関数を用いて精度を向上させる。 BCCDデータセットの大規模な実験は、既存の血液細胞検出研究よりも効率的である提案モデルの有効性を証明している。

Blood cell detection in microscopic images is an essential branch of medical image processing research. Since disease detection based on manual checking of blood cells is time-consuming and full of errors, testing of blood cells using object detectors with Deep Convolutional Neural Network can be regarded as a feasible solution. In this work, an object detector based on YOLOF has been proposed to detect blood cell objects such as red blood cells, white blood cells and platelets. This object detector is called TE-YOLOF, Tiny and Efficient YOLOF, and it is a One-Stage detector using dilated encoder to extract information from single-level feature maps. For increasing efficiency and flexibility, the EfficientNet Convolutional Neural Network is utilized as the backbone for the proposed object detector. Furthermore, the Depthwise Separable Convolution is applied to enhance the performance and minimize the parameters of the network. In addition, the Mish activation function is employed to increase the precision. Extensive experiments on the BCCD dataset prove the effectiveness of the proposed model, which is more efficient than other existing studies for blood cell detection.
翻訳日:2021-08-30 14:24:10 公開日:2021-08-27
# CAPE: プライベート言語学習のためのコンテキスト対応プライベート埋め込み

CAPE: Context-Aware Private Embeddings for Private Language Learning ( http://arxiv.org/abs/2108.12318v1 )

ライセンス: Link先を確認
Richard Plant, Dimitra Gkatzia, Valerio Giuffrida(参考訳) 深層学習に基づく言語モデルは、感情分析、トピックラベリング、意図分類など、多くのアプリケーションで最先端の結果を得た。 これらのモデルを用いたテキスト表現や埋め込みは、評判やプライバシーにリスクをもたらす可能性のある言語や文脈の手がかりから学習した個人識別可能な情報を符号化する可能性を示す。 これらの問題を解決するために、埋め込みのトレーニング中にプライバシを保存する新しいアプローチであるCAPE(Context-Aware Private Embeddings)を提案する。 テキスト表現のプライバシを維持するため、CAPEは差分プライバシーを通じて校正ノイズを適用し、機密情報を隠蔽しながらエンコードされたセマンティックリンクを保存する。 加えて、CAPEは個人変数を隠蔽する敵の訓練体制を採用している。 実験の結果,提案手法は単一の介入よりも情報漏洩を低減できることがわかった。

Deep learning-based language models have achieved state-of-the-art results in a number of applications including sentiment analysis, topic labelling, intent classification and others. Obtaining text representations or embeddings using these models presents the possibility of encoding personally identifiable information learned from language and context cues that may present a risk to reputation or privacy. To ameliorate these issues, we propose Context-Aware Private Embeddings (CAPE), a novel approach which preserves privacy during training of embeddings. To maintain the privacy of text representations, CAPE applies calibrated noise through differential privacy, preserving the encoded semantic links while obscuring sensitive information. In addition, CAPE employs an adversarial training regime that obscures identified private variables. Experimental results demonstrate that the proposed approach reduces private information leakage better than either single intervention.
翻訳日:2021-08-30 14:23:35 公開日:2021-08-27
# YOLOv5とNon-Maximum Suppression Ensemblingを用いた高機能交通検出

Densely-Populated Traffic Detection using YOLOv5 and Non-Maximum Suppression Ensembling ( http://arxiv.org/abs/2108.12118v1 )

ライセンス: Link先を確認
Raian Rahman, Zadid Bin Azad, Md. Bakhtiar Hasan(参考訳) 車両物体検出は、インテリジェントな交通システムの中心である。 都市交通管理に欠かせない。 R-CNN、Fast R-CNN、Faster R-CNN、YOLOは初期の最先端モデルの一つである。 領域ベースCNN法は, リアルタイムにモデルを使用する非現実的な推論時間に問題がある。 一方YOLOは、グループに現れる小さな物体を検出するのに苦労している。 本稿では, YOLOv5を用いて, 密集した画像から車両物体を識別し, 分類する手法を提案する。 ヨロの欠点は4つの異なるモデルから解き明かされた。 提案モデルは,昼夜を問わず,道路の上側と横側の両方から撮影された画像に対して良好に機能する。 密集した車両画像を含むDhaka AIデータセットを用いて,提案モデルの性能を測定した。 実験の結果,我々のモデルは0.75秒の予測時間で0.458mAP@0.5を達成し,他の最先端モデルよりも高い性能を示した。 これにより,トラヒック制御やデータ収集に使用可能なリアルタイムトラヒック検出を,路上に実装することが可能となる。

Vehicular object detection is the heart of any intelligent traffic system. It is essential for urban traffic management. R-CNN, Fast R-CNN, Faster R-CNN and YOLO were some of the earlier state-of-the-art models. Region based CNN methods have the problem of higher inference time which makes it unrealistic to use the model in real-time. YOLO on the other hand struggles to detect small objects that appear in groups. In this paper, we propose a method that can locate and classify vehicular objects from a given densely crowded image using YOLOv5. The shortcoming of YOLO was solved my ensembling 4 different models. Our proposed model performs well on images taken from both top view and side view of the street in both day and night. The performance of our proposed model was measured on Dhaka AI dataset which contains densely crowded vehicular images. Our experiment shows that our model achieved mAP@0.5 of 0.458 with inference time of 0.75 sec which outperforms other state-of-the-art models on performance. Hence, the model can be implemented in the street for real-time traffic detection which can be used for traffic control and data collection.
翻訳日:2021-08-30 14:23:19 公開日:2021-08-27
# ランダム有限集合における点パターン特徴のエネルギーを用いた欠陥の異常検出

Anomaly Detection of Defect using Energy of Point Pattern Features within Random Finite Set Framework ( http://arxiv.org/abs/2108.12159v1 )

ライセンス: Link先を確認
Ammar Mansoor Kamoona, Amirali Khodadadian Gostar, Alireza Bab-Hadiashar, and Reza Hoseinnezhad(参考訳) 本稿では,点パターンデータを用いた異常検出に基づく産業的欠陥検出のための効率的な手法を提案する。 最近の作品は、画像コンテンツを要約するために、機能抽出に \textit{global features} を使っている。 しかし、グローバルな特徴は照明や視点の変化に対して堅牢ではなく、製造業界で十分に活用される画像の幾何学的情報を記述していない。 まず,局所的/点的パターン特徴の伝達学習を用いて,これらの限界を克服し,画像領域の幾何学的情報を取得することを提案する。 我々はこれらの局所/点パターンをランダム有限集合(RFS)としてモデル化する。 さらに、異常スコアとして RFS の可能性に対して RFS エネルギーを提案する。 正規サンプルの点パターン特徴の類似度分布は多変量ガウスとしてモデル化されている。 提案した RFS エネルギーのパラメータ学習には重い計算は必要ない。 マルチオブジェクト欠陥検出データセットであるMVTec ADデータセットに対する提案手法の評価を行った。 実験の結果,提案手法は最先端手法と比較して優れた性能を示し,rfsエネルギは少数のショット学習環境において最先端技術を上回っていることがわかった。

In this paper, we propose an efficient approach for industrial defect detection that is modeled based on anomaly detection using point pattern data. Most recent works use \textit{global features} for feature extraction to summarize image content. However, global features are not robust against lighting and viewpoint changes and do not describe the image's geometrical information to be fully utilized in the manufacturing industry. To the best of our knowledge, we are the first to propose using transfer learning of local/point pattern features to overcome these limitations and capture geometrical information of the image regions. We model these local/point pattern features as a random finite set (RFS). In addition we propose RFS energy, in contrast to RFS likelihood as anomaly score. The similarity distribution of point pattern features of the normal sample has been modeled as a multivariate Gaussian. Parameters learning of the proposed RFS energy does not require any heavy computation. We evaluate the proposed approach on the MVTec AD dataset, a multi-object defect detection dataset. Experimental results show the outstanding performance of our proposed approach compared to the state-of-the-art methods, and the proposed RFS energy outperforms the state-of-the-art in the few shot learning settings.
翻訳日:2021-08-30 14:23:02 公開日:2021-08-27
# LassoLayer: 1対1リンク切り替えによる非線形特徴選択

LassoLayer: Nonlinear Feature Selection by Switching One-to-one Links ( http://arxiv.org/abs/2108.12165v1 )

ライセンス: Link先を確認
Akihito Sudo, Teng Teck Hou, Masaki Yamaguchi, Yoshinori Tone(参考訳) より複雑な問題に対処したいという願望に加えて、機能選択方法の重要性も高まっている。 特徴選択方法はラッパー法、フィルタ法、埋め込み法に分類することができる。 ラッソは強力な組込み特徴選択法であり、多くの研究者の注目を集めている。 しかし、線形アプローチとして、ラッソの適用性は制限されている。 本研究では,L1最適化により1対1の接続とトレーニングを行うLassoLayerを提案する。 非線形特徴選択には、LassoMLP(LassoLayerを第一層とするネットワーク)を構築する。 どんなネットワーク構造にもLassoLayerを挿入できるので、機能選択が必要なタスクに適したニューラルネットワークの強度を利用することができます。 我々は,レグレッションと分類タスクによる特徴選択においてLassoMLPを評価する。 LassoMLPは、過剰適合に有害なかなりのノイズ要因を含む特徴を受信する。 MNISTデータセットを用いた実験では,LassoMLPが最先端の手法より優れていることを確認した。

Along with the desire to address more complex problems, feature selection methods have gained in importance. Feature selection methods can be classified into wrapper method, filter method, and embedded method. Being a powerful embedded feature selection method, Lasso has attracted the attention of many researchers. However, as a linear approach, the applicability of Lasso has been limited. In this work, we propose LassoLayer that is one-to-one connected and trained by L1 optimization, which work to drop out unnecessary units for prediction. For nonlinear feature selections, we build LassoMLP: the network equipped with LassoLayer as its first layer. Because we can insert LassoLayer in any network structure, it can harness the strength of neural network suitable for tasks where feature selection is needed. We evaluate LassoMLP in feature selection with regression and classification tasks. LassoMLP receives features including considerable numbers of noisy factors that is harmful for overfitting. In the experiments using MNIST dataset, we confirm that LassoMLP outperforms the state-of-the-art method.
翻訳日:2021-08-30 14:22:44 公開日:2021-08-27
# LSTMに基づく音声認識モデルの4ビット量子化

4-bit Quantization of LSTM-based Speech Recognition Models ( http://arxiv.org/abs/2108.12074v1 )

ライセンス: Link先を確認
Andrea Fasoli, Chia-Yu Chen, Mauricio Serrano, Xiao Sun, Naigang Wang, Swagath Venkataramani, George Saon, Xiaodong Cui, Brian Kingsbury, Wei Zhang, Zolt\'an T\"uske, Kailash Gopalakrishnan(参考訳) 音声認識のための大型LSTMアーキテクチャ(ASR)の2つのファミリー(DBLSTM-HMM)とリカレントニューラルネットワーク-トランスデューサ(RNN-Ts)の重みとアクティベーションの積極的な低精度表現の影響について検討した。 4ビット整数表現を用いて、これらのモデルのLSTM部分に適用したna\\ive Quantizationアプローチにより、ワード誤り率(WER)が大幅に低下する。 一方,最小精度の損失は,量子化と初期化の適切な選択によって達成可能であることを示す。 特に,ネットワークの局所的特性に応じて量子化スキームをカスタマイズし,計算時間を制限しながら認識性能を向上させる。 NIST Hub5-2000 評価の Switchboard (SWB) および CallHome (CH) テストセット上で,本ソリューションを実証する。 300時間または2000時間のSWBデータをトレーニングしたDBLSTM-HMMは、それぞれ$<0.5%と$<1%の平均WER劣化を達成する。 より困難なRNN-Tモデルでは、量子化戦略は4ビット推論の劣化を1.3%に制限する。

We investigate the impact of aggressive low-precision representations of weights and activations in two families of large LSTM-based architectures for Automatic Speech Recognition (ASR): hybrid Deep Bidirectional LSTM - Hidden Markov Models (DBLSTM-HMMs) and Recurrent Neural Network - Transducers (RNN-Ts). Using a 4-bit integer representation, a na\"ive quantization approach applied to the LSTM portion of these models results in significant Word Error Rate (WER) degradation. On the other hand, we show that minimal accuracy loss is achievable with an appropriate choice of quantizers and initializations. In particular, we customize quantization schemes depending on the local properties of the network, improving recognition performance while limiting computational time. We demonstrate our solution on the Switchboard (SWB) and CallHome (CH) test sets of the NIST Hub5-2000 evaluation. DBLSTM-HMMs trained with 300 or 2000 hours of SWB data achieves $<$0.5% and $<$1% average WER degradation, respectively. On the more challenging RNN-T models, our quantization strategy limits degradation in 4-bit inference to 1.3%.
翻訳日:2021-08-30 14:22:32 公開日:2021-08-27
# 航空交通における航空監視データによるコールサイン認識の改善

Improving callsign recognition with air-surveillance data in air-traffic communication ( http://arxiv.org/abs/2108.12156v1 )

ライセンス: Link先を確認
Iuliia Nigmatulina, Rudolf Braun, Juan Zuluaga-Gomez, Petr Motlicek(参考訳) 自動音声認識(asr)は、パイロットと航空管制官間の音声通信の補助として使用できる。 そのアプリケーションはタスクの複雑さを著しく低減し、送信された情報の信頼性を高めることができる。 エラーのリスクを最小限に抑えるためには、高い精度の予測が必要である。 特に、パイロットのナビゲートに使用されるコマンドやコールサインといった重要な情報を認識するには、高い精度が必要である。 以上より,コールサインを含む監視データは,発話毎に確率的なコールサインn-gramの重みが低減された場合に,発話中のコールサインの認識を大幅に改善できることを示す。 本稿では,(1)言語モデルレベル(g)でコールサイン重みを調整し,その後にオンザフライ構成の動的デコーダ,(2)従来のデコーダで生成された格子上にコールサイン情報を導入した場合の格子リコーダという2つのアプローチについて検討する。 コールサインn-gramと2つの手法を組み合わせることで、コールサイン認識精度が28.4%向上し、コールサイン認識のWERが74.2%向上した。

Automatic Speech Recognition (ASR) can be used as the assistance of speech communication between pilots and air-traffic controllers. Its application can significantly reduce the complexity of the task and increase the reliability of transmitted information. Evidently, high accuracy predictions are needed to minimize the risk of errors. Especially, high accuracy is required in recognition of key information, such as commands and callsigns, used to navigate pilots. Our results prove that the surveillance data containing callsigns can help to considerably improve the recognition of a callsign in an utterance when the weights of probable callsign n-grams are reduced per utterance. In this paper, we investigate two approaches: (1) G-boosting, when callsigns weights are adjusted at language model level (G) and followed by the dynamic decoder with an on-the-fly composition, and (2) lattice rescoring when callsign information is introduced on top of lattices generated using a conventional decoder. Boosting callsign n-grams with the combination of two methods allowed us to gain 28.4% of absolute improvement in callsign recognition accuracy and up to 74.2% of relative improvement in WER of callsign recognition.
翻訳日:2021-08-30 14:22:11 公開日:2021-08-27
# atcoとパイロットasrの改善のための文法に基づく話者役割の同定

Grammar Based Identification Of Speaker Role For Improving ATCO And Pilot ASR ( http://arxiv.org/abs/2108.12175v1 )

ライセンス: Link先を確認
Amrutha Prasad, Juan Zuluaga-Gomez, Petr Motlicek, Oliver Ohneiser, Hartmut Helmke, Saeed Sarfjoo, Iuliia Nigmatulina(参考訳) 航空交通制御のための補助ベース音声認識(ABSR)は一般に、航空交通管制官(ATCO)とパイロットデータの両方をプールすることで訓練される。 実際には、パイロットデータの比率がATCOに比べて低いのに対して、標準的な通信言語は似ているという事実が動機となっている。 しかし、ATCOとパイロットのデータ不均衡と様々な音響条件のため、ASRの性能はパイロットよりもATCOにとってかなり良い。 本稿では,(1)ATCOとパイロットデータをASRの書き起こしを利用した自動手法で分割すること,(2)ATCOとパイロットASRを音響モデル(AM)トレーニングの2つのタスクとして考えることを提案する。 atcoとパイロットデータの話者役割分類では、シードモデルを用いて仮定されたasr転写物を生成し、その後、国際民間航空機関(icao)の定義した文法から抽出された知識に基づいて話者役割を分類する。 このアプローチは、ATCOとパイロットに対して平均話者ロール識別精度83%を提供する。 最後に、各タスクごとに個別にAMをトレーニングしたり、マルチタスクアプローチを使用すれば、このデータに適していることを示す。

Assistant Based Speech Recognition (ABSR) for air traffic control is generally trained by pooling both Air Traffic Controller (ATCO) and pilot data. In practice, this is motivated by the fact that the proportion of pilot data is lesser compared to ATCO while their standard language of communication is similar. However, due to data imbalance of ATCO and pilot and their varying acoustic conditions, the ASR performance is usually significantly better for ATCOs than pilots. In this paper, we propose to (1) split the ATCO and pilot data using an automatic approach exploiting ASR transcripts, and (2) consider ATCO and pilot ASR as two separate tasks for Acoustic Model (AM) training. For speaker role classification of ATCO and pilot data, a hypothesized ASR transcript is generated with a seed model, subsequently used to classify the speaker role based on the knowledge extracted from grammar defined by International Civil Aviation Organization (ICAO). This approach provides an average speaker role identification accuracy of 83% for ATCO and pilot. Finally, we show that training AMs separately for each task, or using a multitask approach is well suited for this data compared to AM trained by pooling all data.
翻訳日:2021-08-30 14:21:50 公開日:2021-08-27
# Prover-Verifier Games による検証可能な回答の学習

Learning to Give Checkable Answers with Prover-Verifier Games ( http://arxiv.org/abs/2108.12099v1 )

ライセンス: Link先を確認
Cem Anil, Guodong Zhang, Yuhuai Wu, Roger Grosse(参考訳) 機械学習システムによってなされた決定をいつ信頼するかを知る能力は、そのパフォーマンスの驚異的な改善に遅れず、ハイシテイクなドメインでの適用性が制限されている。 Prover-Verifier Games (PVGs) は,学習エージェントが決定問題を検証可能な方法で解くことを奨励するゲーム理論フレームワークである。 pvgは2つの目標を持った学習者で構成される: 信頼できる検証者ネットワークは正しい答えを選択しようとするが、より強力だが信頼できない証明者ネットワークはその正確性に関係なく、特定の回答の検証者を説得しようとする。 目標は、このゲームから信頼できる正当化プロトコルが生まれることです。 我々は、同時かつ連続的なゲームを含むフレームワークの変種を分析し、その空間を、確実に所望の平衡を持つゲームのサブセットに絞り込む。 2つのアルゴリズムタスクのためのpvgのインスタンスを作成し、実際に検証者が信頼できない証明者から有用で信頼性の高い情報を受信できる堅牢な決定規則を学習することを示す。 重要なことは、検証者が凍結され、証明者のメッセージが直接最適化されて検証者を納得させる場合でも、プロトコルは依然として機能する。

Our ability to know when to trust the decisions made by machine learning systems has not kept up with the staggering improvements in their performance, limiting their applicability in high-stakes domains. We introduce Prover-Verifier Games (PVGs), a game-theoretic framework to encourage learning agents to solve decision problems in a verifiable manner. The PVG consists of two learners with competing objectives: a trusted verifier network tries to choose the correct answer, and a more powerful but untrusted prover network attempts to persuade the verifier of a particular answer, regardless of its correctness. The goal is for a reliable justification protocol to emerge from this game. We analyze variants of the framework, including simultaneous and sequential games, and narrow the space down to a subset of games which provably have the desired equilibria. We develop instantiations of the PVG for two algorithmic tasks, and show that in practice, the verifier learns a robust decision rule that is able to receive useful and reliable information from an untrusted prover. Importantly, the protocol still works even when the verifier is frozen and the prover's messages are directly optimized to convince the verifier.
翻訳日:2021-08-30 14:21:29 公開日:2021-08-27
# 精密医療における未表現人口のターゲット:フェデレート・トランスファー学習アプローチ

Targeting Underrepresented Populations in Precision Medicine: A Federated Transfer Learning Approach ( http://arxiv.org/abs/2108.12112v1 )

ライセンス: Link先を確認
Sai Li, Tianxi Cai, Rui Duan(参考訳) 大規模臨床・ゲノム研究におけるマイノリティと不利な人口の限られた表現は、精密医学研究を実践に翻訳する障壁となっている。 集団間の不均一性のため、リスク予測モデルがこれらの人口の過小評価されることが多く、したがって既知の健康格差をさらに悪化させる可能性がある。 本稿では,多種多様な医療機関からの異種データをフェデレート・トランスファー・ラーニング・アプローチにより統合する双方向データ統合戦略を提案する。 提案手法は,異なる集団のサンプルサイズが極めてバランスの取れない,困難な状況に対処できる。 提案手法は,参加サイト間で少数の通信しか行わず,個別レベルのデータが直接プールされるプール解析に匹敵する性能を実現することができる。 提案手法は,過疎人口における推定と予測精度を向上し,個体群間でのモデル性能の差を低減できることを示す。 理論解析により,推定精度がコミュニケーション予算,プライバシー制限,集団間の多様性にどのように影響するかが明らかになった。 数値実験により本手法の有効性と妥当性を実証し,AA群におけるII型糖尿病の発症リスク予測モデルを構築した多施設研究への実例を示した。

The limited representation of minorities and disadvantaged populations in large-scale clinical and genomics research has become a barrier to translating precision medicine research into practice. Due to heterogeneity across populations, risk prediction models are often found to be underperformed in these underrepresented populations, and therefore may further exacerbate known health disparities. In this paper, we propose a two-way data integration strategy that integrates heterogeneous data from diverse populations and from multiple healthcare institutions via a federated transfer learning approach. The proposed method can handle the challenging setting where sample sizes from different populations are highly unbalanced. With only a small number of communications across participating sites, the proposed method can achieve performance comparable to the pooled analysis where individual-level data are directly pooled together. We show that the proposed method improves the estimation and prediction accuracy in underrepresented populations, and reduces the gap of model performance across populations. Our theoretical analysis reveals how estimation accuracy is influenced by communication budgets, privacy restrictions, and heterogeneity across populations. We demonstrate the feasibility and validity of our methods through numerical experiments and a real application to a multi-center study, in which we construct polygenic risk prediction models for Type II diabetes in AA population.
翻訳日:2021-08-30 14:20:49 公開日:2021-08-27
# 患者サブポピュレーションにおける最悪の予測モデル性能向上手法の比較

A comparison of approaches to improve worst-case predictive model performance over patient subpopulations ( http://arxiv.org/abs/2108.12250v1 )

ライセンス: Link先を確認
Stephen R. Pfohl, Haoran Zhang, Yizhe Xu, Agata Foryciarz, Marzyeh Ghassemi, Nigam H. Shah(参考訳) 患者集団の平均で正確である臨床結果の予測モデルは、一部の亜集団では大幅に低下し、医療アクセスと品質の不平等を誘発または強化する可能性がある。 分散ロバスト最適化 (DRO) のようなサブポピュレーション全体の最悪のモデル性能を最大化することを目的としたモデルトレーニング手法は、追加の害を加えることなくこの問題に対処しようとする。 電子健康記録データから予測モデルを学ぶための標準アプローチと比較し,分散化と最悪ケースのパフォーマンスを一貫して向上させるモデル開発と選択のアプローチを特定するため,droの大規模実証研究と標準学習手順のバリエーションについて検討した。 評価の過程では,DROアプローチの拡張を導入し,最悪の場合のパフォーマンスを評価するために使用されるメトリクスの仕様化を可能にした。 本研究は病院内死亡率,滞在期間,入院30日間の入院率を予測したモデルの解析を行い,集中治療データを用いて病院内死亡率を予測した。 比較的少数の例外を除いて、トレーニングデータセット全体を用いた標準的な学習手順よりも、検査された各患者サブポピュレーションに対して、アプローチは改善しないことがわかった。 これらの結果から, 患者サブポピュレーションのモデル性能を, 標準プラクティスで達成できる範囲を超えて向上させるためには, 有効試料サイズを暗黙的に, 明示的に増加させる技術を用いて行う必要がある可能性が示唆された。

Predictive models for clinical outcomes that are accurate on average in a patient population may underperform drastically for some subpopulations, potentially introducing or reinforcing inequities in care access and quality. Model training approaches that aim to maximize worst-case model performance across subpopulations, such as distributionally robust optimization (DRO), attempt to address this problem without introducing additional harms. We conduct a large-scale empirical study of DRO and several variations of standard learning procedures to identify approaches for model development and selection that consistently improve disaggregated and worst-case performance over subpopulations compared to standard approaches for learning predictive models from electronic health records data. In the course of our evaluation, we introduce an extension to DRO approaches that allows for specification of the metric used to assess worst-case performance. We conduct the analysis for models that predict in-hospital mortality, prolonged length of stay, and 30-day readmission for inpatient admissions, and predict in-hospital mortality using intensive care data. We find that, with relatively few exceptions, no approach performs better, for each patient subpopulation examined, than standard learning procedures using the entire training dataset. These results imply that when it is of interest to improve model performance for patient subpopulations beyond what can be achieved with standard practices, it may be necessary to do so via techniques that implicitly or explicitly increase the effective sample size.
翻訳日:2021-08-30 14:20:30 公開日:2021-08-27
# サンプリングのためのハミルトンモンテカルロ法入門

An Introduction to Hamiltonian Monte Carlo Method for Sampling ( http://arxiv.org/abs/2108.12107v1 )

ライセンス: Link先を確認
Nisheeth K. Vishnoi(参考訳) 本稿の目的は、Gibs密度$\pi(x) \propto e^{-f(x)}$からサンプリングするハミルトン力学に着想を得たアルゴリズムであるハミルトン・モンテカルロ法(HMC)を導入することである。 連続的な軌跡を正確に計算できる"理想化"のケースに焦点を当てています。 理想化された HMC は$\pi$ を保ち、f$ が強く凸かつ滑らかであるときにその収束を確立する。

The goal of this article is to introduce the Hamiltonian Monte Carlo (HMC) method -- a Hamiltonian dynamics-inspired algorithm for sampling from a Gibbs density $\pi(x) \propto e^{-f(x)}$. We focus on the "idealized" case, where one can compute continuous trajectories exactly. We show that idealized HMC preserves $\pi$ and we establish its convergence when $f$ is strongly convex and smooth.
翻訳日:2021-08-30 14:20:02 公開日:2021-08-27
# Lingxi: 多様性を意識した中国の現代詩生成システム

Lingxi: A Diversity-aware Chinese Modern Poetry Generation System ( http://arxiv.org/abs/2108.12108v1 )

ライセンス: Link先を確認
Xinran Zhang, Maosong Sun, Jiafeng Liu, Xiaobing Li(参考訳) 詩生成は自然言語処理において難しい課題であった。 単純なニューラルテキスト生成タスクとは異なり、高頻度の単語が多すぎる容易に理解される文は詩的とはみなされないが、低頻度の単語を持つ適切にあいまいな文は新奇で創造的である可能性があるため、詩は新奇性を必要とする。 そこで本稿では,中国の現代詩生成システムlingxiについて紹介する。 本研究では,予測分布の高周波部(ヘッド)をランダム化するランダム化ヘッド(ns-rh)アルゴリズムを用いた核サンプリングを提案する。 提案アルゴリズムは,従来のサンプリング手法と比較して,生成した詩の新規性を著しく向上させることができる。 分布の置換は「頭部」を決定するフィルタリングパラメータを調整し、多様性対応サンプリングを達成することで制御可能である。 フィルタリングされた語彙の大部分がランダム化されている場合でも、実際に流麗な詩を生成できるが、特に目新しさは高い。 また,題名と高い意味的類似性を維持しつつ,短い入力詩題に基づいて,より長く,より情報に富んだ文脈を生成する意味的類似性に基づく拒否サンプリングアルゴリズムを提案する。

Poetry generation has been a difficult task in natural language processing. Unlike plain neural text generation tasks, poetry has a high requirement for novelty, since an easily-understood sentence with too many high frequency words might not be considered as poetic, while adequately ambiguous sentences with low frequency words can possibly be novel and creative. Inspired by this, we present Lingxi, a diversity-aware Chinese modern poetry generation system. We propose nucleus sampling with randomized head (NS-RH) algorithm, which randomizes the high frequency part ("head") of the predicted distribution, in order to emphasize on the "comparatively low frequency" words. The proposed algorithm can significantly increase the novelty of generated poetry compared with traditional sampling methods. The permutation of distribution is controllable by tuning the filtering parameter that determines the "head" to permutate, achieving diversity-aware sampling. We find that even when a large portion of filtered vocabulary is randomized, it can actually generate fluent poetry but with notably higher novelty. We also propose a semantic-similarity- based rejection sampling algorithm, which creates longer and more informative context on the basis of the short input poetry title while maintaining high semantic similarity to the title, alleviating the off-topic issue.
翻訳日:2021-08-30 14:19:38 公開日:2021-08-27
# 正確な \& Fluent 医療用X線画像の自動生成

Automated Generation of Accurate \& Fluent Medical X-ray Reports ( http://arxiv.org/abs/2108.12126v1 )

ライセンス: Link先を確認
Hoang T.N. Nguyen, Dong Nie, Taivanbat Badamdorj, Yujie Liu, Yingying Zhu, Jason Truong, Li Cheng(参考訳) 本稿では,胸部x線画像入力からの医療レポート生成の自動化について検討した。 既存のヒトに読みやすいレポートを生成する医療リポート・ジェネレーションと異なり、我々は、フルーレントで臨床的に正確である医療レポートの生成を目指している。 This is achieved by our fully differentiable and end-to-end paradigm containing three complementary modules: taking the chest X-ray images and clinical his-tory document of patients as inputs, our classification module produces an internal check-list of disease-related topics, referred to as enriched disease embedding; the embedding representation is then passed to our transformer-based generator, giving rise to the medical reports; meanwhile, our generator also pro-duces the weighted embedding representation, which is fed to our interpreter to ensure consistency with respect to disease-related topics.Our approach achieved promising results on commonly-used metrics concerning language fluency and clinical accuracy. さらに、臨床文書や異なる視点の余分なスキャンなど、追加の入力情報が利用できる場合、目立ったパフォーマンス向上は一貫して観察される。

Our paper focuses on automating the generation of medical reports from chest X-ray image inputs, a critical yet time-consuming task for radiologists. Unlike existing medical re-port generation efforts that tend to produce human-readable reports, we aim to generate medical reports that are both fluent and clinically accurate. This is achieved by our fully differentiable and end-to-end paradigm containing three complementary modules: taking the chest X-ray images and clinical his-tory document of patients as inputs, our classification module produces an internal check-list of disease-related topics, referred to as enriched disease embedding; the embedding representation is then passed to our transformer-based generator, giving rise to the medical reports; meanwhile, our generator also pro-duces the weighted embedding representation, which is fed to our interpreter to ensure consistency with respect to disease-related topics.Our approach achieved promising results on commonly-used metrics concerning language fluency and clinical accuracy. Moreover, noticeable performance gains are consistently ob-served when additional input information is available, such as the clinical document and extra scans of different views.
翻訳日:2021-08-30 14:19:15 公開日:2021-08-27
# Secoco: ニューラルネットワーク翻訳のための自己修正エンコーディング

Secoco: Self-Correcting Encoding for Neural Machine Translation ( http://arxiv.org/abs/2108.12137v1 )

ライセンス: Link先を確認
Tao Wang, Chengqi Zhao, Mingxuan Wang, Lei Li, Hang Li, Deyi Xiong(参考訳) 本稿では,自己補正予測器を導入することによって,ロバストなニューラルネットワーク翻訳のための入力ノイズを効果的に処理するフレームワークであるsecocoについて述べる。 従来のロバストなアプローチとは異なり、sicocoはnmtによってノイズのある入力を明示的に訂正し、翻訳復号プロセスと同時に特定のエラーを削除することができる。 Secocoは、2つの実世界のテストセットと、優れた解釈性を備えたベンチマークWMTデータセットの強いベースラインよりも大幅に改善することができる。 コードとデータセットを間もなく公開します。

This paper presents Self-correcting Encoding (Secoco), a framework that effectively deals with input noise for robust neural machine translation by introducing self-correcting predictors. Different from previous robust approaches, Secoco enables NMT to explicitly correct noisy inputs and delete specific errors simultaneously with the translation decoding process. Secoco is able to achieve significant improvements over strong baselines on two real-world test sets and a benchmark WMT dataset with good interpretability. We will make our code and dataset publicly available soon.
翻訳日:2021-08-30 14:19:00 公開日:2021-08-27
# 結合エンティティと関係抽出のための分割フィルタネットワーク

A Partition Filter Network for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2108.12202v1 )

ライセンス: Link先を確認
Zhiheng Yan, Chong Zhang, Jinlan Fu, Qi Zhang, Zhongyu Wei(参考訳) エンティティと関係抽出のジョイント・エンティティでは、既存の作業はタスク固有の機能を逐次エンコードし、後に抽出された機能が直接接触しないタスク間の機能インタラクションの不均衡に繋がる。 あるいは、エンティティの特徴と関係機能を並列にエンコードする。つまり、各タスクに対する機能表現学習は、入力共有を除いて、ほとんど独立している。 本稿では,タスク間の双方向インタラクションを適切にモデル化する分割フィルタネットワークを提案する。 エンコーダでは、エンティティとリレーショナルゲートという2つのゲートを利用して、ニューロンを2つのタスクパーティションと1つの共有パーティションに分割する。 共有パーティションは、両方のタスクに価値のあるタスク間情報を表し、適切な双方向インタラクションを保証するために2つのタスク間で均等に共有される。 タスクパーティションはタスク内の情報を表し、両方のゲートの協調した努力によって形成され、タスク固有の機能のエンコーディングが互いに依存していることを保証する。 5つの公開データセットの実験結果から,我々のモデルは従来の手法よりもはるかに優れた性能を示した。 ソースコードはhttps://github.com/C oopercoppers/PFNで確認できる。

In joint entity and relation extraction, existing work either sequentially encode task-specific features, leading to an imbalance in inter-task feature interaction where features extracted later have no direct contact with those that come first. Or they encode entity features and relation features in a parallel manner, meaning that feature representation learning for each task is largely independent of each other except for input sharing. We propose a partition filter network to model two-way interaction between tasks properly, where feature encoding is decomposed into two steps: partition and filter. In our encoder, we leverage two gates: entity and relation gate, to segment neurons into two task partitions and one shared partition. The shared partition represents inter-task information valuable to both tasks and is evenly shared across two tasks to ensure proper two-way interaction. The task partitions represent intra-task information and are formed through concerted efforts of both gates, making sure that encoding of task-specific features are dependent upon each other. Experiment results on five public datasets show that our model performs significantly better than previous approaches. The source code can be found in https://github.com/C oopercoppers/PFN.
翻訳日:2021-08-30 14:18:49 公開日:2021-08-27
# 文法的誤り認識のための大規模マスキング言語モデルの能力の検討

Exploring the Capacity of a Large-scale Masked Language Model to Recognize Grammatical Errors ( http://arxiv.org/abs/2108.12216v1 )

ライセンス: Link先を確認
Ryo Nagata, Manabu Kimura, and Kazuaki Hanawa(参考訳) 本稿では,文法的誤り検出のための言語モデルに基づく手法のキャパシティを詳細に検討する。 まず,学習データのうち5~10%は,非言語モデルベース法と同等の性能を達成するために,bertベースの誤り検出法では十分であることを示すとともに,精度が同じように振る舞う一方で,bertベースの手法ではトレーニングデータサイズがより高速に向上することを示す。 これらのことから, (i) BERT に基づく手法は, ある種の誤りを認識するのに必要な文法的知識を持つべきであり, (ii) 文法的誤り検出における高い一般化能力を説明するために, 少数のトレーニングサンプルを用いて微調整することで, 誤り検出規則に変換できることが示唆された。 さらに、様々な種類の誤りを認識するための学習ルールにおいて、実際にそのような優れた特性を示す擬似エラーデータを示す。 最後に,これらの知見に基づいて,学習者に関連する文法規則を説明するフィードバックコメントを用いて,文法的誤りを検出するための費用対効果について検討する。

In this paper, we explore the capacity of a language model-based method for grammatical error detection in detail. We first show that 5 to 10% of training data are enough for a BERT-based error detection method to achieve performance equivalent to a non-language model-based method can achieve with the full training data; recall improves much faster with respect to training data size in the BERT-based method than in the non-language model method while precision behaves similarly. These suggest that (i) the BERT-based method should have a good knowledge of grammar required to recognize certain types of error and that (ii) it can transform the knowledge into error detection rules by fine-tuning with a few training samples, which explains its high generalization ability in grammatical error detection. We further show with pseudo error data that it actually exhibits such nice properties in learning rules for recognizing various types of error. Finally, based on these findings, we explore a cost-effective method for detecting grammatical errors with feedback comments explaining relevant grammatical rules to learners.
翻訳日:2021-08-30 14:18:30 公開日:2021-08-27
# AMR-to-Text 生成のための木分解注意

Tree Decomposition Attention for AMR-to-Text Generation ( http://arxiv.org/abs/2108.12300v1 )

ライセンス: Link先を確認
Lisa Jin, Daniel Gildea(参考訳) AMRからテキストを生成するには、意味グラフをアノテートする文字列にマッピングする必要がある。 しかし、トランスフォーマーベースのグラフエンコーダは、シーケンス予測に役立つ頂点依存性を貧弱に捉えている。 エンコーダに順序を課すため、グラフの木分解を用いて局所的に頂点自己アテンションを制約する。 完全なクエリキー二部グラフを形成する代わりに、親、サブツリー、頂点の同じ深さの袋の頂点に注意を向ける。 この階層的なコンテキストは、スパーシリティと構造の両方を頂点状態の更新に役立てる。 動的プログラミングを用いて木分解の森を導出し、AMRと最も構造的に類似した木を選択する。 システムの性能は1.6BLEUと1.8chrF++で向上する。

Text generation from AMR requires mapping a semantic graph to a string that it annotates. Transformer-based graph encoders, however, poorly capture vertex dependencies that may benefit sequence prediction. To impose order on an encoder, we locally constrain vertex self-attention using a graph's tree decomposition. Instead of forming a full query-key bipartite graph, we restrict attention to vertices in parent, subtree, and same-depth bags of a vertex. This hierarchical context lends both sparsity and structure to vertex state updates. We apply dynamic programming to derive a forest of tree decompositions, choosing the most structurally similar tree to the AMR. Our system outperforms a self-attentive baseline by 1.6 BLEU and 1.8 chrF++.
翻訳日:2021-08-30 14:18:14 公開日:2021-08-27
# AMR-テキスト生成用潜木分解パーサ

Latent Tree Decomposition Parsers for AMR-to-Text Generation ( http://arxiv.org/abs/2108.12304v1 )

ライセンス: Link先を確認
Lisa Jin, Daniel Gildea(参考訳) AMR-to-text生成モデルのグラフエンコーダは、しばしば近所の畳み込みやグローバルな頂点の注意に依存する。 これらのアプローチは一般的なグラフに適用されるが、AMRは木のような構造をターゲットとするエンコーダに従うことができる。 エッジを階層にクラスタリングすることで、ツリー分解はグラフ構造を要約する。 本モデルは,木分解の導出森林を符号化し,期待木を抽出する。 ツリーノードの埋め込みから、グラフエンコーダの頂点注意で使用されるグラフエッジ機能を構築する。 自己注意ベースラインにおける最短経路の代わりにTD林を符号化するとBLEUが0.7、chrF++が0.3上昇する。 森林エンコーダは分子特性予測のための畳み込みベースラインを1.92% ROC-AUC で上回る。

Graph encoders in AMR-to-text generation models often rely on neighborhood convolutions or global vertex attention. While these approaches apply to general graphs, AMRs may be amenable to encoders that target their tree-like structure. By clustering edges into a hierarchy, a tree decomposition summarizes graph structure. Our model encodes a derivation forest of tree decompositions and extracts an expected tree. From tree node embeddings, it builds graph edge features used in vertex attention of the graph encoder. Encoding TD forests instead of shortest-pairwise paths in a self-attentive baseline raises BLEU by 0.7 and chrF++ by 0.3. The forest encoder also surpasses a convolutional baseline for molecular property prediction by 1.92% ROC-AUC.
翻訳日:2021-08-30 14:18:01 公開日:2021-08-27
# train short, test long: attention with linear biases will input length extrapolation (英語)

Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation ( http://arxiv.org/abs/2108.12409v1 )

ライセンス: Link先を確認
Ofir Press, Noah A. Smith, Mike Lewis(参考訳) Vaswaniらによる変圧器モデルの導入以来。 (2017年) 基礎的な疑問が残る: トレーニング中に見るよりも長いシーケンスの推論時にどのように外挿を達成するか? まず、位置表現法を変更することで外挿を改善することができることを示すが、既存の提案では効率的な外挿を許さない。 本稿では,線形バイアス(alibi)を用いた簡易かつ効率的な外挿法を提案する。 ALiBiは、単語の埋め込みに位置埋め込みを加えるのではなく、クエリキーのアテンションスコアを、その距離に比例する用語でバイアスする。 本研究では,長さ2048の入力シーケンスに外挿する長さ1024の入力シーケンスに対して13億のパラメータモデルをトレーニングし,長さ2048の入力に対してトレーニングした正弦波位置埋め込みモデルと同じ難易度を実現し,メモリを11%削減した。 ALiBiの遅延に対する帰納バイアスは、WikiText-103ベンチマークで複数の強い位置法を上回ります。 最後に、パフォーマンス向上につながる理由を理解するために、ALiBiの分析を提供する。

Since the introduction of the transformer model by Vaswani et al. (2017), a fundamental question remains open: how to achieve extrapolation at inference time to longer sequences than seen during training? We first show that extrapolation can be improved by changing the position representation method, though we find that existing proposals do not allow efficient extrapolation. We introduce a simple and efficient method, Attention with Linear Biases (ALiBi), that allows for extrapolation. ALiBi does not add positional embeddings to the word embeddings; instead, it biases the query-key attention scores with a term that is proportional to their distance. We show that this method allows training a 1.3 billion parameter model on input sequences of length 1024 that extrapolates to input sequences of length 2048, achieving the same perplexity as a sinusoidal position embedding model trained on inputs of length 2048, 11% faster and using 11% less memory. ALiBi's inductive bias towards recency allows it to outperform multiple strong position methods on the WikiText-103 benchmark. Finally, we provide analysis of ALiBi to understand why it leads to better performance.
翻訳日:2021-08-30 14:17:51 公開日:2021-08-27
# wad: 都市自動運転のための深層強化学習エージェント

WAD: A Deep Reinforcement Learning Agent for Urban Autonomous Driving ( http://arxiv.org/abs/2108.12134v1 )

ライセンス: Link先を確認
Arjit Sharma and Sahil Sharma(参考訳) 都市での自律運転はオープンで困難な問題であり、意思決定システムはマルチエージェントインタラクション、多様なシーン認識、複雑な道路ジオメトリ、そして稀に発生しない現実世界の出来事など、いくつかの動的要因を考慮しなければならない。 一方、深層強化学習(DRL)技術により、エージェントは多くの複雑な政策を学んだ。 Atari GamesやDeepmindのAlphaGoでもスーパーヒューマンレベルのパフォーマンスを達成している。 しかし、現在のDRL技術は複雑な都市運転シナリオではうまく一般化しない。 本稿では,DRL駆動型ウォッチ・アンド・ドライブ(WAD)エージェントをエンド・ツー・エンドの都市自動運転に適用する。 この研究は、最近の進歩により、CARLAの高次元空間における重要な物体や状態を検出し、それらから潜伏状態を取り出すことを目的としている。 さらに、TD3およびSAC法に基づいて、潜伏状態情報をWADエージェントに渡すことにより、最適駆動ポリシーを学習する。 我々の新しいアプローチでは、リソースの削減、異なる運転タスクのステップバイステップ学習、ハードエピソード終了ポリシー、報酬メカニズムにより、エージェントは元のCARLAベンチマークの全運転タスクにおいて100%の成功率を達成することができ、さらに複雑なNoCrashベンチマークでは82%の新記録を樹立し、NoCrashベンチマークでは30%以上の最先端モデルを上回りました。

Urban autonomous driving is an open and challenging problem to solve as the decision-making system has to account for several dynamic factors like multi-agent interactions, diverse scene perceptions, complex road geometries, and other rarely occurring real-world events. On the other side, with deep reinforcement learning (DRL) techniques, agents have learned many complex policies. They have even achieved super-human-level performances in various Atari Games and Deepmind's AlphaGo. However, current DRL techniques do not generalize well on complex urban driving scenarios. This paper introduces the DRL driven Watch and Drive (WAD) agent for end-to-end urban autonomous driving. Motivated by recent advancements, the study aims to detect important objects/states in high dimensional spaces of CARLA and extract the latent state from them. Further, passing on the latent state information to WAD agents based on TD3 and SAC methods to learn the optimal driving policy. Our novel approach utilizing fewer resources, step-by-step learning of different driving tasks, hard episode termination policy, and reward mechanism has led our agents to achieve a 100% success rate on all driving tasks in the original CARLA benchmark and set a new record of 82% on further complex NoCrash benchmark, outperforming the state-of-the-art model by more than +30% on NoCrash benchmark.
翻訳日:2021-08-30 14:17:31 公開日:2021-08-27
# 修復セマンティックスにおける経時的DLライトの不整合データのクリーニング

Cleaning Inconsistent Data in Temporal DL-Lite Under Best Repair Semantics ( http://arxiv.org/abs/2108.12149v1 )

ライセンス: Link先を確認
Mourad Ouziri (LIPADE), Sabiha Tahrat (LIPADE), Salima Benbernou (LIPADE), Mourad Ouzirri(参考訳) 本稿では,時間記述論理(TDL)知識ベースにおける一貫性のないデータ処理の問題に対処する。 本稿では,知識ベースのデータ部分を不整合の原因として考慮し,ABox修復手法を提案する。 これは、tdlの知識ベースで修復を扱う最初の作業である。 そのために,(1)時間的不整合の検出,2)データ時間的リペアメントの提案という2つの目標を設定した。 不整合検出のために、TDL概念のNP完全上界を厳密に設定し、正確な説明(一貫性のないデータアサーションの集合)をもたらすように高度に最適化されたDL推論器を使用するTDLからDLへの還元アプローチを提案する。 その後、得られた説明から、許容された剛性述語とアサーションの時間順序に基づいて、時間設定における最良の修復を自動的に計算する手法を提案する。

In this paper, we address the problem of handling inconsistent data in Temporal Description Logic (TDL) knowledge bases. Considering the data part of the Knowledge Base as the source of inconsistency over time, we propose an ABox repair approach. This is the first work handling the repair in TDL Knowledge bases. To do so, our goal is twofold: 1) detect temporal inconsistencies and 2) propose a data temporal reparation. For the inconsistency detection, we propose a reduction approach from TDL to DL which allows to provide a tight NP-complete upper bound for TDL concept satisfiability and to use highly optimised DL reasoners that can bring precise explanation (the set of inconsistent data assertions). Thereafter, from the obtained explanation, we propose a method for automatically computing the best repair in the temporal setting based on the allowed rigid predicates and the time order of assertions.
翻訳日:2021-08-30 14:17:04 公開日:2021-08-27
# SMTによるオントロジーに基づくデータ認識プロセスの安全性検証(拡張版)

SMT-Based Safety Verification of Data-Aware Processes under Ontologies (Extended Version) ( http://arxiv.org/abs/2108.12330v1 )

ライセンス: Link先を確認
Diego Calvanese and Alessandro Gianola and Andrea Mazzullo and Marco Montali(参考訳) データ認識プロセス(DAP)の検証の文脈では、いわゆるアーティファクト中心システムのパラメータ化安全性特性を検証するために、満足度変調理論(SMT)に基づく正式なアプローチが検討されている。 このアプローチには、モデル理論の概念と後方到達性に基づくアルゴリズム技術の組み合わせが必要である。 ここでは,データベースを管理する代わりに,RDFSで表現された記述論理(DL)オントロジーを運用する,このスペクトルで最も調査されたモデルの1つ,すなわち単純なアーティファクトシステム(SAS)を紹介した。 このDLは、適切なモデル理論特性を享受し、後方到達性がまだ適用可能なDLベースのSASを定義することができ、対応する安全問題のPSPACEにおける決定可能性をもたらす。

In the context of verification of data-aware processes (DAPs), a formal approach based on satisfiability modulo theories (SMT) has been considered to verify parameterised safety properties of so-called artifact-centric systems. This approach requires a combination of model-theoretic notions and algorithmic techniques based on backward reachability. We introduce here a variant of one of the most investigated models in this spectrum, namely simple artifact systems (SASs), where, instead of managing a database, we operate over a description logic (DL) ontology expressed in (a slight extension of) RDFS. This DL, enjoying suitable model-theoretic properties, allows us to define DL-based SASs to which backward reachability can still be applied, leading to decidability in PSPACE of the corresponding safety problems.
翻訳日:2021-08-30 14:16:47 公開日:2021-08-27
# 認知取引のための計算アーキテクチャにおけるヒューリスティックスと学習の統合

Integrating Heuristics and Learning in a Computational Architecture for Cognitive Trading ( http://arxiv.org/abs/2108.12333v1 )

ライセンス: Link先を確認
Remo Pareschi, Federico Zappone(参考訳) 近年、画像解析、自然言語理解、戦略ゲームといった分野における人工知能の成功は、金融界の関心を喚起している。 具体的には、ロボットトレーダーとして知られる人工エージェントの作成に関して、経験豊富な人的トレーダーのスキルで金融市場をジャグリングできる、高い期待と継続的なエンジニアリングプロジェクトがある。 明らかな経済的意味はさておき、これは間違いなく大きな科学的関心の領域であり、そのような真のコンテキストがAI技術の使用に影響を及ぼす課題のためである。 そのため、このようなレベルで動作可能な人工エージェントは、単に角を曲がっているだけでなく、単純な答えもなく、様々な技術や手法の一致が、その取り組みの成功につながっていることに留意する必要がある。 本稿では,ロボット取引技術の現状を,認知的取引(Cognitive Trading)と呼ぶ次のレベルのインテリジェンスへと引き上げるという,汎用的な目標を視野に入れながら,効果的なロボットトレーサの設計に固有の課題を概観する。 我々のアプローチの鍵は、2つの方法論的、技術的方向の結合であり、どちらも人工知能の規律分野に深く根ざしているが、これまでのところ、ヒューリスティックスと学習という2つの方法に分かれている。

The successes of Artificial Intelligence in recent years in areas such as image analysis, natural language understanding and strategy games have sparked interest from the world of finance. Specifically, there are high expectations, and ongoing engineering projects, regarding the creation of artificial agents, known as robotic traders, capable of juggling the financial markets with the skill of experienced human traders. Obvious economic implications aside, this is certainly an area of great scientific interest, due to the challenges that such a real context poses to the use of AI techniques. Precisely for this reason, we must be aware that artificial agents capable of operating at such levels are not just round the corner, and that there will be no simple answers, but rather a concurrence of various technologies and methods to the success of the effort. In the course of this article, we review the issues inherent in the design of effective robotic traders as well as the consequently applicable solutions, having in view the general objective of bringing the current state of the art of robo-trading up to the next level of intelligence, which we refer to as Cognitive Trading. Key to our approach is the joining of two methodological and technological directions which, although both deeply rooted in the disciplinary field of artificial intelligence, have so far gone their separate ways: heuristics and learning.
翻訳日:2021-08-30 14:16:32 公開日:2021-08-27
# スタイル伝達法を用いた学習記述子による水中ソナー画像のマッチング

Matching Underwater Sonar Images by the Learned Descriptor Based on Style Transfer Method ( http://arxiv.org/abs/2108.12072v1 )

ライセンス: Link先を確認
Xiaoteng Zhou, Changli Yu, Xin Yuan, Citong Luo(参考訳) 本稿では,水中ソナー画像のマッチング性能を向上させるために,スタイル転送技術と学習ディスクリプタを組み合わせた手法を提案する。 水中視覚の分野では、sonarは現在、最も効果的な長距離検出センサーであり、地図作成や目標探索に優れた性能を発揮する。 しかし、従来の画像マッチングアルゴリズムはすべて光学画像に基づいて開発されている。 この矛盾を解決するために、ソナー画像を光学的スタイルに変換するためにスタイル転送法が用いられ、同時にソナー画像マッチングに優れた表現性を有する学習記述子が導入された。 実験により,この手法はソナー画像のマッチング品質を大幅に向上させることが示された。 また, 水中ソナー画像の事前処理に, スタイル転送手法を用いて新たなアイデアを提供する。

This paper proposes a method that combines the style transfer technique and the learned descriptor to enhance the matching performances of underwater sonar images. In the field of underwater vision, sonar is currently the most effective long-distance detection sensor, it has excellent performances in map building and target search tasks. However, the traditional image matching algorithms are all developed based on optical images. In order to solve this contradiction, the style transfer method is used to convert the sonar images into optical styles, and at the same time, the learned descriptor with excellent expressiveness for sonar images matching is introduced. Experiments show that this method significantly enhances the matching quality of sonar images. In addition, it also provides new ideas for the preprocessing of underwater sonar images by using the style transfer approach.
翻訳日:2021-08-30 14:15:27 公開日:2021-08-27
# FOVEA: 自律ナビゲーションのための画像拡大

FOVEA: Foveated Image Magnification for Autonomous Navigation ( http://arxiv.org/abs/2108.12102v1 )

ライセンス: Link先を確認
Chittesh Thavamani, Mengtian Li, Nicolas Cebron, Deva Ramanan(参考訳) 高分解能ビデオストリームの効率的な処理は、自動運転のような多くのロボティクスアプリケーションにとって安全性に欠かせない。 イメージダウンサンプリングは、遅延制約を満たすための一般的なテクニックである。 しかし、この単純なアプローチは、小さな物体を識別する物体検出器の能力を大幅に制限する。 本稿では,小さな入力キャンバスを維持しながら,ある領域を弾性的に拡大する注意的アプローチを提案する。 拡大された領域は、オブジェクトを含む確率が高いと考えられており、その信号はデータセット全体から、あるいは最近のオブジェクト予測から計算されたフレームレベルから来ることができる。 拡大化はKDEベースのマッピングによって実装され、境界ボックスをワープパラメータに変換し、反クロップ正則化でイメージサンプルに入力する。 検出器は歪んだ画像で供給され、元の空間で境界ボックス出力を得るために微分可能な後方マッピングを適用する。 我々の地域拡大により、アルゴリズムは高解像度処理のコストを伴わずに高解像度入力をうまく利用することができる。 Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。 さらに,従来のストリーミング検出技術の上に構築した手法では,Argoverse-HD(GTX 1080 Ti GPUで17.8から23.0まで)でAPをストリーミングする新たな記録が設定されており,精度とレイテンシのトレードオフが優れていることが示唆された。

Efficient processing of high-resolution video streams is safety-critical for many robotics applications such as autonomous driving. Image downsampling is a commonly adopted technique to ensure the latency constraint is met. However, this naive approach greatly restricts an object detector's capability to identify small objects. In this paper, we propose an attentional approach that elastically magnifies certain regions while maintaining a small input canvas. The magnified regions are those that are believed to have a high probability of containing an object, whose signal can come from a dataset-wide prior or frame-level prior computed from recent object predictions. The magnification is implemented by a KDE-based mapping to transform the bounding boxes into warping parameters, which are then fed into an image sampler with anti-cropping regularization. The detector is then fed with the warped image and we apply a differentiable backward mapping to get bounding box outputs in the original space. Our regional magnification allows algorithms to make better use of high-resolution input without incurring the cost of high-resolution processing. On the autonomous driving datasets Argoverse-HD and BDD100K, we show our proposed method boosts the detection AP over standard Faster R-CNN, with and without finetuning. Additionally, building on top of the previous state-of-the-art in streaming detection, our method sets a new record for streaming AP on Argoverse-HD (from 17.8 to 23.0 on a GTX 1080 Ti GPU), suggesting that it has achieved a superior accuracy-latency tradeoff.
翻訳日:2021-08-30 14:15:16 公開日:2021-08-27
# 両眼相互学習によるショット分類の改善

Binocular Mutual Learning for Improving Few-shot Classification ( http://arxiv.org/abs/2108.12104v1 )

ライセンス: Link先を確認
Ziqi Zhou, Xi Qiu, Jiangtao Xie, Jianan Wu and Chi Zhang(参考訳) 少数の学習手法のほとんどは、豊富なラベル付きデータ(ベースセット)を持つデータセットから知識を伝達することを学ぶ。 基本セット上のクラス空間の観点からは、既存のメソッドは、通常の事前トレーニングによるグローバルビュー下のすべてのクラスの利用にフォーカスするか、あるいはローカルビューのわずかなクラス内でメタタスクをトレーニングするためのエピソディックな方法を採用することにもっと注意を払うかのどちらかである。 しかし、この2つの見解の相互作用はまれである。 2つのビューは補完的な情報をキャプチャするので、さらなるパフォーマンス向上を達成するための互換性を自然に考えます。 相互学習パラダイムと双眼視差に着想を得て,両眼相互学習(BML)という統合された枠組みを提案する。 具体的には、グローバルビューはクラス全体で学び、リッチなクラス間関係を捉える。 一方、ローカルビューは各エピソード内のローカルクラス空間で学び、正のペアを正しくマッチングすることに集中する。 さらに、相互の相互交流により、協調学習と相互の有用な知識の暗黙の探索が促進される。 メタテストでは、両眼埋め込みを集約して意思決定をサポートし、分類の精度を大幅に向上させる。 クロスドメイン検証を含む複数のベンチマークで行った広範囲な実験により,本手法の有効性が確認された。

Most of the few-shot learning methods learn to transfer knowledge from datasets with abundant labeled data (i.e., the base set). From the perspective of class space on base set, existing methods either focus on utilizing all classes under a global view by normal pretraining, or pay more attention to adopt an episodic manner to train meta-tasks within few classes in a local view. However, the interaction of the two views is rarely explored. As the two views capture complementary information, we naturally think of the compatibility of them for achieving further performance gains. Inspired by the mutual learning paradigm and binocular parallax, we propose a unified framework, namely Binocular Mutual Learning (BML), which achieves the compatibility of the global view and the local view through both intra-view and cross-view modeling. Concretely, the global view learns in the whole class space to capture rich inter-class relationships. Meanwhile, the local view learns in the local class space within each episode, focusing on matching positive pairs correctly. In addition, cross-view mutual interaction further promotes the collaborative learning and the implicit exploration of useful knowledge from each other. During meta-test, binocular embeddings are aggregated together to support decision-making, which greatly improve the accuracy of classification. Extensive experiments conducted on multiple benchmarks including cross-domain validation confirm the effectiveness of our method.
翻訳日:2021-08-30 14:14:49 公開日:2021-08-27
# 認識認識:潜在認知のオープンセット認識への応用

Recognition Awareness: An Application of Latent Cognizance to Open-Set Recognition ( http://arxiv.org/abs/2108.12115v1 )

ライセンス: Link先を確認
Tatpong Katanyukul and Pisit Nakjai(参考訳) 本研究では,ソフトマックス出力の確率的新しい解釈をオープンセット認識(osr)に適用する。 softmaxは分類やオブジェクト認識で広く使われているメカニズムである。 しかし、ソフトマックス機構は、モデルにクローズドセットパラダイム、すなわち事前定義されたラベルの集合からオブジェクトクラスを予測するように強制する。 この特徴は分類の有効性に寄与するが、物体認識においてナンセンスな予測のリスクをもたらす。 オブジェクト認識はしばしば動的かつ多様な条件下で実行される。 外部オブジェクト -- 準備されていないクラスのオブジェクト -- はいつでも遭遇することができる。 OSRは、オブジェクト認識における異物識別の問題に対処することを目的としている。 ベイズ定理と文脈の条件付けの強調に基づき、ソフトマックス推論が再解釈されている。 この再解釈は、Latent Cognizance (LC)と呼ばれるOSRの新しいアプローチにつながった。 調査では、Imagenet 2012データセットや、ばかばかしやオープンセットイメージなど、さまざまなシナリオが採用されている。 LC仮説を支持し,OSRに対する効果を示した。

This study investigates an application of a new probabilistic interpretation of a softmax output to Open-Set Recognition (OSR). Softmax is a mechanism wildly used in classification and object recognition. However, a softmax mechanism forces a model to operate under a closed-set paradigm, i.e., to predict an object class out of a set of pre-defined labels. This characteristic contributes to efficacy in classification, but poses a risk of non-sense prediction in object recognition. Object recognition is often operated under a dynamic and diverse condition. A foreign object -- an object of any unprepared class -- can be encountered at any time. OSR is intended to address an issue of identifying a foreign object in object recognition. Based on Bayes theorem and the emphasis of conditioning on the context, softmax inference has been re-interpreted. This re-interpretation has led to a new approach to OSR, called Latent Cognizance (LC). Our investigation employs various scenarios, using Imagenet 2012 dataset as well as fooling and open-set images. The findings support LC hypothesis and show its effectiveness on OSR.
翻訳日:2021-08-30 14:14:25 公開日:2021-08-27
# 水中音響・光学画像における画像属性移動と局所特徴に基づくマッチングアルゴリズム

A Matching Algorithm based on Image Attribute Transfer and Local Features for Underwater Acoustic and Optical Images ( http://arxiv.org/abs/2108.12151v1 )

ライセンス: Link先を確認
Xiaoteng Zhou, Changli Yu, Xin Yuan, Citong Luo(参考訳) 水中視覚研究の分野では、ソナーセンサーと光学カメラのマッチングが常に難しい問題となっている。 それらの間の撮像機構の違いは、グレー値、テクスチャ、コントラストなどである。 音響画像のうち、光学画像は局所的な位置でも変化するため、光学画像に基づく従来のマッチング手法は無効となる。 水中データ取得の困難さと高コストとが組み合わさって、ココスト光データ融合技術の研究プロセスにさらに影響を及ぼす。 本研究では,水中センサデータの利用を最大限に活用し,マルチセンサー情報融合(msif)の開発を促進するために,深層学習手法に基づく画像属性転送法を適用し,画像マッチングの問題点を解決する。 同時に、難解な音響光学マッチング問題を解決するために、高度な局所特徴記述子が導入される。 実験結果から,提案手法は音響光学画像を効果的に前処理し,正確なマッチング結果が得られることがわかった。 さらに,この手法は画像深度セマンティックレイヤの組み合わせに基づいており,水中のマルチセンサ画像マッチング問題に対する新たな解決策を提供する原画像ペア間の局所的特徴マッチング関係を間接的に表示することができる。

In the field of underwater vision research, image matching between the sonar sensors and optical cameras has always been a challenging problem. Due to the difference in the imaging mechanism between them, which are the gray value, texture, contrast, etc. of the acoustic images and the optical images are also variant in local locations, which makes the traditional matching method based on the optical image invalid. Coupled with the difficulties and high costs of underwater data acquisition, it further affects the research process of acousto-optic data fusion technology. In order to maximize the use of underwater sensor data and promote the development of multi-sensor information fusion (MSIF), this study applies the image attribute transfer method based on deep learning approach to solve the problem of acousto-optic image matching, the core of which is to eliminate the imaging differences between them as much as possible. At the same time, the advanced local feature descriptor is introduced to solve the challenging acousto-optic matching problem. Experimental results show that our proposed method could preprocess acousto-optic images effectively and obtain accurate matching results. Additionally, the method is based on the combination of image depth semantic layer, and it could indirectly display the local feature matching relationship between original image pair, which provides a new solution to the underwater multi-sensor image matching problem.
翻訳日:2021-08-30 14:14:11 公開日:2021-08-27
# 一段階物体検出におけるアライメントとアライメントの相違について

Rethinking the Aligned and Misaligned Features in One-stage Object Detection ( http://arxiv.org/abs/2108.12176v1 )

ライセンス: Link先を確認
Yang Yang, Min Li, Bo Meng, Junxing Ren, Degang Sun, Zihao Huang(参考訳) 1段階の物体検出器は、検出結果を予測するために点特徴に依存する。 しかし、ポイントフィーチャは、オブジェクト全体の情報を欠く可能性があり、オブジェクトとポイントフィーチャの間のミスアライメントにつながります。 一方、分類と回帰タスクは異なる対象領域に敏感であるが、それらの特徴は空間的に整列している。 本稿では,完全畳み込み方式を壊さずに,各タスクの整列および非整合性をそれぞれ生成できる,シンプルかつプラグイン演算子を提案する。 各センシティブな領域に存在する2つのタスク認識ポイントセットを予測することにより、このオペレータは2つのタスクを空間次元から切り離し、ポイント特徴をオブジェクトに合わせることができる。 また,分類と回帰に対する長距離スキップ接続の逆効果の興味深い発見も明らかにした。 oat(object-aligned and task-disentangled operator)に基づいて、より正確な検出結果のためにポイントセット機能を明示的に活用するoot-netを提案する。 MS-COCOデータセットの大規模な実験により、OATは$\sim$2 APで異なる1段検出器を継続的に強化できることが示された。 特に、OAT-NetはRes2Net-101-DCNバックボーンで53.7 APを達成した。

One-stage object detectors rely on the point feature to predict the detection results. However, the point feature may lack the information of the whole object and lead to a misalignment between the object and the point feature. Meanwhile, the classification and regression tasks are sensitive to different object regions, but their features are spatially aligned. In this paper, we propose a simple and plug-in operator that could generate aligned and disentangled features for each task, respectively, without breaking the fully convolutional manner. By predicting two task-aware point sets that are located in each sensitive region, this operator could disentangle the two tasks from the spatial dimension, as well as align the point feature with the object. We also reveal an interesting finding of the opposite effect of the long-range skip-connection for classification and regression, respectively. Based on the object-aligned and task-disentangled operator (OAT), we propose OAT-Net, which explicitly exploits point-set features for more accurate detection results. Extensive experiments on the MS-COCO dataset show that OAT can consistently boost different one-stage detectors by $\sim$2 AP. Notably, OAT-Net achieves 53.7 AP with Res2Net-101-DCN backbone and shows promising performance gain for small objects.
翻訳日:2021-08-30 14:13:48 公開日:2021-08-27
# MultiSiam: 自律運転のための自己教師型マルチインスタンス・シームズ表現学習

MultiSiam: Self-supervised Multi-instance Siamese Representation Learning for Autonomous Driving ( http://arxiv.org/abs/2108.12178v1 )

ライセンス: Link先を確認
Kai Chen, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung(参考訳) 自動運転は長年にわたって注目を集めてきたが、おそらくモデルトレーニングのためのラベル付きデータ収集が難しいため、予想以上に難しいことが判明した。 表現学習のみにラベルのないデータを活用する自己教師付き学習(ssl)は、モデルパフォーマンスを改善する有望な方法かもしれない。 しかし、既存のSSLメソッドは通常、ストリートシーンのようなマルチインスタンスデータセットには適用できない単一中心オブジェクト保証に依存している。 この制限を緩和するために,(1)クロスビュー一貫性のための正のサンプルの定義方法,(2)マルチインスタンス環境における類似度の測定方法の2つの課題を提起する。 我々はまず、ランダムな収穫中にIoU閾値を採用し、グローバルな一貫性を局所的な一貫性に伝達する。 次に,マルチインテンス類似度測定のための2次元特徴マップを実現する2つの特徴アライメント手法を提案する。 さらに,自己注意型画像内クラスタリングを採用し,画像内類似性や翻訳不変性をさらに推し進める。 Waymoデータセットで事前トレーニングを行うと、MultiSiam(MultiSiam) と呼ばれる手法が一般化能力を大幅に向上し、CityscapesやBDD100Kを含む自動運転ベンチマーク上で最先端の転送性能を達成する一方で、既存のSSL対応であるMoCo、MoCo-v2、BYOLは大幅なパフォーマンス低下を示します。 大規模な自動運転データセットであるSODA10Mの事前トレーニングにより、MultiSiamはImageNetの事前トレーニングされたMoCo-v2を超え、ドメイン固有の事前トレーニングの可能性を示している。 コードはhttps://github.com/k aichen1998/multisiam で入手できる。

Autonomous driving has attracted much attention over the years but turns out to be harder than expected, probably due to the difficulty of labeled data collection for model training. Self-supervised learning (SSL), which leverages unlabeled data only for representation learning, might be a promising way to improve model performance. Existing SSL methods, however, usually rely on the single-centric-objec t guarantee, which may not be applicable for multi-instance datasets such as street scenes. To alleviate this limitation, we raise two issues to solve: (1) how to define positive samples for cross-view consistency and (2) how to measure similarity in multi-instance circumstances. We first adopt an IoU threshold during random cropping to transfer global-inconsistency to local-consistency. Then, we propose two feature alignment methods to enable 2D feature maps for multi-instance similarity measurement. Additionally, we adopt intra-image clustering with self-attention for further mining intra-image similarity and translation-invarian ce. Experiments show that, when pre-trained on Waymo dataset, our method called Multi-instance Siamese Network (MultiSiam) remarkably improves generalization ability and achieves state-of-the-art transfer performance on autonomous driving benchmarks, including Cityscapes and BDD100K, while existing SSL counterparts like MoCo, MoCo-v2, and BYOL show significant performance drop. By pre-training on SODA10M, a large-scale autonomous driving dataset, MultiSiam exceeds the ImageNet pre-trained MoCo-v2, demonstrating the potential of domain-specific pre-training. Code will be available at https://github.com/K aiChen1998/MultiSiam .
翻訳日:2021-08-30 14:13:25 公開日:2021-08-27
# TIMo - 飛行時間カメラを用いた屋内ビル監視用データセット

TIMo -- A Dataset for Indoor Building Monitoring with a Time-of-Flight Camera ( http://arxiv.org/abs/2108.12196v1 )

ライセンス: Link先を確認
Pascal Schneider, Yuriy Anisimov, Raisul Islam, Bruno Mirbach, Jason Rambach, Fr\'ed\'eric Grandidier, Didier Stricker(参考訳) ToF(Time-of-flight Indoor Monitoring)カメラを用いて室内空間をビデオで監視するTIMo(Time-of-flight Indoor Monitoring)を提案する。 その結果得られた深度ビデオは、さまざまな事前定義されたアクションを実行する人々を特徴付けます。 人のカウントと異常検出のための人物検出は2つのターゲットアプリケーションである。 既存の監視ビデオデータセットのほとんどは、グレースケールまたはRGBビデオを提供する。 一方、深度情報は、コンピュータビジョンの他の研究分野で人気があり、より一般的であるにもかかわらず、このクラスのデータセットでは依然として希少である。 私たちのデータセットは、監視ビデオデータセットのランドスケープにおけるこのギャップに対処します。 録音は2つの異なる場所で行われ、ToFカメラはトップダウンか傾斜した視点で設定された。 データセットはhttps://vizta-tof.kl .dfki.de/timo-datase t-overview/で公開されている。

We present TIMo (Time-of-flight Indoor Monitoring), a dataset for video-based monitoring of indoor spaces captured using a time-of-flight (ToF) camera. The resulting depth videos feature people performing a set of different predefined actions, for which we provide detailed annotations. Person detection for people counting and anomaly detection are the two targeted applications. Most existing surveillance video datasets provide either grayscale or RGB videos. Depth information, on the other hand, is still a rarity in this class of datasets in spite of being popular and much more common in other research fields within computer vision. Our dataset addresses this gap in the landscape of surveillance video datasets. The recordings took place at two different locations with the ToF camera set up either in a top-down or a tilted perspective on the scene. The dataset is publicly available at https://vizta-tof.kl .dfki.de/timo-datase t-overview/.
翻訳日:2021-08-30 14:12:56 公開日:2021-08-27
# DC-GNet:3次元形状再構成のためのグラフ畳み込みネットワークの深層メッシュ関係

DC-GNet: Deep Mesh Relation Capturing Graph Convolution Network for 3D Human Shape Reconstruction ( http://arxiv.org/abs/2108.12384v1 )

ライセンス: Link先を確認
Shihao Zhou, Mengxi Jiang, Shanshan Cai, Yunqi Lei(参考訳) 本稿では,1枚の画像から完全な3次元人体形状を再構築することを目的とする。 従来の頂点レベルおよびパラメータ回帰手法は、ノード間の正の関係を符号化する事前定義された隣接行列に基づいて3次元の人体形状を再構成する。 3次元人体の表面の深いトポロジカルな関係は慎重に利用されていない。 さらに、既存のほとんどのアプローチのパフォーマンスは、現実世界のシーンでより多くのオクルージョンケースを扱う場合、ドメインのギャップに苦しむことが多い。 本研究では,3次元形状復元のための形状補完タスクを備えたDeep Mesh Relation Capturing Graph Convolution Network, DC-GNetを提案する。 まず、正と負の関係を符号化する適応行列を導入するメッシュ頂点内での深い関係を捉えることを提案する。 次に,種々の閉塞症例を事前に学習するための形状完了タスクを提案する。 我々のアプローチは、より遠い領域のノード間のより微妙な関係からメッシュ構造を符号化する。 さらに, 形状補完モジュールは, 屋外場面における性能劣化問題を緩和する。 いくつかのベンチマークにおいて、我々のアプローチは以前の3次元人間のポーズと形状推定のアプローチよりも優れていた。

In this paper, we aim to reconstruct a full 3D human shape from a single image. Previous vertex-level and parameter regression approaches reconstruct 3D human shape based on a pre-defined adjacency matrix to encode positive relations between nodes. The deep topological relations for the surface of the 3D human body are not carefully exploited. Moreover, the performance of most existing approaches often suffer from domain gap when handling more occlusion cases in real-world scenes. In this work, we propose a Deep Mesh Relation Capturing Graph Convolution Network, DC-GNet, with a shape completion task for 3D human shape reconstruction. Firstly, we propose to capture deep relations within mesh vertices, where an adaptive matrix encoding both positive and negative relations is introduced. Secondly, we propose a shape completion task to learn prior about various kinds of occlusion cases. Our approach encodes mesh structure from more subtle relations between nodes in a more distant region. Furthermore, our shape completion module alleviates the performance degradation issue in the outdoor scene. Extensive experiments on several benchmarks show that our approach outperforms the previous 3D human pose and shape estimation approaches.
翻訳日:2021-08-30 14:12:19 公開日:2021-08-27
# 大規模パーソナライズプロモーションのための枠組み

A framework for massive scale personalized promotion ( http://arxiv.org/abs/2108.12100v1 )

ライセンス: Link先を確認
Yitao Shen, Yue Wang, Xingyu Lu, Feng Qi, Jia Yan, Yixiang Mu, Yao Yang, YiFan Peng, Jinjie Gu(参考訳) 消費者向けプラットフォームを構築するテクノロジー企業は、大規模なユーザー人口にアクセスできるかもしれない。 近年,定量化インセンティブによるプロモーションが,このようなプラットフォーム上でのアクティブユーザの増加に人気がある。 一方、ユーザ活動の増加は、ネットワーク効果を導入し、広告オーディエンスをもたらし、他のメリットを生み出すことができる。 一方、大規模なプロモーションは膨大なコストを引き起こす。 したがって、投資収益率(roi)の観点からのプロモーションキャンペーンの効率化は、多くの企業にとって大きな関心事である。 本稿では,大規模プロモーションキャンペーンのROIを最適化する実用的な2段階フレームワークを提案する。 第1段階では、ユーザの個人プロモーション応答曲線を機械学習技術でモデル化する。 第2段階では、ビジネスの目的とリソースの制約が最適化問題として定式化され、その決定変数が各ユーザにどれだけのインセンティブを与えるかである。 第2段階で効果的に最適化するためには、第1段階では対実予測とノイズ低減が不可欠である。 既存の偽物予測手法を用いてデータの治療バイアスを補正する。 また,新しいディープニューラルネットワーク(DNN)アーキテクチャ,ディープアイソトニック・プロモーション・ネットワーク(DIPN)を導入し,プロモーション応答曲線のノイズを低減する。 DIPNアーキテクチャは、同調性と滑らかさを強制することによって、これまでの応答曲線形状の知識を取り入れている。 我々の実験では、通常のDNNや他の最先端の形状制約モデルよりも優れていた。

Technology companies building consumer-facing platforms may have access to massive-scale user population. In recent years, promotion with quantifiable incentive has become a popular approach for increasing active users on such platforms. On one hand, increased user activities can introduce network effect, bring in advertisement audience, and produce other benefits. On the other hand, massive-scale promotion causes massive cost. Therefore making promotion campaigns efficient in terms of return-on-investment (ROI) is of great interest to many companies. This paper proposes a practical two-stage framework that can optimize the ROI of various massive-scale promotion campaigns. In the first stage, users' personal promotion-response curves are modeled by machine learning techniques. In the second stage, business objectives and resource constraints are formulated into an optimization problem, the decision variables of which are how much incentive to give to each user. In order to do effective optimization in the second stage, counterfactual prediction and noise-reduction are essential for the first stage. We leverage existing counterfactual prediction techniques to correct treatment bias in data. We also introduce a novel deep neural network (DNN) architecture, the deep-isotonic-promot ion-network (DIPN), to reduce noise in the promotion response curves. The DIPN architecture incorporates our prior knowledge of response curve shape, by enforcing isotonicity and smoothness. It out-performed regular DNN and other state-of-the-art shape-constrained models in our experiments.
翻訳日:2021-08-30 14:12:00 公開日:2021-08-27
# オープンエンディングデータに対する主観学習

Subjective Learning for Open-Ended Data ( http://arxiv.org/abs/2108.12113v1 )

ライセンス: Link先を確認
Tianren Zhang, Yizhou Jiang, Xin Su, Shangqi Guo, Feng Chen(参考訳) 従来の機械学習手法では、データはタスクに応じて分割され、各タスク内のデータは単一のターゲット関数によってモデル化される。 しかし、この仮定は手動のタスク定義がないオープンエンド環境では無効である。 本稿では,オープンエンドデータから学ぶための新しい教師あり学習パラダイムを提案する。 オープンエンドデータには本質的に複数の単一値決定論的マッピング関数が必要であり、従来の教師付きデータと重要な構造的違いを示す。 我々はこの構造的特性をマッピングランクと呼ばれる新しい概念で正式に説明し、データのマッピングランクが1より大きい場合、異なるデータサンプルが互いに衝突する可能性があるため、オープンエンドデータが従来の教師付き学習に根本的な困難をもたらすことを示す。 この問題に対処するために,我々は,複数の候補モデル間でデータを自動的に割り当ててコンフリクトを解決する主観的機能である主観的機能であるオープン・エンド・教師付き学習(osl)フレームワークを考案し,自然な認識階層を構築する。 我々はOSLの有効性を理論的にも実証的にも示し、OSLがタスクレベルの監督なしに人間的なタスク認知を実現することを示す。

Conventional machine learning methods typically assume that data is split according to tasks, and the data in each task can be modeled by a single target function. However, this assumption is invalid in open-ended environments where no manual task definition is available. In this paper, we present a novel supervised learning paradigm of learning from open-ended data. Open-ended data inherently requires multiple single-valued deterministic mapping functions to capture all its input-output relations, exhibiting an essential structural difference from conventional supervised data. We formally expound this structural property with a novel concept termed as mapping rank, and show that open-ended data poses a fundamental difficulty for conventional supervised learning, since different data samples may conflict with each other if the mapping rank of data is larger than one. To address this issue, we devise an Open-ended Supervised Learning (OSL) framework, of which the key innovation is a subjective function that automatically allocates the data among multiple candidate models to resolve the conflict, developing a natural cognition hierarchy. We demonstrate the efficacy of OSL both theoretically and empirically, and show that OSL achieves human-like task cognition without task-level supervision.
翻訳日:2021-08-30 14:11:39 公開日:2021-08-27
# 意味的類似性を利用した強化学習による意味コミュニケーション

Reinforcement Learning-powered Semantic Communication via Semantic Similarity ( http://arxiv.org/abs/2108.12121v1 )

ライセンス: Link先を確認
Kun Lu, Rongpeng Li, Xianfu Chen, Zhifeng Zhao, Honggang Zhang(参考訳) 我々は,ビットレベルの精度を厳格に確保する代わりに,セマンティック情報を保存するための新しいセマンティックコミュニケーション機構を導入する。 既存のジョイント・ソース・チャネル・コーディング(JSCC)手法の欠陥を分析することから、一般的に使用されるビットレベル・メトリクスは重要な意味や構造を捉えるのに脆弱であることを示す。 この問題に対処するために、クロスエントロピーやビットエラー率といった従来のペア化ビットレベルの監視に頼るのではなく、セマンティックな類似性から学習する。 しかし,このようなセマンティックコミュニケーションシステムの開発は,ほとんどのセマンティックメトリクスの非微分可能性やうるさいチャネルからの不安定性を考慮し,非自明な作業である。 これらの課題をさらに解決するために,ポリシー勾配技術を用いてユーザ定義意味測定を同時に最適化し,周囲の雑音環境と自然な方法で対話することのできる強化学習(RL)ベースのソリューションを提案する。 提案手法を,挑戦的なヨーロッパ・パリメントデータセットで検証した。 AWGNと位相不変フェーディングチャネルの両方の実験により,低SNR条件下でのチャネルノイズの処理精度の向上と意味を明らかにする上で,本手法の優位性が確認された。 実験結果とは別に,実生活における超一般化機能とともに,セマンティクスモデルがどのように振る舞うか,さらに詳細に検討する。 学習ベースのjsccタスクにおける新しい手法として、一般化能力を証明するためにrlベースの画像伝達パラダイムを例示し、この新しいトピックを今後の議論に残します。

We introduce a new semantic communication mechanism, whose key idea is to preserve the semantic information instead of strictly securing the bit-level precision. Starting by analyzing the defects of existing joint source channel coding (JSCC) methods, we show that the commonly used bit-level metrics are vulnerable of catching important semantic meaning and structures. To address this problem, we take advantage of learning from semantic similarity, instead of relying on conventional paired bit-level supervisions like cross entropy and bit error rate. However, to develop such a semantic communication system is indeed a nontrivial task, considering the nondifferentiability of most semantic metrics as well as the instability from noisy channels. To further resolve these issues, we put forward a reinforcement learning (RL)-based solution which allows us to simultaneously optimize any user-defined semantic measurement by using the policy gradient technique, and to interact with the surrounding noisy environment in a natural way. We have testified the proposed method in the challenging European-parliament dataset. Experiments on both AWGN and phase-invariant fading channel have confirmed the superiority of our method in revealing the semantic meanings, and better handling the channel noise especially in low-SNR situations. Apart from the experimental results, we further provide an indepth look at how the semantics model behaves, along with its superb generalization ability in real-life examples. As a brand new method in learning-based JSCC tasks, we also exemplify an RL-based image transmission paradigm, both to prove the generalization ability, and to leave this new topic for future discussion.
翻訳日:2021-08-30 14:11:20 公開日:2021-08-27
# 原始二重スパースカーネルマシンの学習

Learning primal-dual sparse kernel machines ( http://arxiv.org/abs/2108.12199v1 )

ライセンス: Link先を確認
Riikka Huusari, Sahely Bhadra, C\'ecile Capponi, Hachem Kadri, Juho Rousu(参考訳) 伝統的に、カーネル法は、学習問題の解が再生核ヒルベルト空間(英語版)(rkhs)に写像されたデータの線形結合として得られることを述べるrepresenter定理に依存している。 理論的な観点からはエレガントだが、この定理はアルゴリズムの大規模データセットへの拡張性や学習関数の解釈可能性に対して禁止されている。 本稿では、従来の代表者定理の代わりに、元のデータ空間における前像分解を持つRKHSの解を探索することを提案する。 勾配に基づく最適化手法は入力空間のスパース要素の最適化に重きを置き、原始的および双対的なスパース性を持つカーネルベースモデルを得ることができる。 提案手法の一般化能力をRademacher境界を用いて理論的に正当化する。 実験では,従来のカーネルモデルと同等の精度で,スケーラビリティと解釈性を実証した。

Traditionally, kernel methods rely on the representer theorem which states that the solution to a learning problem is obtained as a linear combination of the data mapped into the reproducing kernel Hilbert space (RKHS). While elegant from theoretical point of view, the theorem is prohibitive for algorithms' scalability to large datasets, and the interpretability of the learned function. In this paper, instead of using the traditional representer theorem, we propose to search for a solution in RKHS that has a pre-image decomposition in the original data space, where the elements don't necessarily correspond to the elements in the training set. Our gradient-based optimisation method then hinges on optimising over possibly sparse elements in the input space, and enables us to obtain a kernel-based model with both primal and dual sparsity. We give theoretical justification on the proposed method's generalization ability via a Rademacher bound. Our experiments demonstrate a better scalability and interpretability with accuracy on par with the traditional kernel-based models.
翻訳日:2021-08-30 14:10:51 公開日:2021-08-27
# 原型的関連性伝播による自己説明モデルの拡張

This looks more like that: Enhancing Self-Explaining Models by Prototypical Relevance Propagation ( http://arxiv.org/abs/2108.12204v1 )

ライセンス: Link先を確認
Srishti Gautam, Marina M.-C. H\"ohne, Stine Hansen, Robert Jenssen and Michael Kampffmeyer(参考訳) 現在の機械学習モデルは、様々な現実世界の問題を解決する上で高い効率性を示している。 しかし、ブラックボックスの性格は、根底にある意思決定戦略の理解とトレーサビリティに大きな課題をもたらす。 治療として、モデルの振る舞いを解釈する多くのポストホックな説明と自己説明法が開発されている。 これらの手法は、モデルによってクラス関連の特徴として学習できるアーティファクトの識別を可能にする。 本研究では,自己説明型ネットワークであるProtoPNetのアーティファクトのスペクトルの存在下での詳細なケーススタディを提供する。 したがって,protopnet の主な欠点,特にその粗さと空間的不正確な説明を特定する。 より正確なモデル認識記述を生成する新しい手法である Prototypeal Relevance Propagation (PRP) を導入することで,これらの制約に対処する。 さらに, クリーンなデータセットを得るために, PRP説明を用いたアーティファクト画像の分離にマルチビュークラスタリング戦略を用いることにより, モデルにおける潜在的なアーティファクト学習を抑制することを提案する。

Current machine learning models have shown high efficiency in solving a wide variety of real-world problems. However, their black box character poses a major challenge for the understanding and traceability of the underlying decision-making strategies. As a remedy, many post-hoc explanation and self-explanatory methods have been developed to interpret the models' behavior. These methods, in addition, enable the identification of artifacts that can be learned by the model as class-relevant features. In this work, we provide a detailed case study of the self-explaining network, ProtoPNet, in the presence of a spectrum of artifacts. Accordingly, we identify the main drawbacks of ProtoPNet, especially, its coarse and spatially imprecise explanations. We address these limitations by introducing Prototypical Relevance Propagation (PRP), a novel method for generating more precise model-aware explanations. Furthermore, in order to obtain a clean dataset, we propose to use multi-view clustering strategies for segregating the artifact images using the PRP explanations, thereby suppressing the potential artifact learning in the models.
翻訳日:2021-08-30 14:10:36 公開日:2021-08-27
# 全国都市大気質予測のためのグループ対応グラフニューラルネットワーク

Group-Aware Graph Neural Network for Nationwide City Air Quality Forecasting ( http://arxiv.org/abs/2108.12238v1 )

ライセンス: Link先を確認
Ling Chen, Jiahui Xu, Binqing Wu, Yuntao Qian, Zhenhong Du, Yansheng Li, Yongjun Zhang(参考訳) 大気汚染の問題は公衆衛生を脅かす。 大気質予測は、大気質指数を数時間から数日後に提供し、大気汚染を事前に防ぐのに役立つ。 以前の研究は、都市全体の大気質予測に重点を置いており、地理的に遠くて高い相関関係にある都市間の潜在的な依存関係を捉えることが困難である全国的な都市予測問題を解決できない。 本稿では,全国都市空気質予測のための階層モデルであるgagnn(group-aware graph neural network)を提案する。 このモデルは都市間の空間的依存をモデル化するために都市グラフと都市グループグラフを構築する。 GAGNNは、都市間の依存性を発見し、都市グループを生成するために、異なるグループネットワークを導入している。 生成した都市群に基づいてグループ相関符号化モジュールを導入し,それらの相関関係を学習し,都市群間の依存関係を効果的に把握する。 グラフ構築後、GAGNNは、都市と都市グループの依存関係をモデル化するメッセージパッシング機構を実装した。 中国の都市大気質データセットの評価実験により,GAGNNが既存の予測モデルより優れていることが示された。

The problem of air pollution threatens public health. Air quality forecasting can provide the air quality index hours or even days later, which can help the public to prevent air pollution in advance. Previous works focus on citywide air quality forecasting and cannot solve nationwide city forecasting problem, whose difficulties lie in capturing the latent dependencies between geographically distant but highly correlated cities. In this paper, we propose the group-aware graph neural network (GAGNN), a hierarchical model for nationwide city air quality forecasting. The model constructs a city graph and a city group graph to model the spatial and latent dependencies between cities, respectively. GAGNN introduces differentiable grouping network to discover the latent dependencies among cities and generate city groups. Based on the generated city groups, a group correlation encoding module is introduced to learn the correlations between them, which can effectively capture the dependencies between city groups. After the graph construction, GAGNN implements message passing mechanism to model the dependencies between cities and city groups. The evaluation experiments on Chinese city air quality dataset indicate that our GAGNN outperforms existing forecasting models.
翻訳日:2021-08-30 14:10:18 公開日:2021-08-27
# 確率制御のためのアクティブ推論

Active Inference for Stochastic Control ( http://arxiv.org/abs/2108.12245v1 )

ライセンス: Link先を確認
Aswin Paul, Noor Sajid, Manoj Gopalkrishnan, and Adeel Razi(参考訳) 能動推論は、直観的(確率的)形式論を前提に、問題を制御するための別のアプローチとして現れた。 しかし、その理論的有用性にもかかわらず、計算の実装は低次元の決定論的設定に限定されている。 本稿では、特に計画中に広範な方針(すなわち行動軌道)空間を評価する必要がある場合に、確率的遷移ダイナミクスを適切にモデル化できないことによるものであることを強調する。 幸いなことに、最近の進歩は有限時間地平線に対する修正計画アルゴリズムを提案する。 本研究は,確率的制御設定における能動推論の有用性を評価するためのものである。 そこで我々は,1)環境確率性,2)遷移ダイナミクスの学習,3)部分可観測性という,従来の風力グリッドワールドタスクをシミュレートする。 本研究は,決定論的および確率的設定において,強化学習と比較して,能動的推論の利点を示す。

Active inference has emerged as an alternative approach to control problems given its intuitive (probabilistic) formalism. However, despite its theoretical utility, computational implementations have largely been restricted to low-dimensional, deterministic settings. This paper highlights that this is a consequence of the inability to adequately model stochastic transition dynamics, particularly when an extensive policy (i.e., action trajectory) space must be evaluated during planning. Fortunately, recent advancements propose a modified planning algorithm for finite temporal horizons. We build upon this work to assess the utility of active inference for a stochastic control setting. For this, we simulate the classic windy grid-world task with additional complexities, namely: 1) environment stochasticity; 2) learning of transition dynamics; and 3) partial observability. Our results demonstrate the advantage of using active inference, compared to reinforcement learning, in both deterministic and stochastic settings.
翻訳日:2021-08-30 14:09:58 公開日:2021-08-27
# 強化学習に基づくフローラインシステムの条件指向メンテナンススケジューリング

Reinforcement Learning based Condition-oriented Maintenance Scheduling for Flow Line Systems ( http://arxiv.org/abs/2108.12298v1 )

ライセンス: Link先を確認
Raphael Lamprecht, Ferdinand Wurst, Marco F. Huber(参考訳) メンテナンススケジューリングは、計画外の生産停止を防ぐために、多数のメンテナンスタスクとリソースを本番環境に割り当て、スケジュールする必要がある生産領域における複雑な意思決定問題である。 生産システムの動的および異なる条件に適応できるインテリジェントなメンテナンス戦略が必要である。 本稿では,フローラインシステムにおける条件指向メンテナンススケジューリングのための深層強化学習手法を提案する。 報酬モデリングに基づくベンチマークスケジューリングヒューリスティックに対して、異なるポリシーを学習し、分析し、評価する。 学習方針の評価は,強化学習に基づくメンテナンス戦略が,提示したユースケースの要件を満たし,店舗におけるメンテナンススケジューリングに適したことを示す。

Maintenance scheduling is a complex decision-making problem in the production domain, where a number of maintenance tasks and resources has to be assigned and scheduled to production entities in order to prevent unplanned production downtime. Intelligent maintenance strategies are required that are able to adapt to the dynamics and different conditions of production systems. The paper introduces a deep reinforcement learning approach for condition-oriented maintenance scheduling in flow line systems. Different policies are learned, analyzed and evaluated against a benchmark scheduling heuristic based on reward modelling. The evaluation of the learned policies shows that reinforcement learning based maintenance strategies meet the requirements of the presented use case and are suitable for maintenance scheduling in the shop floor.
翻訳日:2021-08-30 14:09:44 公開日:2021-08-27
# 事故予測のための適応クラスタリング手法

An Adaptive Clustering Approach for Accident Prediction ( http://arxiv.org/abs/2108.12308v1 )

ライセンス: Link先を確認
Rajjat Dadwal, Thorben Funke, Elena Demidova(参考訳) 交通事故予測はモビリティ領域において重要なタスクである。 最先端の事故予測アプローチは、静的および均一なグリッドベースの地理空間集約に基づいており、粒度予測の能力を制限する。 この性質は市中心部のような複雑な地域で特に問題となる。 このような領域では、グリッドセルは異なる性質を持つサブリージョンを含むことができ、さらに実際の事故発生領域をグリッドセル間で任意に分割することができる。 本稿では,グリッド成長アルゴリズムに基づく新しい事故予測手法であるAdaptive Clustering Accident Prediction (ACAP)を提案する。 ACAPは観測された空間的事故分布に適応的なクラスタリングを適用し、時間的・事故関連・地域的特徴の埋め込みを行い、予測精度を高める。 本稿では,ドイツの3都市における実世界の事故データセットを用いたACAP手法の有効性を示す。 acapは,空間的アグリゲーションを基盤となる時空間事象の分布に適応することにより,f1-scoreにおける複合領域の事故予測性能を2~3ポイント向上させる。 我々のグリッド成長アプローチは、クラスタリングベースのベースラインを平均F1スコアで4%上回ります。

Traffic accident prediction is a crucial task in the mobility domain. State-of-the-art accident prediction approaches are based on static and uniform grid-based geospatial aggregations, limiting their capability for fine-grained predictions. This property becomes particularly problematic in more complex regions such as city centers. In such regions, a grid cell can contain subregions with different properties; furthermore, an actual accident-prone region can be split across grid cells arbitrarily. This paper proposes Adaptive Clustering Accident Prediction (ACAP) - a novel accident prediction method based on a grid growing algorithm. ACAP applies adaptive clustering to the observed geospatial accident distribution and performs embeddings of temporal, accident-related, and regional features to increase prediction accuracy. We demonstrate the effectiveness of the proposed ACAP method using open real-world accident datasets from three cities in Germany. We demonstrate that ACAP improves the accident prediction performance for complex regions by 2-3 percent points in F1-score by adapting the geospatial aggregation to the distribution of the underlying spatio-temporal events. Our grid growing approach outperforms the clustering-based baselines by four percent points in terms of F1-score on average.
翻訳日:2021-08-30 14:09:33 公開日:2021-08-27
# 物理インフォームド畳み込み自己エンコーダによる準ゲオゾフィック方程式の非線形モデル次数削減の検討

Investigation of Nonlinear Model Order Reduction of the Quasigeostrophic Equations through a Physics-Informed Convolutional Autoencoder ( http://arxiv.org/abs/2108.12344v1 )

ライセンス: Link先を確認
Rachel Cooper, Andrey A. Popov, Adrian Sandu(参考訳) 還元次数モデリング(ROM)は、少ない自由度で重要な力学特性を捉える安価なサロゲートにより、現実世界のプロセスの複雑な物理モデルに近似する手法の分野である。 固有直交分解(POD)のような伝統的なROM技術は、スペクトル上の一連の特徴に対する力学の線形射影に焦点を当てている。 本稿では,データから学習した低次元多様体上にシステムダイナミクスの非線形投影を行うオートエンコーダ(AE)を用いたROMの構築について検討する。 このアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、スペクトルではなく空間的特徴を学習し、物理情報(PI)コスト関数を使用して時間的特徴も捉える。 準地政学方程式を用いて検討した結果,PIコスト関数は空間再構成に有効であるが,空間的特徴はスペクトル特性よりは弱く,機械学習によるROMの構築には新しい非標準手法が不可欠であることがわかった。

Reduced order modeling (ROM) is a field of techniques that approximates complex physics-based models of real-world processes by inexpensive surrogates that capture important dynamical characteristics with a smaller number of degrees of freedom. Traditional ROM techniques such as proper orthogonal decomposition (POD) focus on linear projections of the dynamics onto a set of spectral features. In this paper we explore the construction of ROM using autoencoders (AE) that perform nonlinear projections of the system dynamics onto a low dimensional manifold learned from data. The approach uses convolutional neural networks (CNN) to learn spatial features as opposed to spectral, and utilize a physics informed (PI) cost function in order to capture temporal features as well. Our investigation using the quasi-geostrophic equations reveals that while the PI cost function helps with spatial reconstruction, spatial features are less powerful than spectral features, and that construction of ROMs through machine learning-based methods requires significant investigation into novel non-standard methodologies.
翻訳日:2021-08-30 14:09:13 公開日:2021-08-27
# 群衆軌道品質評価のための知覚的検証基準

A Perceptually-Validat ed Metric for Crowd Trajectory Quality Evaluation ( http://arxiv.org/abs/2108.12346v1 )

ライセンス: Link先を確認
Beatriz Cabrero Daniel, Ricardo Marques, Ludovic Hoyet, Julien Pettr\'e and Josep Blat(参考訳) 群衆をシミュレーションするには、非常に多数の軌道を制御する必要があり、通常、適切なパラメータ値を見つける必要がある群集運動アルゴリズムを用いて実行される。 シミュレーション手法におけるパラメトリック値と結果として得られる軌道の品質との関係について,知覚実験または実際の群衆軌道との比較により検討した。 本稿では,両戦略を統合する。 軌道実在論の知覚に影響を与える最も有意義な特徴を捉えながら、参照データから抽象化する品質指標 qf が提案されている。 qfは、軌道の複数の個別、局所、大域的性質に基づくコスト関数を重み付け、結合する。 これらの軌跡の特徴は文献および専門家へのインタビューから選ばれる。 知覚された軌道品質を捉えるためのQFの能力を検証するために,自動品質スコアと非熟練ユーザとの高整合性を示すオンライン実験を行った。 qfのさらなる有用性を示すために,パラメータチューニングアプリケーションにおいて,文字の独立な軌跡を出力する任意のパラメトリックな微小群衆シミュレーションモデルをチューニングできる。 調整群集運動モデルの学習パラメータは、QFの項の重み付けに用いられた基準データの影響を保っている。

Simulating crowds requires controlling a very large number of trajectories and is usually performed using crowd motion algorithms for which appropriate parameter values need to be found. The study of the relation between parametric values for simulation techniques and the quality of the resulting trajectories has been studied either through perceptual experiments or by comparison with real crowd trajectories. In this paper, we integrate both strategies. A quality metric, QF, is proposed to abstract from reference data while capturing the most salient features that affect the perception of trajectory realism. QF weights and combines cost functions that are based on several individual, local and global properties of trajectories. These trajectory features are selected from the literature and from interviews with experts. To validate the capacity of QF to capture perceived trajectory quality, we conduct an online experiment that demonstrates the high agreement between the automatic quality score and non-expert users. To further demonstrate the usefulness of QF, we use it in a data-free parameter tuning application able to tune any parametric microscopic crowd simulation model that outputs independent trajectories for characters. The learnt parameters for the tuned crowd motion model maintain the influence of the reference data which was used to weight the terms of QF.
翻訳日:2021-08-30 14:08:54 公開日:2021-08-27
# 電気自動車充電ステーション稼働予測のための深部情報融合

Deep Information Fusion for Electric Vehicle Charging Station Occupancy Forecasting ( http://arxiv.org/abs/2108.12352v1 )

ライセンス: Link先を確認
Ashutosh Sao, Nicolas Tempelmeier, Elena Demidova(参考訳) 電気自動車の増加に伴い、充電ステーションの占有率の正確な予測は、信頼性の高い車両充電を可能にするために不可欠である。 本稿では、充電ステーションの占有率を効果的に予測する新しいDep Fusion of Dynamic and Static Information Model(DFDS)を提案する。 我々は、特定の充電ステーションパターンを学習するために、日中の平均占有状況などの静的情報を利用する。 このような静的データを,前回の充電ステーションの占有状況や日時や平日などの時間情報を反映した動的情報で補足する。 我々のモデルは動的および静的な情報を効率的に融合し、正確な予測を容易にする。 我々は、2020年8月から2020年12月にかけて、ドイツで593の充電ステーションを含む実世界のデータセットで提案モデルを評価する。 実験の結果,DFDSはF1スコア平均で3.45ポイント向上した。

With an increasing number of electric vehicles, the accurate forecasting of charging station occupation is crucial to enable reliable vehicle charging. This paper introduces a novel Deep Fusion of Dynamic and Static Information model (DFDS) to effectively forecast the charging station occupation. We exploit static information, such as the mean occupation concerning the time of day, to learn the specific charging station patterns. We supplement such static data with dynamic information reflecting the preceding charging station occupation and temporal information such as daytime and weekday. Our model efficiently fuses dynamic and static information to facilitate accurate forecasting. We evaluate the proposed model on a real-world dataset containing 593 charging stations in Germany, covering August 2020 to December 2020. Our experiments demonstrate that DFDS outperforms the baselines by 3.45 percent points in F1-score on average.
翻訳日:2021-08-30 14:08:35 公開日:2021-08-27
# NLPを用いたログ埋め込みによる悪意あるサイバー行動のエンド・ツー・エンド異常検出

End-To-End Anomaly Detection for Identifying Malicious Cyber Behavior through NLP-Based Log Embeddings ( http://arxiv.org/abs/2108.12276v1 )

ライセンス: Link先を確認
Andrew Golczynski and John A. Emanuello(参考訳) ルールベースのIDS(侵入検知システム)はより堅牢なニューラルIDSに置き換えられており、サイバーセキュリティの分野で大きな可能性を秘めている。 しかし、これらのMLアプローチは、異常なサイバー活動の発見と完全に関連する方法で入力をベクトル化する能力に欠けるアドホックな特徴工学技術に依存し続けている。 企業コンピュータネットワークにおける潜在的悪意のある行動を特定するために,nlpに触発されたコンポーネントを用いたエンド・ツー・エンドの深層フレームワークを提案する。 また,最近リリースされたDARPA OpTCデータセットに対して,この手法の有効性を示す。

Rule-based IDS (intrusion detection systems) are being replaced by more robust neural IDS, which demonstrate great potential in the field of Cybersecurity. However, these ML approaches continue to rely on ad-hoc feature engineering techniques, which lack the capacity to vectorize inputs in ways that are fully relevant to the discovery of anomalous cyber activity. We propose a deep end-to-end framework with NLP-inspired components for identifying potentially malicious behaviors on enterprise computer networks. We also demonstrate the efficacy of this technique on the recently released DARPA OpTC data set.
翻訳日:2021-08-30 14:07:41 公開日:2021-08-27
# 自己監督型音声事前学習におけるテキスト注入

Injecting Text in Self-Supervised Speech Pretraining ( http://arxiv.org/abs/2108.12226v1 )

ライセンス: Link先を確認
Zhehuai Chen, Yu Zhang, Andrew Rosenberg, Bhuvana Ramabhadran, Gary Wang, Pedro Moreno(参考訳) 自動音声認識(ASR)のための自己教師付き事前訓練は、様々な成功度を示している。 本稿では,音声とテキストの2つの異なるモダリティから事前学習中の表現を共同学習することを提案する。 提案手法であるtts4pretrainは,合成音声から派生した言語・語彙表現と自己スーパービジョンにおけるコントラスト学習のパワーを補完する。 音声エンコーダにおける語彙学習は、事前訓練中に対照的な損失を伴う追加のシーケンス損失項によって実施される。 本手法は, 単語誤り率(WER)を, wav2vec2.0のみを事前訓練した最先端のベースライン上で10%削減できることを実証する。 提案手法は,書き起こし音声の欠如を補う効果的な戦略としても機能し,ami会議の書き起こしタスクにおいて,5000時間の書き起こし音声とわずか100時間の書き起こし音声のパフォーマンスを効果的に一致させる。 最後に、従来の事前学習よりも、社内音声検索タスクで最大15%のWER削減を実証する。 テキストをエンコーダプリトレーニングに組み込むことは、より大きな言語モデルやドメイン内言語モデルに補完するものであり、結果として、werの相対的な削減が6%増える。

Self-supervised pretraining for Automated Speech Recognition (ASR) has shown varied degrees of success. In this paper, we propose to jointly learn representations during pretraining from two different modalities: speech and text. The proposed method, tts4pretrain complements the power of contrastive learning in self-supervision with linguistic/lexical representations derived from synthesized speech, effectively learning from untranscribed speech and unspoken text. Lexical learning in the speech encoder is enforced through an additional sequence loss term that is coupled with contrastive loss during pretraining. We demonstrate that this novel pretraining method yields Word Error Rate (WER) reductions of 10% relative on the well-benchmarked, Librispeech task over a state-of-the-art baseline pretrained with wav2vec2.0 only. The proposed method also serves as an effective strategy to compensate for the lack of transcribed speech, effectively matching the performance of 5000 hours of transcribed speech with just 100 hours of transcribed speech on the AMI meeting transcription task. Finally, we demonstrate WER reductions of up to 15% on an in-house Voice Search task over traditional pretraining. Incorporating text into encoder pretraining is complimentary to rescoring with a larger or in-domain language model, resulting in additional 6% relative reduction in WER.
翻訳日:2021-08-30 14:07:32 公開日:2021-08-27
# 高品質参照データを持たない横走査ソナー画像の深部雑音化法

Deep Denoising Method for Side Scan Sonar Images without High-quality Reference Data ( http://arxiv.org/abs/2108.12083v1 )

ライセンス: Link先を確認
Xiaoteng Zhou, Changli Yu, Xin Yuan, Citong Luo(参考訳) サイドスキャンソナー(SSS)によって測定された海底画像は、自律型水中車両(AUV)を用いた深海探査の過程で必要な視覚的データである。 海底の地形を鮮明に反映することはできたが、通常複雑で激しい騒音を伴う。 本稿では,1つのノイズSS画像を用いて,高品質な参照データを必要としないSSS画像のディープデノイング手法を提案する。 従来の人工フィルタと比較すると、ディープデノナイジング法には明らかな利点がある。 実海底SSS画像の遮音実験を行い, 提案手法は画像品質と細部損失を最小限に抑えながら, SSS画像のノイズを効果的に低減できることを示した。

Subsea images measured by the side scan sonars (SSSs) are necessary visual data in the process of deep-sea exploration by using the autonomous underwater vehicles (AUVs). They could vividly reflect the topography of the seabed, but usually accompanied by complex and severe noise. This paper proposes a deep denoising method for SSS images without high-quality reference data, which uses one single noise SSS image to perform self-supervised denoising. Compared with the classical artificially designed filters, the deep denoising method shows obvious advantages. The denoising experiments are performed on the real seabed SSS images, and the results demonstrate that our proposed method could effectively reduce the noise on the SSS image while minimizing the image quality and detail loss.
翻訳日:2021-08-30 14:06:53 公開日:2021-08-27
# DAE-GAN:テキスト対画像合成のための動的アスペクト対応GAN

DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis ( http://arxiv.org/abs/2108.12141v1 )

ライセンス: Link先を確認
Shulan Ruan, Yong Zhang, Kun Zhang, Yanbo Fan, Fan Tang, Qi Liu, Enhong Chen(参考訳) テキストから画像への合成(text-to-image synthesis)とは、与えられたテキスト記述から画像を生成することを指す。 従来の方法では通常、文埋め込みで初期画像を生成し、細粒度な単語埋め込みで洗練する。 著しい進歩にもかかわらず、テキストに含まれる「検査」情報(例えば赤い目)は、「何かの特定の部分または特徴」を描写する単語ではなく、複数の単語を参照しており、しばしば無視されるため、画像の詳細を合成するのに非常に役立つ。 テキストと画像の合成におけるアスペクト情報のより良い利用方法はまだ未解決の課題である。 この問題に対処するために,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。 さらに,人間の学習行動に触発されて,参加するグローバルリファインメント(agr)モジュールとアスペクトアウェアローカルリファインメント(alr)モジュールを交互に採用する,新たな画像リファインメントのためのアスペクトアウェア動的リレーダ(adr)を開発した。 AGRは単語レベルの埋め込みを利用して、以前生成されたイメージをグローバルに拡張する一方、ALRはアスペクトレベルの埋め込みを用いて局所的な視点から画像の詳細を洗練する。 最後に、対応するロス関数は、異なるレベルでテキストイメージのセマンティック一貫性を保証するように設計されている。 CUB-200とCOCOの2つのよく研究され、公開されているデータセットに対する大規模な実験は、我々の方法の優越性と合理性を示している。

Text-to-image synthesis refers to generating an image from a given text description, the key goal of which lies in photo realism and semantic consistency. Previous methods usually generate an initial image with sentence embedding and then refine it with fine-grained word embedding. Despite the significant progress, the 'aspect' information (e.g., red eyes) contained in the text, referring to several words rather than a word that depicts 'a particular part or feature of something', is often ignored, which is highly helpful for synthesizing image details. How to make better utilization of aspect information in text-to-image synthesis still remains an unresolved challenge. To address this problem, in this paper, we propose a Dynamic Aspect-awarE GAN (DAE-GAN) that represents text information comprehensively from multiple granularities, including sentence-level, word-level, and aspect-level. Moreover, inspired by human learning behaviors, we develop a novel Aspect-aware Dynamic Re-drawer (ADR) for image refinement, in which an Attended Global Refinement (AGR) module and an Aspect-aware Local Refinement (ALR) module are alternately employed. AGR utilizes word-level embedding to globally enhance the previously generated image, while ALR dynamically employs aspect-level embedding to refine image details from a local perspective. Finally, a corresponding matching loss function is designed to ensure the text-image semantic consistency at different levels. Extensive experiments on two well-studied and publicly available datasets (i.e., CUB-200 and COCO) demonstrate the superiority and rationality of our method.
翻訳日:2021-08-30 14:06:41 公開日:2021-08-27
# coco distillnet : 病理学的胃癌分画のためのクロスレイヤー相関蒸留ネットワーク

CoCo DistillNet: a Cross-layer Correlation Distillation Network for Pathological Gastric Cancer Segmentation ( http://arxiv.org/abs/2108.12173v1 )

ライセンス: Link先を確認
Wenxuan Zou, Muyi Sun(参考訳) 近年,深層畳み込みニューラルネットワークは,病理画像分割において大きな進歩を遂げている。 しかし、病理画像分割は、高パフォーマンスネットワークが一般により多くの計算資源とストレージを必要とするジレンマと遭遇する。 この現象は、病的画像の固有の高分解能のため、実場面での高精度ネットワークの雇用を制限する。 この問題を解決するために,病理組織学的胃癌セグメンテーションのためのクロスレイヤー相関(CoCo)知識蒸留ネットワークであるCoCo DistillNetを提案する。 知識蒸留 - 複雑ネットワークからの知識伝達によるコンパクトネットワークの性能向上を目的とした一般的な技術。 具体的には,各層間のチャネル混合空間類似性の相関をモデル化し,その知識を教師ネットワークから非学習学生ネットワークに伝達する。 また, 逆蒸留 (ad) と呼ばれる蒸留手順をさらに促進するために, 逆蒸留戦略を利用する。 さらに,教師ネットワークにおける知識パラフレーズの促進のために,教師なしパラフレーズモジュール (PM) を用いて訓練の安定化を図る。 その結果,CoCo DistillNetによる胃癌分離データセットに対する広範な実験により,最先端のパフォーマンスを実現することができた。

In recent years, deep convolutional neural networks have made significant advances in pathology image segmentation. However, pathology image segmentation encounters with a dilemma in which the higher-performance networks generally require more computational resources and storage. This phenomenon limits the employment of high-accuracy networks in real scenes due to the inherent high-resolution of pathological images. To tackle this problem, we propose CoCo DistillNet, a novel Cross-layer Correlation (CoCo) knowledge distillation network for pathological gastric cancer segmentation. Knowledge distillation, a general technique which aims at improving the performance of a compact network through knowledge transfer from a cumbersome network. Concretely, our CoCo DistillNet models the correlations of channel-mixed spatial similarity between different layers and then transfers this knowledge from a pre-trained cumbersome teacher network to a non-trained compact student network. In addition, we also utilize the adversarial learning strategy to further prompt the distilling procedure which is called Adversarial Distillation (AD). Furthermore, to stabilize our training procedure, we make the use of the unsupervised Paraphraser Module (PM) to boost the knowledge paraphrase in the teacher network. As a result, extensive experiments conducted on the Gastric Cancer Segmentation Dataset demonstrate the prominent ability of CoCo DistillNet which achieves state-of-the-art performance.
翻訳日:2021-08-30 14:06:11 公開日:2021-08-27
# 自動車レーダデータにおける高速ルールベースクラッタ検出

Fast Rule-Based Clutter Detection in Automotive Radar Data ( http://arxiv.org/abs/2108.12224v1 )

ライセンス: Link先を確認
Johannes Kopp, Dominik Kellner, Aldi Piroli, Klaus Dietmayer(参考訳) 自動車用レーダセンサーは、不必要なクラッタやゴースト検出を多く出力し、その位置や速度はセンサーの視野内の実際の物体とは一致しない。 これは、オブジェクトの検出や追跡といった環境認識手法に重大な課題をもたらす。 特に問題なのは、複数の連続測定でグループや同様の場所で発生する乱雑な検出である。 本稿では,そのような誤検出を識別する新しいアルゴリズムを提案する。 主に、クラッタにつながる特定の一般的な波伝播経路のモデル化に基づいている。 特に、明示的にカバーされた3つの効果は、車またはトラックの下部の反射、センサーが装着された車両と他の物体の間を行き来する信号、およびスペクトル反射によるマルチパス伝搬である。 後者はしばしばガードレール、コンクリート壁、または同様の反射面の近くで起こる。 これらの効果は、理論上、および対応するクラッタ検出を同定する方法の両方について記述される。 識別は、単一のセンサ計測のみから発生する検出を解析することによって行われる。 最終アルゴリズムは実際の都市外交通の記録に基づいて評価される。 ラベル付けには半自動プロセスが使用される。 その結果は、パフォーマンスと非常に低い実行時間の両方において有望である。 通常、クラッタの大部分は発見されるが、実際のオブジェクトに対応する検出の割合は、アルゴリズムによって誤って分類される。

Automotive radar sensors output a lot of unwanted clutter or ghost detections, whose position and velocity do not correspond to any real object in the sensor's field of view. This poses a substantial challenge for environment perception methods like object detection or tracking. Especially problematic are clutter detections that occur in groups or at similar locations in multiple consecutive measurements. In this paper, a new algorithm for identifying such erroneous detections is presented. It is mainly based on the modeling of specific commonly occurring wave propagation paths that lead to clutter. In particular, the three effects explicitly covered are reflections at the underbody of a car or truck, signals traveling back and forth between the vehicle on which the sensor is mounted and another object, and multipath propagation via specular reflection. The latter often occurs near guardrails, concrete walls or similar reflective surfaces. Each of these effects is described both theoretically and regarding a method for identifying the corresponding clutter detections. Identification is done by analyzing detections generated from a single sensor measurement only. The final algorithm is evaluated on recordings of real extra-urban traffic. For labeling, a semi-automatic process is employed. The results are promising, both in terms of performance and regarding the very low execution time. Typically, a large part of clutter is found, while only a small ratio of detections corresponding to real objects are falsely classified by the algorithm.
翻訳日:2021-08-30 14:05:50 公開日:2021-08-27
# ガラスフリー3Dディスプレイ用ハイブリッド積層多重層とフーリエ異方性層に基づく新しい階層型光フィールド符号化方式

A Novel Hierarchical Light Field Coding Scheme Based on Hybrid Stacked Multiplicative Layers and Fourier Disparity Layers for Glasses-Free 3D Displays ( http://arxiv.org/abs/2108.12399v1 )

ライセンス: Link先を確認
Joshitha Ravishankar and Mansi Sharma(参考訳) 本稿では,低位乗算層とフーリエ分散層の透過パターンに基づく光場の新しい階層的符号化方式を提案する。 提案手法では,畳み込みニューラルネットワークを用いて異なる走査順序に最適化した光フィールドビューサブセットの乗算層を同定する。 提案手法は,異なる走査パターンのサブセットから得られた乗法層内の隠れた低ランク構造を利用する。 乗算層における空間冗長性は、クリロフ部分空間上の異なる階数で低ランク近似を行うことで効率的に除去することができる。 HEVC符号化により、近似層間のビュー内およびビュー間冗長性をさらに除去する。 次に、選択された階層順に基づいて近似光場の第1の部分集合からフーリエ異性層表現を構築する。 その後のビューサブセットは、精度を向上して表現を反復的に洗練するフーリエ差分層をモデル化することによって合成される。 提案手法の重要な利点は,光場における空間的および時間的冗長性だけでなく,近接するサブアパーチャ画像間の固有類似性を,予測順序の異なる水平方向と垂直方向の両方において効率的に利用することである。 さらに、このスキームは単一の統合システム内のデコーダで複数のビットレートの範囲を実現するのに柔軟である。 提案手法の圧縮性能は実光場上で解析される。 我々はかなりのビットレートの節約を達成し,良好な光電界再構成品質を維持した。

This paper presents a novel hierarchical coding scheme for light fields based on transmittance patterns of low-rank multiplicative layers and Fourier disparity layers. The proposed scheme identifies multiplicative layers of light field view subsets optimized using a convolutional neural network for different scanning orders. Our approach exploits the hidden low-rank structure in the multiplicative layers obtained from the subsets of different scanning patterns. The spatial redundancies in the multiplicative layers can be efficiently removed by performing low-rank approximation at different ranks on the Krylov subspace. The intra-view and inter-view redundancies between approximated layers are further removed by HEVC encoding. Next, a Fourier disparity layer representation is constructed from the first subset of the approximated light field based on the chosen hierarchical order. Subsequent view subsets are synthesized by modeling the Fourier disparity layers that iteratively refine the representation with improved accuracy. The critical advantage of the proposed hybrid layered representation and coding scheme is that it utilizes not just spatial and temporal redundancies in light fields but efficiently exploits intrinsic similarities among neighboring sub-aperture images in both horizontal and vertical directions as specified by different predication orders. In addition, the scheme is flexible to realize a range of multiple bitrates at the decoder within a single integrated system. The compression performance of the proposed scheme is analyzed on real light fields. We achieved substantial bitrate savings and maintained good light field reconstruction quality.
翻訳日:2021-08-30 14:05:32 公開日:2021-08-27
# マスク型音声強調におけるタスク認識のワープ要因

Task-aware Warping Factors in Mask-based Speech Enhancement ( http://arxiv.org/abs/2108.12128v1 )

ライセンス: Link先を確認
Qiongqiong Wang, Kong Aik Lee, Takafumi Koshinaka, Koji Okabe, Hitoshi Yamamoto(参考訳) 本稿では,マスクベース音声強調(SE)における2つのタスク認識ワープ要素の利用を提案する。 1つは、トレーニングフェーズにおける音声保守とノイズ除去のバランスを制御し、もう1つはテストフェーズにおける特定の下流タスクに適用されるse電力を制御する。 我々の意図は、SEシステムが音声品質を改善するために訓練された問題は、同じオブジェクトを共有しないため、自動話者検証(ASV)や自動音声認識(ASR)など、他の下流タスクの改善に失敗することが多いことである。 提案手法を任意のマスクベースのse法に適用することは容易であり、単一のseシステムがタスクに依存しないトレーニングなしで複数のタスクを処理できる。 提案手法の有効性は,ASV評価のためのSITWデータセットとASRのためのLibriSpeechデータセット,および0-20dBの音声品質評価において確認されている。 一つのseが最適な性能を達成するためには、異なる反り値が必要であることを示す。 3つのタスク。 タスク依存のワープ要因を用いることで、音声品質は84.7%向上し、ASVは22.4%削減、ASRは52.2%低下した。 また, ASV用VoxCeleb-1テストセットと, ASV用LibriSpeech開発クリーンセットと品質評価用VoxCeleb-1テストセットに対して, タスク依存のワープ係数の有効性をクロスバリデーションした。 提案手法は極めて有効であり,実用化が容易である。

This paper proposes the use of two task-aware warping factors in mask-based speech enhancement (SE). One controls the balance between speech-maintenance and noise-removal in training phases, while the other controls SE power applied to specific downstream tasks in testing phases. Our intention is to alleviate the problem that SE systems trained to improve speech quality often fail to improve other downstream tasks, such as automatic speaker verification (ASV) and automatic speech recognition (ASR), because they do not share the same objects. It is easy to apply the proposed dual-warping factors approach to any mask-based SE method, and it allows a single SE system to handle multiple tasks without task-dependent training. The effectiveness of our proposed approach has been confirmed on the SITW dataset for ASV evaluation and the LibriSpeech dataset for ASR and speech quality evaluations of 0-20dB. We show that different warping values are necessary for a single SE to achieve optimal performance w.r.t. the three tasks. With the use of task-dependent warping factors, speech quality was improved by an 84.7% PESQ increase, ASV had a 22.4% EER reduction, and ASR had a 52.2% WER reduction, on 0dB speech. The effectiveness of the task-dependent warping factors were also cross-validated on VoxCeleb-1 test set for ASV and LibriSpeech dev-clean set for ASV and quality evaluations. The proposed method is highly effective and easy to apply in practice.
翻訳日:2021-08-30 14:05:10 公開日:2021-08-27
# 大規模オンラインサービスシステムのためのグラフに基づくインシデント集約

Graph-based Incident Aggregation for Large-Scale Online Service Systems ( http://arxiv.org/abs/2108.12179v1 )

ライセンス: Link先を確認
Zhuangbin Chen, Jinyang Liu, Yuxin Su, Hongyu Zhang, Xuemin Wen, Xiao Ling, Yongqiang Yang, Michael R. Lyu(参考訳) オンラインサービスシステムが複雑さとボリュームの面で成長を続けるにつれ、サービスインシデントの管理方法が企業の収益とユーザ信頼に大きく影響します。 カスケード効果のため、クラウド障害は、依存サービスやデバイスからの圧倒的なインシデントが発生することが多い。 効率的なインシデント管理を追求するためには、関連するインシデントを迅速に集約して問題の範囲を狭める必要がある。 本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。 表現ベクトルは、インシデント間のトポロジ的および時間的相関を同時に符号化することができる、教師なしかつ統一された方法で各インシデントに対して学習される。 これにより、オンラインインシデント集約に容易に利用することができる。 特に、相関関係をより正確に学習するために、きめ細かいシステム監視データ、すなわちキーパフォーマンス指標(KPI)を活用して、障害のカスケード影響の完全な範囲を回復しようと試みる。 提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。 実験の結果,GRLIAは有効であり,既存手法よりも優れていた。 さらに,我々のフレームワークは工業的実践に成功している。

As online service systems continue to grow in terms of complexity and volume, how service incidents are managed will significantly impact company revenue and user trust. Due to the cascading effect, cloud failures often come with an overwhelming number of incidents from dependent services and devices. To pursue efficient incident management, related incidents should be quickly aggregated to narrow down the problem scope. To this end, in this paper, we propose GRLIA, an incident aggregation framework based on graph representation learning over the cascading graph of cloud failures. A representation vector is learned for each unique type of incident in an unsupervised and unified manner, which is able to simultaneously encode the topological and temporal correlations among incidents. Thus, it can be easily employed for online incident aggregation. In particular, to learn the correlations more accurately, we try to recover the complete scope of failures' cascading impact by leveraging fine-grained system monitoring data, i.e., Key Performance Indicators (KPIs). The proposed framework is evaluated with real-world incident data collected from a large-scale online service system of Huawei Cloud. The experimental results demonstrate that GRLIA is effective and outperforms existing methods. Furthermore, our framework has been successfully deployed in industrial practice.
翻訳日:2021-08-30 14:04:15 公開日:2021-08-27
# 人間対機械:オートMLと人間専門家のフィッシング検出における役割

Man versus Machine: AutoML and Human Experts' Role in Phishing Detection ( http://arxiv.org/abs/2108.12193v1 )

ライセンス: Link先を確認
Rizka Purwanto, Arindam Pal, Alan Blair, Sanjay Jha(参考訳) 機械学習(ML)はここ数年で急速に発展し、フィッシング検出など幅広いタスクに利用されてきた。 しかし、効果的なMLベースの検出システムを構築することは簡単な作業ではなく、関連するドメインに関する知識を持つデータサイエンティストを必要とする。 近年、Automated Machine Learning (AutoML)フレームワークは注目を集めており、機械学習モデルを構築する上で、非MLの専門家が利用できるようになっている。 これは、automlが人間のデータサイエンティストが達成した結果を上回ることができるかどうかという興味深い疑問をもたらす。 本稿では,10種類のフィッシングデータセットにおける6つの最先端オートmlフレームワークのパフォーマンスを比較し,自動mlベースのモデルが手作業による機械学習モデルを上回るかどうかを検証した。 以上の結果から,automlベースのモデルは,複雑な分類タスクにおいて,特に特徴が判別的でないデータセットや重複したクラスや相対的に高次な非線形性を持つデータセットにおいて,手作業で開発した機械学習モデルよりも優れることが示された。 また、教師付き分類問題のみをサポートしているため、ラベル付きデータの必要性、AutoMLベースのモデルを漸進的に更新できないため、AutoMLフレームワークを使用した実際のフィッシング検出システムの構築にも課題が残っている。 これは、フィッシング検出パイプラインのループにおいて、フィッシングとサイバーセキュリティに関する知識を持つ専門家が依然として不可欠であることを示している。

Machine learning (ML) has developed rapidly in the past few years and has successfully been utilized for a broad range of tasks, including phishing detection. However, building an effective ML-based detection system is not a trivial task, and requires data scientists with knowledge of the relevant domain. Automated Machine Learning (AutoML) frameworks have received a lot of attention in recent years, enabling non-ML experts in building a machine learning model. This brings to an intriguing question of whether AutoML can outperform the results achieved by human data scientists. Our paper compares the performances of six well-known, state-of-the-art AutoML frameworks on ten different phishing datasets to see whether AutoML-based models can outperform manually crafted machine learning models. Our results indicate that AutoML-based models are able to outperform manually developed machine learning models in complex classification tasks, specifically in datasets where the features are not quite discriminative, and datasets with overlapping classes or relatively high degrees of non-linearity. Challenges also remain in building a real-world phishing detection system using AutoML frameworks due to the current support only on supervised classification problems, leading to the need for labeled data, and the inability to update the AutoML-based models incrementally. This indicates that experts with knowledge in the domain of phishing and cybersecurity are still essential in the loop of the phishing detection pipeline.
翻訳日:2021-08-30 14:03:55 公開日:2021-08-27
# enel: グラフ伝搬を用いた分散データフロージョブのコンテキスト対応動的スケーリング

Enel: Context-Aware Dynamic Scaling of Distributed Dataflow Jobs using Graph Propagation ( http://arxiv.org/abs/2108.12211v1 )

ライセンス: Link先を確認
Dominik Scheinert, Houkun Zhu, Lauritz Thamsen, Morgan K. Geldenhuys, Jonathan Will, Alexander Acker, Odej Kao(参考訳) SparkやFlinkといった分散データフローシステムは、スケーラブルなデータ分析にクラスタを使用することができる。 実行時予測モデルは、最初に指定された適切なクラスタリソースを選択するために使用できるが、データフロージョブの実際の実行時パフォーマンスは、いくつかの要因に依存し、時間とともに変化する。 しかし、多くの状況において、動的スケーリングは、大きなパフォーマンスのばらつきにもかかわらず、定式化されたランタイムターゲットを満たすために使用できる。 本稿では,データフロージョブをモデル化するために属性グラフ上でメッセージの伝搬を利用して,効率的な再スケーリング決定の導出を可能にする,新しい動的スケーリング手法であるEnelを提案する。 このために、enelは各実行コンテキストをキャプチャする記述的プロパティを取り入れ、個々のデータフロータスクからの統計を考慮し、ジョブグラフを通じて予測を伝搬し、最終的に最適化された新しいスケールアウトを見つける。 4つの反復的なsparkジョブによるenelの評価からは、効果的なリスケーリングアクションを特定し、例えばノード障害に反応し、さまざまな実行コンテキストで再利用することが可能であることが分かりました。

Distributed dataflow systems like Spark and Flink enable the use of clusters for scalable data analytics. While runtime prediction models can be used to initially select appropriate cluster resources given target runtimes, the actual runtime performance of dataflow jobs depends on several factors and varies over time. Yet, in many situations, dynamic scaling can be used to meet formulated runtime targets despite significant performance variance. This paper presents Enel, a novel dynamic scaling approach that uses message propagation on an attributed graph to model dataflow jobs and, thus, allows for deriving effective rescaling decisions. For this, Enel incorporates descriptive properties that capture the respective execution context, considers statistics from individual dataflow tasks, and propagates predictions through the job graph to eventually find an optimized new scale-out. Our evaluation of Enel with four iterative Spark jobs shows that our approach is able to identify effective rescaling actions, reacting for instance to node failures, and can be reused across different execution contexts.
翻訳日:2021-08-30 14:03:31 公開日:2021-08-27
# 信号処理と機械学習における再現可能な研究ガイド

A Guide to Reproducible Research in Signal Processing and Machine Learning ( http://arxiv.org/abs/2108.12383v1 )

ライセンス: Link先を確認
Joseph Shenouda and Waheed U. Bajwa(参考訳) 再現性は、計算研究者と信号処理と機械学習研究コミュニティの間で広く研究されている、増大する問題である。 しかし、信号処理と機械学習の研究の状況が変化し、再現可能な実験を作成する上で新たな障害と目に見えない課題が生まれる。 これらの新たな課題により、ほとんどの実験は、不可能ではないにせよ、独立した研究者によって再現されることが困難になっている。 2016年にNature誌が行った調査によると、研究者の50%が自身の実験を再現できなかった。 再現性に関する問題は文献、特にシグナル処理コミュニティ内で議論されているが、ほとんどの研究者にとって、研究の第一の責任を伴わずに再現性を確保するためのベストプラクティスは、いまだに不明である。 研究者は実験を再現可能であることの重要性を理解しているが、明確な標準とツールが欠如しているため、ほとんどの研究室で優れた再現性プラクティスを組み込むことは困難であると感じている。 我々は,信号処理研究者に対して,再現可能な計算実験を行う上で,多くの障害を軽減するための実用的なツールと戦略を提示することを目的としている。

Reproducibility is a growing problem that has been extensively studied among computational researchers and within the signal processing and machine learning research community. However, with the changing landscape of signal processing and machine learning research come new obstacles and unseen challenges in creating reproducible experiments. Due to these new challenges most experiments have become difficult, if not impossible, to be reproduced by an independent researcher. In 2016 a survey conducted by the journal Nature found that 50% of researchers were unable to reproduce their own experiments. While the issue of reproducibility has been discussed in the literature and specifically within the signal processing community, it is still unclear to most researchers what are the best practices to ensure reproducibility without impinging on their primary responsibility of conducting research. We feel that although researchers understand the importance of making experiments reproducible, the lack of a clear set of standards and tools makes it difficult to incorporate good reproducibility practices in most labs. It is in this regard that we aim to present signal processing researchers with a set of practical tools and strategies that can help mitigate many of the obstacles to producing reproducible computational experiments.
翻訳日:2021-08-30 14:02:56 公開日:2021-08-27
# SynthIA: SDOとHinodeを仮想観測器に融合したストークスベクトルの合成逆近似

SynthIA: A Synthetic Inversion Approximation for the Stokes Vector Fusing SDO and Hinode into a Virtual Observatory ( http://arxiv.org/abs/2108.12421v1 )

ライセンス: Link先を確認
Richard E.L. Higgins, David F. Fouhey, Spiro K. Antiochos, Graham Barnes, Mark C.M. Cheung, J. Todd Hoeksema, KD Leka, Yang Liu, Peter W. Schuck, Tamas I. Gombosi(参考訳) NASAのSolar Dynamics Observatory(SDO)とJAXA/NASAのHinodeミッションには、光球磁場を測定するために設計された分光偏光計がある。 SDOのHelioseismic and Magnetic Imager (HMI) はフルディスクの高ケイデンスと良好な空間分解能データ取得を強調し、HinodeのSolar Optical Telescope Spectro-Polarimeter (SOT-SP) は、視野の制限と時間周期の遅いコストで高空間分解能とスペクトルサンプリングに焦点を当てている。 この研究はSynthIA(Synthetic Inversion Approximation)と呼ばれるディープラーニングシステムを導入し、それぞれの楽器の特徴を最大限に捉え、両方のミッションを強化する。 我々は、SynthIAを用いて、高スペクトル分解能Hinode/SOT-SPパイプラインからの磁気グラムを模倣する新しい磁気グラムデータ製品SynodeP(Synthetic Hinode Pipeline)を作成し、フルディスク、高ケイデンス、低スペクトル分解能SDO/HMIストークス観測から導出する。 ホールドアウトデータの結果、SynodePは現在のSDO/HMIパイプラインでは提供されていない磁気充填率を含むHinode/SOT-SPパイプラインインバージョンと良好な一致を示した。 SynodePはさらに、SDO/HMIデータに存在する24時間振動の大きさを減少させる。 SynthIAの一般性を示すために、HMIデータのSDO/AIAデータとサブセットを入力として使用し、Hinode/SOT-SPインバージョンと観測回数、時間的アーティファクトとのトレードオフを可能にする。 シンシアの一般化の可能性とその宇宙気象モデルへの応用について考察する。 この研究は、ミシガン大学のNASA Heliophysics DRIVE Science Center(SOLSTICE)の一部で、NASA 80NSSC20K0600Eを認可し、オープンソース化される。

Both NASA's Solar Dynamics Observatory (SDO) and the JAXA/NASA Hinode mission include spectropolarimetric instruments designed to measure the photospheric magnetic field. SDO's Helioseismic and Magnetic Imager (HMI) emphasizes full-disk high-cadence and good spatial resolution data acquisition while Hinode's Solar Optical Telescope Spectro-Polarimeter (SOT-SP) focuses on high spatial resolution and spectral sampling at the cost of a limited field of view and slower temporal cadence. This work introduces a deep-learning system named SynthIA (Synthetic Inversion Approximation), that can enhance both missions by capturing the best of each instrument's characteristics. We use SynthIA to produce a new magnetogram data product, SynodeP (Synthetic Hinode Pipeline), that mimics magnetograms from the higher spectral resolution Hinode/SOT-SP pipeline, but is derived from full-disk, high-cadence, and lower spectral-resolution SDO/HMI Stokes observations. Results on held-out data show that SynodeP has good agreement with the Hinode/SOT-SP pipeline inversions, including magnetic fill fraction, which is not provided by the current SDO/HMI pipeline. SynodeP further shows a reduction in the magnitude of the 24-hour oscillations present in the SDO/HMI data. To demonstrate SynthIA's generality, we show the use of SDO/AIA data and subsets of the HMI data as inputs, which enables trade-offs between fidelity to the Hinode/SOT-SP inversions, number of observations used, and temporal artifacts. We discuss possible generalizations of SynthIA and its implications for space weather modeling. This work is part of the NASA Heliophysics DRIVE Science Center (SOLSTICE) at the University of Michigan under grant NASA 80NSSC20K0600E, and will be open-sourced.
翻訳日:2021-08-30 14:02:38 公開日:2021-08-27
# バッファ状態情報を用いた無線リソース割り当てのための深層強化学習

Deep Reinforcement Learning for Wireless Resource Allocation Using Buffer State Information ( http://arxiv.org/abs/2108.12198v1 )

ライセンス: Link先を確認
Eike-Manuel Bansbach, Victor Eliachevitch, Laurent Schmalen(参考訳) 無線ネットワークにおいて,データレートや遅延要件の異なるユーザ機器(UE)の数が増加するにつれて,直交周波数分割多重アクセス(OFDMA)のリソース割り当ての問題が表面化している。 特に、UE間の公平性を保ちながらシステムデータレートを最大化する際、様々な要件が非凸最適化問題を引き起こす。 本稿では,深部強化学習(DRL)を用いた非凸最適化問題を解く。 ダウンリンクOFDMAシナリオに対してメディアアクセス制御スケジューリングを行うDRLエージェントの概要,訓練,評価を行う。 エージェントのトレーニングを開始するために,模倣学習を導入する。 スケジューリング性能向上のため、基地局におけるフルバッファ状態情報(例えば、) パケット年齢、パケットサイズ)が考慮される。 入力特徴圧縮、パケットシャッフル、エイジキャップなどの技術はエージェントの性能をさらに向上させる。 我々はNokiaの無線スイートを使用してエージェントをトレーニングし、評価し、異なるベンチマークエージェントに対して評価する。 私たちのエージェントはベンチマークエージェントよりも明らかに優れています。

As the number of user equipments (UEs) with various data rate and latency requirements increases in wireless networks, the resource allocation problem for orthogonal frequency-division multiple access (OFDMA) becomes challenging. In particular, varying requirements lead to a non-convex optimization problem when maximizing the systems data rate while preserving fairness between UEs. In this paper, we solve the non-convex optimization problem using deep reinforcement learning (DRL). We outline, train and evaluate a DRL agent, which performs the task of media access control scheduling for a downlink OFDMA scenario. To kickstart training of our agent, we introduce mimicking learning. For improvement of scheduling performance, full buffer state information at the base station (e.g. packet age, packet size) is taken into account. Techniques like input feature compression, packet shuffling and age capping further improve the performance of the agent. We train and evaluate our agents using Nokia's wireless suite and evaluate against different benchmark agents. We show that our agents clearly outperform the benchmark agents.
翻訳日:2021-08-30 14:00:57 公開日:2021-08-27
# 空間信号のための多重仮説テストフレームワーク

Multiple Hypothesis Testing Framework for Spatial Signals ( http://arxiv.org/abs/2108.12314v1 )

ライセンス: Link先を確認
Martin G\"olz and Abdelhak M. Zoubir and Visa Koivunen(参考訳) 空間的に興味深い、異なる、または逆向きの行動の領域を特定する問題は、分散マルチセンサーシステムを含む多くの実用的な応用に固有のものである。 本研究では,複数の仮説テストから派生した一般フレームワークを開発し,そのような領域を同定する。 監視環境に対して離散空間格子を仮定する。 予め特定されたレベルで偽発見率を制御しながら、異なる仮説に関連する空間格子点を同定する。 測定は大規模センサネットワークを用いて行われる。 本稿では,モーメントのスペクトル法に基づいて局所的な偽発見率を推定する新しいデータ駆動手法を提案する。 本手法は基礎となる物理現象の特定の空間伝播モデルと無関係である。 これは局所的な要約統計に広く適用可能な密度モデルに依存している。 センサー間では、位置は補間された局所的な偽発見率に基づいて異なる仮説に関連する領域に割り当てられる。 本手法の利点は,電波の空間伝播への応用によって示される。

The problem of identifying regions of spatially interesting, different or adversarial behavior is inherent to many practical applications involving distributed multisensor systems. In this work, we develop a general framework stemming from multiple hypothesis testing to identify such regions. A discrete spatial grid is assumed for the monitored environment. The spatial grid points associated with different hypotheses are identified while controlling the false discovery rate at a pre-specified level. Measurements are acquired using a large-scale sensor network. We propose a novel, data-driven method to estimate local false discovery rates based on the spectral method of moments. Our method is agnostic to specific spatial propagation models of the underlying physical phenomenon. It relies on a broadly applicable density model for local summary statistics. In between sensors, locations are assigned to regions associated with different hypotheses based on interpolated local false discovery rates. The benefits of our method are illustrated by applications to spatially propagating radio waves.
翻訳日:2021-08-30 14:00:42 公開日:2021-08-27
# fast-pca:分散主成分分析のための高速高精度アルゴリズム

FAST-PCA: A Fast and Exact Algorithm for Distributed Principal Component Analysis ( http://arxiv.org/abs/2108.12373v1 )

ライセンス: Link先を確認
Arpita Gang and Waheed U. Bajwa(参考訳) 主成分分析(PCA)は、機械学習の世界における基本的なデータ前処理ツールである。 PCAは次元還元に還元されることが多いが、PCAの目的は実際には2倍の次元還元と特徴学習である。 さらに、現代のデータセットの次元とサンプルサイズは、集中型PCAソリューションを使用不能にしている。 そこで本研究では,データサンプルを任意接続ネットワーク内のノードに分散する場合に,pcaの問題を再検討する。 分散PCAのいくつかのソリューションは、目的の機能学習部分を見落としているか、通信オーバーヘッドによって効率が悪く、正確な収束保証が欠如している。 本稿では,FAST-PCA (Fast and exAct diSTributed PCA) と呼ばれる分散PCAアルゴリズムを提案する。 提案アルゴリズムは通信の点で効率的であり,次元の減少につながる主成分や非相関な特徴に線形かつ正確に収束することが証明できる。 我々の主張は実験結果によってさらに裏付けられている。

Principal Component Analysis (PCA) is a fundamental data preprocessing tool in the world of machine learning. While PCA is often reduced to dimension reduction, the purpose of PCA is actually two-fold: dimension reduction and feature learning. Furthermore, the enormity of the dimensions and sample size in the modern day datasets have rendered the centralized PCA solutions unusable. In that vein, this paper reconsiders the problem of PCA when data samples are distributed across nodes in an arbitrarily connected network. While a few solutions for distributed PCA exist those either overlook the feature learning part of the purpose, have communication overhead making them inefficient and/or lack exact convergence guarantees. To combat these aforementioned issues, this paper proposes a distributed PCA algorithm called FAST-PCA (Fast and exAct diSTributed PCA). The proposed algorithm is efficient in terms of communication and can be proved to converge linearly and exactly to the principal components that lead to dimension reduction as well as uncorrelated features. Our claims are further supported by experimental results.
翻訳日:2021-08-30 14:00:31 公開日:2021-08-27
# 量子サブガウス平均推定器

Quantum Sub-Gaussian Mean Estimator ( http://arxiv.org/abs/2108.12172v1 )

ライセンス: Link先を確認
Yassine Hamoudi(参考訳) 本稿では,量子計算の出力として得られる実数値確率変数の平均を推定する新しい量子アルゴリズムを提案する。 我々の推定器は、古典i.i.d.の数よりも、ほぼ最適の二次速度を達成する。 準ガウス誤差率で重み付き分布の平均を推定するために必要なサンプル。 この結果は、重み付け分布 [BHMT02,BDGT11] に最適でない平均推定問題や、分散 [Hein02,Mon15,HM19] に関する事前情報を必要とする(対数因子まで)初期の研究である。 応用として,入力確率変数の変動係数に最適依存した$(\epsilon,\delta)$近似問題に対する新しい量子アルゴリズムを求める。

We present a new quantum algorithm for estimating the mean of a real-valued random variable obtained as the output of a quantum computation. Our estimator achieves a nearly-optimal quadratic speedup over the number of classical i.i.d. samples needed to estimate the mean of a heavy-tailed distribution with a sub-Gaussian error rate. This result subsumes (up to logarithmic factors) earlier works on the mean estimation problem that were not optimal for heavy-tailed distributions [BHMT02,BDGT11], or that require prior information on the variance [Hein02,Mon15,HM19]. As an application, we obtain new quantum algorithms for the $(\epsilon,\delta)$- approximation problem with an optimal dependence on the coefficient of variation of the input random variable.
翻訳日:2021-08-30 14:00:15 公開日:2021-08-27
# (参考訳) YOLOP:パンオプティカル・ドライビング・パーセプションで一度だけ見る [全文訳有]

YOLOP: You Only Look Once for Panoptic Driving Perception ( http://arxiv.org/abs/2108.11250v3 )

ライセンス: CC BY 4.0
Dong Wu, Manwen Liao, Weitian Zhang, Xinggang Wang(参考訳) パノプティクス駆動認識システムは、自律運転の重要な部分である。 高精度かつリアルタイムな知覚システムは、運転中に合理的な判断を行うことで車両を補助することができる。 本稿では,交通物体検出,乾燥領域分割,車線検出を同時に行うパノプティカル駆動認識ネットワーク(YOLOP)を提案する。 特徴抽出のための1つのエンコーダと、特定のタスクを処理する3つのデコーダで構成されている。 私たちのモデルは、BDD100Kデータセットで非常によく機能し、正確性とスピードの観点から、3つのタスクすべてで最先端の処理を実現しています。 また,複合学習におけるマルチタスク学習モデルの有効性を,アブレイティブスタディを通して検証する。 私たちの知る限りでは、この3つの視覚知覚タスクをjetson tx2(23 fps)組み込みデバイス上でリアルタイムに処理し、優れた精度を維持することができる最初の作業です。 さらなる研究を容易にするため、ソースコードと事前訓練されたモデルはhttps://github.com/h ustvl/YOLOP.comでリリースされる。

A panoptic driving perception system is an essential part of autonomous driving. A high-precision and real-time perception system can assist the vehicle in making the reasonable decision while driving. We present a panoptic driving perception network (YOLOP) to perform traffic object detection, drivable area segmentation and lane detection simultaneously. It is composed of one encoder for feature extraction and three decoders to handle the specific tasks. Our model performs extremely well on the challenging BDD100K dataset, achieving state-of-the-art on all three tasks in terms of accuracy and speed. Besides, we verify the effectiveness of our multi-task learning model for joint training via ablative studies. To our best knowledge, this is the first work that can process these three visual perception tasks simultaneously in real-time on an embedded device Jetson TX2(23 FPS) and maintain excellent accuracy. To facilitate further research, the source codes and pre-trained models will be released at https://github.com/h ustvl/YOLOP.
翻訳日:2021-08-30 11:55:54 公開日:2021-08-27
# (参考訳) 時空間表現学習のためのシフトチャンクトランス [全文訳有]

Shifted Chunk Transformer for Spatio-Temporal Representational Learning ( http://arxiv.org/abs/2108.11575v2 )

ライセンス: CC BY-SA 4.0
Xuefan Zha, Wentao Zhu, Tingxun Lv, Sen Yang, Ji Liu(参考訳) 時空間表現学習は、アクション認識、ビデオオブジェクトセグメンテーション、アクション予測など様々な分野で広く採用されている。 従来の時空間表現学習アプローチでは、主にフレーム内およびフレーム間の特徴を学ぶためにConvNetまたはLSTMのようなシーケンシャルモデルを用いていた。 近年,自然言語処理(nlp)や画像分類などの研究においてトランスフォーマモデルが優勢となっている。 しかし、Pure-Transformerベースの時空間学習は、小さなパッチからきめ細かい特徴を抽出するために、メモリと計算に不当にコストがかかる可能性がある。 トレーニングの難易度に取り組み,時空間学習の強化を図るため,純粋自己着脱ブロックを有するシフトチャンクトランスを構築した。 最近のNLPにおける効率的なTransformer設計を活用して、このシフトチャンクTransformerは、局所的な小さなパッチからグローバルなビデオクリップまで、階層的な時空間的特徴を学習することができる。 移動自着は複雑なフレーム間分散を効果的にモデル化することができる。 さらに,Transformerに基づくクリップエンコーダを構築し,長期の時間依存性をモデル化する。 シフトチャンク変換器における各成分およびハイパーパラメータの精度を評価するための徹底的なアブレーション研究を行い、Kinetics-400, Kinetics-600, UCF101, HMDB51における従来の最先端手法よりも優れていた。 コードとトレーニングされたモデルがリリースされる。

Spatio-temporal representational learning has been widely adopted in various fields such as action recognition, video object segmentation, and action anticipation. Previous spatio-temporal representational learning approaches primarily employ ConvNets or sequential models,e.g., LSTM, to learn the intra-frame and inter-frame features. Recently, Transformer models have successfully dominated the study of natural language processing (NLP), image classification, etc. However, the pure-Transformer based spatio-temporal learning can be prohibitively costly on memory and computation to extract fine-grained features from a tiny patch. To tackle the training difficulty and enhance the spatio-temporal learning, we construct a shifted chunk Transformer with pure self-attention blocks. Leveraging the recent efficient Transformer design in NLP, this shifted chunk Transformer can learn hierarchical spatio-temporal features from a local tiny patch to a global video clip. Our shifted self-attention can also effectively model complicated inter-frame variances. Furthermore, we build a clip encoder based on Transformer to model long-term temporal dependencies. We conduct thorough ablation studies to validate each component and hyper-parameters in our shifted chunk Transformer, and it outperforms previous state-of-the-art approaches on Kinetics-400, Kinetics-600, UCF101, and HMDB51. Code and trained models will be released.
翻訳日:2021-08-30 11:42:09 公開日:2021-08-27
# LayoutReader: 読み出し順序検出のためのテキストとレイアウトの事前トレーニング

LayoutReader: Pre-training of Text and Layout for Reading Order Detection ( http://arxiv.org/abs/2108.11591v2 )

ライセンス: Link先を確認
Zilong Wang, Yiheng Xu, Lei Cui, Jingbo Shang, Furu Wei(参考訳) 読み出し順序検出は、視覚的にリッチな文書(レシートやフォームなど)を理解するための基盤となる。 残念ながら、大規模なデータセットをアノテートするには労力がかかりすぎるため、高度なディープラーニングモデルを活用する既存の作業はありませんでした。 WORD文書の読み込み順序はXMLメタデータに埋め込まれているのに対し、WORD文書をPDFや画像に変換するのは容易である。 そこで我々は,様々な文書タイプをカバーする50万の文書画像に対して,読み出し順序,テキスト,レイアウト情報を含むベンチマークデータセットであるreadingbankを構築した。 この最初の大規模データセットは、読み出し順序検出のためのディープニューラルネットワークの力を解き放つ。 特に,提案するLayoutReaderは,セック2seqモデルを用いて,読み出し順序予測のためのテキストとレイアウト情報をキャプチャする。 読み出し順序検出においてほぼ完全に動作し,実験結果のテキスト行の順序付けにおいて,オープンソースのOCRエンジンと商用OCRエンジンの両方を大幅に改善する。 データセットとモデルは \url{https://aka.ms/layou treader} でリリースします。

Reading order detection is the cornerstone to understanding visually-rich documents (e.g., receipts and forms). Unfortunately, no existing work took advantage of advanced deep learning models because it is too laborious to annotate a large enough dataset. We observe that the reading order of WORD documents is embedded in their XML metadata; meanwhile, it is easy to convert WORD documents to PDFs or images. Therefore, in an automated manner, we construct ReadingBank, a benchmark dataset that contains reading order, text, and layout information for 500,000 document images covering a wide spectrum of document types. This first-ever large-scale dataset unleashes the power of deep neural networks for reading order detection. Specifically, our proposed LayoutReader captures the text and layout information for reading order prediction using the seq2seq model. It performs almost perfectly in reading order detection and significantly improves both open-source and commercial OCR engines in ordering text lines in their results in our experiments. We will release the dataset and model at \url{https://aka.ms/layou treader}.
翻訳日:2021-08-30 11:22:56 公開日:2021-08-27
# 名前付きエンティティ認識におけるラベル付きエンティティ問題に対する否定サンプリングの再考

Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition ( http://arxiv.org/abs/2108.11607v2 )

ライセンス: Link先を確認
Yangming Li, Lemao Liu, Shuming Shi(参考訳) 多くの状況(例えば遠隔監視)において、ラベルなしのエンティティ問題は名前付きエンティティ認識(NER)モデルの性能を著しく低下させる。 近年, 負のサンプリングに基づく顕著なアプローチによってこの問題に対処されている。 本研究では,この方向で2つの研究を行う。 まず、なぜ負のサンプリングが理論的にも経験的にも成功するのかを分析する。 名前付きエンティティはデータセットにおいて非常に疎いという観測に基づいて、長い文において、サンプル負にラベルのないエンティティを含まない確率が高いという理論的保証を示す。 合成データセットのミスサンプリングテストは、実際に保証を検証しました。 第二に、ハードネガティブをマイニングし、さらにミスアンプ率を下げるために、負サンプリングのための重み付き適応サンプリング分布を提案する。 合成データセットと注釈付きデータセットの実験により,ロバスト性および有効性において負のサンプリングを著しく改善することが示された。 私たちはまた、現実世界のデータセットで新たな最先端の結果を得ました。

In many situations (e.g., distant supervision), unlabeled entity problem seriously degrades the performances of named entity recognition (NER) models. Recently, this issue has been well addressed by a notable approach based on negative sampling. In this work, we perform two studies along this direction. Firstly, we analyze why negative sampling succeeds both theoretically and empirically. Based on the observation that named entities are highly sparse in datasets, we show a theoretical guarantee that, for a long sentence, the probability of containing no unlabeled entities in sampled negatives is high. Missampling tests on synthetic datasets have verified our guarantee in practice. Secondly, to mine hard negatives and further reduce missampling rates, we propose a weighted and adaptive sampling distribution for negative sampling. Experiments on synthetic datasets and well-annotated datasets show that our method significantly improves negative sampling in robustness and effectiveness. We also have achieved new state-of-the-art results on real-world datasets.
翻訳日:2021-08-30 11:22:40 公開日:2021-08-27
# 単一ドメインの一般化のための多様性の学習

Learning to Diversify for Single Domain Generalization ( http://arxiv.org/abs/2108.11726v2 )

ライセンス: Link先を確認
Zijian Wang, Yadan Luo, Ruihong Qiu, Zi Huang, Mahsa Baktashmotlagh(参考訳) ドメイン一般化(DG)は、複数のソース(トレーニング)ドメインで訓練されたモデルを、分散的に異なるターゲット(テスト)ドメインに一般化することを目的としている。 本稿では、複数のソースドメインの可用性を厳密に要求する従来のDGとは対照的に、より現実的で困難なシナリオである単一ドメイン一般化(Single-DG)について考察する。 このシナリオでは、限られた多様性は、目に見えないターゲット領域上のモデルの一般化を阻害する可能性がある。 この問題に対処するため,本稿では,原点と相補的な多様な分布の画像を合成することにより,モデルの一般化能力を高めるためのスタイル補完モジュールを提案する。 より具体的には、生成したサンプルとソースの相互情報(MI)のトラクタブルな上限を適用して、2段階の最適化を反復的に実施する。(1) サンプルペアごとにMI上限近似を最小化することにより、生成した画像はソースサンプルから多様化せざるを得なくなり、(2) 同一セマンティックカテゴリのサンプル間でMIを最大化し、ネットワークが多様なスタイルの画像から識別的特徴を学習するのに役立つ。 3つのベンチマークデータセットに対する大規模な実験は、最先端のシングルDGメソッドを最大25.14%上回るアプローチの優位性を示している。

Domain generalization (DG) aims to generalize a model trained on multiple source (i.e., training) domains to a distributionally different target (i.e., test) domain. In contrast to the conventional DG that strictly requires the availability of multiple source domains, this paper considers a more realistic yet challenging scenario, namely Single Domain Generalization (Single-DG), where only one source domain is available for training. In this scenario, the limited diversity may jeopardize the model generalization on unseen target domains. To tackle this problem, we propose a style-complement module to enhance the generalization power of the model by synthesizing images from diverse distributions that are complementary to the source ones. More specifically, we adopt a tractable upper bound of mutual information (MI) between the generated and source samples and perform a two-step optimization iteratively: (1) by minimizing the MI upper bound approximation for each sample pair, the generated images are forced to be diversified from the source samples; (2) subsequently, we maximize the MI between the samples from the same semantic category, which assists the network to learn discriminative features from diverse-styled images. Extensive experiments on three benchmark datasets demonstrate the superiority of our approach, which surpasses the state-of-the-art single-DG methods by up to 25.14%.
翻訳日:2021-08-30 11:22:25 公開日:2021-08-27