このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210901となっている論文です。

PDF登録状況(公開日: 20210901)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 線形競合ユニットを持つ確率変換器ネットワーク:エンドツーエンドSL翻訳への応用 [全文訳有]

Stochastic Transformer Networks with Linear Competing Units: Application to end-to-end SL Translation ( http://arxiv.org/abs/2109.13318v1 )

ライセンス: CC BY 4.0
Andreas Voskou, Konstantinos P. Panousis, Dimitrios Kosmopoulos, Dimitris N. Metaxas and Sotirios Chatzis(参考訳) 自動手話翻訳(SLT)は、現実の難易度の高いアプリケーションである。 しかし、その社会的重要性にもかかわらず、この分野の研究の進歩は依然としてかなり貧弱である。 致命的なパフォーマンスをもたらす既存の手法は、光沢シーケンスの基盤を得るのに労力を要する。 本稿では,グロスを明示的に使用する必要のないエンドツーエンドのSLTモデルを導入することにより,このニーズを緩和する。 これは、中間モデル段階で認識されるモダリティの形で、あるいはSLTモデルと共同で訓練された並列出力プロセスの形で、グロスシーケンスの基盤を使用する既存のエンド・ツー・エンドモデルとは対照的である。 我々のアプローチは、トランスフォーマーネットワークを構成する新しいタイプのレイヤである。 (i)従来のReLU層の代わりに確率的入賞者サンプリングを伴う局所入賞者全層(LWTA)。 (ii)変動推論による後方分布の確率的重みの推定と (iii)推定された後方分散を利用した推定時の重み圧縮技術で、大容量でほぼ無損失な圧縮を行う。 PHOENIX 2014Tベンチマークでは,現在報告されているBLEU-4スコアに到達できるが,モデルトレーニングにグルースを使用せず,メモリフットプリントを70%以上削減できることを示す。

Automating sign language translation (SLT) is a challenging real world application. Despite its societal importance, though, research progress in the field remains rather poor. Crucially, existing methods that yield viable performance necessitate the availability of laborious to obtain gloss sequence groundtruth. In this paper, we attenuate this need, by introducing an end-to-end SLT model that does not entail explicit use of glosses; the model only needs text groundtruth. This is in stark contrast to existing end-to-end models that use gloss sequence groundtruth, either in the form of a modality that is recognized at an intermediate model stage, or in the form of a parallel output process, jointly trained with the SLT model. Our approach constitutes a Transformer network with a novel type of layers that combines: (i) local winner-takes-all (LWTA) layers with stochastic winner sampling, instead of conventional ReLU layers, (ii) stochastic weights with posterior distributions estimated via variational inference, and (iii) a weight compression technique at inference time that exploits estimated posterior variance to perform massive, almost lossless compression. We demonstrate that our approach can reach the currently best reported BLEU-4 score on the PHOENIX 2014T benchmark, but without making use of glosses for model training, and with a memory footprint reduced by more than 70%.
翻訳日:2021-10-03 11:53:39 公開日:2021-09-01
# (参考訳) 教師なしの人物再同定:課題と解決の体系的調査 [全文訳有]

Unsupervised Person Re-Identification: A Systematic Survey of Challenges and Solutions ( http://arxiv.org/abs/2109.06057v1 )

ライセンス: CC BY 4.0
Xiangtan Lin and Pengzhen Ren and Chung-Hsing Yeh and Lina Yao and Andy Song and Xiaojun Chang(参考訳) 人物再識別(Re-ID)は、現実の応用と研究の意義から、過去10年間において重要な研究課題であった。 教師なしのRe-ID手法は、教師なしの手法よりも優れた性能を達成するが、禁止的なラベル付けコストのため、大きなラベル付きデータセットや新しいドメインにスケールすることはできない。 そのため、教師なしのRe-IDは、Re-ID担当者のスケーラビリティ問題に対処する可能性に注目が集まっている。 unsupervised person re-idは、主に個人特徴学習を監督するidラベルが欠如しているため、難しい。 対応するソリューションは多様で複雑であり、様々なメリットと制限がある。 したがって、今後の研究を促進するための課題と解決策をまとめた総合的な調査が不可欠である。 既存の人物Re-ID調査では、分類やアプリケーションからの監視方法に焦点が当てられているが、その人物Re-IDソリューションが根底にある課題にどのように対処するかについての詳細な議論はない。 本調査は,未指導者に関する最近の研究を課題と解決策の観点から検討する。 具体的には,教師なしの人物再識別における4つの重要な課題を考慮した,影響力の高い手法の詳細な分析を行う。 1) 人格学習を監督する基礎的アイデンティティラベルの欠如 2 擬似スーパービジョンによる識別的特徴の学習 3)クロスカメラ不変人物の特徴を学習し, 4) データセット間のドメインシフト。 評価結果を要約して分析し,ソリューションの有効性に関する洞察を提供する。 最後に,オープンな課題について議論し,将来的な研究方向性を提案する。

Person re-identification (Re-ID) has been a significant research topic in the past decade due to its real-world applications and research significance. While supervised person Re-ID methods achieve superior performance over unsupervised counterparts, they can not scale to large unlabelled datasets and new domains due to the prohibitive labelling cost. Therefore, unsupervised person Re-ID has drawn increasing attention for its potential to address the scalability issue in person Re-ID. Unsupervised person Re-ID is challenging primarily due to lacking identity labels to supervise person feature learning. The corresponding solutions are diverse and complex, with various merits and limitations. Therefore, comprehensive surveys on this topic are essential to summarise challenges and solutions to foster future research. Existing person Re-ID surveys have focused on supervised methods from classifications and applications but lack detailed discussion on how the person Re-ID solutions address the underlying challenges. This survey review recent works on unsupervised person Re-ID from the perspective of challenges and solutions. Specifically, we provide an in-depth analysis of highly influential methods considering the four significant challenges in unsupervised person Re-ID: 1) lacking ground-truth identity labels to supervise person feature learning; 2) learning discriminative person features with pseudo-supervision; 3) learning cross-camera invariant person feature, and 4) the domain shift between datasets. We summarise and analyse evaluation results and provide insights on the effectiveness of the solutions. Finally, we discuss open issues and suggest some promising future research directions.
翻訳日:2021-09-19 17:09:07 公開日:2021-09-01
# (参考訳) 海軍建築・海洋・海洋工学のための機械学習 [全文訳有]

Machine Learning for Naval Architecture, Ocean and Marine Engineering ( http://arxiv.org/abs/2109.05574v1 )

ライセンス: CC BY 4.0
J P Panda(参考訳) 機械学習(ml)ベースのアルゴリズムは、実験や高忠実度数値シミュレーションからデータセットを利用できる工学や科学の多くの分野に大きな影響を与えている。 これらのデータセットは一般的に機械学習モデルで利用され、基礎となる物理に関する情報を抽出し、入力変数を対象とする関心量にマッピングする機能的関係を導出する。 科学機械学習(SciML)で使用される一般的な機械学習アルゴリズムには、ニューラルネットワーク、回帰木、ランダムフォレスト、サポートベクターマシンなどがある。 本論の焦点は、海軍建築、海洋工学、海洋工学におけるMLの応用を概観し、研究の優先方向を特定することである。 本稿では, 波高予測, 船舶の風荷重の算出, 沖合プラットフォーム損傷検出, 船体付加抵抗の計算, 沿岸および海洋環境における各種応用など, さまざまな問題に対する機械学習アルゴリズムの適用について論じる。 MLモデル開発で使用されるデータセットのソースを含むデータセットの詳細を含める。 MLモデルの入力として使用される特徴についても詳細に述べ,最後にMLモデルの最適化に使用される手法についても論じた。 この包括的分析に基づいて,海洋工学および海洋工学問題へのmlの適用に有益かもしれない研究の今後の方向性を指摘する。

Machine Learning (ML) based algorithms have found significant impact in many fields of engineering and sciences, where datasets are available from experiments and high fidelity numerical simulations. Those datasets are generally utilized in a machine learning model to extract information about the underlying physics and derive functional relationships mapping input variables to target quantities of interest. Commonplace machine learning algorithms utilized in Scientific Machine Learning (SciML) include neural networks, regression trees, random forests, support vector machines, etc. The focus of this article is to review the applications of ML in naval architecture, ocean, and marine engineering problems; and identify priority directions of research. We discuss the applications of machine learning algorithms for different problems such as wave height prediction, calculation of wind loads on ships, damage detection of offshore platforms, calculation of ship added resistance, and various other applications in coastal and marine environments. The details of the data sets including the source of data-sets utilized in the ML model development are included. The features used as the inputs to the ML models are presented in detail and finally, the methods employed in optimization of the ML models were also discussed. Based on this comprehensive analysis we point out future directions of research that may be fruitful for the application of ML to the ocean and marine engineering problems.
翻訳日:2021-09-19 16:34:08 公開日:2021-09-01
# (参考訳) 新型コロナウイルス患者の死亡予測のためのマルチモーダルモデルの開発と妥当性の検討

Developing and validating multi-modal models for mortality prediction in COVID-19 patients: a multi-center retrospective study ( http://arxiv.org/abs/2109.02439v1 )

ライセンス: CC BY 4.0
Joy Tzung-yu Wu, Miguel \'Angel Armengol de la Hoz, Po-Chih Kuo, Joseph Alexander Paguio, Jasper Seth Yao, Edward Christopher Dee, Wesley Yeung, Jerry Jurado, Achintya Moulick, Carmelo Milazzo, Paloma Peinado, Paula Villares, Antonio Cubillo, Jos\'e Felipe Varona, Hyung-Chul Lee, Alberto Estirado, Jos\'e Maria Castellano, Leo Anthony Celi(参考訳) 新型コロナウイルス(COVID-19)による前例のない世界的な危機は、SARS-CoV-2感染の検出と予後の予測モデルを作成するための多くの取り組みを引き起こし、医療システムの資源配分を支援することを目指している。 特に機械学習モデルは、患者の臨床情報と医療画像を利用して予測する能力を約束している。 しかし、これまでに公表された新型コロナウイルスの予測モデルのほとんどは、方法論上の欠陥と適切な検証の欠如のために臨床効果がほとんどない。 本稿では,多施設患者データを用いた新型コロナウイルス死亡予測のためのマルチモーダルモデルの開発と評価について述べる。 スペイン・マドリード(N=2547)の振り返りデータを用いて,米国ニュージャージー州の地域病院(N=242)と韓国・ソウル(N=336)の学術センター(N=2436)の患者コホートを用いて,新型コロナウイルス死亡予測モデルを開発した。 開発したモデルは様々な臨床現場で異なる性能を示し,臨床意思決定に機械学習を用いる場合の指導的戦略の必要性を浮き彫りにした。 その結果,3つのデータセット(95%信頼区間: 0.83-0.87, 0.76 (0.70-0.82) および 0.95 (0.92-0.98) において,構造的電子健康記録と胸部x線画像データの両方の特徴を用いることにより,30日間のモーティリティ予測性能が向上した。 我々は、モデル開発の各ステップで下された決定の根拠を議論し、私たちのコードを研究コミュニティに公開しました。 臨床モデル開発に最適な機械学習プラクティスを採用しました。 私たちのゴールは、調査員や組織が予測、分類、最適化のためのマルチモーダルモデルを構築するのを支援するツールキットを作ることです。

The unprecedented global crisis brought about by the COVID-19 pandemic has sparked numerous efforts to create predictive models for the detection and prognostication of SARS-CoV-2 infections with the goal of helping health systems allocate resources. Machine learning models, in particular, hold promise for their ability to leverage patient clinical information and medical images for prediction. However, most of the published COVID-19 prediction models thus far have little clinical utility due to methodological flaws and lack of appropriate validation. In this paper, we describe our methodology to develop and validate multi-modal models for COVID-19 mortality prediction using multi-center patient data. The models for COVID-19 mortality prediction were developed using retrospective data from Madrid, Spain (N=2547) and were externally validated in patient cohorts from a community hospital in New Jersey, USA (N=242) and an academic center in Seoul, Republic of Korea (N=336). The models we developed performed differently across various clinical settings, underscoring the need for a guided strategy when employing machine learning for clinical decision-making. We demonstrated that using features from both the structured electronic health records and chest X-ray imaging data resulted in better 30-day-mortality prediction performance across all three datasets (areas under the receiver operating characteristic curves: 0.85 (95% confidence interval: 0.83-0.87), 0.76 (0.70-0.82), and 0.95 (0.92-0.98)). We discuss the rationale for the decisions made at every step in developing the models and have made our code available to the research community. We employed the best machine learning practices for clinical model development. Our goal is to create a toolkit that would assist investigators and organizations in building multi-modal models for prediction, classification and/or optimization.
翻訳日:2021-09-12 11:43:03 公開日:2021-09-01
# (参考訳) 自動走行不完全情報補完のための改良型生成型逆ネットワークを用いた効率的な深層学習手法 [全文訳有]

An Efficient Deep Learning Approach Using Improved Generative Adversarial Networks for Incomplete Information Completion of Self-driving ( http://arxiv.org/abs/2109.02629v1 )

ライセンス: CC BY 4.0
Jingzhi Tu, Gang Mei, Francesco Piccialli(参考訳) 自律運転は、産業用モノのインターネット(IIoT)におけるインテリジェントなロジスティクスの重要な技術である。 自律運転では、光検出と照準(LiDAR)を適用したとき、閉塞、センサ解像度、視野角の制限により、幾何学的・意味的な情報が失われる不完全点雲の出現は避けられない。 不完全な点雲、特に不完全な点雲の出現は、物体検出、交通警報、衝突回避における自動運転車の精度の低下につながる。 ポイントフラクタルネットワーク(pf-net)のような既存のポイントクラウド完成ネットワークは、推論プロセスの効率を考慮せず、ポイントクラウド完成の精度に重点を置いているため、自動運転におけるポイントクラウド修復のために展開することが困難である。 そこで本稿では,自動走行において不完全な車両点雲を高精度かつ効率的に修復するための効率的な深層学習手法を提案する。 提案手法では、インクリメンタルサンプリングとワンタイムサンプリングを組み合わせた効率的なダウンサンプリングアルゴリズムを提案し、GAN(Generative Adversarial Network)に基づくPF-Netの推論速度を改善する。 提案手法の性能を評価するために,実データを用いて,3つの自律運転状況に対して,5つの異なる大きさの不完全なポイント雲を3つ設定した自律運転シーンを作成する。 改良されたpf-netは、オリジナルのpf-netとほぼ同じ精度で19倍のスピードアップを達成できる。 実験結果から、改良されたPF-Netは自律走行において効率よく車点雲に応用できることが示された。

Autonomous driving is the key technology of intelligent logistics in Industrial Internet of Things (IIoT). In autonomous driving, the appearance of incomplete point clouds losing geometric and semantic information is inevitable owing to limitations of occlusion, sensor resolution, and viewing angle when the Light Detection And Ranging (LiDAR) is applied. The emergence of incomplete point clouds, especially incomplete vehicle point clouds, would lead to the reduction of the accuracy of autonomous driving vehicles in object detection, traffic alert, and collision avoidance. Existing point cloud completion networks, such as Point Fractal Network (PF-Net), focus on the accuracy of point cloud completion, without considering the efficiency of inference process, which makes it difficult for them to be deployed for vehicle point cloud repair in autonomous driving. To address the above problem, in this paper, we propose an efficient deep learning approach to repair incomplete vehicle point cloud accurately and efficiently in autonomous driving. In the proposed method, an efficient downsampling algorithm combining incremental sampling and one-time sampling is presented to improves the inference speed of the PF-Net based on Generative Adversarial Network (GAN). To evaluate the performance of the proposed method, a real dataset is used, and an autonomous driving scene is created, where three incomplete vehicle point clouds with 5 different sizes are set for three autonomous driving situations. The improved PF-Net can achieve the speedups of over 19x with almost the same accuracy when compared to the original PF-Net. Experimental results demonstrate that the improved PF-Net can be applied to efficiently complete vehicle point clouds in autonomous driving.
翻訳日:2021-09-12 11:41:26 公開日:2021-09-01
# 未知の共分散構造を持つ高次元における漸近的一・二サンプル試験

Nonasymptotic one-and two-sample tests in high dimension with unknown covariance structure ( http://arxiv.org/abs/2109.01730v1 )

ライセンス: Link先を確認
Gilles Blanchard (CNRS, LMO, DATASHAPE), Jean-Baptiste Fermanian (ENS Rennes)(参考訳) $\mathbf{X} = (X_i)_{1\leq i \leq n}$ を $\mathbb{R}^d$ の平方可積分変数のサンプルとし、共通の期待値 $\mu$ と共分散行列 $\Sigma$ をともに未知とする。 例えば、$\|\mu\| \leq \eta $ 対 $\|\mu\| \geq (\eta + \delta)$ に対して $\mu$ が 0 に対して $\eta$-close である場合、テストの問題を考える。 本研究の目的は,I型とII型の両方の誤差を所定のレベルで制御できるように,最小分離距離$\delta$の漸近的上下境界を求めることである。 主な技術ツールは濃度不等式であり、第一に、適切な推定値が$\|\mu\|^2$ であり、第二に、演算子とフロベニウスノルムを推定するために$\sigma$ が、テスト統計の四元数に入る。 これらの性質はガウス分布と有界分布に対して得られる。 特に、分布の擬次元 $d_*$ への依存について、$d_* := \|\Sigma\|_2^2/\|\Sigma\|_\infty^2$ と定義される。 特に$\eta=0$の場合、最小分離距離は${\Theta}(d_*^{\frac{1}{4}}\sqrt{\|\Sigma\|_\infty/n})$であるのに対し、${\Theta}(d_e^{\frac{1}{2}}\sqrt{\|\Sigma\|_\infty/n})$($d_e:=\|\Sigma\|_1/\|\Sigma\|_\infty$)$である。 このことは特に Baraud (2002) によって綴られた現象を一般化する。

Let $\mathbf{X} = (X_i)_{1\leq i \leq n}$ be an i.i.d. sample of square-integrable variables in $\mathbb{R}^d$, with common expectation $\mu$ and covariance matrix $\Sigma$, both unknown. We consider the problem of testing if $\mu$ is $\eta$-close to zero, i.e. $\|\mu\| \leq \eta $ against $\|\mu\| \geq (\eta + \delta)$; we also tackle the more general two-sample mean closeness testing problem. The aim of this paper is to obtain nonasymptotic upper and lower bounds on the minimal separation distance $\delta$ such that we can control both the Type I and Type II errors at a given level. The main technical tools are concentration inequalities, first for a suitable estimator of $\|\mu\|^2$ used a test statistic, and secondly for estimating the operator and Frobenius norms of $\Sigma$ coming into the quantiles of said test statistic. These properties are obtained for Gaussian and bounded distributions. A particular attention is given to the dependence in the pseudo-dimension $d_*$ of the distribution, defined as $d_* := \|\Sigma\|_2^2/\|\Sigma\|_\infty^2$. In particular, for $\eta=0$, the minimum separation distance is ${\Theta}(d_*^{\frac{1}{4}}\sqrt{\|\Sigma\|_\infty/n})$, in contrast with the minimax estimation distance for $\mu$, which is ${\Theta}(d_e^{\frac{1}{2}}\sqrt{\|\Sigma\|_\infty/n})$ (where $d_e:=\|\Sigma\|_1/\|\Sigma\|_\infty$). This generalizes a phenomenon spelled out in particular by Baraud (2002).
翻訳日:2021-09-12 10:58:19 公開日:2021-09-01
# 微細層光ニューラルネットワークの高速化法

Acceleration Method for Learning Fine-Layered Optical Neural Networks ( http://arxiv.org/abs/2109.01731v1 )

ライセンス: Link先を確認
Kazuo Aoyama, Hiroshi Sawada(参考訳) 光ニューラルネットワーク(ONN)はその高速かつ低消費電力な動作のために有望なシステムである。 その線形ユニットは、光アナログ回路において入力ベクトルと重み行列の乗算を行う。 これらのうち、プログラム可能なマッハ・ツェンダー干渉計(MZI)の多層構造を持つ回路は、その重み行列として限られた数のMZIを持つユニタリ行列の特定のクラスを実現することができる。 この回路は、プログラマブルMZIとONN性能のバランスをとるのに有効である。 しかし、機械学習プラットフォームが備えている従来の自動微分(AD)により、回路のMZIパラメータを学習するには多くの時間がかかる。 そこで本研究では,MZIパラメータを学習するための高速化手法を提案する。 我々は、mzi用に、wirtinger誘導体とチェーンルールを利用して、カスタマイズされた複素値導関数を作成する。 C++で実装した新しい関数モジュールに組み込まれ,その値を多層構造にまとめて計算する。 我々の手法は単純で高速で多用途であり、従来のADと互換性がある。 本手法は,MZIをベースとした複素数値再帰ニューラルネットワークにおいて,画素単位のMNISTタスクを実行する場合,従来のADよりも20倍高速に動作することを示す。

An optical neural network (ONN) is a promising system due to its high-speed and low-power operation. Its linear unit performs a multiplication of an input vector and a weight matrix in optical analog circuits. Among them, a circuit with a multiple-layered structure of programmable Mach-Zehnder interferometers (MZIs) can realize a specific class of unitary matrices with a limited number of MZIs as its weight matrix. The circuit is effective for balancing the number of programmable MZIs and ONN performance. However, it takes a lot of time to learn MZI parameters of the circuit with a conventional automatic differentiation (AD), which machine learning platforms are equipped with. To solve the time-consuming problem, we propose an acceleration method for learning MZI parameters. We create customized complex-valued derivatives for an MZI, exploiting Wirtinger derivatives and a chain rule. They are incorporated into our newly developed function module implemented in C++ to collectively calculate their values in a multi-layered structure. Our method is simple, fast, and versatile as well as compatible with the conventional AD. We demonstrate that our method works 20 times faster than the conventional AD when a pixel-by-pixel MNIST task is performed in a complex-valued recurrent neural network with an MZI-based hidden unit.
翻訳日:2021-09-12 10:56:34 公開日:2021-09-01
# ガウス過程による信号フィンガープリントの不確かさの測定

Measuring Uncertainty in Signal Fingerprinting with Gaussian Processes Going Deep ( http://arxiv.org/abs/2109.04360v1 )

ライセンス: Link先を確認
Ran Guan, Andi Zhang, Mengchao Li, Yongliang Wang(参考訳) 屋内測位では、信号のゆらぎは位置に依存します。 しかし、信号の不確実性は、無線信号が指紋で見落とされがちな寸法である。 本稿では,確率的位置決めによく用いられるガウス過程(gp)を考察し,gpを用いた信号指紋の不確かさのモデル化の落とし穴を指摘する。 また,この問題に対してより有用な代替手段として,深層ガウス過程 (dgp) を提案する。 DGPが信号フィンガープリントの不確実性をシミュレートし、現実的に収集したデータセットを用いて評価する。

In indoor positioning, signal fluctuation is highly location-dependent. However, signal uncertainty is one critical yet commonly overlooked dimension of the radio signal to be fingerprinted. This paper reviews the commonly used Gaussian Processes (GP) for probabilistic positioning and points out the pitfall of using GP to model signal fingerprint uncertainty. This paper also proposes Deep Gaussian Processes (DGP) as a more informative alternative to address the issue. How DGP better measures uncertainty in signal fingerprinting is evaluated via simulated and realistically collected datasets.
翻訳日:2021-09-12 10:56:17 公開日:2021-09-01
# GPU空間分割を用いたマルチモデル機械学習推論

Multi-model Machine Learning Inference Serving with GPU Spatial Partitioning ( http://arxiv.org/abs/2109.01611v1 )

ライセンス: Link先を確認
Seungbeom Choi, Sunho Lee, Yeonjae Kim, Jongse Park, Youngjin Kwon, Jaehyuk Huh(参考訳) 機械学習技術が幅広いアプリケーションに適用されるにつれて、高スループット機械学習(ML)推論サーバはオンラインサービスアプリケーションにとって重要になっている。 ひとつは、一貫したサービスレベルの目的(SLO)をサポートするために、各要求に対してバウンダリのレイテンシを提供しなければならないこと、もうひとつは、複数のモデルの呼び出しと複数のモデルの統合によって、システム内で複数の異種MLモデルを提供できることである。 本稿では,ML推論サーバの2つの要件に対処するため,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。 論文はまず、SLO制約により、現在のGPUはML推論タスクに完全には利用されないことを示した。 推論サーバのリソース効率を最大化するため,本論文では,gpuリソースの空間分割をハードウェアサポートとして活用する。 パーティショニングメカニズムにより、GPUリソースの新たな抽象化レイヤが構成可能なGPUリソースで作成される。 スケジューラは、最も効率的なリソース量で、gpu-letと呼ばれる仮想GPUにリクエストを割り当てる。 また、GPU上で2つのMLタスクが同時に実行されている場合の潜在的な干渉効果に対する対策についても検討する。 本実装では,SLOを満足しながら,空間分割によりスループットが平均102.6%向上することを示す。

As machine learning techniques are applied to a widening range of applications, high throughput machine learning (ML) inference servers have become critical for online service applications. Such ML inference servers pose two challenges: first, they must provide a bounded latency for each request to support consistent service-level objective (SLO), and second, they can serve multiple heterogeneous ML models in a system as certain tasks involve invocation of multiple models and consolidating multiple models can improve system utilization. To address the two requirements of ML inference servers, this paper proposes a new ML inference scheduling framework for multi-model ML inference servers. The paper first shows that with SLO constraints, current GPUs are not fully utilized for ML inference tasks. To maximize the resource efficiency of inference servers, a key mechanism proposed in this paper is to exploit hardware support for spatial partitioning of GPU resources. With the partitioning mechanism, a new abstraction layer of GPU resources is created with configurable GPU resources. The scheduler assigns requests to virtual GPUs, called gpu-lets, with the most effective amount of resources. The paper also investigates a remedy for potential interference effects when two ML tasks are running concurrently in a GPU. Our prototype implementation proves that spatial partitioning enhances throughput by 102.6% on average while satisfying SLOs.
翻訳日:2021-09-06 13:54:32 公開日:2021-09-01
# データフリーモデル抽出によるシーケンスレコメンダのブラックボックス攻撃

Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction ( http://arxiv.org/abs/2109.01165v1 )

ライセンス: Link先を確認
Zhenrui Yue, Zhankui He, Huimin Zeng, Julian McAuley(参考訳) 本研究では, モデル抽出が, シーケンシャルレコメンデータシステムの重み付けに有効か, およびそのような攻撃の被害者に対する潜在的脅威について検討する。 このようなリスクは画像やテキストの分類だけでなく、レコメンダシステムに関する知識にも注目されています。 シーケンシャルリコメンデータシステムは、トレーニングに使用される特定の自己回帰型システムのために、ユニークな脆弱性にさらされていると論じている。 被害者モデルのトレーニングに使用されるデータセットが攻撃者に露出していると仮定している既存のリコメンダアタッカーとは異なり、我々は、トレーニングデータがアクセスできないデータフリー設定を検討する。 そこで本研究では,限定予算合成データ生成と知識蒸留によるAPIに基づくモデル抽出手法を提案する。 逐次レコメンデーションのための最先端モデルを調査し,モデル抽出と下流攻撃における脆弱性を示す。 攻撃は2段階に分けて行う。 1) モデル抽出: ブラックボックスレコメンデータから抽出した異なる種類の合成データとそのラベルを, 蒸留によりブラックボックスモデルからホワイトボックスモデルに抽出する。 (2)ダウンストリームアタック:ホワイトボックスレコメンダによって生成された敵対的なサンプルでブラックボックスモデルを攻撃する。 実験は,プロファイル汚染とデータ中毒の双方において,逐次レコメンダに対するデータフリーモデル抽出とダウンストリームアタックの有効性を示す。

We investigate whether model extraction can be used to "steal" the weights of sequential recommender systems, and the potential threats posed to victims of such attacks. This type of risk has attracted attention in image and text classification, but to our knowledge not in recommender systems. We argue that sequential recommender systems are subject to unique vulnerabilities due to the specific autoregressive regimes used to train them. Unlike many existing recommender attackers, which assume the dataset used to train the victim model is exposed to attackers, we consider a data-free setting, where training data are not accessible. Under this setting, we propose an API-based model extraction method via limited-budget synthetic data generation and knowledge distillation. We investigate state-of-the-art models for sequential recommendation and show their vulnerability under model extraction and downstream attacks. We perform attacks in two stages. (1) Model extraction: given different types of synthetic data and their labels retrieved from a black-box recommender, we extract the black-box model to a white-box model via distillation. (2) Downstream attacks: we attack the black-box model with adversarial samples generated by the white-box recommender. Experiments show the effectiveness of our data-free model extraction and downstream attacks on sequential recommenders in both profile pollution and data poisoning settings.
翻訳日:2021-09-06 13:50:58 公開日:2021-09-01
# 高品質大規模音声データセット開発のためのスケーラブルなデータアノテーションパイプライン

Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets Development ( http://arxiv.org/abs/2109.01164v1 )

ライセンス: Link先を確認
Mingkuan Liu, Chi Zhang, Hua Xing, Chao Feng, Monchu Chen, Judith Bishop, Grace Ngapo(参考訳) 本稿では,高品質で大規模な音声データセットを生成するためのHuman-in-the-loop(HI TL)データアノテーションパイプラインを提案する。 パイプラインは人間と機械のアドバンテージを、より迅速で正確に組み合わせ、費用対効果の高いアノテートデータセットと、マシン事前ラベルと完全な手作業による監査を組み合わせる。 ブラインドテスト、振る舞い監視、データ検証といった品質管理メカニズムがアノテーションパイプラインで採用され、マシン生成ラベルによって引き起こされる潜在的なバイアスを軽減する。 A/Bテストとパイロット試験の結果,HITLパイプラインはアノテーションの速度とキャパシティを少なくとも80%向上し,品質は手動のダブルパスアノテーションと同等かそれ以上であることがわかった。 私たちはこのスケーラブルなパイプラインを利用して、複数の言語で超高音量オフザシェルフ(uhv-ots)音声コーパスを作成し、継続的に成長させています。 カスタムデータセットは動的パッケージングを使用してUHV-OTSコーパスから作成することができる。 UHV-OTSは、音声処理に必要な商用および学術研究データをサポートする長期的なAppenプロジェクトである。 appenは毎年uhv-otsから無料の音声データセットを寄付し、cc-by-saライセンスの下で学術的およびオープンソースコミュニティの研究をサポートする。 また、論文で報告された結果の再現を可能にするために、Apache 2.0ライセンスの下でデータ前処理とタグ付けパイプラインのコードもリリースしています。

This paper introduces a human-in-the-loop (HITL) data annotation pipeline to generate high-quality, large-scale speech datasets. The pipeline combines human and machine advantages to more quickly, accurately, and cost-effectively annotate datasets with machine pre-labeling and fully manual auditing. Quality control mechanisms such as blind testing, behavior monitoring, and data validation have been adopted in the annotation pipeline to mitigate potential bias introduced by machine-generated labels. Our A/B testing and pilot results demonstrated the HITL pipeline can improve annotation speed and capacity by at least 80% and quality is comparable to or higher than manual double pass annotation. We are leveraging this scalable pipeline to create and continuously grow ultra-high volume off-the-shelf (UHV-OTS) speech corpora for multiple languages, with the capability to expand to 10,000+ hours per language annually. Customized datasets can be produced from the UHV-OTS corpora using dynamic packaging. UHV-OTS is a long-term Appen project to support commercial and academic research data needs in speech processing. Appen will donate a number of free speech datasets from the UHV-OTS each year to support academic and open source community research under the CC-BY-SA license. We are also releasing the code of the data pre-processing and pre-tagging pipeline under the Apache 2.0 license to allow reproduction of the results reported in the paper.
翻訳日:2021-09-06 13:48:22 公開日:2021-09-01
# ナビゲーション支援脊椎手術におけるfiducial marker recovery and detection from severe truncated data

Fiducial marker recovery and detection from severely truncated data in navigation assisted spine surgery ( http://arxiv.org/abs/2108.13844v2 )

ライセンス: Link先を確認
Fuxin Fan, Bj\"orn Kreher, Holger Keil, Andreas Maier, Yixing Huang(参考訳) フィデューシャルマーカーは、ナビゲーション支援の最小侵襲脊椎手術(MISS)で一般的に使われ、画像座標を現実世界の座標に転送するのに役立つ。 実際には、これらのマーカーは、術中手術で使用されるC-arm cone-beam CT(CBCT)システムの限られたサイズのため、視野外(FOV)に位置する可能性がある。 その結果、cbctボリュームで再構成されたマーカーはアーティファクトに苦しめられ、形状が歪んで航法上の障害となっている。 本研究では,歪みマーカーからの直接検出(直接法)とマーカー回収後の検出(再被覆法)の2つのfiducial marker検出法を提案する。 再構成ボリュームにおける歪マーカーの直接検出のために,2つのニューラルネットワークを用いた効率的な自動マーカー検出法と従来の円検出アルゴリズムを提案する。 マーカーリカバリには,高度に歪んだデータからマーカーを回収するタスク固有学習戦略が提案されている。 その後、従来のマーカー検出アルゴリズムを位置検出に適用する。 2つの手法はシミュレーションデータと実データに基づいて評価され、どちらも0.2mm未満のマーカー登録誤差を達成する。 実験により, 直接的手法は歪みマーカーを精度良く検出でき, タスク固有学習によるリカバリ手法は, 各種データセット上で高いロバスト性と一般化性を有することを示した。 さらに、タスク固有の学習は、例えば、他の関心構造を正確に再構築することができる。 画像誘導型針生検用リブは、cbctシステムに新しい潜在的な応用力を与える厳しい切断データから得られる。

Fiducial markers are commonly used in navigation assisted minimally invasive spine surgery (MISS) and they help transfer image coordinates into real world coordinates. In practice, these markers might be located outside the field-of-view (FOV), due to the limited detector sizes of C-arm cone-beam computed tomography (CBCT) systems used in intraoperative surgeries. As a consequence, reconstructed markers in CBCT volumes suffer from artifacts and have distorted shapes, which sets an obstacle for navigation. In this work, we propose two fiducial marker detection methods: direct detection from distorted markers (direct method) and detection after marker recovery (recovery method). For direct detection from distorted markers in reconstructed volumes, an efficient automatic marker detection method using two neural networks and a conventional circle detection algorithm is proposed. For marker recovery, a task-specific learning strategy is proposed to recover markers from severely truncated data. Afterwards, a conventional marker detection algorithm is applied for position detection. The two methods are evaluated on simulated data and real data, both achieving a marker registration error smaller than 0.2 mm. Our experiments demonstrate that the direct method is capable of detecting distorted markers accurately and the recovery method with task-specific learning has high robustness and generalizability on various data sets. In addition, the task-specific learning is able to reconstruct other structures of interest accurately, e.g. ribs for image-guided needle biopsy, from severely truncated data, which empowers CBCT systems with new potential applications.
翻訳日:2021-09-05 08:56:01 公開日:2021-09-01
# (参考訳) Mitosis DOmain Generalization (MIDOG) のためのDomain Adaptive Cascade R-CNN [全文訳有]

Domain Adaptive Cascade R-CNN for MItosis DOmain Generalization (MIDOG) Challenge ( http://arxiv.org/abs/2109.00965v1 )

ライセンス: CC BY 4.0
Xi Long, Ying Cheng, Xiao Mu, Lian Liu and Jingxin Liu(参考訳) 本稿では,デジタル病理像のミトーシス検出のための領域適応カスケードR-CNN法の概要を紹介する。 提案手法は,MICCAI2021におけるMitosis DOmain Generalization (MIDOG) Challengeの予備テストセットにおいて,包括的データ拡張と既存の一般的な検出アーキテクチャの適用により,F1スコア0.7500を達成した。

We present a summary of the domain adaptive cascade R-CNN method for mitosis detection of digital histopathology images. By comprehensive data augmentation and adapting existing popular detection architecture, our proposed method has achieved an F1 score of 0.7500 on the preliminary test set in MItosis DOmain Generalization (MIDOG) Challenge at MICCAI2021.
翻訳日:2021-09-04 12:31:36 公開日:2021-09-01
# (参考訳) 偏りのあるすべてのインスタンスを破棄するな - データセットバイアス緩和テクニックにおけるコア仮定の調査 [全文訳有]

Don't Discard All the Biased Instances: Investigating a Core Assumption in Dataset Bias Mitigation Techniques ( http://arxiv.org/abs/2109.00521v1 )

ライセンス: CC BY 4.0
Hossein Amirkhani, Mohammad Taher Pilehvar(参考訳) データセットバイアスを緩和する既存のテクニックは、バイアス付きモデルを利用してバイアス付きインスタンスを識別することが多い。 偏りのあるインスタンスの役割は、メインモデルのトレーニング中に削減され、分散データに対する堅牢性が向上します。 これらのテクニックの一般的な前提は、メインモデルがバイアス付きモデルと同様のバイアス付きインスタンスを扱い、いつでもバイアスに頼っていることである。 本稿では,この仮定が一般には成立しないことを示す。 mnliとフィーバーというドメインでよく知られた2つのデータセットと、偏りのあるインスタンス検出方法、部分入力モデルと限定容量モデルについて批判的な調査を行った。 私たちの実験では、3分の1から半分のインスタンスでは、バイアスのあるモデルではメインモデルの振る舞いを予測できないことが分かりました。 また,手作業による検証に基づいて,この推定値が人間の解釈と非常に一致していることを示す。 本研究は, 偏差検出法により検出されたインスタンスの低重み付けが, トレーニングデータの不要な無駄であることを示すものである。 再現性と今後の研究を促進するためにコードをリリースします。

Existing techniques for mitigating dataset bias often leverage a biased model to identify biased instances. The role of these biased instances is then reduced during the training of the main model to enhance its robustness to out-of-distribution data. A common core assumption of these techniques is that the main model handles biased instances similarly to the biased model, in that it will resort to biases whenever available. In this paper, we show that this assumption does not hold in general. We carry out a critical investigation on two well-known datasets in the domain, MNLI and FEVER, along with two biased instance detection methods, partial-input and limited-capacity models. Our experiments show that in around a third to a half of instances, the biased model is unable to predict the main model's behavior, highlighted by the significantly different parts of the input on which they base their decisions. Based on a manual validation, we also show that this estimate is highly in line with human interpretation. Our findings suggest that down-weighting of instances detected by bias detection methods, which is a widely-practiced procedure, is an unnecessary waste of training data. We release our code to facilitate reproducibility and future research.
翻訳日:2021-09-04 12:27:40 公開日:2021-09-01
# (参考訳) オープンセットビデオ領域適応のための条件付き極値理論 [全文訳有]

Conditional Extreme Value Theory for Open Set Video Domain Adaptation ( http://arxiv.org/abs/2109.00522v1 )

ライセンス: CC BY 4.0
Zhuoxiao Chen, Yadan Luo, Mahsa Baktashmotlagh(参考訳) メディアストリーミングの出現に伴い、ビデオアクション認識は様々なアプリケーションにおいて徐々に重要になっているが、大規模データラベリングのコストが高い。 高価なデータラベリングの問題を解決するために、完全にラベル付けされたデータ(すなわちソースドメイン)から未ラベルのデータ(すなわちターゲットドメイン)に知識を伝達するドメイン適応手法が提案されている。 ビデオ領域適応アルゴリズムの大部分は、すべてのクラスがドメイン間で共有されるクローズドセットシナリオに対して提案されている。 本研究では,ソースデータとターゲットデータとのドメイン不一致を緩和し,対象データにソースドメインに属さない追加のクラスを含ませる,オープンセットビデオドメイン適応手法を提案する。 共有クラスの精度向上にのみ焦点をあてた従来の研究と異なり、共有クラスのアライメントと未知のサンプルの認識を共同で強化することを目的としている。 この目的に向けて、未知の認識を高めるためにクラス条件極値理論を適用する。 具体的には、対象試料のエントロピー値を一般化された極値分布としてモデル化し、分布の尾にある未知の試料を分離する。 負の伝達問題を緩和するため、サンプルエントロピーからしきい値までの距離で計算した重みを、確実なソースとターゲットサンプルが一致しているという意味で逆学習に活用し、未確認サンプルをプッシュする。 提案手法は,小規模および大規模のクロスドメインビデオデータセットに対して徹底的に評価され,最先端の性能を達成した。

With the advent of media streaming, video action recognition has become progressively important for various applications, yet at the high expense of requiring large-scale data labelling. To overcome the problem of expensive data labelling, domain adaptation techniques have been proposed that transfers knowledge from fully labelled data (i.e., source domain) to unlabelled data (i.e., target domain). The majority of video domain adaptation algorithms are proposed for closed-set scenarios in which all the classes are shared among the domains. In this work, we propose an open-set video domain adaptation approach to mitigate the domain discrepancy between the source and target data, allowing the target data to contain additional classes that do not belong to the source domain. Different from previous works, which only focus on improving accuracy for shared classes, we aim to jointly enhance the alignment of shared classes and recognition of unknown samples. Towards this goal, class-conditional extreme value theory is applied to enhance the unknown recognition. Specifically, the entropy values of target samples are modelled as generalised extreme value distributions, which allows separating unknown samples lying in the tail of the distribution. To alleviate the negative transfer issue, weights computed by the distance from the sample entropy to the threshold are leveraged in adversarial learning in the sense that confident source and target samples are aligned, and unconfident samples are pushed away. The proposed method has been thoroughly evaluated on both small-scale and large-scale cross-domain video datasets and achieved the state-of-the-art performance.
翻訳日:2021-09-04 12:15:18 公開日:2021-09-01
# (参考訳) グラディエントペナルティ計算輸送を用いたワッサースタインGAN [全文訳有]

Wasserstein GANs with Gradient Penalty Compute Congested Transport ( http://arxiv.org/abs/2109.00528v1 )

ライセンス: CC BY 4.0
Tristan Milne and Adrian Nachman(参考訳) Wasserstein GANs with Gradient Penalty (WGAN-GP) は、高品質な合成データを生成するために生成モデルを訓練する非常に一般的な方法である。 WGAN-GPは当初、生成されたデータと実際のデータの間のワッサーシュタイン1距離を計算するために開発されたが、最近の研究(例)はそうである。 Stanczukなど。 (2021)は、この現象が起こらないという実証的な証拠を提供しており、WGAN-GPはこの問題にもかかわらず、その原因ではなく、うまく機能していると主張した。 本稿では,WGAN-GPが,渋滞輸送(Carlier et al)と呼ばれる,異なる最適輸送問題の最小値を計算するのを初めて示す。 (2008)). 混雑輸送は、渋滞を罰する輸送モデルの下である分布を別の分布に移動するコストを決定する。 WGAN-GPでは,Gulrajani et alで使用されるサンプリング戦略によって空間的に異なるペナルティが決定される。 (2017) 局部速度制限のように作用し, 渋滞コストを他の地域よりも低くする。 混雑する輸送問題のこの側面は、渋滞のペナルティが無制限であることが判明し、輸送対象の分布に依存するため、この設定に必要な数学的証明を提供するという点において、新しいものである。 我々は、WGAN-GPにおける最適化問題の解の勾配が最適質量流の時間平均運動量を決定することを示すために、我々の発見を用いる。 これはワッサーシュタイン1距離に対するカントロヴィチポテンシャルの勾配とは対照的であり、フローの正規化方向のみを決定する。 このことは、Stenczukらを支持して説明できる。 (2021) ジェネレータの訓練はこれらの勾配に基づいており, WGAN-GPが成功している。

Wasserstein GANs with Gradient Penalty (WGAN-GP) are an extremely popular method for training generative models to produce high quality synthetic data. While WGAN-GP were initially developed to calculate the Wasserstein 1 distance between generated and real data, recent works (e.g. Stanczuk et al. (2021)) have provided empirical evidence that this does not occur, and have argued that WGAN-GP perform well not in spite of this issue, but because of it. In this paper we show for the first time that WGAN-GP compute the minimum of a different optimal transport problem, the so-called congested transport (Carlier et al. (2008)). Congested transport determines the cost of moving one distribution to another under a transport model that penalizes congestion. For WGAN-GP, we find that the congestion penalty has a spatially varying component determined by the sampling strategy used in Gulrajani et al. (2017) which acts like a local speed limit, making congestion cost less in some regions than others. This aspect of the congested transport problem is new in that the congestion penalty turns out to be unbounded and depend on the distributions to be transported, and so we provide the necessary mathematical proofs for this setting. We use our discovery to show that the gradients of solutions to the optimization problem in WGAN-GP determine the time averaged momentum of optimal mass flow. This is in contrast to the gradients of Kantorovich potentials for the Wasserstein 1 distance, which only determine the normalized direction of flow. This may explain, in support of Stanczuk et al. (2021), the success of WGAN-GP, since the training of the generator is based on these gradients.
翻訳日:2021-09-04 12:01:35 公開日:2021-09-01
# (参考訳) ASVspoof 2021:自動話者検証と対策課題評価計画 [全文訳有]

ASVspoof 2021: Automatic Speaker Verification Spoofing and Countermeasures Challenge Evaluation Plan ( http://arxiv.org/abs/2109.00535v1 )

ライセンス: CC BY 4.0
H\'ector Delgado, Nicholas Evans, Tomi Kinnunen, Kong Aik Lee, Xuechen Liu, Andreas Nautsch, Jose Patino, Md Sahidullah, Massimiliano Todisco, Xin Wang, Junichi Yamagishi(参考訳) asvspoof(automatic speaker verification spoofing and countermeasures)チャレンジシリーズは、spoofingの考慮と対策の発展を促進することを目的としたコミュニティ主導のイニシアティブである。 asvspoof 2021は、bona fideとspoofedとdeepfakeの音声を区別できる対策を開発することを目的とした、隔年で競争の激しい挑戦の4番目である。 この文書は、asvspoof 2021チャレンジの技術的な説明を提供し、トレーニング、開発と評価データ、メトリクス、ベースライン、評価ルール、提出手続き、スケジュールの詳細を含んでいる。

The automatic speaker verification spoofing and countermeasures (ASVspoof) challenge series is a community-led initiative which aims to promote the consideration of spoofing and the development of countermeasures. ASVspoof 2021 is the 4th in a series of bi-annual, competitive challenges where the goal is to develop countermeasures capable of discriminating between bona fide and spoofed or deepfake speech. This document provides a technical description of the ASVspoof 2021 challenge, including details of training, development and evaluation data, metrics, baselines, evaluation rules, submission procedures and the schedule.
翻訳日:2021-09-04 11:37:32 公開日:2021-09-01
# (参考訳) ASVspoof 2021:スプーフおよびディープフェイク音声検出の進行促進 [全文訳有]

ASVspoof 2021: accelerating progress in spoofed and deepfake speech detection ( http://arxiv.org/abs/2109.00537v1 )

ライセンス: CC BY 4.0
Junichi Yamagishi, Xin Wang, Massimiliano Todisco, Md Sahidullah, Jose Patino, Andreas Nautsch, Xuechen Liu, Kong Aik Lee, Tomi Kinnunen, Nicholas Evans, H\'ector Delgado(参考訳) ASVspoof 2021は、自動話者認証システムの操作から保護するためのスプーフの研究と対策の設計を促進するための2年制課題の第4版である。 asvspoof 2021は、以前のバージョンに比べて多くの進歩がある論理および物理アクセスタスクに引き続き注力するのに加えて、ディープフェイク音声検出を含む新しいタスクを導入している。 本稿では,3つのタスク,それぞれの新しいデータベース,評価指標,4つのチャレンジベースライン,評価プラットフォーム,チャレンジ結果の概要について述べる。 難易度を複雑にするチャネルと圧縮のばらつきが導入されたにもかかわらず、論理アクセスとディープフェイクタスクの結果は、以前のASVspoofエディションに近いものである。 物理アクセスタスクの結果,実空間における攻撃検出の難しさが示された。 ASVspoof 2021は、参加者が一致したトレーニングや開発データを持っていない最初の版であり、スプーフとディープフェイクのスピーチの性質が自信を持って予測できない実情を反映したものであり、近年の分野における実質的な進歩を極めて奨励し実証している。

ASVspoof 2021 is the forth edition in the series of bi-annual challenges which aim to promote the study of spoofing and the design of countermeasures to protect automatic speaker verification systems from manipulation. In addition to a continued focus upon logical and physical access tasks in which there are a number of advances compared to previous editions, ASVspoof 2021 introduces a new task involving deepfake speech detection. This paper describes all three tasks, the new databases for each of them, the evaluation metrics, four challenge baselines, the evaluation platform and a summary of challenge results. Despite the introduction of channel and compression variability which compound the difficulty, results for the logical access and deepfake tasks are close to those from previous ASVspoof editions. Results for the physical access task show the difficulty in detecting attacks in real, variable physical spaces. With ASVspoof 2021 being the first edition for which participants were not provided with any matched training or development data and with this reflecting real conditions in which the nature of spoofed and deepfake speech can never be predicated with confidence, the results are extremely encouraging and demonstrate the substantial progress made in the field in recent years.
翻訳日:2021-09-04 10:29:32 公開日:2021-09-01
# (参考訳) 空間依存推定のための空間的・ロバストな混合混合回帰モデル [全文訳有]

Spatially and Robustly Hybrid Mixture Regression Model for Inference of Spatial Dependence ( http://arxiv.org/abs/2109.00539v1 )

ライセンス: CC BY 4.0
Wennan Chang, Pengtao Dang, Changlin Wan, Yue Fang, Tong Zhao, Yong Zang, Bo Li, Chi Zhang, Sha Cao(参考訳) 本稿では,空間領域上での応答変数と説明変数の集合の関係を解析するために,空間ロバスト混合回帰モデルを提案する。 本手法はロバストな有限混合ガウス回帰モデルと空間制約を統合し,空間的非定常性,局所的同質性,異常汚染を同時に扱う。 既存の空間回帰モデルと比較して,提案モデルは類似の応答・予測関係を示す観測結果に基づいて推定されるいくつかの異なる回帰モデルが存在すると仮定する。 このように、提案されたモデルは、空間的傾向の非定常性だけでなく、いくつかの異なる同族群へのクラスター観測も考慮している。 これは、応答変数と予測変数の間の支配的な関係を捉えたいくつかの定常サブプロセスで解釈する上で有利である。 さらに, 提案手法は, 回帰アウトレーヤと空間アウトレーヤの両方から汚染を処理するための頑健な手法を取り入れている。 これにより、空間領域を類似の回帰係数を持つ異なる局所領域と、純粋に外れ値である散発的な位置にロバストに分割する。 厳密な統計的仮説検証手順は、そのようなセグメンテーションの意義をテストするために設計されている。 多くの合成および実世界のデータセットにおける実験結果は,提案手法のロバスト性,精度,有効性を示し,他のロバスト有限混合回帰法,空間回帰法,空間分割法と比較した。

In this paper, we propose a Spatial Robust Mixture Regression model to investigate the relationship between a response variable and a set of explanatory variables over the spatial domain, assuming that the relationships may exhibit complex spatially dynamic patterns that cannot be captured by constant regression coefficients. Our method integrates the robust finite mixture Gaussian regression model with spatial constraints, to simultaneously handle the spatial nonstationarity, local homogeneity, and outlier contaminations. Compared with existing spatial regression models, our proposed model assumes the existence a few distinct regression models that are estimated based on observations that exhibit similar response-predictor relationships. As such, the proposed model not only accounts for nonstationarity in the spatial trend, but also clusters observations into a few distinct and homogenous groups. This provides an advantage on interpretation with a few stationary sub-processes identified that capture the predominant relationships between response and predictor variables. Moreover, the proposed method incorporates robust procedures to handle contaminations from both regression outliers and spatial outliers. By doing so, we robustly segment the spatial domain into distinct local regions with similar regression coefficients, and sporadic locations that are purely outliers. Rigorous statistical hypothesis testing procedure has been designed to test the significance of such segmentation. Experimental results on many synthetic and real-world datasets demonstrate the robustness, accuracy, and effectiveness of our proposed method, compared with other robust finite mixture regression, spatial regression and spatial segmentation methods.
翻訳日:2021-09-04 09:12:57 公開日:2021-09-01
# (参考訳) ニューラルネットワーク検証のための証明転送 [全文訳有]

Proof Transfer for Neural Network Verification ( http://arxiv.org/abs/2109.00542v1 )

ライセンス: CC BY 4.0
Christian Sprecher, Marc Fischer, Dimitar I. Dimitrov, Gagandeep Singh, Martin Vechev(参考訳) 本稿では,ニューラルネットワーク検証のための証明伝達の概念を紹介する。 既存の証明をキャプチャして一般化する証明テンプレートを生成することで、後続の証明を高速化できることを示す。 特に、同じニューラルネットワーク上の以前の証明からこれらのテンプレートを作成し、(i)他のプロパティを検証するときに証明がオンラインで作成される場合と(ii)データセットを使用してテンプレートがオフラインで作成される場合の2つを考慮する。 我々は、ニューラルネットワークのロバスト性証明の3つの重要な仮説に基づく。 本評価は,ニューラルネットワークの逆パッチ,幾何,および$\ell_{\infty}$-perturbationsに対する堅牢性検証に有効であることを示す。

We introduce the novel concept of proof transfer for neural network verification. We show that by generating proof templates that capture and generalize existing proofs, we can speed up subsequent proofs. In particular we create these templates from previous proofs on the same neural network and consider two cases: (i) where the proofs are created online when verifying other properties and (ii) where the templates are created offline using a dataset. We base our methods on three key hypotheses of neural network robustness proofs. Our evaluation shows the potential of proof transfer for benefitting robustness verification of neural networks against adversarial patches, geometric, and $\ell_{\infty}$-perturbations.
翻訳日:2021-09-04 08:51:25 公開日:2021-09-01
# (参考訳) マイトーシス検出のためのフーリエドメインsk-unetモデル [全文訳有]

Sk-Unet Model with Fourier Domain for Mitosis Detection ( http://arxiv.org/abs/2109.00957v1 )

ライセンス: CC BY 4.0
Sen Yang, Feng Luo, Jun Zhang, Xiyue Wang(参考訳) 乳がんの悪性度は, 乳腺癌において最も重要な形態学的特徴である。 多くのディープラーニングベースの手法が提案されているが、ドメインシフトに苦しむ。 本研究では,この問題を解決するために,マイトーシス検出のためのフーリエベースセグメンテーションモデルを構築した。 ソースとターゲット画像の低周波スペクトルをスワップすることで、異なるスキャナ間の差を軽減することができる。 フーリエに基づくセグメンテーション手法は, 予備テストセット上で 0.7456 で f1 を実現できる。

Mitotic count is the most important morphological feature of breast cancer grading. Many deep learning-based methods have been proposed but suffer from domain shift. In this work, we construct a Fourier-based segmentation model for mitosis detection to address the problem. Swapping the low-frequency spectrum of source and target images is shown effective to alleviate the discrepancy between different scanners. Our Fourier-based segmentation method can achieve F1 with 0.7456 on the preliminary test set.
翻訳日:2021-09-04 08:20:28 公開日:2021-09-01
# (参考訳) NLPモデルの対戦訓練改善に向けて [全文訳有]

Towards Improving Adversarial Training of NLP Models ( http://arxiv.org/abs/2109.00544v1 )

ライセンス: CC BY 4.0
Jin Yong Yoo, Yanjun Qi(参考訳) 強固なディープニューラルネットワークの学習方法であるadversarial trainingは、トレーニング中に逆行例を構築する。 しかし、最近のNLP対逆例の生成手法には、合成検索と、生成されたインスタンスを制約する高価な文エンコーダが含まれる。 その結果,NLPモデルの性能向上にバニラ逆行訓練を用いることは依然として困難であり,そのメリットは主に調査されていない。 そこで本研究では,NLP に対するバニラ対逆訓練を簡易かつ改良し,Attaking to Training (\texttt{A2T}$) と名付けた。 $\texttt{A2T}$の中核となるのは、バニラ逆行訓練に最適化された、新しく安価な単語置換攻撃である。 IMDB、Rotten Tomatoes、Yelp、SNLIデータセット上でBERTとRoBERTaモデルをトレーニングするために、$\texttt{A2T}$を使用します。 以上の結果から,より安価な逆数モデルを用いて実験的に堅牢なNLPモデルを訓練することが可能であることが示唆された。 我々は,$\texttt{a2t}$を用いたバニラ攻撃訓練が,当初トレーニングした攻撃に対するnlpモデルの堅牢性を改善し,他のタイプの攻撃からモデルを守ることを実証する。 さらに、$\texttt{A2T}$は、NLPモデルの標準精度、クロスドメインの一般化、解釈可能性を改善することができることを示す。 コードはhttp://github.com/ji nyongyoo/A2Tで入手できる。

Adversarial training, a method for learning robust deep neural networks, constructs adversarial examples during training. However, recent methods for generating NLP adversarial examples involve combinatorial search and expensive sentence encoders for constraining the generated instances. As a result, it remains challenging to use vanilla adversarial training to improve NLP models' performance, and the benefits are mainly uninvestigated. This paper proposes a simple and improved vanilla adversarial training process for NLP, which we name Attacking to Training ($\texttt{A2T}$). The core part of $\texttt{A2T}$ is a new and cheaper word substitution attack optimized for vanilla adversarial training. We use $\texttt{A2T}$ to train BERT and RoBERTa models on IMDB, Rotten Tomatoes, Yelp, and SNLI datasets. Our results show that it is possible to train empirically robust NLP models using a much cheaper adversary. We demonstrate that vanilla adversarial training with $\texttt{A2T}$ can improve an NLP model's robustness to the attack it was originally trained with and also defend the model against other types of attacks. Furthermore, we show that $\texttt{A2T}$ can improve NLP models' standard accuracy, cross-domain generalization, and interpretability. Code is available at http://github.com/ji nyongyoo/A2T .
翻訳日:2021-09-04 08:17:07 公開日:2021-09-01
# (参考訳) フェア表現:未知タスクに対する近似多重グループフェアネスの保証 [全文訳有]

Fair Representation: Guaranteeing Approximate Multiple Group Fairness for Unknown Tasks ( http://arxiv.org/abs/2109.00545v1 )

ライセンス: CC BY 4.0
Xudong Shen, Yongkang Wong, Mohan Kankanhalli(参考訳) 多様な予測タスクにデータが使用されるシナリオによって動機付けられ、未知のタスクに対する公平性と複数の公正性の概念を同時に保証するために公正表現が使用できるかどうかを考察する。 独立性、分離性、校正性の7つのグループフェアネス概念を考察する。 フェアネス不合理な結果の背景に対して、近似フェアネスを探索する。 公正表現はすべての予測タスクの公平性を保証するものではないが、重要なタスクのサブセット -- 表現が判別可能なタスク -- の公正性を保証することが証明される。 特に、7つの群のフェアネス概念はすべて、表現のフェアネスと判別性によって線形に制御される。 異なるフェアネス概念の間に非互換性が存在するとき、フェアと判別表現は、ほぼすべての概念を満たすスイートスポットにぶつかる。 理論的な知見に動機づけられ, 学習を自己管理する前文ロスと, 正則化として最大平均偏差を用いて, 公正表現と判別表現の両方を学ぶことを提案する。 表、画像、顔のデータセットに関する実験では、学習した表現を用いることで、その表現を学習する際に認識できない下流の予測が7つのグループフェアネス概念に対して公正になり、理論結果から計算されたフェアネス保証がすべて有効であることが示されている。

Motivated by scenarios where data is used for diverse prediction tasks, we study whether fair representation can be used to guarantee fairness for unknown tasks and for multiple fairness notions simultaneously. We consider seven group fairness notions that cover the concepts of independence, separation, and calibration. Against the backdrop of the fairness impossibility results, we explore approximate fairness. We prove that, although fair representation might not guarantee fairness for all prediction tasks, it does guarantee fairness for an important subset of tasks -- the tasks for which the representation is discriminative. Specifically, all seven group fairness notions are linearly controlled by fairness and discriminativeness of the representation. When an incompatibility exists between different fairness notions, fair and discriminative representation hits the sweet spot that approximately satisfies all notions. Motivated by our theoretical findings, we propose to learn both fair and discriminative representations using pretext loss which self-supervises learning, and Maximum Mean Discrepancy as a fair regularizer. Experiments on tabular, image, and face datasets show that using the learned representation, downstream predictions that we are unaware of when learning the representation indeed become fairer for seven group fairness notions, and the fairness guarantees computed from our theoretical results are all valid.
翻訳日:2021-09-04 07:58:38 公開日:2021-09-01
# (参考訳) ベンガルナンバープレートの自動認識手法 [全文訳有]

An Automated Approach for the Recognition of Bengali License Plates ( http://arxiv.org/abs/2109.00906v1 )

ライセンス: CC0 1.0
Md Abdullah Al Nasim, Atiqul Islam Chowdhury, Jannatun Naeem Muna, Faisal Muhammad Shah(参考訳) 自動ナンバープレート認識(ALPR)は、車両のナンバープレートを自動的に識別するシステムである。 このプロセスは、トラッキング、チケット、その他の請求システムなどにとって重要です。 情報通信技術(ICT)を利用することで、車両追跡システムを含む全てのシステムが自動化されている。 本研究では,ライセンスプレートを文字で検出するハイブリッド手法を提案する。 本研究は,バングラデシュの車両の認識手順において,撮影した画像情報を用いて行った。 ここでは、ライセンスプレート検出のために、YOLOモデルは81%の精度で予測された。 その後、ナンバープレートのセグメンテーションには大津のスレッショニングが使われ、文字認識にはCNNモデルが採用された。 このモデルでは、車両の自動ナンバープレート検出システムが誤用を避けることができる。

Automatic Number Plate Recognition (ALPR) is a system for automatically identifying the license plates of any vehicle. This process is important for tracking, ticketing, and any billing system, among other things. With the use of information and communication technology (ICT), all systems are being automated, including the vehicle tracking system. This study proposes a hybrid method for detecting license plates using characters from them. Our captured image information was used for the recognition procedure in Bangladeshi vehicles, which is the topic of this study. Here, for license plate detection, the YOLO model was used where 81% was correctly predicted. And then, for license plate segmentation, Otsu's Thresholding was used and eventually, for character recognition, the CNN model was applied. This model will allow the vehicle's automated license plate detection system to avoid any misuse.
翻訳日:2021-09-04 06:56:24 公開日:2021-09-01
# (参考訳) 知識は一般のNLUに役立つか? 実証的研究 [全文訳有]

Does Knowledge Help General NLU? An Empirical Study ( http://arxiv.org/abs/2109.00563v1 )

ライセンス: CC BY 4.0
Ruochen Xu, Yuwei Fang, Chenguang Zhu, Michael Zeng(参考訳) 知識中心のタスク(例えば、常識的な質問と回答、関係分類)では、エンティティ表現のような外部の知識を言語モデルに統合することで、パフォーマンスを高めるための有用な情報を提供できることがしばしば観察される。 しかし、この利点が一般的な自然言語理解(NLU)タスクに拡張できるかどうかはまだ不明である。 本研究では,様々な知識統合手法を用いて言語モデルのエンドツーエンド性能を測定し,外部知識の寄与を実証的に検討した。 知識の導入は,他のタスクに悪影響を及ぼすことなく,特定のタスクにおける結果を大幅に改善できることがわかった。 次に,言語モデルが外部知識をどのように活用するかを明らかにするために,知識とニューラル解釈モデルの違いを反映した相互情報を用いる。 本研究は,NLPモデルに知識を付与する実践者に対して,貴重な洞察とガイダンスを提供する。

It is often observed in knowledge-centric tasks (e.g., common sense question and answering, relation classification) that the integration of external knowledge such as entity representation into language models can help provide useful information to boost the performance. However, it is still unclear whether this benefit can extend to general natural language understanding (NLU) tasks. In this work, we empirically investigated the contribution of external knowledge by measuring the end-to-end performance of language models with various knowledge integration methods. We find that the introduction of knowledge can significantly improve the results on certain tasks while having no adverse effects on other tasks. We then employ mutual information to reflect the difference brought by knowledge and a neural interpretation model to reveal how a language model utilizes external knowledge. Our study provides valuable insights and guidance for practitioners to equip NLP models with knowledge.
翻訳日:2021-09-04 06:50:36 公開日:2021-09-01
# (参考訳) DILBERT: カテゴリシフトによるドメイン適応のためのカスタマイズ事前訓練とアスペクト抽出への応用 [全文訳有]

DILBERT: Customized Pre-Training for Domain Adaptation withCategory Shift, with an Application to Aspect Extraction ( http://arxiv.org/abs/2109.00571v1 )

ライセンス: CC BY 4.0
Entony Lekhtman, Yftah Ziser, Roi Reichart(参考訳) 事前訓練された言語モデルの台頭は、自然言語処理(NLP)タスクの大部分でかなりの進歩をもたらした。 しかし、事前学習手順への一般的なアプローチは、自然に最適ではない場合もある。 特に、ソースドメイン上で事前訓練された言語モデルを微調整し、異なるターゲットドメインに適用すると、多くのソースターゲットドメインペアに対する最終的な分類器のパフォーマンスが大幅に低下する。 さらに、いくつかのNLPタスクでは、出力カテゴリがドメイン間で大きく異なり、適応がさらに困難になる。 例えば、アスペクト抽出(アスペクト抽出)のタスクでは、レストランや電子機器などのレビューの関心の側面が非常に異なる場合があります。 本稿では,この課題に対処することを目的としたBERTの微調整手法を提案する。 我々は、このスキームをDILBERT: Domain Invariant Learning with BERTと命名し、教師なしドメイン適応設定におけるアスペクト抽出のためにカスタマイズする。 ディルバートは、ソース領域とターゲット領域の両方のカテゴリ情報を利用して、事前学習プロセスをよりドメインとカテゴリ不変表現へと導くことにより、ドメイン間のギャップを閉じる。 DILBERTは、ラベルなしデータのごく一部を使用しながら、最先端のベースラインよりも大幅に改善されていることを示す。

The rise of pre-trained language models has yielded substantial progress in the vast majority of Natural Language Processing (NLP) tasks. However, a generic approach towards the pre-training procedure can naturally be sub-optimal in some cases. Particularly, fine-tuning a pre-trained language model on a source domain and then applying it to a different target domain, results in a sharp performance decline of the eventual classifier for many source-target domain pairs. Moreover, in some NLP tasks, the output categories substantially differ between domains, making adaptation even more challenging. This, for example, happens in the task of aspect extraction, where the aspects of interest of reviews of, e.g., restaurants or electronic devices may be very different. This paper presents a new fine-tuning scheme for BERT, which aims to address the above challenges. We name this scheme DILBERT: Domain Invariant Learning with BERT, and customize it for aspect extraction in the unsupervised domain adaptation setting. DILBERT harnesses the categorical information of both the source and the target domains to guide the pre-training process towards a more domain and category invariant representation, thus closing the gap between the domains. We show that DILBERT yields substantial improvements over state-of-the-art baselines while using a fraction of the unlabeled data, particularly in more challenging domain adaptation setups.
翻訳日:2021-09-04 06:30:39 公開日:2021-09-01
# (参考訳) active label cleaning: リソース制約下でのデータセットの品質向上 [全文訳有]

Active label cleaning: Improving dataset quality under resource constraints ( http://arxiv.org/abs/2109.00574v1 )

ライセンス: CC BY 4.0
Melanie Bernhardt, Daniel C. Castro, Ryutaro Tanno, Anton Schwaighofer, Kerem C. Tezcan, Miguel Monteiro, Shruthi Bannur, Matthew Lungren, Aditya Nori, Ben Glocker, Javier Alvarez-Valle, Ozan Oktay(参考訳) ラベルノイズとして知られるデータアノテーションの欠陥は、機械学習モデルのトレーニングに有害であり、しばしば見過ごされる結果がモデル性能の評価に影響を及ぼす。 それでも、大規模なデータセットを完全にアノテートすることでラベルノイズを取り除く専門家を採用することは、医療などのリソース制約された設定では不可能である。 この研究は、再アノテーションのためのサンプルを優先順位付けするデータ駆動アプローチを提唱している。 そこで本研究では,各サンプルのラベルの正確さとラベル付けの難しさを推定し,評価のためのシミュレーションフレームワークを提案する。 自然画像および新しい医用画像ベンチマーク実験により, 騒音ラベルの除去は, モデルトレーニング, 評価, 選択に対する負の影響を緩和することが示された。 重要な点として,提案するアクティブラベルクリーニングは,現実的な条件下での通常のランダム選択よりも4倍効果的にラベルの修正が可能であり,専門家の貴重な時間をデータセットの品質向上に役立てることができる。

Imperfections in data annotation, known as label noise, are detrimental to the training of machine learning models and have an often-overlooked confounding effect on the assessment of model performance. Nevertheless, employing experts to remove label noise by fully re-annotating large datasets is infeasible in resource-constrained settings, such as healthcare. This work advocates for a data-driven approach to prioritising samples for re-annotation - which we term "active label cleaning". We propose to rank instances according to estimated label correctness and labelling difficulty of each sample, and introduce a simulation framework to evaluate relabelling efficacy. Our experiments on natural images and on a new medical imaging benchmark show that cleaning noisy labels mitigates their negative impact on model training, evaluation, and selection. Crucially, the proposed active label cleaning enables correcting labels up to 4 times more effectively than typical random selection in realistic conditions, making better use of experts' valuable time for improving dataset quality.
翻訳日:2021-09-04 06:13:22 公開日:2021-09-01
# (参考訳) WebQA: マルチホップとマルチモーダルQA

WebQA: Multihop and Multimodal QA ( http://arxiv.org/abs/2109.00590v1 )

ライセンス: CC BY 4.0
Yingshan Chang, Mridu Narang, Hisami Suzuki, Guihong Cao, Jianfeng Gao, Yonatan Bisk(参考訳) Web検索は基本的にマルチモーダルでマルチホップである。 多くの場合、質問の前にも、直接画像検索へ行って答えを見つけることを選びます。 さらに、単一の情報源から答えを見つけることは滅多にないが、情報や理由を含意してまとめることはできない。 この日常的な発生頻度にもかかわらず、現在、テキストやオープンエンドのビジュアルソースから長い形式の自然言語質問に答えるために単一のモデルを必要とする統一質問応答ベンチマークは存在しません。 我々は、自然言語とコンピュータビジョンのコミュニティの間のギャップをwebqaで橋渡しすることを提案する。 A. マルチホップテキストクエリは大規模トランスフォーマーモデルでは困難であり, B. 既存のマルチモーダルトランスフォーマーと視覚表現はオープンドメインのビジュアルクエリではうまく動作しないことを示す。 コミュニティにとっての課題は、ソースモダリティに関係なくシームレスに移行と理由を持つ、統一されたマルチモーダル推論モデルを作ることです。

Web search is fundamentally multimodal and multihop. Often, even before asking a question we choose to go directly to image search to find our answers. Further, rarely do we find an answer from a single source but aggregate information and reason through implications. Despite the frequency of this everyday occurrence, at present, there is no unified question answering benchmark that requires a single model to answer long-form natural language questions from text and open-ended visual sources -- akin to a human's experience. We propose to bridge this gap between the natural language and computer vision communities with WebQA. We show that A. our multihop text queries are difficult for a large-scale transformer model, and B. existing multi-modal transformers and visual representations do not perform well on open-domain visual queries. Our challenge for the community is to create a unified multimodal reasoning model that seamlessly transitions and reasons regardless of the source modality.
翻訳日:2021-09-04 06:05:29 公開日:2021-09-01
# (参考訳) 機械学習を用いたラテン書体分析 : 古い質問に対する新しいアプローチ [全文訳有]

Latin writing styles analysis with Machine Learning: New approach to old questions ( http://arxiv.org/abs/2109.00601v1 )

ライセンス: CC BY 4.0
Arianna Di Bernardo, Simone Poetto, Pietro Sillano, Beatrice Villata, Weronika S\'ojka, Zofia Pi\k{e}tka-Danilewicz, Piotr Pranke(参考訳) 中世のテキストは、世代から世代までのコミュニケーション手段を用いて、心から学び、普及した。 散文や詩の芸術への適応は、多くの文学ジャンルに特有の、特定の記述や作曲の維持を可能にした。 ラテン語で書かれた文学の特定の構成を考慮に入れれば、特定の物語テキストの親しみやすい情報源の確率パターンを探索し、示すことができる。 自然言語処理ツールの考察により、テキストオブジェクトを数値に変換し、機械学習アルゴリズムを用いてデータセットから情報を抽出することができた。 我々は,これらの概念の実用的利用と観察からなる課題を遂行し,オープンソースデータベースを基盤としたナラティブテキストの分析ツールを構築した。 このツールは、テキスト全体の詳細な検索を可能にする、特定の検索ツールリソースの作成に焦点を当てている。 本研究の主な目的は,文章間の類似性と文書間の類似性を検討することである。 次に、選択されたテキストに機械学習アルゴリズムを適用し、それらの特定の特徴(例えば著者や世紀)を計算し、特定の割合で匿名テキストのソースを認識する。

In the Middle Ages texts were learned by heart and spread using oral means of communication from generation to generation. Adaptation of the art of prose and poems allowed keeping particular descriptions and compositions characteristic for many literary genres. Taking into account such a specific construction of literature composed in Latin, we can search for and indicate the probability patterns of familiar sources of specific narrative texts. Consideration of Natural Language Processing tools allowed us the transformation of textual objects into numerical ones and then application of machine learning algorithms to extract information from the dataset. We carried out the task consisting of the practical use of those concepts and observation to create a tool for analyzing narrative texts basing on open-source databases. The tool focused on creating specific search tools resources which could enable us detailed searching throughout the text. The main objectives of the study take into account finding similarities between sentences and between documents. Next, we applied machine learning algorithms on chosen texts to calculate specific features of them (for instance authorship or centuries) and to recognize sources of anonymous texts with a certain percentage.
翻訳日:2021-09-04 06:01:48 公開日:2021-09-01
# (参考訳) テキストと画像を用いた視点型予測 [全文訳有]

Point-of-Interest Type Prediction using Text and Images ( http://arxiv.org/abs/2109.00602v1 )

ライセンス: CC BY 4.0
Danae S\'anchez Villegas, Nikolaos Aletras(参考訳) Point-of-interest(PO I)タイプ予測は、ソーシャルメディア投稿が共有された場所から場所のタイプを推測するタスクである。 POIの型を推定することは、社会言語学、地理学、文化地理学を含む計算社会科学の研究に有用であり、レコメンデーションやビジュアライゼーションシステムなどの地理ネットワーク技術にも応用できる。 POI型予測の以前の取り組みは、視覚情報を考慮に入れずに、テキストのみに焦点を当てていた。 しかし、実際には、様々なモダリティ、およびそれらの相互のセミオティックな関係は、ソーシャルメディアにおけるコミュニケーションと対話を形作る。 本稿では,ポスト時に利用可能なテキストや画像からのマルチモーダル情報を用いたPOI型予測手法を提案する。 そこで我々は,テキストメッセージに付随する画像を用いて,poi型予測のための現在利用可能なデータセットを拡張した。 提案手法は,テキストのみの手法に基づくPOI型予測の最先端手法よりも,8つのカテゴリで47.21のマクロF1を実現するために,テキストと画像間の相互作用を効果的に捉えるために,各モードから関連情報を抽出する。 最後に,クロスモーダルインタラクションと最高のパフォーマンスモデルの限界について,詳細な分析を行う。

Point-of-interest (POI) type prediction is the task of inferring the type of a place from where a social media post was shared. Inferring a POI's type is useful for studies in computational social science including sociolinguistics, geosemiotics, and cultural geography, and has applications in geosocial networking technologies such as recommendation and visualization systems. Prior efforts in POI type prediction focus solely on text, without taking visual information into account. However in reality, the variety of modalities, as well as their semiotic relationships with one another, shape communication and interactions in social media. This paper presents a study on POI type prediction using multimodal information from text and images available at posting time. For that purpose, we enrich a currently available data set for POI type prediction with the images that accompany the text messages. Our proposed method extracts relevant information from each modality to effectively capture interactions between text and image achieving a macro F1 of 47.21 across eight categories significantly outperforming the state-of-the-art method for POI type prediction based on text-only methods. Finally, we provide a detailed analysis to shed light on cross-modal interactions and the limitations of our best performing model.
翻訳日:2021-09-04 05:53:41 公開日:2021-09-01
# (参考訳) LinEasyBO: 1次元部分空間によるアナログ回路合成のためのスケーラブルベイズ最適化手法 [全文訳有]

LinEasyBO: Scalable Bayesian Optimization Approach for Analog Circuit Synthesis via One-Dimensional Subspaces ( http://arxiv.org/abs/2109.00617v1 )

ライセンス: CC BY-SA 4.0
Shuhan Zhang, Fan Yang, Changhao Yan, Dian Zhou, Xuan Zeng(参考訳) 多くの文献がベイズ最適化フレームワークが特に効率的でアナログ回路合成に有効であることを証明している。 しかし、これまでの研究の多くは情報的代理モデルや効率的な獲得機能の設計にのみ焦点をあてている。 取得関数表面上でのグローバル最適探索はそれ自体が難しい作業であるとしても、ほとんど無視されている。 本稿では,アナログ回路合成のための一次元部分空間を用いた高速でロバストなベイズ最適化手法を提案する。 各イテレーションで1次元部分空間を最適化することだけに集中することで、取得関数を安全に最大化しながらベイズ最適化フレームワークの計算オーバーヘッドを大幅に削減する。 異なる次元選択戦略の利点を組み合わせることで、グローバル検索とローカル検索を適応的にバランスさせる。 バッチベイズ最適化フレームワークを活用することにより,ハードウェアリソースをフル活用することにより,最適化手順をさらに高速化する。 その結果,提案アルゴリズムはバッチサイズが15のとき,LP-EIとREMBOpBOと比較して最大9倍,38倍の最適化を高速化できることがわかった。

A large body of literature has proved that the Bayesian optimization framework is especially efficient and effective in analog circuit synthesis. However, most of the previous research works only focus on designing informative surrogate models or efficient acquisition functions. Even if searching for the global optimum over the acquisition function surface is itself a difficult task, it has been largely ignored. In this paper, we propose a fast and robust Bayesian optimization approach via one-dimensional subspaces for analog circuit synthesis. By solely focusing on optimizing one-dimension subspaces at each iteration, we greatly reduce the computational overhead of the Bayesian optimization framework while safely maximizing the acquisition function. By combining the benefits of different dimension selection strategies, we adaptively balancing between searching globally and locally. By leveraging the batch Bayesian optimization framework, we further accelerate the optimization procedure by making full use of the hardware resources. Experimental results quantitatively show that our proposed algorithm can accelerate the optimization procedure by up to 9x and 38x compared to LP-EI and REMBOpBO respectively when the batch size is 15.
翻訳日:2021-09-04 05:35:21 公開日:2021-09-01
# (参考訳) 議論とサンプリングによる構成プログラムの学習 [全文訳有]

Learning compositional programs with arguments and sampling ( http://arxiv.org/abs/2109.00619v1 )

ライセンス: CC BY-SA 4.0
Giovanni De Toni, Luca Erculiani, Andrea Passerini(参考訳) インテリジェントシステムを設計する上で最も難しい目標の1つは、データからプログラムを合成する能力を彼らに与えることである。 すなわち、入出力ペアの形式で特定の要件を与えられた場合、その要件を満たすプログラムを見つけるために機械学習モデルをトレーニングすることである。 最近の手法は合成プログラムの学習に組合せ探索法と深層学習を利用する。 しかし、通常は関数引数などのハイレベルな機能を提供しないドメイン固有言語を使用してトイプログラムのみを生成するため、実際の設定での適用性が低下する。 我々は、引数を受理できる関数を生成することを学ぶことによって、アートモデルAlphaNPIの状態を拡張する。 この改良により、実際のコンピュータプログラムに近づくことができます。 さらに,モンテカルロ木探索(A-MCTS)の近似バージョンを用いて収束を高速化する。 我々はQuicksortアルゴリズムを学習し、議論に対処する能力が学習と一般化にとっていかに重要であるかを示す。

One of the most challenging goals in designing intelligent systems is empowering them with the ability to synthesize programs from data. Namely, given specific requirements in the form of input/output pairs, the goal is to train a machine learning model to discover a program that satisfies those requirements. A recent class of methods exploits combinatorial search procedures and deep learning to learn compositional programs. However, they usually generate only toy programs using a domain-specific language that does not provide any high-level feature, such as function arguments, which reduces their applicability in real-world settings. We extend upon a state of the art model, AlphaNPI, by learning to generate functions that can accept arguments. This improvement will enable us to move closer to real computer programs. Moreover, we investigate employing an Approximate version of Monte Carlo Tree Search (A-MCTS) to speed up convergence. We showcase the potential of our approach by learning the Quicksort algorithm, showing how the ability to deal with arguments is crucial for learning and generalization.
翻訳日:2021-09-04 05:19:36 公開日:2021-09-01
# (参考訳) 連星間距離の近似に関するアルゴリズム [全文訳有]

Algorithme de recherche approximative dans un dictionnaire fond\'e sur une distance d'\'edition d\'efinie par blocs ( http://arxiv.org/abs/2109.00624v1 )

ライセンス: CC BY-SA 4.0
Pascal Vaillant(参考訳) 本稿では,変更文字列を参照形式にマッチさせる近似辞書検索アルゴリズムを提案する。 このアルゴリズムは、文字列間の分岐関数(編集距離の族に属する)を利用し、検索文字列までの距離が一定の閾値以下である辞書エントリを見つける。 分散関数は古典的な編集距離(DL距離)ではなく、特定のコーパスに適用可能であり、個々の文字ではなく、文字ブロックに定義された基本的な変更コストに基づいている。 nous proposons un algorithme de recherche approximative de cha\^ines dans un dictionnaire \`a partir de formes alt\'er\'ees. cet algorithme est fond\e sur une fonction de divergence entre cha\^ines~ -- une sorte de distance d'\'edition: il recherche des entr\'ees pour lesquelles la distance \`a la cha\^ine cherch\'ee est inf\'erieure \`a un certain seuil La fonction utilis\'ee n'est pas la distance d'\edition classique (distance DL); elle est adapt\'ee \`a un corpus, et se fonde sur la prise en compte de co\uts d'alt\'eration \'el\'ementaires d\'efinis non pas sur des caract\`eres, mais sur des sous-cha\^ines (des blocs de caract\`eres)。

We propose an algorithm for approximative dictionary lookup, where altered strings are matched against reference forms. The algorithm makes use of a divergence function between strings -- broadly belonging to the family of edit distances; it finds dictionary entries whose distance to the search string is below a certain threshold. The divergence function is not the classical edit distance (DL distance); it is adaptable to a particular corpus, and is based on elementary alteration costs defined on character blocks, rather than on individual characters. Nous proposons un algorithme de recherche approximative de cha\^ines dans un dictionnaire \`a partir de formes alt\'er\'ees. Cet algorithme est fond\'e sur une fonction de divergence entre cha\^ines~ -- une sorte de distance d'\'edition: il recherche des entr\'ees pour lesquelles la distance \`a la cha\^ine cherch\'ee est inf\'erieure \`a un certain seuil. La fonction utilis\'ee n'est pas la distance d'\'edition classique (distance DL); elle est adapt\'ee \`a un corpus, et se fonde sur la prise en compte de co\^uts d'alt\'eration \'el\'ementaires d\'efinis non pas sur des caract\`eres, mais sur des sous-cha\^ines (des blocs de caract\`eres).
翻訳日:2021-09-04 05:07:52 公開日:2021-09-01
# (参考訳) 部分音声タグを用いたソースコード識別器のアンサンブルアプローチ [全文訳有]

An Ensemble Approach for Annotating Source Code Identifiers with Part-of-speech Tags ( http://arxiv.org/abs/2109.00629v1 )

ライセンス: CC BY 4.0
Christian D. Newman, Michael J. Decker, Reem S. AlSuhaibani, Anthony Peruma, Satyajit Mohapatra, Tejal Vishnoi, Marcos Zampieri, Mohamed W. Mkaouer, Timothy J. Sheldon, Emily Hill(参考訳) 本稿では,ソースコード識別子に対するアンサンブル・オブ・音声タグ方式を提案する。 アンサンブルタギング(英: Ensemble tagging)とは、複数の音声タグから得られる機械学習と出力を用いて、音声タグよりも高い品質で自然言語テキストに注釈を付ける手法である。 私たちのアンサンブルでは、SWUM、POSSE、スタンフォードという最先端の3つのタグが使われています。 我々は,各単語と完全識別子名の両方のレベルで,関数,クラス,属性,パラメータ,宣言文の5種類の識別子名に対するアンサンブルのアノテーションの品質について検討した。 また,これらの課題の今後の改善を促進するためのタグの弱点について,さらなる研究を通じて検討・検討する。 その結果, 識別子レベルでは75\%, 単語レベルでは84-86\%の精度が得られた。 これは、最も近い独立な音声タグから識別子レベルでの+17\%ポイントの増加である。

This paper presents an ensemble part-of-speech tagging approach for source code identifiers. Ensemble tagging is a technique that uses machine-learning and the output from multiple part-of-speech taggers to annotate natural language text at a higher quality than the part-of-speech taggers are able to obtain independently. Our ensemble uses three state-of-the-art part-of-speech taggers: SWUM, POSSE, and Stanford. We study the quality of the ensemble's annotations on five different types of identifier names: function, class, attribute, parameter, and declaration statement at the level of both individual words and full identifier names. We also study and discuss the weaknesses of our tagger to promote the future amelioration of these problems through further research. Our results show that the ensemble achieves 75\% accuracy at the identifier level and 84-86\% accuracy at the word level. This is an increase of +17\% points at the identifier level from the closest independent part-of-speech tagger.
翻訳日:2021-09-04 03:59:54 公開日:2021-09-01
# (参考訳) AutoMLによる最適トレースクラスタリングパイプラインの選択 [全文訳有]

Selecting Optimal Trace Clustering Pipelines with AutoML ( http://arxiv.org/abs/2109.00635v1 )

ライセンス: CC BY 4.0
Sylvio Barbon Jr, Paolo Ceravolo, Ernesto Damiani, Gabriel Marques Tavares(参考訳) トレースクラスタリングはイベントログの前処理に広く使われている。 類似した振る舞いをグループ化することにより、これらのテクニックはサブログの識別を導き、より理解しやすいモデルと適合分析を生成する。 それにもかかわらず、イベントログ特性とクラスタ品質の関係にはほとんど注意が払われていない。 本研究では,イベントログに符号化手法,クラスタリングアルゴリズム,ハイパーパラメータを含むトレースクラスタリングに最適なパイプラインを推奨する,自動機械学習(Automatic Machine Learning, AutoML)フレームワークを提案する。 実験は,1000のイベントログ,4つのエンコーディング技術,3つのクラスタリング手法を用いて行った。 その結果,我々のフレームワークはトレースクラスタリングの問題に光を当て,シナリオを考慮した最適なパイプライン選択を支援することができた。

Trace clustering has been extensively used to preprocess event logs. By grouping similar behavior, these techniques guide the identification of sub-logs, producing more understandable models and conformance analytics. Nevertheless, little attention has been posed to the relationship between event log properties and clustering quality. In this work, we propose an Automatic Machine Learning (AutoML) framework to recommend the most suitable pipeline for trace clustering given an event log, which encompasses the encoding method, clustering algorithm, and its hyperparameters. Our experiments were conducted using a thousand event logs, four encoding techniques, and three clustering methods. Results indicate that our framework sheds light on the trace clustering problem and can assist users in choosing the best pipeline considering their scenario.
翻訳日:2021-09-04 03:29:06 公開日:2021-09-01
# (参考訳) 効率的な多段視覚変換器の探索 [全文訳有]

Searching for Efficient Multi-Stage Vision Transformers ( http://arxiv.org/abs/2109.00642v1 )

ライセンス: CC BY 4.0
Yi-Lun Liao and Sertac Karaman and Vivienne Sze(参考訳) 視覚トランスフォーマー (vit) は、自然言語処理のトランスフォーマーがコンピュータビジョンタスクに適用可能であり、長年コンピュータビジョンで研究され採用されてきた畳み込みニューラルネットワーク (cnn) に匹敵する性能をもたらすことを実証している。 これにより、CNNの設計技術によってViTのパフォーマンスが向上するかどうかという疑問が自然に持ち上がる。 この目的のために,ニューラルアーキテクチャサーチ (NAS) を用いた効率的な多段階型ViTアーキテクチャであるViT-ResNASを提案する。 まず,より深い層におけるシーケンス長の削減と多段構造を用いた残留空間削減を提案する。 長さを減らすためにスキップ接続を追加し、性能を改善し、より深いネットワークのトレーニングを安定化します。 次に,マルチアーキテクチャサンプリングを用いた重み共有NASを提案する。 ネットワークを拡大し,そのサブネットワークを用いて検索空間を定義する。 すべてのサブネットワークをカバーするスーパーネットワークは、パフォーマンスの迅速な評価のためにトレーニングされる。 本稿では,スーパーネットワークを効率的にトレーニングするために,複数サブネットワークのサンプルとトレーニングを行う。 その後、高性能ネットワークアーキテクチャを発見するために進化探索を行う。 ImageNetの実験では、ViT-ResNASは元のDeiTや他のViTの強力なベースラインよりも精度の高いMACと精度の高いスループットトレードオフを実現している。 コードはhttps://github.com/y ilunliao/vit-searchで入手できる。

Vision Transformer (ViT) demonstrates that Transformer for natural language processing can be applied to computer vision tasks and result in comparable performance to convolutional neural networks (CNN), which have been studied and adopted in computer vision for years. This naturally raises the question of how the performance of ViT can be advanced with design techniques of CNN. To this end, we propose to incorporate two techniques and present ViT-ResNAS, an efficient multi-stage ViT architecture designed with neural architecture search (NAS). First, we propose residual spatial reduction to decrease sequence lengths for deeper layers and utilize a multi-stage architecture. When reducing lengths, we add skip connections to improve performance and stabilize training deeper networks. Second, we propose weight-sharing NAS with multi-architectural sampling. We enlarge a network and utilize its sub-networks to define a search space. A super-network covering all sub-networks is then trained for fast evaluation of their performance. To efficiently train the super-network, we propose to sample and train multiple sub-networks with one forward-backward pass. After that, evolutionary search is performed to discover high-performance network architectures. Experiments on ImageNet demonstrate that ViT-ResNAS achieves better accuracy-MACs and accuracy-throughput trade-offs than the original DeiT and other strong baselines of ViT. Code is available at https://github.com/y ilunliao/vit-search.
翻訳日:2021-09-04 03:14:21 公開日:2021-09-01
# (参考訳) RIFLE: 低次行列からのロバスト推論

RIFLE: Robust Inference from Low Order Marginals ( http://arxiv.org/abs/2109.00644v1 )

ライセンス: CC BY 4.0
Sina Baharlouei, Kelechi Ogudu, Sze-chuan Suen, Meisam Razaviyayn(参考訳) 実世界のデータセットに欠けている値のユビキタス性は、統計推論の課題となり、同様のデータセットが同じ研究で解析されることを防ぎ、既存の多くのデータセットが新しい分析に使用されることを妨げている。 データインプテーションのためのパッケージやアルゴリズムの膨大なコレクションが開発されているが、多くの欠落した値とサンプルサイズがある場合、圧倒的多数はパフォーマンスが悪く、残念ながら経験的データに共通する特徴である。 このような低精度推定は下流統計モデルの性能に悪影響を及ぼす。 我々は,不足した値を示唆することなく,対象変数を予測する統計的推論フレームワークを開発した。 我々のフレームワーク RIFLE (Robust InFerence via Low-order moment Estimations) は、低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。 我々は,線形回帰解析と正規判別分析を専門とし,収束性および性能保証を提供する。 このフレームワークは、欠落したデータに適応することもできる。 数値実験では、RIFLEと最先端のアプローチ(MICE、Amelia、MissForest、KNN-imputer、MIDA、Mean Imputerなど)を比較する。 実験の結果,RIFLEは,欠落値の割合が高く,データポイント数が比較的少ない場合には,他のベンチマークアルゴリズムよりも優れていた。 RIFLEは公開されている。

The ubiquity of missing values in real-world datasets poses a challenge for statistical inference and can prevent similar datasets from being analyzed in the same study, precluding many existing datasets from being used for new analyses. While an extensive collection of packages and algorithms have been developed for data imputation, the overwhelming majority perform poorly if there are many missing values and low sample size, which are unfortunately common characteristics in empirical data. Such low-accuracy estimations adversely affect the performance of downstream statistical models. We develop a statistical inference framework for predicting the target variable without imputing missing values. Our framework, RIFLE (Robust InFerence via Low-order moment Estimations), estimates low-order moments with corresponding confidence intervals to learn a distributionally robust model. We specialize our framework to linear regression and normal discriminant analysis, and we provide convergence and performance guarantees. This framework can also be adapted to impute missing data. In numerical experiments, we compare RIFLE with state-of-the-art approaches (including MICE, Amelia, MissForest, KNN-imputer, MIDA, and Mean Imputer). Our experiments demonstrate that RIFLE outperforms other benchmark algorithms when the percentage of missing values is high and/or when the number of data points is relatively small. RIFLE is publicly available.
翻訳日:2021-09-04 02:53:33 公開日:2021-09-01
# (参考訳) voiceprivacy 2020チャレンジの成果と調査結果

The VoicePrivacy 2020 Challenge: Results and findings ( http://arxiv.org/abs/2109.00648v1 )

ライセンス: CC BY 4.0
Natalia Tomashenko, Xin Wang, Emmanuel Vincent, Jose Patino, Brij Mohan Lal Srivastava, Paul-Gauthier No\'e, Andreas Nautsch, Nicholas Evans, Junichi Yamagishi, Benjamin O'Brien, Ana\"is Chanclu, Jean-Fran\c{c}ois Bonastre, Massimiliano Todisco, Mohamed Maouche(参考訳) 本稿では,音声技術のための匿名化ソリューションの開発に焦点を当てた第1回voiceprivacy 2020チャレンジの結果と分析について述べる。 提案システムと評価結果の分析により,課題設計の体系的な概要を述べる。 特に,システム開発と評価に使用される音声匿名化タスクとデータセットについて述べる。 また、異なる攻撃モデルと関連する客観的および主観的評価指標を提示する。 本稿では,2つの匿名化ベースラインを導入し,課題参加者による匿名化システムの概要を述べる。 ベースラインおよび提出システムにおける客観的および主観的評価結果について報告する。 さらに,評価分析の一環として開発した代替プライバシメトリクスと攻撃モデルについて実験結果を示す。 最後に,次のVoicePrivacyチャレンジ版の設計に影響を与える洞察と観察を要約し,今後の音声匿名化研究の方向性について述べる。

This paper presents the results and analyses stemming from the first VoicePrivacy 2020 Challenge which focuses on developing anonymization solutions for speech technology. We provide a systematic overview of the challenge design with an analysis of submitted systems and evaluation results. In particular, we describe the voice anonymization task and datasets used for system development and evaluation. Also, we present different attack models and the associated objective and subjective evaluation metrics. We introduce two anonymization baselines and provide a summary description of the anonymization systems developed by the challenge participants. We report objective and subjective evaluation results for baseline and submitted systems. In addition, we present experimental results for alternative privacy metrics and attack models developed as a part of the post-evaluation analysis. Finally, we summarize our insights and observations that will influence the design of the next VoicePrivacy challenge edition and some directions for future voice anonymization research.
翻訳日:2021-09-04 02:52:31 公開日:2021-09-01
# (参考訳) Dash: 動的Thresholdingによる半教師付き学習 [全文訳有]

Dash: Semi-Supervised Learning with Dynamic Thresholding ( http://arxiv.org/abs/2109.00650v1 )

ライセンス: CC BY 4.0
Yi Xu, Lei Shang, Jinxing Ye, Qi Qian, Yu-Feng Li, Baigui Sun, Hao Li, Rong Jin(参考訳) 半教師付き学習(ssl)はラベルなしデータの利用が成功したことで多くの機械学習タスクで注目されているが、既存のsslアルゴリズムではラベルなしの例を全て使用するか、トレーニング進行中に固定された高い信頼度を予測したラベルなしの例を使用する。 しかし、過度に多くの正誤ラベルの例が削除/選択される可能性がある。 この作業では,既存のSSLメソッドを実行する際に,ラベル付きデータからトレーニングサンプルのサブセットを選択することで,ラベル付きデータに関連する擬似ラベルを持つ未ラベルの例のみをモデルトレーニングに使用するという,シンプルで強力なフレームワークを開発する。 選択は、繰り返しを通じて動的に調整される所定のしきい値よりも損失が小さい例だけを保持することで、各更新イテレーションで実行される。 提案手法であるDashは、ラベルのないデータ選択とその理論的保証の観点から適応性を楽しむ。 具体的には,非凸最適化の観点からDashの収束率を理論的に確立する。 最後に,提案手法の有効性を,ベンチマークと比較し,実証的に検証した。

While semi-supervised learning (SSL) has received tremendous attentions in many machine learning tasks due to its successful use of unlabeled data, existing SSL algorithms use either all unlabeled examples or the unlabeled examples with a fixed high-confidence prediction during the training progress. However, it is possible that too many correct/wrong pseudo labeled examples are eliminated/selected. In this work we develop a simple yet powerful framework, whose key idea is to select a subset of training examples from the unlabeled data when performing existing SSL methods so that only the unlabeled examples with pseudo labels related to the labeled data will be used to train models. The selection is performed at each updating iteration by only keeping the examples whose losses are smaller than a given threshold that is dynamically adjusted through the iteration. Our proposed approach, Dash, enjoys its adaptivity in terms of unlabeled data selection and its theoretical guarantee. Specifically, we theoretically establish the convergence rate of Dash from the view of non-convex optimization. Finally, we empirically demonstrate the effectiveness of the proposed method in comparison with state-of-the-art over benchmarks.
翻訳日:2021-09-04 02:51:32 公開日:2021-09-01
# 対話型エージェントによる検索エンジンの強化

Boosting Search Engines with Interactive Agents ( http://arxiv.org/abs/2109.00527v1 )

ライセンス: Link先を確認
Leonard Adolphs, Benjamin Boerschinger, Christian Buck, Michelle Chen Huebscher, Massimiliano Ciaramita, Lasse Espeholt, Thomas Hofmann, Yannic Kilcher(参考訳) 機械は情報を見つけるための対話的なツールとして検索エンジンを学べるか? それは世界の知識をよりアクセスしやすいものにする大きな結果をもたらすだろう。 本稿では,文脈的クエリ改善のためのメタストラテジーを学習するエージェントの設計における第一歩について述べる。 提案手法は,集約された検索結果から精選項の選択を誘導するために,機械読取を用いる。 エージェントは、単純だが効果的な検索オペレーターによって、クエリと検索結果のきめ細かい透明な制御を行う。 我々は,(自己)教師付き学習を通じてトランスフォーマティブ型生成言語モデルのパワーを活用する合成検索セッションを生成する新しい手法を開発した。 また,対話型検索戦略をゼロから完全に学習できる動的制約付き強化学習エージェントを提案する。 いずれの場合も,強力な情報検索ベースラインを持つワンショット検索よりも大幅な改善が得られた。 最後に,学習した検索ポリシーの詳細な分析を行う。

Can machines learn to use a search engine as an interactive tool for finding information? That would have far reaching consequences for making the world's knowledge more accessible. This paper presents first steps in designing agents that learn meta-strategies for contextual query refinements. Our approach uses machine reading to guide the selection of refinement terms from aggregated search results. Agents are then empowered with simple but effective search operators to exert fine-grained and transparent control over queries and search results. We develop a novel way of generating synthetic search sessions, which leverages the power of transformer-based generative language models through (self-)supervised learning. We also present a reinforcement learning agent with dynamically constrained actions that can learn interactive search strategies completely from scratch. In both cases, we obtain significant improvements over one-shot search with a strong information retrieval baseline. Finally, we provide an in-depth analysis of the learned search policies.
翻訳日:2021-09-03 14:12:20 公開日:2021-09-01
# 火炎対策:発声Hate音声の大きなサンプルを用いた微調整Hate検出器

Fight Fire with Fire: Fine-tuning Hate Detectors using Large Samples of Generated Hate Speech ( http://arxiv.org/abs/2109.00591v1 )

ライセンス: Link先を確認
Tomer Wullach, Amir Adler, Einat Minkov(参考訳) 自動ヘイトスピーチ検出はラベル付きデータセットの不足によって妨げられ、一般化が困難になる。 私たちは、このデータのボトルネックを軽減するために、事前訓練された言語モデル(LM)を使用します。 我々はgpt lmを利用可能なラベル付き例から大量の合成ヘイト音声列を生成するために利用し,ヘイト検出の微調整において生成されたデータを活用する。 BERT、RoBERTa、ALBERTのモデルを用いた実証研究により、このアプローチはデータ分布内およびデータ分布内における一般化を大幅に改善することを示した。 実際、関連するラベル付きヘイトスピーチシーケンスの生成は、ドメイン外、時にはドメイン内、人間のラベル付き例を使うよりも望ましいことが分かっています。

Automatic hate speech detection is hampered by the scarcity of labeled datasetd, leading to poor generalization. We employ pretrained language models (LMs) to alleviate this data bottleneck. We utilize the GPT LM for generating large amounts of synthetic hate speech sequences from available labeled examples, and leverage the generated data in fine-tuning large pretrained LMs on hate detection. An empirical study using the models of BERT, RoBERTa and ALBERT, shows that this approach improves generalization significantly and consistently within and across data distributions. In fact, we find that generating relevant labeled hate speech sequences is preferable to using out-of-domain, and sometimes also within-domain, human-labeled examples.
翻訳日:2021-09-03 14:10:45 公開日:2021-09-01
# テキストオートAugment: テキスト分類のための構成拡張ポリシーの学習

Text AutoAugment: Learning Compositional Augmentation Policy for Text Classification ( http://arxiv.org/abs/2109.00523v1 )

ライセンス: Link先を確認
Shuhuai Ren, Jinchao Zhang, Lei Li, Xu Sun, Jie Zhou(参考訳) データ拡張は、低リソースまたはクラス不均衡な状況における過度な問題を軽減するためのトレーニングサンプルを強化することを目的としている。 伝統的な手法は、まず同義語代名詞のようなタスク固有の操作を考案し、その後、人工的に置換率などの対応するパラメータをプリセットする。 また,従来の方法では編集操作数が限られており,拡張データの多様性が低下し,性能向上が制限される。 以上の制限を克服するため,データ拡張のための合成および学習可能なパラダイムを確立するためのフレームワークであるText AutoAugment (TAA)を提案する。 様々な操作の組み合わせを拡張ポリシーとみなし、効率の良いベイズ最適化アルゴリズムを用いて最適なポリシーを自動検索し、モデルの一般化能力を大幅に向上させる。 6つのベンチマークデータセットの実験では、TAAは低リソースとクラス不均衡のレシエーションにおける分類精度を平均8.8%、9.7%向上させ、強いベースラインを上回っている。

Data augmentation aims to enrich training samples for alleviating the overfitting issue in low-resource or class-imbalanced situations. Traditional methods first devise task-specific operations such as Synonym Substitute, then preset the corresponding parameters such as the substitution rate artificially, which require a lot of prior knowledge and are prone to fall into the sub-optimum. Besides, the number of editing operations is limited in the previous methods, which decreases the diversity of the augmented data and thus restricts the performance gain. To overcome the above limitations, we propose a framework named Text AutoAugment (TAA) to establish a compositional and learnable paradigm for data augmentation. We regard a combination of various operations as an augmentation policy and utilize an efficient Bayesian Optimization algorithm to automatically search for the best policy, which substantially improves the generalization capability of models. Experiments on six benchmark datasets show that TAA boosts classification accuracy in low-resource and class-imbalanced regimes by an average of 8.8% and 9.7%, respectively, outperforming strong baselines.
翻訳日:2021-09-03 14:09:53 公開日:2021-09-01
# 医療における機械学習の安全性確保における説明責任の役割

The Role of Explainability in Assuring Safety of Machine Learning in Healthcare ( http://arxiv.org/abs/2109.00520v1 )

ライセンス: Link先を確認
Yan Jia, John McDermid, Tom Lawton, Ibrahim Habli(参考訳) 機械学習(ML)を利用したシステムには,安全クリティカルなシステムとソフトウェアを確保するための確立されたアプローチを適用することが困難である。 多くの場合、MLは不明確な問題に使われます。 正当性を評価するための明確な事前定義が存在しない、敗血症治療の最適化。 この問題は、学習モデルが人間の精査に耐えられないMLの「不透明」な性質によって悪化する。 この問題を解決するための説明可能なAI手法が提案されている。MLモデルの人間解釈可能な表現を生成して,ユーザの信頼獲得とMLシステムの信頼構築を支援する。 しかし,ML 開発における安全性保証における説明可能性の役割について,具体的な研究はあまり行われていない。 本稿では、MLベースのシステムの安全性保証に説明可能なAI手法が寄与する方法について述べる。 次に、機械換気による患者の湿潤化に関する具体的なmlベースの臨床判断支援システムを使用して、安全確保を支援する証拠を作成するために、説明可能なai手法がいかに活用できるかを実証する。 結果は安全引数として表現され、どのようにして説明可能なAIメソッドが安全ケースに寄与できるかを示す。 全体として、説明可能なAI手法は、医療におけるMLベースのシステムの安全性を保証する上で重要な役割を担っているが、安全を保証するには不十分である。

Established approaches to assuring safety-critical systems and software are difficult to apply to systems employing machine learning (ML). In many cases, ML is used on ill-defined problems, e.g. optimising sepsis treatment, where there is no clear, pre-defined specification against which to assess validity. This problem is exacerbated by the "opaque" nature of ML where the learnt model is not amenable to human scrutiny. Explainable AI methods have been proposed to tackle this issue by producing human-interpretable representations of ML models which can help users to gain confidence and build trust in the ML system. However, there is not much work explicitly investigating the role of explainability for safety assurance in the context of ML development. This paper identifies ways in which explainable AI methods can contribute to safety assurance of ML-based systems. It then uses a concrete ML-based clinical decision support system, concerning weaning of patients from mechanical ventilation, to demonstrate how explainable AI methods can be employed to produce evidence to support safety assurance. The results are also represented in a safety argument to show where, and in what way, explainable AI methods can contribute to a safety case. Overall, we conclude that explainable AI methods have a valuable role in safety assurance of ML-based systems in healthcare but that they are not sufficient in themselves to assure safety.
翻訳日:2021-09-03 14:09:14 公開日:2021-09-01
# 強化学習における壊滅的干渉--文脈分割と知識蒸留に基づく解法

Catastrophic Interference in Reinforcement Learning: A Solution Based on Context Division and Knowledge Distillation ( http://arxiv.org/abs/2109.00525v1 )

ライセンス: Link先を確認
Tiantian Zhang, Xueqian Wang, Bin Liang, Bo Yuan(参考訳) ディープニューラルネットワークの強力な学習能力により、強化学習(RL)エージェントは高次元および連続した環境から直接有能な制御ポリシーを学習することができる。 理論上、安定した性能を達成するために、ニューラルネットワークはi.d.を仮定する。 入力は残念ながら、トレーニングデータが一時的な相関と非定常である一般的なrlパラダイムには当てはまらない。 この問題は、"破滅的な干渉"という現象や、後のトレーニングが以前学んだ方針を上書きし干渉する可能性が高く、パフォーマンスの崩壊に繋がる可能性がある。 本稿では,「コンテキスト」の概念を単一タスクRLに導入し,文脈分割・知識蒸留(CDaKD)駆動RLと呼ばれる新しいスキームを開発し,トレーニング中に経験した全ての状態を一連のコンテキストに分割する。 その動機は、前述の深いRLにおける破滅的干渉を緩和し、RLモデルの安定性と可塑性を改善することである。 CDaKDの中心には、すべてのコンテキストで共有されるニューラルネットワーク特徴抽出器によってパラメータ化される値関数と、それぞれ個別のコンテキストを専門とする出力ヘッドのセットがある。 cdakdでは,オンラインクラスタリングを利用してコンテキスト分割を行い,学習コンテキストの出力層に対する知識蒸留正規化項により干渉を緩和する。 また、高次元状態空間(例えば画像入力)におけるコンテキスト分割を効果的に得るために、トレーニングを通じて固定されるランダム初期化畳み込みエンコーダの下次元表現空間におけるクラスタリングを行う。 この結果から,従来のOpenAI Gymタスクや,より複雑な高次元のAtariタスクにおいて,CDaKDが既存のRLアルゴリズムの性能を継続的に向上できることを示す。

The powerful learning ability of deep neural networks enables reinforcement learning (RL) agents to learn competent control policies directly from high-dimensional and continuous environments. In theory, to achieve stable performance, neural networks assume i.i.d. inputs, which unfortunately does no hold in the general RL paradigm where the training data is temporally correlated and non-stationary. This issue may lead to the phenomenon of "catastrophic interference" and the collapse in performance as later training is likely to overwrite and interfer with previously learned policies. In this paper, we introduce the concept of "context" into single-task RL and develop a novel scheme, termed as Context Division and Knowledge Distillation (CDaKD) driven RL, to divide all states experienced during training into a series of contexts. Its motivation is to mitigate the challenge of aforementioned catastrophic interference in deep RL, thereby improving the stability and plasticity of RL models. At the heart of CDaKD is a value function, parameterized by a neural network feature extractor shared across all contexts, and a set of output heads, each specializing on an individual context. In CDaKD, we exploit online clustering to achieve context division, and interference is further alleviated by a knowledge distillation regularization term on the output layers for learned contexts. In addition, to effectively obtain the context division in high-dimensional state spaces (e.g., image inputs), we perform clustering in the lower-dimensional representation space of a randomly initialized convolutional encoder, which is fixed throughout training. Our results show that, with various replay memory capacities, CDaKD can consistently improve the performance of existing RL algorithms on classic OpenAI Gym tasks and the more complex high-dimensional Atari tasks, incurring only moderate computational overhead.
翻訳日:2021-09-03 14:08:51 公開日:2021-09-01
# 不均衡分類のためのアンダーバッグニーバー

Under-bagging Nearest Neighbors for Imbalanced Classification ( http://arxiv.org/abs/2109.00531v1 )

ライセンス: Link先を確認
Hanyuan Hang, Yuchao Cai, Hanfang Yang, Zhouchen Lin(参考訳) 本稿では,不均衡な分類問題に対して,<textit{under-bagging $k$-nearest neighbors} (\textit{under-bagging $k$-NN})というアンサンブル学習アルゴリズムを提案する。 理論面では、新しい学習理論分析を開発することにより、適切に選択されたパラメータ、すなわち、近隣の$k$、期待されるサブサンプルサイズ$s$、バッグングラウンド$B$、アンダーバッグング$k$-NNの最適収束率は、リコールの算術平均(AM)の軽度な仮定の下で達成できることが示される。 さらに、比較的小さな$B$では、期待されるサブサンプルサイズ$s$は、各バッグラウンドでのトレーニングデータ$n$よりもはるかに小さくなり、特にデータが高度に不均衡な場合、近接する$k$の数は同時に減少し、時間的複雑さが著しく減少し、空間的複雑さがほぼ同じになることを示す。 実用面では、提案アルゴリズムの有望なAM性能と効率により、アンダーバッグング手法の利点に関する理論的結果を検証するための数値実験を行う。

In this paper, we propose an ensemble learning algorithm called \textit{under-bagging $k$-nearest neighbors} (\textit{under-bagging $k$-NN}) for imbalanced classification problems. On the theoretical side, by developing a new learning theory analysis, we show that with properly chosen parameters, i.e., the number of nearest neighbors $k$, the expected sub-sample size $s$, and the bagging rounds $B$, optimal convergence rates for under-bagging $k$-NN can be achieved under mild assumptions w.r.t.~the arithmetic mean (AM) of recalls. Moreover, we show that with a relatively small $B$, the expected sub-sample size $s$ can be much smaller than the number of training data $n$ at each bagging round, and the number of nearest neighbors $k$ can be reduced simultaneously, especially when the data are highly imbalanced, which leads to substantially lower time complexity and roughly the same space complexity. On the practical side, we conduct numerical experiments to verify the theoretical results on the benefits of the under-bagging technique by the promising AM performance and efficiency of our proposed algorithm.
翻訳日:2021-09-03 14:06:19 公開日:2021-09-01
# 視覚カメラ再局在における擬似地中真実の限界について

On the Limits of Pseudo Ground Truth in Visual Camera Re-localisation ( http://arxiv.org/abs/2109.00524v1 )

ライセンス: Link先を確認
Eric Brachmann, Martin Humenberger, Carsten Rother, Torsten Sattler(参考訳) カメラの精度を測定するベンチマークデータセットは、視覚的再ローカライゼーション研究の進歩を促している。 何千もの画像のポーズを得るためには、参照アルゴリズムを使って擬似基底真理を生成するのが一般的である。 一般的な選択肢として、Structure-from-Motio n (SfM) や、もし利用可能なディープカメラのような追加センサーを使用する同時ローカライゼーション・アンド・マッピング (SLAM) がある。 再ローカライゼーションベンチマークは、各メソッドが参照アルゴリズムの結果をいかにうまく再現するかを測定する。 このことは、参照アルゴリズムの選択がある種の再ローカライゼーション手法を好むかどうかを問うものである。 本稿では,広く使われている2つの再ローカライズデータセットを分析し,評価結果が参照アルゴリズムの選択によって実際に異なることを示す。 そこで我々は,学習に基づくシーン座標の回帰は古典的特徴に基づく手法よりも優れており,RGBに基づく手法よりもRGBに基づく手法の方が優れているという,再ローカライゼーション文学における一般的な信念を疑問視する。 ランク付け再局在化手法のクレームは参照アルゴリズムの型と参照アルゴリズムとの類似性を考慮して考慮すべきである。

Benchmark datasets that measure camera pose accuracy have driven progress in visual re-localisation research. To obtain poses for thousands of images, it is common to use a reference algorithm to generate pseudo ground truth. Popular choices include Structure-from-Motio n (SfM) and Simultaneous-Localis ation-and-Mapping (SLAM) using additional sensors like depth cameras if available. Re-localisation benchmarks thus measure how well each method replicates the results of the reference algorithm. This begs the question whether the choice of the reference algorithm favours a certain family of re-localisation methods. This paper analyzes two widely used re-localisation datasets and shows that evaluation outcomes indeed vary with the choice of the reference algorithm. We thus question common beliefs in the re-localisation literature, namely that learning-based scene coordinate regression outperforms classical feature-based methods, and that RGB-D-based methods outperform RGB-based methods. We argue that any claims on ranking re-localisation methods should take the type of the reference algorithm, and the similarity of the methods to the reference algorithm, into account.
翻訳日:2021-09-03 14:05:57 公開日:2021-09-01
# transformesh:解剖学的メッシュの縦型モデリングのためのトランスフォーマーネットワーク

TransforMesh: A Transformer Network for Longitudinal modeling of Anatomical Meshes ( http://arxiv.org/abs/2109.00532v1 )

ライセンス: Link先を確認
Ignacio Sarasua, Sebastian Polsterl, Christian Wachinger(参考訳) アルツハイマー病(AD)に関連する神経解剖学的変化の経時的モデリングは、疾患の進行を研究する上で重要である。 この目的のために,3次元解剖学的メッシュ上での縦方向の形状変化をモデル化するトランスフォーメシュを導入した。 トランスフォーマーとメッシュネットワークは最近、自然言語処理とコンピュータビジョンで印象的なパフォーマンスを示しているが、医療画像解析への応用は非常に限られている。 私たちの知る限りでは、これはトランスフォーマーとメッシュネットワークを組み合わせた最初の作業です。 その結果、transformeshは時間依存を捉えない他のベースラインアーキテクチャよりも形跡をモデル化できることがわかった。 また,AD患者における海馬構造異常の検出におけるTransforMeshの有用性についても検討した。

The longitudinal modeling of neuroanatomical changes related to Alzheimer's disease (AD) is crucial for studying the progression of the disease. To this end, we introduce TransforMesh, a spatio-temporal network based on transformers that models longitudinal shape changes on 3D anatomical meshes. While transformer and mesh networks have recently shown impressive performances in natural language processing and computer vision, their application to medical image analysis has been very limited. To the best of our knowledge, this is the first work that combines transformer and mesh networks. Our results show that TransforMesh can model shape trajectories better than other baseline architectures that do not capture temporal dependencies. Moreover, we also explore the capabilities of TransforMesh in detecting structural anomalies of the hippocampus in patients developing AD.
翻訳日:2021-09-03 14:05:34 公開日:2021-09-01
# Globally Correlated Maximum Likelihood を用いた肺疾患の分類:畳み込みニューラルネットワークの補助的注意機構

Pulmonary Disease Classification Using Globally Correlated Maximum Likelihood: an Auxiliary Attention mechanism for Convolutional Neural Networks ( http://arxiv.org/abs/2109.00573v1 )

ライセンス: Link先を確認
Edward Verenich, Tobias Martin, Alvaro Velasquez, Nazar Khan, and Faraz Hussain(参考訳) 畳み込みニューラルネットワーク(cnn)は現在、胸部x線写真における肺異常の分類と検出に広く使われている。 cnnの相補的汎化特性である翻訳不変性と等分散性は、画像内の空間的位置に関わらず、肺疾患に関連する明らかな異常を検出するのに特に有用である。 しかし、これらの特性は、局所的に検出された異常の正確な空間情報と大域的相対位置の喪失も伴う。 このような異常の世界的な相対的な位置は、新型コロナウイルスやウイルス性肺炎などの同様の症状を区別するのに役立つ可能性がある。 このような場合、CNNは、翻訳不変性と等分散による一般化を目的とした従来のアーキテクチャではサポートしていないグローバルアテンションメカニズムが必要である。 視覚変換器はグローバルな注意機構を提供するが、変換不変性や等価性は欠如しており、CNNの一般化に匹敵する訓練データサンプルを必要とする。 そこで本研究では,cnnのインダクティブバイアスを保ちつつ,空間情報の喪失と特徴間のグローバル関係に対処するため,既存のcnnアーキテクチャの補助的注意機構として機能する新しい手法を提案する。

Convolutional neural networks (CNN) are now being widely used for classifying and detecting pulmonary abnormalities in chest radiographs. Two complementary generalization properties of CNNs, translation invariance and equivariance, are particularly useful in detecting manifested abnormalities associated with pulmonary disease, regardless of their spatial locations within the image. However, these properties also come with the loss of exact spatial information and global relative positions of abnormalities detected in local regions. Global relative positions of such abnormalities may help distinguish similar conditions, such as COVID-19 and viral pneumonia. In such instances, a global attention mechanism is needed, which CNNs do not support in their traditional architectures that aim for generalization afforded by translation invariance and equivariance. Vision Transformers provide a global attention mechanism, but lack translation invariance and equivariance, requiring significantly more training data samples to match generalization of CNNs. To address the loss of spatial information and global relations between features, while preserving the inductive biases of CNNs, we present a novel technique that serves as an auxiliary attention mechanism to existing CNN architectures, in order to extract global correlations between salient features.
翻訳日:2021-09-03 14:05:22 公開日:2021-09-01
# 脳腫瘍分離のための学習可能フロー正規化モデル

An End-to-End learnable Flow Regularized Model for Brain Tumor Segmentation ( http://arxiv.org/abs/2109.00622v1 )

ライセンス: Link先を確認
Yan Shen, Zhanghexuan Ji, Mingchen Gao(参考訳) バイオメディカルイメージのための多くのセグメンテーションタスクは、エネルギー関数の最小化としてモデル化でき、最大フローと最小カット最適化アルゴリズムのクラスで解決できる。 しかし、セグメンテーションの精度は異なるセグメンテーションオブジェクトの意味的特徴の対比に敏感であり、伝統的なエネルギー関数は通常、そのエネルギー関数で手作りの特徴を用いる。 これらの制約に対処するため、エネルギー機能にエンドツーエンドのトレーニング可能なニューラルネットワーク機能を導入することを提案する。 ディープニューラルネットワーク機能は,u-netのスキップ接続を伴うダウンサンプリング層とアップサンプリング層から抽出する。 推論段階では、学習した特徴がエネルギー関数に供給される。 セグメンテーションはADMMソルバによって原始二重形式で解かれる。 学習段階では,二元形式における最適条件から導出されるミンカット関数とフロー保存関数の正則化により,プライマル形式のエネルギー関数を最適化してニューラルネットワークを訓練する。 我々は,脳腫瘍の分節作業において,質的および定量的に方法を評価する。 エネルギー最小化モデルが感度とスムーズな境界のバランスを保ちながら、我々のセグメンテーションの輪郭が、医師診断のためのアンサンブル参照として反復的にどのように進化するかを示す。

Many segmentation tasks for biomedical images can be modeled as the minimization of an energy function and solved by a class of max-flow and min-cut optimization algorithms. However, the segmentation accuracy is sensitive to the contrasting of semantic features of different segmenting objects, as the traditional energy function usually uses hand-crafted features in their energy functions. To address these limitations, we propose to incorporate end-to-end trainable neural network features into the energy functions. Our deep neural network features are extracted from the down-sampling and up-sampling layers with skip-connections of a U-net. In the inference stage, the learned features are fed into the energy functions. And the segmentations are solved in a primal-dual form by ADMM solvers. In the training stage, we train our neural networks by optimizing the energy function in the primal form with regularizations on the min-cut and flow-conservation functions, which are derived from the optimal conditions in the dual form. We evaluate our methods, both qualitatively and quantitatively, in a brain tumor segmentation task. As the energy minimization model achieves a balance on sensitivity and smooth boundaries, we would show how our segmentation contours evolve actively through iterations as ensemble references for doctor diagnosis.
翻訳日:2021-09-03 14:04:59 公開日:2021-09-01
# 新しいマルチセントリックテンプレートマッチングアルゴリズムとそのcough検出への応用

A Novel Multi-Centroid Template Matching Algorithm and Its Application to Cough Detection ( http://arxiv.org/abs/2109.00630v1 )

ライセンス: Link先を確認
Shibo Zhang, Ebrahim Nemati, Tousif Ahmed, Md Mahbubur Rahman, Jilong Kuang, Alex Gao(参考訳) カフは呼吸器疾患の主要な症状である。 音声からのコークス検出には膨大な作業があるが、慣性測定単位(IMU)のみからコークスを識別する努力はなされていない。 くちばしは全身、特に首と頭の上での運動を引き起こす。 したがって, ヘッドウーンIMUセンサで捉えたコーディング中の頭部の動きデータを, テンプレートマッチングアルゴリズムを用いて検出することができる。 時系列テンプレートマッチング問題では, K-Nearest Neighbors (KNN) と弾性距離測定(esp。 Dynamic Time Warping (DTW) は優れた性能を発揮する。 しかし、しばしば時間の浪費が禁じられている。 その後、最も近いCentroid分類器が提案されている。 しかし、正確性は各クラスで得られる1セントのみである。 centroidベースの分類器は、各クラスタのクラスタリングと平均化を実行するが、クラスタ数を手動で設定する必要がある。 本稿では,クラスタ数を自動的に調整し,精度と推定時間のバランスをとる,自己調整型マルチセントロイドテンプレートマッチングアルゴリズムを提案する。 合成データセットと実世界のイヤーバッドベースコークスデータセットを用いて実験を行い、提案アルゴリズムの優位性を実証し、イヤーバッドプラットフォーム上の1つの加速度センサによるコークス検出の結果を示す。

Cough is a major symptom of respiratory-related diseases. There exists a tremendous amount of work in detecting coughs from audio but there has been no effort to identify coughs from solely inertial measurement unit (IMU). Coughing causes motion across the whole body and especially on the neck and head. Therefore, head motion data during coughing captured by a head-worn IMU sensor could be leveraged to detect coughs using a template matching algorithm. In time series template matching problems, K-Nearest Neighbors (KNN) combined with elastic distance measurement (esp. Dynamic Time Warping (DTW)) achieves outstanding performance. However, it is often regarded as prohibitively time-consuming. Nearest Centroid Classifier is thereafter proposed. But the accuracy is comprised of only one centroid obtained for each class. Centroid-based Classifier performs clustering and averaging for each cluster, but requires manually setting the number of clusters. We propose a novel self-tuning multi-centroid template-matching algorithm, which can automatically adjust the number of clusters to balance accuracy and inference time. Through experiments conducted on synthetic datasets and a real-world earbud-based cough dataset, we demonstrate the superiority of our proposed algorithm and present the result of cough detection with a single accelerometer sensor on the earbuds platform.
翻訳日:2021-09-03 14:03:17 公開日:2021-09-01
# 非線形力学系におけるモデル型誤り同定のための物理統合ハイブリッドフレームワーク

Physics-integrated hybrid framework for model form error identification in nonlinear dynamical systems ( http://arxiv.org/abs/2109.00538v1 )

ライセンス: Link先を確認
Shailesh Garg and Souvik Chakraborty and Budhaditya Hazra(参考訳) 実寿命非線形系では、厳密な非線形性はよく知られておらず、既知の支配方程式は特定の仮定と近似に基づいていることが多い。 このような表現はシステムにモデル形式のエラーをもたらした。 本稿では, モデル形式誤差を同定するだけでなく, 既知だが近似的な制御方程式の予測能力を向上させるために, 新たなグレイボックスモデリング手法を提案する。 第一の考え方は、未知のモデル形状誤差を残留力として扱い、デュエルベイズフィルタに基づく結合入力状態推定アルゴリズムを用いて推定することである。 基礎となる物理の予測能力を向上するために、まず機械学習アルゴリズムを用いて、推定状態と入力(モデル形式誤差)の間のマッピングを学習し、その後、追加用語として支配方程式に導入する。 これにより、支配物理学の予測能力が向上し、モデルは目に見えない環境に一般化することができる。 理論的には,提案フレームワーク内では任意の機械学習アルゴリズムが利用できるが,本研究ではガウス過程を用いる。 提案フレームワークの性能をテストするために,4つの異なる力学系を考察するケーススタディが議論されている。

For real-life nonlinear systems, the exact form of nonlinearity is often not known and the known governing equations are often based on certain assumptions and approximations. Such representation introduced model-form error into the system. In this paper, we propose a novel gray-box modeling approach that not only identifies the model-form error but also utilizes it to improve the predictive capability of the known but approximate governing equation. The primary idea is to treat the unknown model-form error as a residual force and estimate it using duel Bayesian filter based joint input-state estimation algorithms. For improving the predictive capability of the underlying physics, we first use machine learning algorithm to learn a mapping between the estimated state and the input (model-form error) and then introduce it into the governing equation as an additional term. This helps in improving the predictive capability of the governing physics and allows the model to generalize to unseen environment. Although in theory, any machine learning algorithm can be used within the proposed framework, we use Gaussian process in this work. To test the performance of proposed framework, case studies discussing four different dynamical systems are discussed; results for which indicate that the framework is applicable to a wide variety of systems and can produce reliable estimates of original system's states.
翻訳日:2021-09-03 14:01:16 公開日:2021-09-01
# 図形モデルにおけるアクティブ推論と疫学値

Active Inference and Epistemic Value in Graphical Models ( http://arxiv.org/abs/2109.00541v1 )

ライセンス: Link先を確認
Thijs van de Laar, Magnus Koudahl, Bart van Erp, Bert de Vries(参考訳) 自由エネルギー原則(FEP)は、生物エージェントが環境の生成モデルに関して変動自由エネルギー(VFE)を最小化するために環境を知覚し、相互作用することを仮定している。 FEPによるポリシー(未来制御シーケンス)の推論は、アクティブ推論(AIF)として知られている。 AIF文献は、エピステミック(情報探索)行動を引き起こす政策計画のための複数のVFE目標を記述している。 しかし、ほとんどの目的はモデリングの柔軟性に制限がある。 本稿では,制約されたBethe Free Energy(CBFE)の観点からの疫学的行動にアプローチする。 重要なことは、CBFEの変分最適化は、自由形式生成モデルにおけるメッセージパッシングの観点で表現することができる。 CBFEの背後にある重要な直感は、予測結果にポイントマスの制約を課すことであり、エージェントが将来観察を行うという仮定を明示的にエンコードしている。 我々はCBFEの目的を構成的行動駆動の観点から解釈する。 次に,シミュレーションt-maze環境の計画と相互作用によりcbfeの挙動を示す。 t-mazeタスクのシミュレーションは、cbfeエージェントがどのように認識駆動を示すかを示し、予測結果の影響を考慮するために積極的に計画する。 EFEエージェントと比較すると、CBFEエージェントは予想される報酬をはるかに多くの環境シナリオで得る。 メッセージパッシングによるcbfe最適化は,自由形生成モデルにおける認識論的aifの一般的なメカニズムを示唆する。

The Free Energy Principle (FEP) postulates that biological agents perceive and interact with their environment in order to minimize a Variational Free Energy (VFE) with respect to a generative model of their environment. The inference of a policy (future control sequence) according to the FEP is known as Active Inference (AIF). The AIF literature describes multiple VFE objectives for policy planning that lead to epistemic (information-seeking ) behavior. However, most objectives have limited modeling flexibility. This paper approaches epistemic behavior from a constrained Bethe Free Energy (CBFE) perspective. Crucially, variational optimization of the CBFE can be expressed in terms of message passing on free-form generative models. The key intuition behind the CBFE is that we impose a point-mass constraint on predicted outcomes, which explicitly encodes the assumption that the agent will make observations in the future. We interpret the CBFE objective in terms of its constituent behavioral drives. We then illustrate resulting behavior of the CBFE by planning and interacting with a simulated T-maze environment. Simulations for the T-maze task illustrate how the CBFE agent exhibits an epistemic drive, and actively plans ahead to account for the impact of predicted outcomes. Compared to an EFE agent, the CBFE agent incurs expected reward in significantly more environmental scenarios. We conclude that CBFE optimization by message passing suggests a general mechanism for epistemic-aware AIF in free-form generative models.
翻訳日:2021-09-03 14:00:50 公開日:2021-09-01
# 情報理論分類精度:多クラス分類における曖昧なアウトカムラベルのデータ駆動型組み合わせの指針

Information-theoreti c Classification Accuracy: A Criterion that Guides Data-driven Combination of Ambiguous Outcome Labels in Multi-class Classification ( http://arxiv.org/abs/2109.00582v1 )

ライセンス: Link先を確認
Chihao Zhang, Yiling Elaine Chen, Shihua Zhang, Jingyi Jessica Li(参考訳) 結果のラベル付け あいまいさと主観性は現実世界のデータセットにおいてユビキタスである。 実践者は通常、曖昧な結果ラベルをアドホックな方法で組み合わせ、多クラス分類の精度を向上させるが、最適な基準によってラベルの組み合わせを導くための原則的なアプローチが欠如している。 そこで本研究では,成果予測に基づく結果「情報」の基準であるitca(information-the oretic classification accuracy)を提案する。 itcaは、予測精度(予測ラベルと実際のラベルの一致度)と予測解像度(予測可能なラベル数)とのトレードオフのバランスを示している。 ITCAで示される最適なラベルの組み合わせを見つけるために、欲求検索と広義検索の2つの探索戦略を開発した。 特に、ITCAと2つの検索戦略は、すべての機械学習分類アルゴリズムに適応している。 分類アルゴリズムと検索戦略を組み合わせたITCAには,予測精度の向上と曖昧なラベルの識別という2つの方法がある。 まず,合成データと実データで正しいラベルの組み合わせを見つける際の検索戦略において,itcaが高い精度を達成することを検証した。 次に, 医療予後, 癌生存予測, ユーザ人口予測, 細胞型分類など, 多様な応用におけるITCAの有効性を示す。

Outcome labeling ambiguity and subjectivity are ubiquitous in real-world datasets. While practitioners commonly combine ambiguous outcome labels in an ad hoc way to improve the accuracy of multi-class classification, there lacks a principled approach to guide label combination by any optimality criterion. To address this problem, we propose the information-theoreti c classification accuracy (ITCA), a criterion of outcome "information" conditional on outcome prediction, to guide practitioners on how to combine ambiguous outcome labels. ITCA indicates a balance in the trade-off between prediction accuracy (how well do predicted labels agree with actual labels) and prediction resolution (how many labels are predictable). To find the optimal label combination indicated by ITCA, we develop two search strategies: greedy search and breadth-first search. Notably, ITCA and the two search strategies are adaptive to all machine-learning classification algorithms. Coupled with a classification algorithm and a search strategy, ITCA has two uses: to improve prediction accuracy and to identify ambiguous labels. We first verify that ITCA achieves high accuracy with both search strategies in finding the correct label combinations on synthetic and real data. Then we demonstrate the effectiveness of ITCA in diverse applications including medical prognosis, cancer survival prediction, user demographics prediction, and cell type classification.
翻訳日:2021-09-03 14:00:27 公開日:2021-09-01
# 進化最適化による変分量子強化学習

Variational Quantum Reinforcement Learning via Evolutionary Optimization ( http://arxiv.org/abs/2109.00540v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, Chih-Min Huang, Chia-Wei Hsing, Hsi-Sheng Goan, Ying-Jer Kao(参考訳) 古典的強化学習(RL)と量子計算(QC)の最近の進歩は、量子コンピュータ上でRLを実行するための有望な方向を示している。 しかし、量子RLの潜在的な応用は、現代の量子デバイスで利用可能な量子ビットの数によって制限される。 ここでは、勾配のない進化最適化を用いて、ディープ量子RLタスクの2つのフレームワークを提案する: 第一に、振幅符号化スキームをカートポール問題に適用し、第二に、量子RLエージェントが、量子ビット数を超える次元の入力を処理するために、ハイブリッドテンソルネットワーク偏差量子回路(TN-VQC)アーキテクチャを備えるハイブリッドフレームワークを提案する。 これにより、147次元の入力を持つミニグリッド環境で量子rlを実行できる。 振幅符号化を用いたパラメータ保存の量子的利点を示す。 ハイブリッドTN-VQCアーキテクチャは、入力次元の効率的な圧縮を行う自然な方法を提供する。

Recent advance in classical reinforcement learning (RL) and quantum computation (QC) points to a promising direction of performing RL on a quantum computer. However, potential applications in quantum RL are limited by the number of qubits available in the modern quantum devices. Here we present two frameworks of deep quantum RL tasks using a gradient-free evolution optimization: First, we apply the amplitude encoding scheme to the Cart-Pole problem; Second, we propose a hybrid framework where the quantum RL agents are equipped with hybrid tensor network-variational quantum circuit (TN-VQC) architecture to handle inputs with dimensions exceeding the number of qubits. This allows us to perform quantum RL on the MiniGrid environment with 147-dimensional inputs. We demonstrate the quantum advantage of parameter saving using the amplitude encoding. The hybrid TN-VQC architecture provides a natural way to perform efficient compression of the input dimension, enabling further quantum RL applications on noisy intermediate-scale quantum devices.
翻訳日:2021-09-03 13:58:23 公開日:2021-09-01
# FaVoA:Face-Voice Associationは、あいまいな話者検出を脅かす

FaVoA: Face-Voice Association Favours Ambiguous Speaker Detection ( http://arxiv.org/abs/2109.00577v1 )

ライセンス: Link先を確認
Hugo Carneiro, Cornelius Weber and Stefan Wermter(参考訳) 顔と音声の強い関係は、顔が見えても、難しい設定でも、スピーカーの顔がはっきりしていないときや、同じシーンに複数の人がいるときでも、アクティブな話者検出システムに役立つ。 発話から人の正面顔の表情を推定できることで、同じ場面の人物から口の動きが検出されない困難な場合であっても、その人物がアクティブな話者として分類される可能性のある候補であるかどうかを判断しやすくなる。 既存の最先端アクティブ話者検出モデルに音声関連ニューラルネットワークを組み込むことにより、特にあいまいなシナリオを正しく分類できるニューラルネットワークモデルfavoa(face-voice association ambiguous speaker detector)を導入する。 FaVoAは肯定的な関連を見出すだけでなく、顔が声と一致しない非マッチングの対人関係を除外するのに役立ちます。 それらのモデルの融合にゲートバイモーダル単位のアーキテクチャを使うことは、各モダリティが分類にどの程度寄与するかを定量的に決定する方法を提供する。

The strong relation between face and voice can aid active speaker detection systems when faces are visible, even in difficult settings, when the face of a speaker is not clear or when there are several people in the same scene. By being capable of estimating the frontal facial representation of a person from his/her speech, it becomes easier to determine whether he/she is a potential candidate for being classified as an active speaker, even in challenging cases in which no mouth movement is detected from any person in that same scene. By incorporating a face-voice association neural network into an existing state-of-the-art active speaker detection model, we introduce FaVoA (Face-Voice Association Ambiguous Speaker Detector), a neural network model that can correctly classify particularly ambiguous scenarios. FaVoA not only finds positive associations, but helps to rule out non-matching face-voice associations, where a face does not match a voice. Its use of a gated-bimodal-unit architecture for the fusion of those models offers a way to quantitatively determine how much each modality contributes to the classification.
翻訳日:2021-09-03 13:57:20 公開日:2021-09-01
# 道徳的変化のテクストソースを追跡するための教師なしフレームワーク

An unsupervised framework for tracing textual sources of moral change ( http://arxiv.org/abs/2109.00608v1 )

ライセンス: Link先を確認
Aida Ramezani, Zining Zhu, Frank Rudzicz, Yang Xu(参考訳) 道徳は社会的幸福において重要な役割を果たすが、人々の道徳的知覚は安定せず、時間とともに変化する。 近年の自然言語処理の進歩は、テキストが道徳的変化を示す効果的な媒体であることを示しているが、これらの変化の起源を定量化する試みは行われていない。 我々は、時間を通して実体に対する道徳的変化のテキストソースをトレースするための新しい教師なしフレームワークを提案する。 確率的話題分布による道徳的変化を特徴付け,道徳的時間軸に顕著な影響を及ぼす原文を推定する。 我々は,ソーシャルメディアからニュース記事まで多種多様なデータ集合を用いたフレームワークの評価を行った。 我々の枠組みは、人間の道徳的判断を微妙に捉えているだけでなく、歴史的出来事によって引き起こされた道徳的変化のコヒーレントな源泉も示している。 我々は,新型コロナウイルスのパンデミックのニュースを分析し,ハイインパクト・リアルタイムな社会イベントにおける道徳的変化の源泉を特定する上で,その有用性を実証するために,我々の方法論を適用した。

Morality plays an important role in social well-being, but people's moral perception is not stable and changes over time. Recent advances in natural language processing have shown that text is an effective medium for informing moral change, but no attempt has been made to quantify the origins of these changes. We present a novel unsupervised framework for tracing textual sources of moral change toward entities through time. We characterize moral change with probabilistic topical distributions and infer the source text that exerts prominent influence on the moral time course. We evaluate our framework on a diverse set of data ranging from social media to news articles. We show that our framework not only captures fine-grained human moral judgments, but also identifies coherent source topics of moral change triggered by historical events. We apply our methodology to analyze the news in the COVID-19 pandemic and demonstrate its utility in identifying sources of moral change in high-impact and real-time social events.
翻訳日:2021-09-03 13:56:59 公開日:2021-09-01
# UAV RGB画像を用いたフィールドベースプロット抽出

Field-Based Plot Extraction Using UAV RGB Images ( http://arxiv.org/abs/2109.00632v1 )

ライセンス: Link先を確認
Changye Yang, Sriram Baireddy, Enyu Cai, Melba Crawford, Edward J. Delp(参考訳) 無人航空機(UAV)は、トウモロコシやソルガムなどの畑型作物の植物表現において、フィールドトライアルを通じて高分解能データを取得する能力から人気を集めている。 何千もの植物からなるフィールド実験は、品種や管理慣行を評価するために実験設計に従って植えられる。 各種の表現型解析において、「プロット」と呼ばれる植物の小群について検討する。 本稿では,UAV画像をプロットに分割する新しいプロット抽出手法を提案する。 提案手法は既存の手法よりもプロット抽出精度が高いことを示す。

Unmanned Aerial Vehicles (UAVs) have become popular for use in plant phenotyping of field based crops, such as maize and sorghum, due to their ability to acquire high resolution data over field trials. Field experiments, which may comprise thousands of plants, are planted according to experimental designs to evaluate varieties or management practices. For many types of phenotyping analysis, we examine smaller groups of plants known as "plots." In this paper, we propose a new plot extraction method that will segment a UAV image into plots. We will demonstrate that our method achieves higher plot extraction accuracy than existing approaches.
翻訳日:2021-09-03 13:54:49 公開日:2021-09-01
# 終端文脈音声認識のための木制約ポインタージェネレータ

Tree-constrained Pointer Generator for End-to-end Contextual Speech Recognition ( http://arxiv.org/abs/2109.00627v1 )

ライセンス: Link先を確認
Guangzhi Sun, Chao Zhang, Philip C. Woodland(参考訳) 文脈知識は実世界の音声認識(ASR)アプリケーションにおいて重要である。 本稿では,アテンションベースのエンコーダデコーダとトランスデューサのエンド・ツー・エンドASRモデルの両方に,単語のバイアスリストなどの知識を組み込んだ新しいツリー制約ポインタジェネレータ(TCPGen)を提案する。 TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするために、ツリーと最終的なASR出力分布の間の神経ショートカットを生成する。 システムは、異なるアプリケーションシナリオをシミュレートするために、発話、章、書籍のスケールで偏りのある単語を抽出する、Librispeech corpusで訓練され、評価された。 実験の結果,TCPGenはベースラインと比較して単語誤り率(WER)を一貫して改善し,特に偏りのある単語に対して顕著なWER削減を実現した。 TCPGenは非常に効率的で、5000の偏りのあるワードとイントラクタを処理でき、メモリ使用量と計算コストに小さなオーバーヘッドを加えるだけである。

Contextual knowledge is important for real-world automatic speech recognition (ASR) applications. In this paper, a novel tree-constrained pointer generator (TCPGen) component is proposed that incorporates such knowledge as a list of biasing words into both attention-based encoder-decoder and transducer end-to-end ASR models in a neural-symbolic way. TCPGen structures the biasing words into an efficient prefix tree to serve as its symbolic input and creates a neural shortcut between the tree and the final ASR output distribution to facilitate recognising biasing words during decoding. Systems were trained and evaluated on the Librispeech corpus where biasing words were extracted at the scales of an utterance, a chapter, or a book to simulate different application scenarios. Experimental results showed that TCPGen consistently improved word error rates (WERs) compared to the baselines, and in particular, achieved significant WER reductions on the biasing words. TCPGen is highly efficient: it can handle 5,000 biasing words and distractors and only add a small overhead to memory use and computation cost.
翻訳日:2021-09-03 13:51:35 公開日:2021-09-01
# ディープラーニングによるランニングスタイルのウェアラブルベース分類

Wearable-based Classification of Running Styles with Deep Learning ( http://arxiv.org/abs/2109.00594v1 )

ライセンス: Link先を確認
Setareh Rahimi Taghanaki, Michael Rainbow, Ali Etemad(参考訳) ランニングスタイルの自動分類は、走者がエネルギー消費、疲労、怪我のリスクを最小限に抑え、パフォーマンスを最適化するためにフィードバックを得ることを可能にする。 ウェアラブルを用いてランニングスタイルを分類できるシステムを開発するために,8種類のランニングスタイルを実行する健康ランナー10名のデータセットを収集した。 5つのウェアラブルデバイスは、下半身のさまざまな部分、すなわち左足と右足、左右中耳骨、そして下肢の加速度計データを記録するために使用される。 収集したデータセットを用いて、畳み込みニューラルネットワークとLong Short-Term Memory Networkからなるディープラーニングソリューションを開発し、まず有効な特徴を抽出し、続いて時間的関係を学習する。 スコアレベルの融合は、異なるセンサーの分類結果を集約するために使用される。 実験の結果,提案モデルでは,複数の古典的機械学習手法(手動特徴抽出)と畳み込みニューラルネットワークベースラインよりも優れた動作スタイルを主観的に自動分類できることがわかった。 さらに,本研究では,ランニングスタイルの主体非依存の分類が,ランニングスタイルのパーソナライズレベルが高いことを示す主観依存型スキームよりもかなり難しいことを見出した。 最後に,5%の被験者固有のサンプルでモデルを微調整することで,相当な性能向上が得られることを示す。

Automatic classification of running styles can enable runners to obtain feedback with the aim of optimizing performance in terms of minimizing energy expenditure, fatigue, and risk of injury. To develop a system capable of classifying running styles using wearables, we collect a dataset from 10 healthy runners performing 8 different pre-defined running styles. Five wearable devices are used to record accelerometer data from different parts of the lower body, namely left and right foot, left and right medial tibia, and lower back. Using the collected dataset, we develop a deep learning solution which consists of a Convolutional Neural Network and Long Short-Term Memory network to first automatically extract effective features, followed by learning temporal relationships. Score-level fusion is used to aggregate the classification results from the different sensors. Experiments show that the proposed model is capable of automatically classifying different running styles in a subject-dependant manner, outperforming several classical machine learning methods (following manual feature extraction) and a convolutional neural network baseline. Moreover, our study finds that subject-independent classification of running styles is considerably more challenging than a subject-dependant scheme, indicating a high level of personalization in such running styles. Finally, we demonstrate that by fine-tuning the model with as few as 5% subject-specific samples, considerable performance boost is obtained.
翻訳日:2021-09-03 13:50:29 公開日:2021-09-01
# 大規模環境センサネットワークのためのオンラインテンソルリカバリによるデータ前処理

Streaming data preprocessing via online tensor recovery for large environmental sensor networks ( http://arxiv.org/abs/2109.00596v1 )

ライセンス: Link先を確認
Yue Hu, Ao Qu, Yanbing Wang, and Dan Work(参考訳) 低コストの都市環境センサネットワークでは, 建設・自然環境をきめ細かなスケールで測定することが可能となった。 しかし, 街並みの詳細なデータ分析は, 異常なデータクリーニングによって複雑である。 異常を自動的に修正し、欠落を示唆する多くの方法が存在するが、大きな時空間スケールとシフトパターンを持つデータにはまだ課題がある。 そこで本研究では,高次元都市環境データセットを事前処理するオンラインロバスト・テンソル・リカバリ(olrtr)手法を提案する。 データの下位パターンをキャプチャする小さな辞書が計算され、新しいデータで常に更新される。 OLRTRは、オフラインバッチに比べて計算メモリ使用量が少なく、連続的なデータストリームを提供する大規模センサネットワークのオンラインリカバリを可能にする。 さらに, 目的関数を定式化することにより, olrtr が長い時間にわたって誤り読みなどの構造的外れ値を検出することができる。 我々は,OLRTRを合成劣化した国立海洋大気庁の温度データセットに0.05の回復誤差で検証し,それをイリノイ州シカゴのArray of Thingsの都市規模のセンサネットワークに適用し,オンラインおよびバッチベースの低ランク分解法と比較して優れた結果を示した。

Measuring the built and natural environment at a fine-grained scale is now possible with low-cost urban environmental sensor networks. However, fine-grained city-scale data analysis is complicated by tedious data cleaning including removing outliers and imputing missing data. While many methods exist to automatically correct anomalies and impute missing entries, challenges still exist on data with large spatial-temporal scales and shifting patterns. To address these challenges, we propose an online robust tensor recovery (OLRTR) method to preprocess streaming high-dimensional urban environmental datasets. A small-sized dictionary that captures the underlying patterns of the data is computed and constantly updated with new data. OLRTR enables online recovery for large-scale sensor networks that provide continuous data streams, with a lower computational memory usage compared to offline batch counterparts. In addition, we formulate the objective function so that OLRTR can detect structured outliers, such as faulty readings over a long period of time. We validate OLRTR on a synthetically degraded National Oceanic and Atmospheric Administration temperature dataset, with a recovery error of 0.05, and apply it to the Array of Things city-scale sensor network in Chicago, IL, showing superior results compared with several established online and batch-based low rank decomposition methods.
翻訳日:2021-09-03 13:50:05 公開日:2021-09-01
# マルチスキャン乳癌病理組織像におけるmitosis検出のためのドメイン適応法の検討

Assessing domain adaptation techniques for mitosis detection in multi-scanner breast cancer histopathology images ( http://arxiv.org/abs/2109.00869v1 )

ライセンス: Link先を確認
Jack Breen, Kieran Zucker, Nicolas Orsi, Geoff Hall, Nishant Ravikumar(参考訳) 乳がんは世界で最も多いがんであり、毎年200万人以上の新しい症例が診断されている。 腫瘍の診断プロセスの一環として、病理組織学者は細胞分裂の回数を細胞分裂と呼ばれる生物学的プロセスで手動で計算する。 人工知能(AI)法は、有糸分裂図形を自動的に検出する手法が開発されているが、元の(訓練)領域外からのデータに適用した場合、しばしば性能が低下する。 異なる染色プロトコルを用いて作成された組織像や、異なるスキャナを用いてデジタル化されたヒストロジー画像にうまく一般化していない。 ドメイン適応の形式であるスタイル転送は、異なるドメインから共有の視覚的外観にイメージを変換する手段を提供し、ドメインシフトの問題を軽減するために様々なアプリケーションで採用されている。 本稿では,2つのmitosis検出モデルと2つのスタイル転送法を訓練し,異なるスキャナを用いてデジタル化された画像におけるmitosis検出性能を向上させるための後者の有用性を評価する。 その結果,MIDOG 2021の予備テストセットでは,これらのモデルの中で最も優れたU-Netが0.693のF1スコアを達成した。

Breast cancer is the most prevalent cancer worldwide and over two million new cases are diagnosed each year. As part of the tumour grading process, histopathologists manually count how many cells are dividing, in a biological process called mitosis. Artificial intelligence (AI) methods have been developed to automatically detect mitotic figures, however these methods often perform poorly when applied to data from outside of the original (training) domain, i.e. they do not generalise well to histology images created using varied staining protocols or digitised using different scanners. Style transfer, a form of domain adaptation, provides the means to transform images from different domains to a shared visual appearance and have been adopted in various applications to mitigate the issue of domain shift. In this paper we train two mitosis detection models and two style transfer methods and evaluate the usefulness of the latter for improving mitosis detection performance in images digitised using different scanners. We found that the best of these models, U-Net without style transfer, achieved an F1-score of 0.693 on the MIDOG 2021 preliminary test set.
翻訳日:2021-09-03 13:47:19 公開日:2021-09-01
# ファイバ光学における非線形ダイナミクスのための物理インフォームドニューラルネットワーク

Physics-informed Neural Network for Nonlinear Dynamics in Fiber Optics ( http://arxiv.org/abs/2109.00526v1 )

ライセンス: Link先を確認
Xiaotian Jiang, Danshi Wang, Qirui Fan, Min Zhang, Chao Lu, and Alan Pak Tao Lau(参考訳) ファイバー光学系の非線形ダイナミクスを学習するための非線形schr\"odinger方程式を解くために、深層学習と物理を結合した物理に変形したニューラルネットワーク (pinn) が研究されている。 我々は、分散、自己位相変調、高次非線形効果を含む光ファイバーにおける多重物理効果に対するPINNの系統的および包括的検証を行う。 さらに, PINNを用いて, 特殊ケース (ソリトン伝搬) と一般ケース (マルチパルス伝搬) の両方を検討, 実現した。 前回の研究では、PINNは主に単一シナリオに有効であった。 この問題を解決するために、物理パラメータ(パルスピークパワーとサブパルスの振幅)は追加の入力パラメータコントローラとして組み込まれ、PINNは異なるシナリオの物理的制約を学習し、優れた一般化性を実現する。 さらに、pinnはデータ駆動型ニューラルネットワークよりもはるかに少ないデータを使用するよりも優れた性能を示し、その計算複雑性(乗算数の観点から)は分割ステップフーリエ法よりもずっと低い。 本報告は,PINNが有効な偏微分方程式解法であるだけでなく,光ファイバーにおける科学計算と自動モデリングを推し進めるための予測手法であることを示す。

A physics-informed neural network (PINN) that combines deep learning with physics is studied to solve the nonlinear Schr\"odinger equation for learning nonlinear dynamics in fiber optics. We carry out a systematic investigation and comprehensive verification on PINN for multiple physical effects in optical fibers, including dispersion, self-phase modulation, and higher-order nonlinear effects. Moreover, both special case (soliton propagation) and general case (multi-pulse propagation) are investigated and realized with PINN. In the previous studies, the PINN was mainly effective for single scenario. To overcome this problem, the physical parameters (pulse peak power and amplitudes of sub-pulses) are hereby embedded as additional input parameter controllers, which allow PINN to learn the physical constraints of different scenarios and perform good generalizability. Furthermore, PINN exhibits better performance than the data-driven neural network using much less data, and its computational complexity (in terms of number of multiplications) is much lower than that of the split-step Fourier method. The results report here show that the PINN is not only an effective partial differential equation solver, but also a prospective technique to advance the scientific computing and automatic modeling in fiber optics.
翻訳日:2021-09-03 13:45:31 公開日:2021-09-01
# R-SNN:動的視覚センサ用ノイズフィルタによる対向攻撃に対するスパイクニューラルネットワークのロバスト化と設計手法

R-SNN: An Analysis and Design Methodology for Robustifying Spiking Neural Networks against Adversarial Attacks through Noise Filters for Dynamic Vision Sensors ( http://arxiv.org/abs/2109.00533v1 )

ライセンス: Link先を確認
Alberto Marchisio and Giacomo Pira and Maurizio Martina and Guido Masera and Muhammad Shafique(参考訳) spiking neural networks(snns)は、イベントベースのダイナミックビジョンセンサー(dvs)を備えたニューロモルフィックチップに実装された場合、エネルギー効率の高い学習機能を提供する。 本稿では,これらのDVSシステムに対する攻撃に対するSNNのロバスト性について検討し,効率的なDVSノイズフィルタリングによるSNNのロバスト化手法であるR-SNNを提案する。 我々は,DVS信号に対する敵攻撃(時空間領域における事象のフレーム)を初めて生成し,DVSセンサにノイズフィルタを適用して敵攻撃を防御する。 その結果,ノイズフィルタにより,SNNが騙されるのを効果的に防ぐことができた。 我々の実験では、DVS-GestureデータセットとNMNISTデータセットに対して、異なる敵脅威モデルの下で90%以上の精度を提供する。

Spiking Neural Networks (SNNs) aim at providing energy-efficient learning capabilities when implemented on neuromorphic chips with event-based Dynamic Vision Sensors (DVS). This paper studies the robustness of SNNs against adversarial attacks on such DVS-based systems, and proposes R-SNN, a novel methodology for robustifying SNNs through efficient DVS-noise filtering. We are the first to generate adversarial attacks on DVS signals (i.e., frames of events in the spatio-temporal domain) and to apply noise filters for DVS sensors in the quest for defending against adversarial attacks. Our results show that the noise filters effectively prevent the SNNs from being fooled. The SNNs in our experiments provide more than 90% accuracy on the DVS-Gesture and NMNIST datasets under different adversarial threat models.
翻訳日:2021-09-03 13:45:11 公開日:2021-09-01
# 分散最適化のミニマックス複雑性

The Minimax Complexity of Distributed Optimization ( http://arxiv.org/abs/2109.00534v1 )

ライセンス: Link先を確認
Blake Woodworth(参考訳) 本稿では,分散確率最適化のミニマックスオラクル複雑性について考察する。 まず、分散最適化アルゴリズムの研究に応用できる古典的なオラクル複雑性フレームワークの拡張である「グラフオラクルモデル」について述べる。 次に、任意のランダム化アルゴリズム(決定論的アルゴリズムや「ゼロ検査」アルゴリズムのようなより制限されたアルゴリズムのクラスとは対照的に)の最適化の下限を証明する一般的なアプローチについて述べる。 残りの論文では、複数のコンピュータデバイスが互いに限られた通信で並列に動作する「間欠的な通信設定」の特定のケースに焦点を当てます。 本稿では, 局所確率勾配Descent (SGD) アルゴリズムの凸設定における理論的特性を等質的および不均一な目的のために解析する。 簡単なベースライン法よりも優れたローカルSGDを最初に保証するが、ローカルSGDが一般に最適でないことを示す。 間欠的通信設定における最適手法の追求において, 等質凸, 不均質凸, 等質非凸目標との間欠的通信設定における上・下界の一致を示す。 これらの上限は SGD の単純変種によって達成され、従って最適である。 最後に、我々は、我々の下界が許容するよりも優れた保証付き断続的な通信アルゴリズムを開発するために、利用可能な目的またはより強力なオラクルについて、いくつかの仮定について論じる。

In this thesis, I study the minimax oracle complexity of distributed stochastic optimization. First, I present the "graph oracle model", an extension of the classic oracle complexity framework that can be applied to study distributed optimization algorithms. Next, I describe a general approach to proving optimization lower bounds for arbitrary randomized algorithms (as opposed to more restricted classes of algorithms, e.g., deterministic or "zero-respecting" ; algorithms), which is used extensively throughout the thesis. For the remainder of the thesis, I focus on the specific case of the "intermittent communication setting", where multiple computing devices work in parallel with limited communication amongst themselves. In this setting, I analyze the theoretical properties of the popular Local Stochastic Gradient Descent (SGD) algorithm in convex setting, both for homogeneous and heterogeneous objectives. I provide the first guarantees for Local SGD that improve over simple baseline methods, but show that Local SGD is not optimal in general. In pursuit of optimal methods in the intermittent communication setting, I then show matching upper and lower bounds for the intermittent communication setting with homogeneous convex, heterogeneous convex, and homogeneous non-convex objectives. These upper bounds are attained by simple variants of SGD which are therefore optimal. Finally, I discuss several additional assumptions about the objective or more powerful oracles that might be exploitable in order to develop better intermittent communication algorithms with better guarantees than our lower bounds allow.
翻訳日:2021-09-03 13:44:54 公開日:2021-09-01
# 財務予測におけるニューラルネットワークの双線形入力正規化

Bilinear Input Normalization for Neural Networks in Financial Forecasting ( http://arxiv.org/abs/2109.00983v1 )

ライセンス: Link先を確認
Dat Thanh Tran, Juho Kanniainen, Moncef Gabbouj, Alexandros Iosifidis(参考訳) データ正規化は、特に関心のモデルがディープニューラルネットワークである場合、マシンラーニングモデルを構築する上で最も重要な前処理ステップの1つである。 これは、確率勾配降下に最適化されたディープニューラルネットワークが入力変数範囲に敏感であり、数値問題に傾向があるためである。 他の種類の信号とは異なり、金融時系列は、高ボラティリティ、非定常性、マルチモダリティなどのユニークな特徴をしばしば示し、適切な処理パイプラインを設計するために専門的なドメイン知識を必要とする。 本稿では,高周波金融時系列を扱う深層ニューラルネットワークのための新しいデータ駆動正規化手法を提案する。 金融多変量時系列のバイモーダル特性を考慮した正規化方式では、エンドツーエンドの最適化プロセスの一部として定式化されるため、財務時系列を前処理する専門知識は不要である。 本実験は,北欧市場と米国市場から来日する2つの大規模リミットオーダーブックから,最先端のニューラルネットワークと高周波データを用いて実施し,今後の株価変動を予測する上で,他の正規化技術よりも大幅に改善されたことを示す。

Data normalization is one of the most important preprocessing steps when building a machine learning model, especially when the model of interest is a deep neural network. This is because deep neural network optimized with stochastic gradient descent is sensitive to the input variable range and prone to numerical issues. Different than other types of signals, financial time-series often exhibit unique characteristics such as high volatility, non-stationarity and multi-modality that make them challenging to work with, often requiring expert domain knowledge for devising a suitable processing pipeline. In this paper, we propose a novel data-driven normalization method for deep neural networks that handle high-frequency financial time-series. The proposed normalization scheme, which takes into account the bimodal characteristic of financial multivariate time-series, requires no expert knowledge to preprocess a financial time-series since this step is formulated as part of the end-to-end optimization process. Our experiments, conducted with state-of-the-arts neural networks and high-frequency data from two large-scale limit order books coming from the Nordic and US markets, show significant improvements over other normalization techniques in forecasting future stock price dynamics.
翻訳日:2021-09-03 13:43:48 公開日:2021-09-01
# 階層地図のための勾配サンプリングアルゴリズムと位相データ解析への応用

A Gradient Sampling Algorithm for Stratified Maps with Applications to Topological Data Analysis ( http://arxiv.org/abs/2109.00530v1 )

ライセンス: Link先を確認
Jacob Leygonie, Mathieu Carri\`ere (DATASHAPE), Th\'eo Lacombe (DATASHAPE), Steve Oudot (DATASHAPE)(参考訳) 本研究では, 局所リプシッツ関数として定義される, 環境ユークリッド空間の成層と呼ばれる正則片上で滑らかな局所的リプシッツ関数として, 既知の勾配サンプリング手法を拡張した新しい勾配降下アルゴリズムを提案する。 このクラスの関数に対して、我々のアルゴリズムはサブ線形収束率を達成する。 次に,この手法を,トポロジカルデータ解析の中心的ツールである低星フィルタ上で計算された(拡張)持続ホモロジー写像に基づいて,目的関数に適用する。 そこで本研究では,置換群のケイリーグラフを用いて,対応する成層を効率的に探索する。 最後に,フレームワークの有用性と適用性を示すために,ベンチマークおよび新しいトポロジカル最適化問題を提案する。

We introduce a novel gradient descent algorithm extending the well-known Gradient Sampling methodology to the class of stratifiably smooth objective functions, which are defined as locally Lipschitz functions that are smooth on some regular pieces-called the strata-of the ambient Euclidean space. For this class of functions, our algorithm achieves a sub-linear convergence rate. We then apply our method to objective functions based on the (extended) persistent homology map computed over lower-star filters, which is a central tool of Topological Data Analysis. For this, we propose an efficient exploration of the corresponding stratification by using the Cayley graph of the permutation group. Finally, we provide benchmark and novel topological optimization problems, in order to demonstrate the utility and applicability of our framework.
翻訳日:2021-09-03 13:41:55 公開日:2021-09-01
# 決定木をほぼ多項式時間で適切に学習する

Properly learning decision trees in almost polynomial time ( http://arxiv.org/abs/2109.00637v1 )

ライセンス: Link先を確認
Guy Blanc, Jane Lange, Mingda Qiao, Li-Yang Tan(参考訳) 我々は$n^{O(\log\log n)}$-timeメンバシップクエリアルゴリズムを、$\{\pm 1\}^n$の均一分布の下で、適切にかつ不可知的に決定木を学習する。 実現可能な設定でも、以前の最速のランタイムは$n^{o(\log n)}$であり、これはehrenfeuchtとhausslerの古典的なアルゴリズムの結果である。 我々のアルゴリズムは決定木を学ぶための実用的なヒューリスティックスと類似性を共有しており、これらのヒューリスティックスに対する既知の下限を回避するために追加のアイデアを追加している。 アルゴリズムを分析するために,o'donnell,saks,schramm ,および servedio の定理を強化する決定木に対する新しい構造的結果を証明する。 OSSSの定理では、すべての決定木は影響のある変数を持つが、すべての決定木がどのようにして「突破」され、結果のツリーのすべての変数が影響を持つかを示す。

We give an $n^{O(\log\log n)}$-time membership query algorithm for properly and agnostically learning decision trees under the uniform distribution over $\{\pm 1\}^n$. Even in the realizable setting, the previous fastest runtime was $n^{O(\log n)}$, a consequence of a classic algorithm of Ehrenfeucht and Haussler. Our algorithm shares similarities with practical heuristics for learning decision trees, which we augment with additional ideas to circumvent known lower bounds against these heuristics. To analyze our algorithm, we prove a new structural result for decision trees that strengthens a theorem of O'Donnell, Saks, Schramm, and Servedio. While the OSSS theorem says that every decision tree has an influential variable, we show how every decision tree can be "pruned" so that every variable in the resulting tree is influential.
翻訳日:2021-09-03 13:41:42 公開日:2021-09-01
# 一度だけ聞く: 音のセグメンテーションと音のイベント検出のためのYOLOライクなアルゴリズム

You Only Hear Once: A YOLO-like Algorithm for Audio Segmentation and Sound Event Detection ( http://arxiv.org/abs/2109.00962v1 )

ライセンス: Link先を確認
Satvik Venkatesh, David Moffat, Eduardo Reck Miranda(参考訳) 音声セグメンテーションと音響イベント検出は、音響クラスとその境界を検出することを目的としたマシンリスニングにおいて重要なトピックである。 音声コンテンツ分析、音声認識、オーディオインデクシング、音楽情報検索に有用である。 近年、ほとんどの研究論文では分類別セグメンテーションが採用されている。 この手法は、音声を小さなフレームに分割し、個々のフレームを個別に分類する。 本稿では,コンピュータビジョンに広く採用されているYOLOアルゴリズムにインスパイアされた,You Only Hear Once (YOHO) という新しいアプローチを提案する。 音響境界の検出をフレームに基づく分類ではなく回帰問題に変換する。 これは、オーディオクラスの存在を検出し、その開始点と終了点を予測するために、別々の出力ニューロンを持つことによって行われる。 yohoは、複数のデータセット上のconvolutional recurrent neural networkよりも高いf-measureと低いエラーレートを得た。 YOHOは純粋に畳み込みニューラルネットワークであり、リカレント層を持たないため、推論時に高速である。 さらに、このアプローチはエンドツーエンドであり、音響境界を直接予測するので、後処理や平滑化においてかなり高速である。

Audio segmentation and sound event detection are crucial topics in machine listening that aim to detect acoustic classes and their respective boundaries. It is useful for audio-content analysis, speech recognition, audio-indexing, and music information retrieval. In recent years, most research articles adopt segmentation-by-clas sification. This technique divides audio into small frames and individually performs classification on these frames. In this paper, we present a novel approach called You Only Hear Once (YOHO), which is inspired by the YOLO algorithm popularly adopted in Computer Vision. We convert the detection of acoustic boundaries into a regression problem instead of frame-based classification. This is done by having separate output neurons to detect the presence of an audio class and predict its start and end points. YOHO obtained a higher F-measure and lower error rate than the state-of-the-art Convolutional Recurrent Neural Network on multiple datasets. As YOHO is purely a convolutional neural network and has no recurrent layers, it is faster during inference. In addition, as this approach is more end-to-end and predicts acoustic boundaries directly, it is significantly quicker during post-processing and smoothing.
翻訳日:2021-09-03 13:41:06 公開日:2021-09-01
# (参考訳) online dynamic window (odw) による屋内ローカライズのための2段階lstmフレームワーク [全文訳有]

Online Dynamic Window (ODW) Assisted Two-stage LSTM Frameworks for Indoor Localization ( http://arxiv.org/abs/2109.00126v1 )

ライセンス: CC BY 4.0
Mohammadamin Atashi, Mohammad Salimibeni, and Arash Mohammadi(参考訳) モノのインターネット(IoT)ベースの屋内ローカライゼーションは、最近、屋内ロケーションベースサービス(LBS)の継続的な要求を満たすために、大きな人気を集めている。 この文脈では、IMU(Inertial Measurement Unit)ベースのローカライゼーションは、プロプライエタリなセンサー/モジュールに依存しないスケーラブルなソリューションを提供するため、関心がある。 しかし,既存のIMU法は主に累積誤差問題に苦しむ統計的方向推定とステップ長推定技術に基づいて開発されており,実時間屋内位置推定への応用を制限している。 上記の問題に対処するため,我々は,オンライン動的ウィンドウ(ODW)を利用した2段階Long Short Term Memory(LSTM)ローカライゼーションフレームワークを提案する。 3つのODWが提案され、最初のモデルは自然言語処理(NLP)にインスパイアされた動的ウィンドウ(DW)アプローチを使用しており、必要な計算時間を著しく短縮する。 第2のフレームワークは、SP-DW(Signal Processing Dynamic Windowing)アプローチに基づいて開発され、2段階LSTMモデルに必要な処理時間を短縮する。 第3のodwはsp-nlpと呼ばれ、最初の2つのウィンドウ機構を組み合わせて、全体的な精度をさらに向上させた。 高テンソル計算要件と低精度のいずれかに苦しむ従来のlstmベースの測位手法と比較して,提案するodw支援モデルでは,屋内での測位をほぼリアルタイムに高精度に行うことができる。 提案するODW支援モデルの性能は,実際のPDRデータセットに基づいて評価する。 その結果,提案手法が計算時間を大幅に削減し,高い分類精度を達成する可能性を示し,ほぼリアルタイム実装に適用できることを示した。

Internet of Things (IoT)-based indoor localization has gained significant popularity recently to satisfy the ever-increasing requirements of indoor Location-based Services (LBS). In this context, Inertial Measurement Unit (IMU)-based localization is of interest as it provides a scalable solution independent of any proprietary sensors/modules. Existing IMU-based methodologies, however, are mainly developed based on statistical heading and step length estimation techniques that suffer from cumulative error issues and have extensive computational time requirements limiting their application for real-time indoor positioning. To address the aforementioned issues, we propose the Online Dynamic Window (ODW)-assisted two-stage Long Short Term Memory (LSTM) localization framework. Three ODWs are proposed, where the first model uses a Natural Language Processing (NLP)-inspired Dynamic Window (DW) approach, which significantly reduces the required computational time. The second framework is developed based on a Signal Processing Dynamic Windowing (SP-DW) approach to further reduce the required processing time of the two-stage LSTM-based model. The third ODW, referred to as the SP-NLP, combines the first two windowing mechanisms to further improve the overall achieved accuracy. Compared to the traditional LSTM-based positioning approaches, which suffer from either high tensor computation requirements or low accuracy, the proposed ODW-assisted models can perform indoor localization in a near-real time fashion with high accuracy. Performances of the proposed ODW-assisted models are evaluated based on a real Pedestrian Dead Reckoning (PDR) dataset. The results illustrate potentials of the proposed ODW-assisted techniques in achieving high classification accuracy with significantly reduced computational time, making them applicable for near real-time implementations.
翻訳日:2021-09-02 19:39:18 公開日:2021-09-01
# (参考訳) 分散ネットワークにおける異常検出のためのDeep Dual Support Vector Data Description [全文訳有]

Deep Dual Support Vector Data Description for Anomaly Detection on Attributed Networks ( http://arxiv.org/abs/2109.00138v1 )

ライセンス: CC BY 4.0
Fengbin Zhang, Haoyi Fan, Ruidong Wang, Zuoyong Li, Tiancai Liang(参考訳) ネットワークは、ソーシャルネットワークや通信ネットワークなどの現実世界に広く存在しており、ネットワーク上の異常検出は、多くの参照ノードから構造パターンや属性パターンが著しく逸脱したノードを見つけることを目的としている。 しかし,従来の異常検出手法の多くはデータ点間の関係構造情報を無視しており,グラフ構造データに効果的に一般化することはできない。 本稿では,属性ネットワークの構造と属性の両方を考慮した属性ネットワーク上の異常検出のための,Deep Dual Support Vector Data description based Autoencoder(Dual-SVD AE)のエンドツーエンドモデルを提案する。 具体的には、Dual-SVDAEは、構造空間におけるノードの潜在表現をそれぞれ学習する構造オートエンコーダと属性オートエンコーダから構成される。 そして、その構造と属性の観点から正常ノードの2つの超球を学習するために、双超球学習機構をそれらに与える。 さらに,ネットワークの構造と属性の合同学習を実現するために,特徴デコーダの最終的な入力として構造埋め込みと属性埋め込みを融合してノード属性を生成する。 最後に、各超球面の学習中心までの距離を潜時構造空間と属性空間でそれぞれ測定することにより、異常ノードを検出することができる。 実世界の属性ネットワークに関する大規模な実験により、Dual-SVDAEは一貫して最先端技術よりも優れており、提案手法の有効性が示されている。

Networks are ubiquitous in the real world such as social networks and communication networks, and anomaly detection on networks aims at finding nodes whose structural or attributed patterns deviate significantly from the majority of reference nodes. However, most of the traditional anomaly detection methods neglect the relation structure information among data points and therefore cannot effectively generalize to the graph structure data. In this paper, we propose an end-to-end model of Deep Dual Support Vector Data description based Autoencoder (Dual-SVDAE) for anomaly detection on attributed networks, which considers both the structure and attribute for attributed networks. Specifically, Dual-SVDAE consists of a structure autoencoder and an attribute autoencoder to learn the latent representation of the node in the structure space and attribute space respectively. Then, a dual-hypersphere learning mechanism is imposed on them to learn two hyperspheres of normal nodes from the structure and attribute perspectives respectively. Moreover, to achieve joint learning between the structure and attribute of the network, we fuse the structure embedding and attribute embedding as the final input of the feature decoder to generate the node attribute. Finally, abnormal nodes can be detected by measuring the distance of nodes to the learned center of each hypersphere in the latent structure space and attribute space respectively. Extensive experiments on the real-world attributed networks show that Dual-SVDAE consistently outperforms the state-of-the-arts, which demonstrates the effectiveness of the proposed method.
翻訳日:2021-09-02 19:23:09 公開日:2021-09-01
# (参考訳) Federated Reconnaissance: 効率的、分散、クラスインクリメンタルな学習 [全文訳有]

Federated Reconnaissance: Efficient, Distributed, Class-Incremental Learning ( http://arxiv.org/abs/2109.00150v1 )

ライセンス: CC BY 4.0
Sean M. Hendryx, Dharma Raj KC, Bradley Walls, Clayton T. Morrison(参考訳) 本稿では,分散クライアントが個別に新しい概念を学習し,その知識を効率的に伝達する学習問題であるフェデレート偵察について述べる。 特に,各クライアントが増加傾向にあるクラスの集合を学習し,それらのクラスの知識を他のクライアントと効率的に伝達することが期待されるシステム評価フレームワークと方法論ベースラインを提案する。 この問題に対する学習アルゴリズムを多種多様比較し,新しい情報を効率的に取り入れつつ,破滅的な記憶に頑健な先駆的ネットワークが強固なアプローチであることを見出した。 さらに、プロトタイプベクトルのオンライン平均化は、クライアントモデルの統合に有効であり、グラデーションベースの学習やハイパーパラメータチューニングのないクラス毎の通信オーバーヘッド、メモリ、更新時間のみを必要とすることを示す。 さらに,コンボリューション層が4つある簡素でプロトタイプ的なネットワークが,複雑な,最先端の連続学習アルゴリズムを著しく上回り,600のomniglotクラスを学習した後で22%,20のmini-imagenetクラスをインクリメンタルに学習した後で33%以上精度を高めていることがわかった。 これらの結果は, コミュニケーション特徴ベクトルが分散的連続学習において, 効率的かつ堅牢かつ効果的な手段であることを実証することにより, 連合偵察と継続学習に重要な意味を持つ。

We describe federated reconnaissance, a class of learning problems in which distributed clients learn new concepts independently and communicate that knowledge efficiently. In particular, we propose an evaluation framework and methodological baseline for a system in which each client is expected to learn a growing set of classes and communicate knowledge of those classes efficiently with other clients, such that, after knowledge merging, the clients should be able to accurately discriminate between classes in the superset of classes observed by the set of clients. We compare a range of learning algorithms for this problem and find that prototypical networks are a strong approach in that they are robust to catastrophic forgetting while incorporating new information efficiently. Furthermore, we show that the online averaging of prototype vectors is effective for client model merging and requires only a small amount of communication overhead, memory, and update time per class with no gradient-based learning or hyperparameter tuning. Additionally, to put our results in context, we find that a simple, prototypical network with four convolutional layers significantly outperforms complex, state of the art continual learning algorithms, increasing the accuracy by over 22% after learning 600 Omniglot classes and over 33% after learning 20 mini-ImageNet classes incrementally. These results have important implications for federated reconnaissance and continual learning more generally by demonstrating that communicating feature vectors is an efficient, robust, and effective means for distributed, continual learning.
翻訳日:2021-09-02 18:49:59 公開日:2021-09-01
# (参考訳) 複数言語における文単純化コーパス構築のための教師なし手法 [全文訳有]

An Unsupervised Method for Building Sentence Simplification Corpora in Multiple Languages ( http://arxiv.org/abs/2109.00165v1 )

ライセンス: CC BY 4.0
Xinyu Lu and Jipeng Qiang and Yun Li and Yunhao Yuan and Yi Zhu(参考訳) 並列文単純化(SS)は神経SSモデリングでは不十分である。 本稿では,大規模なバイリンガル翻訳コーパスからSSコーパスを構築するための教師なし手法を提案する。 ニューラルマシン翻訳モデルは、通常、より高周波なトークンを生成する傾向があり、翻訳コーパスのソースとターゲット言語の間には、テキストの複雑さレベルの違いが存在する。 翻訳コーパスの原文とそれらの参照の翻訳文の対をブリッジ言語で取ることにより,大規模擬似並列ssデータを構築することができる。 そして、これらの文対をss文対として高い複雑性差で保持する。 教師なしアプローチで構築されたSSコーパスは、一致した文が同じ意味を保ち、テキストの複雑さのレベルが異なるという期待を満たすことができる。 実験の結果,我々のコーパスで訓練したSS法は最先端の結果を達成し,英語のベンチマークWikiLargeの成績を大きく上回った。

The availability of parallel sentence simplification (SS) is scarce for neural SS modelings. We propose an unsupervised method to build SS corpora from large-scale bilingual translation corpora, alleviating the need for SS supervised corpora. Our method is motivated by the following two findings: neural machine translation model usually tends to generate more high-frequency tokens and the difference of text complexity levels exists between the source and target language of a translation corpus. By taking the pair of the source sentences of translation corpus and the translations of their references in a bridge language, we can construct large-scale pseudo parallel SS data. Then, we keep these sentence pairs with a higher complexity difference as SS sentence pairs. The building SS corpora with an unsupervised approach can satisfy the expectations that the aligned sentences preserve the same meanings and have difference in text complexity levels. Experimental results show that SS methods trained by our corpora achieve the state-of-the-art results and significantly outperform the results on English benchmark WikiLarge.
翻訳日:2021-09-02 18:31:58 公開日:2021-09-01
# (参考訳) FADE: 観測可能で非現実的な成果のためのFAir Double Ensemble Learning

FADE: FAir Double Ensemble Learning for Observable and Counterfactual Outcomes ( http://arxiv.org/abs/2109.00173v1 )

ライセンス: CC BY 4.0
Alan Mishler, Edward Kennedy(参考訳) 公正な予測器を構築するには、フェアネスと正確さのトレードオフや、異なるフェアネス基準が含まれることが多いが、これらのトレードオフの性質は様々である。 最近の研究は、特定の問題設定でこれらのトレードオフを特徴付けることを目的としているが、これらの方法は、精度を犠牲にすることなく既存のベンチマークモデルの公平性を改善したいと願うユーザーには適さないことが多い。 これらの結果は通常、観測可能な精度と公平性基準に制限される。 フェアネス精度空間を効率的に探索したり、ベンチマークモデルのフェアネスや精度を向上させることができるフェアアンサンブル学習のための柔軟なフレームワークを開発する。 我々のフレームワークは、同時に複数の観測可能な、あるいは反ファクトの公正度基準を目標とすることができ、ユーザーは、以前に訓練された、新しく訓練された予測器を多数組み合わせることができる。 我々は推定器が高速で収束することを理論的に保証する。 本手法をシミュレーションデータと実データの両方に適用し,可観測性および非実測精度と公平性基準の両方について検討した。 意外なことに、制約のない予測モデルや既存のベンチマークモデルと比較して、精度にほとんど影響を与えずに、複数の不公平性対策を同時に最小化できることが示される。

Methods for building fair predictors often involve tradeoffs between fairness and accuracy and between different fairness criteria, but the nature of these tradeoffs varies. Recent work seeks to characterize these tradeoffs in specific problem settings, but these methods often do not accommodate users who wish to improve the fairness of an existing benchmark model without sacrificing accuracy, or vice versa. These results are also typically restricted to observable accuracy and fairness criteria. We develop a flexible framework for fair ensemble learning that allows users to efficiently explore the fairness-accuracy space or to improve the fairness or accuracy of a benchmark model. Our framework can simultaneously target multiple observable or counterfactual fairness criteria, and it enables users to combine a large number of previously trained and newly trained predictors. We provide theoretical guarantees that our estimators converge at fast rates. We apply our method on both simulated and real data, with respect to both observable and counterfactual accuracy and fairness criteria. We show that, surprisingly, multiple unfairness measures can sometimes be minimized simultaneously with little impact on accuracy, relative to unconstrained predictors or existing benchmark models.
翻訳日:2021-09-02 18:16:30 公開日:2021-09-01
# (参考訳) 学術論文タイトルからの科学的実体のパターンベース取得 [全文訳有]

Pattern-based Acquisition of Scientific Entities from Scholarly Article Titles ( http://arxiv.org/abs/2109.00199v1 )

ライセンス: CC BY 4.0
Jennifer D'Souza and Soeren Auer(参考訳) 本稿では,学術論文のタイトルから科学的実体を自動的に取得するための規則に基づくアプローチについて述べる。 i) 記事のコントリビューション情報のタイトルへの含意を記入すること,(ii) 一度に単一インスタンスに注釈を付けるゴールドスタンダードを作成する際に,人間のアノテーションタスクを緩和するルールの体系を通じて情報パターンの規則性を取得すること,の2つの観察がアプローチの動機となった。 我々は, 容易に認識でき, 頻発するレキシコ合成パターンの組を同定し, 一般に学術的貢献に対する科学的実体タイプを示す。 取得アルゴリズムのサブセットは、計算言語学(CL)学術領域の論文タイトルに対して実装される。 ORKG-Title-Parserと呼ばれるツールは、最初のリリースで、CL論文のタイトルであるvizから以下の6種類の科学的用語を識別する。 研究課題、ソリューション、リソース、言語、ツール、および方法。 ACLアンソロジーのほぼ全ての記事をカバーする50,237タイトルのコレクションで実証的に評価されている。 調査問題19,799件、ソリューション18,111件、リソース20,033件、言語1,059件、ツール6,878件、メソッド21,687件を抽出した。 コードと関連するデータリソースはhttps://gitlab.com/T IBHannover/orkg/orkg -title-parserで公開されている。 最後に,本稿では,学術知識グラフ(skg)作成などの分野への拡張と応用について論じる。

We describe a rule-based approach for the automatic acquisition of scientific entities from scholarly article titles. Two observations motivated the approach: (i) noting the concentration of an article's contribution information in its title; and (ii) capturing information pattern regularities via a system of rules that alleviate the human annotation task in creating gold standards that annotate single instances at a time. We identify a set of lexico-syntactic patterns that are easily recognizable, that occur frequently, and that generally indicates the scientific entity type of interest about the scholarly contribution. A subset of the acquisition algorithm is implemented for article titles in the Computational Linguistics (CL) scholarly domain. The tool called ORKG-Title-Parser, in its first release, identifies the following six concept types of scientific terminology from the CL paper titles, viz. research problem, solution, resource, language, tool, and method. It has been empirically evaluated on a collection of 50,237 titles that cover nearly all articles in the ACL Anthology. It has extracted 19,799 research problems; 18,111 solutions; 20,033 resources; 1,059 languages; 6,878 tools; and 21,687 methods at an average extraction precision of 75%. The code and related data resources are publicly available at https://gitlab.com/T IBHannover/orkg/orkg -title-parser. Finally, in the article, we discuss extensions and applications to areas such as scholarly knowledge graph (SKG) creation.
翻訳日:2021-09-02 18:15:05 公開日:2021-09-01
# (参考訳) EventPoint: イベントカメラのための自己監督型ローカルディスクリプタ学習 [全文訳有]

EventPoint: Self-Supervised Local Descriptor Learning for Event Cameras ( http://arxiv.org/abs/2109.00210v1 )

ライセンス: CC BY 4.0
Ze Huang, Songzhi Su, Henry Zhang, Kevin Sun(参考訳) 本稿では,フレームベースのイベントデータに対する自己教師付き学習手法であるeventpointを用いたintrest pointとdescriptorの抽出法を提案する。 Different from other feature extraction methods on event data, we train our model on real event-form driving dataset--DSEC with the self-supervised learning method we proposed, the training progress fully consider the characteristics of event data.To verify the effectiveness of our work,we conducted several complete evaluations: we emulated DART and carried out feature matching experiments on N-caltech101 dataset, the results shows that the effect of EventPoint is better than DART; We use Vid2e tool provided by UZH to convert Oxford robotcar data into event-based format, and combined with INS information provided to carry out the global pose estimation experiment which is important in SLAM. 私たちの知る限り、これはこの困難なタスクを実行する最初の作業である。十分な実験データから、eventpointはcpu上でリアルタイムに達成しながら、よりよい結果を得ることができることが分かる。

We proposes a method of extracting intrest points and descriptors using self-supervised learning method on frame-based event data, which is called EventPoint. Different from other feature extraction methods on event data, we train our model on real event-form driving dataset--DSEC with the self-supervised learning method we proposed, the training progress fully consider the characteristics of event data.To verify the effectiveness of our work,we conducted several complete evaluations: we emulated DART and carried out feature matching experiments on N-caltech101 dataset, the results shows that the effect of EventPoint is better than DART; We use Vid2e tool provided by UZH to convert Oxford robotcar data into event-based format, and combined with INS information provided to carry out the global pose estimation experiment which is important in SLAM. As far as we know, this is the first work to carry out this challenging task.Sufficient experimental data show that EventPoint can get better results while achieve real time on CPU.
翻訳日:2021-09-02 17:56:39 公開日:2021-09-01
# (参考訳) トップkレコメンデーションのためのマルチサンプルベースコントラスト損失 [全文訳有]

Multi-Sample based Contrastive Loss for Top-k Recommendation ( http://arxiv.org/abs/2109.00217v1 )

ライセンス: CC BY 4.0
Hao Tang, Guoshuai Zhao, Yuxia Wu, Xueming Qian(参考訳) top-kレコメンデーションはレコメンデーションシステムにおける基本的なタスクであり、ポジティブペアとネガティブペアを比較することで一般的に学習される。 Contrastive Loss (CL)は、最近注目を集めているコントラスト学習の鍵であり、トップkレコメンデーションに適していることに気付きました。 しかし、CLが正と負のサンプルの重要性を同じとして扱うのは問題である。 一方、clは1つの正のサンプルと多くの負のサンプルの不均衡問題に直面している。 一方、sparserデータセットでは、ポジティブな項目が極めて少ないため、その重要性が強調されるべきである。 さらに、他の重要な問題は、スパースなポジティブな項目が依然として推奨事項で十分に活用されていないことである。 そこで本研究では,cl損失関数と複数の正の項目(またはサンプル)を同時に用いる新しいデータ拡張手法を提案する。 そこで我々は,正と負のサンプルの重要性とデータ拡張のバランスをとることで,2つの問題を解決するマルチサンプルベースコントラスト損失(MSCL)関数を提案する。 グラフ畳み込みネットワーク(GCN)法を用いて,MSCLの最先端性能を示す実験結果を得た。 提案したMSCLは単純で,多くの手法に適用可能である。 受け入れ次第、githubでコードをリリースします。

The top-k recommendation is a fundamental task in recommendation systems which is generally learned by comparing positive and negative pairs. The Contrastive Loss (CL) is the key in contrastive learning that has received more attention recently and we find it is well suited for top-k recommendations. However, it is a problem that CL treats the importance of the positive and negative samples as the same. On the one hand, CL faces the imbalance problem of one positive sample and many negative samples. On the other hand, positive items are so few in sparser datasets that their importance should be emphasized. Moreover, the other important issue is that the sparse positive items are still not sufficiently utilized in recommendations. So we propose a new data augmentation method by using multiple positive items (or samples) simultaneously with the CL loss function. Therefore, we propose a Multi-Sample based Contrastive Loss (MSCL) function which solves the two problems by balancing the importance of positive and negative samples and data augmentation. And based on the graph convolution network (GCN) method, experimental results demonstrate the state-of-the-art performance of MSCL. The proposed MSCL is simple and can be applied in many methods. We will release our code on GitHub upon the acceptance.
翻訳日:2021-09-02 17:44:02 公開日:2021-09-01
# (参考訳) ビデオアトリビューションのための時空間摂動 [全文訳有]

Spatio-Temporal Perturbations for Video Attribution ( http://arxiv.org/abs/2109.00222v1 )

ライセンス: CC BY 4.0
Zhenqiang Li, Weimin Wang, Zuoyue Li, Yifei Huang, Yoichi Sato(参考訳) ネットワークの出力を支配する入力領域/画素を特定し、視覚化することにより、不透明なニューラルネットワークを視覚的に解釈する方向を提供する。 映像理解ネットワークを視覚的に説明するための属性法は,映像入力に特有の時空間的依存関係と,映像理解ネットワークの特別な3次元畳み込み構造や再帰構造により困難である。 しかし、既存の属性手法の多くは、1つのイメージを入力として扱うネットワークの説明に重点を置いており、ビデオアトリビューション用に特別に考案されたいくつかの研究は、ビデオ理解ネットワークの多様な構造を扱うには不足している。 本稿では,多様な映像理解ネットワークに適合する汎用摂動型帰属法について検討する。 さらに,空間次元と時間次元の両面における帰属関係の滑らかさを抑えることで手法を強化する新たな正規化項を提案する。 手動による判断を頼らずに様々なビデオ帰属手法の有効性を評価するために,新たに提案された信頼性測定によって検証される信頼性の高い客観的指標を導入する。 本手法の有効性を主観的および客観的な評価と,複数の有意な帰属法との比較により検証した。

The attribution method provides a direction for interpreting opaque neural networks in a visual way by identifying and visualizing the input regions/pixels that dominate the output of a network. Regarding the attribution method for visually explaining video understanding networks, it is challenging because of the unique spatiotemporal dependencies existing in video inputs and the special 3D convolutional or recurrent structures of video understanding networks. However, most existing attribution methods focus on explaining networks taking a single image as input and a few works specifically devised for video attribution come short of dealing with diversified structures of video understanding networks. In this paper, we investigate a generic perturbation-based attribution method that is compatible with diversified video understanding networks. Besides, we propose a novel regularization term to enhance the method by constraining the smoothness of its attribution results in both spatial and temporal dimensions. In order to assess the effectiveness of different video attribution methods without relying on manual judgement, we introduce reliable objective metrics which are checked by a newly proposed reliability measurement. We verified the effectiveness of our method by both subjective and objective evaluation and comparison with multiple significant attribution methods.
翻訳日:2021-09-02 17:26:35 公開日:2021-09-01
# (参考訳) 多言語YouTubeコメントにおけるホモフォビアとトランスフォビアの識別のためのデータセット

Dataset for Identification of Homophobia and Transophobia in Multilingual YouTube Comments ( http://arxiv.org/abs/2109.00227v1 )

ライセンス: CC BY 4.0
Bharathi Raja Chakravarthi, Ruba Priyadharshini, Rahul Ponnusamy, Prasanna Kumar Kumaresan, Kayalvizhi Sampath, Durairaj Thenmozhi, Sathiyaraj Thangasamy, Rajendran Nallathambi, John Phillip McCrae(参考訳) ソーシャルメディアプラットフォームにおける乱用コンテンツの増加は、オンラインユーザーに悪影響を及ぼす。 レズビアン、ゲイ、トランスジェンダー、バイセクシュアル人の恐怖、嫌悪、不快、不快、不信は、ホモフォビア/トランスフォビアとして定義される。 ホモフォビック/トランスフォビックスピーチは、LGBT+の人々を対象としたヘイトスピーチとして要約される攻撃的な言語の一種であり、近年は懸念が高まっている。 オンラインホモフォビア/トランスフォビアは深刻な社会問題であり、オンラインプラットフォームはLGBT+の人々にとって有毒で歓迎されないだけでなく、平等、多様性、包摂性を排除しようとしている。 オンラインホモフォビアとトランスフォビアのための新しい階層型分類法と、ホモフォビア/トランスフォビアコンテンツの自動識別を可能にする専門家ラベル付きデータセットを提供する。 これはセンシティブな問題であるため、アノテーションを教育し、包括的なアノテーションルールを提供した。そして、以前、訓練されていないクラウドソーシングアノテーションは、文化や他の偏見によるホモフォビアの診断に苦しむことを発見しました。 データセットは、注釈付き多言語コメント15,141を含む。 本稿では,データセットの構築プロセス,データの質的分析,アノテーション間合意について述べる。 さらに、データセットのベースラインモデルを作成します。 私たちの知る限りでは、私たちのデータセットは最初のそのようなデータセットです。 注意:本論文では,ホモフォビア,トランスフォビア,ステレオタイプの明示的な記述を含んでいる。

The increased proliferation of abusive content on social media platforms has a negative impact on online users. The dread, dislike, discomfort, or mistrust of lesbian, gay, transgender or bisexual persons is defined as homophobia/transphob ia. Homophobic/transphob ic speech is a type of offensive language that may be summarized as hate speech directed toward LGBT+ people, and it has been a growing concern in recent years. Online homophobia/transphob ia is a severe societal problem that can make online platforms poisonous and unwelcome to LGBT+ people while also attempting to eliminate equality, diversity, and inclusion. We provide a new hierarchical taxonomy for online homophobia and transphobia, as well as an expert-labelled dataset that will allow homophobic/transphob ic content to be automatically identified. We educated annotators and supplied them with comprehensive annotation rules because this is a sensitive issue, and we previously discovered that untrained crowdsourcing annotators struggle with diagnosing homophobia due to cultural and other prejudices. The dataset comprises 15,141 annotated multilingual comments. This paper describes the process of building the dataset, qualitative analysis of data, and inter-annotator agreement. In addition, we create baseline models for the dataset. To the best of our knowledge, our dataset is the first such dataset created. Warning: This paper contains explicit statements of homophobia, transphobia, stereotypes which may be distressing to some readers.
翻訳日:2021-09-02 16:54:22 公開日:2021-09-01
# (参考訳) OptAGAN: テキストVAE-GANによるエントロピーに基づく微調整 [全文訳有]

OptAGAN: Entropy-based finetuning on text VAE-GAN ( http://arxiv.org/abs/2109.00239v1 )

ライセンス: CC BY 4.0
Paolo Tirotta and Stefano Lodi(参考訳) 大規模事前学習モデルによるトランスファー学習は、自然言語処理(nlp)における現在の応用状況を変えている。 最近、BERTとGPT-2という2つの事前訓練されたモデルを組み合わせた変分オートエンコーダ(VAE)がリリースされた。 Optimus と GAN の組み合わせは、テキストの離散領域への GAN の厄介な適用を回避し、標準の最大可能性法の露出バイアスを防ぐ。 我々は,潜在空間におけるGANの訓練と,単一単語生成のためのOptimusデコーダの微調整を組み合わせる。 この手法により、文の高レベル特徴と低レベルワード・バイ・ワード生成の両方をモデル化できる。 強化学習(rl)を用いて,gpt-2の構造を活用し,エントロピーに基づく本質的報酬を付加することで,品質と多様性のバランスをとる。 我々はvae-ganモデルの結果をベンチマークし、テキスト生成のために広く使われている3つのデータセットについてrlの微調整によってもたらされた改善を示す。

Transfer learning through large pre-trained models has changed the landscape of current applications in natural language processing (NLP). Recently Optimus, a variational autoencoder (VAE) which combines two pre-trained models, BERT and GPT-2, has been released, and its combination with generative adversial networks (GANs) has been shown to produce novel, yet very human-looking text. The Optimus and GANs combination avoids the troublesome application of GANs to the discrete domain of text, and prevents the exposure bias of standard maximum likelihood methods. We combine the training of GANs in the latent space, with the finetuning of the decoder of Optimus for single word generation. This approach lets us model both the high-level features of the sentences, and the low-level word-by-word generation. We finetune using reinforcement learning (RL) by exploiting the structure of GPT-2 and by adding entropy-based intrinsically motivated rewards to balance between quality and diversity. We benchmark the results of the VAE-GAN model, and show the improvements brought by our RL finetuning on three widely used datasets for text generation, with results that greatly surpass the current state-of-the-art for the quality of the generated texts.
翻訳日:2021-09-02 16:51:57 公開日:2021-09-01
# (参考訳) Dual Momentum Contrastを用いた言語間文のアライメント [全文訳有]

Aligning Cross-lingual Sentence Representations with Dual Momentum Contrast ( http://arxiv.org/abs/2109.00253v1 )

ライセンス: CC BY 4.0
Liang Wang, Wei Zhao, Jingming Liu(参考訳) 本稿では,異なる言語からの文表現を,意味的類似性(言語間・モノリンガルの両方)を単純なドット積で計算できる統合埋め込み空間に整合させることを提案する。 事前訓練された言語モデルは翻訳ランキングタスクで微調整される。 既存の作業(Feng et al., 2020)は、ネガと同じバッチ内で文を使用し、簡単なネガの問題に悩まされる可能性がある。 MoCo(He et al., 2020)を適応して、アライメントの品質をさらに向上します。 実験結果から,本モデルが生成した文表現は,Tatoeba en-zh類似性探索(Artetxe, Schwenk, 2019b),BUCC en-zh bitextマイニング,セマンティックテキスト類似性など,いくつかのタスクにおいて新たな最先端性を実現する。

In this paper, we propose to align sentence representations from different languages into a unified embedding space, where semantic similarities (both cross-lingual and monolingual) can be computed with a simple dot product. Pre-trained language models are fine-tuned with the translation ranking task. Existing work (Feng et al., 2020) uses sentences within the same batch as negatives, which can suffer from the issue of easy negatives. We adapt MoCo (He et al., 2020) to further improve the quality of alignment. As the experimental results show, the sentence representations produced by our model achieve the new state-of-the-art on several tasks, including Tatoeba en-zh similarity search (Artetxe and Schwenk, 2019b), BUCC en-zh bitext mining, and semantic textual similarity on 7 datasets.
翻訳日:2021-09-02 16:35:30 公開日:2021-09-01
# (参考訳) 多言語事前学習のための表現スプラッフルの発見 [全文訳有]

Discovering Representation Sprachbund For Multilingual Pre-Training ( http://arxiv.org/abs/2109.00271v1 )

ライセンス: CC BY-SA 4.0
Yimin Fan, Yaobo Liang, Alexandre Muzio, Hany Hassan, Houqiang Li, Ming Zhou and Nan Duan(参考訳) 多言語事前訓練されたモデルは、多くの多言語NLPタスクにおいてその効果を示し、高リソース言語から低リソース言語へのゼロショットや少数ショットの転送を可能にした。 しかし、いくつかの言語間の大きな類型的差異と矛盾のため、そのようなモデルは多くの場合、多くの言語や言語間環境では性能が悪く、同時に巨大な多様な言語をうまく扱うために単一のモデルを学ぶことが困難である。 この問題を軽減するために,新しい多言語事前学習パイプラインを提案する。 本稿では,多言語事前学習モデルから言語表現を生成し,言語表現の類似性は言語ファミリー,地理的スプラフバンド,語彙統計学,構文など,多視点から言語類似性を反映していることを示す。 そして、全ての対象言語を複数のグループにクラスタリングし、表現スプラックバンドとして各グループを命名する。 したがって、同じ表現の言語は、豊富な言語的類似性を共有するため、事前学習と微調整の両方において互いに強化されるはずである。 各表現の多言語モデルの事前学習を行った。 言語間ベンチマークで実験を行い、強いベースラインに比べて大幅に改善された。

Multilingual pre-trained models have demonstrated their effectiveness in many multilingual NLP tasks and enabled zero-shot or few-shot transfer from high-resource languages to low resource ones. However, due to significant typological differences and contradictions between some languages, such models usually perform poorly on many languages and cross-lingual settings, which shows the difficulty of learning a single model to handle massive diverse languages well at the same time. To alleviate this issue, we present a new multilingual pre-training pipeline. We propose to generate language representation from multilingual pre-trained models and conduct linguistic analysis to show that language representation similarity reflect linguistic similarity from multiple perspectives, including language family, geographical sprachbund, lexicostatistics and syntax. Then we cluster all the target languages into multiple groups and name each group as a representation sprachbund. Thus, languages in the same representation sprachbund are supposed to boost each other in both pre-training and fine-tuning as they share rich linguistic similarity. We pre-train one multilingual model for each representation sprachbund. Experiments are conducted on cross-lingual benchmarks and significant improvements are achieved compared to strong baselines.
翻訳日:2021-09-02 16:23:53 公開日:2021-09-01
# (参考訳) 予測接尾辞木を用いた複合イベント予測:拡張技術レポート

Complex Event Forecasting with Prediction Suffix Trees: Extended Technical Report ( http://arxiv.org/abs/2109.00287v1 )

ライセンス: CC BY 4.0
Elias Alevizos, Alexander Artikis, Georgios Paliouras(参考訳) 複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に普及してきた。 しかし、そのような現象が実際にCERエンジンによって検出される前にパターンがいつ発生するかを予測する方法が不足している。 本稿では、複雑なイベント予測(CEF)の問題に対処しようとする正式なフレームワークを提案する。 我々のフレームワークは、2つの形式を組み合わせる: a) 複雑なイベントパターンをエンコードするために使用されるシンボリックオートマトン、b) オートマトンの振る舞いの簡潔な確率的記述を提供する予測サフィックスツリー。 提案手法を最先端手法と比較し,精度と効率の観点からその利点を示す。 特に、可変順序マルコフモデルである予測接尾辞木は、十分有用な過去のシーケンスのみを記憶することで、ストリーム内の長期的な依存関係をキャプチャできる。 実験結果は,このような長期的な依存関係を捉えることができるという,正確性の観点からの利点を示している。 これは、与えられた順序の全ての可能な過去のシーケンスを徹底的に列挙する必要がある全順序マルコフモデルによって可能以上のモデルの順序を増加させることによって実現されます。 また、予測の質に基づいてCEFソリューションをどのように評価するかを幅広く議論する。

Complex Event Recognition (CER) systems have become popular in the past two decades due to their ability to "instantly" detect patterns on real-time streams of events. However, there is a lack of methods for forecasting when a pattern might occur before such an occurrence is actually detected by a CER engine. We present a formal framework that attempts to address the issue of Complex Event Forecasting (CEF). Our framework combines two formalisms: a) symbolic automata which are used to encode complex event patterns; and b) prediction suffix trees which can provide a succinct probabilistic description of an automaton's behavior. We compare our proposed approach against state-of-the-art methods and show its advantage in terms of accuracy and efficiency. In particular, prediction suffix trees, being variable-order Markov models, have the ability to capture long-term dependencies in a stream by remembering only those past sequences that are informative enough. Our experimental results demonstrate the benefits, in terms of accuracy, of being able to capture such long-term dependencies. This is achieved by increasing the order of our model beyond what is possible with full-order Markov models that need to perform an exhaustive enumeration of all possible past sequences of a given order. We also discuss extensively how CEF solutions should be best evaluated on the quality of their forecasts.
翻訳日:2021-09-02 16:08:42 公開日:2021-09-01
# (参考訳) 構造的議論における固有の議論力:原則的アプローチ [全文訳有]

Intrinsic Argument Strength in Structured Argumentation: a Principled Approach ( http://arxiv.org/abs/2109.00318v1 )

ライセンス: CC BY 4.0
Jeroen Paul Spaans(参考訳) 抽象的引数は、他の引数による潜在的な攻撃後の引数を評価するための段階的およびダングセマンティクスのようなメソッドを提供する。 これらの手法のいくつかは、引数の固有の強みを入力とし、引数間の攻撃の効果を変調する。 抽象的議論から来るこれらの手法は、引数間の関係のみを対象とし、引数自体の構造を対象としない。 構造化議論では、前提から始まった推論ルールを連鎖させることで、引数の構築方法が考慮される。 本稿では,議論の強みと推論規則に基づいて,議論の本質的強みを割り当てる手法について検討する。 まず、強度割り当てメソッドが満足できる性質である一連の原則を定義します。 次に,これらの手法を2つ提案し,どの原理を満足するかを分析する。 最後に,新しい強度割当手法を考案するための一般化システムを提案するとともに,提案する原理に関するシステムの特性について述べる。

Abstract argumentation provides us with methods such as gradual and Dung semantics with which to evaluate arguments after potential attacks by other arguments. Some of these methods can take intrinsic strengths of arguments as input, with which to modulate the effects of attacks between arguments. Coming from abstract argumentation, these methods look only at the relations between arguments and not at the structure of the arguments themselves. In structured argumentation the way an argument is constructed, by chaining inference rules starting from premises, is taken into consideration. In this paper we study methods for assigning an argument its intrinsic strength, based on the strengths of the premises and inference rules used to form said argument. We first define a set of principles, which are properties that strength assigning methods might satisfy. We then propose two such methods and analyse which principles they satisfy. Finally, we present a generalised system for creating novel strength assigning methods and speak to the properties of this system regarding the proposed principles.
翻訳日:2021-09-02 16:07:30 公開日:2021-09-01
# (参考訳) ConRPG: コンテキストを正規化子とするパラフレーズ生成 [全文訳有]

ConRPG: Paraphrase Generation using Contexts as Regularizer ( http://arxiv.org/abs/2109.00363v1 )

ライセンス: CC BY 4.0
Yuxian Meng, Xiang Ao, Qing He, Xiaofei Sun, Qinghong Han, Fei Wu, Chun fan and Jiwei Li(参考訳) パラフレーズ生成の長年の問題として、信頼できる監視信号を得る方法がある。 本稿では、同じ文脈で同じ意味を持つ2つの文を生成する確率は同じであるべきという仮定に基づいて、パラフレーズ生成のための教師なしパラダイムを提案する。 この基本的な考え方に触発されて,文脈言語モデルに基づくパラフレーズ候補生成,スコアリング関数を用いた候補フィルタリング,選択した候補に基づくパラフレーズモデルトレーニングからなるパイプラインシステムを提案する。 提案手法は,(1)意味の文脈正規化子を用い,大量のハイクオリティなparaphraseペアを生成すること,(2)候補からparaphraseペアを選択するためのヒューマン・コンタプリタブル・スコアリング機能を使用することにより,開発者がデータ生成プロセスに介入できるチャネルを提供し,より制御可能なモデルを実現すること,など,既存のparaphrase生成手法に対するメリットを提供する。 異なるタスクとデータセットにおける実験の結果は、教師なしと教師なしの両方のセットアップにおいて、提案モデルの有効性を示している。

A long-standing issue with paraphrase generation is how to obtain reliable supervision signals. In this paper, we propose an unsupervised paradigm for paraphrase generation based on the assumption that the probabilities of generating two sentences with the same meaning given the same context should be the same. Inspired by this fundamental idea, we propose a pipelined system which consists of paraphrase candidate generation based on contextual language models, candidate filtering using scoring functions, and paraphrase model training based on the selected candidates. The proposed paradigm offers merits over existing paraphrase generation methods: (1) using the context regularizer on meanings, the model is able to generate massive amounts of high-quality paraphrase pairs; and (2) using human-interpretable scoring functions to select paraphrase pairs from candidates, the proposed framework provides a channel for developers to intervene with the data generation process, leading to a more controllable model. Experimental results across different tasks and datasets demonstrate that the effectiveness of the proposed model in both supervised and unsupervised setups.
翻訳日:2021-09-02 15:39:16 公開日:2021-09-01
# (参考訳) メモリベースのビデオシーン解析 [全文訳有]

Memory Based Video Scene Parsing ( http://arxiv.org/abs/2109.00373v1 )

ライセンス: CC BY 4.0
Zhenchao Jin, Dongdong Yu, Kai Su, Zehuan Yuan, Changhu Wang(参考訳) ビデオシーン解析はコンピュータビジョンにおける長年の課題であり、所定のビデオ内の全フレームのピクセルに予め定義された意味ラベルを割り当てることを目的としている。 画像セマンティックセグメンテーションと比較して、このタスクは時間情報を用いて高い予測精度を得る方法の研究により多くの注意を払う。 本稿では,57.44mIoUを達成し,第2位(チーム名はCharlesBLWX)を獲得した第1回ビデオシーンパーシング・イン・ザ・ワイルドチャレンジのソリューションについて紹介する。

Video scene parsing is a long-standing challenging task in computer vision, aiming to assign pre-defined semantic labels to pixels of all frames in a given video. Compared with image semantic segmentation, this task pays more attention on studying how to adopt the temporal information to obtain higher predictive accuracy. In this report, we introduce our solution for the 1st Video Scene Parsing in the Wild Challenge, which achieves a mIoU of 57.44 and obtained the 2nd place (our team name is CharlesBLWX).
翻訳日:2021-09-02 15:23:45 公開日:2021-09-01
# (参考訳) 階層的相互情報最大化によるマルチモーダル融合の改良によるマルチモーダル感性解析 [全文訳有]

Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2109.00412v1 )

ライセンス: CC BY-SA 4.0
Wei Han, Hui Chen, Soujanya Poria(参考訳) マルチモーダル感情分析(MSA)では、モデルの性能は合成埋め込みの品質に大きく依存する。 これらの埋め込みはマルチモーダル融合と呼ばれる上流プロセスから生成され、入力された非モーダルな生データを抽出して組み合わせ、よりリッチなマルチモーダル表現を生成することを目的としている。 従来の作業では、タスク損失をバックプロパゲートするか、あるいは特徴空間の幾何学的性質を操作して、良好な融合結果が得られ、入力から融合結果に流れる重要なタスク関連情報の保存を無視する。 本研究では,MultiModal InfoMax (MMIM) というフレームワークを提案する。MultiModal InfoMax (MMIM) は,MultiModal fusion を通じてタスク関連情報を維持するために,Multimodal fusion 対とMultimodal fusion 結果間の相互情報(MI)を階層的に最大化するフレームワークである。 このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。 MI境界の難解な問題に対処するため、計算学的に単純なパラメトリック法と非パラメトリック法をさらに定式化し、真理値を近似する。 この2つのデータセットにおける実験結果から,本手法の有効性が示された。 この実装はhttps://github.com/d eclare-lab/multimoda l-infomaxで公開されている。

In multimodal sentiment analysis (MSA), the performance of a model highly depends on the quality of synthesized embeddings. These embeddings are generated from the upstream process called multimodal fusion, which aims to extract and combine the input unimodal raw data to produce a richer multimodal representation. Previous work either back-propagates the task loss or manipulates the geometric property of feature spaces to produce favorable fusion results, which neglects the preservation of critical task-related information that flows from input to the fusion results. In this work, we propose a framework named MultiModal InfoMax (MMIM), which hierarchically maximizes the Mutual Information (MI) in unimodal input pairs (inter-modality) and between multimodal fusion result and unimodal input in order to maintain task-related information through multimodal fusion. The framework is jointly trained with the main task (MSA) to improve the performance of the downstream MSA task. To address the intractable issue of MI bounds, we further formulate a set of computationally simple parametric and non-parametric methods to approximate their truth value. Experimental results on the two widely used datasets demonstrate the efficacy of our approach. The implementation of this work is publicly available at https://github.com/d eclare-lab/Multimoda l-Infomax.
翻訳日:2021-09-02 15:18:56 公開日:2021-09-01
# (参考訳) AIにおける不可能な結果:調査 [全文訳有]

Impossibility Results in AI: A Survey ( http://arxiv.org/abs/2109.00484v1 )

ライセンス: CC BY 4.0
Mario Brcic and Roman V. Yampolskiy(参考訳) 不可能定理は、クレームで述べられているように、特定の問題や一連の問題を解くことができないことを証明している。 このような定理は、人工知能、特に超知能に関して何ができるかに限界を与えた。 これらの結果は、AI安全性、AIポリシ、ガバナンス研究者に対するガイドライン、リマインダー、警告として機能する。 これらのことは、ある選択肢にコミットすることなく、制約満足の枠組みで理論を定式化する形で、長期にわたる疑問の解決を可能にするかもしれない。 本稿では,AI分野に適用可能な不合理性定理を,推論,不識別性,誘導,トレードオフ,難解性の5つのカテゴリに分類した。 ある定理は具体的すぎるか、適用を制限する暗黙の仮定を持っていることが判明した。 また、誘導カテゴリーにおける説明可能性に関する最初の説明可能性関連結果である説明可能性の不公平性に関する新たな結果(理論)を付け加えた。 ゆるやかな不合理さは、安全に対する100%の保証を否定する、と結論づけた。 最後に、説明可能性、制御可能性、価値の整合性、倫理、グループ意思決定の可能性を秘めているいくつかのアイデアを提示します。 さらなる調査によってさらに深まることができる。

An impossibility theorem demonstrates that a particular problem or set of problems cannot be solved as described in the claim. Such theorems put limits on what is possible to do concerning artificial intelligence, especially the super-intelligent one. As such, these results serve as guidelines, reminders, and warnings to AI safety, AI policy, and governance researchers. These might enable solutions to some long-standing questions in the form of formalizing theories in the framework of constraint satisfaction without committing to one option. In this paper, we have categorized impossibility theorems applicable to the domain of AI into five categories: deduction, indistinguishability , induction, tradeoffs, and intractability. We found that certain theorems are too specific or have implicit assumptions that limit application. Also, we added a new result (theorem) about the unfairness of explainability, the first explainability-relat ed result in the induction category. We concluded that deductive impossibilities deny 100%-guarantees for security. In the end, we give some ideas that hold potential in explainability, controllability, value alignment, ethics, and group decision-making. They can be deepened by further investigation.
翻訳日:2021-09-02 15:02:23 公開日:2021-09-01
# (参考訳) 低リソース機械翻訳の実態調査

Survey of Low-Resource Machine Translation ( http://arxiv.org/abs/2109.00486v1 )

ライセンス: CC BY 4.0
Barry Haddow, Rachel Bawden, Antonio Valerio Miceli Barone, Jind\v{r}ich Helcl, Alexandra Birch(参考訳) 本稿では,低リソース機械翻訳技術の現状に関する調査を行う。 現在、約7000の言語が世界中で話されており、ほぼ全ての言語ペアは機械翻訳モデルの訓練に重要なリソースを欠いている。 翻訳訓練データが少ない場合に有用な翻訳モデルを作成するという課題に取り組む研究への関心が高まっている。 我々は、このトピック分野の高レベルな概要を説明し、ベストプラクティスの概要を示す。

We present a survey covering the state of the art in low-resource machine translation. There are currently around 7000 languages spoken in the world and almost all language pairs lack significant resources for training machine translation models. There has been increasing interest in research addressing the challenge of producing useful translation models when very little translated training data is available. We present a high level summary of this topical field and provide an overview of best practices.
翻訳日:2021-09-02 14:44:36 公開日:2021-09-01
# 問題学習: 機械の自由意志に向けて

Problem Learning: Towards the Free Will of Machines ( http://arxiv.org/abs/2109.00177v1 )

ライセンス: Link先を確認
Yongfeng Zhang(参考訳) マシンインテリジェンスパイプラインは通常、問題、表現、モデル、損失、オプティマイザ、メトリックの6つのコンポーネントで構成される。 研究者はパイプラインの多くのコンポーネントを自動化しようと懸命に取り組んできた。 しかしながら、パイプライン定義の重要なコンポーネントである--problemの定義は、自動化に関してほとんど未検討のままである。 通常、ある領域で重要な問題を特定、定義、定式化するために、ドメインの専門家からの多大な努力が必要です。 しかし、ドメインの専門家が知らないデータに隠されている正当で潜在的に重要な問題を識別し、ある領域でできるタスクの範囲を拡大し、全く新しい発見を刺激するのに役立つため、領域に対する研究やアプリケーションの問題を自動的に発見することは有益である。 本稿では,データや機械の環境との相互作用から有効かつ倫理的な問題を発見・定義することを目的とした問題学習について述べる。 問題空間における有効かつ倫理的な問題の同定として問題学習を定式化し,問題学習に可能なアプローチをいくつか紹介する。 より広い意味では、問題学習は知的機械の自由意志へのアプローチである。 現在、機械は人間によって定義された問題を解決することに限定されており、人間には未知の様々な可能な問題を自由に探索できる能力や柔軟性がない。 多くの機械学習技術が開発され、インテリジェントシステムに統合されているが、機械がまだ人間の定義した問題を解決する目的ではなく、手段に焦点を当てている。 しかし、よい問題が新しいアイデアを刺激し、より深い理解を得るのに役立つため、よい問題を提案することは問題解決よりも重要であることがある。 また,Responsible AIの背景にある問題学習の倫理的意味についても論じる。

A machine intelligence pipeline usually consists of six components: problem, representation, model, loss, optimizer and metric. Researchers have worked hard trying to automate many components of the pipeline. However, one key component of the pipeline--problem definition--is still left mostly unexplored in terms of automation. Usually, it requires extensive efforts from domain experts to identify, define and formulate important problems in an area. However, automatically discovering research or application problems for an area is beneficial since it helps to identify valid and potentially important problems hidden in data that are unknown to domain experts, expand the scope of tasks that we can do in an area, and even inspire completely new findings. This paper describes Problem Learning, which aims at learning to discover and define valid and ethical problems from data or from the machine's interaction with the environment. We formalize problem learning as the identification of valid and ethical problems in a problem space and introduce several possible approaches to problem learning. In a broader sense, problem learning is an approach towards the free will of intelligent machines. Currently, machines are still limited to solving the problems defined by humans, without the ability or flexibility to freely explore various possible problems that are even unknown to humans. Though many machine learning techniques have been developed and integrated into intelligent systems, they still focus on the means rather than the purpose in that machines are still solving human defined problems. However, proposing good problems is sometimes even more important than solving problems, because a good problem can help to inspire new ideas and gain deeper understandings. The paper also discusses the ethical implications of problem learning under the background of Responsible AI.
翻訳日:2021-09-02 14:33:24 公開日:2021-09-01
# 特徴選択とデータ再サンプリングが不均衡分類に及ぼす影響に関する実証的研究

An Empirical Study on the Joint Impact of Feature Selection and Data Resampling on Imbalance Classification ( http://arxiv.org/abs/2109.00201v1 )

ライセンス: Link先を確認
Chongsheng Zhang, Paolo Soda, Jingjun Bi, Gaojuan Fan, George Almpanidis, Salvador Garcia(参考訳) 実世界のデータセットは、しばしば異なる等級の不均衡(長尾または歪んだ)の分布を示す。 多数派(頭または頻繁)のクラスには十分なサンプルがあるが、少数派(尾または稀)のクラスは、かなり限られた数のサンプルで表される。 一方、データ再サンプリングはクラス不均衡に取り組む一般的なアプローチである。 一方、特徴空間を縮小する次元削減は、データセット上でより強力な分類モデルを構築するための従来の機械学習手法である。 しかし,高性能不均衡分類のための特徴選択とデータ再サンプリングの相乗効果は,これまでほとんど研究されていなかった。 そこで本稿では,特徴選択と再サンプリングが二クラス不均衡分類に与える影響について,総合的研究を行った。 具体的には,データ再サンプリング前後に特徴選択を適用し,不均衡分類のための2つの逆パイプラインの性能について検討する。 9つの特徴選択法,6つの再サンプリング手法によるクラス不均衡学習,3つのよく知られた分類アルゴリズムを用いて,52のデータセット上で,膨大な実験(合計9225の実験)を行った。 実験結果から,2つのパイプラインの間に一定の勝者が存在しないことが明らかとなった。 また,不均衡分類モデルの性能は,採用した分類器,多数サンプル数と少数サンプル数(ir)の比率,およびサンプル数と特徴数の比率(sfr)に依存することがわかった。 全体として、この研究は、不均衡学習における研究者や実践者に新しい基準価値を提供するべきである。

Real-world datasets often present different degrees of imbalanced (i.e., long-tailed or skewed) distributions. While the majority (a.k.a., head or frequent) classes have sufficient samples, the minority (a.k.a., tail or rare) classes can be under-represented by a rather limited number of samples. On one hand, data resampling is a common approach to tackling class imbalance. On the other hand, dimension reduction, which reduces the feature space, is a conventional machine learning technique for building stronger classification models on a dataset. However, the possible synergy between feature selection and data resampling for high-performance imbalance classification has rarely been investigated before. To address this issue, this paper carries out a comprehensive empirical study on the joint influence of feature selection and resampling on two-class imbalance classification. Specifically, we study the performance of two opposite pipelines for imbalance classification, i.e., applying feature selection before or after data resampling. We conduct a large amount of experiments (a total of 9225 experiments) on 52 publicly available datasets, using 9 feature selection methods, 6 resampling approaches for class imbalance learning, and 3 well-known classification algorithms. Experimental results show that there is no constant winner between the two pipelines, thus both of them should be considered to derive the best performing model for imbalance classification. We also find that the performance of an imbalance classification model depends on the classifier adopted, the ratio between the number of majority and minority samples (IR), as well as on the ratio between the number of samples and features (SFR). Overall, this study should provide new reference value for researchers and practitioners in imbalance learning.
翻訳日:2021-09-02 14:32:58 公開日:2021-09-01
# 関係抽出手法を用いたテキスト中の全アスペクト極性ペアの抽出

Extracting all Aspect-polarity Pairs Jointly in a Text with Relation Extraction Approach ( http://arxiv.org/abs/2109.00256v1 )

ライセンス: Link先を確認
Lingmei Bu, Li Chen, Yongmei Lu and Zhonghua Yu(参考訳) テキストからアスペクト・ポーラリティーペアを抽出することは、きめ細かい感情分析の重要なタスクである。 このタスクに対する既存のアプローチは多くの進歩を遂げているが、テキスト中のアスペクト極性ペア間の関係を捉えることに制限があり、抽出性能が低下する。 さらに、既存の最先端のアプローチ、すなわちトークンベースのセレンスタグとスパンベースの分類は、前者の別個のタグ付けトークンによる極性不整合や、アスペクト関連のラベルと極性関連ラベルが混在する後者の不均一な分類など、独自の欠陥を持つ。 関係抽出技術の最近の進歩から着目された上記の欠陥を解消するため,関係抽出技術を用いたテキストから直接アスペクト極性ペアを生成し,アスペクトが関係性であり,対応する極性が関係性である一意関係としてのアスペクトペアについて検討する。 この観点から,アスペクト極性対の連成抽出のための位置認識シーケンス2系列モデルを提案する。 このモデルは、テキスト中のアスペクト極性ペア間の関係をシーケンスデコーディングによってキャプチャするだけでなく、位置認識とアスペクト認識の注意を通してアスペクトとその極性の間の相関を捉えることができる。 3つのベンチマークデータセットで実施された実験は、我々のモデルが既存の最先端アプローチよりも優れており、それらよりも大幅に改善されていることを示している。

Extracting aspect-polarity pairs from texts is an important task of fine-grained sentiment analysis. While the existing approaches to this task have gained many progresses, they are limited at capturing relationships among aspect-polarity pairs in a text, thus degrading the extraction performance. Moreover, the existing state-of-the-art approaches, namely token-based se-quence tagging and span-based classification, have their own defects such as polarity inconsistency resulted from separately tagging tokens in the former and the heterogeneous categorization in the latter where aspect-related and polarity-related labels are mixed. In order to remedy the above defects, in-spiring from the recent advancements in relation extraction, we propose to generate aspect-polarity pairs directly from a text with relation extraction technology, regarding aspect-pairs as unary relations where aspects are enti-ties and the corresponding polarities are relations. Based on the perspective, we present a position- and aspect-aware sequence2sequence model for joint extraction of aspect-polarity pairs. The model is characterized with its ability to capture not only relationships among aspect-polarity pairs in a text through the sequence decoding, but also correlations between an aspect and its polarity through the position- and aspect-aware attentions. The experi-ments performed on three benchmark datasets demonstrate that our model outperforms the existing state-of-the-art approaches, making significant im-provement over them.
翻訳日:2021-09-02 14:32:33 公開日:2021-09-01
# ニューラルマシン翻訳のためのマスキング逆生成

Masked Adversarial Generation for Neural Machine Translation ( http://arxiv.org/abs/2109.00417v1 )

ライセンス: Link先を確認
Badr Youbi Idrissi, St\'ephane Clinchant(参考訳) ニューラルネットワーク翻訳モデルの攻撃は、本質的には離散列の組合せ的タスクであり、近似ヒューリスティックスで解決される。 ほとんどのメソッドは勾配を使って各サンプルのモデルを独立して攻撃する。 機械的に勾配を適用する代わりに、有意義な敵の攻撃を学べるか? 既存のアプローチとは対照的に、言語モデルに基づいて逆生成器を訓練することで、モデルを攻撃することを学ぶ。 本稿では,学習過程を通じて翻訳モデルを摂動させるMasked Adversarial Generation (MAG)モデルを提案する。 実験の結果,機械翻訳モデルの堅牢性は向上し,競合する手法よりも高速であることがわかった。

Attacking Neural Machine Translation models is an inherently combinatorial task on discrete sequences, solved with approximate heuristics. Most methods use the gradient to attack the model on each sample independently. Instead of mechanically applying the gradient, could we learn to produce meaningful adversarial attacks ? In contrast to existing approaches, we learn to attack a model by training an adversarial generator based on a language model. We propose the Masked Adversarial Generation (MAG) model, that learns to perturb the translation model throughout the training process. The experiments show that it improves the robustness of machine translation models, while being faster than competing methods.
翻訳日:2021-09-02 14:32:07 公開日:2021-09-01
# m^2-meddialog:マルチドメインマルチサービス医療対話のためのデータセットとベンチマーク

M^2-MedDialog: A Dataset and Benchmarks for Multi-domain Multi-service Medical Dialogues ( http://arxiv.org/abs/2109.00430v1 )

ライセンス: Link先を確認
Guojun Yan and Jiahuan Pei and Pengjie Ren and Zhumin Chen and Zhaochun Ren and Huasheng Liang(参考訳) 医療対話システム(MDS)は、専門的な医療サービス(診断、相談、治療など)を扱う医師や患者を支援することを目的としている。 1つのデータセットには、複数の医療サービスと詳細な医療ラベル(インテント、スロット、値)の両方が含まれており、(2)統合されたフレームワークにおける複数のサービス会話に基づくMDSに対処するモデルは存在しない。 本研究は、まず、医師と患者との1,557件の会話を含むマルチドメイン医療対話(M^2-MedDialog)データセットを構築し、276種類の疾患、2,468の医療機関、および3種類の医療サービスをカバーした。 私たちの知る限りでは、複数の医療サービスときめ細かい医療ラベルの両方を含む唯一の医療対話データセットです。 次に、シーケンス・ツー・シーケンス生成問題としてワンストップMDSを定式化する。 我々は,MDSにそれぞれ因果言語モデリングと条件付き因果言語モデリングを統合する。 具体的には、事前訓練されたモデル(BERT-WWM、BERT-MED、GPT2、MT5)とそれらの変種を用いて、M^2-MedDialogデータセットのベンチマークを取得する。 また,m2-meddialogデータセットの拡張と最先端事前学習モデルの拡張のために,擬似ラベリングと自然摂動法を提案する。 M2-MedDialogに関する広範な実験を通じて,これまでのベンチマークの結果を実証した。 我々は、この重要な研究方向の今後の研究を促進するために、データセット、コード、および評価スクリプトをリリースする。

Medical dialogue systems (MDSs) aim to assist doctors and patients with a range of professional medical services, i.e., diagnosis, consultation, and treatment. However, one-stop MDS is still unexplored because: (1) no dataset has so large-scale dialogues contains both multiple medical services and fine-grained medical labels (i.e., intents, slots, values); (2) no model has addressed a MDS based on multiple-service conversations in a unified framework. In this work, we first build a Multiple-domain Multiple-service medical dialogue (M^2-MedDialog)dataset, which contains 1,557 conversations between doctors and patients, covering 276 types of diseases, 2,468 medical entities, and 3 specialties of medical services. To the best of our knowledge, it is the only medical dialogue dataset that includes both multiple medical services and fine-grained medical labels. Then, we formulate a one-stop MDS as a sequence-to-sequence generation problem. We unify a MDS with causal language modeling and conditional causal language modeling, respectively. Specifically, we employ several pretrained models (i.e., BERT-WWM, BERT-MED, GPT2, and MT5) and their variants to get benchmarks on M^2-MedDialog dataset. We also propose pseudo labeling and natural perturbation methods to expand M2-MedDialog dataset and enhance the state-of-the-art pretrained models. We demonstrate the results achieved by the benchmarks so far through extensive experiments on M2-MedDialog. We release the dataset, the code, as well as the evaluation scripts to facilitate future research in this important research direction.
翻訳日:2021-09-02 14:31:58 公開日:2021-09-01
# 対話におけるアナフォリック・アイデンティティのための適応型エンドツーエンド参照解決システム

Adapted End-to-End Coreference Resolution System for Anaphoric Identities in Dialogues ( http://arxiv.org/abs/2109.00185v1 )

ライセンス: Link先を確認
Liyan Xu, Jinho D. Choi(参考訳) 本稿では,対話におけるアナフォラ分解能の課題をターゲットとした,エンドツーエンドのニューラルコア参照分解モデルに基づく効果的なシステムを提案する。 本手法では, シングルトンのサポート, 話者の符号化, 対話を通しての変換, 既存のリソースを利用した知識伝達など, 3つの側面に特化している。 適応戦略の単純さにもかかわらず、これらの戦略は最終的なパフォーマンスに大きな影響を与え、ベースラインを最大27F1改善しました。 最終システムは、CRAC 2021共有タスクにおけるアナフォラ分解トラックのリーダーボード上の第1位にランクされ、4つのデータセットで最高の評価結果が得られる。

We present an effective system adapted from the end-to-end neural coreference resolution model, targeting on the task of anaphora resolution in dialogues. Three aspects are specifically addressed in our approach, including the support of singletons, encoding speakers and turns throughout dialogue interactions, and knowledge transfer utilizing existing resources. Despite the simplicity of our adaptation strategies, they are shown to bring significant impact to the final performance, with up to 27 F1 improvement over the baseline. Our final system ranks the 1st place on the leaderboard of the anaphora resolution track in the CRAC 2021 shared task, and achieves the best evaluation results on all four datasets.
翻訳日:2021-09-02 14:31:08 公開日:2021-09-01
# 不確実性推定による自己学習による言語間移動の促進

Boosting Cross-Lingual Transfer via Self-Learning with Uncertainty Estimation ( http://arxiv.org/abs/2109.00194v1 )

ライセンス: Link先を確認
Liyan Xu, Xuchao Zhang, Xujiang Zhao, Haifeng Chen, Feng Chen, Jinho D. Choi(参考訳) 近年の多言語事前学習型言語モデルでは,1つのソース言語でのみ微調整され,対象言語で直接評価されるなど,目覚ましいゼロショット性能を実現している。 本研究では,対象言語のラベルなしデータと,高品質なシルバーラベルの選択過程における不確実性推定を組み合わせた自己学習フレームワークを提案する。 言語ヘテロセダスティック/ホモセダスティック不確実性(LEU/LOU)、エビデンシャル不確実性(EVI)の3つの異なる不確実性に適応し分析する。 我々は,NERにおける平均10F1,NLIにおける2.5精度スコアにおいて,40言語を網羅するNERと自然言語推論(NLI)の2つの言語間タスクに対する不確実性を評価した。

Recent multilingual pre-trained language models have achieved remarkable zero-shot performance, where the model is only finetuned on one source language and directly evaluated on target languages. In this work, we propose a self-learning framework that further utilizes unlabeled data of target languages, combined with uncertainty estimation in the process to select high-quality silver labels. Three different uncertainties are adapted and analyzed specifically for the cross lingual transfer: Language Heteroscedastic/Homo scedastic Uncertainty (LEU/LOU), Evidential Uncertainty (EVI). We evaluate our framework with uncertainties on two cross-lingual tasks including Named Entity Recognition (NER) and Natural Language Inference (NLI) covering 40 languages in total, which outperforms the baselines significantly by 10 F1 on average for NER and 2.5 accuracy score for NLI.
翻訳日:2021-09-02 14:30:55 公開日:2021-09-01
# レイアウト対応文書理解のための位置マスキング

Position Masking for Improved Layout-Aware Document Understanding ( http://arxiv.org/abs/2109.00442v1 )

ライセンス: Link先を確認
Anik Saha, Catherine Finegan-Dollak, Ashish Verma(参考訳) 文書スキャンとPDFのための自然言語処理は、ビジネスプロセスの効率を大幅に改善する可能性がある。 LayoutLMのような単語の埋め込みは、そのような文書から分類と情報抽出を約束している。 本稿では,2次元位置埋め込みを組み込んだレイアウト対応単語埋め込みの性能を向上させるための事前学習タスクを提案する。 我々は,事前学習されたモデルと,事前学習された言語マスキングと位置マスキングとを比較し,フォーム理解タスクにおいて,位置マスキングが5%以上向上することが確認された。

Natural language processing for document scans and PDFs has the potential to enormously improve the efficiency of business processes. Layout-aware word embeddings such as LayoutLM have shown promise for classification of and information extraction from such documents. This paper proposes a new pre-training task called that can improve performance of layout-aware word embeddings that incorporate 2-D position embeddings. We compare models pre-trained with only language masking against models pre-trained with both language masking and position masking, and we find that position masking improves performance by over 5% on a form understanding task.
翻訳日:2021-09-02 14:30:37 公開日:2021-09-01
# 強化学習における探索手法の検討

A Survey of Exploration Methods in Reinforcement Learning ( http://arxiv.org/abs/2109.00157v1 )

ライセンス: Link先を確認
Susan Amin, Maziar Gomrokchi, Harsh Satija, Herke van Hoof, Doina Precup(参考訳) 探索は強化学習アルゴリズムの重要な要素であり、エージェントは未知の、しばしば確率的な環境を予測し、制御する方法を学ぶ必要がある。 強化学習エージェントは、十分な情報がないことが効果的な学習を妨げる可能性があるため、学習プロセスのための情報を得るための探索に大きく依存する。 本稿では,(逐次的)強化学習における近代的な探究手法の調査と,探索手法の分類について述べる。

Exploration is an essential component of reinforcement learning algorithms, where agents need to learn how to predict and control unknown and often stochastic environments. Reinforcement learning agents depend crucially on exploration to obtain informative data for the learning process as the lack of enough information could hinder effective learning. In this article, we provide a survey of modern exploration methods in (Sequential) reinforcement learning, as well as a taxonomy of exploration methods.
翻訳日:2021-09-02 14:30:27 公開日:2021-09-01
# 連合学習:医療応用における課題

Federated Learning: Issues in Medical Application ( http://arxiv.org/abs/2109.00202v1 )

ライセンス: Link先を確認
Joo Hun Yoo, Hyejun Jeong, Jaehyeok Lee, Tai-Myoung Chung(参考訳) ローカルデータを移動せずにAIを学習可能にするフェデレーション学習は、Googleが2017年に導入して以来、特に医学分野で積極的に研究されてきた。 実際、AIにおける機械学習というアイデアは、ローカルのクライアントからデータを集めることなく、とても魅力的だ。 しかし,非同一分布,クライアント参加管理,脆弱な環境など,独自の特徴があるため,フェデレーション学習にはさまざまな課題が残っている。 このプレゼンテーションでは、現実世界で完全に役に立たないフェデレーション学習を実現するための現在の課題について簡単に概説する。 データ/システムの不均一性、クライアント管理、トレーサビリティ、セキュリティに関するものだ。 また、我々が現在開発しているモジュラー化連合学習フレームワークを導入して、上記の問題に対する解決策を見つけるための様々な技術やプロトコルを実験します。 フレームワークは開発が完了した後、公開されます。

Since the federated learning, which makes AI learning possible without moving local data around, was introduced by google in 2017 it has been actively studied particularly in the field of medicine. In fact, the idea of machine learning in AI without collecting data from local clients is very attractive because data remain in local sites. However, federated learning techniques still have various open issues due to its own characteristics such as non identical distribution, client participation management, and vulnerable environments. In this presentation, the current issues to make federated learning flawlessly useful in the real world will be briefly overviewed. They are related to data/system heterogeneity, client management, traceability, and security. Also, we introduce the modularized federated learning framework, we currently develop, to experiment various techniques and protocols to find solutions for aforementioned issues. The framework will be open to public after development completes.
翻訳日:2021-09-02 14:30:20 公開日:2021-09-01
# 深部ReLU CNNの近似特性

Approximation Properties of Deep ReLU CNNs ( http://arxiv.org/abs/2109.00190v1 )

ライセンス: Link先を確認
Juncai He, Lin Li, Jinchao Xu(参考訳) 本稿では,2次元空間上での深部ReLU畳み込みニューラルネットワーク(CNN)の近似特性について述べる。 この解析は、大きな空間サイズとマルチチャネルを持つ畳み込み核の分解定理に基づいている。 ReLU活性化関数の分解と性質を考えると、古典構造を持つ深部ReLU CNNの普遍近似定理は、ReLU深部ニューラルネットワーク(DNN)と1つの隠蔽層との接続を示すことによって得られる。 さらに、ResNet、pre-act ResNet、MgNetアーキテクチャを用いたニューラルネットワークでは、これらのネットワーク間の接続に基づいて近似特性が得られる。

This paper is devoted to establishing $L^2$ approximation properties for deep ReLU convolutional neural networks (CNNs) on two-dimensional space. The analysis is based on a decomposition theorem for convolutional kernels with large spatial size and multi-channel. Given that decomposition and the property of the ReLU activation function, a universal approximation theorem of deep ReLU CNNs with classic structure is obtained by showing its connection with ReLU deep neural networks (DNNs) with one hidden layer. Furthermore, approximation properties are also obtained for neural networks with ResNet, pre-act ResNet, and MgNet architecture based on connections between these networks.
翻訳日:2021-09-02 14:29:40 公開日:2021-09-01
# テキストから希少疾患とその臨床症状を認識するための深層学習法の検討

Exploring deep learning methods for recognizing rare diseases and their clinical manifestations from texts ( http://arxiv.org/abs/2109.00343v1 )

ライセンス: Link先を確認
Isabel Segura-Bedmar, David Camino-Perdonas, Sara Guerrero-Aspizua(参考訳) まれな疾患は感染頻度が低いことが特徴だが、約3億人がまれな疾患の影響を受けている。 これらの症状の早期かつ正確な診断は、それらを特定するのに十分な知識を持っていない一般の実践者にとって大きな課題である。 これに加えて、稀な疾患は通常、様々な症状を示しており、診断がさらに困難になる可能性がある。 遅延診断は患者の生活に悪影響を及ぼすことがある。 そのため、希少な疾患に関する科学的・医学的知識を増大させる必要がある。 自然言語処理(NLP)とディープラーニングは、まれな疾患に関する関連情報を抽出し、診断と治療を容易にする。 本稿は, トランスフォーマー (bert) からの双方向エンコーダ表現に基づく, 双方向のlong short term memory (bilstm) ネットワークや, 深層文脈化単語表現などの深層学習手法を用いて, レアディスコーパスにおけるまれな疾患とその臨床症状(サインや症状)を認識する。 このコーパスには5,000以上のまれな疾患と約6,000の臨床症状が含まれている。 BERTをベースとしたドメイン固有言語表現であるBioBERTは、バイオメディカルコーパスに基づいて訓練され、最良の結果を得る。 特に、このモデルは85.2%の希少疾患のf1-scoreを取得し、他の全てのモデルよりも優れている。

Although rare diseases are characterized by low prevalence, approximately 300 million people are affected by a rare disease. The early and accurate diagnosis of these conditions is a major challenge for general practitioners, who do not have enough knowledge to identify them. In addition to this, rare diseases usually show a wide variety of manifestations, which might make the diagnosis even more difficult. A delayed diagnosis can negatively affect the patient's life. Therefore, there is an urgent need to increase the scientific and medical knowledge about rare diseases. Natural Language Processing (NLP) and Deep Learning can help to extract relevant information about rare diseases to facilitate their diagnosis and treatments. The paper explores the use of several deep learning techniques such as Bidirectional Long Short Term Memory (BiLSTM) networks or deep contextualized word representations based on Bidirectional Encoder Representations from Transformers (BERT) to recognize rare diseases and their clinical manifestations (signs and symptoms) in the RareDis corpus. This corpus contains more than 5,000 rare diseases and almost 6,000 clinical manifestations. BioBERT, a domain-specific language representation based on BERT and trained on biomedical corpora, obtains the best results. In particular, this model obtains an F1-score of 85.2% for rare diseases, outperforming all the other models.
翻訳日:2021-09-02 14:29:18 公開日:2021-09-01
# Deep $\mathcal{L}^1$ Stochastic Optimal Control Policies for Planetary Soft-landing

Deep $\mathcal{L}^1$ Stochastic Optimal Control Policies for Planetary Soft-landing ( http://arxiv.org/abs/2109.00183v1 )

ライセンス: Link先を確認
Marcus A. Pereira, Camilo A. Duarte, Ioannis Exarchos, and Evangelos A. Theodorou(参考訳) 本稿では,非線形確率最適制御(SOC)とファインマン・カック理論の原理を基礎とした,パワード・ダイスン・ガイダンス(PDG)問題に対する新しいディープラーニングに基づく解を提案する。 提案アルゴリズムは, 最小燃料消費に対する$\mathcal{L}^1$ SOC問題としてフレーミングすることで, PDG問題を解く。 さらに、実際に有用な制御制約、非線形ダイナミクスを処理し、ソフトコンストラクションとして状態制約を強制することができる。 これは、近年のDeep Forward-Backward Stochastic Differential Equations (FBSDEs) と、確率探索に基づく微分可能な非凸最適化ニューラルネットワーク層の構築によって実現されている。 従来の手法とは対照的に,我々のアルゴリズムは力学の制約の凸化や線形化を必要とせず,確率的乱れや宇宙船の初期位置に頑健であることが実証的に示されている。 オフラインでトレーニングした後、宇宙船がランディングゾーンの所定の半径内、すなわちランディングゾーンの先端を持つ反転円錐の基部が予め指定された高度内にある場合、コントローラを起動することができる。 我々は,燃料消費を最小化しながら,この円錐の底部で初期化された全ての軌道を正常かつ安全に着陸できることを実証的に実証した。

In this paper, we introduce a novel deep learning based solution to the Powered-Descent Guidance (PDG) problem, grounded in principles of nonlinear Stochastic Optimal Control (SOC) and Feynman-Kac theory. Our algorithm solves the PDG problem by framing it as an $\mathcal{L}^1$ SOC problem for minimum fuel consumption. Additionally, it can handle practically useful control constraints, nonlinear dynamics and enforces state constraints as soft-constraints. This is achieved by building off of recent work on deep Forward-Backward Stochastic Differential Equations (FBSDEs) and differentiable non-convex optimization neural-network layers based on stochastic search. In contrast to previous approaches, our algorithm does not require convexification of the constraints or linearization of the dynamics and is empirically shown to be robust to stochastic disturbances and the initial position of the spacecraft. After training offline, our controller can be activated once the spacecraft is within a pre-specified radius of the landing zone and at a pre-specified altitude i.e., the base of an inverted cone with the tip at the landing zone. We demonstrate empirically that our controller can successfully and safely land all trajectories initialized at the base of this cone while minimizing fuel consumption.
翻訳日:2021-09-02 14:28:37 公開日:2021-09-01
# 暗黙的行動的クローニング

Implicit Behavioral Cloning ( http://arxiv.org/abs/2109.00137v1 )

ライセンス: Link先を確認
Pete Florence, Corey Lynch, Andy Zeng, Oscar Ramirez, Ayzaan Wahid, Laura Downs, Adrian Wong, Johnny Lee, Igor Mordatch, Jonathan Tompson(参考訳) ロボットポリシー学習の幅広いシナリオにおいて、教師付きポリシー学習を暗黙のモデルで扱うことで、一般的に使用される明示的なモデルよりも平均的に、より優れたパフォーマンスが得られます。 この発見について広範な実験を行い、暗黙的モデルの性質と明示的モデルとを区別する直感的な洞察と理論的議論、特に複雑で不連続で多値な(集合評価された)関数の近似について提示する。 ロボットポリシー学習タスクにおいて、エネルギーベースモデル(EBM)による暗黙的な行動クローニングポリシーは、高次元の行動空間や視覚的イメージ入力を持つタスクを含む共通の行動クローニングポリシー(平均平方誤差、混合密度)より優れていることが示される。 これらのポリシーは、報酬情報を使用しないにもかかわらず、D4RLベンチマークスイートからの挑戦的な人間専門家タスクに対して、競争結果を提供するか、最先端のオフライン強化学習手法より優れている。 現実の世界では、暗黙のポリシーを持つロボットは、人間によるデモンストレーションから、接触の多いタスクの複雑な微妙な振る舞いを学習することができる。

We find that across a wide range of robot policy learning scenarios, treating supervised policy learning with an implicit model generally performs better, on average, than commonly used explicit models. We present extensive experiments on this finding, and we provide both intuitive insight and theoretical arguments distinguishing the properties of implicit models compared to their explicit counterparts, particularly with respect to approximating complex, potentially discontinuous and multi-valued (set-valued) functions. On robotic policy learning tasks we show that implicit behavioral cloning policies with energy-based models (EBM) often outperform common explicit (Mean Square Error, or Mixture Density) behavioral cloning policies, including on tasks with high-dimensional action spaces and visual image inputs. We find these policies provide competitive results or outperform state-of-the-art offline reinforcement learning methods on the challenging human-expert tasks from the D4RL benchmark suite, despite using no reward information. In the real world, robots with implicit policies can learn complex and remarkably subtle behaviors on contact-rich tasks from human demonstrations, including tasks with high combinatorial complexity and tasks requiring 1mm precision.
翻訳日:2021-09-02 14:27:46 公開日:2021-09-01
# FinQA:財務データに対する数値推論のデータセット

FinQA: A Dataset of Numerical Reasoning over Financial Data ( http://arxiv.org/abs/2109.00122v1 )

ライセンス: Link先を確認
Zhiyu Chen, Wenhu Chen, Charese Smiley, Sameena Shah, Iana Borova, Dylan Langdon, Reema Moussa, Matt Beane, Ting-Hao Huang, Bryan Routledge, William Yang Wang(参考訳) 財務報告の量が多ければ多いほど、人間のビジネスの財務情報へのアクセスや分析が困難になる。 ロバストな数値推論も同様に、この分野のユニークな課題に直面している。 本研究は,金融データに対する深い質問への回答に焦点をあて,大量の財務文書の分析を自動化することを目的とする。 一般的なドメインにおける既存のタスクとは対照的に、ファイナンス領域は複雑な数値推論と異種表現の理解を含んでいる。 分析の進展を促進するため,金融専門家が作成した財務報告に対して質問回答ペアを用いた大規模データセットFinQAを提案する。 また、ゴールドの推論プログラムに注釈を付け、完全な説明可能性を確保します。 さらに,データセットにベースラインを導入し,総合的な実験を行う。 その結果、金融知識の取得や、その知識に基づく複雑な多段階の数値推論において、人気があり、大規模で、事前訓練されたモデルは、専門家の手に負えないことがわかった。 したがって、私たちのデータセット -- この種の最初の -- は、複雑なアプリケーションドメインに対する重要な新しいコミュニティ調査を可能にするべきです。 データセットとコードは公開されており、https://github.com/c zyssrs/FinQA} である。

The sheer volume of financial statements makes it difficult for humans to access and analyze a business's financials. Robust numerical reasoning likewise faces unique challenges in this domain. In this work, we focus on answering deep questions over financial data, aiming to automate the analysis of a large corpus of financial documents. In contrast to existing tasks on general domain, the finance domain includes complex numerical reasoning and understanding of heterogeneous representations. To facilitate analytical progress, we propose a new large-scale dataset, FinQA, with Question-Answering pairs over Financial reports, written by financial experts. We also annotate the gold reasoning programs to ensure full explainability. We further introduce baselines and conduct comprehensive experiments in our dataset. The results demonstrate that popular, large, pre-trained models fall far short of expert humans in acquiring finance knowledge and in complex multi-step numerical reasoning on that knowledge. Our dataset -- the first of its kind -- should therefore enable significant, new community research into complex application domains. The dataset and code are publicly available\url{https://github.com/c zyssrs/FinQA}.
翻訳日:2021-09-02 14:26:50 公開日:2021-09-01
# 何を学んだのか、何を学ぶべきか? 分類のためのテキストの選択的増補法に関する実証的研究

What Have Been Learned & What Should Be Learned? An Empirical Study of How to Selectively Augment Text for Classification ( http://arxiv.org/abs/2109.00175v1 )

ライセンス: Link先を確認
Biyang Guo, Sonqiao Han, Hailiang Huang(参考訳) テキスト拡張技術は、特に低リソースシナリオにおいて分類器の性能を向上させるために、テキスト分類問題で広く使われている。 多くの創造的なテキスト拡張手法が設計されている一方で、テキストを非選択的な方法で拡張するので、重要でない単語や騒がしい単語は、情報的な単語と同じ可能性を持ち、拡張のパフォーマンスを制限できる。 本研究では,テキスト分類に異なる機能を持つ3種類のロールキーワードを体系的に要約し,テキストから抽出する効果的な手法を設計する。 抽出されたロールキーワードに基づいて,情報的,類別的な単語が強調されるが,無関係な単語やうるさい単語が減少するテキストを選択的に拡張するstaを提案する。 4つの英語と中国語のテキスト分類ベンチマークデータセットに関する広範囲な実験は、staが非選択的なテキスト拡張法を大きく上回ることを示している。

Text augmentation techniques are widely used in text classification problems to improve the performance of classifiers, especially in low-resource scenarios. Whilst lots of creative text augmentation methods have been designed, they augment the text in a non-selective manner, which means the less important or noisy words have the same chances to be augmented as the informative words, and thereby limits the performance of augmentation. In this work, we systematically summarize three kinds of role keywords, which have different functions for text classification, and design effective methods to extract them from the text. Based on these extracted role keywords, we propose STA (Selective Text Augmentation) to selectively augment the text, where the informative, class-indicating words are emphasized but the irrelevant or noisy words are diminished. Extensive experiments on four English and Chinese text classification benchmark datasets demonstrate that STA can substantially outperform the non-selective text augmentation methods.
翻訳日:2021-09-02 14:26:35 公開日:2021-09-01
# 対話データセットにおける分布シフトによる予測不確かさの評価

Evaluating Predictive Uncertainty under Distributional Shift on Dialogue Dataset ( http://arxiv.org/abs/2109.00186v1 )

ライセンス: Link先を確認
Nyoungwoo Lee, ChaeHun Park, Ho-Jin Choi(参考訳) オープンドメイン対話では、予測の不確実性は主に、分散入力に対処するためにドメインシフト設定で評価される。 しかし、現実世界の会話では、配布外よりも広範な分散シフトインプットが存在する可能性がある。 これを評価するために,まず未知語(uw)と不十分な文脈(ic)という2つの手法を提案し,対話データセット上での腐敗による段階的な分布変化を可能とした。 次に,分布シフトが精度とキャリブレーションに及ぼす影響について検討する。 実験の結果,既存の不確実性推定手法の性能は変化の増大とともに常に低下することがわかった。 その結果,提案手法は分散シフト下での対話システムの校正評価に有用であることが示唆された。

In open-domain dialogues, predictive uncertainties are mainly evaluated in a domain shift setting to cope with out-of-distribution inputs. However, in real-world conversations, there could be more extensive distributional shifted inputs than the out-of-distribution. To evaluate this, we first propose two methods, Unknown Word (UW) and Insufficient Context (IC), enabling gradual distributional shifts by corruption on the dialogue dataset. We then investigate the effect of distributional shifts on accuracy and calibration. Our experiments show that the performance of existing uncertainty estimation methods consistently degrades with intensifying the shift. The results suggest that the proposed methods could be useful for evaluating the calibration of dialogue systems under distributional shifts.
翻訳日:2021-09-02 14:26:17 公開日:2021-09-01
# 知識グラフを用いた会話質問応答のための構造化文脈と高被覆文法

Structured Context and High-Coverage Grammar for Conversational Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2109.00269v1 )

ライセンス: Link先を確認
Pierre Marion, Pawe{\l} Krzysztof Nowak, Francesco Piccinno(参考訳) ニューラルセマンティックパーシングアプローチを用いて,大規模知識グラフに対する弱教師付き会話質問回答の問題に対処する。 我々は,グラフ上で広範囲のクエリをモデル化できる新しい論理形式(LF)文法を導入した。 TransformerベースのモデルはJSONライクな構造を入力として取り、知識グラフと会話コンテキストの両方を簡単に組み込むことができます。 この構造化された入力は埋め込みのリストに変換され、標準の注意層に供給される。 WikidataをベースとしたCSQAとConvQuestionsの2つの公開データセット上で,文法カバレッジとLF実行精度の両面からアプローチを検証する。 csqaにおいて、我々のアプローチはカバレッジを80\%$から96.2\%$に、lfの実行精度を70.6\%$から75.6\%$に増加させました。 ConvQuestionsでは、最先端技術に関する競争結果を達成する。

We tackle the problem of weakly-supervised conversational Question Answering over large Knowledge Graphs using a neural semantic parsing approach. We introduce a new Logical Form (LF) grammar that can model a wide range of queries on the graph while remaining sufficiently simple to generate supervision data efficiently. Our Transformer-based model takes a JSON-like structure as input, allowing us to easily incorporate both Knowledge Graph and conversational contexts. This structured input is transformed to lists of embeddings and then fed to standard attention layers. We validate our approach, both in terms of grammar coverage and LF execution accuracy, on two publicly available datasets, CSQA and ConvQuestions, both grounded in Wikidata. On CSQA, our approach increases the coverage from $80\%$ to $96.2\%$, and the LF execution accuracy from $70.6\%$ to $75.6\%$, with respect to previous state-of-the-art results. On ConvQuestions, we achieve competitive results with respect to the state-of-the-art.
翻訳日:2021-09-02 14:26:05 公開日:2021-09-01
# $\infty$-former: Infinite Memory Transformer

$\infty$-former: Infinite Memory Transformer ( http://arxiv.org/abs/2109.00301v1 )

ライセンス: Link先を確認
Pedro Henrique Martins and Zita Marinho and Andr\'e F. T. Martins(参考訳) トランスフォーマーは、計算量がコンテキストの長さとともに増加するため、長期記憶を効果的にモデル化できないため、長い文脈に出席するときに苦労する。 この問題を緩和するためにいくつかのバリエーションが提案されているが、いずれもメモリ容量が有限であり、古い情報をドロップせざるを得ない。 本稿では,バニラ変圧器をアンバウンドの長期記憶で拡張する$\infty$-formerを提案する。 長期記憶における連続空間注意機構を利用することで、$\infty$-former の注意の複雑さはコンテキスト長に依存しない。 これにより、任意の長さの文脈をモデル化し、一定の計算予算を維持しながら「スティッキーメモリ」を維持することができる。 合成ソートタスクの実験は、$\infty$-former が長いシーケンスの情報を保持する能力を示している。 また、言語モデリングの実験を行い、スクラッチからモデルを訓練し、訓練済みの言語モデルを微調整することで、非有界な長期記憶の利点を示す。

Transformers struggle when attending to long contexts, since the amount of computation grows with the context length, and therefore they cannot model long-term memories effectively. Several variations have been proposed to alleviate this problem, but they all have a finite memory capacity, being forced to drop old information. In this paper, we propose the $\infty$-former, which extends the vanilla transformer with an unbounded long-term memory. By making use of a continuous-space attention mechanism to attend over the long-term memory, the $\infty$-former' ;s attention complexity becomes independent of the context length. Thus, it is able to model arbitrarily long contexts and maintain "sticky memories" while keeping a fixed computation budget. Experiments on a synthetic sorting task demonstrate the ability of the $\infty$-former to retain information from long sequences. We also perform experiments on language modeling, by training a model from scratch and by fine-tuning a pre-trained language model, which show benefits of unbounded long-term memories.
翻訳日:2021-09-02 14:25:46 公開日:2021-09-01
# ソーシャルメディアにおけるスタンスダイナミクスの捉え方:オープンチャレンジと研究方向

Capturing Stance Dynamics in Social Media: Open Challenges and Research Directions ( http://arxiv.org/abs/2109.00475v1 )

ライセンス: Link先を確認
Rabab Alkhalifa, Arkaitz Zubiaga(参考訳) ソーシャルメディアプラットフォームは、幅広い社会的な関心事に関する世論を掘り起こすための金鉱を提供する。 意見マイニング(英: opinion mining)とは、個々のソーシャルメディア投稿のスタンスを、問題に対して支援、反対、中立であると捉え、集約することで、運用できる問題である。 スタンス検出における多くの先行研究は、限られた時間範囲でデータセットを調査してきたが、最近、縦断データセットの調査への関心が高まっている。 新しいデータで観察される言語および行動パターンのダイナミクスの進化には、変化に対処するために姿勢検出システムを適用する必要がある。 本稿では,デジタルメディアにおける人的コミュニケーションの時間的進化と計算言語学の交わりについて検討する。 言語データ全般に影響を及ぼす異なる意味的・実用的要因、特にスタンスを探求し、ダイナミクスを考慮した新興研究において批判的レビューを行う。 ソーシャルメディアにおけるスタンスダイナミクスの捉え方についても論じる。 スタンスダイナミクスを扱う課題を整理し,オープンな課題を特定し,発話,文脈,影響という3つの重要な次元で今後の方向性を議論する。

Social media platforms provide a goldmine for mining public opinion on issues of wide societal interest. Opinion mining is a problem that can be operationalised by capturing and aggregating the stance of individual social media posts as supporting, opposing or being neutral towards the issue at hand. While most prior work in stance detection has investigated datasets with limited time coverage, interest in investigating longitudinal datasets has recently increased. Evolving dynamics in linguistic and behavioural patterns observed in new data require in turn adapting stance detection systems to deal with the changes. In this survey paper, we investigate the intersection between computational linguistics and the temporal evolution of human communication in digital media. We perform a critical review in emerging research considering dynamics, exploring different semantic and pragmatic factors that impact linguistic data in general, and stance particularly. We further discuss current directions in capturing stance dynamics in social media. We organise the challenges of dealing with stance dynamics, identify open challenges and discuss future directions in three key dimensions: utterance, context and influence.
翻訳日:2021-09-02 14:25:27 公開日:2021-09-01
# 暗黙的誘導エージェントによるパフォーマンスと自律性のバランス

Balancing Performance and Human Autonomy with Implicit Guidance Agent ( http://arxiv.org/abs/2109.00414v1 )

ライセンス: Link先を確認
Ryo Nakahashi and Seiji Yamada(参考訳) 人間と自律的なエージェントがひとつのタスクを達成するために協力する問題であるヒューマンエージェントチームは、人間とAIのコラボレーションで典型的である。 効果的なコラボレーションのためには、人間は効果的な計画を持ちたがるが、現実的な状況では、認知的限界のために最適な計画を計算するのが困難になる。 この場合、多くの計算資源を持つエージェントからのガイダンスが有用かもしれない。 しかし、エージェントが人間の行動を明示的に導くと、人間は自律性を失い、エージェントによって制御されていると感じるかもしれない。 そこで,エージェントの行動によって提供される暗黙的指導について検討した。 この種の指導により、エージェントは、人間が協調作業の効果的な計画を見つけやすくし、そして、人間が計画を改善することができるように行動する。 人間は自発的に計画を改善するので、自律性を維持する。 ベイズ理論を既存の協調計画アルゴリズムに組み込むことで,暗黙的指導を伴う協調エージェントをモデル化し,暗黙的指導が人間の計画改善と自律性維持のバランスを維持する上で有効であることを示す行動実験を行った。

The human-agent team, which is a problem in which humans and autonomous agents collaborate to achieve one task, is typical in human-AI collaboration. For effective collaboration, humans want to have an effective plan, but in realistic situations, they might have difficulty calculating the best plan due to cognitive limitations. In this case, guidance from an agent that has many computational resources may be useful. However, if an agent guides the human behavior explicitly, the human may feel that they have lost autonomy and are being controlled by the agent. We therefore investigated implicit guidance offered by means of an agent's behavior. With this type of guidance, the agent acts in a way that makes it easy for the human to find an effective plan for a collaborative task, and the human can then improve the plan. Since the human improves their plan voluntarily, he or she maintains autonomy. We modeled a collaborative agent with implicit guidance by integrating the Bayesian Theory of Mind into existing collaborative-planni ng algorithms and demonstrated through a behavioral experiment that implicit guidance is effective for enabling humans to maintain a balance between improving their plans and retaining autonomy.
翻訳日:2021-09-02 14:25:07 公開日:2021-09-01
# ビデオゲームの説明から計画する

Planning from video game descriptions ( http://arxiv.org/abs/2109.00449v1 )

ライセンス: Link先を確認
Ignacio Vellido, Carlos N\'u\~nez-Molina, Vladislav Nikolov, Juan Fdez-Olivares(参考訳) 本稿では,ビデオゲームのダイナミックス記述からアクションモデルの自動生成手法を提案するとともに,計画の実行と監視のための計画エージェントとの統合も提案する。 プランナーはこれらのアクションモデルを使用して、さまざまなビデオゲームにおけるエージェントの熟考行動を取得し、リアクティブモジュールと組み合わせることで、決定論的および非決定論的レベルを解決する。 実験結果は方法論を検証し、そのような複雑なドメインの定義において知識技術者が課した労力を大幅に削減できることを示す。 さらに、国際計画コンペティションのプランナーを評価するため、国際計画コミュニティにとって興味のある領域のベンチマークが作成されている。

This project proposes a methodology for the automatic generation of action models from video game dynamics descriptions, as well as its integration with a planning agent for the execution and monitoring of the plans. Planners use these action models to get the deliberative behaviour for an agent in many different video games and, combined with a reactive module, solve deterministic and no-deterministic levels. Experimental results validate the methodology and prove that the effort put by a knowledge engineer can be greatly reduced in the definition of such complex domains. Furthermore, benchmarks of the domains has been produced that can be of interest to the international planning community to evaluate planners in international planning competitions.
翻訳日:2021-09-02 14:24:48 公開日:2021-09-01
# DPA:物体検出のためのロバストな物理逆カモフラージュ学習

DPA: Learning Robust Physical Adversarial Camouflages for Object Detectors ( http://arxiv.org/abs/2109.00124v1 )

ライセンス: Link先を確認
Yexin Duan, Jialin Chen, Xingyu Zhou, Junhua Zou, Zhengyun He, Wu Zhang, Zhisong Pan(参考訳) 敵の攻撃は、オブジェクト検出のために現実世界で実現可能である。 しかし、以前の作品のほとんどが物体に当てはまる「パッチ」を学習して検出器を騙そうとしており、これは視野角が狭くなるか、あるいは効果が低くなる。 そこで我々はDense Proposals Attack (DPA) を提案し,検出器の頑健で物理的,ターゲットとした対向カモフラージュを学習する。 カモフラージュは、任意の視点と異なる照明条件の下で撮影されたとき、物理的に3次元の仮想シーンと現実世界の両方でうまく機能し、検出器が特定のターゲットクラスとして物体を誤識別する可能性があるため、頑丈である。 生成したカモフラージュを物理的に頑健にするために,視点シフト,照明,その他の自然変換を組み合わせて物理現象をモデル化する。 さらに、攻撃を改善するため、dpaは固定領域提案の全ての分類を実質的に攻撃する。 さらに,unityシミュレーションエンジンを用いて仮想3dシーンを構築し,物理的攻撃を公平かつ再現的に評価する。 大規模な実験により、DPAは最先端の手法を著しく上回り、現実によく一般化し、セキュリティクリティカルなコンピュータビジョンシステムに潜在的な脅威をもたらすことが示されている。

Adversarial attacks are feasible in the real world for object detection. However, most of the previous works have tried to learn "patches" applied to an object to fool detectors, which become less effective or even ineffective in squint view angles. To address this issue, we propose the Dense Proposals Attack (DPA) to learn robust, physical and targeted adversarial camouflages for detectors. The camouflages are robust because they remain adversarial when filmed under arbitrary viewpoint and different illumination conditions, physical because they function well both in the 3D virtual scene and the real world, and targeted because they can cause detectors to misidentify an object as a specific target class. In order to make the generated camouflages robust in the physical world, we introduce a combination of viewpoint shifts, lighting and other natural transformations to model the physical phenomena. In addition, to improve the attacks, DPA substantially attacks all the classifications in the fixed region proposals. Moreover, we build a virtual 3D scene using the Unity simulation engine to fairly and reproducibly evaluate different physical attacks. Extensive experiments demonstrate that DPA outperforms the state-of-the-art methods significantly, and generalizes well to the real world, posing a potential threat to the security-critical computer vision systems.
翻訳日:2021-09-02 14:23:42 公開日:2021-09-01
# 不規則な瞳の形、ガンが生成した顔を見せてくれる

Eyes Tell All: Irregular Pupil Shapes Reveal GAN-generated Faces ( http://arxiv.org/abs/2109.00162v1 )

ライセンス: Link先を確認
Hui Guo, Shu Hu, Xin Wang, Ming-Ching Chang, Siwei Lyu(参考訳) generative adversary network (gan) は、偽のソーシャルメディアアカウントのプロフィール画像として使われており、実際の顔と識別するのが視覚的に困難である。 本研究は,gan生成顔が不規則な瞳孔形状によって露出できることを示す。 この現象はganモデルにおける生理的制約の欠如によって引き起こされる。 これらの人工物が高品質なgan生成顔に広く存在することを実証し,さらに2つの眼から瞳孔を抽出し,その形状を解析してgan生成顔の露光を行う手法について述べる。 本手法の質的,定量的評価は,GAN生成顔の識別における簡便さと有効性を示している。

Generative adversary network (GAN) generated high-realistic human faces have been used as profile images for fake social media accounts and are visually challenging to discern from real ones. In this work, we show that GAN-generated faces can be exposed via irregular pupil shapes. This phenomenon is caused by the lack of physiological constraints in the GAN models. We demonstrate that such artifacts exist widely in high-quality GAN-generated faces and further describe an automatic method to extract the pupils from two eyes and analysis their shapes for exposing the GAN-generated faces. Qualitative and quantitative evaluations of our method suggest its simplicity and effectiveness in distinguishing GAN-generated faces.
翻訳日:2021-09-02 14:23:17 公開日:2021-09-01
# アーキテクチャを考慮したレイテンシ制約付きスパースニューラルネットワーク

Architecture Aware Latency Constrained Sparse Neural Networks ( http://arxiv.org/abs/2109.00170v1 )

ライセンス: Link先を確認
Tianli Zhao, Qinghao Hu, Xiangyu He, Weixiang Xu, Jiaxing Wang, Cong Leng, Jian Cheng(参考訳) 特定のレイテンシ制約を満たすためのディープニューラルネットワークの加速は、モバイルデバイスへのデプロイに不可欠である。 本稿では,アーキテクチャに配慮した遅延制約付きスパース(alcs)フレームワークを設計,cnnモデルを高速化する。 最新のモバイル計算アーキテクチャを考慮に入れ,効率的な計算のための新しいスパース畳み込みアルゴリズムとともに,Single Instruction Multiple Data (SIMD)-structured pruningを提案する。 さらに,線形補間によるスパースモデルの実行時間を推定する手法を提案する。 遅延制約付きプルーニングタスク全体は、alternating Direction Method of Multipliers (ADMM) で効率的に解ける制約付き最適化問題として定式化される。 広範な実験により,ネットワークの精度とリソース制約のあるモバイルデバイスのレイテンシにおいて,より優れたparetoフロンティアを実現することができた。

Acceleration of deep neural networks to meet a specific latency constraint is essential for their deployment on mobile devices. In this paper, we design an architecture aware latency constrained sparse (ALCS) framework to prune and accelerate CNN models. Taking modern mobile computation architectures into consideration, we propose Single Instruction Multiple Data (SIMD)-structured pruning, along with a novel sparse convolution algorithm for efficient computation. Besides, we propose to estimate the run time of sparse models with piece-wise linear interpolation. The whole latency constrained pruning task is formulated as a constrained optimization problem that can be efficiently solved with Alternating Direction Method of Multipliers (ADMM). Extensive experiments show that our system-algorithm co-design framework can achieve much better Pareto frontier among network accuracy and latency on resource-constrained mobile devices.
翻訳日:2021-09-02 14:23:02 公開日:2021-09-01
# 3次元点雲に対する時空間自己教師あり表現学習

Spatio-temporal Self-Supervised Representation Learning for 3D Point Clouds ( http://arxiv.org/abs/2109.00179v1 )

ライセンス: Link先を確認
Siyuan Huang, Yichen Xie, Song-Chun Zhu, Yixin Zhu(参考訳) 現在まで、様々な3dシーン理解タスクは、主に3dシーン理解タスクの複雑な性質と、カメラビュー、照明、オクルージョンなどによってもたらされる多様なバリエーションのために、実用的で一般化された事前学習モデルに欠けている。 本稿では,ラベルのない3次元点群から自己管理的に学習可能な時空間表現学習(STRL)フレームワークを導入することで,この問題に対処する。 幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから得られる豊かな時空間的手がかりを探索する。 具体的には、3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。 STRLの有効性を裏付けるために,3種類のデータセット(合成,室内,屋外)について広範な実験を行った。 実験の結果,教師付き学習法と比較して,学習された自己教師付き表現は,3次元形状分類,3次元物体検出,3次元意味セグメンテーションなどの下流タスクに事前訓練されたモデルを一般化しながら,同等あるいはそれ以上のパフォーマンスを達成することができることがわかった。 さらに、3dポイントクラウドに埋め込まれた時空間的手がかりは、学習した表現を大幅に改善する。

To date, various 3D scene understanding tasks still lack practical and generalizable pre-trained models, primarily due to the intricate nature of 3D scene understanding tasks and their immense variations introduced by camera views, lighting, occlusions, etc. In this paper, we tackle this challenge by introducing a spatio-temporal representation learning (STRL) framework, capable of learning from unlabeled 3D point clouds in a self-supervised fashion. Inspired by how infants learn from visual data in the wild, we explore the rich spatio-temporal cues derived from the 3D data. Specifically, STRL takes two temporally-correlate d frames from a 3D point cloud sequence as the input, transforms it with the spatial data augmentation, and learns the invariant representation self-supervisedly. To corroborate the efficacy of STRL, we conduct extensive experiments on three types (synthetic, indoor, and outdoor) of datasets. Experimental results demonstrate that, compared with supervised learning methods, the learned self-supervised representation facilitates various models to attain comparable or even better performances while capable of generalizing pre-trained models to downstream tasks, including 3D shape classification, 3D object detection, and 3D semantic segmentation. Moreover, the spatio-temporal contextual cues embedded in 3D point clouds significantly improve the learned representations.
翻訳日:2021-09-02 14:22:46 公開日:2021-09-01
# 知覚に最適化された高ダイナミックレンジ画像トーンマッピング

Perceptually Optimized Deep High-Dynamic-Range Image Tone Mapping ( http://arxiv.org/abs/2109.00180v1 )

ライセンス: Link先を確認
Chenyang Le and Jiebin Yan and Yuming Fang and Kede Ma(参考訳) 本稿では,計算効率が高く知覚的に最適化された高ダイナミックレンジ(hdr)画像トーンマッピング演算子について述べる。 まず,hdr画像を正規化されたラプラキアンピラミッドに分解し,2つのディープニューラルネットワーク(dnn)を用いて,所望のトーンマップ画像のラプラキアンピラミッドを正規化表現から推定する。 次に,最近提案された知覚的距離である正規化ピラミッド距離(nlpd)を最小化することにより,hdr画像のデータベース上での方法全体の最適化を行う。 質的かつ定量的な実験により,既存の局所トーンマッピングアルゴリズムの中で最も高速に映像を生成できることを示した。

We describe a deep high-dynamic-range (HDR) image tone mapping operator that is computationally efficient and perceptually optimized. We first decompose an HDR image into a normalized {Laplacian} pyramid, and use two deep neural networks (DNNs) to estimate the {Laplacian} pyramid of the desired tone-mapped image from the normalized representation. We then end-to-end optimize the entire method over a database of HDR images by minimizing the normalized {Laplacian} pyramid distance (NLPD), a recently proposed perceptual metric. Qualitative and quantitative experiments demonstrate that our method produces images with better visual quality, and runs the fastest among existing local tone mapping algorithms.
翻訳日:2021-09-02 14:22:21 公開日:2021-09-01
# 一度だけ仮説を立てる:回転同変ディスクリプタによるポイントクラウド登録

You Only Hypothesize Once: Point Cloud Registration with Rotation-equivariant Descriptors ( http://arxiv.org/abs/2109.00182v1 )

ライセンス: Link先を確認
Haiping Wang, Yuan Liu, Zhen Dong, Wenping Wang, Bisheng Yang(参考訳) 本稿では,2つの非整合点雲の登録のための局所記述子に基づく新しいフレームワーク,You Only hypothesize Once (YOHO)を提案する。 フレキシブルな局所参照フレームを頼りに回転不変性を得る既存のほとんどの局所記述子とは対照的に,提案記述子は群同変特徴学習の最近の技術により回転不変性を実現し,点密度と雑音に強いロバスト性をもたらす。 一方、YOHOのディスクリプタにも回転同変部があり、1つの対応仮説から登録を推定することができる。 このような特性により、実現可能な変換の探索空間が減少し、YOHOの精度と効率が大幅に向上する。 大規模な実験により、YOHOは3DMatch/3DLoMatchデータセット、ETHデータセット、WHU-TLSデータセットの4つの広く使用されているデータセットにおいて、RANSACイテレーションをはるかに少なくして、優れたパフォーマンスを実現している。 https://hpwang-whu.g ithub.io/yoho/。

In this paper, we propose a novel local descriptor-based framework, called You Only Hypothesize Once (YOHO), for the registration of two unaligned point clouds. In contrast to most existing local descriptors which rely on a fragile local reference frame to gain rotation invariance, the proposed descriptor achieves the rotation invariance by recent technologies of group equivariant feature learning, which brings more robustness to point density and noise. Meanwhile, the descriptor in YOHO also has a rotation equivariant part, which enables us to estimate the registration from just one correspondence hypothesis. Such property reduces the searching space for feasible transformations, thus greatly improves both the accuracy and the efficiency of YOHO. Extensive experiments show that YOHO achieves superior performances with much fewer needed RANSAC iterations on four widely-used datasets, the 3DMatch/3DLoMatch datasets, the ETH dataset and the WHU-TLS dataset. More details are shown in our project page: https://hpwang-whu.g ithub.io/YOHO/.
翻訳日:2021-09-02 14:22:06 公開日:2021-09-01
# 効率的な人物検索:アンカーフリーアプローチ

Efficient Person Search: An Anchor-Free Approach ( http://arxiv.org/abs/2109.00211v1 )

ライセンス: Link先を確認
Yichao Yan, Jinpeng Li, Jie Qin, Shengcai Liao, Xiaokang Yang(参考訳) パーソンサーチ(person search)は、クエリーの人物を同時にローカライズし、特定することを目的としている。 この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。 ROI-Align演算により、このパイプラインは、re-id機能が対応するオブジェクト領域と明示的に一致しているため、有望な精度が得られるが、一方で、高密度オブジェクトアンカーによる高い計算オーバーヘッドを導入する。 本稿では,この課題を効率的に解決するためのアンカーフリーなアプローチを提案する。 まず、我々のフレームワークのプロトタイプとしてアンカーフリー検出器(FCOS)を選択する。 密度の高いオブジェクトアンカーがないため、既存の人物探索モデルに比べてかなり高い効率を示す。 第二に、このアンカーフリー検出器を人探索のために直接調節する場合、ロバストなre-id特徴の学習にはいくつかの大きな課題があり、これは異なるレベル(スケール、リージョン、タスク)の誤調整問題として要約する。 これらの問題に対処するため,我々は,より識別的でロバストな特徴埋め込みを生成するためのアライメント機能アグリゲーションモジュールを提案する。 そこで我々は,このモデルを機能連携型人物検索ネットワーク(alignps)と呼ぶ。 第3に, アンカーベースモデルとアンカーフリーモデルの両方の利点を調査することにより, ROI-AlignヘッドでAlignPSをさらに強化し, モデルを高効率に保ちながら, 再構成機能の堅牢性を大幅に向上させる。 CUHK-SYSU(英語版)とPRW(英語版)の2つの挑戦的ベンチマークで実施された大規模な実験は、我々のフレームワークが高い効率を示しながら最先端または競争的な性能を達成することを示した。 ソースコード、データ、トレーニングされたモデルはすべて、https://github.com/d aodaofr/alignps.comで入手できる。

Person search aims to simultaneously localize and identify a query person from realistic, uncropped images. To achieve this goal, state-of-the-art models typically add a re-id branch upon two-stage detectors like Faster R-CNN. Owing to the ROI-Align operation, this pipeline yields promising accuracy as re-id features are explicitly aligned with the corresponding object regions, but in the meantime, it introduces high computational overhead due to dense object anchors. In this work, we present an anchor-free approach to efficiently tackling this challenging task, by introducing the following dedicated designs. First, we select an anchor-free detector (i.e., FCOS) as the prototype of our framework. Due to the lack of dense object anchors, it exhibits significantly higher efficiency compared with existing person search models. Second, when directly accommodating this anchor-free detector for person search, there exist several major challenges in learning robust re-id features, which we summarize as the misalignment issues in different levels (i.e., scale, region, and task). To address these issues, we propose an aligned feature aggregation module to generate more discriminative and robust feature embeddings. Accordingly, we name our model as Feature-Aligned Person Search Network (AlignPS). Third, by investigating the advantages of both anchor-based and anchor-free models, we further augment AlignPS with an ROI-Align head, which significantly improves the robustness of re-id features while still keeping our model highly efficient. Extensive experiments conducted on two challenging benchmarks (i.e., CUHK-SYSU and PRW) demonstrate that our framework achieves state-of-the-art or competitive performance, while displaying higher efficiency. All the source codes, data, and trained models are available at: https://github.com/d aodaofr/alignps.
翻訳日:2021-09-02 14:21:46 公開日:2021-09-01
# 分散サンプル生成:データフリー量子化の限界を押し上げる

Diverse Sample Generation: Pushing the Limit of Data-free Quantization ( http://arxiv.org/abs/2109.00212v1 )

ライセンス: Link先を確認
Haotong Qin, Yifu Ding, Xiangguo Zhang, Aoyu Li, Jiakai Wang, Xianglong Liu, Jiwen Lu(参考訳) 近年、実データにアクセスせずにニューラルネットワークを低ビット幅に圧縮する実用的なアプローチとして、生成データフリー量子化が登場している。 完全な精度のバッチ正規化(BN)統計を利用して、ネットワークを定量化するデータを生成する。 しかし,本研究では,bn統計量に完全に制約された合成データが分布とサンプルレベルで重篤な均質化に陥り,量子化ネットワークの精度が著しく低下することを示した。 本稿では,非学習後量子化および量子化認識訓練のための汎用的多種多様なサンプル生成(dsg)スキームを提案する。 DSGでは、分布制約を緩和するために、まずBN層の特徴の統計アライメントをスラックする。 そして, 異なる試料に対する特定のBN層の損失影響を強くし, 生成過程における試料間の相関を抑え, それぞれ統計的および空間的観点から試料を多様化させる。 大規模な画像分類タスクでは、DSGは、特に超低ビット幅(例えば、W4A4設定で22%のゲイン)下で、様々なニューラルネットワーク上の既存のデータフリー量子化手法を一貫して上回ります。 さらに、DSGによるデータの多様化は、様々な量子化法において一般的な利益をもたらし、多様性がデータフリーな量子化のための高品質な合成データの重要な特性であることを示す。

Recently, generative data-free quantization emerges as a practical approach that compresses the neural network to low bit-width without access to real data. It generates data to quantize the network by utilizing the batch normalization (BN) statistics of its full-precision counterpart. However, our study shows that in practice, the synthetic data completely constrained by BN statistics suffers severe homogenization at distribution and sample level, which causes serious accuracy degradation of the quantized network. This paper presents a generic Diverse Sample Generation (DSG) scheme for the generative data-free post-training quantization and quantization-aware training, to mitigate the detrimental homogenization. In our DSG, we first slack the statistics alignment for features in the BN layer to relax the distribution constraint. Then we strengthen the loss impact of the specific BN layer for different samples and inhibit the correlation among samples in the generation process, to diversify samples from the statistical and spatial perspective, respectively. Extensive experiments show that for large-scale image classification tasks, our DSG can consistently outperform existing data-free quantization methods on various neural architectures, especially under ultra-low bit-width (e.g., 22% gain under W4A4 setting). Moreover, data diversifying caused by our DSG brings a general gain in various quantization methods, demonstrating diversity is an important property of high-quality synthetic data for data-free quantization.
翻訳日:2021-09-02 14:21:14 公開日:2021-09-01
# 秘密鍵変換された特徴地図を用いた不正アクセスからのcnnモデルの保護法

A Protection Method of Trained CNN Model Using Feature Maps Transformed With Secret Key From Unauthorized Access ( http://arxiv.org/abs/2109.00224v1 )

ライセンス: Link先を確認
MaungMaung AprilPyone and Hitoshi Kiya(参考訳) 本稿では,秘密鍵を用いた畳み込みニューラルネットワーク(CNN)のモデル保護手法を提案する。 提案手法は秘密鍵を用いたブロックワイズ変換をネットワーク内の特徴マップに適用する。 従来のキーベースモデル保護法は,大きなキー空間を選択する場合,高い精度を維持することができない。 対照的に,提案手法は,非保護精度とほぼ同等の精度を維持するだけでなく,より広い鍵空間を有する。 CIFAR-10データセットを用いて実験を行った結果,提案手法は従来のキーベースモデル保護手法よりも,鍵推定攻撃や微調整攻撃に対する分類精度,鍵空間,ロバスト性に優れていた。

In this paper, we propose a model protection method for convolutional neural networks (CNNs) with a secret key so that authorized users get a high classification accuracy, and unauthorized users get a low classification accuracy. The proposed method applies a block-wise transformation with a secret key to feature maps in the network. Conventional key-based model protection methods cannot maintain a high accuracy when a large key space is selected. In contrast, the proposed method not only maintains almost the same accuracy as non-protected accuracy, but also has a larger key space. Experiments were carried out on the CIFAR-10 dataset, and results show that the proposed model protection method outperformed the previous key-based model protection methods in terms of classification accuracy, key space, and robustness against key estimation attacks and fine-tuning attacks.
翻訳日:2021-09-02 14:20:48 公開日:2021-09-01
# 意味的特徴対応のための共同グラフ学習とマッチング

Joint Graph Learning and Matching for Semantic Feature Correspondence ( http://arxiv.org/abs/2109.00240v1 )

ライセンス: Link先を確認
He Liu, Tao Wang, Yidong Li, Congyan Lang, Yi Jin and Haibin Ling(参考訳) 近年,グラフニューラルネットワーク(GNN)モデルによる識別表現の学習により,深いグラフマッチング手法が意味的特徴のマッチングタスクにおいて大きな進歩を遂げている。 しかし、これらの手法は通常ヒューリスティックに生成されたグラフパターンに依存しており、マッチング性能を損なうために信頼できない関係をもたらす可能性がある。 本稿では,グラフマッチングを向上するための信頼性の高いグラフ構造を探索するために,GLAMという共同学習ネットワークを提案する。 GLAMは、グラフ学習とグラフマッチングの両方に純粋な注目ベースのフレームワークを採用している。 具体的には、タスクに自己注意と相互注意という2つのタイプの注意メカニズムを採用している。 セルフアテンションは特徴間の関係を発見し、学習構造上の特徴表現をさらに更新し、クロスアテンションは2つの特徴セット間のクロスグラフ相関を計算し、特徴再構築のためにマッチする。 さらに、最終的なマッチングソリューションは、特定のマッチング決定モジュールを使わずに、クロスアテンション層の出力から直接導出される。 提案手法は,3つの一般的なビジュアルマッチングベンチマーク(Pascal VOC,Wilow Object,SPair-71k)で評価され,従来のグラフマッチング手法よりも優れた性能を示す。 さらに,本モデルで学習したグラフパターンは,手作りのグラフ構造を学習したグラフ構造に置き換えることで,従来の深部グラフマッチング手法を著しく強化できることを示す。

In recent years, powered by the learned discriminative representation via graph neural network (GNN) models, deep graph matching methods have made great progresses in the task of matching semantic features. However, these methods usually rely on heuristically generated graph patterns, which may introduce unreliable relationships to hurt the matching performance. In this paper, we propose a joint \emph{graph learning and matching} network, named GLAM, to explore reliable graph structures for boosting graph matching. GLAM adopts a pure attention-based framework for both graph learning and graph matching. Specifically, it employs two types of attention mechanisms, self-attention and cross-attention for the task. The self-attention discovers the relationships between features and to further update feature representations over the learnt structures; and the cross-attention computes cross-graph correlations between the two feature sets to be matched for feature reconstruction. Moreover, the final matching solution is directly derived from the output of the cross-attention layer, without employing a specific matching decision module. The proposed method is evaluated on three popular visual matching benchmarks (Pascal VOC, Willow Object and SPair-71k), and it outperforms previous state-of-the-art graph matching methods by significant margins on all benchmarks. Furthermore, the graph patterns learnt by our model are validated to be able to remarkably enhance previous deep graph matching methods by replacing their handcrafted graph structures with the learnt ones.
翻訳日:2021-09-02 14:20:34 公開日:2021-09-01
# 帰納的ニューラル表現をフーリエ級数として見る

Seeing Implicit Neural Representations as Fourier Series ( http://arxiv.org/abs/2109.00249v1 )

ライセンス: Link先を確認
Nuri Benbarka, Timon H\"ofer, Hamd ul-moqeet Riaz, Andreas Zell(参考訳) Inlicit Neural Representations (INR)は低次元問題領域における高周波関数を表現するために多層パーセプトロンを使用する。 最近、これらの表現は複雑な3Dオブジェクトやシーンに関連するタスクについて最先端の結果を得た。 主な問題は、周期的活性化関数(sirens)を持つネットワークや、入力にフーリエマッピングを適用することで、高度に詳細な信号を表現することである。 この研究は2つの方法間の接続を分析し、フーリエ写像されたパーセプトロンが構造的に1つの隠蔽層SIRENと似ていることを示す。 さらに、先に提案したフーリエ写像と一般d次元フーリエ級数との関係を同定し、整数格子写像を導出する。 さらに,任意のフーリエマッピングに取り組むためにプログレッシブトレーニング戦略を変更し,補間タスクの一般化を改善することを示す。 最後に,画像のレグレッションと新しいビュー合成タスクで異なるマッピングを比較した。 マッピング性能の主なコントリビュータは,要素の埋め込みと標準偏差の大きさである。

Implicit Neural Representations (INR) use multilayer perceptrons to represent high-frequency functions in low-dimensional problem domains. Recently these representations achieved state-of-the-art results on tasks related to complex 3D objects and scenes. A core problem is the representation of highly detailed signals, which is tackled using networks with periodic activation functions (SIRENs) or applying Fourier mappings to the input. This work analyzes the connection between the two methods and shows that a Fourier mapped perceptron is structurally like one hidden layer SIREN. Furthermore, we identify the relationship between the previously proposed Fourier mapping and the general d-dimensional Fourier series, leading to an integer lattice mapping. Moreover, we modify a progressive training strategy to work on arbitrary Fourier mappings and show that it improves the generalization of the interpolation task. Lastly, we compare the different mappings on the image regression and novel view synthesis tasks. We confirm the previous finding that the main contributor to the mapping performance is the size of the embedding and standard deviation of its elements.
翻訳日:2021-09-02 14:20:09 公開日:2021-09-01
# BVMatch:鳥眼視画像を用いたライダーによる位置認識

BVMatch: Lidar-based Place Recognition Using Bird's-eye View Images ( http://arxiv.org/abs/2109.00317v1 )

ライセンス: Link先を確認
Lun Luo, Si-Yuan Cao, Bin Han, Hui-Liang Shen, and Junwei Li(参考訳) 大規模環境でLidarを使用する場所を認識することは、ポイントクラウドデータの少ない性質のため難しい。 本稿では,2次元相対的なポーズを推定できるLidarベースのフレーム間位置認識フレームワークであるBVMatchを提案する。 地上領域を平面として近似できるという仮定に基づき、地上領域をグリッドに均一に判別し、バードズ・アイ・ビュー(bv)画像に3dライダースキャンを投影する。 さらに、画像内の構造の向き情報をエンコードする最大インデックスマップ(MIM)を構築するために、Log-Gaborフィルタのバンクを使用する。 我々はMIMの向き特性を理論的に分析し、鳥眼視特徴変換(BVFT)と呼ばれる新しい記述子を導入する。 提案したBVFTは,BV画像の回転および強度変化に敏感である。 BVFT記述子を活用することで、Lidarの位置認識と推定タスクをBVMatchフレームワークに統合する。 3つの大規模データセットで実施された実験により、BVMatchは位置認識のリコール率と推定精度の両方で最先端の手法より優れていることが示された。

Recognizing places using Lidar in large-scale environments is challenging due to the sparse nature of point cloud data. In this paper we present BVMatch, a Lidar-based frame-to-frame place recognition framework, that is capable of estimating 2D relative poses. Based on the assumption that the ground area can be approximated as a plane, we uniformly discretize the ground area into grids and project 3D Lidar scans to bird's-eye view (BV) images. We further use a bank of Log-Gabor filters to build a maximum index map (MIM) that encodes the orientation information of the structures in the images. We analyze the orientation characteristics of MIM theoretically and introduce a novel descriptor called bird's-eye view feature transform (BVFT). The proposed BVFT is insensitive to rotation and intensity variations of BV images. Leveraging the BVFT descriptors, we unify the Lidar place recognition and pose estimation tasks into the BVMatch framework. The experiments conducted on three large-scale datasets show that BVMatch outperforms the state-of-the-art methods in terms of both recall rate of place recognition and pose estimation accuracy.
翻訳日:2021-09-02 14:19:50 公開日:2021-09-01
# クラス増分学習のためのメモリフリー生成リプレイ

Memory-Free Generative Replay For Class-Incremental Learning ( http://arxiv.org/abs/2109.00328v1 )

ライセンス: Link先を確認
Xiaomeng Xin, Yiran Zhong, Yunzhong Hou, Jinjun Wang, Liang Zheng(参考訳) 正規化に基づく手法は、クラス増分学習における破滅的な忘れの問題を軽減するのに有用である。 古いタスクイメージがない場合、分類器が新しいイメージに類似の出力を生成する場合、古い知識は十分に保存されていると仮定することが多い。 本稿では,その効果が旧来のクラスの性質に大きく依存していることを見いだす。それらは互いに容易に区別できるが,よりきめ細かいクラス(例えば男の子と女の子)では失敗する可能性があるクラスでうまく機能する。 このような方法では、古いクラスに対応する完全に連結された層の重みベクトルによって区切られた特徴空間に新しいデータを投影する。 結果として得られる射影は、きめ細かい古いクラスで類似し、その結果、新しい分類器は、これらのクラスにおける識別能力を失う。 そこで本研究では,古い分類器から直接代表的古い画像を生成し,新しい分類器訓練のための新しいデータと組み合わせることで,きめ細かい古いクラス特性を保存できるメモリフリー生成リプレイ戦略を提案する。 生成サンプルの均質化問題を解決するために,生成サンプル間のKullback Leibler(KL)のばらつきを最大化する多様性損失も提案する。 本手法は, 容易に識別可能な古いクラスに対して有効であることが証明された, 事前正規化に基づく手法が最適である。 CUB-200-2011, Caltech-101, CIFAR-100, Tiny ImageNet における上記の設計と知見を検証し, 既存のメモリフリー手法よりも明確なマージンで優れていることを示す。 コードはhttps://github.com/x mengxin/MFGRで入手できる。

Regularization-based methods are beneficial to alleviate the catastrophic forgetting problem in class-incremental learning. With the absence of old task images, they often assume that old knowledge is well preserved if the classifier produces similar output on new images. In this paper, we find that their effectiveness largely depends on the nature of old classes: they work well on classes that are easily distinguishable between each other but may fail on more fine-grained ones, e.g., boy and girl. In spirit, such methods project new data onto the feature space spanned by the weight vectors in the fully connected layer, corresponding to old classes. The resulting projections would be similar on fine-grained old classes, and as a consequence the new classifier will gradually lose the discriminative ability on these classes. To address this issue, we propose a memory-free generative replay strategy to preserve the fine-grained old classes characteristics by generating representative old images directly from the old classifier and combined with new data for new classifier training. To solve the homogenization problem of the generated samples, we also propose a diversity loss that maximizes Kullback Leibler (KL) divergence between generated samples. Our method is best complemented by prior regularization-based methods proved to be effective for easily distinguishable old classes. We validate the above design and insights on CUB-200-2011, Caltech-101, CIFAR-100 and Tiny ImageNet and show that our strategy outperforms existing memory-free methods with a clear margin. Code is available at https://github.com/x mengxin/MFGR
翻訳日:2021-09-02 14:19:29 公開日:2021-09-01
# 混合・解離によるポイントクラウド事前学習

Point Cloud Pre-training by Mixing and Disentangling ( http://arxiv.org/abs/2109.00452v1 )

ライセンス: Link先を確認
Chao Sun, Zhedong Zheng and Yi Yang(参考訳) 大規模なポイントクラウドのアノテーションはまだ時間がかかり、多くの現実世界のタスクでは利用できない。 ポイントクラウド事前トレーニングは、高速適応のためのスケーラブルなモデルを得るための潜在的な解決策の1つである。 そこで本研究では,ポイントクラウド事前学習のためのMixing and Disentangling(MD)と呼ばれる,自己教師型学習手法について検討する。 名前の通り、我々は元のpoint cloudをmixed point cloudから分離する方法を検討し、この挑戦的なタスクをモデルトレーニングのプリテキスト最適化の目的として活用する。 ImageNetよりもはるかに少ないオリジナルのデータセットの限られたトレーニングデータを考えると、混合プロセスはより高品質なサンプルを効率的に生成することができる。 直感を検証するために,エンコーダとデコーダの2つのモジュールを単純に含むベースラインネットワークを構築した。 混合点雲が与えられた後、エンコーダはまずセマンティック埋め込みを抽出するために事前訓練される。 次に、インスタンス適応デコーダを使用して、埋め込みに応じて点雲をアンタングルする。 シンプルではあるが、エンコーダは本質的にトレーニング後にポイントクラウドキーポイントをキャプチャでき、事前トレーニングと微調整パラダイムによる分類やセグメンテーションを含む下流タスクに素早く適応することができる。 2つのデータセットに関する広範囲な実験により、エンコーダ + ours (md) がスクラッチからトレーニングされたエンコーダのそれを大幅に越え、急速に収束することが示された。 アブレーション研究において,各成分の効果をさらに検討し,提案する自己教師付き学習戦略の利点について考察する。 ポイントクラウドに対するこの自己教師型学習の試みは、大規模ラベル付きデータへの深い学習モデル依存を減らし、将来多くのアノテーションコストを節約する道を開くことを願っている。

The annotation for large-scale point clouds is still time-consuming and unavailable for many real-world tasks. Point cloud pre-training is one potential solution for obtaining a scalable model for fast adaptation. Therefore, in this paper, we investigate a new self-supervised learning approach, called Mixing and Disentangling (MD), for point cloud pre-training. As the name implies, we explore how to separate the original point cloud from the mixed point cloud, and leverage this challenging task as a pretext optimization objective for model training. Considering the limited training data in the original dataset, which is much less than prevailing ImageNet, the mixing process can efficiently generate more high-quality samples. We build one baseline network to verify our intuition, which simply contains two modules, encoder and decoder. Given a mixed point cloud, the encoder is first pre-trained to extract the semantic embedding. Then an instance-adaptive decoder is harnessed to disentangle the point clouds according to the embedding. Albeit simple, the encoder is inherently able to capture the point cloud keypoints after training and can be fast adapted to downstream tasks including classification and segmentation by the pre-training and fine-tuning paradigm. Extensive experiments on two datasets show that the encoder + ours (MD) significantly surpasses that of the encoder trained from scratch and converges quickly. In ablation studies, we further study the effect of each component and discuss the advantages of the proposed self-supervised learning strategy. We hope this self-supervised learning attempt on point clouds can pave the way for reducing the deeply-learned model dependence on large-scale labeled data and saving a lot of annotation costs in the future.
翻訳日:2021-09-02 14:19:01 公開日:2021-09-01
# 分類器とThresholdingを用いた局所化による表面き裂分別法

A Weakly-Supervised Surface Crack Segmentation Method using Localisation with a Classifier and Thresholding ( http://arxiv.org/abs/2109.00456v1 )

ライセンス: Link先を確認
Jacob K\"onig, Mark Jenkins, Mike Mannion, Peter Barrie, Gordon Morison(参考訳) 最近の公共インフラでは表面クラックがよく見られる。 近年の課題は, 表面ひび割れを背景から分離し, 局所化が容易な機械学習手法を用いて, 構造物の維持管理を支援することにある。 しかし、これらの方法の一般的な問題は、よく機能するアルゴリズムを作成するには、トレーニングデータはクラックに属するピクセルの詳細なアノテーションを持つ必要があることである。 本研究は,CNN分類器を用いて表面き裂分割マップを作成する弱教師付きアプローチを提案する。 この分類器を用いてクラスアクティベーションマップとパッチベースの分類アプローチを用いてラフクラックローカライズマップを作成し、これをしきい値ベースのアプローチと融合して、ほとんど暗いクラックピクセルを分割する。 この分類器は、標準しきい値法によるき裂として誤って強調される背景領域からのノイズの抑制を支援する。 我々は,本手法の実装の容易さに着目し,単純な分類ラベルであるにもかかわらず,複数の表面き裂データセットにおいて,効率的にき裂を分割できることを実証した。

Surface cracks are a common sight on public infrastructure nowadays. Recent work has been addressing this problem by supporting structural maintenance measures using machine learning methods which segment surface cracks from their background so that they are easy to localize. However, a common issue with those methods is that to create a well functioning algorithm, the training data needs to have detailed annotations of pixels that belong to cracks. Our work proposes a weakly supervised approach which leverages a CNN classifier to create surface crack segmentation maps. We use this classifier to create a rough crack localisation map by using its class activation maps and a patch based classification approach and fuse this with a thresholding based approach to segment the mostly darker crack pixels. The classifier assists in suppressing noise from the background regions, which commonly are incorrectly highlighted as cracks by standard thresholding methods. We focus on the ease of implementation of our method and it is shown to perform well on several surface crack datasets, segmenting cracks efficiently even though the only data that was used for training were simple classification labels.
翻訳日:2021-09-02 14:18:30 公開日:2021-09-01
# 顔画像アニメーションのための疎密な動き伝達

Sparse to Dense Motion Transfer for Face Image Animation ( http://arxiv.org/abs/2109.00471v1 )

ライセンス: Link先を確認
Ruiqi Zhao, Tianyi Wu and Guodong Guo(参考訳) 単一画像からの顔画像アニメーションは目覚ましい進歩を遂げた。 しかし、運転信号としてスパースランドマークのみを利用できる場合、依然として困難である。 ソースの顔画像とスパースな顔ランドマークのシーケンスを考えると、私たちの目標は、ランドマークの動きを模倣した顔のビデオを生成することです。 スパースランドマークから顔画像への移動を効率よく効果的に行う方法を開発した。 そして、大域的および局所的な運動推定を統一モデルで組み合わせ、忠実に動きを伝達する。 モデルは、移動前景を背景から分割し、回転や顔の翻訳といった大域的な動きだけでなく、視線の変化のような微妙な局所的な動きも生成することができる。 ビデオにおける顔のランドマーク検出をさらに改善する。 トレーニング用ランドマークシーケンスを時間的によく整列させることで,映像品質の高い時間的コヒーレント映像を生成できる。 実験では、同一のアイデンティティテストにおいて最先端の画像駆動メソッドに匹敵する結果と、より優れたクロスアイデンティティテストの結果が得られたことを示唆する。

Face image animation from a single image has achieved remarkable progress. However, it remains challenging when only sparse landmarks are available as the driving signal. Given a source face image and a sequence of sparse face landmarks, our goal is to generate a video of the face imitating the motion of landmarks. We develop an efficient and effective method for motion transfer from sparse landmarks to the face image. We then combine global and local motion estimation in a unified model to faithfully transfer the motion. The model can learn to segment the moving foreground from the background and generate not only global motion, such as rotation and translation of the face, but also subtle local motion such as the gaze change. We further improve face landmark detection on videos. With temporally better aligned landmark sequences for training, our method can generate temporally coherent videos with higher visual quality. Experiments suggest we achieve results comparable to the state-of-the-art image driven method on the same identity testing and better results on cross identity testing.
翻訳日:2021-09-02 14:18:08 公開日:2021-09-01
# 深層ニューラルネットワークを用いた視覚概念と操作者の語彙学習に向けて

Towards Learning a Vocabulary of Visual Concepts and Operators using Deep Neural Networks ( http://arxiv.org/abs/2109.00479v1 )

ライセンス: Link先を確認
Sunil Kumar Vengalil and Neelam Sinha(参考訳) Deep neural networks have become the default choice for many applications like image and video recognition, segmentation and other image and video related tasks.However, a critical challenge with these models is the lack of explainability.This requirement of generating explainable predictions has motivated the research community to perform various analysis on trained models.In this study, we analyze the learned feature maps of trained models using MNIST images for achieving more explainable predictions.Our study is focused on deriving a set of primitive elements, here called visual concepts, that can be used to generate any arbitrary sample from the data generating distribution.We derive the primitive elements from the feature maps learned by the model.We illustrate the idea by generating visual concepts from a Variational Autoencoder trained using MNIST images.We augment the training data of MNIST dataset by adding about 60,000 new images generated with visual concepts chosen at random.With this we were able to reduce the reconstruction loss (mean square error) from an initial value of 120 without augmentation to 60 with augmentation.Our approach is a first step towards the final goal of achieving trained deep neural network models whose predictions, features in hidden layers and the learned filters can be well explained.Such a model when deployed in production can easily be modified to adapt to new data, whereas existing deep learning models need a re training or fine tuning. このプロセスでは、モデルに十分な説明性がない限り、生成が容易でない大量のデータサンプルが再び必要となる。

Deep neural networks have become the default choice for many applications like image and video recognition, segmentation and other image and video related tasks.However, a critical challenge with these models is the lack of explainability.This requirement of generating explainable predictions has motivated the research community to perform various analysis on trained models.In this study, we analyze the learned feature maps of trained models using MNIST images for achieving more explainable predictions.Our study is focused on deriving a set of primitive elements, here called visual concepts, that can be used to generate any arbitrary sample from the data generating distribution.We derive the primitive elements from the feature maps learned by the model.We illustrate the idea by generating visual concepts from a Variational Autoencoder trained using MNIST images.We augment the training data of MNIST dataset by adding about 60,000 new images generated with visual concepts chosen at random.With this we were able to reduce the reconstruction loss (mean square error) from an initial value of 120 without augmentation to 60 with augmentation.Our approach is a first step towards the final goal of achieving trained deep neural network models whose predictions, features in hidden layers and the learned filters can be well explained.Such a model when deployed in production can easily be modified to adapt to new data, whereas existing deep learning models need a re training or fine tuning. This process again needs a huge number of data samples that are not easy to generate unless the model has good explainability.
翻訳日:2021-09-02 14:17:52 公開日:2021-09-01
# 3次元の共通対象:大規模学習と実生3次元カテゴリー再構成の評価

Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction ( http://arxiv.org/abs/2109.00512v1 )

ライセンス: Link先を確認
Jeremy Reizenstein, Roman Shapovalov, Philipp Henzler, Luca Sbordone, Patrick Labatut, David Novotny(参考訳) 3Dオブジェクトカテゴリを学習するための従来のアプローチは、実際の3Dアノテートされたカテゴリ中心のデータが利用できないため、合成データセットに基づいて主に訓練され、評価されてきた。 私たちの主な目標は、既存の合成データと同様の大きさで現実世界のデータを集めることで、この分野の進歩を促進することです。 この研究の主な貢献はCommon Objects in 3Dと呼ばれる大規模なデータセットであり、カメラのポーズと地上の真実の3Dポイントの雲でアノテートされたオブジェクトカテゴリの実際のマルチビューイメージである。 データセットには、50のMS-COCOカテゴリからオブジェクトをキャプチャする19,000近いビデオから150万フレームが含まれており、カテゴリ数とオブジェクト数の両方において、選択肢よりもはるかに大きい。 この新しいデータセットを利用して,いくつかの新しい視点合成法とカテゴリ中心の3次元再構成法について,最初の大規模"イン・ザ・ワイルド"評価を行う。 最後に,NerFormeraの強力なトランスフォーマーを利用したニューラルレンダリング手法を提案し,少数のビューが与えられたオブジェクトを再構成する。 CO3Dデータセットはhttps://github.com/f acebookresearch/co3d で公開されている。

Traditional approaches for learning 3D object categories have been predominantly trained and evaluated on synthetic datasets due to the unavailability of real 3D-annotated category-centric data. Our main goal is to facilitate advances in this field by collecting real-world data in a magnitude similar to the existing synthetic counterparts. The principal contribution of this work is thus a large-scale dataset, called Common Objects in 3D, with real multi-view images of object categories annotated with camera poses and ground truth 3D point clouds. The dataset contains a total of 1.5 million frames from nearly 19,000 videos capturing objects from 50 MS-COCO categories and, as such, it is significantly larger than alternatives both in terms of the number of categories and objects. We exploit this new dataset to conduct one of the first large-scale "in-the-wild" evaluations of several new-view-synthesis and category-centric 3D reconstruction methods. Finally, we contribute NerFormer - a novel neural rendering method that leverages the powerful Transformer to reconstruct an object given a small number of its views. The CO3D dataset is available at https://github.com/f acebookresearch/co3d .
翻訳日:2021-09-02 14:17:30 公開日:2021-09-01
# グラフマイニングと自然言語処理を用いたペルシアのTwitterソーシャルネットワークにおけるCovid-19の談話分析

Discourse Analysis of Covid-19 in Persian Twitter Social Networks Using Graph Mining and Natural Language Processing ( http://arxiv.org/abs/2109.00298v1 )

ライセンス: Link先を確認
Omid Shokrollahi, Niloofar Hashemi, Mohammad Dehghani(参考訳) 談話力学を理解する新しい科学的方法の1つは、ソーシャルネットワークの公開データを分析することである。 本研究の目的は,ペルシア社会における知的データマイニング(Intelligent Data Mining)を用いたCovid-19現象(LaclauとMouffe's Discourse Theoryに触発された)のポスト構造主義談話分析(PDA)である。 調査されたビッグデータは、ペルシャのtwitterネットワークの16万人のユーザーの500万ツイートで、2つの会話を比較している。 ツイートテキストを個別に分析するだけでなく、リツイートの関係に基づいてソーシャルネットワークグラフデータベースが作成されている。 我々は、投票ランクアルゴリズムを用いて、ネットワーク上での情報拡散範囲を最大化することにより、投稿が口コミとなる人を紹介・ランク付けする。 これらのユーザは、ワード使用パターンに従ってクラスタリングされる(ガウス混合モデルが使用される)。 影響力のあるスプレッドシートの構築談話は、最もアクティブなユーザと比較される。 この分析は8エピソードにわたるコビッド関連の投稿に基づいて行われる。 また、つぶやき単語の統計的内容分析と極性に頼ることにより、上記サブポピュレーション全体、特に上位個人について、談話分析を行う。 この研究の最も重要な結果は、Twitterの主題の談話構築がコミュニティベースではなく政府ベースのものであることである。 分析されたイラン社会は、コビッド19の悪い問題に対する責任を自覚せず、参加を信じておらず、政府がすべての問題を解決することを期待している。 最も活発で影響力のあるユーザーの類似性は、政治的、全国的、そして批判的な言論構成が支配的であることである。 研究手法の利点に加えて,研究の限界にも注意を払う必要がある。 同様の危機を伴うイラン社会の将来の出会いを示唆する。

One of the new scientific ways of understanding discourse dynamics is analyzing the public data of social networks. This research's aim is Post-structuralist Discourse Analysis (PDA) of Covid-19 phenomenon (inspired by Laclau and Mouffe's Discourse Theory) by using Intelligent Data Mining for Persian Society. The examined big data is five million tweets from 160,000 users of the Persian Twitter network to compare two discourses. Besides analyzing the tweet texts individually, a social network graph database has been created based on retweets relationships. We use the VoteRank algorithm to introduce and rank people whose posts become word of mouth, provided that the total information spreading scope is maximized over the network. These users are also clustered according to their word usage pattern (the Gaussian Mixture Model is used). The constructed discourse of influential spreaders is compared to the most active users. This analysis is done based on Covid-related posts over eight episodes. Also, by relying on the statistical content analysis and polarity of tweet words, discourse analysis is done for the whole mentioned subpopulations, especially for the top individuals. The most important result of this research is that the Twitter subjects' discourse construction is government-based rather than community-based. The analyzed Iranian society does not consider itself responsible for the Covid-19 wicked problem, does not believe in participation, and expects the government to solve all problems. The most active and most influential users' similarity is that political, national, and critical discourse construction is the predominant one. In addition to the advantages of its research methodology, it is necessary to pay attention to the study's limitations. Suggestion for future encounters of Iranian society with similar crises is given.
翻訳日:2021-09-02 14:16:47 公開日:2021-09-01
# 畳み込みニューラルネットワークの一般化における再初期化の影響

The Impact of Reinitialization on Generalization in Convolutional Neural Networks ( http://arxiv.org/abs/2109.00267v1 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin, Hartmut Maennel, Daniel Keysers(参考訳) 最近の結果は、トレーニング中にニューラルネットワークのパラメータのサブセットを再活性化することで、特に小さなトレーニングセットの一般化が改善されることを示唆している。 12のベンチマーク画像分類データセットにまたがる複数の畳み込みアーキテクチャにおける様々な再初期化手法の影響について検討し、その可能性を分析し、限界を強調する。 また,従来の手法に匹敵する新しい階層的再帰化アルゴリズムを導入し,改良された一般化の解説を提案する。 まず,重みのノルムを増加させることなく,学習例のマージンを段階的に増加させることにより,ニューラルネットワークのマージンベース一般化境界が向上することを示す。 第2に,損失面のより平坦な局所的極小領域に沈着することを示す。 第3に、ニューラルネットワークの下位層に重点を置くことで、一般的なルールの学習を奨励し、記憶を損なう。 我々のメッセージは、ボトムアップ層再初期化を用いて小さなデータセットに対して畳み込みニューラルネットワークの精度を改善することができるということだ。

Recent results suggest that reinitializing a subset of the parameters of a neural network during training can improve generalization, particularly for small training sets. We study the impact of different reinitialization methods in several convolutional architectures across 12 benchmark image classification datasets, analyzing their potential gains and highlighting limitations. We also introduce a new layerwise reinitialization algorithm that outperforms previous methods and suggest explanations of the observed improved generalization. First, we show that layerwise reinitialization increases the margin on the training examples without increasing the norm of the weights, hence leading to an improvement in margin-based generalization bounds for neural networks. Second, we demonstrate that it settles in flatter local minima of the loss surface. Third, it encourages learning general rules and discourages memorization by placing emphasis on the lower layers of the neural network. Our takeaway message is that the accuracy of convolutional neural networks can be improved for small datasets using bottom-up layerwise reinitialization, where the number of reinitialized layers may vary depending on the available compute budget.
翻訳日:2021-09-02 14:15:59 公開日:2021-09-01
# CTAL: 音声・言語表現のための事前学習型クロスモーダルトランス

CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations ( http://arxiv.org/abs/2109.00181v1 )

ライセンス: Link先を確認
Hang Li, Yu Kang, Tianqiao Liu, Wenbiao Ding, Zitao Liu(参考訳) 既存の音声言語タスク固有の予測手法は複雑な遅延拡散機構の構築に焦点を当てている。 しかし、これらのモデルは限定ラベルと低モデル一般化能力で過剰に適合する課題に直面している。 本稿では,多人数の音声・言語対上での2つのプロキシタスク(マスク付き言語モデリングとマスク付きクロスモーダル音響モデリング)を通して,音声・言語間のモダリティ内およびモダリティ間接続を学習することを目的としたクロスモーダルトランスフォーマを提案する。 複数のダウンストリーム音声・言語タスクで事前学習したモデルを微調整した後、感情分類、感情分析、話者検証など、様々なタスクで大幅な改善が見られた。 そこで本研究では, 微調整フェーズで使用できる特別に設計された核融合機構を提案する。 最後に,新しいクロスモダリティ融合成分と音声言語事前学習法の両方が有望な結果に寄与することを示すため,詳細なアブレーション研究を行った。

Existing audio-language task-specific predictive approaches focus on building complicated late-fusion mechanisms. However, these models are facing challenges of overfitting with limited labels and low model generalization abilities. In this paper, we present a Cross-modal Transformer for Audio-and-Language, i.e., CTAL, which aims to learn the intra-modality and inter-modality connections between audio and language through two proxy tasks on a large amount of audio-and-language pairs: masked language modeling and masked cross-modal acoustic modeling. After fine-tuning our pre-trained model on multiple downstream audio-and-language tasks, we observe significant improvements across various tasks, such as, emotion classification, sentiment analysis, and speaker verification. On this basis, we further propose a specially-designed fusion mechanism that can be used in fine-tuning phase, which allows our pre-trained model to achieve better performance. Lastly, we demonstrate detailed ablation studies to prove that both our novel cross-modality fusion component and audio-language pre-training methods significantly contribute to the promising results.
翻訳日:2021-09-02 14:15:08 公開日:2021-09-01
# 法的対話システムの構築:開発プロセス,課題,機会

Building a Legal Dialogue System: Development Process, Challenges and Opportunities ( http://arxiv.org/abs/2109.00381v1 )

ライセンス: Link先を確認
Mudita Sharma, Tony Russell-Rose, Lina Barakat, Akitaka Matsuo(参考訳) 本稿では,ドメイン固有の会話エージェントの設計において直面する課題に対する重要な原則と解決策について述べる。 これには、スコープ、プラットフォーム、アーキテクチャ、入力データの準備に関する問題が含まれる。 ユーザクエリに応答し、連絡先の詳細やケース関連情報を含むユーザ情報を記録する機能を提供する。 AWS Lambdaと組み合わせてAmazon Web Services (AWS) LEX上に構築されたディープラーニング技術を活用する。 公開データがないため,クラウドソーシング実験とアーカイブ検索の2つの手法を同定し,多くの言語資源を開発した。 これには、トレーニングデータセット、会話エージェントに対する所定の応答のセット、回帰テストケースのセット、さらに会話テストセットが含まれる。 回帰テストセット上での多レベルデリゲートとモデル精度の報告を容易にする階層型ボット構造を提案する。 さらに,会話フローとユーザエクスペリエンス全体を改善するために,ボットに追加された機能を強調する。

This paper presents key principles and solutions to the challenges faced in designing a domain-specific conversational agent for the legal domain. It includes issues of scope, platform, architecture and preparation of input data. It provides functionality in answering user queries and recording user information including contact details and case-related information. It utilises deep learning technology built upon Amazon Web Services (AWS) LEX in combination with AWS Lambda. Due to lack of publicly available data, we identified two methods including crowdsourcing experiments and archived enquiries to develop a number of linguistic resources. This includes a training dataset, set of predetermined responses for the conversational agent, a set of regression test cases and a further conversation test set. We propose a hierarchical bot structure that facilitates multi-level delegation and report model accuracy on the regression test set. Additionally, we highlight features that are added to the bot to improve the conversation flow and overall user experience.
翻訳日:2021-09-02 14:14:47 公開日:2021-09-01
# 運動運動学から物体特性へ:人間の注意のオンライン認識

From Movement Kinematics to Object Properties: Online Recognition of Human Carefulness ( http://arxiv.org/abs/2109.00460v1 )

ライセンス: Link先を確認
Linda Lastrico, Alessandro Carf\`i, Francesco Rea, Alessandra Sciutti and Fulvio Mastrogiovanni(参考訳) 物体を操作するとき、人間は自分の動きを処理対象の特徴に微調整する。 したがって、注意深い観察者は、その重量、温度、およびそれが操作に特別なケアを必要とするかどうかなど、操作対象の隠れた特性を予測できる。 この研究は、人間型ロボットに最後の能力を与えるための一歩だ。 具体的には、ロボットが物体を動かす際に人間のパートナーが注意を払っているかを、視覚のみからオンラインで推測する方法について検討する。 低解像度カメラでも、ヒューマノイドロボットが高精度(最大81.3%)でこの推論を行えることを実証した。 障害のない短い動作では注意認識が不十分であった。 パートナーの行動を観察することによる動きの注意の迅速な認識により、ロボットはオブジェクトに対する行動に適応し、人間のパートナーと同じケアの度合いを示すことができる。

When manipulating objects, humans finely adapt their motions to the characteristics of what they are handling. Thus, an attentive observer can foresee hidden properties of the manipulated object, such as its weight, temperature, and even whether it requires special care in manipulation. This study is a step towards endowing a humanoid robot with this last capability. Specifically, we study how a robot can infer online, from vision alone, whether or not the human partner is careful when moving an object. We demonstrated that a humanoid robot could perform this inference with high accuracy (up to 81.3%) even with a low-resolution camera. Only for short movements without obstacles, carefulness recognition was insufficient. The prompt recognition of movement carefulness from observing the partner's action will allow robots to adapt their actions on the object to show the same degree of care as their human partners.
翻訳日:2021-09-02 14:14:32 公開日:2021-09-01
# 慢性的な痛みと言語:個人的痛み記述に対するトピックモデリングアプローチ

Chronic Pain and Language: A Topic Modelling Approach to Personal Pain Descriptions ( http://arxiv.org/abs/2109.00402v1 )

ライセンス: Link先を確認
Diogo A. P. Nunes, David Martins de Matos, Joana Ferreira Gomes, Fani Neto(参考訳) 慢性的な痛みは主要な健康問題として認識されており、経済だけでなく社会的、個人レベルでも影響がある。 個人的かつ主観的な経験として、慢性的な痛みを純粋に有害な刺激として外的かつ公平に経験し、説明し、解釈することは不可能であり、それは原因要因を直接指し、その緩和を促進する。 したがって、言語コミュニケーションは、外部のエンティティ、すなわち痛みを伴う経験と患者に関する本質的な品質にアクセスできない健康専門家に関連情報を伝達する鍵となる。 慢性痛の言語記述におけるパターン認識のためのトピックモデリング手法を提案し,検討し,そのパターンを用いて痛み経験を定量化し,評価する。 提案手法は,得られたトピックモデルと潜在空間から,慢性的な痛み経験に関する新たな知見を抽出できる。 本研究は,慢性痛の評価と管理に臨床的に関連があることを論じる。

Chronic pain is recognized as a major health problem, with impacts not only at the economic, but also at the social, and individual levels. Being a private and subjective experience, it is impossible to externally and impartially experience, describe, and interpret chronic pain as a purely noxious stimulus that would directly point to a causal agent and facilitate its mitigation, contrary to acute pain, the assessment of which is usually straightforward. Verbal communication is, thus, key to convey relevant information to health professionals that would otherwise not be accessible to external entities, namely, intrinsic qualities about the painful experience and the patient. We propose and discuss a topic modelling approach to recognize patterns in verbal descriptions of chronic pain, and use these patterns to quantify and qualify experiences of pain. Our approaches allow for the extraction of novel insights on chronic pain experiences from the obtained topic models and latent spaces. We argue that our results are clinically relevant for the assessment and management of chronic pain.
翻訳日:2021-09-02 14:14:19 公開日:2021-09-01
# nmarの欠落下での混合観測変数に対するガウス過程潜在変数モデルとベイズデータ結合モデル

Bayesian data combination model with Gaussian process latent variable model for mixed observed variables under NMAR missingness ( http://arxiv.org/abs/2109.00462v1 )

ライセンス: Link先を確認
Masaki Mitsuhiro, Takahiro Hoshino(参考訳) 社会科学や企業における観測データの分析において,興味のある変数を同時に観測する「(quasi)単一ソースデータセット」を得ることは困難である。 代わりに、複数のソースデータセットは通常、異なる個人またはユニットに対して取得される。 各データセット内の変数,例えばマッチングと潜在変数モデリングの関係を調査するために,様々な手法が提案されている。 これらのデータセットは、変数が不足した単一ソースデータセットとして利用する必要がある。 既存の方法は、統合されるデータセットは同じ集団から取得されるか、サンプリングが共変量に依存すると仮定している。 この仮定は、欠落の観点でランダム(mar)における欠落 ( missing) と呼ばれる。 しかし、応用研究で示されたように、この仮定は実際のデータ分析には当てはまらない可能性があり、得られた結果は偏っている可能性がある。 本稿では,データセットが均質であると仮定しないデータ融合手法を提案する。 我々は非MAR欠落データに対してガウス過程潜在変数モデルを用いる。 このモデルは、関心の変数と欠落の確率が潜在変数に依存すると仮定する。 シミュレーション研究と実世界のデータ分析により,提案手法が欠落データ機構と潜伏ガウス過程によって有効な推定値が得られるのに対し,既存手法は極めて偏りのある推定値を提供することを示した。 これは、データセットにランダムでない割り当てを考慮し、データ融合問題における共振可能な仮定の下で解決する最初の研究である。

In the analysis of observational data in social sciences and businesses, it is difficult to obtain a "(quasi) single-source dataset" in which the variables of interest are simultaneously observed. Instead, multiple-source datasets are typically acquired for different individuals or units. Various methods have been proposed to investigate the relationship between the variables in each dataset, e.g., matching and latent variable modeling. It is necessary to utilize these datasets as a single-source dataset with missing variables. Existing methods assume that the datasets to be integrated are acquired from the same population or that the sampling depends on covariates. This assumption is referred to as missing at random (MAR) in terms of missingness. However, as will been shown in application studies, it is likely that this assumption does not hold in actual data analysis and the results obtained may be biased. We propose a data fusion method that does not assume that datasets are homogenous. We use a Gaussian process latent variable model for non-MAR missing data. This model assumes that the variables of concern and the probability of being missing depend on latent variables. A simulation study and real-world data analysis show that the proposed method with a missing-data mechanism and the latent Gaussian process yields valid estimates, whereas an existing method provides severely biased estimates. This is the first study in which non-random assignment to datasets is considered and resolved under resonable assumptions in data fusion problem.
翻訳日:2021-09-02 14:14:02 公開日:2021-09-01
# カテゴリーレベルのメートル法物体形状とポーズ推定

Category-Level Metric Scale Object Shape and Pose Estimation ( http://arxiv.org/abs/2109.00326v1 )

ライセンス: Link先を確認
Taeyeop Lee, Byeong-Uk Lee, Myungchul Kim, In So Kweon(参考訳) ディープラーニング認識の進歩は、2D画像による正確な物体検出に繋がった。 しかし、これらの2次元認識方法は完全な3次元世界情報には不十分である。 同時に、先進的な3次元形状推定手法は、メートル法スケールを考慮せずに形状自体に焦点をあてる。 これらの方法は、オブジェクトの正確な位置と向きを決定することはできない。 この問題に対処するために,1枚のRGB画像から距離スケール形状とポーズを共同で推定するフレームワークを提案する。 我々のフレームワークには、Metric Scale Object Shape Branch(MSOS)とNocalized Object Coordinate Space Branch(NOCS)の2つのブランチがあります。 msosブランチは、カメラ座標で観測されるメトリックスケール形状を推定する。 NOCSブランチは、正規化されたオブジェクト座標空間(NOCS)マップを予測し、予測されたメトリックスケールメッシュからの描画深度マップと類似性変換を行い、6dポーズとサイズを得る。 さらに,カメラから物体中心までの距離を推定するために,正規化物体中心推定(noce)を導入する。 本手法を合成データと実世界データの両方で検証し, カテゴリーレベルのオブジェクトのポーズと形状を評価した。

Advances in deep learning recognition have led to accurate object detection with 2D images. However, these 2D perception methods are insufficient for complete 3D world information. Concurrently, advanced 3D shape estimation approaches focus on the shape itself, without considering metric scale. These methods cannot determine the accurate location and orientation of objects. To tackle this problem, we propose a framework that jointly estimates a metric scale shape and pose from a single RGB image. Our framework has two branches: the Metric Scale Object Shape branch (MSOS) and the Normalized Object Coordinate Space branch (NOCS). The MSOS branch estimates the metric scale shape observed in the camera coordinates. The NOCS branch predicts the normalized object coordinate space (NOCS) map and performs similarity transformation with the rendered depth map from a predicted metric scale mesh to obtain 6d pose and size. Additionally, we introduce the Normalized Object Center Estimation (NOCE) to estimate the geometrically aligned distance from the camera to the object center. We validated our method on both synthetic and real-world datasets to evaluate category-level object pose and shape.
翻訳日:2021-09-02 14:13:19 公開日:2021-09-01
# imagetbad: a 3d ct angiography image dataset for automatic segmentation of type-b aortic dissection

ImageTBAD: A 3D Computed Tomography Angiography Image Dataset for Automatic Segmentation of Type-B Aortic Dissection ( http://arxiv.org/abs/2109.00374v1 )

ライセンス: Link先を確認
Zeyang Yao, Jiawei Zhang, Hailong Qiu, Tianchen Wang, Yiyu Shi, Jian Zhuang, Yuhao Dong, Meiping Huang, Xiaowei Xu(参考訳) B型大動脈解離 (TBAD) は, 年々発症が増加し, 重症度が低下する心血管疾患の1つである。 現在,TBADの診断と予後にはCTA(Computed tomography angiography)が広く採用されている。 解剖学的特徴の正確な定量化には, 真性ルーメン(TL), 偽性ルーメン(FL), 偽性ルーメン血栓(FLT)の正確なセグメンテーションが重要である。 しかし、既存の作業はFLTを考慮せずにTLとFLのみに焦点を当てている。 本稿では,TL,FL,FLTのアノテーションを付加した3次元CT(CTA)画像データセットであるImageTBADを提案する。 提案データセットには100TBAD CTAイメージが含まれており、既存の医用画像データセットと比較すると相当の大きさである。 FLTは不規則な形状のオータに沿ってほぼどこでも現れるため、FLTのセグメンテーションは、不規則な形状の様々な位置にターゲットが存在する幅広いセグメンテーション問題を示す。 さらに,TBADの自動セグメンテーションのためのベースライン手法を提案する。 その結果,aorta と tl セグメンテーションに関する既存の研究と同等の結果が得られることがわかった。 しかし、fltのセグメンテーション精度はわずか52%で、改善の余地が大きく、データセットの課題も示されています。 この困難な問題のさらなる研究を容易にするために、データセットとコードは一般公開されます。

Type-B Aortic Dissection (TBAD) is one of the most serious cardiovascular events characterized by a growing yearly incidence,and the severity of disease prognosis. Currently, computed tomography angiography (CTA) has been widely adopted for the diagnosis and prognosis of TBAD. Accurate segmentation of true lumen (TL), false lumen (FL), and false lumen thrombus (FLT) in CTA are crucial for the precise quantification of anatomical features. However, existing works only focus on only TL and FL without considering FLT. In this paper, we propose ImageTBAD, the first 3D computed tomography angiography (CTA) image dataset of TBAD with annotation of TL, FL, and FLT. The proposed dataset contains 100 TBAD CTA images, which is of decent size compared with existing medical imaging datasets. As FLT can appear almost anywhere along the aorta with irregular shapes, segmentation of FLT presents a wide class of segmentation problems where targets exist in a variety of positions with irregular shapes. We further propose a baseline method for automatic segmentation of TBAD. Results show that the baseline method can achieve comparable results with existing works on aorta and TL segmentation. However, the segmentation accuracy of FLT is only 52%, which leaves large room for improvement and also shows the challenge of our dataset. To facilitate further research on this challenging problem, our dataset and codes are released to the public.
翻訳日:2021-09-02 14:13:01 公開日:2021-09-01
# リモートセンシング画像の不均一なスペクトル・時間融合のための統合フレームワーク

An Integrated Framework for the Heterogeneous Spatio-Spectral-Temp oral Fusion of Remote Sensing Images ( http://arxiv.org/abs/2109.00400v1 )

ライセンス: Link先を確認
Menghui Jiang, Huanfeng Shen, Jie Li, Liangpei Zhang(参考訳) 画像融合技術はマルチソースリモートセンシング画像間の補完情報を融合するために広く使われている。 深層学習のフロンティアに触発された本論文は,新しい深部残差サイクルGANに基づく異種統合フレームワークを最初に提案する。 提案するネットワークは、前方融合部と後方退化フィードバック部とから構成される。 前方部は、様々な観察から所望の融合結果を生成し、後方変性フィードバック部は、撮像劣化過程を考慮し、融合結果から逆向きに観測を再生する。 提案するネットワークは,同種情報だけでなく異種情報も効果的に融合することができる。 また,多源不均質観測の相補的不均質な空間的,スペクトル的,時間的情報を同時結合する不均質積分核融合フレームワークが提案されている。 提案したヘテロジニアス統合フレームワークは、ヘテロジニアス時空間融合、スパジニアス時空間融合、ヘテロジニアス時空間融合を含む様々な融合タスクを完了できる均一モードも提供する。 土地被覆変化と厚い雲被覆の2つの困難なシナリオについて実験を行った。 実験では、MODIS、Landsat-8、Sentinel-1、Sentinel-2を含む多くのリモートセンシング衛星の画像が使用されている。 定性的および定量的評価により,提案手法の有効性が確認された。

Image fusion technology is widely used to fuse the complementary information between multi-source remote sensing images. Inspired by the frontier of deep learning, this paper first proposes a heterogeneous-integr ated framework based on a novel deep residual cycle GAN. The proposed network consists of a forward fusion part and a backward degeneration feedback part. The forward part generates the desired fusion result from the various observations; the backward degeneration feedback part considers the imaging degradation process and regenerates the observations inversely from the fusion result. The proposed network can effectively fuse not only the homogeneous but also the heterogeneous information. In addition, for the first time, a heterogeneous-integr ated fusion framework is proposed to simultaneously merge the complementary heterogeneous spatial, spectral and temporal information of multi-source heterogeneous observations. The proposed heterogeneous-integr ated framework also provides a uniform mode that can complete various fusion tasks, including heterogeneous spatio-spectral fusion, spatio-temporal fusion, and heterogeneous spatio-spectral-temp oral fusion. Experiments are conducted for two challenging scenarios of land cover changes and thick cloud coverage. Images from many remote sensing satellites, including MODIS, Landsat-8, Sentinel-1, and Sentinel-2, are utilized in the experiments. Both qualitative and quantitative evaluations confirm the effectiveness of the proposed method.
翻訳日:2021-09-02 14:12:30 公開日:2021-09-01
# EVReflex:イベントベースの障害物回避のための時間対即時予測

EVReflex: Dense Time-to-Impact Prediction for Event-based Obstacle Avoidance ( http://arxiv.org/abs/2109.00405v1 )

ライセンス: Link先を確認
Celyn Walters and Simon Hadfield(参考訳) 障害物回避の幅広い範囲は、コンピュータビジョンに基づく様々なアプローチにつながっている。 その人気にもかかわらず、問題は解決されていない。 カメラと奥行きセンサーを用いた従来のコンピュータビジョン技術は、しばしば静的なシーンに焦点をあてたり、障害物について事前に依存する。 バイオインスパイアされたセンサーの最近の進歩は、ダイナミックシーンの魅力的な選択としてイベントカメラを提示している。 これらのセンサーは、高ダイナミックレンジや時間分解能など、フレームベースに比べて多くの利点があるが、イベントベースの知覚は2Dのままである。 これはしばしばヒューリスティックに依存し、特定のタスクに特有の解につながる。 障害回避を行う場合,イベントと深さの融合は個々のモダリティの障害事例を克服することを示す。 提案手法は,イベントカメラとライダーストリームを統合して,シーン形状や障害物を事前に把握することなく,計測時間とインパクトを推定する。 さらに、700以上のスキャンされたシーンにまたがる6つのビジュアルストリームを備えた、広範なイベントベースのデータセットをリリースします。

The broad scope of obstacle avoidance has led to many kinds of computer vision-based approaches. Despite its popularity, it is not a solved problem. Traditional computer vision techniques using cameras and depth sensors often focus on static scenes, or rely on priors about the obstacles. Recent developments in bio-inspired sensors present event cameras as a compelling choice for dynamic scenes. Although these sensors have many advantages over their frame-based counterparts, such as high dynamic range and temporal resolution, event-based perception has largely remained in 2D. This often leads to solutions reliant on heuristics and specific to a particular task. We show that the fusion of events and depth overcomes the failure cases of each individual modality when performing obstacle avoidance. Our proposed approach unifies event camera and lidar streams to estimate metric time-to-impact without prior knowledge of the scene geometry or obstacles. In addition, we release an extensive event-based dataset with six visual streams spanning over 700 scanned scenes.
翻訳日:2021-09-02 14:12:06 公開日:2021-09-01
# 全体像を見る:制約付き教師なし異常セグメンテーション

Looking at the whole picture: constrained unsupervised anomaly segmentation ( http://arxiv.org/abs/2109.00482v1 )

ライセンス: Link先を確認
Julio Silva-Rodr\'iguez, Valery Naranjo and Jose Dolz(参考訳) 現在の教師なし異常局所化アプローチは、通常画像の分布を学習するための生成モデルに依存しており、これは後に再構成画像上の誤りから生じる潜在的な異常領域を特定するために使われる。 しかしながら、ほとんどすべての先行文献の主な制限は、異常を見つけるためにクラス固有のしきい値を設定するために異常画像を使用する必要があることである。 これにより、通常のデータしかアクセスできない現実的なシナリオでのユーザビリティが制限される。 この大きな欠点にもかかわらず、トレーニング中に注意マップの監督を統合することで、この制限に対処した作品はごくわずかである。 本研究では,しきい値を定義するために異常画像へのアクセスを必要としない新しい定式化を提案する。 さらに、最近の研究とは対照的に、提案する制約をより原則的に定式化し、制約付き最適化においてよく知られた知識を活用する。 特に、先行作業における注目マップ上の等式制約は、より柔軟性のある不等式制約に置き換えられる。 加えて、ペナルティベースの関数の制限に対処するために、私たちは制約を扱うために人気のあるlog-barrierメソッドを拡張しています。 一般的なBRATS'19データセットに関する総合的な実験は、提案手法が関連する文献を大幅に上回ることを示した。

Current unsupervised anomaly localization approaches rely on generative models to learn the distribution of normal images, which is later used to identify potential anomalous regions derived from errors on the reconstructed images. However, a main limitation of nearly all prior literature is the need of employing anomalous images to set a class-specific threshold to locate the anomalies. This limits their usability in realistic scenarios, where only normal data is typically accessible. Despite this major drawback, only a handful of works have addressed this limitation, by integrating supervision on attention maps during training. In this work, we propose a novel formulation that does not require accessing images with abnormalities to define the threshold. Furthermore, and in contrast to very recent work, the proposed constraint is formulated in a more principled manner, leveraging well-known knowledge in constrained optimization. In particular, the equality constraint on the attention maps in prior work is replaced by an inequality constraint, which allows more flexibility. In addition, to address the limitations of penalty-based functions we employ an extension of the popular log-barrier methods to handle the constraint. Comprehensive experiments on the popular BRATS'19 dataset demonstrate that the proposed approach substantially outperforms relevant literature, establishing new state-of-the-art results for unsupervised lesion segmentation.
翻訳日:2021-09-02 14:11:50 公開日:2021-09-01
# ロボティクスと制御のための人間の意思決定の前方および逆モデルとしての認知科学

Cognitive science as a source of forward and inverse models of human decisions for robotics and control ( http://arxiv.org/abs/2109.00127v1 )

ライセンス: Link先を確認
Mark K. Ho and Thomas L. Griffiths(参考訳) 人間と対話する自律システムを設計する人たちは、人間がどう考えるか、そして意思決定するかという疑問に常に直面するだろう。 幸運なことに、計算認知科学は、最適化と制御(確率論、統計機械学習、強化学習など)の背景を持つ人々になじみのあるツールを使用して、人間の意思決定に関する洞察を提供する。 ここでは、認知科学が人間の意思決定の前進モデルをどのように提供できるか、そして人間の他者の意思決定に対する考え方の逆モデルに焦点をあてる。 我々は、ブラックボックスと理論駆動モデリングを合成するアプローチ、ヒューリスティックとバイアスを境界的最適性の形式として再キャストする説明、および人間の心の理論とコミュニケーションを決定論的用語で特徴づけるモデルを含む、関連する最近の発展に焦点を当てる。 そこで我々は,認知科学と制御研究の共通点にあるフレームワーク,方法論,行動可能な洞察の範囲を,読者に垣間見ることを目的としている。

Those designing autonomous systems that interact with humans will invariably face questions about how humans think and make decisions. Fortunately, computational cognitive science offers insight into human decision-making using tools that will be familiar to those with backgrounds in optimization and control (e.g., probability theory, statistical machine learning, and reinforcement learning). Here, we review some of this work, focusing on how cognitive science can provide forward models of human decision-making and inverse models of how humans think about others' decision-making. We highlight relevant recent developments, including approaches that synthesize blackbox and theory-driven modeling, accounts that recast heuristics and biases as forms of bounded optimality, and models that characterize human theory of mind and communication in decision-theoretic terms. In doing so, we aim to provide readers with a glimpse of the range of frameworks, methodologies, and actionable insights that lie at the intersection of cognitive science and control research.
翻訳日:2021-09-02 14:10:32 公開日:2021-09-01
# ブール比

Boolean proportions ( http://arxiv.org/abs/2109.00388v1 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) アナロジー作りは人間の知性と創造性の中核であり、常識の推論、学習、言語習得、物語の語りといった様々なタスクへの応用である。 本稿では,$a$ と$c$ と$d$' という形のブール数間の類似の比率について検討する。 技術的には、真理値trueとfalseとブール関数からなるブール領域において、アナログ比例の抽象代数的フレームワーク -- 著者によって最近紹介された -- をインスタンス化する。 我々のブール比の概念は数学的性質をアピールしており、一般の場合のブール比の顕著なモデルと一致することが判明した。 より広い意味で、本論文は、共通意味推論や計算学習、創造性といった基本的なai問題への潜在的な応用を含む、類推的推論と学習システムの理論へのさらなる一歩である。

Analogy-making is at the core of human intelligence and creativity with applications to such diverse tasks as commonsense reasoning, learning, language acquisition, and story telling. This paper studies analogical proportions between booleans of the form `$a$ is to $b$ what $c$ is to $d$' called boolean proportions. Technically, we instantiate an abstract algebraic framework of analogical proportions -- recently introduced by the author -- in the boolean domain consisting of the truth values true and false together with boolean functions. It turns out that our notion of boolean proportions has appealing mathematical properties and that it coincides with a prominent model of boolean proportions in the general case. In a broader sense, this paper is a further step towards a theory of analogical reasoning and learning systems with potential applications to fundamental AI-problems like commonsense reasoning and computational learning and creativity.
翻訳日:2021-09-02 14:10:16 公開日:2021-09-01
# kdd 2020ワークショップ「データ駆動人道マッピング」開催報告 : ヒューマン・マシン・インテリジェンスを活用した公共政策とレジリエンス計画

Proceedings of KDD 2020 Workshop on Data-driven Humanitarian Mapping: Harnessing Human-Machine Intelligence for High-Stake Public Policy and Resilience Planning ( http://arxiv.org/abs/2109.00435v1 )

ライセンス: Link先を確認
Snehalkumar (Neil) S. Gaikwad, Shankar Iyer, Dalton Lunga, Yu-Ru Lin(参考訳) 自然災害、食料不足、気候変動、人種と性別の暴力、環境危機、新型コロナウイルス(COVID-19)のパンデミック、人権侵害、強制移住などの人道的課題は、世界中の脆弱なコミュニティに不当に影響を及ぼす。 OCHAによると、20211年には2億3500万人が人道支援を必要としている。 これらの増加にもかかわらず、リスクの高い人口の生活を改善するための公平な公共政策決定を科学的に伝えるために、データサイエンス研究の顕著なパキュリティが残っている。 散在するデータサイエンスの努力はこれらの課題に対処するために存在するが、プライバシー、公正性、解釈性、説明責任、透明性、倫理の欠如に関するアルゴリズム的な危害を招きやすい。 データ駆動方式のバイアスは、何百万人もの人々の生活に影響を及ぼす高リスク政策決定の不平等を増幅するリスクを負う。 その結果、人道的行動とグローバルな発展の核心にある政策立案者、実践者、辺境化コミュニティには、データ駆動型イノベーションの利点が依然としてアクセス不可能である。 このギャップを埋めるために、我々は、人間のマシンインテリジェンスを利用した新しいデータサイエンス方法論の開発に焦点をあてた、データ駆動型人道マッピング研究プログラムを提案する。

Humanitarian challenges, including natural disasters, food insecurity, climate change, racial and gender violence, environmental crises, the COVID-19 coronavirus pandemic, human rights violations, and forced displacements, disproportionately impact vulnerable communities worldwide. According to UN OCHA, 235 million people will require humanitarian assistance in 20211 . Despite these growing perils, there remains a notable paucity of data science research to scientifically inform equitable public policy decisions for improving the livelihood of at-risk populations. Scattered data science efforts exist to address these challenges, but they remain isolated from practice and prone to algorithmic harms concerning lack of privacy, fairness, interpretability, accountability, transparency, and ethics. Biases in data-driven methods carry the risk of amplifying inequalities in high-stakes policy decisions that impact the livelihood of millions of people. Consequently, proclaimed benefits of data-driven innovations remain inaccessible to policymakers, practitioners, and marginalized communities at the core of humanitarian actions and global development. To help fill this gap, we propose the Data-driven Humanitarian Mapping Research Program, which focuses on developing novel data science methodologies that harness human-machine intelligence for high-stakes public policy and resilience planning.
翻訳日:2021-09-02 14:10:04 公開日:2021-09-01
# 浅層ニューラルネットワークにおける概念の出現

The emergence of a concept in shallow neural networks ( http://arxiv.org/abs/2109.00454v1 )

ライセンス: Link先を確認
Elena Agliari, Francesco Alemanno, Adriano Barra, Giordano De Marzo(参考訳) 我々は,定型化されていない 'archetypes'' のコピーからなる非構造化データセット上で訓練された制限ボルツマンマシン (RBM) を考察し,RBM がアーキタイプを学習できる限界標本サイズ,すなわち,操作ルーチンに従って,機械が生成モデルや分類器としてうまく動作可能であることを示す。 一般に、クリティカルサンプルサイズ(おそらくデータセットの品質に関連している)を評価することは、マシンラーニングにおいて依然としてオープンな問題である。 ここでは、浅いネットワークが十分であり、グランドマザーセルのシナリオが正しいランダム理論に制限し、RAMとホップフィールドのネットワーク間の形式的等価性を利用して、制御パラメータの空間(アーチェタイプ数、ニューロン数、トレーニングセットのサイズ、品質など)において領域を強調するニューラルネットワークアーキテクチャの相図を得る。 本研究は,無秩序システムの統計力学に基づく解析手法によって導かれ,モンテカルロシミュレーションによりさらに裏付けられる。

We consider restricted Boltzmann machine (RBMs) trained over an unstructured dataset made of blurred copies of definite but unavailable ``archetypes'' and we show that there exists a critical sample size beyond which the RBM can learn archetypes, namely the machine can successfully play as a generative model or as a classifier, according to the operational routine. In general, assessing a critical sample size (possibly in relation to the quality of the dataset) is still an open problem in machine learning. Here, restricting to the random theory, where shallow networks suffice and the grand-mother cell scenario is correct, we leverage the formal equivalence between RBMs and Hopfield networks, to obtain a phase diagram for both the neural architectures which highlights regions, in the space of the control parameters (i.e., number of archetypes, number of neurons, size and quality of the training set), where learning can be accomplished. Our investigations are led by analytical methods based on the statistical-mechanic s of disordered systems and results are further corroborated by extensive Monte Carlo simulations.
翻訳日:2021-09-02 14:09:41 公開日:2021-09-01
# 概念ドリフトを用いたセンサデータの非同期フェデレーション学習

Asynchronous Federated Learning for Sensor Data with Concept Drift ( http://arxiv.org/abs/2109.00151v1 )

ライセンス: Link先を確認
Yujing Chen, Zheng Chai, Yue Cheng, Huzefa Rangwala(参考訳) フェデレートラーニング(FL)では、複数の分散デバイスが、各参加者がローカルデータを集中サーバに公開することなく、共有モデルを共同でトレーニングする。 以前のFLアプローチのほとんどは、トレーニングプロセス中にデバイス上のデータが固定され、静止していると仮定している。 しかし、これらの装置は通常、サンプリングレートやシステム構成が異なるため、この仮定は現実的ではない。 さらに、デバイスデータの基盤となる分布は、概念ドリフトとして知られる時間とともに動的に変化する。 概念ドリフトは、既存のデータと今後のデータの間に矛盾があるため、学習プロセスを複雑にする。 チャンクベースやアンサンブル学習ベースの手法といった従来の概念ドリフトハンドリング手法は,ローカルデバイスの不均一性から,連合学習フレームワークでは適さない。 我々はFedConDという新しい手法を提案し、ローカルデバイス上でのドリフトの概念の検出と処理を行い、非同期FLにおけるモデルの性能への影響を最小限に抑える。 ドリフト検出戦略は、局所モデルの歴史的な性能を利用した適応機構に基づいている。 各局所装置上の目的関数の正則化パラメータを調整してドリフト適応を実現する。 さらに,サーバ側での通信戦略を設計し,ローカル更新を慎重な方法で選択し,モデルの収束を高速化する。 3つの進化するデータストリームと2つの画像データセットに関する実験的評価では、 \model~が概念ドリフトを検出して処理すると同時に、他のベースラインメソッドと比較して全体の通信コストも低減している。

Federated learning (FL) involves multiple distributed devices jointly training a shared model without any of the participants having to reveal their local data to a centralized server. Most of previous FL approaches assume that data on devices are fixed and stationary during the training process. However, this assumption is unrealistic because these devices usually have varying sampling rates and different system configurations. In addition, the underlying distribution of the device data can change dynamically over time, which is known as concept drift. Concept drift makes the learning process complicated because of the inconsistency between existing and upcoming data. Traditional concept drift handling techniques such as chunk based and ensemble learning-based methods are not suitable in the federated learning frameworks due to the heterogeneity of local devices. We propose a novel approach, FedConD, to detect and deal with the concept drift on local devices and minimize the effect on the performance of models in asynchronous FL. The drift detection strategy is based on an adaptive mechanism which uses the historical performance of the local models. The drift adaptation is realized by adjusting the regularization parameter of objective function on each local device. Additionally, we design a communication strategy on the server side to select local updates in a prudent fashion and speed up model convergence. Experimental evaluations on three evolving data streams and two image datasets show that \model~detects and handles concept drift, and also reduces the overall communication cost compared to other baseline methods.
翻訳日:2021-09-02 14:08:15 公開日:2021-09-01
# マルチデバイス協調エッジ推論のためのタスク指向通信

Task-Oriented Communication for Multi-Device Cooperative Edge Inference ( http://arxiv.org/abs/2109.00172v1 )

ライセンス: Link先を確認
Jiawei Shao, Yuyi Mao, Jun Zhang(参考訳) 本稿では,分散ローエンドエッジデバイス群がローカルサンプルの抽出した特徴を強力なエッジサーバに送信して推論を行うマルチデバイス協調エッジ推論のためのタスク指向通信について検討する。 協調エッジ推論は、単一デバイスの限られた感知能力を克服することができるが、通信オーバーヘッドを大幅に増加させ、過度の遅延を引き起こす可能性がある。 低遅延協調推論を可能にするため,我々は,ローカル特徴抽出と分散特徴エンコーディングをタスク指向で最適化し,エッジサーバでデータサンプルを再構築するのではなく,ダウンストリーム推論タスクに不可欠な情報を伝達する学習ベースの通信方式を提案する。 具体的には、各エッジデバイスにおけるタスク関連機能を抽出するための情報ボトルネック(ib)原則を利用し、分散情報ボトルネック(dib)フレームワークを採用し、分散特徴符号化のための最適なレート関連トレードオフの単一レターキャラクタリゼーションを定式化する。 通信オーバヘッドの柔軟な制御を認めるため、DIBフレームワークを分散決定性情報ボトルネック(DDIB)の対象に拡張し、符号化された特徴の表現コストを明示的に組み込む。 IBに基づく目的は高次元データに対して計算的に禁じられているため、最適化問題を抽出するために変分近似を採用する。 変動近似による潜在的な性能損失を補うため,複数のエッジデバイスの符号化特徴の冗長性を識別し,通信オーバヘッドの低減を図るための選択再送信(SR)機構も開発した。 広範な実験により、提案するタスク指向通信方式がベースライン方式よりも適切なレート関連トレードオフを実現することが証明された。

This paper investigates task-oriented communication for multi-device cooperative edge inference, where a group of distributed low-end edge devices transmit the extracted features of local samples to a powerful edge server for inference. While cooperative edge inference can overcome the limited sensing capability of a single device, it substantially increases the communication overhead and may incur excessive latency. To enable low-latency cooperative inference, we propose a learning-based communication scheme that optimizes local feature extraction and distributed feature encoding in a task-oriented manner, i.e., to remove data redundancy and transmit information that is essential for the downstream inference task rather than reconstructing the data samples at the edge server. Specifically, we leverage an information bottleneck (IB) principle to extract the task-relevant feature at each edge device and adopt a distributed information bottleneck (DIB) framework to formalize a single-letter characterization of the optimal rate-relevance tradeoff for distributed feature encoding. To admit flexible control of the communication overhead, we extend the DIB framework to a distributed deterministic information bottleneck (DDIB) objective that explicitly incorporates the representational costs of the encoded features. As the IB-based objectives are computationally prohibitive for high-dimensional data, we adopt variational approximations to make the optimization problems tractable. To compensate the potential performance loss due to the variational approximations, we also develop a selective retransmission (SR) mechanism to identify the redundancy in the encoded features of multiple edge devices to attain additional communication overhead reduction. Extensive experiments evidence that the proposed task-oriented communication scheme achieves a better rate-relevance tradeoff than baseline methods.
翻訳日:2021-09-02 14:07:50 公開日:2021-09-01
# 多目的シンボリック回帰の複雑さ対策

Complexity Measures for Multi-objective Symbolic Regression ( http://arxiv.org/abs/2109.00238v1 )

ライセンス: Link先を確認
Michael Kommenda, Andreas Beham, Michael Affenzeller, Gabriel Kronberger(参考訳) 多目的記号回帰(multi-objective symbolic regression)は、学習モデルの精度は最大化されるが、複雑性は自動的に適応され、a-prioriを指定する必要はないという利点を持つ。 最適化の結果はもはや単一のソリューションではなく、精度と複雑性のトレードオフを記述するパレートフロント全体である。 本稿では,NSGA-IIを用いて多目的最適化を行う場合,どの複雑性尺度がシンボル回帰に最も適当かを検討する。 さらに,モデルに現れる関数記号に基づく意味情報を含む新しい複雑性尺度を提案し,いくつかのベンチマークデータセットにその影響をテストする。 アルゴリズムの探索方向がどう影響するかを示すために、達成された精度とモデル長の観点から、複数の複雑性尺度を比較する結果を示す。

Multi-objective symbolic regression has the advantage that while the accuracy of the learned models is maximized, the complexity is automatically adapted and need not be specified a-priori. The result of the optimization is not a single solution anymore, but a whole Pareto-front describing the trade-off between accuracy and complexity. In this contribution we study which complexity measures are most appropriately used in symbolic regression when performing multi- objective optimization with NSGA-II. Furthermore, we present a novel complexity measure that includes semantic information based on the function symbols occurring in the models and test its effects on several benchmark datasets. Results comparing multiple complexity measures are presented in terms of the achieved accuracy and model length to illustrate how the search direction of the algorithm is affected.
翻訳日:2021-09-02 14:07:22 公開日:2021-09-01
# ニューラルネットワークの線形積構造に基づく重み初期化

A Weight Initialization Based on the Linear Product Structure for Neural Networks ( http://arxiv.org/abs/2109.00125v1 )

ライセンス: Link先を確認
Qipin Chen, Wenrui Hao, Juncai He(参考訳) 軽量初期化はニューラルネットワークのトレーニングにおいて重要な役割を担い、また膨大なディープラーニングアプリケーションに影響を与える。 ニューラルネットワークの異なるアクティベーション機能のために、さまざまな重み初期化戦略がすでに開発されている。 これらの初期化アルゴリズムは、層間のパラメータの分散を最小化することに基づいており、ニューラルネットワークが深い場合、例えば死のReLUのように失敗する可能性がある。 この課題に対処するために、非線形計算の観点からニューラルネットワークを研究し、ニューラルネットワークの線形積構造(LPS)に基づく新しい重み初期化戦略を提案する。 提案手法は、数値代数幾何学の理論を用いて活性化関数の多項式近似から導出され、すべての局所極小を見つけることが保証される。 また, LPSの初期化は, 他の初期化戦略と比較して, ReLUの死亡確率が低いという理論的解析を行った。 最後に、完全連結ニューラルネットワークと畳み込みニューラルネットワークの両方でlps初期化アルゴリズムをテストし、公開データセットにおけるその実現可能性、効率性、堅牢性を示す。

Weight initialization plays an important role in training neural networks and also affects tremendous deep learning applications. Various weight initialization strategies have already been developed for different activation functions with different neural networks. These initialization algorithms are based on minimizing the variance of the parameters between layers and might still fail when neural networks are deep, e.g., dying ReLU. To address this challenge, we study neural networks from a nonlinear computation point of view and propose a novel weight initialization strategy that is based on the linear product structure (LPS) of neural networks. The proposed strategy is derived from the polynomial approximation of activation functions by using theories of numerical algebraic geometry to guarantee to find all the local minima. We also provide a theoretical analysis that the LPS initialization has a lower probability of dying ReLU comparing to other existing initialization strategies. Finally, we test the LPS initialization algorithm on both fully connected neural networks and convolutional neural networks to show its feasibility, efficiency, and robustness on public datasets.
翻訳日:2021-09-02 14:07:08 公開日:2021-09-01
# 分散オープンマーケットにおける公平性に基づく多元的資源配分

Fairness based Multi-Preference Resource Allocation in Decentralised Open Markets ( http://arxiv.org/abs/2109.00207v1 )

ライセンス: Link先を確認
Pankaj Mishra, Ahmed Moustafa, and Takayuki Ito(参考訳) 本研究では,分散オープンマーケットにおける資源配分に着目した。 分散オープンマーケットは複数のベンダーと複数の動的買い手で構成されており、市場を複雑でダイナミックにする。 これらの市場では、価格、スケーラビリティ、堅牢性、遅延など、複数の相反する問題に関してベンダーと買い手の間で交渉が行われる。 その結果、こうした公開市場における資源配分の最適化は、異なる種類の購入者の好みを取り入れ、公正に基づくベンダーの勧誘戦略という、2つの重要な決定に直接依存することになる。 本稿では,この目的に向けて,逆計算パラダイムを用いた3段階の資源割当手法を提案する。 第1段階では、提案する優先機構に基づいて各入札ベンダーに優先ラベルを付加する。 そして、第2のステップでは、購入者のさまざまな好みのすべてに対して選好スコアを算出する。 最後に、第3のステップで、ベンダーの優先順位ラベルと選好スコア勝者とに基づいて決定する。 最後に,提案手法を2つの最先端リソース価格と割り当て戦略と比較する。 実験の結果,提案手法は他の2つの資源配分手法よりも,購入者の独立したユーティリティとオープンマーケット全体のユーティリティに優れていた。

In this work, we focus on resource allocation in a decentralised open market. In decentralised open markets consists of multiple vendors and multiple dynamically-arriving buyers, thus makes the market complex and dynamic. Because, in these markets, negotiations among vendors and buyers take place over multiple conflicting issues such as price, scalability, robustness, delay, etc. As a result, optimising the resource allocation in such open markets becomes directly dependent on two key decisions, which are; incorporating a different kind of buyers' preferences, and fairness based vendor elicitation strategy. Towards this end, in this work, we propose a three-step resource allocation approach that employs a reverse-auction paradigm. At the first step, priority label is attached to each bidding vendor based on the proposed priority mechanism. Then, at the second step, the preference score is calculated for all the different kinds of preferences of the buyers. Finally, at the third step, based on the priority label of the vendor and the preference score winner is determined. Finally, we compare the proposed approach with two state-of-the-art resource pricing and allocation strategies. The experimental results show that the proposed approach outperforms the other two resource allocation approaches in terms of the independent utilities of buyers and the overall utility of the open market.
翻訳日:2021-09-02 14:06:51 公開日:2021-09-01
# (参考訳) 最も単純なニューラルネットワークでもNP完全である到達可能性 [全文訳有]

Reachability Is NP-Complete Even for the Simplest Neural Networks ( http://arxiv.org/abs/2108.13179v2 )

ライセンス: CC BY 4.0
Marco S\"alzer and Martin Lange(参考訳) 我々は、(深度)ニューラルネットワークの到達可能性問題の複雑さを調査し、有効な入力が与えられたとき、有効な出力を計算するか? この問題は一般のニューラルネットワークと接続型入出力仕様に対してNP完全であると主張した。 元の上界証明と下界証明のいくつかの欠陥を修復する。 さらに,np-hardnessは1層のみの単純な仕様とニューラルネットワークの制限クラスと,発生パラメータの最小要件を持つニューラルネットワークに対してすでに保持されていることを示す。

We investigate the complexity of the reachability problem for (deep) neural networks: does it compute valid output given some valid input? It was recently claimed that the problem is NP-complete for general neural networks and conjunctive input/output specifications. We repair some flaws in the original upper and lower bound proofs. We then show that NP-hardness already holds for restricted classes of simple specifications and neural networks with just one layer, as well as neural networks with minimal requirements on the occurring parameters.
翻訳日:2021-09-02 12:10:22 公開日:2021-09-01
# (参考訳) イタリアの中小企業の信用デフォルトを評価するための解釈可能な機械学習 [全文訳有]

Look Who's Talking: Interpretable Machine Learning for Assessing Italian SMEs Credit Default ( http://arxiv.org/abs/2108.13914v2 )

ライセンス: CC BY 4.0
Lisa Crosato, Caterina Liberati and Marco Repetto(参考訳) 学術研究と金融業界は最近、複雑な学習タスクを解く能力のために機械学習アルゴリズムに大きな注目を集めている。 しかし、企業のデフォルト予測の分野において、解釈可能性の欠如はブラックボックスタイプのモデルが広く採用されるのを妨げている。 この欠点を克服し、ブラックボックスの高性能性を維持するため、本論文はモデルに依存しないアプローチを採用している。 蓄積された局所効果とシェープの値は、予測者のデフォルトの確率への影響を形作り、モデル結果への貢献に応じてランク付けするために使用される。 予測は、2つの機械学習アルゴリズム(extreme gradient boostingとfeedforward neural network)によって達成される。 その結果, イタリアの中小企業生産産業の分析は, リッチな解釈枠組みを諦めることなく, 極度勾配ブースティングアルゴリズムにより, 分類力の最高値から利益を得られることがわかった。

Academic research and the financial industry have recently paid great attention to Machine Learning algorithms due to their power to solve complex learning tasks. In the field of firms' default prediction, however, the lack of interpretability has prevented the extensive adoption of the black-box type of models. To overcome this drawback and maintain the high performances of black-boxes, this paper relies on a model-agnostic approach. Accumulated Local Effects and Shapley values are used to shape the predictors' impact on the likelihood of default and rank them according to their contribution to the model outcome. Prediction is achieved by two Machine Learning algorithms (eXtreme Gradient Boosting and FeedForward Neural Network) compared with three standard discriminant models. Results show that our analysis of the Italian Small and Medium Enterprises manufacturing industry benefits from the overall highest classification power by the eXtreme Gradient Boosting algorithm without giving up a rich interpretation framework.
翻訳日:2021-09-02 11:54:08 公開日:2021-09-01
# 離散データに基づく因果発見のためのサブサンプリング手法

A Subsampling-Based Method for Causal Discovery on Discrete Data ( http://arxiv.org/abs/2108.13984v2 )

ライセンス: Link先を確認
Austin Goddard and Yu Xiang(参考訳) 離散的および分類的データに対する因果方向の推測は重要な問題であるが、難しい問題である。 付加雑音モデル(anms)アプローチは離散データに適用することができるが、関数構造仮定は分類データには適用できない。 原因とメカニズムは独立であるという原則に触発され、距離相関尺度などの独立性テストを利用して様々な方法が開発されている。 本研究では,別の視点から,原因の生成スキームとメカニズムの独立性をテストするサブサンプリング方式を提案する。 我々の手法は、離散データと分類データの両方で機能し、データ上の機能的モデルを含まないため、より柔軟なアプローチである。 本手法の有効性を示すため,様々な合成データや実データ実験において既存のベースラインと比較した。

Inferring causal directions on discrete and categorical data is an important yet challenging problem. Even though the additive noise models (ANMs) approach can be adapted to the discrete data, the functional structure assumptions make it not applicable on categorical data. Inspired by the principle that the cause and mechanism are independent, various methods have been developed, leveraging independence tests such as the distance correlation measure. In this work, we take an alternative perspective and propose a subsampling-based method to test the independence between the generating schemes of the cause and that of the mechanism. Our methodology works for both discrete and categorical data and does not imply any functional model on the data, making it a more flexible approach. To demonstrate the efficacy of our methodology, we compare it with existing baselines over various synthetic data and real data experiments.
翻訳日:2021-09-02 11:32:11 公開日:2021-09-01
# 自然言語生成のためのタスク指向対話システム

Task-Oriented Dialogue System as Natural Language Generation ( http://arxiv.org/abs/2108.13679v2 )

ライセンス: Link先を確認
Weizhi Wang, Zhirui Zhang, Junliang Guo, Yinpei Dai, Boxing Chen and Weihua Luo(参考訳) 本稿では,GPT-2のような大規模事前学習モデルを完全に活用するために,タスク指向対話システムを純粋に自然言語生成タスクとして定式化することを提案する。 しかし,本手法の直接適用は,デレクシカル化トークンの除去による対話エンティティの不整合や,微調整中の事前学習モデルの破滅的な忘れ問題に大きく悩まされ,不満足な性能をもたらす。 これらの問題を緩和するために,軽量アダプタとCopyNetモジュールをGPT-2に組み込んだ新しいGPT-Adapter-CopyNetネットワークを設計し,転送学習と対話エンティティ生成の性能向上を実現した。 DSTC8 Track 1ベンチマークとMultiWOZデータセットを用いて行った実験結果から,提案手法はベースラインモデルよりも優れた性能を示し,自動評価と人的評価に優れた性能を示した。

In this paper, we propose to formulate the task-oriented dialogue system as the purely natural language generation task, so as to fully leverage the large-scale pre-trained models like GPT-2 and simplify complicated delexicalization prepossessing. However, directly applying this method heavily suffers from the dialogue entity inconsistency caused by the removal of delexicalized tokens, as well as the catastrophic forgetting problem of the pre-trained model during fine-tuning, leading to unsatisfactory performance. To alleviate these problems, we design a novel GPT-Adapter-CopyNet network, which incorporates the lightweight adapter and CopyNet modules into GPT-2 to achieve better performance on transfer learning and dialogue entity generation. Experimental results conducted on the DSTC8 Track 1 benchmark and MultiWOZ dataset demonstrate that our proposed approach significantly outperforms baseline models with a remarkable performance on automatic and human evaluations.
翻訳日:2021-09-02 11:31:58 公開日:2021-09-01
# 不確実性駆動属性同期によるシーン合成

Scene Synthesis via Uncertainty-Driven Attribute Synchronization ( http://arxiv.org/abs/2108.13499v2 )

ライセンス: Link先を確認
Haitao Yang, Zaiwei Zhang, Siming Yan, Haibin Huang, Chongyang Ma, Yi Zheng, Chandrajit Bajaj, Qixing Huang(参考訳) 3Dシーンを生成するためのディープニューラルネットワークの開発は、アーキテクチャCAD、コンピュータグラフィックス、および仮想ロボットトレーニング環境の即時適用によるニューラルネットワークの基本的な問題である。 この課題は、3Dシーンがオブジェクトのサイズや相対的なポーズなどの連続的なパターンから、対称的な関係を持つオブジェクトの発生や共起といった離散的なパターンまで、多様なパターンを示すため、困難である。 本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。 提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。 対象属性と相対属性の不確実性を提供する訓練データから得られたパラメトリック事前分布を用いて,フィードフォワードニューラルモデルの出力を規則化する。 さらに,シーンレイアウトを単に予測するのではなく,オーバーコンプリートな属性セットを予測する。 この手法により,予測属性間の基礎となる一貫性制約を利用して,予測不可能な予測を行うことができる。 実験の結果,提案手法は既存の手法を大きく上回ることがわかった。 生成された3dシーンは、連続的および離散的特徴パターンの両方を保持しながら、トレーニングデータを忠実に補間する。

Developing deep neural networks to generate 3D scenes is a fundamental problem in neural synthesis with immediate applications in architectural CAD, computer graphics, as well as in generating virtual robot training environments. This task is challenging because 3D scenes exhibit diverse patterns, ranging from continuous ones, such as object sizes and the relative poses between pairs of shapes, to discrete patterns, such as occurrence and co-occurrence of objects with symmetrical relationships. This paper introduces a novel neural scene synthesis approach that can capture diverse feature patterns of 3D scenes. Our method combines the strength of both neural network-based and conventional scene synthesis approaches. We use the parametric prior distributions learned from training data, which provide uncertainties of object attributes and relative attributes, to regularize the outputs of feed-forward neural models. Moreover, instead of merely predicting a scene layout, our approach predicts an over-complete set of attributes. This methodology allows us to utilize the underlying consistency constraints among the predicted attributes to prune infeasible predictions. Experimental results show that our approach outperforms existing methods considerably. The generated 3D scenes interpolate the training data faithfully while preserving both continuous and discrete feature patterns.
翻訳日:2021-09-02 11:31:24 公開日:2021-09-01
# 口腔上皮異形成における核発生と層分画の同時解析

Simultaneous Nuclear Instance and Layer Segmentation in Oral Epithelial Dysplasia ( http://arxiv.org/abs/2108.13904v2 )

ライセンス: Link先を確認
Adam J. Shephard, Simon Graham, R.M. Saad Bashir, Mostafa Jahanifar, Hanya Mahmood, Syed Ali Khurram, Nasir M. Rajpoot(参考訳) 口腔上皮性異形成症(OED)は,口腔病変に対する術前の病理組織学的診断である。 早期発見と適切な治療には, oedグレードの予測や悪性腫瘍への移行が不可欠である。 OEDは典型的に上皮の下部3分の1から順に進行し, 硬度で進行するので, 個々の核に加え, 上皮内層を分断することで, 悪性度予測に重要な層特異的な形態的特徴を評価できる可能性が示唆された。 深層学習フレームワークHoVer-Net+について,H&Eステンディングスライディングスライディングスライディングスにおける原子核と層間(層間)を同時に分割し,分類する。 提案するアーキテクチャは、エンコーダブランチと4つのデコーダブランチで構成され、核のインスタンスセグメンテーションと上皮層のセマンティックセグメンテーションを同時に行う。 提案手法は,従来の sota 法と比較してコストを増すことなく,両タスクの最先端 (sota) 性能を実現することを示す。 我々の知識を最大限に活用するために、我々の研究は、他の類似した同時タスクの計算病理学や、悪性度予測の今後の研究に応用可能な、核インスタンス分割とセマンティック組織分割を同時に行うための最初の方法である。

Oral epithelial dysplasia (OED) is a pre-malignant histopathological diagnosis given to lesions of the oral cavity. Predicting OED grade or whether a case will transition to malignancy is critical for early detection and appropriate treatment. OED typically begins in the lower third of the epithelium before progressing upwards with grade severity, thus we have suggested that segmenting intra-epithelial layers, in addition to individual nuclei, may enable researchers to evaluate important layer-specific morphological features for grade/malignancy prediction. We present HoVer-Net+, a deep learning framework to simultaneously segment (and classify) nuclei and (intra-)epithelial layers in H&E stained slides from OED cases. The proposed architecture consists of an encoder branch and four decoder branches for simultaneous instance segmentation of nuclei and semantic segmentation of the epithelial layers. We show that the proposed model achieves the state-of-the-art (SOTA) performance in both tasks, with no additional costs when compared to previous SOTA methods for each task. To the best of our knowledge, ours is the first method for simultaneous nuclear instance segmentation and semantic tissue segmentation, with potential for use in computational pathology for other similar simultaneous tasks and for future studies into malignancy prediction.
翻訳日:2021-09-02 11:31:07 公開日:2021-09-01
# 非局所クラマー・モヤル公式による確率的統治則の抽出

Extracting Stochastic Governing Laws by Nonlocal Kramers-Moyal Formulas ( http://arxiv.org/abs/2108.12570v2 )

ライセンス: Link先を確認
Yubin Lu, Yang Li and Jinqiao Duan(参考訳) 計算技術と科学ツールの急速な開発により、データから動的システムの法則を抽出するデータ駆動分析が大幅に進歩した。 非ガウス的ゆらぎの広さにもかかわらず、非ガウス的L'evyノイズを持つ確率微分方程式を同定する効果的なデータ駆動法は、今のところ比較的少ない。 本研究では,(ガウシアン)ブラウン運動と(非ガウシアン)l\'evy運動の両方の確率的支配則を,短いシミュレーションデータから抽出するデータ駆動手法を提案する。 具体的には,データから遷移確率密度関数(非局所フォッカー・プランク方程式の解法)を推定するために正規化流れ技術を用い,最近提案された非局所クラマーズ・モヤル公式に置き換え,l\'evy jump測度,ドリフト係数,拡散係数を近似する。 このアプローチがL'evy運動を伴う確率微分方程式を学習できることを実証する。 本手法を説明するために, 1次元および2次元のデカップリング結合系を用いて実例を示す。 このアプローチは確率的統治法則を発見し、複雑な力学挙動を理解するための効果的なツールとなる。

With the rapid development of computational techniques and scientific tools, great progress of data-driven analysis has been made to extract governing laws of dynamical systems from data. Despite the wide occurrences of non-Gaussian fluctuations, the effective data-driven methods to identify stochastic differential equations with non-Gaussian L\'evy noise are relatively few so far. In this work, we propose a data-driven approach to extract stochastic governing laws with both (Gaussian) Brownian motion and (non-Gaussian) L\'evy motion, from short bursts of simulation data. Specifically, we use the normalizing flows technology to estimate the transition probability density function (solution of nonlocal Fokker-Planck equation) from data, and then substitute it into the recently proposed nonlocal Kramers-Moyal formulas to approximate L\'evy jump measure, drift coefficient and diffusion coefficient. We demonstrate that this approach can learn the stochastic differential equation with L\'evy motion. We present examples with one- and two-dimensional, decoupled and coupled systems to illustrate our method. This approach will become an effective tool for discovering stochastic governing laws and understanding complex dynamical behaviors.
翻訳日:2021-09-02 11:30:39 公開日:2021-09-01
# ニューラルネットワークモデルを用いた障害データベースにおける障害事例分類の予測の試み

Attempt to Predict Failure Case Classification in a Failure Database by using Neural Network Models ( http://arxiv.org/abs/2108.12788v2 )

ライセンス: Link先を確認
Koichi Bando, Kenji Tanaka(参考訳) 近年の情報技術の進歩により,ネットワーク情報システムの利用は急速に拡大している。 電子商取引や銀行や企業間の電子決済、一般市民が利用するオンラインショッピングやソーシャルネットワーキングサービスなどがその例である。 したがって,これらのシステムの信頼性を維持・向上するために,過去の障害事例から障害データベースを構築している。 新しい障害ケースをデータベースにインポートする場合、これらのケースを障害タイプに応じて分類する必要がある。 問題は、分類の正確さと効率である。 特に複数の個人と作業する場合、分類の統一が必要である。 そこで,機械学習を用いた分類の自動化を試みている。 評価モデルとして、ニューラルネットワークを用いたモデルである多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)を選択した。 その結果、精度の面での最適モデルは、まずMLP、次にCNNであり、分類の処理時間は実用的である。

With the recent progress of information technology, the use of networked information systems has rapidly expanded. Electronic commerce and electronic payments between banks and companies, and online shopping and social networking services used by the general public are examples of such systems. Therefore, in order to maintain and improve the dependability of these systems, we are constructing a failure database from past failure cases. When importing new failure cases to the database, it is necessary to classify these cases according to failure type. The problems are the accuracy and efficiency of the classification. Especially when working with multiple individuals, unification of classification is required. Therefore, we are attempting to automate classification using machine learning. As evaluation models, we selected the multilayer perceptron (MLP), the convolutional neural network (CNN), and the recurrent neural network (RNN), which are models that use neural networks. As a result, the optimal model in terms of accuracy is first the MLP followed by the CNN, and the processing time of the classification is practical.
翻訳日:2021-09-02 11:30:18 公開日:2021-09-01
# 非弾性構造を有する材料のマルチスケールモデリングのための熱力学に基づくニューラルネットワーク(TANN)

Thermodynamics-based Artificial Neural Networks (TANN) for multiscale modeling of materials with inelastic microstructure ( http://arxiv.org/abs/2108.13137v2 )

ライセンス: Link先を確認
Filippo Masi and Ioannis Stefanou(参考訳) ミクロ組織を有する非弾性材料の力学的挙動は非常に複雑であり、ヒューリスティックな経験的構成モデルでは把握が困難である。 この目的のために、マイクロ構造体のマクロ力学的挙動の信頼性と正確な予測を行うために、多スケール均質化手法がしばしば用いられる。 しかしながら、そのような手法の計算コストは非常に高く、非弾性材料を含む現実的な応用には不当である。 近年、アドホックな構成法則や高速なマルチスケール数値法に代わるものとして、ディープラーニングに基づくデータ駆動型アプローチが注目されている。 しかし、そのようなアプローチは物理学の法則に基づく厳密な枠組みを欠いている。 その結果, 複雑な非弾性構造を有するモデル材料への応用はまだ確立されていない。 本稿では,非弾性・複雑な構造を持つ材料の構成モデリングのための熱力学に基づくニューラルネットワーク(TANN)を提案する。 本手法は,熱力学を考慮した次元低減技術と深層ニューラルネットワークを統合し,複雑な非弾性材料の構成則と内部状態変数を同定する。 TANNが高忠実で物理的に一貫した予測を行う能力は、顕微鏡とマクロスケールの両方でいくつかの例を通して示される。 特に, 平均的および局所的な応力-ひずみ応答, 内部エネルギー, 非弾性における規則的および摂動的格子微細構造の散逸の予測において, タンの効率と精度を示す。 最後に、大規模境界値問題を解くために二重相同化スキームを用いる。 TANNを用いた同種モデルの高性能化について,詳細な比較を行った。 種々の単調および環状応力-ひずみ経路に対して優れた一致を示す。

The mechanical behavior of inelastic materials with microstructure is very complex and hard to grasp with heuristic, empirical constitutive models. For this purpose, multiscale, homogenization approaches are often used for performing reliable, accurate predictions of the macroscopic mechanical behavior of microstructured solids. Nevertheless, the calculation cost of such approaches is extremely high and prohibitive for real-scale applications involving inelastic materials. Recently, data-driven approaches based on deep learning have risen as a promising alternative to replace ad-hoc constitutive laws and speed-up multiscale numerical methods. However, such approaches lack a rigorous frame based on the laws of physics. As a result, their application to model materials with complex microstructure in inelasticity is not yet established. Here, we propose Thermodynamics-based Artificial Neural Networks (TANN) for the constitutive modeling of materials with inelastic and complex microstructure. Our approach integrates thermodynamics-aware dimensionality reduction techniques and deep neural networks to identify the constitutive laws and the internal state variables of complex inelastic materials. The ability of TANN in delivering high-fidelity, physically consistent predictions is demonstrated through several examples both at the microscopic and macroscopic scale. In particular, we show the efficiency and accuracy of TANN in predicting the average and local stress-strain response, the internal energy and the dissipation of both regular and perturbed lattice microstructures in inelasticity. Finally, a double-scale homogenization scheme is used to solve a large scale boundary value problem. The high performance of the homogenized model using TANN is illustrated through detailed comparisons. An excellent agreement is shown for a variety of monotonous and cyclic stress-strain paths.
翻訳日:2021-09-02 11:30:03 公開日:2021-09-01