このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211203となっている論文です。

PDF登録状況(公開日: 20211203)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 株価予測のためのa株調査報告の効率的な感情分析ネットワークesan [全文訳有]

ESAN: Efficient Sentiment Analysis Network of A-Shares Research Reports for Stock Price Prediction ( http://arxiv.org/abs/2112.11444v1 )

ライセンス: CC BY 4.0
Tuo Sun, Wanrong Zheng, Shufan Yu, Mengxun Li, Jiarui Ou(参考訳) 本稿では,長期にわたる在庫予測を支援する自然言語処理モデルを開発する。 ネットワーク全体には2つのモジュールがある。 最初のモジュールは自然言語処理モデルであり、入力レポートから信頼できる要素を抽出する。 もうひとつは、要因を入力として、株価利益の予測を目的とした時系列予測モデルである。 感情分析モジュールと時系列予測モジュールを組み合わせたモデルの有効性を示すため,本手法をESANと命名した。

In this paper, we are going to develop a natural language processing model to help us to predict stocks in the long term. The whole network includes two modules. The first module is a natural language processing model which seeks out reliable factors from input reports. While the other is a time-series forecasting model which takes the factors as input and aims to predict stocks earnings yield. To indicate the efficiency of our model to combine the sentiment analysis module and the time-series forecasting module, we name our method ESAN.
翻訳日:2021-12-26 15:17:30 公開日:2021-12-03
# 論争検出:テキストとグラフのニューラルネットワークによるアプローチ

Controversy Detection: a Text and Graph Neural Network Based Approach ( http://arxiv.org/abs/2112.11445v1 )

ライセンス: Link先を確認
Samy Benslimane (ADVANSE, LIRMM), J\'erome Az\'e (ADVANSE, LIRMM), Sandra Bringay (UPVM, ADVANSE, LIRMM), Maximilien Servajean (LIRMM, ADVANSE, UPVM), Caroline Mollevi(参考訳) 論争の内容は、ポジティブとネガティブの両方のフィードバックを惹きつけるあらゆるコンテンツを指す。 その自動識別は、特にソーシャルメディア上では、多くのトピックをカバーする、継続的に進化する多くの投稿で実施されるべきであるため、難しい課題である。 既存のアプローチのほとんどは、トピック論やメッセージの内容のグラフ構造に依存しています。 本稿では,議論のグラフ構造とテキスト特徴の両方に基づく議論検出手法を提案する。 提案手法は,グラフ分類タスクを行う前に,グラフ表現(そのテキストを含む)を埋め込みベクトルにエンコードするためにgnn(graph neural network)に依存する。 後者は、このポストを議論の余地なく分類する。 2つの論争検出戦略が提案されている。 1つ目は階層的グラフ表現学習に基づくものである。 グラフユーザノードは階層的に反復的に埋め込み、グラフ埋め込みベクトル全体を計算します。 2つ目はアテンションメカニズムに基づいており、ノードの埋め込みを計算する際に、各ユーザノードが隣人に多かれ少なかれ重要になるようにする。 我々は,実世界の異なるデータセットを用いてアプローチを評価する実験を行う。 実験の結果、テキストの特徴と構造情報をパフォーマンスの観点から組み合わせた効果が示された。

Controversial content refers to any content that attracts both positive and negative feedback. Its automatic identification, especially on social media, is a challenging task as it should be done on a large number of continuously evolving posts, covering a large variety of topics. Most of the existing approaches rely on the graph structure of a topic-discussion and/or the content of messages. This paper proposes a controversy detection approach based on both graph structure of a discussion and text features. Our proposed approach relies on Graph Neural Network (gnn) to encode the graph representation (including its texts) in an embedding vector before performing a graph classification task. The latter will classify the post as controversial or not. Two controversy detection strategies are proposed. The first one is based on a hierarchical graph representation learning. Graph user nodes are embedded hierarchically and iteratively to compute the whole graph embedding vector. The second one is based on the attention mechanism, which allows each user node to give more or less importance to its neighbors when computing node embeddings. We conduct experiments to evaluate our approach using different real-world datasets. Conducted experiments show the positive impact of combining textual features and structural information in terms of performance.
翻訳日:2021-12-26 13:18:40 公開日:2021-12-03
# (参考訳) ベイジアン非パラメトリックな産卵観 [全文訳有]

Bayesian Nonparametric View to Spawning ( http://arxiv.org/abs/2112.06640v1 )

ライセンス: CC BY 4.0
Bahman Moraffah(参考訳) 複数の物体を追跡する場合、各観測値(測定値)は1つの物体のみに由来すると仮定されることが多い。 しかしながら、各測定値が各時間ステップで複数のオブジェクトに関連付けられたり、関連付けられなかったりする状況に遭遇する可能性があります。 したがって、各測定値が複数のオブジェクトに関連付けることは、複数のオブジェクトの生死を追跡する上で重要な課題である。 本稿では,マルコフ連鎖モンテカルロ (MCMC) による後部分布からのサンプル抽出が可能な未知の物体から各観測結果が引き出されるシナリオをモデル化する,ベイズ的非パラメトリック手法を提案する。 各時間ステップのオブジェクト数自体も未知であると考えられている。 次に,イベント発生時のシナリオに対する非パラメトリックモデリングの利点を実験を通して示す。 また,既存の手法よりもフレームワークの利点を実証する実験を行った。

In tracking multiple objects, it is often assumed that each observation (measurement) is originated from one and only one object. However, we may encounter a situation that each measurement may or may not be associated with multiple objects at each time step --spawning. Therefore, the association of each measurement to multiple objects is a crucial task to perform in order to track multiple objects with birth and death. In this paper, we introduce a novel Bayesian nonparametric approach that models a scenario where each observation may be drawn from an unknown number of objects for which it provides a tractable Markov chain Monte Carlo (MCMC) approach to sample from the posterior distribution. The number of objects at each time step, itself, is also assumed to be unknown. We, then, show through experiments the advantage of nonparametric modeling to scenarios with spawning events. Our experiment results also demonstrate the advantages of our framework over the existing methods.
翻訳日:2021-12-19 15:27:58 公開日:2021-12-03
# (参考訳) 故障診断のための新しい深並列時系列関係ネットワーク [全文訳有]

A Novel Deep Parallel Time-series Relation Network for Fault Diagnosis ( http://arxiv.org/abs/2112.03405v1 )

ライセンス: CC BY 4.0
Chun Yang(参考訳) 時系列データの文脈情報を適用するモデルが故障診断性能を向上させることを考慮し、産業的プロセスを効果的にモデル化するためにRNN、LSTM、GRUなどのニューラルネットワーク構造を提案した。 しかし、これらのモデルは連続計算によって制限されるため、高い診断効率を達成できない。 また、長期的特徴抽出機能を実現するために、より大規模な畳み込みカーネルや深い構造を必要とするため、並列CNNは効率的なフォールト診断を実現するのが難しい。 さらに、BERTモデルは、モデルにコンテキスト情報を導入するために絶対位置埋め込みを適用し、生データにノイズをもたらすため、障害診断に直接適用することはできない。 本稿では,上記の問題に対処するために,deep parallel time-series relation network(\textit{dptrn})という故障診断モデルを提案する。 1) 提案した時間関係ユニットは全多層パーセプトロン(\textit{MLP})構造に基づいているため, DPTRNは並列に故障診断を行い, 演算効率を大幅に向上する。 2) 絶対位置埋め込みの改善により, 故障診断に直接適用し, 文脈情報を学習することが可能となった。 (3)DPTRNは特徴解釈可能性において明らかな優位性を有する。 本モデルは,提案するdptrnモデルの有効性,効率,解釈性を確認するteおよびkdd-cup99データセットの他の手法よりも優れている。

Considering the models that apply the contextual information of time-series data could improve the fault diagnosis performance, some neural network structures such as RNN, LSTM, and GRU were proposed to model the industrial process effectively. However, these models are restricted by their serial computation and hence cannot achieve high diagnostic efficiency. Also the parallel CNN is difficult to implement fault diagnosis in an efficient way because it requires larger convolution kernels or deep structure to achieve long-term feature extraction capabilities. Besides, BERT model applies absolute position embedding to introduce contextual information to the model, which would bring noise to the raw data and therefore cannot be applied to fault diagnosis directly. In order to address the above problems, a fault diagnosis model named deep parallel time-series relation network(\textit{DPTRN}) has been proposed in this paper. There are mainly three advantages for DPTRN: (1) Our proposed time relationship unit is based on full multilayer perceptron(\textit{MLP}) structure, therefore, DPTRN performs fault diagnosis in a parallel way and improves computing efficiency significantly. (2) By improving the absolute position embedding, our novel decoupling position embedding unit could be applied on the fault diagnosis directly and learn contextual information. (3) Our proposed DPTRN has obvious advantage in feature interpretability. Our model outperforms other methods on both TE and KDD-CUP99 datasets which confirms the effectiveness, efficiency and interpretability of the proposed DPTRN model.
翻訳日:2021-12-11 08:10:16 公開日:2021-12-03
# (参考訳) 構成変数 \`a l'aide de classifieurs comme aide \`a la r\'egression [全文訳有]

Construction de variables \`a l'aide de classifieurs comme aide \`a la r\'egression ( http://arxiv.org/abs/2112.03703v1 )

ライセンス: CC BY 4.0
Colin Troisemaine, Vincent Lemaire(参考訳) 本稿では,初期入力ベクトルに含まれる情報を補完する変数の自動生成手法を提案する。 この方法は、回帰する変数の連続値が、値しきい値を定義するために使用される一連の間隔に離散化される前処理ステップとして機能する。 その後、分類器は、回帰すべき値がこれらのしきい値に等しいかどうかを予測するように訓練される。 分類器の異なる出力は、回帰問題の初期ベクトルを豊かにする変数の追加ベクトルの形で連結される。 したがって、実装されたシステムは汎用的な前処理ツールと見なすことができる。 提案手法を5種類の回帰器を用いて検証し,33種類の回帰データセットで評価した。 実験結果から,このアプローチへの関心が確認された。

This paper proposes a method for the automatic creation of variables (in the case of regression) that complement the information contained in the initial input vector. The method works as a pre-processing step in which the continuous values of the variable to be regressed are discretized into a set of intervals which are then used to define value thresholds. Then classifiers are trained to predict whether the value to be regressed is less than or equal to each of these thresholds. The different outputs of the classifiers are then concatenated in the form of an additional vector of variables that enriches the initial vector of the regression problem. The implemented system can thus be considered as a generic pre-processing tool. We tested the proposed enrichment method with 5 types of regressors and evaluated it in 33 regression datasets. Our experimental results confirm the interest of the approach.
翻訳日:2021-12-11 07:56:50 公開日:2021-12-03
# (参考訳) 臨界ノード検出問題に対する特徴重要度対応グラフアテンションネットワークと二重ディープqネットワーク結合アプローチ [全文訳有]

Feature Importance-aware Graph Attention Network and Dueling Double Deep Q-Network Combined Approach for Critical Node Detection Problems ( http://arxiv.org/abs/2112.03404v1 )

ライセンス: CC BY 4.0
Xuwei Tan, Yangming Zhou, Zhang-Hua Fu and Mengchu Zhou(参考訳) スパースネットワークにおけるクリティカルノードの検出は、さまざまなアプリケーションドメインにおいて重要である。 臨界ノード問題(cnp)は、残差ネットワークのペアワイズ接続を最大に分解するネットワークから臨界ノードの集合を見つけることを目的としている。 一般のNPハードの性質のため、最先端のCNP解はヒューリスティックなアプローチに基づいている。 ドメインの知識と試行錯誤は通常、そのようなアプローチを設計する際に必要となるため、かなりの労力と時間を要する。 本研究は,ノード表現のための特徴量認識グラフアテンションネットワークを提案し,これを二重深度Qネットワークと組み合わせて,初めてCNPを解くエンドツーエンドアルゴリズムを作成する。 既存のほとんどのメソッドで必要とされる問題固有の知識やラベル付きデータセットは必要ない。 モデルが訓練されると、様々な種類のCNP(大きさと位相構造が異なる)に再学習することなく対処するように一般化することができる。 28の実世界のネットワークにおける実験により,提案手法は最先端の手法に非常に匹敵することを示した。 問題固有の知識は一切必要とせず、従って既存のアプローチを用いることで、不可能なものを含む多くのアプリケーションに適用することができる。 いくつかのローカル検索手法と組み合わせることで、ソリューションの品質をさらに向上することができる。 CNPの解法の有効性を示すために, 大規模な比較結果が得られた。

Detecting critical nodes in sparse networks is important in a variety of application domains. A Critical Node Problem (CNP) aims to find a set of critical nodes from a network whose deletion maximally degrades the pairwise connectivity of the residual network. Due to its general NP-hard nature, state-of-the-art CNP solutions are based on heuristic approaches. Domain knowledge and trial-and-error are usually required when designing such approaches, thus consuming considerable effort and time. This work proposes a feature importance-aware graph attention network for node representation and combines it with dueling double deep Q-network to create an end-to-end algorithm to solve CNP for the first time. It does not need any problem-specific knowledge or labeled datasets as required by most of existing methods. Once the model is trained, it can be generalized to cope with various types of CNPs (with different sizes and topological structures) without re-training. Extensive experiments on 28 real-world networks show that the proposed method is highly comparable to state-of-the-art methods. It does not require any problem-specific knowledge and, hence, can be applicable to many applications including those impossible ones by using the existing approaches. It can be combined with some local search methods to further improve its solution quality. Extensive comparison results are given to show its effectiveness in solving CNP.
翻訳日:2021-12-11 07:19:09 公開日:2021-12-03
# (参考訳) 変分オートエンコーダとフェイスマスクを用いた顔再建 [全文訳有]

Face Reconstruction with Variational Autoencoder and Face Masks ( http://arxiv.org/abs/2112.02139v1 )

ライセンス: CC BY 4.0
Rafael S. Toledo, Eric A. Antonelo(参考訳) 変分オートエンコーダ(VAE)は、ディープラーニングモデルを用いて、高次元観測データセットに類似した連続潜時z空間を学習する。 これにより、顔再構成や顔合成など、多くのタスクが可能になる。 本研究では,顔マスクが選択した画素に学習を限定することにより,顔再建のためのvaesの訓練に顔マスクがどう役立つかを検討した。 celebAデータセットを用いて提案手法の評価を行った結果,特にSSIM損失がl1またはl2損失関数で使用される場合,顔マスクで再構成画像が強化されることがわかった。 フェースマスク予測のためのデコーダをアーキテクチャに組み込むと,l1やl2の損失関数の性能に影響を及ぼすが,SSIMの損失には影響しないことがわかった。 さらに、SSIMの知覚的損失は、テストされた全ての仮説の間の最も鮮明なサンプルを得たが、画像の原色は変化し、SSIMと共にl1またはl2の損失が用いられるようになった。

Variational AutoEncoders (VAE) employ deep learning models to learn a continuous latent z-space that is subjacent to a high-dimensional observed dataset. With that, many tasks are made possible, including face reconstruction and face synthesis. In this work, we investigated how face masks can help the training of VAEs for face reconstruction, by restricting the learning to the pixels selected by the face mask. An evaluation of the proposal using the celebA dataset shows that the reconstructed images are enhanced with the face masks, especially when SSIM loss is used either with l1 or l2 loss functions. We noticed that the inclusion of a decoder for face mask prediction in the architecture affected the performance for l1 or l2 loss functions, while this was not the case for the SSIM loss. Besides, SSIM perceptual loss yielded the crispest samples between all hypotheses tested, although it shifts the original color of the image, making the usage of the l1 or l2 losses together with SSIM helpful to solve this issue.
翻訳日:2021-12-11 07:06:44 公開日:2021-12-03
# (参考訳) CTIN:慣性ナビゲーションのためのロバスト文脈変換器ネットワーク [全文訳有]

CTIN: Robust Contextual Transformer Network for Inertial Navigation ( http://arxiv.org/abs/2112.02143v1 )

ライセンス: CC BY 4.0
Bingbing Rao, Ehsan Kazemi, Yifan Ding, Devu M Shila, Frank M. Tucker, Liqiang Wang(参考訳) 近年、データ駆動慣性ナビゲーション手法は、よく訓練されたニューラルネットワークを用いて慣性計測単位(IMU)の測定から正確な位置推定値を得る能力を実証している。 本稿では,慣性ナビゲーション(CTIN)のための新しいロバストなコンテキストトランスフォーマーネットワークを提案し,速度と軌道を正確に予測する。 この目的のために,我々はまず,局所的および大域的なマルチヘッドセルフアテンションにより拡張されたresnetベースのエンコーダを設計し,imu測定から空間的コンテキスト情報を取得する。 次に,この空間表現を時間的知識と融合し,トランスフォーマデコーダのマルチヘッドアテンションを利用する。 最後に、不確かさを低減したマルチタスク学習を活用し、学習効率と速度および軌道の予測精度を向上させる。 幅広い慣性データセット(RIDI、OxIOD、RoNIN、IDOLなど)に関する広範な実験を通じて、CTINは非常に堅牢で最先端のモデルよりも優れています。

Recently, data-driven inertial navigation approaches have demonstrated their capability of using well-trained neural networks to obtain accurate position estimates from inertial measurement units (IMU) measurements. In this paper, we propose a novel robust Contextual Transformer-based network for Inertial Navigation~(CTIN) to accurately predict velocity and trajectory. To this end, we first design a ResNet-based encoder enhanced by local and global multi-head self-attention to capture spatial contextual information from IMU measurements. Then we fuse these spatial representations with temporal knowledge by leveraging multi-head attention in the Transformer decoder. Finally, multi-task learning with uncertainty reduction is leveraged to improve learning efficiency and prediction accuracy of velocity and trajectory. Through extensive experiments over a wide range of inertial datasets~(e.g. RIDI, OxIOD, RoNIN, IDOL, and our own), CTIN is very robust and outperforms state-of-the-art models.
翻訳日:2021-12-11 06:56:16 公開日:2021-12-03
# (参考訳) 機械学習による前立腺x線学と病理学のギャップの橋渡し

Bridging the gap between prostate radiology and pathology through machine learning ( http://arxiv.org/abs/2112.02164v1 )

ライセンス: CC BY 4.0
Indrani Bhattacharya, David S. Lim, Han Lin Aung, Xingchen Liu, Arun Seetharaman, Christian A. Kunder, Wei Shao, Simon J. C. Soerensen, Richard E. Fan, Pejman Ghanouni, Katherine J. To'o, James D. Brooks, Geoffrey A. Sonn, Mirabela Rusu(参考訳) 前立腺がんはアメリカ人男性にとって2番目に致命的ながんである。 磁気共鳴イメージング(MRI)は前立腺がんの診断に標的となる生検を誘導するために用いられることが多いが、偽陽性や偽陰性の増加や、読取者間の合意の低さにより、その有用性は限られている。 前立腺MRIでがんを検出し、局所化する機械学習手法は、放射線学の解釈の標準化に役立つ。 しかしながら、既存の機械学習手法は、モデルアーキテクチャだけでなく、モデルトレーニングに使用される根拠真理ラベル付け戦略でも異なる。 本研究では,病理診断された放射線科医ラベル,全山病理画像の病理学ラベル,病変レベルおよび画素レベルデジタル病理学ラベル(先述の病理学画像のディープラーニングアルゴリズムによる画素レベルグリーソンパターンの予測)を全山病理画像で比較した。 これらのラベルがトレーニングされた機械学習モデルの性能に与える影響を分析する。 実験の結果,(1) 放射線技師のラベルやモデルが癌を見逃したり,過小評価したり,(2) デジタル病理医のラベルやモデルが病理医のラベルと高い一致を示したり,(3) 前立腺がんの診断で訓練されたモデルが,異なる疾患分布をもつ2つのコホートで最高の成績を示した。 デジタル病理学者ラベルは、人的アノテーションに関連する困難を軽減し、mri上の前立腺がんの検出とローカライズを可能にすることで、前立腺x線学と病理学の間のギャップを埋めることができる。

Prostate cancer is the second deadliest cancer for American men. While Magnetic Resonance Imaging (MRI) is increasingly used to guide targeted biopsies for prostate cancer diagnosis, its utility remains limited due to high rates of false positives and false negatives as well as low inter-reader agreements. Machine learning methods to detect and localize cancer on prostate MRI can help standardize radiologist interpretations. However, existing machine learning methods vary not only in model architecture, but also in the ground truth labeling strategies used for model training. In this study, we compare different labeling strategies, namely, pathology-confirmed radiologist labels, pathologist labels on whole-mount histopathology images, and lesion-level and pixel-level digital pathologist labels (previously validated deep learning algorithm on histopathology images to predict pixel-level Gleason patterns) on whole-mount histopathology images. We analyse the effects these labels have on the performance of the trained machine learning models. Our experiments show that (1) radiologist labels and models trained with them can miss cancers, or underestimate cancer extent, (2) digital pathologist labels and models trained with them have high concordance with pathologist labels, and (3) models trained with digital pathologist labels achieve the best performance in prostate cancer detection in two different cohorts with different disease distributions, irrespective of the model architecture used. Digital pathologist labels can reduce challenges associated with human annotations, including labor, time, inter- and intra-reader variability, and can help bridge the gap between prostate radiology and pathology by enabling the training of reliable machine learning models to detect and localize prostate cancer on MRI.
翻訳日:2021-12-11 06:34:10 公開日:2021-12-03
# (参考訳) 部分モジュラー文脈帯域について [全文訳有]

On Submodular Contextual Bandits ( http://arxiv.org/abs/2112.02165v1 )

ライセンス: CC BY 4.0
Dean P. Foster and Alexander Rakhlin(参考訳) 作用が基底集合の部分集合であり、平均報酬がクラス $\mathcal{F}$ に属する未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。 実現可能な集合上に時間変化のマットロイド制約を置くことができる。 Inverse Gap Weighting 戦略により,オンライン回帰オラクルへのアクセスに$\mathsf{Reg}(\mathcal{F})$を仮定し,推定関数の局所最適化を効率的にランダム化する。 時間的地平線によるこの手順の累積的後悔は、$O(\sqrt{n \mathsf{Reg}(\mathcal{F})})$として$n$スケールし、乗算係数が1/2$のベンチマークに対するものである。 一方, (filmus and ward 2014) の手法を用いて, 局所ランダム化を伴う $\epsilon$-greedy 手続きは, より強い $(1-e^{-1})$ に対する $o(n^{2/3} \mathsf{reg}(\mathcal{f})^{1/3})$ の後悔が得られることを示した。

We consider the problem of contextual bandits where actions are subsets of a ground set and mean rewards are modeled by an unknown monotone submodular function that belongs to a class $\mathcal{F}$. We allow time-varying matroid constraints to be placed on the feasible sets. Assuming access to an online regression oracle with regret $\mathsf{Reg}(\mathcal{F})$, our algorithm efficiently randomizes around local optima of estimated functions according to the Inverse Gap Weighting strategy. We show that cumulative regret of this procedure with time horizon $n$ scales as $O(\sqrt{n \mathsf{Reg}(\mathcal{F})})$ against a benchmark with a multiplicative factor $1/2$. On the other hand, using the techniques of (Filmus and Ward 2014), we show that an $\epsilon$-Greedy procedure with local randomization attains regret of $O(n^{2/3} \mathsf{Reg}(\mathcal{F})^{1/3})$ against a stronger $(1-e^{-1})$ benchmark.
翻訳日:2021-12-11 06:32:28 公開日:2021-12-03
# (参考訳) ALX:TPU上の大規模行列係数化 [全文訳有]

ALX: Large Scale Matrix Factorization on TPUs ( http://arxiv.org/abs/2112.02194v1 )

ライセンス: CC BY 4.0
Harsh Mehta, Steffen Rendle, Walid Krichene, Li Zhang(参考訳) JAX で書かれた Alternating Least Squares を用いた分散行列分解用オープンソースライブラリ ALX について述べる。 当社の設計では,利用可能なtpuコア数をスケールすることで,o(b)行/カラムの行列分解問題に対して,tpuアーキテクチャとスケールの効率的な利用を可能にする。 大規模行列分解法の研究を加速させ,我々の実装のスケーラビリティ特性を説明するために,WebGraphと呼ばれる実世界のWebリンク予測データセットを構築した。 このデータセットは行列分解問題として容易にモデル化できる。 我々は,部分グラフの局所性と空間特性に基づいて,このデータセットのいくつかの変種を作成した。 WebGraphの最大の変種は365万のノードを持ち、256 TPUコアで1エポックのトレーニングは約20分で終了する。 WebGraphのすべての変種におけるALXの速度と性能の数値を含めます。 フレームワークコードとデータセットの両方がオープンソースである。

We present ALX, an open-source library for distributed matrix factorization using Alternating Least Squares, written in JAX. Our design allows for efficient use of the TPU architecture and scales well to matrix factorization problems of O(B) rows/columns by scaling the number of available TPU cores. In order to spur future research on large scale matrix factorization methods and to illustrate the scalability properties of our own implementation, we also built a real world web link prediction dataset called WebGraph. This dataset can be easily modeled as a matrix factorization problem. We created several variants of this dataset based on locality and sparsity properties of sub-graphs. The largest variant of WebGraph has around 365M nodes and training a single epoch finishes in about 20 minutes with 256 TPU cores. We include speed and performance numbers of ALX on all variants of WebGraph. Both the framework code and the dataset is open-sourced.
翻訳日:2021-12-11 06:13:30 公開日:2021-12-03
# 交通渋滞低減のためのロバストマルチエージェント運転政策の学習

Learning a Robust Multiagent Driving Policy for Traffic Congestion Reduction ( http://arxiv.org/abs/2112.03759v1 )

ライセンス: Link先を確認
Yulin Zhang, William Macke, Jiaxun Cui, Daniel Urieli, Peter Stone(参考訳) 自動運転車(AV)の出現は、交通渋滞の低減など、複数のAVを使用してシステムレベルの目標を達成する機会を生み出す。 過去の研究では、マルチエージェントの渋滞低減による運転方針が様々なシミュレーションシナリオで学習できることが示されている。 初期の概念実証は、小型で閉鎖的な交通ネットワークと集中型コントローラで行われていたが、最近の成功例は、車両が入退するオープンロードネットワークで動く分散制御ポリシーにより、より現実的な設定で実証されている。 しかし、これらの運転方針は、ほとんどが訓練されたのと同じ条件下でテストされ、現実世界のシナリオにおいて重要な要件である異なる交通条件に対する堅牢性について徹底的にテストされていない。 本稿では,車両の流路,交通量におけるAVの割合,AV配置,および異なるマージ道路ジオメトリーなど,様々なオープンネットワーク交通条件に頑健な学習マルチエージェント駆動ポリシーを提案する。 徹底的な実証分析により、単純なマージネットワークと2つのマージランプを有するより複雑な道路の両方におけるavの量に対するポリシーの感度が調査される。 その結果,AV導入率を2%に抑えつつも,シミュレーションされた人為的政策よりも大きな改善が得られた。 同じ方針は、より複雑な道路の交通渋滞を2つの合流路で減らすことができることも示されている。

The advent of automated and autonomous vehicles (AVs) creates opportunities to achieve system-level goals using multiple AVs, such as traffic congestion reduction. Past research has shown that multiagent congestion-reducing driving policies can be learned in a variety of simulated scenarios. While initial proofs of concept were in small, closed traffic networks with a centralized controller, recently successful results have been demonstrated in more realistic settings with distributed control policies operating in open road networks where vehicles enter and leave. However, these driving policies were mostly tested under the same conditions they were trained on, and have not been thoroughly tested for robustness to different traffic conditions, which is a critical requirement in real-world scenarios. This paper presents a learned multiagent driving policy that is robust to a variety of open-network traffic conditions, including vehicle flows, the fraction of AVs in traffic, AV placement, and different merging road geometries. A thorough empirical analysis investigates the sensitivity of such a policy to the amount of AVs in both a simple merge network and a more complex road with two merging ramps. It shows that the learned policy achieves significant improvement over simulated human-driven policies even with AV penetration as low as 2%. The same policy is also shown to be capable of reducing traffic congestion in more complex roads with two merging ramps.
翻訳日:2021-12-08 15:25:07 公開日:2021-12-03
# ネットワーク侵入検知システムのための浅層学習による2段階深層オートエンコーダ

Two-stage Deep Stacked Autoencoder with Shallow Learning for Network Intrusion Detection System ( http://arxiv.org/abs/2112.03704v1 )

ライセンス: Link先を確認
Nasreen Fathima, Akshara Pramod, Yash Srivastava, Anusha Maria Thomas, Syed Ibrahim S P, Chandran K R(参考訳) リアルタイムネットワークトラフィックにおける不正な攻撃のようなスパースイベントは、大企業の収益損失を大幅に増加させた。 これは、ネットワークの過剰な成長と、多数の人々への露出によるものです。 侵入を検知する標準的な方法は有望ではなく、新しいマルウェアを特定できない。 さらに,高ボリュームデータを疎結合,偽陽性,小クラスでの検出率の低下,データ次元のトレーニング時間,特徴工学といった課題により,より少ない時間でタスクを引き継ぐことができるようになった。 既存のシステムでは、機能工学とともにリアルタイムネットワークトラフィック問題を解決するための改善が必要である。 提案手法は,2段階の深層オートエンコーダを用いて有望な結果を与えることにより,これらの課題を克服する。 2段階の深層学習は、第2段階の分類のためのランダム森林を用いた浅層学習と組み合わせる。 これにより、最新のCanadian Institute for Cybersecurity Intrusion Detection System 2017 (CICIDS-2017)データセットが良好になった。 検出精度に優れたゼロ偽陽性が得られた。

Sparse events, such as malign attacks in real-time network traffic, have caused big organisations an immense hike in revenue loss. This is due to the excessive growth of the network and its exposure to a plethora of people. The standard methods used to detect intrusions are not promising and have significant failure to identify new malware. Moreover, the challenges in handling high volume data with sparsity, high false positives, fewer detection rates in minor class, training time and feature engineering of the dimensionality of data has promoted deep learning to take over the task with less time and great results. The existing system needs improvement in solving real-time network traffic issues along with feature engineering. Our proposed work overcomes these challenges by giving promising results using deep-stacked autoencoders in two stages. The two-stage deep learning combines with shallow learning using the random forest for classification in the second stage. This made the model get well with the latest Canadian Institute for Cybersecurity - Intrusion Detection System 2017 (CICIDS-2017) dataset. Zero false positives with admirable detection accuracy were achieved.
翻訳日:2021-12-08 14:30:01 公開日:2021-12-03
# ベイズ最適化を伴う時系列からのマルチエージェント市場シミュレータの効率的な校正

Efficient Calibration of Multi-Agent Market Simulators from Time Series with Bayesian Optimization ( http://arxiv.org/abs/2112.03874v1 )

ライセンス: Link先を確認
Yuanlu Bai, Henry Lam, Svitlana Vyetrenko, Tucker Balch(参考訳) マルチエージェント市場シミュレーションは、リアルタイム取引にデプロイする前に、トレーニングやトレーディング戦略のテストなど、下流の機械学習や強化学習タスクのための環境を作成するために一般的に使用される。 電子取引市場では、複数の市場参加者の相互作用による価格またはボリューム時系列のみが直接観測可能である。 したがって、マルチエージェント市場環境は、シミュレーションエージェントの相互作用によって生じる時系列が歴史的に似ており、非常に複雑な大規模最適化問題の解決につながるように調整する必要がある。 本稿では,過去の時系列観測からマルチエージェント市場シミュレータパラメータを校正する,シンプルで効率的なフレームワークを提案する。 まず, 潜在非識別可能性問題を回避するための, 適性セットの新たな概念を考える。 第2に、二つの高次元時系列分布間の類似性をテストするために、ボンフェルロニ補正を用いた2つのサンプルkolmogorov-smirnov(k -s)検定を一般化する。 第3に,ベイズ最適化(BO)と信頼領域BO(TuRBO)を用いて,上記の距離距離を最小化することを提案する。 最後に, 数値実験により, フレームワークの効率を実証する。

Multi-agent market simulation is commonly used to create an environment for downstream machine learning or reinforcement learning tasks, such as training or testing trading strategies before deploying them to real-time trading. In electronic trading markets only the price or volume time series, that result from interaction of multiple market participants, are typically directly observable. Therefore, multi-agent market environments need to be calibrated so that the time series that result from interaction of simulated agents resemble historical -- which amounts to solving a highly complex large-scale optimization problem. In this paper, we propose a simple and efficient framework for calibrating multi-agent market simulator parameters from historical time series observations. First, we consider a novel concept of eligibility set to bypass the potential non-identifiability issue. Second, we generalize the two-sample Kolmogorov-Smirnov (K-S) test with Bonferroni correction to test the similarity between two high-dimensional time series distributions, which gives a simple yet effective distance metric between the time series sample sets. Third, we suggest using Bayesian optimization (BO) and trust-region BO (TuRBO) to minimize the aforementioned distance metric. Finally, we demonstrate the efficiency of our framework using numerical experiments.
翻訳日:2021-12-08 14:27:38 公開日:2021-12-03
# 時系列モデリングのための効率的な連続マニフォールド学習

Efficient Continuous Manifold Learning for Time Series Modeling ( http://arxiv.org/abs/2112.03379v1 )

ライセンス: Link先を確認
Seungwoo Jeong, Wonjun Ko, Ahmad Wisnu Mulyadi, Heung-Il Suk(参考訳) 非ユークリッドデータのモデリングは、さまざまな分野におけるディープニューラルネットワークの成功と共に注目されている。 特に、対称正定値行列(SPD)は、適切な統計的表現を学習する能力により、コンピュータビジョン、信号処理、医療画像解析において活発に研究されている。 しかしながら、その強い制約のため、特にディープラーニングフレームワークにおいて、最適化の問題や非効率的な計算コストは依然として困難である。 本稿では,リーマン多様体とコレスキー空間の微分同相写像を利用して最適化問題を効率的に解くだけでなく,計算コストを大幅に削減できることを示す。 さらに,時系列データにおけるダイナミクスモデリングのために,多様体常微分方程式とゲートリカレントニューラルネットワークを系統的に統合して連続多様体学習法を考案する。 注目に値するのは、コレスキー空間における行列のよいパラメータ化のため、リーマン幾何学的測度を備えた提案されたネットワークを訓練することは容易である。 実験により,提案手法は,動作認識と睡眠ステージ分類という2つの分類課題において,既存の多様体法および最先端手法より効率よく,かつ確実に訓練できることを示した。

Modeling non-Euclidean data is drawing attention along with the unprecedented successes of deep neural networks in diverse fields. In particular, symmetric positive definite (SPD) matrix is being actively studied in computer vision, signal processing, and medical image analysis, thanks to its ability to learn appropriate statistical representations. However, due to its strong constraints, it remains challenging for optimization problems or inefficient computation costs, especially, within a deep learning framework. In this paper, we propose to exploit a diffeomorphism mapping between Riemannian manifolds and a Cholesky space, by which it becomes feasible not only to efficiently solve optimization problems but also to reduce computation costs greatly. Further, in order for dynamics modeling in time series data, we devise a continuous manifold learning method by integrating a manifold ordinary differential equation and a gated recurrent neural network in a systematic manner. It is noteworthy that because of the nice parameterization of matrices in a Cholesky space, it is straightforward to train our proposed network with Riemannian geometric metrics equipped. We demonstrate through experiments that the proposed model can be efficiently and reliably trained as well as outperform existing manifold methods and state-of-the-art methods in two classification tasks: action recognition and sleep staging classification.
翻訳日:2021-12-08 13:49:25 公開日:2021-12-03
# 次元化と双曲NN設計のためのネスト双曲空間

Nested Hyperbolic Spaces for Dimensionality Reduction and Hyperbolic NN Design ( http://arxiv.org/abs/2112.03402v1 )

ライセンス: Link先を確認
Xiran Fan, Chun-Hao Yang, Baba C. Vemuri(参考訳) ハイパーボリックニューラルネットワークは、階層的データセットを効果的かつ効率的に表現する能力があるため、近年は人気がある。 これらのネットワークを開発する際の課題は、埋め込み空間、すなわち双曲空間の非線形性にある。 双曲空間はローレンツ群の斉次リーマン多様体である。 既存の手法の多くは(いくつかの例外を除いて)局所線形化を用いて、ユークリッド空間の伝統的なディープニューラルネットワークで使われる様々な操作を並列に定義している。 本稿では,投射(埋め込み)の概念とそれに続く内在的な集約と,双曲空間内での非線形性を用いた,完全双曲型ニューラルネットワークを提案する。 ここでの新規性は、低次元の埋め込み双曲空間にデータを投影するように設計され、従って次元の減少に独立に有用な双曲双曲空間表現をもたらす。 主な理論的貢献は、提案された埋め込みがローレンツ変換の下で等尺かつ同変であることが証明されていることである。 この射影は単純な線形演算で表現できるので計算的に効率的であり、上記の等分散性のため、重み付けが可能である。 ネスト双曲空間表現はネットワークの中核成分であり,それゆえ,我々はまず,ネスト双曲空間表現と接点pca,主測地線解析(pga),ホロッパといった他の次元的縮小法との比較を行う。 この同変埋め込みに基づいて,プロジェクションのパラメータを学習するための,完全双曲グラフ畳み込みニューラルネットワークアーキテクチャを開発した。 最後に,複数の公開データセット上でのネットワークの性能比較実験を行った。

Hyperbolic neural networks have been popular in the recent past due to their ability to represent hierarchical data sets effectively and efficiently. The challenge in developing these networks lies in the nonlinearity of the embedding space namely, the Hyperbolic space. Hyperbolic space is a homogeneous Riemannian manifold of the Lorentz group. Most existing methods (with some exceptions) use local linearization to define a variety of operations paralleling those used in traditional deep neural networks in Euclidean spaces. In this paper, we present a novel fully hyperbolic neural network which uses the concept of projections (embeddings) followed by an intrinsic aggregation and a nonlinearity all within the hyperbolic space. The novelty here lies in the projection which is designed to project data on to a lower-dimensional embedded hyperbolic space and hence leads to a nested hyperbolic space representation independently useful for dimensionality reduction. The main theoretical contribution is that the proposed embedding is proved to be isometric and equivariant under the Lorentz transformations. This projection is computationally efficient since it can be expressed by simple linear operations, and, due to the aforementioned equivariance property, it allows for weight sharing. The nested hyperbolic space representation is the core component of our network and therefore, we first compare this ensuing nested hyperbolic space representation with other dimensionality reduction methods such as tangent PCA, principal geodesic analysis (PGA) and HoroPCA. Based on this equivariant embedding, we develop a novel fully hyperbolic graph convolutional neural network architecture to learn the parameters of the projection. Finally, we present experiments demonstrating comparative performance of our network on several publicly available data sets.
翻訳日:2021-12-08 13:14:08 公開日:2021-12-03
# ProbNum: Pythonの確率的数値

ProbNum: Probabilistic Numerics in Python ( http://arxiv.org/abs/2112.02100v1 )

ライセンス: Link先を確認
Jonathan Wenger, Nicholas Kr\"amer, Marvin Pf\"ortner, Jonathan Schmidt, Nathanael Bosch, Nina Effenberger, Johannes Zenn, Alexandra Gessner, Toni Karvonen, Fran\c{c}ois-Xavier Briol, Maren Mahsereci, Philipp Hennig(参考訳) 確率的数値法(PNMs)は確率的推論によって数値問題を解く。 線形代数、最適化、積分、微分方程式シミュレーションのために開発された。 PNMは自然に問題の事前情報を取り込み、有限計算資源と確率入力による不確かさを定量化する。 本稿では,最先端の確率的数値解法を提供するpythonライブラリprobnumを提案する。 ProbNumは、モジュール設計と既製のラッパーを通じて、特定の問題クラスのためのPNMのカスタム構成を可能にする。 チュートリアル、ドキュメンテーション、開発者ガイド、ベンチマークはwww.probnum.orgで公開されている。

Probabilistic numerical methods (PNMs) solve numerical problems via probabilistic inference. They have been developed for linear algebra, optimization, integration and differential equation simulation. PNMs naturally incorporate prior information about a problem and quantify uncertainty due to finite computational resources as well as stochastic input. In this paper, we present ProbNum: a Python library providing state-of-the-art probabilistic numerical solvers. ProbNum enables custom composition of PNMs for specific problem classes via a modular design as well as wrappers for off-the-shelf use. Tutorials, documentation, developer guides and benchmarks are available online at www.probnum.org.
翻訳日:2021-12-07 18:27:53 公開日:2021-12-03
# 量子アニールを用いた機械学習アルゴリズムによる格子QCDデータの予測と圧縮

Prediction and compression of lattice QCD data using machine learning algorithms on quantum annealer ( http://arxiv.org/abs/2112.02120v1 )

ライセンス: Link先を確認
Boram Yoon, Chia Cheng Chang, Garrett T. Kenyon, Nga T.T. Nguyen, Ermal Rrapaj(参考訳) 量子アニールの効率的な二値最適化機能を利用した格子QCDデータの回帰および圧縮アルゴリズムを提案する。 回帰アルゴリズムでは、入力変数と出力変数の相関関係をスパース符号化機械学習アルゴリズムに符号化する。 トレーニングされた相関パターンは、格子上で測定された他の観測値から、目に見えない格子構成の格子QCD観測値を予測するために使用される。 圧縮アルゴリズムでは,浮動小数点数の格子QCDデータから基底ベクトルの集合から入力データを密に再構成する二分係数への写像を定義する。 再構成は正確ではないため、写像は損失圧縮を定義するが、統計的ゆらぎよりもはるかに小さい再構成誤差で格子qcdデータの入力ベクトルを、合理的に少数のバイナリ係数で再構成することができる。 どちらのアプリケーションでも、D-Wave量子アニールを用いて、機械学習アルゴリズムのNPハードバイナリ最適化問題を解く。

We present regression and compression algorithms for lattice QCD data utilizing the efficient binary optimization ability of quantum annealers. In the regression algorithm, we encode the correlation between the input and output variables into a sparse coding machine learning algorithm. The trained correlation pattern is used to predict lattice QCD observables of unseen lattice configurations from other observables measured on the lattice. In the compression algorithm, we define a mapping from lattice QCD data of floating-point numbers to the binary coefficients that closely reconstruct the input data from a set of basis vectors. Since the reconstruction is not exact, the mapping defines a lossy compression, but, a reasonably small number of binary coefficients are able to reconstruct the input vector of lattice QCD data with the reconstruction error much smaller than the statistical fluctuation. In both applications, we use D-Wave quantum annealers to solve the NP-hard binary optimization problems of the machine learning algorithms.
翻訳日:2021-12-07 18:27:47 公開日:2021-12-03
# OpenAI Codexや他の大規模言語モデルはセキュリティバグの修正に役立つか?

Can OpenAI Codex and Other Large Language Models Help Us Fix Security Bugs? ( http://arxiv.org/abs/2112.02125v1 )

ライセンス: Link先を確認
Hammond Pearce and Benjamin Tan and Baleegh Ahmad and Ramesh Karri and Brendan Dolan-Gavitt(参考訳) 人間の開発者はサイバーセキュリティの弱点のあるコードを生成できる。 スマートなコード補完ツールは、これらの弱点を修復するのに役立つだろうか? 本研究では,大規模言語モデル(LLM)をコード(OpenAIのCodexやAI21のJurassic J-1など)でゼロショット脆弱性修復に利用することを検討する。 我々は,coax llm が安全でないコードの修正バージョンを生成するプロンプトの設計における課題について検討する。 キー情報 -- 意味的にも構文的にも -- を自然言語で表現する多くの方法があるため、これは難しい。 市販のブラックボックス,オフザシェルフ(off-the-shelf)LLM,およびローカルトレーニングされたモデルを用いて,合成,手作り,実世界のセキュリティのシナリオを交互に組み合わせた大規模研究を行うことにより,実世界のオープンソースプロジェクトにおける歴史的バグの58%に加えて,合成および手作りのシナリオの100%をLLMが一括して修復可能であることを示す。

Human developers can produce code with cybersecurity weaknesses. Can emerging 'smart' code completion tools help repair those weaknesses? In this work, we examine the use of large language models (LLMs) for code (such as OpenAI's Codex and AI21's Jurassic J-1) for zero-shot vulnerability repair. We investigate challenges in the design of prompts that coax LLMs into generating repaired versions of insecure code. This is difficult due to the numerous ways to phrase key information -- both semantically and syntactically -- with natural languages. By performing a large scale study of four commercially available, black-box, "off-the-shelf" LLMs, as well as a locally-trained model, on a mix of synthetic, hand-crafted, and real-world security bug scenarios, our experiments show that LLMs could collectively repair 100% of our synthetically generated and hand-crafted scenarios, as well as 58% of vulnerabilities in a selection of historical bugs in real-world open-source projects.
翻訳日:2021-12-07 17:38:05 公開日:2021-12-03
# cbctにおける金属アーティファクト低減のための投影領域におけるビュー一貫性金属セグメンテーション--潜在的な改善の検討

View-Consistent Metal Segmentation in the Projection Domain for Metal Artifact Reduction in CBCT -- An Investigation of Potential Improvement ( http://arxiv.org/abs/2112.02101v1 )

ライセンス: Link先を確認
Tristan M. Gottschalk, Andreas Maier, Florian Kordon, Bj\"orn W. Kreher(参考訳) 外傷的介入の陽性は、挿入された金属インプラントの術中評価に依存する。 金属人工物の発生により,この評価の質は,いわゆる金属人工物還元法(MAR)の性能に大きく依存する。 これらのMAR法の大部分は、挿入された金属オブジェクトの事前セグメンテーションを必要とする。 したがって,大きな欠点があるにもかかわらず,再構成3次元ボリュームにおける比較的単純なしきい値に基づくセグメンテーション手法を適用することが一般的である。 本発表では、下流MARの結果に対して、セグメンテーションタスクを学習ベースでビュー一貫性のある2次元投影方式に移行する可能性について検討する。 本研究で得られた実データを用いて学習を行う,比較的単純な2次元プロジェクション・アズ・セグメンテーションネットワークについて検討した。 2次元プロジェクションワイドセグメンテーションに伴う欠点を克服するために、一貫性フィルタを提案する。 新しいセグメンテーションマスクを用いて,fsmarの標準版とfsmar版の比較を行い,シフトセグメンテーションドメインの影響について検討した。 実測データに対する定量的・定性的評価により,mar性能が向上し,金属品に対する非感受性が高かった。 再建部のFoVの外側に金属がある場合や、金属が消える場合については、人工物が大幅に減少することを示すことができる。 これにより,全スライスの平均PSNR値は約3dB w.r.tとなり,1スライスで最大9dBとなった。 以上の結果から,fsMARなどのMAR手法を用いて,2次元分割法への移行が下流データに与える影響が示唆された。

The positive outcome of a trauma intervention depends on an intraoperative evaluation of inserted metallic implants. Due to occurring metal artifacts, the quality of this evaluation heavily depends on the performance of so-called Metal Artifact Reduction methods (MAR). The majority of these MAR methods require prior segmentation of the inserted metal objects. Therefore, typically a rather simple thresholding-based segmentation method in the reconstructed 3D volume is applied, despite some major disadvantages. With this publication, the potential of shifting the segmentation task to a learning-based, view-consistent 2D projection-based method on the downstream MAR's outcome is investigated. For segmenting the present metal, a rather simple learning-based 2D projection-wise segmentation network that is trained using real data acquired during cadaver studies, is examined. To overcome the disadvantages that come along with a 2D projection-wise segmentation, a Consistency Filter is proposed. The influence of the shifted segmentation domain is investigated by comparing the results of the standard fsMAR with a modified fsMAR version using the new segmentation masks. With a quantitative and qualitative evaluation on real cadaver data, the investigated approach showed an increased MAR performance and a high insensitivity against metal artifacts. For cases with metal outside the reconstruction's FoV or cases with vanishing metal, a significant reduction in artifacts could be shown. Thus, increases of up to roughly 3 dB w.r.t. the mean PSNR metric over all slices and up to 9 dB for single slices were achieved. The shown results reveal a beneficial influence of the shift to a 2D-based segmentation method on real data for downstream use with a MAR method, like the fsMAR.
翻訳日:2021-12-07 17:31:26 公開日:2021-12-03
# マッチングとランダム化による住宅ローン貸付の非現実的公平性

Counterfactual Fairness in Mortgage Lending via Matching and Randomization ( http://arxiv.org/abs/2112.02170v1 )

ライセンス: Link先を確認
Sama Ghoba, Nathan Colaner(参考訳) 住宅ローンローンの不公平は、米国の人種や民族間の世代間不平等を生み出している。 多くの研究がこの問題に対処しているが、既存の研究は相関に基づく技術に焦点を当てている。 私たちの研究では、公正な機械学習モデルをトレーニングするために、偽りの公平さの枠組みを使っています。 本研究では,HMDA(Home Mortgage Disclosure Act)データで利用可能な変数の因果グラフを提案する。 前者のアプローチはいかなるモデリングの仮定にも依存していないため、潜在変数モデリングのアプローチではなくマッチングベースのアプローチを使う。 さらに、マッチングは、競合変数が分離された反ファクトペアを提供する。 まず、アフリカ系アメリカ人と非ヒスパニック白人のサブ人口間の住宅ローン承認の不公平性と金利を実証する。 そして、マッチングを用いてバランスの取れたデータを持つことは、機械学習モデルの完全な正当性を保証するものではないことを示す。

Unfairness in mortgage lending has created generational inequality among racial and ethnic groups in the US. Many studies address this problem, but most existing work focuses on correlation-based techniques. In our work, we use the framework of counterfactual fairness to train fair machine learning models. We propose a new causal graph for the variables available in the Home Mortgage Disclosure Act (HMDA) data. We use a matching-based approach instead of the latent variable modeling approach, because the former approach does not rely on any modeling assumptions. Furthermore, matching provides us with counterfactual pairs in which the race variable is isolated. We first demonstrate the unfairness in mortgage approval and interest rates between African-American and non-Hispanic White sub-populations. Then, we show that having balanced data using matching does not guarantee perfect counterfactual fairness of the machine learning models.
翻訳日:2021-12-07 17:07:40 公開日:2021-12-03
# 銀行ローン問題に対するニューラル擬似ラベル最適化

Neural Pseudo-Label Optimism for the Bank Loan Problem ( http://arxiv.org/abs/2112.02185v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Shaun Singh, Edward Chou, Alexander C. Berg, Jakob Foerster(参考訳) 我々は、融資者がローンを発行するか否かを判断する \emph{bank loan} 問題に最もよく代表される分類問題の種類について検討する。 融資者は、最初にローンが発行された場合、顧客がローンを返済するかどうかのみを観察し、モデル化された決定は、将来の決定のために融資者が利用できるデータに影響を与える。 結果として、貸し手のアルゴリズムが自己充足モデルで 'get stuck'' を行うことが可能となる。 このモデルは、拒否されたデータの真のラベルを見ることなく、無限の後悔を蓄積するため、偽陰性を修正することはない。 線形モデルの場合、この問題はモデル予測に直接最適化を加えることで解決できる。 しかし、ディープニューラルネットワークを用いた関数近似ケースに拡張する手法は少ない。 Pseudo-Label Optimism (PLOT) はDNNに適用可能な概念的かつ計算学的にシンプルな手法である。 PLOT{} は、現在のモデルが決定している決定点のサブセットに楽観的なラベルを追加し、これまでのすべてのデータ(これらのポイントと楽観的なラベルを含む)でモデルをトレーニングし、最終的に結果の \emph{optimistic} モデルを意思決定に使用する。 PLOT{}は3つの困難なベンチマーク問題に対して、最小限のハイパーパラメータチューニングを必要とする競争性能を実現する。 また,PLOT{}は,リプシッツおよびロジスティック平均ラベルモデルの下で,またデータの分離性条件下で,対数的後悔の保証を満たすことを示す。

We study a class of classification problems best exemplified by the \emph{bank loan} problem, where a lender decides whether or not to issue a loan. The lender only observes whether a customer will repay a loan if the loan is issued to begin with, and thus modeled decisions affect what data is available to the lender for future decisions. As a result, it is possible for the lender's algorithm to ``get stuck'' with a self-fulfilling model. This model never corrects its false negatives, since it never sees the true label for rejected data, thus accumulating infinite regret. In the case of linear models, this issue can be addressed by adding optimism directly into the model predictions. However, there are few methods that extend to the function approximation case using Deep Neural Networks. We present Pseudo-Label Optimism (PLOT), a conceptually and computationally simple method for this setting applicable to DNNs. \PLOT{} adds an optimistic label to the subset of decision points the current model is deciding on, trains the model on all data so far (including these points along with their optimistic labels), and finally uses the resulting \emph{optimistic} model for decision making. \PLOT{} achieves competitive performance on a set of three challenging benchmark problems, requiring minimal hyperparameter tuning. We also show that \PLOT{} satisfies a logarithmic regret guarantee, under a Lipschitz and logistic mean label model, and under a separability condition on the data.
翻訳日:2021-12-07 17:07:29 公開日:2021-12-03
# 地域分枝における探索学習

Learning to Search in Local Branching ( http://arxiv.org/abs/2112.02195v1 )

ライセンス: Link先を確認
Defeng Liu, Matteo Fischetti and Andrea Lodi(参考訳) 混合整数線形プログラミング問題(MILP)に対する高品質な解を見つけることは、多くの実用アプリケーションにとって非常に重要である。 この点に関して,改良型局所分岐法(LB)が提案され,MILPにおける局所探索法の発展に大きく影響している。 このアルゴリズムは、いわゆる局所分岐制約によって定義される解近傍の列、すなわち基準解からの距離を制限する線形不等式を反復的に探索する。 LBアルゴリズムでは, 近傍サイズの選択は性能上重要である。 元のLB方式の保守的な値によって初期化されているが、我々の新しい観察では、最良のサイズは特定のMILPインスタンスに強く依存している。 本研究では,探索近傍の大きさと基礎となるLBアルゴリズムの挙動の関係を考察し,LBヒューリスティックの近傍探索を導くための傾き型フレームワークを提案する。 この枠組みは二段階戦略から成り立っている。 第1フェーズでは、回帰タスクを通じて第1イテレーションにおけるLB近傍のサイズを予測するために、スケールされた回帰モデルを訓練する。 第2フェーズでは、強化学習を活用して、強化された近隣探索戦略を考案し、次のイテレーションでサイズを動的に適応させる。 計算によって、近隣の規模が実際に学習できることが示され、性能が向上し、全体的なアルゴリズムがインスタンスサイズとインスタンス全体の両方に関してうまく一般化される。

Finding high-quality solutions to mixed-integer linear programming problems (MILPs) is of great importance for many practical applications. In this respect, the refinement heuristic local branching (LB) has been proposed to produce improving solutions and has been highly influential for the development of local search methods in MILP. The algorithm iteratively explores a sequence of solution neighborhoods defined by the so-called local branching constraint, namely, a linear inequality limiting the distance from a reference solution. For a LB algorithm, the choice of the neighborhood size is critical to performance. Although it was initialized by a conservative value in the original LB scheme, our new observation is that the best size is strongly dependent on the particular MILP instance. In this work, we investigate the relation between the size of the search neighborhood and the behavior of the underlying LB algorithm, and we devise a leaning based framework for guiding the neighborhood search of the LB heuristic. The framework consists of a two-phase strategy. For the first phase, a scaled regression model is trained to predict the size of the LB neighborhood at the first iteration through a regression task. In the second phase, we leverage reinforcement learning and devise a reinforced neighborhood search strategy to dynamically adapt the size at the subsequent iterations. We computationally show that the neighborhood size can indeed be learned, leading to improved performances and that the overall algorithm generalizes well both with respect to the instance size and, remarkably, across instances.
翻訳日:2021-12-07 15:41:03 公開日:2021-12-03
# 心エコー法による経時的整合性の検討

Echocardiography Segmentation with Enforced Temporal Consistency ( http://arxiv.org/abs/2112.02102v1 )

ライセンス: Link先を確認
Nathan Painchaud, Nicolas Duchateau, Olivier Bernard, Pierre-Marc Jodoin(参考訳) 畳み込みニューラルネットワーク(cnn)は2次元超音波像をセグメント化できることを実証した。 しかし、近年では、エンドディストル画像とエンドシストル画像のサーバ内変動が到達しているが、CNNは、時間的情報を活用して、サイクル全体にわたって正確で時間的に一貫したセグメンテーションマップを提供することに苦慮している。 このような一貫性は、心臓機能を正確に記述するために必要であり、多くの心血管疾患の診断に必要なステップである。 本稿では, 分節配列が時間的および解剖学的一貫性の制約から恩恵を受けるように, 2次元以上の長軸心臓形状を学習するための枠組みを提案する。 提案手法は, 心エコー図を入力として処理し, 2段階に分けて処理するポストプロセッシング法である。 (i)心配列の全体的な動態と時空間的不整合の同定 (ii)不一致を訂正する。 心不全の同定と修正は、心臓の形状の生理学的に解釈可能な埋め込みを学ぶように訓練された拘束されたオートエンコーダに依存している。 我々は、CAMUSデータセットから98のフルサイクルシーケンスでフレームワークをテストしました。 時間的正則化法は,全シーケンスのセグメンテーションの精度を向上するだけでなく,時間的および解剖学的整合性も強化する。

Convolutional neural networks (CNN) have demonstrated their ability to segment 2D cardiac ultrasound images. However, despite recent successes according to which the intra-observer variability on end-diastole and end-systole images has been reached, CNNs still struggle to leverage temporal information to provide accurate and temporally consistent segmentation maps across the whole cycle. Such consistency is required to accurately describe the cardiac function, a necessary step in diagnosing many cardiovascular diseases. In this paper, we propose a framework to learn the 2D+time long-axis cardiac shape such that the segmented sequences can benefit from temporal and anatomical consistency constraints. Our method is a post-processing that takes as input segmented echocardiographic sequences produced by any state-of-the-art method and processes it in two steps to (i) identify spatio-temporal inconsistencies according to the overall dynamics of the cardiac sequence and (ii) correct the inconsistencies. The identification and correction of cardiac inconsistencies relies on a constrained autoencoder trained to learn a physiologically interpretable embedding of cardiac shapes, where we can both detect and fix anomalies. We tested our framework on 98 full-cycle sequences from the CAMUS dataset, which will be rendered public alongside this paper. Our temporal regularization method not only improves the accuracy of the segmentation across the whole sequences, but also enforces temporal and anatomical consistency.
翻訳日:2021-12-07 15:35:27 公開日:2021-12-03
# コミュニケーション制約下における分散適応学習

Distributed Adaptive Learning Under Communication Constraints ( http://arxiv.org/abs/2112.02129v1 )

ライセンス: Link先を確認
Marco Carpentiero, Vincenzo Matta, Ali H. Sayed(参考訳) 本稿では,通信制約下での適応型分散学習戦略について検討する。 ストリーミングデータの連続的観測からオンライン最適化問題を解決するエージェントのネットワークを考える。 エージェントは、各エージェントが隣人と情報をローカルに交換することを許可する分散協調戦略を実行する。 通信上の制約に対処するために、交換された情報は避けられない圧縮でなければならない。 本稿では,ACTC(Adapt-Compress -Then-Combine)と呼ばれる拡散戦略を提案する。 一 各エージェントが一定のステップサイズで個別の確率的段階的な更新を行う適応段階 二 最近導入された確率圧縮演算子のクラスを利用する圧縮ステップ及び 三 各エージェントが隣人から受信した圧縮更新を結合する組み合わせ工程 この作品の際立った要素は以下の通りである。 まず,一定のステップサイズ(減少とは対照的に)が非定常的な変動に対してリアルタイムに応答する上で重要である適応戦略に注目する。 第2に、有向グラフの一般クラスと、トポロジーと学習の間の相互作用を強化するための左派と学派の組み合わせポリシーを考える。 第3に、すべての個々のエージェントのコスト関数に対して強い凸性を仮定する関連作品とは対照的に、ネットワークレベルでのみ強い凸性が必要であり、単一のエージェントが強い凸コストを持ち、残りのエージェントが非凸コストを持つ場合でも満足できる条件である。 第4に、(合意とは対照的に)拡散戦略に焦点を当てます。 圧縮情報の要求設定の下では、ACTCが所望のオプティマイザを中心に変動し、隣り合うエージェント間で交換されるビットのビット量で顕著な節約を達成する。

This work examines adaptive distributed learning strategies designed to operate under communication constraints. We consider a network of agents that must solve an online optimization problem from continual observation of streaming data. The agents implement a distributed cooperative strategy where each agent is allowed to perform local exchange of information with its neighbors. In order to cope with communication constraints, the exchanged information must be unavoidably compressed. We propose a diffusion strategy nicknamed as ACTC (Adapt-Compress-Then -Combine), which relies on the following steps: i) an adaptation step where each agent performs an individual stochastic-gradient update with constant step-size; ii) a compression step that leverages a recently introduced class of stochastic compression operators; and iii) a combination step where each agent combines the compressed updates received from its neighbors. The distinguishing elements of this work are as follows. First, we focus on adaptive strategies, where constant (as opposed to diminishing) step-sizes are critical to respond in real time to nonstationary variations. Second, we consider the general class of directed graphs and left-stochastic combination policies, which allow us to enhance the interplay between topology and learning. Third, in contrast with related works that assume strong convexity for all individual agents' cost functions, we require strong convexity only at a network level, a condition satisfied even if a single agent has a strongly-convex cost and the remaining agents have non-convex costs. Fourth, we focus on a diffusion (as opposed to consensus) strategy. Under the demanding setting of compressed information, we establish that the ACTC iterates fluctuate around the desired optimizer, achieving remarkable savings in terms of bits exchanged between neighboring agents.
翻訳日:2021-12-07 15:31:33 公開日:2021-12-03
# ウルドゥー詩の探索的データ分析

Exploratory Data Analysis of Urdu Poetry ( http://arxiv.org/abs/2112.02145v1 )

ライセンス: Link先を確認
Shahid Rabbani and Zahid Ahmed Qureshi(参考訳) この研究は、ウルドゥー詩で最も評価されたジャンルであるガーザルに関する数値的な洞察を与える。 800年にわたって制作された4,754人の詩人の48,761点の詩的作品を用いて、ウルドゥ・ガザルが他の形式よりも人気を博し、賞賛される主な特徴を考察した。 愛、自然、鳥、花などを表現するのに使われる言葉の種類について詳細な説明がある。 また、歌人が自分の好きな詩に話しかける方法も考えられている。 詩のスタイルは多次元スケーリングを用いて数値的に分析され、イクバルやガリブ、ミール・タカイ・ミール、ミール・ダードといった批評家の注意を引いた異なる詩作品間の語彙的多様性と類似性や相違を明らかにする。 ここで得られた分析は、特に計算スタイリスティックス、神経認知的詩学、感情分析の研究に有用である。

The study presented here provides numerical insight into ghazal -- the most appreciated genre in Urdu poetry. Using 48,761 poetic works from 4,754 poets produced over a period of 800 years, this study explores the main features of Urdu ghazal that make it popular and admired more than other forms. A detailed explanation is provided as to the types of words used for expressing love, nature, birds, and flowers etc. Also considered is the way in which the poets addressed their loved ones in their poetry. The style of poetry is numerically analyzed using Multi Dimensional Scaling to reveal the lexical diversity and similarities/differe nces between the different poetic works that have drawn the attention of critics, such as Iqbal and Ghalib, Mir Taqi Mir and Mir Dard. The analysis produced here is particularly helpful for research in computational stylistics, neurocognitive poetics, and sentiment analysis.
翻訳日:2021-12-07 15:31:06 公開日:2021-12-03
# NN-LUT:効率的な変圧器推論のための非線形演算のニューラル近似

NN-LUT: Neural Approximation of Non-Linear Operations for Efficient Transformer Inference ( http://arxiv.org/abs/2112.02191v1 )

ライセンス: Link先を確認
Joonsang Yu, Junki Park, Seongmin Park, Minsoo Kim, Sihwa Lee, Dong Hyun Lee, Jungwook Choi(参考訳) GELU、Layer normalization、Softmaxといった非線形演算は、トランスフォーマーモデルのブロックの構築には不可欠だがコストがかかる。 いくつかの先行研究は、ルックアップテーブルや整数計算でこれらの操作を単純化したが、そのような近似は精度が劣り、長いレイテンシでかなりのハードウェアコストがかかる。 本稿では,効率的なトランスフォーマー推論のためのハードウェアフレンドリな近似フレームワークを提案する。 我々のフレームワークは、その構造を等価にLUTに変換する普遍近似器として、単純なニューラルネットワークを使用している。 NN-LUTと呼ばれる提案されたフレームワークは、人気のあるBERTモデルにおけるすべての非線形操作を、領域、消費電力、レイテンシを大幅に削減して、正確に置き換えることができる。

Non-linear operations such as GELU, Layer normalization, and Softmax are essential yet costly building blocks of Transformer models. Several prior works simplified these operations with look-up tables or integer computations, but such approximations suffer inferior accuracy or considerable hardware cost with long latency. This paper proposes an accurate and hardware-friendly approximation framework for efficient Transformer inference. Our framework employs a simple neural network as a universal approximator with its structure equivalently transformed into a LUT. The proposed framework called NN-LUT can accurately replace all the non-linear operations in popular BERT models with significant reductions in area, power consumption, and latency.
翻訳日:2021-12-07 15:09:14 公開日:2021-12-03
# インターネットを利用した高次元時系列予測のための埋め込みとファジィ時系列の組み合わせ

Combining Embeddings and Fuzzy Time Series for High-Dimensional Time Series Forecasting in Internet of Energy Applications ( http://arxiv.org/abs/2112.02140v1 )

ライセンス: Link先を確認
Hugo Vinicius Bitencourt, Luiz Augusto Facury de Souza, Matheus Cascalho dos Santos, Petr\^onio C\^andido de Lima e Silva, Frederico Gadelha Guimar\~aes(参考訳) 電力消費の予測は、スマートグリッドが効率的な利用を確保するためにエネルギーを管理し保存するのを助けるために不可欠である。 顧客レベルでの正確なエネルギー予測は、電力グリッドシステム全体の効率改善に直接反映されるが、気象や占有パターンなど多くの影響要因により、建設エネルギーの使用予測は複雑な作業である。 中毒症では、多センサ環境の出現とエネルギー消費者とスマートグリッドとの間の双方向のコミュニケーションが考慮され、高次元の時系列がエネルギーのインターネット(IoE)でますます出現する。 したがって、高次元時系列を計算できる手法は、スマートビルディングやIoEアプリケーションにおいて非常に有用である。 Fuzzy Time Series (FTS) モデルは、実装が容易で高精度なデータ駆動非パラメトリックモデルとして際立っている。 残念ながら、すべての機能がモデルのトレーニングに使われた場合、既存のftsモデルは実現不可能である。 本稿では,高次元データを低次元埋め込み空間に投影し,この低次元表現における多変量fts法を用いて,高次元時系列を扱う新しい手法を提案する。 これらの手法を組み合わせることで、多変量時系列の複雑な内容をより正確に予測できる。

The prediction of residential power usage is essential in assisting a smart grid to manage and preserve energy to ensure efficient use. An accurate energy forecasting at the customer level will reflect directly into efficiency improvements across the power grid system, however forecasting building energy use is a complex task due to many influencing factors, such as meteorological and occupancy patterns. In addiction, high-dimensional time series increasingly arise in the Internet of Energy (IoE), given the emergence of multi-sensor environments and the two way communication between energy consumers and the smart grid. Therefore, methods that are capable of computing high-dimensional time series are of great value in smart building and IoE applications. Fuzzy Time Series (FTS) models stand out as data-driven non-parametric models of easy implementation and high accuracy. Unfortunately, the existing FTS models can be unfeasible if all features were used to train the model. We present a new methodology for handling high-dimensional time series, by projecting the original high-dimensional data into a low dimensional embedding space and using multivariate FTS approach in this low dimensional representation. Combining these techniques enables a better representation of the complex content of multivariate time series and more accurate forecasts.
翻訳日:2021-12-07 14:20:18 公開日:2021-12-03
# アクティブ話者検出のための空間時間グラフの学習

Learning Spatial-Temporal Graphs for Active Speaker Detection ( http://arxiv.org/abs/2112.01479v2 )

ライセンス: Link先を確認
Sourya Roy, Kyle Min, Subarna Tripathi, Tanaya Guha and Somdeb Majumdar(参考訳) 音声と視覚データ間のモーダル関係を符号化するために、長距離マルチモーダルグラフを学習するSPELLと呼ばれる新しいフレームワークによるアクティブ話者検出の問題に対処する。 我々は,長期依存を認識したノード分類タスクとしてアクティブな話者検出を行った。 まず、各ノードが1人に対応するように、ビデオからグラフを構築する。 同じアイデンティティを表すノードは、定義された時間ウィンドウ内でエッジを共有する。 同じビデオフレーム内のノードも、対人インタラクションをエンコードするために接続される。 ava-activespeakerデータセットに関する広範な実験を通じて、明示的な空間的および時間的構造によるグラフベースの表現の学習が、全体的なパフォーマンスを大幅に改善することを示す。 SPELLはいくつかの関連するベースラインを上回り、計算コストを桁違いに抑えながら、最先端のモデルと同等に動作します。

We address the problem of active speaker detection through a new framework, called SPELL, that learns long-range multimodal graphs to encode the inter-modal relationship between audio and visual data. We cast active speaker detection as a node classification task that is aware of longer-term dependencies. We first construct a graph from a video so that each node corresponds to one person. Nodes representing the same identity share edges between them within a defined temporal window. Nodes within the same video frame are also connected to encode inter-person interactions. Through extensive experiments on the Ava-ActiveSpeaker dataset, we demonstrate that learning graph-based representation, owing to its explicit spatial and temporal structure, significantly improves the overall performance. SPELL outperforms several relevant baselines and performs at par with state of the art models while requiring an order of magnitude lower computation cost.
翻訳日:2021-12-07 12:05:54 公開日:2021-12-03
# (参考訳) 自然画像マッチングのためのトリマップ誘導機能マイニングと融合ネットワーク [全文訳有]

Trimap-guided Feature Mining and Fusion Network for Natural Image Matting ( http://arxiv.org/abs/2112.00510v2 )

ライセンス: CC BY 4.0
Weihao Jiang, Dongdong Yu, Zhaozhi Xie, Yaoyi Li, Zehuan Yuan, Hongtao Lu(参考訳) 画素レベルの予測を伴うトリマップベースのマッティングにおいて,トリマップガイダンスの利用とマルチレベル特徴の融合が重要な問題である。 トリマップガイダンスを利用するために、既存のほとんどのアプローチは、単にトリマップとイメージを結合してディープネットワークをフィードしたり、さらにトリマップガイダンスを抽出するために余分なネットワークを適用し、効率と有効性の矛盾を満たす。 新たなコンテンツベースの機能融合では、ほとんどの既存のマッティングメソッドは、興味のあるオブジェクトに関連する強力な意味情報を持つグローバル機能のガイダンスが欠けているローカル機能のみに焦点を当てる。 本稿では,TMP(Trimap-guided non-background multi-scale pooling)モジュールとGLF(Global-local context-aware fusion)モジュールからなる,トリマップ誘導型機能マイニング・フュージョンネットワークを提案する。 トリマップが強力なセマンティックガイダンスを提供することを考慮し、我々のTMPモジュールは、余分なパラメータなしでトリマップのガイダンスの下で興味深いオブジェクトを効果的に特徴マイニングする。 さらに,我々のglfモジュールは,tmpモジュールによってマイニングされた興味深いオブジェクトのグローバルセマンティクス情報を用いて,効果的なグローバルローカルコンテキストアウェアマルチレベル機能融合を導出する。 さらに、高品質なイメージマット化を進めるために、共通の興味深いオブジェクトマットング(ciom)データセットを構築します。 composition-1kテストセット、Alphamattingベンチマーク、CIOMテストセットの実験結果は、我々のメソッドが最先端のアプローチよりも優れていることを示している。 コードとモデルは近々公開される予定だ。

Utilizing trimap guidance and fusing multi-level features are two important issues for trimap-based matting with pixel-level prediction. To utilize trimap guidance, most existing approaches simply concatenate trimaps and images together to feed a deep network or apply an extra network to extract more trimap guidance, which meets the conflict between efficiency and effectiveness. For emerging content-based feature fusion, most existing matting methods only focus on local features which lack the guidance of a global feature with strong semantic information related to the interesting object. In this paper, we propose a trimap-guided feature mining and fusion network consisting of our trimap-guided non-background multi-scale pooling (TMP) module and global-local context-aware fusion (GLF) modules. Considering that trimap provides strong semantic guidance, our TMP module focuses effective feature mining on interesting objects under the guidance of trimap without extra parameters. Furthermore, our GLF modules use global semantic information of interesting objects mined by our TMP module to guide an effective global-local context-aware multi-level feature fusion. In addition, we build a common interesting object matting (CIOM) dataset to advance high-quality image matting. Experimental results on the Composition-1k test set, Alphamatting benchmark, and our CIOM test set demonstrate that our method outperforms state-of-the-art approaches. Code and models will be publicly available soon.
翻訳日:2021-12-07 09:37:28 公開日:2021-12-03
# (参考訳) ソースコード理解を改善するためのグラフ条件付きスパースアテンション [全文訳有]

Graph Conditioned Sparse-Attention for Improved Source Code Understanding ( http://arxiv.org/abs/2112.00663v2 )

ライセンス: CC BY 4.0
Junyan Cheng, Iordanis Fostiropoulos and Barry Boehm(参考訳) トランスフォーマーアーキテクチャはソースコード表現の学習に成功している。 抽象構文木(AST)のようなグラフ表現とソースコードシーケンスとの融合により、大きな入力シーケンス長に対して計算的に抽出可能な現在のアプローチが用いられる。 ソースコードは、効果的にモデリングするためにより大きなシーケンス長を必要とする長距離依存関係を持つことができる。 現在のアプローチでは、シーケンス長に関する計算とメモリコストの2次的な成長がある。 このようなモデルを現実的なシナリオで使うのは難しい。 本研究では,疎自己注意機構の注意マスクとしてグラフ隣接行列を用いて,そのグラフモダリティを考慮したソースコードスニペットの条件付けと,長距離トークン依存性をモデル化するためのグラフ拡散機構の利用を提案する。 提案手法は,コード要約タスクにおけるBLEU, METEOR, ROUGE-Lの計測結果に到達し, 可変誤用タスクにおけるほぼ最先端の精度を示す。 本モデルでは, メモリ使用量と推定時間は, 入力シーケンス長に対して, 以前の2次成長と比較して線形成長する。

Transformer architectures have been successfully used in learning source code representations. The fusion between a graph representation like Abstract Syntax Tree (AST) and a source code sequence makes the use of current approaches computationally intractable for large input sequence lengths. Source code can have long-range dependencies that require larger sequence lengths to model effectively. Current approaches have a quadratic growth in computational and memory costs with respect to the sequence length. Using such models in practical scenarios is difficult. In this work, we propose the conditioning of a source code snippet with its graph modality by using the graph adjacency matrix as an attention mask for a sparse self-attention mechanism and the use of a graph diffusion mechanism to model longer-range token dependencies. Our model reaches state-of-the-art results in BLEU, METEOR, and ROUGE-L metrics for the code summarization task and near state-of-the-art accuracy in the variable misuse task. The memory use and inference time of our model have linear growth with respect to the input sequence length as compared to the quadratic growth of previous works.
翻訳日:2021-12-07 09:23:05 公開日:2021-12-03
# (参考訳) mdfm: 単発学習のための多次元fusingモデル [全文訳有]

MDFM: Multi-Decision Fusing Model for Few-Shot Learning ( http://arxiv.org/abs/2112.00690v2 )

ライセンス: CC BY 4.0
Shuai Shao, Lei Xing, Rui Xu, Weifeng Liu, Yan-Jiang Wang, Bao-Di Liu(参考訳) 近年、研究者はデータスカース問題に対処するために、数ショット学習(FSL)タスクに注意を払っている。 標準のFSLフレームワークは2つのコンポーネントで構成されています。 i)プリトレイン。 ベースデータを使用してCNNベースの特徴抽出モデル(FEM)を生成する。 ii)メタテスト。 トレーニングされたFEMを新しいデータ(カテゴリはベースデータとは異なる)に適用して、機能埋め込みを取得して認識する。 研究者はFSLで驚くべき突破口を作ったが、依然として根本的な問題が残っている。 基礎データを持つ訓練されたFEMは、通常、新しいクラスに完璧に適応できないため、新しいデータの特徴は分散シフト問題を引き起こす可能性がある。 この課題に対処するために、異なるFEMに基づく決定の大部分が弱い決定と見なされているとしても、すべてのクラスで利用できないが、特定のカテゴリで十分な性能を発揮すると仮定する。 この仮定にインスパイアされたMDFM(Multi-Decision Fusing Model)は,複数のFEMに基づく決定を包括的に検討し,モデルの有効性とロバスト性を向上する手法である。 MDFMは単純で柔軟な非パラメトリック法であり、既存のFEMに直接適用することができる。 さらに、提案したMDFMを2つのFSL設定(教師付きおよび半教師付き設定)に拡張する。 提案手法を5つのベンチマークデータセットで評価し,3.4%-7.3%の大幅な改善を達成した。

In recent years, researchers pay growing attention to the few-shot learning (FSL) task to address the data-scarce problem. A standard FSL framework is composed of two components: i) Pre-train. Employ the base data to generate a CNN-based feature extraction model (FEM). ii) Meta-test. Apply the trained FEM to the novel data (category is different from base data) to acquire the feature embeddings and recognize them. Although researchers have made remarkable breakthroughs in FSL, there still exists a fundamental problem. Since the trained FEM with base data usually cannot adapt to the novel class flawlessly, the novel data's feature may lead to the distribution shift problem. To address this challenge, we hypothesize that even if most of the decisions based on different FEMs are viewed as weak decisions, which are not available for all classes, they still perform decently in some specific categories. Inspired by this assumption, we propose a novel method Multi-Decision Fusing Model (MDFM), which comprehensively considers the decisions based on multiple FEMs to enhance the efficacy and robustness of the model. MDFM is a simple, flexible, non-parametric method that can directly apply to the existing FEMs. Besides, we extend the proposed MDFM to two FSL settings (i.e., supervised and semi-supervised settings). We evaluate the proposed method on five benchmark datasets and achieve significant improvements of 3.4%-7.3% compared with state-of-the-arts.
翻訳日:2021-12-07 09:10:27 公開日:2021-12-03
# (参考訳) マルチモーダルアプリケーション:画像ミーム生成 [全文訳有]

Multi-modal application: Image Memes Generation ( http://arxiv.org/abs/2112.01651v1 )

ライセンス: CC BY 4.0
Zhiyuan Liu, Chuanzheng Sun, Yuxin Jiang, Shiqi Jiang, Mei Ming(参考訳) Memeは面白い言葉だ。 インターネットミームは、世界、メディア、そして私たちの生活に対する私たちの認識の変化に関するユニークな洞察を提供する。 インターネットを長くサーフィンすれば、インターネットのどこかでそれを見ることができます。 ソーシャルメディアのプラットフォームと便利な画像の普及により、Image Memeは有名になった。 画像ミームはポップカルチャーの一種となり、ソーシャルメディア、ブログ、オープンメッセージ上でのコミュニケーションにおいて重要な役割を果たしている。 人工知能の開発とディープラーニングの広範な利用により、自然言語処理(nlp)とコンピュータビジョン(cv)は、ミーム生成を含む生活におけるより多くの問題を解決するためにも利用できる。 インターネットミームは一般的にイメージの形をとり、ミームテンプレート(画像)とキャプション(自然言語文)を組み合わせて作成される。 本稿では,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャであるmeme generatorを提案する。 与えられた入力文に対して、私たちはMemeテンプレート選択モデルを使用して、表現する感情を決定し、画像テンプレートを選択する。 そして、ミームキャプションジェネレータにキャプションとミームを生成する。 コードとモデルはgithubで利用可能

Meme is an interesting word. Internet memes offer unique insights into the changes in our perception of the world, the media and our own lives. If you surf the Internet for long enough, you will see it somewhere on the Internet. With the rise of social media platforms and convenient image dissemination, Image Meme has gained fame. Image memes have become a kind of pop culture and they play an important role in communication over social media, blogs, and open messages. With the development of artificial intelligence and the widespread use of deep learning, Natural Language Processing (NLP) and Computer Vision (CV) can also be used to solve more problems in life, including meme generation. An Internet meme commonly takes the form of an image and is created by combining a meme template (image) and a caption (natural language sentence). In our project, we propose an end-to-end encoder-decoder architecture meme generator. For a given input sentence, we use the Meme template selection model to determine the emotion it expresses and select the image template. Then generate captions and memes through to the meme caption generator. Code and models are available at github
翻訳日:2021-12-07 05:01:18 公開日:2021-12-03
# (参考訳) 歴史地図画像からリッチリンクされたジオメタデータの自動生成手法 [全文訳有]

An Automatic Approach for Generating Rich, Linked Geo-Metadata from Historical Map Images ( http://arxiv.org/abs/2112.01671v1 )

ライセンス: CC BY 4.0
Zekun Li, Yao-Yi Chiang, Sasan Tavakkol, Basel Shbita, Johannes H. Uhl, Stefan Leyk, and Craig A. Knoblock(参考訳) 歴史的地図には、長期にわたる他の場所(例えば、アメリカの歴史的地形図では125年)の詳細な地理情報が含まれている。 しかし、これらの地図は通常、検索可能なメタデータなしでスキャンされた画像として存在する。 過去の地図を検索可能にする既存のアプローチは、メタデータを生成するのに面倒な手作業(クラウドソーシングを含む)に依存している。 オプティカル文字認識(OCR)ソフトウェアは、必要な手作業を軽減することができるが、認識結果は、場所のフレーズではなく個々の単語である(例えば、"Black"と"Mountain"対"Black Mountain")。 本稿では,歴史地図画像の検索と索引付けの現実問題に対するエンドツーエンドアプローチを提案する。 このアプローチは,過去の地図画像を自動的に処理してテキスト内容を抽出し,大規模な地理空間知識ベースにリンクしたメタデータセットを生成する。 RDF(Resource Description Framework)フォーマットの関連メタデータは、カリフォルニア州の1000メートルを超える山頂をカバーするすべての歴史的地図を検索しインデックス化するための複雑なクエリをサポートする。 我々はこのアプローチをmapkuratorというシステムで実装した。 我々は,地図形式,スケール,カバー範囲の異なる複数の資料から得られた歴史地図を用いて,mapkuratorを評価した。 その結果,最先端の手法よりも大幅に改善した。 コードはKartta Labsプロジェクトのモジュールとしてhttps://github.com/k artta-labs/Projectで公開されている。

Historical maps contain detailed geographic information difficult to find elsewhere covering long-periods of time (e.g., 125 years for the historical topographic maps in the US). However, these maps typically exist as scanned images without searchable metadata. Existing approaches making historical maps searchable rely on tedious manual work (including crowd-sourcing) to generate the metadata (e.g., geolocations and keywords). Optical character recognition (OCR) software could alleviate the required manual work, but the recognition results are individual words instead of location phrases (e.g., "Black" and "Mountain" vs. "Black Mountain"). This paper presents an end-to-end approach to address the real-world problem of finding and indexing historical map images. This approach automatically processes historical map images to extract their text content and generates a set of metadata that is linked to large external geospatial knowledge bases. The linked metadata in the RDF (Resource Description Framework) format support complex queries for finding and indexing historical maps, such as retrieving all historical maps covering mountain peaks higher than 1,000 meters in California. We have implemented the approach in a system called mapKurator. We have evaluated mapKurator using historical maps from several sources with various map styles, scales, and coverage. Our results show significant improvement over the state-of-the-art methods. The code has been made publicly available as modules of the Kartta Labs project at https://github.com/k artta-labs/Project.
翻訳日:2021-12-07 04:54:04 公開日:2021-12-03
# (参考訳) インテリジェントiotシステムのための近似ベイズ深層学習の課題と可能性 [全文訳有]

Challenges and Opportunities in Approximate Bayesian Deep Learning for Intelligent IoT Systems ( http://arxiv.org/abs/2112.01675v1 )

ライセンス: CC BY 4.0
Meet P. Vadera and Benjamin M. Marlin(参考訳) 近似ベイズ型ディープラーニング手法は、過剰なエラーの発生の軽減や分散例への堅牢性の向上など、インテリジェントシステムにディープラーニングコンポーネントをデプロイする場合に発生するいくつかの問題に対処する上で、大きな可能性を秘めている。 しかし、既存の近似ベイズ推論手法の計算要求は、低出力エッジデバイスを含むインテリジェントなIoTシステムへのデプロイに不適である。 本稿では,教師付き深層学習のための近似ベイズ推定法を提案し,これらの手法を現在のエッジハードウェアに適用する際の課題と機会を強調する。 モデルプルーニングや蒸留法など,モデルストレージ要件の削減や計算スケーラビリティの向上に対する潜在的なソリューションをいくつか紹介する。

Approximate Bayesian deep learning methods hold significant promise for addressing several issues that occur when deploying deep learning components in intelligent systems, including mitigating the occurrence of over-confident errors and providing enhanced robustness to out of distribution examples. However, the computational requirements of existing approximate Bayesian inference methods can make them ill-suited for deployment in intelligent IoT systems that include lower-powered edge devices. In this paper, we present a range of approximate Bayesian inference methods for supervised deep learning and highlight the challenges and opportunities when applying these methods on current edge hardware. We highlight several potential solutions to decreasing model storage requirements and improving computational scalability, including model pruning and distillation methods.
翻訳日:2021-12-07 04:40:34 公開日:2021-12-03
# (参考訳) 長めの画像:視覚変換器の適応的トーケン長 [全文訳有]

Make A Long Image Short: Adaptive Token Length for Vision Transformers ( http://arxiv.org/abs/2112.01686v1 )

ライセンス: CC BY 4.0
Yichen Zhu, Yuqin Zhu, Jie Du, Yi Wang, Zhicai Ou, Feifei Feng and Jian Tang(参考訳) 視覚変換器は、各画像を一定長さのトークン列に分割し、自然言語処理における単語と同じ方法でトークンを処理する。 トークンが増えるとパフォーマンスは向上するが、計算コストは大幅に増加する。 画像は千語に値する」という証明に動機づけられた私たちは、長い画像を短くすることで、ViTモデルを加速することを目指している。 そこで本研究では,推論中にトークン長を適応的に割り当てる手法を提案する。 具体的には、まずResizable-ViT(ReViT) と呼ばれるViTモデルをトレーニングします。 次に、revitから“token-length label”を取得して、軽量なトークン長アサイン(tla)のトレーニングに使用します。 トークン長ラベルは、ReViTが正しい予測を行うことができる画像を分割するトークンの最小数であり、TLAはこれらのラベルに基づいて最適なトークン長を割り当てることを学ぶ。 TLAにより、ReViTは推論中に最小限のトークン数で画像を処理できる。 これにより、vitモデルのトークン数を減らすことにより、推論速度が向上する。 我々のアプローチは、現代の視覚変換器アーキテクチャと汎用的で互換性があり、計算膨張を大幅に減らすことができる。 提案手法の有効性を2つの課題(画像分類と行動認識)にまたがる複数の代表的ViTモデル(DeiT,LV-ViT,TimesFo rmer)で検証した。

The vision transformer splits each image into a sequence of tokens with fixed length and processes the tokens in the same way as words in natural language processing. More tokens normally lead to better performance but considerably increased computational cost. Motivated by the proverb "A picture is worth a thousand words" we aim to accelerate the ViT model by making a long image short. To this end, we propose a novel approach to assign token length adaptively during inference. Specifically, we first train a ViT model, called Resizable-ViT (ReViT), that can process any given input with diverse token lengths. Then, we retrieve the "token-length label" from ReViT and use it to train a lightweight Token-Length Assigner (TLA). The token-length labels are the smallest number of tokens to split an image that the ReViT can make the correct prediction, and TLA is learned to allocate the optimal token length based on these labels. The TLA enables the ReViT to process the image with the minimum sufficient number of tokens during inference. Thus, the inference speed is boosted by reducing the token numbers in the ViT model. Our approach is general and compatible with modern vision transformer architectures and can significantly reduce computational expanse. We verified the effectiveness of our methods on multiple representative ViT models (DeiT, LV-ViT, and TimesFormer) across two tasks (image classification and action recognition).
翻訳日:2021-12-07 04:15:47 公開日:2021-12-03
# (参考訳) オープン世界のあらゆるものを検出するための学習 [全文訳有]

Learning to Detect Every Thing in an Open World ( http://arxiv.org/abs/2112.01698v1 )

ライセンス: CC BY 4.0
Kuniaki Saito, Ping Hu, Trevor Darrell, Kate Saenko(参考訳) 多くのオープンワールドアプリケーションは、新しいオブジェクトを検知する必要があるが、最先端のオブジェクト検出とインスタンスセグメンテーションネットワークは、このタスクでは優れていない。 重要な問題は、アノテーションのない領域は負として抑制されるべきであると仮定し、モデルにアノテーションのないオブジェクトを背景として扱うように教えることである。 この問題に対処するため,我々はLDET(Learning to Detect Every Thing)と呼ぶ,シンプルながら驚くほど強力なデータ拡張とトレーニング手法を提案する。 可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。 このような合成強調画像のみのトレーニングはドメインシフトに悩まされるため、トレーニングを2つに分割する。 1)拡大画像における領域分類と回帰ヘッドの訓練 2) マスクヘッドをオリジナル画像で訓練する。 このようにして、モデルは、実画像によく一般化しながら、隠れたオブジェクトを背景として分類することを学ばない。 LDETは、オープンワールドのインスタンスセグメンテーションタスクにおける多くのデータセットの大幅な改善、COCOのクロスカテゴリ一般化のベースラインの向上、UVOとCityscapesのクロスデータセット評価などにつながります。

Many open-world applications require the detection of novel objects, yet state-of-the-art object detection and instance segmentation networks do not excel at this task. The key issue lies in their assumption that regions without any annotations should be suppressed as negatives, which teaches the model to treat the unannotated objects as background. To address this issue, we propose a simple yet surprisingly powerful data augmentation and training scheme we call Learning to Detect Every Thing (LDET). To avoid suppressing hidden objects, background objects that are visible but unlabeled, we paste annotated objects on a background image sampled from a small region of the original image. Since training solely on such synthetically augmented images suffers from domain shift, we decouple the training into two parts: 1) training the region classification and regression head on augmented images, and 2) training the mask heads on original images. In this way, a model does not learn to classify hidden objects as background while generalizing well to real images. LDET leads to significant improvements on many datasets in the open world instance segmentation task, outperforming baselines on cross-category generalization on COCO, as well as cross-dataset evaluation on UVO and Cityscapes.
翻訳日:2021-12-07 04:01:48 公開日:2021-12-03
# (参考訳) セマンティクスセグメンテーションのための局所化特徴集約モジュール [全文訳有]

Localized Feature Aggregation Module for Semantic Segmentation ( http://arxiv.org/abs/2112.01702v1 )

ライセンス: CC BY 4.0
Ryouichi Furukawa, Kazuhiro Hotta(参考訳) 本稿では,エンコーダとデコーダの特徴マップの類似性に基づいて,局所化特徴集約モジュールと呼ばれる新しい情報集約手法を提案する。 提案手法は,意味情報に優れたデコーダ特徴マップと位置情報に優れたエンコーダ特徴マップとの類似性を強調することで位置情報を復元する。 提案手法は,従来のU-netと注意U-netの連結よりも効率的に位置情報を学習することができる。 さらに,提案手法では局所的注意範囲を用いて計算コストを低減できる。 2つの革新は計算コストを下げてセグメンテーションの精度を向上させることに寄与した。 ショウジョウバエの細胞画像データセットとCOVID-19の画像データセットの実験により,本手法が従来の方法より優れていることを確認した。

We propose a new information aggregation method which called Localized Feature Aggregation Module based on the similarity between the feature maps of an encoder and a decoder. The proposed method recovers positional information by emphasizing the similarity between decoder's feature maps with superior semantic information and encoder's feature maps with superior positional information. The proposed method can learn positional information more efficiently than conventional concatenation in the U-net and attention U-net. Additionally, the proposed method also uses localized attention range to reduce the computational cost. Two innovations contributed to improve the segmentation accuracy with lower computational cost. By experiments on the Drosophila cell image dataset and COVID-19 image dataset, we confirmed that our method outperformed conventional methods.
翻訳日:2021-12-07 03:46:22 公開日:2021-12-03
# (参考訳) TransCouplet:Transfo rmerベースの中国クーレット生成 [全文訳有]

TransCouplet:Transfo rmer based Chinese Couplet Generation ( http://arxiv.org/abs/2112.01707v1 )

ライセンス: CC BY 4.0
Kuan-Yu Chiang, Shihao Lin, Joe Chen, Qian Yin, Qizhen Jin(参考訳) 漢詩は、古代中国語との複雑な文法からなる特殊な詩である。 意味論的および文法的規則の複雑さのため、適切なカップルを作成することは恐ろしい挑戦である。 本稿では,変圧器を用いたシーケンシャル・ツー・シーケンス・カプレット生成モデルを提案する。 AnchiBERTの利用により、このモデルは古代中国語の理解を捉えることができる。 さらに,2つの文法規則に基づいてGlyph, PinYin, Part-of-Speechのタグ付けを評価し,モデルをさらに改良する。

Chinese couplet is a special form of poetry composed of complex syntax with ancient Chinese language. Due to the complexity of semantic and grammatical rules, creation of a suitable couplet is a formidable challenge. This paper presents a transformer-based sequence-to-sequence couplet generation model. With the utilization of AnchiBERT, the model is able to capture ancient Chinese language understanding. Moreover, we evaluate the Glyph, PinYin and Part-of-Speech tagging on the couplet grammatical rules to further improve the model.
翻訳日:2021-12-07 03:37:30 公開日:2021-12-03
# (参考訳) 長期医療用バイオメド・トランスフォーマを用いたタイルエンドラベルの予測の改善 [全文訳有]

Improving Predictions of Tail-end Labels using Concatenated BioMed-Transformers for Long Medical Documents ( http://arxiv.org/abs/2112.01718v1 )

ライセンス: CC BY 4.0
Vithya Yogarajan, Bernhard Pfahringer, Tony Smith, Jacob Montiel(参考訳) マルチラベル学習は、ラベル相関を考慮しつつ、未知のインスタンスに対して与えられたラベルセットからラベルのサブセットを予測する。 マルチラベル分類における既知の課題は、ラベルのロングテール分布である。 多くの研究はモデル全体の予測を改善することに焦点を当てており、末尾のラベルを優先しない。 医療テキストの多ラベル分類における末尾ラベル予測の改善により、患者をよりよく理解し、ケアを改善することができる。 1つ以上のラベルによって得られた知識は、医療決定や治療計画の原因に影響を与える可能性がある。 本研究は、2つの主要な目標を達成するためにマルチバイオメドトランスフォーマーを含む連結されたドメイン固有言語モデルのバリエーションを示す。 第一に、複数ラベル問題、特にロングテールラベルにおける不適切なラベルのf1スコアを改善すること、第二に、長い医療用テキストと多元的電子健康記録(ehrs)を扱うことである。 この研究の重要な貢献は、TransformerXLを用いて得られた新しい最先端(SOTA)の結果である。 The Medical Information Mart for Intensive Care (MIMIC-III)データベース上で様々な実験が行われている。 その結果,BioMed-Transformerは,マイクロおよびマクロF1スコア,テールエンドラベルの個別F1スコアで標準変換器より優れており,長い入力シーケンスに対して既存の変換器ベースのソリューションよりもトレーニング時間が短いことがわかった。

Multi-label learning predicts a subset of labels from a given label set for an unseen instance while considering label correlations. A known challenge with multi-label classification is the long-tailed distribution of labels. Many studies focus on improving the overall predictions of the model and thus do not prioritise tail-end labels. Improving the tail-end label predictions in multi-label classifications of medical text enables the potential to understand patients better and improve care. The knowledge gained by one or more infrequent labels can impact the cause of medical decisions and treatment plans. This research presents variations of concatenated domain-specific language models, including multi-BioMed-Transfo rmers, to achieve two primary goals. First, to improve F1 scores of infrequent labels across multi-label problems, especially with long-tail labels; second, to handle long medical text and multi-sourced electronic health records (EHRs), a challenging task for standard transformers designed to work on short input sequences. A vital contribution of this research is new state-of-the-art (SOTA) results obtained using TransformerXL for predicting medical codes. A variety of experiments are performed on the Medical Information Mart for Intensive Care (MIMIC-III) database. Results show that concatenated BioMed-Transformers outperform standard transformers in terms of overall micro and macro F1 scores and individual F1 scores of tail-end labels, while incurring lower training times than existing transformer-based solutions for long input sequences.
翻訳日:2021-12-07 03:32:01 公開日:2021-12-03
# (参考訳) ファウショット分類のための距離設定のための適応ポインカーポイント [全文訳有]

Adaptive Poincar\'e Point to Set Distance for Few-Shot Classification ( http://arxiv.org/abs/2112.01719v1 )

ライセンス: CC BY 4.0
Rongkai Ma, Pengfei Fang, Tom Drummond, Mehrtash Harandi(参考訳) 限られた例から学習し、一般化する、すなわち、少数ショット学習は、多くの現実世界のビジョンアプリケーションにとって中核的な重要性を持つ。 最小ショット学習を実現する主な方法は、異なるクラスからのサンプルが識別できる組込みを実現することである。 近年の研究では、双曲幾何学による埋め込みは階層的および構造化されたデータに対して低歪みを享受し、数少ない学習に適していることが示唆されている。 本稿では,学習した集合に関連付けられた点と集合の間の距離を特徴付けるために,文脈対応の双曲的計量を学習することを提案する。 この目的のために、双曲空間の接束上の重み付き和として計量を定式化し、点の頂点に基づいて、適応的に重みを求める機構を開発する。 これはメートル法を局所化するだけでなく、手作業にも依存するので、メートル法は比較したサンプルに応じて適応する。 実験により,このような測定値が外接点の存在下で頑健であることを示し,ベースラインモデルよりも明確な改善を実現する。 例えば、mini-imagenet、tiered-imagenet、caltech-ucsd birds-200-2011 (cub)、cifar-fs、fc100である。

Learning and generalizing from limited examples, i,e, few-shot learning, is of core importance to many real-world vision applications. A principal way of achieving few-shot learning is to realize an embedding where samples from different classes are distinctive. Recent studies suggest that embedding via hyperbolic geometry enjoys low distortion for hierarchical and structured data, making it suitable for few-shot learning. In this paper, we propose to learn a context-aware hyperbolic metric to characterize the distance between a point and a set associated with a learned set to set distance. To this end, we formulate the metric as a weighted sum on the tangent bundle of the hyperbolic space and develop a mechanism to obtain the weights adaptively and based on the constellation of the points. This not only makes the metric local but also dependent on the task in hand, meaning that the metric will adapt depending on the samples that it compares. We empirically show that such metric yields robustness in the presence of outliers and achieves a tangible improvement over baseline models. This includes the state-of-the-art results on five popular few-shot classification benchmarks, namely mini-ImageNet, tiered-ImageNet, Caltech-UCSD Birds-200-2011 (CUB), CIFAR-FS, and FC100.
翻訳日:2021-12-07 03:15:01 公開日:2021-12-03
# (参考訳) マルウェア検知器に対するシングルショットブラックボックス攻撃:因果言語モデルによるアプローチ [全文訳有]

Single-Shot Black-Box Adversarial Attacks Against Malware Detectors: A Causal Language Model Approach ( http://arxiv.org/abs/2112.01724v1 )

ライセンス: CC BY 4.0
James Lee Hu, Mohammadreza Ebrahimi, Hsinchun Chen(参考訳) ディープラーニング(dl)ベースのマルウェア検出器は、サイバーセキュリティにおける悪意のある行動の早期検出にますます採用されている。 しかし、敵のマルウェアに対する感受性は、重大なセキュリティ上の懸念を引き起こしている。 ディフェンダーによるこのような攻撃的変種の生成は、dlベースのマルウェア検出器の抵抗性を改善するために重要である。 この必要性は、あるマルウェアの悪意のある機能を保護した回避可能なマルウェアの変種を生成することを目的とした、機械学習研究の新たなストリームであるAdversarial Malware example Generation(AMG)を生み出した。 AMGの研究では、ブラックボックス法はホワイトボックス法よりも注目されている。 しかし、ほとんどのブラックボックスAMG法は、敵対的なマルウェアの例を生成するために、多くのマルウェア検出装置との相互作用を必要とする。 ほとんどのマルウェア検出装置がクエリの制限を課していることを考えると、これはステルスの欠如により実際に検出される可能性のある非現実的な敵の例を生み出す可能性がある。 本研究では,新しいdlベース因果言語モデルを用いて,マルウェア実行ファイルの内容をバイトシーケンスとして処理し,生成前学習トランスフォーマ(gpt)を訓練することにより,単発回避(マルウェア検出への1クエリのみ)が可能となることを示す。 提案手法であるMalGPTは, VirusTotal から得られた実世界のマルウェアデータセットにおいて,24.51 % 以上の回避率を達成した。 MalGPTは、大規模な現実的なAMGをエミュレートすることで、サイバーセキュリティ研究者が高度な防衛能力を開発することを可能にする。

Deep Learning (DL)-based malware detectors are increasingly adopted for early detection of malicious behavior in cybersecurity. However, their sensitivity to adversarial malware variants has raised immense security concerns. Generating such adversarial variants by the defender is crucial to improving the resistance of DL-based malware detectors against them. This necessity has given rise to an emerging stream of machine learning research, Adversarial Malware example Generation (AMG), which aims to generate evasive adversarial malware variants that preserve the malicious functionality of a given malware. Within AMG research, black-box method has gained more attention than white-box methods. However, most black-box AMG methods require numerous interactions with the malware detectors to generate adversarial malware examples. Given that most malware detectors enforce a query limit, this could result in generating non-realistic adversarial examples that are likely to be detected in practice due to lack of stealth. In this study, we show that a novel DL-based causal language model enables single-shot evasion (i.e., with only one query to malware detector) by treating the content of the malware executable as a byte sequence and training a Generative Pre-Trained Transformer (GPT). Our proposed method, MalGPT, significantly outperformed the leading benchmark methods on a real-world malware dataset obtained from VirusTotal, achieving over 24.51\% evasion rate. MalGPT enables cybersecurity researchers to develop advanced defense capabilities by emulating large-scale realistic AMG.
翻訳日:2021-12-07 02:53:39 公開日:2021-12-03
# (参考訳) airdet: 自律探査のための微調整なしの少数ショット検出 [全文訳有]

AirDet: Few-Shot Detection without Fine-tuning for Autonomous Exploration ( http://arxiv.org/abs/2112.01740v1 )

ライセンス: CC BY 4.0
Bowen Li, Chen Wang, Pranay Reddy, Seungchan Kim, Sebastian Scherer(参考訳) メタ学習戦略の成功により、オブジェクト検出は急速に進歩している。 しかし、既存の手法における微調整段階の要件は時間がかかり、低消費電力ロボットの自律的な探索のようなリアルタイムアプリケーションでの使用を著しく妨げている。 この問題を解決するために,サポート画像とクラス非依存の関係を学習することで,微調整が不要な新しいアーキテクチャであるAirDetを提案する。 具体的には、オブジェクト提案を生成するためのSCS機能融合ネットワーク、ショットアグリゲーションのためのグローバルローカルリレーションネットワーク(GLR)、正確なローカライゼーションのためのリレーションベースのプロトタイプ埋め込みネットワーク(R-PEN)を提案する。 被曝実験はCOCOとPASCALのVOCデータセットで行われ、驚くべきことにAirDetは細調整された方法よりも同等かそれ以上の成果を上げ、ベースラインで最大40~60%の改善を達成した。 AirDetは、マルチスケールオブジェクト、特に小さなオブジェクトにおいて、良好なパフォーマンスを得ることができました。 さらに,ロボット工学におけるAirDetの有効性を強く評価するDARPA Subterranean Challengeによる実世界探査実験の評価結果を示す。 ソースコード、事前訓練されたモデルは、探索のための現実世界のデータとともに公開されます。

Few-shot object detection has rapidly progressed owing to the success of meta-learning strategies. However, the requirement of a fine-tuning stage in existing methods is timeconsuming and significantly hinders their usage in real-time applications such as autonomous exploration of low-power robots. To solve this problem, we present a brand new architecture, AirDet, which is free of fine-tuning by learning class agnostic relation with support images. Specifically, we propose a support-guided cross-scale (SCS) feature fusion network to generate object proposals, a global-local relation network (GLR) for shots aggregation, and a relation-based prototype embedding network (R-PEN) for precise localization. Exhaustive experiments are conducted on COCO and PASCAL VOC datasets, where surprisingly, AirDet achieves comparable or even better results than the exhaustively finetuned methods, reaching up to 40-60% improvements on the baseline. To our excitement, AirDet obtains favorable performance on multi-scale objects, especially the small ones. Furthermore, we present evaluation results on real-world exploration tests from the DARPA Subterranean Challenge, which strongly validate the feasibility of AirDet in robotics. The source code, pre-trained models, along with the real world data for exploration, will be made public.
翻訳日:2021-12-07 02:42:13 公開日:2021-12-03
# (参考訳) 等変形状空間学習のためのフレーム平均化 [全文訳有]

Frame Averaging for Equivariant Shape Space Learning ( http://arxiv.org/abs/2112.01741v1 )

ライセンス: CC BY 4.0
Matan Atzmon, Koki Nagano, Sanja Fidler, Sameh Khamis, Yaron Lipman(参考訳) 形状空間学習の課題は、列車の形状の集合を、優れた一般化特性を持つ潜在表現空間にマッピングすることである。 しばしば、現実世界の形状の集合は対称性を持ち、形の本質を変えない変換として定義することができる。 形状空間学習に対称性を組み込む自然な方法は、形状空間への写像(エンコーダ)と形状空間からの写像(デコーダ)が関連する対称性に同値であることを問うことである。 本稿では,2つのコントリビューションを導入することで,エンコーダとデコーダの等価性を組み込む枠組みを提案する。 (i)最近のフレーム平均化(FA)フレームワークを適用して、汎用的で効率的で、最大表現力に富んだ同変オートエンコーダを構築する。 (ii)形状の異なる部分に適用される分割ユークリッド運動に同値なオートエンコーダを構築すること。 私たちの知る限りでは、これは最初の完全区分的ユークリッド同変オートエンコーダ構成である。 フレームワークのトレーニングは単純で、標準的な再構築損失を使用し、新しい損失の導入を必要としない。 私たちのアーキテクチャは標準(バックボーン)アーキテクチャで構成されています。 暗黙的なニューラル表現を用いた厳密な形状データセットとメッシュベースのニューラルネットワークを用いた調音された形状データセットの両方でフレームワークをテストすると、最先端の試験形状への一般化が示され、関連するベースラインを大きなマージンで改善する。 特に,本手法は,目立たないポーズへの一般化において顕著な改善を示す。

The task of shape space learning involves mapping a train set of shapes to and from a latent representation space with good generalization properties. Often, real-world collections of shapes have symmetries, which can be defined as transformations that do not change the essence of the shape. A natural way to incorporate symmetries in shape space learning is to ask that the mapping to the shape space (encoder) and mapping from the shape space (decoder) are equivariant to the relevant symmetries. In this paper, we present a framework for incorporating equivariance in encoders and decoders by introducing two contributions: (i) adapting the recent Frame Averaging (FA) framework for building generic, efficient, and maximally expressive Equivariant autoencoders; and (ii) constructing autoencoders equivariant to piecewise Euclidean motions applied to different parts of the shape. To the best of our knowledge, this is the first fully piecewise Euclidean equivariant autoencoder construction. Training our framework is simple: it uses standard reconstruction losses and does not require the introduction of new losses. Our architectures are built of standard (backbone) architectures with the appropriate frame averaging to make them equivariant. Testing our framework on both rigid shapes dataset using implicit neural representations, and articulated shape datasets using mesh-based neural networks show state-of-the-art generalization to unseen test shapes, improving relevant baselines by a large margin. In particular, our method demonstrates significant improvement in generalizing to unseen articulated poses.
翻訳日:2021-12-07 02:28:53 公開日:2021-12-03
# (参考訳) インド語におけるニューラルネットワーク翻訳改善のためのマルチタスクファインタニング [全文訳有]

Multitask Finetuning for Improving Neural Machine Translation in Indian Languages ( http://arxiv.org/abs/2112.01742v1 )

ライセンス: CC BY 4.0
Shaily Desai, Atharva Kshirsagar, Manisha Marathe(参考訳) トランスフォーマーベースの言語モデルは、自然言語処理のすべての領域で印象的な結果をもたらしています。 これらのモデルを言語モデリングタスクで事前トレーニングし、テキスト分類、質問応答、ニューラルネットワーク翻訳などの下流タスクで微調整することは、一貫して模範的な結果を示している。 本研究では,多言語機械翻訳タスクと補助因果言語モデリングタスクを組み合わせたマルチタスクの微調整手法を提案する。 marathi-hindi,marath i-english,hindi-engl ishの3つの言語ペアについて経験的研究を行い,mbart50モデルを用いて,マルチタスクの微調整アプローチと標準的な微調整アプローチを比較した。 本研究は,マルチタスクファインタニング手法が標準ファインタニングよりも優れた手法であり,言語ペア間のバイリンガル機械翻訳を改善する可能性を示唆している。

Transformer based language models have led to impressive results across all domains in Natural Language Processing. Pretraining these models on language modeling tasks and finetuning them on downstream tasks such as Text Classification, Question Answering and Neural Machine Translation has consistently shown exemplary results. In this work, we propose a Multitask Finetuning methodology which combines the Bilingual Machine Translation task with an auxiliary Causal Language Modeling task to improve performance on the former task on Indian Languages. We conduct an empirical study on three language pairs, Marathi-Hindi, Marathi-English and Hindi-English, where we compare the multitask finetuning approach to the standard finetuning approach, for which we use the mBART50 model. Our study indicates that the multitask finetuning method could be a better technique than standard finetuning, and could improve Bilingual Machine Translation across language pairs.
翻訳日:2021-12-07 01:54:16 公開日:2021-12-03
# (参考訳) maxray:レイトレーシングベースの統合センシングおよび通信フレームワーク [全文訳有]

MaxRay: A Raytracing-based Integrated Sensing and Communication Framework ( http://arxiv.org/abs/2112.01751v1 )

ライセンス: CC BY 4.0
M. Arnold, M. Bauhofer, S. Mandelli, M. Henninger, F. Schaich, T. Wild, S. ten Brink(参考訳) ISAC(Integrated Sensing and Communication)は,コミュニケーションネットワークを利用した環境情報を抽出することにより,コミュニケーションの必要性と生産性向上の必要性を共生させる。 複数の感覚が環境に対する認識を既に生み出しているため、ISACの利点をこのようなモダリティと比較する研究が必要である。 そこで本研究では,コミュニケーション,センシング,追加感覚を同時にシミュレート可能なISACフレームワークであるMaxRayを紹介する。 このようなセンサネットワークを構築する上での課題を強調し,センサに必要な伝搬特性と活用方法を紹介する。 異なるセンサ技術の性能を比較するために,異なるフィールドで使用される4つの一般的なメトリクスを分析し,その利点とセンサの欠点を評価する。 プロミネンスに基づくメトリクスは、ほとんどのアルゴリズムをカバーするのに適している。 さらに,2つの標準的なクラッタ除去手法を用いて,典型的な産業シナリオにおける目標検出を行うクラッタ除去アルゴリズムの必要性を強調した。 一般に、さまざまなタスクを調査するためのラベル付きデータセットを自動生成できる汎用フレームワークがデモされている。

Integrated Sensing And Communication (ISAC)forms a symbiosis between the human need for communication and the need for increasing productivity, by extracting environmental information leveraging the communication network. As multiple sensory already create a perception of the environment, an investigation into the advantages of ISAC compare to such modalities is required. Therefore, we introduce MaxRay, an ISAC framework allowing to simulate communication, sensing, and additional sensory jointly. Emphasizing the challenges for creating such sensing networks, we introduce the required propagation properties for sensing and how they are leveraged. To compare the performance of the different sensing techniques, we analyze four commonly used metrics used in different fields and evaluate their advantages and disadvantages for sensing. We depict that a metric based on prominence is suitable to cover most algorithms. Further we highlight the requirement of clutter removal algorithms, using two standard clutter removal techniques to detect a target in a typical industrial scenario. In general a versatile framework, allowing to create automatically labeled datasets to investigate a large variety of tasks is demonstrated.
翻訳日:2021-12-07 01:47:27 公開日:2021-12-03
# (参考訳) 事前学習型言語モデルにおける論理推論のための言語情報の提案 [全文訳有]

Probing Linguistic Information For Logical Inference In Pre-trained Language Models ( http://arxiv.org/abs/2112.01753v1 )

ライセンス: CC BY 4.0
Zeming Chen and Qiyue Gao(参考訳) 事前学習された言語モデルの進歩は、自然言語理解のための下流タスクに対する印象的な結果の急増につながった。 事前学習された言語モデルの探索に関する最近の研究で、文脈化表現にエンコードされた幅広い言語特性が明らかになった。 しかし、シンボリック推論法に不可欠な意味的知識をエンコードするかどうかは定かではない。 本稿では,事前学習した言語モデル表現における論理推論のための言語情報探索手法を提案する。 我々の探索データセットは、主要な記号推論システムに必要な言語現象のリストをカバーしている。 私たちはそれを見つけ (i)事前学習された言語モデルは、推論のためにいくつかの種類の言語情報をエンコードしているが、弱いエンコードされた情報もある。 (ii)言語モデルは、微調整によって欠落した言語情報を効果的に学習することができる。 本研究は,論理的推論のための言語情報のどの側面が言語モデルと事前学習手順を捉えるかについての知見を提供する。 さらに,記号推論支援のための意味的および背景知識基盤としての言語モデルの可能性を示した。

Progress in pre-trained language models has led to a surge of impressive results on downstream tasks for natural language understanding. Recent work on probing pre-trained language models uncovered a wide range of linguistic properties encoded in their contextualized representations. However, it is unclear whether they encode semantic knowledge that is crucial to symbolic inference methods. We propose a methodology for probing linguistic information for logical inference in pre-trained language model representations. Our probing datasets cover a list of linguistic phenomena required by major symbolic inference systems. We find that (i) pre-trained language models do encode several types of linguistic information for inference, but there are also some types of information that are weakly encoded, (ii) language models can effectively learn missing linguistic information through fine-tuning. Overall, our findings provide insights into which aspects of linguistic information for logical inference do language models and their pre-training procedures capture. Moreover, we have demonstrated language models' potential as semantic and background knowledge bases for supporting symbolic inference methods.
翻訳日:2021-12-07 01:36:07 公開日:2021-12-03
# (参考訳) NeRF-SR:スーパーサンプリングを用いた高品質ニューラルラジアンスフィールド [全文訳有]

NeRF-SR: High-Quality Neural Radiance Fields using Super-Sampling ( http://arxiv.org/abs/2112.01759v1 )

ライセンス: CC BY 4.0
Chen Wang, Xian Wu, Yuan-Chen Guo, Song-Hai Zhang, Yu-Wing Tai, Shi-Min Hu(参考訳) 主に低分解能(LR)入力を用いた高分解能(HR)新規ビュー合成のソリューションであるNeRF-SRを提案する。 提案手法は,多層パーセプトロンを用いて各点密度と色を予測するニューラルレージアンス場(NeRF)上に構築されている。 任意のスケールで画像を生成する一方で、NeRFは観測された画像を超える解像度に苦戦している。 我々の重要な洞察は、NeRFは局所的な先行性を持ち、3Dポイントの予測は近隣の領域で伝播し、正確な状態を保つことができるということである。 まず,各画像画素に複数の光線を照射し,サブピクセルレベルでのマルチビュー制約を強制するスーパーサンプリング方式を用いる。 そこで,NeRF-SRは,手前の推定深度を利用してHR参照画像上の関連パッチの細部を幻覚する改良ネットワークにより,スーパーサンプリングの性能をさらに向上させることができることを示す。 実験により,NeRF-SRは,合成データセットと実世界のデータセットの両方を用いて,HRにおける新規ビュー合成のための高品質な結果を生成することが示された。

We present NeRF-SR, a solution for high-resolution (HR) novel view synthesis with mostly low-resolution (LR) inputs. Our method is built upon Neural Radiance Fields (NeRF) that predicts per-point density and color with a multi-layer perceptron. While producing images at arbitrary scales, NeRF struggles with resolutions that go beyond observed images. Our key insight is that NeRF has a local prior, which means predictions of a 3D point can be propagated in the nearby region and remain accurate. We first exploit it by a super-sampling strategy that shoots multiple rays at each image pixel, which enforces multi-view constraint at a sub-pixel level. Then, we show that NeRF-SR can further boost the performance of super-sampling by a refinement network that leverages the estimated depth at hand to hallucinate details from related patches on an HR reference image. Experiment results demonstrate that NeRF-SR generates high-quality results for novel view synthesis at HR on both synthetic and real-world datasets.
翻訳日:2021-12-07 01:06:47 公開日:2021-12-03
# (参考訳) LEO衛星ネットワークのための創発的ランダムアクセスプロトコルの学習 [全文訳有]

Learning Emergent Random Access Protocol for LEO Satellite Networks ( http://arxiv.org/abs/2112.01765v1 )

ライセンス: CC BY 4.0
Ju-Hyung Lee and Hyowoon Seo and Jihong Park and Mehdi Bennis and Young-Chai Ko(参考訳) 低高度地球軌道(LEO)衛星(SAT)のメガコンステレーションを構想し、第5世代(5G)セルシステムを超えてグローバルなSATネットワークを提供する。 LEO SATネットワークは、時間変化のSATネットワークトポロジーの下で、多くのユーザの非常に長いリンク距離を示す。 これにより、固定地上ネットワークトポロジ用に設計されたランダムアクセスチャネル(RACH)ベースのセルプロトコルなど、既存の複数のアクセスプロトコルが不適切である。 そこで本稿では,LEO SAT ネットワークに対して,創発的ランダムアクセスプロトコル (eRACH) と呼ばれる新しい許可不要なランダムアクセスソリューションを提案する。 既存のモデルベースおよび標準化プロトコルとは対照的に、eRACHは、マルチエージェントディープ強化学習(MADRL)を用いて、非定常ネットワーク環境との相互作用を通じて生じるモデルフリーアプローチである。 さらに、既知のSAT軌道パターンを活用することで、eRACHはユーザー間の集中的な調整や追加の通信を必要とせず、トレーニング収束は通常の軌道パターンを通して安定化される。 RACHと比較して,提案するeRACHは平均ネットワークスループットが54.6%向上し,平均アクセス遅延が約2倍低下し,0.989 Jainの公正度指数が得られた。

A mega-constellation of low-altitude earth orbit (LEO) satellites (SATs) are envisaged to provide a global coverage SAT network in beyond fifth-generation (5G) cellular systems. LEO SAT networks exhibit extremely long link distances of many users under time-varying SAT network topology. This makes existing multiple access protocols, such as random access channel (RACH) based cellular protocol designed for fixed terrestrial network topology, ill-suited. To overcome this issue, in this paper, we propose a novel grant-free random access solution for LEO SAT networks, dubbed emergent random access channel protocol (eRACH). In stark contrast to existing model-based and standardized protocols, eRACH is a model-free approach that emerges through interaction with the non-stationary network environment, using multi-agent deep reinforcement learning (MADRL). Furthermore, by exploiting known SAT orbiting patterns, eRACH does not require central coordination or additional communication across users, while training convergence is stabilized through the regular orbiting patterns. Compared to RACH, we show from various simulations that our proposed eRACH yields 54.6% higher average network throughput with around two times lower average access delay while achieving 0.989 Jain's fairness index.
翻訳日:2021-12-07 00:48:43 公開日:2021-12-03
# (参考訳) MT-TransUNet:皮膚病変分類・分類用トランスフォーマーにおけるマルチタスクトークンの仲介 [全文訳有]

MT-TransUNet: Mediating Multi-Task Tokens in Transformers for Skin Lesion Segmentation and Classification ( http://arxiv.org/abs/2112.01767v1 )

ライセンス: CC BY 4.0
Jingye Chen, Jieneng Chen, Zongwei Zhou, Bin Li, Alan Yuille, Yongyi Lu(参考訳) 近年の皮膚癌自動診断の進歩は, 皮膚科医と同等の成績を示した。 しかし,これらのアプローチは皮膚がんの診断を簡便な分類課題として定式化し,病変分画の利点を否定した。 正確な病変分割は,非対称性,境界,強度,物理的大きさなどの付加的病変情報で分類タスクを補うことができると論じる。 そこで本稿では,トランスフォーマーのマルチタスクトークンを仲介することにより,皮膚病変のセグメント化と分類を協調的に行うことができるマルチタスクフレームワークであるmt-transunetを提案する。 さらに,画素レベルのアノテーションを使わずに画像を活用するために,デュアルタスクと従属領域の一貫性損失を導入し,拡張の考慮で同一画像に遭遇した場合のモデルの堅牢性を確保した。 MT-TransUNet はISIC-2017 と PH2 における病変分割および分類タスクの従来の状態を超えており,さらに重要な点として,モデルパラメータ (48M~vs.~130M) と推論速度 (0.17s~vs.~2.02s) に関する計算効率を保っている。 コードはhttps://github.com/J ingyeChen/MT-TransUN et.comから入手できる。

Recent advances in automated skin cancer diagnosis have yielded performance on par with board-certified dermatologists. However, these approaches formulated skin cancer diagnosis as a simple classification task, dismissing the potential benefit from lesion segmentation. We argue that an accurate lesion segmentation can supplement the classification task with additive lesion information, such as asymmetry, border, intensity, and physical size; in turn, a faithful lesion classification can support the segmentation task with discriminant lesion features. To this end, this paper proposes a new multi-task framework, named MT-TransUNet, which is capable of segmenting and classifying skin lesions collaboratively by mediating multi-task tokens in Transformers. Furthermore, we have introduced dual-task and attended region consistency losses to take advantage of those images without pixel-level annotation, ensuring the model's robustness when it encounters the same image with an account of augmentation. Our MT-TransUNet exceeds the previous state of the art for lesion segmentation and classification tasks in ISIC-2017 and PH2; more importantly, it preserves compelling computational efficiency regarding model parameters (48M~vs.~130M) and inference speed (0.17s~vs.~2.02s per image). Code will be available at https://github.com/J ingyeChen/MT-TransUN et.
翻訳日:2021-12-07 00:25:06 公開日:2021-12-03
# (参考訳) 規範的なプロセス監視:Quo Vadisは? [全文訳有]

Prescriptive Process Monitoring: Quo Vadis? ( http://arxiv.org/abs/2112.01769v1 )

ライセンス: CC BY 4.0
Kateryna Kubrak, Fredrik Milani, Alexander Nolte, Marlon Dumas(参考訳) 規範的なプロセス監視手法は、実行時の介入を推奨することでビジネスプロセスを最適化し、ネガティブな結果やパフォーマンスの悪いケースを防ぐ。 近年,様々な規範的プロセス監視手法が提案されている。 本稿では,本分野における既存の手法について,SLR(Systematic Literature Review)を用いて検討する。 そこで本稿では,この分野を構成するために,その性能目標,性能指標,介入型,モデリング手法,データ入力,介入ポリシーに応じて,規範的プロセス監視手法を特徴付けるフレームワークを提案する。 SLRは今後の研究の課題や分野に関する洞察を提供し、規範的なプロセス監視手法の有用性と適用性を高めることができる。 本稿は,実世界における既存手法と新手法の検証,時間的・コスト的視点を越えて介入の種類を拡張すること,因果関係と副次的効果を考慮した政策設計の必要性を強調する。

Prescriptive process monitoring methods seek to optimize a business process by recommending interventions at runtime to prevent negative outcomes or poorly performing cases. In recent years, various prescriptive process monitoring methods have been proposed. This paper studies existing methods in this field via a Systematic Literature Review (SLR). In order to structure the field, the paper proposes a framework for characterizing prescriptive process monitoring methods according to their performance objective, performance metrics, intervention types, modeling techniques, data inputs, and intervention policies. The SLR provides insights into challenges and areas for future research that could enhance the usefulness and applicability of prescriptive process monitoring methods. The paper highlights the need to validate existing and new methods in real-world settings, to extend the types of interventions beyond those related to the temporal and cost perspectives, and to design policies that take into account causality and second-order effects.
翻訳日:2021-12-07 00:10:43 公開日:2021-12-03
# (参考訳) ディープラーニングシステムにおけるパフォーマンスバグの特徴付け [全文訳有]

Characterizing Performance Bugs in Deep Learning Systems ( http://arxiv.org/abs/2112.01771v1 )

ライセンス: CC BY 4.0
Junming Cao, Bihuan Chen, Chao Sun, Longjie Hu, Xin Peng(参考訳) ディープラーニング(dl)は、さまざまな領域にますます適用されている。 従来のシステムからDLシステムへ移行するプログラミングパラダイムは、エンジニアリングDLシステムに固有の課題をもたらす。 パフォーマンスは課題の1つであり、DLシステムのパフォーマンスバグ(PB)は、過剰なリソース消費や財務損失などの深刻な結果を引き起こす可能性がある。 DLシステムのバグは広く研究されているが、DLシステムのPBはほとんど調査されていない。 このギャップを埋めるために,225 StackOverflowポストから合計238PBを収集したTensorFLowおよびKerasで開発されたDLシステムにおいて,PBの症状,根本原因,導入および暴露ステージを特徴付けるための,最初の総合的研究を行った。 本研究は、高性能dlシステムの開発とdlシステムにおけるpbsの検出とローカライズに与える影響を明らかにした。 また、dlシステムにおける56pbsの最初のベンチマークを構築し、それらに取り組むための既存のアプローチの能力を評価する。 さらに,3種類のpbを検出するための静的チェッカーdeepperfを開発し,130のgithubプロジェクトで新たに488個のpbを識別した。

Deep learning (DL) has been increasingly applied to a variety of domains. The programming paradigm shift from traditional systems to DL systems poses unique challenges in engineering DL systems. Performance is one of the challenges, and performance bugs(PBs) in DL systems can cause severe consequences such as excessive resource consumption and financial loss. While bugs in DL systems have been extensively investigated, PBs in DL systems have hardly been explored. To bridge this gap, we present the first comprehensive study to characterize symptoms, root causes, and introducing and exposing stages of PBs in DL systems developed in TensorFLow and Keras, with a total of 238 PBs collected from 225 StackOverflow posts. Our findings shed light on the implications on developing high performance DL systems, and detecting and localizing PBs in DL systems. We also build the first benchmark of 56 PBs in DL systems, and assess the capability of existing approaches in tackling them. Moreover, we develop a static checker DeepPerf to detect three types of PBs, and identify 488 new PBs in 130 GitHub projects.62 and 18 of them have been respectively confirmed and fixed by developers.
翻訳日:2021-12-06 23:58:21 公開日:2021-12-03
# (参考訳) 顔を効率的に検出する:調査と評価 [全文訳有]

Detect Faces Efficiently: A Survey and Evaluations ( http://arxiv.org/abs/2112.01787v1 )

ライセンス: CC BY 4.0
Yuantao Feng, Shiqi Yu, Hanyang Peng, Yan-Ran Li, Jianguo Zhang(参考訳) 顔検出は、画像内のすべての可能な領域を検索し、もしあるなら顔を見つけることである。 顔認識、表情認識、顔追跡、頭部推定を含む多くの応用は、画像中の顔の位置と大きさの両方が知られていると仮定する。 近年、研究者はヴィオラ・ジョーンズ顔検出器から現在のcnnベースの顔検出器まで、様々な典型的な効率的な顔検出器を生み出している。 しかし、顔のスケール、外観、表情、オクルージョン、ポーズの変化する画像や動画が大幅に増加する中、従来の顔検出装置は様々な「野生」の顔を検出するために挑戦されている。 ディープラーニング技術の出現は、かなりの計算量の増加と共に、顔検出に驚くべきブレークスルーをもたらした。 本稿では,代表的な深層学習に基づく手法を紹介し,正確性と効率性の観点から深い分析を行う。 我々はさらに、人気のあるデータセットとその評価指標を比較し、議論する。 FLOPとレイテンシーという2つの指標を用いて、ディープラーニングベースの顔検出器の総合的な比較を行い、その効率を明らかにする。 この論文は、異なる用途のための適切な顔検出器の選択と、より効率的で正確な検出器の開発をガイドすることができる。

Face detection is to search all the possible regions for faces in images and locate the faces if there are any. Many applications including face recognition, facial expression recognition, face tracking and head-pose estimation assume that both the location and the size of faces are known in the image. In recent decades, researchers have created many typical and efficient face detectors from the Viola-Jones face detector to current CNN-based ones. However, with the tremendous increase in images and videos with variations in face scale, appearance, expression, occlusion and pose, traditional face detectors are challenged to detect various "in the wild" faces. The emergence of deep learning techniques brought remarkable breakthroughs to face detection along with the price of a considerable increase in computation. This paper introduces representative deep learning-based methods and presents a deep and thorough analysis in terms of accuracy and efficiency. We further compare and discuss the popular and challenging datasets and their evaluation metrics. A comprehensive comparison of several successful deep learning-based face detectors is conducted to uncover their efficiency using two metrics: FLOPs and latency. The paper can guide to choose appropriate face detectors for different applications and also to develop more efficient and accurate detectors.
翻訳日:2021-12-06 23:34:52 公開日:2021-12-03
# (参考訳) SSDL: 自己監督型辞書学習 [全文訳有]

SSDL: Self-Supervised Dictionary Learning ( http://arxiv.org/abs/2112.01790v1 )

ライセンス: CC BY 4.0
Shuai Shao, Lei Xing, Wei Yu, Rui Xu, Yanjiang Wang, Baodi Liu(参考訳) ラベル埋め込み辞書学習(DL)アルゴリズムは、識別情報を導入して、影響力のある辞書を生成する。 すべてのラベル埋め込みdlメソッドはラベルに依存しており、この方法では教師付き学習で理想的なパフォーマンスを達成するだけである。 半教師なしおよび教師なしの学習では、もはや効果が十分ではない。 自己教師付き学習の概念(例えば、下流タスクの普遍的なモデルを生成するためのプレテキストタスクの設定)に着想を得て、この問題に対処するセルフスーパービジョン辞書学習(SSDL)フレームワークを提案する。 具体的には,まずp$-Laplacian Attention Hypergraph Learning (pAHL)ブロックをプレテキストタスクとして設計し,DLの擬似ソフトラベルを生成する。 次に、擬似ラベルを用いて、一次ラベル埋め込みDL法から辞書を訓練する。 SSDLを2つの人間行動認識データセットで評価する。 他の最先端手法と比較した結果,ssdlの有効性が示された。

The label-embedded dictionary learning (DL) algorithms generate influential dictionaries by introducing discriminative information. However, there exists a limitation: All the label-embedded DL methods rely on the labels due that this way merely achieves ideal performances in supervised learning. While in semi-supervised and unsupervised learning, it is no longer sufficient to be effective. Inspired by the concept of self-supervised learning (e.g., setting the pretext task to generate a universal model for the downstream task), we propose a Self-Supervised Dictionary Learning (SSDL) framework to address this challenge. Specifically, we first design a $p$-Laplacian Attention Hypergraph Learning (pAHL) block as the pretext task to generate pseudo soft labels for DL. Then, we adopt the pseudo labels to train a dictionary from a primary label-embedded DL method. We evaluate our SSDL on two human activity recognition datasets. The comparison results with other state-of-the-art methods have demonstrated the efficiency of SSDL.
翻訳日:2021-12-06 22:57:43 公開日:2021-12-03
# (参考訳) 系統的IoU関連手法: 局所性向上のための簡易回帰を超えて [全文訳有]

A Systematic IoU-Related Method: Beyond Simplified Regression for Better Localization ( http://arxiv.org/abs/2112.01793v1 )

ライセンス: CC BY 4.0
Hanyang Peng and Shiqi Yu(参考訳) Smooth-$\ell_1$ Lossのような4変数独立回帰型ローカライゼーション損失は、現代の検出器ではデフォルトで使用される。 しかし、このような損失は、最終評価基準であるIoU(英語版)と矛盾しないように単純化されている。 標準のIoUを直接使用することも不可能であり、非オーバーラップボックスの場合の定数ゼロ台地と最小限の非ゼロ勾配はトレーニングできない可能性がある。 そこで本研究では,この問題に対処するための体系的手法を提案する。 まず,2つのボックスが重なり合っていない場合によく定義された拡張IoU(EIoU)を,重なり合っているときに標準IoUに還元する手法を提案する。 次に,EIoUに基づいて損失を構成するための凸化手法(CT)を提案する。 第3に、最小限のEIoU損失をより安定かつスムーズに接近させる安定最適化手法(SOT)を提案する。 第4に、EIoUベースの損失の能力をフル活用するために、位置推定精度をさらに向上させるために、関連したIoU予測ヘッドを導入する。 提案された貢献により、バックボーンとしてResNet50+FPNでFaster R-CNNに組み込まれた新しい手法は、VOC2007で \textbf{4.2 mAP} のゲイン、COCO2017で Smooth-$\ell_1$ Loss のベースラインであるSmooth-$\ell_1$ Loss, at almost \textbf{no training and inference compute cost} に対して \textbf{4.3 mAP} のゲインを得る。 特に、計量が厳密になるほど、この利得はより顕著になり、VOC2007 では \textbf{8.2 mAP} 、CO2017 では $AP_{90}$ で \textbf{5.4 mAP} が改善される。

Four-variable-indepe ndent-regression localization losses, such as Smooth-$\ell_1$ Loss, are used by default in modern detectors. Nevertheless, this kind of loss is oversimplified so that it is inconsistent with the final evaluation metric, intersection over union (IoU). Directly employing the standard IoU is also not infeasible, since the constant-zero plateau in the case of non-overlapping boxes and the non-zero gradient at the minimum may make it not trainable. Accordingly, we propose a systematic method to address these problems. Firstly, we propose a new metric, the extended IoU (EIoU), which is well-defined when two boxes are not overlapping and reduced to the standard IoU when overlapping. Secondly, we present the convexification technique (CT) to construct a loss on the basis of EIoU, which can guarantee the gradient at the minimum to be zero. Thirdly, we propose a steady optimization technique (SOT) to make the fractional EIoU loss approaching the minimum more steadily and smoothly. Fourthly, to fully exploit the capability of the EIoU based loss, we introduce an interrelated IoU-predicting head to further boost localization accuracy. With the proposed contributions, the new method incorporated into Faster R-CNN with ResNet50+FPN as the backbone yields \textbf{4.2 mAP} gain on VOC2007 and \textbf{2.3 mAP} gain on COCO2017 over the baseline Smooth-$\ell_1$ Loss, at almost \textbf{no training and inferencing computational cost}. Specifically, the stricter the metric is, the more notable the gain is, improving \textbf{8.2 mAP} on VOC2007 and \textbf{5.4 mAP} on COCO2017 at metric $AP_{90}$.
翻訳日:2021-12-06 22:47:10 公開日:2021-12-03
# (参考訳) UniNASフレームワーク:任意の複雑な構成のモジュールと引数ツリーを組み合わせる [全文訳有]

The UniNAS framework: combining modules in arbitrarily complex configurations with argument trees ( http://arxiv.org/abs/2112.01796v1 )

ライセンス: CC BY 4.0
Kevin Alexander Laube(参考訳) シンプルで選択の余地のないコードを設計するのは、綱渡りです。 オープティマイザやデータセットなどの追加モジュールは、より広範なオーディエンスにとって有用なフレームワークだが、複雑さがすぐに問題になる。 フレームワークのパラメータは、いくつかのモジュールにのみ適用されるが、他のモジュールには適用されない。 それでも、多くのフレームワークは特定のユースケースに限定されている。 本稿では,様々なニューラルアーキテクチャ探索手法を組み込んだフレームワークであるuninasの基盤概念を提案する。 最適化器とネットワークの数、ハイパーパラメータ最適化、ネットワーク設計、候補演算などが異なるため、従来のアプローチではその課題を解決できない。 代わりに、各モジュールは自身のハイパーパラメータとモジュール要求の局所木構造を定義する。 コンフィグレーションファイルは、どのモジュールが使われているか、それらのパラメータ、そして、彼らが使用する他のモジュールを特定する。 引数ツリーのこの概念は、上記の多くの問題を回避しながら、複雑な構成でモジュールを組み合わせ、再利用することができる。 Argument Treeはグラフィカルなユーザインターフェースから設定することもでき、単一のコードを書かずに実験の設計や変更ができるようになる。 UniNASはhttps://github.com/c ogsys-tuebingen/unin asで公開されている。

Designing code to be simplistic yet to offer choice is a tightrope walk. Additional modules such as optimizers and data sets make a framework useful to a broader audience, but the added complexity quickly becomes a problem. Framework parameters may apply only to some modules but not others, be mutually exclusive or depend on each other, often in unclear ways. Even so, many frameworks are limited to a few specific use cases. This paper presents the underlying concept of UniNAS, a framework designed to incorporate a variety of Neural Architecture Search approaches. Since they differ in the number of optimizers and networks, hyper-parameter optimization, network designs, candidate operations, and more, a traditional approach can not solve the task. Instead, every module defines its own hyper-parameters and a local tree structure of module requirements. A configuration file specifies which modules are used, their used parameters, and which other modules they use in turn This concept of argument trees enables combining and reusing modules in complex configurations while avoiding many problems mentioned above. Argument trees can also be configured from a graphical user interface so that designing and changing experiments becomes possible without writing a single line of code. UniNAS is publicly available at https://github.com/c ogsys-tuebingen/unin as
翻訳日:2021-12-06 22:18:01 公開日:2021-12-03
# (参考訳) 画像生成のためのベクトル量子モデリングにおける離散拡散を伴う大域的文脈 [全文訳有]

Global Context with Discrete Diffusion in Vector Quantised Modelling for Image Generation ( http://arxiv.org/abs/2112.01799v1 )

ライセンス: CC BY 4.0
Minghui Hu, Yujie Wang, Tat-Jen Cham, Jianfei Yang, P.N.Suganthan(参考訳) ベクトル量子変分オートエンコーダ(VQ-VAE)と自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。 しかし、自己回帰モデルでは、サンプリングフェーズの進行走査順序に厳密に従う。 これにより、既存のVQシリーズモデルは、グローバル情報不足の罠からほとんど逃れられなくなる。 連続領域における拡散確率モデル(ddpm)は、高品質な画像を生成しながら、グローバルコンテキストをキャプチャする能力を示している。 離散状態空間では、テキスト生成と低解像度画像生成を行う可能性を示す研究もある。 本稿では,VQ-VAEによるコンテンツリッチな離散視覚コードブックを用いて,画素空間に沿った古典的自己回帰モデルの欠如を補う,グローバルコンテキストによる高忠実度画像を生成することができることを示す。 一方、離散VAEと拡散モデルの統合により、従来の自己回帰モデルの欠点が大きすぎることや、画像を生成する際にサンプリングプロセスに過剰な時間を要する拡散モデルが解決される。 生成した画像の品質は、離散的な視覚コードブックに大きく依存していることがわかった。 拡張実験により、提案したベクトル量子離散拡散モデル(VQ-DDM)は、複雑さの低い上位層法に匹敵する性能が得られることが示された。 また、追加のトレーニング無しで、自己回帰モデルで定量化された他のベクターよりも優れた効果を示す。

The integration of Vector Quantised Variational AutoEncoder (VQ-VAE) with autoregressive models as generation part has yielded high-quality results on image generation. However, the autoregressive models will strictly follow the progressive scanning order during the sampling phase. This leads the existing VQ series models to hardly escape the trap of lacking global information. Denoising Diffusion Probabilistic Models (DDPM) in the continuous domain have shown a capability to capture the global context, while generating high-quality images. In the discrete state space, some works have demonstrated the potential to perform text generation and low resolution image generation. We show that with the help of a content-rich discrete visual codebook from VQ-VAE, the discrete diffusion model can also generate high fidelity images with global context, which compensates for the deficiency of the classical autoregressive model along pixel space. Meanwhile, the integration of the discrete VAE with the diffusion model resolves the drawback of conventional autoregressive models being oversized, and the diffusion model which demands excessive time in the sampling process when generating images. It is found that the quality of the generated images is heavily dependent on the discrete visual codebook. Extensive experiments demonstrate that the proposed Vector Quantised Discrete Diffusion Model (VQ-DDM) is able to achieve comparable performance to top-tier methods with low complexity. It also demonstrates outstanding advantages over other vectors quantised with autoregressive models in terms of image inpainting tasks without additional training.
翻訳日:2021-12-06 21:56:51 公開日:2021-12-03
# (参考訳) ラベル付きサンプルの少ないハイパースペクトル画像分類のためのディープラーニング

A Survey: Deep Learning for Hyperspectral Image Classification with Few Labeled Samples ( http://arxiv.org/abs/2112.01800v1 )

ライセンス: CC BY 4.0
Sen Jia, Shuguo Jiang, Zhijie Lin, Nanying Li, Meng Xu, Shiqi Yu(参考訳) ディープラーニング技術の急速な発展と計算能力の向上により、ディープラーニングはハイパースペクトル画像(HSI)分類の分野で広く利用されている。 一般に、ディープラーニングモデルにはトレーニング可能なパラメータが多数含まれており、最適なパフォーマンスを達成するには大量のラベル付きサンプルが必要である。 しかし,HSI分類では,手動ラベリングの難易度や時間的特性から,多くのラベル付きサンプルの取得が困難である。 したがって,HSI分類のための深層学習モデルの構築に焦点をあてる研究は少ない。 本稿では,本トピックに集中して,関連する文献の体系的なレビューを行う。 具体的には,本稿の貢献は2つある。 まず,関連する手法の研究の進展を,転校学習,アクティブラーニング,マイトショットラーニングなど,学習パラダイムによって分類する。 第2に,様々な最先端手法を用いた実験を数多く実施し,その結果をまとめ,今後の研究課題を明らかにする。 さらに重要なのは、(通常は十分なラベル付きサンプルを必要とする)ディープラーニングモデルと、ラベル付きサンプルが少ないhsiシナリオの間には大きなギャップがあるが、小さなサンプルセットの問題は、ディープラーニングの手法と、転送学習や軽量モデルといった関連するテクニックの融合によって特徴づけられることだ。 再現性のため、論文で評価されたメソッドのソースコードはhttps://github.com/s huguoj/hsi-classific ation.gitにある。

With the rapid development of deep learning technology and improvement in computing capability, deep learning has been widely used in the field of hyperspectral image (HSI) classification. In general, deep learning models often contain many trainable parameters and require a massive number of labeled samples to achieve optimal performance. However, in regard to HSI classification, a large number of labeled samples is generally difficult to acquire due to the difficulty and time-consuming nature of manual labeling. Therefore, many research works focus on building a deep learning model for HSI classification with few labeled samples. In this article, we concentrate on this topic and provide a systematic review of the relevant literature. Specifically, the contributions of this paper are twofold. First, the research progress of related methods is categorized according to the learning paradigm, including transfer learning, active learning and few-shot learning. Second, a number of experiments with various state-of-the-art approaches has been carried out, and the results are summarized to reveal the potential research directions. More importantly, it is notable that although there is a vast gap between deep learning models (that usually need sufficient labeled samples) and the HSI scenario with few labeled samples, the issues of small-sample sets can be well characterized by fusion of deep learning methods and related techniques, such as transfer learning and a lightweight model. For reproducibility, the source codes of the methods assessed in the paper can be found at https://github.com/S huGuoJ/HSI-Classific ation.git.
翻訳日:2021-12-06 21:36:41 公開日:2021-12-03
# (参考訳) 最適移動を用いた音楽間距離生成 [全文訳有]

Music-to-Dance Generation with Optimal Transport ( http://arxiv.org/abs/2112.01806v1 )

ライセンス: CC BY 4.0
Shuang Wu, Shijian Lu, Li Cheng(参考訳) 音楽のためのダンス振付は難しい課題であり、音楽のテーマやリズムを考慮しつつ、独特のスタイル的なダンス要素を創造的に提示する必要がある。 類似性検索、シーケンシャル・ツー・シーケンス・モデリング、生成的な敵対的ネットワークといった異なるアプローチで取り組まれているが、それらの生成したダンスシーケンスは、しばしばモーションリアリズム、多様性、音楽の一貫性に不足している。 本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Da nce with Optimal Transport Network)を提案する。 生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。 これにより、不安定性や散発的ジェネレータ損失問題に悩まされる標準GANトレーニングの制限を緩和する、明確に定義された非分岐学習目標が提供される。 我々のMDOT-Netは、入力された音楽と有機的な結合を達成し、共有意図を反映し、リズムの調律に適合する現実的で多様なダンスを合成できることを示す。

Dance choreography for a piece of music is a challenging task, having to be creative in presenting distinctive stylistic dance elements while taking into account the musical theme and rhythm. It has been tackled by different approaches such as similarity retrieval, sequence-to-sequence modeling and generative adversarial networks, but their generated dance sequences are often short of motion realism, diversity and music consistency. In this paper, we propose a Music-to-Dance with Optimal Transport Network (MDOT-Net) for learning to generate 3D dance choreographs from music. We introduce an optimal transport distance for evaluating the authenticity of the generated dance distribution and a Gromov-Wasserstein distance to measure the correspondence between the dance distribution and the input music. This gives a well defined and non-divergent training objective that mitigates the limitation of standard GAN training which is frequently plagued with instability and divergent generator loss issues. Extensive experiments demonstrate that our MDOT-Net can synthesize realistic and diverse dances which achieve an organic unity with the input music, reflecting the shared intentionality and matching the rhythmic articulation.
翻訳日:2021-12-06 21:35:07 公開日:2021-12-03
# (参考訳) 年代別因果バンディット [全文訳有]

Chronological Causal Bandits ( http://arxiv.org/abs/2112.01819v1 )

ライセンス: CC BY 4.0
Neil Dhir(参考訳) 本稿では,マルチアームバンディット(MAB)問題,特に複数の因果MABが同じ力学系で時系列に動作する事例について検討する。 実際、各バンディットの報酬分布は、動的因果モデルである同じ非自明な依存構造によって制御される。 動的には,各因果MABが先行MABに依存しているため,エージェント間で情報を伝達することができる。 我々の貢献である年次因果的バンディット(ccb)は,因果効果が経時的に変化している個別意思決定において有用であり,同じシステムにおける先行的な介入によって報知できる。 本稿では,おもちゃ問題におけるCCBの早期発見について述べる。

This paper studies an instance of the multi-armed bandit (MAB) problem, specifically where several causal MABs operate chronologically in the same dynamical system. Practically the reward distribution of each bandit is governed by the same non-trivial dependence structure, which is a dynamic causal model. Dynamic because we allow for each causal MAB to depend on the preceding MAB and in doing so are able to transfer information between agents. Our contribution, the Chronological Causal Bandit (CCB), is useful in discrete decision-making settings where the causal effects are changing across time and can be informed by earlier interventions in the same system. In this paper, we present some early findings of the CCB as demonstrated on a toy problem.
翻訳日:2021-12-06 21:22:10 公開日:2021-12-03
# (参考訳) 説明可能性のためのサブシンボリック法とシンボリック法の組み合わせ [全文訳有]

Combining Sub-Symbolic and Symbolic Methods for Explainability ( http://arxiv.org/abs/2112.01844v1 )

ライセンス: CC BY 4.0
Anna Himmelhuber, Stephan Grimm, Sonja Zillner, Mitchell Joblin, Martin Ringsquandl and Thomas Runkler(参考訳) 他のコネクショナリストモデルと同様に、グラフニューラルネットワーク(GNN)は意思決定に透明性を欠いている。 GNN意思決定プロセスに関する洞察を提供するために、いくつかのサブシンボリックアプローチが開発されている。 これらは説明可能性への道のりにおける最初の重要なステップだが、生成された説明は、aiの専門家ではないユーザーにとっては理解が難しいことが多い。 この問題を克服するために,ドメイン知識と因果関係を組み込んだサブシンボリック手法とシンボリック手法を組み合わせた概念的アプローチを導入する。 さらに,GNNの内部意思決定プロセスにどの程度近いかを評価する指標として,忠実度の概念を導入する。 化学データセットとオントロジーによる評価は,提案手法の説明的価値と信頼性を示す。

Similarly to other connectionist models, Graph Neural Networks (GNNs) lack transparency in their decision-making. A number of sub-symbolic approaches have been developed to provide insights into the GNN decision making process. These are first important steps on the way to explainability, but the generated explanations are often hard to understand for users that are not AI experts. To overcome this problem, we introduce a conceptual approach combining sub-symbolic and symbolic methods for human-centric explanations, that incorporate domain knowledge and causality. We furthermore introduce the notion of fidelity as a metric for evaluating how close the explanation is to the GNN's internal decision making process. The evaluation with a chemical dataset and ontology shows the explanatory value and reliability of our method.
翻訳日:2021-12-06 21:10:29 公開日:2021-12-03
# (参考訳) エピソード政策グラディエントトレーニング [全文訳有]

Episodic Policy Gradient Training ( http://arxiv.org/abs/2112.01853v1 )

ライセンス: CC BY 4.0
Hung Le, Majid Abdolshah, Thommen K. George, Kien Do, Dung Nguyen, Svetha Venkatesh(参考訳) 本稿では,強調学習アルゴリズムのハイパーパラメータを最適化するために,エピソードメモリを用いたポリシー勾配法のための新しいトレーニング手法を提案する。 他のハイパーパラメータ検索とは異なり、ハイパーパラメータスケジューリングを標準マルコフ決定プロセスとして定式化し、使用するハイパーパラメータとそのトレーニングコンテキストの結果をエピソディックメモリで保存する。 ポリシー更新ステップでは、ポリシー学習者はストアドエクスペリエンスを参照し、メモリによって決定される新しいハイパーパラメータで学習アルゴリズムを適応的に再構成する。 このメカニズムは、EPGT(EPsodic Policy Gradient Training)と呼ばれ、エピソード学習プロセスを可能にし、単一の実行内でポリシーと学習アルゴリズムのハイパーパラメータを共同で学習する。 連続環境および離散環境における実験結果から,提案手法を用いることにより,各種ポリシー勾配アルゴリズムの性能向上が期待できる。

We introduce a novel training procedure for policy gradient methods wherein episodic memory is used to optimize the hyperparameters of reinforcement learning algorithms on-the-fly. Unlike other hyperparameter searches, we formulate hyperparameter scheduling as a standard Markov Decision Process and use episodic memory to store the outcome of used hyperparameters and their training contexts. At any policy update step, the policy learner refers to the stored experiences, and adaptively reconfigures its learning algorithm with the new hyperparameters determined by the memory. This mechanism, dubbed as Episodic Policy Gradient Training (EPGT), enables an episodic learning process, and jointly learns the policy and the learning algorithm's hyperparameters within a single run. Experimental results on both continuous and discrete environments demonstrate the advantage of using the proposed method in boosting the performance of various policy gradient algorithms.
翻訳日:2021-12-06 20:56:25 公開日:2021-12-03
# (参考訳) 新規クローズタスクにおけるNLPシステムの評価:教育用テキストにおける可能性フィラーの可視性判定 [全文訳有]

Evaluating NLP Systems On a Novel Cloze Task: Judging the Plausibility of Possible Fillers in Instructional Texts ( http://arxiv.org/abs/2112.01867v1 )

ライセンス: CC BY 4.0
Zizhao Hu, Ravikiran Chanumolu, Xingyu Lin, Nayela Ayaz, Vincent Chi(参考訳) Cloze Taskは、NLPシステムの言語理解能力を評価するために広く使われているタスクである。 しかし、既存のclozeタスクのほとんどは、入力領域全体で一貫した方法で、すべての可能な予測の絶対品質ではなく、各入力データサンプルに対する相対的最善の予測を与えるために、nlpシステムのみを必要とする。 このように、新しいタスクが提案されている: クローズタスクのフィラーワードが良い、中立的、悪い候補であるかどうかを予測する。 複雑なバージョンは、より離散的なクラスや連続的なスコアを予測するために拡張できる。 我々は,Semeval 2022 Task 7のサブタスクAに着目し,このタスクを解くためのいくつかのアーキテクチャを探索し,それらを詳細に比較し,従来のモデルを改善するためのアンサンブル手法を提案した。

Cloze task is a widely used task to evaluate an NLP system's language understanding ability. However, most of the existing cloze tasks only require NLP systems to give the relative best prediction for each input data sample, rather than the absolute quality of all possible predictions, in a consistent way across the input domain. Thus a new task is proposed: predicting if a filler word in a cloze task is a good, neutral, or bad candidate. Complicated versions can be extended to predicting more discrete classes or continuous scores. We focus on subtask A in Semeval 2022 task 7, explored some possible architectures to solve this new task, provided a detailed comparison of them, and proposed an ensemble method to improve traditional models in this new task.
翻訳日:2021-12-06 20:28:57 公開日:2021-12-03
# (参考訳) FPGAによる実行時学習のためのフレキシブルHLSHoeffding Treeの実装 [全文訳有]

A Flexible HLS Hoeffding Tree Implementation for Runtime Learning on FPGA ( http://arxiv.org/abs/2112.01875v1 )

ライセンス: CC BY 4.0
Lu\'is Miguel Sousa, Nuno Paulino, Jo\~ao Canas Ferreira, Jo\~ao Bispo(参考訳) 決定木は、その単純さとスケーラビリティのために組み込みシステムで機械学習を実装する際にしばしば好まれる。 Hoeffding Treesは、Hoeffding境界を利用する決定木の一種で、将来の再処理のためにデータサンプルを継続的に保存することなく、データのパターンを学習することができる。 これにより、組み込みデバイスへのデプロイに特に適している。 この作業では、Hoeffding TreeのHLS実装の特徴を強調します。 実装パラメータには、サンプル(D)の機能サイズ、出力クラス(K)の数、木が成長することを許されるノードの最大数(Nd)が含まれる。 我々は, Xilinx MPSoC ZCU102 を対象とし,異なるクラス数と特徴量に対する設計のリソース要件とクロック周波数,異なるサンプルサイズ (N) の合成データセットの実行時間,出力クラス数,UCI の2つのデータセットの実行時間と精度を評価する。 D3、K5、N40000では、103MHzで動作する単一の決定木は1.2GHzのARM Cortex-A53コアよりも8.3倍高速な推論が可能となる。 Hoeffding ツリーの参照実装と比較すると,UCI データセットの分類精度は同等である。

Decision trees are often preferred when implementing Machine Learning in embedded systems for their simplicity and scalability. Hoeffding Trees are a type of Decision Trees that take advantage of the Hoeffding Bound to allow them to learn patterns in data without having to continuously store the data samples for future reprocessing. This makes them especially suitable for deployment on embedded devices. In this work we highlight the features of an HLS implementation of the Hoeffding Tree. The implementation parameters include the feature size of the samples (D), the number of output classes (K), and the maximum number of nodes to which the tree is allowed to grow (Nd). We target a Xilinx MPSoC ZCU102, and evaluate: the design's resource requirements and clock frequency for different numbers of classes and feature size, the execution time on several synthetic datasets of varying sample sizes (N), number of output classes and the execution time and accuracy for two datasets from UCI. For a problem size of D3, K5, and N40000, a single decision tree operating at 103MHz is capable of 8.3x faster inference than the 1.2GHz ARM Cortex-A53 core. Compared to a reference implementation of the Hoeffding tree, we achieve comparable classification accuracy for the UCI datasets.
翻訳日:2021-12-06 20:21:08 公開日:2021-12-03
# (参考訳) ワンダーランドのベイズ! 予測的教師付き分類推定が予測不能に [全文訳有]

Bayes in Wonderland! Predictive supervised classification inference hits unpredictability ( http://arxiv.org/abs/2112.01880v1 )

ライセンス: CC BY 4.0
Ali Amiryousefi, Ville Kinnula, Jing Tang(参考訳) ベイズ予測分類器(mBpc)は、同時ベイズ予測分類器(sBpc)とは対照的に、各データを個別に扱うため、観測の独立性を暗黙的に仮定する。 しかし、生成モデルパラメータの学習の飽和により、mBpcの精度に対するこの誤った仮定の悪影響は、トレーニングデータの増加に直面し、デ・フィネッティ型の交換可能性の下でこれらの2つの分類器の収束を保証する傾向にある。 しかし、この結果は、分割交換可能性(PE)の下で生成されたシーケンスにとって、決して簡単ではない。 pe下でのシーケンス生成を可能にする計算スキームを提供する。 これに基づいて,訓練データの増加を制御して,sBpcとmBpcの収束を示す。 これは、同時にではなく、より単純で計算効率の良いマージン分類器の使用を基礎としている。 また、分割交換可能なシーケンスを生成する生成モデルのパラメータ推定と、このパラメータを異なるサンプル間で等しくするためのテストパラダイムを提供する。 ベイズ予測教師付き分類、パラメータ推定、および ewens サンプリング公式生成モデルの仮説検定用のパッケージは cran に pekit パッケージとして蓄積され、https://github.com/a miryousefilab/pekit から無料で入手できる。

The marginal Bayesian predictive classifiers (mBpc) as opposed to the simultaneous Bayesian predictive classifiers (sBpc), handle each data separately and hence tacitly assumes the independence of the observations. However, due to saturation in learning of generative model parameters, the adverse effect of this false assumption on the accuracy of mBpc tends to wear out in face of increasing amount of training data; guaranteeing the convergence of these two classifiers under de Finetti type of exchangeability. This result however, is far from trivial for the sequences generated under Partition exchangeability (PE), where even umpteen amount of training data is not ruling out the possibility of an unobserved outcome (Wonderland!). We provide a computational scheme that allows the generation of the sequences under PE. Based on that, with controlled increase of the training data, we show the convergence of the sBpc and mBpc. This underlies the use of simpler yet computationally more efficient marginal classifiers instead of simultaneous. We also provide a parameter estimation of the generative model giving rise to the partition exchangeable sequence as well as a testing paradigm for the equality of this parameter across different samples. The package for Bayesian predictive supervised classifications, parameter estimation and hypothesis testing of the Ewens Sampling formula generative model is deposited on CRAN as PEkit package and free available from https://github.com/A miryousefiLab/PEkit.
翻訳日:2021-12-06 20:13:16 公開日:2021-12-03
# (参考訳) テンポラルVAEによるRiskの値推定

Estimating the Value-at-Risk by Temporal VAE ( http://arxiv.org/abs/2112.01896v1 )

ライセンス: CC BY 4.0
Robert Sicks, Stefanie Grimm, Ralf Korn, Ivo Richert(参考訳) 大規模な資産ポートフォリオの価値・アット・リスク(var)の推定は金融機関にとって重要な課題である。 資産価格の合同対価は、非常に小さな次元の潜在空間にしばしば投影されるため、VaRを推定するための変分オートエンコーダ(VAE)の使用は自然な提案である。 逐次データ学習時のオートエンコーダのボトルネック構造を確保するために,観測変数の自己回帰構造を回避する時間的vae(tempvae)を用いる。 しかし、VAEのオートプルーニング特性と組み合わさった低信号対雑音比は、一般的にVAEを後部崩壊に用いやすい。 そこで本研究では,この効果を緩和するために正規化をアニーリングすることを提案する。 その結果、TempVAEのオートプルーニングは、従来のGARCH型や実データに適用した場合の履歴シミュレーション手法に勝るVaRの優れた推定結果をもたらす。

Estimation of the value-at-risk (VaR) of a large portfolio of assets is an important task for financial institutions. As the joint log-returns of asset prices can often be projected to a latent space of a much smaller dimension, the use of a variational autoencoder (VAE) for estimating the VaR is a natural suggestion. To ensure the bottleneck structure of autoencoders when learning sequential data, we use a temporal VAE (TempVAE) that avoids an auto-regressive structure for the observation variables. However, the low signal- to-noise ratio of financial data in combination with the auto-pruning property of a VAE typically makes the use of a VAE prone to posterior collapse. Therefore, we propose to use annealing of the regularization to mitigate this effect. As a result, the auto-pruning of the TempVAE works properly which also results in excellent estimation results for the VaR that beats classical GARCH-type and historical simulation approaches when applied to real data.
翻訳日:2021-12-06 20:04:25 公開日:2021-12-03
# (参考訳) HS-BAN:バングラにおけるヘイトスピーチ検出のためのソーシャルメディアコメントのベンチマークデータセット [全文訳有]

HS-BAN: A Benchmark Dataset of Social Media Comments for Hate Speech Detection in Bangla ( http://arxiv.org/abs/2112.01902v1 )

ライセンス: CC BY 4.0
Nauros Romim, Mosahed Ahmed, Md Saiful Islam, Arnab Sen Sharma, Hriteshwar Talukder, Mohammad Ruhul Amin(参考訳) 本稿では,40.17%のヘイトスピーチを含む5万以上のラベル付きコメントからなる2進級ヘイトスピーチ(HS)データセットであるHS-BANを提案する。 データセットを準備している間、厳密で詳細なアノテーションガイドラインが続き、人間のアノテーションバイアスが軽減された。 HSデータセットは言語的に前処理され、現在人々がシンボル、頭字語、代替の綴りを使って書く様々な種類のスラングを抽出した。 これらのスラング語はさらに伝統的なスラングリストと非伝統的なスラングリストに分類され、本論文の結果に含まれる。 バングラ語におけるヘイトスピーチ検出のためのベンチマークシステムを開発するために,従来の言語特徴とニューラルネットワークに基づく手法を検討した。 実験の結果, 既存の単語埋め込みモデルでは, 形式的テキストで学習したモデルよりも性能が良いことがわかった。 我々のベンチマークでは、FastTextの非公式単語埋め込みの上にBi-LSTMモデルが86.78%のF1スコアを達成した。 データセットをパブリック使用用に公開します。

In this paper, we present HS-BAN, a binary class hate speech (HS) dataset in Bangla language consisting of more than 50,000 labeled comments, including 40.17% hate and rest are non hate speech. While preparing the dataset a strict and detailed annotation guideline was followed to reduce human annotation bias. The HS dataset was also preprocessed linguistically to extract different types of slang currently people write using symbols, acronyms, or alternative spellings. These slang words were further categorized into traditional and non-traditional slang lists and included in the results of this paper. We explored traditional linguistic features and neural network-based methods to develop a benchmark system for hate speech detection for the Bangla language. Our experimental results show that existing word embedding models trained with informal texts perform better than those trained with formal text. Our benchmark shows that a Bi-LSTM model on top of the FastText informal word embedding achieved 86.78% F1-score. We will make the dataset available for public use.
翻訳日:2021-12-06 20:03:28 公開日:2021-12-03
# (参考訳) 超解像CEST MRIによる微小構造の可視化 [全文訳有]

Towards Super-Resolution CEST MRI for Visualization of Small Structures ( http://arxiv.org/abs/2112.01905v1 )

ライセンス: CC BY-SA 4.0
Lukas Folle, Katharian Tkotz, Fasil Gadjimuradov, Lorenz Kapsner, Moritz Fabian, Sebastian Bickelhaupt, David Simon, Arnd Kleyer, Gerhard Kr\"onke, Moritz Zai{\ss}, Armin Nagel, Andreas Maier(参考訳) 関節リウマチなどのリウマチ性疾患の発症は、典型的にはサブクリニカルであり、早期発見が困難である。 しかし、MRIやCTなどのイメージング技術を用いて解剖学的特徴の変化を検出することができる。 CEST(Chemical Exchange saturation Transfer) MRIのような最新のイメージング技術は、体内の代謝物のイメージングにより、早期検出をさらに改善することを期待している。 CEST MR 画像の高解像度化は, 疾患による変化が生じた最初の領域の1つである患者の関節の小さな構造を画像化するために必要である。 しかし、CEST MRは買収の基盤となる物理的制約のため、本質的に低解像度である。 本研究では,確立されたアップサンプリング手法とニューラルネットワークを用いた超解像手法を比較した。 ニューラルネットワークは、現在の方法よりも、低解像度から高分解能の不飽和cest画像へのマッピングを学べることを示すことができる。 テストセットでは、PSNRが32.29dB(+10%)、NRMSEが0.14(+28%)、SSIMが0.85(+15%)となり、ベースラインが大幅に改善された。 この研究は、超高分解能CEST MRIのためのニューラルネットワークの今後の研究の道を開くもので、その後、リウマチ性疾患の早期発見につながる可能性がある。

The onset of rheumatic diseases such as rheumatoid arthritis is typically subclinical, which results in challenging early detection of the disease. However, characteristic changes in the anatomy can be detected using imaging techniques such as MRI or CT. Modern imaging techniques such as chemical exchange saturation transfer (CEST) MRI drive the hope to improve early detection even further through the imaging of metabolites in the body. To image small structures in the joints of patients, typically one of the first regions where changes due to the disease occur, a high resolution for the CEST MR imaging is necessary. Currently, however, CEST MR suffers from an inherently low resolution due to the underlying physical constraints of the acquisition. In this work we compared established up-sampling techniques to neural network-based super-resolution approaches. We could show, that neural networks are able to learn the mapping from low-resolution to high-resolution unsaturated CEST images considerably better than present methods. On the test set a PSNR of 32.29dB (+10%), a NRMSE of 0.14 (+28%), and a SSIM of 0.85 (+15%) could be achieved using a ResNet neural network, improving the baseline considerably. This work paves the way for the prospective investigation of neural networks for super-resolution CEST MRI and, followingly, might lead to a earlier detection of the onset of rheumatic diseases.
翻訳日:2021-12-06 19:55:34 公開日:2021-12-03
# (参考訳) PSO強化SVRモデルによる家庭レベルの熱消費予測 [全文訳有]

Prediction of Household-level Heat-Consumption using PSO enhanced SVR Model ( http://arxiv.org/abs/2112.01908v1 )

ライセンス: CC BY 4.0
Satyaki Chatterjee, Siming Bayer, and Andreas Maier(参考訳) 気候変動対策において、地域エネルギーシステム(des)の暖房や冷却に有効な需要ベースのエネルギー供給操作は不可欠である。 その結果、消費者側の熱消費の正確な予測は、最適なエネルギー供給に向けて重要な第一歩となる。 しかし, 熱消費データの非線形性と非定常性のため, DESの熱エネルギー需要の予測は依然として困難である。 本研究では,実世界のスマートメータデータを用いたkernel support vector regression(ksvr)に基づく地域暖房システム(dhs)における熱エネルギー消費量予測フレームワークを提案する。 粒子群最適化(PSO)を用いてkSVRモデルの最適ハイパーパラメータを求めることにより,最先端のARIMAモデルと比較して提案手法の優位性を実現する。 平均MAPEは、個々のメートル比予測と社会消費予測で2.07%と2.64%に減少する。

In combating climate change, an effective demand-based energy supply operation of the district energy system (DES) for heating or cooling is indispensable. As a consequence, an accurate forecast of heat consumption on the consumer side poses an important first step towards an optimal energy supply. However, due to the non-linearity and non-stationarity of heat consumption data, the prediction of the thermal energy demand of DES remains challenging. In this work, we propose a forecasting framework for thermal energy consumption within a district heating system (DHS) based on kernel Support Vector Regression (kSVR) using real-world smart meter data. Particle Swarm Optimization (PSO) is employed to find the optimal hyper-parameter for the kSVR model which leads to the superiority of the proposed methods when compared to a state-of-the-art ARIMA model. The average MAPE is reduced to 2.07% and 2.64% for the individual meter-specific forecasting and for forecasting of societal consumption, respectively.
翻訳日:2021-12-06 19:48:53 公開日:2021-12-03
# (参考訳) 暗黙的ニューラル表現に関する構造辞書の展望 [全文訳有]

A Structured Dictionary Perspective on Implicit Neural Representations ( http://arxiv.org/abs/2112.01917v1 )

ライセンス: CC BY 4.0
Gizem Y\"uce, Guillermo Ortiz-Jim\'enez, Beril Besbinar, Pascal Frossard(参考訳) スペクトルバイアスを回避できる新しい設計によって、暗黙のニューラル表現(INR)が、信号の古典的な離散化表現の代替として最近登場した。 しかし、実際の成功にもかかわらず、INRの信号の表現方法に関する適切な理論的特徴はいまだに欠けている。 本研究では,このギャップを埋めることを目的として,理論解析のための統一的な視点を提案する。 高調波解析と深層学習理論から得られた結果から、ほとんどのINR族は、初期マッピング周波数の集合の整数調和性を持つ構造信号辞書に類似していることが分かる。 この構造により、INRは、深さとともに直線的にしか成長しない多くのパラメータを使用して、指数的に増加する周波数サポートを持つ信号を表現できる。 その後、経験的ニューラルネットワークカーネル(NTK)に関する最近の結果を利用して、INRの誘導バイアスについて検討する。 具体的には、NTKの固有関数を、ターゲット信号の内積がそれらの再構成の最終性能を決定する辞書原子とみなすことができる。 そこで本研究では,メタ学習の初期化は辞書学習に類似したNTKの変形効果を示し,メタ学習における例の組合せとして辞書原子を構築した。 この結果から,新しいINRアーキテクチャの設計とチューニングが可能であるが,より広範な深層学習理論コミュニティにも関心が持てる。

Propelled by new designs that permit to circumvent the spectral bias, implicit neural representations (INRs) have recently emerged as a promising alternative to classical discretized representations of signals. Nevertheless, despite their practical success, we still lack a proper theoretical characterization of how INRs represent signals. In this work, we aim to fill this gap, and we propose a novel unified perspective to theoretically analyse INRs. Leveraging results from harmonic analysis and deep learning theory, we show that most INR families are analogous to structured signal dictionaries whose atoms are integer harmonics of the set of initial mapping frequencies. This structure allows INRs to express signals with an exponentially increasing frequency support using a number of parameters that only grows linearly with depth. Afterwards, we explore the inductive bias of INRs exploiting recent results about the empirical neural tangent kernel (NTK). Specifically, we show that the eigenfunctions of the NTK can be seen as dictionary atoms whose inner product with the target signal determines the final performance of their reconstruction. In this regard, we reveal that meta-learning the initialization has a reshaping effect of the NTK analogous to dictionary learning, building dictionary atoms as a combination of the examples seen during meta-training. Our results permit to design and tune novel INR architectures, but can also be of interest for the wider deep learning theory community.
翻訳日:2021-12-06 19:41:05 公開日:2021-12-03
# (参考訳) 模倣・注意・カリキュラム学習を用いた深層ニューラルネットワークによるヒューリスティック探索計画 [全文訳有]

Heuristic Search Planning with Deep Neural Networks using Imitation, Attention and Curriculum Learning ( http://arxiv.org/abs/2112.01918v1 )

ライセンス: CC BY 4.0
Leah Chrestien, Tomas Pevny, Antonin Komenda, Stefan Edelkamp(参考訳) ハードタスク計画ドメインのためのよく知られたヒューリスティック関数の学習は、不可解な問題である。 このようなヒューリスティックな知識を表すニューラルネットワークアーキテクチャは知られているが、具体的な情報が何を学ぶのか、構造を理解するための技術がヒューリスティックスの品質向上に役立つのかは明らかではない。 本稿では,注意機構を用いた最適計画模倣により,状態空間の遠隔部分を関連付けることのできるヒューリスティックな学習をネットワークモデルで学習し,優れたヒューリスティック関数の学習を劇的に改善する。 難易度を増大させる問題作成における手法の限界に対処するため,学習セットに新たに解決された問題インスタンスを追加して,より複雑な問題の解決に役立ち,古典的計画ヒューリスティックスを含む既存のすべてのベースラインのパフォーマンスをはるかに上回るようなカリキュラム学習の活用を実演する。 グリッド型PDDLドメインの有効性を示す。

Learning a well-informed heuristic function for hard task planning domains is an elusive problem. Although there are known neural network architectures to represent such heuristic knowledge, it is not obvious what concrete information is learned and whether techniques aimed at understanding the structure help in improving the quality of the heuristics. This paper presents a network model to learn a heuristic capable of relating distant parts of the state space via optimal plan imitation using the attention mechanism, which drastically improves the learning of a good heuristic function. To counter the limitation of the method in the creation of problems of increasing difficulty, we demonstrate the use of curriculum learning, where newly solved problem instances are added to the training set, which, in turn, helps to solve problems of higher complexities and far exceeds the performances of all existing baselines including classical planning heuristics. We demonstrate its effectiveness for grid-type PDDL domains.
翻訳日:2021-12-06 19:09:08 公開日:2021-12-03
# (参考訳) 合成データ生成のための生成的逆ネットワーク--比較研究 [全文訳有]

Generative Adversarial Networks for Synthetic Data Generation: A Comparative Study ( http://arxiv.org/abs/2112.01925v1 )

ライセンス: CC BY 4.0
Claire Little, Mark Elliot, Richard Allmendinger, Sahel Shariati Samani(参考訳) データ合成の手段としてGAN(Generative Adversarial Networks)が注目されている。 これまでのところ、この研究の多くはデータ機密ドメイン以外のユースケースに適用されており、一般的な用途は人工画像の作成である。 本稿では,合成国勢調査マイクロデータの生成を目的としたGANの活用の可能性を検討する。 我々は,表型ganが生成するデータと正統的データ合成法で生成したデータを比較するために,ユーティリティ指標と開示リスク指標(ターゲットの正しい帰属確率)のバッテリを用いる。

Generative Adversarial Networks (GANs) are gaining increasing attention as a means for synthesising data. So far much of this work has been applied to use cases outside of the data confidentiality domain with a common application being the production of artificial images. Here we consider the potential application of GANs for the purpose of generating synthetic census microdata. We employ a battery of utility metrics and a disclosure risk metric (the Targeted Correct Attribution Probability) to compare the data produced by tabular GANs with those produced using orthodox data synthesis methods.
翻訳日:2021-12-06 18:51:52 公開日:2021-12-03
# (参考訳) 木々の森は見えない:NeuraLによる深層ニューラルネットワークテストの評価 [全文訳有]

You Can't See the Forest for Its Trees: Assessing Deep Neural Network Testing via NeuraL Coverage ( http://arxiv.org/abs/2112.01955v1 )

ライセンス: CC BY 4.0
Yuanyuan Yuan, Qi Pang, Shuai Wang(参考訳) 本稿では,DNN試験基準の8つの設計要件を要約し,分布特性と実用上の懸念を考察する。 次に、これらの設計要件をすべて満たす新しい基準であるNLCを提案する。 NLCは単一のDNN層を(単一のニューロンではなく)基本的な計算単位として扱い、ニューロンの出力分布の4つの重要な特徴を捉える。 したがって、NLCはNeuraL Coverageと呼ばれ、ニューラルネットワークがニューロンよりも近似分布を介して入力をどう理解するかをより正確に記述している。 我々は、nlcが多数のタスク(分類と生成)とデータフォーマット(画像とテキスト)にわたるテストスイートの多様性と著しく相関していることを示します。 DNN予測エラーを発見する能力は有望だ。 NLCにより誘導される試験入力変異は、露出した誤動作の質と多様性を高める。

This paper summarizes eight design requirements for DNN testing criteria, taking into account distribution properties and practical concerns. We then propose a new criterion, NLC, that satisfies all of these design requirements. NLC treats a single DNN layer as the basic computational unit (rather than a single neuron) and captures four critical features of neuron output distributions. Thus, NLC is denoted as NeuraL Coverage, which more accurately describes how neural networks comprehend inputs via approximated distributions rather than neurons. We demonstrate that NLC is significantly correlated with the diversity of a test suite across a number of tasks (classification and generation) and data formats (image and text). Its capacity to discover DNN prediction errors is promising. Test input mutation guided by NLC result in a greater quality and diversity of exposed erroneous behaviors.
翻訳日:2021-12-06 18:38:45 公開日:2021-12-03
# (参考訳) データマニフォールドのトラバースによるディープニューラルネットワークテストの強化 [全文訳有]

Enhancing Deep Neural Networks Testing by Traversing Data Manifold ( http://arxiv.org/abs/2112.01956v1 )

ライセンス: CC BY 4.0
Yuanyuan Yuan, Qi Pang, Shuai Wang(参考訳) DNNをテストするためのフィードバック駆動フレームワークであるDEEPTRAVERSALを開発した。 DEEPTRAVERSALは、様々な形式のメディアデータを多様体にマッピングするオフラインフェーズを最初に立ち上げる。 そして、オンラインテストフェーズにおいて、DEEPTRAVERSALは準備された多様体空間を横断してDNNのカバレッジ基準を最大化し、予測エラーを引き起こす。 評価では,様々なタスク(分類,自動運転,機械翻訳など)を実行するDNNと,異なるタイプのメディアデータ(画像,音声,テキスト)を用いた。 DEEPTRAVERSALは、一般的なDNNカバレッジ基準よりも優れた性能を示し、エラートリガー入力のより多く、より高い品質を発見できる。 DEEPTRAVERSALの発見で修復したDNNモデルでは精度が向上した。

We develop DEEPTRAVERSAL, a feedback-driven framework to test DNNs. DEEPTRAVERSAL first launches an offline phase to map media data of various forms to manifolds. Then, in its online testing phase, DEEPTRAVERSAL traverses the prepared manifold space to maximize DNN coverage criteria and trigger prediction errors. In our evaluation, DNNs executing various tasks (e.g., classification, self-driving, machine translation) and media data of different types (image, audio, text) were used. DEEPTRAVERSAL exhibits better performance than prior methods with respect to popular DNN coverage criteria and it can discover a larger number and higher quality of error-triggering inputs. The tested DNN models, after being repaired with findings of DEEPTRAVERSAL, achieve better accuracy
翻訳日:2021-12-06 18:16:00 公開日:2021-12-03
# (参考訳) nlpベースレセプタによる顧客支援の強化 [全文訳有]

Augmenting Customer Support with an NLP-based Receptionist ( http://arxiv.org/abs/2112.01959v1 )

ライセンス: CC BY 4.0
Andr\'e Barbosa, Alan Godoy(参考訳) 本稿では,ポルトガルのBERTモデルと構造化データを組み合わせることで,有限状態マシンをベースとしたチャットボットをデプロイし,リアルタイム企業がクライアントの接触動機を予測するための対話型AIシステムを構築する方法について述べる。 このモデルは、235のアンバランスラベルを含むデータセットで人間レベルの結果を達成する。 また,従来のNLP手法と比較した場合のビジネスへの影響を考慮し,そのメリットを示す。

In this paper, we show how a Portuguese BERT model can be combined with structured data in order to deploy a chatbot based on a finite state machine to create a conversational AI system that helps a real-estate company to predict its client's contact motivation. The model achieves human level results in a dataset that contains 235 unbalanced labels. Then, we also show its benefits considering the business impact comparing it against classical NLP methods.
翻訳日:2021-12-06 17:53:06 公開日:2021-12-03
# (参考訳) 購入意図予測のためのユーザクリックモデル

User-click Modelling for Predicting Purchase Intent ( http://arxiv.org/abs/2112.02006v1 )

ライセンス: CC BY 4.0
Simone Borg Bruun(参考訳) 本論文は,非生命保険商品の購入意図を予測するため,機械学習手法を用いてユーザ行動のモデル化を行うオープンな数学的問題に対する構造化された調査である。 企業がWebサイトとのユーザインタラクションを理解することは、消費者の振る舞いに関するリッチで個人化された洞察を提供するため、価値がある。 ユーザビヘイビアモデリングにおける既存の研究のほとんどは、検索結果ページのクリックの説明や予測、あるいはスポンサー付き検索におけるクリックスルー率の推定を目的としている。 これらのモデルは、ユーザによるWebページの検査パターンと、Webページによるアイテムの表現の概念に基づいている。 ビジネスwebサイトの購入意図を予測するためにユーザ動作をモデル化する問題を調査し,ユーザが訪問したwebページ数,ユーザが操作したwebページの種類,各webページに費やした時間,といった観点から,ユーザの意図がwebサイトをナビゲートする方法に大きく依存していることを観察した。 これらの知見に触発されて,ユーザセッションの特徴を表現する2つの異なる方法を提案し,ユーザクリックに基づく購入予測モデルとして,フィードフォワードニューラルネットワークに基づくものと,リカレントニューラルネットワークに基づくもの,を提案する。 上記の2つのモデルと,ユーザの人口統計学的特徴を用いたモデルを比較することにより,購入意図を予測するためのユーザクリックの判別性を検討する。 実験結果から,我々のクリックベースモデルは,標準分類評価指標において,人口統計モデルよりも有意に優れており,ユーザクリックの逐次表現に基づくモデルでは,クリックの特徴工学に基づくモデルよりも若干高い性能が得られることが示された。

This thesis contributes a structured inquiry into the open actuarial mathematics problem of modelling user behaviour using machine learning methods, in order to predict purchase intent of non-life insurance products. It is valuable for a company to understand user interactions with their website as it provides rich and individualized insight into consumer behaviour. Most of existing research in user behaviour modelling aims to explain or predict clicks on a search engine result page or to estimate click-through rate in sponsored search. These models are based on concepts about users' examination patterns of a web page and the web page's representation of items. Investigating the problem of modelling user behaviour to predict purchase intent on a business website, we observe that a user's intention yields high dependency on how the user navigates the website in terms of how many different web pages the user visited, what kind of web pages the user interacted with, and how much time the user spent on each web page. Inspired by these findings, we propose two different ways of representing features of a user session leading to two models for user click-based purchase prediction: one based on a Feed Forward Neural Network, and another based on a Recurrent Neural Network. We examine the discriminativeness of user-clicks for predicting purchase intent by comparing the above two models with a model using demographic features of the user. Our experimental results show that our click-based models significantly outperform the demographic model, in terms of standard classification evaluation metrics, and that a model based on a sequential representation of user clicks yields slightly greater performance than a model based on feature engineering of clicks.
翻訳日:2021-12-06 17:42:19 公開日:2021-12-03
# (参考訳) I-WKNN:知的スタジアムにおける高速・高精度WIFI位置決め [全文訳有]

I-WKNN: Fast-Speed and High-Accuracy WIFI Positioning for Intelligent Stadiums ( http://arxiv.org/abs/2112.02058v1 )

ライセンス: CC BY 4.0
Zhangzhi Zhao, Zhengying Lou, Ruibo Wang, Qingyao Li and Xing Xu(参考訳) 知的スポーツ会場における様々な無線指紋位置推定アルゴリズムに基づいて, 高精度で高速な屋内位置推定アルゴリズムを改良し, 重み付きk-nerest neighbor (I-WKNN)を提案する。 本稿では,スポーツ会場の複雑な環境と高速サンプリングの需要を満たすため,オフラインおよびオンラインステージを対象としたAP選択アルゴリズムを提案する。 知的会場における信号強度分布の特性に基づいて,非対称ガウスフィルタアルゴリズムを提案する。 本稿では,インテリジェントスタジアムシステムにおける測位アルゴリズムの適用について紹介し,スタジアムのデータ取得とリアルタイム測位を完成させる。 従来のWKNNアルゴリズムやKNNアルゴリズムと比較して、I-WKNNアルゴリズムは指紋位置データベース処理、環境騒音適応性、リアルタイム位置決め精度、位置決め速度などに利点がある。 実験結果から,I-WKNNアルゴリズムは複雑な騒音環境における位置決め精度と位置決め時間に明らかな利点があり,スマートスタジアムにおける適用可能性も明らかであることがわかった。

Based on various existing wireless fingerprint location algorithms in intelligent sports venues, a high-precision and fast indoor location algorithm improved weighted k-nearest neighbor (I-WKNN) is proposed. In order to meet the complex environment of sports venues and the demand of high-speed sampling, this paper proposes an AP selection algorithm for offline and online stages. Based on the characteristics of the signal intensity distribution in intelligent venues, an asymmetric Gaussian filter algorithm is proposed. This paper introduces the application of the positioning algorithm in the intelligent stadium system, and completes the data acquisition and real-time positioning of the stadium. Compared with traditional WKNN and KNN algorithms, the I-WKNN algorithm has advantages in fingerprint positioning database processing, environmental noise adaptability, real-time positioning accuracy and positioning speed, etc. The experimental results show that the I-WKNN algorithm has obvious advantages in positioning accuracy and positioning time in a complex noise environment and has obvious application potential in a smart stadium.
翻訳日:2021-12-06 17:41:05 公開日:2021-12-03
# (参考訳) 深層学習を用いた超高エネルギー宇宙線の質量組成同定 [全文訳有]

Identifying mass composition of ultra-high-energy cosmic rays using deep learning ( http://arxiv.org/abs/2112.02072v1 )

ライセンス: CC BY 4.0
O. Kalashev, I. Kharuk, M. Kuznetsov, G. Rubtsov, T. Sako, Y. Tsunesada, Ya. Zhezher(参考訳) 深層学習を用いた超高エネルギー宇宙線の質量組成同定法を提案する。 この方法の重要なアイデアは、2つのニューラルネットワークのチェーンを使用することである。 第1のネットワークは個々のイベントに対する一次粒子の種類を予測し、第2のネットワークはイベントのアンサンブルの質量構成を推定する。 本手法は, 4成分近似法において, 前例のない7%の低誤差を生じる望遠鏡アレイ表面検出器読取用モンテカルロデータに適用する。 統計的誤差はシミュレーションに使用されるハドロン相互作用モデルの選択に関連する系統的な誤差よりも劣っている。

We introduce a novel method for identifying the mass composition of ultra-high-energy cosmic rays using deep learning. The key idea of the method is to use a chain of two neural networks. The first network predicts the type of a primary particle for individual events, while the second infers the mass composition of an ensemble of events. We apply this method to the Monte-Carlo data for the Telescope Array Surface Detectors readings, on which it yields an unprecedented low error of 7% for 4-component approximation. The statistical error is shown to be inferior to the systematic one related to the choice of the hadronic interaction model used for simulations.
翻訳日:2021-12-06 17:29:25 公開日:2021-12-03
# 目標ボラティリティファンドにおける選択肢の強化学習

Reinforcement learning for options on target volatility funds ( http://arxiv.org/abs/2112.01841v1 )

ライセンス: Link先を確認
Roberto Daluiso, Emanuele Nastasi, Andrea Pallavicini, Stefano Polo(参考訳) この作業では、目標ボラティリティ戦略(TVS)に基づくリスクの高い証券のヘッジ、リスクのない資産のポートフォリオ、そしてポートフォリオの現実的なボラティリティを一定のレベルに保つために動的にリバランスしたリスクのない資産のポートフォリオに対処する。 テレビSリスクポートフォリオ構成の不確実性と各コンポーネントのヘッジコストの差は、オプション価格を評価するための制御問題を解く必要がある。 我々は、ブラック・アンド・ショール(bs)シナリオにおける問題の分析解を導出する。 次に、Reinforcement Learning(RL)技術を用いて、事前ソリューションが利用できない局所ボラティリティ(LV)モデルの下で、最も保守的な価格につながる資金組成を決定する。 本研究は,TVSの動的解析にパスワイズを応用したRLエージェントの性能と相性がよく,したがってLVのシナリオでも競合することを示す。

In this work we deal with the funding costs rising from hedging the risky securities underlying a target volatility strategy (TVS), a portfolio of risky assets and a risk-free one dynamically rebalanced in order to keep the realized volatility of the portfolio on a certain level. The uncertainty in the TVS risky portfolio composition along with the difference in hedging costs for each component requires to solve a control problem to evaluate the option prices. We derive an analytical solution of the problem in the Black and Scholes (BS) scenario. Then we use Reinforcement Learning (RL) techniques to determine the fund composition leading to the most conservative price under the local volatility (LV) model, for which an a priori solution is not available. We show how the performances of the RL agents are compatible with those obtained by applying path-wise the BS analytical strategy to the TVS dynamics, which therefore appears competitive also in the LV scenario.
翻訳日:2021-12-06 17:15:13 公開日:2021-12-03
# Monge-Amp$\grave{\rm e}$re方程式の還元基底法による高速$L^2$最適質量輸送

Fast $L^2$ optimal mass transport via reduced basis methods for the Monge-Amp$\grave{\rm e}$re equation ( http://arxiv.org/abs/2112.01878v1 )

ライセンス: Link先を確認
Shijin Hou, Yanlai Chen, Yinhua Xia(参考訳) パラメータ化最適マストランスポート(pOMT)問題は、画像登録や適応グリッド生成などのアプリケーションにおいて頻繁に発生する課題である。 したがって、完全順序モデルと同等の精度の高効率な縮小解法を開発することは重要である。 本稿では, 非線形方程式に特化して設計された新しい還元基底(RB)手法, R2-ROC アプローチをパラメータ化した Monge-Amp$\grave{\rm e}$re 方程式に適用することにより, pOMT の機械学習的手法を提案する。 これは、いわゆる真理解法である狭義の有限差分法(fdm)の上に構築され、輸送境界を持つmonge-amp$\grave{\rm e}$re方程式に対して提案する。 R2-ROCアプローチとともに、非線形性の直接近似に頼ることなく、オンライン効率を達成するMonge-Amp$\grave{\rm e}$re方程式に関連する強でユニークな非線形性を扱うことができる。 種々のパラメトリック境界条件を持つmonge-amp$\grave{\rm e}$re方程式の解法について,いくつかの難解な数値実験を行った。

Repeatedly solving the parameterized optimal mass transport (pOMT) problem is a frequent task in applications such as image registration and adaptive grid generation. It is thus critical to develop a highly efficient reduced solver that is equally accurate as the full order model. In this paper, we propose such a machine learning-like method for pOMT by adapting a new reduced basis (RB) technique specifically designed for nonlinear equations, the reduced residual reduced over-collocation (R2-ROC) approach, to the parameterized Monge-Amp$\grave{\rm e}$re equation. It builds on top of a narrow-stencil finite different method (FDM), a so-called truth solver, which we propose in this paper for the Monge-Amp$\grave{\rm e}$re equation with a transport boundary. Together with the R2-ROC approach, it allows us to handle the strong and unique nonlinearity pertaining to the Monge-Amp$\grave{\rm e}$re equation achieving online efficiency without resorting to any direct approximation of the nonlinearity. Several challenging numerical tests demonstrate the accuracy and high efficiency of our method for solving the Monge-Amp$\grave{\rm e}$re equation with various parametric boundary conditions.
翻訳日:2021-12-06 17:14:53 公開日:2021-12-03
# 強化学習に基づく自動ベスティングシステム

Reinforcement Learning-Based Automatic Berthing System ( http://arxiv.org/abs/2112.01879v1 )

ライセンス: Link先を確認
Daesoo Lee(参考訳) 人工ニューラルネットワーク(ANN)を用いた自動バーチングシステムの研究は,船体バーチングデータをトレーニングデータとしてトレーニングすることにより,優れたバーチング性能を示した。 しかし、ANNは、堅牢な性能を得るために大量のトレーニングデータを必要とするため、このバーシングデータを取得するのが困難であるため、ANNベースの自動バーシングシステムは多少制限されている。 In this study, to overcome this difficulty, the automatic berthing system based on one of the reinforcement learning (RL) algorithms, proximal policy optimization (PPO), is proposed because the RL algorithms can learn an optimal control policy through trial-and-error by interacting with a given environment and does not require any pre-obtained training data, where the control policy in the proposed PPO-based automatic berthing system controls revolutions per second (RPS) and rudder angle of a ship. 最後に,提案システムではトレーニングデータセットの取得の必要性を排除し,実際のバーシングアプリケーションに大きな可能性を示す。

Previous studies on automatic berthing systems based on artificial neural network (ANN) showed great berthing performance by training the ANN with ship berthing data as training data. However, because the ANN requires a large amount of training data to yield robust performance, the ANN-based automatic berthing system is somewhat limited due to the difficulty in obtaining the berthing data. In this study, to overcome this difficulty, the automatic berthing system based on one of the reinforcement learning (RL) algorithms, proximal policy optimization (PPO), is proposed because the RL algorithms can learn an optimal control policy through trial-and-error by interacting with a given environment and does not require any pre-obtained training data, where the control policy in the proposed PPO-based automatic berthing system controls revolutions per second (RPS) and rudder angle of a ship. Finally, it is shown that the proposed PPO-based automatic berthing system eliminates the need for obtaining the training dataset and shows great potential for the actual berthing application.
翻訳日:2021-12-06 17:14:29 公開日:2021-12-03
# ナノ構造共重合体の動的破壊:ビッグデータ生成実験のディープラーニング解析

Dynamic fracture of a bicontinuously nanostructured copolymer: A deep learning analysis of big-data-generating experiment ( http://arxiv.org/abs/2112.01971v1 )

ライセンス: Link先を確認
Hanxun Jin, Rodney J. Clifton, Kyung-Suk Kim(参考訳) 本稿では, 動的ビッグデータ生成実験のディープラーニング解析から, 両連続ナノ構造共重合体ポリウレアの動的破壊靭性および凝集パラメータを極端に高いクラックチップ負荷速度で報告する。 単板衝撃実験において, き裂発生および成長過程を投影的にカバーする試料の裏面の線に沿って, 変位勾配の時間プロファイルを生成できる新しい動的ライン画像せん断干渉計 (DL-ISI) を考案した。 そこで我々は,DL-ISI fringe 画像から正確な凝集パラメータを逆に決定できる畳み込みニューラルネットワーク(CNN)に基づくディープラーニングフレームワークを提案する。 中間面クラックを有するポリウレア試料の板衝撃実験を行い, 生成したDL-ISI fringe画像は, 条件付き生成反転ネットワーク(cGAN)によって塗装されている。 ポリウレアの動的凝集パラメータは, 相関法と線形破壊力学推定に整合した計算データセットを用いて, 事前学習したCNNアーキテクチャにより初めて得られた。 ポリウレアでは見かけの動的強靭化が見られ、同じ衝撃速度の対称衝撃下での凝集強度はスポール強度の約3倍であることがわかった。 これらの実験結果は, ひび割れ先端付近の極端局所荷重条件下でのコポリマーの協調疲労強度の現在の理解のギャップを埋める。 この実験はまた、革新的な高スループット実験技術と最先端の機械学習アルゴリズムを組み合わせたビッグデータ生成実験の利点を実証する。

Here, we report the dynamic fracture toughness as well as the cohesive parameters of a bicontinuously nanostructured copolymer, polyurea, under an extremely high crack-tip loading rate, from a deep-learning analysis of a dynamic big-data-generating experiment. We first invented a novel Dynamic Line-Image Shearing Interferometer (DL-ISI), which can generate the displacement-gradien t - time profiles along a line on a sample's back surface projectively covering the crack initiation and growth process in a single plate impact experiment. Then, we proposed a convolutional neural network (CNN) based deep-learning framework that can inversely determine the accurate cohesive parameters from DL-ISI fringe images. Plate-impact experiments on a polyurea sample with a mid-plane crack have been performed, and the generated DL-ISI fringe image has been inpainted by a Conditional Generative Adversarial Networks (cGAN). For the first time, the dynamic cohesive parameters of polyurea have been successfully obtained by the pre-trained CNN architecture with the computational dataset, which is consistent with the correlation method and the linear fracture mechanics estimation. Apparent dynamic toughening is found in polyurea, where the cohesive strength is found to be nearly three times higher than the spall strength under the symmetric impact with the same impact speed. These experimental results fill the gap in the current understanding of copolymer's cooperative-failure strength under extreme local loading conditions near the crack tip. This experiment also demonstrates the advantages of big-data-generating experiments, which combine innovative high-throughput experimental techniques with state-of-the-art machine learning algorithms.
翻訳日:2021-12-06 17:14:14 公開日:2021-12-03
# 直接金属レーザー溶解におけるプロセス品質モニタリングと欠陥検出

In situ process quality monitoring and defect detection for direct metal laser melting ( http://arxiv.org/abs/2112.01921v1 )

ライセンス: Link先を確認
Sarah Felix, Saikat Ray Majumder, H. Kirk Mathews, Michael Lexa, Gabriel Lipsa, Xiaohu Ping, Subhrajit Roychowdhury, Thomas Spears(参考訳) DMLM(Direct Metal Laser Melting)における品質管理と品質保証は課題である。 間欠的な機械診断と下流部検査は、未処理部品が故障した後に問題となる。 本稿では,既存の商用DMLMシステムに最小限のハードウェア修正で容易に展開可能なプロセス内故障検出手法と部品品質予測手法について述べる。 新しい特徴は、一般的なフォトダイオードセンサーと標準の機械制御信号の時系列から派生した。 ベイズアプローチは、測定結果を複数の過程の1つに分類し、最小二乗回帰モデルは、特定の物質欠陥の深刻度を予測する。

Quality control and quality assurance are challenges in Direct Metal Laser Melting (DMLM). Intermittent machine diagnostics and downstream part inspections catch problems after undue cost has been incurred processing defective parts. In this paper we demonstrate two methodologies for in-process fault detection and part quality prediction that can be readily deployed on existing commercial DMLM systems with minimal hardware modification. Novel features were derived from the time series of common photodiode sensors along with standard machine control signals. A Bayesian approach attributes measurements to one of multiple process states and a least squares regression model predicts severity of certain material defects.
翻訳日:2021-12-06 17:13:21 公開日:2021-12-03
# 保証付き条件付き期待の計算

Computation of conditional expectations with guarantees ( http://arxiv.org/abs/2112.01804v1 )

ライセンス: Link先を確認
Patrick Cheridito and Balint Gersey(参考訳) 理論的には、$d$-次元の確率ベクトル$X$を与えられた平方可積分確率変数$Y$の条件付き期待値は、すべてのボレル可測函数$f \colon \mathbb{R}^d \to \mathbb{R}$の平均平方距離を最小化することによって得られる。 しかし、多くの応用において、この最小化問題は正確には解けず、代わりにボレル関数の適当な部分集合上で近似最小値を計算する数値法を用いる必要がある。 結果の質は,サブファミリーの妥当性と数値的手法の性能に依存する。 本稿では,標準モンテカルロ平均を用いて効率的に近似できる最小平均平方距離の期待値表現を求める。 これにより、与えられた条件付き期待値の数値近似の精度を保証することができる。 本手法は, 線形, 多項式, ニューラルネットワークの回帰によって得られる近似条件期待値の品質を, 具体例によって評価することによって述べる。

Theoretically, the conditional expectation of a square-integrable random variable $Y$ given a $d$-dimensional random vector $X$ can be obtained by minimizing the mean squared distance between $Y$ and $f(X)$ over all Borel measurable functions $f \colon \mathbb{R}^d \to \mathbb{R}$. However, in many applications this minimization problem cannot be solved exactly, and instead, a numerical method that computes an approximate minimum over a suitable subfamily of Borel functions has to be used. The quality of the result depends on the adequacy of the subfamily and the performance of the numerical method. In this paper, we derive an expected value representation of the minimal mean square distance which in many applications can efficiently be approximated with a standard Monte Carlo average. This enables us to provide guarantees for the accuracy of any numerical approximation of a given conditional expectation. We illustrate the method by assessing the quality of approximate conditional expectations obtained by linear, polynomial as well as neural network regression in different concrete examples.
翻訳日:2021-12-06 17:13:12 公開日:2021-12-03
# (参考訳) TC-GNN:GPU上の高密度テンソルコアによるスパースグラフニューラルネットワーク計算の高速化 [全文訳有]

TC-GNN: Accelerating Sparse Graph Neural Network Computation Via Dense Tensor Core on GPUs ( http://arxiv.org/abs/2112.02052v1 )

ライセンス: CC BY 4.0
Yuke Wang, Boyuan Feng, Yufei Ding(参考訳) 近年、グラフベース機械学習のバックボーンであるグラフニューラルネットワーク(GNN)は、さまざまな領域(eコマースなど)で大きな成功を収めている。 しかしながら、GNNの性能は、非常にスパースで不規則なグラフベースの操作のため、通常不満足である。 そこで我々は,最初のGPU Tensor Core Unit(TCU)ベースのGNNアクセラレーションフレームワークであるTC-GNNを提案する。 中心となる考え方は、"スパース" GNN 計算を "Dense" TCU で整合させることである。 具体的には、メインストリームのGNNコンピューティングフレームワークにおけるスパース操作の詳細な分析を行う。 スパースGNNワークロードのTCU処理を容易にする新しいスパースグラフ変換手法を提案する。 また,GPUリソースをフル活用するために,有効なCUDAコアとTCUコラボレーション設計を実装した。 TC-GNNをPytorchフレームワークと完全に統合し、プログラミングを容易にする。 厳密な実験は、さまざまなGNNモデルとデータセット設定にわたる最先端のDeep Graph Libraryフレームワークの平均1.70倍のスピードアップを示している。

Recently, graph neural networks (GNNs), as the backbone of graph-based machine learning, demonstrate great success in various domains (e.g., e-commerce). However, the performance of GNNs is usually unsatisfactory due to the highly sparse and irregular graph-based operations. To this end, we propose, TC-GNN, the first GPU Tensor Core Unit (TCU) based GNN acceleration framework. The core idea is to reconcile the "Sparse" GNN computation with "Dense" TCU. Specifically, we conduct an in-depth analysis of the sparse operations in mainstream GNN computing frameworks. We introduce a novel sparse graph translation technique to facilitate TCU processing of sparse GNN workload. We also implement an effective CUDA core and TCU collaboration design to fully utilize GPU resources. We fully integrate TC-GNN with the Pytorch framework for ease of programming. Rigorous experiments show an average of 1.70X speedup over the state-of-the-art Deep Graph Library framework across various GNN models and dataset settings.
翻訳日:2021-12-06 17:11:45 公開日:2021-12-03
# ソフトウェア工学のための多言語学習

Multilingual training for Software Engineering ( http://arxiv.org/abs/2112.02043v1 )

ライセンス: Link先を確認
Toufique Ahmed and Premkumar Devanbu(参考訳) 大量のオープンソースソフトウェアデータを活用する機械学習モデルは、今や多くのソフトウェアエンジニアリングタスクを自動化する興味深いアプローチになっている。 いくつかのSEタスクはいずれもこのアプローチの対象であり、パフォーマンスはここ数年で徐々に改善され、より良いモデルとトレーニングメソッドが提供されている。 より多種多様な、よりクリーンなラベル付きデータはトレーニングに適していますが、高品質なデータセットの構築には時間がかかり、困難です。 クリーンなラベル付きデータのボリュームと多様性を増強する方法は、一般的に幅広い適用性を持っている。 一部の言語(Rubyなど)では、ラベル付きデータは豊富ではなく、他の言語(JavaScriptなど)では、利用可能なデータは、いくつかのアプリケーションドメインにもっと集中しているため、多様性が低い。 このようなデータのボトルネックを回避する方法として、異なる言語(同じ機能を実行する)で記述されたコードが、かなり類似しており、特に識別子の命名パターンを保存していることを示す証拠を示すとともに、識別子がソフトウェアエンジニアリングタスクのトレーニングデータの非常に重要な要素であることを示す証拠を示す。 この現象を利用して、利用可能な多言語学習データ(異なる言語にわたって)が性能を増幅するために利用できることを示す。 本稿では,コード要約,コード検索,関数命名の3つのタスクについて検討する。 このデータ拡張アプローチは、さまざまなタスク、言語、機械学習モデルと広く互換性がある。

Well-trained machine-learning models, which leverage large amounts of open-source software data, have now become an interesting approach to automating many software engineering tasks. Several SE tasks have all been subject to this approach, with performance gradually improving over the past several years with better models and training methods. More, and more diverse, clean, labeled data is better for training; but constructing good-quality datasets is time-consuming and challenging. Ways of augmenting the volume and diversity of clean, labeled data generally have wide applicability. For some languages (e.g., Ruby) labeled data is less abundant; in others (e.g., JavaScript) the available data maybe more focused on some application domains, and thus less diverse. As a way around such data bottlenecks, we present evidence suggesting that human-written code in different languages (which performs the same function), is rather similar, and particularly preserving of identifier naming patterns; we further present evidence suggesting that identifiers are a very important element of training data for software engineering tasks. We leverage this rather fortuitous phenomenon to find evidence that available multilingual training data (across different languages) can be used to amplify performance. We study this for 3 different tasks: code summarization, code retrieval, and function naming. We note that this data-augmenting approach is broadly compatible with different tasks, languages, and machine-learning models.
翻訳日:2021-12-06 16:46:36 公開日:2021-12-03
# グローバル$O(1/k^2)$収束を用いた正規化ニュートン法

Regularized Newton Method with Global $O(1/k^2)$ Convergence ( http://arxiv.org/abs/2112.02089v1 )

ライセンス: Link先を確認
Konstantin Mishchenko(参考訳) 任意の初期化や任意の凸対象に対してリプシッツ・ヘッシアンと高速に収束するニュートン型手法を提案する。 我々は、立方正則化のアイデアとある種の適応レベンベルグ=マルカルトペナルティを融合することによりこれを達成する。 特に、$x^{k+1}=x^k - \bigl(\nabla^2 f(x^k)) + \sqrt{H\|\nabla f(x^k)\|} \mathbf{I}\bigr)^{-1}\nabla f(x^k)$, ここで$H>0$は定数であり、$\mathcal{O}(\frac{1}{k^2})$ rateと全世界的に収束する。 提案手法は,ニュートン法の最初の変種であり,安価な反復と高速なグローバル収束を両立させる。 さらに, 対象が強凸である場合, 局所的に本手法が超線形に収束することを示す。 提案手法の性能を向上させるため,ハイパーパラメータを必要とせず,かつ有効な行探索手法を提案する。

We present a Newton-type method that converges fast from any initialization and for arbitrary convex objectives with Lipschitz Hessians. We achieve this by merging the ideas of cubic regularization with a certain adaptive Levenberg--Marquardt penalty. In particular, we show that the iterates given by $x^{k+1}=x^k - \bigl(\nabla^2 f(x^k) + \sqrt{H\|\nabla f(x^k)\|} \mathbf{I}\bigr)^{-1}\nabla f(x^k)$, where $H>0$ is a constant, converge globally with a $\mathcal{O}(\frac{1}{k^2})$ rate. Our method is the first variant of Newton's method that has both cheap iterations and provably fast global convergence. Moreover, we prove that locally our method converges superlinearly when the objective is strongly convex. To boost the method's performance, we present a line search procedure that does not need hyperparameters and is provably efficient.
翻訳日:2021-12-06 16:46:14 公開日:2021-12-03
# 摂動時間依存2次最小化のための残差型適応係数と雑音免疫ZNN

Residual-Based Adaptive Coefficient and Noise-Immunity ZNN for Perturbed Time-Dependent Quadratic Minimization ( http://arxiv.org/abs/2112.01773v1 )

ライセンス: Link先を確認
Chengze Jiang, Long Jin, Xiuchun Xiao(参考訳) 時間依存二次最小化(TDQM)問題は、多くのアプリケーションや研究プロジェクトに見られる。 ゼロリングニューラルネットワーク(ZNN)モデルはTDQM問題を効果的に解くことができると報告されている。 しかし、適応係数と積分強化項の共振機構が欠如しているため、既存のZNNモデルの収束性と堅牢性は制限される。 そこで本稿では,tdqm問題を解くために,統合項を用いた残差ベース適応係数ゼロ化ニューラルネットワーク(racznn)モデルを提案する。 適応係数は収束性能を向上させるために提案され、RACZNNモデルが可変測定ノイズに乱れながら信頼性の高いロバスト性を維持するために積分項が組み込まれている。 最先端モデルと比較して、提案したRACZNNモデルはより高速な収束と信頼性の高い堅牢性を持っている。 そして、RACZNNモデルの収束を証明するために定理が提供される。 最後に,提案したRACZNNモデルの性能を検証するために,対応する定量的数値実験を設計・実施する。

The time-dependent quadratic minimization (TDQM) problem appears in many applications and research projects. It has been reported that the zeroing neural network (ZNN) models can effectively solve the TDQM problem. However, the convergent and robust performance of the existing ZNN models are restricted for lack of a joint-action mechanism of adaptive coefficient and integration enhanced term. Consequently, the residual-based adaption coefficient zeroing neural network (RACZNN) model with integration term is proposed in this paper for solving the TDQM problem. The adaptive coefficient is proposed to improve the performance of convergence and the integration term is embedded to ensure the RACZNN model can maintain reliable robustness while perturbed by variant measurement noises. Compared with the state-of-the-art models, the proposed RACZNN model owns faster convergence and more reliable robustness. Then, theorems are provided to prove the convergence of the RACZNN model. Finally, corresponding quantitative numerical experiments are designed and performed in this paper to verify the performance of the proposed RACZNN model.
翻訳日:2021-12-06 16:45:46 公開日:2021-12-03
# (参考訳) 鉄鋼製造における人間エキスパートの意思決定戦略のネットワーク分析 [全文訳有]

A network analysis of decision strategies of human experts in steel manufacturing ( http://arxiv.org/abs/2112.01991v1 )

ライセンス: CC BY 4.0
Daniel Christopher Merten, Prof. Dr. Marc-Thorsten H\"utt, Prof. Dr. Yilmaz Uygun(参考訳) 鉄鋼生産のスケジューリングは通常、人間の専門家プランナーによって行われる。 したがって、完全に自動化されたスケジューリングシステムの代わりに、鉄鋼メーカーは補助推奨アルゴリズムを好む。 適切な注文を提案することで、これらのアルゴリズムは、生産注文の選択とスケジューリングを担当する専門家プランナーを支援する。 しかし、鋼鉄のキャンペーン計画には正確なルールに基づく手順が欠けているため、これらのアルゴリズムがどのような複雑さを持つべきかを推測することは困難であり、実際、長年のビジネス経験によってのみ獲得できる、広範囲のドメイン知識と直観が必要である。 そこで我々は,新しいアルゴリズムを開発したり,古いアルゴリズムを改善する代わりに,人間専門家が確立した選択パターンの複雑さを評価するためのシャッフル支援ネットワーク手法を提案する。 この手法により,キャンペーン計画に参入する暗黙の知識を形式化し,表現することができる。 ネットワーク分析の結果, 生産順序の選択は, 主に生産順序の炭素量によって決定されることが判明した。 驚いたことに、マンガン、ケイ素、チタンなどの微量元素は、関連する文献で想定されるよりも選択決定に影響を及ぼさない。 私たちのアプローチは、人間の専門家が特定の暗黙の選択基準を満たす順序のグループ('campaigns')を作成する必要がある場合、さまざまな意思決定支援システムへの入力として機能します。

Steel production scheduling is typically accomplished by human expert planners. Hence, instead of fully automated scheduling systems steel manufacturers prefer auxiliary recommendation algorithms. Through the suggestion of suitable orders, these algorithms assist human expert planners who are tasked with the selection and scheduling of production orders. However, it is hard to estimate, what degree of complexity these algorithms should have as steel campaign planning lacks precise rule-based procedures; in fact, it requires extensive domain knowledge as well as intuition that can only be acquired by years of business experience. Here, instead of developing new algorithms or improving older ones, we introduce a shuffling-aided network method to assess the complexity of the selection patterns established by a human expert. This technique allows us to formalize and represent the tacit knowledge that enters the campaign planning. As a result of the network analysis, we have discovered that the choice of production orders is primarily determined by the orders' carbon content. Surprisingly, trace elements like manganese, silicon, and titanium have a lesser impact on the selection decision than assumed by the pertinent literature. Our approach can serve as an input to a range of decision-support systems, whenever a human expert needs to create groups of orders ('campaigns') that fulfill certain implicit selection criteria.
翻訳日:2021-12-06 16:42:44 公開日:2021-12-03
# 組み込みGPUを用いた小型UAS上での自律衝突回避のための機械学習サブシステム

Machine Learning Subsystem for Autonomous Collision Avoidance on a small UAS with Embedded GPU ( http://arxiv.org/abs/2112.01688v1 )

ライセンス: Link先を確認
Nicholas Polosky, Tyler Gwin, Sean Furman, Parth Barhanpurkar, Jithin Jagannath(参考訳) 6G通信ネットワークのための無人航空システム(UAS)を利用したソリューションへの関心は、機械学習ベースの自律モジュールと組み込みグラフィカル処理ユニット(GPU)が広く利用できるようになったことで大きく成長している。 これらの技術はUASソリューションの可能性に革命をもたらしたが、UASのためのオペラブルで堅牢な自律フレームワークを設計することは、多面的かつ困難な問題である。 本稿では, MR-iFLYと題するUAS自律性のための新しいモジュラー・フレームワークについて紹介し, 6Gスワム・ソリューションを実現するための拡張方法について議論する。 まず、リソース制約のあるデバイス上での機械学習ベースのUAS自律性に関わる課題を詳述する。 次に,mr-iflyの新しい深さ推定技術と衝突回避技術がこれらの課題をどのように満たしているかを詳細に述べる。 最後に、性能測定に用いた様々な評価基準を説明し、最適化されたマシンビジョンコンポーネントがベースラインモデルに対して最大15倍のスピードアップを提供する方法を示し、mr-iflyの視覚ベースの衝突回避技術の飛行デモビデオを示す。 これらの実験結果から, MR-iFLYは, 6G通信群におけるノード間の通信オーバヘッドを低減するために, スタンドアロンの衝突回避とナビゲーション機能を提供することで, 有効である可能性が示唆された。

Interest in unmanned aerial system (UAS) powered solutions for 6G communication networks has grown immensely with the widespread availability of machine learning based autonomy modules and embedded graphical processing units (GPUs). While these technologies have revolutionized the possibilities of UAS solutions, designing an operable, robust autonomy framework for UAS remains a multi-faceted and difficult problem. In this work, we present our novel, modular framework for UAS autonomy, entitled MR-iFLY, and discuss how it may be extended to enable 6G swarm solutions. We begin by detailing the challenges associated with machine learning based UAS autonomy on resource constrained devices. Next, we describe in depth, how MR-iFLY's novel depth estimation and collision avoidance technology meets these challenges. Lastly, we describe the various evaluation criteria we have used to measure performance, show how our optimized machine vision components provide up to 15X speedup over baseline models and present a flight demonstration video of MR-iFLY's vision-based collision avoidance technology. We argue that these empirical results substantiate MR-iFLY as a candidate for use in reducing communication overhead between nodes in 6G communication swarms by providing standalone collision avoidance and navigation capabilities.
翻訳日:2021-12-06 16:25:43 公開日:2021-12-03
# プロセスマイニングにおけるコンセプトドリフトに関する調査

A Survey on Concept Drift in Process Mining ( http://arxiv.org/abs/2112.02000v1 )

ライセンス: Link先を確認
Denise Maria Vecino Sato, Sheila Cristiana de Freitas, Jean Paul Barddal and Edson Emilio Scalabrin(参考訳) プロセスマイニング(pm)の概念ドリフト(concept drift in process mining, 概念ドリフト)は、プロセスが定常状態にあると仮定する古典的な手法である。 そこで我々は,これらの領域の交点に関する体系的な文献レビューを行い,プロセスマイニングにおけるドリフトの概念を概観し,既存のドリフト検出技術と進化環境のためのオンラインプロセスマイニング手法の分類を推し進めた。 現存する作品には (i)pmは依然としてオフライン分析に重点を置いており (ii)共通の評価プロトコル、データセット、メトリクスが欠如しているため、プロセスにおける概念ドリフト手法の評価は煩雑である。

Concept drift in process mining (PM) is a challenge as classical methods assume processes are in a steady-state, i.e., events share the same process version. We conducted a systematic literature review on the intersection of these areas, and thus, we review concept drift in process mining and bring forward a taxonomy of existing techniques for drift detection and online process mining for evolving environments. Existing works depict that (i) PM still primarily focuses on offline analysis, and (ii) the assessment of concept drift techniques in processes is cumbersome due to the lack of common evaluation protocol, datasets, and metrics.
翻訳日:2021-12-06 16:25:20 公開日:2021-12-03
# 教師なし・教師なし・強化学習から生じる行動学的視覚入力の異種表現

Divergent representations of ethological visual inputs emerge from supervised, unsupervised, and reinforcement learning ( http://arxiv.org/abs/2112.02027v1 )

ライセンス: Link先を確認
Grace W. Lindsay, Josh Merel, Tom Mrsic-Flogel, Maneesh Sahani(参考訳) 強化、教師なし、教師なし学習を用いて訓練された人工神経システムは、すべて高次元入力の内部表現を取得する。 これらの表現がどの程度異なる学習目標に依存しているかはほとんど不明である。 ここでは、8つの異なる畳み込みニューラルネットワークによって学習された表現を比較し、それぞれが同一のresnetアーキテクチャを持ち、同じエゴセントリックなイメージのファミリーで訓練されているが、異なる学習システムに組み込まれている。 具体的には、複合強化学習タスクにおける行動の指導、3つのタスク関連目標の1つまたは1つの組み合わせの予測、または3つの異なる教師なし目的の1つを使用するように訓練される。 表現的類似性分析を用いて,強化学習で学習したネットワークが,他のネットワークと最も異なることがわかった。 神経科学の文献にインスパイアされたメトリクスを用いたさらなる分析を通じて、強化学習で訓練されたモデルは、個々の画像が全く異なる神経活動パターンで表現される、疎らで高次元の表現を持つことがわかった。 さらなる分析は、これらの表現がRLエージェントの長期的な行動とゴール探索を導くために生じる可能性を示唆している。 この結果から,ニューラル表現の性質が目的関数にどのように影響するかを把握し,伝達学習のアプローチを知ることができる。

Artificial neural systems trained using reinforcement, supervised, and unsupervised learning all acquire internal representations of high dimensional input. To what extent these representations depend on the different learning objectives is largely unknown. Here we compare the representations learned by eight different convolutional neural networks, each with identical ResNet architectures and trained on the same family of egocentric images, but embedded within different learning systems. Specifically, the representations are trained to guide action in a compound reinforcement learning task; to predict one or a combination of three task-related targets with supervision; or using one of three different unsupervised objectives. Using representational similarity analysis, we find that the network trained with reinforcement learning differs most from the other networks. Through further analysis using metrics inspired by the neuroscience literature, we find that the model trained with reinforcement learning has a sparse and high-dimensional representation wherein individual images are represented with very different patterns of neural activity. Further analysis suggests these representations may arise in order to guide long-term behavior and goal-seeking in the RL agent. Our results provide insights into how the properties of neural representations are influenced by objective functions and can inform transfer learning approaches.
翻訳日:2021-12-06 16:25:09 公開日:2021-12-03
# (参考訳) マラカイ:感情の形に適応した音楽 [全文訳有]

Malakai: Music That Adapts to the Shape of Emotions ( http://arxiv.org/abs/2112.02070v1 )

ライセンス: CC BY 4.0
Zack Harris, Liam Atticus Clarke, Pietro Gagliano, Dante Camarena, Manal Siddiqui, Pablo S. Castro(参考訳) Google MagentaのMusicVAEのようなMLミュージックモデルの出現により、他の複雑なデータセットから合成機能の抽出と複製が可能になりました。 これらのモデルにより、計算作曲家はスタイルやムードなどの抽象変数をパラメータ化できる。 これらのモデルを利用して過去数十年の手続きアルゴリズムと組み合わせることで、インタラクティブな体験に合わせて音楽をリアルタイムで作曲するダイナミックな曲を作ることができる。 Malakaiは、さまざまなスキルレベルを持つユーザが、このようなダイナミックな曲を作り、聴き、リミックスし、共有するのを助けるツールだ。 malakaiを使って、作曲家はリスナーが対話できるダイナミックな曲を作ることができる

The advent of ML music models such as Google Magenta's MusicVAE now allow us to extract and replicate compositional features from otherwise complex datasets. These models allow computational composers to parameterize abstract variables such as style and mood. By leveraging these models and combining them with procedural algorithms from the last few decades, it is possible to create a dynamic song that composes music in real-time to accompany interactive experiences. Malakai is a tool that helps users of varying skill levels create, listen to, remix and share such dynamic songs. Using Malakai, a Composer can create a dynamic song that can be interacted with by a Listener
翻訳日:2021-12-06 16:23:14 公開日:2021-12-03
# bbs-kws:mandarinキーワードスポッティングシステムがビデオキーワードwakeup challengeで優勝

BBS-KWS:The Mandarin Keyword Spotting System Won the Video Keyword Wakeup Challenge ( http://arxiv.org/abs/2112.01757v1 )

ライセンス: Link先を確認
Yuting Yang, Binbin Du, Yingxin Zhang, Wenxuan Wang, Yuke Li(参考訳) 本稿では,yidun nispチームがビデオキーワードwakeup challengeに提出したシステムを紹介する。 本稿では,ビッグバックボーン (b) モデル,キーワードバイアス (b) 機構,シラブルモデリングユニット (s) の導入など,いくつかの新規かつ効果的な改良を加えたマンダリンキーワードスポッティングシステム (kws) を提案する。 これを考慮し、全系BBS-KWSを略語として表現する。 BBS-KWSシステムは、エンドツーエンドの自動音声認識(ASR)モジュールとKWSモジュールで構成される。 ASRモジュールは音声特徴をテキスト表現に変換し、大きなバックボーンネットワークを音響モデルに適用し、音節モデリングユニットも考慮する。 さらに、キーワードバイアス機構を用いて、ASR推論段階におけるキーワードのリコール率を改善する。 kwsモジュールは、多段階マッチング、ファジィマッチング、コネクショニスト時間分類(ctc)プレフィックススコアなどのキーワードの有無や存在を決定するために、複数の基準を適用している。 システムをさらに改良するため,CN-Celebデータセット上で半教師付き学習を行い,より一般化した。 VKWタスクでは、BBS-KWSシステムはベースラインよりも大幅に向上し、2トラックで1位を獲得した。

This paper introduces the system submitted by the Yidun NISP team to the video keyword wakeup challenge. We propose a mandarin keyword spotting system (KWS) with several novel and effective improvements, including a big backbone (B) model, a keyword biasing (B) mechanism and the introduction of syllable modeling units (S). By considering this, we term the total system BBS-KWS as an abbreviation. The BBS-KWS system consists of an end-to-end automatic speech recognition (ASR) module and a KWS module. The ASR module converts speech features to text representations, which applies a big backbone network to the acoustic model and takes syllable modeling units into consideration as well. In addition, the keyword biasing mechanism is used to improve the recall rate of keywords in the ASR inference stage. The KWS module applies multiple criteria to determine the absence or presence of the keywords, such as multi-stage matching, fuzzy matching, and connectionist temporal classification (CTC) prefix score. To further improve our system, we conduct semi-supervised learning on the CN-Celeb dataset for better generalization. In the VKW task, the BBS-KWS system achieves significant gains over the baseline and won the first place in two tracks.
翻訳日:2021-12-06 16:19:22 公開日:2021-12-03
# 自動音声認識システムのブラックボックス非目標逆検定

Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition Systems ( http://arxiv.org/abs/2112.01821v1 )

ライセンス: Link先を確認
Xiaoliang Wu, Ajitha Rajan(参考訳) 音声認識システム(ASR)は,特に音声ナビゲーションや家電機器の音声制御への応用において普及している。 ASRの計算コアはディープニューラルネットワーク(DNN)であり、敵の摂動に影響を受けやすいことが示されている。 本稿では,ASRSの正当性をテストするため,非目標の敵攻撃であるブラックボックスを自動生成する手法を提案する。 既存のadversarial asrテストの作業の多くは、対象とする攻撃、すなわち出力されたテキストからオーディオサンプルを生成することに焦点を当てている。 ターゲット技術はポータブルではなく、特定のASR内のDNN(ホワイトボックス)の構造にカスタマイズされている。 対照的に、本手法は、ほとんどのASR間で共有されるASRパイプラインの信号処理段階を攻撃している。 さらに,人間の知覚閾値以下で信号を維持する心理音響モデルを用いて,音声信号を操作することにより,生成した対向音声サンプルに人間の聴力差がないことを保証する。 3つの一般的なasrと3つの入力オーディオデータセットを用いたポータビリティと有効性を評価し,その指標として出力テキストのwer,オリジナルオーディオとの類似性,異なるasrにおける攻撃成功率を評価した。 実験手法はASR間で可搬性があり, 対戦型オーディオサンプルでは, 元の音声と高い成功率, WER, 類似度が得られた。

Automatic speech recognition (ASR) systems are prevalent, particularly in applications for voice navigation and voice control of domestic appliances. The computational core of ASRs are deep neural networks (DNNs) that have been shown to be susceptible to adversarial perturbations; easily misused by attackers to generate malicious outputs. To help test the correctness of ASRS, we propose techniques that automatically generate blackbox (agnostic to the DNN), untargeted adversarial attacks that are portable across ASRs. Much of the existing work on adversarial ASR testing focuses on targeted attacks, i.e generating audio samples given an output text. Targeted techniques are not portable, customised to the structure of DNNs (whitebox) within a specific ASR. In contrast, our method attacks the signal processing stage of the ASR pipeline that is shared across most ASRs. Additionally, we ensure the generated adversarial audio samples have no human audible difference by manipulating the acoustic signal using a psychoacoustic model that maintains the signal below the thresholds of human perception. We evaluate portability and effectiveness of our techniques using three popular ASRs and three input audio datasets using the metrics - WER of output text, Similarity to original audio and attack Success Rate on different ASRs. We found our testing techniques were portable across ASRs, with the adversarial audio samples producing high Success Rates, WERs and Similarities to the original audio.
翻訳日:2021-12-06 16:18:58 公開日:2021-12-03
# 衛星搭載マルチスペクトル雲検出器に対する逆襲

Adversarial Attacks against a Satellite-borne Multispectral Cloud Detector ( http://arxiv.org/abs/2112.01723v1 )

ライセンス: Link先を確認
Andrew Du, Yee Wei Law, Michele Sasdelli, Bo Chen, Ken Clarke, Michael Brown, Tat-Jun Chin(参考訳) 地球観測衛星(EO)が収集したデータは、しばしば雲に覆われている。 ディープラーニングを使ってますます行われているクラウドの存在を検出することは、EOアプリケーションにおいて重要な前処理である。 実際、高度なEO衛星は、衛星上で深層学習ベースのクラウド検出を行い、貴重な帯域幅を節約するためにクリアスキーデータのみをダウンリンクする。 本稿では,ディープラーニングによる攻撃に対するクラウド検出の脆弱性を明らかにする。 敵のパターンを最適化し、雲のないシーンに重ね合わせることで、ニューラルネットワークをバイアスし、シーン内の雲を検出する。 雲検出器の入力スペクトルは非可視帯を含むため、我々はマルチスペクトル領域で攻撃を発生させた。 これにより、多目的攻撃、特に雲に敏感なバンドの敵対バイアス、可視性バンドの視覚的カモフラージュの可能性が開ける。 また,敵の攻撃に対する緩和戦略についても検討した。 EOコミュニティにおける敵対的攻撃の可能性に対する認識をさらに高めることを願っています。

Data collected by Earth-observing (EO) satellites are often afflicted by cloud cover. Detecting the presence of clouds -- which is increasingly done using deep learning -- is crucial preprocessing in EO applications. In fact, advanced EO satellites perform deep learning-based cloud detection on board the satellites and downlink only clear-sky data to save precious bandwidth. In this paper, we highlight the vulnerability of deep learning-based cloud detection towards adversarial attacks. By optimising an adversarial pattern and superimposing it into a cloudless scene, we bias the neural network into detecting clouds in the scene. Since the input spectra of cloud detectors include the non-visible bands, we generated our attacks in the multispectral domain. This opens up the potential of multi-objective attacks, specifically, adversarial biasing in the cloud-sensitive bands and visual camouflage in the visible bands. We also investigated mitigation strategies against the adversarial attacks. We hope our work further builds awareness of the potential of adversarial attacks in the EO community.
翻訳日:2021-12-06 16:17:59 公開日:2021-12-03
# ヒストグラム等化による教師なし低光画像強調

Unsupervised Low-Light Image Enhancement via Histogram Equalization Prior ( http://arxiv.org/abs/2112.01766v1 )

ライセンス: Link先を確認
Feng Zhang, Yuanjie Shao, Yishi Sun, Kai Zhu, Changxin Gao, and Nong Sang(参考訳) 低照度画像強調のためのディープラーニングベースの手法は、通常、膨大なペアのトレーニングデータを必要とする。 近年,ペアトレーニングデータへの依存を取り除くために,教師なしアプローチが検討されている。 しかし、事前設定がないため、現実世界のさまざまなシナリオで不規則に実行する。 この問題に対処するために,実効的なヒストグラム等化前(HEP)に基づく教師なし低照度画像強調手法を提案する。 我々の研究は、ヒストグラム等化強調画像と基底真理の特徴マップが似ているという興味深い観察から着想を得ている。 具体的には、HEPを定式化し、豊富なテクスチャと輝度情報を提供する。 光アップモジュール(lum)に埋め込まれ、低照度画像を照明と反射率マップに分解し、反射率マップは復元された画像と見なすことができる。 しかし、レチネックス理論に基づく導出は、反射率写像がノイズによって汚染されていることを示している。 反射率マップのノイズと内容を、未確認クリーンな画像の信頼性のある助けを借りてアンタングルするノイズ・ディアンタングメント・モジュール(NDM)を導入する。 ヒストグラム等化前とノイズ異方性により, 細部を復元し, 実世界の低照度シナリオにおいてノイズを抑制することができる。 広範にわたる実験により,本手法は最先端の低光度強調アルゴリズムに対して好適に動作し,最先端の教師付きアルゴリズムにも適合することを示した。

Deep learning-based methods for low-light image enhancement typically require enormous paired training data, which are impractical to capture in real-world scenarios. Recently, unsupervised approaches have been explored to eliminate the reliance on paired training data. However, they perform erratically in diverse real-world scenarios due to the absence of priors. To address this issue, we propose an unsupervised low-light image enhancement method based on an effective prior termed histogram equalization prior (HEP). Our work is inspired by the interesting observation that the feature maps of histogram equalization enhanced image and the ground truth are similar. Specifically, we formulate the HEP to provide abundant texture and luminance information. Embedded into a Light Up Module (LUM), it helps to decompose the low-light images into illumination and reflectance maps, and the reflectance maps can be regarded as restored images. However, the derivation based on Retinex theory reveals that the reflectance maps are contaminated by noise. We introduce a Noise Disentanglement Module (NDM) to disentangle the noise and content in the reflectance maps with the reliable aid of unpaired clean images. Guided by the histogram equalization prior and noise disentanglement, our method can recover finer details and is more capable to suppress noise in real-world low-light scenarios. Extensive experiments demonstrate that our method performs favorably against the state-of-the-art unsupervised low-light enhancement algorithms and even matches the state-of-the-art supervised algorithms.
翻訳日:2021-12-06 16:16:32 公開日:2021-12-03
# 歯科用CBCT画像とフルアーチ内印象の完全自動統合と個別歯節分割と識別による縫合誤差補正

Fully automatic integration of dental CBCT images and full-arch intraoral impressions with stitching error correction via individual tooth segmentation and identification ( http://arxiv.org/abs/2112.01784v1 )

ライセンス: Link先を確認
Tae Jun Jang, Hye Sun Yun, Jong-Eun Kim, Sang-Hwy Lee, Jin Keun Seo(参考訳) 本稿では, 口腔内スキャン (ios) と歯科用コーンビームct (cbct) 画像の統合を, 画像の弱点を補うことによって完全に自動化する手法を提案する。 歯科用CBCTだけでは、画像解像度の制限と金属による人工物を含む様々なCBCTアーティファクトにより、歯面の正確な詳細を説明できないかもしれない。 IOSは狭い領域をスキャンするのに非常に正確であるが、フルアーチスキャン時に累積縫合誤差を生じる。 提案法は, CBCT由来の低品質歯面をIOSで補うだけでなく, 歯列全体にわたるIOSの累積縫合誤差を補正することを目的としている。 さらに、この統合はiosの歯肉構造とcbctの歯根の両方を1つの画像で提供する。 提案手法は4つの部分から構成される。 i) IOSデータ(TSIM-IOS)の個々の歯のセグメンテーション及び識別モジュール (II)CBCTデータ(TSIM-CBCT)の個々の歯のセグメンテーション及び識別モジュール (iii)iosとcbctの地域間歯の登録 (iv)全体iosのスタイリング誤り訂正。 実験の結果,提案手法は,それぞれ0.11mmと0.30mmのランドマークおよび表面距離誤差を達成した。

We present a fully automated method of integrating intraoral scan (IOS) and dental cone-beam computerized tomography (CBCT) images into one image by complementing each image's weaknesses. Dental CBCT alone may not be able to delineate precise details of the tooth surface due to limited image resolution and various CBCT artifacts, including metal-induced artifacts. IOS is very accurate for the scanning of narrow areas, but it produces cumulative stitching errors during full-arch scanning. The proposed method is intended not only to compensate the low-quality of CBCT-derived tooth surfaces with IOS, but also to correct the cumulative stitching errors of IOS across the entire dental arch. Moreover, the integration provide both gingival structure of IOS and tooth roots of CBCT in one image. The proposed fully automated method consists of four parts; (i) individual tooth segmentation and identification module for IOS data (TSIM-IOS); (ii) individual tooth segmentation and identification module for CBCT data (TSIM-CBCT); (iii) global-to-local tooth registration between IOS and CBCT; and (iv) stitching error correction of full-arch IOS. The experimental results show that the proposed method achieved landmark and surface distance errors of 0.11mm and 0.30mm, respectively.
翻訳日:2021-12-06 16:16:07 公開日:2021-12-03
# テキストによるビデオ検索のための軽量注意機能融合

Lightweight Attentional Feature Fusion for Video Retrieval by Text ( http://arxiv.org/abs/2112.01832v1 )

ライセンス: Link先を確認
Fan Hu and Aozhu Chen and Ziyue Wang and Fangming Zhou and Xirong Li(参考訳) 本稿では,テキストによるビデオ検索の新しい文脈において,昔ながらのトピックであるemph{feature fusion}を再検討する。 機能融合をひとつの目的のみ、ビデオやテキストとして扱う従来の研究とは違って、統合フレームワークにおける両端の機能融合を目標としています。 特徴の凸結合の最適化は,計算量的に重く,多頭自己照準による相関のモデル化に好適であると仮定した。 そこで,我々はlightweight attentional feature fusion (laff)を提案する。 LAFFは、初期段階と後期の両方で、ビデオとテキストの両端で機能融合を行い、多様な(市販の)機能を利用する強力な方法である。 MSR-VTT、MSVD、TGIF、VATEX、大規模TRECVID AVSベンチマーク(2016-2020)の4つの公開データセットに対する大規模な実験は、LAFFの生存可能性を示している。 さらに、LAFFは実装が非常に簡単で、現実のデプロイメントにも魅力的です。

In this paper, we revisit \emph{feature fusion}, an old-fashioned topic, in the new context of video retrieval by text. Different from previous research that considers feature fusion only at one end, let it be video or text, we aim for feature fusion for both ends within a unified framework. We hypothesize that optimizing the convex combination of the features is preferred to modeling their correlations by computationally heavy multi-head self-attention. Accordingly, we propose Lightweight Attentional Feature Fusion (LAFF). LAFF performs feature fusion at both early and late stages and at both video and text ends, making it a powerful method for exploiting diverse (off-the-shelf) features. Extensive experiments on four public datasets, i.e. MSR-VTT, MSVD, TGIF, VATEX, and the large-scale TRECVID AVS benchmark evaluations (2016-2020) show the viability of LAFF. Moreover, LAFF is extremely simple to implement, making it appealing for real-world deployment.
翻訳日:2021-12-06 16:15:46 公開日:2021-12-03
# 画像間翻訳のための意味マップ注入型GAN訓練

Semantic Map Injected GAN Training for Image-to-Image Translation ( http://arxiv.org/abs/2112.01845v1 )

ライセンス: Link先を確認
Balaram Singh Kshatriya, Shiv Ram Dubey, Himangshu Sarma, Kunal Chaudhary, Meva Ram Gurjar, Rahul Rai, Sunny Manchanda(参考訳) 画像から画像への変換は、GAN(Generative Adversarial Network)を用いて、あるドメインから別のドメインへ画像を変換する最近の傾向である。 既存のGANモデルは、変換の入力と出力のモダリティのみを利用してトレーニングを行う。 本稿では,GANモデルの意味的注入訓練を行う。 具体的には、入力と出力のモダリティをトレーニングし、入力から意味マップへの変換のためのトレーニングを数エポックで注入する。 入力画像のターゲット領域への変換のトレーニングとして、元のトレーニングを参照しよう。 元の訓練における意味訓練の注入は、訓練されたGANモデルの一般化能力を向上させる。 さらに、生成された画像においてカテゴリ情報をより良い方法で保存する。 セマンティックマップはトレーニング時にのみ使用され、テスト時に必要とされない。 実験は、CityScapesとRGB-NIRステレオデータセット上で最先端のGANモデルを用いて実施される。 そこで本研究では,SSIM,FID,KIDのスコアを用いて,意味学習を原語学習と比較し,改良された性能を観察した。

Image-to-image translation is the recent trend to transform images from one domain to another domain using generative adversarial network (GAN). The existing GAN models perform the training by only utilizing the input and output modalities of transformation. In this paper, we perform the semantic injected training of GAN models. Specifically, we train with original input and output modalities and inject a few epochs of training for translation from input to semantic map. Lets refer the original training as the training for the translation of input image into target domain. The injection of semantic training in the original training improves the generalization capability of the trained GAN model. Moreover, it also preserves the categorical information in a better way in the generated image. The semantic map is only utilized at the training time and is not required at the test time. The experiments are performed using state-of-the-art GAN models over CityScapes and RGB-NIR stereo datasets. We observe the improved performance in terms of the SSIM, FID and KID scores after injecting semantic training as compared to original training.
翻訳日:2021-12-06 16:15:29 公開日:2021-12-03
# CoNeRF:制御可能な神経放射場

CoNeRF: Controllable Neural Radiance Fields ( http://arxiv.org/abs/2112.01983v1 )

ライセンス: Link先を確認
Kacper Kania, Kwang Moo Yi, Marek Kowalski, Tomasz Trzci\'nski, Andrea Taliasacchi(参考訳) ニューラル3d表現を拡張し,新たなビューレンダリング(すなわちカメラ制御)を超えて,直感的かつ解釈可能なユーザ制御を可能にする。 訓練画像において,マスクアノテーションを少数で使用することで,シーンのどの部分を制御したいかをアノテートすることができる。 私たちの重要なアイデアは、シーンエンコーディングによってニューラルネットワークによってレグレッションされる潜在変数として属性を扱うことです。 アノテーションが提供されていない場合、属性がフレームワークによって自動的に検出される。 本研究では,異なる種類の制御可能な属性(例えばヒトの顔の表情制御,無生物の移動における状態制御)を持つシーンに適用する。 全体として、私たちの知る限り、初めて新しいビューと新しい属性が1つのビデオからシーンを再レンダリングしたことを実証する。

We extend neural 3D representations to allow for intuitive and interpretable user control beyond novel view rendering (i.e. camera control). We allow the user to annotate which part of the scene one wishes to control with just a small number of mask annotations in the training images. Our key idea is to treat the attributes as latent variables that are regressed by the neural network given the scene encoding. This leads to a few-shot learning framework, where attributes are discovered automatically by the framework, when annotations are not provided. We apply our method to various scenes with different types of controllable attributes (e.g. expression control on human faces, or state control in movement of inanimate objects). Overall, we demonstrate, to the best of our knowledge, for the first time novel view and novel attribute re-rendering of scenes from a single video.
翻訳日:2021-12-06 16:14:45 公開日:2021-12-03
# (参考訳) 植物ウイルスの病因理解における機械学習の応用 : 発生・診断・宿主ウイルス間相互作用・管理の動向と展望 [全文訳有]

Application of Machine Learning in understanding plant virus pathogenesis: Trends and perspectives on emergence, diagnosis, host-virus interplay and management ( http://arxiv.org/abs/2112.01998v1 )

ライセンス: CC BY 4.0
Dibyendu Ghosh, Srija Chakraborty, Hariprasad Kodamana, Supriya Chakraborty(参考訳) 生物学分野における高スループット技術の導入は、近年、大量の生物学的データを生み出している。 膨大な量のデータを知識に変換することは 計算生物学の主要な課題です 従来のデータ分析の方法は、そのタスクを実行できなかった。 そのため研究者たちは、高次元のビッグデータ分析のための機械学習ベースのアプローチに目を向けている。 マシンラーニングでは、モデルがトレーニングデータセットでトレーニングされると、独立したテストデータセットに適用することができる。 現在のディープラーニングアルゴリズムは、植物ウイルス学を含むいくつかの分野の生物学における機械学習の適用をさらに促進している。 本論では、植物ウイルス学の理解における機械学習の応用における重要な進歩を考察し、機械学習のウイルス疾患診断におけるトレンドと展望、宿主ウイルス間相互作用の理解、植物ウイルスの出現を包括的に論じる。

Inclusion of high throughput technologies in the field of biology has generated massive amounts of biological data in the recent years. Now, transforming these huge volumes of data into knowledge is the primary challenge in computational biology. The traditional methods of data analysis have failed to carry out the task. Hence, researchers are turning to machine learning based approaches for the analysis of high-dimensional big data. In machine learning, once a model is trained with a training dataset, it can be applied on a testing dataset which is independent. In current times, deep learning algorithms further promote the application of machine learning in several field of biology including plant virology. Considering a significant progress in the application of machine learning in understanding plant virology, this review highlights an introductory note on machine learning and comprehensively discusses the trends and prospects of machine learning in diagnosis of viral diseases, understanding host-virus interplay and emergence of plant viruses.
翻訳日:2021-12-06 16:13:26 公開日:2021-12-03
# 特徴伝播を伴うコントラスト連続学習

Contrastive Continual Learning with Feature Propagation ( http://arxiv.org/abs/2112.01713v1 )

ライセンス: Link先を確認
Xuejun Han, Yuhong Guo(参考訳) 古典的な機械学習者は、新しいタスクやクラスを採用する能力のない1つのタスクにのみ取り組むように設計されている。 この欠点に対処するために、連続機械学習者は、異なるタスク間でドメインやクラスシフトを伴うタスクのストリームを満足して学習する。 本稿では,複数の連続学習シナリオを処理可能な特徴伝達に基づくコントラスト型連続学習手法を提案する。 具体的には、特徴伝播と対比表現学習を用いて、現在および前の表現空間を整列し、異なるタスク間でドメインシフトを橋渡しする。 特徴表現のクラスワイドシフトをさらに緩和するため、教師付きコントラスト損失を利用して、同じクラスのサンプル埋め込みを異なるクラスのものよりも近いものにする。 6つの連続学習ベンチマークにおける提案手法の優れた性能を,最先端の連続学習手法群と比較した。

Classical machine learners are designed only to tackle one task without capability of adopting new emerging tasks or classes whereas such capacity is more practical and human-like in the real world. To address this shortcoming, continual machine learners are elaborated to commendably learn a stream of tasks with domain and class shifts among different tasks. In this paper, we propose a general feature-propagation based contrastive continual learning method which is capable of handling multiple continual learning scenarios. Specifically, we align the current and previous representation spaces by means of feature propagation and contrastive representation learning to bridge the domain shifts among distinct tasks. To further mitigate the class-wise shifts of the feature representation, a supervised contrastive loss is exploited to make the example embeddings of the same class closer than those of different classes. The extensive experimental results demonstrate the outstanding performance of the proposed method on six continual learning benchmarks compared to a group of cutting-edge continual learning methods.
翻訳日:2021-12-06 16:02:44 公開日:2021-12-03
# 機械学習モデルにおける逆サンプルの転送可能性評価のための攻撃中心アプローチ

Attack-Centric Approach for Evaluating Transferability of Adversarial Samples in Machine Learning Models ( http://arxiv.org/abs/2112.01777v1 )

ライセンス: Link先を確認
Tochukwu Idika and Ismail Akturk(参考訳) 相反するサンプルの転送性は、多くの重要なアプリケーションで採用されているため、機械学習システムのデプロイの信頼性に影響を与えているため、深刻な懸念となった。 敵のサンプルの転送可能性に影響を与える要因を知ることは、専門家が堅牢で信頼性の高い機械学習システムを構築する方法に関する決定を下すのを助けることができる。 本研究の目的は,攻撃中心のアプローチを通じて,敵のサンプルの移動可能性の背後にあるメカニズムに関する洞察を提供することである。 このアタック中心の視点は、特定の入力データセットに対する機械学習攻撃(それらを生成する)の影響を評価することによって、敵対的なサンプルがどのように転送されるかを解釈する。 この目的を達成するために,攻撃モデルを用いて敵のサンプルを生成し,そのサンプルを被害者モデルに転送した。 被害者モデル上での対人サンプルの挙動を解析し、対人サンプルの移動性に影響を与える4つの要因を概説した。 これらの要因は必ずしも徹底的なものではないが、研究者や機械学習システムの実践者に有用な洞察を提供する。

Transferability of adversarial samples became a serious concern due to their impact on the reliability of machine learning system deployments, as they find their way into many critical applications. Knowing factors that influence transferability of adversarial samples can assist experts to make informed decisions on how to build robust and reliable machine learning systems. The goal of this study is to provide insights on the mechanisms behind the transferability of adversarial samples through an attack-centric approach. This attack-centric perspective interprets how adversarial samples would transfer by assessing the impact of machine learning attacks (that generated them) on a given input dataset. To achieve this goal, we generated adversarial samples using attacker models and transferred these samples to victim models. We analyzed the behavior of adversarial samples on victim models and outlined four factors that can influence the transferability of adversarial samples. Although these factors are not necessarily exhaustive, they provide useful insights to researchers and practitioners of machine learning systems.
翻訳日:2021-12-06 16:02:31 公開日:2021-12-03
# 非負部分相関を用いた精密行列推定のための高速投影ニュートン法

Fast Projected Newton-like Method for Precision Matrix Estimation with Nonnegative Partial Correlations ( http://arxiv.org/abs/2112.01939v1 )

ライセンス: Link先を確認
Jiaxi Ying, Jos\'e Vin\'icius de M. Cardoso, Jian-Feng Cai, Daniel P. Palomar(参考訳) 偏相関が非負である多変量ガウス分布の精度行列を推定する問題について検討し、次数2(\mathrm{MTP}_2$)の多変量完全正(multivariate completely positive)としても知られる。 このようなモデルは近年顕著な注目を集めており、主に興味深い性質、例えば、最大可能性推定器は、下層の次元に関係なく2つしか観測されない。 重み付き$\ell_1$-norm正規化ガウス最大推定を$\mathrm{MTP}_2$制約の下で定式化する。 そこで本研究では,よく設計された近似ニュートン方向を組み込んだ新しい予測ニュートン様アルゴリズムを提案し,一階法と同等の計算順序とメモリコストを有するアルゴリズムを提案する。 提案したニュートン型アルゴリズムが問題の最小化に収束することを証明する。 さらに理論的および実験的に、重み付き$\ell_1$-norm を用いた定式化の最小化により、$\ell_1$-norm 法に存在する不整合条件を必要とせずに精度行列の支持を正しく回復できることを示した。 合成および実世界のデータを含む実験により、提案アルゴリズムは最先端の手法よりも計算時間の観点からはるかに効率的であることが示された。 最後に,本手法をファイナンシャル時系列データに適用し,学習した金融ネットワーク上でのモジュール性の価値の観点から,高いパフォーマンスを観察する。

We study the problem of estimating precision matrices in multivariate Gaussian distributions where all partial correlations are nonnegative, also known as multivariate totally positive of order two ($\mathrm{MTP}_2$). Such models have received significant attention in recent years, primarily due to interesting properties, e.g., the maximum likelihood estimator exists with as few as two observations regardless of the underlying dimension. We formulate this problem as a weighted $\ell_1$-norm regularized Gaussian maximum likelihood estimation under $\mathrm{MTP}_2$ constraints. On this direction, we propose a novel projected Newton-like algorithm that incorporates a well-designed approximate Newton direction, which results in our algorithm having the same orders of computation and memory costs as those of first-order methods. We prove that the proposed projected Newton-like algorithm converges to the minimizer of the problem. We further show, both theoretically and experimentally, that the minimizer of our formulation using the weighted $\ell_1$-norm is able to recover the support of the underlying precision matrix correctly without requiring the incoherence condition present in $\ell_1$-norm based methods. Experiments involving synthetic and real-world data demonstrate that our proposed algorithm is significantly more efficient, from a computational time perspective, than the state-of-the-art methods. Finally, we apply our method in financial time-series data, which are well-known for displaying positive dependencies, where we observe a significant performance in terms of modularity value on the learned financial networks.
翻訳日:2021-12-06 16:02:16 公開日:2021-12-03
# (参考訳) wikidataにおける英語エンティティリンクに関する調査

Survey on English Entity Linking on Wikidata ( http://arxiv.org/abs/2112.01989v1 )

ライセンス: CC BY 4.0
Cedric M\"oller, Jens Lehmann, Ricardo Usbeck(参考訳) wikidataは頻繁に更新され、コミュニティ主導で、多言語ナレッジグラフである。 したがって、WikidataはEntity Linkingの魅力的な基盤であり、最近の論文の増加によって明らかになっている。 1) Wikidata Entity Linkingデータセットが存在するか、どのくらい広く使われているか、どのように構築されているか。 2) Entity Linking データセットの設計において Wikidata の特徴は重要か? (3) 現在のEntity LinkingアプローチはWikidataの特徴をどのように活用するか? (4)ウィキデータの特徴は、既存のエンティティリンクアプローチによって未解決なのでしょうか? この調査によると、現在のWikidata固有のEntity Linkingデータセットは、アノテーションスキームとDBpediaのような他の知識グラフのスキームとの違いはない。 したがって、ウィキデータに適した多言語および時間依存データセットの可能性は持ち上げられない。 さらに、ほとんどのEntity Linkingアプローチは、Wikidata固有の特徴を活用できない他の知識グラフと同様の方法でWikidataを使用していることを示す。 ほとんど全てのアプローチはラベルや時々記述のような特定の特性を用いるが、ハイパーリレーショナル構造のような特性は無視する。 したがって、例えば、ハイパーリレーショナルグラフの埋め込みや型情報を含めることで、改善の余地は残っている。 ウィキデータと簡単に結合でき、Wikidataに欠けている貴重なテキスト情報を提供するウィキペディアの情報も含まれている。

Wikidata is a frequently updated, community-driven, and multilingual knowledge graph. Hence, Wikidata is an attractive basis for Entity Linking, which is evident by the recent increase in published papers. This survey focuses on four subjects: (1) Which Wikidata Entity Linking datasets exist, how widely used are they and how are they constructed? (2) Do the characteristics of Wikidata matter for the design of Entity Linking datasets and if so, how? (3) How do current Entity Linking approaches exploit the specific characteristics of Wikidata? (4) Which Wikidata characteristics are unexploited by existing Entity Linking approaches? This survey reveals that current Wikidata-specific Entity Linking datasets do not differ in their annotation scheme from schemes for other knowledge graphs like DBpedia. Thus, the potential for multilingual and time-dependent datasets, naturally suited for Wikidata, is not lifted. Furthermore, we show that most Entity Linking approaches use Wikidata in the same way as any other knowledge graph missing the chance to leverage Wikidata-specific characteristics to increase quality. Almost all approaches employ specific properties like labels and sometimes descriptions but ignore characteristics such as the hyper-relational structure. Hence, there is still room for improvement, for example, by including hyper-relational graph embeddings or type information. Many approaches also include information from Wikipedia, which is easily combinable with Wikidata and provides valuable textual information, which Wikidata lacks.
翻訳日:2021-12-06 16:00:29 公開日:2021-12-03
# 一般政策最適化のための分析更新ルール

An Analytical Update Rule for General Policy Optimization ( http://arxiv.org/abs/2112.02045v1 )

ライセンス: Link先を確認
Hepeng Li, Nicholas Clavette and Haibo He(参考訳) パラメータ化関数近似器に依存しない解析的ポリシー更新ルールを提案する。 更新規則は、単調な改善を保証する一般的な確率的ポリシーに適している。 更新ルールは,信頼領域法を用いた政策探索の既存の境界を厳格化する新たな理論的結果に続いて,変動計算を用いた閉形式信頼領域解から導出される。 ポリシー更新ルールと値関数メソッドとの接続を構築する説明を提供する。 更新ルールの再帰形式に基づいて、非政治アルゴリズムが自然に導出され、単調な改善保証が残る。 さらに、更新ルールは、一度に1つのエージェントによって更新が行われると、すぐにマルチエージェントシステムに拡張される。

We present an analytical policy update rule that is independent of parameterized function approximators. The update rule is suitable for general stochastic policies with monotonic improvement guarantee. The update rule is derived from a closed-form trust-region solution using calculus of variation, following a new theoretical result that tightens existing bounds for policy search using trust-region methods. An explanation building a connection between the policy update rule and value-function methods is provided. Based on a recursive form of the update rule, an off-policy algorithm is derived naturally, and the monotonic improvement guarantee remains. Furthermore, the update rule extends immediately to multi-agent systems when updates are performed by one agent at a time.
翻訳日:2021-12-06 15:56:01 公開日:2021-12-03
# オンラインビデオインスタンス分割のためのハイブリッドインスタンス対応テンポラルフュージョン

Hybrid Instance-aware Temporal Fusion for Online Video Instance Segmentation ( http://arxiv.org/abs/2112.01695v1 )

ライセンス: Link先を確認
Xiang Li, Jinglu Wang, Xiao Li, Yan Lu(参考訳) 近年,トランスフォーマチックな画像分割手法が,従来のソリューションに対して顕著な成功を収めている。 ビデオドメインでは、フレーム間のオブジェクトインスタンスの注意を伴う時間的コンテキストを効果的にモデル化する方法は、未解決の問題である。 本稿では,新しいインスタンス対応時間融合方式を用いたオンラインビデオインスタンスセグメンテーションフレームワークを提案する。 まず、グローバルコンテキスト(インスタンスコード)における潜在コードとCNNの機能マップを使って、インスタンスレベルの特徴とピクセルレベルの特徴を表現します。 この表現に基づいて,ビデオフレーム間の時間的一貫性をモデル化する,トリミングフリーの時間的融合手法を提案する。 具体的には、グローバルなインスタンス固有の情報をインスタンスコードにエンコードし、インスタンスコードとCNNの機能マップ間のハイブリッドな注意によるフレーム間コンテキスト融合を構築します。 インスタンスコード間のフレーム間の一貫性はさらに順序制約によって強化される。 学習したハイブリッドな時間的整合性を利用することで、フレーム間でインスタンスの同一性を直接検索し、維持することが可能になります。 一般的なVISデータセット、すなわちYoutube-VIS-19/21で大規模な実験が行われた。 我々のモデルは,全オンラインVIS手法の中で最高の性能を達成する。 特に、私たちのモデルはResNet-50バックボーンを使用するとき、すべてのオフラインメソッドを廃止しています。

Recently, transformer-based image segmentation methods have achieved notable success against previous solutions. While for video domains, how to effectively model temporal context with the attention of object instances across frames remains an open problem. In this paper, we propose an online video instance segmentation framework with a novel instance-aware temporal fusion method. We first leverages the representation, i.e., a latent code in the global context (instance code) and CNN feature maps to represent instance- and pixel-level features. Based on this representation, we introduce a cropping-free temporal fusion approach to model the temporal consistency between video frames. Specifically, we encode global instance-specific information in the instance code and build up inter-frame contextual fusion with hybrid attentions between the instance codes and CNN feature maps. Inter-frame consistency between the instance codes are further enforced with order constraints. By leveraging the learned hybrid temporal consistency, we are able to directly retrieve and maintain instance identities across frames, eliminating the complicated frame-wise instance matching in prior methods. Extensive experiments have been conducted on popular VIS datasets, i.e. Youtube-VIS-19/21. Our model achieves the best performance among all online VIS methods. Notably, our model also eclipses all offline methods when using the ResNet-50 backbone.
翻訳日:2021-12-06 15:55:08 公開日:2021-12-03
# 差動焦点容積による焦点からの深部深部深度

Deep Depth from Focus with Differential Focus Volume ( http://arxiv.org/abs/2112.01712v1 )

ライセンス: Link先を確認
Fengting Yang, Xiaolei Huang, Zihan Zhou(参考訳) Depth-from-focus (DFF) は、カメラの焦点変化を用いて深度を推定する手法である。 本研究では,焦点スタック内の最良焦点画素を推定し,焦点推定から深度を推定するための畳み込みニューラルネットワーク(CNN)を提案する。 ネットワークの重要な革新は、新しいディープディファレンシャルフォーカスボリューム(DFV)である。 異なる焦点距離に積み重ねられた特徴を持つ一階微分を計算することにより、dfvはフォーカス分析のためにフォーカス情報とコンテキスト情報の両方をキャプチャできる。 また,焦点推定のための確率回帰機構を導入し,サンプルの少ない焦点スタックを扱い,最終予測に不確実性推定を提供する。 包括的実験により,提案モデルが一般化性と高速性を有する複数のデータセット上での最先端性能を実現することを示す。

Depth-from-focus (DFF) is a technique that infers depth using the focus change of a camera. In this work, we propose a convolutional neural network (CNN) to find the best-focused pixels in a focal stack and infer depth from the focus estimation. The key innovation of the network is the novel deep differential focus volume (DFV). By computing the first-order derivative with the stacked features over different focal distances, DFV is able to capture both the focus and context information for focus analysis. Besides, we also introduce a probability regression mechanism for focus estimation to handle sparsely sampled focal stacks and provide uncertainty estimation to the final prediction. Comprehensive experiments demonstrate that the proposed model achieves state-of-the-art performance on multiple datasets with good generalizability and fast speed.
翻訳日:2021-12-06 15:54:49 公開日:2021-12-03
# 訓練可能なマイクロ表現を構成するアクションユニット(および大規模合成データセット)

Action Units That Constitute Trainable Micro-expressions (and A Large-scale Synthetic Dataset) ( http://arxiv.org/abs/2112.01730v1 )

ライセンス: Link先を確認
Yuchi Liu, Zhongdao Wang, Tom Gedeon, Liang Zheng(参考訳) 高価なデータ収集プロセスのため、マイクロ圧縮データセットは一般的に他のコンピュータビジョンフィールドのデータセットよりもはるかに小さく、大規模なトレーニングは安定せず実現可能である。 本稿では,マイクロ表現訓練データを自動合成するプロトコルを開発することを目的とする。 1) 大規模かつ大規模である。 2) 実世界のテストセットに対して高い精度で認識モデルを訓練することができる。 具体的には、トレーニング可能なマイクロ表現を適切に構成できる3種類のアクションユニット(AU)を発見する。 これらのausは、現実世界のマイクロ表現、マクロ表現の初期のフレーム、および人間の知識によって定義されたausと表現ラベルの関係に由来する。 これらのausでは,様々なアイデンティティを持つ多数の顔画像と,既存の顔生成法を用いてマイクロ表現合成を行う。 マイクロ表現認識モデルは生成されたマイクロ表現データセットで訓練され、実世界のテストセットで評価される。 実験結果は,これらのAUとデータセット合成プロトコルの有効性を検証するだけでなく,顔全体に一般化し,初期段階のマクロ表現に近づき,手動で定義できるマイクロ表現のいくつかの重要な特性を明らかにする。

Due to the expensive data collection process, micro-expression datasets are generally much smaller in scale than those in other computer vision fields, rendering large-scale training less stable and feasible. In this paper, we aim to develop a protocol to automatically synthesize micro-expression training data that 1) are on a large scale and 2) allow us to train recognition models with strong accuracy on real-world test sets. Specifically, we discover three types of Action Units (AUs) that can well constitute trainable micro-expressions. These AUs come from real-world micro-expressions, early frames of macro-expressions, and the relationship between AUs and expression labels defined by human knowledge. With these AUs, our protocol then employs large numbers of face images with various identities and an existing face generation method for micro-expression synthesis. Micro-expression recognition models are trained on the generated micro-expression datasets and evaluated on real-world test sets, where very competitive and stable performance is obtained. The experimental results not only validate the effectiveness of these AUs and our dataset synthesis protocol but also reveal some critical properties of micro-expressions: they generalize across faces, are close to early-stage macro-expressions, and can be manually defined.
翻訳日:2021-12-06 15:54:36 公開日:2021-12-03
# MFNet: 弱監視された有意物体検出のためのマルチフィルタディレクティブネットワーク

MFNet: Multi-filter Directive Network for Weakly Supervised Salient Object Detection ( http://arxiv.org/abs/2112.01732v1 )

ライセンス: Link先を確認
Yongri Piao, Jian Wang, Miao Zhang, Huchuan Lu(参考訳) 弱い教師付きsalient object detection (wsod)ターゲットは、低コストのアノテーションのみを使用してcnnsベースのsaliencyネットワークを訓練する。 既存のwsodメソッドは、低コストのアノテーションから単一の"高品質"の擬似ラベルを追求し、彼らの塩分ネットワークを開発するために様々な技術を用いる。 これらの手法は優れた性能を示したが、生成したシングルラベルは必然的に改良アルゴリズムの影響を受けず、よりサリエンシネットワークに影響を及ぼす偏見特性を示す。 本稿では,複数のラベルからより包括的かつ正確なサリエンシーを抽出し,上記の問題を回避するための,新たなマルチプセドラベルフレームワークを提案する。 具体的には,saliency networkと複数のディレクティブフィルタを含むマルチフィルタディレクティブネットワーク(mfnet)を提案する。 ディレクティブフィルタ(DF)は、ノイズの多い擬似ラベルからより正確なサリエンシキューを抽出してフィルタリングするように設計されている。 複数のdfからの複数の正確な手がかりが同時に、マルチガイド損失を伴うサリエンシーネットワークに伝播される。 4つのメトリクスにまたがる5つのデータセットに関する広範囲な実験により、この手法が既存の全てのコジェネリックメソッドよりも優れていることが証明された。 さらに、私たちのフレームワークが既存のメソッドに適用し、パフォーマンスを向上させるのに十分な柔軟性があることにも注目すべきです。

Weakly supervised salient object detection (WSOD) targets to train a CNNs-based saliency network using only low-cost annotations. Existing WSOD methods take various techniques to pursue single "high-quality" pseudo label from low-cost annotations and then develop their saliency networks. Though these methods have achieved good performance, the generated single label is inevitably affected by adopted refinement algorithms and shows prejudiced characteristics which further influence the saliency networks. In this work, we introduce a new multiple-pseudo-labe l framework to integrate more comprehensive and accurate saliency cues from multiple labels, avoiding the aforementioned problem. Specifically, we propose a multi-filter directive network (MFNet) including a saliency network as well as multiple directive filters. The directive filter (DF) is designed to extract and filter more accurate saliency cues from the noisy pseudo labels. The multiple accurate cues from multiple DFs are then simultaneously propagated to the saliency network with a multi-guidance loss. Extensive experiments on five datasets over four metrics demonstrate that our method outperforms all the existing congeneric methods. Moreover, it is also worth noting that our framework is flexible enough to apply to existing methods and improve their performance.
翻訳日:2021-12-06 15:52:57 公開日:2021-12-03
# スケルトンベースキーフレーム選択モジュールによるジェスチャー認識

Gesture Recognition with a Skeleton-Based Keyframe Selection Module ( http://arxiv.org/abs/2112.01736v1 )

ライセンス: Link先を確認
Yunsoo Kim and Hyun Myung(参考訳) 効率的なジェスチャー認識のための双方向連続接続型2経路ネットワーク(BCCN)を提案する。 bccnは2つの経路からなる。 i)キーフレームの経路と (ii)時間的注意経路。 キーフレーム経路は、スケルトンベースのキーフレーム選択モジュールを使用して構成される。 キーフレームは自身の空間的特徴を抽出する経路を通過し、時間的意味論を抽出する。 映像のジェスチャー認識性能は向上し,空間的・時間的特性のアクティベーションマップが向上した。 Chalearnデータセット、ETRI-Activity 3Dデータセット、Toyota Smart Homeデータセットでテストが行われた。

We propose a bidirectional consecutively connected two-pathway network (BCCN) for efficient gesture recognition. The BCCN consists of two pathways: (i) a keyframe pathway and (ii) a temporal-attention pathway. The keyframe pathway is configured using the skeleton-based keyframe selection module. Keyframes pass through the pathway to extract the spatial feature of itself, and the temporal-attention pathway extracts temporal semantics. Our model improved gesture recognition performance in videos and obtained better activation maps for spatial and temporal properties. Tests were performed on the Chalearn dataset, the ETRI-Activity 3D dataset, and the Toyota Smart Home dataset.
翻訳日:2021-12-06 15:52:37 公開日:2021-12-03
# MSP : マルチスケールスーパーピクセルによる境界セグメンテーション

MSP : Refine Boundary Segmentation via Multiscale Superpixel ( http://arxiv.org/abs/2112.01746v1 )

ライセンス: Link先を確認
Jie Zhu, Huabin Huang, Banghuai Li, Yong Liu, Leye Wang(参考訳) 本稿では,意味セグメンテーション結果の境界品質を改善するための簡易かつ効果的なメッセージパッシング手法を提案する。 スーパーピクセルブロックのシャープエッジにインスパイアされ,特徴マップ内の情報伝達を誘導するためにスーパーピクセルを用いる。 同時に、ブロックの鋭い境界はメッセージパッシングスコープを制限します。 具体的には、スーパーピクセルブロックが特徴マップ内でカバーする平均的な特徴と、その結果を各特徴ベクトルに追加する。 さらに,よりシャープなエッジとより遠い空間依存性を得るために,異なるスケールのスーパーピクセルブロックのカスケードによるマルチスケールスーパーピクセルモジュール(MSP)を開発する。 本手法はプラグアンドプレイモジュールとして機能し,新たなパラメータを導入することなく任意のセグメンテーションネットワークに容易に挿入できる。 PSPNet、DeeplabV3、DeepLabV3+の3つの強力なベースラインと、ADE20K、Cityscapes、PASCAL VOC、PASCAL Contextを含む4つの挑戦的なシーン解析データセットで大規模な実験が行われた。 実験結果は,その有効性と一般化性を検証する。

In this paper, we propose a simple but effective message passing method to improve the boundary quality for the semantic segmentation result. Inspired by the generated sharp edges of superpixel blocks, we employ superpixel to guide the information passing within feature map. Simultaneously, the sharp boundaries of the blocks also restrict the message passing scope. Specifically, we average features that the superpixel block covers within feature map, and add the result back to each feature vector. Further, to obtain sharper edges and farther spatial dependence, we develop a multiscale superpixel module (MSP) by a cascade of different scales superpixel blocks. Our method can be served as a plug-and-play module and easily inserted into any segmentation network without introducing new parameters. Extensive experiments are conducted on three strong baselines, namely PSPNet, DeeplabV3, and DeepLabV3+, and four challenging scene parsing datasets including ADE20K, Cityscapes, PASCAL VOC, and PASCAL Context. The experimental results verify its effectiveness and generalizability.
翻訳日:2021-12-06 15:52:28 公開日:2021-12-03
# 3次元メッシュのための幾何学的特徴学習

Geometric Feature Learning for 3D Meshes ( http://arxiv.org/abs/2112.01801v1 )

ライセンス: Link先を確認
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian(参考訳) 3Dメッシュのための幾何学的特徴学習はコンピュータグラフィックスの中心であり、多くの視覚アプリケーションにとって非常に重要である。 しかし、ディープラーニングは現在、必要な操作の欠如や効率的な実装のために、異種3Dメッシュの階層的モデリングに遅れています。 本稿では,ヘテロジニアスな3dメッシュ上での効率的な幾何学的深層学習のための一連のモジュラー演算を提案する。 これらの操作には、メッシュの畳み込み、(アン)プーリング、効率的なメッシュデシミテーションが含まれる。 我々はこれらの操作をオープンソースで実装し、総称して \textit{picasso} と呼ぶ。 PicassoのメッシュデシメーションモジュールはGPUアクセラレーションにより、深層学習のための一連のメッシュを処理することができる。 我々の(アン)プール演算は、様々な解像度のネットワーク層にまたがる、新しく作られたニューロンの計算機能です。 当社のメッシュ畳み込みには、ファジィモデリングを組み込むためにvmf混合とbarycentric補間を利用するfacet2vertex、vertex2facet、facet2facet畳み込みが含まれています。 Picassoのモジュラー操作を活用することで、新しい階層型ニューラルネットワークPicassoNet-IIを3Dメッシュから高度に識別可能な特徴を学習する。 PicassoNet-IIは、メッシュの顔の原始的な幾何学と微妙なテクスチャを入力として受け入れ、フルシーンメッシュを処理する。 我々のネットワークは様々なベンチマークで形状解析とシーン解析の競争力が高い性能を実現している。 Github https://github.com/E nyaHermite/Picasso.c om で Picasso と PicassoNet-II をリリースしています。

Geometric feature learning for 3D meshes is central to computer graphics and highly important for numerous vision applications. However, deep learning currently lags in hierarchical modeling of heterogeneous 3D meshes due to the lack of required operations and/or their efficient implementations. In this paper, we propose a series of modular operations for effective geometric deep learning over heterogeneous 3D meshes. These operations include mesh convolutions, (un)pooling and efficient mesh decimation. We provide open source implementation of these operations, collectively termed \textit{Picasso}. The mesh decimation module of Picasso is GPU-accelerated, which can process a batch of meshes on-the-fly for deep learning. Our (un)pooling operations compute features for newly-created neurons across network layers of varying resolution. Our mesh convolutions include facet2vertex, vertex2facet, and facet2facet convolutions that exploit vMF mixture and Barycentric interpolation to incorporate fuzzy modelling. Leveraging the modular operations of Picasso, we contribute a novel hierarchical neural network, PicassoNet-II, to learn highly discriminative features from 3D meshes. PicassoNet-II accepts primitive geometrics and fine textures of mesh facets as input features, while processing full scene meshes. Our network achieves highly competitive performance for shape analysis and scene parsing on a variety of benchmarks. We release Picasso and PicassoNet-II on Github https://github.com/E nyaHermite/Picasso.
翻訳日:2021-12-06 15:52:07 公開日:2021-12-03
# 画像ラベルからの意味セグメンテーションにおけるインクリメンタル学習

Incremental Learning in Semantic Segmentation from Image Labels ( http://arxiv.org/abs/2112.01882v1 )

ライセンス: Link先を確認
Fabio Cermelli, Dario Fontanel, Antonio Tavera, Marco Ciccone, Barbara Caputo(参考訳) 既存のセマンティックセグメンテーションアプローチは印象的な結果をもたらすが、新しいカテゴリが明らかになると、モデルを漸進的に更新するのは難しい。 さらに、ピクセル単位のアノテーションは高価で時間を要する。 本稿では、安価で広く利用可能な画像レベルラベルから新しいクラスをセグメント化することを目的とした、セマンティックセグメンテーションのためのWeakly Incremental Learningの新しいフレームワークを提案する。 擬似ラベルをオフラインで生成する既存のアプローチとは対照的に、画像レベルのラベルで訓練され、セグメンテーションモデルで正規化される補助分類器を使用して、擬似スーパービジョンをオンラインで取得し、モデルを漸進的に更新する。 補助分類器によって生成されたソフトラベルを用いて,プロセス中の固有雑音に対処する。 我々は,Pascal VOCおよびCOCOデータセットに対するアプローチの有効性を実証し,オフラインの弱い教師付き手法よりも優れ,完全な教師付き漸進的な学習手法に匹敵する結果を得た。

Although existing semantic segmentation approaches achieve impressive results, they still struggle to update their models incrementally as new categories are uncovered. Furthermore, pixel-by-pixel annotations are expensive and time-consuming. This paper proposes a novel framework for Weakly Incremental Learning for Semantic Segmentation, that aims at learning to segment new classes from cheap and largely available image-level labels. As opposed to existing approaches, that need to generate pseudo-labels offline, we use an auxiliary classifier, trained with image-level labels and regularized by the segmentation model, to obtain pseudo-supervision online and update the model incrementally. We cope with the inherent noise in the process by using soft-labels generated by the auxiliary classifier. We demonstrate the effectiveness of our approach on the Pascal VOC and COCO datasets, outperforming offline weakly-supervised methods and obtaining results comparable with incremental learning methods with full supervision.
翻訳日:2021-12-06 15:51:43 公開日:2021-12-03
# 意味セグメンテーションにおける新しいクラス発見

Novel Class Discovery in Semantic Segmentation ( http://arxiv.org/abs/2112.01900v1 )

ライセンス: Link先を確認
Yuyang Zhao, Zhun Zhong, Nicu Sebe, Gim Hee Lee(参考訳) ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付き画像のセグメンテーションを目的として, セマンティックセグメンテーションにおける新規クラス発見(NCDSS)を導入した。 画像分類における新しいクラス発見を考察する既存のアプローチとは対照的に,より困難な意味セグメンテーションに注目している。 NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を扱う必要がある。 この新たな設定に対処するために、ラベル付きベースデータとサリエンシモデルを用いて、基本フレームワークにおけるモデルトレーニングのための新しいクラスを粗くクラスタ化する。 さらに、ノイズの多い擬似ラベルを克服するエントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し、新しいクラスにおけるモデル性能をさらに向上させる。 eumはエントロピーランキング技術と動的再割り当てを用いてクリーンラベルを蒸留し,自己教師付き学習によりノイズデータを完全に活用する。 NCDSSベンチマークをPASCAL-5$^i$データセット上に構築する。 大規模な実験では、基本フレームワーク(平均mIoU49.81%を達成する)とEUMSフレームワーク(基本フレームワークを9.28%向上させる)の有効性が示されている。

We introduce a new setting of Novel Class Discovery in Semantic Segmentation (NCDSS), which aims at segmenting unlabeled images containing new classes given prior knowledge from a labeled set of disjoint classes. In contrast to existing approaches that look at novel class discovery in image classification, we focus on the more challenging semantic segmentation. In NCDSS, we need to distinguish the objects and background, and to handle the existence of multiple classes within an image, which increases the difficulty in using the unlabeled data. To tackle this new setting, we leverage the labeled base data and a saliency model to coarsely cluster novel classes for model training in our basic framework. Additionally, we propose the Entropy-based Uncertainty Modeling and Self-training (EUMS) framework to overcome noisy pseudo-labels, further improving the model performance on the novel classes. Our EUMS utilizes an entropy ranking technique and a dynamic reassignment to distill clean labels, thereby making full use of the noisy data via self-supervised learning. We build the NCDSS benchmark on the PASCAL-5$^i$ dataset. Extensive experiments demonstrate the feasibility of the basic framework (achieving an average mIoU of 49.81%) and the effectiveness of EUMS framework (outperforming the basic framework by 9.28% mIoU).
翻訳日:2021-12-06 15:51:26 公開日:2021-12-03
# 箱サイズの信頼度がオブジェクト検出器を損なう

The Box Size Confidence Bias Harms Your Object Detector ( http://arxiv.org/abs/2112.01901v1 )

ライセンス: Link先を確認
Johannes Gilg, Torben Teepe, Fabian Herzog, Gerhard Rigoll(参考訳) 数え切れないほどの応用は、現代の物体検出器からの信頼度推定による正確な予測に依存する。 しかし、物体検出器を含むニューラルネットワークが誤った信頼度推定を生成することはよく知られている。 最近の研究は、検出器の信頼度予測が物体のサイズと位置に関して偏っていることを示唆しているが、この偏りが影響を受ける物体検出器の性能にどのように関係しているかはまだ不明である。 条件付き信頼バイアスが対象検出器の期待性能を損なうことを正式に証明し,これらの知見を実証的に検証する。 具体的には,性能の低下を回避するだけでなく,条件付き信頼度校正による性能向上を図るために,ヒストグラムバイナリ校正の修正方法を示す。 さらに,検出者のトレーニングデータから生成された検出データにも信頼度バイアスが存在することを見出し,追加データを用いずにバイアス軽減を行う。 さらに、テスト時間拡張は、このバイアスを拡大し、キャリブレーション法からさらに大きなパフォーマンス向上をもたらす。 最後に, オブジェクト検出アーキテクチャの多種多様さを検証し, 余分なデータやトレーニングなしに最大0.6mAP, 0.8mAP50の改善を示す。

Countless applications depend on accurate predictions with reliable confidence estimates from modern object detectors. It is well known, however, that neural networks including object detectors produce miscalibrated confidence estimates. Recent work even suggests that detectors' confidence predictions are biased with respect to object size and position, but it is still unclear how this bias relates to the performance of the affected object detectors. We formally prove that the conditional confidence bias is harming the expected performance of object detectors and empirically validate these findings. Specifically, we demonstrate how to modify the histogram binning calibration to not only avoid performance impairment but also improve performance through conditional confidence calibration. We further find that the confidence bias is also present in detections generated on the training data of the detector, which we leverage to perform our de-biasing without using additional data. Moreover, Test Time Augmentation magnifies this bias, which results in even larger performance gains from our calibration method. Finally, we validate our findings on a diverse set of object detection architectures and show improvements of up to 0.6 mAP and 0.8 mAP50 without extra data or training.
翻訳日:2021-12-06 15:51:01 公開日:2021-12-03
# SGM3D:ステレオガイド単眼物体検出

SGM3D: Stereo Guided Monocular 3D Object Detection ( http://arxiv.org/abs/2112.01914v1 )

ライセンス: Link先を確認
Zheyuan Zhou and Liang Du and Xiaoqing Ye and Zhikang Zou and Xiao Tan and Errui Ding and Li Zhang and Xiangyang Xue and Jianfeng Feng(参考訳) lidarセンサーが捉えた正確な深度情報がないため、モノキュラーな3d物体検出は自動運転にとって非常に難しい課題である。 本稿では,ステレオ画像から抽出したロバストな3D特徴を活用し,モノクロ画像から学習した特徴を高めるステレオ誘導型モノクロ3Dオブジェクト検出ネットワークSGM3Dを提案する。 我々は,モノクラーキューのみに基づいてステレオミミックな特徴を生成するために,ネットワークの能力を利用する多粒度ドメイン適応モジュール(MG-DA)を革新的に検討する。 粗いBEV特徴レベルと細かなアンカーレベルドメイン適応を利用して、単分子分岐を誘導する。 ステレオとモノラル予測のオブジェクトレベルドメイン適応のためのIoUマッチングベースのアライメントモジュール(IoU-MA)を提案する。 私たちは、最も困難なKITTIとLyftデータセットに関する広範な実験を行い、新しい最先端のパフォーマンスを実現しています。 さらに,計算コストを増すことなく性能を向上させるために,他の多くの単眼的手法に統合することができる。

Monocular 3D object detection is a critical yet challenging task for autonomous driving, due to the lack of accurate depth information captured by LiDAR sensors. In this paper, we propose a stereo-guided monocular 3D object detection network, termed SGM3D, which leverages robust 3D features extracted from stereo images to enhance the features learned from the monocular image. We innovatively investigate a multi-granularity domain adaptation module (MG-DA) to exploit the network's ability so as to generate stereo-mimic features only based on the monocular cues. The coarse BEV feature-level, as well as the fine anchor-level domain adaptation, are leveraged to guide the monocular branch. We present an IoU matching-based alignment module (IoU-MA) for object-level domain adaptation between the stereo and monocular predictions to alleviate the mismatches in previous stages. We conduct extensive experiments on the most challenging KITTI and Lyft datasets and achieve new state-of-the-art performance. Furthermore, our method can be integrated into many other monocular approaches to boost performance without introducing any extra computational cost.
翻訳日:2021-12-06 15:50:41 公開日:2021-12-03
# TRNR:パッチ解析に基づく少数の画像によるタスク駆動型画像雨とノイズ除去

TRNR: Task-Driven Image Rain and Noise Removal with a Few Images Based on Patch Analysis ( http://arxiv.org/abs/2112.01924v1 )

ライセンス: Link先を確認
Wu Ran, Bohong Yang, Peirong Ma, and Hong Lu(参考訳) 学習に基づく画像雨とノイズ除去の最近の繁栄は、よく設計されたニューラルネットワークアーキテクチャと大きなラベル付きデータセットによるものである。 しかし,現在の降雨量とノイズ除去法は画像の利用率を低下させることがわかった。 大規模ラベル付きデータセットへの依存を軽減するため,提案したパッチ解析戦略に基づいて,タスク駆動型画像雨・ノイズ除去(TRNR)を提案する。 パッチ解析戦略は,画像の空間的および統計的特性の異なる画像パッチを提供し,画像の利用率を高めることが確認されている。 さらに、パッチ分析戦略は、データ駆動ではなく、画像雨とノイズ除去タスクを学習する動機付けとなる。 そこで,TRNRのためのN周波数Kショット学習タスクを提案する。 各N周波数Kショット学習タスクは、パッチ解析戦略によってサンプリングされたNK画像パッチを含む小さなデータセットに基づいている。 TRNRは、適切なデータ以外の豊富なN周波数Kショット学習タスクからニューラルネットワークを学習することを可能にする。 trnrの有効性を検証するために,画像雨除去を学習するために約0.9mのパラメータを持つ軽量マルチスケール残差ネットワーク(msresnet)を構築し,数枚の画像(例えば20.0%レインセットのレイン100h)を用いたブラインドガウスノイズ除去のために約1.2mパラメータのdnnetを用いた簡易再ネットを用いた。 TRNRにより、より少ない画像からMSResNetを学習できることを示した。 さらに、TRNRを利用したMSResNetとDNNetは、大規模ラベル付きデータセットでトレーニングされたデータ駆動の最近のディープラーニング手法よりも優れたパフォーマンスを得た。 これらの実験結果から提案したTRNRの有効性と優位性が確認された。 TRNRのコードはまもなく公開される。

The recent prosperity of learning-based image rain and noise removal is mainly due to the well-designed neural network architectures and large labeled datasets. However, we find that current image rain and noise removal methods result in low utilization of images. To alleviate the reliance on large labeled datasets, we propose the task-driven image rain and noise removal (TRNR) based on the introduced patch analysis strategy. The patch analysis strategy provides image patches with various spatial and statistical properties for training and has been verified to increase the utilization of images. Further, the patch analysis strategy motivates us to consider learning image rain and noise removal task-driven instead of data-driven. Therefore we introduce the N-frequency-K-shot learning task for TRNR. Each N-frequency-K-shot learning task is based on a tiny dataset containing NK image patches sampled by the patch analysis strategy. TRNR enables neural networks to learn from abundant N-frequency-K-shot learning tasks other than from adequate data. To verify the effectiveness of TRNR, we build a light Multi-Scale Residual Network (MSResNet) with about 0.9M parameters to learn image rain removal and use a simple ResNet with about 1.2M parameters dubbed DNNet for blind gaussian noise removal with a few images (for example, 20.0% train-set of Rain100H). Experimental results demonstrate that TRNR enables MSResNet to learn better from fewer images. In addition, MSResNet and DNNet utilizing TRNR have obtained better performance than most recent deep learning methods trained data-driven on large labeled datasets. These experimental results have confirmed the effectiveness and superiority of the proposed TRNR. The codes of TRNR will be public soon.
翻訳日:2021-12-06 15:49:33 公開日:2021-12-03
# 画像間翻訳のためのパノプティック・オブジェクトスタイルアライメント

Panoptic-based Object Style-Align for Image-to-Image Translation ( http://arxiv.org/abs/2112.01926v1 )

ライセンス: Link先を確認
Liyun Zhang, Photchara Ratsamee, Bowen Wang, Manabu Higashida, Yuki Uranishi, Haruo Takemura(参考訳) 画像翻訳の進歩は目覚ましいが、複数の離散オブジェクトを持つ複雑なシーンは依然として難しい問題である。 翻訳画像は忠実度が低く、細部も少ないため、物体認識において不満足な性能が得られる。 画像の完全なオブジェクト知覚(すなわち、バウンディングボックス、カテゴリ、マスク)が事前知識としてなければ、各オブジェクトのスタイル変換は、画像翻訳プロセスにおいて追跡することが困難になる。 本稿では,コンパクトなpanopticセグメンテーションデータセットと共に,画像から画像への変換を行うためのpanopticベースのオブジェクトスタイル・アレルゲン生成逆ネットワーク(posa-gans)を提案する。 パンオプティカルセグメンテーションモデルを用いて、パンオプティカルレベルの知覚(すなわち、重複除去された前景オブジェクトインスタンスと画像の背景意味領域)を抽出する。 これは、入力されたドメイン画像のオブジェクトコンテンツコードと対象ドメインのスタイル空間からサンプリングされたオブジェクトスタイルコードとの整合を誘導するために使用される。 スタイル整列オブジェクト表現はさらに変換され、高い忠実度オブジェクト生成のための正確な境界レイアウトが得られる。 提案手法は, 異なる競合手法と系統的に比較し, 画像品質と対象認識性能の両方において有意な改善が得られた。

Despite remarkable recent progress in image translation, the complex scene with multiple discrepant objects remains a challenging problem. Because the translated images have low fidelity and tiny objects in fewer details and obtain unsatisfactory performance in object recognition. Without the thorough object perception (i.e., bounding boxes, categories, and masks) of the image as prior knowledge, the style transformation of each object will be difficult to track in the image translation process. We propose panoptic-based object style-align generative adversarial networks (POSA-GANs) for image-to-image translation together with a compact panoptic segmentation dataset. The panoptic segmentation model is utilized to extract panoptic-level perception (i.e., overlap-removed foreground object instances and background semantic regions in the image). This is utilized to guide the alignment between the object content codes of the input domain image and object style codes sampled from the style space of the target domain. The style-aligned object representations are further transformed to obtain precise boundaries layout for higher fidelity object generation. The proposed method was systematically compared with different competing methods and obtained significant improvement on both image quality and object recognition performance for translated images.
翻訳日:2021-12-06 15:49:05 公開日:2021-12-03
# sparse rgbdセンサーによる顔と身体のディテールの再構築

Total Scale: Face-to-Body Detail Reconstruction from Sparse RGBD Sensors ( http://arxiv.org/abs/2112.02082v1 )

ライセンス: Link先を確認
Zheng Dong, Ke Xu, Ziheng Duan, Hujun Bao, Weiwei Xu, Rynson W.H. Lau(参考訳) Pixel-aligned implicit function (PIFu) を用いた3次元人体再構成法は急速に進展するが, 再建された細部の品質はまだ不十分である。 平滑な顔表面は、pifuベースの再構築結果に頻繁に発生する。 そこで本研究では,再建した顔のディテールの質を高めるために,2段階のPIFu表現を提案する。 具体的には2つのMLPを用いて顔と人体のPIFusを別々に表現する。 3次元顔の再構成専用のMLPは、ネットワーク容量を増大させ、以前の1スケールPIFu表現のように顔の詳細の再構築の困難さを軽減することができる。 トポロジーエラーを改善するために、3つのrgbdセンサーを利用して、ネットワークへの入力としてマルチビューのrgbdデータをキャプチャします。 深度ノイズが復元結果に大きく影響するため,入力RGB画像の誘導下での生深度ノイズを低減するために,深度改善モジュールを設計する。 また, 予測された身体と顔の占有領域を融合し, その境界における不連続アーティファクトを排除する適応的融合スキームを提案する。 実験では, 顔の鮮明な細部を再構築し, 身体形状を変形させる手法の有効性を実証し, 最先端法よりもその優越性を検証する。

While the 3D human reconstruction methods using Pixel-aligned implicit function (PIFu) develop fast, we observe that the quality of reconstructed details is still not satisfactory. Flat facial surfaces frequently occur in the PIFu-based reconstruction results. To this end, we propose a two-scale PIFu representation to enhance the quality of the reconstructed facial details. Specifically, we utilize two MLPs to separately represent the PIFus for the face and human body. An MLP dedicated to the reconstruction of 3D faces can increase the network capacity and reduce the difficulty of the reconstruction of facial details as in the previous one-scale PIFu representation. To remedy the topology error, we leverage 3 RGBD sensors to capture multiview RGBD data as the input to the network, a sparse, lightweight capture setting. Since the depth noise severely influences the reconstruction results, we design a depth refinement module to reduce the noise of the raw depths under the guidance of the input RGB images. We also propose an adaptive fusion scheme to fuse the predicted occupancy field of the body and face to eliminate the discontinuity artifact at their boundaries. Experiments demonstrate the effectiveness of our approach in reconstructing vivid facial details and deforming body shapes, and verify its superiority over state-of-the-art methods.
翻訳日:2021-12-06 15:48:49 公開日:2021-12-03
# Yelpのレビューに基づくユーザの推奨事項

Given Users Recommendations Based on Reviews on Yelp ( http://arxiv.org/abs/2112.01762v1 )

ライセンス: Link先を確認
Shuwei Zhang, Maiqi Tang, Qingyang Zhang, Yucan Luo, Yuhui Zou(参考訳) 本プロジェクトでは,NLPに基づくハイブリッドレコメンデーションシステムに注目した。 私たちのデータはyelpのデータです。 ハイブリッドレコメンデーションシステムには2つの主要なコンポーネントがあります。第1部はBertモデルとword2vecモデルにレビューを埋め込むことで、第2部は、レストランの異なるカテゴリでレビューの類似性を計算するためのアイテムベースの協調フィルタリングアルゴリズムの実装です。 最終的に、類似度スコアの助けを借りて、記録されたレビューに基づいて最もマッチしたレストランをユーザに推薦することができる。 コーディング作業は、サンプルとデータのクリーニング、処理、埋め込み、コンピューティングの類似性、計算予測とエラーなど、いくつかの部分に分けられる。 データのサイズのため、各部は1つ以上のJSONファイルをマイルストーンとして生成し、メモリの圧力と各部間の通信を減らす。

In our project, we focus on NLP-based hybrid recommendation systems. Our data is from Yelp Data. For our hybrid recommendation system, we have two major components: the first part is to embed the reviews with the Bert model and word2vec model; the second part is the implementation of an item-based collaborative filtering algorithm to compute the similarity of each review under different categories of restaurants. In the end, with the help of similarity scores, we are able to recommend users the most matched restaurant based on their recorded reviews. The coding work is split into several parts: selecting samples and data cleaning, processing, embedding, computing similarity, and computing prediction and error. Due to the size of the data, each part will generate one or more JSON files as the milestone to reduce the pressure on memory and the communication between each part.
翻訳日:2021-12-06 15:48:25 公開日:2021-12-03
# Siamese BERT を用いた新しいチェコのデータセットに基づく Web Search Relevance Ranking の評価

Siamese BERT-based Model for Web Search Relevance Ranking Evaluated on a New Czech Dataset ( http://arxiv.org/abs/2112.01810v1 )

ライセンス: Link先を確認
Mat\v{e}j Koci\'an, Jakub N\'aplava, Daniel \v{S}tancl, Vladim\'ir Kadlec(参考訳) web 検索エンジンは数百ミリ秒以内の非常に関連性の高い結果の提供に重点を置いている。 したがって、BERTのような事前訓練された言語トランスフォーマーモデルは、高い計算要求のためにこのシナリオでの使用が困難である。 本稿では,BERTに基づくシアムアーキテクチャを利用した文書ランキング問題に対するリアルタイムアプローチを提案する。 このモデルは、すでに商用検索エンジンにデプロイされており、生産性能を3%以上改善している。 DaReCzechは、チェコのユーザクエリ-ドキュメントペア1.6万のユニークなデータセットで、手動で関連レベルを割り振る。 また、チェコの大規模なコーパスで事前訓練されたElectra小言語モデルであるSmall-E-Czechをリリースしました。 このデータは、検索関連性と多言語研究コミュニティの両方に役立つと考えています。

Web search engines focus on serving highly relevant results within hundreds of milliseconds. Pre-trained language transformer models such as BERT are therefore hard to use in this scenario due to their high computational demands. We present our real-time approach to the document ranking problem leveraging a BERT-based siamese architecture. The model is already deployed in a commercial search engine and it improves production performance by more than 3%. For further research and evaluation, we release DaReCzech, a unique data set of 1.6 million Czech user query-document pairs with manually assigned relevance levels. We also release Small-E-Czech, an Electra-small language model pre-trained on a large Czech corpus. We believe this data will support endeavours both of search relevance and multilingual-focused research communities.
翻訳日:2021-12-06 15:48:10 公開日:2021-12-03
# (参考訳) 車両意図予測のための因果系時系列領域一般化 [全文訳有]

Causal-based Time Series Domain Generalization for Vehicle Intention Prediction ( http://arxiv.org/abs/2112.02093v1 )

ライセンス: CC BY 4.0
Yeping Hu, Xiaogang Jia, Masayoshi Tomizuka, Wei Zhan(参考訳) 交通参加者の行動の正確な予測は、自動運転車にとって不可欠な能力である。 自動運転車は動的に変化する環境をナビゲートする必要があるため、どこにいても、どのような状況に遭遇したかを正確に予測することが期待されている。 したがって、自動運転車が現実世界に配備される際の予測モデルには、未認識領域への一般化能力が不可欠である。 本稿では,車両意図予測タスクの領域一般化問題に対処し,因果的時系列領域一般化(CTSDG)モデルを提案する。 車両意図予測タスクのための構造因果モデルを構築し,領域一般化のための入力駆動データの不変表現を学習する。 さらに、時系列入力データから時間的潜伏依存性をよりよく捉えるために、繰り返し潜伏変数モデルを構造因果モデルに統合する。 本手法の有効性は実世界の運転データを用いて評価する。 提案手法は他の最先端ドメイン一般化法や行動予測法と比較して予測精度が一貫して向上することを示す。

Accurately predicting possible behaviors of traffic participants is an essential capability for autonomous vehicles. Since autonomous vehicles need to navigate in dynamically changing environments, they are expected to make accurate predictions regardless of where they are and what driving circumstances they encountered. Therefore, generalization capability to unseen domains is crucial for prediction models when autonomous vehicles are deployed in the real world. In this paper, we aim to address the domain generalization problem for vehicle intention prediction tasks and a causal-based time series domain generalization (CTSDG) model is proposed. We construct a structural causal model for vehicle intention prediction tasks to learn an invariant representation of input driving data for domain generalization. We further integrate a recurrent latent variable model into our structural causal model to better capture temporal latent dependencies from time-series input data. The effectiveness of our approach is evaluated via real-world driving data. We demonstrate that our proposed method has consistent improvement on prediction accuracy compared to other state-of-the-art domain generalization and behavior prediction methods.
翻訳日:2021-12-06 15:46:47 公開日:2021-12-03
# 制約付き時空間列パターンによる犯罪事象系列の発見

Discovery of Crime Event Sequences with Constricted Spatio-Temporal Sequential Patterns ( http://arxiv.org/abs/2112.01863v1 )

ライセンス: Link先を確認
Piotr S. Maci\k{a}g (1), Robert Bembenik (1), Artur Dubrawski (2) ((1) Warsaw University of Technology, Institute of Computer Science, Warsaw, Poland (2) Carnegie Mellon University, Auton Lab, The Robotics Institute, Pittsburgh, USA)(参考訳) 本稿では,Constricted Spatio-Temporal Sequential(CSTS)パターンと呼ばれる新しい時空間連続パターンを紹介し,その特性を徹底的に解析する。 CSTSパターンの集合は、与えられたデータセットで発見できる全ての時空間連続パターンの簡潔な表現であることを示す。 発見されたCSTSパターンの意義を測定するために、参加者指標尺度を適用した。 CSTS-Miner: イベントデータ中のすべての参加インデックス強力なCSTSパターンを検出するアルゴリズムを提供する。 提案手法は,ピッツバーグ警察のインシデントブロッターデータセットとボストン犯罪インシデントレポートデータセットの2つの犯罪関連データセットを用いて実験的に評価した。 実験では、CSTS-Minerアルゴリズムは他の4つの最先端アルゴリズム(STS-Miner, CSTPM, STBFM, CST-SPMiner)と比較した。 実験結果が示すように,提案アルゴリズムは選択した他のアルゴリズムよりもはるかに少ないパターンを発見できる。 最後に,提案したCSTS-Minerアルゴリズムによる興味深い犯罪関連パターンの例を示す。

In this article, we introduce a novel type of spatio-temporal sequential patterns called Constricted Spatio-Temporal Sequential (CSTS) patterns and thoroughly analyze their properties. We demonstrate that the set of CSTS patterns is a concise representation of all spatio-temporal sequential patterns that can be discovered in a given dataset. To measure significance of the discovered CSTS patterns we adapt the participation index measure. We also provide CSTS-Miner: an algorithm that discovers all participation index strong CSTS patterns in event data. We experimentally evaluate the proposed algorithms using two crime-related datasets: Pittsburgh Police Incident Blotter Dataset and Boston Crime Incident Reports Dataset. In the experiments, the CSTS-Miner algorithm is compared with the other four state-of-the-art algorithms: STS-Miner, CSTPM, STBFM and CST-SPMiner. As the results of experiments suggest, the proposed algorithm discovers much fewer patterns than the other selected algorithms. Finally, we provide the examples of interesting crime-related patterns discovered by the proposed CSTS-Miner algorithm.
翻訳日:2021-12-06 15:25:05 公開日:2021-12-03
# ロボットと人工エージェントのアクティブ推論 : 調査と課題

Active Inference in Robotics and Artificial Agents: Survey and Challenges ( http://arxiv.org/abs/2112.01871v1 )

ライセンス: Link先を確認
Pablo Lanillos, Cristian Meo, Corrado Pezzato, Ajith Anil Meera, Mohamed Baioumy, Wataru Ohata, Alexander Tschantz, Beren Millidge, Martijn Wisse, Christopher L. Buckley, Jun Tani(参考訳) アクティブ推論(active inference)は、脳が行動、知覚、学習をどのように実装するかの理論として計算神経科学から生まれた数学的枠組みである。 近年, 不確実性下における状態推定と制御の問題に対する有望なアプローチとして, ロボット工学や人工エージェント全般における目標駆動行動の構築の基盤となっている。 本稿では,状態推定,制御,計画,学習のための能動推論の最先端理論と実装について概説する。 我々は,適応性,一般化性,堅牢性の観点からその可能性を示す関連する実験を示す。 さらに,このアプローチを他のフレームワークと結びつけ,その期待するメリットと課題について論じる。

Active inference is a mathematical framework which originated in computational neuroscience as a theory of how the brain implements action, perception and learning. Recently, it has been shown to be a promising approach to the problems of state-estimation and control under uncertainty, as well as a foundation for the construction of goal-driven behaviours in robotics and artificial agents in general. Here, we review the state-of-the-art theory and implementations of active inference for state-estimation, control, planning and learning; describing current achievements with a particular focus on robotics. We showcase relevant experiments that illustrate its potential in terms of adaptation, generalization and robustness. Furthermore, we connect this approach with other frameworks and discuss its expected benefits and challenges: a unified framework with functional biological plausibility using variational Bayesian inference.
翻訳日:2021-12-06 15:24:47 公開日:2021-12-03
# Aprosシミュレーション環境を用いたプロセス産業用ハイブリッドデジタルツイン

Hybrid Digital Twin for process industry using Apros simulation environment ( http://arxiv.org/abs/2112.01903v1 )

ライセンス: Link先を確認
Mohammad Azangoo (1), Joonas Salmi (1), Iivo Yrj\"ol\"a (1), Jonathan Bensky (1), Gerardo Santillan (2), Nikolaos Papakonstantinou (3), Seppo Sierla (1), Valeriy Vyatkin (1 and 4) ((1) Department of Electrical Engineering and Automation, Aalto University, Espoo, Finland, (2) Semantum Oy, Espoo, Finland, (3) VTT Technical Research Centre of Finland Ltd, Espoo, Finland, (4) Department of Computer Science, Electrical and Space Engineering, Lule{\aa} University of Technology, Lule{\aa}, Sweden)(参考訳) プロセスプラントのライフサイクルにおいて、更新および製造されたモデルを作成することが重要な役割を果たす。 特にDigital Twinモデルは、システムの効率性と信頼性を保証するために正確でなければならない。 データ駆動モデルは、不確実性とライフサイクル関連の変更を考慮して、サブシステムの最新の挙動をシミュレートすることができる。 本稿では,初期のプロトタイプを例として,プロセスプラントのハイブリッド型Digital Twinモデルに対するステップバイステップの概念を提案する。 プロセス機器のデータ駆動モデルを使用して、ブラウンフィールドプロセスシステムの第一原理モデルとデジタル双子を更新するためのステップを詳述する。 構築されたDigital Twinの生成に関する課題についても議論する。 機械学習モデルを教えるプロセス履歴データによって、実装されたDigital Twinは、時間とともに継続的に改善され、この作業はさらに最適化される。

Making an updated and as-built model plays an important role in the life-cycle of a process plant. In particular, Digital Twin models must be precise to guarantee the efficiency and reliability of the systems. Data-driven models can simulate the latest behavior of the sub-systems by considering uncertainties and life-cycle related changes. This paper presents a step-by-step concept for hybrid Digital Twin models of process plants using an early implemented prototype as an example. It will detail the steps for updating the first-principles model and Digital Twin of a brownfield process system using data-driven models of the process equipment. The challenges for generation of an as-built hybrid Digital Twin will also be discussed. With the help of process history data to teach Machine Learning models, the implemented Digital Twin can be continually improved over time and this work in progress can be further optimized.
翻訳日:2021-12-06 15:24:35 公開日:2021-12-03
# ニューラルネットワークのシーケンシャルトレーニングのための学習曲線:自己知識伝達と予測

Learning Curves for Sequential Training of Neural Networks: Self-Knowledge Transfer and Forgetting ( http://arxiv.org/abs/2112.01653v1 )

ライセンス: Link先を確認
Ryo Karakida and Shotaro Akaho(参考訳) タスクからタスクへのシーケンシャルトレーニングは,連続学習や転帰学習といった深層学習アプリケーションにおいて,主要な対象の1つになりつつある。 にもかかわらず、どの条件下で訓練されたモデルの性能が改善するか劣化するかは未だ不明である。 本研究は, 逐次学習の理解を深めるために, 連続学習の解決可能な場合における一般化性能の理論解析を行う。 我々は,タスクからタスクまでの目標関数を継続的に学習するNTK(Neural Tangent kernel)システムにおけるニューラルネットワークについて検討し,カーネルリッジレス回帰の統計的解析を用いて一般化について検討する。 まず、正から負への特性遷移を示す。 特定のクリティカル値以上のより類似したターゲットは、非常に類似したターゲットでも破滅的な忘れる間、後続のタスクのポジティブな知識転送を達成することができる。 次に、モデルが複数のタスクで同じターゲット関数を学習する連続学習の変種について検討する。 同じターゲットであっても、トレーニングされたモデルは、各タスクのサンプルサイズに応じて、何らかの転送と忘れを見せる。 非バランスなサンプルサイズが一般化を悪化させつつ, 一般化誤差がタスクからタスクへ等しく減少することを保証できる。 我々は,これらの改善と劣化を自己認識伝達と忘れることと呼び,深層ニューラルネットワークのリアルトレーニングにおいても経験的に確認する。

Sequential training from task to task is becoming one of the major objects in deep learning applications such as continual learning and transfer learning. Nevertheless, it remains unclear under what conditions the trained model's performance improves or deteriorates. To deepen our understanding of sequential training, this study provides a theoretical analysis of generalization performance in a solvable case of continual learning. We consider neural networks in the neural tangent kernel (NTK) regime that continually learn target functions from task to task, and investigate the generalization by using an established statistical mechanical analysis of kernel ridge-less regression. We first show characteristic transitions from positive to negative transfer. More similar targets above a specific critical value can achieve positive knowledge transfer for the subsequent task while catastrophic forgetting occurs even with very similar targets. Next, we investigate a variant of continual learning where the model learns the same target function in multiple tasks. Even for the same target, the trained model shows some transfer and forgetting depending on the sample size of each task. We can guarantee that the generalization error monotonically decreases from task to task for equal sample sizes while unbalanced sample sizes deteriorate the generalization. We respectively refer to these improvement and deterioration as self-knowledge transfer and forgetting, and empirically confirm them in realistic training of deep neural networks as well.
翻訳日:2021-12-06 15:24:07 公開日:2021-12-03
# 核和2乗法による滑らかな輸送写像の準最適推定

Near-optimal estimation of smooth transport maps with kernel sums-of-squares ( http://arxiv.org/abs/2112.01907v1 )

ライセンス: Link先を確認
Boris Muzellec, Adrien Vacher, Francis Bach, Fran\c{c}ois-Xavier Vialard, Alessandro Rudi(参考訳) 近年, 平滑性条件下では, 2つの分布間の二乗ワッサースタイン距離を, 統計的誤差の上限を求めることで効率的に計算できることが示されている。 しかし、距離そのものではなく、生成的モデリングのような応用への関心の対象は、基礎となる最適輸送写像である。 したがって、推定された地図自身に対して計算および統計的な保証を得る必要がある。 本稿では,地図上の統計的$L^2$誤差が,スムーズな地図推定のために,既存のミニマックス下界とほぼ一致した最初のトラクタブルアルゴリズムを提案する。 提案手法は, 無限次元の総和法を用いて, 最適輸送の半次元定式化を解き, 指数関数的な次元依存定数を持つサンプル数における次元自由多項式率を持つアルゴリズムを導出する。

It was recently shown that under smoothness conditions, the squared Wasserstein distance between two distributions could be efficiently computed with appealing statistical error upper bounds. However, rather than the distance itself, the object of interest for applications such as generative modeling is the underlying optimal transport map. Hence, computational and statistical guarantees need to be obtained for the estimated maps themselves. In this paper, we propose the first tractable algorithm for which the statistical $L^2$ error on the maps nearly matches the existing minimax lower-bounds for smooth map estimation. Our method is based on solving the semi-dual formulation of optimal transport with an infinite-dimensional sum-of-squares reformulation, and leads to an algorithm which has dimension-free polynomial rates in the number of samples, with potentially exponentially dimension-dependent constants.
翻訳日:2021-12-06 15:23:46 公開日:2021-12-03
# 血管木分節変形による深層学習による大血管閉塞の検出

Detection of Large Vessel Occlusions using Deep Learning by Deforming Vessel Tree Segmentations ( http://arxiv.org/abs/2112.01797v1 )

ライセンス: Link先を確認
Florian Thamm and Oliver Taubmann and Markus J\"urgens and Hendrik Ditt and Andreas Maier(参考訳) Computed Tomography Angiographyは、特に大血管閉塞例(LVO)において、虚血性脳梗塞の診断および治療に不可欠である脳血管血管ツリーの知見を提供する重要なモダリティである。 したがって、臨床ワークフローは、lvosに苦しむ患者の自動検出から大いに恩恵を受ける。 本研究は畳み込みニューラルネットワークを用いて,血管ツリーセグメンテーションマスクの弾性変形を訓練したケースレベルの分類を行い,人工的にトレーニングデータを増強する。 モデルへの入力としてマスクのみを用いることで、サンプルリアリズムを維持しながら従来の画像量よりもはるかに積極的にそのような変形を適用できる。 ニューラルネットワークは、LVOと影響を受ける半球の存在を分類する。 5倍のクロス検証アブレーション実験において,提案手法を用いることで,少数のデータセットからでも頑健なモデルを訓練できることが実証された。 効率的なNetB1アーキテクチャを100データセットで訓練し、提案された拡張スキームにより、ROC AUCを0.57のベースライン値から0.85に引き上げることができた。 最高の性能は3D-DenseNetで達成され、AUCは0.88である。 この増強は、影響を受けた半球の分類にもプラスの影響を与え、3d-densenet は両サイドで 0.93 の auc に達した。

Computed Tomography Angiography is a key modality providing insights into the cerebrovascular vessel tree that are crucial for the diagnosis and treatment of ischemic strokes, in particular in cases of large vessel occlusions (LVO). Thus, the clinical workflow greatly benefits from an automated detection of patients suffering from LVOs. This work uses convolutional neural networks for case-level classification trained with elastic deformation of the vessel tree segmentation masks to artificially augment training data. Using only masks as the input to our model uniquely allows us to apply such deformations much more aggressively than one could with conventional image volumes while retaining sample realism. The neural network classifies the presence of an LVO and the affected hemisphere. In a 5-fold cross validated ablation study, we demonstrate that the use of the suggested augmentation enables us to train robust models even from few data sets. Training the EfficientNetB1 architecture on 100 data sets, the proposed augmentation scheme was able to raise the ROC AUC to 0.85 from a baseline value of 0.57 using no augmentation. The best performance was achieved using a 3D-DenseNet yielding an AUC of 0.88. The augmentation had positive impact in classification of the affected hemisphere as well, where the 3D-DenseNet reached an AUC of 0.93 on both sides.
翻訳日:2021-12-06 15:22:27 公開日:2021-12-03
# ROCA: 単一画像からのロバストCADモデル検索とアライメント

ROCA: Robust CAD Model Retrieval and Alignment from a Single Image ( http://arxiv.org/abs/2112.01988v1 )

ライセンス: Link先を確認
Can G\"umeli, Angela Dai, Matthias Nie{\ss}ner(参考訳) 本稿では,形状データベースから1つの入力画像へ3次元CADモデルを検索・アライメントする新しいエンドツーエンドアプローチであるROCAを提案する。 これにより、軽量でコンパクトでクリーンなCAD表現として特徴付けられる2次元RGB観測から観察シーンの3次元認識が可能になる。 我々のアプローチの中核は、密接な2d-3dオブジェクト対応に基づく微分可能アライメント最適化とアライメント推定である。 ROCAは、幾何学的に類似したCADモデルを学習するために、2D-3D対応を利用してCAD検索を同時に行うとともに、堅牢なCADアライメントを提供することができる。 ScanNetによる挑戦的で現実的な画像の実験では、ROCAは検索対応CADアライメントの精度が9.5%から17.6%に向上した。

We present ROCA, a novel end-to-end approach that retrieves and aligns 3D CAD models from a shape database to a single input image. This enables 3D perception of an observed scene from a 2D RGB observation, characterized as a lightweight, compact, clean CAD representation. Core to our approach is our differentiable alignment optimization based on dense 2D-3D object correspondences and Procrustes alignment. ROCA can thus provide a robust CAD alignment while simultaneously informing CAD retrieval by leveraging the 2D-3D correspondences to learn geometrically similar CAD models. Experiments on challenging, real-world imagery from ScanNet show that ROCA significantly improves on state of the art, from 9.5% to 17.6% in retrieval-aware CAD alignment accuracy.
翻訳日:2021-12-06 15:22:05 公開日:2021-12-03
# fpga上の荷電粒子追跡のためのグラフニューラルネットワーク

Graph Neural Networks for Charged Particle Tracking on FPGAs ( http://arxiv.org/abs/2112.02048v1 )

ライセンス: Link先を確認
Abdelrahman Elabd and Vesal Razavimaleki and Shi-Yu Huang and Javier Duarte and Markus Atkinson and Gage DeZoort and Peter Elmer and Jin-Xuan Hu and Shih-Chieh Hsu and Bo-Cheng Lai and Mark Neubauer and Isobel Ojalvo and Savannah Thais(参考訳) CERN大型ハドロン衝突型加速器(LHC)の衝突における荷電粒子軌道の決定は、特に将来のLHC(HL-LHC)の高光度相で期待される高相互作用密度条件において重要であるが難しい問題である。 グラフニューラルネットワーク(GNN)は、トラックデータをグラフとして埋め込み -- ノードがヒットを示し、エッジがトラックセグメントを表す -- を表現し、エッジを真または偽のトラックセグメントとして分類することで、このタスクにうまく適用された幾何学的ディープラーニングアルゴリズムの一種である。 しかしながら、ハードウェアやソフトウェアベースのトリガーアプリケーションの研究は、計算コストが大きいために制限されている。 本稿では,GNNをフィールドプログラマブルゲートアレイ(FPGA)のファームウェアに変換するための,より広範なツールである$\texttt{hls4ml}$に統合した自動翻訳ワークフローを提案する。 trackml challengeデータセットを使用してトレーニングされたgnnを、異なるグラフサイズ、タスク複雑度、レイテンシ/スループット要件をターゲットとした設計でfpga上に実装する。 この研究により、HL-LHC実験のための荷電粒子追跡GNNをトリガーレベルに含めることができる。

The determination of charged particle trajectories in collisions at the CERN Large Hadron Collider (LHC) is an important but challenging problem, especially in the high interaction density conditions expected during the future high-luminosity phase of the LHC (HL-LHC). Graph neural networks (GNNs) are a type of geometric deep learning algorithm that has successfully been applied to this task by embedding tracker data as a graph -- nodes represent hits, while edges represent possible track segments -- and classifying the edges as true or fake track segments. However, their study in hardware- or software-based trigger applications has been limited due to their large computational cost. In this paper, we introduce an automated translation workflow, integrated into a broader tool called $\texttt{hls4ml}$, for converting GNNs into firmware for field-programmable gate arrays (FPGAs). We use this translation tool to implement GNNs for charged particle tracking, trained using the TrackML challenge dataset, on FPGAs with designs targeting different graph sizes, task complexites, and latency/throughput requirements. This work could enable the inclusion of charged particle tracking GNNs at the trigger level for HL-LHC experiments.
翻訳日:2021-12-06 15:21:50 公開日:2021-12-03
# ドラビダ語の多言語テキスト分類

Multilingual Text Classification for Dravidian Languages ( http://arxiv.org/abs/2112.01705v1 )

ライセンス: Link先を確認
Xiaotian Lin, Nankai Lin, Kanoksak Wattanachote, Shengyi Jiang, Lianxi Wang(参考訳) 世界で4番目に大きな言語ファミリーであるドラヴィダ語は、自然言語処理(NLP)の研究ホットスポットとなっている。 ドラヴィダ語には多数の言語が含まれているが、公共の資源は比較的少ない。 さらに、自然言語処理の基本的なタスクであるテキスト分類タスクは、ドラヴィダ語における複数の言語とどのように組み合わせるかは、ドラヴィダ語自然言語処理において依然として大きな困難である。 そこで,これらの問題に対処するために,ドレイダ諸語を対象とした多言語テキスト分類フレームワークを提案した。 一方、フレームワークはLaBSE事前訓練モデルをベースモデルとして使用した。 マルチタスク学習におけるテキスト情報のバイアスの問題に着目し,MLM戦略を用いて言語固有の単語を選択することを提案する。 一方,モデルが言語間の相関を十分に認識・活用できないという問題を考えると,モデルの意味情報を豊かにするための言語固有の表現モジュールも提案した。 実験の結果,提案手法は多言語テキスト分類タスクにおいて有意な性能を示し,それぞれの戦略で一定の改善が得られた。

As the fourth largest language family in the world, the Dravidian languages have become a research hotspot in natural language processing (NLP). Although the Dravidian languages contain a large number of languages, there are relatively few public available resources. Besides, text classification task, as a basic task of natural language processing, how to combine it to multiple languages in the Dravidian languages, is still a major difficulty in Dravidian Natural Language Processing. Hence, to address these problems, we proposed a multilingual text classification framework for the Dravidian languages. On the one hand, the framework used the LaBSE pre-trained model as the base model. Aiming at the problem of text information bias in multi-task learning, we propose to use the MLM strategy to select language-specific words, and used adversarial training to perturb them. On the other hand, in view of the problem that the model cannot well recognize and utilize the correlation among languages, we further proposed a language-specific representation module to enrich semantic information for the model. The experimental results demonstrated that the framework we proposed has a significant performance in multilingual text classification tasks with each strategy achieving certain improvements.
翻訳日:2021-12-06 15:21:28 公開日:2021-12-03
# インド語の大きな注釈付き並列コーパスの作成と管理

Creating and Managing a large annotated parallel corpora of Indian languages ( http://arxiv.org/abs/2112.01764v1 )

ライセンス: Link先を確認
Ritesh Kumar, Shiv Bhusan Kaushik, Pinkey Nainwani, Girish Nath Jha(参考訳) 本稿では,DIT (Department of Information Technology, Govt) が出資する主要なコンソーシアムプロジェクトの一環として,12大インド語(間もなく23言語に拡張される予定)の大規模並列コーパスの作成と管理の課題について述べる。 インドでは10の大学で平行して走っています。 これらの巨大なコーパスの作成と普及のプロセスを効率的に管理するために、webベースのアノテーションツールilciann(indian languages corpora initiative annotation tool)が開発されている。 posアノテーションと、能力の異なる人々や物理的に離れた場所によるコーパスアノテーションの管理のために開発された。 コーパスの作成において、一貫性と標準を維持するためには、このツールによって提供される共通のプラットフォームで誰もが作業する必要がある。

This paper presents the challenges in creating and managing large parallel corpora of 12 major Indian languages (which is soon to be extended to 23 languages) as part of a major consortium project funded by the Department of Information Technology (DIT), Govt. of India, and running parallel in 10 different universities of India. In order to efficiently manage the process of creation and dissemination of these huge corpora, the web-based (with a reduced stand-alone version also) annotation tool ILCIANN (Indian Languages Corpora Initiative Annotation Tool) has been developed. It was primarily developed for the POS annotation as well as the management of the corpus annotation by people with differing amount of competence and at locations physically situated far apart. In order to maintain consistency and standards in the creation of the corpora, it was necessary that everyone works on a common platform which was provided by this tool.
翻訳日:2021-12-06 15:21:08 公開日:2021-12-03
# 文化間のポリテネスの翻訳--ヒンディー語と英語の場合

Translating Politeness Across Cultures: Case of Hindi and English ( http://arxiv.org/abs/2112.01822v1 )

ライセンス: Link先を確認
Ritesh Kumar and Girish Nath Jha(参考訳) 本稿では,英語とヒンディー語にまたがる丁寧さのコーパスに基づく研究について述べる。 ヒンディー語と英語の並列コーパスにおける礼儀正しさを研究し、ヒンディー語テキストの礼儀正しさを英語に翻訳する。 比較を行った後、この理論モデル内で翻訳されたデータの簡単な記述を行うための詳細な理論的背景を提供する。 丁寧さは紛争や誤解の主な原因の一つとなりうるため、特に機械翻訳などの目的において、異文化的に研究・理解することが非常に重要である。

In this paper, we present a corpus based study of politeness across two languages-English and Hindi. It studies the politeness in a translated parallel corpus of Hindi and English and sees how politeness in a Hindi text is translated into English. We provide a detailed theoretical background in which the comparison is carried out, followed by a brief description of the translated data within this theoretical model. Since politeness may become one of the major reasons of conflict and misunderstanding, it is a very important phenomenon to be studied and understood cross-culturally, particularly for such purposes as machine translation.
翻訳日:2021-12-06 15:20:55 公開日:2021-12-03
# (参考訳) ギャップを橋渡しする:コネクトミクスのニューロン融合のための点雲 [全文訳有]

Bridging the Gap: Point Clouds for Merging Neurons in Connectomics ( http://arxiv.org/abs/2112.02039v1 )

ライセンス: CC BY 4.0
Jules Berman, Dmitri B. Chklovskii, Jingpeng Wu(参考訳) コネクトミクスの分野では、主要な問題は3dニューロンのセグメンテーションである。 ディープラーニングに基づく手法は目覚ましい精度を達成したが、特に画像欠陥のある領域では誤りが残っている。 一般的な欠陥の1つは、連続した画像セクションの欠陥である。 ここでのデータは、ある軸に沿って失われ、結果として生じるニューロンのセグメンテーションはギャップを越えて分割される。 この問題に対処するために,ニューロンの点雲表現に基づく新しい手法を提案する。 これを分類問題として定式化し、最先端のポイントクラウド分類モデルであるtrain curvenetを用いて、どのニューロンをマージすべきかを特定する。 提案手法は,強固に実行するだけでなく,他の手法が取り組もうとしている以上のギャップに対して合理的にスケールすることを示す。 さらに、当社のポイントクラウド表現はデータの観点から非常に効率的で、他の方法では不可能な量のデータで高いパフォーマンスを維持しています。 これは、他の証明読解タスクにポイントクラウド表現を使用する可能性の指標であると考えています。

In the field of Connectomics, a primary problem is that of 3D neuron segmentation. Although Deep Learning based methods have achieved remarkable accuracy, errors still exist, especially in regions with image defects. One common type of defect is that of consecutive missing image sections. Here data is lost along some axis, and the resulting neuron segmentations are split across the gap. To address this problem, we propose a novel method based on point cloud representations of neurons. We formulate this as a classification problem and train CurveNet, a state-of-the-art point cloud classification model, to identify which neurons should be merged. We show that our method not only performs strongly but scales reasonably to gaps well beyond what other methods have attempted to address. Additionally, our point cloud representations are highly efficient in terms of data, maintaining high performance with an amount of data that would be unfeasible for other methods. We believe that this is an indicator of the viability of using point clouds representations for other proofreading tasks.
翻訳日:2021-12-06 15:19:48 公開日:2021-12-03
# 微分特性予測: 先端製造における実験設計への機械学習アプローチ

Differential Property Prediction: A Machine Learning Approach to Experimental Design in Advanced Manufacturing ( http://arxiv.org/abs/2112.01687v1 )

ライセンス: Link先を確認
Loc Truong, WoongJo Choi, Colby Wight, Lizzy Coda, Tegan Emerson, Keerti Kappagantula, Henry Kvinge(参考訳) 高度な製造技術により最先端の材料が製造できるようになった。 しかし多くの場合、これらの技術の物理モデルの開発は研究室での使用に遅れを取っている。 つまり、実験の設計と実行は、主に試行錯誤によって行われる。 実験はコスト、時間、労働集約的であるため、これは準最適です。 本研究では,データ駆動型実験設計を追求するために,機械学習の非並列パターンマッチング機能を活用する機械学習フレームワークである差分特性分類(DPC)を提案する。 DPCは2つの可能な実験パラメータ集合を持ち、演算子によって指定されたより望ましい特性を持つ材料を生成する予測を出力する。 固相処理技術であるせん断アシスト加工および押出成形(shape)を用いて,aa7075チューブ製造プロセスおよび機械的特性データにおけるdpcの成功を実証する。 実験者は,複数の候補となる実験パラメータを選択する必要があることに注目することにより,材料特性を処理パラメータから予測する困難な回帰タスクを,機械学習モデルが優れた性能を達成できる分類タスクに再編成できることを示す。

Advanced manufacturing techniques have enabled the production of materials with state-of-the-art properties. In many cases however, the development of physics-based models of these techniques lags behind their use in the lab. This means that designing and running experiments proceeds largely via trial and error. This is sub-optimal since experiments are cost-, time-, and labor-intensive. In this work we propose a machine learning framework, differential property classification (DPC), which enables an experimenter to leverage machine learning's unparalleled pattern matching capability to pursue data-driven experimental design. DPC takes two possible experiment parameter sets and outputs a prediction of which will produce a material with a more desirable property specified by the operator. We demonstrate the success of DPC on AA7075 tube manufacturing process and mechanical property data using shear assisted processing and extrusion (ShAPE), a solid phase processing technology. We show that by focusing on the experimenter's need to choose between multiple candidate experimental parameters, we can reframe the challenging regression task of predicting material properties from processing parameters, into a classification task on which machine learning models can achieve good performance.
翻訳日:2021-12-06 15:07:40 公開日:2021-12-03
# Table2Vec: ベンチマーク可能で説明可能なエンタープライズデータサイエンスのための全データDNAをエンコードするUniversal Representation Learningの自動学習

Table2Vec: Automated Universal Representation Learning to Encode All-round Data DNA for Benchmarkable and Explainable Enterprise Data Science ( http://arxiv.org/abs/2112.01830v1 )

ライセンス: Link先を確認
Longbing Cao and Chengzhang Zhu(参考訳) エンタープライズデータは通常、ビジネス活動、トランザクション、顧客人口統計、ステータス、行動、企業とのインタラクションとコミュニケーションをそれぞれ記録する複数の異種データソースと外部データと、製品、サービス、生産、マーケティング、運用、管理などの消費とフィードバックを含む。 エンタープライズデータサイエンスにおける重要な課題は、企業全体のデータ理解とデータドリブンな発見と決定を可能にすることである。 本研究では,全単位のエンタープライズDNAから顧客などのエンティティを,自動データ特性解析とデータ品質向上により普遍的に学習するためのニューラルネットワークTable2Vecを提案する。 学習されたユニバーサル表現は、代表的でベンチマーク可能なエンタープライズデータゲノムとして機能し、企業全体およびドメイン固有の学習タスクに使用できる。 Table2Vecは、低品質のエンタープライズデータと下流学習タスクに、自動化された普遍的表現学習を統合する。 そこで,Table2Vecは複雑な異種多関係大テーブル上に企業内の全包の顧客データDNAを特徴付け,汎用的な顧客ベクトル表現を構築する。 学習された各顧客の普遍的な表現は、企業全体およびドメイン固有の学習目標と、エンタープライズデータサイエンスにおけるタスクをサポートするために、全体的、代表的、およびベンチマーク可能である。 Table2Vecは、エンタープライズ分析で一般的に使用される、浅く、強化され、深層学習の手法を大幅に上回っている。 さらに、自動化された普遍的エンタープライズ表現と学習の機会、方向性、応用、および、自動化された全目的、全企業的、倫理的機械学習およびデータサイエンスのための学習されたエンタープライズデータDNAについて論じる。

Enterprise data typically involves multiple heterogeneous data sources and external data that respectively record business activities, transactions, customer demographics, status, behaviors, interactions and communications with the enterprise, and the consumption and feedback of its products, services, production, marketing, operations, and management, etc. A critical challenge in enterprise data science is to enable an effective whole-of-enterprise data understanding and data-driven discovery and decision-making on all-round enterprise DNA. We introduce a neural encoder Table2Vec for automated universal representation learning of entities such as customers from all-round enterprise DNA with automated data characteristics analysis and data quality augmentation. The learned universal representations serve as representative and benchmarkable enterprise data genomes and can be used for enterprise-wide and domain-specific learning tasks. Table2Vec integrates automated universal representation learning on low-quality enterprise data and downstream learning tasks. We illustrate Table2Vec in characterizing all-round customer data DNA in an enterprise on complex heterogeneous multi-relational big tables to build universal customer vector representations. The learned universal representation of each customer is all-round, representative and benchmarkable to support both enterprise-wide and domain-specific learning goals and tasks in enterprise data science. Table2Vec significantly outperforms the existing shallow, boosting and deep learning methods typically used for enterprise analytics. We further discuss the research opportunities, directions and applications of automated universal enterprise representation and learning and the learned enterprise data DNA for automated, all-purpose, whole-of-enterprise and ethical machine learning and data science.
翻訳日:2021-12-06 15:07:23 公開日:2021-12-03
# 逆ベイズ分類器の存在について(拡張版)

On the Existence of the Adversarial Bayes Classifier (Extended Version) ( http://arxiv.org/abs/2112.01694v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Natalie S. Frank, Mehryar Mohri(参考訳) 敵対的堅牢性は、現代の機械学習アプリケーションにおいて重要な特性である。 近年のいくつかの理論的研究の対象となっているが、敵の強靭性に関する重要な疑問がまだ数多く残っている。 本研究では,ベイズ最適性に関する基本的問題について考察する。 ベイズ最適分類器の存在を敵の強靭性に対して保証できるような、一般的な十分条件を提供する。 この結果は, 敵の強靭性とその整合性におけるサロゲート損失の研究に有用である。 この写本はNeurIPSに掲載された論文"On the Existence of the Adversarial Bayes Classifier"の拡張版である。 原論文の結果は、いくつかの非制限凸ノルムには適用されなかった。 ここでは、結果をあらゆる可能な規範に拡張します。

Adversarial robustness is a critical property in a variety of modern machine learning applications. While it has been the subject of several recent theoretical studies, many important questions related to adversarial robustness are still open. In this work, we study a fundamental question regarding Bayes optimality for adversarial robustness. We provide general sufficient conditions under which the existence of a Bayes optimal classifier can be guaranteed for adversarial robustness. Our results can provide a useful tool for a subsequent study of surrogate losses in adversarial robustness and their consistency properties. This manuscript is the extended version of the paper "On the Existence of the Adversarial Bayes Classifier" published in NeurIPS. The results of the original paper did not apply to some non-strictly convex norms. Here we extend our results to all possible norms.
翻訳日:2021-12-06 15:06:47 公開日:2021-12-03
# AIは教育を民主化するか? edtech革命の社会技術的想像

Could AI Democratise Education? Socio-Technical Imaginaries of an EdTech Revolution ( http://arxiv.org/abs/2112.02034v1 )

ライセンス: Link先を確認
Sahan Bulathwela, Mar\'ia P\'erez-Ortiz, Catherine Holloway, John Shawe-Taylor(参考訳) 教育における人工知能(AI)は、よりパーソナライズされたカリキュラムを構築する可能性があり、世界中の教育を民主化し、新しい教育方法と学習方法のルネサンスを生み出すと言われている。 何百万人もの学生がこれらのテクノロジーの恩恵を受け始めているが、世界中の何百万人もの学生がそうではない。 この傾向が続くならば、教育におけるaiの最初の提供は、現在の技術的決定論説に動機づけられた教育資源の世界的な誤配置とともに、より大きな教育格差をもたらす可能性がある。 本稿では,技術が浸透する新世代の教育の正しい基盤を確立するための,プレス的な会話を始めることを目的として,教育におけるAIの将来に関する質問の投機とポーズに焦点を当てる。 この論文は、AIが私たちの学習方法や教え方をどのように変えていくかの合成から始まり、個人化された学習仲間のケースに特化して、世界中のAIシステムの危険を避ける(そして成功を確実にする)上で重要な社会技術的特徴について議論する。 本稿ではまた,wikipedia,オープン教育資源,オープンソースツールなど,無償で参加型,民主的なリソースとaiを併用する可能性についても論じる。 我々はまた、人中心で透明で対話的で協調的なAIベースのアルゴリズムをまとめて設計することの必要性を強調します。 最後に、政治、文化、言語、地理的、学習能力の障壁を越えて、平等主義と教育へのアクセスを促進するために、この教育革命に何が必要か尋ねる。

Artificial Intelligence (AI) in Education has been said to have the potential for building more personalised curricula, as well as democratising education worldwide and creating a Renaissance of new ways of teaching and learning. Millions of students are already starting to benefit from the use of these technologies, but millions more around the world are not. If this trend continues, the first delivery of AI in Education could be greater educational inequality, along with a global misallocation of educational resources motivated by the current technological determinism narrative. In this paper, we focus on speculating and posing questions around the future of AI in Education, with the aim of starting the pressing conversation that would set the right foundations for the new generation of education that is permeated by technology. This paper starts by synthesising how AI might change how we learn and teach, focusing specifically on the case of personalised learning companions, and then move to discuss some socio-technical features that will be crucial for avoiding the perils of these AI systems worldwide (and perhaps ensuring their success). This paper also discusses the potential of using AI together with free, participatory and democratic resources, such as Wikipedia, Open Educational Resources and open-source tools. We also emphasise the need for collectively designing human-centered, transparent, interactive and collaborative AI-based algorithms that empower and give complete agency to stakeholders, as well as support new emerging pedagogies. Finally, we ask what would it take for this educational revolution to provide egalitarian and empowering access to education, beyond any political, cultural, language, geographical and learning ability barriers.
翻訳日:2021-12-06 15:04:58 公開日:2021-12-03
# グラフニューラルネットワークのための構造対応マルチホップグラフ畳み込み

Structure-Aware Multi-Hop Graph Convolution for Graph Neural Networks ( http://arxiv.org/abs/2112.01714v1 )

ライセンス: Link先を確認
Yang Li, Yuichi Tanaka(参考訳) 本稿では,グラフ上の信号を分類するための空間グラフ畳み込み(GC)を提案する。 既存のGCメソッドは、機能空間の構造情報の使用に限られています。 さらに、GCの単一ステップは、ターゲットノードからのワンホップ隣ノードの機能のみを使用する。 本稿では,GCの性能向上のための2つの手法を提案する。 1)特徴空間における構造情報の利用,及び 2) マルチホップ情報を1つのgcステップで活用する。 第1の方法では,特徴の角度,特徴距離,関係埋め込みという3つの構造的特徴を定義した。 第2の方法は、GC内のマルチホップ隣人のノードワイドな特徴を集約する。 どちらの方法も同時に使用できる。 また,3次元点群と引用ネットワークにおけるノードの分類のためのGCを統合するグラフニューラルネットワーク(GNN)を提案する。 実験では,提案したGNNは既存の手法よりも高い分類精度を示した。

In this paper, we propose a spatial graph convolution (GC) to classify signals on a graph. Existing GC methods are limited to using the structural information in the feature space. Additionally, the single step of GCs only uses features on the one-hop neighboring nodes from the target node. In this paper, we propose two methods to improve the performance of GCs: 1) Utilizing structural information in the feature space, and 2) exploiting the multi-hop information in one GC step. In the first method, we define three structural features in the feature space: feature angle, feature distance, and relational embedding. The second method aggregates the node-wise features of multi-hop neighbors in a GC. Both methods can be simultaneously used. We also propose graph neural networks (GNNs) integrating the proposed GC for classifying nodes in 3D point clouds and citation networks. In experiments, the proposed GNNs exhibited a higher classification accuracy than existing methods.
翻訳日:2021-12-06 15:03:56 公開日:2021-12-03
# ソフト擬似ラベルとカリキュラム学習による教師なしドメイン適応の促進

Boosting Unsupervised Domain Adaptation with Soft Pseudo-label and Curriculum Learning ( http://arxiv.org/abs/2112.01948v1 )

ライセンス: Link先を確認
Shengjia Zhang, Tiancheng Lin, Yi Xu(参考訳) 完全にラベル付けされたソースドメインからのデータを活用することにより、教師なしドメイン適応(UDA)は、データ分散の明示的な差分最小化または逆学習により、ラベル付けされていないターゲットドメインの分類性能を向上させる。 拡張として、モデル予測を利用して目標特徴識別を強化する適応中にカテゴリアライメントが関与する。 しかし、対象領域における誤ったカテゴリ予測による擬似ラベル不正確性や、ソース領域への過剰適合による分布偏差については、まだ未解決の問題が残っている。 本稿では,ソフト擬似ラベル戦略による欠陥モデル予測を大幅に削減し,カリキュラム学習戦略によるソース領域への過剰フィットを回避する,モデル非依存な2段階学習フレームワークを提案する。 理論的には、ターゲット領域上の期待誤差の上界における結合リスクを減少させる。 第1段階では,分布アライメントに基づくuda法を用いて,対象領域のソフトセマンティクスラベルを比較的高い信頼度で取得するモデルを訓練する。 ソースドメインの過度な適合を避けるため,第2段階では,2つのドメインの損失間の重み付けを適応的に制御し,トレーニングステージの焦点が,目標ドメインの予測信頼度を高めて,ソース分布からターゲット分布へ徐々にシフトするようにするカリキュラム学習戦略を提案する。 2つのよく知られたベンチマークデータセットに対する広範囲な実験は、上位のUDAアルゴリズムの性能向上における提案フレームワークの普遍的な有効性を検証するとともに、その一貫した優れた性能を示す。

By leveraging data from a fully labeled source domain, unsupervised domain adaptation (UDA) improves classification performance on an unlabeled target domain through explicit discrepancy minimization of data distribution or adversarial learning. As an enhancement, category alignment is involved during adaptation to reinforce target feature discrimination by utilizing model prediction. However, there remain unexplored problems about pseudo-label inaccuracy incurred by wrong category predictions on target domain, and distribution deviation caused by overfitting on source domain. In this paper, we propose a model-agnostic two-stage learning framework, which greatly reduces flawed model predictions using soft pseudo-label strategy and avoids overfitting on source domain with a curriculum learning strategy. Theoretically, it successfully decreases the combined risk in the upper bound of expected error on the target domain. At the first stage, we train a model with distribution alignment-based UDA method to obtain soft semantic label on target domain with rather high confidence. To avoid overfitting on source domain, at the second stage, we propose a curriculum learning strategy to adaptively control the weighting between losses from the two domains so that the focus of the training stage is gradually shifted from source distribution to target distribution with prediction confidence boosted on the target domain. Extensive experiments on two well-known benchmark datasets validate the universal effectiveness of our proposed framework on promoting the performance of the top-ranked UDA algorithms and demonstrate its consistent superior performance.
翻訳日:2021-12-06 15:03:47 公開日:2021-12-03
# リモートセンシング作業のための自己監督材料とテクスチャ表現学習

Self-Supervised Material and Texture Representation Learning for Remote Sensing Tasks ( http://arxiv.org/abs/2112.01715v1 )

ライセンス: Link先を確認
Peri Akiva, Matthew Purri, Matthew Leotta(参考訳) 自己教師付き学習は手動で注釈付きラベルを使わずに画像特徴表現を学習することを目的としている。 これはしばしば、下流タスクのより高速な収束と優れた性能に寄与する有用な初期ネットワーク重みを得るための前駆的なステップとして使われる。 自己監督はラベルを使わずに教師なし学習と教師なし学習のドメインギャップを減らせるが、効果的な伝達学習のためには、下流のタスクに強い帰納的バイアスを必要とする。 本研究では,従来の素材やテクスチャの手法にヒントを得た,MATTER(MATerial and TExture Representation Learning)という素材とテクスチャをベースとしたセルフスーパービジョン手法を提案する。 材料とテクスチャは、その触覚特性、色、特異性を含む任意の表面を効果的に記述することができる。 拡張により、素材とテクスチャの効果的な表現は、その素材とテクスチャに強く関連する他の意味クラスを記述できる。 MATTERは、変化しない領域にわたって時間的、空間的に整合したリモートセンシング画像を活用し、照明と視角の不変性を学習し、材料とテクスチャ表現の整合性を達成するメカニズムとして利用する。 本手法では, 教師なし, 微調整のセットアップにおいて最大24.22%および6.33%の性能向上が可能であり, 変更検出, 土地被覆分類, セマンティックセグメンテーションタスクにおいて最大76%の高速化が可能である。

Self-supervised learning aims to learn image feature representations without the usage of manually annotated labels. It is often used as a precursor step to obtain useful initial network weights which contribute to faster convergence and superior performance of downstream tasks. While self-supervision allows one to reduce the domain gap between supervised and unsupervised learning without the usage of labels, the self-supervised objective still requires a strong inductive bias to downstream tasks for effective transfer learning. In this work, we present our material and texture based self-supervision method named MATTER (MATerial and TExture Representation Learning), which is inspired by classical material and texture methods. Material and texture can effectively describe any surface, including its tactile properties, color, and specularity. By extension, effective representation of material and texture can describe other semantic classes strongly associated with said material and texture. MATTER leverages multi-temporal, spatially aligned remote sensing imagery over unchanged regions to learn invariance to illumination and viewing angle as a mechanism to achieve consistency of material and texture representation. We show that our self-supervision pre-training method allows for up to 24.22% and 6.33% performance increase in unsupervised and fine-tuned setups, and up to 76% faster convergence on change detection, land cover classification, and semantic segmentation tasks.
翻訳日:2021-12-06 15:01:39 公開日:2021-12-03
# (参考訳) 映像からの動的物体のクラス別再構成 [全文訳有]

Class-agnostic Reconstruction of Dynamic Objects from Videos ( http://arxiv.org/abs/2112.02091v1 )

ライセンス: CC BY 4.0
Zhongzheng Ren, Xiaoming Zhao, Alexander G. Schwing(参考訳) 動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。 以前の作業と比較して、私たちの問題設定はより現実的だが、3つの理由により難しい。 1) 閉塞やカメラの設定により,興味のある対象が完全には見えないかもしれないが,完全な形状を再構築することを目指している。 2) 剛体運動, 非剛体運動, 調音など, 異なる物体力学を扱うことを目的とする。 3) 1つの統一フレームワークで異なるカテゴリのオブジェクトを再構築することを目指している。 これらの課題に対処するため、我々は2つの新しいモジュールを開発した。 まず,時間的視覚的手がかりを集約した画素アライメントを持つ正準4次元暗黙関数を提案する。 第2に,オブジェクトのダイナミクスをキャプチャして,時間的伝播と集約をサポートする4次元変換モジュールを開発した。 合成RGBDビデオデータセットSAIL-VOS 3D,DeformingThings4D ++,および実世界のビデオデータ3DPWにおけるREDOの有効性を検討した。 redoは最先端のダイナミックリコンストラクション手法をわずかに上回っている。 アブレーション研究では、それぞれの発達した成分を検証する。

We introduce REDO, a class-agnostic framework to REconstruct the Dynamic Objects from RGBD or calibrated videos. Compared to prior work, our problem setting is more realistic yet more challenging for three reasons: 1) due to occlusion or camera settings an object of interest may never be entirely visible, but we aim to reconstruct the complete shape; 2) we aim to handle different object dynamics including rigid motion, non-rigid motion, and articulation; 3) we aim to reconstruct different categories of objects with one unified framework. To address these challenges, we develop two novel modules. First, we introduce a canonical 4D implicit function which is pixel-aligned with aggregated temporal visual cues. Second, we develop a 4D transformation module which captures object dynamics to support temporal propagation and aggregation. We study the efficacy of REDO in extensive experiments on synthetic RGBD video datasets SAIL-VOS 3D and DeformingThings4D++, and on real-world video data 3DPW. We find REDO outperforms state-of-the-art dynamic reconstruction methods by a margin. In ablation studies we validate each developed component.
翻訳日:2021-12-06 14:59:09 公開日:2021-12-03
# 足ロボットのナビゲーションにおける視覚と受入の結合

Coupling Vision and Proprioception for Navigation of Legged Robots ( http://arxiv.org/abs/2112.02094v1 )

ライセンス: Link先を確認
Zipeng Fu, Ashish Kumar, Ananye Agarwal, Haozhi Qi, Jitendra Malik, Deepak Pathak(参考訳) 我々は視覚と受容の相補的な強みを利用して、脚のあるロボットでポイントゴールナビゲーションを実現する。 脚付きシステムは車輪付きロボットよりも複雑な地形を横断することができるが、この能力を完全に活用するには、様々な地形における低レベルの移動ポリシーの歩行能力を認識するために、ナビゲーションシステムの高レベルパスプランナーが必要である。 そこで本研究では,歩行方針の安全な動作限界を推定し,不測の障害物や地盤の滑らかさや柔らかさなどの地形特性を視覚で見落とせるよう,固有フィードバックを用いて推定する。 ナビゲーションシステムは、オンボードカメラを使用して占有率マップと対応するコストマップを生成し、目標を達成する。 FMM(Fast Marching Method)プランナーがターゲットパスを生成する。 速度指令生成装置は、これを入力として、予期しない障害物及び地形決定速度制限の安全アドバイザーからの入力追加制約として、移動ポリシーの所望の速度を生成する。 車輪付きロボット(LoCoBot)のベースラインや,高レベル計画と低レベル制御に相反する他のベースラインと比較して,優れた性能を示す。 また,センサーと計算能力を備えた四足歩行ロボットに,我々のシステムを実環境に展開することも示す。 https://navigation-l ocomotion.github.io/ camera-ready

We exploit the complementary strengths of vision and proprioception to achieve point goal navigation in a legged robot. Legged systems are capable of traversing more complex terrain than wheeled robots, but to fully exploit this capability, we need the high-level path planner in the navigation system to be aware of the walking capabilities of the low-level locomotion policy on varying terrains. We achieve this by using proprioceptive feedback to estimate the safe operating limits of the walking policy, and to sense unexpected obstacles and terrain properties like smoothness or softness of the ground that may be missed by vision. The navigation system uses onboard cameras to generate an occupancy map and a corresponding cost map to reach the goal. The FMM (Fast Marching Method) planner then generates a target path. The velocity command generator takes this as input to generate the desired velocity for the locomotion policy using as input additional constraints, from the safety advisor, of unexpected obstacles and terrain determined speed limits. We show superior performance compared to wheeled robot (LoCoBot) baselines, and other baselines which have disjoint high-level planning and low-level control. We also show the real-world deployment of our system on a quadruped robot with onboard sensors and compute. Videos at https://navigation-l ocomotion.github.io/ camera-ready
翻訳日:2021-12-06 14:33:49 公開日:2021-12-03
# 教師なし領域適応のための階層的最適輸送

Hierarchical Optimal Transport for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2112.02073v1 )

ライセンス: Link先を確認
Mourad El Hamri and Youn\`es Bennani and Issam Falih and Hamid Ahaggach(参考訳) 本稿では,最適移動,学習確率測度,教師なし学習の概念を関連づけた教師なし領域適応のための新しい手法を提案する。 提案手法であるHOT-DAは、基底計量によって得られた幾何学的情報、ソースおよびターゲット領域におけるよりリッチな構造情報を利用する最適輸送の階層的な定式化に基づいている。 ラベル付きソースドメインの付加情報は、クラスラベルに従ってサンプルを構造にグループ化することで直感的に形成される。 未ラベル対象領域の隠れ構造を探索する一方で、スペクトルクラスタリングと等価であることが証明されたワッサーシュタインバリセンタによる確率測定の学習問題に還元される。 制御可能な複雑さを持つ玩具データセットと、2つの挑戦的な視覚適応データセットの実験は、最先端技術よりも提案されたアプローチの優位性を示している。

In this paper, we propose a novel approach for unsupervised domain adaptation, that relates notions of optimal transport, learning probability measures and unsupervised learning. The proposed approach, HOT-DA, is based on a hierarchical formulation of optimal transport, that leverages beyond the geometrical information captured by the ground metric, richer structural information in the source and target domains. The additional information in the labeled source domain is formed instinctively by grouping samples into structures according to their class labels. While exploring hidden structures in the unlabeled target domain is reduced to the problem of learning probability measures through Wasserstein barycenter, which we prove to be equivalent to spectral clustering. Experiments on a toy dataset with controllable complexity and two challenging visual adaptation datasets show the superiority of the proposed approach over the state-of-the-art.
翻訳日:2021-12-06 14:33:25 公開日:2021-12-03
# LMR-CBT:不整列マルチモーダルシーケンスからのマルチモーダル感情認識のためのCB変換器を用いた学習モダリティ融合表現

LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion Recognition from Unaligned Multimodal Sequences ( http://arxiv.org/abs/2112.01697v1 )

ライセンス: Link先を確認
Ziwang Fu, Feng Liu, Hanyang Wang, Siyuan Shen, Jiahao Zhang, Jiayin Qi, Xiangling Fu, Aimin Zhou(参考訳) マルチモーダルな感情認識において、モダリティ融合表現の学習と非整合型マルチモーダルシーケンスの処理は有意義かつ困難である。 既存のアプローチでは、双方向の注目またはメッセージハブを使用して、言語、視覚、オーディオのモダリティを融合する。 しかし、これらのアプローチは特徴を融合する際に情報冗長性を導入し、モダリティの相補性を考慮せずに非効率である。 本稿では,cb-transformer (lmr-cbt) を用いたモダリティ融合表現を学習する効率的なニューラルネットワークを提案する。 具体的には,まず3つのモダリティの特徴抽出を行い,各配列の局所構造を得る。 そこで我々は,異なるモーダルの相補的学習を可能にするクロスモーダルブロック(CB-Transformer)を設計し,主に局所時間学習,クロスモーダル特徴融合,グローバル自己注意表現に分割した。 さらに、融合した特徴を元の特徴で分割し、シーケンスの感情を分類する。 最後に,IEMOCAP,CMU-MOSI,CM U-MOSEIの3つの挑戦的データセットについて,単語整列実験を行った。 実験の結果,提案手法の両設定における優位性と効率性を示した。 主流手法と比較して,本手法は最小限のパラメータで最先端に到達する。

Learning modality-fused representations and processing unaligned multimodal sequences are meaningful and challenging in multimodal emotion recognition. Existing approaches use directional pairwise attention or a message hub to fuse language, visual, and audio modalities. However, those approaches introduce information redundancy when fusing features and are inefficient without considering the complementarity of modalities. In this paper, we propose an efficient neural network to learn modality-fused representations with CB-Transformer (LMR-CBT) for multimodal emotion recognition from unaligned multimodal sequences. Specifically, we first perform feature extraction for the three modalities respectively to obtain the local structure of the sequences. Then, we design a novel transformer with cross-modal blocks (CB-Transformer) that enables complementary learning of different modalities, mainly divided into local temporal learning,cross-modal feature fusion and global self-attention representations. In addition, we splice the fused features with the original features to classify the emotions of the sequences. Finally, we conduct word-aligned and unaligned experiments on three challenging datasets, IEMOCAP, CMU-MOSI, and CMU-MOSEI. The experimental results show the superiority and efficiency of our proposed method in both settings. Compared with the mainstream methods, our approach reaches the state-of-the-art with a minimum number of parameters.
翻訳日:2021-12-06 14:33:12 公開日:2021-12-03
# Mind Your Clever Neighbours:Adaptive Clustering Relation Modelingによる教師なし人物の再識別

Mind Your Clever Neighbours: Unsupervised Person Re-identification via Adaptive Clustering Relationship Modeling ( http://arxiv.org/abs/2112.01839v1 )

ライセンス: Link先を確認
Lianjie Jia and Chenyang Yu and Xiehao Ye and Tianyu Yan and Yinjie Lei and Pingping Zhang(参考訳) 教師なし人物再識別(Re-ID)は、教師付きRe-IDモデルのスケーラビリティ問題を解決する可能性から注目されている。 既存の教師なし手法の多くは、教師なしクラスタリングによって生成された擬似ラベルに基づいてネットワークをトレーニングする反復クラスタリング機構を採用している。 しかし、クラスタリングエラーは避けられない。 高品質な擬似ラベルを生成し,クラスタリングエラーの影響を軽減するために,教師なしのRe-IDのための新しいクラスタリング関係モデリングフレームワークを提案する。 具体的には、クラスタリングの前に、グラフ相関学習(gcl)モジュールに基づいて、ラベルなし画像間の関係を探索し、その洗練された特徴を用いて、高品質な擬似ラベルを生成する。 ネットワークをより効果的に訓練するために,選択的メモリバンク更新ポリシを備えた選択的コントラスト学習(SCL)手法を提案する。 本手法は,Market1501, DukeMTMC-reID, MSMT17データセットにおいて,最先端の教師なし手法よりもはるかに優れた結果を示した。 モデル再現のためのコードをリリースします。

Unsupervised person re-identification (Re-ID) attracts increasing attention due to its potential to resolve the scalability problem of supervised Re-ID models. Most existing unsupervised methods adopt an iterative clustering mechanism, where the network was trained based on pseudo labels generated by unsupervised clustering. However, clustering errors are inevitable. To generate high-quality pseudo-labels and mitigate the impact of clustering errors, we propose a novel clustering relationship modeling framework for unsupervised person Re-ID. Specifically, before clustering, the relation between unlabeled images is explored based on a graph correlation learning (GCL) module and the refined features are then used for clustering to generate high-quality pseudo-labels.Thus, GCL adaptively mines the relationship between samples in a mini-batch to reduce the impact of abnormal clustering when training. To train the network more effectively, we further propose a selective contrastive learning (SCL) method with a selective memory bank update policy. Extensive experiments demonstrate that our method shows much better results than most state-of-the-art unsupervised methods on Market1501, DukeMTMC-reID and MSMT17 datasets. We will release the code for model reproduction.
翻訳日:2021-12-06 14:32:48 公開日:2021-12-03
# データ前処理と後処理が長期文書要約に及ぼす影響

The Influence of Data Pre-processing and Post-processing on Long Document Summarization ( http://arxiv.org/abs/2112.01660v1 )

ライセンス: Link先を確認
Xinwei Du, Kailun Dong, Yuchen Zhang, Yongsheng Li, Ruei-Yu Tsay(参考訳) 長い文書要約は自然言語処理の分野で重要かつ困難なタスクである。 長い文書要約の優れたパフォーマンスは、モデルが人間の言語を十分に理解していることを明らかにする。 現在、ほとんどの研究は、高いROUGEスコアを達成するためにトランスフォーマーの注意機構を変更する方法に焦点を当てている。 データ前処理と後処理の研究は比較的少ない。 本稿では,2つの前処理法と後処理法を用いて,これらの手法が各種長文要約モデルに与える影響を分析する。

Long document summarization is an important and hard task in the field of natural language processing. A good performance of the long document summarization reveals the model has a decent understanding of the human language. Currently, most researches focus on how to modify the attention mechanism of the transformer to achieve a higher ROUGE score. The study of data pre-processing and post-processing are relatively few. In this paper, we use two pre-processing methods and a post-processing method and analyze the effect of these methods on various long document summarization models.
翻訳日:2021-12-06 14:32:27 公開日:2021-12-03
# カタルーニャ語CLUB

The Catalan Language CLUB ( http://arxiv.org/abs/2112.01894v1 )

ライセンス: Link先を確認
Carlos Rodriguez-Penagos, Carme Armentano-Oller, Marta Villegas, Maite Melero, Aitor Gonzalez, Ona de Gibert Bonet, and Casimiro Carrino Pio(参考訳) カタルーニャ語理解ベンチマーク(CLUB)は、言語モデルの正確な評価を可能にするさまざまなNLUタスクを表すさまざまなデータセットを包含している。 AINAとPlanTLは、人工知能時代のカタルーニャ語を強化するための2つの公的資金提供イニシアチブの一部である。

The Catalan Language Understanding Benchmark (CLUB) encompasses various datasets representative of different NLU tasks that enable accurate evaluations of language models, following the General Language Understanding Evaluation (GLUE) example. It is part of AINA and PlanTL, two public funding initiatives to empower the Catalan language in the Artificial Intelligence era.
翻訳日:2021-12-06 14:31:12 公開日:2021-12-03
# transzero:ゼロショット学習のための属性誘導トランスフォーマー

TransZero: Attribute-guided Transformer for Zero-Shot Learning ( http://arxiv.org/abs/2112.01683v1 )

ライセンス: Link先を確認
Shiming Chen, Ziming Hong, Yang Liu, Guo-Sen Xie, Baigui Sun, Hao Li, Qinmu Peng, Ke Lu, Xinge You(参考訳) ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラスを認識することを目的としている。 意味的知識は、異なるクラス間で共有される属性記述から学習され、識別的領域の特徴を表すオブジェクト属性をローカライズし、視覚的・セマンティックな相互作用を可能にする。 注意に基づくモデルの中には、そのような領域の特徴を単一の画像で学習しようとするものもあるが、視覚特徴の伝達可能性と識別属性の局在は通常無視される。 本稿では,属性誘導型トランスフォーマーネットワークであるTransZeroを提案し,視覚的特徴を洗練し,ZSLにおける識別的視覚埋め込み表現のための属性ローカライゼーションを学習する。 具体的には、transzeroは、imagenetとzslベンチマーク間のクロスデータセットバイアスを軽減するために機能拡張エンコーダを採用し、領域特徴間の絡み合った相対幾何学関係を低減し、視覚特徴の転送性を向上させる。 局所性が示唆される視覚特徴を学ぶために、transzeroは視覚意味的デコーダを使用して、セマンティック属性情報の指導のもと、所定の画像内の各属性に最も関連のある画像領域をローカライズする。 次に、局所性提示された視覚特徴と意味ベクトルを用いて、視覚-意味埋め込みネットワークにおいて効果的な視覚-意味相互作用を行う。 広範な実験により、transzeroは3つのzslベンチマークで新しい状態を達成することが示されている。 コードは \url{https://github.com/s himing-chen/transzer o} で入手できる。

Zero-shot learning (ZSL) aims to recognize novel classes by transferring semantic knowledge from seen classes to unseen ones. Semantic knowledge is learned from attribute descriptions shared between different classes, which act as strong priors for localizing object attributes that represent discriminative region features, enabling significant visual-semantic interaction. Although some attention-based models have attempted to learn such region features in a single image, the transferability and discriminative attribute localization of visual features are typically neglected. In this paper, we propose an attribute-guided Transformer network, termed TransZero, to refine visual features and learn attribute localization for discriminative visual embedding representations in ZSL. Specifically, TransZero takes a feature augmentation encoder to alleviate the cross-dataset bias between ImageNet and ZSL benchmarks, and improves the transferability of visual features by reducing the entangled relative geometry relationships among region features. To learn locality-augmented visual features, TransZero employs a visual-semantic decoder to localize the image regions most relevant to each attribute in a given image, under the guidance of semantic attribute information. Then, the locality-augmented visual features and semantic vectors are used to conduct effective visual-semantic interaction in a visual-semantic embedding network. Extensive experiments show that TransZero achieves the new state of the art on three ZSL benchmarks. The codes are available at: \url{https://github.com/s himing-chen/TransZer o}.
翻訳日:2021-12-06 14:31:07 公開日:2021-12-03
# トランスフォーマー付き線形代数

Linear algebra with transformers ( http://arxiv.org/abs/2112.01898v1 )

ライセンス: Link先を確認
Fran\c{c}ois Charton(参考訳) 変換器の数学への応用のほとんどは、積分から定理証明まで、記号計算に重点を置いている。 本稿では,数値計算を高精度に行うために,変圧器を訓練できることを示す。 線形代数の問題を考察する:行列変換、加算、乗法、固有値とベクトル、特異値分解、反転。 ランダム行列のデータセット上で小さなトランスフォーマー(最大6層)をトレーニングし、すべての問題に対して高い精度(90%以上)を達成する。 また、トレーニングされたモデルはトレーニング分布から一般化することができ、より多様なデータセット(特に非独立で同一の分散係数を持つ行列からトレーニングすることで、ドメイン外の精度を大幅に向上できることを示す。 最後に,より大規模な問題を解決するために,モデルの再トレーニングに少数の学習を活用できることを実証する。

Most applications of transformers to mathematics, from integration to theorem proving, focus on symbolic computation. In this paper, we show that transformers can be trained to perform numerical calculations with high accuracy. We consider problems of linear algebra: matrix transposition, addition, multiplication, eigenvalues and vectors, singular value decomposition, and inversion. Training small transformers (up to six layers) over datasets of random matrices, we achieve high accuracies (over 90%) on all problems. We also show that trained models can generalize out of their training distribution, and that out-of-domain accuracy can be greatly improved by working from more diverse datasets (in particular, by training from matrices with non-independent and identically distributed coefficients). Finally, we show that few-shot learning can be leveraged to re-train models to solve larger problems.
翻訳日:2021-12-06 14:30:24 公開日:2021-12-03
# MetaQA:マルチスキル質問応答のためのエキスパートエージェントの組み合わせ

MetaQA: Combining Expert Agents for Multi-Skill Question Answering ( http://arxiv.org/abs/2112.01922v1 )

ライセンス: Link先を確認
Haritz Puerto, G\"ozde G\"ul \c{S}ahin, Iryna Gurevych(参考訳) 質問応答(qa)データセットとモデルが最近急増したことにより、複数のデータセットでモデルをトレーニングするか、複数のモデルを組み合わせることによって、複数のドメインとフォーマットをまたいだモデルの一般化への関心が高まっている。 マルチデータセットモデルの有望な結果にもかかわらず、いくつかのドメインやQAフォーマットは特定のアーキテクチャを必要とする可能性があるため、これらのモデルの適応性は制限される。 さらに、モデルを組み合わせるための現在のアプローチは、質問応答互換性のような手がかりを無視している。 本研究では,質問,回答予測,回答予測信頼度スコアを考慮し,解答候補の中から最良の解答を選択する,新しい,柔軟な,学習効率の高いアーキテクチャと専門家エージェントを組み合わせることを提案する。 定量的で質的な実験を通して 我々のモデルは i) ドメイン内シナリオとドメイン外シナリオの両方において、従来のマルチエージェントおよびマルチデータセットアプローチを上回るエージェント間のコラボレーションを作成する。 二 訓練に極めてデータ効率が良いこと、及び iii) 任意のQAフォーマットに適合することができる。

The recent explosion of question answering (QA) datasets and models has increased the interest in the generalization of models across multiple domains and formats by either training models on multiple datasets or by combining multiple models. We argue that despite the promising results of multi-dataset models, some domains or QA formats may require specific architectures, and thus the adaptability of these models might be limited. In addition, current approaches for combining models disregard cues such as question-answer compatibility. In this work, we propose to combine expert agents with a novel, flexible, and training-efficient architecture that considers questions, answer predictions, and answer-prediction confidence scores to select the best answer among a list of answer candidates. Through quantitative and qualitative experiments we show that our model i) creates a collaboration between agents that outperforms previous multi-agent and multi-dataset approaches in both in-domain and out-of-domain scenarios, ii) is extremely data-efficient to train, and iii) can be adapted to any QA format.
翻訳日:2021-12-06 14:30:08 公開日:2021-12-03
# (参考訳) クラウドソースデータを用いた緊急時早期インシデント検出のための実践者中心アプローチ [全文訳有]

Practitioner-Centric Approach for Early Incident Detection Using Crowdsourced Data for Emergency Services ( http://arxiv.org/abs/2112.02012v1 )

ライセンス: CC BY 4.0
Yasas Senarath, Ayan Mukhopadhyay, Sayyed Mohsen Vazirizade, Hemant Purohit, Saideep Nannapaneni, Abhishek Dubey(参考訳) 緊急対応はインシデント報告の時期に大きく依存する。 残念ながら、インシデントレポートを受信する従来のアプローチ(例えば、アメリカでは911をコールする)には、時間的遅延がある。 Wazeのようなクラウドソーシングプラットフォームは、インシデントを早期に特定する機会を提供する。 しかし, クラウドソースデータストリームからのインシデント検出は, ノイズや不確実性などの問題により困難である。 さらに、検出精度の最適化が簡単であれば、推論の空間的時間的局在を損なう可能性があるため、現実のデプロイメントでは実現不可能である。 本稿では,緊急対応管理を事例スタディとして,クラウドソーシングデータを用いた実践者中心インシデント検出のための新しい問題解決手法を提案する。 提案手法であるCROME (Crowdsourced Multi-jective Event Detection) は、事故分類のパフォーマンス指標(例えば、F1スコア)とモデル実践者の要求(例えば、事故検出の半径1km)の関係を定量化する。 まず,緊急時早期発見のための畳み込みニューラルネットワーク(cnn)アーキテクチャにおいて,クラウドソーシングされたレポート,地表面履歴データ,および交通や気象などの関連要因を併用する方法を示す。 次に,Paretoの最適化に基づく手法を用いて,CNNの出力を実践者中心パラメータと組み合わせて最適化し,検出精度と空間時間的局在のバランスをとる。 最後に,wazeのクラウドソースデータと米国ナッシュビルの交通事故レポートを用いて,このアプローチの適用性を示す。 提案手法は,実世界の展開とユーザビリティを最適化しながら,インシデント検出における既存手法よりも優れていることを示す。

Emergency response is highly dependent on the time of incident reporting. Unfortunately, the traditional approach to receiving incident reports (e.g., calling 911 in the USA) has time delays. Crowdsourcing platforms such as Waze provide an opportunity for early identification of incidents. However, detecting incidents from crowdsourced data streams is difficult due to the challenges of noise and uncertainty associated with such data. Further, simply optimizing over detection accuracy can compromise spatial-temporal localization of the inference, thereby making such approaches infeasible for real-world deployment. This paper presents a novel problem formulation and solution approach for practitioner-centere d incident detection using crowdsourced data by using emergency response management as a case-study. The proposed approach CROME (Crowdsourced Multi-objective Event Detection) quantifies the relationship between the performance metrics of incident classification (e.g., F1 score) and the requirements of model practitioners (e.g., 1 km. radius for incident detection). First, we show how crowdsourced reports, ground-truth historical data, and other relevant determinants such as traffic and weather can be used together in a Convolutional Neural Network (CNN) architecture for early detection of emergency incidents. Then, we use a Pareto optimization-based approach to optimize the output of the CNN in tandem with practitioner-centric parameters to balance detection accuracy and spatial-temporal localization. Finally, we demonstrate the applicability of this approach using crowdsourced data from Waze and traffic accident reports from Nashville, TN, USA. Our experiments demonstrate that the proposed approach outperforms existing approaches in incident detection while simultaneously optimizing the needs for real-world deployment and usability.
翻訳日:2021-12-06 14:29:04 公開日:2021-12-03
# 削減、再利用、リサイクル:機械学習研究におけるデータセットの寿命

Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research ( http://arxiv.org/abs/2112.01716v1 )

ライセンス: Link先を確認
Bernard Koch, Emily Denton, Alex Hanna, Jacob G. Foster(参考訳) ベンチマークデータセットは、機械学習研究の組織において中心的な役割を果たす。 彼らは共有研究問題に関する研究者のコーディネートを行い、共通の目標に向けた進歩の尺度として機能する。 この分野におけるベンチマークプラクティスの基礎的な役割にもかかわらず、機械学習サブコミュニティ内、あるいはその間、ベンチマークデータセットの使用と再利用のダイナミクスには比較的注意が払われていない。 この論文では、これらのダイナミクスを掘り下げます。 2015年から2020年にかけて,機械学習サブコミュニティ間でデータセットの利用パターンの違いについて検討した。 タスクコミュニティ内のデータセットに対する濃度の増加,タスクからのデータセットの大幅な採用,少数のエリート機関内に研究者が導入したデータセットへの集中,などが確認できた。 我々の結果は、科学評価、AI倫理、および分野内の株式・アクセスに影響を及ぼす。

Benchmark datasets play a central role in the organization of machine learning research. They coordinate researchers around shared research problems and serve as a measure of progress towards shared goals. Despite the foundational role of benchmarking practices in this field, relatively little attention has been paid to the dynamics of benchmark dataset use and reuse, within or across machine learning subcommunities. In this paper, we dig into these dynamics. We study how dataset usage patterns differ across machine learning subcommunities and across time from 2015-2020. We find increasing concentration on fewer and fewer datasets within task communities, significant adoption of datasets from other tasks, and concentration across the field on datasets that have been introduced by researchers situated within a small number of elite institutions. Our results have implications for scientific evaluation, AI ethics, and equity/access within the field.
翻訳日:2021-12-06 14:18:45 公開日:2021-12-03
# 修辞的役割による法的文書のセマンティックセグメンテーション

Semantic Segmentation of Legal Documents via Rhetorical Roles ( http://arxiv.org/abs/2112.01836v1 )

ライセンス: Link先を確認
Vijit Malik and Rishabh Sanjay and Shouvik Kumar Guha and Shubham Kumar Nigam and Angshuman Hazarika and Arnab Bhattacharya and Ashutosh Modi(参考訳) 法律文書は非構造化されており、法的な用語を用いており、かなり長いため、従来のテキスト処理技術による自動処理が困難である。 法的文書処理システムは、文書を意味的に一貫性のある情報単位に分割できれば、かなりの恩恵を受けるだろう。 本稿では,法的文書を意味的に一貫性のある単位(事実,議論,法令,問題,前例,判決,比率)に区分する修辞的役割(RR)システムを提案する。 法律の専門家の助けを借りて,13のきめ細かな修辞的役割ラベルのセットを提案し,提案されたrrに注釈を付した新しい法文書のコーパスを作成する。 文書を修辞的役割単位に分割するシステムを開発した。 特に,法的文書をセグメント化するための補助的タスクとして,文書の修辞的役割ラベルシフトを伴うマルチタスク学習に基づくディープラーニングモデルを開発する。 文書中の修辞的役割を予測するための様々な深層学習モデルを用いて広範囲に実験を行い、提案モデルは既存のモデルよりも優れた性能を示す。 さらに, 訴訟の判断にRRを適用し, RRを用いた場合, 変圧器モデルと比較して予測が向上することを示す。

Legal documents are unstructured, use legal jargon, and have considerable length, making it difficult to process automatically via conventional text processing techniques. A legal document processing system would benefit substantially if the documents could be semantically segmented into coherent units of information. This paper proposes a Rhetorical Roles (RR) system for segmenting a legal document into semantically coherent units: facts, arguments, statute, issue, precedent, ruling, and ratio. With the help of legal experts, we propose a set of 13 fine-grained rhetorical role labels and create a new corpus of legal documents annotated with the proposed RR. We develop a system for segmenting a document into rhetorical role units. In particular, we develop a multitask learning-based deep learning model with document rhetorical role label shift as an auxiliary task for segmenting a legal document. We experiment extensively with various deep learning models for predicting rhetorical roles in a document, and the proposed model shows superior performance over the existing models. Further, we apply RR for predicting the judgment of legal cases and show that the use of RR enhances the prediction compared to the transformer-based models.
翻訳日:2021-12-06 14:18:33 公開日:2021-12-03
# 感情の形状:感情シフトによる会話におけるマルチモーダル感情認識

Shapes of Emotions: Multimodal Emotion Recognition in Conversations via Emotion Shifts ( http://arxiv.org/abs/2112.01938v1 )

ライセンス: Link先を確認
Harsh Agarwal and Keshav Bansal and Abhinav Joshi and Ashutosh Modi(参考訳) 会話における感情認識(ERC)は重要かつ活発な研究課題である。 最近の研究は、複数のモダリティ(テキスト、オーディオ、ビデオなど)をERCタスクに使用することの利点を示している。 会話では、外部からの刺激が変化を起こさない限り、参加者は特定の感情状態を維持する傾向がある。 会話には連続したebbと感情の流れがあります。 この観察から着想を得て,マルチモーダルERCモデルを提案し,感情シフト成分で拡張する。 提案した感情シフトコンポーネントはモジュール化されており、感情認識を改善するために既存のマルチモーダルERCモデルに追加することができる。 実験の結果,感情シフト信号が組み込まれていることにより,既存のマルチモーダルモデルよりも優れており,MOSEIおよびIEMOCAPデータセット上での最先端の性能を示すことがわかった。

Emotion Recognition in Conversations (ERC) is an important and active research problem. Recent work has shown the benefits of using multiple modalities (e.g., text, audio, and video) for the ERC task. In a conversation, participants tend to maintain a particular emotional state unless some external stimuli evokes a change. There is a continuous ebb and flow of emotions in a conversation. Inspired by this observation, we propose a multimodal ERC model and augment it with an emotion-shift component. The proposed emotion-shift component is modular and can be added to any existing multimodal ERC model (with a few modifications), to improve emotion recognition. We experiment with different variants of the model, and results show that the inclusion of emotion shift signal helps the model to outperform existing multimodal models for ERC and hence showing the state-of-the-art performance on MOSEI and IEMOCAP datasets.
翻訳日:2021-12-06 14:18:13 公開日:2021-12-03
# ユニークな知識源としての画像間翻訳

Image-to-image Translation as a Unique Source of Knowledge ( http://arxiv.org/abs/2112.01873v1 )

ライセンス: Link先を確認
Alejandro D. Mousist(参考訳) 画像から画像への変換(i2i)は、ある領域から別の領域へデータを翻訳する確立された方法であるが、sar/光学衛星画像などの類似した領域を扱う場合、対象領域内の翻訳画像の使い勝手や、原産地ドメインのどの程度が対象領域に翻訳されるかはまだ明確ではない。 本稿は、光学領域からSAR領域へのラベル付きデータセットの変換を、最先端から異なるI2Iアルゴリズムで実行し、目的地領域の転送特徴から学習し、後から元のデータセットの転送量を評価することで、この問題に対処する。 これに加えて、スタックは異なるi2i翻訳から学んだ知識を結合し、単一モデルに対して評価する方法として提案されている。

Image-to-image (I2I) translation is an established way of translating data from one domain to another but the usability of the translated images in the target domain when working with such dissimilar domains as the SAR/optical satellite imagery ones and how much of the origin domain is translated to the target domain is still not clear enough. This article address this by performing translations of labelled datasets from the optical domain to the SAR domain with different I2I algorithms from the state-of-the-art, learning from transferred features in the destination domain and evaluating later how much from the original dataset was transferred. Added to this, stacking is proposed as a way of combining the knowledge learned from the different I2I translations and evaluated against single models.
翻訳日:2021-12-06 14:17:58 公開日:2021-12-03
# 新しい一方向変圧器による物体相互作用の効率的な2段階検出

Efficient Two-Stage Detection of Human-Object Interactions with a Novel Unary-Pairwise Transformer ( http://arxiv.org/abs/2112.01838v1 )

ライセンス: Link先を確認
Frederic Z. Zhang, Dylan Campbell and Stephen Gould(参考訳) 視覚データのためのトランスモデルの最近の進歩は、認識および検出タスクの大幅な改善をもたらした。 特に、領域提案の代わりに学習可能なクエリを使用することで、検出変換器(DETR)によって先導された新しい1段階検出モデルが生まれている。 この1段階のアプローチのバリエーションは、人間と物体の相互作用(HOI)の検出を支配した。 しかし、そのような一段式HOI検出器の成功は、変圧器の表現力によるところが大きい。 同じ変圧器を装着すると、2段の変圧器の方が性能が高く、メモリ効率が良くなり、訓練時間もほんの少しかかることがわかった。 本研究では,HOIのユニタリとペアワイズ表現を利用する2段検出器であるUnary-Pairwise Transformerを提案する。 変圧器ネットワークの一元的・一対的な部分は特殊化しており、前者は正の例の点数を優先的に増加させ、後者は負の例の点数を減少させる。 本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。 推論時に、ResNet50のモデルは1つのGPU上でのリアルタイムパフォーマンスにアプローチする。

Recent developments in transformer models for visual data have led to significant improvements in recognition and detection tasks. In particular, using learnable queries in place of region proposals has given rise to a new class of one-stage detection models, spearheaded by the Detection Transformer (DETR). Variations on this one-stage approach have since dominated human-object interaction (HOI) detection. However, the success of such one-stage HOI detectors can largely be attributed to the representation power of transformers. We discovered that when equipped with the same transformer, their two-stage counterparts can be more performant and memory-efficient, while taking a fraction of the time to train. In this work, we propose the Unary-Pairwise Transformer, a two-stage detector that exploits unary and pairwise representations for HOIs. We observe that the unary and pairwise parts of our transformer network specialise, with the former preferentially increasing the scores of positive examples and the latter decreasing the scores of negative examples. We evaluate our method on the HICO-DET and V-COCO datasets, and significantly outperform state-of-the-art approaches. At inference time, our model with ResNet50 approaches real-time performance on a single GPU.
翻訳日:2021-12-06 14:17:28 公開日:2021-12-03
# Recursive Label Calibrationによるデータフリーニューラルネットワーク探索

Data-Free Neural Architecture Search via Recursive Label Calibration ( http://arxiv.org/abs/2112.02086v1 )

ライセンス: Link先を確認
Zechun Liu and Zhiqiang Shen and Yun Long and Eric Xing and Kwang-Ting Cheng and Chas Leichner(参考訳) 本稿では,事前学習モデルのみを用いたニューラルネットワーク探索(NAS)の実現可能性を検討することを目的とする。 これは、現実世界のシナリオにおいて、プライバシー保護やバイアス回避などの重要な状況です。 そこで本研究では,事前学習した深層ニューラルネットワークから知識を回収し,有用データを合成することから始める。 次に、合成データとその予測ソフトラベルを用いて、ニューラルネットワーク探索を誘導する。 NASタスクには、十分なセマンティクス、多様性、および自然画像とのドメインギャップを最小限に抑えた合成データ(画像領域を対象とする)が必要である。 意味論では,より有意義な出力を生成するために再帰的ラベル校正を提案する。 多様性のために,より多様で意味に富んだ合成データを生成する地域更新戦略を提案する。 最小限のドメイン間隙では、入力と機能レベルの正規化を使って、潜在空間における元のデータ分布を模倣します。 我々は提案するフレームワークをDARTS, ProxylessNAS, SPOSの3つの一般的なNASアルゴリズムでインスタンス化する。 意外なことに、我々の合成データを用いて探索したアーキテクチャは、元のデータから探索したアーキテクチャに匹敵する、あるいはそれ以上の精度を達成し、合成方法がうまく設計されている場合、NASは原データや自然データへのアクセスを必要とせずに効果的に行うことができるという結論を導出した。 私たちのコードは公開されます。

This paper aims to explore the feasibility of neural architecture search (NAS) given only a pre-trained model without using any original training data. This is an important circumstance for privacy protection, bias avoidance, etc., in real-world scenarios. To achieve this, we start by synthesizing usable data through recovering the knowledge from a pre-trained deep neural network. Then we use the synthesized data and their predicted soft-labels to guide neural architecture search. We identify that the NAS task requires the synthesized data (we target at image domain here) with enough semantics, diversity, and a minimal domain gap from the natural images. For semantics, we propose recursive label calibration to produce more informative outputs. For diversity, we propose a regional update strategy to generate more diverse and semantically-enriche d synthetic data. For minimal domain gap, we use input and feature-level regularization to mimic the original data distribution in latent space. We instantiate our proposed framework with three popular NAS algorithms: DARTS, ProxylessNAS and SPOS. Surprisingly, our results demonstrate that the architectures discovered by searching with our synthetic data achieve accuracy that is comparable to, or even higher than, architectures discovered by searching from the original ones, for the first time, deriving the conclusion that NAS can be done effectively with no need of access to the original or called natural data if the synthesis method is well designed. Our code will be publicly available.
翻訳日:2021-12-06 14:16:58 公開日:2021-12-03
# (参考訳) ソースフリーの教師なしグラフドメイン適応 [全文訳有]

Source Free Unsupervised Graph Domain Adaptation ( http://arxiv.org/abs/2112.00955v2 )

ライセンス: CC BY 4.0
Haitao Mao, Lun Du, Yujia Zheng, Qiang Fu, Zelin Li, Xu Chen, Shi Han, Dongmei Zhang(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類が不可欠であるグラフ構造データを用いたさまざまなタスクにおいて,大きな成功を収めている。 Unsupervised Graph Domain Adaptation (UGDA) はノード分類のラベル付けコストを削減するための実用的価値を示している。 ラベル付きグラフ(すなわち、ソースドメイン)からの知識を活用して、ラベルなしグラフ(すなわち、ターゲットドメイン)上の同じタスクに取り組む。 既存のUGDAメソッドの多くは、ソースドメインのラベル付きグラフに大きく依存している。 これらはソースドメインのラベルを監督信号として使用し、ソースグラフとターゲットグラフの両方で共同でトレーニングされる。 しかし、現実のシナリオでは、ソースグラフは利用不可能またはプライバシの問題のためにアクセス不能である。 そこで我々は,Source Free Unsupervised Graph Domain Adaptation (SFUGDA) という新しいシナリオを提案する。 このシナリオでは、ソースドメインから活用できる唯一の情報は、ソースグラフとそのラベルに触れることなく、十分に訓練されたソースモデルです。 その結果、既存のUGDAメソッドはもはや実現不可能となった。 この実践シナリオにおける非自明な適応問題に対処するために、ターゲットグラフ上の構造的近接性の一貫性を保ちながら、ソースモデルの識別能力を完全に活用する、ドメイン適応のためのモデル非依存アルゴリズムを提案する。 提案手法の有効性を理論的および実証的に証明する。 4つのクロスドメインタスクの実験結果は、マクロf1スコアが0.17まで一貫した改善を示した。

Graph Neural Networks (GNNs) have achieved great success on a variety of tasks with graph-structural data, among which node classification is an essential one. Unsupervised Graph Domain Adaptation (UGDA) shows its practical value of reducing the labeling cost for node classification. It leverages knowledge from a labeled graph (i.e., source domain) to tackle the same task on another unlabeled graph (i.e., target domain). Most existing UGDA methods heavily rely on the labeled graph in the source domain. They utilize labels from the source domain as the supervision signal and are jointly trained on both the source graph and the target graph. However, in some real-world scenarios, the source graph is inaccessible because of either unavailability or privacy issues. Therefore, we propose a novel scenario named Source Free Unsupervised Graph Domain Adaptation (SFUGDA). In this scenario, the only information we can leverage from the source domain is the well-trained source model, without any exposure to the source graph and its labels. As a result, existing UGDA methods are not feasible anymore. To address the non-trivial adaptation challenges in this practical scenario, we propose a model-agnostic algorithm for domain adaptation to fully exploit the discriminative ability of the source model while preserving the consistency of structural proximity on the target graph. We prove the effectiveness of the proposed algorithm both theoretically and empirically. The experimental results on four cross-domain tasks show consistent improvements of the Macro-F1 score up to 0.17.
翻訳日:2021-12-06 14:14:59 公開日:2021-12-03
# (参考訳) 強化学習を用いた部分観測可能環境の快適性評価 [全文訳有]

Personal Comfort Estimation in Partial Observable Environment using Reinforcement Learning ( http://arxiv.org/abs/2112.00971v2 )

ライセンス: CC BY 4.0
Shashi Suman, Ali Etemad, Francois Rivest(参考訳) スマートホームで使用される技術は、家庭環境でユーザに利便性を提供するために、フィードバックからユーザの好みを学習するために改善されている。 ほとんどのスマートホームは、年齢、性別、場所の異なる人々を含む住民のプールが一般的に失敗するユーザーの熱的嗜好を表す均一なモデルを学ぶ。 ユーザがそれぞれ異なる熱感を持つことは、スマートホームにとって、他の人のポリシーを忘れずに、各居住者のパーソナライズされた好みを学ぶための課題となる。 単一の最適なポリシーを持つスマートホームは、異なる好みのユーザーが家庭に統合された場合、快適性を提供しない可能性がある。 本稿では,ベイズ強化学習アルゴリズムであるPOSHSを提案する。このアルゴリズムは,その熱的嗜好を利用して,その部分観測可能な環境における現在の占有状態を近似し,新しい占有者か,あるいは以前に観測された利用者のプールに属するかを決定する。 次に, POSHSアルゴリズムとLSTMに基づくアルゴリズムを比較し, 利用者の現在の状態を学習し, 推定するとともに, 選好設定に必要な時間ステップを削減するために最適な行動を取る。 これらの実験は,階層的強化学習に基づいて,最大5個のシミュレーション人体モデルを用いて実施する。 その結果, POSHSは温度と湿度の嗜好から現在のユーザ状態を近似することができ, スマートホームの存在下での人体モデルによる最適な温度と湿度の設定に必要な時間ステップを削減できることがわかった。

The technology used in smart homes have improved to learn the user preferences from feedbacks in order to provide convenience to the user in the home environment. Most smart homes learn a uniform model to represent the thermal preference of user which generally fails when the pool of occupants includes people having different age, gender, and location. Having different thermal sensation for each user poses a challenge for the smart homes to learn a personalized preference for each occupant without forgetting the policy of others. A smart home with single optimal policy may fail to provide comfort when a new user with different preference is integrated in the home. In this paper, we propose POSHS, a Bayesian Reinforcement learning algorithm that can approximate the current occupant state in a partial observable environment using its thermal preference and then decide if its a new occupant or belongs to the pool of previously observed users. We then compare POSHS algorithm with an LSTM based algorithm to learn and estimate the current state of the occupant while also taking optimal actions to reduce the timesteps required to set the preferences. We perform these experiments with upto 5 simulated human models each based on hierarchical reinforcement learning. The results show that POSHS can approximate the current user state just from its temperature and humidity preference and also reduce the number of time-steps required to set optimal temperature and humidity by the human model in the presence of the smart home.
翻訳日:2021-12-06 14:02:30 公開日:2021-12-03
# (参考訳) ニューラルネットワークモデルを用いたforex取引変動予測 [全文訳有]

Forex Trading Volatility Prediction using Neural Network Models ( http://arxiv.org/abs/2112.01166v2 )

ライセンス: CC BY 4.0
Shujian Liao, Jian Chen and Hao Ni(参考訳) 本稿では,深層学習技術を用いたForex通貨対の将来変動予測の問題について検討する。 日内ボラティリティの実証的パターンの指導により,深層学習ネットワークの構築方法を段階的に示す。 計算結果から,多値ペアの入力によるマルチスケールLong-Term Memory(LSTM)モデルは,従来のベースライン,すなわち自己回帰モデルとGARCHモデルと,その他のディープラーニングモデルと比較して一貫して最先端の精度を達成していることがわかった。

In this paper, we investigate the problem of predicting the future volatility of Forex currency pairs using the deep learning techniques. We show step-by-step how to construct the deep-learning network by the guidance of the empirical patterns of the intra-day volatility. The numerical results show that the multiscale Long Short-Term Memory (LSTM) model with the input of multi-currency pairs consistently achieves the state-of-the-art accuracy compared with both the conventional baselines, i.e. autoregressive and GARCH model, and the other deep learning models.
翻訳日:2021-12-06 13:43:03 公開日:2021-12-03
# PoseKernelLifter:音を利用した3次元人間の空間リフティング

PoseKernelLifter: Metric Lifting of 3D Human Pose using Sound ( http://arxiv.org/abs/2112.00216v2 )

ライセンス: Link先を確認
Zhijian Yang, Xiaoran Fan, Volkan Isler, Hyun Soo Park(参考訳) 単一視点画像から計量スケールの人物の3次元ポーズを再構築することは幾何学的に不適切な問題である。 例えば、ある人物とカメラの正確な距離を、追加のシーン仮定(例えば、既知の高さ)なしでは、単一のビューイメージから測定することはできない。 既存の学習ベースのアプローチは、3Dのポーズを大規模に再構築することでこの問題を回避する。 しかし、仮想テレプレゼンス、ロボティクス、拡張現実など、計量スケールの再構築を必要とする多くの応用がある。 本稿では,画像とともに記録された音声信号を用いて,人物の3Dポーズを再現するための補完情報を提供する。 重要な洞察は、音声信号が3d空間を横切ると、身体との相互作用が身体のポーズに関するメトリック情報を提供するということである。 この知見に基づいて,身体ポーズによって誘発される音声信号のインパルス応答であるポーズカーネルと呼ばれる時間不変な伝達関数を導入する。 ポーズカーネルの主な特性は、(1)エンベロープが3Dポーズと高度に相関し、(2)時刻応答が到着時刻に対応し、マイクへの距離を示すこと、(3)シーンの幾何学的構成の変化に不変であることである。 そのため、見当たらない場面に容易に一般化できる。 音声と視覚信号を融合して3dポーズをメートル法スケールで再構築する多段3d cnnを設計した。 我々は,パラメトリックメッシュ回帰や深度回帰といった最先端のリフト手法では不可能な,実世界のシーンで正確なメートル法再構成が可能であることを示す。

Reconstructing the 3D pose of a person in metric scale from a single view image is a geometrically ill-posed problem. For example, we can not measure the exact distance of a person to the camera from a single view image without additional scene assumptions (e.g., known height). Existing learning based approaches circumvent this issue by reconstructing the 3D pose up to scale. However, there are many applications such as virtual telepresence, robotics, and augmented reality that require metric scale reconstruction. In this paper, we show that audio signals recorded along with an image, provide complementary information to reconstruct the metric 3D pose of the person. The key insight is that as the audio signals traverse across the 3D space, their interactions with the body provide metric information about the body's pose. Based on this insight, we introduce a time-invariant transfer function called pose kernel -- the impulse response of audio signals induced by the body pose. The main properties of the pose kernel are that (1) its envelope highly correlates with 3D pose, (2) the time response corresponds to arrival time, indicating the metric distance to the microphone, and (3) it is invariant to changes in the scene geometry configurations. Therefore, it is readily generalizable to unseen scenes. We design a multi-stage 3D CNN that fuses audio and visual signals and learns to reconstruct 3D pose in a metric scale. We show that our multi-modal method produces accurate metric reconstruction in real world scenes, which is not possible with state-of-the-art lifting approaches including parametric mesh regression and depth regression.
翻訳日:2021-12-06 13:28:51 公開日:2021-12-03
# (参考訳) 生成モデルを用いたロバスト強化学習のサンプル複雑性 [全文訳有]

Sample Complexity of Robust Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2112.01506v2 )

ライセンス: CC BY-SA 4.0
Kishan Panaganti and Dileep Kalathil(参考訳) Robust Markov Decision Process (RMDP)フレームワークは、シミュレータモデルと現実世界の設定のミスマッチによるパラメータの不確実性に対して堅牢な制御ポリシーの設計に焦点を当てている。 RMDP問題は通常、最大ミン問題として定式化され、その目的は、名目モデルの周りにある不確実性にある最悪のモデルに対する値関数を最大化するポリシーを見つけることである。 標準ロバストな動的プログラミングアプローチは、最適ロバストポリシーを計算するために名目モデルに関する知識を必要とする。 本研究では,モデルに基づく強化学習(RL)アルゴリズムを提案し,その名目モデルが不明な場合に,$\epsilon$-optimal robust policyを学習する。 我々は3つの異なる不確実性集合を考察し, 全変動距離, チ平方発散, kl発散を特徴とする。 これらの不確実性集合のそれぞれに対して、提案アルゴリズムのサンプルの複雑さを正確に評価する。 サンプルの複雑さの結果に加えて、ロバストなポリシーを使うことの利点に関する形式的な分析的な議論も提示する。 最後に,2つのベンチマーク問題に対するアルゴリズムの性能を示す。

The Robust Markov Decision Process (RMDP) framework focuses on designing control policies that are robust against the parameter uncertainties due to the mismatches between the simulator model and real-world settings. An RMDP problem is typically formulated as a max-min problem, where the objective is to find the policy that maximizes the value function for the worst possible model that lies in an uncertainty set around a nominal model. The standard robust dynamic programming approach requires the knowledge of the nominal model for computing the optimal robust policy. In this work, we propose a model-based reinforcement learning (RL) algorithm for learning an $\epsilon$-optimal robust policy when the nominal model is unknown. We consider three different forms of uncertainty sets, characterized by the total variation distance, chi-square divergence, and KL divergence. For each of these uncertainty sets, we give a precise characterization of the sample complexity of our proposed algorithm. In addition to the sample complexity results, we also present a formal analytical argument on the benefit of using robust policies. Finally, we demonstrate the performance of our algorithm on two benchmark problems.
翻訳日:2021-12-06 13:27:17 公開日:2021-12-03
# マイノリティの多数派:長い尾の分類のためのコンテキストリッチなマイノリティオーバーサンプリング

The Majority Can Help The Minority: Context-rich Minority Oversampling for Long-tailed Classification ( http://arxiv.org/abs/2112.00412v2 )

ライセンス: Link先を確認
Seulki Park, Youngkyu Hong, Byeongho Heo, Sangdoo Yun and Jin Young Choi(参考訳) クラス不均衡データの問題は、マイノリティクラスのデータの欠如により、分類器の一般化性能が低下することにある。 本稿では,背景画像として多数クラスのリッチな文脈を活用することで,多様なマイノリティサンプルを拡大する新しいマイノリティオーバーサンプリング手法を提案する。 マイノリティのサンプルを多様化させるためには、フォアグラウンドパッチをマイノリティクラスから背景イメージに貼り付け、豊かなコンテキストを持つマジョリティクラスに貼り付けます。 提案手法は単純で,既存の長尾認識手法と簡単に組み合わせることができる。 提案手法の有効性を実験およびアブレーション実験により実証的に検証した。 アーキテクチャの変更や複雑なアルゴリズムがなければ、様々なロングテールの分類ベンチマークで最先端のパフォーマンスが得られる。 私たちのコードはリンクで公開されます。

The problem of class imbalanced data lies in that the generalization performance of the classifier is deteriorated due to the lack of data of the minority classes. In this paper, we propose a novel minority over-sampling method to augment diversified minority samples by leveraging the rich context of the majority classes as background images. To diversify the minority samples, our key idea is to paste a foreground patch from a minority class to a background image from a majority class having affluent contexts. Our method is simple and can be easily combined with the existing long-tailed recognition methods. We empirically prove the effectiveness of the proposed oversampling method through extensive experiments and ablation studies. Without any architectural changes or complex algorithms, our method achieves state-of-the-art performance on various long-tailed classification benchmarks. Our code will be publicly available at link.
翻訳日:2021-12-06 12:26:39 公開日:2021-12-03
# 文間依存グラフによるゼロショット言語間機械読解理解

Zero-Shot Cross-Lingual Machine Reading Comprehension via Inter-Sentence Dependency Graph ( http://arxiv.org/abs/2112.00503v3 )

ライセンス: Link先を確認
Liyan Xu, Xuchao Zhang, Bo Zong, Yanchi Liu, Wei Cheng, Jingchao Ni, Haifeng Chen, Liang Zhao, Jinho D. Choi(参考訳) 我々は,汎用依存関係(ud)からの構文的特徴を組み込むことにより,直接ゼロショット設定における言語間機械読解(mrc)のタスクを目標とし,各文における構文的関係を重要視する。 先行研究では,mrcタスクのマルチセンテンス入力における構文依存性をさらに活用するために,基本的イントラセンス関係に加えて,イントラセンテンス間の構文関係を採用することを提案する。 本手法では,係り受け木を連結した文間依存グラフ(ISDG)を構築し,文間の大域的構文関係を形成する。 次に、グローバル依存グラフを符号化するIDDGエンコーダを提案し、ワンホップとマルチホップの依存関係パスの両方を通して、文間関係を明示的に解決する。 3つの多言語MRCデータセット(XQuAD、MLQA、TyDiQA-GoldP)の実験では、英語でのみ訓練されたエンコーダは、8つの言語をカバーする14のテストセットすべてでゼロショット性能を向上でき、平均3.8 F1 / 5.2 EMの改善と、特定の言語で5.2 F1 / 11.2 EMを実現している。 さらなる分析は、言語間一貫した構文経路に注意を向けることによる改善が可能であることを示している。

We target the task of cross-lingual Machine Reading Comprehension (MRC) in the direct zero-shot setting, by incorporating syntactic features from Universal Dependencies (UD), and the key features we use are the syntactic relations within each sentence. While previous work has demonstrated effective syntax-guided MRC models, we propose to adopt the inter-sentence syntactic relations, in addition to the rudimentary intra-sentence relations, to further utilize the syntactic dependencies in the multi-sentence input of the MRC task. In our approach, we build the Inter-Sentence Dependency Graph (ISDG) connecting dependency trees to form global syntactic relations across sentences. We then propose the ISDG encoder that encodes the global dependency graph, addressing the inter-sentence relations via both one-hop and multi-hop dependency paths explicitly. Experiments on three multilingual MRC datasets (XQuAD, MLQA, TyDiQA-GoldP) show that our encoder that is only trained on English is able to improve the zero-shot performance on all 14 test sets covering 8 languages, with up to 3.8 F1 / 5.2 EM improvement on-average, and 5.2 F1 / 11.2 EM on certain languages. Further analysis shows the improvement can be attributed to the attention on the cross-linguistically consistent syntactic path.
翻訳日:2021-12-06 12:26:25 公開日:2021-12-03
# 階層型連合学習のためのコンテキスト対応オンラインクライアント選択

Context-Aware Online Client Selection for Hierarchical Federated Learning ( http://arxiv.org/abs/2112.00925v2 )

ライセンス: Link先を確認
Zhe Qu, Rui Duan, Lixing Chen, Jie Xu, Zhuo Lu and Yao Liu(参考訳) フェデレートラーニング(FL)は、従来の機械学習(ML)と比較してモバイルデバイスのデータプライバシ問題に対処するための魅力的なフレームワークと考えられている。 エッジサーバ(ES)を中間体として、近接してモデルアグリゲーションを行うと、送信オーバーヘッドが減少し、FL(HFL)の階層的アーキテクチャが注目される低遅延FLにおいて大きなポテンシャルが得られる。 適切なクライアント選択ポリシーを設計すれば、トレーニング性能が大幅に向上し、FL研究で広く利用されている。 しかし、私たちの知る限りでは、HFLに焦点を当てた研究はない。 さらに、HFL のクライアント選択は従来の FL よりも多くの課題に直面している。例えば、クライアント-ES ペアの時間的変化と Network Operator (NO) の限られた予算である。 本稿では,HFLにおけるクライアント選択問題について検討する。NOは,各ESの限られた予算の下で,トレーニング性能の向上(すなわち,各ラウンドにおけるクライアント数の選択)のために,成功したクライアント数を学ぶ。 Contextual Combinatorial Multi-Armed Bandit (CC-MAB) に基づいたオンラインポリシーである Context-aware Online Client Selection (COCS) が開発されている。 COCSは、ローカルコンピューティングの側面情報(コンテキスト)とクライアント-ESペアの送信を観察し、限られた予算でNOの効用を最大化するクライアント選択決定を行う。 理論的には、COCS は強凸 HFL と非凸 HFL の両方に関する Oracle の方針と比較して、サブ線形後悔を達成している。 シミュレーション結果は、実世界のデータセットに対するCOCSポリシーの効率性も支援する。

Federated Learning (FL) has been considered as an appealing framework to tackle data privacy issues of mobile devices compared to conventional Machine Learning (ML). Using Edge Servers (ESs) as intermediaries to perform model aggregation in proximity can reduce the transmission overhead, and it enables great potentials in low-latency FL, where the hierarchical architecture of FL (HFL) has been attracted more attention. Designing a proper client selection policy can significantly improve training performance, and it has been extensively used in FL studies. However, to the best of our knowledge, there are no studies focusing on HFL. In addition, client selection for HFL faces more challenges than conventional FL, e.g., the time-varying connection of client-ES pairs and the limited budget of the Network Operator (NO). In this paper, we investigate a client selection problem for HFL, where the NO learns the number of successful participating clients to improve the training performance (i.e., select as many clients in each round) as well as under the limited budget on each ES. An online policy, called Context-aware Online Client Selection (COCS), is developed based on Contextual Combinatorial Multi-Armed Bandit (CC-MAB). COCS observes the side-information (context) of local computing and transmission of client-ES pairs and makes client selection decisions to maximize NO's utility given a limited budget. Theoretically, COCS achieves a sublinear regret compared to an Oracle policy on both strongly convex and non-convex HFL. Simulation results also support the efficiency of the proposed COCS policy on real-world datasets.
翻訳日:2021-12-06 12:25:54 公開日:2021-12-03
# マルチドメイントランスフォーマティブによる収益電話分析のための相反的拡張

Multi-Domain Transformer-Based Counterfactual Augmentation for Earnings Call Analysis ( http://arxiv.org/abs/2112.00963v2 )

ライセンス: Link先を確認
Zixuan Yuan, Yada Zhu, Wei Zhang, Ziming Huang, Guangnan Ye, Hui Xiong(参考訳) 上場企業の定期的遠隔会議としてのEarnings Call(EC)は、企業基盤における分析的価値の高さから、重要な市場指標として広く研究されている。 近年のディープラーニング技術の出現は、ECが支援する金融アプリケーションに利益をもたらすために、自動化パイプラインを作成する上で大きな期待を示している。 しかし、これらの手法は、長文のテキストから貴重な意味論を精査することなく、全ての内容が情報化されるべきであると仮定し、EC不足の問題に悩まされる。 一方、これらのブラックボックス法は人間に理解可能な説明を与えるのに固有の困難を伴っている。 そこで本稿では,MTCAと呼ばれるマルチドメイントランスフォーマーを用いた対実拡張手法を提案する。 具体的には、まず、市場推測のための重要なECコンテンツのタスクインスパイアされた意義を注意深く定量化するトランスフォーマーベースのECエンコーダを提案する。 次に,多領域対応学習フレームワークを開発し,限られたEC情報テキストに豊富なクロスドメイン文書を混入させ,MTCAが教師なしデータ拡張を行えるようにした。 ボーナスとして,非トレーニングデータをインスタンスベースの説明として利用し,ケーススタディで結果を示す方法を見出した。 実世界の金融データセットに関する大規模な実験は、解釈可能なMTCAの有効性を示し、最先端技術のボラティリティ評価能力を14.2\%精度で向上させた。

Earnings call (EC), as a periodic teleconference of a publicly-traded company, has been extensively studied as an essential market indicator because of its high analytical value in corporate fundamentals. The recent emergence of deep learning techniques has shown great promise in creating automated pipelines to benefit the EC-supported financial applications. However, these methods presume all included contents to be informative without refining valuable semantics from long-text transcript and suffer from EC scarcity issue. Meanwhile, these black-box methods possess inherent difficulties in providing human-understandable explanations. To this end, in this paper, we propose a Multi-Domain Transformer-Based Counterfactual Augmentation, named MTCA, to address the above problems. Specifically, we first propose a transformer-based EC encoder to attentively quantify the task-inspired significance of critical EC content for market inference. Then, a multi-domain counterfactual learning framework is developed to evaluate the gradient-based variations after we perturb limited EC informative texts with plentiful cross-domain documents, enabling MTCA to perform unsupervised data augmentation. As a bonus, we discover a way to use non-training data as instance-based explanations for which we show the result with case studies. Extensive experiments on the real-world financial datasets demonstrate the effectiveness of interpretable MTCA for improving the volatility evaluation ability of the state-of-the-art by 14.2\% in accuracy.
翻訳日:2021-12-06 12:25:26 公開日:2021-12-03
# 中央データによるコミュニケーション効率のよいフェデレーション学習:水平フェデレーション学習における垂直トレーニングの実装

A Communication-effici ent Federated learning assisted by Central data: Implementation of vertical training into Horizontal Federated learning ( http://arxiv.org/abs/2112.01039v2 )

ライセンス: Link先を確認
Shuo Wan, Jiaxun Lu, Pingyi Fan, Yunfeng Shao, Chenghui Peng, and Khaled B. Letaief(参考訳) フェデレートラーニング(FL)は、中央データ収集の必要性を回避しつつ、IoT内の分散データセットでモデルを共同トレーニングするために登場した。 観測範囲が限られているため、そのようなデータセットは、訓練されたモデルの品質を制限するローカル情報のみを反映することができる。 実践的なネットワークでは、グローバル情報と局所的な観測は常に共存し、合理的な政策を学習するためには共同で検討する必要がある。 しかし、分散クライアント間の水平FLでは、中央機関がモデルアグリゲータとして機能し、そのグローバルな特徴を利用してモデルをさらに改善する。 これは、グローバル情報が明らかに精度を向上させるフロー予測のような、いくつかのミッションでのパフォーマンスを著しく低下させる可能性がある。 一方、このようなグローバル機能は、データセキュリティのためにエージェントに直接送信されない。 そして、その安全性を保ちながら、中央機関のグローバルな監視をいかに活用するかが、FLの重要な課題である。 そこで,本稿では,縦-水平共役学習 (vhfl) プロセスを開発した。このプロセスでは,追加のコミュニケーションラウンドを必要とせず,縦 fl と同様の手順でグローバル特徴をエージェントと共有する。 遅延とパケット損失を考慮し,ネットワークシステムの収束解析を行い,実験によりその性能を検証した。 提案したVHFLは,グローバルデータのセキュリティを保護しながら水平FLと比較して精度を向上させることができる。

Federated learning (FL) has emerged to jointly train a model with distributed data sets in IoT while avoiding the need for central data collection. Due to limited observation range, such data sets can only reflect local information, which limits the quality of trained models. In practical network, the global information and local observations always coexist, which requires joint consideration for learning to make reasonable policy. However, in horizontal FL among distributed clients, the central agency only acts as a model aggregator without utilizing its global features to further improve the model. This could largely degrade the performance in some missions such as flow prediction, where the global information could obviously enhance the accuracy. Meanwhile, such global feature may not be directly transmitted to agents for data security. Then how to utilize the global observation residing in the central agency while protecting its safety rises up as an important problem in FL. In this paper, we developed the vertical-horizontal federated learning (VHFL) process, where the global feature is shared with the agents in a procedure similar to vertical FL without extra communication rounds. Considering the delay and packet loss, we analyzed its convergence in the network system and validated its performance by experiments. The proposed VHFL could enhance the accuracy compared with the horizontal FL while protecting the security of global data.
翻訳日:2021-12-06 12:25:05 公開日:2021-12-03