このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220114となっている論文です。

PDF登録状況(公開日: 20220114)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 12誘導標準心電図解析による心房細動予測のための深部人工ニューラルネットワーク [全文訳有]

Deep artificial neural network for prediction of atrial fibrillation through the analysis of 12-leads standard ECG ( http://arxiv.org/abs/2202.05676v1 )

ライセンス: CC BY 4.0
A. Scagnetto, G. Barbati, I. Gandin, C. Cappelletto, G. Baj, A. Cazzaniga, F. Cuturello, A. Ansuini, L. Bortolussi, A. Di Lenarda(参考訳) 心房細動(英: atrial Fibrillation, AF)は、心臓不整脈であり、脳卒中の重要な危険因子であり、したがって心電図検査でAFを予測することは、リスクの高い患者を積極的に標的にすることに大きな影響を与える。 本研究では、畳み込みニューラルネットワークを用いて、心電図を分析し、リアルなデータセットから心房細動を予測し、他の研究よりも心電図が少ないことを考慮し、心電図と心電図診断との間の最大距離を延ばす。 75.5% (0.75) aucを達成し,まずシフト法を用いてデータセットサイズを増加させ,次に畳み込みニューラルネットワークの拡張パラメータを用いた。 また,検査でAFを報告している臨床医が一般的に使用しているものとは対照的に,AFを予測するための最も有益な手がかりはD1,avRである。 同様に、チェックすべき最も重要な周波数は5-20Hzの範囲にある。 最後に、心電図信号と電子健康記録を同時に管理できるネットを開発し、異なるデータソース間の統合が利益につながることを示す。 実際、この純利益の2.8%は78.6%(0.77以上)のAUCをもたらす。 今後の作業では、ソースの統合と、avRが最も有意義なリードであると主張する理由の両方を強化します。

Atrial Fibrillation (AF) is a heart's arrhythmia which, despite being often asymptomatic, represents an important risk factor for stroke, therefore being able to predict AF at the electrocardiogram exam, would be of great impact on actively targeting patients at high risk. In the present work we use Convolution Neural Networks to analyze ECG and predict Atrial Fibrillation starting from realistic datasets, i.e. considering fewer ECG than other studies and extending the maximal distance between ECG and AF diagnosis. We achieved 75.5% (0.75) AUC firstly increasing our dataset size by a shifting technique and secondarily using the dilation parameter of the convolution neural network. In addition we find that, contrarily to what is commonly used by clinicians reporting AF at the exam, the most informative leads for the task of predicting AF are D1 and avR. Similarly, we find that the most important frequencies to check are in the range of 5-20 Hz. Finally, we develop a net able to manage at the same time the electrocardiographic signal together with the electronic health record, showing that integration between different sources of data is a profitable path. In fact, the 2.8% gain of such net brings us to a 78.6% (std 0.77) AUC. In future works we will deepen both the integration of sources and the reason why we claim avR is the most informative lead.
翻訳日:2022-02-20 18:24:53 公開日:2022-01-14
# (参考訳) ランドスケープ写真上の木間距離をセマンティックセグメンテーションで推定できるスカイラインのバリエーション [全文訳有]

Skyline variations allow estimating distance to trees on landscape photos using semantic segmentation ( http://arxiv.org/abs/2201.08816v1 )

ライセンス: CC BY 4.0
Laura Martinez-Sanchez, Daniele Borio, Rapha\"el d'Andrimont, Marijn van der Velde(参考訳) 近似距離推定は、複雑さや開度を含む基本的な景観特性を決定するために用いられる。 ランドスケープ写真のスカイラインの変動は,地平線上の木々との距離を推定するために利用できることを示す。 スカイラインのバリエーションに基づく手法が開発され、スカイラインオブジェクトの距離との潜在的な関係を調べるために使用されている。 ランド・ユース/コーバー・エリア・フレーム・サーベイ(LUCAS)のランドスケープ写真から,ピクセルで表現されたスカイラインの高さによって定義されるスカイライン信号を抽出した。 写真は意味的にDeepLabV3+でセグメンテーションされ、Common Objects in Context (COCO)データセットでトレーニングされた。 これにより、スカイラインを形成する物体のピクセルレベルの分類が可能となった。 スカイライン信号の詳細を増やすために,条件付きランダムフィールド (CRF) アルゴリズムも適用された。 スカイライン信号の変動を捉えることができる3つの指標が分析のために検討された。 これらの指標は、輪郭がフラクタルの性質を持つ木々の分類における距離と機能的関係を示す。 特に475枚のオルソ写真に基づく距離測定に対して回帰分析を行い, 最善の場合には0.47と等しいr2スコアを得た。 これは、距離関連情報を推測するためのスカイライン変動指標の可能性を示す励振的な結果である。

Approximate distance estimation can be used to determine fundamental landscape properties including complexity and openness. We show that variations in the skyline of landscape photos can be used to estimate distances to trees on the horizon. A methodology based on the variations of the skyline has been developed and used to investigate potential relationships with the distance to skyline objects. The skyline signal, defined by the skyline height expressed in pixels, was extracted for several Land Use/Cover Area frame Survey (LUCAS) landscape photos. Photos were semantically segmented with DeepLabV3+ trained with the Common Objects in Context (COCO) dataset. This provided pixel-level classification of the objects forming the skyline. A Conditional Random Fields (CRF) algorithm was also applied to increase the details of the skyline signal. Three metrics, able to capture the skyline signal variations, were then considered for the analysis. These metrics shows a functional relationship with distance for the class of trees, whose contours have a fractal nature. In particular, regression analysis was performed against 475 ortho-photo based distance measurements, and, in the best case, a R2 score equal to 0.47 was achieved. This is an encouraging result which shows the potential of skyline variation metrics for inferring distance related information.
翻訳日:2022-01-30 13:37:22 公開日:2022-01-14
# アクティブ予測符号化ネットワーク:参照フレームと部分ホール階層の学習問題のニューラルネットワーク

Active Predictive Coding Networks: A Neural Solution to the Problem of Learning Reference Frames and Part-Whole Hierarchies ( http://arxiv.org/abs/2201.08813v1 )

ライセンス: Link先を確認
Dimitrios C. Gklezakos, Rajesh P. N. Rao(参考訳) ニューラルネットワークはどのようにしてオブジェクトの固有参照フレームを学習し、視覚的なシーンをパースツリー内のノードを動的に割り当てることで、全階層にパースできるのか? 1)ハイパーネットワークは、高次オブジェクト指向埋め込みベクトルを条件とした内在参照フレーム内の部分とその位置を予測するリカレントニューラルネットワークを動的に生成するために使用され、(2)モデルパラメータのエンドツーエンド学習のためのバックプロパゲーションと組み合わせて強化学習が使用される。 APCNアーキテクチャは自然に多階層的学習に結びつき、皮質関数の予測符号化モデルと密接に関連している。 MNIST、Fashion-MNIST、Omniglotのデータセットを用いて、APCNsが可能であることを示す。 (a)部分階層に画像を解析することを学ぶ。 (b)構成表現を学び、 (c) 知識を見えないオブジェクトのクラスに転送する。 オブジェクトの部分的な位置を持つ解析木を動的に生成する能力によって、APCNは、解釈可能性と構成性を維持しながらディープラーニングの進歩を活用する、説明可能なAIのための新しいフレームワークを提供する。

We introduce Active Predictive Coding Networks (APCNs), a new class of neural networks that solve a major problem posed by Hinton and others in the fields of artificial intelligence and brain modeling: how can neural networks learn intrinsic reference frames for objects and parse visual scenes into part-whole hierarchies by dynamically allocating nodes in a parse tree? APCNs address this problem by using a novel combination of ideas: (1) hypernetworks are used for dynamically generating recurrent neural networks that predict parts and their locations within intrinsic reference frames conditioned on higher object-level embedding vectors, and (2) reinforcement learning is used in conjunction with backpropagation for end-to-end learning of model parameters. The APCN architecture lends itself naturally to multi-level hierarchical learning and is closely related to predictive coding models of cortical function. Using the MNIST, Fashion-MNIST and Omniglot datasets, we demonstrate that APCNs can (a) learn to parse images into part-whole hierarchies, (b) learn compositional representations, and (c) transfer their knowledge to unseen classes of objects. With their ability to dynamically generate parse trees with part locations for objects, APCNs offer a new framework for explainable AI that leverages advances in deep learning while retaining interpretability and compositionality.
翻訳日:2022-01-30 11:36:37 公開日:2022-01-14
# 1発と1発のショットから学ぶ

Learning from One and Only One Shot ( http://arxiv.org/abs/2201.08815v1 )

ライセンス: Link先を確認
Haizi Yu, Igor Mineyev, Lav R. Varshney, James A. Evans(参考訳) 人間はごく少数の例から、類似したタスクの事前学習から一般化することができる。 しかし、機械学習(ML)は通常、学習するために大きなデータを必要とする。 ナティビズムに触発されて,文字認識や人形認識などの抽象視覚タスクにおいて,人間固有のプライオリティを直接モデル化する。 これによりホワイトボックスのモデルでは、人間が自然に物体を「歪め」る様子を模倣することで、2つのイメージが一般にどのように見えるかという一般的な外観の類似性を学ぶことができる。 この類似性空間上の最寄りの分類器を用いて、クラスごとの1~10例のみを用いて人間レベルの文字認識を行う(事前学習なし)。 これは、重要な事前学習を使用する少数ショット学習(FSL)とは異なる。 標準ベンチマークのMNIST/EMNISTとOmniglotチャレンジでは、大規模データで事前トレーニングされたFSLを含む、ニューラルネットワークベースのMLと古典的なMLの両方よりもパフォーマンスが優れています。 このモデルは教師なし学習も可能にする: k-meansスタイルで非ユークリッド的で一般的な類似性空間を学習することで、人間直観的なアーチタイプをクラスタ ``centroids'' として生成することができる。

Humans can generalize from only a few examples and from little pre-training on similar tasks. Yet, machine learning (ML) typically requires large data to learn or pre-learn to transfer. Inspired by nativism, we directly model basic human-innate priors in abstract visual tasks e.g., character/doodle recognition. This yields a white-box model that learns general-appearance similarity -- how any two images look in general -- by mimicking how humans naturally "distort" an object at first sight. Using simply the nearest-neighbor classifier on this similarity space, we achieve human-level character recognition using only 1--10 examples per class and nothing else (no pre-training). This differs from few-shot learning (FSL) using significant pre-training. On standard benchmarks MNIST/EMNIST and the Omniglot challenge, we outperform both neural-network-based and classical ML in the "tiny-data" regime, including FSL pre-trained on large data. Our model enables unsupervised learning too: by learning the non-Euclidean, general-appearance similarity space in a k-means style, we can generate human-intuitive archetypes as cluster ``centroids''.
翻訳日:2022-01-30 11:36:12 公開日:2022-01-14
# (参考訳) Corrigendum と addendum: ポピュリストはパルティザン? 監視機械学習を用いた党宣言におけるポピュリズムのデグリーの測定 [全文訳有]

Corrigendum and addendum to: How Populist are Parties? Measuring Degrees of Populism in Party Manifestos Using Supervised Machine Learning ( http://arxiv.org/abs/2201.07972v1 )

ライセンス: CC BY 4.0
Jessica Di Cocco and Bernardo Monechi(参考訳) 本論文は,先述した論文 "how populist are parties? measuring degrees of populism in party manifestos using supervised machine learning" のコリゲンダムと付加体である (政治分析,1-17. doi:10.1017/pan.2021 .29)。 これらのcorrigendumとaddendumは、データラベリングのエラーを訂正し、以前の論文には含まれていない洞察を示す。 ここでは、これらの補正を報告し、当事者ごとのラベルリシャッフルの効果に着目し、適切な場所に新しい数字を提示することによって、さらなる結論を示す。 本論文で提案する簡易ラベル付け手法は,エキスパートスコアとの相関に偏りを生じさせるが,ランダムラベル付けは相関を著しく減少させる。 これは、手動で符号化されたデータセットに基づく相関にも当てはまる。 これらの修正は、将来の出版物で詳細に報告された他の証拠と結果に基づいている。

This paper is a corrigendum and addendum to the previously published article: 'How Populist are Parties? Measuring Degrees of Populism in Party Manifestos Using Supervised Machine Learning' (Political Analysis, 1-17. doi:10.1017/pan.2021 .29). These corrigendum and addendum were prepared to correct errors in data labelling and show some extra insights not included in the previously published paper. Here, we report these corrections and point to some additional conclusions by focusing on the effects of the label reshuffling per parties and years and presenting new figures wherever appropriate. We show that although the simplified labelling method proposed in the previously-published article can induce biases in the correlations with expert scores, random labelling reduces correlations significantly. We show that this is also true for correlations based on a manually-coded data set. These modifications are based on other evidence and results reported in detail in a future publication.
翻訳日:2022-01-23 18:59:26 公開日:2022-01-14
# (参考訳) クラウドとIoT間の階層的な地理分散コンピューティング [全文訳有]

Layerwise Geo-Distributed Computing between Cloud and IoT ( http://arxiv.org/abs/2201.07215v1 )

ライセンス: CC BY 4.0
Satoshi Kamo, Yiqiang Sheng(参考訳) 本稿では,クラウドとIoT(Internet of Things)間の効率的な地理分散コンピューティングを実現するために,k-degree layer-wise networkと呼ばれるディープラーニングシステムのための新しいアーキテクチャを提案する。 地理的分散コンピューティングは、クラウドをIoTの隣のネットワークの地理的領域にまで拡張する。 提案の基本的な考え方は、k度制約と層次制約である。 k次制約は、h層上の各頂点の次数が、既存の深層信念ネットワークを拡張し通信コストを制御するためにちょうどk(h)となるように定義される。 層毎の制約は、層毎の次数が正の方向に単調に減少し、データの次元が徐々に減少するように定義される。 従来のディープニューラルネットワークは密度が高いが、k度層毎ネットワークは疎いことを証明している。 m-distributed mnistデータベースの評価では、通信コストとスケーラビリティの学習時間の観点から、最先端モデルよりも優れている。

In this paper, we propose a novel architecture for a deep learning system, named k-degree layer-wise network, to realize efficient geo-distributed computing between Cloud and Internet of Things (IoT). The geo-distributed computing extends Cloud to the geographical verge of the network in the neighbor of IoT. The basic ideas of the proposal include a k-degree constraint and a layer-wise constraint. The k-degree constraint is defined such that the degree of each vertex on the h-th layer is exactly k(h) to extend the existing deep belief networks and control the communication cost. The layer-wise constraint is defined such that the layer-wise degrees are monotonically decreasing in positive direction to gradually reduce the dimension of data. We prove the k-degree layer-wise network is sparse, while a typical deep neural network is dense. In an evaluation on the M-distributed MNIST database, the proposal is superior to a state-of-the-art model in terms of communication cost and learning time with scalability.
翻訳日:2022-01-23 18:52:10 公開日:2022-01-14
# (参考訳) 広域ネットワークインテリジェンスとマルチメディアサービスへの応用 [全文訳有]

Wide Area Network Intelligence with Application to Multimedia Service ( http://arxiv.org/abs/2201.07216v1 )

ライセンス: CC BY 4.0
Satoshi Kamo, Yiqiang Sheng(参考訳) ネットワークインテリジェンス(英: network intelligence)は、ネットワークシステムの能力に基づいて、変化する環境で高品質なサービスを提供するためのネットワークリソースを使用することによって、インテリジェントに行動する分野である。 広域ネットワークインテリジェンスは、インターネットのコアとエッジをカバーする広域ネットワークにおけるネットワークインテリジェンスのクラスである。 本稿では,広域ネットワークインテリジェンスのための機械学習に基づくシステムを提案する。 システム全体は、事前トレーニング用のコアマシンと、より高速な応答を実現するための多くの端末マシンで構成されている。 各機械は左右の半球からなる二重半球モデルの1つである。 左半球は端末応答によるレイテンシ向上に、右半球はデータ生成による通信改善に使用される。 マルチメディアサービス上のアプリケーションでは,提案手法は,精度,レイテンシ,通信に関して,データセンタ内の最新のディープフィードフォワードニューラルネットワークよりも優れている。 評価は端末機数に関してスケーラブルな改善を示している。 評価はまた、改善のコストが学習時間より長いことを示している。

Network intelligence is a discipline that builds on the capabilities of network systems to act intelligently by the usage of network resources for delivering high-quality services in a changing environment. Wide area network intelligence is a class of network intelligence in wide area network which covers the core and the edge of Internet. In this paper, we propose a system based on machine learning for wide area network intelligence. The whole system consists of a core machine for pre-training and many terminal machines to accomplish faster responses. Each machine is one of dual-hemisphere models which are made of left and right hemispheres. The left hemisphere is used to improve latency by terminal response and the right hemisphere is used to improve communication by data generation. In an application on multimedia service, the proposed model is superior to the latest deep feed forward neural network in the data center with respect to the accuracy, latency and communication. Evaluation shows scalable improvement with regard to the number of terminal machines. Evaluation also shows the cost of improvement is longer learning time.
翻訳日:2022-01-23 18:40:40 公開日:2022-01-14
# (参考訳) 言語のダークサイド:ダークネットで事前訓練されたトランスフォーマー [全文訳有]

The Dark Side of the Language: Pre-trained Transformers in the DarkNet ( http://arxiv.org/abs/2201.05613v1 )

ライセンス: CC BY 4.0
Leonardo Ranaldi, Aria Nourbakhsh, Arianna Patrizi, Elena Sofia Ruzzetti, Dario Onorati, Francesca Fallucchi Fabio Massimo Zanzotto(参考訳) 事前訓練されたトランスフォーマーは多くの自然言語処理タスクにおいて人間のパフォーマンスに挑戦している。 事前トレーニングに使用される巨大なデータセットは、既存のタスクの成功の鍵であるようだ。 本稿では,DarkNetコーパス上の分類タスクによって提供される,真に新規で未探索なデータに基づいて,事前学習された自然言語理解モデルがどのように機能するかを検討する。 驚くべきことに、構文的および語彙的ニューラルネットワークは、トレーニング済みのトランスフォーマーをほとんど上回っている。 これは、事前訓練されたトランスフォーマーが急進的に新しいテキストに適応するのに非常に困難であることを示唆している。

Pre-trained Transformers are challenging human performances in many natural language processing tasks. The gigantic datasets used for pre-training seem to be the key for their success on existing tasks. In this paper, we explore how a range of pre-trained natural language understanding models perform on truly novel and unexplored data, provided by classification tasks over a DarkNet corpus. Surprisingly, results show that syntactic and lexical neural networks largely outperform pre-trained Transformers. This seems to suggest that pre-trained Transformers have serious difficulties in adapting to radically novel texts.
翻訳日:2022-01-22 22:00:30 公開日:2022-01-14
# (参考訳) Semantic Web Technology Index [全文訳有]

A Semantic Web Technology Index ( http://arxiv.org/abs/2201.07034v1 )

ライセンス: CC BY 4.0
Gongjin Lan, Ting Liu, Xu Wang, Xueli Pan, Zhisheng Huang(参考訳) セマンティックウェブ(sw)技術は医学、医療、金融、地質学など多くの分野に広く適用されてきた。 現在、研究者は主にsw技術の開発と評価のために自らの経験と好みに依存している。 SW技術の一般的なアーキテクチャ(例えばTim Berners-LeeのSemantic Web Layer Cake)は何年も前に提案され、広く知られているが、SW技術の標準化のための具体的なガイドラインはいまだに欠けている。 本稿では,sw技術の作業が良好に設計されていることを保証するための開発を標準化し,sw技術の作業品質を定量的に評価するためのsw技術指標を提案する。 この指標は、スコア0~10として品質を定量化する10の基準からなる。 我々は3つの側面から明確に説明するために、それぞれの基準を詳細に述べる。 1)基準は何ですか? 2)なぜこの基準を考えるのか。 3) 現状の研究はどのようにしてこの基準を満たすのか。 最後に、この指標を検証事例に適用する方法の例を示すことにより、この指標の妥当性を示す。 我々は,この指標がSW技術における作業のガイドおよび評価に有用な標準であると結論付けた。

Semantic Web (SW) technology has been widely applied to many domains such as medicine, health care, finance, geology. At present, researchers mainly rely on their experience and preferences to develop and evaluate the work of SW technology. Although the general architecture (e.g., Tim Berners-Lee's Semantic Web Layer Cake) of SW technology was proposed many years ago and has been well-known, it still lacks a concrete guideline for standardizing the development of SW technology. In this paper, we propose an SW technology index to standardize the development for ensuring that the work of SW technology is designed well and to quantitatively evaluate the quality of the work in SW technology. This index consists of 10 criteria that quantify the quality as a score of 0 ~ 10. We address each criterion in detail for a clear explanation from three aspects: 1) what is the criterion? 2) why do we consider this criterion and 3) how do the current studies meet this criterion? Finally, we present the validation of this index by providing some examples of how to apply the index to the validation cases. We conclude that the index is a useful standard to guide and evaluate the work in SW technology.
翻訳日:2022-01-22 21:51:12 公開日:2022-01-14
# (参考訳) 表現領域独立な材料発見のための公式グラフセルフアテンションネットワーク [全文訳有]

Formula graph self-attention network for representation-domai n independent materials discovery ( http://arxiv.org/abs/2201.05649v1 )

ライセンス: CC BY 4.0
Achintha Ihalage and Yang Hao(参考訳) 材料特性予測における機械学習(ml)の成功は、学習のための材料表現の仕方に大きく依存する。 物質ディスクリプタには2つの支配的な種類があり、一つは表象の結晶構造をエンコードし、もう一つは、新しい材料の発見を希望して、統計学的情報のみを使用するものである。 特にグラフニューラルネットワーク(GNN)は、化学的精度で材料特性を予測するのに優れている。 しかしながら、現在のGNNは、各材料表現間の重複がほとんどないため、上記の2つの経路のうちの1つに限られている。 本稿では,統計量のみと構造に基づく材料記述子を統一する公式グラフの新たな概念を提案する。 さらに、式グラフを同化した自己注意統合GNNを開発し、提案アーキテクチャが2つの領域間で伝達可能な材料埋め込みを生成することを示す。 本モデルは,従来の構造ベースgnnおよび構造非依存のgnnを実質的に上回り,試料効率が向上し,より高速に収束する。 最後に、このモデルは難解な例に応用され、物質の複雑な誘電関数を予測し、エプシロン近傍ゼロ現象を示す可能性のある新しい物質を推薦する。

The success of machine learning (ML) in materials property prediction depends heavily on how the materials are represented for learning. Two dominant families of material descriptors exist, one that encodes crystal structure in the representation and the other that only uses stoichiometric information with the hope of discovering new materials. Graph neural networks (GNNs) in particular have excelled in predicting material properties within chemical accuracy. However, current GNNs are limited to only one of the above two avenues owing to the little overlap between respective material representations. Here, we introduce a new concept of formula graph which unifies both stoichiometry-only and structure-based material descriptors. We further develop a self-attention integrated GNN that assimilates a formula graph and show that the proposed architecture produces material embeddings transferable between the two domains. Our model substantially outperforms previous structure-based GNNs as well as structure-agnostic counterparts while exhibiting better sample efficiency and faster convergence. Finally, the model is applied in a challenging exemplar to predict the complex dielectric function of materials and nominate new substances that potentially exhibit epsilon-near-zero phenomena.
翻訳日:2022-01-22 21:37:34 公開日:2022-01-14
# (参考訳) CLUE:ビデオ講義におけるユーザエンゲージメントのコンテキスト統一型説明可能な学習 [全文訳有]

CLUE: Contextualised Unified Explainable Learning of User Engagement in Video Lectures ( http://arxiv.org/abs/2201.05651v1 )

ライセンス: CC BY 4.0
Sujit Roy, Gnaneswara Rao Gorle, Vishal Gaur, Haider Raza, Shoaib Jameel(参考訳) ビデオにおけるコンテクスト化されたエンゲージメントの予測は、様々な計算方法を用いて、ビュー数や関連するいいね! この10年間、オンライン学習リソースが急増し、パンデミックの間、品質管理のないオンライン教育ビデオが指数関数的に増加している。 クリエーターがコンテンツに対して建設的なフィードバックを得ることができれば、コンテンツの品質が向上する可能性がある。 ビデオに対するフィードバックを提供するために、ドメインエキスパートのボランティアの軍隊を雇うことは、スケールしないかもしれない。 その結果、ユーザーエンゲージメントスコアを予測するための計算手法の開発が急上昇しており、それはユーザーのエンゲージメントの何らかの形態、すなわち、ユーザーがコンテンツと関わりやすいレベルを示す。 現在の方法の欠点は、さまざまな機能を個別にモデル化することであり、カスケードなアプローチでは、エラーの伝播が容易である。 さらに、そのほとんどは、クリエイターがコンテンツを改善する方法に関する重要な説明を提供していない。 そこで本稿では,無料オンライン授業ビデオから抽出した特徴から学習し,ユーザエンゲージメントスコアとともに動画に対する説明可能なフィードバックを提供する,教育領域のための新しい統一モデルであるcucumer for the educational domainを提案する。 タスクの複雑さを考えると、我々の統合されたフレームワークは、異なる事前訓練されたモデルを用いて分類器のアンサンブルとして動作する。 本モデルは,言語,文脈に依存しない情報,提供内容のテキスト感情,アニメーション,話者のピッチ,音声感情をモデル化するために,様々なマルチモーダル特徴を利用する。 転送学習のセットアップでは、統一空間における全体的なモデルは、下流アプリケーション用に微調整されます。

Predicting contextualised engagement in videos is a long-standing problem that has been popularly attempted by exploiting the number of views or the associated likes using different computational methods. The recent decade has seen a boom in online learning resources, and during the pandemic, there has been an exponential rise of online teaching videos without much quality control. The quality of the content could be improved if the creators could get constructive feedback on their content. Employing an army of domain expert volunteers to provide feedback on the videos might not scale. As a result, there has been a steep rise in developing computational methods to predict a user engagement score that is indicative of some form of possible user engagement, i.e., to what level a user would tend to engage with the content. A drawback in current methods is that they model various features separately, in a cascaded approach, that is prone to error propagation. Besides, most of them do not provide crucial explanations on how the creator could improve their content. In this paper, we have proposed a new unified model, CLUE for the educational domain, which learns from the features extracted from freely available public online teaching videos and provides explainable feedback on the video along with a user engagement score. Given the complexity of the task, our unified framework employs different pre-trained models working together as an ensemble of classifiers. Our model exploits various multi-modal features to model the complexity of language, context agnostic information, textual emotion of the delivered content, animation, speaker's pitch and speech emotions. Under a transfer learning setup, the overall model, in the unified space, is fine-tuned for downstream applications.
翻訳日:2022-01-22 21:09:05 公開日:2022-01-14
# (参考訳) 機械学習とウサギ心電図を用いた薬剤性TdPリスクの予測 [全文訳有]

Prediction of Drug-Induced TdP Risks Using Machine Learning and Rabbit Ventricular Wedge Assay ( http://arxiv.org/abs/2201.05669v1 )

ライセンス: CC BY 4.0
Nan Miles Xi and Dalong Patrick Huang(参考訳) TdP(Torsades de pointes)リスクの評価は薬物安全性評価において重要である。 本研究では,前臨床データを用いた薬物性tdpリスク予測における機械学習のアプローチについて検討する。 具体的には, 家兎心室粗末測定法を用いて, ランダム森林モデルを訓練した。 モデル予測性能はin vitro proarrhythmia assayイニシアチブの28薬について測定した。 残留1ドラッグアウトのクロスバリデーションは、モデル性能のバイアスのない推定を提供する。 階層化ブートストラップは漸近モデル予測の不確かさを明らかにした。 本研究は,前臨床データから薬物性tdpリスクを予測するための機械学習手法の有用性を検証した。 本手法は他の前臨床プロトコルにも拡張でき,薬物安全性評価の補足的評価として機能する。

The evaluation of drug-induced Torsades de pointes (TdP) risks is crucial in drug safety assessment. In this study, we discuss machine learning approaches in the prediction of drug-induced TdP risks using preclinical data. Specifically, the random forest model was trained on the dataset generated by the rabbit ventricular wedge assay. The model prediction performance was measured on 28 drugs from the Comprehensive In Vitro Proarrhythmia Assay initiative. Leave-one-drug-out cross-validation provided an unbiased estimation of model performance. Stratified bootstrap revealed the uncertainty in the asymptotic model prediction. Our study validated the utility of machine learning approaches in predicting drug-induced TdP risks from preclinical data. Our methods can be extended to other preclinical protocols and serve as a supplementary evaluation in drug safety assessment.
翻訳日:2022-01-22 20:53:37 公開日:2022-01-14
# (参考訳) 適応型情報信念空間計画 [全文訳有]

Adaptive Information Belief Space Planning ( http://arxiv.org/abs/2201.05673v1 )

ライセンス: CC BY 4.0
Moran Barenboim and Vadim Indelman(参考訳) 不確実性に関する推論は多くの実生活の自律システムにおいて不可欠である。 しかし、現在の最先端の計画アルゴリズムは、不確実性を明確に判断するか、高い計算負荷でそれを実行できない。 ここでは,不確実性を明示的に扱う報酬機能を用いて,インフォームドな意思決定を効率的に行うことに注力する。 計算コストを軽減するためにアグリゲーションスキームを用いた近似、すなわち抽象観測モデルを定式化する。 我々は、期待情報理論的な報酬関数と、その結果、値関数の境界を導出する。 次に,計算時間のごく一部で同一の動作選択を達成するために,集約を洗練する手法を提案する。

Reasoning about uncertainty is vital in many real-life autonomous systems. However, current state-of-the-art planning algorithms cannot either reason about uncertainty explicitly, or do so with a high computational burden. Here, we focus on making informed decisions efficiently, using reward functions that explicitly deal with uncertainty. We formulate an approximation, namely an abstract observation model, that uses an aggregation scheme to alleviate computational costs. We derive bounds on the expected information-theoreti c reward function and, as a consequence, on the value function. We then propose a method to refine aggregation to achieve identical action selection with a fraction of the computational time.
翻訳日:2022-01-22 20:39:29 公開日:2022-01-14
# (参考訳) 動作中のトランスフォーマー:weaklysupervised action segmentation [全文訳有]

Transformers in Action:Weakly Supervised Action Segmentation ( http://arxiv.org/abs/2201.05675v1 )

ライセンス: CC BY 4.0
John Ridley, Huseyin Coskun, David Joseph Tan, Nassir Navab, Federico Tombari(参考訳) ビデオアクションセグメンテーションタスクは、フレームワイドラベルよりもアクションのリストの取得が容易な転写監督など、弱い形式の監督下で定期的に探索される。 この定式化では, 動作遷移点, 長周期長, フレームの文脈化に重点を置いたシーケンスモデリング手法の課題が提示され, トランスフォーマーに適している。 トランスフォーマーが線形にスケールできることを前提として,salient action transition regionに着目した注意機構を備えた,等価なrnnベースのモデルに対する動作アライメント精度の向上にどのように適用できるかを,我々のアーキテクチャを通して実証する。 さらに,近年の推論時間に焦点をあてて,推論時間より早く書き起こしを選択するための補足的書き起こし埋め込み手法を提案する。 さらに、このアプローチが全体的なセグメンテーション性能を改善できることを示す。 最後に、このビデオ駆動弱教師付きタスクにおけるトランスフォーマーの適用性と転写選択の重要性をよりよく理解するために、ベンチマークデータセット間で提案手法を評価した。

The video action segmentation task is regularly explored under weaker forms of supervision, such as transcript supervision, where a list of actions is easier to obtain than dense frame-wise labels. In this formulation, the task presents various challenges for sequence modeling approaches due to the emphasis on action transition points, long sequence lengths, and frame contextualization, making the task well-posed for transformers. Given developments enabling transformers to scale linearly, we demonstrate through our architecture how they can be applied to improve action alignment accuracy over the equivalent RNN-based models with the attention mechanism focusing around salient action transition regions. Additionally, given the recent focus on inference-time transcript selection, we propose a supplemental transcript embedding approach to select transcripts more quickly at inference-time. Furthermore, we subsequently demonstrate how this approach can also improve the overall segmentation performance. Finally, we evaluate our proposed methods across the benchmark datasets to better understand the applicability of transformers and the importance of transcript selection on this video-driven weakly-supervised task.
翻訳日:2022-01-22 19:35:03 公開日:2022-01-14
# (参考訳) 時間データの記号表現のための効率的な集約法 [全文訳有]

An efficient aggregation method for the symbolic representation of temporal data ( http://arxiv.org/abs/2201.05697v1 )

ライセンス: CC BY 4.0
Xinye Chen and Stefan G\"uttel(参考訳) 記号表現は時間データの次元削減に有用なツールであり、時系列からの効率的な記憶と情報検索を可能にする。 また、ノイズ低減とハイパーパラメータへの感度の低減を通じて、時系列データによる機械学習アルゴリズムのトレーニングを強化することもできる。 適応的ブラウンブリッジベースアグリゲーション (ABBA) 法はそのような効果的で堅牢なシンボル表現であり、時系列における重要な傾向や形状を正確に捉えることを実証している。 しかし、現在の方法では、非常に大きな時系列を処理するのに苦労している。 ここでは、ABBA法の新しい変種であるfABBAを提案する。 この変種は、時系列の断片表現に合わせた新しい集約アプローチを利用する。 ABBAで使用されるk平均クラスタリングをソートベースアグリゲーション技術に置き換えることで、繰り返し発生する2乗誤差計算を避けることにより、計算複雑性を著しく低減する。 従来の手法とは対照的に、新しいアプローチでは事前に指定する時系列シンボルの数を必要としない。 大規模なテストにより,新しい手法はABBAよりも大幅に性能が向上し,SAXおよび1d-SAX表現の再現精度も優れていた。 さらに、fABBAが画像などの他のデータ型を圧縮できることを実証する。

Symbolic representations are a useful tool for the dimension reduction of temporal data, allowing for the efficient storage of and information retrieval from time series. They can also enhance the training of machine learning algorithms on time series data through noise reduction and reduced sensitivity to hyperparameters. The adaptive Brownian bridge-based aggregation (ABBA) method is one such effective and robust symbolic representation, demonstrated to accurately capture important trends and shapes in time series. However, in its current form the method struggles to process very large time series. Here we present a new variant of the ABBA method, called fABBA. This variant utilizes a new aggregation approach tailored to the piecewise representation of time series. By replacing the k-means clustering used in ABBA with a sorting-based aggregation technique, and thereby avoiding repeated sum-of-squares error computations, the computational complexity is significantly reduced. In contrast to the original method, the new approach does not require the number of time series symbols to be specified in advance. Through extensive tests we demonstrate that the new method significantly outperforms ABBA with a considerable reduction in runtime while also outperforming the popular SAX and 1d-SAX representations in terms of reconstruction accuracy. We further demonstrate that fABBA can compress other data types such as images.
翻訳日:2022-01-22 19:08:00 公開日:2022-01-14
# (参考訳) 低リソースニューラルマシン翻訳におけるコスト効率の訓練 [全文訳有]

Cost-Effective Training in Low-Resource Neural Machine Translation ( http://arxiv.org/abs/2201.05700v1 )

ライセンス: CC BY 4.0
Sai Koneru, Danni Liu, Jan Niehues(参考訳) ニューラルネットワーク翻訳(NMT)では、アクティブラーニング(AL)技術が研究されているが、限られた数の文が翻訳できる低いアノテーション予算に対処することに注力する研究はほとんどない。 このような状況は特に困難であり、人間の注釈がほとんどない絶滅危惧言語や、大量のデータをラベル付けするためのコスト制約によって起こりうる。 alは大規模な予算で役立つことが示されているが、低リソース環境で高品質な翻訳システムを構築するには不十分である。 本研究では,少数の注釈文と辞書エントリを用いたNMTモデルの性能向上のための費用対効果トレーニング手法を提案する。 本手法は,単言語データと自己教師対象データと,ALを適用する前にNMTモデルを初期化するための小型かつ安価な辞書を利用する。 これらの知識源の組み合わせによるモデルの改善は、AL戦略の活用と低リソース条件での利得向上に不可欠であることを示す。 また,NMTのドメイン適応にインスパイアされた新たなAL戦略を提案し,低予算で有効であることを示す。 ラベル付きデータから多様な文を抽出し,ラベル付きデータに最も近い文を抽出できる,新しいハイブリッドデータ駆動手法を提案する。 最後に,NMTモデルの初期化とAL戦略のさらなる活用により,従来のAL手法と比較して最大13ドルBLEUの利益が得られることを示す。

While Active Learning (AL) techniques are explored in Neural Machine Translation (NMT), only a few works focus on tackling low annotation budgets where a limited number of sentences can get translated. Such situations are especially challenging and can occur for endangered languages with few human annotators or having cost constraints to label large amounts of data. Although AL is shown to be helpful with large budgets, it is not enough to build high-quality translation systems in these low-resource conditions. In this work, we propose a cost-effective training procedure to increase the performance of NMT models utilizing a small number of annotated sentences and dictionary entries. Our method leverages monolingual data with self-supervised objectives and a small-scale, inexpensive dictionary for additional supervision to initialize the NMT model before applying AL. We show that improving the model using a combination of these knowledge sources is essential to exploit AL strategies and increase gains in low-resource conditions. We also present a novel AL strategy inspired by domain adaptation for NMT and show that it is effective for low budgets. We propose a new hybrid data-driven approach, which samples sentences that are diverse from the labelled data and also most similar to unlabelled data. Finally, we show that initializing the NMT model and further using our AL strategy can achieve gains of up to $13$ BLEU compared to conventional AL methods.
翻訳日:2022-01-22 18:46:00 公開日:2022-01-14
# (参考訳) トランスニューラルネットワークを用いた拡散テンソル推定 [全文訳有]

Diffusion Tensor Estimation with Transformer Neural Networks ( http://arxiv.org/abs/2201.05701v1 )

ライセンス: CC BY 4.0
Davood Karimi and Ali Gholipour(参考訳) 拡散テンソルイメージング(DTI)は、脳白質の発生と変性を研究するために最も広く用いられるツールである。 しかし、標準dti推定法は多数の高品質な測定値に依存する。 これは長いスキャン時間が必要であり、新生児のような特定の患者集団では特に困難である。 本稿では,6つの拡散重み付き測定値から拡散テンソルを正確に推定する手法を提案する。 本手法は,隣り合うボクセルの拡散信号とテンソルの関係を学習することでこれを実現する。 我々のモデルはトランスフォーマーネットワークに基づいており、シーケンス内の信号間の関係をモデル化する技術の現状を表している。 特に、我々のモデルは2つのネットワークから構成される。 第1のネットワークは、ボクセル近傍の拡散信号に基づいて拡散テンソルを推定する。 第2のネットワークは、拡散信号と隣接するボクセルの第1のネットワークで推定されるテンソルの関係を学習することにより、より正確なテンソル推定を提供する。 提案手法は, 3つのデータセットを用いた実験により, 拡散テンソルの高精度な推定が可能であり, 競合する3つの方法よりも有意に優れていることを示す。 6つの測定値を用いた推定は、標準推定法と30-88個の測定値と同等である。 したがって, 新生児や乳児などの非協力的な患者では, 脳白質のスキャン時間が短く, 信頼性の高い評価が期待できる。

Diffusion tensor imaging (DTI) is the most widely used tool for studying brain white matter development and degeneration. However, standard DTI estimation methods depend on a large number of high-quality measurements. This would require long scan times and can be particularly difficult to achieve with certain patient populations such as neonates. Here, we propose a method that can accurately estimate the diffusion tensor from only six diffusion-weighted measurements. Our method achieves this by learning to exploit the relationships between the diffusion signals and tensors in neighboring voxels. Our model is based on transformer networks, which represent the state of the art in modeling the relationship between signals in a sequence. In particular, our model consists of two such networks. The first network estimates the diffusion tensor based on the diffusion signals in a neighborhood of voxels. The second network provides more accurate tensor estimations by learning the relationships between the diffusion signals as well as the tensors estimated by the first network in neighboring voxels. Our experiments with three datasets show that our proposed method achieves highly accurate estimations of the diffusion tensor and is significantly superior to three competing methods. Estimations produced by our method with six measurements are comparable with those of standard estimation methods with 30-88 measurements. Hence, our method promises shorter scan times and more reliable assessment of brain white matter, particularly in non-cooperative patients such as neonates and infants.
翻訳日:2022-01-22 18:33:03 公開日:2022-01-14
# (参考訳) NIST CPSフレームワークのレンズによるCPSの特定と推論

Specifying and Reasoning about CPS through the Lens of the NIST CPS Framework ( http://arxiv.org/abs/2201.05710v1 )

ライセンス: CC0 1.0
Thanh Hai Nguyen, Matthew Bundas, Tran Cao Son, Marcello Balduccini, Kathleen Campbell Garwood, Edward R. Griffor(参考訳) 本稿では,国立標準技術研究所(NIST)が提唱したCPSフレームワークの精神に,サイバー物理システム(CPS)の形式的定義を導入する。 この定義を用いることで、cpsにおける関心に関する様々な問題を正確に形式化し、解集合プログラミング(asp)を用いて実装できることを示す。 これには、依存関係や懸念間の衝突、問題の緩和方法、特定の問題に対する最も適切な緩和戦略などに関する問題が含まれます。 次に、上記の問題に対処する実装を開発するためにASPがどのように使用できるかを示す。 この論文は、提案手法の可能性を議論して締めくくっている。

This paper introduces a formal definition of a Cyber-Physical System (CPS) in the spirit of the CPS Framework proposed by the National Institute of Standards and Technology (NIST). It shows that using this definition, various problems related to concerns in a CPS can be precisely formalized and implemented using Answer Set Programming (ASP). These include problems related to the dependency or conflicts between concerns, how to mitigate an issue, and what the most suitable mitigation strategy for a given issue would be. It then shows how ASP can be used to develop an implementation that addresses the aforementioned problems. The paper concludes with a discussion of the potentials of the proposed methodologies.
翻訳日:2022-01-22 18:16:46 公開日:2022-01-14
# (参考訳) taylor-lagrange neural normal differential equation:高速トレーニングとニューラルネットワークの評価に向けて [全文訳有]

Taylor-Lagrange Neural Ordinary Differential Equations: Toward Fast Training and Evaluation of Neural ODEs ( http://arxiv.org/abs/2201.05715v1 )

ライセンス: CC0 1.0
Franck Djeumou, Cyrus Neary, Eric Goubault, Sylvie Putot, and Ufuk Topcu(参考訳) ニューラルネットワークを用いた微分方程式のパラメトリゼーションであるニューラル常微分方程式(ノード)は、データから未知の連続時間力学系の学習モデルにおいて非常に有望である。 しかしながら、ノードの前方評価には、システムダイナミクスをキャプチャするために使用されるニューラルネットワークの数値的統合が必要であり、そのトレーニングは極めて高価である。 既存の作業では、トレーニングに十分な精度を得るためには、基礎となる動的ネットワークの過度な評価を必要とする場合が多い。 対照的に,データ駆動アプローチを数値積分に提案することにより,ノードの評価とトレーニングを高速化する。 提案したTaylor-Lagrange NODEs (TL-NODEs) は数値積分のために固定階Taylor拡張を使用し、拡張の近似誤差を推定する。 その結果,提案手法は低次テイラー展開のみを用いながら適応ステップサイズスキームと同等の精度を実現し,ノード統合に必要な計算コストを大幅に削減した。 動的システムのモデリング、画像分類、密度推定を含む一連の数値実験により、TL-NODEは最先端のアプローチよりも桁違いに高速に訓練でき、性能が損なわれないことを示した。

Neural ordinary differential equations (NODEs) -- parametrizations of differential equations using neural networks -- have shown tremendous promise in learning models of unknown continuous-time dynamical systems from data. However, every forward evaluation of a NODE requires numerical integration of the neural network used to capture the system dynamics, making their training prohibitively expensive. Existing works rely on off-the-shelf adaptive step-size numerical integration schemes, which often require an excessive number of evaluations of the underlying dynamics network to obtain sufficient accuracy for training. By contrast, we accelerate the evaluation and the training of NODEs by proposing a data-driven approach to their numerical integration. The proposed Taylor-Lagrange NODEs (TL-NODEs) use a fixed-order Taylor expansion for numerical integration, while also learning to estimate the expansion's approximation error. As a result, the proposed approach achieves the same accuracy as adaptive step-size schemes while employing only low-order Taylor expansions, thus greatly reducing the computational cost necessary to integrate the NODE. A suite of numerical experiments, including modeling dynamical systems, image classification, and density estimation, demonstrate that TL-NODEs can be trained more than an order of magnitude faster than state-of-the-art approaches, without any loss in performance.
翻訳日:2022-01-22 18:15:50 公開日:2022-01-14
# Digital Twin: 概念から実践へ

Digital Twin: From Concept to Practice ( http://arxiv.org/abs/2201.06912v1 )

ライセンス: Link先を確認
Ashwin Agrawal, Martin Fischer, Vishal Singh(参考訳) 近年の人工知能(AI)の技術開発と進歩により、高度な能力がDigital Twin(DT)の一部となり、作業プロセスのあらゆる側面に自動化を導入することが可能になった。 DTが提供できる可能性を考えると、実践者はDTを実際にデプロイしながらどの機能を選択すべきかという、ますます難しい決定に直面しています。 この分野での研究の欠如も役に立たなかった。 その結果、DTに必要な構成要素として、予測、シミュレーション、AI、マシンラーニング(ML)といった新興技術機能のブランド変更と再利用が実現した。 DTにおける機能の不適切な選択は、機会の欠如、戦略的不一致、期待が膨らむこと、そして実践者によって単に誇大広告として拒否されるリスクをもたらす可能性がある。 この課題を軽減するために,デザインサイエンスリサーチ(DSR)手法を18ヶ月にわたって適用して設計・開発するデジタル化フレームワークを提案する。 このフレームワークは、各レベルの長所と短所を測り、デジタルツインシステムの評価基準を決定し、選択したDTが組織プロセスや戦略、価値創造に与える影響を評価することにより、実践者がDTの適切な高度化のレベルを選択するのに役立つ。 実生活における3つのケーススタディは、フレームワークの適用と有用性を示している。

Recent technological developments and advances in Artificial Intelligence (AI) have enabled sophisticated capabilities to be a part of Digital Twin (DT), virtually making it possible to introduce automation into all aspects of work processes. Given these possibilities that DT can offer, practitioners are facing increasingly difficult decisions regarding what capabilities to select while deploying a DT in practice. The lack of research in this field has not helped either. It has resulted in the rebranding and reuse of emerging technological capabilities like prediction, simulation, AI, and Machine Learning (ML) as necessary constituents of DT. Inappropriate selection of capabilities in a DT can result in missed opportunities, strategic misalignments, inflated expectations, and risk of it being rejected as just hype by the practitioners. To alleviate this challenge, this paper proposes the digitalization framework, designed and developed by following a Design Science Research (DSR) methodology over a period of 18 months. The framework can help practitioners select an appropriate level of sophistication in a DT by weighing the pros and cons for each level, deciding evaluation criteria for the digital twin system, and assessing the implications of the selected DT on the organizational processes and strategies, and value creation. Three real-life case studies illustrate the application and usefulness of the framework.
翻訳日:2022-01-19 18:41:47 公開日:2022-01-14
# 対象を比較する数学

The Mathematics of Comparing Objects ( http://arxiv.org/abs/2201.07032v1 )

ライセンス: Link先を確認
Marcus Weber, Konstantin Fackeldey(参考訳) 2つの異なる犯罪記事を読んだ後、人工知能は両方の物語で、警察が犯人をランダムに発見したと結論づける。 '' -- 何が拡張され、どの仮定の下で、これは現実的なシナリオの説明となるのか?

`After reading two different crime stories, an artificial intelligence concludes that in both stories the police has found the murderer just by random.'' -- To what extend and under which assumptions this is a description of a realistic scenario?
翻訳日:2022-01-19 17:56:08 公開日:2022-01-14
# TCR-GAN:赤外画像を用いた熱帯サイクロン受動マイクロ波降雨予測

TCR-GAN: Predicting tropical cyclone passive microwave rainfall using infrared imagery via generative adversarial networks ( http://arxiv.org/abs/2201.07000v1 )

ライセンス: Link先を確認
Fan Meng, Tao Song, Danya Xu(参考訳) 熱帯サイクロン(tc)は一般的に大量の水蒸気を持ち、大規模な極端な降雨を引き起こすことがある。 マイクロ波センサの低時間分解能のため,高空間分解能,高時間分解能のTCMのパッシブマイクロ波降雨(PMR)推定はTTCの災害警報に不可欠であるが,依然として課題である。 本研究は、TCの衛星赤外線画像から直接PMRを予測することにより、この問題を解決する。 我々は, 赤外線画像をPMRに変換するGAN(Generative Adversarial Network)を開発し, TCクラウドトップの明るい温度とPMRのマッピング関係を確立し, そのアルゴリズムをTCR-GANと呼ぶ。 一方、ベンチマークとして利用可能な新しいデータセットとして、熱帯サイクロンのIR-to-Rainfall Prediction(TCIRRP)が確立され、この方向に人工知能の発展が進むことが期待されている。 実験の結果,IRから重要な特徴を効果的に抽出できることが示唆された。 エンドツーエンドのディープラーニングアプローチは、グローバルに適用可能なテクニックとしての可能性を示し、衛星による熱帯性サイクロン降雨予測の新たな視点を提供する。

Tropical cyclones (TC) generally carry large amounts of water vapor and can cause large-scale extreme rainfall. Passive microwave rainfall (PMR) estimation of TC with high spatial and temporal resolution is crucial for disaster warning of TC, but remains a challenging problem due to the low temporal resolution of microwave sensors. This study attempts to solve this problem by directly forecasting PMR from satellite infrared (IR) images of TC. We develop a generative adversarial network (GAN) to convert IR images into PMR, and establish the mapping relationship between TC cloud-top bright temperature and PMR, the algorithm is named TCR-GAN. Meanwhile, a new dataset that is available as a benchmark, Dataset of Tropical Cyclone IR-to-Rainfall Prediction (TCIRRP) was established, which is expected to advance the development of artificial intelligence in this direction. Experimental results show that the algorithm can effectively extract key features from IR. The end-to-end deep learning approach shows potential as a technique that can be applied globally and provides a new perspective tropical cyclone precipitation prediction via satellite, which is expected to provide important insights for real-time visualization of TC rainfall globally in operations.
翻訳日:2022-01-19 17:10:25 公開日:2022-01-14
# マスク付きオートエンコーダによる時系列生成

Time Series Generation with Masked Autoencoder ( http://arxiv.org/abs/2201.07006v1 )

ライセンス: Link先を確認
Mengyue Zha(参考訳) 本稿では,InterpoMAE (InterpoMAE) を用いたマスク付きオートエンコーダが,時系列のスケーラブルな自己教師型ジェネレータであることを示す。 インターポマエは入力時系列からランダムなパッチをマスクし、補間器によって潜在空間の欠落したパッチを復元する。 中心となる設計は、interpomaeはマスクトークンではなくインターポレータを使用して、潜在スペースに欠落しているパッチの潜在表現を復元する。 この設計により、双方向情報による時間的ダイナミクスのより効率的かつ効果的なキャプチャが可能になる。 InterpoMAEは、マスクされたパッチのサイズと数を変更することで、合成データの多様性を明確に制御できる。 我々のアプローチは、複数の実データセット上の時系列生成における教師なし学習の最先端(SoTA)ベンチマークを一貫して大幅に上回る。 生成した合成データは、データ拡張、インプット、復調など、さまざまな下流タスクで有望なスケーリング動作を示す。

This paper shows that masked autoencoders with interpolators (InterpoMAE) are scalable self-supervised generators for time series. InterpoMAE masks random patches from the input time series and restore the missing patches in the latent space by an interpolator. The core design is that InterpoMAE uses an interpolator rather than mask tokens to restore the latent representations for missing patches in the latent space. This design enables more efficient and effective capture of temporal dynamics with bidirectional information. InterpoMAE allows for explicit control on the diversity of synthetic data by changing the size and number of masked patches. Our approach consistently and significantly outperforms state-of-the-art (SoTA) benchmarks of unsupervised learning in time series generation on several real datasets. Synthetic data produced show promising scaling behavior in various downstream tasks such as data augmentation, imputation and denoise.
翻訳日:2022-01-19 17:10:01 公開日:2022-01-14
# OrchestRAN: Open RANにおけるオーケストレーションインテリジェンスによるネットワーク自動化

OrchestRAN: Network Automation through Orchestrated Intelligence in the Open RAN ( http://arxiv.org/abs/2201.05632v1 )

ライセンス: Link先を確認
Salvatore D'Oro, Leonardo Bonati, Michele Polese, and Tommaso Melodia(参考訳) 次世代のセルネットワークの特徴は、ネットワークインテリジェンスを実現するために分析と制御ノブを暴露するソフトウォーマ、オープン、非凝集アーキテクチャである。 しかし、このビジョンを実現する方法は、主にオープンな問題である。 本稿では,これらの課題に対する実用的な解決策を提供するために,Open RANパラダイムを取り入れ,構築する新しいオーケストレーションフレームワークであるOrchestRANを提示し,プロトタイピングすることで,決定的な一歩を踏み出す。 OrchestRANは、非リアルタイムRAN Intelligent Controller(RIC)で実行するために設計されており、ネットワークオペレーター(NOs)が高レベルな制御/推論の目的(すなわち、ニューヨーク中心街の基地局のほぼリアルタイムでのスケジューリングと予測能力)を指定することができる。 OrchestRANは、最適なデータ駆動アルゴリズムセットとその実行場所を自動的に計算し、所望のタイミング要件を満たしながら、NOが指定した意図を達成する。 オープンRANにおけるインテリジェンスを編成する問題はNPハードであり、現実のアプリケーションをサポートするために低複雑さのソリューションを設計する。 OrchestRANをプロトタイプとしてColosseumで大規模にテストしています。 7つのベースステーションと42のユーザからなるネットワーク上の実験結果から,orchestornは最小限のコントロールオーバーヘッドとレイテンシで,オンデマンドでデータ駆動サービスをインスタンス化できることが分かりました。

The next generation of cellular networks will be characterized by softwarized, open, and disaggregated architectures exposing analytics and control knobs to enable network intelligence. How to realize this vision, however, is largely an open problem. In this paper, we take a decisive step forward by presenting and prototyping OrchestRAN, a novel orchestration framework that embraces and builds upon the Open RAN paradigm to provide a practical solution to these challenges. OrchestRAN has been designed to execute in the non-real-time RAN Intelligent Controller (RIC) and allows Network Operators (NOs) to specify high-level control/inference objectives (i.e., adapt scheduling, and forecast capacity in near-real-time for a set of base stations in Downtown New York). OrchestRAN automatically computes the optimal set of data-driven algorithms and their execution location to achieve intents specified by the NOs while meeting the desired timing requirements. We show that the problem of orchestrating intelligence in Open RAN is NP-hard, and design low-complexity solutions to support real-world applications. We prototype OrchestRAN and test it at scale on Colosseum. Our experimental results on a network with 7 base stations and 42 users demonstrate that OrchestRAN is able to instantiate data-driven services on demand with minimal control overhead and latency.
翻訳日:2022-01-19 17:09:01 公開日:2022-01-14
# 技術支援レビューにおける手作業負荷削減に向けて--ランキングパフォーマンスの推定

Towards Reducing Manual Workload in Technology-Assisted Reviews: Estimating Ranking Performance ( http://arxiv.org/abs/2201.05648v1 )

ライセンス: Link先を確認
Grace E. Lee and Aixin Sun(参考訳) 体系的レビュー(SR)の実行は、複数のタスクで構成される。 (i)デジタル図書館(例えば、pubmed)から関連性の高いであろう文書(証書)を収集する。 (二 文書を関係又は無関係と手動で読み、表示すること。) (iii)関連研究から情報を抽出すること、及び (iv)情報を分析し合成し、SRの結論を導出する。 研究者が研究にラベルをつけると、関連する文書が無関係のものよりも高いランクの文書をスクリーニングすることができる。 このプラクティスは、スクリーニング優先順位付け(文書ランク付けアプローチ)と呼ばれ、関連する文書とラベル付けされたドキュメントがより早く次のタスクに移行するため、SRを実行するプロセスを高速化する。 しかし、画面へのドキュメントの合計数が同じであるため、手動作業の削減には制限がある。 スクリーニングプロセスにおける手作業量の削減に向けて,SRの文書ランキングの品質について検討する。 これは、ランキングに関連する研究の場所がどこにあるかを研究者に知らせ、スクリーニングをどこで止めるかを決めることができる。 異なるランキングモデルからSR文書のランキングを広範囲に分析した結果、SRのランキング品質に影響を与える要因として「トピックワイドネス」を仮定した。 最後に,話題の広さを推定する手法を提案し,提案手法がsrsの文書ランキングの質を予測するための単純かつ効果的な手法であることを実証する。

Conducting a systematic review (SR) is comprised of multiple tasks: (i) collect documents (studies) that are likely to be relevant from digital libraries (eg., PubMed), (ii) manually read and label the documents as relevant or irrelevant, (iii) extract information from the relevant studies, and (iv) analyze and synthesize the information and derive a conclusion of SR. When researchers label studies, they can screen ranked documents where relevant documents are higher than irrelevant ones. This practice, known as screening prioritization (ie., document ranking approach), speeds up the process of conducting a SR as the documents labelled as relevant can move to the next tasks earlier. However, the approach is limited in reducing the manual workload because the total number of documents to screen remains the same. Towards reducing the manual workload in the screening process, we investigate the quality of document ranking of SR. This can signal researchers whereabouts in the ranking relevant studies are located and let them decide where to stop the screening. After extensive analysis on SR document rankings from different ranking models, we hypothesize 'topic broadness' as a factor that affects the ranking quality of SR. Finally, we propose a measure that estimates the topic broadness and demonstrate that the proposed measure is a simple yet effective method to predict the qualities of document rankings for SRs.
翻訳日:2022-01-19 16:48:56 公開日:2022-01-14
# クロスドメイン海馬セグメンテーションを可能にするジエンタングルメント

Disentanglement enables cross-domain Hippocampus Segmentation ( http://arxiv.org/abs/2201.05650v1 )

ライセンス: Link先を確認
John Kalkhof, Camila Gonz\'alez, Anirban Mukhopadhyay(参考訳) 限定されたラベル付きトレーニングデータは、医療画像における一般的な問題である。 これにより、よく一般化されたモデルをトレーニングすることが難しくなり、しばしば未知のドメインで失敗する。 MRIによる海馬分画は神経精神疾患の診断と治療に重要である。 コントラストや形状のドメイン差はセグメンテーションに大きく影響する。 我々は,T1強調MRI像を内容と領域に切り離し,この問題に対処する。 この分離により、ドメイン転送を実行し、新たなソースからトレーニングドメインへのデータ変換が可能になります。 このステップは、セグメンテーション問題を単純化し、より高い品質セグメンテーションをもたらす。 本稿では,提案手法である"Content Domain Disentanglement GAN"を用いて,GAN固有のアーティファクトを扱うために,変換出力に基づいてUNetをトレーニングすることを提案する。 これらの変更により、未確認領域の性能を6-13%向上させ、最先端ドメイン転送方法より優れる。

Limited amount of labelled training data are a common problem in medical imaging. This makes it difficult to train a well-generalised model and therefore often leads to failure in unknown domains. Hippocampus segmentation from magnetic resonance imaging (MRI) scans is critical for the diagnosis and treatment of neuropsychatric disorders. Domain differences in contrast or shape can significantly affect segmentation. We address this issue by disentangling a T1-weighted MRI image into its content and domain. This separation enables us to perform a domain transfer and thus convert data from new sources into the training domain. This step thus simplifies the segmentation problem, resulting in higher quality segmentations. We achieve the disentanglement with the proposed novel methodology 'Content Domain Disentanglement GAN', and we propose to retrain the UNet on the transformed outputs to deal with GAN-specific artefacts. With these changes, we are able to improve performance on unseen domains by 6-13% and outperform state-of-the-art domain transfer methods.
翻訳日:2022-01-19 15:09:36 公開日:2022-01-14
# 物理インフォームドニューラルネットワークによる科学機械学習:我々は今どこにいて、次は何になるのか

Scientific Machine Learning through Physics-Informed Neural Networks: Where we are and What's next ( http://arxiv.org/abs/2201.05624v1 )

ライセンス: Link先を確認
Salvatore Cuomo, Vincenzo Schiano di Cola, Fabio Giampaolo, Gianluigi Rozza, Maizar Raissi and Francesco Piccialli(参考訳) physic-informed neural networks(pinn)は、ニューラルネットワーク自体の一部として偏微分方程式(pde)のようなモデル方程式を符号化するニューラルネットワーク(nn)である。 PINNは現在、PDE、分数方程式、積分微分方程式を解くために使われている。 この手法は、NNがPDE残差を低減しつつ観測データに適合しなければならないマルチタスク学習フレームワークとして登場した。 本研究の主な目的は、これらのネットワークとその関連する利点と欠点を特徴づけることであったが、このレビューは、損失関数ではなく、NN構造に直接初期条件または境界条件が埋め込まれる物理制約ニューラルネットワーク(PCNN)を含む、より広範な問題に関する出版を組み込むことも試みている。 この研究は、ほとんどの研究が、異なるアクティベーション関数、勾配最適化技術、ニューラルネットワーク構造、損失関数構造によるPINNのカスタマイズに焦点を当てていることを示している。 PINNが使われている幅広い応用にもかかわらず、有限要素法(FEM)のような古典的な数値技術よりも、いくつかの文脈で実現可能であることを示すことによって、進歩は依然として可能であり、最も顕著な理論上の問題は未解決のままである。

Physic-Informed Neural Networks (PINN) are neural networks (NNs) that encode model equations, like Partial Differential Equations (PDE), as a component of the neural network itself. PINNs are nowadays used to solve PDEs, fractional equations, and integral-differentia l equations. This novel methodology has arisen as a multi-task learning framework in which a NN must fit observed data while reducing a PDE residual. This article provides a comprehensive review of the literature on PINNs: while the primary goal of the study was to characterize these networks and their related advantages and disadvantages, the review also attempts to incorporate publications on a larger variety of issues, including physics-constrained neural networks (PCNN), where the initial or boundary conditions are directly embedded in the NN structure rather than in the loss functions. The study indicates that most research has focused on customizing the PINN through different activation functions, gradient optimization techniques, neural network structures, and loss function structures. Despite the wide range of applications for which PINNs have been used, by demonstrating their ability to be more feasible in some contexts than classical numerical techniques like Finite Element Method (FEM), advancements are still possible, most notably theoretical issues that remain unresolved.
翻訳日:2022-01-19 15:08:15 公開日:2022-01-14
# 継続的データ更新によるモデル安定性

Model Stability with Continuous Data Updates ( http://arxiv.org/abs/2201.05692v1 )

ライセンス: Link先を確認
Huiting Liu, Avinesh P.V.S., Siddharth Patwardhan, Peter Grasch, Sachin Agarwal(参考訳) 本稿では、機械学習モデル(ML)の「安定性」を、連続的なトレーニングデータ更新を伴う大規模で複雑なNLPシステムのコンテキスト内で研究する。 本研究では,様々な実験条件下でモデル安定性を評価する手法を提案する。 ネットワークアーキテクチャや入力表現を含むモデル設計の選択は,4つのテキスト分類タスクと2つのシーケンスラベリングタスクの実験を通じて,安定性に重大な影響を与えることがわかった。 分類タスクでは、非RNNモデルの方がRNNモデルよりも安定であり、エンコーダデコーダモデルはシーケンスラベリングタスクではより安定である。 さらに、事前学習されたfasttext埋め込みに基づく入力表現は他の選択よりも安定性に寄与する。 また、アンサンブルモデルとインクリメンタルトレーニングという2つの学習戦略が安定性に大きな影響を与えていることも示しています。 モデリングの選択を行う際に、MLモデルデザイナが正確さとジッタのトレードオフを考慮することを推奨する。

In this paper, we study the "stability" of machine learning (ML) models within the context of larger, complex NLP systems with continuous training data updates. For this study, we propose a methodology for the assessment of model stability (which we refer to as jitter under various experimental conditions. We find that model design choices, including network architecture and input representation, have a critical impact on stability through experiments on four text classification tasks and two sequence labeling tasks. In classification tasks, non-RNN-based models are observed to be more stable than RNN-based ones, while the encoder-decoder model is less stable in sequence labeling tasks. Moreover, input representations based on pre-trained fastText embeddings contribute to more stability than other choices. We also show that two learning strategies -- ensemble models and incremental training -- have a significant influence on stability. We recommend ML model designers account for trade-offs in accuracy and jitter when making modeling choices.
翻訳日:2022-01-19 15:06:28 公開日:2022-01-14
# 時間スライス合成マイノリティオーバーサンプリング法による欠落観測の示唆

Imputing Missing Observations with Time Sliced Synthetic Minority Oversampling Technique ( http://arxiv.org/abs/2201.05634v1 )

ライセンス: Link先を確認
Andrew Baumgartner, Sevda Molani, Qi Wei and Jennifer Hadlock(参考訳) 本稿では,データセットの各サンプルに対して均一な不規則時系列を構築することを目的とした,単純かつ新しい時系列インプテーション手法を提案する。 具体的には、観察時間の重複しないビン(スライス)の中間点で定義されたグリッドを修正し、各サンプルが所定の時間にすべての機能に対して値を持つことを保証する。 これにより、完全に欠落した観察をインプットし、データ全体の時系列の均一な分類を可能にし、特別な場合には個々の欠落した特徴をインプットすることができる。 そのため、よく知られたクラス不均衡アルゴリズムであるSMOTE \cite{smote} を少し一般化し、欠落した特徴が存在しない場合に相関を保ったコンポーネントワイズ近傍補間を可能にする。 2次元非結合高調波発振器の簡易設定でこの手法を可視化した。 次に、tSMOTEを用いて、異なる2次元発振器の異なる軌跡を予測・分類するために、ロジスティック回帰を用いてエンコーダ/デコーダ長短項メモリ(LSTM)モデルを訓練する。 この文脈で tSMOTE の有用性を説明した後、我々は同じアーキテクチャを用いて、インプットされたデータセット上で、COVID-19 病重症度に関する臨床モデルを訓練する。 本実験は, 患者軌跡のより広いクラスをモデルに認識させることにより, 標準的な平均値と中央値の計算手法の改善, および集約分類モデルの改善を示す。

We present a simple yet novel time series imputation technique with the goal of constructing an irregular time series that is uniform across every sample in a data set. Specifically, we fix a grid defined by the midpoints of non-overlapping bins (dubbed "slices") of observation times and ensure that each sample has values for all of the features at that given time. This allows one to both impute fully missing observations to allow uniform time series classification across the entire data and, in special cases, to impute individually missing features. To do so, we slightly generalize the well-known class imbalance algorithm SMOTE \cite{smote} to allow component wise nearest neighbor interpolation that preserves correlations when there are no missing features. We visualize the method in the simplified setting of 2-dimensional uncoupled harmonic oscillators. Next, we use tSMOTE to train an Encoder/Decoder long-short term memory (LSTM) model with Logistic Regression for predicting and classifying distinct trajectories of different 2D oscillators. After illustrating the the utility of tSMOTE in this context, we use the same architecture to train a clinical model for COVID-19 disease severity on an imputed data set. Our experiments show an improvement over standard mean and median imputation techniques by allowing a wider class of patient trajectories to be recognized by the model, as well as improvement over aggregated classification models.
翻訳日:2022-01-19 14:44:37 公開日:2022-01-14
# 厳密な探索とウェイカー推定を改善した信頼性の高い因果発見

Reliable Causal Discovery with Improved Exact Search and Weaker Assumptions ( http://arxiv.org/abs/2201.05666v1 )

ライセンス: Link先を確認
Ignavier Ng, Yujia Zheng, Jiji Zhang, Kun Zhang(参考訳) 因果発見法の多くは漸近的正しさを保証するために忠実性仮定に依存している。 しかし、仮定は様々な点でほぼ破られ、準最適解が導かれる。 ベイズネットワーク構造学習には、明確に定義されたスコア関数を持つ厳密な探索法のような仮定の弱化に焦点を当てた一連の研究があるが、大きなグラフではうまくスケールしない。 本研究では,線形ガウス設定において,正確なスコアベース手法のスケーラビリティを向上させるためのいくつかの戦略を紹介する。 特に,忠実性よりも厳密に弱い仮定を必要とする逆共分散行列の支持に基づく超構造推定法を開発し,厳密な探索の探索空間を制限するために適用する。 また,各変数とその近傍が生成する局所クラスタを,上位構造内の2つのホップ内で正確に探索する局所探索戦略を提案する。 数値実験により提案手法の有効性を検証し,高い精度で数百個のノードにスケールアップできることを実証した。

Many of the causal discovery methods rely on the faithfulness assumption to guarantee asymptotic correctness. However, the assumption can be approximately violated in many ways, leading to sub-optimal solutions. Although there is a line of research in Bayesian network structure learning that focuses on weakening the assumption, such as exact search methods with well-defined score functions, they do not scale well to large graphs. In this work, we introduce several strategies to improve the scalability of exact score-based methods in the linear Gaussian setting. In particular, we develop a super-structure estimation method based on the support of inverse covariance matrix which requires assumptions that are strictly weaker than faithfulness, and apply it to restrict the search space of exact search. We also propose a local search strategy that performs exact search on the local clusters formed by each variable and its neighbors within two hops in the super-structure. Numerical experiments validate the efficacy of the proposed procedure, and demonstrate that it scales up to hundreds of nodes with a high accuracy.
翻訳日:2022-01-19 14:44:11 公開日:2022-01-14
# 責任あるAIエンジニアリングのためのツールと実践

Tools and Practices for Responsible AI Engineering ( http://arxiv.org/abs/2201.05647v1 )

ライセンス: Link先を確認
Ryan Soklaski, Justin Goodwin, Olivia Brown, Michael Yee and Jason Matterer(参考訳) Responsible Artificial Intelligence(AI) – 堅牢性や説明可能性といった重要な性質を兼ね備えた,正確なAIシステムの開発,評価,維持を行うプラクティス – は,標準的なマシンラーニングツールやフレームワーク,テストメソッドをその限界を越えて拡張する,多面的な課題を表している。 本稿では,AIエンジニアリングにおける重要なニーズに対処する2つの新しいソフトウェアライブラリであるHydra-zenとrAI-toolboxを提案する。 hydra-zenは複雑なAIアプリケーションを構成しやすくするプロセスを劇的に単純化する。 rAI-toolboxは、スケーラブルで、他の一般的なMLフレームワークで自然に構成される方法で、AIモデルの堅牢性を評価し、強化するための方法を可能にするように設計されている。 我々は、ツール自体の信頼性を高めるためにプロパティベースのテストを使用するなど、これらのツールを効果的にする設計原則と方法論について説明する。 最後に,逆ロバスト性や説明可能なaiといったさまざまなユースケースを,使い慣れたapiで簡潔に実装できることを示すことにより,ツールの構成可能性と柔軟性を示す。

Responsible Artificial Intelligence (AI) - the practice of developing, evaluating, and maintaining accurate AI systems that also exhibit essential properties such as robustness and explainability - represents a multifaceted challenge that often stretches standard machine learning tooling, frameworks, and testing methods beyond their limits. In this paper, we present two new software libraries - hydra-zen and the rAI-toolbox - that address critical needs for responsible AI engineering. hydra-zen dramatically simplifies the process of making complex AI applications configurable, and their behaviors reproducible. The rAI-toolbox is designed to enable methods for evaluating and enhancing the robustness of AI-models in a way that is scalable and that composes naturally with other popular ML frameworks. We describe the design principles and methodologies that make these tools effective, including the use of property-based testing to bolster the reliability of the tools themselves. Finally, we demonstrate the composability and flexibility of the tools by showing how various use cases from adversarial robustness and explainable AI can be concisely implemented with familiar APIs.
翻訳日:2022-01-19 14:19:12 公開日:2022-01-14
# 遠近変換層

Perspective Transformation Layer ( http://arxiv.org/abs/2201.05706v1 )

ライセンス: Link先を確認
Nishan Khatri, Agnibh Dasgupta, Yucong Shen, Xin Zhong, Frank Shih(参考訳) 近年,観測者と物体間の相対的な位置変化をコンピュータビジョンやディープラーニングモデルに反映した幾何学的変換が注目されている。 しかし、既存の提案は主に視点の変化を完全に示さないアフィン変換に焦点を当てている。 さらに、現在のソリューションでは、ニューラルネットワークモジュールを単一のトランスフォーメーションマトリックスの学習に適用することが多く、さまざまな視点の可能性を無視して、追加のto-be-trainedモジュールパラメータを生成する。 本稿では,アフィン変換におけるジオメトリをモデル化するだけでなく,視点変化を反映した視点変換を学習するために,層(PT層)を提案する。 さらに、畳み込み層のような従来の層のような勾配降下で直接トレーニングできるので、単一のpt層はモジュールパラメータをトレーニングすることなく、調整可能な複数の視点を学習することができる。 実験および評価により, 提案するpt層の優性が確認された。

Incorporating geometric transformations that reflect the relative position changes between an observer and an object into computer vision and deep learning models has attracted much attention in recent years. However, the existing proposals mainly focus on affine transformations that cannot fully show viewpoint changes. Furthermore, current solutions often apply a neural network module to learn a single transformation matrix, which ignores the possibility for various viewpoints and creates extra to-be-trained module parameters. In this paper, a layer (PT layer) is proposed to learn the perspective transformations that not only model the geometries in affine transformation but also reflect the viewpoint changes. In addition, being able to be directly trained with gradient descent like traditional layers such as convolutional layers, a single proposed PT layer can learn an adjustable number of multiple viewpoints without training extra module parameters. The experiments and evaluations confirm the superiority of the proposed PT layer.
翻訳日:2022-01-19 13:59:07 公開日:2022-01-14
# ゼロショットマシンアンラーニング

Zero-Shot Machine Unlearning ( http://arxiv.org/abs/2201.05629v1 )

ライセンス: Link先を確認
Vikram S Chundawat, Ayush K Tarun, Murari Mandal, Mohan Kankanhalli(参考訳) 機械学習(ML)アプリケーションに必要な規制コンプライアンスの必要性が高まっているため、新しいプライバシ規則の導入により、機械学習は新たな研究課題になりつつある。 現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。 これはストレージアーカイブからだけでなく、MLモデルからもデータを削除する必要がある。 忘れられる権利は、すでに訓練済みのMLモデルから特定のセットまたはクラスのデータを削除する形で与えられる。 実際の考慮事項は、削除されたデータのスクラッチからモデルの再トレーニングを妨げる。 既存の研究では、トレーニングデータ全体、トレーニングデータのサブセット、トレーニング中に保存されたメタデータを使用して、アンラーニングのためのモデルの重み付けを更新する。 しかし、厳格な規制順守には、データのタイムバウンド削除が必要である。 したがって、多くの場合、未学習目的であっても、トレーニングプロセスやトレーニングサンプルに関するデータにアクセスできない。 ですから私たちは,トレーニングサンプルをゼロにすることで,アンラーニングを達成できますか? 本稿では,ゼロ・ショット・マシン・アンラーニング(ゼロ・ショット・マシン・アンラーニング)という,ゼロ・オリジナル・データ・サンプルが利用できる極端に実用的なシナリオを提案する。 次にゼロショットマシンアンラーニングのための2つの新しい解法を提案する。 (a)誤差最小化・最大化ノイズ、及び (b)強制的な知識移転 また,新しい評価指標である anamnesis index (ain) を導入し,アンラーニング手法の品質を効果的に測定する。 この実験は、ベンチマークビジョンデータセット上でのディープラーニングモデルの学習を未学習にするための有望な結果を示す。 ソースコードは一般公開される予定だ。

With the introduction of new privacy regulations, machine unlearning is becoming an emerging research problem due to an increasing need for regulatory compliance required for machine learning (ML) applications. Modern privacy regulations grant citizens the right to be forgotten by products, services and companies. This necessitates deletion of data not only from storage archives but also from ML model. The right to be forgotten requests come in the form of removal of a certain set or class of data from the already trained ML model. Practical considerations preclude retraining of the model from scratch minus the deleted data. The few existing studies use the whole training data, or a subset of training data, or some metadata stored during training to update the model weights for unlearning. However, strict regulatory compliance requires time-bound deletion of data. Thus, in many cases, no data related to the training process or training samples may be accessible even for the unlearning purpose. We therefore ask the question: is it possible to achieve unlearning with zero training samples? In this paper, we introduce the novel problem of zero-shot machine unlearning that caters for the extreme but practical scenario where zero original data samples are available for use. We then propose two novel solutions for zero-shot machine unlearning based on (a) error minimizing-maximizin g noise and (b) gated knowledge transfer. We also introduce a new evaluation metric, Anamnesis Index (AIN) to effectively measure the quality of the unlearning method. The experiments show promising results for unlearning in deep learning models on benchmark vision data-sets. The source code will be made publicly available.
翻訳日:2022-01-19 13:42:09 公開日:2022-01-14
# 登録及び法的文書から情報を抽出するシーケンス・ツー・シーケンスモデル

Sequence-to-Sequence Models for Extracting Information from Registration and Legal Documents ( http://arxiv.org/abs/2201.05658v1 )

ライセンス: Link先を確認
Ramon Pires and F\'abio C. de Souza and Guilherme Rosa and Roberto A. Lotufo and Rodrigo Nogueira(参考訳) 典型的な情報抽出パイプラインは、トークンまたはスパンレベルの分類モデルと、一連の前処理および後処理スクリプトで構成される。 運用パイプラインでは、クラスの追加と削除によって要件が頻繁に変更されるため、ソースコードに対する非自明な変更とバグの可能性がある。 本研究では,法的および登録文書の情報抽出のためのトークンレベルの分類手法の代替としてシーケンス・ツー・シーケンス・モデルを評価する。 情報を抽出し、既に構造化されたフォーマットで出力するモデルを微調整する。 後処理ステップはトレーニング中に学習され、ルールベースのメソッドの必要性を排除し、パイプラインを簡素化する。 さらに,出力を入力テキストと整合させる新しい手法を提案することで,システムの検査と監査が容易になる。 実世界の4つのデータセットに対する実験により,提案手法が古典的なパイプラインに代わるものであることを示す。

A typical information extraction pipeline consists of token- or span-level classification models coupled with a series of pre- and post-processing scripts. In a production pipeline, requirements often change, with classes being added and removed, which leads to nontrivial modifications to the source code and the possible introduction of bugs. In this work, we evaluate sequence-to-sequence models as an alternative to token-level classification methods for information extraction of legal and registration documents. We finetune models that jointly extract the information and generate the output already in a structured format. Post-processing steps are learned during training, thus eliminating the need for rule-based methods and simplifying the pipeline. Furthermore, we propose a novel method to align the output with the input text, thus facilitating system inspection and auditing. Our experiments on four real-world datasets show that the proposed method is an alternative to classical pipelines.
翻訳日:2022-01-19 13:13:43 公開日:2022-01-14
# (参考訳) Manifoldron: Manifold Discoveryによる直接の宇宙分割 [全文訳有]

Manifoldron: Direct Space Partition via Manifold Discovery ( http://arxiv.org/abs/2201.05279v1 )

ライセンス: CC BY 4.0
Dayang Wang, Feng-Lei Fan, Bo-Jian Hou, Hao Zhang, Rongjie Lai, Hengyong Yu, Fei Wang(参考訳) 広く使われているReLU活性化を持つニューラルネットワークは、サンプル空間を予測のために多くの凸ポリトープに分割することが示されている。 しかしながら、ニューラルネットワークやその他の機械学習モデルが空間を分割するために使用するパラメータ化手法には、複雑なモデルに対する妥協された解釈可能性、モデルの汎用的な特徴による決定境界構築の柔軟性、ショートカットソリューションに閉じ込められるリスクなど、不完全性がある。 対照的に、非パラメータモデルではこれらの問題を好ましく避けたり、軽視したりすることはできるが、それらは通常、単純化されたり、データの多様体構造に適応できないために、不十分に強力である。 本稿ではまず,データから決定境界を直接導出し,多様体構造探索により空間を分割する,Manifoldronと呼ばれる新しい機械学習モデルを提案する。 次に, 可視性, 多様体キャラクタリゼーション能力, ニューラルネットワークとのリンクなど, 多様体論の重要な特性を体系的に解析する。 9個の大規模データセットと11個の大規模データセットにおける実験結果から,提案手法が主流の機械学習モデルと競合することが示された。 コードをhttps://github.com/w dayang/manifoldronで無料でダウンロードして評価しています。

A neural network with the widely-used ReLU activation has been shown to partition the sample space into many convex polytopes for prediction. However, the parameterized way a neural network and other machine learning models use to partition the space has imperfections, e.g., the compromised interpretability for complex models, the inflexibility in decision boundary construction due to the generic character of the model, and the risk of being trapped into shortcut solutions. In contrast, although the non-parameterized models can adorably avoid or downplay these issues, they are usually insufficiently powerful either due to over-simplification or the failure to accommodate the manifold structures of data. In this context, we first propose a new type of machine learning models referred to as Manifoldron that directly derives decision boundaries from data and partitions the space via manifold structure discovery. Then, we systematically analyze the key characteristics of the Manifoldron including interpretability, manifold characterization capability, and its link to neural networks. The experimental results on 9 small and 11 large datasets demonstrate that the proposed Manifoldron performs competitively compared to the mainstream machine learning models. We have shared our code https://github.com/w dayang/Manifoldron for free download and evaluation.
翻訳日:2022-01-17 23:18:41 公開日:2022-01-14
# (参考訳) 線形変換による領域シフト適応 [全文訳有]

Domain-shift adaptation via linear transformations ( http://arxiv.org/abs/2201.05282v1 )

ライセンス: CC BY 4.0
Roberto Vega, Russell Greiner(参考訳) ソースドメイン(A)のデータから学習した予測子$f_A : X \to Y$は、分布が異なる場合、ターゲットドメイン(B)上で正確でない可能性がある。 ドメイン適応は、この分布ミスマッチの悪影響を減らすことを目的としている。 ここで、$p_a(y\ |\ x) \neq p_b(y\ |\ x)$, $p_a(x) \neq p_b(x)$ but $p_a(y) = p_b(y)$; ここで、すべての分布を等価にする$x$のアフィン変換が存在する。 本研究では,(1)各領域の経験的共分散行列の固有ベクトルに領域を投影し,(2)二つの領域の射影間の最大平均差を最小化する直交行列を求めることにより,ソース領域と対象領域を低次元の共通空間に投影する手法を提案する。 任意のアフィン変換に対しては、半教師付きの場合で緩和できる非教師付き領域適応を実行する際に固有の不特定性問題が存在する。 シミュレーションデータおよび二進数分類タスクにおける本手法の有効性を示し,データの領域シフトを補正する場合の精度を最大48%向上させた。

A predictor, $f_A : X \to Y$, learned with data from a source domain (A) might not be accurate on a target domain (B) when their distributions are different. Domain adaptation aims to reduce the negative effects of this distribution mismatch. Here, we analyze the case where $P_A(Y\ |\ X) \neq P_B(Y\ |\ X)$, $P_A(X) \neq P_B(X)$ but $P_A(Y) = P_B(Y)$; where there are affine transformations of $X$ that makes all distributions equivalent. We propose an approach to project the source and target domains into a lower-dimensional, common space, by (1) projecting the domains into the eigenvectors of the empirical covariance matrices of each domain, then (2) finding an orthogonal matrix that minimizes the maximum mean discrepancy between the projections of both domains. For arbitrary affine transformations, there is an inherent unidentifiability problem when performing unsupervised domain adaptation that can be alleviated in the semi-supervised case. We show the effectiveness of our approach in simulated data and in binary digit classification tasks, obtaining improvements up to 48% accuracy when correcting for the domain shift in the data.
翻訳日:2022-01-17 22:50:35 公開日:2022-01-14
# (参考訳) demystifying swarm learning: ブロックチェーンベースの分散フェデレーション学習の新しいパラダイム [全文訳有]

Demystifying Swarm Learning: A New Paradigm of Blockchain-based Decentralized Federated Learning ( http://arxiv.org/abs/2201.05286v1 )

ライセンス: CC BY 4.0
Jialiang Han, Yun Ma, Yudong Han, Ying Zhang, Gang Huang(参考訳) フェデレーテッド・ラーニング(FL)は、将来有望なプライバシー保護機械学習パラダイムであり、研究者や開発者から注目を集めている。 flはユーザの個人データをデバイスに保持し、ローカルモデルの勾配を交換して、中央のカストディアンの共有ディープラーニング(dl)モデルを協調的にトレーニングする。 しかし、その中央カストディアン機構や星型アーキテクチャは悪意のある攻撃やソフトウェア障害に対して脆弱である可能性があるため、flのセキュリティとフォールトトレランスはますます議論されている。 これらの問題に対処するため、Swarm Learning(SL)では、メンバを安全に参加させ、リーダを動的に選択する権限付きブロックチェーンを導入している。 slに非常に注目されているのに対して、slやブロックチェーンベースの分散flには、ベストプラクティスに関する包括的知識と現実のシナリオにslをデプロイするための予防策を提供する、実証的な研究がほとんどありません。 したがって、私たちは、SLデプロイメントと開発者の間の知識ギャップを埋めるために、今までにない、SLの包括的な研究を行いました。 本稿では,5つの研究課題の3つの公開データセットについて様々な実験を行い,その背景にある理由を定量的に分析し,実践的な提案を行う。 この結果から,データセットのバランス,汚染,あるいは無関係な機能に対する偏りに関わらず,SLがほとんどのアプリケーションシナリオに適していることが証明された。

Federated learning (FL) is an emerging promising privacy-preserving machine learning paradigm and has raised more and more attention from researchers and developers. FL keeps users' private data on devices and exchanges the gradients of local models to cooperatively train a shared Deep Learning (DL) model on central custodians. However, the security and fault tolerance of FL have been increasingly discussed, because its central custodian mechanism or star-shaped architecture can be vulnerable to malicious attacks or software failures. To address these problems, Swarm Learning (SL) introduces a permissioned blockchain to securely onboard members and dynamically elect the leader, which allows performing DL in an extremely decentralized manner. Compared with tremendous attention to SL, there are few empirical studies on SL or blockchain-based decentralized FL, which provide comprehensive knowledge of best practices and precautions of deploying SL in real-world scenarios. Therefore, we conduct the first comprehensive study of SL to date, to fill the knowledge gap between SL deployment and developers, as far as we are concerned. In this paper, we conduct various experiments on 3 public datasets of 5 research questions, present interesting findings, quantitatively analyze the reasons behind these findings, and provide developers and researchers with practical suggestions. The findings have evidenced that SL is supposed to be suitable for most application scenarios, no matter whether the dataset is balanced, polluted, or biased over irrelevant features.
翻訳日:2022-01-17 22:36:42 公開日:2022-01-14
# (参考訳) Argus++: 重複立方体提案による制約のないビデオストリームのロバストリアルタイムアクティビティ検出 [全文訳有]

Argus++: Robust Real-time Activity Detection for Unconstrained Video Streams with Overlapping Cube Proposals ( http://arxiv.org/abs/2201.05290v1 )

ライセンス: CC BY 4.0
Lijun Yu, Yijun Qian, Wenhe Liu, and Alexander G. Hauptmann(参考訳) アクティビティ検出は、広くインストールされたカメラでキャプチャされたビデオストリームを利用する魅力的なコンピュータビジョンタスクの1つである。 性能は優れているが、従来のアクティビティ検出アルゴリズムは通常、トリミングやオブジェクト中心のビデオクリップを入力として使用するなど、一定の制約の下で設計されている。 そのため、実世界の制約のないビデオストリームにおけるマルチスケールのマルチインスタンスのケースには対処できなかった。 ストリーミング解析のリアルタイム要求も、そのブルート力拡張を不可能にしている。 これらの問題を解決するために,制約のない動画ストリームを解析する堅牢なリアルタイムアクティビティ検出システムArgus++を提案する。 argus++の設計では、オーバーサンプリングによるアクティビティ検出のカバレッジと完全性を保証するアクティビティ提案の中間概念として、時空間キューブの重複が導入されている。 システム全体としては、スタンドアロンのコンシューマレベルのハードウェア上でのリアルタイム処理に最適化されている。 CVPR ActivityNet ActEV 2021、NIST ActEV SDL UF/KF、TRECVID ActEV 2020/2021、ICCV ROAD 2021などの一連のアクティビティ検出ベンチマークにおいて、さまざまな監視および運転シナリオに関する大規模な実験は、その優れた性能を示した。

Activity detection is one of the attractive computer vision tasks to exploit the video streams captured by widely installed cameras. Although achieving impressive performance, conventional activity detection algorithms are usually designed under certain constraints, such as using trimmed and/or object-centered video clips as inputs. Therefore, they failed to deal with the multi-scale multi-instance cases in real-world unconstrained video streams, which are untrimmed and have large field-of-views. Real-time requirements for streaming analysis also mark brute force expansion of them unfeasible. To overcome these issues, we propose Argus++, a robust real-time activity detection system for analyzing unconstrained video streams. The design of Argus++ introduces overlapping spatio-temporal cubes as an intermediate concept of activity proposals to ensure coverage and completeness of activity detection through over-sampling. The overall system is optimized for real-time processing on standalone consumer-level hardware. Extensive experiments on different surveillance and driving scenarios demonstrated its superior performance in a series of activity detection benchmarks, including CVPR ActivityNet ActEV 2021, NIST ActEV SDL UF/KF, TRECVID ActEV 2020/2021, and ICCV ROAD 2021.
翻訳日:2022-01-17 22:14:48 公開日:2022-01-14
# (参考訳) 多変数セマンティックオーバーラップタスクの評価とベンチマーク [全文訳有]

Multi-Narrative Semantic Overlap Task: Evaluation and Benchmark ( http://arxiv.org/abs/2201.05294v1 )

ライセンス: CC BY 4.0
Naman Bansal, Mousumi Akter and Shubhra Kanti Karmaker Santu(参考訳) 本稿では,MNSO(Multi-Narrativ e Semantic Overlap)と呼ばれる,複数物語のセマンティックオーバーラップを生成する重要なNLPタスクを紹介する。 このタスクでベンチマークデータセットが利用できないため、Webから2,925の物語ペアをクロールして作成し、人間のアノテータを係合させることで、411の異なる地味のセマンティックオーバーラップを手作業で作成するという面倒なプロセスを経ました。 このタスクを評価する方法として,まずテキスト要約文献から一般的なルージュ計量を借用して体系的な研究を行い,ルージュが課題に適さないことを発見した。 その後、200の文書レベルと1,518の文レベルの基底ラベルを作成し、sem-f1(semantic f1)と呼ばれる新しい精度リコールスタイル評価指標の作成に役立った。 実験結果から,提案したSEM-F1測定値が,ROUGE測定値よりも高い相関性を示した。

In this paper, we introduce an important yet relatively unexplored NLP task called Multi-Narrative Semantic Overlap (MNSO), which entails generating a Semantic Overlap of multiple alternate narratives. As no benchmark dataset is readily available for this task, we created one by crawling 2,925 narrative pairs from the web and then, went through the tedious process of manually creating 411 different ground-truth semantic overlaps by engaging human annotators. As a way to evaluate this novel task, we first conducted a systematic study by borrowing the popular ROUGE metric from text-summarization literature and discovered that ROUGE is not suitable for our task. Subsequently, we conducted further human annotations/validati ons to create 200 document-level and 1,518 sentence-level ground-truth labels which helped us formulate a new precision-recall style evaluation metric, called SEM-F1 (semantic F1). Experimental results show that the proposed SEM-F1 metric yields higher correlation with human judgement as well as higher inter-rater-agreemen t compared to ROUGE metric.
翻訳日:2022-01-17 22:00:10 公開日:2022-01-14
# (参考訳) 何千もの単語が写真より価値がある: 自然言語中心の視覚的質問応答 [全文訳有]

A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering ( http://arxiv.org/abs/2201.05299v1 )

ライセンス: CC BY 4.0
Feng Gao, Qing Ping, Govind Thattai, Aishwarya Reganti, Ying Nian Wu, Prem Natarajan(参考訳) out-knowledge visual question answering (ok-vqa) では、エージェントが画像を理解し、web全体から関連する知識を活用し、すべての情報を消化して質問に答える必要がある。 以前の作品の多くは、多くの外部知識とのさらなる融合には柔軟性がないマルチモーダル空間におけるイメージと疑問を最初に解き明かすことでこの問題に対処した。 そこで本稿では,OK-VQAタスクのパラダイムシフトを提案し,画像をプレーンテキストに変換することにより,自然言語空間における知識通路の検索と生成的質問応答を可能にする。 このパラダイムは巨大な知識基盤の膨大な量と事前学習された言語モデルの豊かさを活用する。 Transform-Retrieve-G enerate Framework (TRiG) フレームワークが提案されている。 実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。

Outside-knowledge visual question answering (OK-VQA) requires the agent to comprehend the image, make use of relevant knowledge from the entire web, and digest all the information to answer the question. Most previous works address the problem by first fusing the image and question in the multi-modal space, which is inflexible for further fusion with a vast amount of external knowledge. In this paper, we call for a paradigm shift for the OK-VQA task, which transforms the image into plain text, so that we can enable knowledge passage retrieval, and generative question-answering in the natural language space. This paradigm takes advantage of the sheer volume of gigantic knowledge bases and the richness of pre-trained language models. A Transform-Retrieve-G enerate framework (TRiG) framework is proposed, which can be plug-and-played with alternative image-to-text models and textual knowledge bases. Experimental results show that our TRiG framework outperforms all state-of-the-art supervised methods by at least 11.1% absolute margin.
翻訳日:2022-01-17 21:39:18 公開日:2022-01-14
# (参考訳) ガウス変異を用いた粒子群最適化を用いた骨格に基づく新しい人間活動探索手法 [全文訳有]

A Novel Skeleton-Based Human Activity Discovery Technique Using Particle Swarm Optimization with Gaussian Mutation ( http://arxiv.org/abs/2201.05314v1 )

ライセンス: CC BY 4.0
Parham Hadikhani, Daphne Teck Ching Lai and Wee-Hong Ong(参考訳) 人間の活動発見は、各活動の定義に関する事前情報なしで、人間が行う活動を区別することを目的としている。 人間の行動認識で提示されるほとんどの方法は、システムのトレーニングを行うためのラベル付き入力が存在する。 実際には、その膨大な量と、人間による様々な活動のために、データのラベル付けが困難である。 本稿では,3次元スケルトン配列で人間の活動の発見を行うための新しい非教師なしアプローチを提案する。 まず、重要なフレームを運動エネルギーに基づいて選択する。 次に、その活動情報を表すために、関節の変位、統計、角度、方位の特徴を抽出する。 全ての特徴が有用な情報を持っているわけではないので、PCAを用いて特徴の次元を縮小する。 提案された人間の活動の発見は、完全には監督されていない。 彼らはアクティビティを分類する前に、事前セグメンテーションされたビデオを使用する。 これに対処するために,断片化スライディングタイムウインドウ法を用いて,重複するアクティビティの時系列を分割した。 次に,ガウス突然変異アルゴリズムを用いた新しいハイブリッド粒子群最適化法により,局所的な最適値に留まらないようにする。 最後に、pSOの遅い速度を克服するために、結果セントロイドにk平均が適用される。 3つのデータセットに関する実験を行い, 提案手法は, 評価パラメータのすべてにおいて, 従来の手法と比較して優れたアクティビティ検出性能を示し, 平均4 %以上の精度向上を示した。 https://github.com/p arhamhadikhani/Human -Activity-Discovery- HPGMK

Human activity discovery aims to distinguish the activities performed by humans, without any prior information of what defines each activity. Most methods presented in human activity recognition are supervised, where there are labeled inputs to train the system. In reality, it is difficult to label data because of its huge volume and the variety of activities performed by humans. In this paper, a novel unsupervised approach is proposed to perform human activity discovery in 3D skeleton sequences. First, important frames are selected based on kinetic energy. Next, the displacement of joints, set of statistical, angles, and orientation features are extracted to represent the activities information. Since not all extracted features have useful information, the dimension of features is reduced using PCA. Most human activity discovery proposed are not fully unsupervised. They use pre-segmented videos before categorizing activities. To deal with this, we used the fragmented sliding time window method to segment the time series of activities with some overlapping. Then, activities are discovered by a novel hybrid particle swarm optimization with a Gaussian mutation algorithm to avoid getting stuck in the local optimum. Finally, k-means is applied to the outcome centroids to overcome the slow rate of PSO. Experiments on three datasets have been presented and the results show the proposed method has superior performance in discovering activities in all evaluation parameters compared to the other state-of-the-art methods and has increased accuracy of at least 4 % on average. The code is available here: https://github.com/p arhamhadikhani/Human -Activity-Discovery- HPGMK
翻訳日:2022-01-17 21:11:54 公開日:2022-01-14
# (参考訳) ctボリュームからの胃の半自動仮想展開ビュー生成法 [全文訳有]

Semi-automated Virtual Unfolded View Generation Method of Stomach from CT Volumes ( http://arxiv.org/abs/2201.05331v1 )

ライセンス: CC BY 4.0
Masahiro Oda, Tomoaki Suito, Yuichiro Hayashi, Takayuki Kitasaka, Kazuhiro Furukawa, Ryoji Miyahara, Yoshiki Hirooka, Hidemi Goto, Gen Iinuma, Kazunari Misawa, Shigeru Nawano, Kensaku Mori(参考訳) 新しい診断法としてct画像を用いた胃の診断法を開発した。 仮想展開(VU)ビューは、その壁を表示するのに適している。 本稿では,胃のVUビューを生成するための半自動手法を提案する。 我々の方法は最低限の手動操作を必要とする。 展開力の決定と展開過程の終了は自動化される。 胃の折りたたみ形状は、その半径に基づいて推定される。 展開力は、胃壁が期待形状に変形するように決定される。 変形形状と期待形状との形状差が小さい場合には、反復変形工程を終了させる。 67個のCTボリュームを用いた実験により,76.1%の症例で良好なVUビューが得られた。

CT image-based diagnosis of the stomach is developed as a new way of diagnostic method. A virtual unfolded (VU) view is suitable for displaying its wall. In this paper, we propose a semi-automated method for generating VU views of the stomach. Our method requires minimum manual operations. The determination of the unfolding forces and the termination of the unfolding process are automated. The unfolded shape of the stomach is estimated based on its radius. The unfolding forces are determined so that the stomach wall is deformed to the expected shape. The iterative deformation process is terminated if the difference of the shapes between the deformed shape and expected shape is small. Our experiments using 67 CT volumes showed that our proposed method can generate good VU views for 76.1% cases.
翻訳日:2022-01-17 20:53:45 公開日:2022-01-14
# (参考訳) トランスベース事前学習言語モデルを用いた制御可能なテキスト生成に関する調査

A Survey of Controllable Text Generation using Transformer-based Pre-trained Language Models ( http://arxiv.org/abs/2201.05337v1 )

ライセンス: CC0 1.0
Hanqing Zhang, Haolin Song, Shaoyu Li, Ming Zhou, Dawei Song(参考訳) 制御可能なテキスト生成(CTG)は、自然言語生成(NLG)分野における新興分野である。 これは、より自然で実用的な応用における特定の制約を満たす高度なテキスト生成技術の発達に欠かせないものと考えられている。 近年、大規模な事前学習言語モデル(PLM)を用いた手法、特に広く使われているトランスフォーマーベースのPLMは、NLGの新しいパラダイムとなり、より多種多様な流動的なテキストを生成することができる。 しかしながら、ディープニューラルネットワークの解釈可能性が低いため、これらの方法の制御性が保証される必要がある。 この目的のために、トランスフォーマーベースのPLMを用いた制御可能なテキスト生成は、急速に成長するが、新しい研究ホットスポットとなっている。 過去3~4年間に様々なアプローチが出現し、異なる種類の制御制約を必要とする様々なCTGタスクをターゲットにしている。 本稿では,この分野における共通課題,主なアプローチ,評価手法について,系統的な批判的考察を行う。 最後に、この分野が直面している課題について議論し、様々な将来的な方向性を提示する。 私たちの知る限りでは、plmの観点からctg技術を要約した最初の調査論文となる。 関連分野の研究者が学術的なフロンティアを素早く追跡し、その領域の風景と今後の研究のロードマップを提供するのに役立つことを期待している。

Controllable Text Generation (CTG) is emerging area in the field of natural language generation (NLG). It is regarded as crucial for the development of advanced text generation technologies that are more natural and better meet the specific constraints in practical applications. In recent years, methods using large-scale pre-trained language models (PLMs), in particular the widely used transformer-based PLMs, have become a new paradigm of NLG, allowing generation of more diverse and fluent text. However, due to the lower level of interpretability of deep neural networks, the controllability of these methods need to be guaranteed. To this end, controllable text generation using transformer-based PLMs has become a rapidly growing yet challenging new research hotspot. A diverse range of approaches have emerged in the recent 3-4 years, targeting different CTG tasks which may require different types of controlled constraints. In this paper, we present a systematic critical review on the common tasks, main approaches and evaluation methods in this area. Finally, we discuss the challenges that the field is facing, and put forward various promising future directions. To the best of our knowledge, this is the first survey paper to summarize CTG techniques from the perspective of PLMs. We hope it can help researchers in related fields to quickly track the academic frontier, providing them with a landscape of the area and a roadmap for future research.
翻訳日:2022-01-17 20:48:04 公開日:2022-01-14
# (参考訳) AWSnet:マルチシーケンス磁気共鳴画像における心筋スカーと浮腫セグメンテーションのための自動重み付きスーパービジョンアテンションネットワーク [全文訳有]

AWSnet: An Auto-weighted Supervision Attention Network for Myocardial Scar and Edema Segmentation in Multi-sequence Cardiac Magnetic Resonance Images ( http://arxiv.org/abs/2201.05344v1 )

ライセンス: CC BY 4.0
Kai-Ni Wang, Xin Yang, Juzheng Miao, Lei Li, Jing Yao, Ping Zhou, Wufeng Xue, Guang-Quan Zhou, Xiahai Zhuang, Dong Ni(参考訳) multi-sequence heart magnetic resonance (cmr) は心筋梗塞の診断に必須の病理情報(scar, edema)を提供する。 しかし,多列cmrデータからの基礎情報を効果的に探索することが困難であるため,病理自動分割は困難である。 本稿では,多列CMRからの傷痕と浮腫のセグメンテーションを,教師層間の相互作用を強化学習を用いて検討する,新しい自己重み付け監視フレームワークを用いて解決することを目的とする。 さらに, より小さな心筋病変領域の分画を, より詳細な知識で促進する枠組みを考案した。 粗い分節モデルは左心室の心筋構造を予め形状として識別し,細部分節モデルはピクセル毎の注意戦略と自己重み付き監督モデルを統合し,多列cmrデータから有意な病理構造を学習し抽出する。 マルチシーケンスcmr(myops 2020)を併用した心筋病理学セグメンテーションの公開データセットの広範な実験結果から,本手法は他の最先端法と比較して有望な性能が得られることを示した。 マルチシーケンスcmrデータを用いた心筋病理評価の進歩を期待する。 コミュニティを動機づけるため、私たちはhttps://github.com/s oleilssss/AWSnet/tre e/masterを通じてコードを公開しました。

Multi-sequence cardiac magnetic resonance (CMR) provides essential pathology information (scar and edema) to diagnose myocardial infarction. However, automatic pathology segmentation can be challenging due to the difficulty of effectively exploring the underlying information from the multi-sequence CMR data. This paper aims to tackle the scar and edema segmentation from multi-sequence CMR with a novel auto-weighted supervision framework, where the interactions among different supervised layers are explored under a task-specific objective using reinforcement learning. Furthermore, we design a coarse-to-fine framework to boost the small myocardial pathology region segmentation with shape prior knowledge. The coarse segmentation model identifies the left ventricle myocardial structure as a shape prior, while the fine segmentation model integrates a pixel-wise attention strategy with an auto-weighted supervision model to learn and extract salient pathological structures from the multi-sequence CMR data. Extensive experimental results on a publicly available dataset from Myocardial pathology segmentation combining multi-sequence CMR (MyoPS 2020) demonstrate our method can achieve promising performance compared with other state-of-the-art methods. Our method is promising in advancing the myocardial pathology assessment on multi-sequence CMR data. To motivate the community, we have made our code publicly available via https://github.com/s oleilssss/AWSnet/tre e/master.
翻訳日:2022-01-17 20:46:58 公開日:2022-01-14
# (参考訳) StAnD:線形静的解析問題のデータセット [全文訳有]

StAnD: A Dataset of Linear Static Analysis Problems ( http://arxiv.org/abs/2201.05356v1 )

ライセンス: CC BY 4.0
Luca Grementieri, Francesco Finelli(参考訳) 構造物の静的解析は構造物の安定性を決定するための基本的なステップである。 線形および非線形静的解析は、有限要素法により得られるスパース線形系の分解から成り立っている。 構造工学に現れる疎線形系に対する高速で最適化された解法の開発には、既存のアプローチを比較したり、アルゴリズムをチューニングしたり、新しいアイデアを評価するためのデータが必要である。 本研究では,シミュレーションフレーム構造に実負荷を適用した303.000の静的解析問題を含む静的解析データセット(stand)を提案する。 データセットとともに、CPUとGPUの両方で既存のソルバの実行時間を詳細なベンチマークで比較する。 Githubでデータセットを生成し、既存のソルバをベンチマークするために使用されるコードをリリースします。 私たちの知る限りでは、これは静的解析問題の最大のデータセットであり、スパース線形系(行列と現実的な定数項の両方を含む)の最初の公開データセットである。

Static analysis of structures is a fundamental step for determining the stability of structures. Both linear and non-linear static analyses consist of the resolution of sparse linear systems obtained by the finite element method. The development of fast and optimized solvers for sparse linear systems appearing in structural engineering requires data to compare existing approaches, tune algorithms or to evaluate new ideas. We introduce the Static Analysis Dataset (StAnD) containing 303.000 static analysis problems obtained applying realistic loads to simulated frame structures. Along with the dataset, we publish a detailed benchmark comparison of the running time of existing solvers both on CPU and GPU. We release the code used to generate the dataset and benchmark existing solvers on Github. To the best of our knowledge, this is the largest dataset for static analysis problems and it is the first public dataset of sparse linear systems (containing both the matrix and a realistic constant term).
翻訳日:2022-01-17 20:16:48 公開日:2022-01-14
# (参考訳) マルチタスク学習とBERT埋め込みによる極性と主観性検出 [全文訳有]

Polarity and Subjectivity Detection with Multitask Learning and BERT Embedding ( http://arxiv.org/abs/2201.05363v1 )

ライセンス: CC BY 4.0
Ranjan Satapathy, Shweta Pardeshi, Erik Cambria(参考訳) マルチタスク学習は、互いに依存することが多く、ジョイントフレームワークで解決した場合にパフォーマンスが向上するので、関連するタスクのパフォーマンスを改善するのに役立つ。 本稿では,極性と主観的検出を共同で行う深層マルチタスク学習フレームワークを提案する。 極性と主観性を予測するための注意に基づくマルチタスクモデルを提案する。 入力文は、事前訓練されたBERTとGlove埋め込みを用いてベクトルに変換し、BERT埋め込みベースのモデルはGloveベースモデルよりもうまく動作することを示す。 本手法を主観的および極性分類シングルタスクおよびマルチタスクフレームワークの最先端モデルと比較した。 提案手法は,極性検出と主観性検出の両方において基礎的性能を示す。

Multitask learning often helps improve the performance of related tasks as these often have inter-dependence on each other and perform better when solved in a joint framework. In this paper, we present a deep multitask learning framework that jointly performs polarity and subjective detection. We propose an attention-based multitask model for predicting polarity and subjectivity. The input sentences are transformed into vectors using pre-trained BERT and Glove embeddings, and the results depict that BERT embedding based model works better than the Glove based model. We compare our approach with state-of-the-art models in both subjective and polarity classification single-task and multitask frameworks. The proposed approach reports baseline performances for both polarity detection and subjectivity detection.
翻訳日:2022-01-17 20:06:23 公開日:2022-01-14
# (参考訳) ソフトウェアテストにおける人工知能 : 影響、問題、課題、展望 [全文訳有]

Artificial Intelligence in Software Testing : Impact, Problems, Challenges and Prospect ( http://arxiv.org/abs/2201.05371v1 )

ライセンス: CC BY 4.0
Zubair Khaliq, Sheikh Umar Farooq, Dawood Ashraf Khan(参考訳) AIは、スマートファクトリーの管理、自動運転車の運転、正確な天気予報の作成、がんやパーソナルアシスタントの検出など、さまざまな役割を果たすことができる。 ソフトウェアテストは、ソフトウェアの異常な振る舞いをテストするためにソフトウェアを配置するプロセスである。 ソフトウェアテストは退屈で、手間がかかり、最も時間がかかるプロセスです。 テストプロセスのアクティビティを自動化して品質とタイムリーなデリバリを促進するための自動化ツールが開発されている。 継続的インテグレーションと継続的デリバリ(ci/cd)パイプラインの導入によって、自動化ツールの効果は低下している。 テストコミュニティは、AIが人間の介入なしに、そして人間よりもはるかに高速に、バグやエラーのコードをチェックできるため、ギャップを埋めるためにAIに目を向けている。 本研究では,STLCにおける各種ソフトウェアテスト活動やファセットに対するAI技術の影響を認識することを目的とする。 さらにこの研究は、テストにAIを適用しながら、ソフトウェアテスタが直面する最大の課題を認識し、説明することを目的としている。 また、ソフトウェアテストの分野におけるAIの今後の重要な貢献についても提案する。

Artificial Intelligence (AI) is making a significant impact in multiple areas like medical, military, industrial, domestic, law, arts as AI is capable to perform several roles such as managing smart factories, driving autonomous vehicles, creating accurate weather forecasts, detecting cancer and personal assistants, etc. Software testing is the process of putting the software to test for some abnormal behaviour of the software. Software testing is a tedious, laborious and most time-consuming process. Automation tools have been developed that help to automate some activities of the testing process to enhance quality and timely delivery. Over time with the inclusion of continuous integration and continuous delivery (CI/CD) pipeline, automation tools are becoming less effective. The testing community is turning to AI to fill the gap as AI is able to check the code for bugs and errors without any human intervention and in a much faster way than humans. In this study, we aim to recognize the impact of AI technologies on various software testing activities or facets in the STLC. Further, the study aims to recognize and explain some of the biggest challenges software testers face while applying AI to testing. The paper also proposes some key contributions of AI in the future to the domain of software testing.
翻訳日:2022-01-17 19:58:47 公開日:2022-01-14
# (参考訳) mriを用いた新しい深層ハイブリッドブースト・アンサンブル学習型脳腫瘍解析 [全文訳有]

A New Deep Hybrid Boosted and Ensemble Learning-based Brain Tumor Analysis using MRI ( http://arxiv.org/abs/2201.05373v1 )

ライセンス: CC BY 4.0
Mirza Mumtaz Zahoor, Shahzad Ahmad Qureshi, Saddam Hussain Khan, Asifullah Khan(参考訳) 脳腫瘍解析は、患者を治療するためのタイムリーな診断と効果的な治療において重要である。 腫瘍解析は、サイズ、位置、テクスチャ、および医用画像の異形性などの腫瘍形態が原因で困難である。 本研究では,脳腫瘍をMRI(MRI)で検出・分類するために,新しい2相深層学習フレームワークを提案する。 第1フェーズでは、健康な人から腫瘍MRI画像を検出するために、新しい深層化特徴とアンサンブル分類器(DBF-EC)方式が提案されている。 深く強化された特徴空間は、カスタマイズされ、よく機能する深層畳み込みニューラルネットワーク(CNN)を通じて達成され、結果として機械学習(ML)分類器のアンサンブルに投入される。 第2フェーズでは, 融合型脳腫瘍分類法とML分類法を併用し, 腫瘍の種類を分類する手法が提案されている。 提案したBRAIN-RENet CNNから動的特徴を抽出し,各腫瘍の異型性および不整合性を慎重に学習し,静的特徴をHOGを用いて抽出する。 提案する2相脳腫瘍解析フレームワークの有効性は, グリオーマ, 髄膜腫, 下垂体, 正常画像を含むカグルとフィグシェアの2つの標準ベンチマークデータセットで検証された。 実験の結果、提案されたDBF-EC検出方式は性能が優れ、精度99.56%、精度0.9991、リコール0.9899、F1スコア0.9945、MCC0.9892、AUC-PR0.9990が達成された。 分類体系では,提案する脳-網とhog特徴の融合により,リコール(0.9913),精度(0.9906),f1-score(0. 9909),正確度(99.20%)が大幅に向上する。

Brain tumors analysis is important in timely diagnosis and effective treatment to cure patients. Tumor analysis is challenging because of tumor morphology like size, location, texture, and heteromorphic appearance in the medical images. In this regard, a novel two-phase deep learning-based framework is proposed to detect and categorize brain tumors in magnetic resonance images (MRIs). In the first phase, a novel deep boosted features and ensemble classifiers (DBF-EC) scheme is proposed to detect tumor MRI images from healthy individuals effectively. The deep boosted feature space is achieved through the customized and well-performing deep convolutional neural networks (CNNs), and consequently, fed into the ensemble of machine learning (ML) classifiers. While in the second phase, a new hybrid features fusion-based brain tumor classification approach is proposed, comprised of dynamic-static feature and ML classifier to categorize different tumor types. The dynamic features are extracted from the proposed BRAIN-RENet CNN, which carefully learns heteromorphic and inconsistent behavior of various tumors, while the static features are extracted using HOG. The effectiveness of the proposed two-phase brain tumor analysis framework is validated on two standard benchmark datasets; collected from Kaggle and Figshare containing different types of tumor, including glioma, meningioma, pituitary, and normal images. Experimental results proved that the proposed DBF-EC detection scheme outperforms and achieved accuracy (99.56%), precision (0.9991), recall (0.9899), F1-Score (0.9945), MCC (0.9892), and AUC-PR (0.9990). While the classification scheme, the joint employment of the deep features fusion of proposed BRAIN-RENet and HOG features improves performance significantly in terms of recall (0.9913), precision (0.9906), F1-Score (0.9909), and accuracy (99.20%) on diverse datasets.
翻訳日:2022-01-17 19:40:09 公開日:2022-01-14
# (参考訳) SRVIO: 動的環境のための超ロバスト視覚慣性オドメトリーとループ閉鎖条件 [全文訳有]

SRVIO: Super Robust Visual Inertial Odometry for dynamic environments and challenging Loop-closure conditions ( http://arxiv.org/abs/2201.05386v1 )

ライセンス: CC BY 4.0
Ali Samadzadeh, Ahmad Nickabadi(参考訳) 視覚局在やオドメトリー問題は、自律ロボットや自動車の分野でよく知られた課題である。 伝統的に、この問題はライダーのような高価なセンサーの助けを借りて対処することができる。 近年,カメラやimusなどの経済センサを用いたロバストな位置決めに関する研究が盛んである。 これらのセンサーに基づく幾何学的手法は、不安定な照明と動的物体の無い通常の条件ではかなり良い。 これらの手法は、このような困難な環境において大きな損失と分散を被る。 研究者たちはこの問題を緩和するためにディープニューラルネットワーク(DNN)を救世主として利用するようになった。 DNNを使うことの背景にある主な考え方は、データ内の問題をよりよく理解し、複雑な条件(例えば、カメラの前の動的オブジェクト、極端な照明条件、トラックを高速に保つなど)を克服することであった。 しかし、これらすべてのシナリオに対する汎用的で堅牢なフレームワークは提供されていない。 本稿では、幾何学的SLAMフレームワークの長所と、DNNの支援による残りの課題を克服するために、幾何学的手法とDNNに基づく手法を組み合わせる。 そのために、Vins-Monoフレームワーク(これまででもっとも堅牢で正確なフレームワーク)を修正し、幾何学的およびエンドツーエンドのDNNベースのSLAMと比較して、TUM-Dynamic、TUM-VI、ADVIO、EuRoCデータセットの最先端結果を実現しました。 提案フレームワークは,先述した課題に類似した極端なシミュレートケースに対して,許容できる結果を得ることができた。

The visual localization or odometry problem is a well-known challenge in the field of autonomous robots and cars. Traditionally, this problem can ba tackled with the help of expensive sensors such as lidars. Nowadays, the leading research is on robust localization using economic sensors, such as cameras and IMUs. The geometric methods based on these sensors are pretty good in normal conditions withstable lighting and no dynamic objects. These methods suffer from significant loss and divergence in such challenging environments. The scientists came to use deep neural networks (DNNs) as the savior to mitigate this problem. The main idea behind using DNNs was to better understand the problem inside the data and overcome complex conditions (such as a dynamic object in front of the camera, extreme lighting conditions, keeping the track at high speeds, etc.) The prior endto-end DNN methods are able to overcome some of the mentioned challenges. However, no general and robust framework for all of these scenarios is available. In this paper, we have combined geometric and DNN based methods to have the pros of geometric SLAM frameworks and overcome the remaining challenges with the DNNs help. To do this, we have modified the Vins-Mono framework (the most robust and accurate framework till now) and we were able to achieve state-of-the-art results on TUM-Dynamic, TUM-VI, ADVIO and EuRoC datasets compared to geometric and end-to-end DNN based SLAMs. Our proposed framework was also able to achieve acceptable results on extreme simulated cases resembling the challenges mentioned earlier easy.
翻訳日:2022-01-17 19:28:44 公開日:2022-01-14
# (参考訳) 電子健康記録の合成:嚢胞性線維症患者グループ [全文訳有]

Synthesising Electronic Health Records: Cystic Fibrosis Patient Group ( http://arxiv.org/abs/2201.05400v1 )

ライセンス: CC BY 4.0
Emily Muller, Xu Zheng, Jer Hayes(参考訳) クラス不均衡はしばしば教師付き学習アルゴリズムの予測性能を低下させる。 バランスの取れたクラスは、正確なコピーをオーバーサンプリングしたり、ノイズを付けたり、近隣の(従来のSMOTEメソッドのように)補間することで得る。 コンピュータビジョンタスクで典型的である拡張を用いた表形式のデータのオーバーサンプリングは、深い生成モデルによって達成できる。 深層生成モデル(deep generative models)は、複雑な分布をキャプチャする能力があるため、効果的なデータ合成器である。 医療における合成データは、患者のプライバシーを確保することで、医療提供者間の相互運用性を高めることができる。 医療における機械学習は、小さな患者グループをうまく表現できる大規模な合成データセットを備えており、バイアスと一般化可能性の現在の課題に対処することができる。 本稿では患者電子健康記録を合成する合成データ生成機能について検討する。 患者結果分類のための合成データの有用性を検証し、不均衡なデータセットを合成データで増強する際の予測性能の向上を観察する。

Class imbalance can often degrade predictive performance of supervised learning algorithms. Balanced classes can be obtained by oversampling exact copies, with noise, or interpolation between nearest neighbours (as in traditional SMOTE methods). Oversampling tabular data using augmentation, as is typical in computer vision tasks, can be achieved with deep generative models. Deep generative models are effective data synthesisers due to their ability to capture complex underlying distributions. Synthetic data in healthcare can enhance interoperability between healthcare providers by ensuring patient privacy. Equipped with large synthetic datasets which do well to represent small patient groups, machine learning in healthcare can address the current challenges of bias and generalisability. This paper evaluates synthetic data generators ability to synthesise patient electronic health records. We test the utility of synthetic data for patient outcome classification, observing increased predictive performance when augmenting imbalanced datasets with synthetic data.
翻訳日:2022-01-17 19:04:42 公開日:2022-01-14
# (参考訳) 早期停止を伴うモーメントム勾配の急激な規則化 [全文訳有]

The Implicit Regularization of Momentum Gradient Descent with Early Stopping ( http://arxiv.org/abs/2201.05405v1 )

ライセンス: CC BY 4.0
Li Wang (1), Yingcong Zhou (2), Zhiguo Fu (1) ((1) Northeast Normal University, (2) Beihua University)(参考訳) 勾配に基づく最適化によって引き起こされる暗黙の正則化の研究は長年の追求である。 本稿では,運動量勾配降下 (mgd) の暗黙的な正則化を,明示的な $\ell_2$-regularizat ion (ridge) との比較により早期停止と特徴付ける。 詳しくは,mgdを連続時間視点,いわゆる運動量勾配流(mgf)で検討し,その傾向が勾配勾配流 (gd) [ali et al., 2019] よりも少なくとも二乗回帰の方が尾根に近いことを示した。 さらに、キャリブレーション$t=\sqrt{2/\lambda}$では、$t$はMGFの時間パラメータであり、$\lambda$はリッジ回帰のチューニングパラメータであり、MGFのリスクはリッジの1.54倍以下であることを示す。 特に、MGFとリッジの相対ベイズリスクは、最適チューニングの下で1から1.035である。 数値実験は我々の理論結果を強く支持する。

The study on the implicit regularization induced by gradient-based optimization is a longstanding pursuit. In the present paper, we characterize the implicit regularization of momentum gradient descent (MGD) with early stopping by comparing with the explicit $\ell_2$-regularizat ion (ridge). In details, we study MGD in the continuous-time view, so-called momentum gradient flow (MGF), and show that its tendency is closer to ridge than the gradient descent (GD) [Ali et al., 2019] for least squares regression. Moreover, we prove that, under the calibration $t=\sqrt{2/\lambda}$, where $t$ is the time parameter in MGF and $\lambda$ is the tuning parameter in ridge regression, the risk of MGF is no more than 1.54 times that of ridge. In particular, the relative Bayes risk of MGF to ridge is between 1 and 1.035 under the optimal tuning. The numerical experiments support our theoretical results strongly.
翻訳日:2022-01-17 18:54:12 公開日:2022-01-14
# (参考訳) 拡張的埋め込みに基づく検索のためのプログレッシブ最適化バイグラニュラー文書表現 [全文訳有]

Progressively Optimized Bi-Granular Document Representation for Scalable Embedding Based Retrieval ( http://arxiv.org/abs/2201.05409v1 )

ライセンス: CC BY 4.0
Shitao Xiao, Zheng Liu, Weihao Han, Jianjin Zhang, Chaozhuo Li, Yingxia Shao, Defu Lian, Xing Xie, Hao Sun, Denvy Deng, Liangjie Zhang, Qi Zhang(参考訳) アドホック検索は、大規模なコーパスから適切な回答を選択することを要求する。 近年,組込み型検索(EBR)が有望なソリューションとなり,ディープラーニングベースの文書表現とANN検索技術が連携してこの課題に対処している。 しかし、大きな課題は、回答コーパスの大きさを考えると、anインデックスがメモリに収まるには大きすぎる可能性があることである。 そこで本研究では, 粗い候補探索のために, 軽量なスパース埋め込みをインデックス化し, メモリ上に待機し, 重厚な密埋め込みをディスクにホストし, 詳細なポスト検証を行うBi-Granular Document Representationを用いてこの問題に対処する。 検索精度の良さから、プログレッシブ最適化フレームワークが設計されている。 まばらな埋め込みは、候補者の質の高い検索のために事前に学習される。 スパース埋め込みによって誘導される候補分布を条件に, 埋込み密度を連続的に学習し, 短絡した候補からの接地真実の識別を最適化する。 また, 正規化法と局所性中心サンプリング法という2つの手法が, ばらばらで密接な埋め込みの学習に導入され, その性能に大きく寄与している。 以上の特徴により,本手法は,大規模コーパスにおいて最大4.3%のリコールゲイン,10億のコーパスで最大17.5%のリコールゲインを有する大規模ebrを効果的に処理する。 さらに,本手法は,収益(+1.95%),リコール(+1.01%),CTR(+0.49%)に大きく貢献する主要な検索プラットフォームに適用される。

Ad-hoc search calls for the selection of appropriate answers from a massive-scale corpus. Nowadays, the embedding-based retrieval (EBR) becomes a promising solution, where deep learning based document representation and ANN search techniques are allied to handle this task. However, a major challenge is that the ANN index can be too large to fit into memory, given the considerable size of answer corpus. In this work, we tackle this problem with Bi-Granular Document Representation, where the lightweight sparse embeddings are indexed and standby in memory for coarse-grained candidate search, and the heavyweight dense embeddings are hosted in disk for fine-grained post verification. For the best of retrieval accuracy, a Progressive Optimization framework is designed. The sparse embeddings are learned ahead for high-quality search of candidates. Conditioned on the candidate distribution induced by the sparse embeddings, the dense embeddings are continuously learned to optimize the discrimination of ground-truth from the shortlisted candidates. Besides, two techniques: the contrastive quantization and the locality-centric sampling are introduced for the learning of sparse and dense embeddings, which substantially contribute to their performances. Thanks to the above features, our method effectively handles massive-scale EBR with strong advantages in accuracy: with up to +4.3% recall gain on million-scale corpus, and up to +17.5% recall gain on billion-scale corpus. Besides, Our method is applied to a major sponsored search platform with substantial gains on revenue (+1.95%), Recall (+1.01%) and CTR (+0.49%).
翻訳日:2022-01-17 18:39:27 公開日:2022-01-14
# (参考訳) 機械学習における安全性保証の因果モデル [全文訳有]

A causal model of safety assurance for machine learning ( http://arxiv.org/abs/2201.05451v1 )

ライセンス: CC BY 4.0
Simon Burton(参考訳) 本稿では,MLベースのアプリケーションに有効な安全保証ケースを構築するための,安全性の因果モデルに基づくフレームワークを提案する。 そこで我々は,安全工学の確立した原則と,MLの保証議論を構造化する以前の取り組みを構築した。 本論文は,安全事例証拠の4つのカテゴリと,これらの証拠を効果的に組み合わせた構造化解析手法を定義する。 これらの貢献の適切で抽象的な形式化は、彼らが評価する因果関係、安全論への貢献、証拠の望ましい性質を説明するために使われる。 提案した枠組みに基づいて,本分野の進展を再評価し,本分野の具体的な進展を示すための今後の研究方向性について検討する。

This paper proposes a framework based on a causal model of safety upon which effective safety assurance cases for ML-based applications can be built. In doing so, we build upon established principles of safety engineering as well as previous work on structuring assurance arguments for ML. The paper defines four categories of safety case evidence and a structured analysis approach within which these evidences can be effectively combined. Where appropriate, abstract formalisations of these contributions are used to illustrate the causalities they evaluate, their contributions to the safety argument and desirable properties of the evidences. Based on the proposed framework, progress in this area is re-evaluated and a set of future research directions proposed in order for tangible progress in this field to be made.
翻訳日:2022-01-17 18:14:30 公開日:2022-01-14
# (参考訳) sympocnet: 最適制御問題の解法と高次元マルチエージェント経路計画問題への応用 [全文訳有]

SympOCnet: Solving optimal control problems with applications to high-dimensional multi-agent path planning problems ( http://arxiv.org/abs/2201.05475v1 )

ライセンス: CC BY 4.0
Tingwei Meng and Zhen Zhang and J\'er\^ome Darbon and George Em Karniadakis(参考訳) 近年のドローンの普及に伴い,多エージェント経路計画問題への応用が注目されているため,高次元最適制御問題をリアルタイムに解くことは重要ではあるが難しい問題である。 本稿では,Symphlectic Network を用いて状態制約を用いた高次元最適制御問題を解くSympOCnet という新しいニューラルネットワーク手法を提案する。 二次元空間と三次元空間における経路計画問題の数値計算結果について述べる。 具体的には,SympOCnetが1つのGPU上で1.5時間で500次元以上の問題を解くことを示し,SympOCnetの有効性と効率を示す。 提案手法はスケーラブルで,真の高次元経路計画問題をリアルタイムに解くことができる。

Solving high-dimensional optimal control problems in real-time is an important but challenging problem, with applications to multi-agent path planning problems, which have drawn increased attention given the growing popularity of drones in recent years. In this paper, we propose a novel neural network method called SympOCnet that applies the Symplectic network to solve high-dimensional optimal control problems with state constraints. We present several numerical results on path planning problems in two-dimensional and three-dimensional spaces. Specifically, we demonstrate that our SympOCnet can solve a problem with more than 500 dimensions in 1.5 hours on a single GPU, which shows the effectiveness and efficiency of SympOCnet. The proposed method is scalable and has the potential to solve truly high-dimensional path planning problems in real-time.
翻訳日:2022-01-17 18:02:02 公開日:2022-01-14
# (参考訳) パーソナライゼーションとプライバシのための分散ロボット学習 [全文訳有]

Decentralized Robot Learning for Personalization and Privacy ( http://arxiv.org/abs/2201.05527v1 )

ライセンス: CC BY 4.0
Luke Guerdan, Hatice Gunes(参考訳) 学習支援から協力まで、社会ロボットは日常生活の多くの側面を強化することを約束する。 しかし、社会ロボットは、(1)新しいユーザーに対して自分の行動に適応せず、(2)十分なプライバシー保護を提供していないという理由から、広く普及していない。 集中学習は、ロボットがサーバー上でデータを収集することでスキルを発達させることで、新しい体験のオンライン学習を防ぎ、プライバシに敏感なデータの保存を必要とすることによって、これらの制限に寄与する。 本研究では,ソーシャルロボットのプライバシとパーソナライゼーションを改善する分散型学習手法を提案する。 協調学習と連続学習という2つの機械学習のアプローチを組み合わせることで、ロボットに物理的に分散したインタラクションダイナミクスを捉える。 分散ロボット学習シナリオにおいてバランスをとるべき基準を定義した。 また,ロボット間の関連パラメータと複数の人間とのインタラクションを保存するために,重要度に基づく正規化を利用した新しいアルゴリズムであるelastic transferを開発した。 本稿では,分散学習が,概念実証型社会認識ナビゲーションドメインにおける集中学習の代替となることを示すとともに,Elastic Transferが提案したいくつかの基準をどのように改善するかを実証する。

From learning assistance to companionship, social robots promise to enhance many aspects of daily life. However, social robots have not seen widespread adoption, in part because (1) they do not adapt their behavior to new users, and (2) they do not provide sufficient privacy protections. Centralized learning, whereby robots develop skills by gathering data on a server, contributes to these limitations by preventing online learning of new experiences and requiring storage of privacy-sensitive data. In this work, we propose a decentralized learning alternative that improves the privacy and personalization of social robots. We combine two machine learning approaches, Federated Learning and Continual Learning, to capture interaction dynamics distributed physically across robots and temporally across repeated robot encounters. We define a set of criteria that should be balanced in decentralized robot learning scenarios. We also develop a new algorithm -- Elastic Transfer -- that leverages importance-based regularization to preserve relevant parameters across robots and interactions with multiple humans. We show that decentralized learning is a viable alternative to centralized learning in a proof-of-concept Socially-Aware Navigation domain, and demonstrate how Elastic Transfer improves several of the proposed criteria.
翻訳日:2022-01-17 17:20:22 公開日:2022-01-14
# (参考訳) 強化学習に基づく航空戦闘演習生成 [全文訳有]

Reinforcement Learning based Air Combat Maneuver Generation ( http://arxiv.org/abs/2201.05528v1 )

ライセンス: CC BY 4.0
Muhammed Murat Ozbek and Emre Koyuncu(参考訳) 人工知能技術の出現により、多くの研究が航空戦闘部門内で行われるようになった。 学者や他の多くの研究者は、UAVの自律的な操作決定と呼ばれる顕著な研究方向の研究を行った。 詳細な研究によっていくつかの成果が得られたが、強化学習(rl)を含む決定はより効率的であることが判明した。 最適な方法でエージェントを目標に到達させるための研究や実験が数多く行われており、最も顕著なのは遺伝的アルゴリズム(ga)、星、rrt、その他の様々な最適化技術である。 しかし、強化学習はその成功でよく知られている。 DARPHA Alpha Dogfight Trialsでは、ボーイングの訓練を受けた実戦のF16パイロットに対して強化学習が行われた。 この後継モデルはheron systemsによって開発された。 この成果の後、強化学習は自分自身に大きな注目を集めた。 本研究では,双発車両の動的特性を持つUAVをTD3(Twin Delayed Deep Deterministic Policy Gradients)を用いて最適経路で2次元空間で目標に移動させ,HER(Hindsight Experience Replay)を経験的に再現することを目的とした。 2つの異なる環境でテストを行い、シミュレーションを使いました。

The advent of artificial intelligence technology paved the way of many researches to be made within air combat sector. Academicians and many other researchers did a research on a prominent research direction called autonomous maneuver decision of UAV. Elaborative researches produced some outcomes, but decisions that include Reinforcement Learning(RL) came out to be more efficient. There have been many researches and experiments done to make an agent reach its target in an optimal way, most prominent are Genetic Algorithm(GA) , A star, RRT and other various optimization techniques have been used. But Reinforcement Learning is the well known one for its success. In DARPHA Alpha Dogfight Trials, reinforcement learning prevailed against a real veteran F16 human pilot who was trained by Boeing. This successor model was developed by Heron Systems. After this accomplishment, reinforcement learning bring tremendous attention on itself. In this research we aimed our UAV which has a dubin vehicle dynamic property to move to the target in two dimensional space in an optimal path using Twin Delayed Deep Deterministic Policy Gradients (TD3) and used in experience replay Hindsight Experience Replay(HER).We did tests on two different environments and used simulations.
翻訳日:2022-01-17 17:06:21 公開日:2022-01-14
# (参考訳) BandMaxSAT: マルチアームバンド付きローカル検索MaxSATソルバー [全文訳有]

BandMaxSAT: A Local Search MaxSAT Solver with Multi-armed Bandit ( http://arxiv.org/abs/2201.05544v1 )

ライセンス: CC BY 4.0
Jiongzhi Zheng and Kun He and Jianrong Zhou and Yan Jin and Chu-min Li and Felip Manya(参考訳) そこで我々は,MaxSAT問題の2つの実用的な一般化であるPartial MaxSAT (PMS) と Weighted PMS (WPMS) に対処し,これらの問題に対する探索方向の導出にマルチアームバンディットを適用したBandMaxSATと呼ばれる局所探索アルゴリズムを提案する。 提案手法のバンディットは入力(W)PMSインスタンスのすべてのソフト節と関連付けられている。 各アームはソフトな節に対応する。 バンドイットモデルは、現在のステップ、すなわち引き出すアームを選択する際に満足するソフト節を選択することにより、バンドイットが局所視眼から脱出するための良い方向を選択するのを助けることができる。 さらに,初期解を生成する際に,単位節とバイナリ節の両方を優先する(w)pmsの初期化手法を提案する。 広汎な実験により、BandMaxSATは最先端(W)PMS局所探索アルゴリズムSATLike3.0を大きく上回っている。 具体的には、BandMaxSATがより良い結果を得るインスタンス数はSATLike3.0の約2倍である。 さらに、BandMaxSATと完全な解決器TT-Open-WBO-Incを組み合わせる。 その結果、BandMaxSAT-cはSATLike-c、Loandra、TT-Open-WBO-Incなど、最先端の完全(W)PMSソルバよりも優れている。

We address Partial MaxSAT (PMS) and Weighted PMS (WPMS), two practical generalizations of the MaxSAT problem, and propose a local search algorithm called BandMaxSAT, that applies a multi-armed bandit to guide the search direction, for these problems. The bandit in our method is associated with all the soft clauses in the input (W)PMS instance. Each arm corresponds to a soft clause. The bandit model can help BandMaxSAT to select a good direction to escape from local optima by selecting a soft clause to be satisfied in the current step, that is, selecting an arm to be pulled. We further propose an initialization method for (W)PMS that prioritizes both unit and binary clauses when producing the initial solutions. Extensive experiments demonstrate that BandMaxSAT significantly outperforms the state-of-the-art (W)PMS local search algorithm SATLike3.0. Specifically, the number of instances in which BandMaxSAT obtains better results is about twice that obtained by SATLike3.0. We further combine BandMaxSAT with the complete solver TT-Open-WBO-Inc. The resulting solver BandMaxSAT-c also outperforms some of the best state-of-the-art complete (W)PMS solvers, including SATLike-c, Loandra and TT-Open-WBO-Inc.
翻訳日:2022-01-17 16:54:12 公開日:2022-01-14
# (参考訳) ニューラルスコア推定による確率的質量マッピング [全文訳有]

Probabilistic Mass Mapping with Neural Score Estimation ( http://arxiv.org/abs/2201.05561v1 )

ライセンス: CC BY 4.0
Benjamin Remy, Francois Lanusse, Niall Jeffrey, Jean-Luc Starck, Ken Osato, Tim Schrabback(参考訳) 弱レンズの質量マッピングは、天上のダークマターの完全な分布にアクセスするのに有用なツールであるが、固有の銀河楕円体と有限フィールド/欠測データのため、ダークマターマップの復元は難解な逆問題となっている。 本稿では,弱いレンズ質量マップ問題の高次元ベイズ後方を効率的にサンプリングし,非ガウシアン前駆体を定義するためのシミュレーションを応用した新しい手法を提案する。 本手法の精度をシミュレーションで実証し,HST/ACS COSMOSフィールドの大量再構成に適用する。 提案手法はベイズ統計学,解析理論,ニューラルスコアマッチングに基づく近年の深部生成モデルの各要素を組み合わせたものである。 このアプローチによって、次のようなことができます。 1) 解析宇宙論を十分に活用して解の2pt統計量を制限する。 2) 宇宙シミュレーションからこの解析的先行シミュレーションと完全シミュレーションの相違について学ぶ。 3) ロバスト不確実性定量化問題の後段からサンプルを得る。 この手法を$\kappa$tngシミュレーションで示し, 後方平均は, 根-平均二乗誤差とピアソン相関の両方において, 従来の方法(カイザー・スクワイズ, ワイナーフィルタ, スパーシティ優先法)を有意に上回っていることを見出した。 さらに, 後方収束値とSNRとの密接な相関関係を確立することにより, 復元後部の解釈可能性について述べる。 最後に,本手法をHST/ACS COSMOSフィールドの再構成に適用し,このフィールドの最高品質収束マップを生成する。

Weak lensing mass-mapping is a useful tool to access the full distribution of dark matter on the sky, but because of intrinsic galaxy ellipticies and finite fields/missing data, the recovery of dark matter maps constitutes a challenging ill-posed inverse problem. We introduce a novel methodology allowing for efficient sampling of the high-dimensional Bayesian posterior of the weak lensing mass-mapping problem, and relying on simulations for defining a fully non-Gaussian prior. We aim to demonstrate the accuracy of the method on simulations, and then proceed to applying it to the mass reconstruction of the HST/ACS COSMOS field. The proposed methodology combines elements of Bayesian statistics, analytic theory, and a recent class of Deep Generative Models based on Neural Score Matching. This approach allows us to do the following: 1) Make full use of analytic cosmological theory to constrain the 2pt statistics of the solution. 2) Learn from cosmological simulations any differences between this analytic prior and full simulations. 3) Obtain samples from the full Bayesian posterior of the problem for robust Uncertainty Quantification. We demonstrate the method on the $\kappa$TNG simulations and find that the posterior mean significantly outperfoms previous methods (Kaiser-Squires, Wiener filter, Sparsity priors) both on root-mean-square error and in terms of the Pearson correlation. We further illustrate the interpretability of the recovered posterior by establishing a close correlation between posterior convergence values and SNR of clusters artificially introduced into a field. Finally, we apply the method to the reconstruction of the HST/ACS COSMOS field and yield the highest quality convergence map of this field to date.
翻訳日:2022-01-17 16:40:07 公開日:2022-01-14
# (参考訳) DeepSpeed-MoE: ベンチマークとトレーニングによる次世代AIスケールの活用

DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale ( http://arxiv.org/abs/2201.05596v1 )

ライセンス: CC BY 4.0
Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He(参考訳) 巨大な高密度モデルのトレーニングがハードウェアリソースの可用性と能力の境界に達するにつれ、Mixture-of-Experts(M oE)モデルは、品質に等価な高密度モデルに比べてトレーニングコストの大幅な削減により、最も有望なモデルアーキテクチャの1つである。 トレーニングコストの削減は、エンコーダ-デコーダモデル(優先作業)から、自動攻撃型言語モデル(並列探索と共に動作する)の5倍の節約まで実現されている。 しかし、モデルのサイズとユニークなアーキテクチャのため、高速なMoEモデル推論を提供する方法はまだ困難で未解決であり、実用的利用は制限されている。 この問題を解決するために、DeepSpeed-MoEはDeepSpeedライブラリの一部として、新しいMoEアーキテクチャ設計とモデル圧縮技術を含むエンドツーエンドのMoEトレーニングおよび推論ソリューションであり、MoEモデルのサイズを最大3.7倍に削減し、既存のMoE推論ソリューションと比較して7.3倍のレイテンシとコストを提供する高度に最適化された推論システムを提供する。 deepspeed-moeは前例のない規模と効率性を提供し、4.5倍高速で9倍安価で巨大なmoeモデルを提供する。 当社のイノベーションとシステムは、大規模なモデルランドスケープにおいて、より密集したMoEモデルからスパースなMoEモデルへのシフトとして、より少ないリソースで高品質なモデルのトレーニングとデプロイがより広範に可能になる、有望な道を開くのに役立つことを期待しています。

As the training of giant dense models hits the boundary on the availability and capability of the hardware resources today, Mixture-of-Experts (MoE) models become one of the most promising model architectures due to their significant training cost reduction compared to a quality-equivalent dense model. Its training cost saving is demonstrated from encoder-decoder models (prior works) to a 5x saving for auto-aggressive language models (this work along with parallel explorations). However, due to the much larger model size and unique architecture, how to provide fast MoE model inference remains challenging and unsolved, limiting its practical usage. To tackle this, we present DeepSpeed-MoE, an end-to-end MoE training and inference solution as part of the DeepSpeed library, including novel MoE architecture designs and model compression techniques that reduce MoE model size by up to 3.7x, and a highly optimized inference system that provides 7.3x better latency and cost compared to existing MoE inference solutions. DeepSpeed-MoE offers an unprecedented scale and efficiency to serve massive MoE models with up to 4.5x faster and 9x cheaper inference compared to quality-equivalent dense models. We hope our innovations and systems help open a promising path to new directions in the large model landscape, a shift from dense to sparse MoE models, where training and deploying higher-quality models with fewer resources becomes more widely possible.
翻訳日:2022-01-17 16:00:55 公開日:2022-01-14
# (参考訳) 深部強化学習でスイムを学習するスマート磁気マイクロロボット [全文訳有]

Smart Magnetic Microrobots Learn to Swim with Deep Reinforcement Learning ( http://arxiv.org/abs/2201.05599v1 )

ライセンス: CC BY 4.0
Michael R. Behrens and Warren C. Ruder(参考訳) スイミングマイクロロボットは複雑な材料とダイナミックな形状で開発され、システムダイナミクスのモデル化が難しく、マイクロロボットの位置制御が容易ではない複雑な環境での運用が期待されている。 深層強化学習(deep reinforcement learning)は、スマートなマイクロロボットを作成するためのロバストなコントローラを自律的に開発する有望な方法である。 本稿では,ソフトアクタ批評家強化学習アルゴリズムを用いて,マイクロロボットが3軸の電磁石から発生する時間変化磁界の制御下で,非キャラクタリゼーションバイオミメティック流体環境を泳ぐことができる制御方針を自律的に導出するスマートヘリカル磁気ハイドロゲルマイクロロボットの開発について報告する。 強化学習エージェントは10万以下のトレーニングステップで制御ポリシを成功させ、高速学習のためのサンプル効率を実証した。 また,強化学習エージェントが学習した制御方針を,回帰による学習方針の行動分布に数学関数を適合させることで微調整できることを実証する。 マイクロロボット制御に適用される深層強化学習は、次世代のマイクロロボットの能力を大きく拡張する可能性が高い。

Swimming microrobots are increasingly developed with complex materials and dynamic shapes and are expected to operate in complex environments in which the system dynamics are difficult to model and positional control of the microrobot is not straightforward to achieve. Deep reinforcement learning is a promising method of autonomously developing robust controllers for creating smart microrobots, which can adapt their behavior to operate in uncharacterized environments without the need to model the system dynamics. Here, we report the development of a smart helical magnetic hydrogel microrobot that used the soft actor critic reinforcement learning algorithm to autonomously derive a control policy which allowed the microrobot to swim through an uncharacterized biomimetic fluidic environment under control of a time varying magnetic field generated from a three-axis array of electromagnets. The reinforcement learning agent learned successful control policies with fewer than 100,000 training steps, demonstrating sample efficiency for fast learning. We also demonstrate that we can fine tune the control policies learned by the reinforcement learning agent by fitting mathematical functions to the learned policy's action distribution via regression. Deep reinforcement learning applied to microrobot control is likely to significantly expand the capabilities of the next generation of microrobots.
翻訳日:2022-01-17 15:59:44 公開日:2022-01-14
# 障害音声の評価・認識のための分光時間深部特徴

Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition ( http://arxiv.org/abs/2201.05554v1 )

ライセンス: Link先を確認
Mengzhe Geng, Shansong Liu, Jianwei Yu, Xurong Xie, Shoukang Hu, Zi Ye, Zengrui Jin, Xunying Liu, Helen Meng(参考訳) 不規則な音声の自動認識は、現在まで非常に困難な課題である。 アクセント、年齢、性別など通常の音声で見られる可変性の源泉は、発声障害の根本原因や重度レベルの違いによってさらに複雑化され、話者間で大きな多様性が生じる。 この目的のために、現在の音声認識システムでは話者適応技術が重要な役割を果たす。 Motivated by the spectro-temporal level differences between disordered and normal speech that systematically manifest in articulatory imprecision, decreased volume and clarity, slower speaking rates and increased dysfluencies, novel spectro-temporal subspace basis embedding deep features derived by SVD decomposition of speech spectrum are proposed to facilitate both accurate speech intelligibility assessment and auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN and end-to-end disordered speech recognition systems. UASpeechコーパスで実施された実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大2.63%(相対8.6%)削減することで、ベースラインi-Vector適応を一貫して上回った。 隠れ単位寄与度(LHUC)に基づく話者適応の学習をさらに適用した。 提案したスペクトルベース埋め込み機能を用いた最終話者適応システムにより,16話者のUASpeechテストセットにおけるWER全体の25.6%が得られた。

Automatic recognition of disordered speech remains a highly challenging task to date. Sources of variability commonly found in normal speech including accent, age or gender, when further compounded with the underlying causes of speech impairment and varying severity levels, create large diversity among speakers. To this end, speaker adaptation techniques play a vital role in current speech recognition systems. Motivated by the spectro-temporal level differences between disordered and normal speech that systematically manifest in articulatory imprecision, decreased volume and clarity, slower speaking rates and increased dysfluencies, novel spectro-temporal subspace basis embedding deep features derived by SVD decomposition of speech spectrum are proposed to facilitate both accurate speech intelligibility assessment and auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN and end-to-end disordered speech recognition systems. Experiments conducted on the UASpeech corpus suggest the proposed spectro-temporal deep feature adapted systems consistently outperformed baseline i-Vector adaptation by up to 2.63% absolute (8.6% relative) reduction in word error rate (WER) with or without data augmentation. Learning hidden unit contribution (LHUC) based speaker adaptation was further applied. The final speaker adapted system using the proposed spectral basis embedding features gave an overall WER of 25.6% on the UASpeech test set of 16 dysarthric speakers
翻訳日:2022-01-17 15:36:02 公開日:2022-01-14
# 障害音声認識のためのデータ拡張手法の検討

Investigation of Data Augmentation Techniques for Disordered Speech Recognition ( http://arxiv.org/abs/2201.05562v1 )

ライセンス: Link先を確認
Mengzhe Geng, Xurong Xie, Shansong Liu, Jianwei Yu, Shoukang Hu, Xunying Liu, Helen Meng(参考訳) 障害型音声認識は極めて困難な課題である。 言語障害を持つ人の神経運動条件は、しばしば共起性身体障害と混ざり合い、システム開発に必要な大量の音声を集めるのが困難になる。 本稿では,声道長摂動(VTLP),テンポ摂動(テンポ摂動),速度摂動(スピード摂動)など,不規則音声認識のための一連のデータ拡張手法について検討する。 正規語と無秩序語の両方が増強過程に利用された。 学習隠れユニットコントリビューション(LHUC)に基づく話者適応学習を用いて,オリジナルデータと拡張データの両方における障害話者間の変動をモデル化した。 UASpeechコーパスを用いて構築された最終話者適応システムと、速度摂動に基づく最良の拡張アプローチは、データ拡張なしでベースラインシステム上での絶対(9.3%)ワードエラー率(WER)を最大2.92%削減し、16の変形性スピーカーを含むテストセットで26.37%のWERを与えた。

Disordered speech recognition is a highly challenging task. The underlying neuro-motor conditions of people with speech disorders, often compounded with co-occurring physical disabilities, lead to the difficulty in collecting large quantities of speech required for system development. This paper investigates a set of data augmentation techniques for disordered speech recognition, including vocal tract length perturbation (VTLP), tempo perturbation and speed perturbation. Both normal and disordered speech were exploited in the augmentation process. Variability among impaired speakers in both the original and augmented data was modeled using learning hidden unit contributions (LHUC) based speaker adaptive training. The final speaker adapted system constructed using the UASpeech corpus and the best augmentation approach based on speed perturbation produced up to 2.92% absolute (9.3% relative) word error rate (WER) reduction over the baseline system without data augmentation, and gave an overall WER of 26.37% on the test set containing 16 dysarthric speakers.
翻訳日:2022-01-17 15:35:44 公開日:2022-01-14
# 近位勾配降下による$\ell_1$-norm制約付きマルチブロックスパース正準相関解析

$\ell_1$-norm constrained multi-block sparse canonical correlation analysis via proximal gradient descent ( http://arxiv.org/abs/2201.05289v1 )

ライセンス: Link先を確認
Leying Guan(参考訳) マルチブロックCCAは、複数のブロックにわたるコヒーレントな変動を説明する線形関係を構成する。 我々は,マルチブロックCCA問題を一般化固有ベクトルの先導として捉え,高次元データに対する$\ell_1$制約で近似勾配降下アルゴリズムを用いて解くことを提案する。 特に、近位反復に対する制約の減衰列を使い、その結果の見積もりが適切な仮定の下ではレート最適であることを示す。 いくつかの先行研究は反復的アプローチを用いた$\ell_0$制約付き問題に対してそのような最適性を示したが、$\ell_1$制約付き定式化に対する同じレベルの理論的理解はいまだに不足している。 また,複数の固有ベクトルを逐次推定するデフレ手順についても述べる。 我々は,提案手法をR CRAN上で実装可能な既存手法と比較し,提案手法はシミュレーションと実データ例の両方において競合性能を示す。

Multi-block CCA constructs linear relationships explaining coherent variations across multiple blocks of data. We view the multi-block CCA problem as finding leading generalized eigenvectors and propose to solve it via a proximal gradient descent algorithm with $\ell_1$ constraint for high dimensional data. In particular, we use a decaying sequence of constraints over proximal iterations, and show that the resulting estimate is rate-optimal under suitable assumptions. Although several previous works have demonstrated such optimality for the $\ell_0$ constrained problem using iterative approaches, the same level of theoretical understanding for the $\ell_1$ constrained formulation is still lacking. We also describe an easy-to-implement deflation procedure to estimate multiple eigenvectors sequentially. We compare our proposals to several existing methods whose implementations are available on R CRAN, and the proposed methods show competitive performances in both simulations and a real data example.
翻訳日:2022-01-17 15:35:21 公開日:2022-01-14
# dapstep:スタックトレースエラー表現のディープアサイン予測

DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation ( http://arxiv.org/abs/2201.05256v1 )

ライセンス: Link先を確認
Denis Sushentsev, Aleksandr Khvorov, Roman Vasiliev, Yaroslav Golubev, Timofey Bryksin(参考訳) バグを修正するのに最適な開発者を見つけるタスクは、バグトリアージと呼ばれる。 既存のアプローチのほとんどは、バグトリアージタスクを分類問題とみなしているが、クラスセットが時間とともに変化する場合(開発者がプロジェクトでよく行うように)、分類は適切ではない。 さらに、私たちの知る限りでは、既存のモデルはすべて、テキストによる情報ソース(バグ記述など)を使用しているが、これは必ずしも利用できない。 本研究では,スタックトレースをバグレポートの主要データ源として使用する場合のバグトリアージ問題に対する既存ソリューションの適用可能性を検討する。 さらに,この課題をランキング問題として再編成し,新しい深層学習モデルを提案する。 モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいており、ランキング損失関数を用いて最適化されたモデルの重み付けがある。 ランキングの質を向上させるために,バージョン管理システムアノテーションから追加情報を利用することを提案する。 手動と追加のニューラルネットワークを使用するアノテーションから特徴を抽出するための2つのアプローチが提案されている。 モデルを評価するために,実世界のスタックトレースのデータセットを2つ収集した。 実験の結果,提案手法はスタックトレースに適応した既存モデルよりも優れていた。 この領域のさらなる研究を容易にするために、我々はモデルのソースコードと収集されたデータセットの1つを公開する。

The task of finding the best developer to fix a bug is called bug triage. Most of the existing approaches consider the bug triage task as a classification problem, however, classification is not appropriate when the sets of classes change over time (as developers often do in a project). Furthermore, to the best of our knowledge, all the existing models use textual sources of information, i.e., bug descriptions, which are not always available. In this work, we explore the applicability of existing solutions for the bug triage problem when stack traces are used as the main data source of bug reports. Additionally, we reformulate this task as a ranking problem and propose new deep learning models to solve it. The models are based on a bidirectional recurrent neural network with attention and on a convolutional neural network, with the weights of the models optimized using a ranking loss function. To improve the quality of ranking, we propose using additional information from version control system annotations. Two approaches are proposed for extracting features from annotations: manual and using an additional neural network. To evaluate our models, we collected two datasets of real-world stack traces. Our experiments show that the proposed models outperform existing models adapted to handle stack traces. To facilitate further research in this area, we publish the source code of our models and one of the collected datasets.
翻訳日:2022-01-17 15:33:05 公開日:2022-01-14
# 行動ハニーポットの展開のためのセキュリティオーケストレーション、自動化、および応答エンジン

Security Orchestration, Automation, and Response Engine for Deployment of Behavioural Honeypots ( http://arxiv.org/abs/2201.05326v1 )

ライセンス: Link先を確認
Upendra Bartwal, Subhasis Mukhopadhyay, Rohit Negi, Sandeep Shukla(参考訳) サイバーセキュリティはIT/OTネットワークを持つ組織にとって重要なトピックである。 サイバー環境は進化し続けるシナリオであるため、インフラのセキュリティを強化するためにセキュリティシステムをアップグレードし続けなければならない。 セキュリティ情報とイベント管理(SIEM)、エンドポイント検出と応答(EDR)、脅威情報プラットフォーム(TIP)、情報技術サービス管理(ITSM)などのツールに加えて、侵入検知システム(IDS)、侵入防御システム(IPS)などの防衛技術が、インフラのサイバーセキュリティ姿勢を高めている。 しかし,提案する保護機構には限界があり,セキュリティを確保するには不十分であり,攻撃者がネットワークに侵入する。 偽造技術は、Honeypotsとともに、攻撃者にターゲットシステムの脆弱性の誤った感覚を提供する。 攻撃者は、彼らのオペランディに関する脅威を暴露した。 我々はセキュリティオーケストレーション、自動化、応答(soar)エンジンを開発し、攻撃者の行動に基づいて内部ネットワークインフラストラクチャ内にカスタムハニーポットを動的にデプロイする。 アーキテクチャは、システムに接続され、オーケストレーションに使用される複数のVLANをサポートするのに十分堅牢である。 ネットワーク内のハニーポットに対するボットネットトラフィックとDDOS攻撃の存在を、マルウェア収集システムとともに検出する。 4日間ライブトラフィックにさらされた後、エンジンはハニーポットを40回動的に調整し、7823攻撃、965ddos攻撃パケット、および3つの悪意のあるサンプルを検出した。 静的なハニーポットを使った実験では、インスタンス毎の平均攻撃エンゲージメント時間は102秒でしたが、SOARエンジンベースの動的ハニーポットは平均3148秒で攻撃者をエンゲージします。

Cyber Security is a critical topic for organizations with IT/OT networks as they are always susceptible to attack, whether insider or outsider. Since the cyber landscape is an ever-evolving scenario, one must keep upgrading its security systems to enhance the security of the infrastructure. Tools like Security Information and Event Management (SIEM), Endpoint Detection and Response (EDR), Threat Intelligence Platform (TIP), Information Technology Service Management (ITSM), along with other defensive techniques like Intrusion Detection System (IDS), Intrusion Protection System (IPS), and many others enhance the cyber security posture of the infrastructure. However, the proposed protection mechanisms have their limitations, they are insufficient to ensure security, and the attacker penetrates the network. Deception technology, along with Honeypots, provides a false sense of vulnerability in the target systems to the attackers. The attacker deceived reveals threat intel about their modus operandi. We have developed a Security Orchestration, Automation, and Response (SOAR) Engine that dynamically deploys custom honeypots inside the internal network infrastructure based on the attacker's behavior. The architecture is robust enough to support multiple VLANs connected to the system and used for orchestration. The presence of botnet traffic and DDOS attacks on the honeypots in the network is detected, along with a malware collection system. After being exposed to live traffic for four days, our engine dynamically orchestrated the honeypots 40 times, detected 7823 attacks, 965 DDOS attack packets, and three malicious samples. While our experiments with static honeypots show an average attacker engagement time of 102 seconds per instance, our SOAR Engine-based dynamic honeypots engage attackers on average 3148 seconds.
翻訳日:2022-01-17 15:32:44 公開日:2022-01-14
# ファイナンシャル時系列予測のためのマルチヘッドテンポラルアテンション強化バイリニアネットワーク

Multi-head Temporal Attention-Augmented Bilinear Network for Financial time series prediction ( http://arxiv.org/abs/2201.05459v1 )

ライセンス: Link先を確認
Mostafa Shabani, Dat Thanh Tran, Martin Magris, Juho Kanniainen, Alexandros Iosifidis(参考訳) 金融時系列予測は時系列分析の分野で最も難しい分野の一つである。 これは主に金融時系列データの非定常かつノイズが多いためである。 事前のドメイン知識を組み込んだ特殊なニューラルネットワークの設計にコミュニティの進歩的な取り組みによって、多くの財務分析や予測問題がうまく取り組まれている。 時間的注意機構は、重要な時間的出来事にフォーカスする能力によって最近人気を博した神経層設計である。 本稿では,時間的注意と多頭的注意の考え方に基づくニューラルネットワーク層を提案し,複数の時間的インスタンスに同時に集中する基盤となるニューラルネットワークの能力を拡張する。 提案手法の有効性を,大規模書籍市場データを用いて検証し,中間価格変動の方向を予測する。 実験により,マルチヘッド時空間注意モジュールを用いた場合,ベースラインモデルと比較して予測性能が向上することを示した。

Financial time-series forecasting is one of the most challenging domains in the field of time-series analysis. This is mostly due to the highly non-stationary and noisy nature of financial time-series data. With progressive efforts of the community to design specialized neural networks incorporating prior domain knowledge, many financial analysis and forecasting problems have been successfully tackled. The temporal attention mechanism is a neural layer design that recently gained popularity due to its ability to focus on important temporal events. In this paper, we propose a neural layer based on the ideas of temporal attention and multi-head attention to extend the capability of the underlying neural network in focusing simultaneously on multiple temporal instances. The effectiveness of our approach is validated using large-scale limit-order book market data to forecast the direction of mid-price movements. Our experiments show that the use of multi-head temporal attention modules leads to enhanced prediction performances compared to baseline models.
翻訳日:2022-01-17 15:32:12 公開日:2022-01-14
# 非線形パワーアンプによる帯域外放出低減のための波形学習

Waveform Learning for Reduced Out-of-Band Emissions Under a Nonlinear Power Amplifier ( http://arxiv.org/abs/2201.05524v1 )

ライセンス: Link先を確認
Dani Korpi, Mikko Honkala, Janne M.J. Huttunen, Fay\c{c}al Ait Aoudia, Jakob Hoydis(参考訳) 機械学習(ML)は、無線通信システムにおける物理層処理の様々な側面を最適化する上で、非常に有望である。 本稿では,MLを用いて送信波形と周波数領域受信機を共同で学習する。 特に、送信機電源増幅器が非線形に動作しているシナリオを考察し、MLを用いて波形を最適化し、帯域外放射を最小限に抑える。 このシステムは同時に学習した受信機によるパイロットレス検出を容易にするコンステレーション形状も学習する。 シミュレーションの結果,このようなエンドツーエンド最適化システムにより,従来のシステムに比べてデータ通信の精度が向上し,帯域外エミッションも小さくなった。 我々の知る限りでは、エンド・ツー・エンドの学習システムにおいて電力増幅器によるエミッションを考慮に入れた先行研究はない。 これらの知見は6Gのビルディングブロックの1つであるMLネイティブのエアインターフェースへの道を開いた。

Machine learning (ML) has shown great promise in optimizing various aspects of the physical layer processing in wireless communication systems. In this paper, we use ML to learn jointly the transmit waveform and the frequency-domain receiver. In particular, we consider a scenario where the transmitter power amplifier is operating in a nonlinear manner, and ML is used to optimize the waveform to minimize the out-of-band emissions. The system also learns a constellation shape that facilitates pilotless detection by the simultaneously learned receiver. The simulation results show that such an end-to-end optimized system can communicate data more accurately and with less out-of-band emissions than conventional systems, thereby demonstrating the potential of ML in optimizing the air interface. To the best of our knowledge, there are no prior works considering the power amplifier induced emissions in an end-to-end learned system. These findings pave the way towards an ML-native air interface, which could be one of the building blocks of 6G.
翻訳日:2022-01-17 15:31:11 公開日:2022-01-14
# グリオーマのisocitrate dehydrogenaseステータス予測のための画像と幾何学の協調学習

Collaborative learning of images and geometrics for predicting isocitrate dehydrogenase status of glioma ( http://arxiv.org/abs/2201.05530v1 )

ライセンス: Link先を確認
Yiran Wei, Chao Li, Xi Chen, Carola-Bibiane Sch\"onlieb, Stephen J. Price(参考訳) Isocitrate dehydrogenase (IDH)遺伝子変異はグリオーマ患者にとって重要なバイオマーカーである。 IDH変異検出のゴールド標準は、侵襲的なアプローチによって得られた腫瘍組織を必要とし、通常は高価である。 近年の放射線ゲノミクスの進歩は、MRIに基づくIDH変異を予測する非侵襲的アプローチを提供する。 一方、腫瘍幾何学は腫瘍の表現型を示す重要な情報を包含する。 本稿では, 畳み込みニューラルネットワーク(CNN)とグラフニューラルネットワーク(GNN)を用いて, 腫瘍画像と腫瘍幾何学の両方を学習する協調学習フレームワークを提案する。 その結果,提案モデルは3D-DenseNet121のベースラインモデルよりも優れていた。 さらに、協調学習モデルは、CNNまたはGNN単独よりも優れた性能を達成する。 モデル解釈は、CNNとGNNがIDH変異予測のための共通の領域とユニークな領域を特定できることを示している。 結論として,コラボレーティング画像と幾何学習者は,遺伝子型を予測しグリオーマを特徴付けるための新しいアプローチを提供する。

The isocitrate dehydrogenase (IDH) gene mutation status is an important biomarker for glioma patients. The gold standard of IDH mutation detection requires tumour tissue obtained via invasive approaches and is usually expensive. Recent advancement in radiogenomics provides a non-invasive approach for predicting IDH mutation based on MRI. Meanwhile, tumor geometrics encompass crucial information for tumour phenotyping. Here we propose a collaborative learning framework that learns both tumor images and tumor geometrics using convolutional neural networks (CNN) and graph neural networks (GNN), respectively. Our results show that the proposed model outperforms the baseline model of 3D-DenseNet121. Further, the collaborative learning model achieves better performance than either the CNN or the GNN alone. The model interpretation shows that the CNN and GNN could identify common and unique regions of interest for IDH mutation prediction. In conclusion, collaborating image and geometric learners provides a novel approach for predicting genotype and characterising glioma.
翻訳日:2022-01-17 15:29:28 公開日:2022-01-14
# de rham互換のディープニューラルネットワーク

De Rham compatible Deep Neural Networks ( http://arxiv.org/abs/2201.05395v1 )

ライセンス: Link先を確認
Marcello Longo, Joost A. A. Opschoor, Nico Disch, Christoph Schwab, Jakob Zech(参考訳) ReLU と BiSU (Binary Step Unit) をアクティベートしたいくつかのニューラルネットワークのクラスを構築し、これは正則な多角形および多面体領域の単純分割上の有限要素(FE)空間を正確にエミュレートする。 連続的、ピースワイズ線型(CPwL)函数に対して、我々の構成は以前の結果を一般化して、$\Omega$ の任意の正則な単純分割が、任意の次元 $d\geq 2$ で認められる。 ベクトル値要素のエミュレートには、古典的なラヴィアート=トーマスと、三角形とテトラヘドラ上の N'{e}d\'{e}lec エッジ要素の最初のファミリーが含まれる。 これらのfe空間をエミュレートするニューラルネットワークは、非凸ポリヘドラ $\omega \subset \mathbb{r}^3$ における電磁気学の境界値問題の正しい近似において必要であり、例えば ‘physics-informed nns'' や ‘deep ritz method’ の方法論を深層学習技術による電磁場シミュレーションに適用する上で必須の要素となる。 それらはそれぞれ正確な (De Rham) 列の性質を満足し、また、曲面の発散に対する正確な列の性質を満たす$\partial\Omega$ と、計算電磁界に対する '' 境界要素' を可能にする$\mathrm{div}_\Gamma$ と$\mathrm{curl}_\Gamma$ のそれぞれを満たす離散境界錯体を生成する。 我々は、高階互換空間や、特にクローゼックス・ラヴィアート元とハイブリダイド・ハイア・オーダー(HHO)法における非互換な離散化のクラスへの我々の構成の一般化を示す。

We construct several classes of neural networks with ReLU and BiSU (Binary Step Unit) activations, which exactly emulate the lowest order Finite Element (FE) spaces on regular, simplicial partitions of polygonal and polyhedral domains $\Omega \subset \mathbb{R}^d$, $d=2,3$. For continuous, piecewise linear (CPwL) functions, our constructions generalize previous results in that arbitrary, regular simplicial partitions of $\Omega$ are admitted, also in arbitrary dimension $d\geq 2$. Vector-valued elements emulated include the classical Raviart-Thomas and the first family of N\'{e}d\'{e}lec edge elements on triangles and tetrahedra. Neural Networks emulating these FE spaces are required in the correct approximation of boundary value problems of electromagnetism in nonconvex polyhedra $\Omega \subset \mathbb{R}^3$, thereby constituting an essential ingredient in the application of e.g. the methodology of ``physics-informed NNs'' or ``deep Ritz methods'' to electromagnetic field simulation via deep learning techniques. They satisfy exact (De Rham) sequence properties, and also spawn discrete boundary complexes on $\partial\Omega$ which satisfy exact sequence properties for the surface divergence and curl operators $\mathrm{div}_\Gamma$ and $\mathrm{curl}_\Gamma$, respectively, thereby enabling ``neural boundary elements'' for computational electromagnetism. We indicate generalizations of our constructions to higher-order compatible spaces and other, non-compatible classes of discretizations in particular the Crouzeix-Raviart elements and Hybridized, Higher Order (HHO) methods.
翻訳日:2022-01-17 15:28:47 公開日:2022-01-14
# インド株式市場選択部門におけるロバストポートフォリオデザインの精密株価予測

Precise Stock Price Prediction for Robust Portfolio Design from Selected Sectors of the Indian Stock Market ( http://arxiv.org/abs/2201.05570v1 )

ライセンス: Link先を確認
Jaydip Sen, Ashwin Kumar R S, Geetha Joseph, Kaushik Muthukrishnan, Koushik Tulasi, and Praveen Varukolu(参考訳) 株価予測は困難な課題であり、この分野の文献には多くの提案が存在している。 ポートフォリオ構築(Portfolio construction)は、リスクを最小限に抑えつつ、利益を最大化するために株群を選択し、投資するプロセスである。 マークウィッツが近代ポートフォリオ理論を提案した頃から、効率的なポートフォリオ構築の分野ではいくつかの進歩があった。 投資家は、投資家が効率的なポートフォリオに投資し、高い精度でポートフォリオの将来の資産価値を見積もることで、事前に購入または販売の決定を下すことができる場合、株式市場から最高の利益を得ることができる。 本プロジェクトでは,効率的なポートフォリオを構築し,ポートフォリオ内の株の個々の株価予測を用いて将来的な資産価値を予測する。 効率的なポートフォリオ構築の一環として、Modern Portfolio理論から始まる複数のポートフォリオ最適化手法を研究しました。 我々は、過去5年間の過去の株価をトレーニングデータとして利用し、選択した5つのセクターすべてに対して、最小分散ポートフォリオと最適なリスクポートフォリオを構築し、ポートフォリオのパフォーマンスを確認するためのテストも実施しました。 最小分散ポートフォリオと等重ポートフォリオの最適リスクポートフォリオの比較研究は、バックテストによって行われる。

Stock price prediction is a challenging task and a lot of propositions exist in the literature in this area. Portfolio construction is a process of choosing a group of stocks and investing in them optimally to maximize the return while minimizing the risk. Since the time when Markowitz proposed the Modern Portfolio Theory, several advancements have happened in the area of building efficient portfolios. An investor can get the best benefit out of the stock market if the investor invests in an efficient portfolio and could take the buy or sell decision in advance, by estimating the future asset value of the portfolio with a high level of precision. In this project, we have built an efficient portfolio and to predict the future asset value by means of individual stock price prediction of the stocks in the portfolio. As part of building an efficient portfolio we have studied multiple portfolio optimization methods beginning with the Modern Portfolio theory. We have built the minimum variance portfolio and optimal risk portfolio for all the five chosen sectors by using past daily stock prices over the past five years as the training data, and have also conducted back testing to check the performance of the portfolio. A comparative study of minimum variance portfolio and optimal risk portfolio with equal weight portfolio is done by backtesting.
翻訳日:2022-01-17 15:28:08 公開日:2022-01-14
# 効率的なDNNコンパイルのための自動スケジュールの再利用

Reusing Auto-Schedules for Efficient DNN Compilation ( http://arxiv.org/abs/2201.05587v1 )

ライセンス: Link先を確認
Perry Gibson, Jos\'e Cano(参考訳) オートスケジューリング(Auto-scheduling)とは、検索アルゴリズムが所定のハードウェアプラットフォーム上のテンソルプログラムの候補スケジュール(プログラム変換)を自動的に探索し、その性能を改善するプロセスである。 しかし、テンソルプログラムの複雑さとターゲット装置の容量に依存するため、これは非常に時間を要するプロセスであり、しばしば数千のプログラム変種が探索されている。 そこで本論文では,テンソルプログラム間の自動スケジューリングを識別・再利用する新しい手法である 'emph{tuning-reuse} を提案し,実証する。 本稿では,この概念をDeep Neural Networks (DNN) を用いて実証し,事前調整したDNNから自動スケジューリングのセットを取り,新しいDNNの推論時間を短縮する手法を提案する。 事前調整されたスケジュールが与えられた場合、チューニング・リユースは最先端のAnsor自動スケジューリング装置を使用する自動スケジューリングよりも少ない時間で最大限のスピードアップを提供する。 広く使用されているDNNモデルのセットでは、チューニング-再利用を適用し、最大速度を1.16\times$から4.76\times$の間で達成する。

Auto-scheduling is a process where a search algorithm automatically explores candidate schedules (program transformations) for a given tensor program on a given hardware platform to improve its performance. However this can be a very time consuming process, depending on the complexity of the tensor program, and capacity of the target device, with often many thousands of program variants being explored. To address this, in this paper we introduce and demonstrate the idea of \emph{tuning-reuse}, a novel approach to identify and re-use auto-schedules between tensor programs. We demonstrate this concept using Deep Neural Networks (DNNs), taking sets of auto-schedules from pre-tuned DNNs, and using them to reduce the inference time of a new DNN. Given a set of pre-tuned schedules, tuning-reuse provides its maximum speedup in less time than auto-scheduling using the state-of-the-art Ansor auto-scheduler. On a set of widely used DNN models, we apply tuning-reuse and achieve maximum speedups between $1.16\times$ and $4.76\times$, while outperforming Ansor when given limited tuning time.
翻訳日:2022-01-17 15:26:09 公開日:2022-01-14
# (参考訳) ウォームスタートとクリーンなクロールコーパス - 優れた言語モデルのためのレシピ [全文訳有]

A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language Models ( http://arxiv.org/abs/2201.05601v1 )

ライセンス: CC BY 4.0
V\'esteinn Sn{\ae}bjarnarson, Haukur Barri S\'imonarson, P\'etur Orri Ragnarsson, Svanhv\'it Ing\'olfsd\'ottir, Haukur P\'all J\'onsson, Vilhj\'almur {\TH}orsteinsson, Hafsteinn Einarsson(参考訳) 我々はアイスランド語のためのいくつかの言語モデルを訓練し、例えばIceBERTは、音声タグ付け、名前付きエンティティ認識、文法的誤り検出、選挙区解析など、様々な下流タスクで最先端のパフォーマンスを達成する。 モデルをトレーニングするために、アイスランドのトップレベルドメイン(tld)をターゲットとした、オンライン上の高品質テキストのコレクションであるアイスランド共通クロールコーパス(ic3)を新たに導入した。 他のいくつかの公開データソースも、合計16GBのアイスランド語のテキストのために収集されている。 アイスランドにおけるモデル性能の評価を高め,基準値のバーを引き上げるために,WinoGrandeデータセットを共参照分解のために翻訳し,適応する。 これらの取り組みを通じて、キュレートされたコーパスで訓練されたモデルと比較することにより、ロー・ミディアム・リソース言語に対するNLPアプリケーションにおける最先端の結果を達成するのに十分なクロールコーパスが十分であることを示す。 さらに、既存の多言語モデルを用いた初期化モデルにより、ダウンストリームタスクの最先端結果が得られることを示す。

We train several language models for Icelandic, including IceBERT, that achieve state-of-the-art performance in a variety of downstream tasks, including part-of-speech tagging, named entity recognition, grammatical error detection and constituency parsing. To train the models we introduce a new corpus of Icelandic text, the Icelandic Common Crawl Corpus (IC3), a collection of high quality texts found online by targeting the Icelandic top-level-domain (TLD). Several other public data sources are also collected for a total of 16GB of Icelandic text. To enhance the evaluation of model performance and to raise the bar in baselines for Icelandic, we translate and adapt the WinoGrande dataset for co-reference resolution. Through these efforts we demonstrate that a properly cleaned crawled corpus is sufficient to achieve state-of-the-art results in NLP applications for low to medium resource languages, by comparison with models trained on a curated corpus. We further show that initializing models using existing multilingual models can lead to state-of-the-art results for some downstream tasks.
翻訳日:2022-01-17 15:25:18 公開日:2022-01-14
# 深い傾きに基づく超高速階段検出

Deep Leaning-Based Ultra-Fast Stair Detection ( http://arxiv.org/abs/2201.05275v1 )

ライセンス: Link先を確認
Chen Wang, Zhongcai Pei, Shuang Qiu, Zhiyong Tang(参考訳) 階段は都市環境において最も一般的な建物である。 階段検出は、外骨格ロボットの環境知覚、ヒューマノイドロボット、救助ロボット、視覚障害者のナビゲーションなど、様々な用途において重要なタスクである。 既存の階段検出アルゴリズムの多くは、階段構造材料の多様性、極端な光、深刻な閉塞を扱うのが困難である。 人間の知覚に触発され,深層学習に基づくエンドツーエンドの手法を提案する。 具体的には,階段線検出の過程を,粗いセマンティックセグメンテーションとオブジェクト検出を含むマルチタスクとして扱う。 入力画像はセルに分割され、各セルが階段線を含むか否かを単純なニューラルネットワークで判断する。 階段線を含む細胞については、各細胞に対する階段線の位置を後退させる。 データセット上での広範な実験により,本手法は速度と精度の両面で高い性能を実現することができた。 軽量版は、同じ解像度で毎秒300フレーム以上を達成できる。 私たちのコードはGitHubで入手可能です。

Staircases are some of the most common building structures in urban environments. Stair detection is an important task for various applications, including the environmental perception of exoskeleton robots, humanoid robots, and rescue robots and the navigation of visually impaired people. Most existing stair detection algorithms have difficulty dealing with the diversity of stair structure materials, extreme light and serious occlusion. Inspired by human perception, we propose an end-to-end method based on deep learning. Specifically, we treat the process of stair line detection as a multitask involving coarse-grained semantic segmentation and object detection. The input images are divided into cells, and a simple neural network is used to judge whether each cell contains stair lines. For cells containing stair lines, the locations of the stair lines relative to each cell are regressed. Extensive experiments on our dataset show that our method can achieve high performance in terms of both speed and accuracy. A lightweight version can even achieve 300+ frames per second with the same resolution. Our code is available at GitHub.
翻訳日:2022-01-17 15:02:11 公開日:2022-01-14
# 映像シーンセグメンテーションのための境界認識自己教師付き学習

Boundary-aware Self-supervised Learning for Video Scene Segmentation ( http://arxiv.org/abs/2201.05277v1 )

ライセンス: Link先を確認
Jonghwan Mun, Minchul Shin, Gunsoo Han, Sangho Lee, Seongsu Ha, Joonseok Lee, Eun-Sol Kim(参考訳) 自己教師付き学習は、基礎的アノテーションを使わずにドメイン内表現を学習することの有効性に注目が集まっている。特に、適切に設計された前文タスク(例えば、対照予測タスク)は、下流タスク(例えば分類タスク)に大幅なパフォーマンス向上をもたらすことが示されている。 そこで,本研究では,映像内のシーン境界を時間的に局所化するタスクである映像シーンセグメンテーションに,効果的なプリテキストタスクの設計を主眼とした自己教師あり学習フレームワークを導入する。 提案手法では,ショット列から擬似境界を2つの連続的非重複部分列に分割し,擬似境界を利用して事前学習を容易にする。 これに基づいて、3つの新しい境界対応プレテキストタスクを導入する。 1)ショットシーンマッチング(SSM) 2)文脈的グループマッチング(cgm)および 3) Pseudo-boundary Prediction (PP), SSM と CGM は,SSM と CGM のモデルを用いて,シーン内類似性とシーン間識別を最大化し,PP は遷移モーメントの同定を奨励する。 包括的分析により,映像シーンのセグメンテーション性能を向上させるために,事前学習と文脈表現の伝達が重要であることを示す。 最後に、movienet-ssegベンチマークで最新技術を達成する。 コードはhttps://github.com/k akaobrain/basslで入手できる。

Self-supervised learning has drawn attention through its effectiveness in learning in-domain representations with no ground-truth annotations; in particular, it is shown that properly designed pretext tasks (e.g., contrastive prediction task) bring significant performance gains for downstream tasks (e.g., classification task). Inspired from this, we tackle video scene segmentation, which is a task of temporally localizing scene boundaries in a video, with a self-supervised learning framework where we mainly focus on designing effective pretext tasks. In our framework, we discover a pseudo-boundary from a sequence of shots by splitting it into two continuous, non-overlapping sub-sequences and leverage the pseudo-boundary to facilitate the pre-training. Based on this, we introduce three novel boundary-aware pretext tasks: 1) Shot-Scene Matching (SSM), 2) Contextual Group Matching (CGM) and 3) Pseudo-boundary Prediction (PP); SSM and CGM guide the model to maximize intra-scene similarity and inter-scene discrimination while PP encourages the model to identify transitional moments. Through comprehensive analysis, we empirically show that pre-training and transferring contextual representation are both critical to improving the video scene segmentation performance. Lastly, we achieve the new state-of-the-art on the MovieNet-SSeg benchmark. The code is available at https://github.com/k akaobrain/bassl.
翻訳日:2022-01-17 15:01:58 公開日:2022-01-14
# MMNet:マイクロ圧縮認識のための筋運動誘導ネットワーク

MMNet: Muscle motion-guided network for micro-expression recognition ( http://arxiv.org/abs/2201.05297v1 )

ライセンス: Link先を確認
Hanting Li, Mingzhe Sui, Zhaoqing Zhu, Feng Zhao(参考訳) 顔のマイクロ・エクスプレッション(ME)は、人々の本当の感情を明らかにする不随意の顔の動きであり、精神疾患の早期介入、国家安全保障、および多くの人間とコンピュータの相互作用システムにおいて重要な役割を果たす。 しかし、既存のマイクロ圧縮データセットは限定的であり、通常は優れた分類器の訓練にいくつかの課題をもたらす。 顔面筋の微妙な運動をモデル化するために,ロバストなマイクロ表現認識(mer)フレームワーク,すなわち筋運動誘導ネットワーク(mmnet)を提案する。 特に、連続注意ブロックは、身元情報が少ない局所的な微妙な筋肉運動パターンのモデル化に焦点をあてるが、これは、多くの身元情報を持つ完全なビデオフレームから特徴を直接抽出する従来の方法と異なる。 また,視覚トランスフォーマに基づいて位置校正(pc)モジュールを設計する。 2つの枝の端にPCモジュールによって生成された顔の位置埋め込みを追加することで、PCモジュールはMERの顔面筋運動パターンの特徴に位置情報を追加するのに役立つ。 3つの公開マイクロ表現データセットに関する広範な実験は、我々のアプローチが最先端のメソッドよりも大きなマージンで優れていることを示している。

Facial micro-expressions (MEs) are involuntary facial motions revealing peoples real feelings and play an important role in the early intervention of mental illness, the national security, and many human-computer interaction systems. However, existing micro-expression datasets are limited and usually pose some challenges for training good classifiers. To model the subtle facial muscle motions, we propose a robust micro-expression recognition (MER) framework, namely muscle motion-guided network (MMNet). Specifically, a continuous attention (CA) block is introduced to focus on modeling local subtle muscle motion patterns with little identity information, which is different from most previous methods that directly extract features from complete video frames with much identity information. Besides, we design a position calibration (PC) module based on the vision transformer. By adding the position embeddings of the face generated by PC module at the end of the two branches, the PC module can help to add position information to facial muscle motion pattern features for the MER. Extensive experiments on three public micro-expression datasets demonstrate that our approach outperforms state-of-the-art methods by a large margin.
翻訳日:2022-01-17 15:01:34 公開日:2022-01-14
# SIFTとDCNNを用いた残差制約任意画像スタイル転送

Saliency Constrained Arbitrary Image Style Transfer using SIFT and DCNN ( http://arxiv.org/abs/2201.05346v1 )

ライセンス: Link先を確認
HuiHuang Zhao, Yaonan Wang and Yuhua Li(参考訳) 本稿では,Deep Convolutional Neural Networks (DCNN)モデルを用いて,サンプル画像(スタイル画像)を他の画像(コンテンツ画像)に転送する新たな画像合成手法を提案する。 一般的なニューラルスタイルの転送方法を使用する場合、スタイル画像のテクスチャや色は通常、コンテンツ画像に不完全に転送されるか、あるいはいくつかの可視誤差が発生する。 本稿では,その効果を低減・回避するための新しいサリエンシ制約手法を提案する。 まず,本手法で最も適した方法を選択するために,既存の塩分濃度検出法について評価する。 選択されたサリエンシー検出方法は、同じサリエンシーを有するコンテンツ画像のオブジェクトに対応するスタイル画像内のオブジェクトを検出するために使用される。 また、スタイル画像とコンテンツにおいてサイズや解像度が異なるという問題を解決するため、スケール不変の特徴変換を用いて一連のスタイル画像とコンテンツ画像を生成し、マッチングマッチングのためのより多くの特徴マップを生成することができる。 そこで, 新たな損失関数を提案し, 相違損失, スタイル損失, コンテンツ損失を組み合わせ, 繰り返しの相違による相違度制約の勾配を加味する。 最後に、スタイル転送のための改良された深層CNNフレームワークへのマルチチャネル入力として、ソース画像とサリエンシ検出結果を利用する。 実験は、ソースイメージの塩分マップが正しいマッチングを見つけ、アーティファクトを避けるのに役立つことを示している。 異なる種類の画像に対する実験結果から,本手法は最近の出版物から9つの代表的な手法より優れ,ロバスト性も良好であることが示された。

This paper develops a new image synthesis approach to transfer an example image (style image) to other images (content images) by using Deep Convolutional Neural Networks (DCNN) model. When common neural style transfer methods are used, the textures and colors in the style image are usually transferred imperfectly to the content image, or some visible errors are generated. This paper proposes a novel saliency constrained method to reduce or avoid such effects. It first evaluates some existing saliency detection methods to select the most suitable one for use in our method. The selected saliency detection method is used to detect the object in the style image, corresponding to the object of the content image with the same saliency. In addition, aim to solve the problem that the size or resolution is different in the style image and content, the scale-invariant feature transform is used to generate a series of style images and content images which can be used to generate more feature maps for patches matching. It then proposes a new loss function combining the saliency loss, style loss and content loss, adding gradient of saliency constraint into style transfer in iterations. Finally the source images and saliency detection results are utilized as multichannel input to an improved deep CNN framework for style transfer. The experiments show that the saliency maps of source images can help find the correct matching and avoid artifacts. Experimental results on different kind of images demonstrate that our method outperforms nine representative methods from recent publications and has good robustness.
翻訳日:2022-01-17 15:01:16 公開日:2022-01-14
# HardBoost: ハードクラスでゼロショット学習を促進する

HardBoost: Boosting Zero-Shot Learning with Hard Classes ( http://arxiv.org/abs/2201.05479v1 )

ライセンス: Link先を確認
Bo Liu, Lihua Hu, Zhanyi Hu, and Qiulei Dong(参考訳) この研究は、ゼロショット学習(ZSL)におけるいわゆるハードクラス問題(英語版)の体系的分析であり、一部の未確認クラスは、他のクラスよりもZSLのパフォーマンスに不均等に影響を及ぼし、ハードクラスを検知し、悪用することで問題を修復する方法である。 まず, ハードクラス問題(ハードクラス問題)がユビキタスな現象であり, 使用済みのZSL法によらず, 持続することを示す実験的な知見を報告する。 そして,未知クラス間の高い意味的親和性は,ハードネスの根底にある可能性の高い原因であり,ハードクラスを検出するために2つのメトリクスを設計する。 最後に、2つのフレームワークがハードクラスを検出して活用し、1つはインダクティブな設定で、もう1つはトランスダクティブな設定で解決する。 提案されたフレームワークは、ほとんど既存のzslメソッドに対応し、少ない労力でパフォーマンスをさらに向上させることができる。 3つの人気のあるベンチマークに関する大規模な実験は、ZSLのハードクラスを特定し、活用することで利点を実証している。

This work is a systematical analysis on the so-called hard class problem in zero-shot learning (ZSL), that is, some unseen classes disproportionally affect the ZSL performances than others, as well as how to remedy the problem by detecting and exploiting hard classes. At first, we report our empirical finding that the hard class problem is a ubiquitous phenomenon and persists regardless of used specific methods in ZSL. Then, we find that high semantic affinity among unseen classes is a plausible underlying cause of hardness and design two metrics to detect hard classes. Finally, two frameworks are proposed to remedy the problem by detecting and exploiting hard classes, one under inductive setting, the other under transductive setting. The proposed frameworks could accommodate most existing ZSL methods to further significantly boost their performances with little efforts. Extensive experiments on three popular benchmarks demonstrate the benefits by identifying and exploiting the hard classes in ZSL.
翻訳日:2022-01-17 15:00:49 公開日:2022-01-14
# lidar移動地図データによる建築物の洪水リスクマップの決定

Determination of building flood risk maps from LiDAR mobile mapping data ( http://arxiv.org/abs/2201.05514v1 )

ライセンス: Link先を確認
Yu Feng, Qing Xiao, Claus Brenner, Aaron Peche, Juntao Yang, Udo Feuerhake, Monika Sester(参考訳) 都市化が進むにつれて、多くの都市で洪水が大きな課題となっている。 予測降水量、地形、パイプネットワークに基づいて、洪水シミュレーションは洪水のリスクのある地域や建物に早期の警告を与えることができる。 基礎窓、ドア、地下のガレージの入り口は、浸水が建物に流れ込む一般的な場所である。 建物の中には洪水の脅威を考慮して準備や設計がなされているものもあるが、そうではないものもある。 したがって、これらのファサードの開口部の高さを知ることは、入水しやすい場所を特定するのに役立つ。 しかし、ほとんどの都市ではそのようなデータは利用できない。 望まれる対象の伝統的な調査が用いられることもあるが、これは非常に時間と労力を要するプロセスである。 本研究では,lidarモバイルマッピングデータから窓とドアを抽出するための新しいプロセスを提案する。 ディープラーニングオブジェクト検出モデルは、これらのオブジェクトを特定するために訓練される。 通常、これは大量の手動アノテーションを提供する必要がある。 本稿では,ルールベースの手法を用いてこの問題を緩和する。 最初のステップでは、ルールベースのメソッドを使用して擬似ラベルを生成する。 半教師付き学習戦略は、3つの異なるレベルの監督によって適用される。 その結果、自動生成された擬似ラベルのみを用いることで、F1スコアの点において、学習ベースモデルはルールベースのアプローチを14.6%上回る結果となった。 人間の監督から5時間経つと、さらなる6.2%の改善が可能となる。 ファサード開口部の高さを洪水シミュレーションモデルから予測した水位と比較することにより、建物毎の洪水リスクレベルを割り当てる地図を作成することができる。 この情報は洪水予報と組み合わせることで、市のインフラや住宅ビルのより標的となる防災ガイドを提供することができる。

With increasing urbanization, flooding is a major challenge for many cities today. Based on forecast precipitation, topography, and pipe networks, flood simulations can provide early warnings for areas and buildings at risk of flooding. Basement windows, doors, and underground garage entrances are common places where floodwater can flow into a building. Some buildings have been prepared or designed considering the threat of flooding, but others have not. Therefore, knowing the heights of these facade openings helps to identify places that are more susceptible to water ingress. However, such data is not yet readily available in most cities. Traditional surveying of the desired targets may be used, but this is a very time-consuming and laborious process. This research presents a new process for the extraction of windows and doors from LiDAR mobile mapping data. Deep learning object detection models are trained to identify these objects. Usually, this requires to provide large amounts of manual annotations. In this paper, we mitigate this problem by leveraging a rule-based method. In a first step, the rule-based method is used to generate pseudo-labels. A semi-supervised learning strategy is then applied with three different levels of supervision. The results show that using only automatically generated pseudo-labels, the learning-based model outperforms the rule-based approach by 14.6% in terms of F1-score. After five hours of human supervision, it is possible to improve the model by another 6.2%. By comparing the detected facade openings' heights with the predicted water levels from a flood simulation model, a map can be produced which assigns per-building flood risk levels. This information can be combined with flood forecasting to provide a more targeted disaster prevention guide for the city's infrastructure and residential buildings.
翻訳日:2022-01-17 15:00:28 公開日:2022-01-14
# ViT2Hash: 教師なしの情報保存ハッシュ

ViT2Hash: Unsupervised Information-Preservi ng Hashing ( http://arxiv.org/abs/2201.05541v1 )

ライセンス: Link先を確認
Qinkang Gong, Liangdao Wang, Hanjiang Lai, Yan Pan, Jian Yin(参考訳) 教師なしの2進符号に画像をマッピングする教師なし画像ハッシュは、高い圧縮率の圧縮機である。 したがって、元のデータの有意義な情報を保存する方法が重要な問題である。 本稿では,視覚表現の学習において大きな進歩を見せている視覚前訓練モデルViTに触発されて,対象の教師なしハッシュタスクに対して,ViTモデルを微調整する簡易情報保存圧縮機を提案する。 具体的には、画素から連続的な特徴まで、まず、劣化した画像を入力として、トレーニング済みのViTモデルと完全な画像から元の特徴を再構成し、特徴抽出器が原データの有意義な情報を保存することに集中できるように、特徴保存モジュールを提案する。 第二に、連続的な特徴からハッシュコードまで、提案したKullback-Leibler分散損失を用いて、トレーニング済みのViTモデルから意味情報を保持するためのハッシュ保存モジュールを提案する。 また、量子化誤差を最小限に抑えるために量子化損失と類似性損失を加える。 提案手法は非常に単純で,3つのベンチマーク画像データセット上でのMAPの精度は極めて高い。

Unsupervised image hashing, which maps images into binary codes without supervision, is a compressor with a high compression rate. Hence, how to preserving meaningful information of the original data is a critical problem. Inspired by the large-scale vision pre-training model, known as ViT, which has shown significant progress for learning visual representations, in this paper, we propose a simple information-preservi ng compressor to finetune the ViT model for the target unsupervised hashing task. Specifically, from pixels to continuous features, we first propose a feature-preserving module, using the corrupted image as input to reconstruct the original feature from the pre-trained ViT model and the complete image, so that the feature extractor can focus on preserving the meaningful information of original data. Secondly, from continuous features to hash codes, we propose a hashing-preserving module, which aims to keep the semantic information from the pre-trained ViT model by using the proposed Kullback-Leibler divergence loss. Besides, the quantization loss and the similarity loss are added to minimize the quantization error. Our method is very simple and achieves a significantly higher degree of MAP on three benchmark image datasets.
翻訳日:2022-01-17 15:00:05 公開日:2022-01-14
# 畳み込みニューラルネットワークモデルを用いたFISHおよびナノSIMS画像のマルチモーダル登録

Multimodal registration of FISH and nanoSIMS images using convolutional neural network models ( http://arxiv.org/abs/2201.05545v1 )

ライセンス: Link先を確認
Xiaojia He, Christof Meile, Suchendra M. Bhandarkar(参考訳) ナノスケール二次イオン質量分析法 (nanoSIMS) および蛍光 in situ hybridization (FISH) 顕微鏡は、微生物研究における標的微生物群集のアイデンティティと細胞活性の高解像度・多モード画像表現を提供する。 微生物学者にとって重要であるにもかかわらず、FISHおよびnanoSIMS画像のマルチモーダルな登録は、どちらの画像にも形態的歪みと背景雑音があるため困難である。 本研究では,多スケール特徴抽出のための畳み込みニューラルネットワーク(cnns),最小変換コスト特徴マッチングの計算のための形状コンテキスト,魚およびナノsims画像のマルチモーダル登録のための薄板スプライン(tps)モデルを用いた。 6つの試験されたCNNモデル、VGG16、VGG19、GoogLeNet、ShuffleNet、ResNet18、ResNet101はいずれもよく機能し、背景ノイズと形態歪みが著しいマルチモーダル画像の登録におけるCNNの有用性を示した。 また,バイナライゼーションにより保存された骨材形状を多モード微生物画像の登録に有用であることを示す。

Nanoscale secondary ion mass spectrometry (nanoSIMS) and fluorescence in situ hybridization (FISH) microscopy provide high-resolution, multimodal image representations of the identity and cell activity respectively of targeted microbial communities in microbiological research. Despite its importance to microbiologists, multimodal registration of FISH and nanoSIMS images is challenging given the morphological distortion and background noise in both images. In this study, we use convolutional neural networks (CNNs) for multiscale feature extraction, shape context for computation of the minimum transformation cost feature matching and the thin-plate spline (TPS) model for multimodal registration of the FISH and nanoSIMS images. All the six tested CNN models, VGG16, VGG19, GoogLeNet and ShuffleNet, ResNet18 and ResNet101 performed well, demonstrating the utility of CNNs in the registration of multimodal images with significant background noise and morphology distortion. We also show aggregate shape preserved by binarization to be a robust feature for registering multimodal microbiology-related images.
翻訳日:2022-01-17 14:58:32 公開日:2022-01-14
# 大規模分散キャンペーンにおけるオンラインコミュニティの定着予測

This Must Be the Place: Predicting Engagement of Online Communities in a Large-scale Distributed Campaign ( http://arxiv.org/abs/2201.05334v1 )

ライセンス: Link先を確認
Abraham Israeli, Alexander Kremiansky, Oren Tsur(参考訳) 集団的意思決定を大規模に理解し,コミュニティ組織とコミュニティダイナミクスが集団的行動をどのように形成するかを,社会科学研究の核心に示す。 本研究では,数百万人のアクティブなメンバによる数千のコミュニティの行動について検討する。 我々は,予想外の大規模分散キャンペーンを行うコミュニティの予測という,新たな課題を定義した。 この目的のために,テキストキュー,コミュニティメタデータ,構造特性を組み合わせたハイブリッドモデルを開発した。 本稿では,この多面モデルが分散環境における大規模集団意思決定を正確に予測できることを示す。 私たちはRedditのr/placeを通じて、何千ものコミュニティで自己組織化された数百万のユーザが衝突し、アジェンダを実現するために協力する大規模なオンライン実験を通じて、私たちのモデルの適用性を実証しました。 ハイブリッドモデルではF1予測スコアが0.826である。 粗いメタ機能は、きめ細かいテキストの手がかりと同じくらい予測精度に重要であるが、明示的な構造的特徴はより小さい役割を担っている。 モデルを解釈し,r/place実験に参加したコミュニティの特徴について,様々な社会的洞察を提供し,支援する。 我々の結果と分析は、集団行動を促進する複雑な社会的ダイナミクスと、ユーザの協調を促進する要因に光を当てた。 r/place実験の規模とユニークな条件は、オンラインアクティビズム、ヘイトスピーチの普及、政治的偏りの低減など、より広い文脈でこの研究結果が適用可能であることを示唆している。 このモデルのより広い適用性は、ウォールストリートベッツのコミュニティ、彼らのr/placeにおける役割、および2021年のgamestop short squeezeキャンペーンの広範な分析を通して示される。

Understanding collective decision making at a large-scale, and elucidating how community organization and community dynamics shape collective behavior are at the heart of social science research. In this work we study the behavior of thousands of communities with millions of active members. We define a novel task: predicting which community will undertake an unexpected, large-scale, distributed campaign. To this end, we develop a hybrid model, combining textual cues, community meta-data, and structural properties. We show how this multi-faceted model can accurately predict large-scale collective decision-making in a distributed environment. We demonstrate the applicability of our model through Reddit's r/place a large-scale online experiment in which millions of users, self-organized in thousands of communities, clashed and collaborated in an effort to realize their agenda. Our hybrid model achieves a high F1 prediction score of 0.826. We find that coarse meta-features are as important for prediction accuracy as fine-grained textual cues, while explicit structural features play a smaller role. Interpreting our model, we provide and support various social insights about the unique characteristics of the communities that participated in the r/place experiment. Our results and analysis shed light on the complex social dynamics that drive collective behavior, and on the factors that propel user coordination. The scale and the unique conditions of the r/place experiment suggest that our findings may apply in broader contexts, such as online activism, (countering) the spread of hate speech and reducing political polarization. The broader applicability of the model is demonstrated through an extensive analysis of the WallStreetBets community, their role in r/place and the GameStop short squeeze campaign of 2021.
翻訳日:2022-01-17 14:58:12 公開日:2022-01-14
# チャットボットのメンタルヘルスアセスメント

Mental Health Assessment for the Chatbots ( http://arxiv.org/abs/2201.05382v1 )

ライセンス: Link先を確認
Yong Shan, Jinchao Zhang, Zekang Li, Yang Feng, Jie Zhou(参考訳) 対話システム評価に関するこれまでの研究は、通常、局所的および技術的指標であるチャットボットが生成する応答の品質評価(例えば、流束、関連性など)に焦点を当てている。 未成年者を含む何百万ものオンラインユーザーに反応するチャットボットは、心理的な影響を避けるために健全な精神傾向を持つべきだと主張する。 本稿では,チャットボットのメンタルヘルスアセスメント次元(抑うつ,不安,アルコール依存症,共感)をいくつか確立し,質問紙ベースのメンタルヘルスアセスメント手法を提案する。 我々は、よく知られたオープンドメインチャットボットの評価を行い、これらのチャットボットに深刻なメンタルヘルス問題があることを発見した。 本研究は,データセット構築時のメンタルヘルスリスクとモデルトレーニング手順の無視によるものであると考えている。 我々は、チャットボットの深刻なメンタルヘルス問題に研究者の注意を惹きつけ、ポジティブな感情的相互作用におけるチャットボットの能力を向上させることを期待する。

Previous researches on dialogue system assessment usually focus on the quality evaluation (e.g. fluency, relevance, etc) of responses generated by the chatbots, which are local and technical metrics. For a chatbot which responds to millions of online users including minors, we argue that it should have a healthy mental tendency in order to avoid the negative psychological impact on them. In this paper, we establish several mental health assessment dimensions for chatbots (depression, anxiety, alcohol addiction, empathy) and introduce the questionnaire-based mental health assessment methods. We conduct assessments on some well-known open-domain chatbots and find that there are severe mental health issues for all these chatbots. We consider that it is due to the neglect of the mental health risks during the dataset building and the model training procedures. We expect to attract researchers' attention to the serious mental health problems of chatbots and improve the chatbots' ability in positive emotional interaction.
翻訳日:2022-01-17 14:57:43 公開日:2022-01-14
# 植物表現の適応的伝達学習

Adaptive Transfer Learning for Plant Phenotyping ( http://arxiv.org/abs/2201.05261v1 )

ライセンス: Link先を確認
Jun Wu, Elizabeth A. Ainsworth, Sheng Wang, Kaiyu Guan, Jingrui He(参考訳) 植物フェノタイピング(Guo et al. 2021; Pieruschka et al. 2019)は、植物の成長に関連する植物の多様性を研究することに焦点を当てている。 より具体的には、植物の解剖学的、個体発生学的、生理的、生化学的特性を正確に測定することにより、異なる環境における植物の成長の重要な要因を特定することができる。 1つの一般的なアプローチは、ハイパースペクトル反射率(Yendrek et al. 2017; Wang et al. 2021)を用いて植物の特性を予測することである。 しかし, 植物表現における高スペクトル反射率データの分布は, 異なる環境において異なる可能性がある。 つまり、異なる環境で1つのプラントで個別に機械学習モデルを学習することは、計算的に拡張可能である。 そこで本研究では,植物表現型化における現代機械学習モデルの知識伝達可能性の研究に焦点をあてる。 具体的には、以下の質問に答えることを目的としている。 1)従来の機械学習モデル、例えば部分最小二乗回帰(plsr)、ガウス過程回帰(gpr)、多層パーセプトロン(mlp)の性能は、植物表現型に対する注釈付きサンプルの数にどのように影響するか。 2) ニューラルネットワークを用いたトランスファー学習モデルが植物表現型の性能を向上できるか? 3) 植物表現型化のための無限幅隠れ層を用いたニューラルネットワークによるトランスファー学習の改善は可能か?

Plant phenotyping (Guo et al. 2021; Pieruschka et al. 2019) focuses on studying the diverse traits of plants related to the plants' growth. To be more specific, by accurately measuring the plant's anatomical, ontogenetical, physiological and biochemical properties, it allows identifying the crucial factors of plants' growth in different environments. One commonly used approach is to predict the plant's traits using hyperspectral reflectance (Yendrek et al. 2017; Wang et al. 2021). However, the data distributions of the hyperspectral reflectance data in plant phenotyping might vary in different environments for different plants. That is, it would be computationally expansive to learn the machine learning models separately for one plant in different environments. To solve this problem, we focus on studying the knowledge transferability of modern machine learning models in plant phenotyping. More specifically, this work aims to answer the following questions. (1) How is the performance of conventional machine learning models, e.g., partial least squares regression (PLSR), Gaussian process regression (GPR) and multi-layer perceptron (MLP), affected by the number of annotated samples for plant phenotyping? (2) Whether could the neural network based transfer learning models improve the performance of plant phenotyping? (3) Could the neural network based transfer learning be improved by using infinite-width hidden layers for plant phenotyping?
翻訳日:2022-01-17 14:56:47 公開日:2022-01-14
# リンク予測のための構造強化グラフニューラルネットワーク

Structure Enhanced Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2201.05293v1 )

ライセンス: Link先を確認
Baole Ai, Zhou Qin, Wenting Shen, Yong Li(参考訳) グラフニューラルネットワーク(GNN)は様々なタスクにおいて有望な結果を示しており、リンク予測が重要である。 GNNモデルは、通常、近隣情報を中央ノードに再帰的に集約するノード中心のメッセージパッシング手順に従う。 このパラダイムに従い、ノードの特徴は、ノードの位置とそれが果たす役割を気にせずにエッジを通過する。 しかし、無視されたトポロジ情報はリンク予測タスクに有用であることが示されている。 本稿では,リンク予測のための構造拡張グラフニューラルネットワーク(SEG)を提案する。 SEGは,対象ノードのトポロジ情報を取り込むパスラベリング手法を導入し,その構造を通常のGNNモデルに組み込む。 構造エンコーダと深部GNNモデルを共同でトレーニングすることにより、SEGはトポロジ構造とノード特徴を融合させ、グラフ情報を完全に活用する。 OGBリンク予測データセットの実験は、SEGが3つの公開データセットすべてで最先端の結果を達成することを示した。

Graph Neural Networks (GNNs) have shown promising results in various tasks, among which link prediction is an important one. GNN models usually follow a node-centric message passing procedure that aggregates the neighborhood information to the central node recursively. Following this paradigm, features of nodes are passed through edges without caring about where the nodes are located and which role they played. However, the neglected topological information is shown to be valuable for link prediction tasks. In this paper, we propose Structure Enhanced Graph neural network (SEG) for link prediction. SEG introduces the path labeling method to capture surrounding topological information of target nodes and then incorporates the structure into an ordinary GNN model. By jointly training the structure encoder and deep GNN model, SEG fuses topological structures and node features to take full advantage of graph information. Experiments on the OGB link prediction datasets demonstrate that SEG achieves state-of-the-art results among all three public datasets.
翻訳日:2022-01-17 14:55:08 公開日:2022-01-14
# 時系列予測のための解釈可能な動的アンサンブルアーキテクチャ

IDEA: Interpretable Dynamic Ensemble Architecture for Time Series Prediction ( http://arxiv.org/abs/2201.05336v1 )

ライセンス: Link先を確認
Mengyue Zha, Kani Chen, Tong Zhang(参考訳) 説明可能なアンサンブルによる不定な時系列予測の精度と一般化をオンザフライで向上させる。 本稿では,解釈可能なベース学習者が群としての疎コミュニケーションと独立して予測を行うための,解釈可能な動的アンサンブルアーキテクチャ(IDEA)を提案する。 このモデルは、グループバックキャスト残差と再帰入力競合によって接続された複数の連続的に積み重ねられたグループで構成されている。 エンドツーエンドのトレーニングによるアンサンブルは、水平および垂直の両方で、最先端(SOTA)のパフォーマンスをもたらす。 予測精度はTOURISMデータセットで最高の統計ベンチマークで2.6%向上し、M4データセットで最高のディープラーニングベンチマークで2%向上した。 アーキテクチャにはいくつかの利点があり、様々なドメインの時系列に適用でき、特殊なモジュール構造を持ち、タスク分散の変化にロバストなユーザに対して説明できる。

We enhance the accuracy and generalization of univariate time series point prediction by an explainable ensemble on the fly. We propose an Interpretable Dynamic Ensemble Architecture (IDEA), in which interpretable base learners give predictions independently with sparse communication as a group. The model is composed of several sequentially stacked groups connected by group backcast residuals and recurrent input competition. Ensemble driven by end-to-end training both horizontally and vertically brings state-of-the-art (SOTA) performances. Forecast accuracy improves by 2.6% over the best statistical benchmark on the TOURISM dataset and 2% over the best deep learning benchmark on the M4 dataset. The architecture enjoys several advantages, being applicable to time series from various domains, explainable to users with specialized modular structure and robust to changes in task distribution.
翻訳日:2022-01-17 14:54:52 公開日:2022-01-14
# グラフマッチングのための自由グラフニューラルネットワークのトレーニング

Training Free Graph Neural Networks for Graph Matching ( http://arxiv.org/abs/2201.05349v1 )

ライセンス: Link先を確認
Zhiyuan Liu, Yixin Cao, Fuli Feng, Xiang Wang, Xindi Shang, Jie Tang, Kenji Kawaguchi, Tat-Seng Chua(参考訳) 学習なしでグラフニューラルネットワーク(gnns)ベースのグラフマッチングの性能を向上させるためのフレームワークであるtfgm(training free graph matching)を提案する。 TFGMはGNNのトレーニングにおいて2つの重要な問題を後押しする。 1)高価な注釈による限定的な監督 2)トレーニングの計算コスト。 基本的なフレームワークであるBasicTFGMは、まずグラフマッチング手法の推論段階を採用することで提案される。 解析の結果,BasicTFGMはグラフマッチングの二次代入定式化に対する線形緩和であることがわかった。 これにより、構造互換性の維持と効率的な多項式複雑性が保証される。 経験的に、gnnのアーキテクチャに2種類のマッチングプリエントを手作りすることで、基本tfgmをさらに改善する:異なるローカルのノード近傍の比較と、利用可能であればアノテーションデータを活用する。 評価のために,画像間のキーポイントマッチング,知識グラフ間の半教師付きエンティティアライメント,タンパク質相互作用ネットワーク間の教師なしアライメントなど,幅広い設定について広範な実験を行った。 TFGMをさまざまなGNNに適用することは、ベースラインよりも有望な改善を示している。 さらなるアブレーション研究により、tfgmの効率的かつ効率的なトレーニングフリー特性が示される。 私たちのコードはhttps://github.com/a charkq/training-free -graph-matchingで利用可能です。

We present TFGM (Training Free Graph Matching), a framework to boost the performance of Graph Neural Networks (GNNs) based graph matching without training. TFGM sidesteps two crucial problems when training GNNs: 1) the limited supervision due to expensive annotation, and 2) training's computational cost. A basic framework, BasicTFGM, is first proposed by adopting the inference stage of graph matching methods. Our analysis shows that the BasicTFGM is a linear relaxation to the quadratic assignment formulation of graph matching. This guarantees the preservation of structure compatibility and an efficient polynomial complexity. Empirically, we further improve the BasicTFGM by handcrafting two types of matching priors into the architecture of GNNs: comparing node neighborhoods of different localities and utilizing annotation data if available. For evaluation, we conduct extensive experiments on a broad set of settings, including supervised keypoint matching between images, semi-supervised entity alignment between knowledge graphs, and unsupervised alignment between protein interaction networks. Applying TFGM on various GNNs shows promising improvements over baselines. Further ablation studies demonstrate the effective and efficient training-free property of TFGM. Our code is available at https://github.com/a charkq/Training-Free -Graph-Matching.
翻訳日:2022-01-17 14:54:40 公開日:2022-01-14
# オフライン強化学習のためのモデルフリーとモデルベースアルゴリズムの比較

Comparing Model-free and Model-based Algorithms for Offline Reinforcement Learning ( http://arxiv.org/abs/2201.05433v1 )

ライセンス: Link先を確認
Phillip Swazinna, Steffen Udluft, Daniel Hein, Thomas Runkler(参考訳) オフライン強化学習(rl)アルゴリズムは、ムジョコのような環境を念頭に置いて設計されることが多い。 我々は、複雑なノイズや部分的に観測可能な状態を含む実世界の問題に近い設定でアルゴリズムをテストするために、モデルフリー、モデルベース、および様々な産業ベンチマーク(IB)データセットに対するハイブリッドオフラインRLアプローチを比較した。 IBでは、ハイブリッドアプローチは厳しい困難に直面しており、ロールアウトベースのアルゴリズムや、より単純な正規化アルゴリズムによるモデルフリーアルゴリズムといった、より単純なアルゴリズムがデータセット上で最高のパフォーマンスを発揮する。

Offline reinforcement learning (RL) Algorithms are often designed with environments such as MuJoCo in mind, in which the planning horizon is extremely long and no noise exists. We compare model-free, model-based, as well as hybrid offline RL approaches on various industrial benchmark (IB) datasets to test the algorithms in settings closer to real world problems, including complex noise and partially observable states. We find that on the IB, hybrid approaches face severe difficulties and that simpler algorithms, such as rollout based algorithms or model-free algorithms with simpler regularizers perform best on the datasets.
翻訳日:2022-01-17 14:54:22 公開日:2022-01-14
# ラマン分光法マイクロプラスチックデータのスペクトルシグネチャによる高分子タイプの機械学習

Machine Learning of polymer types from the spectral signature of Raman spectroscopy microplastics data ( http://arxiv.org/abs/2201.05445v1 )

ライセンス: Link先を確認
Sheela Ramanna and Danila Morozovskii and Sam Swanson and Jennifer Bruneau(参考訳) 現在、マイクロプラスチック中のポリマータイプを識別する化合物構造を分析するためのツールや技術は、環境に優しいマイクロプラスチックには適していない。 環境風化因子によって劣化したマイクロプラスチックは、風化過程に晒されていないマイクロプラスチックのサンプルよりも分析的確実性が低い。 機械学習ツールと技術は、マイクロプラスチック分析における確実性のための研究ツールのキャリブレーションを向上します。 本稿では,サンプルが環境劣化の影響を受けていない場合に,比較的少量のラベル付き入力データを用いて,機械学習(ML)アルゴリズムがポリマーのタイプを識別できるように,署名(ラマンシフト値)が十分に異なるかどうかを検討する。 いくつかのMLモデルは、ラマンシフトと様々なプラスチック粒子の強度を含む、よく知られたSLOPP(Spectral Libraries of Plastic Particles)で訓練され、その後、22種類のポリマーからなる環境劣化プラスチック粒子(SloPP-E)で試験された。 大規模な前処理と増補の後、訓練されたランダム森林モデルがSloPP-Eデータセットでテストされ、93.81%の分類精度が89%から改善された。

The tools and technology that are currently used to analyze chemical compound structures that identify polymer types in microplastics are not well-calibrated for environmentally weathered microplastics. Microplastics that have been degraded by environmental weathering factors can offer less analytic certainty than samples of microplastics that have not been exposed to weathering processes. Machine learning tools and techniques allow us to better calibrate the research tools for certainty in microplastics analysis. In this paper, we investigate whether the signatures (Raman shift values) are distinct enough such that well studied machine learning (ML) algorithms can learn to identify polymer types using a relatively small amount of labeled input data when the samples have not been impacted by environmental degradation. Several ML models were trained on a well-known repository, Spectral Libraries of Plastic Particles (SLOPP), that contain Raman shift and intensity results for a range of plastic particles, then tested on environmentally aged plastic particles (SloPP-E) consisting of 22 polymer types. After extensive preprocessing and augmentation, the trained random forest model was then tested on the SloPP-E dataset resulting in an improvement in classification accuracy of 93.81% from 89%.
翻訳日:2022-01-17 14:54:10 公開日:2022-01-14
# 対照的なラプラシア固有写像

Contrastive Laplacian Eigenmaps ( http://arxiv.org/abs/2201.05493v1 )

ライセンス: Link先を確認
Hao Zhu, Ke Sun, Piotr Koniusz(参考訳) グラフの対照的な学習は類似性の概念の下で類似/類似ノード対のノード表現を惹きつける。 グラフの内在的性質と構造特性を保存するために、低次元のノードの埋め込みと組み合わせることができる。 本稿では,有名なラプラシアン固有写像を対照的な学習で拡張し,これらをContrastive Laplacian EigenmapS (COLES)と呼ぶ。 ganにインスパイアされたコントラストの定式化から始め、多くのコントラストグラフ埋め込みモデルの基礎となるjensen-shannonの発散は、対照的な設定でサンプリング中に自然に現れる不一致の正と負の分布の下では失敗することを示した。 対照的に、コレスが本質的にワッサーシュタイン距離のサーロゲートを最小化していることは分析的に証明している。 さらに,COLESの損失は,従来比較法でよく用いられてきたペアワイズ損失よりも優れていた,いわゆるブロックコントラスト損失のファミリーに属することを示す。 我々は、DeepWalk、GCN、Graph2Gauss、DGI、GRACEベースラインと比較して、COLESが好ましい精度/スケール性を提供します。

Graph contrastive learning attracts/disperses node representations for similar/dissimilar node pairs under some notion of similarity. It may be combined with a low-dimensional embedding of nodes to preserve intrinsic and structural properties of a graph. In this paper, we extend the celebrated Laplacian Eigenmaps with contrastive learning, and call them COntrastive Laplacian EigenmapS (COLES). Starting from a GAN-inspired contrastive formulation, we show that the Jensen-Shannon divergence underlying many contrastive graph embedding models fails under disjoint positive and negative distributions, which may naturally emerge during sampling in the contrastive setting. In contrast, we demonstrate analytically that COLES essentially minimizes a surrogate of Wasserstein distance, which is known to cope well under disjoint distributions. Moreover, we show that the loss of COLES belongs to the family of so-called block-contrastive losses, previously shown to be superior compared to pair-wise losses typically used by contrastive methods. We show on popular benchmarks/backbones that COLES offers favourable accuracy/scalability compared to DeepWalk, GCN, Graph2Gauss, DGI and GRACE baselines.
翻訳日:2022-01-17 14:53:48 公開日:2022-01-14
# 相互情報圧縮によるコンパクトグラフ構造学習

Compact Graph Structure Learning via Mutual Information Compression ( http://arxiv.org/abs/2201.05540v1 )

ライセンス: Link先を確認
Nian Liu, Xiao Wang, Lingfei Wu, Yu Chen, Xiaojie Guo, Chuan Shi(参考訳) グラフ構造学習(GSL)は最近、グラフ構造を最適化する能力とグラフニューラルネットワーク(GNN)の適切なパラメータを同時に学習する能力に大きな注目を集めている。 現在のGSL法は主に単一または複数の情報ソース(基本ビュー)から最適グラフ構造(最終ビュー)を学習するが、最適グラフ構造とは何かに関する理論的ガイダンスはまだ探索されていない。 本質的には、最適なグラフ構造は、冗長なノイズを可能な限り圧縮しながらタスクに関する情報だけを含むべきである。 そのような構造を原則的にどうやって得るか? 本稿では,基本ビューと最終ビューを相互情報に基づいて最適化し,それらの性能をラベルに同時に保持すれば,最終ビューは最小限の構造となることを理論的に証明する。 そこで我々は,MI圧縮によるコンパクトGSLアーキテクチャ,CoGSLを提案する。 具体的には、モデルの2つの入力として元のグラフから2つの基本的なビューを抽出する。 次に,推定ビューを最終ビューに融合する適応手法を提案する。 さらに、推定ビューと最終ビューのパフォーマンスを維持し、2つのビュー毎の相互情報を低減する。 CoGSLの性能を総合的に評価するために、クリーンで攻撃的な条件下で複数のデータセットに対して広範な実験を行い、CoGSLの有効性と堅牢性を示す。

Graph Structure Learning (GSL) recently has attracted considerable attentions in its capacity of optimizing graph structure as well as learning suitable parameters of Graph Neural Networks (GNNs) simultaneously. Current GSL methods mainly learn an optimal graph structure (final view) from single or multiple information sources (basic views), however the theoretical guidance on what is the optimal graph structure is still unexplored. In essence, an optimal graph structure should only contain the information about tasks while compress redundant noise as much as possible, which is defined as "minimal sufficient structure", so as to maintain the accurancy and robustness. How to obtain such structure in a principled way? In this paper, we theoretically prove that if we optimize basic views and final view based on mutual information, and keep their performance on labels simultaneously, the final view will be a minimal sufficient structure. With this guidance, we propose a Compact GSL architecture by MI compression, named CoGSL. Specifically, two basic views are extracted from original graph as two inputs of the model, which are refinedly reestimated by a view estimator. Then, we propose an adaptive technique to fuse estimated views into the final view. Furthermore, we maintain the performance of estimated views and the final view and reduce the mutual information of every two views. To comprehensively evaluate the performance of CoGSL, we conduct extensive experiments on several datasets under clean and attacked conditions, which demonstrate the effectiveness and robustness of CoGSL.
翻訳日:2022-01-17 14:53:22 公開日:2022-01-14
# (参考訳) Multilingual Open Text 1.0:44言語でのパブリックドメインニュース [全文訳有]

Multilingual Open Text 1.0: Public Domain News in 44 Languages ( http://arxiv.org/abs/2201.05609v1 )

ライセンス: CC BY 4.0
Chester Palen-Michel, June Kim, Constantine Lignos(参考訳) 本稿では,44言語にテキストを含む新しい多言語コーパスを提案する。 コーパスの最初のリリースは、2001年から2021年にかけて、Voice of Americaのニュースサイトから集められた270万以上のニュース記事と100万の短い記事を含んでいる。 我々は,データの収集,フィルタリング,処理を行うプロセスについて述べる。 ソース資料はパブリックドメインにあり、私たちのコレクションはクリエイティブコモンズライセンス(CC BY 4.0)を使用してライセンスされており、コーパスを作成するために使用されるソフトウェアはすべてMITライセンスの下でリリースされています。 コーパスは、追加のドキュメントが公開されると定期的に更新される。

We present a new multilingual corpus containing text in 44 languages, many of which have relatively few existing resources for natural language processing. The first release of the corpus contains over 2.7 million news articles and 1 million shorter passages published between 2001--2021, collected from Voice of America news websites. We describe our process for collecting, filtering, and processing the data. The source material is in the public domain, our collection is licensed using a creative commons license (CC BY 4.0), and all software used to create the corpus is released under the MIT License. The corpus will be regularly updated as additional documents are published.
翻訳日:2022-01-17 14:51:46 公開日:2022-01-14
# 時変システムにおける強化学習--実証的研究

Reinforcement Learning in Time-Varying Systems: an Empirical Study ( http://arxiv.org/abs/2201.05560v1 )

ライセンス: Link先を確認
Pouya Hamadanian, Malte Schwarzkopf, Siddartha Sen, Mohammad Alizadeh(参考訳) 最近の研究は、手作業によるヒューリスティックスに代わる、難しい意思決定問題を解決するために強化学習(RL)に転換している。 rlは、環境のダイナミクスをモデリングすることなく、良いポリシーを学習できます。 この約束にもかかわらず、RLは多くの現実世界のシステム問題に対する非現実的な解決策である。 特に困難なケースは、環境が時間とともに変化する場合、すなわち非定常性を示す場合である。 本研究では,非定常性による課題を特徴づけ,実システムにおけるRLエージェントの訓練に対処するためのフレームワークを開発する。 このようなエージェントは、システムのパフォーマンスを損なうことなく、新しい環境を探索し、学習し、時間とともにそれを思い出さなければなりません。 この目的のために,(1)実システムで遭遇する異なる環境を特定し,(2)各環境に対して異なる専門家ポリシーを探索し,訓練し,(3)システムの性能を保護するために安全対策を講じる。 我々は,ストラグラー緩和と適応型ビデオストリーミングの2つのシステム問題に適用し,実世界のデータと合成データを用いた様々な代替手法と比較した。 我々はフレームワークの各コンポーネントが非定常性に対処する必要があることを示す。

Recent research has turned to Reinforcement Learning (RL) to solve challenging decision problems, as an alternative to hand-tuned heuristics. RL can learn good policies without the need for modeling the environment's dynamics. Despite this promise, RL remains an impractical solution for many real-world systems problems. A particularly challenging case occurs when the environment changes over time, i.e. it exhibits non-stationarity. In this work, we characterize the challenges introduced by non-stationarity and develop a framework for addressing them to train RL agents in live systems. Such agents must explore and learn new environments, without hurting the system's performance, and remember them over time. To this end, our framework (1) identifies different environments encountered by the live system, (2) explores and trains a separate expert policy for each environment, and (3) employs safeguards to protect the system's performance. We apply our framework to two systems problems: straggler mitigation and adaptive video streaming, and evaluate it against a variety of alternative approaches using real-world and synthetic data. We show that each component of our framework is necessary to cope with non-stationarity.
翻訳日:2022-01-17 14:36:38 公開日:2022-01-14
# アジャイル活動のための深層学習の見積もりは、まだ解決していないか?

Deep Learning for Agile Effort Estimation Have We Solved the Problem Yet? ( http://arxiv.org/abs/2201.05401v1 )

ライセンス: Link先を確認
Vali Tawosi, Rebecca Moussa, Federica Sarro(参考訳) 過去10年間に、アジャイルソフトウェア開発の労力を見積もるために自動化技術を使うことを提案する研究がいくつかある。 本稿では,Deep-SE(Deep-Learni ng)をアジャイルの取り組み推定に活用することを提案するセミナルな作業の密な複製と拡張を行う。 具体的には、プロジェクト内およびプロジェクト横断の取り組み推定におけるDeep-SEの有効性を検討することを目的とした元の3つの研究課題を再現する。 私たちはDeep-SEを3つのベースラインテクニック(Random、Mean、Medianの取り組み予測)と、以前提案されたアジャイルソフトウェア開発(TF/IDF-SEと呼ばれる)の取り組みを見積もる手法と比較しました。 この目的のために、オリジナル調査のデータと、29のオープンソースプロジェクトから抽出した31,960件の新たなデータセットの両方を使用しました。 より多くのデータを使用することで、結果に対する信頼性を強化し、研究の外的妥当性に対する脅威をさらに軽減できます。 また,本研究を2つの追加研究課題から拡張した。 トレーニングセットが見積時にリポジトリで利用可能な他のすべてのプロジェクトから問題によって強化された場合のDeep-SEの精度を評価するとともに、オリジナルのDeep-SEが使用する高価な事前トレーニングステップが、その精度と収束速度に有益な影響を及ぼすかどうかを調べる。 以上の結果より,Deep-SEは統計学的に有意な症例(8/42例,9/32例)において,Medianベースライン推定とTF/IDF-SEの成績に優れており,Deep-SEの有効性について既往の知見を裏付けるものである。 追加の2つのRQは、トレーニングセットの強化も、事前トレーニングのDeep-SEも、その精度と収束速度を改善する役割を果たさないことを示した。 ...

In the last decade, several studies have proposed the use of automated techniques to estimate the effort of agile software development. In this paper we perform a close replication and extension of a seminal work proposing the use of Deep Learning for agile effort estimation (namely Deep-SE), which has set the state-of-the-art since. Specifically, we replicate three of the original research questions aiming at investigating the effectiveness of Deep-SE for both within-project and cross-project effort estimation. We benchmark Deep-SE against three baseline techniques (i.e., Random, Mean and Median effort prediction) and a previously proposed method to estimate agile software project development effort (dubbed TF/IDF-SE), as done in the original study. To this end, we use both the data from the original study and a new larger dataset of 31,960 issues, which we mined from 29 open-source projects. Using more data allows us to strengthen our confidence in the results and further mitigate the threat to the external validity of the study. We also extend the original study by investigating two additional research questions. One evaluates the accuracy of Deep-SE when the training set is augmented with issues from all other projects available in the repository at the time of estimation, and the other examines whether an expensive pre-training step used by the original Deep-SE, has any beneficial effect on its accuracy and convergence speed. The results of our replication show that Deep-SE outperforms the Median baseline estimator and TF/IDF-SE in only very few cases with statistical significance (8/42 and 9/32 cases, respectively), thus confounding previous findings on the efficacy of Deep-SE. The two additional RQs revealed that neither augmenting the training set nor pre-training Deep-SE play a role in improving its accuracy and convergence speed. ...
翻訳日:2022-01-17 14:36:10 公開日:2022-01-14
# 欠損データを用いたガウスコピュラスの推定

Estimating Gaussian Copulas with Missing Data ( http://arxiv.org/abs/2201.05565v1 )

ライセンス: Link先を確認
Maximilian Kertel and Markus Pauly(参考訳) 本研究では,データ不足を伴うガウスコーパスモデルにおける限界分布と依存構造を決定するために,期待最大化アルゴリズムの厳密な応用を提案する。 さらに,半パラメトリックモデリングによる辺縁上の事前仮定を回避する方法を示す。 このアルゴリズムによって得られた共同分布は、既存の方法よりも基礎的な分布にかなり近い。

In this work we present a rigorous application of the Expectation Maximization algorithm to determine the marginal distributions and the dependence structure in a Gaussian copula model with missing data. We further show how to circumvent a priori assumptions on the marginals with semiparametric modelling. The joint distribution learned through this algorithm is considerably closer to the underlying distribution than existing methods.
翻訳日:2022-01-17 14:35:32 公開日:2022-01-14
# 固有深さ:統計的深さに対する最適制御アプローチ

Eikonal depth: an optimal control approach to statistical depths ( http://arxiv.org/abs/2201.05274v1 )

ライセンス: Link先を確認
Martin Molina-Fructuoso and Ryan Murray(参考訳) 統計深度は、高次元のデータに対する量子と中央値の基本的な一般化を提供する。 本稿では,制御理論とアイコナー方程式に基づいて,分布の支持点外への経路を通らなければならない最小の確率密度を測る,グローバルに定義された新しい統計深度について提案する。 この深さは解釈や計算が容易で、多モードな振る舞いを表現的に捉え、非ユークリッドデータに自然に拡張する。 我々は,この深さの様々な性質を証明し,計算的考察について考察する。 特に,この奥行きの概念が,タキー深さでは享受できない性質である非近距離等尺拘束逆モデルの下で頑健であることを実証する。 最後に、2次元混合モデルとmnistの文脈におけるいくつかの例を示す。

Statistical depths provide a fundamental generalization of quantiles and medians to data in higher dimensions. This paper proposes a new type of globally defined statistical depth, based upon control theory and eikonal equations, which measures the smallest amount of probability density that has to be passed through in a path to points outside the support of the distribution: for example spatial infinity. This depth is easy to interpret and compute, expressively captures multi-modal behavior, and extends naturally to data that is non-Euclidean. We prove various properties of this depth, and provide discussion of computational considerations. In particular, we demonstrate that this notion of depth is robust under an aproximate isometrically constrained adversarial model, a property which is not enjoyed by the Tukey depth. Finally we give some illustrative examples in the context of two-dimensional mixture models and MNIST.
翻訳日:2022-01-17 14:33:48 公開日:2022-01-14
# 事前学習言語モデルに基づくテキスト生成に関する調査

A Survey of Pretrained Language Models Based Text Generation ( http://arxiv.org/abs/2201.05273v1 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jian-Yun Nie and Ji-Rong Wen(参考訳) テキスト生成は、入力データから人間の言語で読みやすいテキストを生成することを目的としている。 ディープラーニングの復活は、ニューラルジェネレーションモデル、特に事前学習言語モデル(plm)のパラダイムによって、この分野を大きく前進させた。 PLMのテキスト生成は、学術と産業の両方において有望な方向と見なされている。 本稿では,テキスト生成におけるPLMの話題における最近の進歩について述べる。 詳しくは、PLMをテキスト生成に適用する3つの重要なポイントを紹介します。 1) PLMに融合可能な入力セマンティクスを保存する表現として入力データをエンコードする方法 2) PLMの汎用かつ高性能なアーキテクチャを設計する方法は,世代モデルとして機能する。 3) 参照テキストを与えられたPLMを最適化し、特別なテキストプロパティを満たす生成されたテキストを確実にする方法。 そして、各キーポイントにいくつかの課題と今後の方向性を見出す。 次に、PLMを扱うための様々な有用なリソースと典型的なテキスト生成アプリケーションの概要を示す。 最後に,本調査の成果をまとめ,まとめる。

Text Generation aims to produce plausible and readable text in human language from input data. The resurgence of deep learning has greatly advanced this field by neural generation models, especially the paradigm of pretrained language models (PLMs). Grounding text generation on PLMs is seen as a promising direction in both academia and industry. In this survey, we present the recent advances achieved in the topic of PLMs for text generation. In detail, we begin with introducing three key points of applying PLMs to text generation: 1) how to encode the input data as representations preserving input semantics which can be fused into PLMs; 2) how to design a universal and performant architecture of PLMs served as generation models; and 3) how to optimize PLMs given the reference text and ensure the generated text satisfying special text properties. Then, we figure out several challenges and future directions within each key point. Next, we present a summary of various useful resources and typical text generation applications to work with PLMs. Finally, we conclude and summarize the contribution of this survey.
翻訳日:2022-01-17 14:33:34 公開日:2022-01-14
# extraphrase: 抽象要約のための効率的なデータ拡張

ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization ( http://arxiv.org/abs/2201.05313v1 )

ライセンス: Link先を確認
Mengsay Loem, Sho Takase, Masahiro Kaneko, Naoaki Okazaki(参考訳) 大量の並列データでトレーニングされたニューラルモデルは、抽象的要約タスクで印象的なパフォーマンスを達成している。 しかし、大規模並列コーパスは高価であり、建設が困難である。 本稿では,抽象的要約タスクのためのトレーニングデータを強化するために,低コストかつ効果的な戦略であるexophraseを導入する。 ExtraPhraseは2つのステップで擬似トレーニングデータを構築する。 抽出要約ステップにおいて,入力テキストの主要部分を抽出し,パラフレージングステップで多種多様な表現を得る。 実験により,データ拡張を伴わない場合と比較して,抽出要約タスクの性能をルージュスコアの0.50ポイント以上向上させることを示した。 ExtraPhraseはまた、バックトランスレーションや自己学習といった既存の手法よりも優れている。 また、ExtraPhraseは、実際のトレーニングデータの量が著しく少ない場合、すなわち低リソース環境では極めて有効であることを示す。 さらに、ExtraPhraseは既存のアプローチよりもコスト効率が高い。

Neural models trained with large amount of parallel data have achieved impressive performance in abstractive summarization tasks. However, large-scale parallel corpora are expensive and challenging to construct. In this work, we introduce a low-cost and effective strategy, ExtraPhrase, to augment training data for abstractive summarization tasks. ExtraPhrase constructs pseudo training data in two steps: extractive summarization and paraphrasing. We extract major parts of an input text in the extractive summarization step, and obtain its diverse expressions with the paraphrasing step. Through experiments, we show that ExtraPhrase improves the performance of abstractive summarization tasks by more than 0.50 points in ROUGE scores compared to the setting without data augmentation. ExtraPhrase also outperforms existing methods such as back-translation and self-training. We also show that ExtraPhrase is significantly effective when the amount of genuine training data is remarkably small, i.e., a low-resource setting. Moreover, ExtraPhrase is more cost-efficient than the existing approaches.
翻訳日:2022-01-17 14:33:21 公開日:2022-01-14
# プロトタイプ・プロンプト・バーバリザのための事前学習言語モデルからの知識の抽出

Eliciting Knowledge from Pretrained Language Models for Prototypical Prompt Verbalizer ( http://arxiv.org/abs/2201.05411v1 )

ライセンス: Link先を確認
Yinyi Wei, Tong Mo, Yongtao Jiang, Weiping Li, Wen Zhao(参考訳) マスク付き言語モデリング問題としてのアクシデントチューニングキャスター数ショット分類タスクの最近の進歩 入力をテンプレートにラップし、ラベル空間とラベルワード空間のマッピングを構成する動詞化器を使用することで、プロンプトチューニングはゼロショットおよび少数ショットシナリオにおいて優れた結果が得られる。 しかし、典型的なプロンプトチューニングには、ドメインの専門知識と人間の努力を必要とする手動で設計された動詞化器が必要である。 ラベルスペースの不足は、結果にかなりのバイアスをもたらすかもしれない。 本稿では,事前学習された言語モデルからの知識の抽出に焦点をあて,プロンプトチューニングのためのprototypeply verbalizerを提案する。 ラベルは、離散的な単語ではなく、特徴空間における原型的埋め込みによって表現される。 入力のマスク位置における埋め込みと原型埋め込みの間の距離を分類基準として用いる。 ゼロショット設定では、知識は事前訓練された言語モデルから手動で設計され、初期プロトタイプの埋め込みを形成する。 数少ない設定では、モデルは有意義で解釈可能な原型的埋め込みを学ぶように調整される。 本手法は,コントラスト学習によりモデルを最適化する。 低リソース設定の多クラステキスト分類データセットの広範囲な実験結果から,提案手法の有効性を他の言語処理手法と比較した。 私たちの実装はhttps://github.com/y dongd/prototypical-p rompt-verbalizerで利用可能です。

Recent advances on prompt-tuning cast few-shot classification tasks as a masked language modeling problem. By wrapping input into a template and using a verbalizer which constructs a mapping between label space and label word space, prompt-tuning can achieve excellent results in zero-shot and few-shot scenarios. However, typical prompt-tuning needs a manually designed verbalizer which requires domain expertise and human efforts. And the insufficient label space may introduce considerable bias into the results. In this paper, we focus on eliciting knowledge from pretrained language models and propose a prototypical prompt verbalizer for prompt-tuning. Labels are represented by prototypical embeddings in the feature space rather than by discrete words. The distances between the embedding at the masked position of input and prototypical embeddings are used as classification criterion. For zero-shot settings, knowledge is elicited from pretrained language models by a manually designed template to form initial prototypical embeddings. For few-shot settings, models are tuned to learn meaningful and interpretable prototypical embeddings. Our method optimizes models by contrastive learning. Extensive experimental results on several many-class text classification datasets with low-resource settings demonstrate the effectiveness of our approach compared with other verbalizer construction methods. Our implementation is available at https://github.com/Y dongd/prototypical-p rompt-verbalizer.
翻訳日:2022-01-17 14:33:09 公開日:2022-01-14
# 大規模で多様なコーパスを用いたチェコ語の文法誤り訂正

Czech Grammar Error Correction with a Large and Diverse Corpus ( http://arxiv.org/abs/2201.05590v1 )

ライセンス: Link先を確認
Jakub N\'aplava, Milan Straka, Jana Strakov\'a, Alexandr Rosen(参考訳) 文法的誤り訂正のための注釈付きチェコ語コーパス(GEC)を導入し,英語以外の言語に対して,この領域ではまだ不足しているデータ資源に寄与することを目的とした。 Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイから、エラーがより一般的でないと思われるウェブサイトテキストまで、さまざまな4つのドメインを提供している。 チェコのgecシステムとトランスフォーマーベースのシステムを比較し,今後の研究に強いベースラインを設定した。 最後に、データ上の人的判断に対して、共通GCCメトリクスをメタ評価する。 新しいチェコのGECコーパスをCC BY-SA 4.0ライセンスでhttp://hdl.handle.ne t/11234/1-4639で公開しています。

We introduce a large and diverse Czech corpus annotated for grammatical error correction (GEC) with the aim to contribute to the still scarce data resources in this domain for languages other than English. The Grammar Error Correction Corpus for Czech (GECCC) offers a variety of four domains, covering error distributions ranging from high error density essays written by non-native speakers, to website texts, where errors are expected to be much less common. We compare several Czech GEC systems, including several Transformer-based ones, setting a strong baseline to future research. Finally, we meta-evaluate common GEC metrics against human judgements on our data. We make the new Czech GEC corpus publicly available under the CC BY-SA 4.0 license at http://hdl.handle.ne t/11234/1-4639 .
翻訳日:2022-01-17 14:32:50 公開日:2022-01-14
# (参考訳) 機械学習の創発:ニューラルネットワークによる記号知化を目指して [全文訳有]

Emergence of Machine Language: Towards Symbolic Intelligence with Neural Networks ( http://arxiv.org/abs/2201.05489v1 )

ライセンス: CC BY 4.0
Yuqi Wang, Xu-Yao Zhang, Cheng-Lin Liu, Zhaoxiang Zhang(参考訳) 表現は人工知能の中核的な問題である。 人間は個別の言語を使って互いにコミュニケーションし学習し、機械は認知パターンを表現するために連続的な特徴(ベクトル、行列、あるいは深層ニューラルネットワークのテンソルなど)を使用する。 離散記号は低次元で疎結合であり、強い推論能力を持ち、連続的な特徴は高次元で結合され、素晴らしい抽象能力を持つ。 近年、ディープラーニングは、数百万のパラメータを使って高い精度を達成するために、連続的な表現を極端に発展させています。 これは統計的観点からは妥当であるが、解釈可能性の欠如、一般化の低さ、攻撃が容易なその他の大きな問題がある。 両方のパラダイムには強みと弱みがあるので、より良い選択は和解を求めることである。 本稿では,この方向に向けて最初の試みを行う。 具体的には、ニューラルネットワークを用いて離散表現を導出することで、象徴主義と接続主義の原則を組み合わせることを提案する。 このプロセスは、脳が連続的なシグナルを処理し、離散言語を介して知性を表現する、離散的なシンボルと神経システムの自然な組み合わせである人間言語と非常によく似ている。 この機能を模倣するために、我々のアプローチをマシン言語として表現します。 対話型環境とタスクを設計することで,機械が協調によって自発的,柔軟,セマンティックな言語を生成できることを実証した。 さらに, 実験により, 離散的言語表現は, 解釈可能性, 一般化, 頑健性の観点から, 連続的特徴表現と比較していくつかの利点があることを示した。

Representation is a core issue in artificial intelligence. Humans use discrete language to communicate and learn from each other, while machines use continuous features (like vector, matrix, or tensor in deep neural networks) to represent cognitive patterns. Discrete symbols are low-dimensional, decoupled, and have strong reasoning ability, while continuous features are high-dimensional, coupled, and have incredible abstracting capabilities. In recent years, deep learning has developed the idea of continuous representation to the extreme, using millions of parameters to achieve high accuracies. Although this is reasonable from the statistical perspective, it has other major problems like lacking interpretability, poor generalization, and is easy to be attacked. Since both paradigms have strengths and weaknesses, a better choice is to seek reconciliation. In this paper, we make an initial attempt towards this direction. Specifically, we propose to combine symbolism and connectionism principles by using neural networks to derive a discrete representation. This process is highly similar to human language, which is a natural combination of discrete symbols and neural systems, where the brain processes continuous signals and represents intelligence via discrete language. To mimic this functionality, we denote our approach as machine language. By designing an interactive environment and task, we demonstrated that machines could generate a spontaneous, flexible, and semantic language through cooperation. Moreover, through experiments we show that discrete language representation has several advantages compared with continuous feature representation, from the aspects of interpretability, generalization, and robustness.
翻訳日:2022-01-17 14:30:02 公開日:2022-01-14
# カーネル拡張確率ニューラルネットワーク

A Kernel-Expanded Stochastic Neural Network ( http://arxiv.org/abs/2201.05319v1 )

ライセンス: Link先を確認
Yan Sun, Faming Liang(参考訳) ディープニューラルネットワークは、機械学習において多くの根本的な問題に苦しむ。 例えば、トレーニング中にローカルな最小値に閉じ込められることが多く、その予測の不確実性を評価するのは難しい。 これらの問題に対処するために、サポートベクター回帰(SVR)を第1の隠蔽層として組み込んだカーネル拡張確率ニューラルネットワーク(K-StoNet)モデルを提案し、ニューラルネットワークを潜在変数モデルとして再構成する。 前者は入力ベクトルを放射基底関数(RBF)カーネルを介して無限次元の特徴空間にマッピングし、そのトレーニング損失面に局所最小値がないことを保証する。 後者は、高次元非凸ニューラルネットワークトレーニング問題を一連の低次元凸最適化問題に分解し、その予測の不確かさを容易に評価する。 K-StoNetは命令正規化最適化(IRO)アルゴリズムを使って容易に訓練できる。 従来のディープニューラルネットワークと比較して、K-StoNetは漸近的にグローバル最適に収束する理論的な保証を持ち、予測の不確実性を容易に評価できる。 トレーニング,予測,不確実性定量化における新しいモデルの性能は,シミュレーションおよび実データ例によって示される。

The deep neural network suffers from many fundamental issues in machine learning. For example, it often gets trapped into a local minimum in training, and its prediction uncertainty is hard to be assessed. To address these issues, we propose the so-called kernel-expanded stochastic neural network (K-StoNet) model, which incorporates support vector regression (SVR) as the first hidden layer and reformulates the neural network as a latent variable model. The former maps the input vector into an infinite dimensional feature space via a radial basis function (RBF) kernel, ensuring absence of local minima on its training loss surface. The latter breaks the high-dimensional nonconvex neural network training problem into a series of low-dimensional convex optimization problems, and enables its prediction uncertainty easily assessed. The K-StoNet can be easily trained using the imputation-regulariz ed optimization (IRO) algorithm. Compared to traditional deep neural networks, K-StoNet possesses a theoretical guarantee to asymptotically converge to the global optimum and enables the prediction uncertainty easily assessed. The performances of the new model in training, prediction and uncertainty quantification are illustrated by simulated and real data examples.
翻訳日:2022-01-17 14:13:27 公開日:2022-01-14
# マルチアウトプット回帰のための機械学習: 完全多変量アプローチはいつ、別々の不定値アプローチよりも好まれるべきなのか?

Machine Learning for Multi-Output Regression: When should a holistic multivariate approach be preferred over separate univariate ones? ( http://arxiv.org/abs/2201.05340v1 )

ライセンス: Link先を確認
Lena Schmid, Alexander Gerharz, Andreas Groll and Markus Pauly(参考訳) ランダムフォレストのような木に基づくアンサンブルは、統計学の手法の中で現代の古典である。 特に、単変量応答の予測に使用される。 複数の出力の場合、問題は単変量モデルに別々に適合するか、あるいは直接多変量アプローチに従うかである。 後者については、例えば、修正された分割や複数出力回帰のための規則の停止に基づく、いくつかの可能性が存在する。 本研究では,これらの手法を広範囲なシミュレーションで比較し,多変量アンサンブル技術を用いた場合の主問題に答える。

Tree-based ensembles such as the Random Forest are modern classics among statistical learning methods. In particular, they are used for predicting univariate responses. In case of multiple outputs the question arises whether we separately fit univariate models or directly follow a multivariate approach. For the latter, several possibilities exist that are, e.g. based on modified splitting or stopping rules for multi-output regression. In this work we compare these methods in extensive simulations to help in answering the primary question when to use multivariate ensemble techniques.
翻訳日:2022-01-17 14:13:08 公開日:2022-01-14
# 生体および人工脳におけるベイズ時間の感覚

Bayesian sense of time in biological and artificial brains ( http://arxiv.org/abs/2201.05464v1 )

ライセンス: Link先を確認
Zafeirios Fountas, Alexey Zakharov(参考訳) 生物学的脳のメカニズムと創発的性質に関する質問には、理論的な仮定と実験的発見の長い歴史がある。 今日、科学界は、脳の認知基盤の単一の解釈(ベイズ推論マシン)に収束する傾向にある。この現代の見解は、計算と認知神経科学に関する最近の発展において、自然に強力な推進力となっている。特に興味深いのは、脳が時間の経過を処理する能力である。それは、我々の経験の基本的な次元の1つである。 ベイズ脳仮説を用いた人間の時間知覚に関する経験的データの説明法 ベイズモデルを用いて人間の推定バイアスを再現できるか? エージェントベースの機械学習モデルは、このテーマの研究にどのような洞察を提供できるだろうか? 本稿では,時間知覚の分野における最近の進歩を概観し,時間モデル構築におけるベイズ処理の役割について考察する。

Enquiries concerning the underlying mechanisms and the emergent properties of a biological brain have a long history of theoretical postulates and experimental findings. Today, the scientific community tends to converge to a single interpretation of the brain's cognitive underpinnings -- that it is a Bayesian inference machine. This contemporary view has naturally been a strong driving force in recent developments around computational and cognitive neurosciences. Of particular interest is the brain's ability to process the passage of time -- one of the fundamental dimensions of our experience. How can we explain empirical data on human time perception using the Bayesian brain hypothesis? Can we replicate human estimation biases using Bayesian models? What insights can the agent-based machine learning models provide for the study of this subject? In this chapter, we review some of the recent advancements in the field of time perception and discuss the role of Bayesian processing in the construction of temporal models.
翻訳日:2022-01-17 14:12:57 公開日:2022-01-14
# ディープセマンティクスクラスタリングを用いた教師なし時間ビデオグラウンド

Unsupervised Temporal Video Grounding with Deep Semantic Clustering ( http://arxiv.org/abs/2201.05307v1 )

ライセンス: Link先を確認
Daizong Liu, Xiaoye Qu, Yinzhen Wang, Xing Di, Kai Zou, Yu Cheng, Zichuan Xu, Pan Zhou(参考訳) 時間的ビデオグラウンドティング(TVG)は、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。 このタスクでは優れた成果を上げているが、実際のシナリオで収集するには高価で時間を要する、豊富なビデオクエリペアデータに大きく依存している。 本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学習できるかどうかを検討する。 我々の知る限りでは、この論文は教師なし環境でテレビGに対処しようとする最初の試みである。 ペア化された監視が存在しないことを考慮し,クエリ集合全体の意味情報をすべて活用し,グラウンド化のための各ビデオのアクティビティを構成するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。 具体的には,クエリ集合全体から暗黙的な意味的特徴を抽出する言語セマンティクスマイニングモジュールを開発した。 次に、これらの言語意味機能は、ビデオベースのセマンティックアグリゲーションモジュールを介して、ビデオ内のアクティビティを構成するためのガイダンスとして機能する。 最後に,前景アテンションブランチを用いて,冗長なバックグラウンドアクティビティをフィルタリングし,グラウンド化結果を精査する。 DSCNetの有効性を検証するため,ActivityNet CaptionsとCharades-STAデータセットの両方で実験を行った。 その結果、dscnetは競争力のある性能を達成し、最も弱い教師付きアプローチよりも優れています。

Temporal video grounding (TVG) aims to localize a target segment in a video according to a given sentence query. Though respectable works have made decent achievements in this task, they severely rely on abundant video-query paired data, which is expensive and time-consuming to collect in real-world scenarios. In this paper, we explore whether a video grounding model can be learned without any paired annotations. To the best of our knowledge, this paper is the first work trying to address TVG in an unsupervised setting. Considering there is no paired supervision, we propose a novel Deep Semantic Clustering Network (DSCNet) to leverage all semantic information from the whole query set to compose the possible activity in each video for grounding. Specifically, we first develop a language semantic mining module, which extracts implicit semantic features from the whole query set. Then, these language semantic features serve as the guidance to compose the activity in video via a video-based semantic aggregation module. Finally, we utilize a foreground attention branch to filter out the redundant background activities and refine the grounding results. To validate the effectiveness of our DSCNet, we conduct experiments on both ActivityNet Captions and Charades-STA datasets. The results demonstrate that DSCNet achieves competitive performance, and even outperforms most weakly-supervised approaches.
翻訳日:2022-01-17 14:12:30 公開日:2022-01-14
# hylda:lidarセマンティクスセグメンテーションのためのエンドツーエンドハイブリッド学習ドメイン適応

HYLDA: End-to-end Hybrid Learning Domain Adaptation for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2201.05585v1 )

ライセンス: Link先を確認
Eduardo R. Corral-Soto, Mrigank Rochan, Yannis Y. He, Shubhra Aich, Yang Liu, Liu Bingbing(参考訳) 本稿では,完全ラベル付きソースデータセットと,ラベル数の少ないターゲットデータセットを用いて,lidar意味セグメンテーションネットワークをトレーニングする問題に対処する。 そこで我々は,新しい画像から画像への変換エンジンを開発し,それをLiDARセマンティックセマンティックセグメンテーションネットワークと組み合わせることで,HILDAと呼ぶドメイン適応アーキテクチャを実現する。 システムをエンドツーエンドにトレーニングするために、私たちはさまざまな学習パラダイムを採用しています。 1)簡易補修作業の自己監督 2)いくつかのラベル付き対象ドメインフレームを用いた半教師付きトレーニング 3)画像から画像への変換段階によって生成された偽の翻訳画像と、ソースドメインからのラベル付きフレームの教師なしトレーニングを行う。 後者の場合、セマンティックセグメンテーションネットワークは、画像から画像への変換エンジンの更新に関与する。 実験により, HYLDAは, 対象領域からの検証データの一般化を改善するという課題に, 少数の目標ラベル付きフレームしか使用できない場合に効果的に対処できることを実証した。 2つの公開可能なLiDARセマンティックセマンティックセグメンテーションデータセットを用いて,HYLDAと強力なベースライン手法の比較を行った。

In this paper we address the problem of training a LiDAR semantic segmentation network using a fully-labeled source dataset and a target dataset that only has a small number of labels. To this end, we develop a novel image-to-image translation engine, and couple it with a LiDAR semantic segmentation network, resulting in an integrated domain adaptation architecture we call HYLDA. To train the system end-to-end, we adopt a diverse set of learning paradigms, including 1) self-supervision on a simple auxiliary reconstruction task, 2) semi-supervised training using a few available labeled target domain frames, and 3) unsupervised training on the fake translated images generated by the image-to-image translation stage, together with the labeled frames from the source domain. In the latter case, the semantic segmentation network participates in the updating of the image-to-image translation engine. We demonstrate experimentally that HYLDA effectively addresses the challenging problem of improving generalization on validation data from the target domain when only a few target labeled frames are available for training. We perform an extensive evaluation where we compare HYLDA against strong baseline methods using two publicly available LiDAR semantic segmentation datasets.
翻訳日:2022-01-17 14:12:05 公開日:2022-01-14
# less is more: 入力の単純化はニューラルネットワークの理解を助ける

When less is more: Simplifying inputs aids neural network understanding ( http://arxiv.org/abs/2201.05610v1 )

ライセンス: Link先を確認
Robin Tibor Schirrmeister, Rosanne Liu, Sara Hooker, Tonio Ball(参考訳) ニューラルネットワークのイメージ分類器は、よりシンプルでシンプルな入力にどのように反応するか? そして、このような反応は学習プロセスに何をもたらすのか? これらの質問に答えるためには、入力の単純さ(あるいは逆の複雑さ)の明確な尺度、単純化と相関する最適化目標、そのような目標をトレーニングや推論に組み込むフレームワークが必要です。 最後に、このような単純化が学習に与える影響を実験し評価するために、さまざまなテストベッドが必要です。 本研究では,事前学習した生成モデルによって与えられた符号化ビットサイズで単純度を測定し,ビットサイズを最小化し,トレーニングや推論の入力を単純化する。 従来の学習,データセットの凝縮,ポストホックな説明など,いくつかのシナリオで単純化の効果について検討する。 すべての設定において、入力は元の分類タスクとともに単純化され、入力単純性とタスク性能のトレードオフについて検討する。 インジェクターを挿入した画像の場合、そのような単純化は自然に過剰な情報を除去する。 データセットの凝縮では、精度の劣化がほとんどなく、入力を単純化できる。 ポストホックな説明で使用する場合、学習ベースの単純化アプローチは、ネットワーク決定の基礎を探求する価値のある新しいツールを提供します。

How do neural network image classifiers respond to simpler and simpler inputs? And what do such responses reveal about the learning process? To answer these questions, we need a clear measure of input simplicity (or inversely, complexity), an optimization objective that correlates with simplification, and a framework to incorporate such objective into training and inference. Lastly we need a variety of testbeds to experiment and evaluate the impact of such simplification on learning. In this work, we measure simplicity with the encoding bit size given by a pretrained generative model, and minimize the bit size to simplify inputs in training and inference. We investigate the effect of such simplification in several scenarios: conventional training, dataset condensation and post-hoc explanations. In all settings, inputs are simplified along with the original classification task, and we investigate the trade-off between input simplicity and task performance. For images with injected distractors, such simplification naturally removes superfluous information. For dataset condensation, we find that inputs can be simplified with almost no accuracy degradation. When used in post-hoc explanation, our learning-based simplification approach offers a valuable new tool to explore the basis of network decisions.
翻訳日:2022-01-17 14:11:43 公開日:2022-01-14
# (参考訳) 単純かつ効果的なキーフレーズ生成のためのジェネリックシーケンスからシーケンスへのモデルの適用 [全文訳有]

Applying a Generic Sequence-to-Sequence Model for Simple and Effective Keyphrase Generation ( http://arxiv.org/abs/2201.05302v1 )

ライセンス: CC BY 4.0
Md Faisal Mahbub Chowdhury, Gaetano Rossiello, Michael Glass, Nandana Mihindukulasooriya, Alfio Gliozzo(参考訳) 近年、複雑なモデルアーキテクチャ、専用のトレーニングパラダイム、デコード戦略からなるkpg(keyphrase generation)アプローチが数多く提案されている。 そこで本研究では,簡単な学習手法を用いて,テキストからキーフレーズを生成するために,一般的なセq2seq言語モデルであるBARTをいかに簡単に適用できるかを示す。 5つのベンチマークによる実証的な結果から、我々のアプローチは既存の最先端のKPGシステムと同等だが、よりシンプルで簡単にデプロイできるフレームワークを使っている。

In recent years, a number of keyphrase generation (KPG) approaches were proposed consisting of complex model architectures, dedicated training paradigms and decoding strategies. In this work, we opt for simplicity and show how a commonly used seq2seq language model, BART, can be easily adapted to generate keyphrases from the text in a single batch computation using a simple training procedure. Empirical results on five benchmarks show that our approach is as good as the existing state-of-the-art KPG systems, but using a much simpler and easy to deploy framework.
翻訳日:2022-01-17 14:09:56 公開日:2022-01-14
# CommonsenseQA 2.0: ゲーミフィケーションによるAIの限界の公開

CommonsenseQA 2.0: Exposing the Limits of AI through Gamification ( http://arxiv.org/abs/2201.05320v1 )

ライセンス: Link先を確認
Alon Talmor, Ori Yoran, Ronan Le Bras, Chandra Bhagavatula, Yoav Goldberg, Yejin Choi, Jonathan Berant(参考訳) 近代自然言語理解モデルの能力をテストするベンチマークの構築は困難である。事前訓練された言語モデルは、人間の同等性を達成するためにベンチマークのアーティファクトを利用するが、相反する例では失敗し、常識の欠如を示すエラーを犯す。 本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。 ゲームのプレイヤーのゴールは、特定のフレーズを余分な点に使いながら、ライバルのAIを誤解させる質問を組み立てることである。 ゲーム環境はユーザのエンゲージメントを高め、同時にゲームデザイナに収集したデータをコントロールさせ、高品質なデータを大規模に収集できるようにします。 この手法を用いて14,343のイエス/ノー質問を含むCommonsenseQA 2.0を作成し、ゲーム自体で使用されるAIよりも桁違いに大きいモデルの難しさを実証する。 我々の最高基準である11bパラメータのt5ベースのユニコーンは70.2%の精度を実現しており、数発の推測ではgpt-3(52.9%)よりもかなり高い。 いずれも94.1%の人的成績をはるかに下回っている。

Constructing benchmarks that test the abilities of modern natural language understanding models is difficult - pre-trained language models exploit artifacts in benchmarks to achieve human parity, but still fail on adversarial examples and make errors that demonstrate a lack of common sense. In this work, we propose gamification as a framework for data construction. The goal of players in the game is to compose questions that mislead a rival AI while using specific phrases for extra points. The game environment leads to enhanced user engagement and simultaneously gives the game designer control over the collected data, allowing us to collect high-quality data at scale. Using our method we create CommonsenseQA 2.0, which includes 14,343 yes/no questions, and demonstrate its difficulty for models that are orders-of-magnitude larger than the AI used in the game itself. Our best baseline, the T5-based Unicorn with 11B parameters achieves an accuracy of 70.2%, substantially higher than GPT-3 (52.9%) in a few-shot inference setup. Both score well below human performance which is at 94.1%.
翻訳日:2022-01-17 13:58:30 公開日:2022-01-14
# 記憶を通した推論: 最寄りの知識グラフ埋め込み

Reasoning Through Memorization: Nearest Neighbor Knowledge Graph Embeddings ( http://arxiv.org/abs/2201.05575v1 )

ライセンス: Link先を確認
Ningyu Zhang, Xin Xie, Xiang Chen, Shumin Deng, Chuanqi Tan, Fei Huang, Xu Cheng, Huajun Chen(参考訳) 従来の知識グラフの埋め込みアプローチは通常、エンティティを表現にマッピングし、スコア関数を使用して対象エンティティを予測するが、希少または未確認のエンティティを推論するのに苦労する。 本稿では,k-nearest 近傍のエンティティ分布を線形に補間することにより,新しい知識グラフ埋め込み手法 kNN-KGE を提案する。 我々は、知識ストアからのエンティティ埋め込み空間内の距離に基づいて、最も近い隣人を計算する。 我々のアプローチは、モデルパラメーターにおいて暗黙的にではなく、希少または新興のエンティティを明示的に記憶することができる。 実験の結果,提案手法はインダクティブリンクとトランスダクティブリンクの予測結果を改善でき,少ない三重項数で低リソース設定でパフォーマンスが向上し,明示的なメモリによる推論が容易になることが示された。

Previous knowledge graph embedding approaches usually map entities to representations and utilize score functions to predict the target entities, yet they struggle to reason rare or emerging unseen entities. In this paper, we propose kNN-KGE, a new knowledge graph embedding approach, by linearly interpolating its entity distribution with k-nearest neighbors. We compute the nearest neighbors based on the distance in the entity embedding space from the knowledge store. Our approach can allow rare or emerging entities to be memorized explicitly rather than implicitly in model parameters. Experimental results demonstrate that our approach can improve inductive and transductive link prediction results and yield better performance for low-resource settings with only a few triples, which might be easier to reason via explicit memory.
翻訳日:2022-01-17 13:58:09 公開日:2022-01-14
# NPハード問題を解決する強化学習--CVRPへの応用

Reinforcement Learning to Solve NP-hard Problems: an Application to the CVRP ( http://arxiv.org/abs/2201.05393v1 )

ライセンス: Link先を確認
Leo Ardon(参考訳) 本稿では,従来の組合せ最適化問題であるcvrp(capacitated vehicle routing problem)を解くための強化学習(rl)の利用について評価する。 我々は、この問題をRLフレームワークで形式化し、最も有望な2つのRLアプローチと、ベンチマークインスタンスのセットにおける従来の解法技術を比較した。 返却されたソリューションの品質と返却に必要な時間で、さまざまなアプローチを測定します。 最良解を返さないにもかかわらず、RLアプローチは従来の解法よりも多くの利点があることがわかった。 まず、フレームワークの汎用性により、より複雑な組合せ問題の解決が可能になる。 さらに、rlアルゴリズムは、問題の特定のインスタンスを解決しようとするのではなく、問題解決に必要なスキルを学習する。 訓練されたポリシーは、スクラッチから解決する必要なしに、すぐに目に見えない問題の解決策を提供することができる。 最後に、トレーニングされたモデルを使用することで、RLソルバははるかに高速になり、ユーザエクスペリエンスが最重要となる商用用途にこのアプローチが適している。 知識伝達のような技術は、アルゴリズムのトレーニング効率を改善し、より大きく複雑な問題を解決するのに役立つ。

In this paper, we evaluate the use of Reinforcement Learning (RL) to solve a classic combinatorial optimization problem: the Capacitated Vehicle Routing Problem (CVRP). We formalize this problem in the RL framework and compare two of the most promising RL approaches with traditional solving techniques on a set of benchmark instances. We measure the different approaches with the quality of the solution returned and the time required to return it. We found that despite not returning the best solution, the RL approach has many advantages over traditional solvers. First, the versatility of the framework allows the resolution of more complex combinatorial problems. Moreover, instead of trying to solve a specific instance of the problem, the RL algorithm learns the skills required to solve the problem. The trained policy can then quasi instantly provide a solution to an unseen problem without having to solve it from scratch. Finally, the use of trained models makes the RL solver by far the fastest, and therefore make this approach more suited for commercial use where the user experience is paramount. Techniques like Knowledge Transfer can also be used to improve the training efficiency of the algorithm and help solve bigger and more complex problems.
翻訳日:2022-01-17 13:57:37 公開日:2022-01-14
# (参考訳) スマートマニュファクチャリングにおけるヒューマンAIチームのためのリファレンスソフトウェアアーキテクチャ [全文訳有]

Towards a Reference Software Architecture for Human-AI Teaming in Smart Manufacturing ( http://arxiv.org/abs/2201.04876v2 )

ライセンス: CC BY 4.0
Philipp Haindl, Georg Buchgeher, Maqbool Khan, Bernhard Moser(参考訳) スマートマニュファクチャリングにおけるai対応ソフトウェアシステムの普及に伴い、このようなシステムの役割は、リアクションからプロアクティブな役割へと移行し、製造オペレーターにコンテキスト固有のサポートを提供する。 EUが出資したTeaming.AIプロジェクトのフレームでは、人間とAIのコラボレーションにおけるチームリングの側面の監視、倫理的ポリシーのランタイム監視と検証、データと機械学習アルゴリズムの実験のサポートを、スマート製造における人間とAIのコラボレーションの最も関連性の高い課題として挙げました。 これらの課題に基づいて,知識グラフ,追跡およびシーン分析に基づく参照ソフトウェアアーキテクチャと,その拡張性を重視したリレーショナル機械学習のためのコンポーネントを開発した。 本手法は,生産プロセスにおける製品やプロセス固有の知識を捉え,それをリレーショナル機械学習に活用するために,知識グラフを用いる。 これにより、製品品質の最適化と物理的被害の防止のための製造プロセスにおけるアクションのコンテキスト固有の推奨が可能になる。 本ソフトウェアアーキテクチャの実証検証は,自動車,エネルギーシステム,精密加工領域の大規模企業3社と連携して実施する。 本稿では,このようなリファレンスソフトウェアアーキテクチャの課題について論じ,その事前状況を示すとともに,本プロジェクトにおける今後の研究ビジョンを概観する。

With the proliferation of AI-enabled software systems in smart manufacturing, the role of such systems moves away from a reactive to a proactive role that provides context-specific support to manufacturing operators. In the frame of the EU funded Teaming.AI project, we identified the monitoring of teaming aspects in human-AI collaboration, the runtime monitoring and validation of ethical policies, and the support for experimentation with data and machine learning algorithms as the most relevant challenges for human-AI teaming in smart manufacturing. Based on these challenges, we developed a reference software architecture based on knowledge graphs, tracking and scene analysis, and components for relational machine learning with a particular focus on its scalability. Our approach uses knowledge graphs to capture product- and process specific knowledge in the manufacturing process and to utilize it for relational machine learning. This allows for context-specific recommendations for actions in the manufacturing process for the optimization of product quality and the prevention of physical harm. The empirical validation of this software architecture will be conducted in cooperation with three large-scale companies in the automotive, energy systems, and precision machining domain. In this paper we discuss the identified challenges for such a reference software architecture, present its preliminary status, and sketch our further research vision in this project.
翻訳日:2022-01-17 12:57:27 公開日:2022-01-14
# (参考訳) ベイズ非パラメトリック混合モデルへの接続によるNeyman-Scottプロセスによる時空間クラスタリング

Spatiotemporal Clustering with Neyman-Scott Processes via Connections to Bayesian Nonparametric Mixture Models ( http://arxiv.org/abs/2201.05044v2 )

ライセンス: CC BY 4.0
Yixin Wang, Anthony Degleris, Alex H. Williams, and Scott W. Linderman(参考訳) Neyman-Scott Process (NSP) は、時間または空間におけるポイントのクラスタを生成するポイントプロセスモデルである。 それらは、ニューラルネットワークのスパイクトレインからドキュメントストリームまで、幅広い現象の自然なモデルです。 クラスタリング特性は2つの確率的定式化によって達成される: まず、ポアソン過程から潜在事象の集合が引き出され、次に、各潜在事象は別のポアソン過程に従って観測されたデータポイントの集合を生成する。 この構成は、ディリクレ過程混合モデル(DPMM)のようなベイズ的な非パラメトリック混合モデルと似ており、潜在事象の数(すなわちクラスタ)がランダム変数であるのに対して、ポイントプロセスの定式化は、特に時空間データのモデル化に好適である。 多くの特殊アルゴリズムがDPMM向けに開発されたが、NSPにおける推論に焦点を当てた研究は比較的少ない。 ここでは NSP と DPMM の新たな接続について述べる。鍵リンクは有限混合モデル (MFMM) と呼ばれるベイズ混合モデルの第三級である。 この接続を利用して,dpmmの標準崩壊ギブスサンプリングアルゴリズムを適用し,nspモデル上でスケーラブルベイズ推定を行う。 ニューラルスパイク列車におけるシーケンス検出や文書ストリームにおけるイベント検出など,さまざまな応用におけるNeyman-Scottプロセスの可能性を示す。

Neyman-Scott processes (NSPs) are point process models that generate clusters of points in time or space. They are natural models for a wide range of phenomena, ranging from neural spike trains to document streams. The clustering property is achieved via a doubly stochastic formulation: first, a set of latent events is drawn from a Poisson process; then, each latent event generates a set of observed data points according to another Poisson process. This construction is similar to Bayesian nonparametric mixture models like the Dirichlet process mixture model (DPMM) in that the number of latent events (i.e. clusters) is a random variable, but the point process formulation makes the NSP especially well suited to modeling spatiotemporal data. While many specialized algorithms have been developed for DPMMs, comparatively fewer works have focused on inference in NSPs. Here, we present novel connections between NSPs and DPMMs, with the key link being a third class of Bayesian mixture models called mixture of finite mixture models (MFMMs). Leveraging this connection, we adapt the standard collapsed Gibbs sampling algorithm for DPMMs to enable scalable Bayesian inference on NSP models. We demonstrate the potential of Neyman-Scott processes on a variety of applications including sequence detection in neural spike trains and event detection in document streams.
翻訳日:2022-01-17 12:47:28 公開日:2022-01-14
# (参考訳) アンサー説明のためのインフォーマル・イット・コンサイス・エビデンス蒸留法 [全文訳有]

Grow-and-Clip: Informative-yet-Conc ise Evidence Distillation for Answer Explanation ( http://arxiv.org/abs/2201.05088v2 )

ライセンス: CC BY 4.0
Yuyan Chen, Yanghua Xiao, Bang Liu(参考訳) 既存の質問回答モデル(QA)の予測を解釈することは、医療、教育、財務のためのQAシステムなど、多くの現実世界のインテリジェントなアプリケーションにとって重要である。 しかし、既存のQAモデルは解釈可能性に欠けており、特定の予測が質問に対する答えである理由を理解するためにエンドユーザにフィードバックや説明を提供していない。 本研究では,QAモデルの解釈可能性を高めるために,解答の証拠が重要であることを論じる。 文脈におけるいくつかの文をエビデンスとして抽出する従来の研究とは異なり、我々は証拠の概念を情報的で簡潔で読みやすい文脈における支援事実として明示的に定義する。 また,証拠の定量的・簡潔・可読性を定量的に評価するための効果的な戦略を提供する。 さらに, 情報提供性, 簡潔性, 可読性等により, 文脈からエビデンスを抽出するためのグロース・アンド・クリップ・エビデンス蒸留(gced)アルゴリズムを提案する。 我々は,複数のベースラインモデルを用いたSQuADとTriviaQAデータセットの広範な実験を行い,GCEDが質問に対する回答の解釈に与える影響を評価する。 蒸留された証拠の品質を確認するために人的評価も行われる。 実験の結果, 自動蒸留実験の結果は, 質問に対する回答の解釈性を高めるため, 人的情報性, 簡潔性, 可読性を有することがわかった。

Interpreting the predictions of existing Question Answering (QA) models is critical to many real-world intelligent applications, such as QA systems for healthcare, education, and finance. However, existing QA models lack interpretability and provide no feedback or explanation for end-users to help them understand why a specific prediction is the answer to a question. In this research, we argue that the evidences of an answer is critical to enhancing the interpretability of QA models. Unlike previous research that simply extracts several sentence(s) in the context as evidence, we are the first to explicitly define the concept of evidence as the supporting facts in a context which are informative, concise, and readable. Besides, we provide effective strategies to quantitatively measure the informativeness, conciseness and readability of evidence. Furthermore, we propose Grow-and-Clip Evidence Distillation (GCED) algorithm to extract evidences from the contexts by trade-off informativeness, conciseness, and readability. We conduct extensive experiments on the SQuAD and TriviaQA datasets with several baseline models to evaluate the effect of GCED on interpreting answers to questions. Human evaluation are also carried out to check the quality of distilled evidences. Experimental results show that automatic distilled evidences have human-like informativeness, conciseness and readability, which can enhance the interpretability of the answers to questions.
翻訳日:2022-01-17 12:45:36 公開日:2022-01-14
# 自動エラー分析に向けて:エラーを識別する学習

Towards Automated Error Analysis: Learning to Characterize Errors ( http://arxiv.org/abs/2201.05017v2 )

ライセンス: Link先を確認
Tong Gao, Shivang Singh, Raymond J. Mooney(参考訳) システムのエラーパターンを特徴づけることによって、研究者たちは、その正確性と堅牢性を高めることに集中することができる。 本研究では,2つのNLPシステムの理解と改善を支援するために,システムのエラーの種類を特徴付ける解釈可能なルールを自動的に学習する「メタラーニング」手法を提案する。 検証データのエラーケースを収集し、これらのサンプルを記述するメタ特徴を抽出し、最後にこれらの特徴を使ってエラーを特徴付けるルールを学習する。 我々はVilBERT,Visual Question Answering,RoBERTa,Co mmon Sense Question Answeringにアプローチを適用した。 システムは解釈可能なルールを学習し、システムが与えられたタスクで行うシステム的エラーに対する洞察を提供する。 これらの洞察を使って、ループを閉じて、システムの性能を適度に改善することもできます。

Characterizing the patterns of errors that a system makes helps researchers focus future development on increasing its accuracy and robustness. We propose a novel form of "meta learning" that automatically learns interpretable rules that characterize the types of errors that a system makes, and demonstrate these rules' ability to help understand and improve two NLP systems. Our approach works by collecting error cases on validation data, extracting meta-features describing these samples, and finally learning rules that characterize errors using these features. We apply our approach to VilBERT, for Visual Question Answering, and RoBERTa, for Common Sense Question Answering. Our system learns interpretable rules that provide insights into systemic errors these systems make on the given tasks. Using these insights, we are also able to "close the loop" and modestly improve performance of these systems.
翻訳日:2022-01-17 12:20:36 公開日:2022-01-14
# リアルタイムGPU高速化機械学習による5G以上のマルチユーザ検出

Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for 5G and Beyond ( http://arxiv.org/abs/2201.05024v2 )

ライセンス: Link先を確認
Matthias Mehlhose, Guillermo Marcus, Daniel Sch\"aufele, Daniyal Amir Awan, Nikolaus Binder, Martin Kasparick, Renato L. G. Cavalcante, S{\l}awomir Sta\'nczak and Alexander Keller(参考訳) 適応型部分線形ビームフォーミングは、高い柔軟性と適応性のために5gおよび将来の6g応用の必要性を満たす。 競合する目標間の適切なトレードオフを選択することで、最近提案されたmultiuser(MU)検出方法が開かれる。 空間分解能が高いため、非線形ビームフォーミングフィルタは、大規模接続を伴う定常シナリオにおいて、線形アプローチを著しく上回ることができる。 しかし、無線チャネルの変化に非常に影響を受けやすいため、高機動性シナリオではパフォーマンスが劇的に低下することが期待できる。 これらの変化を考慮すると、線形フィルタの堅牢性が必要である。 適切な対応方法のひとつは、オンライン機械学習アルゴリズムを使用することだ。 adaptive projected subgradient method (apsm)に基づくアルゴリズムの理論は豊富であり、動的無線環境における正確な追跡能力を約束している。 しかし、主な課題の1つは、時間変化した閉凸集合の射影を含むこれらのアルゴリズムのリアルタイム実装である。 プロジェクション操作は比較的単純であるが、その膨大な数は、すべての無線フレームでレイテンシ制約を満たさなければならない超低レイテンシ(ULL)アプリケーションにおいて課題となる。 本稿では,非直交多重アクセス(NOMA)システムを例として,大規模並列化によるAPSMアルゴリズムの高速化について検討する。 その結果、GPUによる直交周波数分割多重化(OFDM)ベースのトランシーバの実装が加速され、1ミリ秒未満のレイテンシの検出が可能となり、5G以上の要件に準拠する。 厳密な物理層レイテンシ要件を満たすためには、特にハードウェアアクセラレータを備えた仮想化無線システムにおいて、ハードウェアとソフトウェアの注意深い共同設計が不可欠である。

Adaptive partial linear beamforming meets the need of 5G and future 6G applications for high flexibility and adaptability. Choosing an appropriate tradeoff between conflicting goals opens the recently proposed multiuser (MU) detection method. Due to their high spatial resolution, nonlinear beamforming filters can significantly outperform linear approaches in stationary scenarios with massive connectivity. However, a dramatic decrease in performance can be expected in high mobility scenarios because they are very susceptible to changes in the wireless channel. The robustness of linear filters is required, considering these changes. One way to respond appropriately is to use online machine learning algorithms. The theory of algorithms based on the adaptive projected subgradient method (APSM) is rich, and they promise accurate tracking capabilities in dynamic wireless environments. However, one of the main challenges comes from the real-time implementation of these algorithms, which involve projections on time-varying closed convex sets. While the projection operations are relatively simple, their vast number poses a challenge in ultralow latency (ULL) applications where latency constraints must be satisfied in every radio frame. Taking non-orthogonal multiple access (NOMA) systems as an example, this paper explores the acceleration of APSM-based algorithms through massive parallelization. The result is a GPU-accelerated real-time implementation of an orthogonal frequency-division multiplexing (OFDM)-based transceiver that enables detection latency of less than one millisecond and therefore complies with the requirements of 5G and beyond. To meet the stringent physical layer latency requirements, careful co-design of hardware and software is essential, especially in virtualized wireless systems with hardware accelerators.
翻訳日:2022-01-17 12:20:20 公開日:2022-01-14
# タマシェク語における音声資源

Speech Resources in the Tamasheq Language ( http://arxiv.org/abs/2201.05051v2 )

ライセンス: Link先を確認
Marcely Zanon Boito, Fethi Bougares, Florentin Barbier, Souhir Gahbiche, Lo\"ic Barrault, Mickael Rouvier, Yannick Est\`eve(参考訳) 本稿では,mali と niger で主に使われている開発言語 tamasheq の2つのデータセットについて述べる。 これらの2つのデータセットは、IWSLT 2022低リソース音声翻訳トラックで利用可能であり、Studio Kalangou (Niger) とStudio Tamani (Mali) のラジオ録音のコレクションで構成されている。 私たちは (i)ニジェール語、フルフルード語、ハウザ語、タマシェク語、ザルマ語及び5つの言語における膨大な無ラベルオーディオデータ(671時間) (II) タマシェクでは, 音声録音の並列コーパスが17時間小さく, フランス語で発声レベルが翻訳された。 これらのデータはCreative Commons BY-NC-ND 3.0ライセンスで共有されている。 これらのリソースが、tamasheq言語を使ったモデルの開発とベンチマークモデルの開発を、音声コミュニティに促すことを願っている。

In this paper we present two datasets for Tamasheq, a developing language mainly spoken in Mali and Niger. These two datasets were made available for the IWSLT 2022 low-resource speech translation track, and they consist of collections of radio recordings from the Studio Kalangou (Niger) and Studio Tamani (Mali) daily broadcast news. We share (i) a massive amount of unlabeled audio data (671 hours) in five languages: French from Niger, Fulfulde, Hausa, Tamasheq and Zarma, and (ii) a smaller parallel corpus of audio recordings (17 hours) in Tamasheq, with utterance-level translations in the French language. All this data is shared under the Creative Commons BY-NC-ND 3.0 license. We hope these resources will inspire the speech community to develop and benchmark models using the Tamasheq language.
翻訳日:2022-01-17 12:19:53 公開日:2022-01-14
# TransVOD:時空間変換器を用いたエンドツーエンドビデオオブジェクト検出

TransVOD: End-to-end Video Object Detection with Spatial-Temporal Transformers ( http://arxiv.org/abs/2201.05047v2 )

ライセンス: Link先を確認
Qianyu Zhou, Xiangtai Li, Lu He, Yibo Yang, Guangliang Cheng, Yunhai Tong, Lizhuang Ma, Dacheng Tao(参考訳) 検出変換器 (DETR) と変形可能なDETR (Deformable DETR) は、従来の複雑な手作り検出器として優れた性能を示しながら、物体検出において多くの手作り部品の必要性を排除するために提案されている。 しかし,ビデオオブジェクト検出(VOD)の性能はよく研究されていない。 本稿では,空間時間変換器アーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。 本稿の第一の目的はVODのパイプラインの合理化であり、光学フローモデルやリレーショナルネットワークなどの機能集約のための手作り部品を効果的に除去することである。 また,DeTRにおけるオブジェクトクエリ設計の利点から,Seq-NMSのような複雑な後処理手法は不要である。 特に,各フレームの空間的オブジェクトクエリと特徴記憶を集約する時間的トランスフォーマティブを提案する。 時間変換器は、オブジェクトクエリをフューズするためのTQE(Temporal Query Encoder)と、現在のフレーム検出結果を得るためにTDTD(Temporal Deformable Transformer Decoder)の2つのコンポーネントで構成される。 これらの設計により、imagenet vidデータセットの強いベースライン変形可能なdetr(3%-4%マップ)が向上した。 次に、TransVOD++とTransVOD Liteの2つの改良版を示す。 前者はオブジェクトレベルの情報を動的畳み込みによってオブジェクトクエリに融合し、後者はビデオクリップ全体を出力としてモデル化して推論時間を短縮する。 実験部では,3つのモデルの詳細な分析を行った。 特に,提案した TransVOD++ では,90.0% mAP の ImageNet VID の精度において,新たな最先端記録が設定されている。 提案したTransVOD Liteは、単一のV100 GPUデバイス上で約30FPSで動作する間、83.7%のmAPで最高速度と精度のトレードオフを実現する。 コードとモデルはさらなる研究のために利用できる。

Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (3%-4% mAP) on the ImageNet VID dataset. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0% mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7% mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
翻訳日:2022-01-17 12:19:37 公開日:2022-01-14
# ローカルニュースデータを用いた米国におけるテロ攻撃予測

Predicting Terrorist Attacks in the United States using Localized News Data ( http://arxiv.org/abs/2201.04292v2 )

ライセンス: Link先を確認
Steven J. Krieg, Christian W. Smith, Rusha Chatterjee, Nitesh V. Chawla(参考訳) テロは世界中で大きな問題であり、毎年数千人の死者と数十億ドルの損害をもたらしている。 これらの攻撃をよりよく理解し、緩和する目的に向けて、テロ攻撃が特定の日付と特定の状態において起こるかどうかを予測するために、ローカライズされたニュースデータから学習する一連の機械学習モデルを提案する。 最も優れたモデルであるランダムフォレスト(Random Forest)は、2015年から2018年にかけてテロリズムによって最も影響を受けていた5州のうち4州で、受信機動作特性の下の特徴空間の新たな変動長移動平均表現から .667$ を学習する。我々の重要な発見は、テロリズムを連続的なプロセスではなく、独立したイベントの集合としてモデル化することである。特に、イベントがまばらで異質な場合には、実りあるアプローチである。 さらに,位置の違いを考慮した局所モデルの必要性も強調した。 機械学習の観点から,ランダムフォレストモデルは,マルチモーダル,ノイズ,不均衡のデータセットにおいて,いくつかの深層モデルよりも優れており,このような文脈における特徴表現手法の有効性が実証された。 また,その予測は,攻撃の時間的ギャップと,攻撃の観測特性に対して比較的堅牢であることを示す。 最後に、ノイズの多い機能空間と少量のデータを含むモデル性能を制限する要因を分析した。 これらの貢献は、アメリカ以降のテロに対する取り組みにおいて、機械学習を使用するための重要な基盤を提供する。

Terrorism is a major problem worldwide, causing thousands of fatalities and billions of dollars in damage every year. Toward the end of better understanding and mitigating these attacks, we present a set of machine learning models that learn from localized news data in order to predict whether a terrorist attack will occur on a given calendar date and in a given state. The best model--a Random Forest that learns from a novel variable-length moving average representation of the feature space--achieves area under the receiver operating characteristic scores $> .667$ on four of the five states that were impacted most by terrorism between 2015 and 2018. Our key findings include that modeling terrorism as a set of independent events, rather than as a continuous process, is a fruitful approach--especially when the events are sparse and dissimilar. Additionally, our results highlight the need for localized models that account for differences between locations. From a machine learning perspective, we found that the Random Forest model outperformed several deep models on our multimodal, noisy, and imbalanced data set, thus demonstrating the efficacy of our novel feature representation method in such a context. We also show that its predictions are relatively robust to time gaps between attacks and observed characteristics of the attacks. Finally, we analyze factors that limit model performance, which include a noisy feature space and small amount of available data. These contributions provide an important foundation for the use of machine learning in efforts against terrorism in the United States and beyond.
翻訳日:2022-01-17 12:19:06 公開日:2022-01-14
# 特徴抽出とクラスタリングに基づくDNNのブラックボックス安全性解析とリトレーニング

Black-box Safety Analysis and Retraining of DNNs based on Feature Extraction and Clustering ( http://arxiv.org/abs/2201.05077v2 )

ライセンス: Link先を確認
Mohammed Oualid Attaoui, Hazem Fahmy, Fabrizio Pastore, and Lionel Briand(参考訳) ディープニューラルネットワーク(DNN)は、安全クリティカルシステムの多くの機能をサポートするために、古典的な機械学習よりも優れたパフォーマンスを示している。 現在、DNNはこのようなシステム(例えば自動運転車)で広く使われているが、DNNベースのシステムにおける機能安全分析の自動サポートについては、進展が限られている。 例えば、リスク分析とDNN再トレーニングの両方を可能にするエラーの根本原因の特定は、依然として未解決の問題である。 本稿では,DNNエラーの根本原因を自動的に識別するブラックボックス手法であるSAFEを提案する。 SAFEは、ImageNetで事前訓練された転送学習モデルを使用して、エラー誘発画像から特徴を抽出する。 次に密度ベースのクラスタリングアルゴリズムを適用し、誤りの原因をモデル化する画像の任意の形状のクラスタを検出する。 最後に、クラスタを使用してDNNを効果的に再トレーニングし、改善する。 SAFEのブラックボックスの性質は、変更を必要とせず、DNN内部にアクセスして採用を促進することを目的としています。 実験の結果,自動車領域におけるケーススタディに基づくDNN誤差の根本原因の同定におけるSAFEの有用性が示された。 また、再トレーニング後のDNN精度も大幅に改善され、代替よりも実行時間とメモリが大幅に短縮された。

Deep neural networks (DNNs) have demonstrated superior performance over classical machine learning to support many features in safety-critical systems. Although DNNs are now widely used in such systems (e.g., self driving cars), there is limited progress regarding automated support for functional safety analysis in DNN-based systems. For example, the identification of root causes of errors, to enable both risk analysis and DNN retraining, remains an open problem. In this paper, we propose SAFE, a black-box approach to automatically characterize the root causes of DNN errors. SAFE relies on a transfer learning model pre-trained on ImageNet to extract the features from error-inducing images. It then applies a density-based clustering algorithm to detect arbitrary shaped clusters of images modeling plausible causes of error. Last, clusters are used to effectively retrain and improve the DNN. The black-box nature of SAFE is motivated by our objective not to require changes or even access to the DNN internals to facilitate adoption. Experimental results show the superior ability of SAFE in identifying different root causes of DNN errors based on case studies in the automotive domain. It also yields significant improvements in DNN accuracy after retraining, while saving significant execution time and memory when compared to alternatives.
翻訳日:2022-01-17 12:18:34 公開日:2022-01-14
# 魚音:データ駆動型音源分離による海洋音響生物多様性の評価に向けて

Fish sounds: towards the evaluation of marine acoustic biodiversity through data-driven audio source separation ( http://arxiv.org/abs/2201.05013v2 )

ライセンス: Link先を確認
Michele Mancusi, Nicola Zonca, Emanuele Rodol\`a, Silvia Zuffi(参考訳) 海洋生態系は、生物多様性の喪失や熱帯種の温帯盆地への移動など、危機的な速度で変化している。 水中環境とその住民のモニタリングは、これらのシステムの進化を理解し、安全政策を実施するために重要である。 しかし、生物多様性の評価と追跡は、特に海洋のような大規模で制御不能な環境において、複雑な作業であることが多い。 海洋生物多様性をモニタリングする最もポピュラーで効果的な方法の1つは、水中の音を捉えるためにハイドロフォンを使用する受動的音響モニタリング(PAM)である。 多くの水生動物は独自の音を発生させ、これらの信号は効率的に水中を移動し、遠くでも検出できる。 さらに、現代の技術はますます便利で正確になり、非常に正確で慎重にデータを取得することができる。 現在、PAMデバイスで捉えた音声は、海洋生物学者によってしばしば手作業で処理され、動物の発声を検出するための従来の信号処理技術で解釈されている。 PAM録音は長い時間をかけて行われることが多いので、これは難しい作業です。 さらに, 生物多様性の喪失の原因の一つは音汚染であり, 人為的騒音が大きい地域から得られたデータでは, 手動で人工音と魚音を分離することは困難である。 今日では、機械学習、特にディープラーニングは、音声信号を処理する技術の現状を表している。 特に、音声分離ネットワークは、人間の声と楽器を識別し、分離することができる。 本研究は, PAM録音における魚の発声を自動的に抽出し, 生物多様性モニタリングを大規模に行うことができることを示すものである。

The marine ecosystem is changing at an alarming rate, exhibiting biodiversity loss and the migration of tropical species to temperate basins. Monitoring the underwater environments and their inhabitants is of fundamental importance to understand the evolution of these systems and implement safeguard policies. However, assessing and tracking biodiversity is often a complex task, especially in large and uncontrolled environments, such as the oceans. One of the most popular and effective methods for monitoring marine biodiversity is passive acoustics monitoring (PAM), which employs hydrophones to capture underwater sound. Many aquatic animals produce sounds characteristic of their own species; these signals travel efficiently underwater and can be detected even at great distances. Furthermore, modern technologies are becoming more and more convenient and precise, allowing for very accurate and careful data acquisition. To date, audio captured with PAM devices is frequently manually processed by marine biologists and interpreted with traditional signal processing techniques for the detection of animal vocalizations. This is a challenging task, as PAM recordings are often over long periods of time. Moreover, one of the causes of biodiversity loss is sound pollution; in data obtained from regions with loud anthropic noise, it is hard to separate the artificial from the fish sound manually. Nowadays, machine learning and, in particular, deep learning represents the state of the art for processing audio signals. Specifically, sound separation networks are able to identify and separate human voices and musical instruments. In this work, we show that the same techniques can be successfully used to automatically extract fish vocalizations in PAM recordings, opening up the possibility for biodiversity monitoring at a large scale.
翻訳日:2022-01-17 12:18:14 公開日:2022-01-14