このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211119となっている論文です。

PDF登録状況(公開日: 20211119)

TitleAuthorsAbstract論文公表日・翻訳日
# クラウドソーシングのためのWorker-Task特化モデル:効率的な推論と基本限界

A Worker-Task Specialization Model for Crowdsourcing: Efficient Inference and Fundamental Limits ( http://arxiv.org/abs/2111.12550v1 )

ライセンス: Link先を確認
Doyeon Kim, Jeonghwan Lee and Hye Won Chung(参考訳) クラウドソーシングシステムは、専門家でない労働者を用いて比較的低コストでデータをラベル付けする効果的なプラットフォームとして登場した。 しかし,データに対する複数のノイズの多い回答から正しいラベルを推測することは課題であり,回答の質はタスクや作業者によって大きく異なる。 従来の作業の多くは、作業の信頼性の観点から労働者の順序を定め、異なる重みで回答を集約するために労働者の信頼度を推定する単純なモデルを想定していた。 我々は,与えられたタスクのタイプに応じて各ワーカーの信頼性が変化し,タスク数で$d$の型がスケールできる,極めて一般的な$d$-type worker-task特殊化モデルを提案する。 本モデルでは,任意の回復精度でラベルを正確に推測する最適なサンプル複雑性を特徴付け,オーダーワイド最適境界を達成する推論アルゴリズムを提案する。 我々は、合成データセットと実世界のデータセットの両方で実験を行い、厳密なモデル仮定に基づく既存のアルゴリズムよりも優れていることを示す。

Crowdsourcing system has emerged as an effective platform to label data with relatively low cost by using non-expert workers. However, inferring correct labels from multiple noisy answers on data has been a challenging problem, since the quality of answers varies widely across tasks and workers. Many previous works have assumed a simple model where the order of workers in terms of their reliabilities is fixed across tasks, and focused on estimating the worker reliabilities to aggregate answers with different weights. We propose a highly general $d$-type worker-task specialization model in which the reliability of each worker can change depending on the type of a given task, where the number $d$ of types can scale in the number of tasks. In this model, we characterize the optimal sample complexity to correctly infer labels with any given recovery accuracy, and propose an inference algorithm achieving the order-wise optimal bound. We conduct experiments both on synthetic and real-world datasets, and show that our algorithm outperforms the existing algorithms developed based on strict model assumptions.
翻訳日:2021-11-28 18:13:09 公開日:2021-11-19
# (参考訳) 有限状態マルコフ鎖の準定常分布の学習 [全文訳有]

Learn Quasi-stationary Distributions of Finite State Markov Chain ( http://arxiv.org/abs/2111.11213v1 )

ライセンス: CC BY 4.0
Zhiqiang Cai and Ling Lin and Xiang Zhou(参考訳) 準定常分布の表現を計算するための強化学習(RL)手法を提案する。 準定常分布の固定点定式化に基づき、候補分布と真の対象分布によって引き起こされる2つのマルコフ経路分布のkl分布を最小化する。 この難解な最小化問題を勾配降下によって解くために,対応する報酬と価値関数を導入することで強化学習手法を適用する。 対応するポリシー勾配定理を導出し、最適な解と値関数を学ぶためにアクター-クリティックアルゴリズムを設計する。 有限状態マルコフ連鎖の数値例は、新しい方法を実証するために試験される

We propose a reinforcement learning (RL) approach to compute the expression of quasi-stationary distribution. Based on the fixed-point formulation of quasi-stationary distribution, we minimize the KL-divergence of two Markovian path distributions induced by the candidate distribution and the true target distribution. To solve this challenging minimization problem by gradient descent, we apply the reinforcement learning technique by introducing the corresponding reward and value functions. We derive the corresponding policy gradient theorem and design an actor-critic algorithm to learn the optimal solution and value function. The numerical examples of finite state Markov chain are tested to demonstrate the new methods
翻訳日:2021-11-26 11:03:43 公開日:2021-11-19
# (参考訳) 尿中微視画像データセット [全文訳有]

Urine Microscopic Image Dataset ( http://arxiv.org/abs/2111.10374v1 )

ライセンス: CC BY 4.0
Dipam Goswami, Hari Om Aggrawal, Rajiv Gupta, Vinti Agarwal(参考訳) 尿路透析は尿路系の問題を検出する標準的な診断法である。 尿素分解の自動化は、全体の診断時間を短縮する。 最近の研究では、尿細胞を分類し検出する深層学習に基づくアルゴリズムを設計するために尿の微視的データセットを用いた。 しかし、これらのデータセットはさらなる研究のためには公開されていない。 尿ダットセットの必要性を軽減するため,約3700の細胞アノテーションとRBC,pus,上皮細胞の3つのカテゴリからなる尿沈着顕微鏡画像(UMID)データセットを作成した。 データセットとアノテーションの作成に関わるいくつかの課題について論じる。 データセットを公開しています。

Urinalysis is a standard diagnostic test to detect urinary system related problems. The automation of urinalysis will reduce the overall diagnostic time. Recent studies used urine microscopic datasets for designing deep learning based algorithms to classify and detect urine cells. But these datasets are not publicly available for further research. To alleviate the need for urine datsets, we prepare our urine sediment microscopic image (UMID) dataset comprising of around 3700 cell annotations and 3 categories of cells namely RBC, pus and epithelial cells. We discuss the several challenges involved in preparing the dataset and the annotations. We make the dataset publicly available.
翻訳日:2021-11-26 10:44:19 公開日:2021-11-19
# (参考訳) アルゴリトモス・パラ・ガナデリアの精度に関する比較研究 [全文訳有]

Compresion y analisis de imagenes por medio de algoritmos para la ganaderia de precision ( http://arxiv.org/abs/2111.11854v1 )

ライセンス: CC BY 4.0
David Agudelo Tapias, Simon Marin Giraldo y Mauricio Toro Bermudez(参考訳) このデータ構造とアルゴリズムのプロジェクトにおいて、私たちが解決したい問題は、それらの動物に有するいくつかの画像を解読することであり、より具体的にはウシ動物である。つまり、動物が健康であるかどうかを識別する必要がある。 これらすべてを圧縮のアルゴリズムで処理することで、画像を取得してコード内のこれらを検査することが可能になる。結果が100%正確であるとは限らないが、このコードが効率的であることは、機械学習が有効であることであり、より多くの情報が得られればなるほど、結果が一般的な愛情を伴わずに正確になることを意味する。 提案アルゴリズムはNNと双線形補間であり,実行速度において有意な結果が得られた。 より良い仕事はできたかもしれないと結論づけるが、納品されたことで、それはその仕事のよい結果であると信じられている。

The problem that we want to solve in this project of the subject of Data Structures and Algorithms, is to decipher some images, which have in them animals, being more specific, bovine animals; in which it is necessary to identify if the animal is healthy, that is to say, if it is in good conditions to be taken into account in the process of selection of the cattle, or if it is sick, to know if it is discarded. All this by means of an algorithm of compression, which allows to take the images and to take them to an examination of these in the code, where not always the results are going to be one hundred percent exact, but what allows this code to be efficient, is that it works with machine learning, which means that the more information it takes, the more precise the results are going to be without bringing with it general affectations. The proposed algorithms are NN and bilinear interpolation, where significant results were obtained on the execution speed. It is concluded that a better job could have been done, but with what was delivered, it is believed that it is a good result of the work.
翻訳日:2021-11-26 10:39:05 公開日:2021-11-19
# (参考訳) スマートヘルスケアのためのIoMTフレームワークを用いた新しい脳波統合失調症検出 [全文訳有]

Novel EEG based Schizophrenia Detection with IoMT Framework for Smart Healthcare ( http://arxiv.org/abs/2111.11298v1 )

ライセンス: CC BY 4.0
Geetanjali Sharma, Amit M. Joshi(参考訳) 神経科学の分野では、脳活動分析は常に重要な領域とみなされている。 統合失調症(Sz)は、世界中の人々の思考、行動、感情に深刻な影響を与える脳障害である。 脳波検査(EEG)はSz検出に有効なバイオマーカーであることが証明された。 EEGは非線形時系列信号であり、その非線形構造のために調査に利用することがかなり重要である。 本稿では,深層学習を用いた脳波を用いたSz検出の性能向上を目的とする。 畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)を組み合わせた,SzHNN(Schizophrenia Hybrid Neural Network)と呼ばれる新しいハイブリッドディープラーニングモデルが提案されている。 CNNネットワークは局所的特徴抽出に使われ、LSTMは分類に使われている。 提案モデルは,CNNのみ,LSTMのみ,機械学習に基づくモデルと比較されている。 すべてのモデルが2つの異なるデータセットで評価され、Dataset 1は19の被験者で構成され、Dataset 2は16の被験者で構成されている。 異なる周波数帯の様々なパラメトリック設定と、頭皮上の異なる電極セットを用いて、同様の実験が行われている。 すべての実験から,提案するハイブリッドモデル (szhnn) が,他の既存モデルと比較して99.9%の精度を持つことが明らかになった。 提案手法は, 周波数帯域の違いによる影響を克服し, 5電極のみを用いて91%の精度を示した。 提案モデルは、スマートヘルスケアおよび遠隔監視アプリケーションのためのInternet of Medical Things (IoMT)フレームワークでも評価されている。

In the field of neuroscience, Brain activity analysis is always considered as an important area. Schizophrenia(Sz) is a brain disorder that severely affects the thinking, behaviour, and feelings of people all around the world. Electroencephalograp hy (EEG) is proved to be an efficient biomarker in Sz detection. EEG is a non-linear time-seriesi signal and utilizing it for investigation is rather crucial due to its non-linear structure. This paper aims to improve the performance of EEG based Sz detection using a deep learning approach. A novel hybrid deep learning model known as SzHNN (Schizophrenia Hybrid Neural Network), a combination of Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) has been proposed. CNN network is used for local feature extraction and LSTM has been utilized for classification. The proposed model has been compared with CNN only, LSTM only, and machine learning-based models. All the models have been evaluated on two different datasets wherein Dataset 1 consists of 19 subjects and Dataset 2 consists of 16 subjects. Several experiments have been conducted for the same using various parametric settings on different frequency bands and using different sets of electrodes on the scalp. Based on all the experiments, it is evident that the proposed hybrid model (SzHNN) provides the highest classification accuracy of 99.9% in comparison to other existing models. The proposed model overcomes the influence of different frequency bands and even showed a much better accuracy of 91% with only 5 electrodes. The proposed model is also evaluated on the Internet of Medical Things (IoMT) framework for smart healthcare and remote monitoring applications.
翻訳日:2021-11-26 10:11:12 公開日:2021-11-19
# (参考訳) ComMA Dataset V0.2:多言語ソーシャルメディア談話におけるアグレッションとバイアスの注釈 [全文訳有]

The ComMA Dataset V0.2: Annotating Aggression and Bias in Multilingual Social Media Discourse ( http://arxiv.org/abs/2111.10390v1 )

ライセンス: CC BY-SA 4.0
Ritesh Kumar and Enakshi Nandi and Laishram Niranjana Devi and Shyam Ratan and Siddharth Singh and Akash Bhagat and Yogesh Dawer(参考訳) 本稿では,異なるタイプの攻撃をマークした階層的,きめ細かいタグセットと,それらが発生する「コンテキスト」を付加した多言語データセットの開発について論じる。 ここでのコンテキストは、特定のコメントが発生する会話スレッドと、前回のコメントに関してコメントが実行している不正確な役割の"タイプ"によって定義されます。 最初のデータセットはここで議論され(comma@iconの共有タスクの一部として利用可能)、youtube、facebook、twitter、telegramなどのソーシャルメディアプラットフォームから収集された、meitei、bangla、ヒンディー語、インド英語の4つの言語で合計15,000の注釈付きコメントで構成されている。 ソーシャルメディアのウェブサイトでは通常のように、これらのコメントの多くは多言語で、多くは英語と混在している。 本稿では,アノテーションに使用されているタグセットの詳細な説明と,性別バイアス,宗教的不寛容(タグセットにおけるコミュニカルバイアスと呼ばれる),クラス/キャストバイアス,民族/人種バイアスなど,さまざまな種類の攻撃的・偏見を伴うコメントのマーク付けに使用できるマルチラベルの細粒度タグセットの開発プロセスについて述べる。 また,アタックやディフェンスなど,コメントを通じて実行されている不正な役割をマーキングするために使用されたタグを定義し,議論する。 また,提案したデータセットを用いた自動攻撃識別システムを開発するためのベースライン実験の結果とともに,データセットの統計的解析を行った。

In this paper, we discuss the development of a multilingual dataset annotated with a hierarchical, fine-grained tagset marking different types of aggression and the "context" in which they occur. The context, here, is defined by the conversational thread in which a specific comment occurs and also the "type" of discursive role that the comment is performing with respect to the previous comment. The initial dataset, being discussed here (and made available as part of the ComMA@ICON shared task), consists of a total 15,000 annotated comments in four languages - Meitei, Bangla, Hindi, and Indian English - collected from various social media platforms such as YouTube, Facebook, Twitter and Telegram. As is usual on social media websites, a large number of these comments are multilingual, mostly code-mixed with English. The paper gives a detailed description of the tagset being used for annotation and also the process of developing a multi-label, fine-grained tagset that can be used for marking comments with aggression and bias of various kinds including gender bias, religious intolerance (called communal bias in the tagset), class/caste bias and ethnic/racial bias. We also define and discuss the tags that have been used for marking different the discursive role being performed through the comments, such as attack, defend, etc. We also present a statistical analysis of the dataset as well as results of our baseline experiments with developing an automatic aggression identification system using the dataset developed.
翻訳日:2021-11-26 08:37:30 公開日:2021-11-19
# (参考訳) AIのためのデータ卓越性:なぜ注意すべきなのか [全文訳有]

Data Excellence for AI: Why Should You Care ( http://arxiv.org/abs/2111.10391v1 )

ライセンス: CC BY 4.0
Lora Aroyo, Matthew Lease, Praveen Paritosh, Mike Schaekermann(参考訳) 機械学習(ML)モデルの有効性はアルゴリズムとデータの両方に依存する。 トレーニングデータは、モデルが学習したいものを定義し、テストデータは、経験的な進歩を測定する手段を提供します。 ベンチマークデータセットは、モデルの存在と運用に関する世界全体を定義しますが、研究は、私たちのモデルが運用するデータの評価と改善よりも、モデルのアルゴリズム的な側面の批判と改善にフォーカスし続けています。 もし「データが新しい石油」なら、データ自体をより効果的に利用するために最適化できる製油所の作業が不足しています。

The efficacy of machine learning (ML) models depends on both algorithms and data. Training data defines what we want our models to learn, and testing data provides the means by which their empirical progress is measured. Benchmark datasets define the entire world within which models exist and operate, yet research continues to focus on critiquing and improving the algorithmic aspect of the models rather than critiquing and improving the data with which our models operate. If "data is the new oil," we are still missing work on the refineries by which the data itself could be optimized for more effective use.
翻訳日:2021-11-26 08:03:46 公開日:2021-11-19
# (参考訳) 学習ベースの3d登録が現実世界で動くのをやめる理由 [全文訳有]

What Stops Learning-based 3D Registration from Working in the Real World? ( http://arxiv.org/abs/2111.10399v1 )

ライセンス: CC BY 4.0
Zheng Dang, Lizhou Wang, Junning Qiu, Minglei Lu, Mathieu Salzmann(参考訳) 学習ベースの3dポイントクラウド登録のタスクには多くの進歩があり、既存の手法はmodelnet40のような標準ベンチマークにおいて、部分的から部分的なマッチングシナリオにおいても優れた結果をもたらしている。 残念ながら、これらの方法はまだ実際のデータの存在に苦戦している。 本研究では,これらの失敗の原因を特定し,その背後にある理由を分析し,対処するための解決策を提案する。 本研究の成果を一連のガイドラインに要約し, DCP と IDAM の異なる基準法に適用することにより, それらの効果を実証する。 要するに、我々のガイドラインはトレーニングの収束とテストの精度の両方を改善している。 最終的に、これは最高の実践的な3d登録ネットワーク(bpnet)に変換され、実世界データで未認識のオブジェクトを処理できる最初の学習ベースの方法を構成する。 合成データのみをトレーニングしたものの,微調整を行わずに実データに一般化し,商用センサで取得した未検出物体の点雲上で最大67%の精度に達する。

Much progress has been made on the task of learning-based 3D point cloud registration, with existing methods yielding outstanding results on standard benchmarks, such as ModelNet40, even in the partial-to-partial matching scenario. Unfortunately, these methods still struggle in the presence of real data. In this work, we identify the sources of these failures, analyze the reasons behind them, and propose solutions to tackle them. We summarise our findings into a set of guidelines and demonstrate their effectiveness by applying them to different baseline methods, DCP and IDAM. In short, our guidelines improve both their training convergence and testing accuracy. Ultimately, this translates to a best-practice 3D registration network (BPNet), constituting the first learning-based method able to handle previously-unseen objects in real-world data. Despite being trained only on synthetic data, our model generalizes to real data without any fine-tuning, reaching an accuracy of up to 67% on point clouds of unseen objects obtained with a commercial sensor.
翻訳日:2021-11-26 07:58:29 公開日:2021-11-19
# (参考訳) 機械換気制御のための機械学習(拡張抽象) [全文訳有]

Machine Learning for Mechanical Ventilation Control (Extended Abstract) ( http://arxiv.org/abs/2111.10434v1 )

ライセンス: CC BY 4.0
Daniel Suo, Cyril Zhang, Paula Gradu, Udaya Ghai, Xinyi Chen, Edgar Minasyan, Naman Agarwal, Karan Singh, Julienne LaChance, Tom Zajdel, Manuel Schottdorf, Daniel Cohen, Elad Hazan(参考訳) 機械的換気はICUで最も広く用いられている治療法の1つである。 しかし、麻酔から新型コロナウイルス関連の生命維持への幅広い応用にもかかわらず、多くの有害な課題が残っている。 人工呼吸器は、所定の気道圧の軌跡に従って、患者の肺内および肺外への空気を通さなければならない。 PID法に基づく業界標準コントローラは最適でも堅牢でもない。 データ駆動型アプローチは、人工呼吸器から収集したデータに基づいて訓練されたシミュレーターをトレーニングすることで、侵襲的人工呼吸器を制御することを学ぶ。 この方法は、一般的な強化学習アルゴリズムより優れており、PIDよりも正確で堅牢な物理的換気装置も制御できる。 これらの結果は、データ駆動の方法論が侵襲的換気にいかに有効かを強調し、より一般的な換気形態(例えば、非侵襲的、適応的)も実現可能であることを示唆している。

Mechanical ventilation is one of the most widely used therapies in the ICU. However, despite broad application from anaesthesia to COVID-related life support, many injurious challenges remain. We frame these as a control problem: ventilators must let air in and out of the patient's lungs according to a prescribed trajectory of airway pressure. Industry-standard controllers, based on the PID method, are neither optimal nor robust. Our data-driven approach learns to control an invasive ventilator by training on a simulator itself trained on data collected from the ventilator. This method outperforms popular reinforcement learning algorithms and even controls the physical ventilator more accurately and robustly than PID. These results underscore how effective data-driven methodologies can be for invasive ventilation and suggest that more general forms of ventilation (e.g., non-invasive, adaptive) may also be amenable.
翻訳日:2021-11-26 07:44:50 公開日:2021-11-19
# (参考訳) 肺線維症評価のための気道形状自動定量法の検討 [全文訳有]

Evaluation of automated airway morphological quantification for assessing fibrosing lung disease ( http://arxiv.org/abs/2111.10443v1 )

ライセンス: CC BY 4.0
Ashkan Pakzad, Wing Keung Cheung, Kin Quan, Nesrin Mogulkoc, Coline H.M. Van Moorsel, Brian J. Bartholmai, Hendrik W. Van Es, Alper Ezircan, Frouke Van Beek, Marcel Veltkamp, Ronald Karwoski, Tobias Peikert, Ryan D. Clay, Finbar Foley, Cassandra Braun, Recep Savas, Carole Sudre, Tom Doel, Daniel C. Alexander, Peter Wijeratne, David Hawkes, Yipeng Hu, John R Hurst, Joseph Jacob(参考訳) 気道拡張異常は気道拡張と呼ばれ、特発性肺線維症(ipf)の典型的な特徴である。 volumetric ct (ct)イメージングは、ipfの正常な気道テーパリングの損失をキャプチャする。 気道異常の自動定量化はipf疾患の程度と重症度を推定できると仮定した。 胸部CTから気道構造を導出する深層学習に基づく気道セグメンテーションから気道木をその葉と世代枝に体系的に解析する自動計算パイプラインであるAirQuantを提案する。 重要なことは、AirQuantは、厚い波動伝播による突発性気道分岐の発生を防ぎ、既存の気道骨格化アルゴリズムの限界を克服するグラフ探索によって気道木のループを除去する。 気道セグメント間をテーパリングし,気道tortuosityを算出し,健常者14名とipf患者14名とを比較した。 気道インターテーパはIPF患者では有意に減少し,健常者では気道トーチシティが有意に増加した。 また,IPF関連損傷の典型的分布に応じて,下葉に有意差が認められた。 AirQuantは、既存の気道定量化アルゴリズムの制限を回避し、臨床解釈性を持つオープンソースのパイプラインである。 自動気道測定は、IPFの重症度と病気の程度をイメージングする新しいバイオマーカーとして潜在する可能性がある。

Abnormal airway dilatation, termed traction bronchiectasis, is a typical feature of idiopathic pulmonary fibrosis (IPF). Volumetric computed tomography (CT) imaging captures the loss of normal airway tapering in IPF. We postulated that automated quantification of airway abnormalities could provide estimates of IPF disease extent and severity. We propose AirQuant, an automated computational pipeline that systematically parcellates the airway tree into its lobes and generational branches from a deep learning based airway segmentation, deriving airway structural measures from chest CT. Importantly, AirQuant prevents the occurrence of spurious airway branches by thick wave propagation and removes loops in the airway-tree by graph search, overcoming limitations of existing airway skeletonisation algorithms. Tapering between airway segments (intertapering) and airway tortuosity computed by AirQuant were compared between 14 healthy participants and 14 IPF patients. Airway intertapering was significantly reduced in IPF patients, and airway tortuosity was significantly increased when compared to healthy controls. Differences were most marked in the lower lobes, conforming to the typical distribution of IPF-related damage. AirQuant is an open-source pipeline that avoids limitations of existing airway quantification algorithms and has clinical interpretability. Automated airway measurements may have potential as novel imaging biomarkers of IPF severity and disease extent.
翻訳日:2021-11-26 07:38:58 公開日:2021-11-19
# (参考訳) グラフトランスフォーマネットワークによる動的グラフ表現学習 [全文訳有]

Dynamic Graph Representation Learning via Graph Transformer Networks ( http://arxiv.org/abs/2111.10447v1 )

ライセンス: CC BY 4.0
Weilin Cong, Yanhong Wu, Yuandong Tian, Mengting Gu, Yinglong Xia, Mehrdad Mahdavi, Chun-cheng Jason Chen(参考訳) 動的グラフ表現学習は幅広い応用において重要な課題である。 動的グラフ学習における従来の手法は、通常、欠落や急激な接続のようなノイズの多いグラフ情報に敏感であり、劣化した性能と一般化をもたらす。 この課題を克服するために,空間時空間符号化を用いた動的グラフ学習法であるdynamic graph transformer (dgt)を提案し,グラフトポロジーを効果的に学習し,暗黙リンクをキャプチャする。 一般化能力を向上させるために,2つの補完的自己指導型事前学習タスクを導入し,2つの事前学習タスクを共同最適化することで,情報理論解析によりベイズ誤差率を小さくすることを示す。 また,効率的かつスケーラブルな学習のための時間結合グラフ構造とターゲットコンテキストノードサンプリング戦略を提案する。 実世界のデータセットに関する広範な実験は、dgtがいくつかの最先端のベースラインよりも優れたパフォーマンスを示している。

Dynamic graph representation learning is an important task with widespread applications. Previous methods on dynamic graph learning are usually sensitive to noisy graph information such as missing or spurious connections, which can yield degenerated performance and generalization. To overcome this challenge, we propose a Transformer-based dynamic graph learning method named Dynamic Graph Transformer (DGT) with spatial-temporal encoding to effectively learn graph topology and capture implicit links. To improve the generalization ability, we introduce two complementary self-supervised pre-training tasks and show that jointly optimizing the two pre-training tasks results in a smaller Bayesian error rate via an information-theoreti c analysis. We also propose a temporal-union graph structure and a target-context node sampling strategy for efficient and scalable training. Extensive experiments on real-world datasets illustrate that DGT presents superior performance compared with several state-of-the-art baselines.
翻訳日:2021-11-26 07:13:39 公開日:2021-11-19
# (参考訳) スマートシティとコネクテッドシティにおけるWi-Fiユーザ数からの非負行列因子化による人口動態の同定 [全文訳有]

Identifying Population Movements with Non-Negative Matrix Factorization from Wi-Fi User Counts in Smart and Connected Cities ( http://arxiv.org/abs/2111.10459v1 )

ライセンス: CC BY 4.0
Michael Huffman, Armen Davis, Joshua Park, James Curry(参考訳) 非負行列分解(Non-Negative Matrix Factorization、NMF)は、データセットの「部分ベース」分解を生成する貴重な行列分解手法である。 Wi-Fi利用者数は、スマートで接続された都市環境における人口移動のプライバシー保護指標である。 本稿では,コロラド大学ボルダー校のWi-Fiユーザ数データに新たなマトリックスを組み込んだNMFを適用し,スマート・コネクテッドインフラストラクチャ環境における人間の動きのパターンを自動的に識別する。

Non-Negative Matrix Factorization (NMF) is a valuable matrix factorization technique which produces a "parts-based" decomposition of data sets. Wi-Fi user counts are a privacy-preserving indicator of population movements in smart and connected urban environments. In this paper, we apply NMF with a novel matrix embedding to Wi-Fi user count data from the University of Colorado at Boulder Campus for the purpose of automatically identifying patterns of human movement in a Smart and Connected infrastructure environment.
翻訳日:2021-11-26 06:41:24 公開日:2021-11-19
# (参考訳) Mini-batch Stochastic Gradient Descent を用いたガウス過程推定:収束保証と経験的便益

Gaussian Process Inference Using Mini-batch Stochastic Gradient Descent: Convergence Guarantees and Empirical Benefits ( http://arxiv.org/abs/2111.10461v1 )

ライセンス: CC BY 4.0
Hao Chen, Lili Zheng, Raed Al Kontar, Garvesh Raskutti(参考訳) 確率勾配勾配(SGD)とその変種は、その一般化性能と本質的な計算優位性から、独立サンプルを用いた大規模機械学習問題に対するゴートアルゴリズムとして確立されている。 しかし、確率勾配が相関サンプルによる全勾配の偏り推定であるという事実は、SGDの相関条件下での挙動に関する理論的理解の欠如を招き、そのような場合の使用を妨げている。 本稿では,ガウス過程(gp)のハイパーパラメータ推定に着目し,ミニバッチsgdが全ログ類似損失関数の臨界点に収束することを証明することにより,障壁を破る方向に一歩前進させ,モデルハイパーパラメータを小バッチサイズに依存する統計誤差項まで,レート$o(\frac{1}{k})$で回収する。 我々の理論的な保証は、gpsで一般的に使われる幅広いカーネルによって満たされる指数関数あるいは多項式固有値を示すことを前提としている。 シミュレーションと実データの両方に関する数値的研究により、最小バッチSGDは、最先端のGP手法よりもより一般化され、計算負担を低減し、GPのための新しい、未探索のデータサイズレギュレーションを開放することを示した。

Stochastic gradient descent (SGD) and its variants have established themselves as the go-to algorithms for large-scale machine learning problems with independent samples due to their generalization performance and intrinsic computational advantage. However, the fact that the stochastic gradient is a biased estimator of the full gradient with correlated samples has led to the lack of theoretical understanding of how SGD behaves under correlated settings and hindered its use in such cases. In this paper, we focus on hyperparameter estimation for the Gaussian process (GP) and take a step forward towards breaking the barrier by proving minibatch SGD converges to a critical point of the full log-likelihood loss function, and recovers model hyperparameters with rate $O(\frac{1}{K})$ for $K$ iterations, up to a statistical error term depending on the minibatch size. Our theoretical guarantees hold provided that the kernel functions exhibit exponential or polynomial eigendecay which is satisfied by a wide range of kernels commonly used in GPs. Numerical studies on both simulated and real datasets demonstrate that minibatch SGD has better generalization over state-of-the-art GP methods while reducing the computational burden and opening a new, previously unexplored, data size regime for GPs.
翻訳日:2021-11-26 06:29:26 公開日:2021-11-19
# (参考訳) アレル周波数でフィルタされたSNPは高血圧サブタイプの予測を改善する [全文訳有]

SNPs Filtered by Allele Frequency Improve the Prediction of Hypertension Subtypes ( http://arxiv.org/abs/2111.10471v1 )

ライセンス: CC BY 4.0
Yiming Li, Sanjiv J. Shah, Donna Arnett, Ryan Irvin and Yuan Luo(参考訳) 高血圧は心血管疾患と早死の主要な原因である。 異なる高血圧のサブタイプは、予後が異なり、異なる治療を必要とする。 高血圧に対する個人のリスクは、遺伝的および環境的要因と相互作用によって決定される。 本研究では,高血圧性遺伝疫学ネットワーク(hypergen)コホートにおいて,アフリカ系アメリカ人911名とヨーロッパ人1,171名を調査した。 異なる基準に基づいて選択された遺伝的特徴群と環境変数を用いた高血圧サブタイプ分類モデルを構築した。 適合した予測モデルは、将来高血圧のパーソナライズされた診断と治療に役立つ高血圧のサブタイプの遺伝的ランドスケープに関する洞察を提供した。

Hypertension is the leading global cause of cardiovascular disease and premature death. Distinct hypertension subtypes may vary in their prognoses and require different treatments. An individual's risk for hypertension is determined by genetic and environmental factors as well as their interactions. In this work, we studied 911 African Americans and 1,171 European Americans in the Hypertension Genetic Epidemiology Network (HyperGEN) cohort. We built hypertension subtype classification models using both environmental variables and sets of genetic features selected based on different criteria. The fitted prediction models provided insights into the genetic landscape of hypertension subtypes, which may aid personalized diagnosis and treatment of hypertension in the future.
翻訳日:2021-11-26 06:27:58 公開日:2021-11-19
# (参考訳) 視覚変換器を用いた対向パッチに対するゼロショット認証防御 [全文訳有]

Zero-Shot Certified Defense against Adversarial Patches with Vision Transformers ( http://arxiv.org/abs/2111.10481v1 )

ライセンス: CC BY 4.0
Yuheng Huang, Yuanchun Li(参考訳) 逆パッチ攻撃は、入力画像の制限領域内の画素を任意に修正することで、機械学習モデルを騙すことを目的としている。 このような攻撃は物理的な世界で展開されるモデルにとって大きな脅威であり、カメラビューにカスタマイズされたオブジェクトを表示することで容易に実現できる。 このような攻撃に対する防御はパッチの任意性のために困難であり、既存の証明可能な防御は認証の精度が低い。 本稿では、視覚変換器(ViT)モデルに基づく敵パッチに対するゼロショット認証防御であるPatchVetoを提案する。 PatchVetoは、必然的に精度を犠牲にする可能性のある敵のパッチに抵抗する堅牢なモデルをトレーニングする代わりに、事前訓練されたViTモデルを追加のトレーニングなしで再利用する。 具体的には、各入力は、異なる注意マスクを持つ複数の推論に対して投票することでテストされる。 この予測は、すべてのマスクされた推論が合意に達すると証明可能で、敵のパッチが偽陰性で検出されることを保証する。 広範な実験により、patchvetoは高い認証精度を達成できることが示されている(例えば、imagenetでは2%の対向パッチに対して67.1%)。 クリーンな精度は、モデルパラメータが直接再利用されるため、vanilla vitモデル(imagenetでは81.8%)と同じである。 一方,本手法はマスキング戦略を変更すれば,異なる対向パッチサイズを柔軟に処理できる。

Adversarial patch attack aims to fool a machine learning model by arbitrarily modifying pixels within a restricted region of an input image. Such attacks are a major threat to models deployed in the physical world, as they can be easily realized by presenting a customized object in the camera view. Defending against such attacks is challenging due to the arbitrariness of patches, and existing provable defenses suffer from poor certified accuracy. In this paper, we propose PatchVeto, a zero-shot certified defense against adversarial patches based on Vision Transformer (ViT) models. Rather than training a robust model to resist adversarial patches which may inevitably sacrifice accuracy, PatchVeto reuses a pretrained ViT model without any additional training, which can achieve high accuracy on clean inputs while detecting adversarial patched inputs by simply manipulating the attention map of ViT. Specifically, each input is tested by voting over multiple inferences with different attention masks, where at least one inference is guaranteed to exclude the adversarial patch. The prediction is certifiably robust if all masked inferences reach consensus, which ensures that any adversarial patch would be detected with no false negative. Extensive experiments have shown that PatchVeto is able to achieve high certified accuracy (e.g. 67.1% on ImageNet for 2%-pixel adversarial patches), significantly outperforming state-of-the-art methods. The clean accuracy is the same as vanilla ViT models (81.8% on ImageNet) since the model parameters are directly reused. Meanwhile, our method can flexibly handle different adversarial patch sizes by simply changing the masking strategy.
翻訳日:2021-11-26 06:14:59 公開日:2021-11-19
# 回帰器分布制御を用いたWasserstein-based Fairness Metricsのモデル非依存バイアス緩和法

Model-agnostic bias mitigation methods with regressor distribution control for Wasserstein-based fairness metrics ( http://arxiv.org/abs/2111.11259v1 )

ライセンス: Link先を確認
Alexey Miroshnikov, Konstandinos Kotsiopoulos, Ryan Franks, Arjun Ravi Kannan(参考訳) この記事では、偏見説明を導入するフェアネス解釈可能性に関する初期の論文であるMiroshnikov et al. (2021)の共著である。 本稿では,Wassersteinをベースとしたフェアネス測定値に対して,より公平な回帰分布を持つ後処理モデルの構築に基づくバイアス緩和手法を提案する。 バイアスに最も寄与する予測者のリストを同定することにより、これらの予測者に由来するバイアスを軽減し、問題の次元性を低減する。 後処理手法では、正と負のバイアス説明のバランスをとることによって予測分布を再構成し、回帰のバイアスを減少させる。 最適なモデルが選択される後処理モデル群に対するバイアス効率の優れたフロンティアを構築するためにベイズ最適化を用いたアルゴリズムを設計する。 提案手法は,低次元空間において最適化を行い,高価なモデル再訓練を回避する。

This article is a companion paper to our earlier work Miroshnikov et al. (2021) on fairness interpretability, which introduces bias explanations. In the current work, we propose a bias mitigation methodology based upon the construction of post-processed models with fairer regressor distributions for Wasserstein-based fairness metrics. By identifying the list of predictors contributing the most to the bias, we reduce the dimensionality of the problem by mitigating the bias originating from those predictors. The post-processing methodology involves reshaping the predictor distributions by balancing the positive and negative bias explanations and allows for the regressor bias to decrease. We design an algorithm that uses Bayesian optimization to construct the bias-performance efficient frontier over the family of post-processed models, from which an optimal model is selected. Our novel methodology performs optimization in low-dimensional spaces and avoids expensive model retraining.
翻訳日:2021-11-23 17:18:11 公開日:2021-11-19
# 勾配重要度に基づくフェデレート学習におけるクライアント選択

Client Selection in Federated Learning based on Gradients Importance ( http://arxiv.org/abs/2111.11204v1 )

ライセンス: Link先を確認
Ouiame Marnissi, Hajar El Hammouti, El Houcine Bergou(参考訳) フェデレートラーニング(FL)は、複数のデバイスが個人データを共有せずにグローバルモデルを協調的に学習することを可能にする。 現実世界のアプリケーションでは、異なるパーティは異種データ分散と限られた通信帯域を持つ可能性が高い。 本稿では,FLシステムの通信効率の向上に関心がある。 グラデーションノルムの重要度に基づくデバイス選択戦略の検討と設計を行う。 特に,本手法は,各通信ラウンドにおける勾配値の基準が最も高いデバイスを選択することで構成される。 このような選択手法の収束と性能について検討し,既存の手法と比較する。 非iid設定でいくつかの実験を行う。 その結果,提案手法の収束度は,ランダム選択と比較してテスト精度がかなり高いことがわかった。

Federated learning (FL) enables multiple devices to collaboratively learn a global model without sharing their personal data. In real-world applications, the different parties are likely to have heterogeneous data distribution and limited communication bandwidth. In this paper, we are interested in improving the communication efficiency of FL systems. We investigate and design a device selection strategy based on the importance of the gradient norms. In particular, our approach consists of selecting devices with the highest norms of gradient values at each communication round. We study the convergence and the performance of such a selection technique and compare it to existing ones. We perform several experiments with non-iid set-up. The results show the convergence of our method with a considerable increase of test accuracy comparing to the random selection.
翻訳日:2021-11-23 16:54:23 公開日:2021-11-19
# 血管流れの時間的超解像シミュレーションのための抵抗時間共変調ポイントネット

Resistance-Time Co-Modulated PointNet for Temporal Super-Resolution Simulation of Blood Vessel Flows ( http://arxiv.org/abs/2111.10372v1 )

ライセンス: Link先を確認
Zhizheng Jiang, Fei Gao, Renshu Gu, Jinlan Xu, Gang Xu, Timon Rabczuk(参考訳) 本稿では,低時間分解能流シミュレーション結果から高時間分解能時間変化型血管血流シミュレーションを発生させる,時相超解像シミュレーションのための新しいディープラーニングフレームワークを提案する。 本フレームワークでは, 複雑な血管モデルを表現するためにポイントクラウドを用い, 時間変動流れ場の時間空間特性を抽出するための抵抗時間支援ポイントネットモデルを提案し, 最終的にデコーダモジュールを通して高精度で高分解能な流れ場を再構築する。 特に,速度のベクトル特性から,速度の振幅損失と方向損失を提案する。 これら2つのメトリクスの組み合わせは、ネットワークトレーニングの最終損失関数を構成する。 血管流れの時間的超解像シミュレーションのための枠組みの有効性と効率を示すいくつかの例が提示されている。

In this paper, a novel deep learning framework is proposed for temporal super-resolution simulation of blood vessel flows, in which a high-temporal-resolu tion time-varying blood vessel flow simulation is generated from a low-temporal-resolut ion flow simulation result. In our framework, point-cloud is used to represent the complex blood vessel model, resistance-time aided PointNet model is proposed for extracting the time-space features of the time-varying flow field, and finally we can reconstruct the high-accuracy and high-resolution flow field through the Decoder module. In particular, the amplitude loss and the orientation loss of the velocity are proposed from the vector characteristics of the velocity. And the combination of these two metrics constitutes the final loss function for network training. Several examples are given to illustrate the effective and efficiency of the proposed framework for temporal super-resolution simulation of blood vessel flows.
翻訳日:2021-11-23 16:51:32 公開日:2021-11-19
# DIVeR:ボリュームレンダリングのための決定論的統合によるリアルタイムかつ高精度なニューラルラジアンスフィールド

DIVeR: Real-time and Accurate Neural Radiance Fields with Deterministic Integration for Volume Rendering ( http://arxiv.org/abs/2111.10427v1 )

ライセンス: Link先を確認
Liwen Wu, Jae Yong Lee, Anand Bhattad, Yuxiong Wang, David Forsyth(参考訳) diverは、nerfとその変種である密度モデルとボリュームレンダリングの重要なアイデアに基づいて構築され、少数の画像からリアルにレンダリングできる3dオブジェクトモデルを学ぶ。 従来のすべてのNeRF法とは対照的に、DIVeRはボリュームレンダリング積分の確率的推定よりも決定論的を用いる。 DIVeRの表現は、特徴のボクセルベースのフィールドである。 ボリュームレンダリング積分を計算するために、光線をボクセル毎に間隔に分割し、mlpを用いて各区間の特徴からボリュームレンダリング積分の成分を推定し、部品を集約する。 その結果、ダイバーは、他のインテグレータが見逃している薄い半透明な構造をレンダリングできる。 さらに、ダイバーの表現には、他の方法と比較して相対的に露出するセマンティクスがある -- ボクセル空間で特徴ベクトルを動かすと、自然に編集される。 現在の最先端手法との広範囲な質的、定量的比較により、ダイバーは(1)最先端品質以上、(2)焼成せずに非常に小さく、(3)焼成せずに非常に高速に、(4)自然に編集できるモデルを生成することが示された。

DIVeR builds on the key ideas of NeRF and its variants -- density models and volume rendering -- to learn 3D object models that can be rendered realistically from small numbers of images. In contrast to all previous NeRF methods, DIVeR uses deterministic rather than stochastic estimates of the volume rendering integral. DIVeR's representation is a voxel based field of features. To compute the volume rendering integral, a ray is broken into intervals, one per voxel; components of the volume rendering integral are estimated from the features for each interval using an MLP, and the components are aggregated. As a result, DIVeR can render thin translucent structures that are missed by other integrators. Furthermore, DIVeR's representation has semantics that is relatively exposed compared to other such methods -- moving feature vectors around in the voxel space results in natural edits. Extensive qualitative and quantitative comparisons to current state-of-the-art methods show that DIVeR produces models that (1) render at or above state-of-the-art quality, (2) are very small without being baked, (3) render very fast without being baked, and (4) can be edited in natural ways.
翻訳日:2021-11-23 15:22:07 公開日:2021-11-19
# TransMorph: 教師なし医療画像登録用トランスフォーマー

TransMorph: Transformer for unsupervised medical image registration ( http://arxiv.org/abs/2111.10480v1 )

ライセンス: Link先を確認
Junyu Chen, Yong Du, Yufan He, William P. Segars, Ye Li, Eirc C. Frey(参考訳) 過去10年間で、畳み込みニューラルネットワーク(ConvNets)が医療画像分析の分野を支配してきた。 しかし,画像中のボクセル間の長距離空間関係をモデル化できないため,コンブネットの性能は制限される可能性がある。 ConvNetsの欠点に対処するために、多くのビジョントランスフォーマーが最近提案され、多くの医療画像アプリケーションで最先端のパフォーマンスを実証している。 トランスフォーマーは、移動画像と固定画像の空間対応をより正確に理解できるため、画像登録の強力な候補となるかもしれない。 本稿では,ボリューム医療画像登録のためのTransformer-ConvNetハイブリッドモデルTransMorphを提案する。 また、位相保存変形を保証する2つの微分同相変種と、よく校正された登録不確実性推定を生成するベイズ変種という3つの変種も導入する。 提案モデルは, 患者間MRIとファントムCTの2つの応用から, ボリューム医療画像を用いて, 既存の登録方法やトランスフォーマーアーキテクチャに対して広範囲に検証されている。 質的および定量的な結果は、TransMorphとその変種がベースライン法よりも大幅に改善し、医療画像登録におけるTransformerの有効性を示す。

In the last decade, convolutional neural networks (ConvNets) have dominated the field of medical image analysis. However, it is found that the performances of ConvNets may still be limited by their inability to model long-range spatial relations between voxels in an image. Numerous vision Transformers have been proposed recently to address the shortcomings of ConvNets, demonstrating state-of-the-art performances in many medical imaging applications. Transformers may be a strong candidate for image registration because their self-attention mechanism enables a more precise comprehension of the spatial correspondence between moving and fixed images. In this paper, we present TransMorph, a hybrid Transformer-ConvNet model for volumetric medical image registration. We also introduce three variants of TransMorph, with two diffeomorphic variants ensuring the topology-preserving deformations and a Bayesian variant producing a well-calibrated registration uncertainty estimate. The proposed models are extensively validated against a variety of existing registration methods and Transformer architectures using volumetric medical images from two applications: inter-patient brain MRI registration and phantom-to-CT registration. Qualitative and quantitative results demonstrate that TransMorph and its variants lead to a substantial performance improvement over the baseline methods, demonstrating the effectiveness of Transformers for medical image registration.
翻訳日:2021-11-23 15:02:51 公開日:2021-11-19
# スケルトン画像の領域不変特徴を用いた行動認識

Action Recognition with Domain Invariant Features of Skeleton Image ( http://arxiv.org/abs/2111.11250v1 )

ライセンス: Link先を確認
Han Chen and Yifan Jiang and Hanseok Ko(参考訳) 高速な処理速度と堅牢性のため、骨格に基づく行動認識はコンピュータビジョンコミュニティの注目を集めている。 最近の畳み込みニューラルネットワーク(CNN)に基づく手法は,骨格画像をCNNへの入力として使用する骨格配列の時空間表現を学習する際の可換性を示している。 側頭骨と骨格の関節をそれぞれ行と列としてコードするCNN法では,2次元畳み込みにより,すべての関節に関する潜時的相関が失われる可能性がある。 そこで本研究では,行動認識のための対人訓練を用いた新しいCNN手法を提案する。 異なる視野角や対象からそれぞれ骨格画像の特徴を整列する2段階のドメイン対角学習を導入し、一般化をさらに改善する。 提案手法をNTU RGB+Dで評価した。 最先端の手法と比較して競争力のある結果が得られ、クロスサブジェクトとクロスビューのベースラインよりも2.4$\%$, 1.9$\%$精度が向上する。

Due to the fast processing-speed and robustness it can achieve, skeleton-based action recognition has recently received the attention of the computer vision community. The recent Convolutional Neural Network (CNN)-based methods have shown commendable performance in learning spatio-temporal representations for skeleton sequence, which use skeleton image as input to a CNN. Since the CNN-based methods mainly encoding the temporal and skeleton joints simply as rows and columns, respectively, the latent correlation related to all joints may be lost caused by the 2D convolution. To solve this problem, we propose a novel CNN-based method with adversarial training for action recognition. We introduce a two-level domain adversarial learning to align the features of skeleton images from different view angles or subjects, respectively, thus further improve the generalization. We evaluated our proposed method on NTU RGB+D. It achieves competitive results compared with state-of-the-art methods and 2.4$\%$, 1.9$\%$ accuracy gain than the baseline for cross-subject and cross-view.
翻訳日:2021-11-23 15:01:50 公開日:2021-11-19
# 真空蒸留装置用機械学習型ソフトセンサ

Machine Learning-Based Soft Sensors for Vacuum Distillation Unit ( http://arxiv.org/abs/2111.11251v1 )

ライセンス: Link先を確認
Kamil Oster, Stefan G\"uttel, Lu Chen, Jonathan L. Shapiro, Megan Jobson(参考訳) 石油加工業界における製品品質評価は、植物からの液体サンプルの手作業による収集や、その後の化学実験による分析など、困難かつ時間を要する可能性がある。 製品の品質は、プロセスの製品が仕様の範囲内かどうかを知らせる重要な特性である。 特に、サンプル処理(収集、実験室計測、結果分析、報告)による遅延は、有害な経済効果をもたらす可能性がある。 この問題に対処する戦略の1つはソフトセンサーである。 ソフトセンサー(Soft Sensor)は、物理センサーによって提供される温度、圧力、流量などのより頻繁な測定に基づいて、頻繁に測定される性質(石油製品の実験室測定など)を予測・予測するために使用されるモデルの集合である。 ソフトセンサーは、製品の品質に関する関連情報を得るための経路をショートカットし、しばしば毎分同じ頻度で測定する。 ソフトセンサーの応用の1つは、操作パラメータのターゲット適応による化学プロセスのリアルタイム最適化である。 ソフトセンサーに使用されるモデルには様々な形態があるが、最も一般的なものは人工ニューラルネットワーク(anns)に基づくモデルである。 ソフトセンサーは精製プロセスのいくつかの問題に対処できるが、その開発と展開は、この論文で解決される他の課題を生じさせる可能性がある。 まず,データ前処理段階におけるデータセット(実験計測と物理センサ)の質を高めることが重要である(方法論セクションで説明されている)。 次に、データセットが事前処理されると、予測エラーとモデルの解釈可能性に対して異なるモデルをテストする必要がある。 本稿では,生データから利用可能モデルまで,ソフトセンサ開発のためのフレームワークを提案する。

Product quality assessment in the petroleum processing industry can be difficult and time-consuming, e.g. due to a manual collection of liquid samples from the plant and subsequent chemical laboratory analysis of the samples. The product quality is an important property that informs whether the products of the process are within the specifications. In particular, the delays caused by sample processing (collection, laboratory measurements, results analysis, reporting) can lead to detrimental economic effects. One of the strategies to deal with this problem is soft sensors. Soft sensors are a collection of models that can be used to predict and forecast some infrequently measured properties (such as laboratory measurements of petroleum products) based on more frequent measurements of quantities like temperature, pressure and flow rate provided by physical sensors. Soft sensors short-cut the pathway to obtain relevant information about the product quality, often providing measurements as frequently as every minute. One of the applications of soft sensors is for the real-time optimization of a chemical process by a targeted adaptation of operating parameters. Models used for soft sensors can have various forms, however, among the most common are those based on artificial neural networks (ANNs). While soft sensors can deal with some of the issues in the refinery processes, their development and deployment can pose other challenges that are addressed in this paper. Firstly, it is important to enhance the quality of both sets of data (laboratory measurements and physical sensors) in a data pre-processing stage (as described in Methodology section). Secondly, once the data sets are pre-processed, different models need to be tested against prediction error and the model's interpretability. In this work, we present a framework for soft sensor development from raw data to ready-to-use models.
翻訳日:2021-11-23 14:59:13 公開日:2021-11-19
# ColDE:大腸内視鏡再建のための深さ推定フレームワーク

ColDE: A Depth Estimation Framework for Colonoscopy Reconstruction ( http://arxiv.org/abs/2111.10371v1 )

ライセンス: Link先を確認
Yubo Zhang, Jan-Michael Frahm, Samuel Ehrenstein, Sarah K. McGill, Julian G. Rosenman, Shuxian Wang, Stephen M. Pizer(参考訳) 単眼映像から3dメッシュを再構成するための重要な要素の1つは、各フレームの深度マップを生成することである。 しかし,大腸内視鏡画像再構成の応用においては,高品質な深度推定が困難である。 ニューラルネットワークは、光度差によって簡単に騙されるか、または結腸表面の複雑な形状を捉えず、メッシュが壊れる原因となる欠陥を予測できる。 本研究は,大腸内視鏡3次元再構築の深さ推定精度を根本的に向上することを目的として,大腸内視鏡データの特殊課題に対処するための訓練損失のセットを考案した。 より優れたトレーニングのために、深度と表面の正規情報の両方を用いて幾何整合性の目標セットを開発した。 また、古典的な測光損失は、照明ノイズを補償する特徴マッチングによって拡張された。 トレーニングの損失は十分に強力であるため,coldeという自己監督型フレームワークは,事前の奥行き知識を利用した先行研究と比較して,大腸内視鏡データの奥行きマップを作成できる。 リコンストラクションに使用されるネットワークは,高品質な大腸メッシュを後処理なしでリアルタイムに再構築することが可能であり,臨床応用は初めてである。

One of the key elements of reconstructing a 3D mesh from a monocular video is generating every frame's depth map. However, in the application of colonoscopy video reconstruction, producing good-quality depth estimation is challenging. Neural networks can be easily fooled by photometric distractions or fail to capture the complex shape of the colon surface, predicting defective shapes that result in broken meshes. Aiming to fundamentally improve the depth estimation quality for colonoscopy 3D reconstruction, in this work we have designed a set of training losses to deal with the special challenges of colonoscopy data. For better training, a set of geometric consistency objectives was developed, using both depth and surface normal information. Also, the classic photometric loss was extended with feature matching to compensate for illumination noise. With the training losses powerful enough, our self-supervised framework named ColDE is able to produce better depth maps of colonoscopy data as compared to the previous work utilizing prior depth knowledge. Used in reconstruction, our network is able to reconstruct good-quality colon meshes in real-time without any post-processing, making it the first to be clinically applicable.
翻訳日:2021-11-23 14:56:23 公開日:2021-11-19
# 2021年糖尿病足潰瘍グランドチャレンジ:評価と概要

Diabetic Foot Ulcer Grand Challenge 2021: Evaluation and Summary ( http://arxiv.org/abs/2111.10376v1 )

ライセンス: Link先を確認
Bill Cassidy, Connah Kendrick, Neil D. Reeves, Joseph M. Pappachan, Claire O'Shea, David G. Armstrong, Moi Hoon Yap(参考訳) 糖尿病性足潰瘍分類システムは、創傷治癒の治療と予測のための重要な臨床指標として、創傷感染(創傷内細菌)と虚血(制限血液供給)の存在を使用する。 糖尿病性足の創傷における感染・虚血の自動分類法の使用についての研究は, 利用可能なデータセットの多さや, 存在する少数のデータ不均衡が原因で限られている。 糖尿病性足潰瘍チャレンジ2021では、糖尿病性足潰瘍パッチ15,683、トレーニングに5,955、テストに5,734、半教師付きおよび弱教師付きディープラーニング技術の開発を促進するために3,994の未ラベルパッチを参加者に提供した。 本稿では,糖尿病性足潰瘍チャレンジ2021における方法の評価を行い,各ネットワークから得られた結果を要約する。 最高性能のネットワークは上位3モデルの結果のアンサンブルであり、マクロ平均F1スコアは0.6307である。

Diabetic foot ulcer classification systems use the presence of wound infection (bacteria present within the wound) and ischaemia (restricted blood supply) as vital clinical indicators for treatment and prediction of wound healing. Studies investigating the use of automated computerised methods of classifying infection and ischaemia within diabetic foot wounds are limited due to a paucity of publicly available datasets and severe data imbalance in those few that exist. The Diabetic Foot Ulcer Challenge 2021 provided participants with a more substantial dataset comprising a total of 15,683 diabetic foot ulcer patches, with 5,955 used for training, 5,734 used for testing and an additional 3,994 unlabelled patches to promote the development of semi-supervised and weakly-supervised deep learning techniques. This paper provides an evaluation of the methods used in the Diabetic Foot Ulcer Challenge 2021, and summarises the results obtained from each network. The best performing network was an ensemble of the results of the top 3 models, with a macro-average F1-score of 0.6307.
翻訳日:2021-11-23 14:56:06 公開日:2021-11-19
# ムラリ:電子健康記録データのための無監督ランダムフォレストベースの埋め込み

MURAL: An Unsupervised Random Forest-Based Embedding for Electronic Health Record Data ( http://arxiv.org/abs/2111.10452v1 )

ライセンス: Link先を確認
Michal Gerasimiuk, Dennis Shung, Alexander Tong, Adrian Stanley, Michael Schultz, Jeffrey Ngu, Loren Laine, Guy Wolf, Smita Krishnaswamy(参考訳) 臨床患者データを埋め込みまたは可視化する上での最大の課題は、連続的な検査値、分類学的診断コード、欠如または不完全なデータを含む可変型の多様性である。 特に、EHRデータでは、いくつかの変数はランダム(MNAR)ではなく、意図的に収集されていないため、情報源となっている。 例えば、検査は、疑わしい診断に基づいて、一部の患者に必要とされているが、他の患者には必要ではない。 ここでは、異なる変数タイプ(カテゴリー、連続、MNARなど)でデータを表現するための教師なしランダムフォレストであるMuraLフォレストを提示する。 muraL forestsは、ノード分割変数がランダムに選択される一連の決定木で構成され、他のすべての変数の端エントロピーが分割によって最小化される。 これにより、連続変数と一貫性のある方法で、MNAR変数と離散変数を分割することもできます。 目的は,患者間の平均木間距離を用いてMUL埋め込みを学習することである。 これらの距離はPHATEのような非線形次元減少法に供給され、可視化可能な埋め込みを導出する。 このような手法は、連続的に評価されたデータセット(シングルセルRNAシークエンシングなど)ではユビキタスであるが、混合変数データでは広く使われていない。 本手法を1つの人工的および2つの臨床データセットに適用した。 提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。 最後に,最近提案されているツリースライスワッサースタイン距離を用いて,患者のコホートを比較することも可能であることを示した。

A major challenge in embedding or visualizing clinical patient data is the heterogeneity of variable types including continuous lab values, categorical diagnostic codes, as well as missing or incomplete data. In particular, in EHR data, some variables are {\em missing not at random (MNAR)} but deliberately not collected and thus are a source of information. For example, lab tests may be deemed necessary for some patients on the basis of suspected diagnosis, but not for others. Here we present the MURAL forest -- an unsupervised random forest for representing data with disparate variable types (e.g., categorical, continuous, MNAR). MURAL forests consist of a set of decision trees where node-splitting variables are chosen at random, such that the marginal entropy of all other variables is minimized by the split. This allows us to also split on MNAR variables and discrete variables in a way that is consistent with the continuous variables. The end goal is to learn the MURAL embedding of patients using average tree distances between those patients. These distances can be fed to nonlinear dimensionality reduction method like PHATE to derive visualizable embeddings. While such methods are ubiquitous in continuous-valued datasets (like single cell RNA-sequencing) they have not been used extensively in mixed variable data. We showcase the use of our method on one artificial and two clinical datasets. We show that using our approach, we can visualize and classify data more accurately than competing approaches. Finally, we show that MURAL can also be used to compare cohorts of patients via the recently proposed tree-sliced Wasserstein distances.
翻訳日:2021-11-23 14:11:18 公開日:2021-11-19
# マルコフ決定過程の帰納的パリティに向けて

Towards Return Parity in Markov Decision Processes ( http://arxiv.org/abs/2111.10476v1 )

ライセンス: Link先を確認
Jianfeng Chi, Jian Shen, Xinyi Dai, Weinan Zhang, Yuan Tian, Han Zhao(参考訳) 高度な領域における機械学習モデルによるアルゴリズムによる決定は、時間とともに持続的な影響を与える可能性がある。 残念なことに、時間領域の静的設定における標準フェアネス基準のナイーブな応用は、遅延や悪影響をもたらす可能性がある。 性能格差のダイナミクスを理解するために,マルコフ決定過程(MDP)における公平性問題について検討する。 具体的には,同じ状態と行動空間を共有する異なる集団集団のmdpが,ほぼ同じ時間分布の報酬を得られるように要求するフェアネス概念であるreturn parityを提案する。 まず,2つのmdpの帰納格差をグループ毎の報酬関数間の距離,グループポリシーの不一致,およびグループポリシーによって引き起こされる状態訪問分布間の不一致に分解する帰納格差の分解定理を提案する。 本研究では, 積分確率メトリクスを用いた状態訪問分布アライメントを用いた共有群ポリシーを学習することにより, 回帰不均衡を緩和するアルゴリズムを提案する。 提案手法は,2つの実世界のレコメンダシステムベンチマークデータセットにおけるポリシのパフォーマンスを維持しつつ,不一致のギャップを解消することに成功した。

Algorithmic decisions made by machine learning models in high-stakes domains may have lasting impacts over time. Unfortunately, naive applications of standard fairness criterion in static settings over temporal domains may lead to delayed and adverse effects. To understand the dynamics of performance disparity, we study a fairness problem in Markov decision processes (MDPs). Specifically, we propose return parity, a fairness notion that requires MDPs from different demographic groups that share the same state and action spaces to achieve approximately the same expected time-discounted rewards. We first provide a decomposition theorem for return disparity, which decomposes the return disparity of any two MDPs into the distance between group-wise reward functions, the discrepancy of group policies, and the discrepancy between state visitation distributions induced by the group policies. Motivated by our decomposition theorem, we propose algorithms to mitigate return disparity via learning a shared group policy with state visitation distributional alignment using integral probability metrics. We conduct experiments to corroborate our results, showing that the proposed algorithm can successfully close the disparity gap while maintaining the performance of policies on two real-world recommender system benchmark datasets.
翻訳日:2021-11-23 13:28:02 公開日:2021-11-19
# (参考訳) TYolov5:ビデオにおけるリアルタイムハンドガン検出のための準リカレントニューラルネットワークに基づく一時ヨーロフ5検出器 [全文訳有]

TYolov5: A Temporal Yolov5 Detector Based on Quasi-Recurrent Neural Networks for Real-Time Handgun Detection in Video ( http://arxiv.org/abs/2111.08867v2 )

ライセンス: CC BY 4.0
Mario Alberto Duran-Vega, Miguel Gonzalez-Mendoza, Leonardo Chang, Cuauhtemoc Daniel Suarez-Ramirez(参考訳) タイムリーな拳銃検出は公衆の安全を改善する上で重要な問題である。しかしながら、多くの監視システムの有効性は、依然として有限の人間の注意に依存している。 以前の拳銃検出に関する研究の多くは静的な画像検出器に基づいており、ビデオの物体検出を改善するのに使える貴重な時間情報を残している。 監視システムの性能向上のためには,リアルタイムの拳銃検出システムを構築する必要がある。 準リカレントニューラルネットワークに基づくアーキテクチャであるtemporal yolov5を用いて、ビデオから時間情報を抽出し、拳銃検出結果を改善する。 さらに、手、銃、電話でラベル付けされた2つの公開データセットが提案されている。 ひとつは静的検出器をトレーニングする2199の静的イメージと、もうひとつは時間モジュールをトレーニングする5960フレームのビデオだ。 さらにモザイクとミックスアップに基づく2つの時間的データ拡張手法について検討する。 その結果得られたシステムは、3つの時間的アーキテクチャである: 1つは、map$_{50:95}$が55.9、もう1つは推論と精度のバランスが良く、map$_{50:95}$が59、もう1つはmap$_{50:95}$が60.2の精度を専門とする。 テンポラリyolov5は、中小規模アーキテクチャでリアルタイム検出を実現する。 さらに、ビデオに含まれる時間的特徴を利用して、時間的データセットのYolov5よりも優れたパフォーマンスを実現しています。 ソースコードはhttps://github.com/m arioduran/tyolov5で公開されている。

Timely handgun detection is a crucial problem to improve public safety; nevertheless, the effectiveness of many surveillance systems still depends of finite human attention. Much of the previous research on handgun detection is based on static image detectors, leaving aside valuable temporal information that could be used to improve object detection in videos. To improve the performance of surveillance systems, a real-time temporal handgun detection system should be built. Using Temporal Yolov5, an architecture based on Quasi-Recurrent Neural Networks, temporal information is extracted from video to improve the results of handgun detection. Moreover, two publicly available datasets are proposed, labeled with hands, guns, and phones. One containing 2199 static images to train static detectors, and another with 5960 frames of videos to train temporal modules. Additionally, we explore two temporal data augmentation techniques based on Mosaic and Mixup. The resulting systems are three temporal architectures: one focused in reducing inference with a mAP$_{50:95}$ of 55.9, another in having a good balance between inference and accuracy with a mAP$_{50:95}$ of 59, and a last one specialized in accuracy with a mAP$_{50:95}$ of 60.2. Temporal Yolov5 achieves real-time detection in the small and medium architectures. Moreover, it takes advantage of temporal features contained in videos to perform better than Yolov5 in our temporal dataset, making TYolov5 suitable for real-world applications. The source code is publicly available at https://github.com/M arioDuran/TYolov5.
翻訳日:2021-11-23 06:15:18 公開日:2021-11-19
# (参考訳) LOLNeRF: 一目で学ぶ [全文訳有]

LOLNeRF: Learn from One Look ( http://arxiv.org/abs/2111.09996v1 )

ライセンス: CC BY 4.0
Daniel Rebain, Mark Matthews, Kwang Moo Yi, Dmitry Lagun, Andrea Tagliasacchi(参考訳) 本稿では,各オブジェクトの単一ビューのみを用いたデータからのみ訓練された,ニューラルレージアンス場に基づく生成3次元モデルの学習方法を提案する。 写実的な画像を生成することはもはや難しい作業ではないが、異なるビューからレンダリングできるように対応する3d構造を生成するのは簡単ではない。 既存の手法とは異なり、この目標を達成するためにマルチビューデータを必要としないことを示す。 具体的には、共有潜在空間に条件付き単一ネットワークで近似正準ポーズに整列した多数の画像を再構成することにより、オブジェクトのクラスに対して形状と外観をモデル化した放射場空間を学習できることを示す。 我々は、深度や幾何学的情報のない各対象の1つのビューのみを含むデータセットを用いて、オブジェクトカテゴリを再構築するモデルをトレーニングすることでこれを実証する。 実験の結果,モノクル深度予測のための新しいビュー合成と競合する結果が得られた。

We present a method for learning a generative 3D model based on neural radiance fields, trained solely from data with only single views of each object. While generating realistic images is no longer a difficult task, producing the corresponding 3D structure such that they can be rendered from different views is non-trivial. We show that, unlike existing methods, one does not need multi-view data to achieve this goal. Specifically, we show that by reconstructing many images aligned to an approximate canonical pose with a single network conditioned on a shared latent space, you can learn a space of radiance fields that models shape and appearance for a class of objects. We demonstrate this by training models to reconstruct object categories using datasets that contain only one view of each subject without depth or geometry information. Our experiments show that we achieve state-of-the-art results in novel view synthesis and competitive results for monocular depth prediction.
翻訳日:2021-11-23 02:56:55 公開日:2021-11-19
# (参考訳) 微分可能な波長合成 [全文訳有]

Differentiable Wavetable Synthesis ( http://arxiv.org/abs/2111.10003v1 )

ライセンス: CC BY 4.0
Siyuan Shan, Lamtharn Hantrakul, Jitong Chen, Matt Avent, David Trevelyan(参考訳) 微分可能なウェーブテーブル合成(英: Differentiable Wavetable Synthesis、DWTS)は、一周期波形の辞書、すなわちウェーブテーブルの辞書をエンドツーエンドの訓練によって学習するニューラルオーディオ合成技術である。 10~20個のウェーブテーブルで高忠実度音声合成を実現し,データ駆動波形辞書が,短い音声クリップで前例のないワンショット学習パラダイムを展開する様子を実演する。 特に、数秒の入力音声を用いて、高品質なピッチシフトなどのオーディオ操作を示す。 最後に,リアルタイムおよびインタラクティブな音声合成のための学習ウェーブテーブルによる性能向上について検討する。

Differentiable Wavetable Synthesis (DWTS) is a technique for neural audio synthesis which learns a dictionary of one-period waveforms i.e. wavetables, through end-to-end training. We achieve high-fidelity audio synthesis with as little as 10 to 20 wavetables and demonstrate how a data-driven dictionary of waveforms opens up unprecedented one-shot learning paradigms on short audio clips. Notably, we show audio manipulations, such as high quality pitch-shifting, using only a few seconds of input audio. Lastly, we investigate performance gains from using learned wavetables for realtime and interactive audio synthesis.
翻訳日:2021-11-23 02:43:24 公開日:2021-11-19
# (参考訳) ExoMiner: 太陽系外惑星の高精度かつ説明可能な深層学習分類器

ExoMiner: A Highly Accurate and Explainable Deep Learning Classifier to Mine Exoplanets ( http://arxiv.org/abs/2111.10009v1 )

ライセンス: CC BY 4.0
Hamed Valizadegan, Miguel Martinho, Laurent S. Wilkens, Jon M. Jenkins, Jeffrey Smith, Douglas A. Caldwell, Joseph D. Twicken, Pedro C. Gerum, Nikash Walia, Kaylie Hausknecht, Noa Y. Lubin, Stephen T. Bryson, Nikunj C. Oza(参考訳) ケプラーとTESSのミッションは、惑星候補のカタログを作成するために処理しなければならない10万以上のトランジット信号を生成する。 ここ数年、新しい太陽系外惑星を探すために機械学習を使ってこれらのデータを分析することへの関心が高まっている。 既存の機械学習と異なり、この研究で提案されているディープラーニング分類器であるExoMinerは、ドメインの専門家が診断テストを調べてトランジットシグナルを検査する方法を模倣している。 ExoMinerは、非常に正確で説明可能な、堅牢な分類器である 1) MASTケプラーアーカイブから新たに301個の太陽系外惑星を検証できる。 2)は、現在進行中のtessミッションのようなミッションにまたがって適用できるほど一般的である。 我々は,ExoMinerが既存のトランジット信号分類器よりも信頼性が高く,精度が高いことを検証するために,広範囲にわたる実験を行った。 例えば、固定精度99%の場合、エクソミナーはテストセット内の全ての太陽系外惑星の93.6%を回収する(すなわち、リコール=0.936)が、最良の分類器では76.3%である。 さらに、ExoMinerのモジュール設計は、その説明可能性を支持している。 本稿では,ExoMinerがトランジットシグナルを特定のクラスラベル(惑星候補か惑星候補でないか)に分類する理由について,専門家にフィードバックを提供するシンプルな説明可能性フレームワークを紹介する。

The kepler and TESS missions have generated over 100,000 potential transit signals that must be processed in order to create a catalog of planet candidates. During the last few years, there has been a growing interest in using machine learning to analyze these data in search of new exoplanets. Different from the existing machine learning works, ExoMiner, the proposed deep learning classifier in this work, mimics how domain experts examine diagnostic tests to vet a transit signal. ExoMiner is a highly accurate, explainable, and robust classifier that 1) allows us to validate 301 new exoplanets from the MAST Kepler Archive and 2) is general enough to be applied across missions such as the on-going TESS mission. We perform an extensive experimental study to verify that ExoMiner is more reliable and accurate than the existing transit signal classifiers in terms of different classification and ranking metrics. For example, for a fixed precision value of 99%, ExoMiner retrieves 93.6% of all exoplanets in the test set (i.e., recall=0.936) while this rate is 76.3% for the best existing classifier. Furthermore, the modular design of ExoMiner favors its explainability. We introduce a simple explainability framework that provides experts with feedback on why ExoMiner classifies a transit signal into a specific class label (e.g., planet candidate or not planet candidate).
翻訳日:2021-11-23 02:34:34 公開日:2021-11-19
# (参考訳) CoCAtt:認知的な運転注意データセット [全文訳有]

CoCAtt: A Cognitive-Conditione d Driver Attention Dataset ( http://arxiv.org/abs/2111.10014v1 )

ライセンス: CC BY 4.0
Yuan Shen and Niviru Wijayaratne and Pranav Sriram and Aamir Hasan and Peter Du and Katie Driggs-Campbell(参考訳) ドライバー注意予測のタスクは、ロボット工学と自動運転車産業の研究者の間で大きな関心を集めている。 運転注意予測は、衝突や死傷などのリスクの高い出来事を緩和し防止する上で、重要な役割を果たす。 しかし、既存の運転注意予測モデルは、運転者の気晴らし状態や意図を無視し、周囲の観察方法に大きな影響を与える可能性がある。 これらの問題に対処するために、新しいドライバー注意データセットCoCAt(Cognitive-Cond itioned Attention)を提案する。 以前のドライバ注意データセットとは異なり、CoCAttには、ドライバの混乱状態と意図を記述するフレーム単位のアノテーションが含まれている。 さらに、我々のデータセットの注意データは、異なる解像度のアイトラッキングデバイスを使用して、手動モードと自動操縦モードの両方でキャプチャされる。 以上の2つの運転状態を注意モデルに組み込むことにより、運転者注意予測の性能が向上することを示す。 私たちの知る限りでは、この研究が初めてオートパイロットの注意データを提供した。 さらに、CoCAttは現在、自律レベル、アイトラッカーの解像度、運転シナリオの観点から、最大かつ最も多様なドライバー注意データセットである。

The task of driver attention prediction has drawn considerable interest among researchers in robotics and the autonomous vehicle industry. Driver attention prediction can play an instrumental role in mitigating and preventing high-risk events, like collisions and casualties. However, existing driver attention prediction models neglect the distraction state and intention of the driver, which can significantly influence how they observe their surroundings. To address these issues, we present a new driver attention dataset, CoCAtt (Cognitive-Condition ed Attention). Unlike previous driver attention datasets, CoCAtt includes per-frame annotations that describe the distraction state and intention of the driver. In addition, the attention data in our dataset is captured in both manual and autopilot modes using eye-tracking devices of different resolutions. Our results demonstrate that incorporating the above two driver states into attention modeling can improve the performance of driver attention prediction. To the best of our knowledge, this work is the first to provide autopilot attention data. Furthermore, CoCAtt is currently the largest and the most diverse driver attention dataset in terms of autonomy levels, eye tracker resolutions, and driving scenarios.
翻訳日:2021-11-23 02:25:21 公開日:2021-11-19
# (参考訳) 完全対数ランキングの達成可能性と不可能性 [全文訳有]

Achievability and Impossibility of Exact Pairwise Ranking ( http://arxiv.org/abs/2111.10021v1 )

ライセンス: CC BY 4.0
Yihan He(参考訳) 我々は,一組のn$項目のランクを,うるさい対数比較に基づいて回復する問題を考える。 我々は、SSTクラスを生成モデルのファミリとみなす。 本解析は, パラメトリック限界に適合する正確な要件に対して, 鋭い情報理論上および下限を与えた。 モーメント法により誘導されるアルゴリズムの厳密な解析により, ~\citet{shah2017simple} よりもミニマックスの最適速度の定数が向上し, 開問題に寄与した。 情報理論的な境界を得るためにこの研究で使った戦略は、組合せ論に基づいており、独立した興味を持っている。

We consider the problem of recovering the rank of a set of $n$ items based on noisy pairwise comparisons. We assume the SST class as the family of generative models. Our analysis gave sharp information theoretic upper and lower bound for the exact requirement, which matches exactly in the parametric limit. Our tight analysis on the algorithm induced by the moment method gave better constant in Minimax optimal rate than ~\citet{shah2017simple} and contribute to their open problem. The strategy we used in this work to obtain information theoretic bounds is based on combinatorial arguments and is of independent interest.
翻訳日:2021-11-23 02:11:13 公開日:2021-11-19
# (参考訳) 大規模教師なし再同定のためのメタクラスタリング学習 [全文訳有]

Meta Clustering Learning for Large-scale Unsupervised Person Re-identification ( http://arxiv.org/abs/2111.10032v1 )

ライセンス: CC0 1.0
Xin Jin, Tianyu He, Zhiheng Yin, Xu Shen, Tongliang Liu, Xinchao Wang, Jianqiang Huang, Xian-Sheng Hua, Zhibo Chen(参考訳) 疑似ラベル付き非教師付き人物再識別(U-ReID)は, 現代のクラスタリングアルゴリズムに基づく完全教師付きReID法と比較して, 競争性能が向上した。 しかし、このようなクラスタリングに基づくスキームは、大規模データセットでは計算的に禁止される。 u-reidを改善するために、限られた計算リソースで無限のラベルのないデータを効率的に活用する方法は未検討である。 本稿では,大規模U-ReIDの最初の試みとして,メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。 mclは、第1フェーズのトレーニングのためにコンピューティングを節約するために、クラスタリングを通じてラベルのないデータのサブセットのみを擬似ラベルする。 その後、学習したクラスタセントロイドはmclでメタプロトタイプ(meta-prototypes)と呼ばれ、モデルのさらなる洗練のために他のラベルのないデータをソフトに注釈付けするプロキシアノテータとみなされる。 研磨工程における潜在的なノイズラベリング問題を軽減するため,我々は2つのよく設計された損失制約を強制し,同一性内一貫性と同一性間の強い相関を約束する。 複数の広く使われているU-ReIDベンチマークにおいて,本手法は計算コストを大幅に削減し,従来よりも同等あるいはそれ以上の性能を実現している。

Unsupervised Person Re-identification (U-ReID) with pseudo labeling recently reaches a competitive performance compared to fully-supervised ReID methods based on modern clustering algorithms. However, such clustering-based scheme becomes computationally prohibitive for large-scale datasets. How to efficiently leverage endless unlabeled data with limited computing resources for better U-ReID is under-explored. In this paper, we make the first attempt to the large-scale U-ReID and propose a "small data for big task" paradigm dubbed Meta Clustering Learning (MCL). MCL only pseudo-labels a subset of the entire unlabeled data via clustering to save computing for the first-phase training. After that, the learned cluster centroids, termed as meta-prototypes in our MCL, are regarded as a proxy annotator to softly annotate the rest unlabeled data for further polishing the model. To alleviate the potential noisy labeling issue in the polishment phase, we enforce two well-designed loss constraints to promise intra-identity consistency and inter-identity strong correlation. For multiple widely-used U-ReID benchmarks, our method significantly saves computational cost while achieving a comparable or even better performance compared to prior works.
翻訳日:2021-11-23 01:57:29 公開日:2021-11-19
# (参考訳) 情報フローを用いたグラフ上GNNの解説 [全文訳有]

Explaining GNN over Evolving Graphs using Information Flow ( http://arxiv.org/abs/2111.10037v1 )

ライセンス: CC BY 4.0
Yazheng Liu and Xi Zhang and Sihong Xie(参考訳) グラフは、ソーシャルネットワーク、ナレッジグラフ、スマートグリッドなど、多くのアプリケーションにおいてユビキタスです。 グラフニューラルネットワーク(GNN)は、これらの応用の最先端でありながら、人間には不明瞭である。 GNNの予測を説明すると透明性が増す。 しかし、多くのグラフが静的ではないが継続的に進化しているため、2つのグラフスナップショット間の予測の変化は異なるが、同様に重要である。 従来の手法では静的な予測のみを説明するか、動的予測に対して粗いあるいは無関係な説明を生成する。 進化するGNN予測を説明する問題を定義し,計算グラフ上の経路に対する予測の変化を一意に分解する公理的帰属法を提案する。 高次ノードを含む多くのパスの帰属はいまだ解釈できないが、最も重要なパスを選択することは、変更を近似するのに最適ではない。 予測進化を説明する経路を最適に選択するために,新しい凸最適化問題を定式化する。 理論的には,LRP(Layer-Relevance -Propagation)に基づく既存手法が,空グラフと比較した場合に提案アルゴリズムの特別な場合であることが証明されている。 実験的に、7つのグラフデータセット上で、予測変化の説明を評価するために設計された新しいメトリクスを用いて、LRPやDeepLIFTなどの既存手法よりも提案手法の方が優れていることを示す。

Graphs are ubiquitous in many applications, such as social networks, knowledge graphs, smart grids, etc.. Graph neural networks (GNN) are the current state-of-the-art for these applications, and yet remain obscure to humans. Explaining the GNN predictions can add transparency. However, as many graphs are not static but continuously evolving, explaining changes in predictions between two graph snapshots is different but equally important. Prior methods only explain static predictions or generate coarse or irrelevant explanations for dynamic predictions. We define the problem of explaining evolving GNN predictions and propose an axiomatic attribution method to uniquely decompose the change in a prediction to paths on computation graphs. The attribution to many paths involving high-degree nodes is still not interpretable, while simply selecting the top important paths can be suboptimal in approximating the change. We formulate a novel convex optimization problem to optimally select the paths that explain the prediction evolution. Theoretically, we prove that the existing method based on Layer-Relevance-Prop agation (LRP) is a special case of the proposed algorithm when an empty graph is compared with. Empirically, on seven graph datasets, with a novel metric designed for evaluating explanations of prediction change, we demonstrate the superiority of the proposed approach over existing methods, including LRP, DeepLIFT, and other path selection methods.
翻訳日:2021-11-23 01:34:40 公開日:2021-11-19
# (参考訳) YMIR: ビジョンアプリケーションのための高速なデータ中心開発プラットフォーム [全文訳有]

YMIR: A Rapid Data-centric Development Platform for Vision Applications ( http://arxiv.org/abs/2111.10046v1 )

ライセンス: CC BY 4.0
Phoenix X. Huang, Wenze Hu, William Brendel, Manmohan Chandraker, Li-Jia Li, Xiaoyu Wang(参考訳) 本稿では,コンピュータビジョンアプリケーションの迅速な開発のためのオープンソースプラットフォームを提案する。 このプラットフォームは、効率的なデータ開発を機械学習開発プロセスの中心に置き、アクティブな学習方法、データとモデルバージョン管理を統合し、プロジェクトのような概念を使用して、複数のタスク固有のデータセットを並列に高速にイテレーションできるようにする。 開発プロセスをコア状態と運用に抽象化し、サードパーティツールを操作の実装として統合するオープンAPIを設計することで、オープンプラットフォームにします。 このオープンデザインにより、既存のツールを使用したMLチームの開発コストと採用コストが削減される。 同時に、プラットフォームはプロジェクト開発履歴の記録をサポートし、成功しているプロジェクトを共有して、同様のタスクでモデル生産効率をさらに高めることができる。 プラットフォームはオープンソースで、すでに社内で、カスタムの現実世界のコンピュータビジョンアプリケーションからの需要の高まりに対応するために使用されている。

This paper introduces an open source platform for rapid development of computer vision applications. The platform puts the efficient data development at the center of the machine learning development process, integrates active learning methods, data and model version control, and uses concepts such as projects to enable fast iteration of multiple task specific datasets in parallel. We make it an open platform by abstracting the development process into core states and operations, and design open APIs to integrate third party tools as implementations of the operations. This open design reduces the development cost and adoption cost for ML teams with existing tools. At the same time, the platform supports recording project development history, through which successful projects can be shared to further boost model production efficiency on similar tasks. The platform is open source and is already used internally to meet the increasing demand from custom real world computer vision applications.
翻訳日:2021-11-23 01:14:33 公開日:2021-11-19
# (参考訳) ゼロショット転送学習のための複合スケーリング [全文訳有]

Combined Scaling for Zero-shot Transfer Learning ( http://arxiv.org/abs/2111.10050v1 )

ライセンス: CC BY 4.0
Hieu Pham, Zihang Dai, Golnaz Ghiasi, Hanxiao Liu, Adams Wei Yu, Minh-Thang Luong, Mingxing Tan, Quoc V. Le(参考訳) 我々は、ImageNet ILSVRC-2012バリデーションセットにおいて、85.7%のトップ1ゼロショット精度を達成し、最高のゼロショットモデルであるCLIPとALIGNを9.3%上回るBASICと呼ばれるスケーリング手法を提案する。 私たちの基本的なモデルは、ロバスト性ベンチマークも大幅に改善しています。 例えば、ImageNet-{A,R,V2,Sketch} や ObjectNet のような自然な分布シフトを持つ5つのテストセットでは、私たちのモデルは83.7%の最高1の精度を達成しています。 これらの結果を得るために,データサイズ,モデルサイズ,バッチサイズという,CLIPとALIGNの対比学習フレームワークを3次元でスケールアップした。 我々のデータセットには6.6Bのノイズの多い画像テキストペアがあり、ALIGNより4倍、CLIPより16倍大きい。 我々の最大のモデルは3B重みを持ち、パラメータは3.75倍、FLOPはALIGNやCLIPよりも8倍大きい。 バッチサイズは65536で、CLIPの2倍、ALIGNの4倍です。 スケーリングの主な課題は、GPUやTPUといったアクセラレータのメモリ制限です。 そこで我々は,この限界を克服するためのオンライン勾配キャッシング手法を提案する。

We present a combined scaling method called BASIC that achieves 85.7% top-1 zero-shot accuracy on the ImageNet ILSVRC-2012 validation set, surpassing the best-published zero-shot models - CLIP and ALIGN - by 9.3%. Our BASIC model also shows significant improvements in robustness benchmarks. For instance, on 5 test sets with natural distribution shifts such as ImageNet-{A,R,V2,Sketch} and ObjectNet, our model achieves 83.7% top-1 average accuracy, only a small drop from the its original ImageNet accuracy. To achieve these results, we scale up the contrastive learning framework of CLIP and ALIGN in three dimensions: data size, model size, and batch size. Our dataset has 6.6B noisy image-text pairs, which is 4x larger than ALIGN, and 16x larger than CLIP. Our largest model has 3B weights, which is 3.75x larger in parameters and 8x larger in FLOPs than ALIGN and CLIP. Our batch size is 65536 which is 2x more than CLIP and 4x more than ALIGN. The main challenge with scaling is the limited memory of our accelerators such as GPUs and TPUs. We hence propose a simple method of online gradient caching to overcome this limit.
翻訳日:2021-11-23 01:08:32 公開日:2021-11-19
# (参考訳) 医学的視覚的質問への回答:調査 [全文訳有]

Medical Visual Question Answering: A Survey ( http://arxiv.org/abs/2111.10056v1 )

ライセンス: CC BY 4.0
Zhihong Lin, Donghao Zhang, Qingyi Tac, Danli Shi, Gholamreza Haffari, Qi Wu, Mingguang He, and Zongyuan Ge(参考訳) VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。 医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待される。 一般領域のVQAは広く研究されているが、医療領域のVQAはタスクの特徴から、特定の調査と探索が必要である。 この調査の第1部では、データソース、データ量、タスク機能について、現在公開されている医療用VQAデータセットを取り上げ、議論する。 第2部では,医療用VQAタスクにおけるアプローチについて概観する。 最後に,この分野における医学的課題を分析し,今後の研究の方向性について考察する。

Medical Visual Question Answering (VQA) is a combination of medical artificial intelligence and popular VQA challenges. Given a medical image and a clinically relevant question in natural language, the medical VQA system is expected to predict a plausible and convincing answer. Although the general-domain VQA has been extensively studied, the medical VQA still needs specific investigation and exploration due to its task features. In the first part of this survey, we cover and discuss the publicly available medical VQA datasets up to date about the data source, data quantity, and task feature. In the second part, we review the approaches used in medical VQA tasks. In the last part, we analyze some medical-specific challenges for the field and discuss future research directions.
翻訳日:2021-11-23 00:42:42 公開日:2021-11-19
# (参考訳) 大規模メルボルンの輸送需要に関する活動モデル

An Activity-Based Model of Transport Demand for Greater Melbourne ( http://arxiv.org/abs/2111.10061v1 )

ライセンス: CC BY-SA 4.0
Alan Both, Dhirendra Singh, Afshin Jafari, Billie Giles-Corti, Lucy Gunn(参考訳) 本稿では,機械学習,確率的,重力に基づくアプローチを組み合わせて,メルボルン大都市圏の合成人口を作成するアルゴリズムを提案する。 これらのテクニックを3つの主要なイノベーションとハイブリッドモデルで組み合わせます。 1 活動パターンを割り当てたときは、各エージェントに対して、コホートに合わせて個別の活動連鎖を生成する。 2 目的地を選択する際、旅行距離のずれと目的地の行動に基づくアトラクションとのバランスをとることを目的とする。 3 我々は、帰国が無理な目的地を選ばないように、エージェントが残す旅行の回数を考慮している。 提案手法は完全にオープンで複製可能であり,MATSimなどの一般的なエージェントベースモデリングソフトウェアと互換性のあるエージェントの合成集団を生成するために,公開データのみを必要とする。 合成個体群は, 距離分布, モード選択, 目的地選択の点で, 様々な個体群に対して正確であることがわかった。

In this paper, we present an algorithm for creating a synthetic population for the Greater Melbourne area using a combination of machine learning, probabilistic, and gravity-based approaches. We combine these techniques in a hybrid model with three primary innovations: 1. when assigning activity patterns, we generate individual activity chains for every agent, tailored to their cohort; 2. when selecting destinations, we aim to strike a balance between the distance-decay of trip lengths and the activity-based attraction of destination locations; and 3. we take into account the number of trips remaining for an agent so as to ensure they do not select a destination that would be unreasonable to return home from. Our method is completely open and replicable, requiring only publicly available data to generate a synthetic population of agents compatible with commonly used agent-based modeling software such as MATSim. The synthetic population was found to be accurate in terms of distance distribution, mode choice, and destination choice for a variety of population sizes.
翻訳日:2021-11-23 00:18:56 公開日:2021-11-19
# (参考訳) 受動型慣性センサを用いた妊娠中の胎児・母性健康度の評価 [全文訳有]

Assessment of Fetal and Maternal Well-Being During Pregnancy Using Passive Wearable Inertial Sensor ( http://arxiv.org/abs/2111.10066v1 )

ライセンス: CC BY 4.0
Eranda Somathilake, Upekha Delay, Janith Bandara Senanayaka, Samitha Gunarathne, Roshan Godaliyadda, Parakrama Ekanayake, Janaka Wijayakulasooriya, Chathura Rathnayake(参考訳) 胎児と母親の健康を評価することは、妊娠中の合併症の予防と特定に不可欠である。 本論文は、母親自身が最小限の監督で効果的に利用でき、安全で快適で使いやすく、胎児と母親の健康を合理的に評価できる装置に焦点をあてる。 この装置は、母親の子宮の上に1つの加速度計を備えたベルトを使って必要な情報を記録している。 この装置は、母親と胎児の両方を長期間にわたって継続的に監視し、医療専門家に有用な情報を提供することが期待されている。 本研究は,母親の呼吸情報と胎児の運動を同時に測定することは,軽度の干渉があっても可能であることを示唆する。

Assessing the health of both the fetus and mother is vital in preventing and identifying possible complications in pregnancy. This paper focuses on a device that can be used effectively by the mother herself with minimal supervision and provide a reasonable estimation of fetal and maternal health while being safe, comfortable, and easy to use. The device proposed uses a belt with a single accelerometer over the mother's uterus to record the required information. The device is expected to monitor both the mother and the fetus constantly over a long period and provide medical professionals with useful information, which they would otherwise overlook due to the low frequency that health monitoring is carried out at the present. The paper shows that simultaneous measurement of respiratory information of the mother and fetal movement is in fact possible even in the presence of mild interferences, which needs to be accounted for if the device is expected to be worn for extended times.
翻訳日:2021-11-23 00:18:00 公開日:2021-11-19
# (参考訳) インプット・デノイジングと特徴復元による対向攻撃の強化 [全文訳有]

Enhanced countering adversarial attacks via input denoising and feature restoring ( http://arxiv.org/abs/2111.10075v1 )

ライセンス: CC0 1.0
Yanni Li and Wenhui Zhang and Jiawei Liu and Xiaoli Kou and Hui Li and Jiangtao Cui(参考訳) ディープニューラルネットワーク(DNN)が様々なアプリケーションで顕著なパフォーマンスを達成したという事実にもかかわらず、DNNはクリーン/オリジンサンプルに知覚できない摂動を伴う敵の例/サンプル(AE)に弱いことはよく知られている。 本報告では,既存の敵攻撃に対する防御手法の弱点を克服し,元のサンプルに関する情報を損なうとともに,ターゲット分類器の精度を低下させるため,敵攻撃対策IDFR(Integrated Denoising and Feature Restoring)を改良した手法を提案する。 提案したIDFRは, 凸船体最適化に基づく拡張型インプットデノイザ (ID) と隠れ型ロスィ特徴復元器 (FR) から構成される。 ベンチマークデータセットを用いて行った大規模な実験により、提案したIDFRは様々な最先端の防御手法よりも優れており、様々な敵のブラックボックスやホワイトボックス攻撃に対してターゲットモデルを保護するのに非常に効果的であることが示された。 https://github.com/I D-FR/IDFR}{https://github.com/I D-FR/IDFR}}

Despite the fact that deep neural networks (DNNs) have achieved prominent performance in various applications, it is well known that DNNs are vulnerable to adversarial examples/samples (AEs) with imperceptible perturbations in clean/original samples. To overcome the weakness of the existing defense methods against adversarial attacks, which damages the information on the original samples, leading to the decrease of the target classifier accuracy, this paper presents an enhanced countering adversarial attack method IDFR (via Input Denoising and Feature Restoring). The proposed IDFR is made up of an enhanced input denoiser (ID) and a hidden lossy feature restorer (FR) based on the convex hull optimization. Extensive experiments conducted on benchmark datasets show that the proposed IDFR outperforms the various state-of-the-art defense methods, and is highly effective for protecting target models against various adversarial black-box or white-box attacks. \footnote{Souce code is released at: \href{https://github.com/I D-FR/IDFR}{https://github.com/I D-FR/IDFR}}
翻訳日:2021-11-23 00:05:35 公開日:2021-11-19
# (参考訳) 拡張直交重み修正による壊滅的鍛造 [全文訳有]

Defeating Catastrophic Forgetting via Enhanced Orthogonal Weights Modification ( http://arxiv.org/abs/2111.10078v1 )

ライセンス: CC0 1.0
Yanni Li and Bing Liu and Kaicheng Yao and Xiaoli Kou and Pengfan Lv and Yueshen Xu and Jiangtao Cui(参考訳) ニューラルネットワーク(NN)が複数のタスクを逐次学習し記憶する能力は、破滅的な忘れ(CF)問題のために、汎用人工知能を達成する上で難しい課題に直面している。 幸いなことに、最新のOWM Orthogonal Weights Modificationといくつかの連続学習(CL)メソッドはCF問題を克服する有望な方法を示している。 しかし、既存のclメソッドは、cf問題を効果的に克服するための3つの重要な質問を探求していない:すなわち、逐次タスク学習中のnnの効果的な重み付け修正にどんな知識が寄与するのか? 新しい学習タスクのデータ分布が以前の学習タスクに応じて変化するとき、一様/特定重み変更戦略を採用するべきか? 与えられたCLメソッドに対して、学習可能なタスクの上位境界は何でしょうか? ect. そこで本稿では,まず,新しいタスクの入力空間と前回の学習タスクの重み空間の両方から,新しい学習タスクの重み勾配が順次決定されることを示す。 この観察と再帰的最小二乗法について,拡張OWMによる効率的かつ効果的な連続学習法EOWMを提案する。 そして、理論的かつ決定的に、学習可能なタスクの上限をEOWMの逐次的に与えました。 ベンチマーク実験により、EOWMは有効であり、最先端のCLベースラインをすべて上回っていることが示された。

The ability of neural networks (NNs) to learn and remember multiple tasks sequentially is facing tough challenges in achieving general artificial intelligence due to their catastrophic forgetting (CF) issues. Fortunately, the latest OWM Orthogonal Weights Modification) and other several continual learning (CL) methods suggest some promising ways to overcome the CF issue. However, none of existing CL methods explores the following three crucial questions for effectively overcoming the CF issue: that is, what knowledge does it contribute to the effective weights modification of the NN during its sequential tasks learning? When the data distribution of a new learning task changes corresponding to the previous learned tasks, should a uniform/specific weight modification strategy be adopted or not? what is the upper bound of the learningable tasks sequentially for a given CL method? ect. To achieve this, in this paper, we first reveals the fact that of the weight gradient of a new learning task is determined by both the input space of the new task and the weight space of the previous learned tasks sequentially. On this observation and the recursive least square optimal method, we propose a new efficient and effective continual learning method EOWM via enhanced OWM. And we have theoretically and definitively given the upper bound of the learningable tasks sequentially of our EOWM. Extensive experiments conducted on the benchmarks demonstrate that our EOWM is effectiveness and outperform all of the state-of-the-art CL baselines.
翻訳日:2021-11-22 23:44:48 公開日:2021-11-19
# (参考訳) 説明可能な回避攻撃によるマルウェア検出装置の弱点の露呈 [全文訳有]

Exposing Weaknesses of Malware Detectors with Explainability-Guide d Evasion Attacks ( http://arxiv.org/abs/2111.10085v1 )

ライセンス: CC BY 4.0
Wei Wang, Ruoxi Sun, Tian Dong, Shaofeng Li, Minhui Xue, Gareth Tyson, Haojin Zhu(参考訳) 多数のオープンソースおよび商用のマルウェア検知器が利用可能である。 しかし、これらのツールの有効性は新たな敵攻撃によって脅かされており、マルウェアは例えば機械学習技術を使って検出を回避しようとする。 本研究では,特徴空間と問題空間操作の両方に依存する逆回避攻撃を設計する。 検出に影響を及ぼす最も重要な特徴を特定することで、回避を最大化する。 そして、この攻撃をベンチマークとして、いくつかの最先端のマルウェア検出器を評価する。 私たちはそれを見つけ i) 最先端のマルウェア検出器は,単純な回避戦略でさえも脆弱であり,市販の技術を用いて容易に騙すことができる。 二 特徴空間の操作及び問題空間の難読化を組み合わせて、検出器のホワイトボックスの理解を必要とせずに回避することができる。 (iii)機能操作をガイドし、複数の検出器をまたぐ攻撃方法を説明するために、説明可能性アプローチ(SHAPなど)を用いることができる。 我々の発見は、現在のマルウェア検知器の弱点と、それを改善する方法に光を当てた。

Numerous open-source and commercial malware detectors are available. However, the efficacy of these tools has been threatened by new adversarial attacks, whereby malware attempts to evade detection using, for example, machine learning techniques. In this work, we design an adversarial evasion attack that relies on both feature-space and problem-space manipulation. It uses explainability-guide d feature selection to maximize evasion by identifying the most critical features that impact detection. We then use this attack as a benchmark to evaluate several state-of-the-art malware detectors. We find that (i) state-of-the-art malware detectors are vulnerable to even simple evasion strategies, and they can easily be tricked using off-the-shelf techniques; (ii) feature-space manipulation and problem-space obfuscation can be combined to enable evasion without needing white-box understanding of the detector; (iii) we can use explainability approaches (e.g., SHAP) to guide the feature manipulation and explain how attacks can transfer across multiple detectors. Our findings shed light on the weaknesses of current malware detectors, as well as how they can be improved.
翻訳日:2021-11-22 23:27:26 公開日:2021-11-19
# (参考訳) RecGURU:クロスドメインレコメンデーションのための汎用ユーザ表現の逆学習 [全文訳有]

RecGURU: Adversarial Learning of Generalized User Representations for Cross-Domain Recommendation ( http://arxiv.org/abs/2111.10093v1 )

ライセンス: CC BY 4.0
Chenglin Li, Mingjun Zhao, Huanming Zhang, Chenyun Yu, Lei Cheng, Guoqiang Shu, Beibei Kong, Di Niu(参考訳) ドメイン間のレコメンデーションは、従来のシーケンシャルなレコメンデーションシステムにおけるデータスパリティの問題を軽減するのに役立つ。 本稿では,2つのドメインに共通ユーザが存在する場合であっても,逐次レコメンデーションにおいて,ドメイン間のユーザ情報を包含する一般化ユーザ表現(gur)を生成するための正規化アルゴリズムフレームワークを提案する。 本稿では,潜在ユーザ表現を導出する自己注意型オートエンコーダと,生成された潜在ユーザ表現の起源ドメインを予測するドメイン識別器を提案する。 本稿では,異なるドメインから生成されたユーザ埋め込みをユーザ毎に単一のグローバルGURに統一する,2つのモジュールの学習方法を提案する。 学習されたGURは、ユーザの全体的な嗜好と特性をキャプチャし、ユーザの行動データを強化し、ユーザが関与する単一ドメインのレコメンデーションを改善するために使用できる。 2つのパブリックなドメイン間リコメンデーションデータセットと、現実世界のアプリケーションから収集された大規模なデータセットに関する広範な実験が行われた。 その結果、RecGURUはパフォーマンスを向上し、最先端のシーケンシャルレコメンデーションやクロスドメインレコメンデーションメソッドよりも優れていることが示された。 収集したデータは、将来の研究を促進するためにリリースされる。

Cross-domain recommendation can help alleviate the data sparsity issue in traditional sequential recommender systems. In this paper, we propose the RecGURU algorithm framework to generate a Generalized User Representation (GUR) incorporating user information across domains in sequential recommendation, even when there is minimum or no common users in the two domains. We propose a self-attentive autoencoder to derive latent user representations, and a domain discriminator, which aims to predict the origin domain of a generated latent representation. We propose a novel adversarial learning method to train the two modules to unify user embeddings generated from different domains into a single global GUR for each user. The learned GUR captures the overall preferences and characteristics of a user and thus can be used to augment the behavior data and improve recommendations in any single domain in which the user is involved. Extensive experiments have been conducted on two public cross-domain recommendation datasets as well as a large dataset collected from real-world applications. The results demonstrate that RecGURU boosts performance and outperforms various state-of-the-art sequential recommendation and cross-domain recommendation methods. The collected data will be released to facilitate future research.
翻訳日:2021-11-22 22:49:37 公開日:2021-11-19
# (参考訳) ランダムウォークを意識した特徴と構造を考慮したグラフニューラルネットワーク [全文訳有]

Graph Neural Networks with Feature and Structure Aware Random Walk ( http://arxiv.org/abs/2111.10102v1 )

ライセンス: CC BY 4.0
Wei Zhuo, Chenyun Yu, Guang Tan(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな機械学習タスクにおける表現学習に注目が集まっている。 しかし、ほとんどの既存のGNNは、隣り合うノードが異なるクラスに属するヘテロフィリーを持つグラフ上では、よく機能しない。 本稿では, 典型的な親水性グラフにおいて, エッジを指向する可能性があり, エッジを非指向的に扱うか, あるいは単純に扱うかは, GNNモデルの性能に大きな影響を与えることを示す。 さらに, ヘテロフィリーの限界により, 類似ノードからのメッセージを局所的近傍を越えて集約することが極めて有益であり, グラフの方向性を適応的に学習し, ノード間の長距離相関を利用するモデルの開発を動機づける。 まず,グラフの向き性とノード間の長距離的特徴類似性を同時に考慮し,提案する特徴認識ページランクアルゴリズムに基づいてグラフラプラシアンをdigraphに一般化する。 次に、グラフグラフラプラシアンはグラフ伝播行列を定義し、これは {\em DiglacianGCN} と呼ばれるモデルに導かれる。 これに基づいて,ノード間の可換時間によって測定されるノードの近接性をさらに活用し,トポロジーレベルでのノードの長距離相関を維持する。 ノード分類のタスクにおける既存の解に対する提案手法の有効性を,相同性の異なる10種類のデータセットに対する広範囲な実験により実証した。

Graph Neural Networks (GNNs) have received increasing attention for representation learning in various machine learning tasks. However, most existing GNNs applying neighborhood aggregation usually perform poorly on the graph with heterophily where adjacent nodes belong to different classes. In this paper, we show that in typical heterphilous graphs, the edges may be directed, and whether to treat the edges as is or simply make them undirected greatly affects the performance of the GNN models. Furthermore, due to the limitation of heterophily, it is highly beneficial for the nodes to aggregate messages from similar nodes beyond local neighborhood.These motivate us to develop a model that adaptively learns the directionality of the graph, and exploits the underlying long-distance correlations between nodes. We first generalize the graph Laplacian to digraph based on the proposed Feature-Aware PageRank algorithm, which simultaneously considers the graph directionality and long-distance feature similarity between nodes. Then digraph Laplacian defines a graph propagation matrix that leads to a model called {\em DiglacianGCN}. Based on this, we further leverage the node proximity measured by commute times between nodes, in order to preserve the nodes' long-distance correlation on the topology level. Extensive experiments on ten datasets with different levels of homophily demonstrate the effectiveness of our method over existing solutions in the task of node classification.
翻訳日:2021-11-22 22:28:18 公開日:2021-11-19
# (参考訳) Bradley-Terryモデルに基づくニューラル画像美容予測器 [全文訳有]

Neural Image Beauty Predictor Based on Bradley-Terry Model ( http://arxiv.org/abs/2111.10127v1 )

ライセンス: CC BY 4.0
Shiyu Li and Hao Ma and Xiangyu Hu(参考訳) 画像美容評価はコンピュータビジョンの重要な課題である。 したがって、画像美容評価を模倣するモデルを構築することが重要な課題となる。 ヒト視覚システム(hvs)の動作をよりよく模倣するために、異なるカテゴリの画像に関する完全な調査を実施する必要がある。 本研究は画像美観評価に焦点をあてる。 本研究では,Bradley-Terryモデルに基づくペアワイズ評価手法を用いた。 我々は,この手法が画像グループ内の他の画像評価手法よりも正確であると信じている。 さらに、画像品質評価に適した畳み込みニューラルネットワーク(CNN)もこの研究で使用されている。 本研究の第1部は,画像の美しさ比較に関する調査である。 ブラッドリー・テリーモデルは、cnnモデルのターゲットである計算スコアに使用される。 本研究の第2部では、景観画像、建築画像、肖像画など、画像美容予測の結果に焦点を当てている。 モデルはAVAデータセットによって事前トレーニングされ、後でパフォーマンスが向上する。 そして、調査した画像と対応するスコアでcnnモデルを訓練する。 さらに、文献で議論されているように、4つのCNNベースネットワーク、すなわち、Alex net、VGG net、Squeeze net、LSiM netの結果を比較する。 最後に、対の精度、相関係数、調査結果から算出した相対誤差によってモデルを評価する。 提案手法により, 約70%の精度で満足度が得られた。 我々の研究は、新しい画像美容評価法にもっと光を当てている。 さらなる研究が必要であるが、この方法は有望なステップである。

Image beauty assessment is an important subject of computer vision. Therefore, building a model to mimic the image beauty assessment becomes an important task. To better imitate the behaviours of the human visual system (HVS), a complete survey about images of different categories should be implemented. This work focuses on image beauty assessment. In this study, the pairwise evaluation method was used, which is based on the Bradley-Terry model. We believe that this method is more accurate than other image rating methods within an image group. Additionally, Convolution neural network (CNN), which is fit for image quality assessment, is used in this work. The first part of this study is a survey about the image beauty comparison of different images. The Bradley-Terry model is used for the calculated scores, which are the target of CNN model. The second part of this work focuses on the results of the image beauty prediction, including landscape images, architecture images and portrait images. The models are pretrained by the AVA dataset to improve the performance later. Then, the CNN model is trained with the surveyed images and corresponding scores. Furthermore, this work compares the results of four CNN base networks, i.e., Alex net, VGG net, Squeeze net and LSiM net, as discussed in literature. In the end, the model is evaluated by the accuracy in pairs, correlation coefficient and relative error calculated by survey results. Satisfactory results are achieved by our proposed methods with about 70 percent accuracy in pairs. Our work sheds more light on the novel image beauty assessment method. While more studies should be conducted, this method is a promising step.
翻訳日:2021-11-22 22:08:58 公開日:2021-11-19
# (参考訳) 変圧器による接地状況認識 [全文訳有]

Grounded Situation Recognition with Transformers ( http://arxiv.org/abs/2111.10135v1 )

ライセンス: CC BY-SA 4.0
Junhyeong Cho, Youngseok Yoon, Hyeonjun Lee, Suha Kwak(参考訳) 接地状況認識(英: grounded situation recognition, gsr)とは、salient action (verb) を分類するだけでなく、意味的役割とその位置に関連するエンティティ (名詞) を予測するタスクである。 視覚タスクにおけるトランスフォーマーの顕著な成功に着想を得て,トランスフォーマーエンコーダデコーダアーキテクチャに基づくGSRモデルを提案する。 本モデルの注意機構は、画像の高レベルな意味的特徴を効果的に捉えることで、正確な動詞の分類を可能にするとともに、名詞の分類と局所化を改善するために、エンティティ間の複雑で画像依存の関係を柔軟に扱うことができる。 我々のモデルは、GSRのための最初のトランスフォーマーアーキテクチャであり、SWiGベンチマークのすべての評価基準における技術の状態を達成する。 私たちのコードはhttps://github.com/j hcho99/gsrtrで利用可能です。

Grounded Situation Recognition (GSR) is the task that not only classifies a salient action (verb), but also predicts entities (nouns) associated with semantic roles and their locations in the given image. Inspired by the remarkable success of Transformers in vision tasks, we propose a GSR model based on a Transformer encoder-decoder architecture. The attention mechanism of our model enables accurate verb classification by capturing high-level semantic feature of an image effectively, and allows the model to flexibly deal with the complicated and image-dependent relations between entities for improved noun classification and localization. Our model is the first Transformer architecture for GSR, and achieves the state of the art in every evaluation metric on the SWiG benchmark. Our code is available at https://github.com/j hcho99/gsrtr .
翻訳日:2021-11-22 21:53:44 公開日:2021-11-19
# (参考訳) 言葉以上のもの:テキストから音声への視覚駆動型韻律 [全文訳有]

More than Words: In-the-Wild Visually-Driven Prosody for Text-to-Speech ( http://arxiv.org/abs/2111.10139v1 )

ライセンス: CC BY 4.0
Michael Hassid, Michelle Tadmor Ramanovich, Brendan Shillingford, Miaosen Wang, Ye Jia, Tal Remez(参考訳) 本稿では,視覚駆動型テキスト音声合成モデルであるVDTTSを提案する。 ダビングによって動機づけられたVDTTSは、ビデオフレームをテキストと共に追加入力として利用し、ビデオ信号にマッチする音声を生成する。 これにより、VDTTSが通常のTSモデルとは異なり、自然なポーズやピッチのような韻律的なバリエーションを持つだけでなく、入力ビデオと同期する音声を生成することができることを示す。 実験では,VoxCeleb2 の "in-the-wild" コンテンツを含むいくつかのベンチマークを用いて,音声の音声同期品質にアプローチし,良好な同期出力が得られることを示す。 我々は,ビデオ音声同期,話者IDスワップに対する堅牢性,韻律のデモビデオの視聴を推奨する。

In this paper we present VDTTS, a Visually-Driven Text-to-Speech model. Motivated by dubbing, VDTTS takes advantage of video frames as an additional input alongside text, and generates speech that matches the video signal. We demonstrate how this allows VDTTS to, unlike plain TTS models, generate speech that not only has prosodic variations like natural pauses and pitch, but is also synchronized to the input video. Experimentally, we show our model produces well synchronized outputs, approaching the video-speech synchronization quality of the ground-truth, on several challenging benchmarks including "in-the-wild" content from VoxCeleb2. We encourage the reader to view the demo videos demonstrating video-speech synchronization, robustness to speaker ID swapping, and prosody.
翻訳日:2021-11-22 21:33:18 公開日:2021-11-19
# (参考訳) 歓迎文化と国境のフェンスの間です ドイツ新聞、欧州難民危機に関するデータセットを公表

Between welcome culture and border fence. A dataset on the European refugee crisis in German newspaper reports ( http://arxiv.org/abs/2111.10142v1 )

ライセンス: CC BY 4.0
Nico Blokker, Andr\'e Blessing, Erenay Dayanik, Jonas Kuhn, Sebastian Pad\'o, Gabriella Lapesa(参考訳) 新聞の報道は、政治科学の探求の基礎となる特定の政策分野に関する公的な議論の展開に関する豊富な情報源を提供している。 このような議論は、しばしば批判的な出来事によって引き起こされ、大衆の注目を集め、政治的アクターの反応を呼び起こす。 しかし、信頼できるアノテーションとモデリングの課題のため、高品質なアノテーションを備えた大規模データセットは少ない。 本稿は、2015年のドイツの品質新聞「タズ」における欧州難民危機に関する政治的議論を辿るDebateNet2.0を紹介する。 私たちのアノテーションの中核的な単位は、政治的主張(政策分野内で取るべき特定の行動の要求)とそれらを作る俳優(政治家、政党など)である。 この論文の貢献は2つある。 まず,新聞における政策議論のアノテーションに関する実践的,概念的な問題を通じて,読者を指導する共同パッケージである mardyR とともに DebateNet2.0 を文書化し,リリースする。 第2に,DbateNet2.0 に Discourse Network Analysis (DNA) を概説し,「難民危機」に関する政策討論の2つの重要な瞬間,すなわち4月・5月の地中海への移民フラックスと9月・10月のバルカンルート沿いの移民フラックスを比較した。 私たちは新聞記事から談話ネットワークへのステップを通じて読者と話をし、ドイツの移民討論のための1つの談話ネットワークだけでなく、関心のある話題(政治活動者、政策分野、期間)によって複数の論説ネットワークがあることを実証します。

Newspaper reports provide a rich source of information on the unfolding of public debate on specific policy fields that can serve as basis for inquiry in political science. Such debates are often triggered by critical events, which attract public attention and incite the reactions of political actors: crisis sparks the debate. However, due to the challenges of reliable annotation and modeling, few large-scale datasets with high-quality annotation are available. This paper introduces DebateNet2.0, which traces the political discourse on the European refugee crisis in the German quality newspaper taz during the year 2015. The core units of our annotation are political claims (requests for specific actions to be taken within the policy field) and the actors who make them (politicians, parties, etc.). The contribution of this paper is twofold. First, we document and release DebateNet2.0 along with its companion R package, mardyR, guiding the reader through the practical and conceptual issues related to the annotation of policy debates in newspapers. Second, we outline and apply a Discourse Network Analysis (DNA) to DebateNet2.0, comparing two crucial moments of the policy debate on the 'refugee crisis': the migration flux through the Mediterranean in April/May and the one along the Balkan route in September/October. Besides the released resources and the case-study, our contribution is also methodological: we talk the reader through the steps from a newspaper article to a discourse network, demonstrating that there is not just one discourse network for the German migration debate, but multiple ones, depending on the topic of interest (political actors, policy fields, time spans).
翻訳日:2021-11-22 21:10:24 公開日:2021-11-19
# (参考訳) 画像分類のためのニューラルネットワークの勾配からのトレーニングデータ漏洩の理解 [全文訳有]

Understanding Training-Data Leakage from Gradients in Neural Networks for Image Classification ( http://arxiv.org/abs/2111.10178v1 )

ライセンス: CC BY 4.0
Cangxiong Chen, Neill D.F. Campbell(参考訳) 教師付きタスクのためのディープラーニングモデルのフェデレーション学習(例えば、画像分類やセグメンテーション)は、例えばフィルムポストプロダクションのような、人間のアーティストのドメイン知識を効率的かつ効果的に共有できるヒューマンインザループタスクにおいて、多くの応用を見出した。 多くのアプリケーションでは、IPやプライバシの懸念により、トレーニングプロセスで勾配が共有されている場合、トレーニングデータの漏洩を防止する必要があります。 近年の研究では、アーキテクチャが分かっていれば、画像分類モデルの勾配からトレーニングデータを再構築できることが示されている。 しかし、そのような攻撃の有効性と失敗についてはまだ不完全な理論的理解が残っている。 本稿では,勾配からのトレーニングデータ漏洩源の解析を行う。 各層に対する最適化問題の反復解として,データ再構成のトレーニング問題を定式化する。 層別目的関数は、主に現在の層からの重みと勾配と、それに続く層の再構築からの出力によって定義されるが、前層からの'プルバック'制約も含む。 各層を通してネットワークの出力から逆方向の問題を解くと、トレーニングデータを再構築することができる。 この定式化に基づき、深層ネットワークにおけるトレーニングデータの潜在的漏洩を、そのアーキテクチャに分類することができる。 また,学習データに対する勾配に基づく攻撃に対して,ディープラーニングモデルのセキュリティレベルを測定する指標を提案する。

Federated learning of deep learning models for supervised tasks, e.g. image classification and segmentation, has found many applications: for example in human-in-the-loop tasks such as film post-production where it enables sharing of domain expertise of human artists in an efficient and effective fashion. In many such applications, we need to protect the training data from being leaked when gradients are shared in the training process due to IP or privacy concerns. Recent works have demonstrated that it is possible to reconstruct the training data from gradients for an image-classification model when its architecture is known. However, there is still an incomplete theoretical understanding of the efficacy and failure of such attacks. In this paper, we analyse the source of training-data leakage from gradients. We formulate the problem of training data reconstruction as solving an optimisation problem iteratively for each layer. The layer-wise objective function is primarily defined by weights and gradients from the current layer as well as the output from the reconstruction of the subsequent layer, but it might also involve a 'pull-back' constraint from the preceding layer. Training data can be reconstructed when we solve the problem backward from the output of the network through each layer. Based on this formulation, we are able to attribute the potential leakage of the training data in a deep network to its architecture. We also propose a metric to measure the level of security of a deep learning model against gradient-based attacks on the training data.
翻訳日:2021-11-22 21:09:13 公開日:2021-11-19
# (参考訳) フェデレーション学習の最大化への期待 [全文訳有]

An Expectation-Maximiza tion Perspective on Federated Learning ( http://arxiv.org/abs/2111.10192v1 )

ライセンス: CC BY 4.0
Christos Louizos, Matthias Reisser, Joseph Soriaga, Max Welling(参考訳) フェデレーション学習は、データをデバイス上でプライベートにしながら、複数のクライアントにわたるモデルの分散トレーニングを記述する。 本研究では,サーバがクライアント固有のモデルパラメータに対して事前分布のパラメータを提供する階層的潜在変数モデルとして,サーバによる連合学習プロセスを考察する。 我々は,単純なガウス先行とよく知られた期待最大化(EM)アルゴリズムのハードバージョンを用いて,そのようなモデルの学習は,フェデレーション学習環境における最も一般的なアルゴリズムであるFedAvgに対応することを示す。 FedAvg のこの視点は、この分野におけるいくつかの最近の研究を統合し、階層モデルに対する異なる選択を通じて拡張の可能性を開く。 そこで本研究では,スパルサリティを促進するために,事前分布を用いた階層モデルの変種を提案する。 同様に、学習のためのhard-emアルゴリズムを使用することで、federated learning設定でスパースニューラルネットワークを学習できる方法であるfederparseを得る。 FedSparseはクライアントからサーバ、リバーサへの通信コストを削減し、また、分散ネットワークによる推論の計算コストも削減します。

Federated learning describes the distributed training of models across multiple clients while keeping the data private on-device. In this work, we view the server-orchestrated federated learning process as a hierarchical latent variable model where the server provides the parameters of a prior distribution over the client-specific model parameters. We show that with simple Gaussian priors and a hard version of the well known Expectation-Maximiza tion (EM) algorithm, learning in such a model corresponds to FedAvg, the most popular algorithm for the federated learning setting. This perspective on FedAvg unifies several recent works in the field and opens up the possibility for extensions through different choices for the hierarchical model. Based on this view, we further propose a variant of the hierarchical model that employs prior distributions to promote sparsity. By similarly using the hard-EM algorithm for learning, we obtain FedSparse, a procedure that can learn sparse neural networks in the federated learning setting. FedSparse reduces communication costs from client to server and vice-versa, as well as the computational costs for inference with the sparsified network - both of which are of great practical importance in federated learning.
翻訳日:2021-11-22 21:00:58 公開日:2021-11-19
# (参考訳) 変分量子回路のコンパイルに対するポリシーのグラディエントアプローチ [全文訳有]

Policy Gradient Approach to Compilation of Variational Quantum Circuits ( http://arxiv.org/abs/2111.10227v1 )

ライセンス: CC BY 4.0
David A. Herrera-Mart\'i(参考訳) 本稿では,政策勾配強化学習の手法に基づいて,量子回路の近似コンパイルを求める手法を提案する。 確率的ポリシーの選択により、変動パラメータではなく確率分布の観点から最適化問題を言い換えることができる。 これは、回路自由角度よりも分布パラメータを最適化することで、最適構成の探索を行うことを意味する。 要点は、ポリシーが微分可能であれば、常に勾配を計算できるということです。 非分極ノイズの存在下でも、このアプローチは勾配のない手法よりも競争力があることを数値的に示し、なぜそうであるのかを分析的に議論する。 変分コンパイルに対するこのアプローチのもう1つの興味深い特徴は、エンドポイント忠実度を推定するために別々のレジスタと長距離インタラクションを必要としないことである。 他の文脈における変分回路の訓練にこれらの手法が関係していると期待する。

We propose a method for finding approximate compilations of quantum circuits, based on techniques from policy gradient reinforcement learning. The choice of a stochastic policy allows us to rephrase the optimization problem in terms of probability distributions, rather than variational parameters. This implies that searching for the optimal configuration is done by optimizing over the distribution parameters, rather than over the circuit free angles. The upshot of this is that we can always compute a gradient, provided that the policy is differentiable. We show numerically that this approach is more competitive than those using gradient-free methods, even in the presence of depolarizing noise, and argue analytically why this is the case. Another interesting feature of this approach to variational compilation is that it does not need a separate register and long-range interactions to estimate the end-point fidelity. We expect these techniques to be relevant for training variational circuit in other contexts
翻訳日:2021-11-22 20:36:28 公開日:2021-11-19
# (参考訳) xp-gan:マルチオブジェクト制御可能なビデオ生成 [全文訳有]

Xp-GAN: Unsupervised Multi-object Controllable Video Generation ( http://arxiv.org/abs/2111.10233v1 )

ライセンス: CC BY-SA 4.0
Bahman Rouhani, Mohammad Rahmati(参考訳) ビデオ生成は、幅広い潜在的なアプリケーションと多くの課題のために、機械学習において比較的新しいが人気がある分野である。 ビデオ生成における現在のメソッドは、ビデオ生成中のオブジェクトがどのように移動され、各フレームに配置されるかの正確な仕様について、ユーザがほとんど、あるいはまったく制御できない。 本稿では,オブジェクト上にバウンディングボックスを描画し,そのボックスを所望の経路に移動させるだけで,単一の初期フレームの任意の数のオブジェクトを移動させることができる新しい方法を提案する。 本モデルでは,2つのオートエンコーダを用いて動画中の動作情報とコンテンツ情報を完全に分解し,アート手法のベースラインと状態に匹敵する結果を得る。

Video Generation is a relatively new and yet popular subject in machine learning due to its vast variety of potential applications and its numerous challenges. Current methods in Video Generation provide the user with little or no control over the exact specification of how the objects in the generate video are to be moved and located at each frame, that is, the user can't explicitly control how each object in the video should move. In this paper we propose a novel method that allows the user to move any number of objects of a single initial frame just by drawing bounding boxes over those objects and then moving those boxes in the desired path. Our model utilizes two Autoencoders to fully decompose the motion and content information in a video and achieves results comparable to well-known baseline and state of the art methods.
翻訳日:2021-11-22 20:20:11 公開日:2021-11-19
# (参考訳) panoptic segmentation - レビュー [全文訳有]

Panoptic Segmentation: A Review ( http://arxiv.org/abs/2111.10250v1 )

ライセンス: CC BY 4.0
Omar Elharrouss, Somaya Al-Maadeed, Nandhini Subramanian, Najmath Ottakath, Noor Almaadeed, and Yassine Himeur(参考訳) 映像分析のためのイメージセグメンテーションは、スマートシティ、ヘルスケア、コンピュータビジョンと地球科学、リモートセンシングアプリケーションなど、さまざまな研究分野において重要な役割を果たす。 この点において、近年、新しいセグメンテーション戦略の開発に多大な努力が注がれており、最新の成果の1つは、一眼セグメンテーションである。 後者はセマンティックとインスタンスセグメンテーションの融合によるものである。 ビデオ監視、群衆の数え上げ、自動運転、医療画像分析、一般のシーンのより深い理解など、画像シーンに関するより精巧な知識を得るために、パン光学セグメンテーションが現在研究されている。 そこで本稿では,著者の知識を最大限に活用するために,既存のpanopticセグメンテーション手法の包括的レビューを行う。 そこで, 適用アルゴリズムの性質, 応用シナリオ, 主目的に基づいて, 既存の汎視的手法の明確な分類を行う。 さらに、擬似ラベルによる新しいデータセットのアノテートにパノプティカルセグメンテーションを用いることについて論じる。 その後、異なる視点からパン光学的手法を理解するためにアブレーション研究が行われる。 さらに, 汎視的セグメンテーションに適した評価指標について検討し, 既存ソリューションの性能の比較を行い, その限界と強度を明らかにした。 最後に、課題技術が直面する現在の課題と、近い将来にかなりの関心を惹きつける今後のトレンドを詳述し、今後の研究の出発点となる。 コードはhttps://github.com/e lharroussomar/awesom e-panoptic-segmentat ionで入手できる。

Image segmentation for video analysis plays an essential role in different research fields such as smart city, healthcare, computer vision and geoscience, and remote sensing applications. In this regard, a significant effort has been devoted recently to developing novel segmentation strategies; one of the latest outstanding achievements is panoptic segmentation. The latter has resulted from the fusion of semantic and instance segmentation. Explicitly, panoptic segmentation is currently under study to help gain a more nuanced knowledge of the image scenes for video surveillance, crowd counting, self-autonomous driving, medical image analysis, and a deeper understanding of the scenes in general. To that end, we present in this paper the first comprehensive review of existing panoptic segmentation methods to the best of the authors' knowledge. Accordingly, a well-defined taxonomy of existing panoptic techniques is performed based on the nature of the adopted algorithms, application scenarios, and primary objectives. Moreover, the use of panoptic segmentation for annotating new datasets by pseudo-labeling is discussed. Moving on, ablation studies are carried out to understand the panoptic methods from different perspectives. Moreover, evaluation metrics suitable for panoptic segmentation are discussed, and a comparison of the performance of existing solutions is provided to inform the state-of-the-art and identify their limitations and strengths. Lastly, the current challenges the subject technology faces and the future trends attracting considerable interest in the near future are elaborated, which can be a starting point for the upcoming research studies. The papers provided with code are available at: https://github.com/e lharroussomar/Awesom e-Panoptic-Segmentat ion
翻訳日:2021-11-22 20:07:21 公開日:2021-11-19
# (参考訳) 血管のtortuosity測定におけるトランスファー・ラーニングの影響の解析 [全文訳有]

An Analysis of the Influence of Transfer Learning When Measuring the Tortuosity of Blood Vessels ( http://arxiv.org/abs/2111.10255v1 )

ライセンス: CC BY 4.0
Matheus V. da Silva, Julie Ouellette, Baptiste Lacoste, Cesar H. Comin(参考訳) デジタル画像における血管の特徴付けは,様々な疾患の診断や,血管系に関する最近の研究を支援する上で重要である。 血管の自動分析は通常、画像または画像のセット内の血管の同定、または分割を必要とするが、これは通常困難な作業である。 畳み込みニューラルネットワーク(CNN)は血管のセグメンテーションに関して優れた結果をもたらすことが示されている。 CNNの重要な側面の1つは、大量のデータをトレーニングして、例えば、広範囲に使用するための画像処理ソフトウェアで利用できるようにすることである。 事前訓練されたcnnは、血管の長さ、tortuosity、カリバーの計算など、下流の血管の特徴付けタスクに容易に適用することができる。 しかし、事前トレーニングされたCNNが、トレーニングされていないデータセットに適用した場合、ダウンストリームタスクに対して堅牢で偏見のない結果を提供できるかどうかはまだ不明だ。 そこで本研究では, 血管の硬さを計測し, CNNが新たなデータセットにネットワークを微調整した後でも, どの程度の偏りがあるかを調べる。 我々は,データセット上のスクラッチからトレーニングしたCNNが取得したトルチューシティ値が,異なるトルチューシティ統計を持つデータセット上で事前学習した微調整ネットワークのものと一致しないことを示す。 また,ネットワークを微調整した場合のセグメンテーション性能の向上が,そのトチュニシティの推定における各改善につながるとは限らないことを示す。 上記の問題を緩和するため,セグメンテーション性能が向上しない状況においても,特定のデータ拡張手法の適用を提案する。

Characterizing blood vessels in digital images is important for the diagnosis of many types of diseases as well as for assisting current researches regarding vascular systems. The automated analysis of blood vessels typically requires the identification, or segmentation, of the blood vessels in an image or a set of images, which is usually a challenging task. Convolutional Neural Networks (CNNs) have been shown to provide excellent results regarding the segmentation of blood vessels. One important aspect of CNNs is that they can be trained on large amounts of data and then be made available, for instance, in image processing software for wide use. The pre-trained CNNs can then be easily applied in downstream blood vessel characterization tasks such as the calculation of the length, tortuosity, or caliber of the blood vessels. Yet, it is still unclear if pre-trained CNNs can provide robust, unbiased, results on downstream tasks when applied to datasets that they were not trained on. Here, we focus on measuring the tortuosity of blood vessels and investigate to which extent CNNs may provide biased tortuosity values even after fine-tuning the network to the new dataset under study. We show that the tortuosity values obtained by a CNN trained from scratch on a dataset may not agree with those obtained by a fine-tuned network that was pre-trained on a dataset having different tortuosity statistics. In addition, we show that the improvement in segmentation performance when fine-tuning the network does not necessarily lead to a respective improvement on the estimation of the tortuosity. To mitigate the aforementioned issues, we propose the application of specific data augmentation techniques even in situations where they do not improve segmentation performance.
翻訳日:2021-11-22 19:02:50 公開日:2021-11-19
# (参考訳) 再送信によるオーバーザ・エアフェデレーション学習(拡張版) [全文訳有]

Over-the-Air Federated Learning with Retransmissions (Extended Version) ( http://arxiv.org/abs/2111.10267v1 )

ライセンス: CC BY 4.0
Henrik Hellstr\"om, Viktoria Fodor, Carlo Fischione(参考訳) ワイヤレスデバイスの計算能力の向上と、ユーザとデバイスが生成するデータの前例のないレベルの増加により、新しい分散機械学習(ML)メソッドが出現した。 無線コミュニティでは、通信効率と非iidデータの問題に対処する能力から、連合学習(federated learning:fl)が特に注目されている。 flトレーニングは、同時アップリンク送信の干渉を利用して効率的にモデル更新を集約するover-the-air computation(aircomp) と呼ばれる無線通信方法によって促進される。 しかし,AirCompはアナログ通信を利用するため,避けられない推定誤差が生じる。 本稿では,この推定誤差がFLの収束に与える影響について検討し,資源制約された無線ネットワーク上でのFL収束を改善する手法として再送信を提案する。 まず,静的チャネル上の再送信を伴う最適AirComp電力制御方式を導出する。 次に,再送によるオーバー・ザ・エアFLの性能を調査し,FL損失関数上の2つの上限を求める。 最後に,MLモデルの学習前に計算可能な最適再送信数を選択するためのヒューリスティックを提案する。 数値計算の結果,再送信の導入は,通信や計算の面で余分なコストを伴わずに,ML性能の向上につながることが示された。 さらに,無線ネットワークのセットアップや機械学習の問題に対して,最適な再送回数を正しく特定できることを示すヒューリスティックなシミュレーション結果を提供する。

Motivated by increasing computational capabilities of wireless devices, as well as unprecedented levels of user- and device-generated data, new distributed machine learning (ML) methods have emerged. In the wireless community, Federated Learning (FL) is of particular interest due to its communication efficiency and its ability to deal with the problem of non-IID data. FL training can be accelerated by a wireless communication method called Over-the-Air Computation (AirComp) which harnesses the interference of simultaneous uplink transmissions to efficiently aggregate model updates. However, since AirComp utilizes analog communication, it introduces inevitable estimation errors. In this paper, we study the impact of such estimation errors on the convergence of FL and propose retransmissions as a method to improve FL convergence over resource-constrained wireless networks. First, we derive the optimal AirComp power control scheme with retransmissions over static channels. Then, we investigate the performance of Over-the-Air FL with retransmissions and find two upper bounds on the FL loss function. Finally, we propose a heuristic for selecting the optimal number of retransmissions, which can be calculated before training the ML model. Numerical results demonstrate that the introduction of retransmissions can lead to improved ML performance, without incurring extra costs in terms of communication or computation. Additionally, we provide simulation results on our heuristic which indicate that it can correctly identify the optimal number of retransmissions for different wireless network setups and machine learning problems.
翻訳日:2021-11-22 18:41:28 公開日:2021-11-19
# (参考訳) pointer over attention: hybrid pointer generator networkを用いたバングラテキスト要約手法の改良 [全文訳有]

Pointer over Attention: An Improved Bangla Text Summarization Approach Using Hybrid Pointer Generator Network ( http://arxiv.org/abs/2111.10269v1 )

ライセンス: CC BY 4.0
Nobel Dhar, Gaurob Saha, Prithwiraj Bhattacharjee, Avi Mallick, Md Saiful Islam(参考訳) 抽象的テキスト要約のためのニューラルシーケンス-シーケンスモデルの成功にもかかわらず、不正確な事実的詳細を繰り返したり、自分自身を繰り返す傾向があるといったいくつかの欠点がある。 本稿では,事実的詳細を不適切に再現することの欠点と句の繰り返しを解消するハイブリッドポインター生成ネットワークを提案する。 本稿では,語彙外単語を生成可能なハイブリッドポインタージェネレータネットワークを用いて注目に基づくシーケンス・ツー・シーケンスを拡大し,真偽を再現する精度を高め,繰り返しを回避できるカバレッジ機構を提案する。 入力記事の概念的完全性と事実的情報を保持する合理的な出力テキストを生成する。 評価のためには主に、広く採用されているBengaliデータセットである"BANSData"を採用しました。 さらに,人間生成サマリーに関連する133kのバングラニュース記事からなる大規模データセット"bans-133"を作成した。 提案モデルを用いて,BANS-133kデータセットのROUGE-1とROUGE-2スコアの0.66,0.41,BANS-133kデータセットの0.67,0.42をそれぞれ達成し,提案システムは従来のベンガル抽象要約技術を超え,より大きなデータセット上での安定性を示す。

Despite the success of the neural sequence-to-sequence model for abstractive text summarization, it has a few shortcomings, such as repeating inaccurate factual details and tending to repeat themselves. We propose a hybrid pointer generator network to solve the shortcomings of reproducing factual details inadequately and phrase repetition. We augment the attention-based sequence-to-sequence using a hybrid pointer generator network that can generate Out-of-Vocabulary words and enhance accuracy in reproducing authentic details and a coverage mechanism that discourages repetition. It produces a reasonable-sized output text that preserves the conceptual integrity and factual information of the input article. For evaluation, we primarily employed "BANSData" - a highly adopted publicly available Bengali dataset. Additionally, we prepared a large-scale dataset called "BANS-133" which consists of 133k Bangla news articles associated with human-generated summaries. Experimenting with the proposed model, we achieved ROUGE-1 and ROUGE-2 scores of 0.66, 0.41 for the "BANSData" dataset and 0.67, 0.42 for the BANS-133k" dataset, respectively. We demonstrated that the proposed system surpasses previous state-of-the-art Bengali abstractive summarization techniques and its stability on a larger dataset. "BANS-133" datasets and code-base will be publicly available for research.
翻訳日:2021-11-22 18:16:10 公開日:2021-11-19
# (参考訳) 多様性からのレジリエンス: 敵対的攻撃に対するモデル強化のための人口ベースアプローチ [全文訳有]

Resilience from Diversity: Population-based approach to harden models against adversarial attacks ( http://arxiv.org/abs/2111.10272v1 )

ライセンス: CC BY 4.0
Jasser Jasser and Ivan Garibay(参考訳) 従来のディープラーニングモデルには興味深い脆弱性があり、攻撃者がタスクで失敗を強いることができる。 高速勾配符号法(fgsm)やより強力な投影勾配降下法(pgd)のような悪名高い攻撃は、入力の計算された勾配に摂動量$\epsilon$を追加して逆の例を生成し、結果としてモデルの分類の有効性が低下する。 この研究は敵攻撃に対して回復力のあるモデルを導入する。 我々のモデルは、生物科学から確立された原則を生かし、人口多様性は環境変化に対して弾力性を生み出す。 より正確には、我々のモデルは様々なサブモデルの集団から成り、それぞれのサブモデルは、手元のタスクに対して高い精度を個別に得るように訓練され、ウェイトテンソルの有意義な差異を維持せざるを得なかった。 我々のモデルが分類クエリを受け取る度に、その集団からランダムにサブモデルを選択し、クエリに応答する。 サブモデルの個体群に多様性を導入・維持するために,カウンターリンクウェイトの概念を導入する。 カウンターリンクモデル(clm)は、同時トレーニング中に周期的ランダム類似性試験を行い、精度を維持しながら多様性を保証する同じアーキテクチャのサブモデルから構成される。 私たちのテストでは、MNISTデータセットでテストするとCLMの堅牢性が約20%向上し、CIFAR-10データセットでテストすると少なくとも15%向上しました。 敵対的に訓練されたサブモデルで実装すると、この手法は最先端の堅牢性を達成する。 MNISTデータセットの$\epsilon=0.3$では、FGSMに対して94.34%、PGDに対して91%を達成した。 CIFAR-10データセットの$\epsilon=8/255$では、FGSMに対して62.97%、PGDに対して59.16%を達成した。

Traditional deep learning models exhibit intriguing vulnerabilities that allow an attacker to force them to fail at their task. Notorious attacks such as the Fast Gradient Sign Method (FGSM) and the more powerful Projected Gradient Descent (PGD) generate adversarial examples by adding a magnitude of perturbation $\epsilon$ to the input's computed gradient, resulting in a deterioration of the effectiveness of the model's classification. This work introduces a model that is resilient to adversarial attacks. Our model leverages a well established principle from biological sciences: population diversity produces resilience against environmental changes. More precisely, our model consists of a population of $n$ diverse submodels, each one of them trained to individually obtain a high accuracy for the task at hand, while forced to maintain meaningful differences in their weight tensors. Each time our model receives a classification query, it selects a submodel from its population at random to answer the query. To introduce and maintain diversity in population of submodels, we introduce the concept of counter linking weights. A Counter-Linked Model (CLM) consists of submodels of the same architecture where a periodic random similarity examination is conducted during the simultaneous training to guarantee diversity while maintaining accuracy. In our testing, CLM robustness got enhanced by around 20% when tested on the MNIST dataset and at least 15% when tested on the CIFAR-10 dataset. When implemented with adversarially trained submodels, this methodology achieves state-of-the-art robustness. On the MNIST dataset with $\epsilon=0.3$, it achieved 94.34% against FGSM and 91% against PGD. On the CIFAR-10 dataset with $\epsilon=8/255$, it achieved 62.97% against FGSM and 59.16% against PGD.
翻訳日:2021-11-22 18:05:29 公開日:2021-11-19
# (参考訳) カーネルを用いた複合適合試験 [全文訳有]

Composite Goodness-of-fit Tests with Kernels ( http://arxiv.org/abs/2111.10275v1 )

ライセンス: CC BY 4.0
Oscar Key, Tamara Fernandez, Arthur Gretton, Fran\c{c}ois-Xavier Briol(参考訳) モデルの不特定は確率モデルの実装に重大な課題を生じさせ、これによってこの問題を直接的に考慮する様々な推論手法の開発につながった。 しかし、これらのより関連するメソッドが必要かどうかは、モデルが本当に誤った仕様であるかどうかに依存し、この質問に答える一般的な方法が欠如している。 適合度テスト(goodness-of-fit test)は、データセットが固定ディストリビューションによって生成された可能性があるかどうかをテストするためのツールである。 カーネルベースのテストはこの問題に対して開発されており、その柔軟性、強力な理論的保証、幅広いシナリオにおける実装の容易さから人気がある。 本稿では、この研究の行程を、より困難な複合適合性問題にまで拡張し、その代わりに、データがパラメトリックな家系の任意の分布から来るかどうかに興味を持つ。 これは、パラメトリックモデルがデータに対して適切に指定されているかどうかをテストすることと等価である。

Model misspecification can create significant challenges for the implementation of probabilistic models, and this has led to development of a range of inference methods which directly account for this issue. However, whether these more involved methods are required will depend on whether the model is really misspecified, and there is a lack of generally applicable methods to answer this question. One set of tools which can help are goodness-of-fit tests, where we test whether a dataset could have been generated by a fixed distribution. Kernel-based tests have been developed to for this problem, and these are popular due to their flexibility, strong theoretical guarantees and ease of implementation in a wide range of scenarios. In this paper, we extend this line of work to the more challenging composite goodness-of-fit problem, where we are instead interested in whether the data comes from any distribution in some parametric family. This is equivalent to testing whether a parametric model is well-specified for the data.
翻訳日:2021-11-22 17:53:28 公開日:2021-11-19
# (参考訳) 解釈可能かつ説明可能な侵入検知システムに対するハイブリッドアプローチ [全文訳有]

A Hybrid Approach for an Interpretable and Explainable Intrusion Detection System ( http://arxiv.org/abs/2111.10280v1 )

ライセンス: CC BY 4.0
Tiago Dias, Nuno Oliveira, Norberto Sousa, Isabel Pra\c{c}a, Orlando Sousa(参考訳) サイバーセキュリティは、かなり前から懸念されていた。 近年、サイバー攻撃は、テクノロジーの大幅な進歩によって、サイズと複雑さが増している。 今日では、ビジネス継続に不可欠なシステムやデータを保護することの避けられない必要性がある。 したがって、これらの脅威を緩和し、タイマー検出に寄与するために、多くの侵入検知システムが作成されている。 本研究は,より優れた長期的セキュリティを実現するために人工知能手法を活用する,解釈可能かつ説明可能なハイブリッド侵入検知システムを提案する。 このシステムは、ネットワーク活動から新たなエビデンスが生まれると、決定木アルゴリズムによって継続的に生成される専門家のルールと動的知識を組み合わせる。

Cybersecurity has been a concern for quite a while now. In the latest years, cyberattacks have been increasing in size and complexity, fueled by significant advances in technology. Nowadays, there is an unavoidable necessity of protecting systems and data crucial for business continuity. Hence, many intrusion detection systems have been created in an attempt to mitigate these threats and contribute to a timelier detection. This work proposes an interpretable and explainable hybrid intrusion detection system, which makes use of artificial intelligence methods to achieve better and more long-lasting security. The system combines experts' written rules and dynamic knowledge continuously generated by a decision tree algorithm as new shreds of evidence emerge from network activity.
翻訳日:2021-11-22 17:43:39 公開日:2021-11-19
# (参考訳) 神経絵画の喜び [全文訳有]

The Joy of Neural Painting ( http://arxiv.org/abs/2111.10283v1 )

ライセンス: CC BY-SA 4.0
Ernesto Diaz-Aviles and Claudia Orellana-Rodriguez and Beth Jochim(参考訳) ニューラルペインティング(neural painters)は、ganフレームワークに従ってブラシストロークを生成し、絵を作成するためのモデルである。 GANはAIアートの優れた生成モデルですが、トレーニングが難しいことで知られています。 GANの限界を克服し,ニューラルペインティングのトレーニングを高速化するために,最終的な絵画において同じレベルの視覚美学を達成しつつ,数日から数時間に短縮するプロセスにトランスファーラーニングを適用した。 私たちはこの研究のアプローチと成果を報告します。

Neural Painters is a class of models that follows a GAN framework to generate brushstrokes, which are then composed to create paintings. GANs are great generative models for AI Art but they are known to be notoriously difficult to train. To overcome GAN's limitations and to speed up the Neural Painter training, we applied Transfer Learning to the process reducing it from days to only hours, while achieving the same level of visual aesthetics in the final paintings generated. We report our approach and results in this work.
翻訳日:2021-11-22 17:34:34 公開日:2021-11-19
# (参考訳) インスタンス適応型ビデオ圧縮:テストセットのトレーニングによるニューラルコーデックの改善 [全文訳有]

Instance-Adaptive Video Compression: Improving Neural Codecs by Training on the Test Set ( http://arxiv.org/abs/2111.10302v1 )

ライセンス: CC BY 4.0
Ties van Rozendaal, Johann Brehmer, Yunfan Zhang, Reza Pourreza, Taco S. Cohen(参考訳) インスタンス適応学習に基づくビデオ圧縮アルゴリズムを提案する。 送信される各ビデオシーケンスに対して、事前訓練された圧縮モデルを微調整する。 最適なパラメータは潜在コードと共に受信者に送信される。 適切な混合モデルの下でパラメータ更新をエントロピー符号化することにより、ネットワークパラメータを効率的にエンコードできる。 このインスタンス適応圧縮アルゴリズムはベースモデルの選択に非依存であり、ニューラルビデオコーデックを改善する可能性がある。 UVG、HEVC、Xiphのデータセットでは、私たちのコーデックは、低レイテンシのスケールスペースフローモデルの性能を21%から26%のBDレートで、最先端のBフレームモデルは17~20%のBDレートで改善します。 また、インスタンス適応的な微調整によってドメインシフトに対する堅牢性が向上することを示す。 最後に,提案手法は圧縮モデルのキャパシティ要求を低減させる。 ネットワークサイズを72%削減した後でも,最先端のパフォーマンスを実現できることを示す。

We introduce a video compression algorithm based on instance-adaptive learning. On each video sequence to be transmitted, we finetune a pretrained compression model. The optimal parameters are transmitted to the receiver along with the latent code. By entropy-coding the parameter updates under a suitable mixture model prior, we ensure that the network parameters can be encoded efficiently. This instance-adaptive compression algorithm is agnostic about the choice of base model and has the potential to improve any neural video codec. On UVG, HEVC, and Xiph datasets, our codec improves the performance of a low-latency scale-space flow model by between 21% and 26% BD-rate savings, and that of a state-of-the-art B-frame model by 17 to 20% BD-rate savings. We also demonstrate that instance-adaptive finetuning improves the robustness to domain shift. Finally, our approach reduces the capacity requirements on compression models. We show that it enables a state-of-the-art performance even after reducing the network size by 72%.
翻訳日:2021-11-22 17:28:26 公開日:2021-11-19
# (参考訳) ファクトリゼーションに基づく画像ラベリング

Factorisation-based Image Labelling ( http://arxiv.org/abs/2111.10326v1 )

ライセンス: CC BY 4.0
Yu Yan, Yael Balbastre, Mikael Brudfors, John Ashburner(参考訳) 脳磁気共鳴画像(MRI)の解剖学的領域への分割は神経イメージングに有用である。 手動アノテーションは時間と費用がかかるため、完全に自動化され、汎用的な脳セグメンテーションアルゴリズムを持つことが非常に望ましい。 そこで本研究では,潜在変数を持つ生成モデルに基づくパッチ付きラベル伝播手法を提案する。 トレーニングが完了すると、Factisationベースのイメージラベリング(FIL)モデルは、さまざまなコントラストでターゲットイメージをラベル付けすることができます。 提案手法の有効性を,MICCAI 2012 Grand Challenge and Workshop on Multi-Atlas Labelingのデータを用いて比較した。 提案手法は汎用的な目的のため,異なるMRコントラストで取得した同一被験者の画像にラベルを付けることで,ドメインシフトの処理能力も評価する。

Segmentation of brain magnetic resonance images (MRI) into anatomical regions is a useful task in neuroimaging. Manual annotation is time consuming and expensive, so having a fully automated and general purpose brain segmentation algorithm is highly desirable. To this end, we propose a patched-based label propagation approach based on a generative model with latent variables. Once trained, our Factorisation-based Image Labelling (FIL) model is able to label target images with a variety of image contrasts. We compare the effectiveness of our proposed model against the state-of-the-art using data from the MICCAI 2012 Grand Challenge and Workshop on Multi-Atlas Labeling. As our approach is intended to be general purpose, we also assess how well it can handle domain shift by labelling images of the same subjects acquired with different MR contrasts.
翻訳日:2021-11-22 16:54:41 公開日:2021-11-19
# (参考訳) 大規模ビデオ転写を用いた高分解能ビデオランゲージ表現の改良 [全文訳有]

Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions ( http://arxiv.org/abs/2111.10337v1 )

ライセンス: CC BY 4.0
Hongwei Xue, Tiankai Hang, Yanhong Zeng, Yuchong Sun, Bei Liu, Huan Yang, Jianlong Fu, Baining Guo(参考訳) 共同ビデオと言語(VL)の事前学習について検討し、モダリティ間の学習を可能にし、多くの下流VLタスクに役立てる。 既存の作業は、低品質のビデオの特徴を抽出するか、限られたテキスト埋め込みを学習する一方、高解像度のビデオと多彩なセマンティクスは、モダリティ間の学習を大幅に改善できることを無視する。 本稿では,多くの視覚的タスクを対象とした高分解能・多変量VIdeo-LAnguage事前学習モデル(HD-VILA)を提案する。 特に、2つの異なる特性を持つ大きなデータセットを収集する。 1)720pビデオの371.5k時間を含む最初の高解像度データセット 2)最も多様なデータセットは15のyoutubeカテゴリをカバーする。 vl事前学習を可能にするために,リッチな時空間的特徴を学習するハイブリッドトランスフォーマティブと,学習した映像特徴と多様なテキストとの相互作用を強制するマルチモーダルトランスフォーマによるhd-vilaモデルを共同で最適化する。 事前学習モデルは、10のvl理解タスクと2つの新しいテキスト・ツー・ビジュアル生成タスクで最新の結果を得る。 例えば、ゼロショットMSR-VTTテキスト・ビデオ検索タスクでは38.5%のR@1、高解像度データセットLSMDCでは53.6%でSOTAモデルを上回った。 学習されたVL埋め込みは、テキスト対視覚操作や超解像度タスクにおいて視覚的に快く意味的に関連する結果を生成するのにも有効である。

We study joint video and language (VL) pre-training to enable cross-modality learning and benefit plentiful downstream VL tasks. Existing works either extract low-quality video features or learn limited text embedding, while neglecting that high-resolution videos and diversified semantics can significantly improve cross-modality learning. In this paper, we propose a novel High-resolution and Diversified VIdeo-LAnguage pre-training model (HD-VILA) for many visual tasks. In particular, we collect a large dataset with two distinct properties: 1) the first high-resolution dataset including 371.5k hours of 720p videos, and 2) the most diversified dataset covering 15 popular YouTube categories. To enable VL pre-training, we jointly optimize the HD-VILA model by a hybrid Transformer that learns rich spatiotemporal features, and a multimodal Transformer that enforces interactions of the learned video features with diversified texts. Our pre-training model achieves new state-of-the-art results in 10 VL understanding tasks and 2 more novel text-to-visual generation tasks. For example, we outperform SOTA models with relative increases of 38.5% R@1 in zero-shot MSR-VTT text-to-video retrieval task, and 53.6% in high-resolution dataset LSMDC. The learned VL embedding is also effective in generating visually pleasing and semantically relevant results in text-to-visual manipulation and super-resolution tasks.
翻訳日:2021-11-22 16:53:46 公開日:2021-11-19
# (参考訳) 統計的逆数における適応性の力について

On the power of adaptivity in statistical adversaries ( http://arxiv.org/abs/2111.10352v1 )

ライセンス: CC BY 4.0
Guy Blanc, Jane Lange, Ali Malik, Li-Yang Tan(参考訳) 本稿では,アルゴリズムが分布$\mathcal{D}$から引き出す統計的問題において,逆雑音モデルに関する基本的問題について検討する。 これらの敵の定義は、許容される腐敗の種類(ノイズモデル)と、これらの腐敗(適応性)を規定している。後者は、$\mathcal{d}$の分布を損なうことしかできない限定的な敵と、その腐敗を$\mathcal{d}$から引き出す特定のサンプル$s$に依存する適応的な敵とを区別する。 本研究では,文献で研究されているすべてのノイズモデルにおいて,難解な敵が適応的敵に効果的に等価であるか否かを検討する。 具体的には、従属敵の存在下でのアルゴリズム $\mathcal{a}$ の振る舞いは、常に適応敵の存在下で $\mathcal{a}'$ のアルゴリズムの振る舞いによって近似することができるか? 最初の結果は、すべての妥当なノイズモデルの下で、統計クエリアルゴリズムの幅広いクラスが実際にそうであることを示している。 次に、付加雑音の特定の場合において、この等価性はすべてのアルゴリズムに対して成立することを示す。 最後に、すべてのアルゴリズムと妥当なノイズモデルに対して、このステートメントを最大限の汎用性で証明するアプローチを図示する。

We study a fundamental question concerning adversarial noise models in statistical problems where the algorithm receives i.i.d. draws from a distribution $\mathcal{D}$. The definitions of these adversaries specify the type of allowable corruptions (noise model) as well as when these corruptions can be made (adaptivity); the latter differentiates between oblivious adversaries that can only corrupt the distribution $\mathcal{D}$ and adaptive adversaries that can have their corruptions depend on the specific sample $S$ that is drawn from $\mathcal{D}$. In this work, we investigate whether oblivious adversaries are effectively equivalent to adaptive adversaries, across all noise models studied in the literature. Specifically, can the behavior of an algorithm $\mathcal{A}$ in the presence of oblivious adversaries always be well-approximated by that of an algorithm $\mathcal{A}'$ in the presence of adaptive adversaries? Our first result shows that this is indeed the case for the broad class of statistical query algorithms, under all reasonable noise models. We then show that in the specific case of additive noise, this equivalence holds for all algorithms. Finally, we map out an approach towards proving this statement in its fullest generality, for all algorithms and under all reasonable noise models.
翻訳日:2021-11-22 16:36:43 公開日:2021-11-19
# メカニクスインフォームド機械学習を用いた食道仮想疾患の展望

Esophageal virtual disease landscape using mechanics-informed machine learning ( http://arxiv.org/abs/2111.09993v1 )

ライセンス: Link先を確認
Sourav Halder, Jun Yamasaki, Shashank Acharya, Wenjun Kou, Guy Elisha, Dustin A. Carlson, Peter J. Kahrilas, John E. Pandolfino, Neelesh A. Patankar(参考訳) 食道疾患の病態は食道壁の力学と関連している。 そこで, 食道疾患の根底にあるメカニズムを理解するためには, 食道壁力学に基づくパラメータを, 経時的変化と下垂体IPPに対応する生理的, 病態的条件にマッピングすることが重要である。 本研究では,流体力学と機械学習を組み合わせることで,食道疾患の根底にある物理を同定し,仮想疾患景観 (virtual disease landscape, vdl) と呼ばれるパラメータ空間にマップする。 一次元逆モデルは、内視鏡的機能的ルーメンイメージングプローブ(endoflip)と呼ばれる食道診断装置からの出力を処理し、食道壁の剛性、筋収縮パターン、食道壁の活発な緩和などのメカニカルベースのパラメータのセットを予測し、食道の機械的「健康」を推定する。 メカニクスに基づくパラメータは、潜伏空間を生成する変分オートエンコーダ(VAE)と、食道胃接合運動を推定するための機械的作業量を予測するサイドネットワークからなるニューラルネットワークのトレーニングに使用される。 潜在ベクトルと離散力学に基づくパラメータのセットは、VDLを定義し、様々な食道疾患に対応するクラスターを形成する。 VDLは異なる疾患を区別するだけでなく、病気の進行を予測するのにも使える。 最後に,治療効果を推定し,治療後の患者状態を追跡するための枠組みの臨床的適用性を示す。

The pathogenesis of esophageal disorders is related to the esophageal wall mechanics. Therefore, to understand the underlying fundamental mechanisms behind various esophageal disorders, it is crucial to map the esophageal wall mechanics-based parameters onto physiological and pathophysiological conditions corresponding to altered bolus transit and supraphysiologic IBP. In this work, we present a hybrid framework that combines fluid mechanics and machine learning to identify the underlying physics of the various esophageal disorders and maps them onto a parameter space which we call the virtual disease landscape (VDL). A one-dimensional inverse model processes the output from an esophageal diagnostic device called endoscopic functional lumen imaging probe (EndoFLIP) to estimate the mechanical "health" of the esophagus by predicting a set of mechanics-based parameters such as esophageal wall stiffness, muscle contraction pattern and active relaxation of esophageal walls. The mechanics-based parameters were then used to train a neural network that consists of a variational autoencoder (VAE) that generates a latent space and a side network that predicts mechanical work metrics for estimating esophagogastric junction motility. The latent vectors along with a set of discrete mechanics-based parameters define the VDL and form clusters corresponding to the various esophageal disorders. The VDL not only distinguishes different disorders but can also be used to predict disease progression in time. Finally, we also demonstrate the clinical applicability of this framework for estimating the effectiveness of a treatment and track patient condition after a treatment.
翻訳日:2021-11-22 16:34:39 公開日:2021-11-19
# 条件付き生成ネットを用いたフラッシュメモリチャネルのモデリング

Modeling Flash Memory Channels Using Conditional Generative Nets ( http://arxiv.org/abs/2111.10039v1 )

ライセンス: Link先を確認
Simeng Zheng, Chih-Hui Ho, Paul H. Siegel(参考訳) nandフラッシュメモリチャネルの理解は、継続的な密度増加と書き込みおよび読み取り機構に起因する複雑な歪みのため、ますます困難になっている。 本研究では,フラッシュメモリチャネルを特徴付けるデータ駆動型生成モデリング手法を提案する。 学習したモデルは、セルとその周辺セルのプログラムレベルに基づいて、個々のメモリセルから読み出し電圧を再構成することができる。 実験の結果, 再構成された読み出し電圧の統計的分布は, 市販フラッシュメモリチップ上で測定された分布を, 総変動距離で定量的かつ定量に反映することがわかった。 さらに,単語行とビット行の特定のパターンの誤り確率の比較により,学習モデルが正確なセル間干渉(ICI)効果を捉えることができることを確認した。

Understanding the NAND flash memory channel has become more and more challenging due to the continually increasing density and the complex distortions arising from the write and read mechanisms. In this work, we propose a data-driven generative modeling method to characterize the flash memory channel. The learned model can reconstruct the read voltage from an individual memory cell based on the program levels of the cell and its surrounding array of cells. Experimental results show that the statistical distribution of the reconstructed read voltages accurately reflects the measured distribution on a commercial flash memory chip, both qualitatively and as quantified by the total variation distance. Moreover, we observe that the learned model can capture precise inter-cell interference (ICI) effects, as verified by comparison of the error probabilities of specific patterns in wordlines and bitlines.
翻訳日:2021-11-22 16:34:11 公開日:2021-11-19
# A* の埋め込みとラベリング方式

Embeddings and labeling schemes for A* ( http://arxiv.org/abs/2111.10041v1 )

ライセンス: Link先を確認
Talya Eden, Piotr Indyk, Haike Xu(参考訳) A*はグラフ検索と経路探索のための古典的で一般的な方法である。 これは、任意の入力ノード$u$から宛先$t$までの最も短い距離を推定するヒューリスティック関数$h(u,t)$の存在を仮定する。 伝統的に、ヒューリスティックはドメインの専門家によって手作りされている。 しかし、ここ数年で、ヒューリスティックな機能を学ぶことへの関心が高まっている。 このような学習的ヒューリスティックスは、与えられたノード間の距離をこれらのノードの「特徴」に基づいて推定する。 本稿では,このような特徴に基づくヒューリスティックスの研究を形式化・開始する。 特に,ノルム埋め込みと距離ラベリングスキームによって誘導されるヒューリスティックスを考察し,各グラフノードを表すために使用される次元やビットの数と,A*アルゴリズムの実行時間とのトレードオフを低くする。 また、自然仮定の下では、下限はほぼ最適であることも示している。

A* is a classic and popular method for graphs search and path finding. It assumes the existence of a heuristic function $h(u,t)$ that estimates the shortest distance from any input node $u$ to the destination $t$. Traditionally, heuristics have been handcrafted by domain experts. However, over the last few years, there has been a growing interest in learning heuristic functions. Such learned heuristics estimate the distance between given nodes based on "features" of those nodes. In this paper we formalize and initiate the study of such feature-based heuristics. In particular, we consider heuristics induced by norm embeddings and distance labeling schemes, and provide lower bounds for the tradeoffs between the number of dimensions or bits used to represent each graph node, and the running time of the A* algorithm. We also show that, under natural assumptions, our lower bounds are almost optimal.
翻訳日:2021-11-22 16:33:59 公開日:2021-11-19
# 層間関係伝搬を用いた深部都市音の分類

Interpreting deep urban sound classification using Layer-wise Relevance Propagation ( http://arxiv.org/abs/2111.10235v1 )

ライセンス: Link先を確認
Marco Colussi and Stavros Ntalampiras(参考訳) 都市音分類のためのディープニューラルネットワークを構築した後、この研究は聴覚障害に苦しむドライバーの繊細な応用に焦点を当てた。 したがって、モデル予測を正当化し解釈する明確なエチオロジーは、強い要求である。 この目的のために、我々は、MelとConstant-Q Spectrogramという2つの異なるオーディオ信号の表現を使用し、深層ニューラルネットワークによる決定は、レイヤワイドな関連性伝播によって説明される。 同時に、両特徴集合に高い関連性を持つ周波数コンテンツが、現在分類課題を特徴付ける極端に識別的な情報を示す。 総合的に、深層都市音の分類を理解するための説明可能なAIフレームワークを提案する。

After constructing a deep neural network for urban sound classification, this work focuses on the sensitive application of assisting drivers suffering from hearing loss. As such, clear etiology justifying and interpreting model predictions comprise a strong requirement. To this end, we used two different representations of audio signals, i.e. Mel and constant-Q spectrograms, while the decisions made by the deep neural network are explained via layer-wise relevance propagation. At the same time, frequency content assigned with high relevance in both feature sets, indicates extremely discriminative information characterizing the present classification task. Overall, we present an explainable AI framework for understanding deep urban sound classification.
翻訳日:2021-11-22 16:33:44 公開日:2021-11-19
# 一般ベイズ学習における後部濃度と高速収束率

Posterior concentration and fast convergence rates for generalized Bayesian learning ( http://arxiv.org/abs/2111.10243v1 )

ライセンス: Link先を確認
Lam Si Tung Ho, Binh T. Nguyen, Vu Dinh, Duy Nguyen(参考訳) 本稿では,一般化ベイズ推定器の学習率について,仮説クラスが非対称で不規則な形状であり,損失関数が重く,最適仮説が一意ではないような一般的な設定で検討する。 マルチスケールベルンシュタイン条件下では、一般化後分布は最適仮説の集合を中心に集中しており、一般化ベイズ推定器は高速な学習率を達成することができる。 この結果から,標準ベイズ線形回帰が重み付き分布に対して頑健であることを示す。

In this paper, we study the learning rate of generalized Bayes estimators in a general setting where the hypothesis class can be uncountable and have an irregular shape, the loss function can have heavy tails, and the optimal hypothesis may not be unique. We prove that under the multi-scale Bernstein's condition, the generalized posterior distribution concentrates around the set of optimal hypotheses and the generalized Bayes estimator can achieve fast learning rate. Our results are applied to show that the standard Bayesian linear regression is robust to heavy-tailed distributions.
翻訳日:2021-11-22 16:32:23 公開日:2021-11-19
# 平均シフトアルゴリズムとクラスタツリーの漸近等価性

An Asymptotic Equivalence between the Mean-Shift Algorithm and the Cluster Tree ( http://arxiv.org/abs/2111.10298v1 )

ライセンス: Link先を確認
Ery Arias-Castro and Wanli Qiao(参考訳) 1970年代には、ハルディガンが提唱したレベルセットやクラスタツリーによるクラスタリングと、福永とホステラーが提唱した勾配線や勾配流によるクラスタリングの2つの重要な非パラメトリックなアプローチが現れた。 最近の論文では、これらの2つのアプローチは基本的に同じであり、勾配流がクラスタツリーに沿って移動する手段を提供することを示す。 より強固なケースを作るとき、私たちは、勾配フローがそうであるのに対して、クラスタツリーが基盤となる密度のサポート全体の分割を定義しないという事実に直面する。 本稿では,クラスタツリーからの分割を得る2つの方法 -- それぞれが単独で非常に自然である -- を提案し,その両方がサンプリング密度の標準的な仮定の下での勾配フローによって与えられる分割に還元されることを示すことで,この混乱を解消する。

Two important nonparametric approaches to clustering emerged in the 1970's: clustering by level sets or cluster tree as proposed by Hartigan, and clustering by gradient lines or gradient flow as proposed by Fukunaga and Hosteler. In a recent paper, we argue the thesis that these two approaches are fundamentally the same by showing that the gradient flow provides a way to move along the cluster tree. In making a stronger case, we are confronted with the fact the cluster tree does not define a partition of the entire support of the underlying density, while the gradient flow does. In the present paper, we resolve this conundrum by proposing two ways of obtaining a partition from the cluster tree -- each one of them very natural in its own right -- and showing that both of them reduce to the partition given by the gradient flow under standard assumptions on the sampling density.
翻訳日:2021-11-22 16:32:13 公開日:2021-11-19
# 均一ブラケット,容器,複合macbeath領域

Uniform Brackets, Containers, and Combinatorial Macbeath Regions ( http://arxiv.org/abs/2111.10048v1 )

ライセンス: Link先を確認
Kunal Dutta, Arijit Ghosh and Shay Moran(参考訳) 統計学と確率論における「一様」括弧、オンラインおよび分散学習理論における「コンテナ」、離散および計算幾何学における「組合せマクベス領域」の3つの異なる組み合わせ構造間の関係について検討する。 この3つの概念は、一様収束のためのvapnik-chervonenkis型理論のラインに沿って統一された枠組みの下で表現できる単一組合せ的性質の表象であることを示す。 これらの新しい接続は、これらのオブジェクトに対する改善された境界を証明するために、離散的および計算幾何学のツールをもたらすのに役立ちます。 提案手法は,半代数的しきい値関数の平滑化に対して,半空間の分散学習のための最適アルゴリズム,分散凸集合不連続性問題に対する改良アルゴリズム,オンラインアルゴリズムの後悔境界の改善に寄与する。

We study the connections between three seemingly different combinatorial structures - "uniform" brackets in statistics and probability theory, "containers" in online and distributed learning theory, and "combinatorial Macbeath regions", or Mnets in discrete and computational geometry. We show that these three concepts are manifestations of a single combinatorial property that can be expressed under a unified framework along the lines of Vapnik-Chervonenkis type theory for uniform convergence. These new connections help us to bring tools from discrete and computational geometry to prove improved bounds for these objects. Our improved bounds help to get an optimal algorithm for distributed learning of halfspaces, an improved algorithm for the distributed convex set disjointness problem, and improved regret bounds for online algorithms against a smoothed adversary for a large class of semi-algebraic threshold functions.
翻訳日:2021-11-22 16:31:56 公開日:2021-11-19
# (参考訳) ニューラルアルゴリズム推論を用いた視覚アナロジーの解法 [全文訳有]

Solving Visual Analogies Using Neural Algorithmic Reasoning ( http://arxiv.org/abs/2111.10361v1 )

ライセンス: CC BY 4.0
Atharv Sonwane, Gautam Shroff, Lovekesh Vig, Ashwin Srinivasan, Tirtharaj Dash(参考訳) 入力/出力画像のペアが関連している変換列の発見に関わる視覚的類似推論問題のクラスを、アナログ的に将来の入力を変換するために検討する。 このプログラム合成タスクは記号探索により容易に解決できる。 Velickovic と Blundell 2021 の「ニューラルアナログ推論」アプローチのバリエーションを用いて、入力画像が直接符号化されるシンボリック空間から導出される分散表現を操作する基本的ニューラルネットワーク変換のシーケンスを探索する。 形態や位置が見えない画像に対して、「神経推論」アプローチが一般化する範囲を評価する。

We consider a class of visual analogical reasoning problems that involve discovering the sequence of transformations by which pairs of input/output images are related, so as to analogously transform future inputs. This program synthesis task can be easily solved via symbolic search. Using a variation of the `neural analogical reasoning' approach of (Velickovic and Blundell 2021), we instead search for a sequence of elementary neural network transformations that manipulate distributed representations derived from a symbolic space, to which input images are directly encoded. We evaluate the extent to which our `neural reasoning' approach generalizes for images with unseen shapes and positions.
翻訳日:2021-11-22 16:30:31 公開日:2021-11-19
# 教師なしビジュアル時系列表現学習とクラスタリング

Unsupervised Visual Time-Series Representation Learning and Clustering ( http://arxiv.org/abs/2111.10309v1 )

ライセンス: Link先を確認
Gaurangi Anand and Richi Nayak(参考訳) 時系列データは、IoT(Internet-of-Thin gs)インフラストラクチャ、コネクテッドおよびウェアラブルデバイス、リモートセンシング、自律運転研究、オーディオビデオ通信など、ユビキタスに生成される。 本稿では,これらの時系列における教師なし表現学習の可能性について検討する。 本稿では、新しいデータ変換と教師なし学習システムを用いて、学習を他のドメインから時系列に転送し、前者が非常に大きなラベル付きデータセットで訓練された広範囲なモデルを持つようにする。 時系列クラスタリングにより,提案手法の可能性を実証する広範囲な実験を行った。

Time-series data is generated ubiquitously from Internet-of-Things (IoT) infrastructure, connected and wearable devices, remote sensing, autonomous driving research and, audio-video communications, in enormous volumes. This paper investigates the potential of unsupervised representation learning for these time-series. In this paper, we use a novel data transformation along with novel unsupervised learning regime to transfer the learning from other domains to time-series where the former have extensive models heavily trained on very large labelled datasets. We conduct extensive experiments to demonstrate the potential of the proposed approach through time-series clustering.
翻訳日:2021-11-22 16:16:55 公開日:2021-11-19
# リモートセンシングセグメンテーションタスクのための自己および半教師あり手法の評価

Evaluating Self and Semi-Supervised Methods for Remote Sensing Segmentation Tasks ( http://arxiv.org/abs/2111.10079v1 )

ライセンス: Link先を確認
Chaitanya Patel, Shashank Sharma, Varun Gulshan(参考訳) 河床セグメンテーション,土地被覆マッピング,洪水マッピングの3つのリモートセンシングタスクにおいて,下流の作業性能を改善するためにラベルのないデータを活用する,最近の自己および半教師付きML手法の厳密な評価を行う。 これらの手法は、ラベルなし画像へのアクセスが容易で、真理ラベルの取得が高価である場合が多いため、リモートセンシングタスクには特に有用である。 これらのリモートセンシングセグメンテーションタスクにおいて、ラベル付きデータセット以外の)ラベルなし画像がトレーニングに利用できる場合に期待できるパフォーマンス改善を定量化する。 テストセットがトレーニングと検証セットに対してドメインシフトがある場合、これらのテクニックの有効性をテストする実験も設計する。

We perform a rigorous evaluation of recent self and semi-supervised ML techniques that leverage unlabeled data for improving downstream task performance, on three remote sensing tasks of riverbed segmentation, land cover mapping and flood mapping. These methods are especially valuable for remote sensing tasks since there is easy access to unlabeled imagery and getting ground truth labels can often be expensive. We quantify performance improvements one can expect on these remote sensing segmentation tasks when unlabeled imagery (outside of the labeled dataset) is made available for training. We also design experiments to test the effectiveness of these techniques when the test set has a domain shift relative to the training and validation sets.
翻訳日:2021-11-22 16:16:20 公開日:2021-11-19
# 地理データのための位置エンコーダグラフニューラルネットワーク

Positional Encoder Graph Neural Networks for Geographic Data ( http://arxiv.org/abs/2111.10144v1 )

ライセンス: Link先を確認
Konstantin Klemmer, Nathan Safir, Daniel B Neill(参考訳) グラフニューラルネットワーク(GNN)は、連続空間データをモデリングするための強力でスケーラブルなソリューションを提供する。 しかし、データの幾何学的構造に関するさらなる文脈がないため、それらは入力グラフを構築するためにユークリッド距離に依存することが多い。 この仮定は、空間構造がより複雑で明らかにユークリッド的でない(例えば道路網)多くの実世界の環境では不可能である。 本稿では,空間コンテキストと相関関係をモデルに明示的に組み込んだ新しいフレームワークPE-GNNを提案する。 近年の地理空間的補助的タスク学習と意味的空間埋め込みの進歩に基づいて,提案手法は地理的座標の文脈認識ベクトル符号化を学習し,(2)主タスクと並行してデータの空間的自己相関を予測する。 空間回帰タスクでは, 提案手法の有効性を示すとともに, 現状の異なるGNN手法よりも性能を向上する。 我々はまた,GNNが現在競争力に欠ける課題である空間補間,すなわちノード特徴のない空間回帰に対するアプローチをテストする。 本手法はgnnのベースラインよりも大幅に改善されるだけでなく,空間補間問題の最も一般的な手法であるガウス過程に適合する。

Graph neural networks (GNNs) provide a powerful and scalable solution for modeling continuous spatial data. However, in the absence of further context on the geometric structure of the data, they often rely on Euclidean distances to construct the input graphs. This assumption can be improbable in many real-world settings, where the spatial structure is more complex and explicitly non-Euclidean (e.g., road networks). In this paper, we propose PE-GNN, a new framework that incorporates spatial context and correlation explicitly into the models. Building on recent advances in geospatial auxiliary task learning and semantic spatial embeddings, our proposed method (1) learns a context-aware vector encoding of the geographic coordinates and (2) predicts spatial autocorrelation in the data in parallel with the main task. On spatial regression tasks, we show the effectiveness of our approach, improving performance over different state-of-the-art GNN approaches. We also test our approach for spatial interpolation, i.e., spatial regression without node features, a task that GNNs are currently not competitive at. We observe that our approach not only vastly improves over the GNN baselines, but can match Gaussian processes, the most commonly utilized method for spatial interpolation problems.
翻訳日:2021-11-22 16:16:06 公開日:2021-11-19
# ClevrTex: 教師なしマルチオブジェクトセグメンテーションのためのテクスチャリッチベンチマーク

ClevrTex: A Texture-Rich Benchmark for Unsupervised Multi-Object Segmentation ( http://arxiv.org/abs/2111.10265v1 )

ライセンス: Link先を確認
Laurynas Karazija, Iro Laina, Christian Rupprecht(参考訳) 最近、シーンを教師なしの方法で、すなわち教師なしのマルチオブジェクトセグメンテーションで、複数のオブジェクトに分解およびセグメント化することを目的としたメソッドが急増している。 このようなタスクを実行することは、コンピュータビジョンの長年の目標であり、セグメンテーションモデルのトレーニングに密なアノテーションを必要とせずに、オブジェクトレベルの推論を解き放つことができる。 著しい進歩にもかかわらず、現在のモデルは、普通の背景にモノクロオブジェクトを描いた視覚的に単純なシーンで開発され、訓練されている。 しかし、自然界は視覚的に複雑であり、多様なテクスチャや複雑な照明効果といった相違点がある。 本研究では,アルゴリズムの比較,評価,解析を行う次の課題として,ClevrTexという新しいベンチマークを提案する。 ClevrTexは、様々な形状、テクスチャ、フォトマップ素材を備えた合成シーンを特徴としている。 背景に配置した3-10個のオブジェクトを描いた50kのサンプルが60の素材のカタログで作成され、さらに25の異なる材料で作成された10kのイメージがフィーチャーされたテストセットも用意されている。 我々は、clevrtex上で最近教師なしのマルチオブジェクトセグメンテーションモデルの大規模なセットをベンチマークし、より単純なデータで素晴らしいパフォーマンスにもかかわらず、すべての最先端のアプローチがテクスチャ設定で良い表現を学習できないことを発見した。 また、clevrtexデータセットの変種を作成し、シーンの複雑さの異なる側面を制御し、個々の欠点に対する現在のアプローチを調査します。 データセットとコードはhttps://www.robots.o x.ac.uk/~vgg/researc h/clevrtexで入手できる。

There has been a recent surge in methods that aim to decompose and segment scenes into multiple objects in an unsupervised manner, i.e., unsupervised multi-object segmentation. Performing such a task is a long-standing goal of computer vision, offering to unlock object-level reasoning without requiring dense annotations to train segmentation models. Despite significant progress, current models are developed and trained on visually simple scenes depicting mono-colored objects on plain backgrounds. The natural world, however, is visually complex with confounding aspects such as diverse textures and complicated lighting effects. In this study, we present a new benchmark called ClevrTex, designed as the next challenge to compare, evaluate and analyze algorithms. ClevrTex features synthetic scenes with diverse shapes, textures and photo-mapped materials, created using physically based rendering techniques. It includes 50k examples depicting 3-10 objects arranged on a background, created using a catalog of 60 materials, and a further test set featuring 10k images created using 25 different materials. We benchmark a large set of recent unsupervised multi-object segmentation models on ClevrTex and find all state-of-the-art approaches fail to learn good representations in the textured setting, despite impressive performance on simpler data. We also create variants of the ClevrTex dataset, controlling for different aspects of scene complexity, and probe current approaches for individual shortcomings. Dataset and code are available at https://www.robots.o x.ac.uk/~vgg/researc h/clevrtex.
翻訳日:2021-11-22 16:14:03 公開日:2021-11-19
# アーキテクチャ非依存ニューラルネットワーク圧縮のためのコンパクトパラメータ表現に向けて

Toward Compact Parameter Representations for Architecture-Agnosti c Neural Network Compression ( http://arxiv.org/abs/2111.10320v1 )

ライセンス: Link先を確認
Yuezhou Sun, Wenlong Zhao, Lijun Zhang, Xiao Liu, Hui Guan, Matei Zaharia(参考訳) 本稿では,訓練パラメータをコンパクトに表現し保存するという観点から,ディープニューラルネットワーク(dnn)の圧縮について検討する。 DNNパラメータの層間アーキテクチャに依存しない表現共有の機会について検討する。 これを実現するために、feedforwardパラメータをdnnアーキテクチャから切り離し、画像記述子のために考案された極端に損失のある圧縮法である加法量子化を利用してパラメータをコンパクトに表現する。 それらの表現はタスクの精度を改善するためにタスクの目的に基づいて微調整される。 我々はmobilenet-v2, vgg-11, resnet-50, feature pyramid network, pruned dnnの分類・検出・セグメンテーションタスクに関する広範な実験を行った。 概念的に単純なスキームは、反復的な非構造化プルーニングを一貫して上回っている。 ILSVRC12分類チャレンジで76.1%の精度でResNet-50に適用されると、精度損失のない7.2\times$圧縮比と、74.79%の精度で15.3\times$圧縮比が得られる。 さらに、ネットワーク層間での表現共有が頻繁に起こり、DNN全体の共有表現を学習することで、モデルを複数の別々の部分として圧縮するよりも、同じ圧縮比で精度良く実現できることを示唆している。 我々は、リソース制約のあるデバイス上でDNNの展開を容易にするためにPyTorchコードをリリースし、DNNパラメータの効率的な表現と保存に関する今後の研究を刺激する。

This paper investigates deep neural network (DNN) compression from the perspective of compactly representing and storing trained parameters. We explore the previously overlooked opportunity of cross-layer architecture-agnosti c representation sharing for DNN parameters. To do this, we decouple feedforward parameters from DNN architectures and leverage additive quantization, an extreme lossy compression method invented for image descriptors, to compactly represent the parameters. The representations are then finetuned on task objectives to improve task accuracy. We conduct extensive experiments on MobileNet-v2, VGG-11, ResNet-50, Feature Pyramid Networks, and pruned DNNs trained for classification, detection, and segmentation tasks. The conceptually simple scheme consistently outperforms iterative unstructured pruning. Applied to ResNet-50 with 76.1% top-1 accuracy on the ILSVRC12 classification challenge, it achieves a $7.2\times$ compression ratio with no accuracy loss and a $15.3\times$ compression ratio at 74.79% accuracy. Further analyses suggest that representation sharing can frequently happen across network layers and that learning shared representations for an entire DNN can achieve better accuracy at the same compression ratio than compressing the model as multiple separate parts. We release PyTorch code to facilitate DNN deployment on resource-constrained devices and spur future research on efficient representations and storage of DNN parameters.
翻訳日:2021-11-22 16:13:37 公開日:2021-11-19
# マルチスピーカーのための韻律クラスタリングの改善と話者非依存音素レベル韻律制御

Improved Prosodic Clustering for Multispeaker and Speaker-independent Phoneme-level Prosody Control ( http://arxiv.org/abs/2111.10168v1 )

ライセンス: Link先を確認
Myrsini Christidou, Alexandra Vioni, Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, Panos Kakoulidis, June Sig Sung, Hyoungmin Park, Aimilios Chalamandaris, Pirros Tsiakoulis(参考訳) 本稿では,韻律クラスタリングに基づくマルチ話者音声合成におけるf0と持続時間の音素レベル韻律制御手法を提案する。 プロソディエンコーダと並行してマルチスピーカーアーキテクチャモジュールを組み込んだ自己回帰的注意ベースモデルが用いられる。 韻律制御範囲と範囲を増加させる基本単一話者法に対するいくつかの改善が提案されている。 より具体的には、データ拡張、f0正規化、持続時間のバランス付きクラスタリング、話者非依存の韻律クラスタリングを用いる。 これらの修正は、話者のアイデンティティを維持しながら、トレーニングセットに含まれるすべての話者に対して、きめ細かい音素レベルの韻律制御を可能にする。 モデルはまた、限られた量のデータを持つ未確認話者に微調整され、その韻律制御能力を維持し、話者非依存の韻律クラスタリングが有効であることを示す。 実験結果から,提案手法は,複数話者設定が導入する可変性に拘わらず,各話者の範囲内で効率の良い韻律制御を可能にすることを確認した。

This paper presents a method for phoneme-level prosody control of F0 and duration on a multispeaker text-to-speech setup, which is based on prosodic clustering. An autoregressive attention-based model is used, incorporating multispeaker architecture modules in parallel to a prosody encoder. Several improvements over the basic single-speaker method are proposed that increase the prosodic control range and coverage. More specifically we employ data augmentation, F0 normalization, balanced clustering for duration, and speaker-independent prosodic clustering. These modifications enable fine-grained phoneme-level prosody control for all speakers contained in the training set, while maintaining the speaker identity. The model is also fine-tuned to unseen speakers with limited amounts of data and it is shown to maintain its prosody control capabilities, verifying that the speaker-independent prosodic clustering is effective. Experimental results verify that the model maintains high output speech quality and that the proposed method allows efficient prosody control within each speaker's range despite the variability that a multispeaker setting introduces.
翻訳日:2021-11-22 16:13:12 公開日:2021-11-19
# 表現型非係り受け音声合成のための単語レベル制御

Word-Level Style Control for Expressive, Non-attentive Speech Synthesis ( http://arxiv.org/abs/2111.10173v1 )

ライセンス: Link先を確認
Konstantinos Klapsas, Nikolaos Ellinas, June Sig Sung, Hyoungmin Park, Spyros Raptis(参考訳) 本稿では,単語レベルで発話スタイルをモデル化し制御するための表現型音声合成アーキテクチャを提案する。 2つのエンコーダの助けを借りて、単語レベルのスタイリスティックと韻律表現の音声データの学習を試みる。 第1のモデルでは、音響的特徴から各単語のスタイルトークンの組み合わせを見つけ、第2のモデルでは、スタイル情報から切り離すために、音声情報のみに条件付けられた単語レベルのシーケンスを出力する。 2つのエンコーダ出力は、音素エンコーダ出力と整列して連結され、非減衰タコトロンモデルで復号される。 追加の事前エンコーダは、参照発話なしでモデルが実行できるように、スタイルトークンを自動回帰的に予測するために使用される。 結果として得られたモデルは、語レベルとグローバルの両方のスタイルと、韻律伝達機能の両方を制御できることが分かりました。

This paper presents an expressive speech synthesis architecture for modeling and controlling the speaking style at a word level. It attempts to learn word-level stylistic and prosodic representations of the speech data, with the aid of two encoders. The first one models style by finding a combination of style tokens for each word given the acoustic features, and the second outputs a word-level sequence conditioned only on the phonetic information in order to disentangle it from the style information. The two encoder outputs are aligned and concatenated with the phoneme encoder outputs and then decoded with a Non-Attentive Tacotron model. An extra prior encoder is used to predict the style tokens autoregressively, in order for the model to be able to run without a reference utterance. We find that the resulting model gives both word-level and global control over the style, as well as prosody transfer capabilities.
翻訳日:2021-11-22 16:12:52 公開日:2021-11-19
# エンドツーエンド音声合成における音素レベル韻律制御のための韻律クラスタリング

Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis ( http://arxiv.org/abs/2111.10177v1 )

ライセンス: Link先を確認
Alexandra Vioni, Myrsini Christidou, Nikolaos Ellinas, Georgios Vamvoukakis, Panos Kakoulidis, Taehoon Kim, June Sig Sung, Hyoungmin Park, Aimilios Chalamandaris, Pirros Tsiakoulis(参考訳) 本稿では,自己回帰注意型音声合成システムにおける音素レベルの韻律制御手法を提案する。 変分フレームワークを用いて潜在韻律的特徴を学習する代わりに、トレーニングセットの音声データから音素レベルF0と持続時間特徴を直接抽出する。 各韻律的特徴は教師なしクラスタリングを用いて離散化され、発話毎に韻律的ラベルのシーケンスを生成する。 このシーケンスは、韻律エンコーダと対応する注意モジュールを利用してデコーダを条件付けるために、音素列と並行して使用される。 実験の結果,提案手法はf0と持続時間の音素レベル制御を可能とし,高品質な生成音声を保持できることがわかった。 f0クラスタのセントロイドを音符に置き換えることで、モデルは話者の範囲内で音符とオクターブを制御することもできる。

This paper presents a method for controlling the prosody at the phoneme level in an autoregressive attention-based text-to-speech system. Instead of learning latent prosodic features with a variational framework as is commonly done, we directly extract phoneme-level F0 and duration features from the speech data in the training set. Each prosodic feature is discretized using unsupervised clustering in order to produce a sequence of prosodic labels for each utterance. This sequence is used in parallel to the phoneme sequence in order to condition the decoder with the utilization of a prosodic encoder and a corresponding attention module. Experimental results show that the proposed method retains the high quality of generated speech, while allowing phoneme-level control of F0 and duration. By replacing the F0 cluster centroids with musical notes, the model can also provide control over the note and octave within the range of the speaker.
翻訳日:2021-11-22 16:12:33 公開日:2021-11-19
# SLUE:自然言語の音声理解評価のための新しいベンチマークタスク

SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech ( http://arxiv.org/abs/2111.10367v1 )

ライセンス: Link先を確認
Suwon Shon, Ankita Pasad, Felix Wu, Pablo Brusco, Yoav Artzi, Karen Livescu, Kyu J. Han(参考訳) 音声処理の進歩は、共有データセットとベンチマークによって促進されている。 歴史的にこれらは、自動音声認識(ASR)、話者識別、その他の下位レベルタスクに重点を置いている。 エンドツーエンドモデルの使用など、高レベルの言語理解タスクへの関心は高まっているが、そのようなタスクに対する注釈付きデータセットは少ない。 同時に、最近の研究は、ジェネリック表現を事前学習し、比較的少ないラベル付きデータを用いていくつかのタスクを微調整する可能性を示している。 本稿では,限定的なラベル付き学習セットと対応する評価セットからなる音声言語理解評価(SLUE)のためのベンチマークタスクスイートを作成することを提案する。 このリソースにより、研究コミュニティは進捗を追跡でき、より高いレベルのタスクに対する事前訓練された表現を評価し、パイプラインとエンドツーエンドのアプローチの実用性のようなオープンな質問を研究できる。 本稿では、名前付きエンティティ認識、感情分析、asrからなるslueベンチマークスイートの第1フェーズについて述べる。 我々は、自然に生成された(読み書きや合成されていない)音声と、自由に利用できるデータセットに焦点を当てる。 我々は,VoxCelebとVoxPopuliデータセットのサブセットに新たな転写とアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。

Progress in speech processing has been facilitated by shared datasets and benchmarks. Historically these have focused on automatic speech recognition (ASR), speaker identification, or other lower-level tasks. Interest has been growing in higher-level spoken language understanding tasks, including using end-to-end models, but there are fewer annotated datasets for such tasks. At the same time, recent work shows the possibility of pre-training generic representations and then fine-tuning for several tasks using relatively little labeled data. We propose to create a suite of benchmark tasks for Spoken Language Understanding Evaluation (SLUE) consisting of limited-size labeled training sets and corresponding evaluation sets. This resource would allow the research community to track progress, evaluate pre-trained representations for higher-level tasks, and study open questions such as the utility of pipeline versus end-to-end approaches. We present the first phase of the SLUE benchmark suite, consisting of named entity recognition, sentiment analysis, and ASR on the corresponding datasets. We focus on naturally produced (not read or synthesized) speech, and freely available datasets. We provide new transcriptions and annotations on subsets of the VoxCeleb and VoxPopuli datasets, evaluation metrics and results for baseline models, and an open-source toolkit to reproduce the baselines and evaluate new models.
翻訳日:2021-11-22 16:12:18 公開日:2021-11-19
# 整数格子上の単調部分モジュラー関数最大化のためのランダム化アルゴリズム

Randomized Algorithms for Monotone Submodular Function Maximization on the Integer Lattice ( http://arxiv.org/abs/2111.10175v1 )

ライセンス: Link先を確認
Alberto Schiabel and Vyacheslav Kungurtsev and Jakub Marecek(参考訳) 集合部分モジュラー目的関数の最適化問題には実世界の多くの応用がある。 同じ項目を1回以上選択できるような離散的なシナリオでは、領域は2要素集合から有界整数格子へと一般化される。 本研究では,濃度制約を受ける有界整数格子上の単調部分モジュラ関数を最大化する問題を考える。 特に、drm-submodular関数、すなわち減少する戻り値特性を示す整数格子上で定義される関数の最大化に焦点をあてる。 任意の epsilon > 0 が与えられたとき、Mirzasoleiman らによる部分モジュラ函数の設定のために開発された確率的グリーディアルゴリズムに着想を得たフレームワークを用いて、O(1 - 1/e - epsilon)近似の確率的保証を持つランダム化アルゴリズムを提案する。 次に, 合成DR-部分モジュラー関数において, 提案したアルゴリズムを整数格子に適用することは, 対象問題を目標領域に還元し, 最高速の集合部分モジュラー最大化アルゴリズムを適用するなど, 選択肢よりも高速であることを示す。

Optimization problems with set submodular objective functions have many real-world applications. In discrete scenarios, where the same item can be selected more than once, the domain is generalized from a 2-element set to a bounded integer lattice. In this work, we consider the problem of maximizing a monotone submodular function on the bounded integer lattice subject to a cardinality constraint. In particular, we focus on maximizing DR-submodular functions, i.e., functions defined on the integer lattice that exhibit the diminishing returns property. Given any epsilon > 0, we present a randomized algorithm with probabilistic guarantees of O(1 - 1/e - epsilon) approximation, using a framework inspired by a Stochastic Greedy algorithm developed for set submodular functions by Mirzasoleiman et al. We then show that, on synthetic DR-submodular functions, applying our proposed algorithm on the integer lattice is faster than the alternatives, including reducing a target problem to the set domain and then applying the fastest known set submodular maximization algorithm.
翻訳日:2021-11-22 16:11:58 公開日:2021-11-19
# UN-AVOIDS:非教師的・非パラメトリックな外乱と不変検出スコーリングの可視化手法

UN-AVOIDS: Unsupervised and Nonparametric Approach for Visualizing Outliers and Invariant Detection Scoring ( http://arxiv.org/abs/2111.10010v1 )

ライセンス: Link先を確認
Waleed A.Yousef, Issa Traore, William Briguglio(参考訳) 異常(異常)の可視化と検出は多くの分野、特にサイバーセキュリティにおいて重要である。 これらの分野ではいくつかのアプローチが提案されているが、私たちの知る限りでは、どちらも同時に、あるいは協調的に、一貫した枠組みで両方の目的を達成できていない。 これらのアプローチの可視化手法は、スタンドアロンの視覚検出を容易にするデータ探索ではなく、検出アルゴリズムの出力を説明するために導入された。 UN-AVOIDSは、厳密な二分決定ではなく、不変の異常スコア(通常$[0,1]$)を割り当てる、外乱の可視化(人間のプロセス)と検出(アルゴリズムプロセス)の両方のための教師なしおよび非パラメトリックなアプローチです。 UN-AVOIDSの新規性の主な特徴は、データを新しい空間に変換することであり、この論文では、近辺累積密度関数 (NCDF) として導入され、可視化と検出の両方を行う。 この領域では、アウトレーヤは著しく視覚的に識別可能であるため、検出アルゴリズムによって割り当てられた異常スコアは、ROC曲線(AUC)の下で高い領域を達成した。 シミュレーションと最近公開された2つのサイバーセキュリティデータセットを用いてUN-AVOIDSを評価し、LOF, IF, FABODの3つの最も成功した異常検出手法と比較した。 AUCに関しては、UN-AVOIDSはほぼ総合的な勝者である。 この記事は、UN-AVOIDSの新しい理論的および実践的な道のプレビューを提供することで締めくくっている。 その中には、UN-AVOIDSの検出アルゴリズム(バックエンジンで動作する)、NCDF可視化空間(プロットに関連付けられている)、および元の特徴空間における他の従来の視覚化方法(いずれも1つのインタラクティブな環境でリンクされている)を提供することで、アナリストを支援するソフトウェアであるVAAD(Anomaly Detection)が設計されている。

The visualization and detection of anomalies (outliers) are of crucial importance to many fields, particularly cybersecurity. Several approaches have been proposed in these fields, yet to the best of our knowledge, none of them has fulfilled both objectives, simultaneously or cooperatively, in one coherent framework. The visualization methods of these approaches were introduced for explaining the output of a detection algorithm, not for data exploration that facilitates a standalone visual detection. This is our point of departure: UN-AVOIDS, an unsupervised and nonparametric approach for both visualization (a human process) and detection (an algorithmic process) of outliers, that assigns invariant anomalous scores (normalized to $[0,1]$), rather than hard binary-decision. The main aspect of novelty of UN-AVOIDS is that it transforms data into a new space, which is introduced in this paper as neighborhood cumulative density function (NCDF), in which both visualization and detection are carried out. In this space, outliers are remarkably visually distinguishable, and therefore the anomaly scores assigned by the detection algorithm achieved a high area under the ROC curve (AUC). We assessed UN-AVOIDS on both simulated and two recently published cybersecurity datasets, and compared it to three of the most successful anomaly detection methods: LOF, IF, and FABOD. In terms of AUC, UN-AVOIDS was almost an overall winner. The article concludes by providing a preview of new theoretical and practical avenues for UN-AVOIDS. Among them is designing a visualization aided anomaly detection (VAAD), a type of software that aids analysts by providing UN-AVOIDS' detection algorithm (running in a back engine), NCDF visualization space (rendered to plots), along with other conventional methods of visualization in the original feature space, all of which are linked in one interactive environment.
翻訳日:2021-11-22 16:10:57 公開日:2021-11-19
# 神経マルコフ連鎖モンテカルロシミュレーションにおける自己相関時間の解析

Analysis of autocorrelation times in Neural Markov Chain Monte Carlo simulations ( http://arxiv.org/abs/2111.10189v1 )

ライセンス: Link先を確認
Piotr Bia{\l}as and Piotr Korcyl and Tomasz Stebel(参考訳) ニューラルマルコフ連鎖モンテカルロシミュレーションにおける自己相関の深層的研究を行った。これは、ニューラルネットワークを用いて独立した提案を行う従来のメトロポリスアルゴリズムのバージョンである。 2次元イジングモデルを用いてアイデアを説明する。 本研究では, 自己相関時間のいくつかの推定法を提案し, 解析結果に触発され, 逆温度$\beta$の関数として検討した。 そこで本研究では代替損失関数を提案し,その自己コア化時間への影響について検討する。 さらに,ニューラルネットワーク学習過程におけるシステム対称性(z_2$および/または翻訳)が自己相関時間に及ぼす影響について検討した。 最終的に,部分熱バス更新を組み込んだ手法を提案する。 上記の拡張の影響は16 \times 16$ spinシステムで議論されている。 今回の知見の要約は,より複雑なモデルのニューラルマルコフ連鎖モンテカルロシミュレーションの実装への手掛かりとなるかもしれない。

We provide a deepened study of autocorrelations in Neural Markov Chain Monte Carlo simulations, a version of the traditional Metropolis algorithm which employs neural networks to provide independent proposals. We illustrate our ideas using the two-dimensional Ising model. We propose several estimates of autocorrelation times, some inspired by analytical results derived for the Metropolized Independent Sampler, which we compare and study as a function of inverse temperature $\beta$. Based on that we propose an alternative loss function and study its impact on the autocorelation times. Furthermore, we investigate the impact of imposing system symmetries ($Z_2$ and/or translational) in the neural network training process on the autocorrelation times. Eventually, we propose a scheme which incorporates partial heat-bath updates. The impact of the above enhancements is discussed for a $16 \times 16$ spin system. The summary of our findings may serve as a guide to the implementation of Neural Markov Chain Monte Carlo simulations of more complicated models.
翻訳日:2021-11-22 16:10:20 公開日:2021-11-19
# 非同期和重みゴシッププロトコルにおける非漸近境界

Non asymptotic bounds in asynchronous sum-weight gossip protocols ( http://arxiv.org/abs/2111.10248v1 )

ライセンス: Link先を確認
David Picard, J\'er\^ome Fellus, St\'ephane Garnier(参考訳) 本稿では,非同期ゴシッププロトコルにおける非漸近拡散時間に着目した。 非同期ゴシッププロトコルは、関連するグラフ上のメッセージをランダムに交換することで、ノードネットワーク内で分散計算を行うように設計されている。 ノード間のコンセンサスを実現するには、最小のメッセージ数を交換する必要がある。 一般の場合、そのような数に確率的拘束を与える。 グラフのノード数のみに依存する完全連結グラフに対する明示的な公式と、グラフのスペクトルに依存する任意のグラフに対する近似を提供する。

This paper focuses on non-asymptotic diffusion time in asynchronous gossip protocols. Asynchronous gossip protocols are designed to perform distributed computation in a network of nodes by randomly exchanging messages on the associated graph. To achieve consensus among nodes, a minimal number of messages has to be exchanged. We provides a probabilistic bound to such number for the general case. We provide a explicit formula for fully connected graphs depending only on the number of nodes and an approximation for any graph depending on the spectrum of the graph.
翻訳日:2021-11-22 16:09:49 公開日:2021-11-19
# 小型データレジームにおける物理エンハンスドニューラルネットワーク

Physics-enhanced Neural Networks in the Small Data Regime ( http://arxiv.org/abs/2111.10329v1 )

ライセンス: Link先を確認
Jonas Eichelsd\"orfer, Sebastian Kaltenbach, Phaedon-Stelios Koutsourelakis(参考訳) 物理システムのダイナミクスを特定するには、観測データを統一するだけでなく、物理法則も取り入れる機械学習モデルが必要である。 HamiltonianやLagrangian NNのような物理原理に基づくニューラルネットワークは、最近、外挿予測を生成し、システムのダイナミクスを正確に表現する有望な結果を示している。 また,実エネルギーレベルを訓練中の正規化項として考慮し,物理的情報を帰納バイアスとして用いることにより,さらに改善できることを示す。 特に少量のデータしか利用できない場合、これらの改善は予測能力を著しく向上させることができる。 提案する正規化項をハミルトンニューラルネットワーク(hnn)と制約付きハミルトンニューラルネットワーク(chhn)に適用し,未知の初期条件下での予測を生成し,予測精度の有意な向上を報告した。

Identifying the dynamics of physical systems requires a machine learning model that can assimilate observational data, but also incorporate the laws of physics. Neural Networks based on physical principles such as the Hamiltonian or Lagrangian NNs have recently shown promising results in generating extrapolative predictions and accurately representing the system's dynamics. We show that by additionally considering the actual energy level as a regularization term during training and thus using physical information as inductive bias, the results can be further improved. Especially in the case where only small amounts of data are available, these improvements can significantly enhance the predictive capability. We apply the proposed regularization term to a Hamiltonian Neural Network (HNN) and Constrained Hamiltonian Neural Network (CHHN) for a single and double pendulum, generate predictions under unseen initial conditions and report significant gains in predictive accuracy.
翻訳日:2021-11-22 16:09:42 公開日:2021-11-19
# ハイパースペクトル画像分類のための3次元畳み込みニューラルネットワークモデル

A 3D 2D convolutional Neural Network Model for Hyperspectral Image Classification ( http://arxiv.org/abs/2111.10293v1 )

ライセンス: Link先を確認
Jiaxin Cao and Xiaoyan Li(参考訳) 提案したSEHybridSNモデルでは、浅い特徴を再利用するために高密度ブロックが用いられ、階層的な空間スペクトル特性をより活用することを目的とした。 その後の深度分離可能な畳み込み層を用いて空間情報を識別した。 各3次元畳み込み層と各2次元畳み込み層の後方で行うチャネルアテンション法により,空間スペクトル特性のさらなる改善を実現した。 実験の結果,本モデルは非常に少ないトレーニングデータを用いて,より識別的な空間スペクトル特徴を学習できることが示唆された。 トレーニングには0.05と0.01のラベル付きデータのみを使用するSEHybridSNが有効である。

In the proposed SEHybridSN model, a dense block was used to reuse shallow feature and aimed at better exploiting hierarchical spatial spectral feature. Subsequent depth separable convolutional layers were used to discriminate the spatial information. Further refinement of spatial spectral features was realized by the channel attention method, which were performed behind every 3D convolutional layer and every 2D convolutional layer. Experiment results indicate that our proposed model learn more discriminative spatial spectral features using very few training data. SEHybridSN using only 0.05 and 0.01 labeled data for training, a very satisfactory performance is obtained.
翻訳日:2021-11-22 16:09:26 公開日:2021-11-19
# ガウス行列過程:データにおける方向性の新しいモデル

Gaussian Determinantal Processes: a new model for directionality in data ( http://arxiv.org/abs/2111.09990v1 )

ライセンス: Link先を確認
Subhro Ghosh, Philippe Rigollet(参考訳) 決定点過程 (Determinantal point process, DPPs) は、最近、データにおける負の依存または反発の現象をモデル化するための一般的なツールとなっている。 しかしながら、古典的パラメトリック統計理論の類似性に対する我々の理解は、このクラスのモデルに対してかなり限定的である。 本研究では,観測点に対するパラメトリック変調の影響を明確に解釈可能なガウス型dppのパラメトリック系について検討する。 パラメータ変調は、その反発構造に方向性を導入することによって観測された点に影響を及ぼし、主方向は最大依存(すなわち最も長い範囲)の方向に対応することを示す。 このモデルにより、主成分分析(PCA)の新たな代替手段が容易に得られ、データが最も拡散する方向を支持する次元削減ツールとなる。 この手法は,PCA研究の枠組みとして共分散行列に類似したスパイクモデルの統計的解析によって補完される。 これらの理論的研究は、確率行列理論、確率幾何学および関連するトピックのさらなる検討に興味深い疑問を呈する。

Determinantal point processes (a.k.a. DPPs) have recently become popular tools for modeling the phenomenon of negative dependence, or repulsion, in data. However, our understanding of an analogue of a classical parametric statistical theory is rather limited for this class of models. In this work, we investigate a parametric family of Gaussian DPPs with a clearly interpretable effect of parametric modulation on the observed points. We show that parameter modulation impacts the observed points by introducing directionality in their repulsion structure, and the principal directions correspond to the directions of maximal (i.e. the most long ranged) dependency. This model readily yields a novel and viable alternative to Principal Component Analysis (PCA) as a dimension reduction tool that favors directions along which the data is most spread out. This methodological contribution is complemented by a statistical analysis of a spiked model similar to that employed for covariance matrices as a framework to study PCA. These theoretical investigations unveil intriguing questions for further examination in random matrix theory, stochastic geometry and related topics.
翻訳日:2021-11-22 16:08:04 公開日:2021-11-19
# テキスト感性分析のための辞書ベース手法とBERT

Lexicon-based Methods vs. BERT for Text Sentiment Analysis ( http://arxiv.org/abs/2111.10097v1 )

ライセンス: Link先を確認
Anastasia Kotelnikova, Danil Paschenko, Klavdiya Bochenina, Evgeny Kotelnikov(参考訳) 近年,感情分析手法の性能が大幅に向上している。 これはTransformerアーキテクチャ、特にBERTに基づく様々なモデルの使用によるものである。 しかし、深層ニューラルネットワークモデルは訓練が困難であり、解釈が不十分である。 別のアプローチとして、感情レキシコンを用いたルールベース手法がある。 それらは速く、訓練を必要としず、よく解釈される。 しかし、最近はディープラーニングの普及により、レキシコンベースの手法が背景に回帰している。 本稿の目的は,ロシア語に適応したSO-CAL法とSentiStrength lexicon法の性能を検討することである。 我々は、これらの手法、およびrubertニューラルネットワークモデルを16テキストコーパス上でテストし、その結果を分析した。 RuBERTはレキシコン法を平均で上回っているが、SO-CALは16の4コーパスでRuBERTを上回っている。

The performance of sentiment analysis methods has greatly increased in recent years. This is due to the use of various models based on the Transformer architecture, in particular BERT. However, deep neural network models are difficult to train and poorly interpretable. An alternative approach is rule-based methods using sentiment lexicons. They are fast, require no training, and are well interpreted. But recently, due to the widespread use of deep learning, lexicon-based methods have receded into the background. The purpose of the article is to study the performance of the SO-CAL and SentiStrength lexicon-based methods, adapted for the Russian language. We have tested these methods, as well as the RuBERT neural network model, on 16 text corpora and have analyzed their results. RuBERT outperforms both lexicon-based methods on average, but SO-CAL surpasses RuBERT for four corpora out of 16.
翻訳日:2021-11-22 16:07:49 公開日:2021-11-19
# BERTは感情のレキシコンを見ているか?

Does BERT look at sentiment lexicon? ( http://arxiv.org/abs/2111.10100v1 )

ライセンス: Link先を確認
Elena Razova, Sergey Vychegzhanin, Evgeny Kotelnikov(参考訳) 感情分析の主なアプローチはルールベースの手法とマシーン学習、特にBERTを含むTrans-formerアーキテクチャを備えたディープニューラルネットワークモデルである。 感情分析タスクにおけるニューラルネットワークモデルの性能は,ルールベース手法の性能よりも優れている。 この状況の理由は、ディープニューラルネットワークモデルの解釈性が悪いため、いまだに不明である。 2つのアプローチの基本的な違いを理解するための鍵の1つは、ニューラルネットワークモデルにおける感情レキシコンがどのように考慮されているかの分析である。 そこで我々は,ロシア語RuBERTモデルの注意重み行列について検討した。 我々は感傷テキストコーパスでRuBERTを微調整し、感傷的および中立的語彙に対する注意重みの分布を比較した。 平均すると、様々なモデルvar-iantsの頭部の3/4は、中性よりも感情レキシコンに統計的に注意を払っている。

The main approaches to sentiment analysis are rule-based methods and ma-chine learning, in particular, deep neural network models with the Trans-former architecture, including BERT. The performance of neural network models in the tasks of sentiment analysis is superior to the performance of rule-based methods. The reasons for this situation remain unclear due to the poor interpretability of deep neural network models. One of the main keys to understanding the fundamental differences between the two approaches is the analysis of how sentiment lexicon is taken into account in neural network models. To this end, we study the attention weights matrices of the Russian-language RuBERT model. We fine-tune RuBERT on sentiment text corpora and compare the distributions of attention weights for sentiment and neutral lexicons. It turns out that, on average, 3/4 of the heads of various model var-iants statistically pay more attention to the sentiment lexicon compared to the neutral one.
翻訳日:2021-11-22 16:07:34 公開日:2021-11-19
# 毒性検出は会話的文脈に敏感になりうる

Toxicity Detection can be Sensitive to the Conversational Context ( http://arxiv.org/abs/2111.10223v1 )

ライセンス: Link先を確認
Alexandros Xenos, John Pavlopoulos, Ion Androutsopoulos, Lucas Dixon, Jeffrey Sorensen and Leo Laugier(参考訳) 現在の毒性検出データセットでは、会話コンテキストに依存すると認識されるユーザ投稿はまれである。 したがって、既存のデータセットで訓練された毒性検知器は、文脈を無視する傾向があり、状況に敏感な毒性の検出が困難になる。 2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。 (一 注釈家は、前項を文脈として各投稿を考察し、 (ii)注釈には追加の文脈がなかった。 そこで,本稿では,コンテキスト(過去の投稿)も考慮された場合,毒性が知覚されるポストの同定を目的とした,コンテキスト感度推定という新たなタスクを導入する。 次に,本課題における機械学習システムの評価を行い,実用品質の分類器を開発することを示し,知識蒸留によるデータ拡張により,さらなる性能向上が期待できることを示す。 このようなシステムは、よりコンテキスト依存的なポストによる毒性検出データセットの強化や、モデレーターが親ポストをいつ検討すべきかの提案に利用することができる。

User posts whose perceived toxicity depends on the conversational context are rare in current toxicity detection datasets. Hence, toxicity detectors trained on existing datasets will also tend to disregard context, making the detection of context-sensitive toxicity harder when it does occur. We construct and publicly release a dataset of 10,000 posts with two kinds of toxicity labels: (i) annotators considered each post with the previous one as context; and (ii) annotators had no additional context. Based on this, we introduce a new task, context sensitivity estimation, which aims to identify posts whose perceived toxicity changes if the context (previous post) is also considered. We then evaluate machine learning systems on this task, showing that classifiers of practical quality can be developed, and we show that data augmentation with knowledge distillation can improve the performance further. Such systems could be used to enhance toxicity detection datasets with more context-dependent posts, or to suggest when moderators should consider the parent posts, which often may be unnecessary and may otherwise introduce significant additional cost.
翻訳日:2021-11-22 16:07:22 公開日:2021-11-19
# demfi:フローガイド付き注意相関と再帰的ブースティングによる深部継手デブラリングとマルチフレーム補間

DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with Flow-Guided Attentive Correlation and Recursive Boosting ( http://arxiv.org/abs/2111.09985v1 )

ライセンス: Link先を確認
Jihyong Oh, Munchurl Kim(参考訳) 本稿では,低フレームレートのぼやけたビデオから高フレームレートのシャープなビデオに,フロー誘導の注意-相関に基づく特徴ボルスターリング (FAC-FB) モジュールと再帰的ブースティング (RB) を多フレーム補間 (MFI) の観点から正確に変換する,DeMFI(DeMFI) フレームワークを提案する。 DeMFI-Netは、そのベースラインバージョンがFAC-FBモジュールで特徴フローベースのワープを実行し、シャープな補間フレームと2つのセンターインプットフレームを得る。 さらに、拡張バージョンでは、GRUベースのRBを用いた画素フローベースのワープに基づくジョイントタスク性能が向上している。 我々のFAC-FBモジュールは,特徴領域内のぼやけた入力フレーム上に分散したぼやけた画素情報を効果的に収集し,全体的な関節性能を改善する。 その結果,私たちのDeMFI-Netは,最近のSOTA法と比較して,多種多様なデータセットに対する最先端(SOTA)性能を実現している。 事前トレーニングされたDeMFI-Netを含むすべてのソースコードはhttps://github.com/J ihyongOh/DeMFIで公開されている。

In this paper, we propose a novel joint deblurring and multi-frame interpolation (DeMFI) framework, called DeMFI-Net, which accurately converts blurry videos of lower-frame-rate to sharp videos at higher-frame-rate based on flow-guided attentive-correlatio n-based feature bolstering (FAC-FB) module and recursive boosting (RB), in terms of multi-frame interpolation (MFI). The DeMFI-Net jointly performs deblurring and MFI where its baseline version performs feature-flow-based warping with FAC-FB module to obtain a sharp-interpolated frame as well to deblur two center-input frames. Moreover, its extended version further improves the joint task performance based on pixel-flow-based warping with GRU-based RB. Our FAC-FB module effectively gathers the distributed blurry pixel information over blurry input frames in feature-domain to improve the overall joint performances, which is computationally efficient since its attentive correlation is only focused pointwise. As a result, our DeMFI-Net achieves state-of-the-art (SOTA) performances for diverse datasets with significant margins compared to the recent SOTA methods, for both deblurring and MFI. All source codes including pretrained DeMFI-Net are publicly available at https://github.com/J ihyongOh/DeMFI.
翻訳日:2021-11-22 16:07:06 公開日:2021-11-19
# fbnetv5: ニューラルネットワークによる単一実行中の複数のタスクの検索

FBNetV5: Neural Architecture Search for Multiple Tasks in One Run ( http://arxiv.org/abs/2111.10007v1 )

ライセンス: Link先を確認
Bichen Wu, Chaojian Li, Hang Zhang, Xiaoliang Dai, Peizhao Zhang, Matthew Yu, Jialiang Wang, Yingyan Lin, Peter Vajda(参考訳) ニューラルネットワーク探索(NAS)は、正確で効率的な画像分類モデルの設計に広く採用されている。 しかし、新しいコンピュータビジョンタスクにNASを適用するには、まだ膨大な労力を要する。 これは 1) これまでのnas研究は,画像分類に重点を置いているが,他の課題をほとんど無視している。 2)多くのNAS作業は、他のタスクに適切に転送できないタスク固有のコンポーネントの最適化に重点を置いている。 3) 既存のNASメソッドは一般的に"プロキシレス"に設計されており、各タスクのトレーニングパイプラインに統合するためには多大な労力を要する。 これらの課題に対処するために、計算コストと人的労力を大幅に削減して、様々な視覚タスクのためのニューラルアーキテクチャを探索できるNASフレームワークであるFBNetV5を提案する。 特に私たちは 1) 単純かつ包括的で、転送可能な探索空間 2) 目標タスクの訓練パイプラインに絡み合うマルチタスク探索プロセス,及び 3)タスク数に依存しない計算コストで複数のタスクのアーキテクチャを同時に探索するアルゴリズム。 本研究では,画像分類,物体検出,意味セグメンテーションという3つの基本ビジョンタスクを対象としたfbnetv5の評価を行った。 FBNetV5が1回の検索で検索したモデルは、画像分類(例えば、FBNetV3と比較して、画像分類(+1.3% ImageNet top-1の精度)、セマンティックセグメンテーション(例えば、3.6倍のFLOPを持つSegFormerより1.8%高いADE20K val.mIoU)、オブジェクト検出(例えば、+1.1% COCO val.mAPとYOLOXに比べて1.2倍少ないFLOPを持つ)の3つのタスクにおいて、過去の最先端よりも優れていた。

Neural Architecture Search (NAS) has been widely adopted to design accurate and efficient image classification models. However, applying NAS to a new computer vision task still requires a huge amount of effort. This is because 1) previous NAS research has been over-prioritized on image classification while largely ignoring other tasks; 2) many NAS works focus on optimizing task-specific components that cannot be favorably transferred to other tasks; and 3) existing NAS methods are typically designed to be "proxyless" and require significant effort to be integrated with each new task's training pipelines. To tackle these challenges, we propose FBNetV5, a NAS framework that can search for neural architectures for a variety of vision tasks with much reduced computational cost and human effort. Specifically, we design 1) a search space that is simple yet inclusive and transferable; 2) a multitask search process that is disentangled with target tasks' training pipeline; and 3) an algorithm to simultaneously search for architectures for multiple tasks with a computational cost agnostic to the number of tasks. We evaluate the proposed FBNetV5 targeting three fundamental vision tasks -- image classification, object detection, and semantic segmentation. Models searched by FBNetV5 in a single run of search have outperformed the previous stateof-the-art in all the three tasks: image classification (e.g., +1.3% ImageNet top-1 accuracy under the same FLOPs as compared to FBNetV3), semantic segmentation (e.g., +1.8% higher ADE20K val. mIoU than SegFormer with 3.6x fewer FLOPs), and object detection (e.g., +1.1% COCO val. mAP with 1.2x fewer FLOPs as compared to YOLOX).
翻訳日:2021-11-22 16:04:44 公開日:2021-11-19
# Tiny Model Constraints下での視覚変換器におけるクエリ、キー、バリュー埋め込みの再考

Rethinking Query, Key, and Value Embedding in Vision Transformer under Tiny Model Constraints ( http://arxiv.org/abs/2111.10017v1 )

ライセンス: Link先を確認
Jaesin Ahn, Jiuk Hong, Jeongwoo Ju and Heechul Jung(参考訳) ビジョントランス (ViT) はコンピュータビジョン分野において支配的なモデルである。 帰納バイアスと複雑性に主に焦点をあてる多くの研究にもかかわらず、より優れたトランスフォーマーネットワークを見つけるという問題が残っている。 例えば、従来のトランスフォーマーベースのモデルは、通常、各クエリ(Q)、キー(K)、値(V)の埋め込みに対して、マルチヘッド自己アテンションの前にプロジェクション層を使用する。 意味的$q、k$、および$v$埋め込みの十分な考慮がなければ、パフォーマンスが低下する可能性がある。 本稿では,$q$,$k$,$v$組込みのための3種類の構造を提案する。 最初の構造はReLUの2つの層を利用しており、これは$Q, K$, $V$の非線形埋め込みである。 2つ目は、$Q、K$、$V$の知識を共有するための非線形レイヤの1つを共有することである。 3つ目の提案された構造は、すべての非線形層をコードパラメータで共有する。 コードはトレーニング可能で、その値は、$Q$、$K$、$V$で実行される埋め込みプロセスを決定する。 そこで本研究では,提案手法が最先端手法に比べて優れた画像分類性能を示す。 提案した手法は、XCiT-N12 (69.9\%$) のトランスフォーマーモデルで要求されるものと比較して、ImageNet-1kデータセット上でいくつかのパラメータ($3.1M$)で71.4\%$を達成した。 さらに、CIFAR-10、CIFAR-100、Stanford Carsデータセット、STL-10データセットの転送学習における平均的なパラメータはわずか2.9M$で93.3\%で、これは元のXCiT-N12モデルによる9.2\%の精度よりも優れている。

A vision transformer (ViT) is the dominant model in the computer vision field. Despite numerous studies that mainly focus on dealing with inductive bias and complexity, there remains the problem of finding better transformer networks. For example, conventional transformer-based models usually use a projection layer for each query (Q), key (K), and value (V) embedding before multi-head self-attention. Insufficient consideration of semantic $Q, K$, and $V$ embedding may lead to a performance drop. In this paper, we propose three types of structures for $Q$, $K$, and $V$ embedding. The first structure utilizes two layers with ReLU, which is a non-linear embedding for $Q, K$, and $V$. The second involves sharing one of the non-linear layers to share knowledge among $Q, K$, and $V$. The third proposed structure shares all non-linear layers with code parameters. The codes are trainable, and the values determine the embedding process to be performed among $Q$, $K$, and $V$. Hence, we demonstrate the superior image classification performance of the proposed approaches in experiments compared to several state-of-the-art approaches. The proposed method achieved $71.4\%$ with a few parameters (of $3.1M$) on the ImageNet-1k dataset compared to that required by the original transformer model of XCiT-N12 ($69.9\%$). Additionally, the method achieved $93.3\%$ with only $2.9M$ parameters in transfer learning on average for the CIFAR-10, CIFAR-100, Stanford Cars datasets, and STL-10 datasets, which is better than the accuracy of $92.2\%$ obtained via the original XCiT-N12 model.
翻訳日:2021-11-22 16:04:04 公開日:2021-11-19
# UFO:視覚言語表現学習のためのUniFied TransfOrmer

UFO: A UniFied TransfOrmer for Vision-Language Representation Learning ( http://arxiv.org/abs/2111.10023v1 )

ライセンス: Link先を確認
Jianfeng Wang, Xiaowei Hu, Zhe Gan, Zhengyuan Yang, Xiyang Dai, Zicheng Liu, Yumao Lu, Lijuan Wang(参考訳) 本稿では,視覚言語(vl)表現学習のための一様入力(画像や言語など)または多様入力(画像と質問の結合など)を処理可能な単一統一トランスフォーマ(ufo)を提案する。 既存のアプローチは通常、各モダリティのための個々のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。 ネットワークアーキテクチャを単純化するため,VL事前学習において,画像テキストコントラスト損失,画像テキストマッチング損失,マスク付き言語モデリング損失などのマルチタスク学習を双方向およびセック2セックの注意マスクに基づいて実施する。 同じトランスフォーマーネットワークは、イメージエンコーダ、テキストエンコーダ、または異なる事前訓練タスクにおける融合ネットワークとして使用される。 視覚的質問応答,COCO画像キャプション (クロスエントロピー最適化) とnocaps (SPICE) で, 異なるタスク間の対立を減らし, 新たな芸術性を実現する。 他の下流タスク、例えば画像テキスト検索では、競争性能も達成します。

In this paper, we propose a single UniFied transfOrmer (UFO), which is capable of processing either unimodal inputs (e.g., image or language) or multimodal inputs (e.g., the concatenation of the image and the question), for vision-language (VL) representation learning. Existing approaches typically design an individual network for each modality and/or a specific fusion network for multimodal tasks. To simplify the network architecture, we use a single transformer network and enforce multi-task learning during VL pre-training, which includes the image-text contrastive loss, image-text matching loss, and masked language modeling loss based on the bidirectional and the seq2seq attention mask. The same transformer network is used as the image encoder, the text encoder, or the fusion network in different pre-training tasks. Empirically, we observe less conflict among different tasks and achieve new state of the arts on visual question answering, COCO image captioning (cross-entropy optimization) and nocaps (in SPICE). On other downstream tasks, e.g., image-text retrieval, we also achieve competitive performance.
翻訳日:2021-11-22 16:03:33 公開日:2021-11-19
# 舗装き裂検出のための深部領域適応

Deep Domain Adaptation for Pavement Crack Detection ( http://arxiv.org/abs/2111.10101v1 )

ライセンス: Link先を確認
Huijun Liu, Chunhua Yang, Ao Li, Yongxin Ge, Sheng Huang, Xin Feng, Zhimin Ruan(参考訳) 深層学習に基づく舗装ひび割れ検出法では,正確な予測を行うために,詳細なひび割れ位置情報を含む大規模ラベルが必要となることが多い。 しかし, 舗装ひび割れの視覚パターンが多岐にわたるため, 手作業によるひび割れ位置の特定は困難である。 本稿では,DDACDN(Deep Domain Adaptation-based Crack Detection Network)を提案する。DDACDNは,ソースドメインの知識を活用して,画像レベルのラベルのみが利用可能な対象ドメイン内の複数カテゴリの亀裂位置情報を予測する。 具体的には、ddacdnはまず、2分岐重み共有バックボーンネットワークによってソースドメインとターゲットドメインの両方からクラックの特徴を抽出する。 そして、クロスドメイン適応を実現するために、ソースドメインからターゲットドメインへのクラック特徴を適応させるために、各ドメインの特徴空間から3つのスケール特徴を集約して中間ドメインを構築する。 最後に、ネットワークは両方のドメインの知識を含んでおり、舗装の亀裂を認識し、局所化するように訓練されている。 そこで我々は,CQU-BPDD と RDD2020 の2つの難解な舗装き裂データセットを用いた。 さらに,38994枚の高分解能舗装疾患画像を含む,cqu-bpmddと呼ばれる大規模舗装多層疾患データセットを構築し,モデルのロバスト性をさらに評価した。 大規模実験により、DDACDNは対象領域の亀裂位置を予測する上で、最先端の舗装き裂検出法より優れていることが示された。

Deep learning-based pavement cracks detection methods often require large-scale labels with detailed crack location information to learn accurate predictions. In practice, however, crack locations are very difficult to be manually annotated due to various visual patterns of pavement crack. In this paper, we propose a Deep Domain Adaptation-based Crack Detection Network (DDACDN), which learns to take advantage of the source domain knowledge to predict the multi-category crack location information in the target domain, where only image-level labels are available. Specifically, DDACDN first extracts crack features from both the source and target domain by a two-branch weights-shared backbone network. And in an effort to achieve the cross-domain adaptation, an intermediate domain is constructed by aggregating the three-scale features from the feature space of each domain to adapt the crack features from the source domain to the target domain. Finally, the network involves the knowledge of both domains and is trained to recognize and localize pavement cracks. To facilitate accurate training and validation for domain adaptation, we use two challenging pavement crack datasets CQU-BPDD and RDD2020. Furthermore, we construct a new large-scale Bituminous Pavement Multi-label Disease Dataset named CQU-BPMDD, which contains 38994 high-resolution pavement disease images to further evaluate the robustness of our model. Extensive experiments demonstrate that DDACDN outperforms state-of-the-art pavement crack detection methods in predicting the crack location on the target domain.
翻訳日:2021-11-22 16:03:13 公開日:2021-11-19
# 補完画像ラベルを用いたインスタンスレベルの有能物体検出の学習

Learning to Detect Instance-level Salient Objects Using Complementary Image Labels ( http://arxiv.org/abs/2111.10137v1 )

ライセンス: Link先を確認
Xin Tian, Ke Xu, Xin Yang, Baocai Yin, Rynson W.H. Lau,(参考訳) 既存のサルエントインスタンス検出(SID)メソッドは通常、ピクセルレベルの注釈付きデータセットから学習する。 本稿では,SID問題に対する最初の弱教師付きアプローチを提案する。 一般のサリエンシ検出では弱い監視が検討されているが、主にオブジェクトのローカライゼーションにクラスラベルを使用する。 しかし、意味的な親和性が高いサルエントインスタンスはラベルによって容易に分離できないため、インスタンス認識のサルエント情報を学習するためにクラスラベルのみを使用するのは自明ではない。 サブティナイズ情報は、有能なアイテムの数を瞬時に判断するので、自然に有能なインスタンスを検出し、同じインスタンスの異なる部分をグループ化しながら、同じクラスのインスタンスを分離するのに役立ちます。 そこで本研究では,SID問題に対して,クラスとサブティナイズラベルを弱い監督力として用いることを提案する。 提案手法では,候補オブジェクトの識別にクラス一貫性情報を利用するサリエンシー検出ブランチ,オブジェクト境界の特定にクラス不一致情報を利用するバウンダリ検出ブランチ,サブイット化情報を用いたセンタロイド検出ブランチの3つの枝からなる新しい弱教師付きネットワークを提案する。 この相補的な情報は融合され、健全なインスタンスマップを生成する。 さらに,学習プロセスを容易にするため,モデルが学習したラベルノイズとそれに対応するノイズを,プログレッシブなサルエントなインスタンス予測とモデルリフレッシュで再現することで,段階的な学習手法を提案する。 提案手法は,関連するタスクから適応した,注意深く設計したベースライン手法に対して好適であることを示す。

Existing salient instance detection (SID) methods typically learn from pixel-level annotated datasets. In this paper, we present the first weakly-supervised approach to the SID problem. Although weak supervision has been considered in general saliency detection, it is mainly based on using class labels for object localization. However, it is non-trivial to use only class labels to learn instance-aware saliency information, as salient instances with high semantic affinities may not be easily separated by the labels. As the subitizing information provides an instant judgement on the number of salient items, it is naturally related to detecting salient instances and may help separate instances of the same class while grouping different parts of the same instance. Inspired by this observation, we propose to use class and subitizing labels as weak supervision for the SID problem. We propose a novel weakly-supervised network with three branches: a Saliency Detection Branch leveraging class consistency information to locate candidate objects; a Boundary Detection Branch exploiting class discrepancy information to delineate object boundaries; and a Centroid Detection Branch using subitizing information to detect salient instance centroids. This complementary information is then fused to produce a salient instance map. To facilitate the learning process, we further propose a progressive training scheme to reduce label noise and the corresponding noise learned by the model, via reciprocating the model with progressive salient instance prediction and model refreshing. Our extensive evaluations show that the proposed method plays favorably against carefully designed baseline methods adapted from related tasks.
翻訳日:2021-11-22 16:02:49 公開日:2021-11-19
# DVCFlow:人間ライクなビデオキャプションに向けた情報フローのモデリング

DVCFlow: Modeling Information Flow Towards Human-like Video Captioning ( http://arxiv.org/abs/2111.10146v1 )

ライセンス: Link先を確認
Xu Yan, Zhengcong Fei, Shuhui Wang, Qingming Huang, Qi Tian(参考訳) 高密度ビデオキャプション(dvc)は、ビデオ内の複数のイベントを解明するために、マルチセンテンス記述を生成することを目的としている。 既存の方法は、主に個々のビデオセグメントからキャプションを生成し、グローバルな視覚的コンテキストへの適応や、高速に進化した視覚コンテンツとテキスト記述の間の進行的なアライメントに欠け、冗長でスプリケートな記述をもたらす。 本稿では,映像シーケンスやキャプション間で変化する進行情報をモデル化するための情報フローの概念を紹介する。 クロスモーダル情報フローアライメント機構を設計することで、視覚情報フローとテキスト情報フローをキャプチャしてアライメントし、より豊かなコンテキストとイベント/トピック進化のダイナミクスでキャプションプロセスを内包する。 クロスモーダル情報フローアライメントモジュールをベースとしたDVCFlowフレームワークは,各ビデオセグメントのグローバル機能とローカル機能の両方をキャプチャするグローバルローカルビジュアルエンコーダと,キャプションを生成するプリトレーニング済みキャプションジェネレータで構成されている。 人気の高いActivityNet CaptionsとYouCookIIデータセットの大規模な実験は、我々の手法が競争ベースラインを著しく上回り、主観的および客観的なテストに応じてより人間的なテキストを生成することを示した。

Dense video captioning (DVC) aims to generate multi-sentence descriptions to elucidate the multiple events in the video, which is challenging and demands visual consistency, discoursal coherence, and linguistic diversity. Existing methods mainly generate captions from individual video segments, lacking adaptation to the global visual context and progressive alignment between the fast-evolved visual content and textual descriptions, which results in redundant and spliced descriptions. In this paper, we introduce the concept of information flow to model the progressive information changing across video sequence and captions. By designing a Cross-modal Information Flow Alignment mechanism, the visual and textual information flows are captured and aligned, which endows the captioning process with richer context and dynamics on event/topic evolution. Based on the Cross-modal Information Flow Alignment module, we further put forward DVCFlow framework, which consists of a Global-local Visual Encoder to capture both global features and local features for each video segment, and a pre-trained Caption Generator to produce captions. Extensive experiments on the popular ActivityNet Captions and YouCookII datasets demonstrate that our method significantly outperforms competitive baselines, and generates more human-like text according to subject and objective tests.
翻訳日:2021-11-22 16:02:16 公開日:2021-11-19
# 実世界における半教師ありドメイン一般化:新しいベンチマークと強いベースライン

Semi-Supervised Domain Generalization in Real World:New Benchmark and Strong Baseline ( http://arxiv.org/abs/2111.10221v1 )

ライセンス: Link先を確認
Luojun Lin, Han Xie, Zhifeng Yang, Zhishu Sun, Wenxi Liu, Yuanlong Yu, Weijie Chen, Shicai Yang and Di Xie(参考訳) 従来のドメイン一般化は、正確なアノテーションを必要とする複数のドメインからドメイン不変表現を学ぶことを目的としている。 しかし、現実的なアプリケーションシナリオでは、大量のデータを集めて注釈を付けるのは面倒すぎるか、あるいは不可能です。 しかし、web dataは大量のラベルのないデータにアクセスするための無料のランチを提供し、リッチなスタイル情報を提供し、ドメインの一般化能力を高めることができる。 本稿では,ラベル付きドメインとラベル付きドメインの相互作用を研究するために,半教師付きドメイン一般化と呼ばれる新しいタスクを導入し,既存の技術の限界を押し上げるための新しい現実的挑戦となるwebクロージャデータセットを含む2つのベンチマークを確立する。 このタスクに取り組むための簡単な解決策は、ラベル付きドメインからラベル付きドメインへのクラス情報を疑似ラベル付けを通じて、ドメイン混乱トレーニングと組み合わせて伝達することである。 ドメインギャップを狭めることで擬似ラベルの品質が向上し、さらに一般化のためのドメイン不変機能学習が進むことを考慮し、ラベル伝達とドメイン一般化の間のポジティブなフィードバックを促進するためのサイクル学習フレームワークを提案し、ラベル付きドメインとラベルなしドメインをカリキュラム学習形式でブリッジする進化中の中間ドメインを選択する。 フレームワークの有効性を検証する実験を行った。 この結果が示すように、Webcrawled Dataはドメインの一般化に役立ちます。 私たちのコードは後で入手できます。

Conventional domain generalization aims to learn domain invariant representation from multiple domains, which requires accurate annotations. In realistic application scenarios, however, it is too cumbersome or even infeasible to collect and annotate the large mass of data. Yet, web data provides a free lunch to access a huge amount of unlabeled data with rich style information that can be harnessed to augment domain generalization ability. In this paper, we introduce a novel task, termed as semi-supervised domain generalization, to study how to interact the labeled and unlabeled domains, and establish two benchmarks including a web-crawled dataset, which poses a novel yet realistic challenge to push the limits of existing technologies. To tackle this task, a straightforward solution is to propagate the class information from the labeled to the unlabeled domains via pseudo labeling in conjunction with domain confusion training. Considering narrowing domain gap can improve the quality of pseudo labels and further advance domain invariant feature learning for generalization, we propose a cycle learning framework to encourage the positive feedback between label propagation and domain generalization, in favor of an evolving intermediate domain bridging the labeled and unlabeled domains in a curriculum learning manner. Experiments are conducted to validate the effectiveness of our framework. It is worth highlighting that web-crawled data benefits domain generalization as demonstrated in our results. Our code will be available later.
翻訳日:2021-11-22 16:01:50 公開日:2021-11-19
# ハマー分布による確率的回帰

Probabilistic Regression with Huber Distributions ( http://arxiv.org/abs/2111.10296v1 )

ライセンス: Link先を確認
David Mohlin, Gerald Bianchi, Josephine Sullivan(参考訳) 本稿では,ニューラルネットワークを用いて物体の位置を共分散行列とともに推定する確率的手法について述べる。 提案手法は,外乱に対する堅牢性,ネットワーク出力に対する境界勾配,その他の望ましい特性を有するように設計されている。 これを実現するために,ハマー損失に触発された新しい確率分布を導入する。 また, 回帰する座標系に対する方向選択の不均一性を確保するために, 正定値行列をパラメータ化する新しい手法を提案する。 本手法は,一般的なボディポーズと顔のランドマークデータセットを用いて評価し,非熱マップ法の性能以上の性能を得る。 私たちのコードはgithub.com/Davmo049/ Public_prob_regressi on_with_huber_distri butionsで利用可能です。

In this paper we describe a probabilistic method for estimating the position of an object along with its covariance matrix using neural networks. Our method is designed to be robust to outliers, have bounded gradients with respect to the network outputs, among other desirable properties. To achieve this we introduce a novel probability distribution inspired by the Huber loss. We also introduce a new way to parameterize positive definite matrices to ensure invariance to the choice of orientation for the coordinate system we regress over. We evaluate our method on popular body pose and facial landmark datasets and get performance on par or exceeding the performance of non-heatmap methods. Our code is available at github.com/Davmo049/ Public_prob_regressi on_with_huber_distri butions
翻訳日:2021-11-22 16:00:20 公開日:2021-11-19
# bi-mix: 領域適応型夜間意味セグメンテーションのための双方向混合

Bi-Mix: Bidirectional Mixing for Domain Adaptive Nighttime Semantic Segmentation ( http://arxiv.org/abs/2111.10339v1 )

ライセンス: Link先を確認
Guanglei Yang, Zhun Zhong, Hao Tang, Mingli Ding, Nicu Sebe, Elisa Ricci(参考訳) 自律運転では,様々な環境条件に適応可能なセグメンテーションモデルを学ぶことが重要である。 特に、夜間に夜間データでトレーニングされたモデルの性能が悪くなるため、深刻な照明変更を伴うコピーは不必要である。 本稿では,昼行ラベル付きデータセットとラベルなしデータセットを用いた識別夜間モデルの学習を目的とした,ドメイン適応夜間意味セグメンテーション(danss)の問題について検討する。 そこで本研究では,画像翻訳とセグメンテーション適応プロセスの両方に寄与できる双方向混合(bi-mix)フレームワークを提案する。 特に、画像翻訳の段階では、bi-mixは昼夜画像ペアの知識を活用して、夜間画像のリライトの品質を向上させる。 一方、セグメンテーション適応段階において、bi-mixは、夜間領域にモデルを適用するために昼夜領域間の分配ギャップを効果的に橋渡しする。 どちらのプロセスでも、Bi-Mixは2つのサンプルを余分なハイパーパラメータなしで混合するだけで動作し、実装が容易である。 ダークチューリッヒとナイトタイム駆動データセットに関する広範囲な実験は,提案するバイミックスの利点を実証し,本手法がダンスにおける最先端性能を得ることを示す。 私たちのコードはhttps://github.com/y gjwd12345/bimixで利用可能です。

In autonomous driving, learning a segmentation model that can adapt to various environmental conditions is crucial. In particular, copying with severe illumination changes is an impelling need, as models trained on daylight data will perform poorly at nighttime. In this paper, we study the problem of Domain Adaptive Nighttime Semantic Segmentation (DANSS), which aims to learn a discriminative nighttime model with a labeled daytime dataset and an unlabeled dataset, including coarsely aligned day-night image pairs. To this end, we propose a novel Bidirectional Mixing (Bi-Mix) framework for DANSS, which can contribute to both image translation and segmentation adaptation processes. Specifically, in the image translation stage, Bi-Mix leverages the knowledge of day-night image pairs to improve the quality of nighttime image relighting. On the other hand, in the segmentation adaptation stage, Bi-Mix effectively bridges the distribution gap between day and night domains for adapting the model to the night domain. In both processes, Bi-Mix simply operates by mixing two samples without extra hyper-parameters, thus it is easy to implement. Extensive experiments on Dark Zurich and Nighttime Driving datasets demonstrate the advantage of the proposed Bi-Mix and show that our approach obtains state-of-the-art performance in DANSS. Our code is available at https://github.com/y gjwd12345/BiMix.
翻訳日:2021-11-22 16:00:08 公開日:2021-11-19
# 画像間翻訳のためのグローバル・ローカルアライメントネットワーク

Global and Local Alignment Networks for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2111.10346v1 )

ライセンス: Link先を確認
Guanglei Yang, Hao Tang, Humphrey Shi, Mingli Ding, Nicu Sebe, Radu Timofte, Luc Van Gool, Elisa Ricci(参考訳) 画像対画像変換の目標は、入力元画像の無関係な内容を維持しつつ、対象領域のスタイルを反映した出力画像を作成することである。 しかし,既存の手法では内容変化に注意が払われていないため,ソース画像からの意味情報は翻訳中の劣化に悩まされる。 本稿では,この問題に対処するために,GLA-Net(Global and Local Alignment Networks)という新たなアプローチを導入する。 グローバルアライメントネットワークは、入力画像をソースドメインからターゲットドメインに転送することを目的としている。 そこで本研究では,多変量ガウス分布のパラメータ(平均偏差,標準偏差)をmlpミキサー型エンコーダを用いてスタイル特徴として学習する。 より正確にスタイルを伝達するには、対象とする多変量ガウス分布のパラメータを入力として、エンコーダの適応インスタンス正規化層を用いる。 また、規則化と可能性損失を導入して、ドメインギャップをさらに削減し、高品質なアウトプットを生成します。 さらに,事前学習された自己教師付きモデルを用いて,新たな局所アライメント損失による注意マップを生成するローカルアライメントネットワークを導入し,翻訳ネットワークが関連する画素に焦点を当てていることを保証する。 5つの公開データセットで行った広範な実験により、既存のアプローチよりもシャープでリアルなイメージを効果的に生成できることが証明された。 私たちのコードはhttps://github.com/y gjwd12345/glanetで利用可能です。

The goal of unpaired image-to-image translation is to produce an output image reflecting the target domain's style while keeping unrelated contents of the input source image unchanged. However, due to the lack of attention to the content change in existing methods, the semantic information from source images suffers from degradation during translation. In the paper, to address this issue, we introduce a novel approach, Global and Local Alignment Networks (GLA-Net). The global alignment network aims to transfer the input image from the source domain to the target domain. To effectively do so, we learn the parameters (mean and standard deviation) of multivariate Gaussian distributions as style features by using an MLP-Mixer based style encoder. To transfer the style more accurately, we employ an adaptive instance normalization layer in the encoder, with the parameters of the target multivariate Gaussian distribution as input. We also adopt regularization and likelihood losses to further reduce the domain gap and produce high-quality outputs. Additionally, we introduce a local alignment network, which employs a pretrained self-supervised model to produce an attention map via a novel local alignment loss, ensuring that the translation network focuses on relevant pixels. Extensive experiments conducted on five public datasets demonstrate that our method effectively generates sharper and more realistic images than existing approaches. Our code is available at https://github.com/y gjwd12345/GLANet.
翻訳日:2021-11-22 15:59:41 公開日:2021-11-19
# 小さな変化は大きな差をもたらす:細粒度コントラスト学習によるマルチターン応答選択 \\in対話システムの改善

Small Changes Make Big Differences: Improving Multi-turn Response Selection \\in Dialogue Systems via Fine-Grained Contrastive Learning ( http://arxiv.org/abs/2111.10154v1 )

ライセンス: Link先を確認
Yuntao Li, Can Xu, Huang Hu, Lei Sha, Yan Zhang, Daxin Jiang(参考訳) 検索に基づく対話応答選択は、マルチターンコンテキストの候補セットから適切な応答を求めることを目的としている。 プレトレーニング言語モデル(PLM)ベースの手法は、このタスクに大幅な改善をもたらした。 シーケンス表現は、対話コンテキストと応答の間の一致する度合いの学習において重要な役割を果たす。 しかし、同じ文脈を共有する異なる文脈応答対は、plmで計算されたシーケンス表現に常に大きな類似性を持ち、正の応答と負の応答の区別が困難である。 そこで本研究では, PLM に基づく応答選択タスクに対する新しい \textbf{F}ine-\textbf{G}rained \textbf{C}ontrastive (FGC) 学習法を提案する。 このfgc学習戦略により、plmは、微粒度で各対話のより識別可能なマッチング表現を生成し、さらにポジティブな応答を選択するためのより良い予測を行うことができる。 2つのベンチマークデータセットに関する実証研究は、提案手法が既存のplmベースのマッチングモデルのモデル性能を概ね改善できることを実証している。

Retrieve-based dialogue response selection aims to find a proper response from a candidate set given a multi-turn context. Pre-trained language models (PLMs) based methods have yielded significant improvements on this task. The sequence representation plays a key role in the learning of matching degree between the dialogue context and the response. However, we observe that different context-response pairs sharing the same context always have a greater similarity in the sequence representations calculated by PLMs, which makes it hard to distinguish positive responses from negative ones. Motivated by this, we propose a novel \textbf{F}ine-\textbf{G}rained \textbf{C}ontrastive (FGC) learning method for the response selection task based on PLMs. This FGC learning strategy helps PLMs to generate more distinguishable matching representations of each dialogue at fine grains, and further make better predictions on choosing positive responses. Empirical studies on two benchmark datasets demonstrate that the proposed FGC learning method can generally and significantly improve the model performance of existing PLM-based matching models.
翻訳日:2021-11-22 15:58:57 公開日:2021-11-19
# IoTシステムにおけるディープニューラルネットワークのロバスト性を効果的に評価する方法

Towards Efficiently Evaluating the Robustness of Deep Neural Networks in IoT Systems: A GAN-based Method ( http://arxiv.org/abs/2111.10055v1 )

ライセンス: Link先を確認
Tao Bai, Jun Zhao, Jinlin Zhu, Shoudong Han, Jiefeng Chen, Bo Li, Alex Kot(参考訳) ディープニューラルネットワーク(DNN)に基づくインテリジェントモノのインターネット(IoT)システムは、現実世界に広くデプロイされている。 しかし、DNNは敵の例に弱いことが判明し、インテリジェントなIoTシステムの信頼性とセキュリティに対する人々の懸念が高まる。 IoTシステムの堅牢性をテストし、評価することが不可欠である。 近年,様々な攻撃・戦略が提案されているが,効率問題は未解決のままである。 既存の手法は計算量や時間を要するが、実際には適用できない。 本稿では,AI-GAN(Attack-Inspi red GAN)と呼ばれる新たなフレームワークを提案する。 トレーニングが完了すると、入力画像とターゲットクラスを効率よく生成できる。 我々は、ホワイトボックス設定、ブラックボックス設定、最先端の防御によって保護されたターゲットモデルで異なるデータセットにAI-GANを適用する。 広範な実験を通じて、ai-ganは高い攻撃成功率を達成し、既存の手法を上回り、生成時間を大幅に削減する。 さらに、AI-GANはCIFAR-100やImageNetといった複雑なデータセットに初めてスケールし、すべてのクラスで約90\%の成功を収めた。

Intelligent Internet of Things (IoT) systems based on deep neural networks (DNNs) have been widely deployed in the real world. However, DNNs are found to be vulnerable to adversarial examples, which raises people's concerns about intelligent IoT systems' reliability and security. Testing and evaluating the robustness of IoT systems becomes necessary and essential. Recently various attacks and strategies have been proposed, but the efficiency problem remains unsolved properly. Existing methods are either computationally extensive or time-consuming, which is not applicable in practice. In this paper, we propose a novel framework called Attack-Inspired GAN (AI-GAN) to generate adversarial examples conditionally. Once trained, it can generate adversarial perturbations efficiently given input images and target classes. We apply AI-GAN on different datasets in white-box settings, black-box settings and targeted models protected by state-of-the-art defenses. Through extensive experiments, AI-GAN achieves high attack success rates, outperforming existing methods, and reduces generation time significantly. Moreover, for the first time, AI-GAN successfully scales to complex datasets e.g. CIFAR-100 and ImageNet, with about $90\%$ success rates among all classes.
翻訳日:2021-11-22 15:58:36 公開日:2021-11-19
# 予測機器故障に対するXGBoostやScikit Learningなどの既存ライブラリとカスタムアンサンブルモデルのデータ計算と比較

Data imputation and comparison of custom ensemble models with existing libraries like XGBoost, Scikit learn, etc. for Predictive Equipment failure ( http://arxiv.org/abs/2111.10088v1 )

ライセンス: Link先を確認
Tejas Y. Deo(参考訳) 本稿では,xgboost や scikit learn などの既存ライブラリを用いて,油抽出装置設置時の予測機器の故障を想定したモデルとの比較を行った。 使用するデータセットには欠落値が多く含まれており,欠落値をインデュートするモデルに基づくデータインプテーション戦略を提案する。 カスタムアンサンブルモデルのアーキテクチャとトレーニングおよびテストプロセスの詳細は説明されている。

This paper presents comparison of custom ensemble models with the models trained using existing libraries Like Xgboost, Scikit Learn, etc. in case of predictive equipment failure for the case of oil extracting equipment setup. The dataset that is used contains many missing values and the paper proposes different model-based data imputation strategies to impute the missing values. The architecture and the training and testing process of the custom ensemble models are explained in detail.
翻訳日:2021-11-22 15:56:41 公開日:2021-11-19
# ANOVAに基づく高速行列ベクトル乗算による高次元特徴空間の学習

Learning in High-Dimensional Feature Spaces Using ANOVA-Based Fast Matrix-Vector Multiplication ( http://arxiv.org/abs/2111.10140v1 )

ライセンス: Link先を確認
Franziska Nestler, Martin Stoll and Theresa Wagner(参考訳) カーネル行列はサポートベクターマシンやカーネルリッジ回帰のような多くの学習タスクにおいて不可欠である。 カーネルマトリックスは通常密度が高く、大規模である。 特徴空間の次元によっては、合理的な時間における全てのエントリの計算でさえ難しい課題となる。 このような密行列に対して、行列ベクトル積のコストは、カスタマイズされた方法が適用されない場合、エントリ数で二乗的にスケールする。 そこで我々は,ANOVAカーネルを用いて低次元の特徴空間に基づいて複数のカーネルを構築し,行列ベクトル積を実現する高速アルゴリズムを提案する。 非等空間高速フーリエ変換 (non-equispaced fast fourier transform, nfft) を用いる。 特徴グループ化アプローチに基づいて,カーネルリッジ回帰と事前条件付き共役勾配解法を選択する学習手法に,高速な行列ベクトル積を組み込む方法を示す。 いくつかのデータセット上で,本手法の性能について述べる。

Kernel matrices are crucial in many learning tasks such as support vector machines or kernel ridge regression. The kernel matrix is typically dense and large-scale. Depending on the dimension of the feature space even the computation of all of its entries in reasonable time becomes a challenging task. For such dense matrices the cost of a matrix-vector product scales quadratically in the number of entries, if no customized methods are applied. We propose the use of an ANOVA kernel, where we construct several kernels based on lower-dimensional feature spaces for which we provide fast algorithms realizing the matrix-vector products. We employ the non-equispaced fast Fourier transform (NFFT), which is of linear complexity for fixed accuracy. Based on a feature grouping approach, we then show how the fast matrix-vector products can be embedded into a learning method choosing kernel ridge regression and the preconditioned conjugate gradient solver. We illustrate the performance of our approach on several data sets.
翻訳日:2021-11-22 15:56:32 公開日:2021-11-19
# 交通シーン記述に向けて:セマンティックシーングラフ

Towards Traffic Scene Description: The Semantic Scene Graph ( http://arxiv.org/abs/2111.10196v1 )

ライセンス: Link先を確認
Maximilian Zipfl, J. Marius Z\"ollner(参考訳) 交通シーンの分類には、そのドメインとは無関係に、シーンを統一的に記述できる記述モデルが必要である。 本稿では,トラフィックシーンを意味的に記述するモデルについて述べる。 記述モデルは、道路形状と道路トポロジーとは独立に交通シーンを記述することができる。 ここで、交通参加者は道路網に投影され、グラフのノードとして表現される。 道路トポロジーに関する2つのトラフィック参加者間の相対的な位置に応じて、対応するノード間で意味的に分類されたエッジが生成される。 コンクレット化の場合、エッジ属性はレーンの経路に関して両交通参加者間の相対距離と速度によって拡張される。 この記述の重要な側面は、機械可読形式に容易に変換できることである。 現在の記述では、交通シーンの動的対象に注目し、歩行者や車両などの交通参加者を考察している。

For the classification of traffic scenes, a description model is necessary that can describe the scene in a uniform way, independent of its domain. A model to describe a traffic scene in a semantic way is described in this paper. The description model allows to describe a traffic scene independently of the road geometry and road topology. Here, the traffic participants are projected onto the road network and represented as nodes in a graph. Depending on the relative location between two traffic participants with respect to the road topology, semantic classified edges are created between the corresponding nodes. For concretization, the edge attributes are extended by relative distances and velocities between both traffic participants with regard to the course of the lane. An important aspect of the description is that it can be converted easily into a machine-readable format. The current description focuses on dynamic objects of a traffic scene and considers traffic participants, such as pedestrians or vehicles.
翻訳日:2021-11-22 15:56:18 公開日:2021-11-19
# レインボーの高速かつデータ効率の良いトレーニング--アタリの実験的研究

Fast and Data-Efficient Training of Rainbow: an Experimental Study on Atari ( http://arxiv.org/abs/2111.10247v1 )

ライセンス: Link先を確認
Dominik Schmidt, Thomas Schmied(参考訳) アーケード学習環境全体では、Rainbowは人間や現代のRLアルゴリズムと競合するレベルのパフォーマンスを達成する。 しかし、このレベルの性能を達成するには大量のデータとハードウェアリソースが必要であり、この分野の研究は計算コストが高く、実用的な用途での使用は不可能であることが多い。 本稿では,(1)Rainbowのデータ,トレーニング時間,および計算要求を大幅に削減し,競争性能を維持しつつ,Rainbowの改良版を提案すること,(2)アーケード学習環境における実験を通じて,アプローチの有効性を実証的に実証すること,(3)提案した修正がもたらす影響について,多くのアブレーション研究を実施していること,の3点について述べる。 改良版のRainbowは、従来のRainbowに近い中央値の人間の正規化スコアに到達し、20倍のデータを使用でき、単一のGPU上でのトレーニング時間は7.5時間しか必要ありません。 また、事前訓練されたモデルを含む完全な実装も提供します。

Across the Arcade Learning Environment, Rainbow achieves a level of performance competitive with humans and modern RL algorithms. However, attaining this level of performance requires large amounts of data and hardware resources, making research in this area computationally expensive and use in practical applications often infeasible. This paper's contribution is threefold: We (1) propose an improved version of Rainbow, seeking to drastically reduce Rainbow's data, training time, and compute requirements while maintaining its competitive performance; (2) we empirically demonstrate the effectiveness of our approach through experiments on the Arcade Learning Environment, and (3) we conduct a number of ablation studies to investigate the effect of the individual proposed modifications. Our improved version of Rainbow reaches a median human normalized score close to classic Rainbow's, while using 20 times less data and requiring only 7.5 hours of training time on a single GPU. We also provide our full implementation including pre-trained models.
翻訳日:2021-11-22 15:56:04 公開日:2021-11-19
# 分布と欠落シフトの存在下での一般化のための最大平均偏差

Maximum Mean Discrepancy for Generalization in the Presence of Distribution and Missingness Shift ( http://arxiv.org/abs/2111.10344v1 )

ライセンス: Link先を確認
Liwn Ouyang, Aaron Key(参考訳) 共変量シフトは実世界の問題に対する予測モデリングにおいて一般的な問題である。 本稿では,特徴入力空間,特徴表現空間,あるいはその両方において,最大平均偏差(mmd)の統計量を最小限にし,共変量シフト問題に対処することを提案する。 MMD Representation, MMD Mask, MMD Hybrid と呼ぶ3つの手法を設計し, 分散シフトのみが存在する場合, 不足シフトのみが存在する場合, あるいは両タイプのシフトが存在する場合のシナリオに対処する。 MMD損失成分の統合は、モデルが最適化に最適な機能を利用するのに役立ち、テストサンプル毎に可能な限り危険な外挿を避けるのに役立ちます。 このmmdアプローチで処理されたモデルは、テストセットのパフォーマンス、キャリブレーション、外挿性が向上する。

Covariate shifts are a common problem in predictive modeling on real-world problems. This paper proposes addressing the covariate shift problem by minimizing Maximum Mean Discrepancy (MMD) statistics between the training and test sets in either feature input space, feature representation space, or both. We designed three techniques that we call MMD Representation, MMD Mask, and MMD Hybrid to deal with the scenarios where only a distribution shift exists, only a missingness shift exists, or both types of shift exist, respectively. We find that integrating an MMD loss component helps models use the best features for generalization and avoid dangerous extrapolation as much as possible for each test sample. Models treated with this MMD approach show better performance, calibration, and extrapolation on the test set.
翻訳日:2021-11-22 15:55:44 公開日:2021-11-19
# フォールトトレラントロボット制御のための適応型カリキュラムダイナミクスランダム化による強化学習

Reinforcement Learning with Adaptive Curriculum Dynamics Randomization for Fault-Tolerant Robot Control ( http://arxiv.org/abs/2111.10005v1 )

ライセンス: Link先を確認
Wataru Okamoto, Hiroshi Kera, Kazuhiko Kawamoto(参考訳) 本研究では,四足ロボットのアクチュエータ故障に対する耐障害性の問題に対処することを目的としている。 特に、動的ランダム化(ACDR)を用いた適応型カリキュラム強化学習アルゴリズムを確立する。 ACDRアルゴリズムは、ランダムなアクチュエータ故障条件下で四足歩行ロボットを適応的に訓練し、フォールトトレラントロボット制御のための単一のロバストポリシーを定式化することができる。 hard2easyのカリキュラムは、四足歩行ロボットのeasy2hardのカリキュラムよりも効果的である。 ACDRアルゴリズムは、アクチュエータ故障やスイッチングポリシーを検出するための追加モジュールを必要としないロボットシステムを構築するために使用できる。 実験の結果,ACDRアルゴリズムは平均報酬と歩行距離において従来のアルゴリズムよりも優れていた。

This study is aimed at addressing the problem of fault tolerance of quadruped robots to actuator failure, which is critical for robots operating in remote or extreme environments. In particular, an adaptive curriculum reinforcement learning algorithm with dynamics randomization (ACDR) is established. The ACDR algorithm can adaptively train a quadruped robot in random actuator failure conditions and formulate a single robust policy for fault-tolerant robot control. It is noted that the hard2easy curriculum is more effective than the easy2hard curriculum for quadruped robot locomotion. The ACDR algorithm can be used to build a robot system that does not require additional modules for detecting actuator failures and switching policies. Experimental results show that the ACDR algorithm outperforms conventional algorithms in terms of the average reward and walking distance.
翻訳日:2021-11-22 15:55:07 公開日:2021-11-19
# 低リソース言語へのエンドツーエンド音声認識モデルの言語拡張のための半教師あり変換学習

Semi-supervised transfer learning for language expansion of end-to-end speech recognition models to low-resource languages ( http://arxiv.org/abs/2111.10047v1 )

ライセンス: Link先を確認
Jiyeon Kim, Mehul Kumar, Dhananjaya Gowda, Abhinav Garg, Chanwoo Kim(参考訳) 本稿では,低リソース言語の音声認識精度を向上させるための3段階学習手法を提案する。 本研究では,転送学習,エンコーダ凍結,テキスト・トゥ・スペーチ(TTS)を用いたデータ拡張,セミ・スーパーバイザード・ラーニング(SSL)など,効果的な組み合わせを提案する。 低リソースのイタリアASRの精度を向上させるため、トランスファーラーニング、TS拡張、SSLを用いて、よく訓練された英語モデル、未ラベルのテキストコーパス、未ラベルのオーディオコーパスを利用する。 第1段階では、よく訓練された英語モデルから転送学習を利用する。 これは主に、リソース豊富な言語から音響情報を学ぶのに役立つ。 この段階では、ベースライン上のワードエラー率(WER)を約24%削減する。 ステージ2では、TSデータ拡張によるラベルなしテキストデータを用いて、言語情報をモデルに組み込む。 この段階では音響エンコーダの凍結も検討する。 TTSデータ拡張は、WERを相対的に約21%削減するのに役立ちます。 最後に、ステージ3では、未ラベルのオーディオデータからSSLを使用することで、WERをさらに4%削減する。 全体として、第1パスに単調なチャンクワイズアテンション(mocha)、第2パスにフルアテンションを持つ2パス音声認識システムは、ベースラインに対して約42%のwhr削減を達成している。

In this paper, we propose a three-stage training methodology to improve the speech recognition accuracy of low-resource languages. We explore and propose an effective combination of techniques such as transfer learning, encoder freezing, data augmentation using Text-To-Speech (TTS), and Semi-Supervised Learning (SSL). To improve the accuracy of a low-resource Italian ASR, we leverage a well-trained English model, unlabeled text corpus, and unlabeled audio corpus using transfer learning, TTS augmentation, and SSL respectively. In the first stage, we use transfer learning from a well-trained English model. This primarily helps in learning the acoustic information from a resource-rich language. This stage achieves around 24% relative Word Error Rate (WER) reduction over the baseline. In stage two, We utilize unlabeled text data via TTS data-augmentation to incorporate language information into the model. We also explore freezing the acoustic encoder at this stage. TTS data augmentation helps us further reduce the WER by ~ 21% relatively. Finally, In stage three we reduce the WER by another 4% relative by using SSL from unlabeled audio data. Overall, our two-pass speech recognition system with a Monotonic Chunkwise Attention (MoChA) in the first pass and a full-attention in the second pass achieves a WER reduction of ~ 42% relative to the baseline.
翻訳日:2021-11-22 15:53:47 公開日:2021-11-19
# ASR再構成における格子アテンション

Lattention: Lattice-attention in ASR rescoring ( http://arxiv.org/abs/2111.10157v1 )

ライセンス: Link先を確認
Prabhat Pandey, Sergio Duarte Torres, Ali Orkan Bayer, Ankur Gandhe, Volker Leutnant(参考訳) 格子は自動音声認識システムから生成された複数の仮説のコンパクトな表現であり、音声言語理解や音声翻訳などの下流タスクの性能は1-best仮説よりも向上することが示されている。 本研究では,第2パスにおけるn-bestリストの再現における格子キューの有効性について検討する。 格子をリカレントネットワークでエンコードし,n-best再コーディングのためのアテンションエンコーダデコーダモデルを訓練する。 格子に着目した再構成モデルは, 格子と音響特性の両方に着目して, 4-5%の単語誤り率と6-8%の相対的な単語誤り率の低減を実現する。 格子に注意を向けたモデルがn-best仮説に注意を向けたモデルよりも優れていることを示す。 また, 格子の重みを格子エンコーダに組み込む方法も検討し, n-best rescoring の重要性を実証した。

Lattices form a compact representation of multiple hypotheses generated from an automatic speech recognition system and have been shown to improve performance of downstream tasks like spoken language understanding and speech translation, compared to using one-best hypothesis. In this work, we look into the effectiveness of lattice cues for rescoring n-best lists in second-pass. We encode lattices with a recurrent network and train an attention encoder-decoder model for n-best rescoring. The rescoring model with attention to lattices achieves 4-5% relative word error rate reduction over first-pass and 6-8% with attention to both lattices and acoustic features. We show that rescoring models with attention to lattices outperform models with attention to n-best hypotheses. We also study different ways to incorporate lattice weights in the lattice encoder and demonstrate their importance for n-best rescoring.
翻訳日:2021-11-22 15:53:24 公開日:2021-11-19
# tnt攻撃! ニューラルネットシステムに対する普遍的自然主義的対立パッチ

TnT Attacks! Universal Naturalistic Adversarial Patches Against Deep Neural Network Systems ( http://arxiv.org/abs/2111.09999v1 )

ライセンス: Link先を確認
Bao Gia Doan, Minhui Xue, Shiqing Ma, Ehsan Abbasnejad, Damith C. Ranasinghe(参考訳) ディープニューラルネットワークは、敵の入力からの攻撃に対して脆弱であり、最近ではトロイの木馬がモデルの判断を誤ったりハイジャックしたりする。 我々は、有界逆数例空間と生成逆数ネットワーク内の自然入力空間のスーパーセットを探索することによって、TnTsと呼ばれる有界逆数例の興味深いクラスの存在を明らかにする。 今や敵は、自然主義的で、悪意がなく、物理的に実現可能で、非常に効果的で、高い攻撃の成功率、そして普遍的なパッチで武装することができる。 TnTは、シーン内でTnTでキャプチャされた任意の入力画像が次のようになるため、普遍的である。 一 ネットワーク(ターゲティングされていない攻撃)を誤認すること、又は 二 ネットワークに悪意のある決定(標的攻撃)を強制すること。 興味深いことに、敵のパッチアタッカーは、ノイズの多い摂動に制約されているのとは対照的に、位置に依存しない自然なパッチをトリガーとして選択する能力として、より大きなレベルのコントロールを実行する可能性がある。 大規模視覚分類タスクであるimagenetにおける5万画像の検証セット全体の評価実験を通じて,tntsによる現実的な脅威と攻撃の堅牢性を示す。 既存の最先端手法よりも高い攻撃成功率を達成するパッチを作成するための攻撃の一般化を示す。 本研究は,視覚分類タスク(CIFAR-10, GTSRB, PubFig)およびWideResnet50, Inception-V3, VGG-16といった最先端の深層ニューラルネットワークに対する攻撃の一般化可能性を示す。

Deep neural networks are vulnerable to attacks from adversarial inputs and, more recently, Trojans to misguide or hijack the decision of the model. We expose the existence of an intriguing class of bounded adversarial examples -- Universal NaTuralistic adversarial paTches -- we call TnTs, by exploring the superset of the bounded adversarial example space and the natural input space within generative adversarial networks. Now, an adversary can arm themselves with a patch that is naturalistic, less malicious-looking, physically realizable, highly effective -- achieving high attack success rates, and universal. A TnT is universal because any input image captured with a TnT in the scene will: i) misguide a network (untargeted attack); or ii) force the network to make a malicious decision (targeted attack). Interestingly, now, an adversarial patch attacker has the potential to exert a greater level of control -- the ability to choose a location independent, natural-looking patch as a trigger in contrast to being constrained to noisy perturbations -- an ability is thus far shown to be only possible with Trojan attack methods needing to interfere with the model building processes to embed a backdoor at the risk discovery; but, still realize a patch deployable in the physical world. Through extensive experiments on the large-scale visual classification task, ImageNet with evaluations across its entire validation set of 50,000 images, we demonstrate the realistic threat from TnTs and the robustness of the attack. We show a generalization of the attack to create patches achieving higher attack success rates than existing state-of-the-art methods. Our results show the generalizability of the attack to different visual classification tasks (CIFAR-10, GTSRB, PubFig) and multiple state-of-the-art deep neural networks such as WideResnet50, Inception-V3 and VGG-16.
翻訳日:2021-11-22 15:52:12 公開日:2021-11-19
# 均質性島の同定のための個体群に基づく変化点検出

Population based change-point detection for the identification of homozygosity islands ( http://arxiv.org/abs/2111.10187v1 )

ライセンス: Link先を確認
Lucas Prates, Renan B Lemes, T\'abita H\"unemeier and Florencia Leonardi(参考訳) 本稿では,ランダムベクトルの分布のパラメータをオフラインで検出する新しい手法を提案する。 本稿では,動的プログラミングアルゴリズムで効率的に計算できるか,あるいは高速二分法で近似できるペナルティ化最大度法を提案する。 両アルゴリズムは、確率ベクトルの分布と独立サンプリングに関する非常に一般的な仮定の下で、ほぼ確実に変化点の集合に収束する。 特に,アルゴリズムの整合性につながる仮定を分類的およびガウス的確率変数で満たしていることを示す。 この新しいアプローチは、集団内の個体のゲノム上でホモ接合性島を同定する問題によって動機付けられた。 本手法は個体群レベルでのホモ接合性諸島の同定の問題に直接対処し,現在最先端のアプローチで行われているように,個々の個体を解析し,結果を組み合わせる必要がない。

In this paper, we propose a new method for offline change-point detection on some parameters of the distribution of a random vector. We introduce a penalized maximum likelihood approach that can be efficiently computed by a dynamic programming algorithm or approximated by a fast greedy binary splitting algorithm. We prove both algorithms converge almost surely to the set of change-points under very general assumptions on the distribution and independent sampling of the random vector. In particular, we show the assumptions leading to the consistency of the algorithms are satisfied by categorical and Gaussian random variables. This new approach is motivated by the problem of identifying homozygosity islands on the genome of individuals in a population. Our method directly tackles the issue of identification of the homozygosity islands at the population level, without the need of analyzing single individuals and then combining the results, as is made nowadays in state-of-the-art approaches.
翻訳日:2021-11-22 15:51:37 公開日:2021-11-19
# ディープラーニングを用いたスケッチベースクリエイティビティ支援ツール

Sketch-based Creativity Support Tools using Deep Learning ( http://arxiv.org/abs/2111.09991v1 )

ライセンス: Link先を確認
Forrest Huang, Eldon Schoop, David Ha, Jeffrey Nichols, John Canny(参考訳) スケッチング(sketching)は、創造的プロセスで一般的に使用される、自然で効果的な視覚コミュニケーション媒体である。 ディープラーニングモデルの最近の進歩は、視覚的コンテンツを理解および生成するマシンの能力を大幅に改善した。 エキサイティングな開発領域は、人間のスケッチのモデル化に使用されるディープラーニングのアプローチを探求し、クリエイティブなアプリケーションへの機会を開く。 本章では、スケッチを消費し生成するディープラーニング駆動創造性支援ツールの開発における3つの基本的なステップについて記述する。 1) スケッチとモバイルユーザインターフェースの間に新たなペアデータセットを生成するデータ収集作業 2)最先端のコンピュータビジョン技術に適応したスケッチベースのユーザインタフェース検索システム,及び 3)自然言語に基づくスケッチ/批評オーサリングプロセスの新たなインタラクションを支援する会話スケッチシステム。 本章では、深層学習とヒューマン・コンピュータ・インタラクションの両コミュニティにおける先行研究について、データ収集プロセスとシステムのアーキテクチャの詳細を文書化し、質的かつ定量的な結果を提示し、このエキサイティングな領域における将来の研究方向性の風景を描く。

Sketching is a natural and effective visual communication medium commonly used in creative processes. Recent developments in deep-learning models drastically improved machines' ability in understanding and generating visual content. An exciting area of development explores deep-learning approaches used to model human sketches, opening opportunities for creative applications. This chapter describes three fundamental steps in developing deep-learning-driven creativity support tools that consumes and generates sketches: 1) a data collection effort that generated a new paired dataset between sketches and mobile user interfaces; 2) a sketch-based user interface retrieval system adapted from state-of-the-art computer vision techniques; and, 3) a conversational sketching system that supports the novel interaction of a natural-language-bas ed sketch/critique authoring process. In this chapter, we survey relevant prior work in both the deep-learning and human-computer-inter action communities, document the data collection process and the systems' architectures in detail, present qualitative and quantitative results, and paint the landscape of several future research directions in this exciting area.
翻訳日:2021-11-22 15:50:20 公開日:2021-11-19
# IC-U-Net:独立成分混合を用いたU-Netによる自動脳波アーチファクト除去

IC-U-Net: A U-Net-based Denoising Autoencoder Using Mixtures of Independent Components for Automatic EEG Artifact Removal ( http://arxiv.org/abs/2111.10026v1 )

ライセンス: Link先を確認
Chun-Hsiang Chuang, Kong-Yi Chang, Chi-Sheng Huang, Tzyy-Ping Jung(参考訳) 脳波(EEG)信号は、しばしば人工物で汚染される。 神経信号の誤解や脳-コンピューターインターフェースの過小評価を防止するために、実用的で信頼性の高いアーティファクト除去法を開発することが不可欠である。 本研究では,広汎な脳波アーチファクトを除去し,脳源を再構築するU-Netアーキテクチャに基づく新しい人工物除去手法IC-U-Netを開発した。 IC-U-Netは、独立成分分析によって分解された脳と非脳源の混合物を用いて訓練され、脳波記録における複雑な信号変動をモデル化するために、損失関数のアンサンブルを用いた。 提案手法は, 運転・歩行中および休息時に収集した3つの実世界の脳波データを用いてシミュレーション実験を行い, 脳源の回復と各種人工物(眼球運動, 筋活動, 線・チャネルノイズなど)の除去に有効であることを示した。 IC-U-Netはユーザフレンドリーで公開されており、パラメータチューニングやアーティファクトタイプ指定は必要とせず、チャンネル番号に制限はない。 モバイル環境での自然な脳のダイナミクスの画像化の必要性が高まる中、IC-U-Netは、EEGレコードからアーティファクトを自動的に削除する、有望なエンドツーエンドソリューションを提供する。

Electroencephalograp hy (EEG) signals are often contaminated with artifacts. It is imperative to develop a practical and reliable artifact removal method to prevent misinterpretations of neural signals and underperformance of brain-computer interfaces. This study developed a new artifact removal method, IC-U-Net, which is based on the U-Net architecture for removing pervasive EEG artifacts and reconstructing brain sources. The IC-U-Net was trained using mixtures of brain and non-brain sources decomposed by independent component analysis and employed an ensemble of loss functions to model complex signal fluctuations in EEG recordings. The effectiveness of the proposed method in recovering brain sources and removing various artifacts (e.g., eye blinks/movements, muscle activities, and line/channel noises) was demonstrated in a simulation study and three real-world EEG datasets collected at rest and while driving and walking. IC-U-Net is user-friendly and publicly available, does not require parameter tuning or artifact type designations, and has no limitations on channel numbers. Given the increasing need to image natural brain dynamics in a mobile setting, IC-U-Net offers a promising end-to-end solution for automatically removing artifacts from EEG recordings.
翻訳日:2021-11-22 15:50:01 公開日:2021-11-19
# グラフ編集距離計算における小型量子デバイスのベンチマーク

Benchmarking Small-Scale Quantum Devices on Computing Graph Edit Distance ( http://arxiv.org/abs/2111.10183v1 )

ライセンス: Link先を確認
Massimiliano Incudini, Fabio Tarocco, Riccardo Mengoni, Alessandra Di Pierro, and Antonio Mandarino(参考訳) 距離測定は機械学習とパターン認識において多くの一般的なアルゴリズムの基礎を提供する。 距離の概念は、アルゴリズムが処理しているデータの種類によって異なる。 グラフ型データにとって重要な概念は、グラフ編集距離(GED)であり、グラフを同一にするために必要な操作の観点から、2つのグラフ間の(異なる)相似性の度合いを測定する。 GEDの複雑性はNPハード問題と同じであるため、近似解を考えることは合理的である。 本稿では,量子アニーリング(quantum annealing)と変分量子アルゴリズム( variational quantum algorithms)という,量子アニーラ(quantum annealer)とゲート型量子コンピュータ(gate-based quantum computer)の2種類の量子ハードウェアについて比較検討を行った。 ノイズの多い中間スケール量子コンピュータの現状を考えると、本研究はこれらの量子アルゴリズムの性能の原理実証テストに基づいている。

Distance measures provide the foundation for many popular algorithms in Machine Learning and Pattern Recognition. Different notions of distance can be used depending on the types of the data the algorithm is working on. For graph-shaped data, an important notion is the Graph Edit Distance (GED) that measures the degree of (dis)similarity between two graphs in terms of the operations needed to make them identical. As the complexity of computing GED is the same as NP-hard problems, it is reasonable to consider approximate solutions. In this paper we present a comparative study of two quantum approaches to computing GED: quantum annealing and variational quantum algorithms, which refer to the two types of quantum hardware currently available, namely quantum annealer and gate-based quantum computer, respectively. Considering the current state of noisy intermediate-scale quantum computers, we base our study on proof-of-principle tests of the performance of these quantum algorithms.
翻訳日:2021-11-22 15:49:34 公開日:2021-11-19
# GRecX: GNNベースのレコメンデーションのための効率的で統一されたベンチマーク

GRecX: An Efficient and Unified Benchmark for GNN-based Recommendation ( http://arxiv.org/abs/2111.10342v1 )

ライセンス: Link先を確認
Desheng Cai, Jun Hu, Shengsheng Qian, Quan Fang, Quan Zhao, Changsheng Xu(参考訳) 本稿では、GNNベースのレコメンデーションモデルを効率的かつ統一的にベンチマークするためのオープンソースのTensorFlowフレームワークであるGRecXを提案する。 GRecXは、GNNベースのレコメンデーションベンチマークを構築するためのコアライブラリと、人気のあるGNNベースのレコメンデーションモデルの実装で構成されている。 コアライブラリは、FastMetrics(効率的なメトリクス計算ライブラリ)、VectorSearch(高密度ベクトルの効率的な類似検索ライブラリ)、BatchEval(効率的なミニバッチ評価ライブラリ)、DataManager(統一データセット管理ライブラリ)など、効率的で統一されたベンチマークを構築するための必須コンポーネントを提供する。 特に、異なる複雑なGNNベースレコメンデーションモデルの公正な比較のための統一されたベンチマークを提供するため、新しいメトリクスGRMF-Xを設計し、FastMetricsコンポーネントに統合する。 TensorFlow GNNライブラリtf_geometricに基づいて、GRecXは、さまざまな人気のあるGNNベースのレコメンデーションモデルを慎重に実装する。 私たちはこれらのベースラインモデルを慎重に実装して、文献で報告されたパフォーマンスを再現しています。 結論として、GRecXはGNNベースのレコメンデーションベースラインを効率的かつ統一的にトレーニングし、ベンチマークするための使用を可能にする。 我々はGRecXを用いて実験を行い、実験の結果、GRecXはGNNベースの推薦基準を効率的かつ統一的にトレーニングし、ベンチマークすることができることを示した。 GRecXのソースコードはhttps://github.com/m aenzhier/GRecXで公開されている。

In this paper, we present GRecX, an open-source TensorFlow framework for benchmarking GNN-based recommendation models in an efficient and unified way. GRecX consists of core libraries for building GNN-based recommendation benchmarks, as well as the implementations of popular GNN-based recommendation models. The core libraries provide essential components for building efficient and unified benchmarks, including FastMetrics (efficient metrics computation libraries), VectorSearch (efficient similarity search libraries for dense vectors), BatchEval (efficient mini-batch evaluation libraries), and DataManager (unified dataset management libraries). Especially, to provide a unified benchmark for the fair comparison of different complex GNN-based recommendation models, we design a new metric GRMF-X and integrate it into the FastMetrics component. Based on a TensorFlow GNN library tf_geometric, GRecX carefully implements a variety of popular GNN-based recommendation models. We carefully implement these baseline models to reproduce the performance reported in the literature, and our implementations are usually more efficient and friendly. In conclusion, GRecX enables uses to train and benchmark GNN-based recommendation baselines in an efficient and unified way. We conduct experiments with GRecX, and the experimental results show that GRecX allows us to train and benchmark GNN-based recommendation baselines in an efficient and unified way. The source code of GRecX is available at https://github.com/m aenzhier/GRecX.
翻訳日:2021-11-22 15:49:18 公開日:2021-11-19
# FastDOG: GPUの高速離散最適化

FastDOG: Fast Discrete Optimization on GPU ( http://arxiv.org/abs/2111.10270v1 )

ライセンス: Link先を確認
Ahmed Abbas, Paul Swoboda(参考訳) 本稿では,構造化予測で発生する0-1整数線形プログラムを並列に分解する手法を提案する。 本稿では,ラグランジュ双対を解くための新しい反復更新スキームと,プライマル解の復号のための摂動法を提案する。 サブプロブレムを表現するには、Lange氏ら(2021年)に従い、バイナリ意思決定図(BDD)を使用します。 我々の原始的アルゴリズムと双対アルゴリズムはサブプロブレム間の同期をほとんど必要とせず、BDDの最適化には複雑な制御フローのない基本的な操作しか必要としない。 これにより、メソッドのすべてのコンポーネントに対してgpuが提供する並列処理を活用できます。 本稿では、マルコフ確率場におけるMAP推論の組合せ問題、発達生物学における二次配置と細胞追跡に関する実験結果を示す。 高度に並列なgpuの実装は、lange et al. (2021) のアルゴリズムの実行時間を最大で1桁改善する。 特に、問題非依存であるながら、最先端の専門的なヒューリスティックに近づいたり、あるいは及ばなかったりします。

We present a massively parallel Lagrange decomposition method for solving 0-1 integer linear programs occurring in structured prediction. We propose a new iterative update scheme for solving the Lagrangean dual and a perturbation technique for decoding primal solutions. For representing subproblems we follow Lange et al. (2021) and use binary decision diagrams (BDDs). Our primal and dual algorithms require little synchronization between subproblems and optimization over BDDs needs only elementary operations without complicated control flow. This allows us to exploit the parallelism offered by GPUs for all components of our method. We present experimental results on combinatorial problems from MAP inference for Markov Random Fields, quadratic assignment and cell tracking for developmental biology. Our highly parallel GPU implementation improves upon the running times of the algorithms from Lange et al. (2021) by up to an order of magnitude. In particular, we come close to or outperform some state-of-the-art specialized heuristics while being problem agnostic.
翻訳日:2021-11-22 15:48:48 公開日:2021-11-19
# (参考訳) オフライン視情報マッチングのための一般化決定変換器 [全文訳有]

Generalized Decision Transformer for Offline Hindsight Information Matching ( http://arxiv.org/abs/2111.10364v1 )

ライセンス: CC BY 4.0
Hiroki Furuta, Yutaka Matsuo, Shixiang Shane Gu(参考訳) 各軌跡データから学習信号を抽出する方法は強化学習(RL)において重要な問題であり、サンプルの非効率性は実用上深刻な課題となっている。 近年の研究では、後見経験リプレイや意思決定トランスフォーマ(dt)におけるリターン・トゥ・ゴーといった、将来の軌道情報に対する表現的ポリシー関数の近似とコンディショニングを用いることで、オンラインrlがオフライン動作のクローン(シーケンスモデリングなど)によって完全に置き換えられるようなマルチタスクポリシの効率的な学習が可能になる。 これらすべてのアプローチが、将来の状態情報の統計に一致する軌道の残りの部分を出力できるトレーニングポリシーを、後向きの情報マッチング(HIM)によって実行していることを実証する。 我々は,HIM問題を解くための一般化決定変換器(GDT)を提案し,特徴関数と反因果アグリゲータの異なる選択が,DTを特別なケースとして回収するだけでなく,将来の異なる統計値に適合する新たなカテゴリーDT(CDT)と双方向DT(BDT)をもたらすことを示す。 CDTとBDTの評価では、オフラインマルチタスク状態マージナルマッチング(SMM)と模倣学習(IL)を2つの一般的なHIM問題として定義し、両者のメトリクスとしてワッサーシュタイン距離損失を提案し、MuJoCo連続制御ベンチマークでそれらを実証研究する。 cdtは、単に抗causal和をdtの抗causalbinningに置き換えるだけで、初めて有効なオフラインマルチタスクsmmアルゴリズムを可能にし、未発見および合成のマルチモーダル状態特徴分布にうまく一般化する。 BDTは、アグリゲータとして反因果第2変圧器を使用し、将来の統計をモデル化し、オフラインマルチタスクILにおいてDT変圧器より優れていることを学習することができる。 HIMとGDTの一般化された定式化は、現代のRLにおける強力なシーケンスモデリングアーキテクチャの役割を大きく広げます。

How to extract as much learning signal from each trajectory data has been a key problem in reinforcement learning (RL), where sample inefficiency has posed serious challenges for practical applications. Recent works have shown that using expressive policy function approximators and conditioning on future trajectory information -- such as future states in hindsight experience replay or returns-to-go in Decision Transformer (DT) -- enables efficient learning of multi-task policies, where at times online RL is fully replaced by offline behavioral cloning, e.g. sequence modeling. We demonstrate that all these approaches are doing hindsight information matching (HIM) -- training policies that can output the rest of trajectory that matches some statistics of future state information. We present Generalized Decision Transformer (GDT) for solving any HIM problem, and show how different choices for the feature function and the anti-causal aggregator not only recover DT as a special case, but also lead to novel Categorical DT (CDT) and Bi-directional DT (BDT) for matching different statistics of the future. For evaluating CDT and BDT, we define offline multi-task state-marginal matching (SMM) and imitation learning (IL) as two generic HIM problems, propose a Wasserstein distance loss as a metric for both, and empirically study them on MuJoCo continuous control benchmarks. CDT, which simply replaces anti-causal summation with anti-causal binning in DT, enables the first effective offline multi-task SMM algorithm that generalizes well to unseen and even synthetic multi-modal state-feature distributions. BDT, which uses an anti-causal second transformer as the aggregator, can learn to model any statistics of the future and outperforms DT variants in offline multi-task IL. Our generalized formulations from HIM and GDT greatly expand the role of powerful sequence modeling architectures in modern RL.
翻訳日:2021-11-22 15:46:51 公開日:2021-11-19
# DeepQR: 学習用複数項目質問に対するニューラルネットワークによる品質評価

DeepQR: Neural-based Quality Ratings for Learnersourced Multiple-Choice Questions ( http://arxiv.org/abs/2111.10058v1 )

ライセンス: Link先を確認
Lin Ni, Qiming Bao, Xiaoxuan Li, Qianqian Qi, Paul Denny, Jim Warren, Michael Witbrock, Jiamou Liu(参考訳) 自動質問品質評価(automated question quality rating, aqqr)は、計算手段を通じて質問品質を評価することを目的としている。 既存のAQQRの手法は、可読性や単語数といった明確に定義された基準にのみ依存するが、最先端のディープラーニング技術の力を十分に活用していない。 我々は、広く使われている学習者ソーシングプラットフォームであるPeerWiseから収集されたMultiple-choice-ques tion (MCQ)データセットを用いてトレーニングされた、AQQRの新しいニューラルネットワークモデルであるDeepQRを提案する。 DeepQRの設計とともに、明示的に定義された機能やセマンティック機能に基づいたモデル、あるいはその両方を調査します。 また,MCQコンポーネント間の意味的相関を捉える自己認識機構や,品質評価を用いた質問表現獲得のためのコントラスト学習手法も導入する。 8つの大学レベルのコースから収集されたデータセットに関する広範な実験は、deepqrが6つの比較モデルよりも優れたパフォーマンスを示している。

Automated question quality rating (AQQR) aims to evaluate question quality through computational means, thereby addressing emerging challenges in online learnersourced question repositories. Existing methods for AQQR rely solely on explicitly-defined criteria such as readability and word count, while not fully utilising the power of state-of-the-art deep-learning techniques. We propose DeepQR, a novel neural-network model for AQQR that is trained using multiple-choice-ques tion (MCQ) datasets collected from PeerWise, a widely-used learnersourcing platform. Along with designing DeepQR, we investigate models based on explicitly-defined features, or semantic features, or both. We also introduce a self-attention mechanism to capture semantic correlations between MCQ components, and a contrastive-learning approach to acquire question representations using quality ratings. Extensive experiments on datasets collected from eight university-level courses illustrate that DeepQR has superior performance over six comparative models.
翻訳日:2021-11-22 14:32:37 公開日:2021-11-19
# 深層強化学習のための不確実性を考慮した低ランクq行列推定

Uncertainty-aware Low-Rank Q-Matrix Estimation for Deep Reinforcement Learning ( http://arxiv.org/abs/2111.10103v1 )

ライセンス: Link先を確認
Tong Sang, Hongyao Tang, Jianye Hao, Yan Zheng, Zhaopeng Meng(参考訳) 価値の見積もりは強化学習の重要な問題のひとつです。 異なる分野の深層強化学習(drl)によって多くの成果が得られたが、価値関数の構造や学習のダイナミクス、特に複素関数近似は、完全には理解されていない。 本稿では,様々なアルゴリズムを対象とした連続制御タスクの学習過程において,$q$-matrixの低下ランクが広く存在することを報告する。 低ランク現象は確率的高次元空間から滑らかな低次元空間への$Q$-matrixの共通学習ダイナミクスを示すと仮定する。 さらに,値行列のランクと値推定の不確実性との間に正の相関関係を示す。 上記の証拠に触発されて,値関数の学習を容易にする汎用フレームワークとして,新しい不確実性を考慮した低ランクq行列推定(ua-lqe)アルゴリズムを提案する。 状態作用値推定の不確かさを定量化することにより、状態作用値行列における不確かさの高い値のエントリを選択的に消去し、それらの値の回復のために低ランク行列再構成を行う。 このような再構成は値行列の基盤構造を利用して値近似を改善し、値関数のより効率的な学習プロセスをもたらす。 実験では,OpenAI MuJoCo連続制御タスクにおけるUA-LQEの有効性を評価した。

Value estimation is one key problem in Reinforcement Learning. Albeit many successes have been achieved by Deep Reinforcement Learning (DRL) in different fields, the underlying structure and learning dynamics of value function, especially with complex function approximation, are not fully understood. In this paper, we report that decreasing rank of $Q$-matrix widely exists during learning process across a series of continuous control tasks for different popular algorithms. We hypothesize that the low-rank phenomenon indicates the common learning dynamics of $Q$-matrix from stochastic high dimensional space to smooth low dimensional space. Moreover, we reveal a positive correlation between value matrix rank and value estimation uncertainty. Inspired by above evidence, we propose a novel Uncertainty-Aware Low-rank Q-matrix Estimation (UA-LQE) algorithm as a general framework to facilitate the learning of value function. Through quantifying the uncertainty of state-action value estimation, we selectively erase the entries of highly uncertain values in state-action value matrix and conduct low-rank matrix reconstruction for them to recover their values. Such a reconstruction exploits the underlying structure of value matrix to improve the value approximation, thus leading to a more efficient learning process of value function. In the experiments, we evaluate the efficacy of UA-LQE in several representative OpenAI MuJoCo continuous control tasks.
翻訳日:2021-11-22 14:32:21 公開日:2021-11-19
# 個別処理効果予測と昇降モデルのための大規模ベンチマーク

A Large Scale Benchmark for Individual Treatment Effect Prediction and Uplift Modeling ( http://arxiv.org/abs/2111.10106v1 )

ライセンス: Link先を確認
Eustache Diemert, Artem Betlei, Christophe Renaudin, Massih-Reza Amini, Th\'eophane Gregoir, Thibaud Rahier(参考訳) 個別処理効果(ITE)予測は、粒度レベルでの行動の因果的影響の説明と推定を目的とした機械学習における重要な研究領域である。 これは、医療、オンライン広告、社会経済といった、複数の分野のアプリケーションへの関心が高まる問題を表している。 このトピックに関する研究を促進すべく、いくつかのランダム化されたコントロールトライアルから収集された1390万のサンプルの公開コレクションをリリースします。 我々は、データ収集の詳細と、このデータを利用した因果推論タスクの正当性チェックを行う。 まず,このデータを用いて行うことのできるアップリフトモデリング(um)のタスクと,関連する評価指標を定式化する。 そして,ITE予測のための一般的なセットアップを提供する合成応答面とヘテロジニアス処理割り当てを提案する。 最後に,データセットの大きさを利用して,ベースラインumとiteの予測手法を選定し,統計的に有意な評価・比較を行う実験を行った。

Individual Treatment Effect (ITE) prediction is an important area of research in machine learning which aims at explaining and estimating the causal impact of an action at the granular level. It represents a problem of growing interest in multiple sectors of application such as healthcare, online advertising or socioeconomics. To foster research on this topic we release a publicly available collection of 13.9 million samples collected from several randomized control trials, scaling up previously available datasets by a healthy 210x factor. We provide details on the data collection and perform sanity checks to validate the use of this data for causal inference tasks. First, we formalize the task of uplift modeling (UM) that can be performed with this data, along with the relevant evaluation metrics. Then, we propose synthetic response surfaces and heterogeneous treatment assignment providing a general set-up for ITE prediction. Finally, we report experiments to validate key characteristics of the dataset leveraging its size to evaluate and compare - with high statistical significance - a selection of baseline UM and ITE prediction methods.
翻訳日:2021-11-22 14:31:59 公開日:2021-11-19
# ubi-sleepnet:ユビキタスセンシングを用いた3段階睡眠分類のための高度マルチモーダル融合技術

Ubi-SleepNet: Advanced Multimodal Fusion Techniques for Three-stage Sleep Classification Using Ubiquitous Sensing ( http://arxiv.org/abs/2111.10245v1 )

ライセンス: Link先を確認
Bing Zhai, Yu Guan, Michael Catt, Thomas Ploetz(参考訳) 睡眠は健康な体と心を維持するのに不可欠な基本的な生理的過程である。 臨床睡眠モニタリングの金本位制はポリソムノグラフィ(psg)であり、睡眠は覚醒/ラピッド眼球運動睡眠(レム睡眠)/非レム睡眠1(n1)/非レム睡眠2(n2)/非レム睡眠3(n3)の5段階に分類できる。 しかし、PSGは高価で負担がかかり、日常使用には適さない。 長期睡眠モニタリングでは、ユビキタスセンシングが解決策となるかもしれない。 最近では、研究グレードまたはコンシューマグレードのデバイス(例えばApple Watch)から、両方のモダリティを簡単に取得できるため、三段階睡眠の分類において心臓と運動感覚が人気である。 しかし、データを最も正確に融合する方法については、まだ疑問の余地がある。 本研究では,3つの融合戦略と3段階の睡眠分類のための3つの融合手法を組み合わせた3つの公開データセットに基づく深層学習(DL)に基づく高度な融合手法を包括的に研究した。 実験結果から,3段階睡眠は,大規模な睡眠ステージアセスメント研究や長期の睡眠自己追跡を行うための実践的ツールとなりうる心・運動感覚モダリティを融合させることで,確実に分類できることが示唆された。 ユビキタス/ウェアラブルコンピューティングコミュニティにおける睡眠研究の進展を加速するため、このプロジェクトをオープンソース化し、https://github.com/b zhai/Ubi-SleepNet.co mでコードを見ることができる。

Sleep is a fundamental physiological process that is essential for sustaining a healthy body and mind. The gold standard for clinical sleep monitoring is polysomnography(PSG) , based on which sleep can be categorized into five stages, including wake/rapid eye movement sleep (REM sleep)/Non-REM sleep 1 (N1)/Non-REM sleep 2 (N2)/Non-REM sleep 3 (N3). However, PSG is expensive, burdensome, and not suitable for daily use. For long-term sleep monitoring, ubiquitous sensing may be a solution. Most recently, cardiac and movement sensing has become popular in classifying three-stage sleep, since both modalities can be easily acquired from research-grade or consumer-grade devices (e.g., Apple Watch). However, how best to fuse the data for the greatest accuracy remains an open question. In this work, we comprehensively studied deep learning (DL)-based advanced fusion techniques consisting of three fusion strategies alongside three fusion methods for three-stage sleep classification based on two publicly available datasets. Experimental results demonstrate important evidence that three-stage sleep can be reliably classified by fusing cardiac/movement sensing modalities, which may potentially become a practical tool to conduct large-scale sleep stage assessment studies or long-term self-tracking on sleep. To accelerate the progression of sleep research in the ubiquitous/wearable computing community, we made this project open source, and the code can be found at: https://github.com/b zhai/Ubi-SleepNet.
翻訳日:2021-11-22 14:31:43 公開日:2021-11-19
# メタ逆境摂動

Meta Adversarial Perturbations ( http://arxiv.org/abs/2111.10291v1 )

ライセンス: Link先を確認
Chia-Hung Yuan, Pin-Yu Chen, Chia-Mu Yu(参考訳) 多数の攻撃手法が攻撃例を生成するために提案されており、その中に強力な攻撃を見つける能力が実証されている。 しかし,新たなデータ点に対する逆摂動の計算には,時間を要する最適化問題をゼロから解く必要がある。 より強力な攻撃を生成するには、通常、より多くのイテレーションでデータポイントを更新する必要がある。 本稿では, メタ逆転摂動 (MAP) の存在を示すとともに, 1段階の勾配上昇更新のみで更新された後, 自然画像が高い確率で誤分類されるような, より優れた初期化を行い, このような摂動を計算するためのアルゴリズムを提案する。 我々は広範な実験を行い、最先端の深層ニューラルネットワークがメタ摂動に弱いことを実証した。 さらに、これらの摂動は画像に依存しないだけでなく、モデルに依存しないものであることを示し、単一の摂動は見えないデータポイントと異なるニューラルネットワークアーキテクチャにまたがってうまく一般化する。

A plethora of attack methods have been proposed to generate adversarial examples, among which the iterative methods have been demonstrated the ability to find a strong attack. However, the computation of an adversarial perturbation for a new data point requires solving a time-consuming optimization problem from scratch. To generate a stronger attack, it normally requires updating a data point with more iterations. In this paper, we show the existence of a meta adversarial perturbation (MAP), a better initialization that causes natural images to be misclassified with high probability after being updated through only a one-step gradient ascent update, and propose an algorithm for computing such perturbations. We conduct extensive experiments, and the empirical results demonstrate that state-of-the-art deep neural networks are vulnerable to meta perturbations. We further show that these perturbations are not only image-agnostic, but also model-agnostic, as a single perturbation generalizes well across unseen data points and different neural network architectures.
翻訳日:2021-11-22 14:31:10 公開日:2021-11-19
# DSPoint:高周波核融合によるデュアルスケールポイントクラウド認識

DSPoint: Dual-scale Point Cloud Recognition with High-frequency Fusion ( http://arxiv.org/abs/2111.10332v1 )

ライセンス: Link先を確認
Renrui Zhang, Ziyao Zeng, Ziyu Guo, Xinben Gao, Kexue Fu, Jianbo Shi(参考訳) ポイントクラウド処理は、その幅と不規則性のために難しい課題である。 以前の作品では、局所的特徴アグリゲータと大域的幾何学的アーキテクチャの両方に繊細なデザインを取り入れているが、両方の利点を組み合わせるものは少ない。 本研究では,voxel と point を同時に操作することで局所的グローバル特徴を抽出するために,高頻度融合(dspoint)を用いたデュアルスケールポイントクラウド認識を提案する。 ボクセルに畳み込みを適用し、点に注意を向ける従来の設計を逆転する。 具体的には、細粒度解析のためのポイントワイド畳み込みと、長距離構造探査のためのボクセルワイドグローバルアテンションの2つの特徴をチャネル次元で切り離す。 我々は,高頻度座標情報を伝達することにより,大規模な相互モーダル間相互作用を行う特徴アライメントのためのコアテンション融合モジュールを設計する。 広く採用されているModelNet40,ShapeNet, S3DISの実験と改善により,DSPointの最先端性能が実証された。

Point cloud processing is a challenging task due to its sparsity and irregularity. Prior works introduce delicate designs on either local feature aggregator or global geometric architecture, but few combine both advantages. We propose Dual-Scale Point Cloud Recognition with High-frequency Fusion (DSPoint) to extract local-global features by concurrently operating on voxels and points. We reverse the conventional design of applying convolution on voxels and attention to points. Specifically, we disentangle point features through channel dimension for dual-scale processing: one by point-wise convolution for fine-grained geometry parsing, the other by voxel-wise global attention for long-range structural exploration. We design a co-attention fusion module for feature alignment to blend local-global modalities, which conducts inter-scale cross-modality interaction by communicating high-frequency coordinates information. Experiments and ablations on widely-adopted ModelNet40, ShapeNet, and S3DIS demonstrate the state-of-the-art performance of our DSPoint.
翻訳日:2021-11-22 14:30:53 公開日:2021-11-19
# 騒音誘導による摂食支援訓練

Fooling Adversarial Training with Inducing Noise ( http://arxiv.org/abs/2111.10130v1 )

ライセンス: Link先を確認
Zhirui Wang, Yifei Wang, Yisen Wang(参考訳) 敵意トレーニングは、敵意攻撃に対するモデルのロバスト性を改善するための信頼できるアプローチであると広く考えられている。 しかし本論文では,ある種類の有毒データに基づいてトレーニングを行う場合,cifar-10データセット上では,<1\%$ロバストなテスト精度と>90\%$ロバストなトレーニング精度を持つ<1\%$ロバストなテスト精度など,敵対的トレーニングを騙すことも示す。 従来、トレーニングデータには、標準トレーニング(CIFAR-10データセットで標準トレーニング精度が15.8\%、標準トレーニング精度が99.9\%)を騙すことに成功している他の種類のノイズがあるが、敵のトレーニングを採用する際には、その毒性を簡単に除去することができる。 そこで,我々は,トレーニングデータの無作為な中毒であるadvinという新しいタイプの誘発雑音の設計を目指している。 ADVINは、CIFAR-10データセットで511.7 %$から0.57 %$まで大きなマージンで敵の訓練の堅牢性を低下させるだけでなく、標準トレーニングを騙すのにも有効である(13.1 %$標準テスト精度と100 %$標準トレーニング精度)。 さらにADVINは、個人データ(自撮りなど)が標準的あるいは敵対的な訓練を受けずに悪用されるのを防ぐために適用することができる。

Adversarial training is widely believed to be a reliable approach to improve model robustness against adversarial attack. However, in this paper, we show that when trained on one type of poisoned data, adversarial training can also be fooled to have catastrophic behavior, e.g., $<1\%$ robust test accuracy with $>90\%$ robust training accuracy on CIFAR-10 dataset. Previously, there are other types of noise poisoned in the training data that have successfully fooled standard training ($15.8\%$ standard test accuracy with $99.9\%$ standard training accuracy on CIFAR-10 dataset), but their poisonings can be easily removed when adopting adversarial training. Therefore, we aim to design a new type of inducing noise, named ADVIN, which is an irremovable poisoning of training data. ADVIN can not only degrade the robustness of adversarial training by a large margin, for example, from $51.7\%$ to $0.57\%$ on CIFAR-10 dataset, but also be effective for fooling standard training ($13.1\%$ standard test accuracy with $100\%$ standard training accuracy). Additionally, ADVIN can be applied to preventing personal data (like selfies) from being exploited without authorization under whether standard or adversarial training.
翻訳日:2021-11-22 14:30:34 公開日:2021-11-19
# 製造業領域における質問応答システムの構築

Building a Question Answering System for the Manufacturing Domain ( http://arxiv.org/abs/2111.10044v1 )

ライセンス: Link先を確認
Liu Xingguang, Cheng Zhenbo, Shen Zhengyuan, Zhang Haoxin, Meng Hangcheng, Xu Xuesong, Xiao Gang(参考訳) 特別装備品の設計又はシミュレーション分析は、国定基準に従わなければならないため、設計プロセスにおける基準の内容を繰り返し検討する必要があるかもしれない。 しかし,従来のキーワード検索に基づく質問応答システムは,技術的質問に対して正確な回答を与えるのが困難である。 そこで本研究では,自然言語処理手法を用いて圧力容器設計における意思決定過程の質問応答システムを設計する。 技術質問応答システムのトレーニングデータ不足を解決するため,複数の次元から宣言文に基づいて質問を生成する手法を提案し,複数の問合せ対を宣言文から得られるようにした。 さらに,2つの質問文の類似性比較の性能を向上させるために,双方向長短期メモリ(BiLSTM)ネットワークに基づく対話型アテンションモデルを構築した。 最後に、質問応答システムの性能をパブリックおよびテクニカルなドメインデータセットでテストした。

The design or simulation analysis of special equipment products must follow the national standards, and hence it may be necessary to repeatedly consult the contents of the standards in the design process. However, it is difficult for the traditional question answering system based on keyword retrieval to give accurate answers to technical questions. Therefore, we use natural language processing techniques to design a question answering system for the decision-making process in pressure vessel design. To solve the problem of insufficient training data for the technology question answering system, we propose a method to generate questions according to a declarative sentence from several different dimensions so that multiple question-answer pairs can be obtained from a declarative sentence. In addition, we designed an interactive attention model based on a bidirectional long short-term memory (BiLSTM) network to improve the performance of the similarity comparison of two question sentences. Finally, the performance of the question answering system was tested on public and technical domain datasets.
翻訳日:2021-11-22 14:28:48 公開日:2021-11-19
# オンラインリソースアロケーションのための逆深層学習

Adversarial Deep Learning for Online Resource Allocation ( http://arxiv.org/abs/2111.10285v1 )

ライセンス: Link先を確認
Bingqian Du, Zhiyi Huang, Chuan Wu(参考訳) オンラインアルゴリズムはアルゴリズム設計において重要な分野である。 オンラインアルゴリズムを(最悪の場合のパフォーマンスの観点から)有界競争比で設計することは困難であり、通常は問題固有の仮定に依存する。 Generative Adversarial Net (GAN) の敵対的トレーニングや,オンラインアルゴリズムの競合比率が最悪のケース入力に基づいているという事実に触発されて,我々は,オフライン最適化と学習したオンラインアルゴリズムのパフォーマンスギャップを最小化して,リソース割り当てと価格問題に対するオンラインアルゴリズムをゼロから学習するために,ディープニューラルネットワークを採用した。 具体的には、2つのニューラルネットワークをそれぞれアルゴリズムと敵として利用し、そのアルゴリズムが相手の入力に基づいて最良の戦略を学習している間に、相手が最悪の入力を生成する責任を負うゼロサムゲームをさせる。 アルゴリズムネットワーク(所望のオンラインアルゴリズムへ)の収束性を確保するため,複数のラウンド間の複雑な依存関係を壊すようなシーケンシャルな決定を処理し,サンプル化されたアクションのみでなく,可能なすべてのアクションに対して更新を行うことが可能な,新しい1ラウンドごとの更新手法を提案する。 我々の知る限りでは、私たちの研究は、最悪のパフォーマンス保証の観点からオンラインアルゴリズムを設計するためにディープニューラルネットワークを使った初めてのものです。 実証研究により,nash均衡への収束を保証し,学習アルゴリズムが様々な条件下で最先端のオンラインアルゴリズムを上回ることを示した。

Online algorithm is an important branch in algorithm design. Designing online algorithms with a bounded competitive ratio (in terms of worst-case performance) can be hard and usually relies on problem-specific assumptions. Inspired by adversarial training from Generative Adversarial Net (GAN) and the fact that competitive ratio of an online algorithm is based on worst-case input, we adopt deep neural networks to learn an online algorithm for a resource allocation and pricing problem from scratch, with the goal that the performance gap between offline optimum and the learned online algorithm can be minimized for worst-case input. Specifically, we leverage two neural networks as algorithm and adversary respectively and let them play a zero sum game, with the adversary being responsible for generating worst-case input while the algorithm learns the best strategy based on the input provided by the adversary. To ensure better convergence of the algorithm network (to the desired online algorithm), we propose a novel per-round update method to handle sequential decision making to break complex dependency among different rounds so that update can be done for every possible action, instead of only sampled actions. To the best of our knowledge, our work is the first using deep neural networks to design an online algorithm from the perspective of worst-case performance guarantee. Empirical studies show that our updating methods ensure convergence to Nash equilibrium and the learned algorithm outperforms state-of-the-art online algorithms under various settings.
翻訳日:2021-11-22 14:28:34 公開日:2021-11-19
# マルコフ決定過程におけるエキスパート誘導対称性検出

Expert-Guided Symmetry Detection in Markov Decision Processes ( http://arxiv.org/abs/2111.10297v1 )

ライセンス: Link先を確認
Giorgio Angelotti, Nicolas Drougard, Caroline P. C. Chanel(参考訳) 固定された軌道のバッチからマルコフ決定過程(MDP)を学習することは、結果の質が状態-作用空間のサンプル領域の量と多様性に依存する非自明なタスクである。 しかし、多くのMDPには、現在の状態と動作の変換に関して不変の報酬と遷移関数が与えられている。 これらの構造を検出して活用することは、MDPの学習だけでなく、その後の最適制御ポリシーの計算にも役立つ。 本研究では,mdp動力学が不変である状態-作用空間の既に想定されている変換の存在を検出することを目的とした,密度推定法に基づくパラダイムを提案する。 提案手法を離散トロイダルグリッド環境とOpenAIのGym Learning Suiteの2つの悪名高い環境で検証した。 その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトを低減し, 遷移関数のより徹底的でデータ効率のよい学習を可能にした。

Learning a Markov Decision Process (MDP) from a fixed batch of trajectories is a non-trivial task whose outcome's quality depends on both the amount and the diversity of the sampled regions of the state-action space. Yet, many MDPs are endowed with invariant reward and transition functions with respect to some transformations of the current state and action. Being able to detect and exploit these structures could benefit not only the learning of the MDP but also the computation of its subsequent optimal control policy. In this work we propose a paradigm, based on Density Estimation methods, that aims to detect the presence of some already supposed transformations of the state-action space for which the MDP dynamics is invariant. We tested the proposed approach in a discrete toroidal grid environment and in two notorious environments of OpenAI's Gym Learning Suite. The results demonstrate that the model distributional shift is reduced when the dataset is augmented with the data obtained by using the detected symmetries, allowing for a more thorough and data-efficient learning of the transition functions.
翻訳日:2021-11-22 14:28:07 公開日:2021-11-19
# (参考訳) 視覚的質問応答におけるヒューマンパリティの達成 [全文訳有]

Achieving Human Parity on Visual Question Answering ( http://arxiv.org/abs/2111.08896v3 )

ライセンス: CC BY 4.0
Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang, Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Zhicheng Zhang, Qiyu Zhang, Ji Zhang, Songfang Huang, Fei Huang, Luo Si, Rong Jin(参考訳) 視覚質問応答(vqa)タスクは、視覚画像と言語分析の両方を使用して、画像に関するテキスト質問に応答する。 この10年間で現実世界のアプリケーションが増えていることで、人気のある研究テーマとなっている。 本稿では,alicemind-mmu (alibaba's collection of encoder-decoder from machine intelligence lab of damo academy - multimedia understanding) に関する最近の研究について述べる。 これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。 異なるタイプの視覚的質問を必要な専門知識で扱うことは、VQAアーキテクチャのパフォーマンスを人間レベルまで上げる上で重要な役割を担います。 新しい研究成果の有効性を示すために,広範囲にわたる実験と分析を行った。

The Visual Question Answering (VQA) task utilizes both visual image and language analysis to answer a textual question with respect to an image. It has been a popular research topic with an increasing number of real-world applications in the last decade. This paper describes our recent research of AliceMind-MMU (ALIbaba's Collection of Encoder-decoders from Machine IntelligeNce lab of Damo academy - MultiMedia Understanding) that obtains similar or even slightly better results than human being does on VQA. This is achieved by systematically improving the VQA pipeline including: (1) pre-training with comprehensive visual and textual feature representation; (2) effective cross-modal interaction with learning to attend; and (3) A novel knowledge mining framework with specialized expert modules for the complex VQA task. Treating different types of visual questions with corresponding expertise needed plays an important role in boosting the performance of our VQA architecture up to the human level. An extensive set of experiments and analysis are conducted to demonstrate the effectiveness of the new research work.
翻訳日:2021-11-22 14:25:12 公開日:2021-11-19
# (参考訳) XLS-R:大規模言語間音声表現学習 [全文訳有]

XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale ( http://arxiv.org/abs/2111.09296v2 )

ライセンス: CC BY 4.0
Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli(参考訳) 本稿では,wav2vec 2.0に基づく言語間音声表現学習の大規模モデルであるXLS-Rを提案する。 私たちは、128の言語で50万時間近く公開されている音声音声に対して、最大2Bパラメータを持つモデルをトレーニングします。 私たちの評価は、ハイリソースとローリソースの両方で、幅広いタスク、ドメイン、データレジーム、言語をカバーしています。 CoVoST-2音声翻訳ベンチマークでは,21の翻訳方向に対して平均7.4BLEUで先行技術を改善する。 音声認識において、XLS-RはBABEL、MLS、CommonVoice、およびVoxPopuliの既知の先行研究を改善し、平均して14~34%の誤差率を低下させる。 XLS-RはVoxLingua107言語識別の新たな状態も設定している。 さらに, モデルサイズが十分であれば, 英語を他の言語に翻訳する際には, 言語間事前学習が英語のみの事前学習よりも優れることを示す。 我々は、XLS-Rが世界中の多くの言語における音声処理タスクの改善に役立つことを願っている。

This paper presents XLS-R, a large-scale model for cross-lingual speech representation learning based on wav2vec 2.0. We train models with up to 2B parameters on nearly half a million hours of publicly available speech audio in 128 languages, an order of magnitude more public data than the largest known prior work. Our evaluation covers a wide range of tasks, domains, data regimes and languages, both high and low-resource. On the CoVoST-2 speech translation benchmark, we improve the previous state of the art by an average of 7.4 BLEU over 21 translation directions into English. For speech recognition, XLS-R improves over the best known prior work on BABEL, MLS, CommonVoice as well as VoxPopuli, lowering error rates by 14-34% relative on average. XLS-R also sets a new state of the art on VoxLingua107 language identification. Moreover, we show that with sufficient model size, cross-lingual pretraining can outperform English-only pretraining when translating English speech into other languages, a setting which favors monolingual pretraining. We hope XLS-R can help to improve speech processing tasks for many more languages of the world.
翻訳日:2021-11-22 13:47:49 公開日:2021-11-19
# (参考訳) 視覚記憶を用いた非教師なしオンライン学習 [全文訳有]

Unsupervised Online Learning for Robotic Interestingness with Visual Memory ( http://arxiv.org/abs/2111.09793v2 )

ライセンス: CC0 1.0
Chen Wang, Yuheng Qiu, Wenshan Wang, Yafei Hu, Seungchan Kim, Sebastian Scherer(参考訳) 自律ロボットは、さらなる探索を決定するために「興味深い」シーンを検出したり、協力のために共有するデータを決定する必要がある。 これらのシナリオは、ほとんど、あるいはまったくトレーニングデータを持たない高速なデプロイメントを必要とすることが多い。 先行研究では、同じ分布のデータに基づいて「興味」を考える。 代わりに,オンライン環境に自動的に適応して興味ある場面を素早く報告する手法を開発することを提案する。 この問題に対処するため,我々は,新しい翻訳不変ビジュアルメモリを開発し,長期・短期・オンライン学習のための3段階アーキテクチャを設計した。 このシステムにより,地下トンネル環境における最先端の非監視手法よりも平均20%高い精度が得られる。 提案手法の有効性を示すロボット探索シナリオにおける教師付き手法と同等の性能を示す。 提案手法は,ロボットの興味をそそる探索作業において重要な役割を果たすことを期待する。

Autonomous robots frequently need to detect "interesting" scenes to decide on further exploration, or to decide which data to share for cooperation. These scenarios often require fast deployment with little or no training data. Prior work considers "interestingness" ; based on data from the same distribution. Instead, we propose to develop a method that automatically adapts online to the environment to report interesting scenes quickly. To address this problem, we develop a novel translation-invarian t visual memory and design a three-stage architecture for long-term, short-term, and online learning, which enables the system to learn human-like experience, environmental knowledge, and online adaption, respectively. With this system, we achieve an average of 20% higher accuracy than the state-of-the-art unsupervised methods in a subterranean tunnel environment. We show comparable performance to supervised methods for robot exploration scenarios showing the efficacy of our approach. We expect that the presented method will play an important role in the robotic interestingness recognition exploration tasks.
翻訳日:2021-11-22 13:14:39 公開日:2021-11-19
# (参考訳) 分布外データに基づくディープネットワークの一般化と検証 [全文訳有]

Understanding and Testing Generalization of Deep Networks on Out-of-Distribution Data ( http://arxiv.org/abs/2111.09190v2 )

ライセンス: CC BY 4.0
Rui Hu, Jitao Sang, Jinqiang Wang, Rui Hu, Chaoquan Jiang(参考訳) ディープネットワークモデルは、In-Distribution(ID)データでは優れた性能を発揮するが、Out-Of-Distribution( OOD)データでは著しく失敗する可能性がある。 OODの一般化の改善に焦点が当てられているが、OODデータを扱うモデルの性能を評価することにはほとんど注意が払われている。 本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計し,実用性能を正確に評価することを目的とする。 分析は,OODデータを生成するために,3種類の分布シフトの分類を導入した。 1) 単一モデルの実際の性能を反映せず、OODデータの下で異なるモデルの比較も行わない場合、IDテストは失敗する。 2) IDテストの失敗は, 対応する分布シフトから得られた学習限界と条件の急激な相関に説明できる。 そこで本研究では,OODテストの新たなパラダイムを提案するとともに,モデルデバッギングのガイドとなるモデルのバグを見つけるためのOODテスト結果の活用方法について検討する。

Deep network models perform excellently on In-Distribution (ID) data, but can significantly fail on Out-Of-Distribution (OOD) data. While developing methods focus on improving OOD generalization, few attention has been paid to evaluating the capability of models to handle OOD data. This study is devoted to analyzing the problem of experimental ID test and designing OOD test paradigm to accurately evaluate the practical performance. Our analysis is based on an introduced categorization of three types of distribution shifts to generate OOD data. Main observations include: (1) ID test fails in neither reflecting the actual performance of a single model nor comparing between different models under OOD data. (2) The ID test failure can be ascribed to the learned marginal and conditional spurious correlations resulted from the corresponding distribution shifts. Based on this, we propose novel OOD test paradigms to evaluate the generalization capacity of models to unseen data, and discuss how to use OOD test results to find bugs of models to guide model debugging.
翻訳日:2021-11-22 12:44:45 公開日:2021-11-19
# 異常検出のための自己監督型予測畳み込み回避ブロック

Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection ( http://arxiv.org/abs/2111.09099v3 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Neelu Madan, Radu Tudor Ionescu, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah(参考訳) 異常検出は、通常と異常の両方のテストサンプルで評価しながら、モデルが通常のトレーニングサンプルからのみ学習できる、一級分類問題として一般的に追求されている。 異常検出に成功している手法としては,マスク情報(パッチ,将来のフレームなど)の予測や,マスク情報に対する再構成誤差を異常スコアとして活用する手法がある。 関連する手法と異なり,新しい自己教師あり予測アーキテクチャ構築ブロックに再構成に基づく機能を統合することを提案する。 提案する自己教師ブロックは汎用的であり、様々な最先端の異常検出方法に容易に組み込むことができる。 私たちのブロックは、レセプティブフィールドの中心領域がマスクされている拡張フィルタを備えた畳み込み層から始まります。 得られた活性化マップはチャネルアテンションモジュールを通過します。 我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。 画像や動画の異常検出のための最先端フレームワークに組み込んで,MVTec AD, Avenue, ShanghaiTechの性能向上を示す実証的な証拠を提供することで,ブロックの汎用性を実証する。

Anomaly detection is commonly pursued as a one-class classification problem, where models can only learn from normal training samples, while being evaluated on both normal and abnormal test samples. Among the successful approaches for anomaly detection, a distinguished category of methods relies on predicting masked information (e.g. patches, future frames, etc.) and leveraging the reconstruction error with respect to the masked information as an abnormality score. Different from related methods, we propose to integrate the reconstruction-based functionality into a novel self-supervised predictive architectural building block. The proposed self-supervised block is generic and can easily be incorporated into various state-of-the-art anomaly detection methods. Our block starts with a convolutional layer with dilated filters, where the center area of the receptive field is masked. The resulting activation maps are passed through a channel attention module. Our block is equipped with a loss that minimizes the reconstruction error with respect to the masked area in the receptive field. We demonstrate the generality of our block by integrating it into several state-of-the-art frameworks for anomaly detection on image and video, providing empirical evidence that shows considerable performance improvements on MVTec AD, Avenue, and ShanghaiTech.
翻訳日:2021-11-22 12:27:12 公開日:2021-11-19
# 亜深度:自己蒸留と不確かさ向上による自己監督単眼深度推定

SUB-Depth: Self-distillation and Uncertainty Boosting Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2111.09692v2 )

ライセンス: Link先を確認
Hang Zhou, Sarah Taylor, David Greenwood(参考訳) 自己教師付き単眼深度推定(SDE)のための汎用マルチタスクトレーニングフレームワークであるSUB-Depthを提案する。 SUB-Depthでトレーニングされた深度モデルは、標準のシングルタスクSDEフレームワークでトレーニングされた同じモデルより優れている。 新たな自己蒸留タスクを標準のSDEトレーニングフレームワークに導入することにより、Sub-Depthは、画像再構成タスクの深度マップを予測するだけでなく、学習した教師ネットワークから学習データを用いて知識を抽出する深度ネットワークを訓練する。 このマルチタスク設定を活用するために,教師ネットワークノイズの影響を受けやすい領域やSDEの仮定に反する領域を罰する,各タスクに対する相似不確実性定式化を提案する。 提案するフレームワークを用いて,既存のネットワークをトレーニングすることで達成された改善を実証するために,KITTIの広範な評価を行い,その課題に対して最先端の性能を実現する。 さらに、SUB-Depthは深度出力の不確かさを推定できる。

We propose SUB-Depth, a universal multi-task training framework for self-supervised monocular depth estimation (SDE). Depth models trained with SUB-Depth outperform the same models trained in a standard single-task SDE framework. By introducing an additional self-distillation task into a standard SDE training framework, SUB-Depth trains a depth network, not only to predict the depth map for an image reconstruction task, but also to distill knowledge from a trained teacher network with unlabelled data. To take advantage of this multi-task setting, we propose homoscedastic uncertainty formulations for each task to penalize areas likely to be affected by teacher network noise, or violate SDE assumptions. We present extensive evaluations on KITTI to demonstrate the improvements achieved by training a range of existing networks using the proposed framework, and we achieve state-of-the-art performance on this task. Additionally, SUB-Depth enables models to estimate uncertainty on depth output.
翻訳日:2021-11-22 12:26:53 公開日:2021-11-19
# LiDARクラスタファーストとカメラ推論:自動運転への新たな展望

LiDAR Cluster First and Camera Inference Later: A New Perspective Towards Autonomous Driving ( http://arxiv.org/abs/2111.09799v2 )

ライセンス: Link先を確認
Jiyang Chen, Simon Yu, Rohan Tabish, Ayoosh Bansal, Shengzhong Liu, Tarek Abdelzaher, and Lui Sha(参考訳) 最先端自動運転車(av)フレームワークにおけるオブジェクト検出は、ディープニューラルネットワークに大きく依存する。 通常、これらのネットワークはカメラのLiDARフレーム全体に一様にオブジェクト検出を行う。 しかし、この均一性は、AVに衝突するリスクに関係なく、シーン内のすべてのオブジェクトに同じ優先度を与えることで、AVの安全性を損なう。 本稿では、まずLiDARクラスタの概念を導入し、次にカメラ推論を行い、オブジェクトを検出して分類するAVのための新しいエンドツーエンドパイプラインを提案する。 提案するフレームワークの利点は2つあります。 まず、当社のパイプラインでは、avに衝突するリスクが高いオブジェクトの検出を優先し、安全でない条件にavが反応する時間を増やします。 第2に、一般的なディープニューラルネットワークパイプラインと比較して、平均的な推論速度も速い。 実世界のデータセットであるWaymo Open Datasetを使用して,LiDARセンサとオブジェクト検出アルゴリズムの限界から生じる課題を解決するフレームワークを設計する。 提案する新たなオブジェクト検出パイプラインは,カメラ推論のみと比較して,高いリスクオブジェクトの検出を優先すると同時に,同等の精度と平均速度を25%向上することを示す。

Object detection in state-of-the-art Autonomous Vehicles (AV) framework relies heavily on deep neural networks. Typically, these networks perform object detection uniformly on the entire camera LiDAR frames. However, this uniformity jeopardizes the safety of the AV by giving the same priority to all objects in the scenes regardless of their risk of collision to the AV. In this paper, we present a new end-to-end pipeline for AV that introduces the concept of LiDAR cluster first and camera inference later to detect and classify objects. The benefits of our proposed framework are twofold. First, our pipeline prioritizes detecting objects that pose a higher risk of collision to the AV, giving more time for the AV to react to unsafe conditions. Second, it also provides, on average, faster inference speeds compared to popular deep neural network pipelines. We design our framework using the real-world datasets, the Waymo Open Dataset, solving challenges arising from the limitations of LiDAR sensors and object detection algorithms. We show that our novel object detection pipeline prioritizes the detection of higher risk objects while simultaneously achieving comparable accuracy and a 25% higher average speed compared to camera inference only.
翻訳日:2021-11-22 12:26:36 公開日:2021-11-19
# 制限のない3次元逆点雲の生成

Generating Unrestricted 3D Adversarial Point Clouds ( http://arxiv.org/abs/2111.08973v2 )

ライセンス: Link先を確認
Xuelong Dai, Yanjie Li, Hua Dai, Bin Xiao(参考訳) 3dポイントクラウドデータを活用することで、顔認識や自動運転など、多くの分野における人工知能の展開が緊急に求められている。 しかし、3dポイントクラウドのディープラーニングは、反復攻撃、ポイント変換攻撃、生成攻撃など、相反する攻撃に対して脆弱である。 これらの攻撃は、厳密な境界内での敵の例の摂動を制限する必要があり、非現実的な3D点雲に繋がる。 本稿では,視覚的に現実的な3D点雲をスクラッチから生成するAdvGCGAN(Adversarial Graph-Convolutional Generative Adversarial Network)を提案する。 具体的には,グラフ畳み込み生成器と補助分類器を備えた判別器を用いて,実3次元データから潜在分布を学習する実数点雲を生成する。 GANの特殊対向訓練には制限のない対向攻撃損失が組み込まれており、生成器は敵のサンプルを生成してターゲットネットワークをスポークすることができる。 既存の最先端攻撃法と比較して,本実験は,攻撃成功率が高く視覚品質の高い非制限攻撃法の有効性を示す。 さらに,提案するadvgcganは,強力なカモフラージュを有する既存の攻撃手法よりも,防御モデルに対する優れた性能と移動性を達成することができる。

Utilizing 3D point cloud data has become an urgent need for the deployment of artificial intelligence in many areas like facial recognition and self-driving. However, deep learning for 3D point clouds is still vulnerable to adversarial attacks, e.g., iterative attacks, point transformation attacks, and generative attacks. These attacks need to restrict perturbations of adversarial examples within a strict bound, leading to the unrealistic adversarial 3D point clouds. In this paper, we propose an Adversarial Graph-Convolutional Generative Adversarial Network (AdvGCGAN) to generate visually realistic adversarial 3D point clouds from scratch. Specifically, we use a graph convolutional generator and a discriminator with an auxiliary classifier to generate realistic point clouds, which learn the latent distribution from the real 3D data. The unrestricted adversarial attack loss is incorporated in the special adversarial training of GAN, which enables the generator to generate the adversarial examples to spoof the target network. Compared with the existing state-of-art attack methods, the experiment results demonstrate the effectiveness of our unrestricted adversarial attack methods with a higher attack success rate and visual quality. Additionally, the proposed AdvGCGAN can achieve better performance against defense models and better transferability than existing attack methods with strong camouflage.
翻訳日:2021-11-22 12:26:19 公開日:2021-11-19