このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210817となっている論文です。

PDF登録状況(公開日: 20210817)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 学習用デノイザからのPlug-and-Playアルゴリズムの不安定性 [全文訳有]

Instabilities in Plug-and-Play (PnP) algorithms from a learned denoiser ( http://arxiv.org/abs/2109.01655v1 )

ライセンス: CC0 1.0
Abinash Nayak(参考訳) 逆問題には問題があり、意味のある解決には正規化手法を使わなければならないことはよく知られている。 伝統的に、一般的な正規化法はペナルティ化された変分アプローチである。 近年では、ADMMやFISTAのような近位勾配最小化過程を模倣するいわゆるプラグ・アンド・プレイ(PnP)アルゴリズムによって古典正規化のアプローチは非クラス化されている。 しかし、従来の近位勾配法とは異なり、理論的な基盤、収束、安定性はこれらのPnP-アルゴリズムでは不十分である。 したがって、これらのアルゴリズムから得られた結果は経験的に優れているものの、特定の不安定性やデノイザーから生じる(ハロゲン化)特徴を含む可能性があるため、完全に信頼されるとは限らない。 実際,本論文では,PnP-algorithmが,事前学習型ディープラーニング(DnCNN)デノイザを用いた場合,幻覚的特徴を誘導できることを示す。 このような不安定性は、不適切な問題に固有の不安定性とは全く異なる。 また, これらの不安定性を抑え, 回復を著しく改善する手法を提案する。 古典的デノイザー(bm3d)に対する学習デノイザーの長所と短所を比較し,fista-pnpアルゴリズムの有効性をadmm-pnpアルゴリズムと比較した。 さらに,これら2つの分母(学習者,古典的)を重み付けした方法で結合し,さらによい結果を得るアルゴリズムも提供する。 発展理論を検証した数値的な結果を得た。

It's well-known that inverse problems are ill-posed and to solve them meaningfully, one has to employ regularization methods. Traditionally, popular regularization methods are the penalized Variational approaches. In recent years, the classical regularization approaches have been outclassed by the so-called plug-and-play (PnP) algorithms, which copy the proximal gradient minimization processes, such as ADMM or FISTA, but with any general denoiser. However, unlike the traditional proximal gradient methods, the theoretical underpinnings, convergence, and stability results have been insufficient for these PnP-algorithms. Hence, the results obtained from these algorithms, though empirically outstanding, can't always be completely trusted, as they may contain certain instabilities or (hallucinated) features arising from the denoiser, especially when using a pre-trained learned denoiser. In fact, in this paper, we show that a PnP-algorithm can induce hallucinated features, when using a pre-trained deep-learning-based (DnCNN) denoiser. We show that such instabilities are quite different than the instabilities inherent to an ill-posed problem. We also present methods to subdue these instabilities and significantly improve the recoveries. We compare the advantages and disadvantages of a learned denoiser over a classical denoiser (here, BM3D), as well as, the effectiveness of the FISTA-PnP algorithm vs. the ADMM-PnP algorithm. In addition, we also provide an algorithm to combine these two denoisers, the learned and the classical, in a weighted fashion to produce even better results. We conclude with numerical results which validate the developed theories.
翻訳日:2021-09-12 13:22:18 公開日:2021-08-17
# (参考訳) 胸部X線画像を用いた半教師付き深層学習における分布ミスマッチの対応:特徴密度を用いた新しいアプローチ [全文訳有]

Dealing with Distribution Mismatch in Semi-supervised Deep Learning for Covid-19 Detection Using Chest X-ray Images: A Novel Approach Using Feature Densities ( http://arxiv.org/abs/2109.00889v1 )

ライセンス: CC BY 4.0
Saul Calderon-Ramirez, Shengxiang Yang, David Elizondo, Armaghan Moemeni(参考訳) 新型コロナウイルスの感染拡大に伴い、胸部X線画像を用いた被検体検出のための異なる深層学習ソリューションが提案されている。 しかし、ディープラーニングモデルは通常、有効にするために大きなラベル付きデータセットが必要です。 半教師付きディープラーニングは魅力的な選択肢であり、ラベルのないデータをモデル全体の精度を改善するために活用する。 しかし、実際の使用状況では、ラベル付きデータセット(すなわち、ラベル付きデータセット)とは異なる分布を示す可能性がある。 ラベル付きデータセットは、ターゲットクリニックとソースクリニックの未ラベルデータセットからサンプリングされました。 これにより、ラベルなしデータセットとラベル付きデータセットの分散ミスマッチが発生する。 本研究では,胸部X線画像を用いた半教師付きモデルを用いて,ラベル付きデータセットと非ラベル付きデータセットとの分布ミスマッチの影響を評価する。 強い分布ミスマッチ条件下では,約30%の精度で精度が低下し,乱れのないデータセット分布がモデルの挙動に強い影響を与えることが示唆された。 そこで,このような分布ミスマッチの影響を低減するための簡単なアプローチを提案する。 提案手法は特徴空間の密度近似を用いる。 ターゲットデータセット上に構築され、半教師付きモデルの精度を損なう可能性のあるソース未ラベルデータセットの観測をフィルタリングする。 これは、小さなラベル付きソースデータセットと、より大きなソース未ラベルデータセットが利用できると仮定する。 提案手法は,モデル学習を必要とせず,単純で計算量的に安価である。 提案手法を,より安価で実装が容易な2種類の分散型データ検出器と比較した。 本試験では, 従来手法と比較して, 精度が32\%まで向上した。

In the context of the global coronavirus pandemic, different deep learning solutions for infected subject detection using chest X-ray images have been proposed. However, deep learning models usually need large labelled datasets to be effective. Semi-supervised deep learning is an attractive alternative, where unlabelled data is leveraged to improve the overall model's accuracy. However, in real-world usage settings, an unlabelled dataset might present a different distribution than the labelled dataset (i.e. the labelled dataset was sampled from a target clinic and the unlabelled dataset from a source clinic). This results in a distribution mismatch between the unlabelled and labelled datasets. In this work, we assess the impact of the distribution mismatch between the labelled and the unlabelled datasets, for a semi-supervised model trained with chest X-ray images, for COVID-19 detection. Under strong distribution mismatch conditions, we found an accuracy hit of almost 30\%, suggesting that the unlabelled dataset distribution has a strong influence in the behaviour of the model. Therefore, we propose a straightforward approach to diminish the impact of such distribution mismatch. Our proposed method uses a density approximation of the feature space. It is built upon the target dataset to filter out the observations in the source unlabelled dataset that might harm the accuracy of the semi-supervised model. It assumes that a small labelled source dataset is available together with a larger source unlabelled dataset. Our proposed method does not require any model training, it is simple and computationally cheap. We compare our proposed method against two popular state of the art out-of-distribution data detectors, which are also cheap and simple to implement. In our tests, our method yielded accuracy gains of up to 32\%, when compared to the previous state of the art methods.
翻訳日:2021-09-05 12:31:38 公開日:2021-08-17
# (参考訳) KITTI-CARLA:CARLAシミュレータが生成するKITTIライクなデータセット [全文訳有]

KITTI-CARLA: a KITTI-like dataset generated by CARLA Simulator ( http://arxiv.org/abs/2109.00892v1 )

ライセンス: CC BY 4.0
Jean-Emmanuel Deschaud(参考訳) KITTI-CARLAは、CARLA v0.9.10シミュレータから構築されたデータセットで、KITTIデータセットと同一のセンサーを備えた車両を使用する。 この車両は屋根の中央にベロディアン HDL64 LiDAR とポイント・グレイ・フリー 2 に似た2つのカラーカメラを搭載している。 LiDARとカメラの位置は、KITTIで使用されるものと同じである。 本データセットの目的は, セマンティックセグメンテーションLiDARおよび/または画像, オードメトリーLiDARおよび/または画像の合成データのアプローチを検証し, KITTIのような実データで得られた結果と比較することである。 これにより、合成データセットから実際のデータセットへの転送学習方法を改善することができる。 都市,郊外,山間部,農村部,高速道路など,異なる環境を提供するCARLAの7つのマップに,それぞれ5000フレームの7つのシーケンスを作成しました。 データセットは以下の通りである。

KITTI-CARLA is a dataset built from the CARLA v0.9.10 simulator using a vehicle with sensors identical to the KITTI dataset. The vehicle thus has a Velodyne HDL64 LiDAR positioned in the middle of the roof and two color cameras similar to Point Grey Flea 2. The positions of the LiDAR and cameras are the same as the setup used in KITTI. The objective of this dataset is to test approaches of semantic segmentation LiDAR and/or images, odometry LiDAR and/or image in synthetic data and to compare with the results obtained on real data like KITTI. This dataset thus makes it possible to improve transfer learning methods from a synthetic dataset to a real dataset. We created 7 sequences with 5000 frames in each sequence in the 7 maps of CARLA providing different environments (city, suburban area, mountain, rural area, highway...). The dataset is available at: http://npm3d.fr
翻訳日:2021-09-05 12:07:17 公開日:2021-08-17
# (参考訳) MOON: クロスメディア検索のためのマルチハッシュコード共同学習 [全文訳有]

MOON: Multi-Hash Codes Joint Learning for Cross-Media Retrieval ( http://arxiv.org/abs/2109.00883v1 )

ライセンス: CC BY 4.0
Donglin Zhang, Xiao-Jun Wu, He-Feng Yin and Josef Kittler(参考訳) 近年,クロスメディアハッシュ技術は高い計算効率と低ストレージコストに注目が集まっている。 しかし、既存のアプローチにはいくつかの制限があり、検討する必要がある。 1)固定ハッシュ長(例えば16ビットまたは32ビット)はバイナリコードを学習する前に事前に定義する。 したがって、これらのモデルはハッシュの長さが変わったときに再訓練され、計算能力が増し、実用的なアプリケーションでのスケーラビリティが低下する。 2)既存のクロスモーダルアプローチでは,学習したハッシュコードに含まれる意味情報を活用せずに,従来のマルチメディアデータからのみハッシュ学習を行うことができる。 そこで我々は,クロスメディア検索のための新手法であるMultiple hash cOdes jOint learNing法(MOON)を開発した。 具体的には、開発したMOONは、複数の長さのハッシュコードを統一されたフレームワークで同期的に学習する。 さらに,基礎となる識別性を高めるために,マルチモーダルデータや意味ラベル,ハッシュ学習のための学習ハッシュコードからのヒントを組み合わせる。 私たちが知る限り、MOONは、クロスメディア検索で再トレーニングすることなく、異なる長さのハッシュコードを同時に学習する最初の方法である。 いくつかのデータベースで実験した結果、我々の月は有望なパフォーマンスを達成でき、最近の競争の激しい浅層と深層メソッドを上回っています。

In recent years, cross-media hashing technique has attracted increasing attention for its high computation efficiency and low storage cost. However, the existing approaches still have some limitations, which need to be explored. 1) A fixed hash length (e.g., 16bits or 32bits) is predefined before learning the binary codes. Therefore, these models need to be retrained when the hash length changes, that consumes additional computation power, reducing the scalability in practical applications. 2) Existing cross-modal approaches only explore the information in the original multimedia data to perform the hash learning, without exploiting the semantic information contained in the learned hash codes. To this end, we develop a novel Multiple hash cOdes jOint learNing method (MOON) for cross-media retrieval. Specifically, the developed MOON synchronously learns the hash codes with multiple lengths in a unified framework. Besides, to enhance the underlying discrimination, we combine the clues from the multimodal data, semantic labels and learned hash codes for hash learning. As far as we know, the proposed MOON is the first work to simultaneously learn different length hash codes without retraining in cross-media retrieval. Experiments on several databases show that our MOON can achieve promising performance, outperforming some recent competitive shallow and deep methods.
翻訳日:2021-09-05 12:04:53 公開日:2021-08-17
# 各種軌道計画アルゴリズムのMIT RACECARへの適用

Real-World Application of Various Trajectory Planning Algorithms on MIT RACECAR ( http://arxiv.org/abs/2109.00890v1 )

ライセンス: Link先を確認
Oguzhan Kose(参考訳) 計画では、車両は最初にROSで制御された。 この目的のために、必要なノードをジョイスティックで制御する準備が整った。 その後、DWA(Dynamic Window Approach)、TEB(Timed-Elastic Band)、APF(Artificial potential Field)パス計画アルゴリズムをそれぞれMIT RACECARに適用した。 これらのアルゴリズムは異なる問題について互いに利点と欠点を持っている。 このため、アルゴリズムを比較するシナリオが作成された。 このシナリオで作られたカーブした複車線道路では、MIT RACECARは車線を辿る必要があり、障害物に遭遇したときは、道路を離れることなく車線を変え、障害物にぶつかることなく通過しなければならない。 さらに,このシナリオを実現するために必要なレーンの位置情報を得るために,画像処理アルゴリズムを開発した。 このアルゴリズムは、zedカメラから撮像された画像を処理して目標点を検出し、目標点情報を経路計画アルゴリズムに与える。 必要なツールが作成された後、アルゴリズムはシナリオに対してテストされた。 これらのテストでは、アルゴリズムが成功した障害の数、選択した経路の単純さ、計算コストなどの測定を行う。 これらの結果によると、最も障害を乗り越えるアルゴリズムはアルゴリズムではなかったが、APFは低処理負荷と単純な動作ロジックのために選択された。 複雑でない構造により、APFはプロジェクトの将来の段階でも利点をもたらすと信じられていた。

In the project, the vehicle was first controlled with ROS. For this purpose, the necessary nodes were prepared to be controlled with a joystick. Afterwards, DWA(Dynamic Window Approach), TEB(Timed-Elastic Band) and APF(Artificial Potential Field) path planning algorithms were applied to MIT RACECAR, respectively. These algorithms have advantages and disadvantages against each other on different issues. For this reason, a scenario was created to compare algorithms. On a curved double lane road created according to this scenario, MIT RACECAR has to follow the lanes and when it encounters an obstacle, it has to change lanes without leaving the road and pass without hitting the obstacle. In addition, an image processing algorithm was developed to obtain the position information of the lanes needed to implement this scenario. This algorithm detects the target point by processing the image taken from the ZED camera and gives the target point information to the path planning algorithm. After the necessary tools were created, the algorithms were tested against the scenario. In these tests, measurements such as how many obstacles the algorithm successfully passed, how simple routes it chose, and computational costs they have. According to these results, although it was not the algorithm that successfully passed the most obstacles, APF was chosen due to its low processing load and simple working logic. It was believed that with its uncomplicated structure, APF would also provide advantages in the future stages of the project.
翻訳日:2021-09-05 08:51:50 公開日:2021-08-17
# (参考訳) 旅行セールスマン問題に対する機械学習による新しい構成的ヒューリスティック [全文訳有]

A New Constructive Heuristic driven by Machine Learning for the Traveling Salesman Problem ( http://arxiv.org/abs/2108.10224v1 )

ライセンス: CC BY 4.0
Umberto Junior Mele, Luca Maria Gambardella and Roberto Montemanni(参考訳) 機械学習(ML)を用いてTSP(Traking Salesman Problem)を解くシステムは,数百の頂点を持つ実ケースシナリオにスケールアップしようとすると,問題が発生する。 問題に対処するため、候補リスト(CL)の使用が提起されている。 この手順は、解法作成中の探索空間を制限し、ソルバ計算の負担を軽減する。 これまでのところ、MLは、ソリューション挿入時にMLの好みを表すこれらのCLのエッジにCLと値を作成することに関わった。 有望ではあるが、これらのシステムはMLが何を学習し、ソリューションを作成するかを明確に制限していない。 したがって,探索的および統計的研究に動機づけられた本研究では,高確率のエッジに対してのみ,解への加算を確認するために機械学習モデルを用いる。 高確率エッジのCLが入力として使用され、MLは、そのようなエッジが最適解である場合と、そうでない場合を区別する。 . この戦略はより良い一般化を可能にし、機械学習と探索技術の間の効率的なバランスを生み出す。 私たちのML-Constructive Heuristicは、小さなインスタンスでトレーニングされています。 そして、品質を損なうことなく、大きな問題にも解決策を生み出すことができます。 この結果と古典的構成的ヒューリスティックスを比較し、1748都市までのTSPLIBインスタンスの性能を示す。 我々のヒューリスティックは、高価な一定時間操作を示すが、トレーニング後のソリューション構築における最悪のシナリオの計算複雑性は、$O(n^2 \log n^2)$であり、TSPインスタンスの頂点数$n$であることを示した。

Recent systems applying Machine Learning (ML) to solve the Traveling Salesman Problem (TSP) exhibit issues when they try to scale up to real case scenarios with several hundred vertices. The use of Candidate Lists (CLs) has been brought up to cope with the issues. The procedure allows to restrict the search space during solution creation, consequently reducing the solver computational burden. So far, ML were engaged to create CLs and values on the edges of these CLs expressing ML preferences at solution insertion. Although promising, these systems do not clearly restrict what the ML learns and does to create solutions, bringing with them some generalization issues. Therefore, motivated by exploratory and statistical studies, in this work we instead use a machine learning model to confirm the addition in the solution just for high probable edges. CLs of the high probable edge are employed as input, and the ML is in charge of distinguishing cases where such edges are in the optimal solution from those where they are not. . This strategy enables a better generalization and creates an efficient balance between machine learning and searching techniques. Our ML-Constructive heuristic is trained on small instances. Then, it is able to produce solutions, without losing quality, to large problems as well. We compare our results with classic constructive heuristics, showing good performances for TSPLIB instances up to 1748 cities. Although our heuristic exhibits an expensive constant time operation, we proved that the computational complexity in worst-case scenario, for the solution construction after training, is $O(n^2 \log n^2)$, being $n$ the number of vertices in the TSP instance.
翻訳日:2021-08-29 13:12:47 公開日:2021-08-17
# Best Order Score Search を用いた置換DAG探索の精度向上

Improving Accuracy of Permutation DAG Search using Best Order Score Search ( http://arxiv.org/abs/2108.10141v1 )

ライセンス: Link先を確認
Joseph D. Ramsey(参考訳) Sparsest Permutation (SP)アルゴリズムは正確だが、実際には9つの変数に制限されている。 ベストオーダースコア検索(best order score search)は、spと同じ精度で、より大きく、より高密度なグラフに対して結果を与える。 BOSS (Best Order Score Search) は、2つの理由によりより正確である: (a) 忠実性よりも弱い「残酷な忠実性」仮定を仮定し、 (b) モデルスコアを最適化する置換の位置に各変数を交互に移動させることによって得られる GSP が使用する深さの第1トラバースとは異なる置換のトラバースを使用する。 結果は、線形ガウスデータに対して、BOSSと文学におけるいくつかの関連論文を比較して得られる。 いずれの場合も、適切なパラメータ設定では、競合するアプローチに対してBOSSの精度が大幅に向上する。 テストされた構成では、60変数のモデルでは、大容量のサンプルで、妥当な時間で平均12度まで、ほぼ完全な精度で実現可能であり、平均4度のスパースモデルは、ほぼ完全な精度で、ラップトップ上で約300変数まで実行可能である。 連続離散データセットと全離散データセットの混合も試験された。 混合データ解析は,GESよりもBOSSの方が高い深度ではより有利であり,離散データ解析では,GESよりもBOSSの方が非常に小さな優位性を示した。

The Sparsest Permutation (SP) algorithm is accurate but limited to about 9 variables in practice; the Greedy Sparest Permutation (GSP) algorithm is faster but less weak theoretically. A compromise can be given, the Best Order Score Search, which gives results as accurate as SP but for much larger and denser graphs. BOSS (Best Order Score Search) is more accurate for two reason: (a) It assumes the "brute faithfuness" assumption, which is weaker than faithfulness, and (b) it uses a different traversal of permutations than the depth first traversal used by GSP, obtained by taking each variable in turn and moving it to the position in the permutation that optimizes the model score. Results are given comparing BOSS to several related papers in the literature in terms of performance, for linear, Gaussian data. In all cases, with the proper parameter settings, accuracy of BOSS is lifted considerably with respect to competing approaches. In configurations tested, models with 60 variables are feasible with large samples out to about an average degree of 12 in reasonable time, with near-perfect accuracy, and sparse models with an average degree of 4 are feasible out to about 300 variables on a laptop, again with near-perfect accuracy. Mixed continuous discrete and all-discrete datasets were also tested. The mixed data analysis showed advantage for BOSS over GES more apparent at higher depths with the same score; the discrete data analysis showed a very small advantage for BOSS over GES with the same score, perhaps not enough to prefer it.
翻訳日:2021-08-29 12:12:49 公開日:2021-08-17
# 確率的機械学習によるガスタービン翼の逆空力設計

Inverse Aerodynamic Design of Gas Turbine Blades using Probabilistic Machine Learning ( http://arxiv.org/abs/2108.10163v1 )

ライセンス: Link先を確認
Sayan Ghosh, Govinda A. Padmanabha, Cheng Peng, Steven Atkinson, Valeria Andreoli, Piyush Pandita, Thomas Vandeputte, Nicholas Zabaras, and Liping Wang(参考訳) 産業用ガスタービン(IGT)の重要な部品の1つはタービンブレードである。 タービンブレードの設計には, 空気力学的効率, 耐久性, 安全性, 製造などの複数の側面を考慮し, 設計過程を逐次かつ反復的に行う必要がある。 これらのイテレーションの反動的な性質のため、設計スペース全体の深い探索と理解を可能にする方法でデータを蓄積する努力はほとんど行われていない。 これはIGTの個々のコンポーネントを設計する過程で実証され、結果として潜在的な非現実的効率をもたらす。 上記の課題を克服するため,確率的逆設計機械学習フレームワーク(PMI)を実証し,明示的な逆設計を行う。 PMIは、過度なコストの反復なしに設計を明示的に計算し、不適切な逆問題に関連する課題を克服する。 本研究では,三次元タービン翼の逆空力設計について,その枠組みを実証する。

One of the critical components in Industrial Gas Turbines (IGT) is the turbine blade. Design of turbine blades needs to consider multiple aspects like aerodynamic efficiency, durability, safety and manufacturing, which make the design process sequential and iterative.The sequential nature of these iterations forces a long design cycle time, ranging from several months to years. Due to the reactionary nature of these iterations, little effort has been made to accumulate data in a manner that allows for deep exploration and understanding of the total design space. This is exemplified in the process of designing the individual components of the IGT resulting in a potential unrealized efficiency. To overcome the aforementioned challenges, we demonstrate a probabilistic inverse design machine learning framework (PMI), to carry out an explicit inverse design. PMI calculates the design explicitly without excessive costly iteration and overcomes the challenges associated with ill-posed inverse problems. In this work, the framework will be demonstrated on inverse aerodynamic design of three-dimensional turbine blades.
翻訳日:2021-08-29 12:11:23 公開日:2021-08-17
# SALIENCE: マルチウェアラブルセンサを用いたヒューマンアクティビティ認識のための教師なしユーザ適応モデル

SALIENCE: An Unsupervised User Adaptation Model for Multiple Wearable Sensors Based Human Activity Recognition ( http://arxiv.org/abs/2108.10213v1 )

ライセンス: Link先を確認
Ling Chen, Yi Zhang, Sirou Zhu, Shenghuan Miao, Liangying Peng, Rong Hu, and Mingqi Lv(参考訳) 教師なしのユーザ適応は、トレーニングユーザと新規ユーザからのデータの特徴分布を調整するので、トレーニング済みのウェアラブルヒューマンアクティビティ認識(whar)モデルが新規ユーザにうまく適応することができる。 ウェアラブルセンサーの開発により、複数のウェアラブルセンサーベースのWHARがますます注目を集めている。 異なるセンサの転送能力が異なる問題に対処するため,複数のウェアラブルセンサをベースとしたSALIENCE(unsupervise d user adapt model for multiple wearable sensor based human activity recognition)モデルを提案する。 各センサーのデータを別々に調整して局所的なアライメントを実現し、全センサのデータを均一にアライメントし、グローバルなアライメントを確保する。 さらに,SALIENCEの活性分類器を強い特徴識別と分布アライメントを有するセンサに焦点を合わせるために,アテンション機構を提案する。 実験は2つの公開wharデータセット上で行われ,実験結果から,本モデルが競合性能をもたらすことが示された。

Unsupervised user adaptation aligns the feature distributions of the data from training users and the new user, so a well-trained wearable human activity recognition (WHAR) model can be well adapted to the new user. With the development of wearable sensors, multiple wearable sensors based WHAR is gaining more and more attention. In order to address the challenge that the transferabilities of different sensors are different, we propose SALIENCE (unsupervised user adaptation model for multiple wearable sensors based human activity recognition) model. It aligns the data of each sensor separately to achieve local alignment, while uniformly aligning the data of all sensors to ensure global alignment. In addition, an attention mechanism is proposed to focus the activity classifier of SALIENCE on the sensors with strong feature discrimination and well distribution alignment. Experiments are conducted on two public WHAR datasets, and the experimental results show that our model can yield a competitive performance.
翻訳日:2021-08-29 12:11:07 公開日:2021-08-17
# (参考訳) N-ary Question Answering over Knowledge Graphs に対するFact-Tree Reasoning [全文訳有]

Fact-Tree Reasoning for N-ary Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2108.08297v1 )

ライセンス: CC BY 4.0
Yao Zhang, Peiyao Li, Hongru Liang, Adam Jatowt, Zhenglu Yang(参考訳) 質問応答(QA)タスクでは、知識グラフ(KG)に基づいてより効率的かつ解釈可能な回答推論を行うために、近年、マルチホップ推論フレームワークが広く研究されている。 しかし、マルチホップ推論はその線形推論の性質から n-項事実問題に答えるのには不適当である。 1)エンティティからエンティティ、あるいは事実との関係から基本的な推論ユニットをアップグレードすること、2)推論構造をチェーンからツリーにアップグレードすることである。 そこで本研究では,質問をファクトツリーに変換し,正しい回答を予測するために反復的ファクト推論を行う,新たなファクトツリー推論フレームワークを提案する。 本研究で導入されたn-ary fact KGQAデータセットの包括的評価を通じて,提案したファクトツリー推論フレームワークが高回答予測精度の望ましい利点を有することを示す。 さらに、2つのバイナリKGQAデータセットのファクトツリー推論フレームワークの評価を行い、いくつかの優れたベースラインと比較して、我々のアプローチが強い推論能力を持つことを示す。 この作業は複雑な推論シナリオを探求するための直接的な意味を持ち、予備的なベースラインアプローチを提供する。

In the question answering(QA) task, multi-hop reasoning framework has been extensively studied in recent years to perform more efficient and interpretable answer reasoning on the Knowledge Graph(KG). However, multi-hop reasoning is inapplicable for answering n-ary fact questions due to its linear reasoning nature. We discover that there are two feasible improvements: 1) upgrade the basic reasoning unit from entity or relation to fact; and 2) upgrade the reasoning structure from chain to tree. Based on these, we propose a novel fact-tree reasoning framework, through transforming the question into a fact tree and performing iterative fact reasoning on it to predict the correct answer. Through a comprehensive evaluation on the n-ary fact KGQA dataset introduced by this work, we demonstrate that the proposed fact-tree reasoning framework has the desired advantage of high answer prediction accuracy. In addition, we also evaluate the fact-tree reasoning framework on two binary KGQA datasets and show that our approach also has a strong reasoning ability compared with several excellent baselines. This work has direct implications for exploring complex reasoning scenarios and provides a preliminary baseline approach.
翻訳日:2021-08-21 06:22:26 公開日:2021-08-17
# (参考訳) tfrd:熱源システムの温度場再構成研究のためのベンチマークデータセット [全文訳有]

TFRD: A Benchmark Dataset for Research on Temperature Field Reconstruction of Heat-Source Systems ( http://arxiv.org/abs/2108.08298v1 )

ライセンス: CC0 1.0
Xiaoqian Chen, Zhiqiang Gong, Xiaoyu Zhao, Wen Yao(参考訳) 熱管理はエンジニアリングにおいて重要な役割を果たす。 観測テンソルが限定された熱源系(TFR-HSS)の温度場再構成は熱管理において重要な役割を果たす。 しかし、通常の補間法では正確な再構築はできない。 また、工学におけるフィールドレコンストラクションをさらに促進するための復元手法を広く研究するための公開データセットは存在しない。 本研究は,tfr-hssタスクのための,補間法やサロゲートモデルに基づく手法など,一般的な手法を用いた特定のデータセットであるtfrdを,温度場再構成研究のベースラインとして構築する。 まず、tfr-hssタスクは実世界の工学的問題から数学的にモデル化され、問題を離散的マッピング形式に変換する3種類の数値モデリングが構築されている。 さらに, 熱源情報と境界条件の異なる4つの典型的復元問題を選択し, さらなる研究のためのトレーニングおよび試験サンプルとして標準試料を生成する。 最後に, TFR-HSSタスクの先行手法と近年広く使われているディープラーニング手法の総合的なレビューを行い, 本ベンチマークのベースラインとして利用できるTFRDの典型的な手法の性能解析を行った。

Heat management plays an important role in engineering. Temperature field reconstruction of heat source systems (TFR-HSS) with limited monitoring tensors, performs an essential role in heat management. However, prior methods with common interpolations usually cannot provide accurate reconstruction. In addition, there exists no public dataset for widely research of reconstruction methods to further boost the field reconstruction in engineering. To overcome this problem, this work construct a specific dataset, namely TFRD, for TFR-HSS task with commonly used methods, including the interpolation methods and the surrogate model based methods, as baselines to advance the research over temperature field reconstruction. First, the TFR-HSS task is mathematically modelled from real-world engineering problem and three types of numerically modellings have been constructed to transform the problem into discrete mapping forms. Besides, this work selects four typical reconstruction problem with different heat source information and boundary conditions and generate the standard samples as training and testing samples for further research. Finally, a comprehensive review of the prior methods for TFR-HSS task as well as recent widely used deep learning methods is given and we provide a performance analysis of typical methods on TFRD, which can be served as the baseline results on this benchmark.
翻訳日:2021-08-21 06:08:38 公開日:2021-08-17
# レーザー誘起破壊分光スペクトルの神経密度推定と不確かさ定量化

Neural density estimation and uncertainty quantification for laser induced breakdown spectroscopy spectra ( http://arxiv.org/abs/2108.08709v1 )

ライセンス: Link先を確認
Katiana Kontolati, Natalie Klein, Nishant Panda, Diane Oyen(参考訳) 高次元スペクトルデータにおける推論のための確率密度の構成は、しばしば難解である。 本研究では,構造的スペクトル潜在空間上の流れを正規化し,それらの密度を推定し,下流推定タスクを可能にする。 さらに、各スペクトルに関連付けられた観測されていない状態ベクトルを予測する際の不確実性定量化手法を評価する。 火星探査機キュリオシティのChemCam装置で収集したレーザー誘起分解分光データに対するこのアプローチの有効性を実証する。 提案手法を用いることで, 実測的なスペクトルサンプルを生成でき, 関連性の高い不確実性のある状態ベクトルを正確に予測することができる。 この手法によりスペクトルデータの効率的な確率論的モデリングが可能となり,分布外検出や感度解析など,いくつかの分野での潜在的な進歩が期待できる。

Constructing probability densities for inference in high-dimensional spectral data is often intractable. In this work, we use normalizing flows on structured spectral latent spaces to estimate such densities, enabling downstream inference tasks. In addition, we evaluate a method for uncertainty quantification when predicting unobserved state vectors associated with each spectrum. We demonstrate the capability of this approach on laser-induced breakdown spectroscopy data collected by the ChemCam instrument on the Mars rover Curiosity. Using our approach, we are able to generate realistic spectral samples and to accurately predict state vectors with associated well-calibrated uncertainties. We anticipate that this methodology will enable efficient probabilistic modeling of spectral data, leading to potential advances in several areas, including out-of-distribution detection and sensitivity analysis.
翻訳日:2021-08-20 14:38:10 公開日:2021-08-17
# (参考訳) マイクロコントローラの高次並列性 [全文訳有]

Higher-Order Concurrency for Microcontrollers ( http://arxiv.org/abs/2108.07805v1 )

ライセンス: CC BY-SA 4.0
Abhiroop Sarkar, Robert Krook, Bo Joel Svensson, Mary Sheeran(参考訳) プログラミングマイクロコントローラは、並列でリアクティブなハードウェアや周辺機器との低レベルのインターフェースを伴う。 このようなプログラムは、一般的にcとアセンブリの混合で、並列言語拡張($\texttt{freertos tasks}$と$\texttt{semaphores}$)を使用して記述される。 我々は、マイクロコントローラプログラミングのためにReppyによって最初に導入された、メッセージパスベースの$\textit{higher-order concurrent}$モデルを提供するバイトコード解釈仮想マシンである$\textt{SenseVM}$を導入することで、この問題に対処する。 このモデルは、関数型言語におけるファーストクラス関数の処理と同様に、同期操作をファーストクラス値($\texttt{events}$)として扱う。 これにより、プログラマは自身の並列処理の抽象化を作成、調整でき、また共有メモリの並行処理モデルに共通する安全でないメモリ操作を抽象化できる。 私たちのVMは、組み込みOS - Zephyr上に構築された低レベルの$\textit{bridge}$インターフェイスを介してポータブルにされています。 このブリッジは、すべてのドライバによって実装され、ソフトウェアメッセージやハードウェアの割り込みに応じてプログラミングするように設計されている。 本稿では、Camlのような関数型言語で書かれ、$\texttt{nRF52840}$と$\texttt{STM32F4}$マイクロコントローラ上で実行されるVMの特徴を例に示す。

Programming microcontrollers involves low-level interfacing with hardware and peripherals that are concurrent and reactive. Such programs are typically written in a mixture of C and assembly using concurrent language extensions (like $\texttt{FreeRTOS tasks}$ and $\texttt{semaphores}$), resulting in unsafe, callback-driven, error-prone and difficult-to-maintai n code. We address this challenge by introducing $\texttt{SenseVM}$ - a bytecode-interpreted virtual machine that provides a message-passing based $\textit{higher-order concurrency}$ model, originally introduced by Reppy, for microcontroller programming. This model treats synchronous operations as first-class values (called $\texttt{Events}$) akin to the treatment of first-class functions in functional languages. This primarily allows the programmer to compose and tailor their own concurrency abstractions and, additionally, abstracts away unsafe memory operations, common in shared-memory concurrency models, thereby making microcontroller programs safer, composable and easier-to-maintain. Our VM is made portable via a low-level $\textit{bridge}$ interface, built atop the embedded OS - Zephyr. The bridge is implemented by all drivers and designed such that programming in response to a software message or a hardware interrupt remains uniform and indistinguishable. In this paper we demonstrate the features of our VM through an example, written in a Caml-like functional language, running on the $\texttt{nRF52840}$ and $\texttt{STM32F4}$ microcontrollers.
翻訳日:2021-08-20 00:34:35 公開日:2021-08-17
# (参考訳) アイスホッケーにおけるジャージ数認識のためのマルチタスク学習 [全文訳有]

Multi-task learning for jersey number recognition in Ice Hockey ( http://arxiv.org/abs/2108.07848v1 )

ライセンス: CC BY 4.0
Kanav Vats, Mehrnaz Fani, David A. Clausi and John Zelek(参考訳) ジャージ番号を認識することでスポーツビデオのプレイヤーを識別することは、コンピュータビジョンにおいて難しい課題である。 ジャージ数認識のためのマルチタスク学習ネットワークの設計と実装を行った。 ジャージー番号を識別するためにネットワークを訓練するために、2つの出力ラベル表現が使用される(1) ジャージー番号全体を1つのクラスとして、(2) 数字的に、2つの数字を2つの別々のクラスとして扱う。 提案するネットワークは,マルチタスク損失関数を用いて,全体像と数値表現の両方を学習する。 アブレーション研究により, 総括的および数字的損失に割り当てられる最適重みを決定する。 実験により,提案するマルチタスク学習ネットワークは,全体的および指方向のシングルタスク学習ネットワークよりも優れた性能を示す。

Identifying players in sports videos by recognizing their jersey numbers is a challenging task in computer vision. We have designed and implemented a multi-task learning network for jersey number recognition. In order to train a network to recognize jersey numbers, two output label representations are used (1) Holistic - considers the entire jersey number as one class, and (2) Digit-wise - considers the two digits in a jersey number as two separate classes. The proposed network learns both holistic and digit-wise representations through a multi-task loss function. We determine the optimal weights to be assigned to holistic and digit-wise losses through an ablation study. Experimental results demonstrate that the proposed multi-task learning network performs better than the constituent holistic and digit-wise single-task learning networks.
翻訳日:2021-08-20 00:24:14 公開日:2021-08-17
# (参考訳) mmwaveネットワークのカバレッジホール検出:教師なし学習アプローチ [全文訳有]

Coverage Hole Detection for mmWave Networks: An Unsupervised Learning Approach ( http://arxiv.org/abs/2108.07854v1 )

ライセンス: CC BY 4.0
Chethan K. Anjinappa and Ismail Guvenc(参考訳) 5Gネットワークにおけるミリ波帯の利用は,ネットワーク計画に新たな課題をもたらす。 mmWaveバンドでのブロッキングの脆弱性は、無線環境におけるカバレッジホール(CH)を引き起こし、ユーザがCHに入ると無線リンクが故障する。 CHの検出は重要であり、カバーを改善するために必要な対策を導入することができる。 本稿では,一様多様体近似と投影という最先端の多様体学習手法を用いて,教師なし方式でCHを識別する手法を提案する。 鍵となるアイデアは、サービスエリアのchが検出可能なように、収集されたラベルなしチャネルサンプルに固有のローカル接続構造を保存することである。 deepmimoデータセットのシナリオで得られた結果は,提案手法がデータサンプルの構造を学習し,ch境界を維持しながら低次元埋め込みに視覚ホールを提供することを実証するものである。 低次元埋め込みでCH境界が決定されると、チャネルベースのローカライゼーション技術がこれらのサンプルに適用され、CHの地理的境界が得られる。

The utilization of millimeter-wave (mmWave) bands in 5G networks poses new challenges to network planning. Vulnerability to blockages at mmWave bands can cause coverage holes (CHs) in the radio environment, leading to radio link failure when a user enters these CHs. Detection of the CHs carries critical importance so that necessary remedies can be introduced to improve coverage. In this letter, we propose a novel approach to identify the CHs in an unsupervised fashion using a state-of-the-art manifold learning technique: uniform manifold approximation and projection. The key idea is to preserve the local-connectedness structure inherent in the collected unlabelled channel samples, such that the CHs from the service area are detectable. Our results on the DeepMIMO dataset scenario demonstrate that the proposed method can learn the structure within the data samples and provide visual holes in the low-dimensional embedding while preserving the CH boundaries. Once the CH boundary is determined in the low-dimensional embedding, channel-based localization techniques can be applied to these samples to obtain the geographical boundaries of the CHs.
翻訳日:2021-08-20 00:17:37 公開日:2021-08-17
# (参考訳) テキストからの社会・政治事象の自動抽出(CASE 2021)の課題と応用 : ワークショップと共有課題報告 [全文訳有]

Challenges and Applications of Automated Extraction of Socio-political Events from Text (CASE 2021): Workshop and Shared Task Report ( http://arxiv.org/abs/2108.07865v1 )

ライセンス: CC BY 4.0
Ali H\"urriyeto\u{g}lu, Hristo Tanev, Vanni Zavarella, Jakub Piskorski, Reyyan Yeniterzi, and Erdem Y\"or\"uk(参考訳) このワークショップは、新興市場福祉プロジェクトによって組織されたニュースから社会政治イベントを自動的に抽出するワークショップの第4号であり、欧州委員会の共同研究センターの支援と、この分野の多くの著名な学者からの貢献によって行われている。 この一連のワークショップの目的は、抗議、暴動、戦争、武力紛争などの社会政治事象の記述を自動的に検出する信頼性、有効、堅牢、実用的なソリューションの研究と開発をテキストストリームで促進することである。 今年のワークショップでは、Deep Learning、Word Embeddings、Transformersといった最先端のNLP技術を活用し、テキスト分類からニュースバイアス検出まで幅広いトピックをカバーしている。 約40チームが登録し、15チームが3つのタスクに寄与した。i)多言語抗議ニュース検出、ii)社会政治イベントのきめ細かい分類、iii)黒人生活に関する抗議イベントの発見。 ワークショップでは2つの基調講演と4つの招待講演も取り上げられ、イベントデータセットの作成や、ゼロショット設定によるマルチ言語とクロスリンガルマシンラーニングに関するさまざまな側面が紹介された。

This workshop is the fourth issue of a series of workshops on automatic extraction of socio-political events from news, organized by the Emerging Market Welfare Project, with the support of the Joint Research Centre of the European Commission and with contributions from many other prominent scholars in this field. The purpose of this series of workshops is to foster research and development of reliable, valid, robust, and practical solutions for automatically detecting descriptions of socio-political events, such as protests, riots, wars and armed conflicts, in text streams. This year workshop contributors make use of the state-of-the-art NLP technologies, such as Deep Learning, Word Embeddings and Transformers and cover a wide range of topics from text classification to news bias detection. Around 40 teams have registered and 15 teams contributed to three tasks that are i) multilingual protest news detection, ii) fine-grained classification of socio-political events, and iii) discovering Black Lives Matter protest events. The workshop also highlights two keynote and four invited talks about various aspects of creating event data sets and multi- and cross-lingual machine learning in few- and zero-shot settings.
翻訳日:2021-08-20 00:06:31 公開日:2021-08-17
# (参考訳) 集約型顧客エンゲージメントモデル [全文訳有]

Aggregated Customer Engagement Model ( http://arxiv.org/abs/2108.07872v1 )

ライセンス: CC BY 4.0
Priya Gupta and Cuize Han(参考訳) Eコマースウェブサイトは、機械学習によるランキングモデルを使用して、顧客に対してショッピング結果を提供する。 一般的にwebサイトは、入力されたクエリや、クリックや購入などのショッピング結果へのエンゲージメントを含む、顧客の検索イベントをログする。 各顧客の検索イベントはモデルの入力トレーニングデータとして機能し、個々の顧客のエンゲージメントは顧客の好みの信号として機能する。 例えば、購入したショッピング結果が、そうでないものよりも重要であると認識されている。 しかし、新規または過小評価された製品は、十分な顧客エンゲージメント信号を持っておらず、人気製品に並ぶと不利になる。 本稿では,1日以内にすべての顧客エンゲージメントを集約し,同じクエリを入力訓練データとして使用する新しいデータキュレーション手法を提案する。 この集約された顧客エンゲージメントは、モデルにショッピング結果の相対的重要性の全体像を与える。 この集約されたデータに対するトレーニングモデルは、振る舞いの特徴への依存を減らします。 これはコールドスタート問題を緩和し、関連する新製品を検索結果のトップに上げている。 本稿では,eコマースデータを用いて学習した個人および集約顧客エンゲージメントモデルを比較し,オフラインおよびオンライン分析と結果について述べる。

E-commerce websites use machine learned ranking models to serve shopping results to customers. Typically, the websites log the customer search events, which include the query entered and the resulting engagement with the shopping results, such as clicks and purchases. Each customer search event serves as input training data for the models, and the individual customer engagement serves as a signal for customer preference. So a purchased shopping result, for example, is perceived to be more important than one that is not. However, new or under-impressed products do not have enough customer engagement signals and end up at a disadvantage when being ranked alongside popular products. In this paper, we propose a novel method for data curation that aggregates all customer engagements within a day for the same query to use as input training data. This aggregated customer engagement gives the models a complete picture of the relative importance of shopping results. Training models on this aggregated data leads to less reliance on behavioral features. This helps mitigate the cold start problem and boosted relevant new products to top search results. In this paper, we present the offline and online analysis and results comparing the individual and aggregated customer engagement models trained on e-commerce data.
翻訳日:2021-08-19 23:54:35 公開日:2021-08-17
# (参考訳) 競合のないエッジAI: 抵抗ランダムアクセシス記憶における効率よく、Versatileで正確なニューロ計算

Edge AI without Compromise: Efficient, Versatile and Accurate Neurocomputing in Resistive Random-Access Memory ( http://arxiv.org/abs/2108.07879v1 )

ライセンス: CC BY 4.0
Weier Wan (1), Rajkumar Kubendran (2 and 5), Clemens Schaefer (4), S. Burc Eryilmaz (1), Wenqiang Zhang (3), Dabin Wu (3), Stephen Deiss (2), Priyanka Raina (1), He Qian (3), Bin Gao (3), Siddharth Joshi (4 and 2), Huaqiang Wu (3), H.-S. Philip Wong (1), Gert Cauwenberghs (2) ((1) Stanford University, (2) University of California San Diego, (3) Tsinghua University, (4) University of Notre Dame, (5) University of Pittsburgh)(参考訳) 今日のクラウドレベルの人工知能機能をインターネットの端で配布されているデバイスに直接実現することは、複数の感覚データ(例えば、)を処理できるエッジハードウェアを要求する。 ビデオ、オーディオ) 前例のないエネルギー効率。 計算ユニットとメモリユニット間のデータ移動は大きなエネルギーを消費し、長いレイテンシを発生させる。 抵抗的ランダムアクセスメモリ(RRAM)ベースのCIMアーキテクチャは、メモリ内で直接計算を実行することで、エネルギー効率の大幅な向上を約束する。 しかし、従来のCIMハードウェア設計アプローチでは、多様なAIワークロードを処理するのに必要な機能的柔軟性を制限し、推論精度を低下させるハードウェアの欠陥を克服しなければならない。 このような効率性、汎用性、正確性の間のトレードオフは、設計の単一レベルの独立した改善によって対処できない。 By co-optimizing across all hierarchies of the design from algorithms and architecture to circuits and devices, we present NeuRRAM - the first multimodal edge AI chip using RRAM CIM to simultaneously deliver a high degree of versatility for diverse model architectures, record energy-efficiency $5\times$ - $8\times$ better than prior art across various computational bit-precisions, and inference accuracy comparable to software models with 4-bit weights on all measured standard AI benchmarks including accuracy of 99.0% on MNIST and 85.7% on CIFAR-10 image classification, 84.7% accuracy on Google speech command recognition, and a 70% reduction in image reconstruction error on a Bayesian image recovery task. この作業は、高度な効率的で再構成可能なエッジAIハードウェアプラットフォームを構築するための道を開いた。

Realizing today's cloud-level artificial intelligence functionalities directly on devices distributed at the edge of the internet calls for edge hardware capable of processing multiple modalities of sensory data (e.g. video, audio) at unprecedented energy-efficiency. AI hardware architectures today cannot meet the demand due to a fundamental "memory wall": data movement between separate compute and memory units consumes large energy and incurs long latency. Resistive random-access memory (RRAM) based compute-in-memory (CIM) architectures promise to bring orders of magnitude energy-efficiency improvement by performing computation directly within memory. However, conventional approaches to CIM hardware design limit its functional flexibility necessary for processing diverse AI workloads, and must overcome hardware imperfections that degrade inference accuracy. Such trade-offs between efficiency, versatility and accuracy cannot be addressed by isolated improvements on any single level of the design. By co-optimizing across all hierarchies of the design from algorithms and architecture to circuits and devices, we present NeuRRAM - the first multimodal edge AI chip using RRAM CIM to simultaneously deliver a high degree of versatility for diverse model architectures, record energy-efficiency $5\times$ - $8\times$ better than prior art across various computational bit-precisions, and inference accuracy comparable to software models with 4-bit weights on all measured standard AI benchmarks including accuracy of 99.0% on MNIST and 85.7% on CIFAR-10 image classification, 84.7% accuracy on Google speech command recognition, and a 70% reduction in image reconstruction error on a Bayesian image recovery task. This work paves a way towards building highly efficient and reconfigurable edge AI hardware platforms for the more demanding and heterogeneous AI applications of the future.
翻訳日:2021-08-19 23:48:52 公開日:2021-08-17
# (参考訳) M-ar-K-Fast独立成分分析 [全文訳有]

M-ar-K-Fast Independent Component Analysis ( http://arxiv.org/abs/2108.07908v1 )

ライセンス: CC BY 4.0
Luca Parisi(参考訳) 本研究では,特徴抽出のためのm-arcsinh Kernel ('m-ar-K') Fast Independent Component Analysis ('FastICA')法を提案する。 カーネルのトリックにより、次元の縮小技術はデータの非線型性をより高めることができるが、特徴抽出を助けるための再現性のあるオープンソースカーネルはまだ限られており、エントロピーデータから特徴を投影する場合は信頼性に欠ける可能性がある。 pythonで無償で利用可能で、オープンソースのライブラリ'scikit-learn'と互換性があるm-ar-k関数は、データに高い範囲のランダム性が存在する場合に、より信頼性の高い機能抽出を実現するためにfasticaと結合され、事前白化の必要性を低減している。 様々な分類タスクが検討され、シキット・ラーンとUCI(University California Irvine)機械学習レポジトリから利用可能な、様々な情報エントロピーの5つの(N = 5)オープンアクセスデータセットに関連づけられた。 実験の結果,提案する特徴抽出による分類性能の向上が示された。 新たなm-ar-K-FastICA次元削減手法は,データの不確実性に関わらず,信頼性と計算効率を高めるため,'FastICA'ゴールド標準法と比較される。

This study presents the m-arcsinh Kernel ('m-ar-K') Fast Independent Component Analysis ('FastICA') method ('m-ar-K-FastICA') for feature extraction. The kernel trick has enabled dimensionality reduction techniques to capture a higher extent of non-linearity in the data; however, reproducible, open-source kernels to aid with feature extraction are still limited and may not be reliable when projecting features from entropic data. The m-ar-K function, freely available in Python and compatible with its open-source library 'scikit-learn', is hereby coupled with FastICA to achieve more reliable feature extraction in presence of a high extent of randomness in the data, reducing the need for pre-whitening. Different classification tasks were considered, as related to five (N = 5) open access datasets of various degrees of information entropy, available from scikit-learn and the University California Irvine (UCI) Machine Learning repository. Experimental results demonstrate improvements in the classification performance brought by the proposed feature extraction. The novel m-ar-K-FastICA dimensionality reduction approach is compared to the 'FastICA' gold standard method, supporting its higher reliability and computational efficiency, regardless of the underlying uncertainty in the data.
翻訳日:2021-08-19 23:47:39 公開日:2021-08-17
# ファーストパーソンビデオ領域適応のためのチャンネルタイムアテンション

Channel-Temporal Attention for First-Person Video Domain Adaptation ( http://arxiv.org/abs/2108.07846v1 )

ライセンス: Link先を確認
Xianyuan Liu, Shuo Zhou, Tao Lei, Haiping Lu(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースデータから同じカテゴリのラベル付きターゲットデータに知識を転送することができる。 しかし、一対一の行動認識のためのUDAは、データセットの欠如と一対一の映像特性の限定的な考慮により、未解決の問題である。 本稿ではこの問題に対処することに焦点を当てる。 まず,ADL$_{small}$とGTEA-KITCHENの2つの小規模ビデオドメイン適応データセットを提案する。 第2に,チャネル間および時間的関係を捉えるために,チャネル時空間的注意ブロックを導入し,その相互依存度を一人称視覚に重要なものにモデル化する。 最後に,Channel-Temporal Attention Network (CTAN)を提案し,これらのブロックを既存のアーキテクチャに統合する。 CTANは2つの提案されたデータセットと既存のデータセットEPIC$_{cvpr20}$でベースラインを上回ります。

Unsupervised Domain Adaptation (UDA) can transfer knowledge from labeled source data to unlabeled target data of the same categories. However, UDA for first-person action recognition is an under-explored problem, with lack of datasets and limited consideration of first-person video characteristics. This paper focuses on addressing this problem. Firstly, we propose two small-scale first-person video domain adaptation datasets: ADL$_{small}$ and GTEA-KITCHEN. Secondly, we introduce channel-temporal attention blocks to capture the channel-wise and temporal-wise relationships and model their inter-dependencies important to first-person vision. Finally, we propose a Channel-Temporal Attention Network (CTAN) to integrate these blocks into existing architectures. CTAN outperforms baselines on the two proposed datasets and one existing dataset EPIC$_{cvpr20}$.
翻訳日:2021-08-19 14:54:11 公開日:2021-08-17
# 感情で言語モデルを変調する

Modulating Language Models with Emotions ( http://arxiv.org/abs/2108.07886v1 )

ライセンス: Link先を確認
Ruibo Liu, Jason Wei, Chenyan Jia, Soroush Vosoughi(参考訳) 多様な感情を具現化する文脈認識言語の生成は共感的なnlpシステムを構築するための重要なステップである。 本稿では,変調層正規化(コンピュータビジョンに触発された手法)を定式化し,感情応答生成に大規模言語モデルを用いる方法を提案する。 mojitalkデータセットの自動的および人的評価において,提案手法は,多様性,流動性,コヒーレンスを維持しつつ,従来のベースライン法を上回っている。 また,利用可能なトレーニングデータの10%しか使用していない場合でも,競争性能が向上する。

Generating context-aware language that embodies diverse emotions is an important step towards building empathetic NLP systems. In this paper, we propose a formulation of modulated layer normalization -- a technique inspired by computer vision -- that allows us to use large-scale language models for emotional response generation. In automatic and human evaluation on the MojiTalk dataset, our proposed modulated layer normalization method outperforms prior baseline methods while maintaining diversity, fluency, and coherence. Our method also obtains competitive performance even when using only 10% of the available training data.
翻訳日:2021-08-19 14:52:54 公開日:2021-08-17
# マルチモーダル非教師付きデセプション検出のための感情認識型深層信念ネットワーク表現

Affect-Aware Deep Belief Network Representations for Multimodal Unsupervised Deception Detection ( http://arxiv.org/abs/2108.07897v1 )

ライセンス: Link先を確認
Leena Mathur and Maja J Matari\'c(参考訳) 虚偽の社会的行動を検出する自動システムは、医療、社会労働、法的領域における人間の幸福を高めることができる。 教師付きデセプション検出モデルをトレーニングするためのラベル付きデータセットは、現実の高スループットコンテキストで収集されることは滅多にない。 この課題に対処するために,我々はラベルを必要とせず,実世界のハイステイク・デセプションを検出するための最初の教師なし手法を提案する。 本稿では,非教師付き深層信念ネットワーク(dbn)に対して,欺きと真理の行動の識別表現を学ぶための新しいアプローチを提案する。 本研究は, 感情と虚偽をリンクする心理学理論に基づいて, 顔の原子価, 顔の覚醒, 音声, 視覚的特徴を訓練した, 単調でマルチモーダルなDBNベースのアプローチの実験を行った。 dbnモデルがトレーニングされる機能として、顔の影響を利用するのに加えて、顔の影響をオーディオ・ビジュアル表現のアライナーとして使用するdbnトレーニング手順も導入する。 提案手法を評価するために,教師なしガウス混合モデルクラスタリングを用いた分類実験を行った。 我々の最高の教師なしアプローチ(顔の原子価と視覚的特徴に基づく)は、80%のAUCを達成し、人間の能力より優れ、完全に教師されたモデルに相容れない性能を実現しました。 本研究の結果は,非教師付き感情認識型計算手法の今後の研究を動機づけるものである。

Automated systems that detect the social behavior of deception can enhance human well-being across medical, social work, and legal domains. Labeled datasets to train supervised deception detection models can rarely be collected for real-world, high-stakes contexts. To address this challenge, we propose the first unsupervised approach for detecting real-world, high-stakes deception in videos without requiring labels. This paper presents our novel approach for affect-aware unsupervised Deep Belief Networks (DBN) to learn discriminative representations of deceptive and truthful behavior. Drawing on psychology theories that link affect and deception, we experimented with unimodal and multimodal DBN-based approaches trained on facial valence, facial arousal, audio, and visual features. In addition to using facial affect as a feature on which DBN models are trained, we also introduce a DBN training procedure that uses facial affect as an aligner of audio-visual representations. We conducted classification experiments with unsupervised Gaussian Mixture Model clustering to evaluate our approaches. Our best unsupervised approach (trained on facial valence and visual features) achieved an AUC of 80%, outperforming human ability and performing comparably to fully-supervised models. Our results motivate future work on unsupervised, affect-aware computational approaches for detecting deception and other social behaviors in the wild.
翻訳日:2021-08-19 14:50:56 公開日:2021-08-17
# 運動量SGDの時間相関を利用した圧縮勾配

Compressing gradients by exploiting temporal correlation in momentum-SGD ( http://arxiv.org/abs/2108.07827v1 )

ライセンス: Link先を確認
Tharindu B. Adikari, Stark C. Draper(参考訳) 分散最適化におけるボトルネックの増加は、コミュニケーションである。 大きなモデルとデータセットの成長は、計算の分散化が重要であり、情報の交換量が急速に増加していることを意味する。 圧縮技術は後者に対処するために導入されているが、連続するベクトル更新に存在する時間的相関の活用は検討されていない。 重要な例は分散運動量-SGDであり、モーメントの低通過フィルタ効果によって時間相関が強化される。 本稿では,システムにおける時間的相関を利用した圧縮手法の設計と解析を行う。 ImageNetデータセットを用いた実験により,提案手法は計算複雑性の無視できる増加のみで通信速度を大幅に低下させることを示した。 さらに,圧縮に誤差フィードバックを適用した場合のSGDの収束を解析する。 文献では、コンバージェンス保証は、圧縮機への各入力に対して、ポイントバウンドを提供する圧縮機のためにのみ開発される。 対照的に、多くの重要なコード(例えば、) rate-distortion codes) 予測のみにエラーバウンドを提供し、より一般的な保証を提供する。 本稿では、最小勾配ノルムの有界性を確立することにより、予測誤差仮定の下でのSGDの収束を証明する。

An increasing bottleneck in decentralized optimization is communication. Bigger models and growing datasets mean that decentralization of computation is important and that the amount of information exchanged is quickly growing. While compression techniques have been introduced to cope with the latter, none has considered leveraging the temporal correlations that exist in consecutive vector updates. An important example is distributed momentum-SGD where temporal correlation is enhanced by the low-pass-filtering effect of applying momentum. In this paper we design and analyze compression methods that exploit temporal correlation in systems both with and without error-feedback. Experiments with the ImageNet dataset demonstrate that our proposed methods offer significant reduction in the rate of communication at only a negligible increase in computation complexity. We further analyze the convergence of SGD when compression is applied with error-feedback. In the literature, convergence guarantees are developed only for compressors that provide error-bounds point-wise, i.e., for each input to the compressor. In contrast, many important codes (e.g. rate-distortion codes) provide error-bounds only in expectation and thus provide a more general guarantee. In this paper we prove the convergence of SGD under an expected error assumption by establishing a bound for the minimum gradient norm.
翻訳日:2021-08-19 14:48:39 公開日:2021-08-17
# OncoPetNet: 大規模な獣医学診断室設定におけるH&E染色された全スライドデジタル画像に基づく深層学習ベースAIシステム

OncoPetNet: A Deep Learning based AI system for mitotic figure counting on H&E stained whole slide digital images in a large veterinary diagnostic lab setting ( http://arxiv.org/abs/2108.07856v1 )

ライセンス: Link先を確認
Michael Fitzke, Derick Whitley, Wilson Yau, Fernando Rodrigues Jr, Vladimir Fadeev, Cindy Bacmeister, Chris Carter, Jeffrey Edwards, Matthew P. Lungren, Mark Parkinson(参考訳) 背景: 病理は現代医療における多くの疾患の診断と管理において重要なモダリティであり, がん治療において重要な役割を担っている。 病理標本は巨大で多部位サンプリングが必要であり、単一の腫瘍に対して20のスライドを上回り、ヒトの専門的な部位選択や有糸分裂図形の定量的評価は時間と主観的である。 これらのタスクをデジタル病理サービスの設定で自動化することは、ワークフローの効率を改善し、実際に人間のエキスパートを増強する大きな機会を提供する。 アプローチ:OncoPetNetの開発において,病理組織像分類とミトティックフィギュア検出のための複数の最先端ディープラーニング技術を用いた。 さらに、速度と精度を高めるためにモデルフリーのアプローチが使用された。 堅牢でスケーラブルな推論エンジンは、pytorchのパフォーマンス最適化と、特に推論のスピードアップ技術を活用する。 結果: 本システムでは,14種類の癌に対して, 有病者ベースラインと比較して, 41例の有病者カウント性能が有意に向上した。 OncoPetNetの使用例の21.9%では、ヒトの専門家による評価と比較して腫瘍のグレードが変化した。 デプロイメントでは、2つのセンターで1日当たり3,323個のデジタルスライド画像を処理する高スループットな獣医診断病理サービスにおいて、効果的な0.27 min/slide推定が達成された。 結論:本研究は,大規模臨床における重要な病理組織学タスクにおけるリアルタイム専門家レベルパフォーマンスのための,ディープラーニングシステムの自動展開を成功させた最初の成果である。 その結果得られた影響は、モデル開発、展開、臨床意思決定において重要な考慮事項を概説し、デジタル病理学プラクティスにおけるディープラーニングシステムの実装に関するベストプラクティスを知らせる。

Background: Histopathology is an important modality for the diagnosis and management of many diseases in modern healthcare, and plays a critical role in cancer care. Pathology samples can be large and require multi-site sampling, leading to upwards of 20 slides for a single tumor, and the human-expert tasks of site selection and and quantitative assessment of mitotic figures are time consuming and subjective. Automating these tasks in the setting of a digital pathology service presents significant opportunities to improve workflow efficiency and augment human experts in practice. Approach: Multiple state-of-the-art deep learning techniques for histopathology image classification and mitotic figure detection were used in the development of OncoPetNet. Additionally, model-free approaches were used to increase speed and accuracy. The robust and scalable inference engine leverages Pytorch's performance optimizations as well as specifically developed speed up techniques in inference. Results: The proposed system, demonstrated significantly improved mitotic counting performance for 41 cancer cases across 14 cancer types compared to human expert baselines. In 21.9% of cases use of OncoPetNet led to change in tumor grading compared to human expert evaluation. In deployment, an effective 0.27 min/slide inference was achieved in a high throughput veterinary diagnostic pathology service across 2 centers processing 3,323 digital whole slide images daily. Conclusion: This work represents the first successful automated deployment of deep learning systems for real-time expert-level performance on important histopathology tasks at scale in a high volume clinical practice. The resulting impact outlines important considerations for model development, deployment, clinical decision making, and informs best practices for implementation of deep learning systems in digital histopathology practices.
翻訳日:2021-08-19 14:48:20 公開日:2021-08-17
# 統計的に近似した仮説選択

Statistically Near-Optimal Hypothesis Selection ( http://arxiv.org/abs/2108.07880v1 )

ライセンス: Link先を確認
Olivier Bousquet and Mark Braverman and Klim Efremenko and Gillat Kol and Shay Moran(参考訳) 仮説選択は、コンパレータクラス $q=\{q_1,\ldots, q_n\}$ と未知の目標分布 $p$ へのサンプリングアクセスが与えられた場合の基本的な分布学習問題であり、その目的は、$\mathsf{tv}(p,q)$ が$opt$に近いような分布 $q$ を出力することであり、ここでは$opt = \min_i\{\mathsf{tv}(p,q_i)\}$ と $\mathsf{tv}(\cdot, \cdot)$ が全変動距離を表す。 この問題は19世紀から研究されているにもかかわらず、サンプルの数や近似保証といった基本的な資源の複雑さは未解決のままである(例えば、Devroye と Lugosi `00" の魅力的な本で論じられている)。 これは、これらの複雑さがよく理解されているPAC学習のような他の(若い)学習環境とは対照的である。 仮説選択問題に対して最適な2ドル近似学習戦略を導出し、$$$q$を$\mathsf{TV}(p,q) \leq2 \cdot opt + \eps$とし、(ほぼ)最適サンプル複雑性~$$\tilde O(\log n/\epsilon^2)$とする。 以前、Bousquet, Kane, and Moran (COLT `19)は、最適な2$-approximationを達成する学習者を与えたが、指数関数的に悪いサンプルの複雑さは$\tilde O(\sqrt{n}/\epsilon^{2.5})$, and Yatracos~(Annals of Statistics `85)は、最適なサンプルの複雑さを持つ学習者に対して$O(\log n /\epsilon^2)$を与えられた。

Hypothesis Selection is a fundamental distribution learning problem where given a comparator-class $Q=\{q_1,\ldots, q_n\}$ of distributions, and a sampling access to an unknown target distribution $p$, the goal is to output a distribution $q$ such that $\mathsf{TV}(p,q)$ is close to $opt$, where $opt = \min_i\{\mathsf{TV}(p,q_i)\}$ and $\mathsf{TV}(\cdot, \cdot)$ denotes the total-variation distance. Despite the fact that this problem has been studied since the 19th century, its complexity in terms of basic resources, such as number of samples and approximation guarantees, remains unsettled (this is discussed, e.g., in the charming book by Devroye and Lugosi `00). This is in stark contrast with other (younger) learning settings, such as PAC learning, for which these complexities are well understood. We derive an optimal $2$-approximation learning strategy for the Hypothesis Selection problem, outputting $q$ such that $\mathsf{TV}(p,q) \leq2 \cdot opt + \eps$, with a (nearly) optimal sample complexity of~$\tilde O(\log n/\epsilon^2)$. This is the first algorithm that simultaneously achieves the best approximation factor and sample complexity: previously, Bousquet, Kane, and Moran (COLT `19) gave a learner achieving the optimal $2$-approximation, but with an exponentially worse sample complexity of $\tilde O(\sqrt{n}/\epsilon^{2.5})$, and Yatracos~(Annals of Statistics `85) gave a learner with optimal sample complexity of $O(\log n /\epsilon^2)$ but with a sub-optimal approximation factor of $3$.
翻訳日:2021-08-19 14:46:45 公開日:2021-08-17
# テキストスタイル転送データセットの文脈変化

Contextualizing Variation in Text Style Transfer Datasets ( http://arxiv.org/abs/2108.07871v1 )

ライセンス: Link先を確認
Stephanie Schoch, Wanyu Du, Yangfeng Ji(参考訳) テキストスタイルの転送には、ソース文の内容をターゲットスタイルで書き直すことが含まれる。 利用可能なデータを持つスタイルタスクは数多く存在するが、テキストスタイルのデータセットが相互にどう関係しているかに関する体系的な議論は限られている。 しかし、この理解はモデルトレーニングのために複数のデータソースを選択する意味を持つ可能性が高い。 これらの関係を決定する際に内在的なスタイル的性質を考えるのは慎重であるが、特定のデータセットにおいてスタイルがどのように実現されるかを考える必要がある。 本稿では,既存のテキストスタイルのデータセットを実験的に分析する。 そこで本研究では,テキストスタイルのデータセットを利用したり,比較したりする際のスタイル特性とデータセット特性の分類を提案する。

Text style transfer involves rewriting the content of a source sentence in a target style. Despite there being a number of style tasks with available data, there has been limited systematic discussion of how text style datasets relate to each other. This understanding, however, is likely to have implications for selecting multiple data sources for model training. While it is prudent to consider inherent stylistic properties when determining these relationships, we also must consider how a style is realized in a particular dataset. In this paper, we conduct several empirical analyses of existing text style datasets. Based on our results, we propose a categorization of stylistic and dataset properties to consider when utilizing or comparing text style datasets.
翻訳日:2021-08-19 14:45:57 公開日:2021-08-17
# 変圧器を用いた非対称バイラテラルu-netによる突発的物体検出

Boosting Salient Object Detection with Transformer-based Asymmetric Bilateral U-Net ( http://arxiv.org/abs/2108.07851v1 )

ライセンス: Link先を確認
Yu Qiu, Yun Liu, Le Zhang, Jing Xu(参考訳) 既存のsalient object detection(sod)モデルは、主にcnnベースのu字型構造に依存しており、グローバルコンテキストと、salient objectの探索とオブジェクトの詳細の精細化に不可欠なローカルな空間的詳細を組み合わせたスキップ接続を備えている。 成功にもかかわらず、グローバルコンテキストの学習におけるCNNの能力は限られている。 近年、ビジョントランスフォーマーは、グローバル依存の強力なモデリングのため、コンピュータビジョンの革命的な進歩を遂げている。 しかし、変換器が局所空間表現を学習できないため、変換器を直接SODに適用することは明らかに最適ではない。 そこで本研究では,SODのグローバル表現とローカル表現の両方を学ぶために,トランスフォーマーとCNNの組み合わせについて検討する。 トランスベース非対称双方向u-net (abiu-net) を提案する。 非対称バイラテラルエンコーダはトランスパスと軽量cnnパスを有しており、2つのパスはそれぞれエンコーダステージで通信し、相補的な大域的文脈と局所的な空間的詳細を学習する。 非対称なバイラテラルデコーダはトランスフォーマーとcnnエンコーダパスから特徴を処理するための2つのパスで構成されており、それぞれのデコーダステージでは粗いサルエントオブジェクトの位置とファインドグレードオブジェクトの詳細をデコードする。 このような2つのエンコーダ/デコーダパス間の通信により、AbiU-NetはトランスフォーマーとCNNの自然特性を利用して補完的なグローバルおよびローカル表現を学習することができる。 したがって、ABiU-NetはトランスフォーマーベースのSODの新しい視点を提供する。 大規模な実験により、ABiU-Netは従来の最先端SOD法に対して好適に機能することが示された。 コードはリリースされます。

Existing salient object detection (SOD) models mainly rely on CNN-based U-shaped structures with skip connections to combine the global contexts and local spatial details that are crucial for locating salient objects and refining object details, respectively. Despite great successes, the ability of CNN in learning global contexts is limited. Recently, the vision transformer has achieved revolutionary progress in computer vision owing to its powerful modeling of global dependencies. However, directly applying the transformer to SOD is obviously suboptimal because the transformer lacks the ability to learn local spatial representations. To this end, this paper explores the combination of transformer and CNN to learn both global and local representations for SOD. We propose a transformer-based Asymmetric Bilateral U-Net (AbiU-Net). The asymmetric bilateral encoder has a transformer path and a lightweight CNN path, where the two paths communicate at each encoder stage to learn complementary global contexts and local spatial details, respectively. The asymmetric bilateral decoder also consists of two paths to process features from the transformer and CNN encoder paths, with communication at each decoder stage for decoding coarse salient object locations and find-grained object details, respectively. Such communication between the two encoder/decoder paths enables AbiU-Net to learn complementary global and local representations, taking advantage of the natural properties of transformer and CNN, respectively. Hence, ABiU-Net provides a new perspective for transformer-based SOD. Extensive experiments demonstrate that ABiU-Net performs favorably against previous state-of-the-art SOD methods. The code will be released.
翻訳日:2021-08-19 14:44:30 公開日:2021-08-17
# グローバルプーリング:cnnでは位置情報がチャネルごとにエンコードされる

Global Pooling, More than Meets the Eye: Position Information is Encoded Channel-Wise in CNNs ( http://arxiv.org/abs/2108.07884v1 )

ライセンス: Link先を確認
Md Amirul Islam, Matthew Kowal, Sen Jia, Konstantinos G. Derpanis and Neil D. B. Bruce(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)における3次元(空間チャネル)テンソルの空間次元が,大域的なプーリングによってベクトルに崩壊するという一般的な仮定に挑戦する。 具体的には, 位置情報はチャネル次元の順序に基づいてエンコードされるが, 意味情報は概ねそうではないことを示す。 この実演に続いて,2つの応用に適用することで,これらの知見の現実的な影響を示す。 まず,cnn出力の変換不変性を改善する簡易かつ効果的なデータ拡張戦略と損失関数を提案する。 第2に,潜在表現のどのチャネルが (i) 全体の位置情報をエンコードしているか,あるいは (ii) 領域固有の位置を効率的に決定する手法を提案する。 まず、セマンティックセグメンテーションは、予測を行うための全体の位置チャネルに大きく依存していることを示す。 次に、最初に‘リージョン固有の’攻撃を実行でき、入力の特定の部分においてネットワークの性能を低下させることができることを示す。 我々は,CNNの特徴を理解する研究分野に,本研究の成果と応用を期待する。

In this paper, we challenge the common assumption that collapsing the spatial dimensions of a 3D (spatial-channel) tensor in a convolutional neural network (CNN) into a vector via global pooling removes all spatial information. Specifically, we demonstrate that positional information is encoded based on the ordering of the channel dimensions, while semantic information is largely not. Following this demonstration, we show the real world impact of these findings by applying them to two applications. First, we propose a simple yet effective data augmentation strategy and loss function which improves the translation invariance of a CNN's output. Second, we propose a method to efficiently determine which channels in the latent representation are responsible for (i) encoding overall position information or (ii) region-specific positions. We first show that semantic segmentation has a significant reliance on the overall position channels to make predictions. We then show for the first time that it is possible to perform a `region-specific' ; attack, and degrade a network's performance in a particular part of the input. We believe our findings and demonstrated applications will benefit research areas concerned with understanding the characteristics of CNNs.
翻訳日:2021-08-19 14:44:00 公開日:2021-08-17
# Per-Pixel Dynamic Filter Atomによる適応畳み込み

Adaptive Convolutions with Per-pixel Dynamic Filter Atom ( http://arxiv.org/abs/2108.07895v1 )

ライセンス: Link先を確認
Ze Wang, Zichen Miao, Jun Hu, and Qiang Qiu(参考訳) 特徴依存的ネットワーク重み付けの適用は多くの分野で有効であることが証明されている。 しかし、実際には、モデルパラメータとメモリフットプリントの巨大さによって制限され、スケーラブルで多用途な動的畳み込みと画素ごとの適応フィルタは、まだ完全には研究されていない。 本稿では,局所的な特徴から軽量ネットワークが生成する動的フィルタ原子に対して,各空間位置に適応したフィルタを分解することで,この問題に対処する。 適応受容場は、事前に固定されたマルチスケールベース上の各フィルタ原子をさらに表現することで支持できる。 コンボリューション層へのプラグ・アンド・プレイの置き換えとして、ピクセル単位の動的原子による適応的畳み込みは、重い計算、パラメータ、メモリコストを回避しつつ、画像内分散の明示的なモデリングを可能にする。 本手法は,従来の畳み込みの魅力を翻訳同変でパラメトリックな効率で保存する。 本稿では,提案手法がタスク間で同等あるいはさらに優れたパフォーマンスを提供することを示す実験を行い,特に画像内分散の大きいタスクに有効であることを示す。

Applying feature dependent network weights have been proved to be effective in many fields. However, in practice, restricted by the enormous size of model parameters and memory footprints, scalable and versatile dynamic convolutions with per-pixel adapted filters are yet to be fully explored. In this paper, we address this challenge by decomposing filters, adapted to each spatial position, over dynamic filter atoms generated by a light-weight network from local features. Adaptive receptive fields can be supported by further representing each filter atom over sets of pre-fixed multi-scale bases. As plug-and-play replacements to convolutional layers, the introduced adaptive convolutions with per-pixel dynamic atoms enable explicit modeling of intra-image variance, while avoiding heavy computation, parameters, and memory cost. Our method preserves the appealing properties of conventional convolutions as being translation-equivari ant and parametrically efficient. We present experiments to show that, the proposed method delivers comparable or even better performance across tasks, and are particularly effective on handling tasks with significant intra-image variance.
翻訳日:2021-08-19 14:43:41 公開日:2021-08-17
# HyperSF: フローベースの局所クラスタリングによるスペクトルハイパーグラフの粗大化

HyperSF: Spectral Hypergraph Coarsening via Flow-based Local Clustering ( http://arxiv.org/abs/2108.07901v1 )

ライセンス: Link先を確認
Ali Aghdaei, Zhiqiang Zhao, Zhuo Feng(参考訳) ハイパーグラフは、多方向高次関係のモデリング問題を可能にする。 しかし、既存のハイパーグラフベースのアルゴリズムの計算コストは入力ハイパーグラフサイズに大きく依存する。 計算上の課題の増大に対処するために、グラフ粗さは頂点(ノード)を積極的に集約することで、与えられたハイパーグラフの前処理に応用できる可能性がある。 しかし、ヒューリスティックグラフ粗化手法を取り入れた最先端のハイパーグラフ分割(クラスタリング)法は、ハイパーグラフの構造(グローバル)特性の保存に最適化されていない。 本研究では,ハイパーグラフのスペクトル(構造)特性を適切に保存するための効率的なスペクトルハイパーグラフ粗大化手法を提案する。 提案手法は, 局所的な最大フローに基づくクラスタリングアルゴリズムを用いて, 比カットを最小限に抑えるハイパーグラフ頂点の集合を検出する。 アルゴリズムの効率をさらに高めるために,元のハイパーグラフに対応する二部グラフのスペクトルクラスタリングを利用する分割・対数方式を提案する。 実世界のVLSI設計ベンチマークから抽出した様々なハイパーグラフの実験結果から,提案したハイパーグラフ粗大化アルゴリズムは,既存の最先端アルゴリズムと比較して,ハイパーグラフクラスタリングのマルチウェイコンダクタンスと実行効率を著しく向上させることができることが示された。

Hypergraphs allow modeling problems with multi-way high-order relationships. However, the computational cost of most existing hypergraph-based algorithms can be heavily dependent upon the input hypergraph sizes. To address the ever-increasing computational challenges, graph coarsening can be potentially applied for preprocessing a given hypergraph by aggressively aggregating its vertices (nodes). However, state-of-the-art hypergraph partitioning (clustering) methods that incorporate heuristic graph coarsening techniques are not optimized for preserving the structural (global) properties of hypergraphs. In this work, we propose an efficient spectral hypergraph coarsening scheme (HyperSF) for well preserving the original spectral (structural) properties of hypergraphs. Our approach leverages a recent strongly-local max-flow-based clustering algorithm for detecting the sets of hypergraph vertices that minimize ratio cut. To further improve the algorithm efficiency, we propose a divide-and-conquer scheme by leveraging spectral clustering of the bipartite graphs corresponding to the original hypergraphs. Our experimental results for a variety of hypergraphs extracted from real-world VLSI design benchmarks show that the proposed hypergraph coarsening algorithm can significantly improve the multi-way conductance of hypergraph clustering as well as runtime efficiency when compared with existing state-of-the-art algorithms.
翻訳日:2021-08-19 14:34:39 公開日:2021-08-17
# 普遍量子コンピューティングモデルの比較研究--物理統一に向けて

A comparative study of universal quantum computing models: towards a physical unification ( http://arxiv.org/abs/2108.07909v1 )

ライセンス: Link先を確認
D.-S. Wang(参考訳) 量子コンピューティングは量子物理学における興味深い研究分野である。 近年の進歩は、量子コンピューティングの基礎にあり、基礎物理学と密接な関係を持つ普遍量子コンピューティングモデル (UQCM) を深く研究する動機となっている。 数十年前に開発されたが、uqcmを形式化し理解するための物理的に簡潔な原則やイメージはまだ欠けている。 未熟なモデルの多様性を考えると、これは難しいが、古典コンピューティングと量子コンピューティングの違いを理解することが重要である。 そこで本研究では,UQCMを2つのカテゴリに分類し,モデル表を作成することにより,UQCMを統一する試みを行った。 このような表では、いくつかの既知のモデルやスキームがハイブリッド化やモデルの組み合わせとして現れ、さらに重要なことは、まだ探索されていない新しいスキームにつながることである。 UQCMの研究は量子アルゴリズムに関する洞察にも繋がる。 本研究は,計算モデルの体系的研究の重要性と可能性を明らかにする。

Quantum computing has been a fascinating research field in quantum physics. Recent progresses motivate us to study in depth the universal quantum computing models (UQCM), which lie at the foundation of quantum computing and have tight connections with fundamental physics. Although being developed decades ago, a physically concise principle or picture to formalize and understand UQCM is still lacking. This is challenging given the diversity of still-emerging models, but important to understand the difference between classical and quantum computing. In this work, we carried out a primary attempt to unify UQCM by classifying a few of them as two categories, hence making a table of models. With such a table, some known models or schemes appear as hybridization or combination of models, and more importantly, it leads to new schemes that have not been explored yet. Our study of UQCM also leads to some insights into quantum algorithms. This work reveals the importance and feasibility of systematic study of computing models.
翻訳日:2021-08-19 14:32:50 公開日:2021-08-17
# ARCH++:アニメーション対応の人間の再構築

ARCH++: Animation-Ready Clothed Human Reconstruction Revisited ( http://arxiv.org/abs/2108.07845v1 )

ライセンス: Link先を確認
Tong He, Yuanlu Xu, Shunsuke Saito, Stefano Soatto, Tony Tung(参考訳) 任意の服装スタイルで3Dアバターを再構成する画像ベースARCH++を提案する。 再構成されたアバターは、入力ビューから見える領域と見えない領域の両方において、アニメーション対応であり、非常にリアルです。 先行研究は, 様々なトポロジを持つ有人衣服を復元する大きな可能性を示しているが, 基本的限界が存在するため, 準最適復元の質が向上する。 本稿では,画像に基づくアバター再構成の主要なステップを再考し,ARCH++による制限に対処する。 まず,手作りの特徴に代えて,基礎となる3次元人体のセマンティクスをよりよく記述するための,エンド・ツー・エンドの点に基づく幾何エンコーダを提案する。 第2に,標準姿勢における衣服のトポロジ的変化による占有のあいまいさに対処するため,空間間の整合性を考慮した協調監視フレームワークを提案し,姿勢空間と標準空間の両方における占有度を共同で推定する。 最後に,画像から画像への変換ネットワークを用いて,再構成面の詳細な形状とテクスチャを洗練し,任意の視点における忠実性と一貫性を向上させる。 実験では,コンストラクション品質とリアリズムにおける公開ベンチマークとユーザスタディの両方において,最先端の技術の向上を示す。

We present ARCH++, an image-based method to reconstruct 3D avatars with arbitrary clothing styles. Our reconstructed avatars are animation-ready and highly realistic, in both the visible regions from input views and the unseen regions. While prior work shows great promise of reconstructing animatable clothed humans with various topologies, we observe that there exist fundamental limitations resulting in sub-optimal reconstruction quality. In this paper, we revisit the major steps of image-based avatar reconstruction and address the limitations with ARCH++. First, we introduce an end-to-end point based geometry encoder to better describe the semantics of the underlying 3D human body, in replacement of previous hand-crafted features. Second, in order to address the occupancy ambiguity caused by topological changes of clothed humans in the canonical pose, we propose a co-supervising framework with cross-space consistency to jointly estimate the occupancy in both the posed and canonical spaces. Last, we use image-to-image translation networks to further refine detailed geometry and texture on the reconstructed surface, which improves the fidelity and consistency across arbitrary viewpoints. In the experiments, we demonstrate improvements over the state of the art on both public benchmarks and user studies in reconstruction quality and realism.
翻訳日:2021-08-19 14:32:16 公開日:2021-08-17
# 深層ニューラルネットワークを用いた複合現実感のための空間的・カラー整合環境照明推定

Spatially and color consistent environment lighting estimation using deep neural networks for mixed reality ( http://arxiv.org/abs/2108.07903v1 )

ライセンス: Link先を確認
Bruno Augusto Dorta Marques, Esteban Walter Gonzalez Clua, Anselmo Antunes Montenegro, Cristina Nader Vasconcelos(参考訳) 一貫性のある混合現実(XR)環境の表現には、リアルタイムに適切なリアルタイムおよび仮想照明構成が必要である。 実際のシナリオの照明を見積もるのは依然として課題です。 問題の性質の悪さから、古典的な逆レンダリング技術は、単純な照明装置の問題に対処する。 しかし、これらの仮定はコンピュータグラフィックスやXRアプリケーションにおける現在の最先端を満たさない。 近年の多くの研究は、環境光やシーンの素材を推定するために機械学習技術を用いてこの問題を解決するが、そのほとんどは幾何学的知識やそれ以前の知識に限られている。 本稿では,複合現実環境における複雑な照明を推定するためのcnnモデルについて述べる。 我々は,領域照明を効率よく表現できる球面調和(SH)環境照明の集合を用いて,環境照明をモデル化する。 我々は,RGB画像を入力し,環境照明をリアルタイムで認識する新しいCNNアーキテクチャを提案する。 従来のCNNベースの照明推定手法とは異なり,現実の高ダイナミックレンジ(HDR)環境画像から複雑な照明シナリオを学習可能なパラメータの少ない,高度に最適化されたディープニューラルネットワークアーキテクチャを提案する。 実験では,sh照明係数を比較すると,平均平均2乗誤差 (mse) が7.85e-04} となるcnnアーキテクチャが環境照明を予測できることを示した。 私たちは、さまざまな混合現実シナリオでモデルを検証する。 さらに,実世界の場面の再現性を比較する質的結果を示す。

The representation of consistent mixed reality (XR) environments requires adequate real and virtual illumination composition in real-time. Estimating the lighting of a real scenario is still a challenge. Due to the ill-posed nature of the problem, classical inverse-rendering techniques tackle the problem for simple lighting setups. However, those assumptions do not satisfy the current state-of-art in computer graphics and XR applications. While many recent works solve the problem using machine learning techniques to estimate the environment light and scene's materials, most of them are limited to geometry or previous knowledge. This paper presents a CNN-based model to estimate complex lighting for mixed reality environments with no previous information about the scene. We model the environment illumination using a set of spherical harmonics (SH) environment lighting, capable of efficiently represent area lighting. We propose a new CNN architecture that inputs an RGB image and recognizes, in real-time, the environment lighting. Unlike previous CNN-based lighting estimation methods, we propose using a highly optimized deep neural network architecture, with a reduced number of parameters, that can learn high complex lighting scenarios from real-world high-dynamic-range (HDR) environment images. We show in the experiments that the CNN architecture can predict the environment lighting with an average mean squared error (MSE) of \num{7.85e-04} when comparing SH lighting coefficients. We validate our model in a variety of mixed reality scenarios. Furthermore, we present qualitative results comparing relights of real-world scenes.
翻訳日:2021-08-19 14:31:50 公開日:2021-08-17
# 後見体験リプレイによる多様性に基づく軌道選択とゴール選択

Diversity-based Trajectory and Goal Selection with Hindsight Experience Replay ( http://arxiv.org/abs/2108.07887v1 )

ライセンス: Link先を確認
Tianhong Dai, Hengyan Liu, Kai Arulkumaran, Guangyu Ren, Anil Anthony Bharath(参考訳) Hindsight Experience Replay (HER) は、通常、目標指向のタスクを解決するために、政治的でない深層強化学習アルゴリズムで使用されるゴールレラベリング技術である。 HERでは、軌道と遷移は訓練のために一様にサンプリングされる。 しかしながら、エージェントの経験のすべてがトレーニングに等しく寄与するわけではないため、単純で均一なサンプリングは非効率な学習につながる可能性がある。 本稿では,ダイバーシティに基づく軌道選択と目標選択を提案する(dtgsh)。 まず、決定的点過程(dpps)によってモデル化された目標状態の多様性に応じて軌道をサンプリングする。 第2に、k-DPPを用いて、様々な目標状態を持つ遷移を軌道から選択する。 我々は、シミュレーションロボット環境における5つの困難なロボット操作タスクについてDTGSHを評価し、本手法が全てのタスクにおける他の最先端のアプローチよりも高速に学習し、より高い性能に達することを示す。

Hindsight experience replay (HER) is a goal relabelling technique typically used with off-policy deep reinforcement learning algorithms to solve goal-oriented tasks; it is well suited to robotic manipulation tasks that deliver only sparse rewards. In HER, both trajectories and transitions are sampled uniformly for training. However, not all of the agent's experiences contribute equally to training, and so naive uniform sampling may lead to inefficient learning. In this paper, we propose diversity-based trajectory and goal selection with HER (DTGSH). Firstly, trajectories are sampled according to the diversity of the goal states as modelled by determinantal point processes (DPPs). Secondly, transitions with diverse goal states are selected from the trajectories by using k-DPPs. We evaluate DTGSH on five challenging robotic manipulation tasks in simulated robot environments, where we show that our method can learn more quickly and reach higher performance than other state-of-the-art approaches on all tasks.
翻訳日:2021-08-19 14:27:06 公開日:2021-08-17
# SSH: イメージ調和のための自己監督型フレームワーク

SSH: A Self-Supervised Framework for Image Harmonization ( http://arxiv.org/abs/2108.06805v2 )

ライセンス: Link先を確認
Yifan Jiang, He Zhang, Jianming Zhang, Yilin Wang, Zhe Lin, Kalyan Sunkavalli, Simon Chen, Sohrab Amirghodsi, Sarah Kong, Zhangyang Wang(参考訳) 画像調和は、前景画像と背景画像の「外観」(色調、明るさ、コントラスト)をマッチングすることにより、画像合成の品質を向上させることを目的としている。 しかし、このタスクのために大規模な注釈付きデータセットを収集するには、複雑なプロのリタッチが必要である。 代わりに、編集することなく、単に「自由」な自然画像を使って訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。 画像調和問題を表現融合の観点から再構成し、前景と背景を別々に処理し、背景閉塞問題に対処する。 このフレームワークの設計により、多様な[地上、背景、擬似GT]三重項を3Dカラールックアップテーブル(LUT)を用いて摂動でトリミングすることで、二重データ拡張が可能となる。 さらに,評価やベンチマークの目的で,専門家ユーザが慎重に作成した実世界の調和データセットを構築する。 提案手法は,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。 コードとデータセットは \url{https://github.com/V ITA-Group/SSHarmoniz ation} で公開されている。

Image harmonization aims to improve the quality of image compositing by matching the "appearance" (\eg, color tone, brightness and contrast) between foreground and background images. However, collecting large-scale annotated datasets for this task requires complex professional retouching. Instead, we propose a novel Self-Supervised Harmonization framework (SSH) that can be trained using just "free" natural images without being edited. We reformulate the image harmonization problem from a representation fusion perspective, which separately processes the foreground and background examples, to address the background occlusion issue. This framework design allows for a dual data augmentation method, where diverse [foreground, background, pseudo GT] triplets can be generated by cropping an image with perturbations using 3D color lookup tables (LUTs). In addition, we build a real-world harmonization dataset as carefully created by expert users, for evaluation and benchmarking purposes. Our results show that the proposed self-supervised method outperforms previous state-of-the-art methods in terms of reference metrics, visual quality, and subject user study. Code and dataset are available at \url{https://github.com/V ITA-Group/SSHarmoniz ation}.
翻訳日:2021-08-19 11:24:40 公開日:2021-08-17
# マルチアクセス無線ネットワーク上での効率的なフェデレーションメタラーニング

Efficient Federated Meta-Learning over Multi-Access Wireless Networks ( http://arxiv.org/abs/2108.06453v2 )

ライセンス: Link先を確認
Sheng Yue, Ju Ren, Jiang Xin, Deyu Zhang, Yaoxue Zhang, Weihua Zhuang(参考訳) フェデレーションメタラーニング(fml)は、今日のエッジラーニング分野におけるデータ制限と多様性の課題に対処するための有望なパラダイムとして登場した。 しかし、その性能は遅い収束とそれに対応する低通信効率によって制限されることが多い。 加えて、利用可能な無線スペクトルとIoTデバイスのエネルギー容量が不足しているため、実用的な無線ネットワークにFMLをデプロイする際のリソース割り当てとエネルギー消費を制御することが重要である。 この課題を克服するため,本稿では,各ラウンドにおける大域的損失削減への各装置の貢献を厳密に解析し,収束を加速する非一様デバイス選択スキームを用いたfmlアルゴリズム(nufm)を開発した。 その後,マルチアクセス無線システムにおいてnfmを統合する資源割当問題を定式化し,コンバージェンス率を向上し,壁時計時間の最小化とエネルギーコストの削減を図る。 元の課題を段階的に分解することにより,機器選択と資源割当戦略を両立し,理論的保証により解決する。 さらに, 2 つの一階近似手法を組み合わせることで, nufm の計算複雑性を $o(d^2)$ から $o(d)$ (モデル次元 $d$) に削減できることを示した。 シミュレーションの結果,既存のベースラインと比較して提案手法の有効性と優位性を示した。

Federated meta-learning (FML) has emerged as a promising paradigm to cope with the data limitation and heterogeneity challenges in today's edge learning arena. However, its performance is often limited by slow convergence and corresponding low communication efficiency. In addition, since the available radio spectrum and IoT devices' energy capacity are usually insufficient, it is crucial to control the resource allocation and energy consumption when deploying FML in practical wireless networks. To overcome the challenges, in this paper, we rigorously analyze each device's contribution to the global loss reduction in each round and develop an FML algorithm (called NUFM) with a non-uniform device selection scheme to accelerate the convergence. After that, we formulate a resource allocation problem integrating NUFM in multi-access wireless systems to jointly improve the convergence rate and minimize the wall-clock time along with energy cost. By deconstructing the original problem step by step, we devise a joint device selection and resource allocation strategy to solve the problem with theoretical guarantees. Further, we show that the computational complexity of NUFM can be reduced from $O(d^2)$ to $O(d)$ (with the model dimension $d$) via combining two first-order approximation techniques. Extensive simulation results demonstrate the effectiveness and superiority of the proposed methods in comparison with existing baselines.
翻訳日:2021-08-19 11:22:58 公開日:2021-08-17
# (参考訳) 畳み込みニューラルネットワークにおける代表解釈の探索 [全文訳有]

Finding Representative Interpretations on Convolutional Neural Networks ( http://arxiv.org/abs/2108.06384v2 )

ライセンス: CC BY 4.0
Peter Cho-Ho Lam, Lingyang Chu, Maxim Torgonskiy, Jian Pei, Yong Zhang, Lanjun Wang(参考訳) 画像上で効果的な深層畳み込みニューラルネットワーク(cnn)の背後にある決定論理を解釈することは、ディープラーニングモデルの成功を補完する。 しかし、既存の手法では、個々の画像や少数の画像に対してのみ特定の決定論理を解釈できる。 人間の理解可能性と一般化能力を促進するために,CNNの共通決定論理を類似した画像群で解釈する代表的解釈を開発することが重要である。 本稿では,多数の類似画像に対して高度に代表される解釈を生成するための新しい教師なし手法を提案する。 我々は,共クラスタリング問題として代表解釈を求める問題を定式化し,CNNの線形決定境界のサンプルに基づいて,部分モジュラーコストのサブモジュラー被覆問題に変換する。 また,可視化と類似度ランキング手法を提案する。 本手法の優れた性能を示す大規模な実験を行った。

Interpreting the decision logic behind effective deep convolutional neural networks (CNN) on images complements the success of deep learning models. However, the existing methods can only interpret some specific decision logic on individual or a small number of images. To facilitate human understandability and generalization ability, it is important to develop representative interpretations that interpret common decision logics of a CNN on a large group of similar images, which reveal the common semantics data contributes to many closely related predictions. In this paper, we develop a novel unsupervised approach to produce a highly representative interpretation for a large number of similar images. We formulate the problem of finding representative interpretations as a co-clustering problem, and convert it into a submodular cost submodular cover problem based on a sample of the linear decision boundaries of a CNN. We also present a visualization and similarity ranking method. Our extensive experiments demonstrate the excellent performance of our method.
翻訳日:2021-08-19 02:36:39 公開日:2021-08-17
# (参考訳) DICOMイメージングルータ:DICOM X線スキャンから身体部位を分類するためのオープンディープラーニングフレームワーク [全文訳有]

DICOM Imaging Router: An Open Deep Learning Framework for Classification of Body Parts from DICOM X-ray Scans ( http://arxiv.org/abs/2108.06490v2 )

ライセンス: CC BY 4.0
Hieu H. Pham, Dung V. Do, Ha Q. Nguyen(参考訳) dicom形式のx線イメージングは、臨床でもっとも一般的に使用されるイメージングモダリティであり、膨大な非正規化データベースを生み出している。 これにより、医療画像を分析するためのAIソリューションのデプロイに障害が生じ、しばしば、特定のAIモデルにイメージを投入する前に、適切な身体部分を特定する必要がある。 この課題は、X線スキャンから身体部分を分類する自動化的で効率的なアプローチの必要性を高める。 残念ながら、私たちの知る限りでは、このタスクにはオープンなツールやフレームワークはありません。 この欠点を補うために,未知のDICOM X線像を腹部,成人胸,小児胸,脊椎などの5つの解剖学的グループに分類するためのDICOM Imaging Routerを導入する。 この目的のために、16,093枚の画像からなる大規模なX線データセットが収集され、手動で分類された。 11,263枚の画像のトレーニングセットを使用して、最先端の深層CNNのセットをトレーニングした。 これらのネットワークは、2,419枚の独立したテストセットで評価され、ボディパーツの分類において優れた性能を示した。 具体的には, 0.982 (95% CI, 0.977-0.988), 0.985 (95% CI, 0.975-0.989), F1スコア 0.981 (95% CI, 0.976-0.987) のリコールを実現した。 1000枚のx線画像に対する外部的妥当性は,提案手法の病院間における堅牢性を示している。 これらの顕著なパフォーマンスは、深部CNNが人体部分とX線スキャンを正確にかつ効果的に区別できることを示し、臨床現場での幅広い応用に潜在的に有益であることを示している。 この研究から得られたデータセット、コード、トレーニングされたディープラーニングモデルは、プロジェクトのWebサイトで公開されます。

X-ray imaging in DICOM format is the most commonly used imaging modality in clinical practice, resulting in vast, non-normalized databases. This leads to an obstacle in deploying AI solutions for analyzing medical images, which often requires identifying the right body part before feeding the image into a specified AI model. This challenge raises the need for an automated and efficient approach to classifying body parts from X-ray scans. Unfortunately, to the best of our knowledge, there is no open tool or framework for this task to date. To fill this lack, we introduce a DICOM Imaging Router that deploys deep CNNs for categorizing unknown DICOM X-ray images into five anatomical groups: abdominal, adult chest, pediatric chest, spine, and others. To this end, a large-scale X-ray dataset consisting of 16,093 images has been collected and manually classified. We then trained a set of state-of-the-art deep CNNs using a training set of 11,263 images. These networks were then evaluated on an independent test set of 2,419 images and showed superior performance in classifying the body parts. Specifically, our best performing model achieved a recall of 0.982 (95% CI, 0.977-0.988), a precision of 0.985 (95% CI, 0.975-0.989) and a F1-score of 0.981 (95% CI, 0.976-0.987), whilst requiring less computation for inference (0.0295 second per image). Our external validity on 1,000 X-ray images shows the robustness of the proposed approach across hospitals. These remarkable performances indicate that deep CNNs can accurately and effectively differentiate human body parts from X-ray scans, thereby providing potential benefits for a wide range of applications in clinical settings. The dataset, codes, and trained deep learning models from this study will be made publicly available on our project website at https://vindr.ai/.
翻訳日:2021-08-19 02:11:06 公開日:2021-08-17
# (参考訳) SOTR: トランスフォーマーによるオブジェクトのセグメンテーション [全文訳有]

SOTR: Segmenting Objects with Transformers ( http://arxiv.org/abs/2108.06747v2 )

ライセンス: CC BY 4.0
Ruohao Guo, Dantong Niu, Liao Qu, Zhenbo Li(参考訳) 最近のトランスフォーマーベースのモデルは、畳み込みニューラルネットワーク(cnn)よりも優れた視覚タスクで印象的なパフォーマンスを示している。 本稿では,高品質インスタンスセグメンテーションのための新しいフレキシブルで効果的なトランスフォーマモデルを提案する。 TRansformers (SOTR) を用いたSegmenting Objects (Segmenting Objects) は,2つの並列サブタスクを付加した代替CNNバックボーン上に構築されたセグメンテーションパイプラインを単純化し,(1)トランスフォーマーによるインスタンスごとのカテゴリ予測,(2)マルチレベルアップサンプリングモジュールによるセグメンテーションマスクを動的に生成する。 SOTRは、低レベルの特徴表現を効果的に抽出し、FPN(Feature Pyramid Network)とツイントランスによる長距離コンテキスト依存をキャプチャすることができる。 一方、元々の変圧器と比較して、提案された双変圧器はピクセルの符号化には行と列のみの注意が必要であるため、時間と資源効率が良い。 さらに、SOTRを様々なCNNバックボーンやトランスフォーマーモデルに組み込むことで、セグメンテーション精度とトレーニング収束性を大幅に改善することができる。 大規模な実験により、私たちのSOTRはMS COCOデータセット上で良好に動作し、最先端のインスタンスセグメンテーションアプローチを超えていることが示された。 シンプルだが強力なフレームワークが、インスタンスレベルの認識のベースラインとして役立つことを願っています。 私たちのコードはhttps://github.com/e aston-cau/sotrで利用可能です。

Most recent transformer-based models show impressive performance on vision tasks, even better than Convolution Neural Networks (CNN). In this work, we present a novel, flexible, and effective transformer-based model for high-quality instance segmentation. The proposed method, Segmenting Objects with TRansformers (SOTR), simplifies the segmentation pipeline, building on an alternative CNN backbone appended with two parallel subtasks: (1) predicting per-instance category via transformer and (2) dynamically generating segmentation mask with the multi-level upsampling module. SOTR can effectively extract lower-level feature representations and capture long-range context dependencies by Feature Pyramid Network (FPN) and twin transformer, respectively. Meanwhile, compared with the original transformer, the proposed twin transformer is time- and resource-efficient since only a row and a column attention are involved to encode pixels. Moreover, SOTR is easy to be incorporated with various CNN backbones and transformer model variants to make considerable improvements for the segmentation accuracy and training convergence. Extensive experiments show that our SOTR performs well on the MS COCO dataset and surpasses state-of-the-art instance segmentation approaches. We hope our simple but strong framework could serve as a preferment baseline for instance-level recognition. Our code is available at https://github.com/e aston-cau/SOTR.
翻訳日:2021-08-19 02:05:23 公開日:2021-08-17
# (参考訳) FaPN:高密度画像予測のための特徴整列ピラミッドネットワーク

FaPN: Feature-aligned Pyramid Network for Dense Image Prediction ( http://arxiv.org/abs/2108.07058v2 )

ライセンス: CC BY 4.0
Shihua Huang, Zhichao Lu, Ran Cheng, Cheng He(参考訳) 近年の深層ニューラルネットワークの進歩は、高密度画像予測において飛躍的な進歩を遂げている。 しかし、機能アライメントの問題は、既存のほとんどのシンプルさのアプローチによって無視されているままである。 アップサンプリングされた特徴と局所的な特徴の間の直接のピクセル付加は、不一致コンテキストを持つ特徴写像につながり、その結果、特にオブジェクト境界における予測における誤分類に変換される。 本稿では,画素の変換オフセットを学習し,高次特徴を文脈的に整列させる機能アライメントモジュールと,空間的詳細が充実した低次特徴を強調する機能選択モジュールを提案する。 次に,これら2つのモジュールをトップダウンピラミッドアーキテクチャに統合し,機能整合ピラミッドネットワーク(fapn)を提案する。 4つの密集予測タスクと4つのデータセットに関する大規模な実験的評価は、FaPNの有効性を示し、FPNとFaster / Mask R-CNNを合わせると、AP/mIoUの1.2-2.6ポイントがFPNよりも大幅に改善された。 特に、私たちのFaPNは Mask-Former に統合された ADE20K 上で56.7% mIoU の最先端を実現している。 コードはhttps://github.com/E MI-Group/FaPNから入手できる。

Recent advancements in deep neural networks have made remarkable leap-forwards in dense image prediction. However, the issue of feature alignment remains as neglected by most existing approaches for simplicity. Direct pixel addition between upsampled and local features leads to feature maps with misaligned contexts that, in turn, translate to mis-classifications in prediction, especially on object boundaries. In this paper, we propose a feature alignment module that learns transformation offsets of pixels to contextually align upsampled higher-level features; and another feature selection module to emphasize the lower-level features with rich spatial details. We then integrate these two modules in a top-down pyramidal architecture and present the Feature-aligned Pyramid Network (FaPN). Extensive experimental evaluations on four dense prediction tasks and four datasets have demonstrated the efficacy of FaPN, yielding an overall improvement of 1.2 - 2.6 points in AP / mIoU over FPN when paired with Faster / Mask R-CNN. In particular, our FaPN achieves the state-of-the-art of 56.7% mIoU on ADE20K when integrated within Mask-Former. The code is available from https://github.com/E MI-Group/FaPN.
翻訳日:2021-08-19 01:48:04 公開日:2021-08-17
# (参考訳) DRB-GAN: アーティストスタイル転送のための動的ResBlock生成逆ネットワーク [全文訳有]

DRB-GAN: A Dynamic ResBlock Generative Adversarial Network for Artistic Style Transfer ( http://arxiv.org/abs/2108.07379v1 )

ライセンス: CC BY 4.0
Wenju Xu and Chengjiang Long and Ruisheng Wang and Guanghui Wang(参考訳) 本稿では,芸術的スタイル伝達のための動的ResBlock Generative Adversarial Network (DRB-GAN)を提案する。 スタイルコードは、スタイルエンコーディングネットワークとスタイル転送ネットワークを接続するDynamic ResBlocksの共有パラメータとしてモデル化される。 スタイル符号化ネットワークでは、スタイルコードを生成するためのスタイル特徴表現にスタイルクラス対応アテンション機構が使用される。 スタイル転送ネットワークでは、複数のDynamic ResBlocksがスタイルコードと抽出されたCNNセマンティック機能を統合し、空間ウィンドウのレイヤ-インスタンス正規化(SW-LIN)デコーダに入力するように設計されている。 さらに,DRB-GANモデルの学習段階における任意のスタイル転送とコレクションスタイル転送の両機能を備えたスタイル収集条件判別器を設計した。 任意のスタイルの転送やコレクションスタイルの転送はともかく,我々の提案したDRB-GANは最先端の手法よりも優れており,視覚的品質と効率の点で優れた性能を示した。 我々のソースコードは \color{magenta}{\url{https://github.com/x uwenju123/drb-gan}} で入手できる。

The paper proposes a Dynamic ResBlock Generative Adversarial Network (DRB-GAN) for artistic style transfer. The style code is modeled as the shared parameters for Dynamic ResBlocks connecting both the style encoding network and the style transfer network. In the style encoding network, a style class-aware attention mechanism is used to attend the style feature representation for generating the style codes. In the style transfer network, multiple Dynamic ResBlocks are designed to integrate the style code and the extracted CNN semantic feature and then feed into the spatial window Layer-Instance Normalization (SW-LIN) decoder, which enables high-quality synthetic images with artistic style transfer. Moreover, the style collection conditional discriminator is designed to equip our DRB-GAN model with abilities for both arbitrary style transfer and collection style transfer during the training stage. No matter for arbitrary style transfer or collection style transfer, extensive experiments strongly demonstrate that our proposed DRB-GAN outperforms state-of-the-art methods and exhibits its superior performance in terms of visual quality and efficiency. Our source code is available at \color{magenta}{\url{https://github.com/x uwenju123/DRB-GAN}}.
翻訳日:2021-08-18 23:56:33 公開日:2021-08-17
# (参考訳) InfoGramと許容型機械学習

InfoGram and Admissible Machine Learning ( http://arxiv.org/abs/2108.07380v1 )

ライセンス: CC BY 4.0
Subhadeep Mukhopadhyay(参考訳) 我々は機械学習(ML)の新しい時代に入りましたが、最も正確な予測能力を持つアルゴリズムは、規制の制約の下で許容されない限り、デプロイできないかもしれません。 これにより、公正で透明で信頼できるML手法の開発に大きな関心が寄せられている。 本稿の目的は,新たな情報理論学習フレームワーク(許容機械学習)とアルゴリズムによるリスク管理ツール(InfoGram, L-features, ALFA-testing)を導入することである。 我々は,金融セクター,生物医学研究,マーケティングキャンペーン,刑事司法制度などの実例を用いて,我々のアプローチを実証した。

We have entered a new era of machine learning (ML), where the most accurate algorithm with superior predictive power may not even be deployable, unless it is admissible under the regulatory constraints. This has led to great interest in developing fair, transparent and trustworthy ML methods. The purpose of this article is to introduce a new information-theoreti c learning framework (admissible machine learning) and algorithmic risk-management tools (InfoGram, L-features, ALFA-testing) that can guide an analyst to redesign off-the-shelf ML methods to be regulatory compliant, while maintaining good prediction accuracy. We have illustrated our approach using several real-data examples from financial sectors, biomedical research, marketing campaigns, and the criminal justice system.
翻訳日:2021-08-18 23:38:42 公開日:2021-08-17
# (参考訳) 安全なコンピュータ支援診断のための推論アルゴリズムの学習における不確実性の導入 [全文訳有]

Incorporating Uncertainty in Learning to Defer Algorithms for Safe Computer-Aided Diagnosis ( http://arxiv.org/abs/2108.07392v1 )

ライセンス: CC BY 4.0
Jessie Liu and Blanca Gallego and Sebastiano Barbieri(参考訳) 本研究では,患者グループを特定する際のモデルの不確かさを人的専門家が評価する際の予測的不確実性を考慮したLDU(Learning to Defer with Uncertainity)アルゴリズムを提案する。 私たちの目標は、MLモデルが医療環境にデプロイされる際の患者の安全を確保することです。

In this study we propose the Learning to Defer with Uncertainty (LDU) algorithm, an approach which considers the model's predictive uncertainty when identifying the patient group to be evaluated by human experts. Our aim is to ensure patient safety when ML models are deployed in healthcare settings.
翻訳日:2021-08-18 23:37:46 公開日:2021-08-17
# (参考訳) 新規操作領域における安全クリティカルタスクのネットワーク一般化予測 [全文訳有]

Network Generalization Prediction for Safety Critical Tasks in Novel Operating Domains ( http://arxiv.org/abs/2108.07399v1 )

ライセンス: CC BY 4.0
Molly O'Brien, Mike Medoff, Julia Bukowski, and Greg Hager(参考訳) ニューラルネットワーク(ネットワーク)のパフォーマンスは、トレーニングやテストのドメインとは異なる、新たな運用ドメインでネットワークが使用されると、しばしば低下する。 ネットワークは安全クリティカルなサイバーフィジカルシステムに統合されており、例えば自動運転車の認識など、制約のない環境で動作しなければならないため、これは大きな制限となっている。 新たなオペレーティングドメインに一般化し、ロバストな特徴を抽出するトレーニングネットワークは、研究の活発な領域であるが、新しいオペレーティングドメインにおけるネットワークパフォーマンスの予測には失敗している。 本稿では,新しい操作領域におけるネットワーク性能を予測するタスクネットワーク一般化予測を提案する。 本稿では、解釈可能なコンテキストサブスペースの観点からネットワーク性能を記述し、ネットワーク性能に関する最も優れた情報を提供するコンテキストサブスペースの特徴を選択する手法を提案する。 我々は,バークレーディープドライブ(BDD)データセット上で歩行者検出を行う事前訓練された高速RCNNネットワークのコンテキスト部分空間を特定し,観測性能の5%以下でネットワーク一般化予測の精度を示す。 また、BDDデータセットのContext Subspaceは、予測のバイアスが10%以下である、完全に見えないデータセット、JAAD、Cityscapesに対して有益であることも示しています。

It is well known that Neural Network (network) performance often degrades when a network is used in novel operating domains that differ from its training and testing domains. This is a major limitation, as networks are being integrated into safety critical, cyber-physical systems that must work in unconstrained environments, e.g., perception for autonomous vehicles. Training networks that generalize to novel operating domains and that extract robust features is an active area of research, but previous work fails to predict what the network performance will be in novel operating domains. We propose the task Network Generalization Prediction: predicting the expected network performance in novel operating domains. We describe the network performance in terms of an interpretable Context Subspace, and we propose a methodology for selecting the features of the Context Subspace that provide the most information about the network performance. We identify the Context Subspace for a pretrained Faster RCNN network performing pedestrian detection on the Berkeley Deep Drive (BDD) Dataset, and demonstrate Network Generalization Prediction accuracy within 5% or less of observed performance. We also demonstrate that the Context Subspace from the BDD Dataset is informative for completely unseen datasets, JAAD and Cityscapes, where predictions have a bias of 10% or less.
翻訳日:2021-08-18 23:26:39 公開日:2021-08-17
# (参考訳) farf: 公平かつ適応的なランダムフォレスト分類器 [全文訳有]

FARF: A Fair and Adaptive Random Forests Classifier ( http://arxiv.org/abs/2108.07403v1 )

ライセンス: CC0 1.0
Wenbin Zhang, Albert Bifet, Xiangliang Zhang, Jeremy C. Weiss and Wolfgang Nejdl(参考訳) 人工知能(AI)がより多くのアプリケーションで使われているため、学習したモデルからバイアスを考慮・緩和する必要性が続いている。 フェアラーニングアルゴリズムの開発作業のほとんどは、オフライン設定に重点を置いている。 しかし、多くの現実世界のアプリケーションではデータはオンライン形式で処理されなければならない。 さらに、現実的な応用では、正確さと公平さは考慮する必要があるが、現在の手法は、公平性を達成するために、非自明な相互作用を持つ複数のハイパーパラメータを持つことが多い。 本稿では,オンライン環境の進化というより困難な文脈において,公平な意思決定のための柔軟なアンサンブルアルゴリズムを提案する。 このアルゴリズムはFARF(Fair and Adaptive Random Forests)と呼ばれ、オンラインコンポーネント分類器を使用して現在の分布に従ってそれらを更新する。 実世界の判別データストリームの実験は、farfの有用性を示している。

As Artificial Intelligence (AI) is used in more applications, the need to consider and mitigate biases from the learned models has followed. Most works in developing fair learning algorithms focus on the offline setting. However, in many real-world applications data comes in an online fashion and needs to be processed on the fly. Moreover, in practical application, there is a trade-off between accuracy and fairness that needs to be accounted for, but current methods often have multiple hyperparameters with non-trivial interaction to achieve fairness. In this paper, we propose a flexible ensemble algorithm for fair decision-making in the more challenging context of evolving online settings. This algorithm, called FARF (Fair and Adaptive Random Forests), is based on using online component classifiers and updating them according to the current distribution, that also accounts for fairness and a single hyperparameters that alters fairness-accuracy balance. Experiments on real-world discriminated data streams demonstrate the utility of FARF.
翻訳日:2021-08-18 23:12:35 公開日:2021-08-17
# (参考訳) 広いベースラインを持つ極小光場に対する動的補間学習 [全文訳有]

Learning Dynamic Interpolation for Extremely Sparse Light Fields with Wide Baselines ( http://arxiv.org/abs/2108.07408v1 )

ライセンス: CC BY 4.0
Mantang Guo, Jing Jin, Hui Liu, Junhui Hou(参考訳) 本稿では,スライスサンプリングされた物体をベースラインとする密集光場(lf)再構成の問題に対処し,よく使われる幾何変形操作を置き換えるための学習可能なモデル,すなわち動的補間を提案する。 具体的には、入力ビュー間の幾何学的関係を推定することにより、まず、隣接画素を入力ビューから補間するための重みを動的に学習し、新規ビューの各画素を独立に合成する軽量ニューラルネットワークを構築する。 幾何ウォーピング操作で用いられる固定重みとコンテンツ非依存重みとは対照的に、学習された補間重みは、ソースと新規ビューの対応を暗黙的に取り込み、異なる画像コンテンツ情報に適応させる。 そして、幾何学に基づく空間精錬モジュールを用いて、各新規ビューの独立に合成された画素間の空間的相関を入力ビューのそれを参照して復元する。 また,不均質指向のLF構造損失により,新しい視点間の角度相関を制約する。 広いベースラインを持つLFデータセットの実験結果から、再構成されたLFはPSNR/SSIMよりもはるかに高い精度を実現し、最先端の手法よりもLFパララックス構造を保存できることが示されている。 ソースコードはhttps://github.com/M antangGuo/DI4SLFで公開されている。

In this paper, we tackle the problem of dense light field (LF) reconstruction from sparsely-sampled ones with wide baselines and propose a learnable model, namely dynamic interpolation, to replace the commonly-used geometry warping operation. Specifically, with the estimated geometric relation between input views, we first construct a lightweight neural network to dynamically learn weights for interpolating neighbouring pixels from input views to synthesize each pixel of novel views independently. In contrast to the fixed and content-independent weights employed in the geometry warping operation, the learned interpolation weights implicitly incorporate the correspondences between the source and novel views and adapt to different image content information. Then, we recover the spatial correlation between the independently synthesized pixels of each novel view by referring to that of input views using a geometry-based spatial refinement module. We also constrain the angular correlation between the novel views through a disparity-oriented LF structure loss. Experimental results on LF datasets with wide baselines show that the reconstructed LFs achieve much higher PSNR/SSIM and preserve the LF parallax structure better than state-of-the-art methods. The source code is publicly available at https://github.com/M antangGuo/DI4SLF.
翻訳日:2021-08-18 23:02:11 公開日:2021-08-17
# (参考訳) ランダム座標降下の安定性と一般化 [全文訳有]

Stability and Generalization for Randomized Coordinate Descent ( http://arxiv.org/abs/2108.07414v1 )

ライセンス: CC BY 4.0
Puyu Wang, Liang Wu, Yunwen Lei(参考訳) ランダム化座標降下法(Randomized coordinate descent, RCD)は、様々な機械学習問題の解法において広く用いられる最適化アルゴリズムであり、収束挙動に関する多くの理論的解析を動機付けている。 比較として、RCDによって訓練されたモデルがどのように例をテストするかは研究されていない。 本稿では,アルゴリズム安定性の強力なツールを用いて,rcdの一般化解析を初期化する。 我々は、凸と強凸の両方の目的に対してRCDの引数安定性境界を確立し、そこから推定と最適化のトレードオフをアルゴリズムの早期停止方法を示すことによって最適な一般化境界を開発する。 解析の結果,rcdは確率勾配降下に比べて安定性が良好であった。

Randomized coordinate descent (RCD) is a popular optimization algorithm with wide applications in solving various machine learning problems, which motivates a lot of theoretical analysis on its convergence behavior. As a comparison, there is no work studying how the models trained by RCD would generalize to test examples. In this paper, we initialize the generalization analysis of RCD by leveraging the powerful tool of algorithmic stability. We establish argument stability bounds of RCD for both convex and strongly convex objectives, from which we develop optimal generalization bounds by showing how to early-stop the algorithm to tradeoff the estimation and optimization. Our analysis shows that RCD enjoys better stability as compared to stochastic gradient descent.
翻訳日:2021-08-18 22:48:07 公開日:2021-08-17
# (参考訳) 社会的影響は多様な地域傾向の形成につながる [全文訳有]

Social influence leads to the formation of diverse local trends ( http://arxiv.org/abs/2108.07437v1 )

ライセンス: CC BY 4.0
Ziv Epstein, Matthew Groh, Abhimanyu Dubey, Alex "Sandy" Pentland(参考訳) ディジタルプラットフォームのビジュアルデザインは、ユーザの行動と結果の環境にどのように影響しますか? コンテンツに社会的信号を導入することは、その成功の不平等と予測不可能の両方を増大させるが、音楽聴取の文脈でしか示されていない。 本研究は,salganikらによる音楽ラボ実験を再適応させることにより,社会的影響がメディア人気に与える影響をさらに検証するために,アルゴリズム生成画像の文脈に拡張する。 参加者がAI生成したハイブリッド動物を発見してキュレートするデジタルプラットフォーム上では、参加者の行動の知識と情報の視覚的提示の両方をランダムに割り当てる。 われわれは、Music Labの発見を画像の文脈で再現することに成功し、社会的影響が予測不可能な勝者獲得市場へと繋がった。 しかし、社会的影響は、現在の状況から逸脱し、最終的にはより多様な地域文化のトレンドの出現に繋がる可能性もある。 これらの結果がプラットフォーム設計者や動物保護活動に与える影響について論じる。

How does the visual design of digital platforms impact user behavior and the resulting environment? A body of work suggests that introducing social signals to content can increase both the inequality and unpredictability of its success, but has only been shown in the context of music listening. To further examine the effect of social influence on media popularity, we extend this research to the context of algorithmically-gene rated images by re-adapting Salganik et al's Music Lab experiment. On a digital platform where participants discover and curate AI-generated hybrid animals, we randomly assign both the knowledge of other participants' behavior and the visual presentation of the information. We successfully replicate the Music Lab's findings in the context of images, whereby social influence leads to an unpredictable winner-take-all market. However, we also find that social influence can lead to the emergence of local cultural trends that diverge from the status quo and are ultimately more diverse. We discuss the implications of these results for platform designers and animal conservation efforts.
翻訳日:2021-08-18 21:50:22 公開日:2021-08-17
# (参考訳) 秘密共有とランダム置換によるセキュアかつ実践的な機械学習を目指して [全文訳有]

Towards Secure and Practical Machine Learning via Secret Sharing and Random Permutation ( http://arxiv.org/abs/2108.07463v1 )

ライセンス: CC BY 4.0
Fei Zheng, Chaochao Chen, Xiaolin Zheng(参考訳) プライバシー保護の需要が高まる中、プライバシー保護機械学習は学術と産業の両方で注目を集めている。 しかし、既存のほとんどの手法は実用上限界がある。 一方、ほとんどの暗号手法は安全を証明できるが、それらは重い計算と通信をもたらす。 一方で、比較的効率的なプライベートメソッド(フェデレーション学習やスプリット学習など)のセキュリティには、証明不能な安全性が疑問視されている。 従来のプライバシ保存機械学習の研究に触発されて、ランダムな置換と算術的な秘密の共有を組み合わせた、プライバシ保存機械学習フレームワークを構築しました。 本手法は,要素関数計算のコストを削減するため,既存の暗号手法よりも効率がよい。 さらに,プライバシリークの指標として距離相関を採用することにより,従来の非提供型セキュア手法よりも安全性が高いことを示す。 全体として、我々の提案はセキュリティと効率のバランスが良い。 実験結果から,本手法は,最先端の暗号手法に比べて最大6倍高速で,ネットワークトラフィックを最大85%削減するだけでなく,未証明のセキュア手法に比べて,トレーニングプロセス中のプライバシを低くすることがわかった。

With the increasing demands for privacy protection, privacy-preserving machine learning has been drawing much attention in both academia and industry. However, most existing methods have their limitations in practical applications. On the one hand, although most cryptographic methods are provable secure, they bring heavy computation and communication. On the other hand, the security of many relatively efficient private methods (e.g., federated learning and split learning) is being questioned, since they are non-provable secure. Inspired by previous work on privacy-preserving machine learning, we build a privacy-preserving machine learning framework by combining random permutation and arithmetic secret sharing via our compute-after-permut ation technique. Since our method reduces the cost for element-wise function computation, it is more efficient than existing cryptographic methods. Moreover, by adopting distance correlation as a metric for privacy leakage, we demonstrate that our method is more secure than previous non-provable secure methods. Overall, our proposal achieves a good balance between security and efficiency. Experimental results show that our method not only is up to 6x faster and reduces up to 85% network traffic compared with state-of-the-art cryptographic methods, but also leaks less privacy during the training process compared with non-provable secure methods.
翻訳日:2021-08-18 21:30:26 公開日:2021-08-17
# (参考訳) イメージ分類におけるラベリングコスト削減に向けた自己指導型学習のベースラインの検討 [全文訳有]

Investigating a Baseline Of Self Supervised Learning Towards Reducing Labeling Costs For Image Classification ( http://arxiv.org/abs/2108.07464v1 )

ライセンス: CC BY 4.0
Hilal AlQuabeh, Ameera Bawazeer, Abdulateef Alhashmi(参考訳) 教師付き学習におけるデータラベリングは、いくつかの条件において高価で実現不可能なツールであると考えられている。 ラベル付きデータが少ない場合の学習効率を改善するために,自己教師付き学習手法を提案するが,適切な結果を得るためにラベル付きデータのサイズに自信が欠如している。 本研究の目的は,追加ラベルによるトレーニングと比較して,モデルが評価できるラベル付きデータの比率をベースラインにすることにある。 この研究は、kaggle.comの cat-vs-dogs データセット Mnist と Fashion-Mnist を実装し、オリジナルのデータセットにランダムな回転強化を実装することで自己教師付き学習タスクを調査する。 自己教師型学習におけるプリテキストプロセスの真の有効性を明らかにするために、元のデータセットをより小さなバッチに分割し、プリテキスト事前学習なしで各バッチで学習を繰り返す。 その結果, 自己教師付き学習における前文処理は, 通常の教師付き学習と比較して, 下流分類タスクの約15%の精度が向上することがわかった。

Data labeling in supervised learning is considered an expensive and infeasible tool in some conditions. The self-supervised learning method is proposed to tackle the learning effectiveness with fewer labeled data, however, there is a lack of confidence in the size of labeled data needed to achieve adequate results. This study aims to draw a baseline on the proportion of the labeled data that models can appreciate to yield competent accuracy when compared to training with additional labels. The study implements the kaggle.com' cats-vs-dogs dataset, Mnist and Fashion-Mnist to investigate the self-supervised learning task by implementing random rotations augmentation on the original datasets. To reveal the true effectiveness of the pretext process in self-supervised learning, the original dataset is divided into smaller batches, and learning is repeated on each batch with and without the pretext pre-training. Results show that the pretext process in the self-supervised learning improves the accuracy around 15% in the downstream classification task when compared to the plain supervised learning.
翻訳日:2021-08-18 20:57:55 公開日:2021-08-17
# (参考訳) RRLFSOR:グラフ畳み込みネットワークの効率的な自己改善学習戦略 [全文訳有]

RRLFSOR: An Efficient Self-Supervised Learning Strategy of Graph Convolutional Networks ( http://arxiv.org/abs/2108.07481v1 )

ライセンス: CC BY-SA 4.0
Feng Sun, Ajith Kumar V, Guanci Yang, Qikui Zhu, Yiyun Zhang, Ansi Zhang, Dhruv Makwana(参考訳) 本稿では,gcnsの性能と自己学習能力をさらに向上させるため,一領域に一定のステップ(rrlfsor)を持つランダム削除リンクと呼ばれるgcnsの効率的な自己教師付き学習戦略を提案する。 さらに,あるブロック(RRLFSSB)における固定ステップのリンクをランダムに除去するGCNの自己教師型学習戦略を提案し,隣接ノードに選択されたステップがないという問題を解決する。 トランスダクティブリンク予測タスクの実験は、我々の戦略が3つのベンチマークデータセットの精度において、ベースラインモデルを最大21.34%上回っていることを示している。

To further improve the performance and the self-learning ability of GCNs, in this paper, we propose an efficient self-supervised learning strategy of GCNs, named randomly removed links with a fixed step at one region (RRLFSOR). In addition, we also propose another self-supervised learning strategy of GCNs, named randomly removing links with a fixed step at some blocks (RRLFSSB), to solve the problem that adjacent nodes have no selected step. Experiments on transductive link prediction tasks show that our strategies outperform the baseline models consistently by up to 21.34% in terms of accuracy on three benchmark datasets.
翻訳日:2021-08-18 20:48:14 公開日:2021-08-17
# (参考訳) CaT:カテゴリー移動による物体検出の弱さ [全文訳有]

CaT: Weakly Supervised Object Detection with Category Transfer ( http://arxiv.org/abs/2108.07487v1 )

ライセンス: CC BY 4.0
Tianyue Cao, Lianyu Du, Xiaoyun Zhang, Siheng Chen, Ya Zhang, Yan-Feng Wang(参考訳) 完全教師付き物体検出と弱い教師付き物体検出との間には大きなギャップが存在する。 このギャップを狭めるために、追加の完全教師付きデータセットからの知識転送を検討する方法もある。 しかし、これらの手法は、完全な教師付きデータセットにおける識別カテゴリー情報を十分に活用していないため、低いmAPを引き起こす。 そこで本研究では,弱教師付きオブジェクト検出のためのカテゴリ転送フレームワークを提案する。 直観は、完全な教師付きデータセットにおいて、視覚識別的および意味的に相関するカテゴリ情報の両方を十分に活用し、弱い教師付き検出器のオブジェクト分類能力を高めることである。 重複するカテゴリ転送を扱うために,2つのデータセット間の共通カテゴリ情報を収集し,ドメインギャップを埋める2つの平均教師を提案する。 非重複カテゴリ転送を扱うために,相関カテゴリ間の意味的特徴の集約を促進するセマンティックグラフ畳み込みネットワークを提案する。 実験はPascal VOC 2007で実施され、ターゲットは弱教師付きデータセット、COCOはソース完全教師付きデータセットである。 当社のカテゴリ転送フレームワークは、63.5%のマップと80.3%のコロケートを達成し、2つのデータセット間で5つの重複するカテゴリを実現しています。 コードはhttps://github.com/M ediaBrain-SJTU/CaT.c omにある。

A large gap exists between fully-supervised object detection and weakly-supervised object detection. To narrow this gap, some methods consider knowledge transfer from additional fully-supervised dataset. But these methods do not fully exploit discriminative category information in the fully-supervised dataset, thus causing low mAP. To solve this issue, we propose a novel category transfer framework for weakly supervised object detection. The intuition is to fully leverage both visually-discriminat ive and semantically-correla ted category information in the fully-supervised dataset to enhance the object-classificatio n ability of a weakly-supervised detector. To handle overlapping category transfer, we propose a double-supervision mean teacher to gather common category information and bridge the domain gap between two datasets. To handle non-overlapping category transfer, we propose a semantic graph convolutional network to promote the aggregation of semantic features between correlated categories. Experiments are conducted with Pascal VOC 2007 as the target weakly-supervised dataset and COCO as the source fully-supervised dataset. Our category transfer framework achieves 63.5% mAP and 80.3% CorLoc with 5 overlapping categories between two datasets, which outperforms the state-of-the-art methods. Codes are avaliable at https://github.com/M ediaBrain-SJTU/CaT.
翻訳日:2021-08-18 20:36:03 公開日:2021-08-17
# (参考訳) トゥルクパラフレーズコーパスの注釈ガイドライン [全文訳有]

Annotation Guidelines for the Turku Paraphrase Corpus ( http://arxiv.org/abs/2108.07499v1 )

ライセンス: CC BY 4.0
Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri Skantsi, Jemina Kilpel\"ainen, Hanna-Mari Kupari, Aurora Piirto, Jenna Saarni, Maija Sev\'on, Otto Tarkka(参考訳) 本論文は、turuparaphraseコーパスの構築に使用されるアノテーションガイドラインについて述べる。 これらのガイドラインはコーパスアノテーションとともに開発され、アノテーション作業中にガイドラインを定期的に修正および拡張した。 私たちのパラフレーズアノテーションスキームはベーススケール1-4を使用し、ラベル1と2は負の候補(パラフレーズではない)に使われ、ラベル3と4は少なくとも与えられた文脈で与えられたパラフレーズである。 基本ラベリングに加えて、2つの正のラベル内の異なる種類のパラフラスを分類するための追加のサブカテゴリ(flag)が強化され、より細かいパラフラス分類に適したアノテーションスキームとなる。 このアノテーションスキームは、10万以上のフィンランド語のパラフレーズ対に注釈をつけるのに使われる。

This document describes the annotation guidelines used to construct the Turku Paraphrase Corpus. These guidelines were developed together with the corpus annotation, revising and extending the guidelines regularly during the annotation work. Our paraphrase annotation scheme uses the base scale 1-4, where labels 1 and 2 are used for negative candidates (not paraphrases), while labels 3 and 4 are paraphrases at least in the given context if not everywhere. In addition to base labeling, the scheme is enriched with additional subcategories (flags) for categorizing different types of paraphrases inside the two positive labels, making the annotation scheme suitable for more fine-grained paraphrase categorization. The annotation scheme is used to annotate over 100,000 Finnish paraphrase pairs.
翻訳日:2021-08-18 20:19:30 公開日:2021-08-17
# (参考訳) MOI-Mixer:シーケンスレコメンデーションにおけるMLP-Mixerの改良 [全文訳有]

MOI-Mixer: Improving MLP-Mixer with Multi Order Interactions in Sequential Recommendation ( http://arxiv.org/abs/2108.07505v1 )

ライセンス: CC BY 4.0
Hojoon Lee, Dongyoon Hwang, Sunghwan Hong, Changyeon Kim, Seungryong Kim, Jaegul Choo(参考訳) シーケンシャルなレコメンデーションシステムは、ユーザの短期的および長期的関心を正確に捉えることに依存している。 Transformerベースのモデルはシーケンシャルレコメンデーションタスクで最先端のパフォーマンスを達成したが、一般に2次記憶と時間的複雑さが要求されるため、ユーザの長期的関心を抽出することは困難である。 一方、線形メモリと時間複雑性で有名なMLPベースのモデルでは、様々なタスクにおいてTransformerと比較して競合する結果が示されている。 大量のユーザの行動履歴が利用可能であることを考えると、MLPベースのモデルの線形メモリと時間の複雑さは、シーケンシャルなレコメンデーションタスクで探索する上で有望な代替手段となる。 この目的のために, 逐次レコメンデーションでMLPベースのモデルを採用したが, 計算上の利点にもかかわらず, MLPベースの手法がTransformerよりも低い性能が得られることを一貫して観察した。 実験の結果,MLP層に高次相互作用を導入することで,このような性能ギャップが軽減されることがわかった。 そこで本研究では,MLP層のメモリと時間的複雑さを維持しつつ,入力内の相互作用の任意の順序を表現できるマルチオーダーインタラクション(MOI)層を提案する。 mlp層をmoi層に置き換えることで、mlpベースのモデルの計算上の利点を保ちながら、トランスフォーマーベースのモデルと同等の性能を達成できた。

Successful sequential recommendation systems rely on accurately capturing the user's short-term and long-term interest. Although Transformer-based models achieved state-of-the-art performance in the sequential recommendation task, they generally require quadratic memory and time complexity to the sequence length, making it difficult to extract the long-term interest of users. On the other hand, Multi-Layer Perceptrons (MLP)-based models, renowned for their linear memory and time complexity, have recently shown competitive results compared to Transformer in various tasks. Given the availability of a massive amount of the user's behavior history, the linear memory and time complexity of MLP-based models make them a promising alternative to explore in the sequential recommendation task. To this end, we adopted MLP-based models in sequential recommendation but consistently observed that MLP-based methods obtain lower performance than those of Transformer despite their computational benefits. From experiments, we observed that introducing explicit high-order interactions to MLP layers mitigates such performance gap. In response, we propose the Multi-Order Interaction (MOI) layer, which is capable of expressing an arbitrary order of interactions within the inputs while maintaining the memory and time complexity of the MLP layer. By replacing the MLP layer with the MOI layer, our model was able to achieve comparable performance with Transformer-based models while retaining the MLP-based models' computational benefits.
翻訳日:2021-08-18 20:04:58 公開日:2021-08-17
# (参考訳) PR-RRN:Pairwise-Regu larized Residual-Recursive Networks for Non-rigid Structure-from-Motio n

PR-RRN: Pairwise-Regularized Residual-Recursive Networks for Non-rigid Structure-from-Motio n ( http://arxiv.org/abs/2108.07506v1 )

ライセンス: CC BY 4.0
Haitian Zeng, Yuchao Dai, Xin Yu, Xiaohan Wang, Yi Yang(参考訳) 我々は,NRSfM(Non-rigid Structure-from-Motio n)のためのニューラルネットワークに基づく新しい手法であるPR-RRNを提案する。 PR-RRNはResidual-Recursive Networks (RRN)と2つの追加正規化損失からなる。 RRNは、新しい残留再帰構造を持つ2次元キーポイントから3次元形状とカメラを効果的に回収するように設計されている。 NRSfMは制約の少ない問題であるため、再編成をさらに規則化するための2つの新しいペアワイズ正規化を提案する。 剛性に基づくPairwise Contrastive Lossは、高剛性対のフレームの表現を低剛性対よりも高い類似性を促進することによって、形状表現を規則化する。 対の剛性を測定するために最小特異値比を提案する。 ペアワイズ一貫性損失(Pairwise Consistency Loss)は、推定形状とカメラがペア間で交換されるときに、一貫した再構築を強制する。 提案手法は,CMU MOCAPとPASCAL3D+データセットの最先端性能を実現する。

We propose PR-RRN, a novel neural-network based method for Non-rigid Structure-from-Motio n (NRSfM). PR-RRN consists of Residual-Recursive Networks (RRN) and two extra regularization losses. RRN is designed to effectively recover 3D shape and camera from 2D keypoints with novel residual-recursive structure. As NRSfM is a highly under-constrained problem, we propose two new pairwise regularization to further regularize the reconstruction. The Rigidity-based Pairwise Contrastive Loss regularizes the shape representation by encouraging higher similarity between the representations of high-rigidity pairs of frames than low-rigidity pairs. We propose minimum singular-value ratio to measure the pairwise rigidity. The Pairwise Consistency Loss enforces the reconstruction to be consistent when the estimated shapes and cameras are exchanged between pairs. Our approach achieves state-of-the-art performance on CMU MOCAP and PASCAL3D+ dataset.
翻訳日:2021-08-18 19:49:47 公開日:2021-08-17
# (参考訳) 点集合としての多角形分解におけるトランスフォーマーの研究 [全文訳有]

Investigating transformers in the decomposition of polygonal shapes as point collections ( http://arxiv.org/abs/2108.07533v1 )

ライセンス: CC BY 4.0
Andrea Alfieri, Yancong Lin and Jan C. van Gemert(参考訳) トランスフォーマーは、2つのアプローチで予測を生成することができる: 1. 前の要素に各シーケンス要素を条件付けすることで自動回帰する。 NLPにおけるシーケンシャルタスクにおけるこの違いについて、主に研究されているが、視覚集合予測タスクにおける自己回帰と並列予測の違い、特に多角形は、建物や航空機の障害物など、さまざまな種類の物体を代表しているため、画像中の多角形について研究している。 これは、多角形が点のカーニリティによって構成できるため、ディープラーニングアーキテクチャにとって困難である。 変圧器の自然順序の重要性を実証し, 複素多角形を自己回帰的に点の集合に分解する利点を示す。

Transformers can generate predictions in two approaches: 1. auto-regressively by conditioning each sequence element on the previous ones, or 2. directly produce an output sequences in parallel. While research has mostly explored upon this difference on sequential tasks in NLP, we study the difference between auto-regressive and parallel prediction on visual set prediction tasks, and in particular on polygonal shapes in images because polygons are representative of numerous types of objects, such as buildings or obstacles for aerial vehicles. This is challenging for deep learning architectures as a polygon can consist of a varying carnality of points. We provide evidence on the importance of natural orders for Transformers, and show the benefit of decomposing complex polygons into collections of points in an auto-regressive manner.
翻訳日:2021-08-18 19:48:52 公開日:2021-08-17
# (参考訳) 柔軟なスプラインベースによる滑らかでスパースな神経受容野の推定 [全文訳有]

Estimating smooth and sparse neural receptive fields with a flexible spline basis ( http://arxiv.org/abs/2108.07537v1 )

ライセンス: CC BY 4.0
Ziwei Huang, Yanli Ran, Jonathan Oesterle, Thomas Euler, Philipp Berens(参考訳) 時空間受容野(STRF)モデルは感覚ニューロンによって実行される計算を近似するために頻繁に使用される。 通常、そのようなSTRFは滑らかでスパースであると仮定される。 経験ベイズに基づくstrf推定の現在の最先端手法は、感覚神経科学で見られるように、高次元環境では計算効率が良くないことが多い。 そこで本研究では, 自然立方晶スプラインという, 所望の性質を持つ基底関数の集合を選択することにより, strf 推定のための事前知識をエンコードした。 本手法は計算効率が高く,既存モデルにも容易に適用可能である。 シミュレーションデータと実験データでスプラインベース法と非スプライン法の比較を行い,スプラインベース法が非スプラインバージョンを一貫して上回っていることを示した。

Spatio-temporal receptive field (STRF) models are frequently used to approximate the computation implemented by a sensory neuron. Typically, such STRFs are assumed to be smooth and sparse. Current state-of-the-art approaches for estimating STRFs based on empirical Bayes are often not computationally efficient in high-dimensional settings, as encountered in sensory neuroscience. Here we pursued an alternative approach and encode prior knowledge for estimation of STRFs by choosing a set of basis functions with the desired properties: natural cubic splines. Our method is computationally efficient and can be easily applied to a wide range of existing models. We compared the performance of spline-based methods to non-spline ones on simulated and experimental data, showing that spline-based methods consistently outperform the non-spline versions.
翻訳日:2021-08-18 19:36:56 公開日:2021-08-17
# (参考訳) KCNet: 予測と分類のためのランダムな二重み付き昆虫にインスパイアされたシングルハイデン・レイアニューラルネットワーク [全文訳有]

KCNet: An Insect-Inspired Single-Hidden-Layer Neural Network with Randomized Binary Weights for Prediction and Classification Tasks ( http://arxiv.org/abs/2108.07554v1 )

ライセンス: CC BY-SA 4.0
Jinyung Hong, Theodore P. Pavlic(参考訳) ショウジョウバエは、嗅覚学習を研究するためのモデルシステムとして確立されており、電気ショックや砂糖の報酬と容易に関連づけられるようになる。 嗅覚学習に関与していると思われる昆虫の脳のメカニズムは、比較的浅い神経細胞構造を形成する。 嗅覚入力は脳のアンテナローブ(AL)によって受信され、糸球体と呼ばれる50個のサブユニットにまたがるそれぞれの匂いの混合物を符号化する。 これらの糸球体はそれぞれ、キノコ体(MB)と呼ばれる脳の領域のケニオン細胞(KCs)と呼ばれる2000個程度の特徴ベクトルの成分を投影する。 臭気に対するフライ応答は、MBから高次表現をデコードする小さな下流神経管によって生成される。 研究により、糸球体-kc接続には認識可能なパターン(つまり特定の高次表現)が存在しないことが示されている。 このアーキテクチャからの洞察を生かして,入力層と隠蔽層の間の疎度,ランダム化,バイナリ重みと,隠蔽層と出力層の間の重みを解析的に学習した単一隠れ層ニューラルネットワークKCNetを提案する。 さらに,より効率的な入力集合を探索することにより,KCNetが構造限界を超えて性能を向上させる動的最適化アルゴリズムを提案する。 臭気の知覚特性を予測する臭気知覚タスクについて、KCNetはXGBoostのような既存のデータ駆動手法よりも優れていることを示す。 画像分類タスクでは、KCNetは、データ拡張メソッドや畳み込みレイヤなしで、ベンチマークデータセット(MNIST、Fashion-MNIST、EMNIST)で適切なパフォーマンスを達成し、特に高速な実行時間を示している。 したがって、昆虫脳にインスパイアされたニューラルネットワークは、経済性も性能も良好である。

Fruit flies are established model systems for studying olfactory learning as they will readily learn to associate odors with both electric shock or sugar rewards. The mechanisms of the insect brain apparently responsible for odor learning form a relatively shallow neuronal architecture. Olfactory inputs are received by the antennal lobe (AL) of the brain, which produces an encoding of each odor mixture across ~50 sub-units known as glomeruli. Each of these glomeruli then project its component of this feature vector to several of ~2000 so-called Kenyon Cells (KCs) in a region of the brain known as the mushroom body (MB). Fly responses to odors are generated by small downstream neuropils that decode the higher-order representation from the MB. Research has shown that there is no recognizable pattern in the glomeruli--KC connections (and thus the particular higher-order representations); they are akin to fingerprints~-- even isogenic flies have different projections. Leveraging insights from this architecture, we propose KCNet, a single-hidden-layer neural network that contains sparse, randomized, binary weights between the input layer and the hidden layer and analytically learned weights between the hidden layer and the output layer. Furthermore, we also propose a dynamic optimization algorithm that enables the KCNet to increase performance beyond its structural limits by searching a more efficient set of inputs. For odorant-perception tasks that predict perceptual properties of an odorant, we show that KCNet outperforms existing data-driven approaches, such as XGBoost. For image-classification tasks, KCNet achieves reasonable performance on benchmark datasets (MNIST, Fashion-MNIST, and EMNIST) without any data-augmentation methods or convolutional layers and shows particularly fast running time. Thus, neural networks inspired by the insect brain can be both economical and perform well.
翻訳日:2021-08-18 19:30:48 公開日:2021-08-17
# (参考訳) 系列ラベル解析におけるすべての線形化が等しくデータハングリーであるとは限らない [全文訳有]

Not All Linearizations Are Equally Data-Hungry in Sequence Labeling Parsing ( http://arxiv.org/abs/2108.07556v1 )

ライセンス: CC BY 4.0
Alberto Mu\~noz-Ortiz, Michalina Strzyz, David Vilares(参考訳) i) 見出し選択問題、(ii) トークンアークの表現を括弧列として見つけること、(iii) トランジッションベースのパーサの部分遷移シーケンスを単語に関連付けること。 しかし、これらの線形化が低リソース設定でどのように振る舞うかについては、ほとんど理解されていない。 ここでは、データ効率をまず研究し、多種多様なリッチソースツリーバンクからデータ制限された設定をシミュレートする。 第二に、そのような違いが本当に低リソースのセットアップに現れるかどうかをテストする。 その結果、ヘッドセレクション符号化はよりデータ効率が高く、理想的な(ゴールド)フレームワークでは性能が向上するが、実際の低リソース構成に類似した実行時のブラケットフォーマットでは、その利点は大きく失われることがわかった。

Different linearizations have been proposed to cast dependency parsing as sequence labeling and solve the task as: (i) a head selection problem, (ii) finding a representation of the token arcs as bracket strings, or (iii) associating partial transition sequences of a transition-based parser to words. Yet, there is little understanding about how these linearizations behave in low-resource setups. Here, we first study their data efficiency, simulating data-restricted setups from a diverse set of rich-resource treebanks. Second, we test whether such differences manifest in truly low-resource setups. The results show that head selection encodings are more data-efficient and perform better in an ideal (gold) framework, but that such advantage greatly vanishes in favour of bracketing formats when the running setup resembles a real-world low-resource configuration.
翻訳日:2021-08-18 18:51:59 公開日:2021-08-17
# (参考訳) ACM-CR:Citation Recommendationのための手動アノテーションによるテストコレクション [全文訳有]

ACM-CR: A Manually Annotated Test Collection for Citation Recommendation ( http://arxiv.org/abs/2108.07571v1 )

ライセンス: CC BY 4.0
Florian Boudin(参考訳) 引用レコメンデーションとは、研究者が特定の入力テキストに対して適切な引用を推奨することで引用する関連論文の検索を支援することを目的としている。 このタスクの既存のテストコレクションは、解析されたPDF文書から自動的に構築されるため、ノイズが多く信頼できない。 本稿では,引用レコメンデーションのための手動注釈付きテストコレクションの公開に向けて,現在進行中の取り組みについて述べる。 また,テストコレクションにおけるコンテンツベースベースラインモデルの有効性を評価するための一連の実験を行い,今後の成果について報告する。 実験を再現するためのテストコレクションとコードは、https://github.com/b oudinfl/acm-crで入手できます。

Citation recommendation is intended to assist researchers in the process of searching for relevant papers to cite by recommending appropriate citations for a given input text. Existing test collections for this task are noisy and unreliable since they are built automatically from parsed PDF papers. In this paper, we present our ongoing effort at creating a publicly available, manually annotated test collection for citation recommendation. We also conduct a series of experiments to evaluate the effectiveness of content-based baseline models on the test collection, providing results for future work to improve upon. Our test collection and code to replicate experiments are available at https://github.com/b oudinfl/acm-cr
翻訳日:2021-08-18 18:19:31 公開日:2021-08-17
# (参考訳) 一般AIへの生態系の道 [全文訳有]

The Ecosystem Path to General AI ( http://arxiv.org/abs/2108.07578v1 )

ライセンス: CC BY 4.0
Claes Stranneg{\aa}rd, Niklas Engsner, Pietro Ferrari, Hans Glimmerfors, Marcus Hilding S\"odergren, Tobias Karlsson, Birger Kleve and Victor Skoglund(参考訳) まず、エコシステムシミュレータと汎用AIの関連性について議論する。 次に,ゲームエンジン・ユニティを基盤として,山や湖などの生物,動物や植物などの生物を含む生態系を運用する,オープンソースエコシステムシミュレータecotwinを提案する。 動物認知は、3つの異なるネットワークを統合することでモデル化される: (i) ハードワイヤ反射のための \textit{reflex network}; (ii) 酸素、水、エネルギー、嗅覚などの感覚データをスカラー幸福値にマッピングする \textit{happiness network}; (iii) アクションを選択するための \textit{policy network}。 ポリシーネットワークは強化学習(RL)を用いて訓練され、報酬信号は1回から次のステップまでの幸福差として定義される。 全ての生物は性的にも無性的にも繁殖する能力があり、重要な資源がなくなったら死ぬ。 また,ecotwinによる3つの研究結果から,ハードワイヤを使わずにモデルに自然現象が現れることを報告した。 まず,オオカミ,シカ,草による地球生態系の研究を行い,ロトカ・ボルテラ様式の個体群動態が出現する。 第二に, 植物プランクトン, カイコ脚類, クリル類を用いた海洋生態系の研究を行い, ダイル垂直移動行動が出現した。 第3に、RLと反射を結合する特定のエージェントが純粋なRLエージェントより優れる致死危険を含む生態系を研究する。

We start by discussing the link between ecosystem simulators and general AI. Then we present the open-source ecosystem simulator Ecotwin, which is based on the game engine Unity and operates on ecosystems containing inanimate objects like mountains and lakes, as well as organisms such as animals and plants. Animal cognition is modeled by integrating three separate networks: (i) a \textit{reflex network} for hard-wired reflexes; (ii) a \textit{happiness network} that maps sensory data such as oxygen, water, energy, and smells, to a scalar happiness value; and (iii) a \textit{policy network} for selecting actions. The policy network is trained with reinforcement learning (RL), where the reward signal is defined as the happiness difference from one time step to the next. All organisms are capable of either sexual or asexual reproduction, and they die if they run out of critical resources. We report results from three studies with Ecotwin, in which natural phenomena emerge in the models without being hardwired. First, we study a terrestrial ecosystem with wolves, deer, and grass, in which a Lotka-Volterra style population dynamics emerges. Second, we study a marine ecosystem with phytoplankton, copepods, and krill, in which a diel vertical migration behavior emerges. Third, we study an ecosystem involving lethal dangers, in which certain agents that combine RL with reflexes outperform pure RL agents.
翻訳日:2021-08-18 18:15:19 公開日:2021-08-17
# (参考訳) 自己教師付き事前訓練と制御強化によるuav画像のレア野生生物認識の改善 [全文訳有]

Self-Supervised Pretraining and Controlled Augmentation Improve Rare Wildlife Recognition in UAV Images ( http://arxiv.org/abs/2108.07582v1 )

ライセンス: CC BY 4.0
Xiaochen Zheng and Benjamin Kellenberger and Rui Gong and Irena Hajnsek and Devis Tuia(参考訳) 航空画像による動物の自動国勢調査は野生生物保護にとって重要な要素である。 最近のモデルは一般的にディープラーニングに基づいており、大量のトレーニングデータを必要とする。 その希少さと極小さのため、空中画像中の動物に注釈をつけることは非常に面倒なプロセスである。 本稿では,自己指導型事前学習に頼って,必要なトレーニングデータの量を削減する手法を提案する。 具体的には,モメンタムコントラスト (moco) やクロスレベルインスタンスグループ識別 (cld) といった近年のコントラスト学習手法を組み合わせて,ラベルを必要とせず,航空画像にモデルを条件付けする手法について検討した。 MoCo, CLD, および幾何拡張の組み合わせは, ImageNet 上で事前学習された従来のモデルよりも大きなマージンで優れていることを示す。 重要な点として,訓練動物数を10%に減らしても良好な結果が得られ,その時点でのベストモデルスコアは,同じ精度でベースラインのリコールの2倍になる。 これにより、非常に困難な設定で精度の高いモデルをトレーニングしながら、必要なアノテーションの数を分数に減らすことができる。

Automated animal censuses with aerial imagery are a vital ingredient towards wildlife conservation. Recent models are generally based on deep learning and thus require vast amounts of training data. Due to their scarcity and minuscule size, annotating animals in aerial imagery is a highly tedious process. In this project, we present a methodology to reduce the amount of required training data by resorting to self-supervised pretraining. In detail, we examine a combination of recent contrastive learning methodologies like Momentum Contrast (MoCo) and Cross-Level Instance-Group Discrimination (CLD) to condition our model on the aerial images without the requirement for labels. We show that a combination of MoCo, CLD, and geometric augmentations outperforms conventional models pre-trained on ImageNet by a large margin. Crucially, our method still yields favorable results even if we reduce the number of training animals to just 10%, at which point our best model scores double the recall of the baseline at similar precision. This effectively allows reducing the number of required annotations to a fraction while still being able to train high-accuracy models in such highly challenging settings.
翻訳日:2021-08-18 18:06:35 公開日:2021-08-17
# (参考訳) MigrationsKB: マイグレーションに対する公的な態度の知識ベースとその要因 [全文訳有]

MigrationsKB: A Knowledge Base of Public Attitudes towards Migrations and their Driving Factors ( http://arxiv.org/abs/2108.07593v1 )

ライセンス: CC BY 4.0
Yiyi Chen, Harald Sack, Mehwish Alam(参考訳) ヨーロッパにおける移民のトレンドの高まりに伴い、Twitterなどのさまざまなプラットフォームを通じて、人々の意見を表現しやすくなっている。 したがって、オンラインの談話を理解することは世論を捉えるのに不可欠である。 本研究の目的は,社会の移動に対する態度を定量化するためのソーシャルメディアプラットフォームの分析と,これらの態度を引き起こすさまざまな要因の同定である。 移民のホストである欧州諸国の2013年からjul-2021までのツイートは、高度なトピックモデリング技術を用いて収集、処理、フィルタリングされる。 BERTベースのエンティティリンクと感情分析、注目ベースのヘイトスピーチ検出を行い、キュレートされたツイートに注釈をつける。 さらに、外部データベースは、移住に対する人々の否定的な態度を引き起こす潜在的社会的、経済的要因を特定するために使用される。 社会科学と計算機科学の学際的な分野の研究をさらに促進するために、成果を知識ベース(kb)、すなわち、移行に対する一般の態度や経済指標を考慮に入れるために既存のモデルを著しく拡張する移行skbに統合する。 このKBは、SPARQLエンドポイントを介してクエリ可能なFAIR原則を使用して公開されている。 データダンプはZenodoで利用可能です。

With the increasing trend in the topic of migration in Europe, the public is now more engaged in expressing their opinions through various platforms such as Twitter. Understanding the online discourses is therefore essential to capture the public opinion. The goal of this study is the analysis of social media platform to quantify public attitudes towards migrations and the identification of different factors causing these attitudes. The tweets spanning from 2013 to Jul-2021 in the European countries which are hosts to immigrants are collected, pre-processed, and filtered using advanced topic modeling technique. BERT-based entity linking and sentiment analysis, and attention-based hate speech detection are performed to annotate the curated tweets. Moreover, the external databases are used to identify the potential social and economic factors causing negative attitudes of the people about migration. To further promote research in the interdisciplinary fields of social science and computer science, the outcomes are integrated into a Knowledge Base (KB), i.e., MigrationsKB which significantly extends the existing models to take into account the public attitudes towards migrations and the economic indicators. This KB is made public using FAIR principles, which can be queried through SPARQL endpoint. Data dumps are made available on Zenodo.
翻訳日:2021-08-18 17:53:10 公開日:2021-08-17
# (参考訳) spectrai: スペクトルデータのためのディープラーニングフレームワーク [全文訳有]

spectrai: A deep learning framework for spectral data ( http://arxiv.org/abs/2108.07595v1 )

ライセンス: CC BY 4.0
Conor C. Horgan and Mads S. Bergholt(参考訳) ディープラーニングのコンピュータビジョン技術は、近年多くのイメージング領域で多くの成功を収めている。 しかしながら、スペクトルデータへのディープラーニングの適用は、拡張ルーチンの必要性、スペクトルデータのための特定のアーキテクチャ、重要なメモリ要件のため、依然として複雑なタスクである。 本稿では,スペクトルデータを用いたニューラルネットワークのトレーニングを容易にすることを目的とした,オープンソースのディープラーニングフレームワークであるspectrumiを提案する。 spectrumiは、多数のスペクトルデータの前処理と拡張方法、スペクトル(画像)デノイジング、スペクトル(画像)分類、スペクトル画像のセグメンテーション、スペクトル画像のスーパーレゾリューションを含むスペクトルデータのニューラルネットワークを提供する。 Spectraiにはコマンドラインとグラフィカルユーザインターフェース(GUI)の両方が含まれており、幅広いアプリケーションに対するモデルとハイパーパラメータの決定を通じてユーザを誘導するように設計されている。

Deep learning computer vision techniques have achieved many successes in recent years across numerous imaging domains. However, the application of deep learning to spectral data remains a complex task due to the need for augmentation routines, specific architectures for spectral data, and significant memory requirements. Here we present spectrai, an open-source deep learning framework designed to facilitate the training of neural networks on spectral data and enable comparison between different methods. Spectrai provides numerous built-in spectral data pre-processing and augmentation methods, neural networks for spectral data including spectral (image) denoising, spectral (image) classification, spectral image segmentation, and spectral image super-resolution. Spectrai includes both command line and graphical user interfaces (GUI) designed to guide users through model and hyperparameter decisions for a wide range of applications.
翻訳日:2021-08-18 17:35:00 公開日:2021-08-17
# (参考訳) 変圧器を用いた光電界画像超解像 [全文訳有]

Light Field Image Super-Resolution with Transformers ( http://arxiv.org/abs/2108.07597v1 )

ライセンス: CC BY 4.0
Zhengyu Liang, Yingqian Wang, Longguang Wang, Jungang Yang, Shilin Zhou(参考訳) light field (lf) image super- resolution (sr) は低解像度の画像から高解像度のlf画像を再構成することを目的としている。 CNNに基づく手法は、LF画像SRにおいて顕著な性能を達成しているが、4次元LFデータの非局所特性を完全にモデル化することはできない。 本稿では,lf画像srの簡易かつ効果的な変圧器ベース手法を提案する。 本手法では,異なるビュー間で補完情報を組み込むために角変換器を設計し,各サブアパーチャ画像内の局所的および長距離的依存関係をキャプチャする空間変換器を開発した。 提案した角変換器と空間変換器により、LFの有益な情報を十分に活用でき、SR性能が向上する。 広汎なアブレーション研究により角変換器と空間変換器の有効性を検証し、5つの公開LFデータセット上の最新の最先端手法と比較した。 本手法は,モデルサイズが小さく,計算コストが低く,優れたSR性能を実現する。

Light field (LF) image super-resolution (SR) aims at reconstructing high-resolution LF images from their low-resolution counterparts. Although CNN-based methods have achieved remarkable performance in LF image SR, these methods cannot fully model the non-local properties of the 4D LF data. In this paper, we propose a simple but effective Transformer-based method for LF image SR. In our method, an angular Transformer is designed to incorporate complementary information among different views, and a spatial Transformer is developed to capture both local and long-range dependencies within each sub-aperture image. With the proposed angular and spatial Transformers, the beneficial information in an LF can be fully exploited and the SR performance is boosted. We validate the effectiveness of our angular and spatial Transformers through extensive ablation studies, and compare our method to recent state-of-the-art methods on five public LF datasets. Our method achieves superior SR performance with a small model size and low computational cost.
翻訳日:2021-08-18 17:27:04 公開日:2021-08-17
# (参考訳) 分類器はいつ防衛すべきか--敵の事例に対する対策の理論的分析- [全文訳有]

When Should You Defend Your Classifier -- A Game-theoretical Analysis of Countermeasures against Adversarial Examples ( http://arxiv.org/abs/2108.07602v1 )

ライセンス: CC BY 4.0
Maximilian Samsinger, Florian Merkle, Pascal Sch\"ottle, Tomas Pevny(参考訳) 敵対的機械学習、すなわち、いわゆる敵対的な例に対する機械学習アルゴリズムの堅牢性を高めることは、現在確立された分野である。 しかし,非現実的なシナリオでは,敵と守備の費用が考慮されず,全てのサンプルが攻撃されたり,サンプルが攻撃されたりしない。 我々は,これらの仮定を精査し,advanced adversarial classification game(advanced adversarial classification game,advanced adversarial classification)を提案する。 特に, 両面の経済要因を考慮し, これまでに提案した対人的事例に対する対策が, 良性サンプルの精度を低下させていることを考察した。 両プレイヤーが2つの純粋な戦略を持つシナリオを詳細に分析し、全ての最良の反応を識別し、実践的な設定では、最も影響力のある要因が敵の最大数の例である可能性があると結論付ける。

Adversarial machine learning, i.e., increasing the robustness of machine learning algorithms against so-called adversarial examples, is now an established field. Yet, newly proposed methods are evaluated and compared under unrealistic scenarios where costs for adversary and defender are not considered and either all samples are attacked or no sample is attacked. We scrutinize these assumptions and propose the advanced adversarial classification game, which incorporates all relevant parameters of an adversary and a defender in adversarial classification. Especially, we take into account economic factors on both sides and the fact that all so far proposed countermeasures against adversarial examples reduce accuracy on benign samples. Analyzing the scenario in detail, where both players have two pure strategies, we identify all best responses and conclude that in practical settings, the most influential factor might be the maximum amount of adversarial examples.
翻訳日:2021-08-18 17:12:04 公開日:2021-08-17
# (参考訳) 半パラメトリックベイズ付加回帰木 [全文訳有]

Semi-parametric Bayesian Additive Regression Trees ( http://arxiv.org/abs/2108.07636v1 )

ライセンス: CC BY 4.0
Estev\~ao B. Prado, Andrew C. Parnell, Nathan McJames, Ann O'Shea, Rafael A. Moral(参考訳) ベイジアン付加回帰木(BART)に基づく新しい半パラメトリックモデルを提案する。 提案手法では, 応答変数を線形予測器とBARTモデルで近似し, 第一成分が主効果を推定し, 非特異な相互作用と非線形性についてBARTが考慮する。 我々のアプローチの斬新さは、共通な共変量を持つときのパラメトリック成分と非パラメトリック成分の相違に対処するために、BARTのツリー生成の動きを変更する方法にある。 合成および実世界の例を通して、新しい半パラメトリックBARTの性能が回帰モデルや他の木に基づく手法と比較して競合することを示した。 提案手法の実装はhttps://github.com/e bprado/SP-BARTで公開されている。

We propose a new semi-parametric model based on Bayesian Additive Regression Trees (BART). In our approach, the response variable is approximated by a linear predictor and a BART model, where the first component is responsible for estimating the main effects and BART accounts for the non-specified interactions and non-linearities. The novelty in our approach lies in the way we change tree generation moves in BART to deal with confounding between the parametric and non-parametric components when they have covariates in common. Through synthetic and real-world examples, we demonstrate that the performance of the new semi-parametric BART is competitive when compared to regression models and other tree-based methods. The implementation of the proposed method is available at https://github.com/e bprado/SP-BART.
翻訳日:2021-08-18 16:53:36 公開日:2021-08-17
# (参考訳) ポルトガルにおける微粒な感情の弱教師付きデータセット [全文訳有]

A Weak Supervised Dataset of Fine-Grained Emotions in Portuguese ( http://arxiv.org/abs/2108.07638v1 )

ライセンス: CC BY 4.0
Diogo Cortiz, Jefferson O. Silva, Newton Calegari, Ana Lu\'isa Freitas, Ana Ang\'elica Soares, Carolina Botelho, Gabriel Gaudencio R\^ego, Waldir Sampaio, Paulo Sergio Boggio(参考訳) Affective Computingは、コンピュータが人間の影響を認識し、解釈し、シミュレートする方法の研究である。 感覚分析は、この話題に関連するNLPにおいて一般的な課題であるが、感情価(ポジティブ、ネガティブ、中立)のみに焦点を当てている。 NLPの新たなアプローチは、細粒度分類に依存する感情認識である。 本研究は,ポルトガル語のきめ細かい感情に対する語彙に基づく弱教師付きコーパスを作成するためのアプローチについて述べる。 我々は、トランスフォーマーベースの言語モデル(bert)を微調整し、golden standard annotated validation set上で検証することでデータセットを評価する。 この結果(f1-score= .64)は,低資源環境における初期作業に適した戦略として語彙ベースの弱い監督を示唆する。

Affective Computing is the study of how computers can recognize, interpret and simulate human affects. Sentiment Analysis is a common task in NLP related to this topic, but it focuses only on emotion valence (positive, negative, neutral). An emerging approach in NLP is Emotion Recognition, which relies on fined-grained classification. This research describes an approach to create a lexical-based weak supervised corpus for fine-grained emotion in Portuguese. We evaluate our dataset by fine-tuning a transformer-based language model (BERT) and validating it on a Golden Standard annotated validation set. Our results (F1-score= .64) suggest lexical-based weak supervision as an appropriate strategy for initial work in low resources environment.
翻訳日:2021-08-18 16:29:21 公開日:2021-08-17
# (参考訳) SURFNet:小さなデータセットを用いた伝達学習による乱流の超解像 [全文訳有]

SURFNet: Super-resolution of Turbulent Flows with Transfer Learning using Small Datasets ( http://arxiv.org/abs/2108.07667v1 )

ライセンス: CC BY 4.0
Octavi Obiols-Sales, Abhinav Vishnu, Nicholas Malaya, and Aparna Chandramowlishwaran(参考訳) 計算コストの高いCFDシミュレーションの代替手段として、ディープラーニング(DL)アルゴリズムが登場している。 しかし、最先端のDLアプローチでは、正確なモデルを学習するために、大規模かつ高解像度のトレーニングデータが必要である。 このようなデータセットのサイズと可用性は、乱流の次世代データ駆動サロゲートモデルの開発において大きな制限となる。 本稿では,転写学習に基づく超解像流ネットワークであるSURFNetを紹介する。 SURFNetは、主に低解像度データセット上でDLモデルをトレーニングし、いくつかの高解像度フロー問題(入力サイズに依存しない従来の数値解法)でモデルを学習する。 本稿では,超解像処理,すなわちワンショット学習とインクリメンタル学習の2つの方法を提案する。 どちらも、粗いモデルの小さな解像度 (64x256) と比較して、高解像度の入力で15分の1のトレーニングデータを必要とする細粒度の流れ場を考慮に入れ、データ収集とトレーニングの両方の時間を大幅に短縮する。 我々は,粗いモデルより最大256倍大きい入力解像度の乱流状態におけるnavier-stokes方程式を解いて,surfnetの性能を実験的に評価する。 4つのテストジオメトリと8つのフロー構成について,テスト幾何学と解像度サイズ(最大2048x2048)とは無関係に,openfoam物理ソルバ上で一貫した2-2.1倍の速度アップを観測し,分解能非分散性と一般化能力を示した。 本研究では,低解像度入力(スーパーレゾリューション)を用いて学習した粗いグリッドモデルから,精度を損なうことなく,計算資源を限定した高分解能解を再構成する手法を提案する。

Deep Learning (DL) algorithms are emerging as a key alternative to computationally expensive CFD simulations. However, state-of-the-art DL approaches require large and high-resolution training data to learn accurate models. The size and availability of such datasets are a major limitation for the development of next-generation data-driven surrogate models for turbulent flows. This paper introduces SURFNet, a transfer learning-based super-resolution flow network. SURFNet primarily trains the DL model on low-resolution datasets and transfer learns the model on a handful of high-resolution flow problems - accelerating the traditional numerical solver independent of the input size. We propose two approaches to transfer learning for the task of super-resolution, namely one-shot and incremental learning. Both approaches entail transfer learning on only one geometry to account for fine-grid flow fields requiring 15x less training data on high-resolution inputs compared to the tiny resolution (64x256) of the coarse model, significantly reducing the time for both data collection and training. We empirically evaluate SURFNet's performance by solving the Navier-Stokes equations in the turbulent regime on input resolutions up to 256x larger than the coarse model. On four test geometries and eight flow configurations unseen during training, we observe a consistent 2-2.1x speedup over the OpenFOAM physics solver independent of the test geometry and the resolution size (up to 2048x2048), demonstrating both resolution-invarianc e and generalization capabilities. Our approach addresses the challenge of reconstructing high-resolution solutions from coarse grid models trained using low-resolution inputs (super-resolution) without loss of accuracy and requiring limited computational resources.
翻訳日:2021-08-18 16:21:32 公開日:2021-08-17
# (参考訳) 認識論的仕様の30年

Thirty years of Epistemic Specifications ( http://arxiv.org/abs/2108.07669v1 )

ライセンス: CC BY 4.0
Jorge Fandinno, Wolfgang Faber and Michael Gelfond(参考訳) 認識論的仕様と認識論的論理プログラムの言語は、主観的リテラルと呼ばれる様相を持つ安定なモデル意味論の下で分離論理プログラムを拡張する。 主観的リテラルを用いることで、この文脈では \emph{belief sets} と呼ばれるプログラムの各モデルまたはいくつかの安定モデルにおいて正規リテラルが真かどうかをチェックでき、world view と呼ばれる集合で収集することができる。 これにより、言語内で、ある命題がオープンまたはクローズドワールドの仮定に従って理解されるべきかどうかを表現できる。 形式的意味論によって言語の基礎となる直観を捉えようとするいくつかの試みがなされ、その結果、芸術の現状を理解するのが困難になる多数の提案がなされた。 本稿では,フィールドの創発と,それに適した知識表現と推論タスクの概要について述べる。 また,提案するセマンティクスの特性を詳細に分析し,今後の研究で取り組まなければならない課題の展望について述べる。 論理プログラミング(tplp)の理論と実践に関する考察

The language of epistemic specifications and epistemic logic programs extends disjunctive logic programs under the stable model semantics with modal constructs called subjective literals. Using subjective literals, it is possible to check whether a regular literal is true in every or some stable models of the program, those models, in this context also called \emph{belief sets}, being collected in a set called world view. This allows for representing, within the language, whether some proposition should be understood accordingly to the open or the closed world assumption. Several attempts for capturing the intuitions underlying the language by means of a formal semantics were given, resulting in a multitude of proposals that makes it difficult to understand the current state of the art. In this paper, we provide an overview of the inception of the field and the knowledge representation and reasoning tasks it is suitable for. We also provide a detailed analysis of properties of proposed semantics, and an outlook of challenges to be tackled by future research in the area. Under consideration in Theory and Practice of Logic Programming (TPLP)
翻訳日:2021-08-18 15:52:56 公開日:2021-08-17
# (参考訳) トップとテストによる誤り論理とクリーネ代数について

On Incorrectness Logic and Kleene Algebra With Top and Tests ( http://arxiv.org/abs/2108.07707v1 )

ライセンス: CC BY 4.0
Cheng Zhang, Arthur Azevedo de Amorim, Marco Gaboardi(参考訳) kleene algebra with tests (kat) はプログラムを推論するための基礎的な方程式のフレームワークであり、プログラム変換やネットワーク、コンパイラの最適化などに応用されている。 コーゼンは論文の中で、KAT が命題ホア論理を仮定することを証明し、KAT の方程式理論を用いてプログラムをプログラムしている間の(部分的な)正しさを推論できることを示した。 本研究では,最近提案された誤り論理の具体例として,kat が \emph{incorrectness} を推論するために提供するサポートについて検討する。 KATは誤り論理を直接表現できないことを示す。 この制限の主な理由は、katがコドメインの概念を明示的に表現できないためであり、これは不正確な三重項を表現するのに必須である。 この問題に対処するため、トップ要素を持つ KAT の拡張である Top and Tests (TopKAT) を用いて、Kleene 代数を研究する。 我々は,TopKATがコドメイン演算を表現し,誤り度三重項を表現し,誤り度論理のすべての規則を証明するのに十分であることを示す。 これは、TopKATの方程式理論を用いて、時のようなプログラムの誤りを推論できることを示している。

Kleene algebra with tests (KAT) is a foundational equational framework for reasoning about programs, which has found applications in program transformations, networking and compiler optimizations, among many other areas. In his seminal work, Kozen proved that KAT subsumes propositional Hoare logic, showing that one can reason about the (partial) correctness of while programs by means of the equational theory of KAT. In this work, we investigate the support that KAT provides for reasoning about \emph{incorrectness}, instead, as embodied by Ohearn's recently proposed incorrectness logic. We show that KAT cannot directly express incorrectness logic. The main reason for this limitation can be traced to the fact that KAT cannot express explicitly the notion of codomain, which is essential to express incorrectness triples. To address this issue, we study Kleene algebra with Top and Tests (TopKAT), an extension of KAT with a top element. We show that TopKAT is powerful enough to express a codomain operation, to express incorrectness triples, and to prove all the rules of incorrectness logic sound. This shows that one can reason about the incorrectness of while-like programs by means of the equational theory of TopKAT.
翻訳日:2021-08-18 15:52:03 公開日:2021-08-17
# (参考訳) agnet:深層学習によるブラックホールの重み付け [全文訳有]

AGNet: Weighing Black Holes with Deep Learning ( http://arxiv.org/abs/2108.07749v1 )

ライセンス: CC BY 4.0
Joshua Yao-Yu Lin, Sneh Pandya, Devanshi Pratap, Xin Liu, Matias Carrasco Kind, Volodymyr Kindratenko(参考訳) 超大質量ブラックホール (SMBHs) は、ほとんどの銀河の中心に自在に存在する。 SMBHの質量を測定することは、SMBHの起源と進化を理解する上で重要である。 しかし、従来の手法では収集に費用がかかる分光データが必要となる。 本稿では、クエーサー光時間系列を用いたSMBHの重み付けを行い、高価なスペクトルの必要性を回避するアルゴリズムを提案する。 我々は,Sloan Digital Sky Survey (SDSS) Stripe 82光度曲線から,SMBH質量と多色光度曲線の間の非線形符号化をマッピングするために,分光学的に確認された3,939ドルのクエーサーをトレーニングし,検証し,テストする。 予測されたSMBH質量と、SDSS単一エピックスペクトルに基づくフィデューシャル・ヴィリアル・質量推定との間には、0.37デックスの1$\sigma$散乱が存在する。 本研究は,vera c. rubin観測所による今後の観測により,より効率的な観測に直結する。 私たちのコードである \textsf{AGNet} は {\color{red} \url{https://github.com/s nehjp2/AGNet}} で公開されています。

Supermassive black holes (SMBHs) are ubiquitously found at the centers of most massive galaxies. Measuring SMBH mass is important for understanding the origin and evolution of SMBHs. However, traditional methods require spectroscopic data which is expensive to gather. We present an algorithm that weighs SMBHs using quasar light time series, circumventing the need for expensive spectra. We train, validate, and test neural networks that directly learn from the Sloan Digital Sky Survey (SDSS) Stripe 82 light curves for a sample of $38,939$ spectroscopically confirmed quasars to map out the nonlinear encoding between SMBH mass and multi-color optical light curves. We find a 1$\sigma$ scatter of 0.37 dex between the predicted SMBH mass and the fiducial virial mass estimate based on SDSS single-epoch spectra, which is comparable to the systematic uncertainty in the virial mass estimate. Our results have direct implications for more efficient applications with future observations from the Vera C. Rubin Observatory. Our code, \textsf{AGNet}, is publicly available at {\color{red} \url{https://github.com/s nehjp2/AGNet}}.
翻訳日:2021-08-18 15:50:57 公開日:2021-08-17
# (参考訳) VisBuddy - 視覚障害者のためのスマートウェアラブルアシスタント [全文訳有]

VisBuddy -- A Smart Wearable Assistant for the Visually Challenged ( http://arxiv.org/abs/2108.07761v1 )

ライセンス: CC BY 4.0
Ishwarya Sivakumar, Nishaali Meenakshisundaram, Ishwarya Ramesh, Shiloah Elizabeth D, Sunil Retmin Raj C(参考訳) 視覚は、視覚システムを通じて外部情報の85%以上を得るため、私たちの周りの世界を理解するための重要な役割を果たす。 それは、私たちのモビリティ、認知、情報アクセス、環境と他の人々との相互作用に大きく影響します。 盲目は周囲の環境を知るのを妨げ、ナビゲーション、物体認識、障害物回避、読書といった大きな課題を未支援にする。 既存のシステムの多くは、コストと複雑さによって制限されることが多い。 視覚障害者が日々の生活で直面するこれらの困難を克服するのを助けるために、視覚障害者が日々の行動に挑戦するのに役立つスマートアシスタントVisBuddyを提案する。 VisBuddyは音声ベースのアシスタントで、ユーザーは音声コマンドで特定のタスクを実行することができる。 VisBuddyは、ユーザの周囲を描写するための画像キャプション技術、ユーザのビューでテキストを読むための光学文字認識(OCR)、部屋にあるオブジェクトを検索して見つけるためのオブジェクト検出、最新のニュースを提供するためのWebスクレイピングなどを使用している。 VisBuddyはDeep LearningとInternet of Thingsのコンセプトを組み合わせて作られている。 VisBuddyはコスト効率が高く、パワフルで、視覚障害者のためのオールインワンのアシスタントとして、日々の活動を支援する。

Vision plays a crucial role to comprehend the world around us as more than 85% of the external information is obtained through the vision system. It largely influences our mobility, cognition, information access, and interaction with the environment as well as with other people. Blindness prevents a person from gaining knowledge of the surrounding environment and makes unassisted navigation, object recognition, obstacle avoidance, and reading tasks major challenges. Many existing systems are often limited by cost and complexity. To help the visually challenged overcome these difficulties faced in everyday life, we propose the idea of VisBuddy, a smart assistant which will help the visually challenged with their day-to-day activities. VisBuddy is a voice-based assistant, where the user can give voice commands to perform specific tasks. VisBuddy uses the techniques of image captioning for describing the user's surroundings, optical character recognition (OCR) for reading the text in the user's view, object detection to search and find the objects in a room and web scraping to give the user the latest news. VisBuddy has been built by combining the concepts from Deep Learning and the Internet of Things. Thus, VisBuddy serves as a cost-efficient, powerful and all-in-one assistant for the visually challenged by helping them with their day-to-day activities.
翻訳日:2021-08-18 15:33:47 公開日:2021-08-17
# (参考訳) 深層強化学習による公共電気自動車充電ステーションの最適配置 [全文訳有]

Optimal Placement of Public Electric Vehicle Charging Stations Using Deep Reinforcement Learning ( http://arxiv.org/abs/2108.07772v1 )

ライセンス: CC BY 4.0
Aidan Petratos, Allen Ting, Shankar Padmanabhan, Kristina Zhou, Dylan Hageman, Jesse R. Pisel, Michael J. Pyrcz(参考訳) 充電設備の整備に伴う地域における充電ステーションの設置は、電気自動車(ev)の将来の成功の重要な要素である。 ニューヨーク州オールバニ郡では、ev人口の増加が予想されているため、充電インフラ全体で十分な効率を維持するために追加の充電ステーションが必要である。 Reinforcement Learning (RL) の新たな応用は、予測された充電需要と現在の充電場所から、新しい充電ステーションの最適な位置を見つけることができる。 料金需要予測に影響を与える最も重要な要因は、終端交通密度、ev登録、ある種の公共建築物への近接などである。 提案するRLフレームワークを世界中の都市に適用し,充電ステーション配置を最適化する。

The placement of charging stations in areas with developing charging infrastructure is a critical component of the future success of electric vehicles (EVs). In Albany County in New York, the expected rise in the EV population requires additional charging stations to maintain a sufficient level of efficiency across the charging infrastructure. A novel application of Reinforcement Learning (RL) is able to find optimal locations for new charging stations given the predicted charging demand and current charging locations. The most important factors that influence charging demand prediction include the conterminous traffic density, EV registrations, and proximity to certain types of public buildings. The proposed RL framework can be refined and applied to cities across the world to optimize charging station placement.
翻訳日:2021-08-18 15:25:13 公開日:2021-08-17
# (参考訳) 航空画像の分類のための外観に基づく深部領域適応 [全文訳有]

Appearance Based Deep Domain Adaptation for the Classification of Aerial Images ( http://arxiv.org/abs/2108.07779v1 )

ライセンス: CC BY 4.0
Dennis Wittich and Franz Rottensteiner(参考訳) 本稿では、深層ニューラルネットワーク(DNN)を用いたリモートセンシングデータの画素ワイド分類のためのドメイン適応を、トレーニングデータの可用性に関するDNNの要求を低減するための戦略として扱う。 我々は、ラベル付きデータがソースドメインDSでのみ利用可能であるが、ターゲットドメインDTでは利用できない設定に焦点を当てる。 本手法は,画像がDTの画像のように見えるようにDSから画像に変換する外観適応ネットワーク(AAN)の対角訓練に基づく。 DSのオリジナルラベルマップとともに、変換された画像を使用してDNNをDTに適応させる。 本稿では、AANと分類器の併用訓練戦略を提案し、AANが画像を正しく分類するように変換することを制約する。 このように、あるクラスのオブジェクトはDTの同じクラスのオブジェクトに似ているように変更されます。 適応性能をさらに向上するために,ドメイン逆行訓練に用いる判別器ネットワークの新たな正規化損失を提案する。 また、トレーニングされたネットワークパラメータの最適値を求める問題にも対処し、監視可能なDTに検証セットがないことを補う教師なしエントロピーに基づくパラメータ選択基準を提案する。 軽微な貢献として、不均衡なクラス分布の問題に対処するため、クロスエントロピー損失の新しい重み付け戦略を提案する。 提案手法は,高解像度デジタル写真と高さデータからなる7都市のデータセットを用いて,42の適応シナリオで評価する。 全てのケースで正の転送を達成し、平均すると全体の精度で目標領域のパフォーマンスを4.3%向上させる。 ISPRSセマンティックラベリングベンチマークのデータセット間の適応シナリオでは、我々の手法は、結合平均の交点に関して、最近の出版物からのデータセットを10~20%上回っている。

This paper addresses domain adaptation for the pixel-wise classification of remotely sensed data using deep neural networks (DNN) as a strategy to reduce the requirements of DNN with respect to the availability of training data. We focus on the setting in which labelled data are only available in a source domain DS, but not in a target domain DT. Our method is based on adversarial training of an appearance adaptation network (AAN) that transforms images from DS such that they look like images from DT. Together with the original label maps from DS, the transformed images are used to adapt a DNN to DT. We propose a joint training strategy of the AAN and the classifier, which constrains the AAN to transform the images such that they are correctly classified. In this way, objects of a certain class are changed such that they resemble objects of the same class in DT. To further improve the adaptation performance, we propose a new regularization loss for the discriminator network used in domain adversarial training. We also address the problem of finding the optimal values of the trained network parameters, proposing an unsupervised entropy based parameter selection criterion which compensates for the fact that there is no validation set in DT that could be monitored. As a minor contribution, we present a new weighting strategy for the cross-entropy loss, addressing the problem of imbalanced class distributions. Our method is evaluated in 42 adaptation scenarios using datasets from 7 cities, all consisting of high-resolution digital orthophotos and height data. It achieves a positive transfer in all cases, and on average it improves the performance in the target domain by 4.3% in overall accuracy. In adaptation scenarios between datasets from the ISPRS semantic labelling benchmark our method outperforms those from recent publications by 10-20% with respect to the mean intersection over union.
翻訳日:2021-08-18 15:17:55 公開日:2021-08-17
# (参考訳) 標準化された機械学習形式によるパノラマ学習 [全文訳有]

Panoramic Learning with A Standardized Machine Learning Formalism ( http://arxiv.org/abs/2108.07783v1 )

ライセンス: CC BY 4.0
Zhiting Hu, Eric P. Xing(参考訳) 機械学習(ml)は、機械が経験から概念を学ぶことを可能にする計算手法である。 データインスタンス、知識、制約、報酬、敵、生涯にわたる対人関係など、幅広い分野の経験を扱う中で、現代のML/AI研究は様々な学習パラダイムと方法論を生み出している。 あらゆる異なる分野における継続的な進歩にもかかわらず、異なる狭義のアプローチは、標準化され、構成可能で、再利用可能な学習ソリューションの開発を困難にし、あらゆるタイプの経験からパノラマ的に学習するaiエージェントを構築することは可能であればコストがかかる。 本稿では,MLアルゴリズムを統一的に理解する学習目的の標準的な方程式を標準化したML形式について述べる。 このフレームワークは、新しいMLソリューションのメカニック設計のガイダンスも提供しており、あらゆる経験を持つパノラマ学習に向けた有望な手段となっている。

Machine Learning (ML) is about computational methods that enable machines to learn concepts from experiences. In handling a wide variety of experiences ranging from data instances, knowledge, constraints, to rewards, adversaries, and lifelong interplay in an ever-growing spectrum of tasks, contemporary ML/AI research has resulted in a multitude of learning paradigms and methodologies. Despite the continual progresses on all different fronts, the disparate narrowly-focused methods also make standardized, composable, and reusable development of learning solutions difficult, and make it costly if possible to build AI agents that panoramically learn from all types of experiences. This paper presents a standardized ML formalism, in particular a standard equation of the learning objective, that offers a unifying understanding of diverse ML algorithms, making them special cases due to different choices of modeling components. The framework also provides guidance for mechanic design of new ML solutions, and serves as a promising vehicle towards panoramic learning with all experiences.
翻訳日:2021-08-18 14:42:29 公開日:2021-08-17
# (参考訳) Federated Multi-Target Domain Adaptation [全文訳有]

Federated Multi-Target Domain Adaptation ( http://arxiv.org/abs/2108.07792v1 )

ライセンス: CC BY 4.0
Chun-Han Yao, Boqing Gong, Yin Cui, Hang Qi, Yukun Zhu, Ming-Hsuan Yang(参考訳) フェデレーション学習は、プライバシを保ちながら、分散ユーザデータ上でマシンラーニングモデルをトレーニング可能にする。 しかし、特に視覚タスクにおいて、ユーザから高品質な監視信号を得ることが可能であるとは限らない。 ラベル付きクライアントデータを持つ一般的なフェデレーション設定とは異なり、分散クライアントデータがラベル付けされず、集中型ラベル付きデータセットがサーバ上で利用可能となる、より実用的なシナリオを考える。 さらに、サーバ側およびクライアント間ドメインシフトを考慮に入れ、ひとつのソース(分散サーバデータ)と複数のターゲット(分散クライアントデータ)でドメイン適応問題を提起する。 フェデレーション・マルチターゲット・ドメイン適応(fmtda)タスクでは、退避ドメイン適応法のモデル性能を分析し、新しい課題に対処するための効果的なデュアル適応手法を提案する。 画像分類と意味セグメンテーションタスクに関する広範囲な実験結果から,提案手法は高い精度を実現し,通信コストを最小化し,クライアント装置の計算資源を少なくできることを示した。

Federated learning methods enable us to train machine learning models on distributed user data while preserving its privacy. However, it is not always feasible to obtain high-quality supervisory signals from users, especially for vision tasks. Unlike typical federated settings with labeled client data, we consider a more practical scenario where the distributed client data is unlabeled, and a centralized labeled dataset is available on the server. We further take the server-client and inter-client domain shifts into account and pose a domain adaptation problem with one source (centralized server data) and multiple targets (distributed client data). Within this new Federated Multi-Target Domain Adaptation (FMTDA) task, we analyze the model performance of exiting domain adaptation methods and propose an effective DualAdapt method to address the new challenges. Extensive experimental results on image classification and semantic segmentation tasks demonstrate that our method achieves high accuracy, incurs minimal communication cost, and requires low computational resources on client devices.
翻訳日:2021-08-18 13:59:45 公開日:2021-08-17
# ウォルドって誰? テキストと画像で人々をつなぐ

Who's Waldo? Linking People Across Text and Images ( http://arxiv.org/abs/2108.07253v2 )

ライセンス: Link先を確認
Claire Yuqing Cui, Apoorv Khandelwal, Yoav Artzi, Noah Snavely, Hadar Averbuch-Elor(参考訳) 本稿では,人物中心の視覚接地のためのタスクとベンチマークデータセットと,キャプションで名付けられた人と画像に写っている人とをリンクする問題を提案する。 主にオブジェクトベースである視覚グラウンディングの以前の作業とは対照的に,新たなタスクでは,キャプション内の人物の名前をマスクして,このようなイメージキャプチャペアでトレーニングされた手法を,名前と外観の関連を学習するよりも,コンテキスト的な手がかり(複数人間のリッチなインタラクションなど)に集中させる。 この作業を容易にするために、Wikimedia Commonsの画像キャプチャデータから自動的にマイニングされる新しいデータセット、Who's Waldoを導入する。 本稿では,この課題に対する強力なベースラインを克服するトランスフォーマーベースの手法を提案し,研究コミュニティにデータを公開し,視覚と言語の両方を考慮した文脈モデルの開発を加速させている。

We present a task and benchmark dataset for person-centric visual grounding, the problem of linking between people named in a caption and people pictured in an image. In contrast to prior work in visual grounding, which is predominantly object-based, our new task masks out the names of people in captions in order to encourage methods trained on such image-caption pairs to focus on contextual cues (such as rich interactions between multiple people), rather than learning associations between names and appearances. To facilitate this task, we introduce a new dataset, Who's Waldo, mined automatically from image-caption data on Wikimedia Commons. We propose a Transformer-based method that outperforms several strong baselines on this task, and are releasing our data to the research community to spur work on contextual models that consider both vision and language.
翻訳日:2021-08-18 13:32:31 公開日:2021-08-17
# 任意視点を用いた3次元形状認識のための学習標準ビュー表現

Learning Canonical View Representation for 3D Shape Recognition with Arbitrary Views ( http://arxiv.org/abs/2108.07084v2 )

ライセンス: Link先を確認
Xin Wei, Yifei Gong, Fudong Wang, Xing Sun, Jian Sun(参考訳) 本稿では,任意の視点,すなわち任意の数と視点の位置から3次元形状を認識することに焦点を当てる。 これは、ビューベースの3D形状認識のための挑戦的で現実的な設定である。 この課題に対処するための標準ビュー表現を提案する。 まず,任意のビューの本来の特徴を,任意のビュー特徴を最適なトランスポートを用いて学習可能な参照ビュー特徴の集合に合わせることにより,標準ビュー表現と呼ばれる一定数のビュー特徴に変換する。 このように、任意のビューを持つ各3次元形状は、一定の数の標準ビュー特徴によって表現され、さらに集約されて、形状認識のためのリッチで堅牢な3次元形状表現を生成する。 また,正準ビュー表現のビュー特徴をユークリッド空間の散乱点に埋め込むことができるよう,正準ビュー特徴分離制約を提案する。 ModelNet40, ScanObjectNN, RGBDデータセットを用いた実験により, 固定された視点設定下での競合結果が得られ, 任意の視点設定下では適用可能な手法よりも大幅に優れていた。

In this paper, we focus on recognizing 3D shapes from arbitrary views, i.e., arbitrary numbers and positions of viewpoints. It is a challenging and realistic setting for view-based 3D shape recognition. We propose a canonical view representation to tackle this challenge. We first transform the original features of arbitrary views to a fixed number of view features, dubbed canonical view representation, by aligning the arbitrary view features to a set of learnable reference view features using optimal transport. In this way, each 3D shape with arbitrary views is represented by a fixed number of canonical view features, which are further aggregated to generate a rich and robust 3D shape representation for shape recognition. We also propose a canonical view feature separation constraint to enforce that the view features in canonical view representation can be embedded into scattered points in a Euclidean space. Experiments on the ModelNet40, ScanObjectNN, and RGBD datasets show that our method achieves competitive results under the fixed viewpoint settings, and significantly outperforms the applicable methods under the arbitrary view setting.
翻訳日:2021-08-18 13:32:14 公開日:2021-08-17
# 人口マッピングのためのワンショット転送学習

One-shot Transfer Learning for Population Mapping ( http://arxiv.org/abs/2108.06228v2 )

ライセンス: Link先を確認
Erzhuo Shao, Jie Feng, Yingheng Wang, Tong Xia and Yong Li(参考訳) 細かな人口分布データは、都市計画、交通スケジューリング、流行モデル、リスクコントロールなど、多くのアプリケーションにとって非常に重要である。 しかしながら、インフラストラクチャ密度、ユーザのプライバシ、ビジネスセキュリティといったデータ収集の制限のため、このようなきめ細かいデータは収集が難しく、通常は粗いデータのみを利用できる。 このように粗粒度分布から細粒度人口分布を得ることが重要な問題となる。 この問題に対処するためには、既存の手法は主に訓練に十分なきめ細かい真実に依存しており、ほとんどの都市では利用できないことが多い。 これにより、これらの手法の適用が制限され、データ不足のソース都市からデータ対応のターゲット都市への知識の転送が必要となる。 情報伝達のシナリオでは, 遠隔センシングやアンケートで容易に得ることのできる, 対象都市における単一参照きめ細かな接地真理を, 大規模都市構造に通知し, 対象都市における知識伝達を支援する基盤真理として採用する。 このアプローチにより,細粒度人口マッピング問題をワンショット転送学習問題に変換する。 本稿では,ネットワーク構造,データビュー,最適化の視点から都市間における空間的時間的知識を伝達する,ワンショット・トランスファー学習フレームワークPSRNetを提案する。 4つの都市の実生活データセットの実験では、RMSEとMAEを25%以上削減することで、PSRNetは8つの最先端ベースラインに対して大きなアドバンテージを持っている。 私たちのコードとデータセットはGithub(https://githu b.com/erzhuoshao/PSR Net-CIKM)で公開されています。

Fine-grained population distribution data is of great importance for many applications, e.g., urban planning, traffic scheduling, epidemic modeling, and risk control. However, due to the limitations of data collection, including infrastructure density, user privacy, and business security, such fine-grained data is hard to collect and usually, only coarse-grained data is available. Thus, obtaining fine-grained population distribution from coarse-grained distribution becomes an important problem. To tackle this problem, existing methods mainly rely on sufficient fine-grained ground truth for training, which is not often available for the majority of cities. That limits the applications of these methods and brings the necessity to transfer knowledge between data-sufficient source cities to data-scarce target cities. In knowledge transfer scenario, we employ single reference fine-grained ground truth in target city, which is easy to obtain via remote sensing or questionnaire, as the ground truth to inform the large-scale urban structure and support the knowledge transfer in target city. By this approach, we transform the fine-grained population mapping problem into a one-shot transfer learning problem. In this paper, we propose a novel one-shot transfer learning framework PSRNet to transfer spatial-temporal knowledge across cities from the view of network structure, the view of data, and the view of optimization. Experiments on real-life datasets of 4 cities demonstrate that PSRNet has significant advantages over 8 state-of-the-art baselines by reducing RMSE and MAE by more than 25%. Our code and datasets are released in Github (https://github.com/ erzhuoshao/PSRNet-CI KM).
翻訳日:2021-08-18 13:31:56 公開日:2021-08-17
# 野生における単一RGB画像からのセマンティック埋め込み型無監督スペクトル再構成

Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB Images in the Wild ( http://arxiv.org/abs/2108.06659v2 )

ライセンス: Link先を確認
Zhiyu Zhu, Hui Liu, Junhui Hou, Huanqiang Zeng, Qingfu Zhang(参考訳) 本稿では,商用カメラで撮影した1枚のRGB画像からハイパースペクトル(HS)画像を再構成する際の問題点について検討する。 この課題に取り組むために,我々は新しい軽量かつエンドツーエンドの学習ベースフレームワークを提案する。 具体的には、HS画像からのRGB画像の本質的な画像劣化モデルに基づいて、効率的なカメラスペクトル応答関数推定により、HS画像から入力されたRGB画像と再投影されたRGB画像との差を徐々に広げる。 接地hs画像を監督することなく学習を可能にするために, 逆学習方式を採用し, 簡便かつ効果的な$\mathcal{l}_1$勾配クリッピング方式で学習を促進させる。 さらに、入力されたRGB画像の意味情報を埋め込み、教師なし学習を局所的に正規化する。 合成RGB画像からのHS画像再構成のために広く利用されている2つのデータセットの定量的実験に加えて,実RGB画像から復元されたHS画像をHSベースの視覚追跡に適用することにより,本手法の評価を行った。 その結果,提案手法は最先端の教師なし手法よりも優れており,一部の設定下では最新の教師付き手法よりも優れていた。 ソースコードはhttps://github.com/z bzhzhy/Unsupervised- Spectral-Reconstruct ionで公開されている。

This paper investigates the problem of reconstructing hyperspectral (HS) images from single RGB images captured by commercial cameras, \textbf{without} using paired HS and RGB images during training. To tackle this challenge, we propose a new lightweight and end-to-end learning-based framework. Specifically, on the basis of the intrinsic imaging degradation model of RGB images from HS images, we progressively spread the differences between input RGB images and re-projected RGB images from recovered HS images via effective unsupervised camera spectral response function estimation. To enable the learning without paired ground-truth HS images as supervision, we adopt the adversarial learning manner and boost it with a simple yet effective $\mathcal{L}_1$ gradient clipping scheme. Besides, we embed the semantic information of input RGB images to locally regularize the unsupervised learning, which is expected to promote pixels with identical semantics to have consistent spectral signatures. In addition to conducting quantitative experiments over two widely-used datasets for HS image reconstruction from synthetic RGB images, we also evaluate our method by applying recovered HS images from real RGB images to HS-based visual tracking. Extensive results show that our method significantly outperforms state-of-the-art unsupervised methods and even exceeds the latest supervised method under some settings. The source code is public available at https://github.com/z bzhzhy/Unsupervised- Spectral-Reconstruct ion.
翻訳日:2021-08-18 13:31:27 公開日:2021-08-17
# CarveMix:脳病変分割のための簡易データ拡張法

CarveMix: A Simple Data Augmentation Method for Brain Lesion Segmentation ( http://arxiv.org/abs/2108.06883v2 )

ライセンス: Link先を確認
Xinru Zhang, Chenghao Liu, Ni Ou, Xiangzhu Zeng, Xiaoliang Xiong, Yizhou Yu, Zhiwen Liu, Chuyang Ye(参考訳) 脳病変のセグメンテーションは臨床診断に有用なツールであり、畳み込みニューラルネットワーク(CNN)はそのタスクにおいて前例のない成功を収めた。 データ拡張はcnnのトレーニングを改善するために広く用いられている戦略であり、脳病変のセグメント化のための拡張法の設計はまだ未解決の問題である。 そこで本研究では,CNNを用いた脳病変分類のための単純なデータ拡張手法であるCarveMixを提案する。 mixupやcutmixといった他の"mix"ベースの手法と同様に、carvemixは既存の2つのラベル付き画像を組み合わせて新しいラベル付きサンプルを生成する。 しかし、画像の組み合わせに基づくこれらの拡張戦略とは異なり、CarveMixは病変を認識して組み合わせを行い、生成された画像に対して適切なアノテーションを作成する。 具体的には、あるラベル付き画像から、病変の位置と形状に応じて関心領域(ROI)を彫り、確率分布からROIのサイズをサンプリングする。 次に、彫刻されたROIが第2ラベル付き画像の対応するボクセルを置き換え、それに応じて第2画像のアノテーションも置き換える。 このように、ネットワークトレーニングのための新しいラベル付き画像を生成し、病変情報が保存される。 提案手法を評価するため,2つの脳病変データセットを用いて実験を行った。 その結果,他の単純なデータ拡張手法と比較してセグメント化精度が向上した。

Brain lesion segmentation provides a valuable tool for clinical diagnosis, and convolutional neural networks (CNNs) have achieved unprecedented success in the task. Data augmentation is a widely used strategy that improves the training of CNNs, and the design of the augmentation method for brain lesion segmentation is still an open problem. In this work, we propose a simple data augmentation approach, dubbed as CarveMix, for CNN-based brain lesion segmentation. Like other "mix"-based methods, such as Mixup and CutMix, CarveMix stochastically combines two existing labeled images to generate new labeled samples. Yet, unlike these augmentation strategies based on image combination, CarveMix is lesion-aware, where the combination is performed with an attention on the lesions and a proper annotation is created for the generated image. Specifically, from one labeled image we carve a region of interest (ROI) according to the lesion location and geometry, and the size of the ROI is sampled from a probability distribution. The carved ROI then replaces the corresponding voxels in a second labeled image, and the annotation of the second image is replaced accordingly as well. In this way, we generate new labeled images for network training and the lesion information is preserved. To evaluate the proposed method, experiments were performed on two brain lesion datasets. The results show that our method improves the segmentation accuracy compared with other simple data augmentation approaches.
翻訳日:2021-08-18 13:31:01 公開日:2021-08-17
# MSR-GCN:人間の動き予測のためのマルチスケール残差グラフ畳み込みネットワーク

MSR-GCN: Multi-Scale Residual Graph Convolution Networks for Human Motion Prediction ( http://arxiv.org/abs/2108.07152v2 )

ライセンス: Link先を確認
Lingwei Dang, Yongwei Nie, Chengjiang Long, Qing Zhang, Guiqing Li(参考訳) 人間の動き予測は、将来のポーズの確率性と周期性のために難しい課題である。 近年,グラフ畳み込みネットワークはポーズ関節間の動的関係を学習するのに非常に有効であることが証明されている。 一方、人間のポーズを再帰的に抽象化し、複数のスケールで一連のポーズを得ることができる。 抽象レベルが向上するにつれて、ポーズの動きがより安定し、それによって予測も得られる。 本稿では,人間のポーズ予測タスクをエンドツーエンドで行うためのマルチスケール残留グラフ畳み込みネットワーク(MSR-GCN)を提案する。 GCNは細粒度から粗粒度、粗粒度から粗粒度までの特徴を抽出するために用いられる。 各スケールで抽出された特徴を結合してデコードし、入力とターゲットポーズの間の残差を取得する。 中間的な監視は予測されたすべてのポーズに課され、ネットワークはより代表的な機能を学ぶように強制される。 提案手法は、Human3.6MデータセットとCMU Mocapデータセットの2つの標準ベンチマークデータセットで評価される。 実験の結果,本手法は最先端手法よりも優れていた。 コードと事前訓練されたモデルはhttps://github.com/D roliven/MSRGCN.comで入手できる。

Human motion prediction is a challenging task due to the stochasticity and aperiodicity of future poses. Recently, graph convolutional network has been proven to be very effective to learn dynamic relations among pose joints, which is helpful for pose prediction. On the other hand, one can abstract a human pose recursively to obtain a set of poses at multiple scales. With the increase of the abstraction level, the motion of the pose becomes more stable, which benefits pose prediction too. In this paper, we propose a novel Multi-Scale Residual Graph Convolution Network (MSR-GCN) for human pose prediction task in the manner of end-to-end. The GCNs are used to extract features from fine to coarse scale and then from coarse to fine scale. The extracted features at each scale are then combined and decoded to obtain the residuals between the input and target poses. Intermediate supervisions are imposed on all the predicted poses, which enforces the network to learn more representative features. Our proposed approach is evaluated on two standard benchmark datasets, i.e., the Human3.6M dataset and the CMU Mocap dataset. Experimental results demonstrate that our method outperforms the state-of-the-art approaches. Code and pre-trained models are available at https://github.com/D roliven/MSRGCN.
翻訳日:2021-08-18 13:30:37 公開日:2021-08-17
# ハード3次元ポーズ推定のための学習骨格グラフニューラルネットワーク

Learning Skeletal Graph Neural Networks for Hard 3D Pose Estimation ( http://arxiv.org/abs/2108.07181v2 )

ライセンス: Link先を確認
Ailing Zeng, Xiao Sun, Lei Yang, Nanxuan Zhao, Minhao Liu, Qiang Xu(参考訳) 単視点2次元から3次元のポーズ推定問題を解くために,様々なディープラーニング技術が提案されている。 平均予測精度は長年にわたって大幅に改善されてきたが、深度あいまいさ、自己閉塞性、複雑または稀なポーズなどのハードポーズのパフォーマンスは、まだ十分ではない。 本研究では,これらの難解なポーズを対象とし,新しい骨格型GNN学習ソリューションを提案する。 具体的には,gnn学習における望ましくないノイズを抑制しつつ,隣接ノードから関連情報を効果的に抽出するホップアウェア階層型チャネルスキーズ融合層を提案する。 さらに, 3次元ポーズ推定にロバストで効果的な時間対応動的グラフ構築手法を提案する。 Human3.6Mデータセットによる実験結果から,提案手法は平均予測精度10.3倍の精度向上を実現し,最先端技術によるハードポーズを大幅に改善することが示された。 さらに,提案手法を骨格に基づく動作認識タスクに適用し,最先端性能を実現する。 私たちのコードはhttps://github.com/a ilingzengzzz/Skeleta l-GNNで公開されています。

Various deep learning techniques have been proposed to solve the single-view 2D-to-3D pose estimation problem. While the average prediction accuracy has been improved significantly over the years, the performance on hard poses with depth ambiguity, self-occlusion, and complex or rare poses is still far from satisfactory. In this work, we target these hard poses and present a novel skeletal GNN learning solution. To be specific, we propose a hop-aware hierarchical channel-squeezing fusion layer to effectively extract relevant information from neighboring nodes while suppressing undesired noises in GNN learning. In addition, we propose a temporal-aware dynamic graph construction procedure that is robust and effective for 3D pose estimation. Experimental results on the Human3.6M dataset show that our solution achieves 10.3\% average prediction accuracy improvement and greatly improves on hard poses over state-of-the-art techniques. We further apply the proposed technique on the skeleton-based action recognition task and also achieve state-of-the-art performance. Our code is available at https://github.com/a ilingzengzzz/Skeleta l-GNN.
翻訳日:2021-08-18 13:30:19 公開日:2021-08-17
# 部分的観測性下での神経予測モニタリング

Neural Predictive Monitoring under Partial Observability ( http://arxiv.org/abs/2108.07134v2 )

ライセンス: Link先を確認
Francesca Cairoli, Luca Bortolussi, Nicola Paoletti(参考訳) 我々は、予測監視(pm)の問題、すなわち、現在の状態からシステムの実行時に将来の違反を予測する問題を考える。 私たちは、実行時に状態の部分的かつ騒がしい観察しかできない、最も現実的な設定の下で動作します。 このような設定は、到達可能性予測の精度と信頼性に直接影響を与え、システムの安全性を損なう。 本研究では,部分可観測性 (po) に拘わらず,正確で信頼性の高い到達可能性予測を行うpmの学習ベース手法を提案する。 我々は,ハイブリッドシステムの到達可能性に近似するディープニューラルネットワークを用いたpm手法であるneural prediction monitoring(npm)を構築し,それをpoケースに拡張する。 本稿では、粗い観測を直接操作するエンドツーエンドアプローチと、中間状態推定ステップを導入する2段階アプローチの2つのソリューションを提案し、比較する。 いずれのソリューションも,1)予測領域の形式における確率的保証,2)予測の不確実性の音速推定を共形予測に頼っている。 後者を用いて、信頼できない(そしておそらく誤った)予測を特定し、不確実な入力(アクティブラーニング)のモニターを再訓練し改善する。 提案手法は,精度の高い到達可能性予測と誤差検出,カバレッジ保証のある厳密な予測領域を実現する。

We consider the problem of predictive monitoring (PM), i.e., predicting at runtime future violations of a system from the current state. We work under the most realistic settings where only partial and noisy observations of the state are available at runtime. Such settings directly affect the accuracy and reliability of the reachability predictions, jeopardizing the safety of the system. In this work, we present a learning-based method for PM that produces accurate and reliable reachability predictions despite partial observability (PO). We build on Neural Predictive Monitoring (NPM), a PM method that uses deep neural networks for approximating hybrid systems reachability, and extend it to the PO case. We propose and compare two solutions, an end-to-end approach, which directly operates on the rough observations, and a two-step approach, which introduces an intermediate state estimation step. Both solutions rely on conformal prediction to provide 1) probabilistic guarantees in the form of prediction regions and 2) sound estimates of predictive uncertainty. We use the latter to identify unreliable (and likely erroneous) predictions and to retrain and improve the monitors on these uncertain inputs (i.e., active learning). Our method results in highly accurate reachability predictions and error detection, as well as tight prediction regions with guaranteed coverage.
翻訳日:2021-08-18 13:30:01 公開日:2021-08-17
# マルチエージェント強化学習による無線MACプロトコルの創発

The Emergence of Wireless MAC Protocols with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2108.07144v2 )

ライセンス: Link先を確認
Mateus P. Mota, Alvaro Valcarce, Jean-Marie Gorce, Jakob Hoydis(参考訳) 本稿では,Multi-agent Deep Deterministic Policy gradient (MADDPG)アルゴリズムを利用して,基地局 (BS) とユーザ機器 (UE) がマルチアクセスシナリオでメディアアクセス制御 (MAC) プロトコルを作成できるようにする新しいフレームワークを提案する。 このフレームワークでは、BSとUEは強化学習(RL)エージェントであり、データを提供するために協力することを学ぶ必要がある。 ネットワークノードは、制御メッセージの意味に関する事前の合意なしに、制御メッセージを交換して、ネットワークを横断してデータを配信することができる。 このようなフレームワークでは、エージェントはチャネルアクセスポリシーだけでなく、シグナリングポリシーも学ばなければならない。 エージェント間のコラボレーションは、提案アルゴリズムとエージェント間のコミュニケーションが削除されたアブレーションバージョンを比較することによって重要であることが示されている。 競合のないベースラインと比較すると,我々のフレームワークは優れた性能を実現しており,新しいプロトコルを効果的に学習することができる。

In this paper, we propose a new framework, exploiting the multi-agent deep deterministic policy gradient (MADDPG) algorithm, to enable a base station (BS) and user equipment (UE) to come up with a medium access control (MAC) protocol in a multiple access scenario. In this framework, the BS and UEs are reinforcement learning (RL) agents that need to learn to cooperate in order to deliver data. The network nodes can exchange control messages to collaborate and deliver data across the network, but without any prior agreement on the meaning of the control messages. In such a framework, the agents have to learn not only the channel access policy, but also the signaling policy. The collaboration between agents is shown to be important, by comparing the proposed algorithm to ablated versions where either the communication between agents or the central critic is removed. The comparison with a contention-free baseline shows that our framework achieves a superior performance in terms of goodput and can effectively be used to learn a new protocol.
翻訳日:2021-08-18 13:29:40 公開日:2021-08-17
# トランスデューサに基づく音声認識システムをカスタマイズする軽量文脈綴り補正モデル

A Light-weight contextual spelling correction model for customizing transducer-based speech recognition systems ( http://arxiv.org/abs/2108.07493v1 )

ライセンス: Link先を確認
Xiaoqiang Wang, Yanqing Liu, Sheng Zhao, Jinyu Li(参考訳) モデルトレーニング中に動的で利用できないコンテキスト情報を備えたトランスデューサベースの自動音声認識(ASR)システムをカスタマイズすることは困難である。 本研究では,トランスデューサに基づくASRシステムにおいて,文脈関連認識誤りを補正する軽量コンテキストスペル補正モデルを提案する。 コンテキスト情報を共有コンテキストエンコーダでスペル補正モデルに組み込むとともに,フィルタリングアルゴリズムを用いて大規模コンテキストリストを処理する。 実験の結果,約50%の単語誤り率削減でベースラインASRモデルの性能が向上し,文脈的LMバイアスなどのベースライン手法よりも大幅に向上した。 このモデルは、訓練中に見ることができない語彙外でも優れた性能を示す。

It's challenging to customize transducer-based automatic speech recognition (ASR) system with context information which is dynamic and unavailable during model training. In this work, we introduce a light-weight contextual spelling correction model to correct context-related recognition errors in transducer-based ASR systems. We incorporate the context information into the spelling correction model with a shared context encoder and use a filtering algorithm to handle large-size context lists. Experiments show that the model improves baseline ASR model performance with about 50% relative word error rate reduction, which also significantly outperforms the baseline method such as contextual LM biasing. The model also shows excellent performance for out-of-vocabulary terms not seen during training.
翻訳日:2021-08-18 13:29:21 公開日:2021-08-17
# MVCNet:3次元CT病変の教師なし表現学習のためのマルチビューコントラストネットワーク

MVCNet: Multiview Contrastive Network for Unsupervised Representation Learning for 3D CT Lesions ( http://arxiv.org/abs/2108.07662v1 )

ライセンス: Link先を確認
Penghua Zhai, Huaiwei Cong, Gangming Zhao, Chaowei Fang, Jinpeng Li(参考訳) ディープラーニングのルネッサンスにより,CT(Computed Tomography)の自動診断システムが多くの応用に成功している。 しかし、それらは主に注意深い専門家のアノテーションによるもので、実際は少ないことが多い。 これにより、教師なし表現学習への関心が高まります。 近年の研究では、自己指導型学習が表現の学習に有効なアプローチであることが示されているが、そのほとんどは変換やプレテキストタスクの実証的な設計に依存している。 これらの手法に付随する主観性を避けるため、mvcnet は変換不要な新しい教師なし三次元(3次元)表現学習手法である。 各3d病変を異なる方向から観察し,複数の2次元 (2d) ビューを収集する。 そして、同じ3D病変の2Dビューを集約し、異なる病変の2Dビューを分離するように、コントラスト損失を最小限にして埋め込み関数を学習する。 埋め込み層上に単純な分類ヘッドを訓練することで表現を評価する。 実験の結果、MVCNetはLIDC-IDRI (89.55%)、LNDb (77.69%)、TianChi (79.96%)のデータセットで、教師なし表現学習のための最先端の精度を実現している。 ラベル付きデータの10%を微調整すると、アキュラシーは教師付き学習モデル(89.46%対85.03%、73.85%対73.44%、83.56%対83.34%)に匹敵する。 https://github.com/p enghuazhai/mvcnet。

With the renaissance of deep learning, automatic diagnostic systems for computed tomography (CT) have achieved many successful applications. However, they are mostly attributed to careful expert annotations, which are often scarce in practice. This drives our interest to the unsupervised representation learning. Recent studies have shown that self-supervised learning is an effective approach for learning representations, but most of them rely on the empirical design of transformations and pretext tasks. To avoid the subjectivity associated with these methods, we propose the MVCNet, a novel unsupervised three dimensional (3D) representation learning method working in a transformation-free manner. We view each 3D lesion from different orientations to collect multiple two dimensional (2D) views. Then, an embedding function is learned by minimizing a contrastive loss so that the 2D views of the same 3D lesion are aggregated, and the 2D views of different lesions are separated. We evaluate the representations by training a simple classification head upon the embedding layer. Experimental results show that MVCNet achieves state-of-the-art accuracies on the LIDC-IDRI (89.55%), LNDb (77.69%) and TianChi (79.96%) datasets for unsupervised representation learning. When fine-tuned on 10% of the labeled data, the accuracies are comparable to the supervised learning model (89.46% vs. 85.03%, 73.85% vs. 73.44%, 83.56% vs. 83.34% on the three datasets, respectively), indicating the superiority of MVCNet in learning representations with limited annotations. Code is released at: https://github.com/p enghuazhai/MVCNet.
翻訳日:2021-08-18 13:29:10 公開日:2021-08-17
# randomrooms: 3次元物体検出のための合成形状とランダムレイアウトからの教師なし事前学習

RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection ( http://arxiv.org/abs/2108.07794v1 )

ライセンス: Link先を確認
Yongming Rao, Benlin Liu, Yi Wei, Jiwen Lu, Cho-Jui Hsieh, Jie Zhou(参考訳) 3d point cloud understandingは近年、大きな進歩を遂げている。 しかしながら、シーンの実際のスキャンに大量の労力がかかるため、特に2dオブジェクト検出タスクと比較して、注釈付き実データセットの不足が大きなボトルネックとなっている。 この問題に対する有望な解決策は、CADオブジェクトモデルからなる合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。 これは事前訓練と微調整の手順によって達成できる。 しかし、最近の3D事前学習の研究は、合成オブジェクトから他の実世界のアプリケーションへ学習した伝達特性が失敗することを示している。 本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。 特に,合成CADデータセットのオブジェクトを用いてシーンのランダムなレイアウトを生成し,同じ合成オブジェクトから生成された2つのランダムなシーンに対して,オブジェクトレベルのコントラスト学習を適用して3次元シーン表現を学習することを提案する。 この方法で事前訓練されたモデルは、後に3Dオブジェクト検出タスクの微調整を行う際に、より良い初期化に役立つ。 実験により,複数のベースモデルにおいて,特にトレーニングデータが少ない場合には,下流3次元検出タスクが一貫した改善を示し,本手法の有効性と一般化を強く示す。 本手法は,合成データから豊富な意味知識と多種多様なオブジェクトを抽出し,ScanNetV2 と SUN RGB-D の広範に使用されている3D検出ベンチマークにおける新たな最先端技術を確立する。

3D point cloud understanding has made great progress in recent years. However, one major bottleneck is the scarcity of annotated real datasets, especially compared to 2D object detection tasks, since a large amount of labor is involved in annotating the real scans of a scene. A promising solution to this problem is to make better use of the synthetic dataset, which consists of CAD object models, to boost the learning on real datasets. This can be achieved by the pre-training and fine-tuning procedure. However, recent work on 3D pre-training exhibits failure when transfer features learned on synthetic objects to other real-world applications. In this work, we put forward a new method called RandomRooms to accomplish this objective. In particular, we propose to generate random layouts of a scene by making use of the objects in the synthetic CAD dataset and learn the 3D scene representation by applying object-level contrastive learning on two random scenes generated from the same set of synthetic objects. The model pre-trained in this way can serve as a better initialization when later fine-tuning on the 3D object detection task. Empirically, we show consistent improvement in downstream 3D detection tasks on several base models, especially when less training data are used, which strongly demonstrates the effectiveness and generalization of our method. Benefiting from the rich semantic knowledge and diverse objects from synthetic data, our method establishes the new state-of-the-art on widely-used 3D detection benchmarks ScanNetV2 and SUN RGB-D. We expect our attempt to provide a new perspective for bridging object and scene-level 3D understanding.
翻訳日:2021-08-18 13:28:37 公開日:2021-08-17
# 行動品質評価のためのグループ対応コントラスト回帰

Group-aware Contrastive Regression for Action Quality Assessment ( http://arxiv.org/abs/2108.07797v1 )

ライセンス: Link先を確認
Xumin Yu, Yongming Rao, Wenliang Zhao, Jiwen Lu, Jie Zhou(参考訳) ビデオ間の微妙な違いと、スコアのばらつきのため、アクション品質の評価は困難である。 既存のほとんどのアプローチでは、単一のビデオから品質スコアを回帰することでこの問題に対処しています。 本稿では,ビデオ間の関係が,トレーニングと推論の両方において,より正確な行動品質評価のための重要な手がかりとなることを示す。 具体的には、属性(カテゴリーや難易度など)を共有した別のビデオを参照して、相対スコアを後退させるような行動品質評価の問題を、参照されていないスコアを学習する代わりに再検討する。 そこで本研究では,ビデオ間の差異に着目し,評価のための重要なヒントを学習するためのモデル指導を行う,対比較による相対スコア学習のための新しいコントラスト回帰(core)フレームワークを提案する。 2つのビデオ間の相対情報をさらに活用するために,従来のスコア回帰をより簡単な2つのサブプロブレムに変換するために,グループ対応回帰木を考案した。 CoReの有効性を示すために、AQA-7、MTL-AQA、JIGSAWSを含む3つの主流AQAデータセットについて広範な実験を行った。 提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端技術を確立する。

Assessing action quality is challenging due to the subtle differences between videos and large variations in scores. Most existing approaches tackle this problem by regressing a quality score from a single video, suffering a lot from the large inter-video score variations. In this paper, we show that the relations among videos can provide important clues for more accurate action quality assessment during both training and inference. Specifically, we reformulate the problem of action quality assessment as regressing the relative scores with reference to another video that has shared attributes (e.g., category and difficulty), instead of learning unreferenced scores. Following this formulation, we propose a new Contrastive Regression (CoRe) framework to learn the relative scores by pair-wise comparison, which highlights the differences between videos and guides the models to learn the key hints for assessment. In order to further exploit the relative information between two videos, we devise a group-aware regression tree to convert the conventional score regression into two easier sub-problems: coarse-to-fine classification and regression in small intervals. To demonstrate the effectiveness of CoRe, we conduct extensive experiments on three mainstream AQA datasets including AQA-7, MTL-AQA and JIGSAWS. Our approach outperforms previous methods by a large margin and establishes new state-of-the-art on all three benchmarks.
翻訳日:2021-08-18 13:28:11 公開日:2021-08-17
# マルチモダリティ融合を用いた屋内意味シーン理解

Indoor Semantic Scene Understanding using Multi-modality Fusion ( http://arxiv.org/abs/2108.07616v1 )

ライセンス: Link先を確認
Muraleekrishna Gopinathan and Giang Truong and Jumana Abu-Khalaf(参考訳) Seamless Human-Robot Interactionは、サービスロボットシステムの開発の最終目標である。 そのため、ロボットエージェントは、与えられたタスクを完了させるために、環境を理解する必要がある。 セマンティックシーン理解は、ロボットエージェントが環境中の物体に関する意味的な知識を抽出することを可能にする。 本研究では,2次元および3次元検出枝を融合して,環境の意味マップを生成する意味シーン理解パイプラインを提案する。 最先端の2D検出器による2Dマスクの提案は、3D空間に逆投影され、ポイントセグメンテーションネットワークからの3D検出と組み合わせられる。 収集されたデータセットで評価された以前の作業とは異なり、当社では、アクティブなフォトリアリスティックなロボット環境であるbenchbot上でパイプラインをテストしています。 提案手法は,投影2次元検出と物体サイズに基づくモーダリティ融合を用いた3次元提案の修正を含む。 この作業はrobotive vision scene understanding challenge(rvsu)の一部として行われる。 性能評価の結果,本パイプラインは計算のボトルネックを伴わずにベースライン法を改善した。

Seamless Human-Robot Interaction is the ultimate goal of developing service robotic systems. For this, the robotic agents have to understand their surroundings to better complete a given task. Semantic scene understanding allows a robotic agent to extract semantic knowledge about the objects in the environment. In this work, we present a semantic scene understanding pipeline that fuses 2D and 3D detection branches to generate a semantic map of the environment. The 2D mask proposals from state-of-the-art 2D detectors are inverse-projected to the 3D space and combined with 3D detections from point segmentation networks. Unlike previous works that were evaluated on collected datasets, we test our pipeline on an active photo-realistic robotic environment - BenchBot. Our novelty includes rectification of 3D proposals using projected 2D detections and modality fusion based on object size. This work is done as part of the Robotic Vision Scene Understanding Challenge (RVSU). The performance evaluation demonstrates that our pipeline has improved on baseline methods without significant computational bottleneck.
翻訳日:2021-08-18 13:27:46 公開日:2021-08-17
# 単一画像からの視覚的3Dポイントクラウド再構成

Visual Enhanced 3D Point Cloud Reconstruction from A Single Image ( http://arxiv.org/abs/2108.07685v1 )

ライセンス: Link先を確認
Guiju Ping, Mahdi Abolfazli Esfahani, Han Wang(参考訳) 一つの画像から3Dオブジェクトを復元する難しい問題を適切に解決することで、既存の技術は深度センサーを必要とせず、単一の単眼カメラで実行することができる。 近年、ディープラーニングの開発により、単一の画像の3次元再構成が印象的な進歩を遂げている。 既存の研究では、ニューラルネットワークのトレーニングを導くために、損失関数としてchamfer距離を使用している。 しかし、チャンファー損失は3次元点雲内の全ての点に等しい重みを与える。 細粒度で薄い構造を犠牲にして、高い損失を引き起こすのを避ける傾向があるため、視覚的に不十分な結果をもたらす。 本稿では,境界点(エッジ点,コーナー点)に着目し,より詳細な3次元点雲を単一画像から復元するフレームワークを提案する。 実験の結果,提案手法は質的および定量的に既存の手法を大きく上回り,訓練パラメータも少ないことがわかった。

Solving the challenging problem of 3D object reconstruction from a single image appropriately gives existing technologies the ability to perform with a single monocular camera rather than requiring depth sensors. In recent years, thanks to the development of deep learning, 3D reconstruction of a single image has demonstrated impressive progress. Existing researches use Chamfer distance as a loss function to guide the training of the neural network. However, the Chamfer loss will give equal weights to all points inside the 3D point clouds. It tends to sacrifice fine-grained and thin structures to avoid incurring a high loss, which will lead to visually unsatisfactory results. This paper proposes a framework that can recover a detailed three-dimensional point cloud from a single image by focusing more on boundaries (edge and corner points). Experimental results demonstrate that the proposed method outperforms existing techniques significantly, both qualitatively and quantitatively, and has fewer training parameters.
翻訳日:2021-08-18 13:27:31 公開日:2021-08-17
# BOBCAT: 双方向最適化に基づくコンピュータ適応テスト

BOBCAT: Bilevel Optimization-Based Computerized Adaptive Testing ( http://arxiv.org/abs/2108.07386v1 )

ライセンス: Link先を確認
Aritra Ghosh, Andrew Lan(参考訳) コンピュータ適応テスト (Computerized Adaptive Testing, CAT) は、学生/試験受験者全員にパーソナライズされたテストの一種である。 CAT手法は、各学生が以前の質問に対して回答した次の最も情報に富む質問/項目を適応的に選択し、テスト長を効果的に削減する。 既存のcat手法では,質問応答に対する学生の能力に関連づける項目応答理論(irt)モデルと,能力推定誤差をできるだけ早く低減するように設計された静的質問選択アルゴリズムを用いるため,大規模学生応答データから学習しても改善できない。 本稿では,データ駆動型質問選択アルゴリズムをトレーニングデータから直接学習する,双方向最適化ベースのCATフレームワークであるBOBCATを提案する。 BOBCATは、基礎となる学生反応モデルに非依存であり、適応テストプロセスにおいて計算的に効率的である。 5つの実世界の学生反応データセットに関する広範な実験を通して、BOBCATはテスト長を減らすために既存のCATメソッド(時には顕著に)より優れていることを示す。

Computerized adaptive testing (CAT) refers to a form of tests that are personalized to every student/test taker. CAT methods adaptively select the next most informative question/item for each student given their responses to previous questions, effectively reducing test length. Existing CAT methods use item response theory (IRT) models to relate student ability to their responses to questions and static question selection algorithms designed to reduce the ability estimation error as quickly as possible; therefore, these algorithms cannot improve by learning from large-scale student response data. In this paper, we propose BOBCAT, a Bilevel Optimization-Based framework for CAT to directly learn a data-driven question selection algorithm from training data. BOBCAT is agnostic to the underlying student response model and is computationally efficient during the adaptive testing process. Through extensive experiments on five real-world student response datasets, we show that BOBCAT outperforms existing CAT methods (sometimes significantly) at reducing test length.
翻訳日:2021-08-18 13:26:55 公開日:2021-08-17
# 節共有型マルチアウトプットtsetlinマシンの融合

Coalesced Multi-Output Tsetlin Machines with Clause Sharing ( http://arxiv.org/abs/2108.07594v1 )

ライセンス: Link先を確認
Sondre Glimsdal and Ole-Christoffer Granmo(参考訳) 有限状態機械を用いてパターンを学習し、Tsetlin Machine (TM) はいくつかのベンチマークで競合精度と学習速度を得た。 TMは命題論理(ANDルール)における共役節としてパターンを表し、各節は特定の出力に対して投票する。 単一出力問題には効率的だが、マルチ出力問題には出力毎に別のTMが必要である。 複数のTMを使用すると、各TMがサイロで動作するため、パターンの再利用を妨げる。 本稿では,複数のTMを単一のTMにマージした節共有を提案する。 各節は重みを用いて各出力に関連付けられる。 肯定的な重みは、この条項が出力に対して1ドル、否定的な重みは、出力に対して0ドルである。 したがって、この節は結合して複数の出力を生成する。 結果として得られたTsetlin Machine(CoTM)は、SSL(Stochastic Searching on the Line)とTA(Tsetlin Automata)チームを用いて、各節の重みと構成の両方を同時に学習する。 MNIST, Fashion-MNIST, Kuzushiji-MNIST の実証実験の結果, CoTM は 50 ドルから $1$K-clause の構成で TM よりもはるかに高い精度を示し, 句の再利用能力を示している。 例えば、Fashion-MNISTで1クラスあたり50ドル(22Kbメモリ)を使用すれば、精度は71.99ドル%から89.66ドル%になる。 TMとCoTMの精度はクラスあたり1ドルK節以上を使用する場合と似ているが、MNISTでは8ドルK節で最高3ドル99セントの精度に達する。 さらに、不均衡なトレーニングデータに対する堅牢性についても検討する。 IMDb-およびCIFAR10データの不均衡バージョンに対する評価は、CoTMが高次不均衡に対して堅牢であることを示している。 節を共有できるので、言語モデルや自動エンコーディングなど、複数のアウトプットを含む新しいTMアプリケーションドメインが可能になると考えています。

Using finite-state machines to learn patterns, Tsetlin machines (TMs) have obtained competitive accuracy and learning speed across several benchmarks, with frugal memory- and energy footprint. A TM represents patterns as conjunctive clauses in propositional logic (AND-rules), each clause voting for or against a particular output. While efficient for single-output problems, one needs a separate TM per output for multi-output problems. Employing multiple TMs hinders pattern reuse because each TM then operates in a silo. In this paper, we introduce clause sharing, merging multiple TMs into a single one. Each clause is related to each output by using a weight. A positive weight makes the clause vote for output $1$, while a negative weight makes the clause vote for output $0$. The clauses thus coalesce to produce multiple outputs. The resulting coalesced Tsetlin Machine (CoTM) simultaneously learns both the weights and the composition of each clause by employing interacting Stochastic Searching on the Line (SSL) and Tsetlin Automata (TA) teams. Our empirical results on MNIST, Fashion-MNIST, and Kuzushiji-MNIST show that CoTM obtains significantly higher accuracy than TM on $50$- to $1$K-clause configurations, indicating an ability to repurpose clauses. E.g., accuracy goes from $71.99$% to $89.66$% on Fashion-MNIST when employing $50$ clauses per class (22 Kb memory). While TM and CoTM accuracy is similar when using more than $1$K clauses per class, CoTM reaches peak accuracy $3\times$ faster on MNIST with $8$K clauses. We further investigate robustness towards imbalanced training data. Our evaluations on imbalanced versions of IMDb- and CIFAR10 data show that CoTM is robust towards high degrees of class imbalance. Being able to share clauses, we believe CoTM will enable new TM application domains that involve multiple outputs, such as learning language models and auto-encoding.
翻訳日:2021-08-18 13:26:36 公開日:2021-08-17
# Imital: 合成データからアクティブラーニング戦略を学ぶ

ImitAL: Learning Active Learning Strategies from Synthetic Data ( http://arxiv.org/abs/2108.07670v1 )

ライセンス: Link先を確認
Julius Gonsior, Maik Thiele, Wolfgang Lehner(参考訳) 教師付き機械学習を複雑にする最大の課題のひとつは、大量のラベル付きデータを必要とすることだ。 Active Learning(AL)は、クエリ戦略に基づいて最も多くの情報を含むサンプルをラベル付けすることで、ラベル付きデータを効率的に取得するためのよく知られた標準手法である。 クエリ戦略の手法は過去にも数多く提案されてきたが、すべてのドメインにおいて一般的にうまく機能する明確な手法は見つかっていない。 さらに、多くの戦略は計算コストが高く、大規模なアノテーションプロジェクトでalが広く使われることを妨げている。 そこで我々は,ALを学習からランクへの問題としてエンコードする新しいクエリ戦略ImitALを提案する。 基盤となるニューラルネットワークをトレーニングするために、Imitation Learningを選択しました。 トレーニングに必要な実証的専門家エクスペリエンスは、純粋に合成データから生成される。 汎用的かつ優れた手法である \imital{} の適用性を示すために,我々は10種類の問合せ戦略を持つ,広範囲なドメインから15の異なるデータセットにおける戦略の比較を行った。 また、我々のアプローチは他のほとんどの戦略、特に非常に大きなデータセットよりも実行時のパフォーマンスが高いことも示しています。

One of the biggest challenges that complicates applied supervised machine learning is the need for huge amounts of labeled data. Active Learning (AL) is a well-known standard method for efficiently obtaining labeled data by first labeling the samples that contain the most information based on a query strategy. Although many methods for query strategies have been proposed in the past, no clear superior method that works well in general for all domains has been found yet. Additionally, many strategies are computationally expensive which further hinders the widespread use of AL for large-scale annotation projects. We, therefore, propose ImitAL, a novel query strategy, which encodes AL as a learning-to-rank problem. For training the underlying neural network we chose Imitation Learning. The required demonstrative expert experience for training is generated from purely synthetic data. To show the general and superior applicability of \ImitAL{}, we perform an extensive evaluation comparing our strategy on 15 different datasets, from a wide range of domains, with 10 different state-of-the-art query strategies. We also show that our approach is more runtime performant than most other strategies, especially on very large datasets.
翻訳日:2021-08-18 13:25:57 公開日:2021-08-17
# 文脈畳み込みニューラルネットワーク

Contextual Convolutional Neural Networks ( http://arxiv.org/abs/2108.07387v1 )

ライセンス: Link先を確認
Ionut Cosmin Duta, Mariana Iuliana Georgescu, Radu Tudor Ionescu(参考訳) 視覚認識のためのコンテキスト畳み込み(CoConv)を提案する。 CoConvは、畳み込みニューラルネットワークのコアコンポーネントである標準畳み込みの直接的な置き換えである。 CoConvは、標準的な畳み込みと同じような数のパラメータと計算コストを維持しながら、文脈情報を組み込む機能を備えている。 CoConvは、(i)一次視覚野(V1領域)からでも、(i)一次視覚野からのニューロンが文脈的手がかりの検出に関与しており、(ii)視覚ニューロンの活動は、その理論的受容領域の外側に完全に置かれる刺激の影響を受け得ることを示す神経科学研究にインスパイアされている。 一方,我々はCoConvを広く使用されている残差ネットワークに統合し,コアタスクと画像認識のためのベンチマーク,すなわちImageNetデータセット上の画像分類,MS COCOデータセット上のオブジェクト検出において,ベースラインによる認識性能の向上を示す。 一方,CIFAR-10 と CelebA で生成結果が改善された,最先端のジェネレーティブ・アドバイザリアル・ネットワークのジェネレータにCoConvを導入している。 私たちのコードはhttps://github.com/i duta/coconv.comで利用可能です。

We propose contextual convolution (CoConv) for visual recognition. CoConv is a direct replacement of the standard convolution, which is the core component of convolutional neural networks. CoConv is implicitly equipped with the capability of incorporating contextual information while maintaining a similar number of parameters and computational cost compared to the standard convolution. CoConv is inspired by neuroscience studies indicating that (i) neurons, even from the primary visual cortex (V1 area), are involved in detection of contextual cues and that (ii) the activity of a visual neuron can be influenced by the stimuli placed entirely outside of its theoretical receptive field. On the one hand, we integrate CoConv in the widely-used residual networks and show improved recognition performance over baselines on the core tasks and benchmarks for visual recognition, namely image classification on the ImageNet data set and object detection on the MS COCO data set. On the other hand, we introduce CoConv in the generator of a state-of-the-art Generative Adversarial Network, showing improved generative results on CIFAR-10 and CelebA. Our code is available at https://github.com/i duta/coconv.
翻訳日:2021-08-18 13:25:38 公開日:2021-08-17
# 相互線形変換による直接領域適応

Direct domain adaptation through reciprocal linear transformations ( http://arxiv.org/abs/2108.07600v1 )

ライセンス: Link先を確認
Tariq Alkhalifah, Oleg Ovcharenko(参考訳) 本稿では,実世界データの特徴による合成データに対する教師付きニューラルネットワークのトレーニングを強化するために,直接ドメイン適応(DDA)アプローチを提案する。 このプロセスは、NNモデルへの入力特徴に関する一連の線形操作、すなわち、ソースまたはターゲットドメインからのものであるか、以下に示すように: 1)入力データの相互相関(すなわち、)。 画像) その領域のすべての画像のランダムに選択されたサンプルピクセル(またはピクセル)またはすべての画像のランダムに選択されたサンプルピクセル(またはピクセル)の平均。 2)結果データの畳み込みと、他の領域からの自己相関入力画像の平均値との畳み込み。 訓練段階では、想定通り、入力画像はソースドメインから、自己相関画像の平均はターゲットドメインから評価される。 推論/アプリケーション段階では、入力画像は対象領域からであり、ソース領域から自己相関画像の平均を評価する。 提案手法は、ソースとターゲットドメインのデータのみを操作し、トレーニングワークフローやネットワークアーキテクチャに明示的に干渉しない。 MNISTデータセット上で畳み込みニューラルネットワークをトレーニングし、MNIST-Mデータセット上でネットワークをテストするアプリケーションでは、テストデータ上で70%の精度を達成する。 主成分分析(pca)とt-sneは、提案する直接変換の後、ソースドメインとターゲットドメインからの入力特徴が、元のmnistおよびmnist-mの入力特徴と比較して主成分と類似した特性を共有することを示した。

We propose a direct domain adaptation (DDA) approach to enrich the training of supervised neural networks on synthetic data by features from real-world data. The process involves a series of linear operations on the input features to the NN model, whether they are from the source or target domains, as follows: 1) A cross-correlation of the input data (i.e. images) with a randomly picked sample pixel (or pixels) of all images from that domain or the mean of all randomly picked sample pixel (or pixels) of all images. 2) The convolution of the resulting data with the mean of the autocorrelated input images from the other domain. In the training stage, as expected, the input images are from the source domain, and the mean of auto-correlated images are evaluated from the target domain. In the inference/applicatio n stage, the input images are from the target domain, and the mean of auto-correlated images are evaluated from the source domain. The proposed method only manipulates the data from the source and target domains and does not explicitly interfere with the training workflow and network architecture. An application that includes training a convolutional neural network on the MNIST dataset and testing the network on the MNIST-M dataset achieves a 70% accuracy on the test data. A principal component analysis (PCA), as well as t-SNE, show that the input features from the source and target domains, after the proposed direct transformations, share similar properties along with the principal components as compared to the original MNIST and MNIST-M input features.
翻訳日:2021-08-18 13:25:18 公開日:2021-08-17
# neural photofit: 視線に基づくメンタルイメージ再構成

Neural Photofit: Gaze-based Mental Image Reconstruction ( http://arxiv.org/abs/2108.07524v1 )

ライセンス: Link先を確認
Florian Strohm, Ekta Sood, Sven Mayer, Philipp M\"uller, Mihai B\^ace, Andreas Bulling(参考訳) そこで本研究では, 被写体像をフォトフィット(界面複合体)に視覚的にデコードするために, 人間の固定を利用する新しい手法を提案する。 本手法は,エンコーダ,スコアリングネットワーク,デコーダの3つのニューラルネットワークを組み合わせたものである。 エンコーダは、画像の特徴を抽出し、人間の観察者が見た各顔のニューラルアクティベーションマップを予測する。 ニューラルスコアリングネットワークは、人およびニューラルアテンションを比較し、抽出された画像特徴ごとの関連スコアを予測する。 最後に、デコーダが最終的なフォトフィットにデコードする関連性によって重み付けられた全ての特徴の線形結合として、画像特徴を単一の特徴ベクトルに集約する。 合成顔のコラージュを見ている19人の視線データを含む新しいデータセットを用いてニューラルネットワークをトレーニングする。 提案手法は平均ベースライン予測器を著しく上回っており、視覚的に可視性があり、観察者の心的イメージに近いフォトフィットをデコードできることを示す人間の研究を報告している。

We propose a novel method that leverages human fixations to visually decode the image a person has in mind into a photofit (facial composite). Our method combines three neural networks: An encoder, a scoring network, and a decoder. The encoder extracts image features and predicts a neural activation map for each face looked at by a human observer. A neural scoring network compares the human and neural attention and predicts a relevance score for each extracted image feature. Finally, image features are aggregated into a single feature vector as a linear combination of all features weighted by relevance which a decoder decodes into the final photofit. We train the neural scoring network on a novel dataset containing gaze data of 19 participants looking at collages of synthetic faces. We show that our method significantly outperforms a mean baseline predictor and report on a human study that shows that we can decode photofits that are visually plausible and close to the observer's mental image.
翻訳日:2021-08-18 13:24:51 公開日:2021-08-17
# 大規模事前学習言語モデルを用いたタンパク質のモデリング

Modeling Protein Using Large-scale Pretrain Language Model ( http://arxiv.org/abs/2108.07435v1 )

ライセンス: Link先を確認
Yijia Xiao, Jiezhong Qiu, Ziang Li, Chang-Yu Hsieh, Jie Tang(参考訳) タンパク質はほとんどの生命過程に結びついている。 したがって、タンパク質配列の生物学的構造と性質を分析することは、生命の探索、疾患の検出、薬物発見に重要である。 伝統的なタンパク質分析法は、労働集約的かつ時間のかかる傾向がある。 ディープラーニングモデルの出現は、大量のデータにおけるデータパターンのモデリングを可能にする。 学際的な研究者は、例えば大きな生物学的データセットをモデル化するためにディープラーニング手法を活用し始めている。 タンパク質配列の分類に長期記憶と畳み込みニューラルネットワークを使用する。 数百万年の進化の後、進化情報はタンパク質配列にコードされる。 自然言語とタンパク質配列の類似性に着想を得て,進化的タンパク質配列のモデル化に大規模言語モデルを用い,タンパク質生物学情報を表現的にエンコードした。 トークンレベルのタスクとシーケンスレベルのタスクの両方において重要な改善が観察され、我々の大規模モデルが進化の事前学習から進化情報を正確に捉えることができることを示した。 私たちのコードとモデルはhttps://github.com/t hudm/proteinlm.comで利用可能です。

Protein is linked to almost every life process. Therefore, analyzing the biological structure and property of protein sequences is critical to the exploration of life, as well as disease detection and drug discovery. Traditional protein analysis methods tend to be labor-intensive and time-consuming. The emergence of deep learning models makes modeling data patterns in large quantities of data possible. Interdisciplinary researchers have begun to leverage deep learning methods to model large biological datasets, e.g. using long short-term memory and convolutional neural network for protein sequence classification. After millions of years of evolution, evolutionary information is encoded in protein sequences. Inspired by the similarity between natural language and protein sequences, we use large-scale language models to model evolutionary-scale protein sequences, encoding protein biology information in representation. Significant improvements are observed in both token-level and sequence-level tasks, demonstrating that our large-scale model can accurately capture evolution information from pretraining on evolutionary-scale individual sequences. Our code and model are available at https://github.com/T HUDM/ProteinLM.
翻訳日:2021-08-18 13:24:38 公開日:2021-08-17
# 確率遅延を用いた強化学習のための状態強化手法の再検討

Revisiting State Augmentation methods for Reinforcement Learning with Stochastic Delays ( http://arxiv.org/abs/2108.07555v1 )

ライセンス: Link先を確認
Somjit Nath, Mayank Baranwal and Harshad Khadilkar(参考訳) リモートコントロールやセンシングのような現実のシナリオは、アクションと観察遅延で構成されている。 遅延の存在は強化学習(RL)アルゴリズムの性能を低下させ、しばしばアルゴリズムが重要なことを学ばない程度に低下させる。 本稿では, 確率的遅延を伴うマルコフ決定過程 (MDP) の概念を正式に記述し, 遅延MDPは, コスト構造を著しく単純化した等価な標準MDPに変換可能であることを示す。 この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作と観測の確率的遅延を伴う環境において、ほぼ最適報酬を達成することを示す。 遅延分解深度Q-network (DRDQN) アルゴリズムは, マルチステップおよび確率遅延を含む様々な環境においてベンチマークされ, ほぼ最適報酬の達成と, その計算オーバーヘッドの最小化の両面において, 性能が向上する。

Several real-world scenarios, such as remote control and sensing, are comprised of action and observation delays. The presence of delays degrades the performance of reinforcement learning (RL) algorithms, often to such an extent that algorithms fail to learn anything substantial. This paper formally describes the notion of Markov Decision Processes (MDPs) with stochastic delays and shows that delayed MDPs can be transformed into equivalent standard MDPs (without delays) with significantly simplified cost structure. We employ this equivalence to derive a model-free Delay-Resolved RL framework and show that even a simple RL algorithm built upon this framework achieves near-optimal rewards in environments with stochastic delays in actions and observations. The delay-resolved deep Q-network (DRDQN) algorithm is bench-marked on a variety of environments comprising of multi-step and stochastic delays and results in better performance, both in terms of achieving near-optimal rewards and minimizing the computational overhead thereof, with respect to the currently established algorithms.
翻訳日:2021-08-18 13:23:55 公開日:2021-08-17
# SPMoE: スパースパターン混合による複数のパターン認識出力の生成

SPMoE: Generate Multiple Pattern-Aware Outputs with Sparse Pattern Mixture of Expert ( http://arxiv.org/abs/2108.07535v1 )

ライセンス: Link先を確認
Shaobo Cui, Xintong Bao, Xuming Lin, Zhongzhou Zhao, Ji Zhang, Wei Zhou, Haiqing Chen(参考訳) 多くの生成タスクは1対1のマッピング関係に従い、各入力は複数の出力に関連付けられる。 Conditional Variational AutoEncoder(CVAE)のような既存の手法では、この1対多の関係をモデル化するために潜在変数を使用する。 しかし、この高次元で密度の高い潜伏変数は説明可能性に欠け、通常は貧弱で制御不能な世代につながる。 本稿では,1対1マッピングを複数の1対1マッピングに分解するパターンの言語概念を革新的に導入し,さらにsparse pattern mix of experts (spmoe) というモデルを提案する。 各1対1マッピングは条件生成パターンと関連付けられ、SPMoEの専門家によってモデル化される。 説明性と多様性を向上させるために、各言語パターンを専門家モデルと排他的に扱うことができるようにするため、spmoe内のすべての専門家モデルを調整するためにスパース機構が使用される。 パラフレーズ生成タスクにおけるSPMoEの性能を評価し,実験結果から,SPMoEは品質,パターンレベルの多様性,コーパスレベルの多様性のバランスが良好であることを証明した。

Many generation tasks follow a one-to-many mapping relationship: each input could be associated with multiple outputs. Existing methods like Conditional Variational AutoEncoder(CVAE) employ a latent variable to model this one-to-many relationship. However, this high-dimensional and dense latent variable lacks explainability and usually leads to poor and uncontrollable generations. In this paper, we innovatively introduce the linguistic concept of pattern to decompose the one-to-many mapping into multiple one-to-one mappings and further propose a model named Sparse Pattern Mixture of Experts(SPMoE). Each one-to-one mapping is associated with a conditional generation pattern and is modeled with an expert in SPMoE. To ensure each language pattern can be exclusively handled with an expert model for better explainability and diversity, a sparse mechanism is employed to coordinate all the expert models in SPMoE. We assess the performance of our SPMoE on the paraphrase generation task and the experiment results prove that SPMoE can achieve a good balance in terms of quality, pattern-level diversity, and corpus-level diversity.
翻訳日:2021-08-18 13:23:18 公開日:2021-08-17
# 非整列マルチモーダル配列に対するグラフカプセルアグリゲーション

Graph Capsule Aggregation for Unaligned Multimodal Sequences ( http://arxiv.org/abs/2108.07543v1 )

ライセンス: Link先を確認
Jianfeng Wu, Sijie Mai, Haifeng Hu(参考訳) 人間は、主にテキスト、音響、視覚のモダリティで構成される複数のモダリティを通して意見や感情を表現する。 マルチモーダル感情分析に関する先行研究は、主にリカレントニューラルネットワーク(RNN)を用いて、アライメントされたマルチモーダルシーケンスをモデル化する。 しかし、異なるモダリティのサンプルレートが異なるため、マルチモーダルシーケンスを整列することは現実的ではない。 さらに、RNNは勾配の消滅や爆発といった問題に悩まされがちであり、非整合なマルチモーダルシーケンスをモデル化する上で大きな障害となる長距離依存の学習能力に制限がある。 本稿では,グラフベースニューラルモデルとカプセルネットワークを用いたマルチモーダルシーケンスをモデル化するためのグラフカプセル凝集(graphcage)を提案する。 シーケンスデータをグラフに変換することにより、前述のRNNの問題を回避することができる。 さらに,カプセルネットワークの集約性とグラフベースの構造により,モデルが解釈可能であり,長距離依存の問題をよりよく解くことができる。 実験結果から,GraphCAGEは2つのベンチマークデータセットに対して,Capsule Networkによる表現の洗練と解釈によって,最先端のパフォーマンスを実現することが示唆された。

Humans express their opinions and emotions through multiple modalities which mainly consist of textual, acoustic and visual modalities. Prior works on multimodal sentiment analysis mostly apply Recurrent Neural Network (RNN) to model aligned multimodal sequences. However, it is unpractical to align multimodal sequences due to different sample rates for different modalities. Moreover, RNN is prone to the issues of gradient vanishing or exploding and it has limited capacity of learning long-range dependency which is the major obstacle to model unaligned multimodal sequences. In this paper, we introduce Graph Capsule Aggregation (GraphCAGE) to model unaligned multimodal sequences with graph-based neural model and Capsule Network. By converting sequence data into graph, the previously mentioned problems of RNN are avoided. In addition, the aggregation capability of Capsule Network and the graph-based structure enable our model to be interpretable and better solve the problem of long-range dependency. Experimental results suggest that GraphCAGE achieves state-of-the-art performance on two benchmark datasets with representations refined by Capsule Network and interpretation provided.
翻訳日:2021-08-18 13:22:57 公開日:2021-08-17
# テキストモデルにおける意味的接地学習のためのゲームインタフェース

A Game Interface to Study Semantic Grounding in Text-Based Models ( http://arxiv.org/abs/2108.07708v1 )

ライセンス: Link先を確認
Timothee Mickus, Mathieu Constant and Denis Paperno(参考訳) 言語モデルはテキスト配信のみから基底表現を学習できるのか? この問題は自然言語処理において中心的かつ再帰的である。 この主張を実験的に検証するために提案する: もし2つの単語が異なる意味を持ち、分布のみと区別できないなら、基底化はテキストベースモデルの範囲外である。 そこで本研究では,5言語における単語対の分布的類似性に関する人的判断の収集を目的としたオンラインゲームについて述べる。 さらに、データ収集キャンペーンの初期結果を報告します。

Can language models learn grounded representations from text distribution alone? This question is both central and recurrent in natural language processing; authors generally agree that grounding requires more than textual distribution. We propose to experimentally test this claim: if any two words have different meanings and yet cannot be distinguished from distribution alone, then grounding is out of the reach of text-based models. To that end, we present early work on an online game for the collection of human judgments on the distributional similarity of word pairs in five languages. We further report early results of our data collection campaign.
翻訳日:2021-08-18 13:22:37 公開日:2021-08-17
# 弱教師付きセグメンテーションのための領域プロトタイプネットワークを用いたクロスイメージ領域マイニング

Cross-Image Region Mining with Region Prototypical Network for Weakly Supervised Segmentation ( http://arxiv.org/abs/2108.07413v1 )

ライセンス: Link先を確認
Weide Liu, Xiangfei Kong, Tzu-Yi Hung, Guosheng Lin(参考訳) 画像レベルのラベルで訓練された弱い教師付きイメージセグメンテーションは、通常、擬似基底の生成時に対象領域の不正確なカバレッジに悩まされる。 これは、オブジェクトアクティベーションマップが分類対象で訓練されており、一般化する能力がないためである。 目的とするアクティベーションマップの汎用性を改善するため,トレーニングセットのクロスイメージオブジェクトの多様性を探索する地域プロトタイプネットワークRPNetを提案する。 画像間の類似したオブジェクトは、領域特徴比較により識別される。 背景領域が抑制されている間、新しい対象領域を発見するために、領域間でオブジェクトの信頼度が伝播する。 実験の結果,提案手法はPASCAL VOC 2012およびMS COCO上での最先端性能を達成しつつ,より完全かつ正確な擬似マスクを生成することがわかった。 また,提案手法の低調度化に対するロバスト性についても検討した。

Weakly supervised image segmentation trained with image-level labels usually suffers from inaccurate coverage of object areas during the generation of the pseudo groundtruth. This is because the object activation maps are trained with the classification objective and lack the ability to generalize. To improve the generality of the objective activation maps, we propose a region prototypical network RPNet to explore the cross-image object diversity of the training set. Similar object parts across images are identified via region feature comparison. Object confidence is propagated between regions to discover new object areas while background regions are suppressed. Experiments show that the proposed method generates more complete and accurate pseudo object masks, while achieving state-of-the-art performance on PASCAL VOC 2012 and MS COCO. In addition, we investigate the robustness of the proposed method on reduced training sets.
翻訳日:2021-08-18 13:22:08 公開日:2021-08-17
# 適応による学習:相互対応を用いた可視赤外人物の再識別

Learning by Aligning: Visible-Infrared Person Re-identification using Cross-Modal Correspondences ( http://arxiv.org/abs/2108.07422v1 )

ライセンス: Link先を確認
Hyunjong Park, Sanghoon Lee, Junghyup Lee, Bumsub Ham(参考訳) 可視・赤外線人物再識別(VI-reID)の問題,すなわち,可視・赤外線カメラで捉えた人物画像の集合を,クロスモーダルな設定で検索する問題に対処する。 VI-reIDの主な課題は、個人画像間のクラス内変異と、可視画像と赤外線画像の相互差である。 人物像が大まかに一致していると仮定すると、従来のアプローチは、様々なモダリティで識別可能で一般化可能な、粗い画像または堅い部分レベルの人物表現を学習しようとする。 しかし、通常、市販の物体検出器でトリミングされる人物画像は必ずしも整列しているとは限らないため、差別的な人物表現学習を邪魔する。 本稿では,これらの問題に統一的に対処する新しい特徴学習フレームワークを提案する。 そこで本研究では,交叉型人物画像間の密接な対応を活用すべく提案する。 これにより、ピクセルレベルでのクロスモーダルな不一致に対処でき、人的表現からのモダリティに関連した特徴をより効果的に抑制できる。 これはまた、モーダルな局所特徴間のピクセルワイドな関連を奨励し、さらにVI-reIDの識別的特徴学習を促進する。 標準VI-reIDベンチマークの大規模な実験と解析により,本手法の有効性が実証された。

We address the problem of visible-infrared person re-identification (VI-reID), that is, retrieving a set of person images, captured by visible or infrared cameras, in a cross-modal setting. Two main challenges in VI-reID are intra-class variations across person images, and cross-modal discrepancies between visible and infrared images. Assuming that the person images are roughly aligned, previous approaches attempt to learn coarse image- or rigid part-level person representations that are discriminative and generalizable across different modalities. However, the person images, typically cropped by off-the-shelf object detectors, are not necessarily well-aligned, which distract discriminative person representation learning. In this paper, we introduce a novel feature learning framework that addresses these problems in a unified way. To this end, we propose to exploit dense correspondences between cross-modal person images. This allows to address the cross-modal discrepancies in a pixel-level, suppressing modality-related features from person representations more effectively. This also encourages pixel-wise associations between cross-modal local features, further facilitating discriminative feature learning for VI-reID. Extensive experiments and analyses on standard VI-reID benchmarks demonstrate the effectiveness of our approach, which significantly outperforms the state of the art.
翻訳日:2021-08-18 13:21:55 公開日:2021-08-17
# モノカラーイメージペアを用いたガイドカラー化

Guided Colorization Using Mono-Color Image Pairs ( http://arxiv.org/abs/2108.07471v1 )

ライセンス: Link先を確認
Ze-Hua Sheng, Hui-Liang Shen, Bo-Wen Yao, Huaqi Zhang(参考訳) 従来のRGBカメラで撮影されたカラー画像と比較して、モノクローム画像はより優れた信号-雑音比(SNR)とよりリッチなテクスチャを持つ。 したがって、モノカラーデュアルカメラシステムを用いて、高画質のカラー画像を復元することは自然である。 本稿では,モノクロ画像とカラー画像とを色付けするモノクロ画像強調アルゴリズムを提案する。 類似した輝度値を持つ隣接する構造が類似色を持つ可能性が高いという仮定に基づいて、ブロックマッチングによってモノクロ画素に色を割り当てるために、まず濃密な記述を行う。 閉塞性および色あいまい性を含む2種類の外れ値が検出され、初期スクリブルから除去される。 また,スクリブリングプロセスの高速化のためのサンプリング戦略も導入する。 そして、密度の高いクリブルが画像全体に伝播する。 色ヒントが全くない地域での誤色伝搬を軽減するため,既存のスクリブルに基づいて余分な色種を生成し,その伝播過程を導出する。 実験結果から,本アルゴリズムは単色画像ペアから高SNR,高精細な色画像を効率よく復元し,カラーブラインド問題の解決に優れた性能を発揮することが示された。

Compared to color images captured by conventional RGB cameras, monochrome images usually have better signal-to-noise ratio (SNR) and richer textures due to its higher quantum efficiency. It is thus natural to apply a mono-color dual-camera system to restore color images with higher visual quality. In this paper, we propose a mono-color image enhancement algorithm that colorizes the monochrome image with the color one. Based on the assumption that adjacent structures with similar luminance values are likely to have similar colors, we first perform dense scribbling to assign colors to the monochrome pixels through block matching. Two types of outliers, including occlusion and color ambiguity, are detected and removed from the initial scribbles. We also introduce a sampling strategy to accelerate the scribbling process. Then, the dense scribbles are propagated to the entire image. To alleviate incorrect color propagation in the regions that have no color hints at all, we generate extra color seeds based on the existed scribbles to guide the propagation process. Experimental results show that, our algorithm can efficiently restore color images with higher SNR and richer details from the mono-color image pairs, and achieves good performance in solving the color bleeding problem.
翻訳日:2021-08-18 13:21:30 公開日:2021-08-17
# 意味スーパーポイントツリーネットワークを用いた3次元シーンのインスタンス分割

Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks ( http://arxiv.org/abs/2108.07478v1 )

ライセンス: Link先を確認
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan and Kui Jia(参考訳) 3Dシーンにおけるインスタンスセグメンテーションは、シーン理解の多くの応用において基本である。 データの不規則性やインスタンス数の不確実性の複合的な要因のため、これはまだ難しい。 state-of-the-artメソッドは、まずセマンティックとインスタンスレベルでポイントワイズの特徴を区別し、次にオブジェクトインスタンスを提案するポイントグループ化の別ステップを学習する一般的なパイプラインに大きく依存している。 将来性はあるものの、(1)第2段階はインスタンスセグメンテーションの主目的によって管理されていないこと、(2)ポイントワイドな特徴学習とグループ化はデータの不規則性に対処する上で効果が低いこと、そしておそらく断片的なセグメンテーションをもたらすという欠点がある。 これらの問題に対処するため,本稿では,シーンポイントからオブジェクトインスタンスを提案するセマンティックスーパーポイントツリーネットワーク(sstnet)のエンドツーエンドソリューションを提案する。 SSTNetのキーは中間的なセマンティックなスーパーポイントツリー(SST)で、スーパーポイントの学習されたセマンティックな特徴に基づいて構築され、オブジェクトインスタンスの提案のために中間ツリーノードをトラバースして分割する。 また、SSTNetではCliqueNetと呼ばれる改良モジュールを設計し、誤ってインスタンス提案にグループ化される可能性のあるスーパーポイントを創出します。 ScanNetとS3DISのベンチマーク実験により,提案手法の有効性が示された。 提出時、sstnetはscannet (v2) のリーダーボードのトップにランクインし、第2のベストメソッドよりも2%高いmapを示した。 PyTorchのソースコードはhttps://github.com/G orilla-Lab-SCUT/SSTN etで公開されている。

Instance segmentation in 3D scenes is fundamental in many applications of scene understanding. It is yet challenging due to the compound factors of data irregularity and uncertainty in the numbers of instances. State-of-the-art methods largely rely on a general pipeline that first learns point-wise features discriminative at semantic and instance levels, followed by a separate step of point grouping for proposing object instances. While promising, they have the shortcomings that (1) the second step is not supervised by the main objective of instance segmentation, and (2) their point-wise feature learning and grouping are less effective to deal with data irregularities, possibly resulting in fragmented segmentations. To address these issues, we propose in this work an end-to-end solution of Semantic Superpoint Tree Network (SSTNet) for proposing object instances from scene points. Key in SSTNet is an intermediate, semantic superpoint tree (SST), which is constructed based on the learned semantic features of superpoints, and which will be traversed and split at intermediate tree nodes for proposals of object instances. We also design in SSTNet a refinement module, termed CliqueNet, to prune superpoints that may be wrongly grouped into instance proposals. Experiments on the benchmarks of ScanNet and S3DIS show the efficacy of our proposed method. At the time of submission, SSTNet ranks top on the ScanNet (V2) leaderboard, with 2% higher of mAP than the second best method. The source code in PyTorch is available at https://github.com/G orilla-Lab-SCUT/SSTN et.
翻訳日:2021-08-18 13:21:09 公開日:2021-08-17
# G-DetKD:Contrastive and Semantic-Guided Feature Imitationによるオブジェクト検出のための汎用蒸留フレームワーク

G-DetKD: Towards General Distillation Framework for Object Detectors via Contrastive and Semantic-guided Feature Imitation ( http://arxiv.org/abs/2108.07482v1 )

ライセンス: Link先を確認
Lewei Yao, Renjie Pi, Hang Xu, Wei Zhang, Zhenguo Li, Tong Zhang(参考訳) 本稿では,物体検出のための知識蒸留(KD)戦略について検討し,同質および異質な学生-教師ペアに適用可能な効果的な枠組みを提案する。 従来の特徴模倣パラダイムでは,背景雑音を除いた情報的前景に注目する模擬マスクを導入している。 しかし,これらの手法はすべての特徴ピラミッドレベルの意味情報を十分に活用することができず,FPN検出器間の知識蒸留の効率が低下することが判明した。 そこで本研究では,すべてのピラミッドレベルにまたがる特徴ペア間のソフトマッチングを自動実行し,学生に最適な指導を与える,意味論的特徴模倣手法を提案する。 さらに包み込みを推し進めるために,異なる特徴領域間の関係で符号化された情報を効果的に捉えるために,コントラスト蒸留を導入する。 最後に,均質検出器対と不均一検出器対の両方を蒸留可能な一般化検出kdパイプラインを提案する。 本手法は,既存の検出kd手法を一貫して上回っており,(1)フレームワーク内のコンポーネントを分離して,(2)均質かつ異種な学生・教師ペア,(3)複数検出ベンチマークで使用する場合に有効である。 教師としての強力なX101-FasterRCNN-Inst aboost検出器により、R50-FasterRCNNは44.0% AP、R50-RetinaNetは43.3% AP、R50-FCOSは43.1% APに達する。

In this paper, we investigate the knowledge distillation (KD) strategy for object detection and propose an effective framework applicable to both homogeneous and heterogeneous student-teacher pairs. The conventional feature imitation paradigm introduces imitation masks to focus on informative foreground areas while excluding the background noises. However, we find that those methods fail to fully utilize the semantic information in all feature pyramid levels, which leads to inefficiency for knowledge distillation between FPN-based detectors. To this end, we propose a novel semantic-guided feature imitation technique, which automatically performs soft matching between feature pairs across all pyramid levels to provide the optimal guidance to the student. To push the envelop even further, we introduce contrastive distillation to effectively capture the information encoded in the relationship between different feature regions. Finally, we propose a generalized detection KD pipeline, which is capable of distilling both homogeneous and heterogeneous detector pairs. Our method consistently outperforms the existing detection KD techniques, and works when (1) components in the framework are used separately and in conjunction; (2) for both homogeneous and heterogenous student-teacher pairs and (3) on multiple detection benchmarks. With a powerful X101-FasterRCNN-Inst aboost detector as the teacher, R50-FasterRCNN reaches 44.0% AP, R50-RetinaNet reaches 43.3% AP and R50-FCOS reaches 43.1% AP on COCO dataset.
翻訳日:2021-08-18 13:20:38 公開日:2021-08-17
# エッジ強化型3次元IOU損失で訓練した高密度シームズU-Net

A Dense Siamese U-Net trained with Edge Enhanced 3D IOU Loss for Image Co-segmentation ( http://arxiv.org/abs/2108.07491v1 )

ライセンス: Link先を確認
Xi Liu, Xiabi Liu, Huiyu Li, Xiaopeng Gong(参考訳) 画像のコセグメンテーションはコンピュータビジョンコミュニティで多くの注目を集めている。 本稿では,siamese u-netのデコーダパスに密接な接続を導入することにより,画像共セグメンテーションへの新たなアプローチを提案し,距離マップ上で測定した新しいエッジ強化3次元iou損失を提案する。 符号付き正規化距離マップ(SNDM)と二値分割マスクとの厳密なマッピングを考慮し、元の画像から直接SNDMを推定し、分割結果を決定する。 本稿では,この問題を解決するために,シームズU-netを適用し,各層をデコーダパス内の後続層と密結合することにより,その有効性を向上させる。 さらに、生成されたSNDMとラベル付きSNDMとの3次元結合(IOU)を測定するために、新たな学習損失が設計された。 画像のコセグメンテーションによく用いられるデータセットを用いた実験結果から, 提案した高密度構造の有効性と, SNDMの3次元IOU損失の改善効果が示された。 私たちの知る限りでは、インターネットとiCosegデータセットの最先端のパフォーマンスにつながります。

Image co-segmentation has attracted a lot of attentions in computer vision community. In this paper, we propose a new approach to image co-segmentation through introducing the dense connections into the decoder path of Siamese U-net and presenting a new edge enhanced 3D IOU loss measured over distance maps. Considering the rigorous mapping between the signed normalized distance map (SNDM) and the binary segmentation mask, we estimate the SNDMs directly from original images and use them to determine the segmentation results. We apply the Siamese U-net for solving this problem and improve its effectiveness by densely connecting each layer with subsequent layers in the decoder path. Furthermore, a new learning loss is designed to measure the 3D intersection over union (IOU) between the generated SNDMs and the labeled SNDMs. The experimental results on commonly used datasets for image co-segmentation demonstrate the effectiveness of our presented dense structure and edge enhanced 3D IOU loss of SNDM. To our best knowledge, they lead to the state-of-the-art performance on the Internet and iCoseg datasets.
翻訳日:2021-08-18 13:20:09 公開日:2021-08-17
# 広範かつ実用的なhccスクリーニングのためのフレキシブル3次元ヘテロフェーズct肝細胞癌検出アルゴリズム

A Flexible Three-Dimensional Hetero-phase Computed Tomography Hepatocellular Carcinoma (HCC) Detection Algorithm for Generalizable and Practical HCC Screening ( http://arxiv.org/abs/2108.07492v1 )

ライセンス: Link先を確認
Chi-Tung Cheng, Jinzheng Cai, Wei Teng, Youjing Zheng, YuTing Huang, Yu-Chao Wang, Chien-Wei Peng, Youbao Tang, Wei-Chen Lee, Ta-Sen Yeh, Jing Xiao, Le Lu, Chien-Hung Liao, Adam P. Harrison(参考訳) 肝細胞癌(HCC)は、様々な臨床シナリオにおける腹部CT研究、例えば、フルダイナミックコントラスト増強(DCE)研究、非コントラスト(NC)+静脈相(VP)腹部研究、NCのみの研究から発見される可能性がある。 我々は, コントラスト位相入力の任意の組み合わせを受け入れ, 臨床目的に応じて感度を調整可能な, 異相体積検出(HPVD)と呼ばれる柔軟な3次元深度アルゴリズムを開発した。 我々は771 DCE CTでHPVDをトレーニングし,HCCを検出,外部164陽性と206コントロールで検査した。 対象は, 放射線科医2名, 肝-膵-胆道外科医2名, 肝医2名である。 ncのみ,nc+vp,full dce ctのローカライズ受信機動作特性(lroc)の曲線下領域(auc)はそれぞれ0.071, 0.81, 0.89であった。 DCE CTの高感度操作点80%において,HPVDは97%の特異性を示した。 また,より典型的で柔軟性の低い非ヘテロ相検出器の性能改善を示す。 そこで本研究では,HCC検出臨床シナリオに対して,単一の深層学習アルゴリズムを効果的に適用できることを実証した。

Hepatocellular carcinoma (HCC) can be potentially discovered from abdominal computed tomography (CT) studies under varied clinical scenarios, e.g., fully dynamic contrast enhanced (DCE) studies, non-contrast (NC) plus venous phase (VP) abdominal studies, or NC-only studies. We develop a flexible three-dimensional deep algorithm, called hetero-phase volumetric detection (HPVD), that can accept any combination of contrast-phase inputs and with adjustable sensitivity depending on the clinical purpose. We trained HPVD on 771 DCE CT scans to detect HCCs and tested on external 164 positives and 206 controls, respectively. We compare performance against six clinical readers, including two radiologists, two hepato-pancreatico-b iliary (HPB) surgeons, and two hepatologists. The area under curve (AUC) of the localization receiver operating characteristic (LROC) for NC-only, NC plus VP, and full DCE CT yielded 0.71, 0.81, 0.89 respectively. At a high sensitivity operating point of 80% on DCE CT, HPVD achieved 97% specificity, which is comparable to measured physician performance. We also demonstrate performance improvements over more typical and less flexible non hetero-phase detectors. Thus, we demonstrate that a single deep learning algorithm can be effectively applied to diverse HCC detection clinical scenarios.
翻訳日:2021-08-18 13:19:49 公開日:2021-08-17
# MV-TON: メモリベースの仮想トライオンネットワーク

MV-TON: Memory-based Video Virtual Try-on network ( http://arxiv.org/abs/2108.07502v1 )

ライセンス: Link先を確認
Xiaojing Zhong, Zhonghua Wu, Taizhe Tan, Guosheng Lin, Qingyao Wu(参考訳) Generative Adversarial Networkの開発により、画像ベースの仮想試行法は大きな進歩を遂げた。 しかし,実際のアプリケーションでは,ビデオベースの仮想試行作業が重要でありながら,限定的な作業が求められている。 既存のビデオベースの仮想試行法の多くは、通常衣服のテンプレートを必要とし、ぼやけた結果と低解像度の結果しか生成できない。 そこで,本稿では,被服テンプレートを使わずに,被服を被写体にシームレスに転送し,高精細なリアルビデオを生成するメモリベースビデオ仮想トライオンネットワーク(mv-ton)を提案する。 特に、MV-TONは、2つのモジュールから構成される。1)モデル画像からフレーム画像へ所望の衣服をポーズアライメントし、ピクセルを領域的に置き換える試着モジュール、2)既存の生成されたフレームを潜在空間に埋め込み、後続のフレーム生成のための外部メモリとして学習するメモリリファインメントモジュール。 実験により,ビデオ仮想試行課題における本手法の有効性と,既存の方法よりも優れていることを示す。

With the development of Generative Adversarial Network, image-based virtual try-on methods have made great progress. However, limited work has explored the task of video-based virtual try-on while it is important in real-world applications. Most existing video-based virtual try-on methods usually require clothing templates and they can only generate blurred and low-resolution results. To address these challenges, we propose a Memory-based Video virtual Try-On Network (MV-TON), which seamlessly transfers desired clothes to a target person without using any clothing templates and generates high-resolution realistic videos. Specifically, MV-TON consists of two modules: 1) a try-on module that transfers the desired clothes from model images to frame images by pose alignment and region-wise replacing of pixels; 2) a memory refinement module that learns to embed the existing generated frames into the latent space as external memory for the following frame generation. Experimental results show the effectiveness of our method in the video virtual try-on task and its superiority over other existing methods.
翻訳日:2021-08-18 13:19:21 公開日:2021-08-17
# 長尾物体検出における分類平衡の検討

Exploring Classification Equilibrium in Long-Tailed Object Detection ( http://arxiv.org/abs/2108.07507v1 )

ライセンス: Link先を確認
Chengjian Feng, Yujie Zhong and Weilin Huang(参考訳) 従来の検出器は、トレーニングデータの分布が著しく歪んだ場合、不均衡な分類と性能低下を被る傾向にある。 本稿では,学習中の各カテゴリの分類精度を示すために,平均分類スコアを提案する。 この指標に基づき、EBL(Equilibrium Loss)とMFS(Memory-augmented Feature Sampling)法による分類のバランスをとる。 具体的には、eblは2つのクラス間のスコア誘導損失マージンによって、弱いクラスの決定境界の調整の強度を増加させる。 一方、MFSは、これらのクラスのインスタンス特徴をオーバーサンプリングすることで、弱いクラスに対する決定境界の調整の頻度と精度を向上させる。 したがって, EBL と MFS は, ロングテール検出における分類平衡の発見と, ヘッドクラスの維持・改善を図りながら, テールクラスの性能を劇的に向上させる。 提案手法の優位性を示すために,ResNet-50-FPNやResNet-101-FPNなどのバックボーンを用いたMask R-CNNを用いたLVIS実験を行った。 尾クラスの検知性能を15.6 APで改善し、最新の長い尾を持つ物体検出器を1 AP以上で上回っている。 コードはhttps://github.com/f cjian/loceで入手できる。

The conventional detectors tend to make imbalanced classification and suffer performance drop, when the distribution of the training data is severely skewed. In this paper, we propose to use the mean classification score to indicate the classification accuracy for each category during training. Based on this indicator, we balance the classification via an Equilibrium Loss (EBL) and a Memory-augmented Feature Sampling (MFS) method. Specifically, EBL increases the intensity of the adjustment of the decision boundary for the weak classes by a designed score-guided loss margin between any two classes. On the other hand, MFS improves the frequency and accuracy of the adjustment of the decision boundary for the weak classes through over-sampling the instance features of those classes. Therefore, EBL and MFS work collaboratively for finding the classification equilibrium in long-tailed detection, and dramatically improve the performance of tail classes while maintaining or even improving the performance of head classes. We conduct experiments on LVIS using Mask R-CNN with various backbones including ResNet-50-FPN and ResNet-101-FPN to show the superiority of the proposed method. It improves the detection performance of tail classes by 15.6 AP, and outperforms the most recent long-tailed object detectors by more than 1 AP. Code is available at https://github.com/f cjian/LOCE.
翻訳日:2021-08-18 13:19:01 公開日:2021-08-17
# LIF-Seg:3次元LiDARセマンティックセグメンテーションのためのLiDARとカメラ画像融合

LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic Segmentation ( http://arxiv.org/abs/2108.07511v1 )

ライセンス: Link先を確認
Lin Zhao, Hui Zhou, Xinge Zhu, Xiao Song, Hongsheng Li, Wenbing Tao(参考訳) カメラと3dlidarセンサーは、現代の自動運転車では必須のデバイスとなり、カメラは細かいテクスチャと2d空間のカラー情報を提供し、lidarは周囲の環境をより正確に、より遠距離で測定する。 この2つのセンサーの相補的な情報によって、2つのモードの融合が望ましい選択肢となる。 しかし、カメラとライダーの融合の2つの大きな問題は、その性能を阻害している: \ie、これらの2つのモダリティを効果的に融合する方法と、それらを正確に調整する方法(弱い時空間同期問題による)である。 本稿では,LiDARセグメンテーションのための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。 最初の問題として,従来の点群と画像情報を1対1で融合する作業とは異なり,提案手法は画像の文脈情報を完全に活用し,単純かつ効果的な早期融合戦略を導入する。 第二に、時空間同期の弱い問題により、これらの2つのモードの特徴を整合させるオフセット補正手法が設計されている。 これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。 nuScenesデータセットの実験結果から,提案したLIF-Segが既存の手法よりも大きなマージンを持つことを示す。 アブレーション研究と解析により,提案したLIF-Segは時空間同期の弱い問題に効果的に対処できることが示されている。

Camera and 3D LiDAR sensors have become indispensable devices in modern autonomous driving vehicles, where the camera provides the fine-grained texture, color information in 2D space and LiDAR captures more precise and farther-away distance measurements of the surrounding environments. The complementary information from these two sensors makes the two-modality fusion be a desired option. However, two major issues of the fusion between camera and LiDAR hinder its performance, \ie, how to effectively fuse these two modalities and how to precisely align them (suffering from the weak spatiotemporal synchronization problem). In this paper, we propose a coarse-to-fine LiDAR and camera fusion-based network (termed as LIF-Seg) for LiDAR segmentation. For the first issue, unlike these previous works fusing the point cloud and image information in a one-to-one manner, the proposed method fully utilizes the contextual information of images and introduces a simple but effective early-fusion strategy. Second, due to the weak spatiotemporal synchronization problem, an offset rectification approach is designed to align these two-modality features. The cooperation of these two components leads to the success of the effective camera-LiDAR fusion. Experimental results on the nuScenes dataset show the superiority of the proposed LIF-Seg over existing methods with a large margin. Ablation studies and analyses demonstrate that our proposed LIF-Seg can effectively tackle the weak spatiotemporal synchronization problem.
翻訳日:2021-08-18 13:18:36 公開日:2021-08-17
# 教師なし測地保存生成逆ネットワークによる3次元ポーズ伝達

Unsupervised Geodesic-preserved Generative Adversarial Networks for Unconstrained 3D Pose Transfer ( http://arxiv.org/abs/2108.07520v1 )

ライセンス: Link先を確認
Haoyu Chen, Hao Tang, Henglin Shi, Wei Peng, Nicu Sebe, Guoying Zhao(参考訳) 深層生成モデルの強さにより、3Dポーズ転送は近年、集中的な研究関心を取り戻している。 既存の手法は主に3Dメッシュ上でのポーズ転送を実現するための様々な制約に依存している。 本稿では,任意の任意の3次元メッシュ間のポーズ転送を行うための教師なしアプローチを提案する。 具体的には、内因性(形状)と外因性(ポーズ)の両方の情報保存について、新規な内因性・外因性・外因性関連ネットワーク(IEP-GAN)を提示する。 本質的に,メッシュの異なるラプラシアンから構造・配置不変性を捉えるための共起判別器を提案する。 一方,局所的内在的保存損失は,重計算を回避しながら測地前兆を保存するために導入された。 最後に, iep-ganを用いて, ポーズの移動, アイデンティティ交換, ポーズ補間, 潜在コードベクトル演算など, 様々な方法で3次元メッシュを操作する可能性を示す。 ヒト、動物、手の様々な3Dデータセットに関する広範な実験は、我々のアプローチの汎用性を質的かつ定量的に実証している。 提案手法は,最近の最先端手法と比較して,より優れた結果が得られる。 コードはhttps://github.com/m ikecheninoulu/unsupe rvised_iepgan.com/。

With the strength of deep generative models, 3D pose transfer regains intensive research interests in recent years. Existing methods mainly rely on a variety of constraints to achieve the pose transfer over 3D meshes, e.g., the need for the manually encoding for shape and pose disentanglement. In this paper, we present an unsupervised approach to conduct the pose transfer between any arbitrate given 3D meshes. Specifically, a novel Intrinsic-Extrinsic Preserved Generative Adversarial Network (IEP-GAN) is presented for both intrinsic (i.e., shape) and extrinsic (i.e., pose) information preservation. Extrinsically, we propose a co-occurrence discriminator to capture the structural/pose invariance from distinct Laplacians of the mesh. Meanwhile, intrinsically, a local intrinsic-preserved loss is introduced to preserve the geodesic priors while avoiding the heavy computations. At last, we show the possibility of using IEP-GAN to manipulate 3D human meshes in various ways, including pose transfer, identity swapping and pose interpolation with latent code vector arithmetic. The extensive experiments on various 3D datasets of humans, animals and hands qualitatively and quantitatively demonstrate the generality of our approach. Our proposed model produces better results and is substantially more efficient compared to recent state-of-the-art methods. Code is available: https://github.com/m ikecheninoulu/Unsupe rvised_IEPGAN.
翻訳日:2021-08-18 13:18:11 公開日:2021-08-17
# DR{\AE}M -- 表面異常検出のための識別訓練された再構成埋め込み

DR{\AE}M -- A discriminatively trained reconstruction embedding for surface anomaly detection ( http://arxiv.org/abs/2108.07610v1 )

ライセンス: Link先を確認
Vitjan Zavrtanik, Matej Kristan, Danijel Sko\v{c}aj(参考訳) 視覚表面異常検出は、正常な外観から著しくずれる局所的な画像領域を検出することを目的としている。 最近の表面異常検出法は、正常領域を正確に再構成し、異常に失敗するために生成モデルに依存する。 これらの手法は異常のない画像のみに訓練され、異常をローカライズするために手作りのポストプロセッシングステップが必要であり、最大検出能力のために特徴抽出を最適化することを禁止している。 再構成手法に加えて, 主に識別問題として表面異常検出を行い, 識別訓練された再構成異常埋め込みモデル (DRAEM) を提案する。 提案手法は,異常な画像と異常のない画像の同時表現とを学習し,正規例と異常例の判定境界を同時に学習する。 本手法は,ネットワーク出力の複雑な後処理を必要とせずに直接異常局所化が可能であり,単純かつ一般的な異常シミュレーションを用いて訓練することができる。 挑戦的なMVTec異常検出データセットでは、DRAEMは現在の最先端の非教師付き手法を大きなマージンで上回り、広く使用されているDAGM表面欠陥検出データセットの完全な教師付き手法に近い検出性能を達成し、ローカライズ精度で大幅に上回ります。

Visual surface anomaly detection aims to detect local image regions that significantly deviate from normal appearance. Recent surface anomaly detection methods rely on generative models to accurately reconstruct the normal areas and to fail on anomalies. These methods are trained only on anomaly-free images, and often require hand-crafted post-processing steps to localize the anomalies, which prohibits optimizing the feature extraction for maximal detection capability. In addition to reconstructive approach, we cast surface anomaly detection primarily as a discriminative problem and propose a discriminatively trained reconstruction anomaly embedding model (DRAEM). The proposed method learns a joint representation of an anomalous image and its anomaly-free reconstruction, while simultaneously learning a decision boundary between normal and anomalous examples. The method enables direct anomaly localization without the need for additional complicated post-processing of the network output and can be trained using simple and general anomaly simulations. On the challenging MVTec anomaly detection dataset, DRAEM outperforms the current state-of-the-art unsupervised methods by a large margin and even delivers detection performance close to the fully-supervised methods on the widely used DAGM surface-defect detection dataset, while substantially outperforming them in localization accuracy.
翻訳日:2021-08-18 13:17:48 公開日:2021-08-17
# ドメイン分離を用いた全日画像の自己教師付き単眼深度推定

Self-supervised Monocular Depth Estimation for All Day Images using Domain Separation ( http://arxiv.org/abs/2108.07628v1 )

ライセンス: Link先を確認
Lina Liu, Xibin Song, Mengmeng Wang, Yong Liu and Liangjun Zhang(参考訳) DCNNをベースとした自己教師型深度推定手法により, 顕著な結果が得られた。 しかし,これらの手法のほとんどは日中・夜のどちらの画像も扱えるが,大きな領域シフトと日夜の照明の変動により,日中画像のパフォーマンスは低下する。 これらの制約を緩和するために,全日画像の自己教師付き深度推定のためのドメイン分離ネットワークを提案する。 具体的には、乱用語(照明等)の悪影響を緩和する。 ) 昼夜画像対の情報を2つの補完的な部分空間に分割する: プライベート領域と不変領域、前者はユニークな情報(照明など)を含む。 昼夜画像のうち、後者は本質的な共有情報(テキスト等)を含んでいる。 一方、昼夜画像が同一情報を含むことを保証するため、ドメイン分離ネットワークは、昼夜画像と対応する夜間画像(ganにより生成)を入力とし、ドメインギャップを緩和できる直交性及び類似性損失により、プライベートおよび不変特徴抽出器を学習し、より良好な深度マップを期待できる。 一方、補間情報や深度マップを効果的に推定するために、復元と測光損失を利用する。 実験の結果,提案手法は,オックスフォード・ロボカー・データセット上での1日当たりの深度推定結果を達成し,提案手法の優位性を実証した。

Remarkable results have been achieved by DCNN based self-supervised depth estimation approaches. However, most of these approaches can only handle either day-time or night-time images, while their performance degrades for all-day images due to large domain shift and the variation of illumination between day and night images. To relieve these limitations, we propose a domain-separated network for self-supervised depth estimation of all-day images. Specifically, to relieve the negative influence of disturbing terms (illumination, etc.), we partition the information of day and night image pairs into two complementary sub-spaces: private and invariant domains, where the former contains the unique information (illumination, etc.) of day and night images and the latter contains essential shared information (texture, etc.). Meanwhile, to guarantee that the day and night images contain the same information, the domain-separated network takes the day-time images and corresponding night-time images (generated by GAN) as input, and the private and invariant feature extractors are learned by orthogonality and similarity loss, where the domain gap can be alleviated, thus better depth maps can be expected. Meanwhile, the reconstruction and photometric losses are utilized to estimate complementary information and depth maps effectively. Experimental results demonstrate that our approach achieves state-of-the-art depth estimation results for all-day images on the challenging Oxford RobotCar dataset, proving the superiority of our proposed approach.
翻訳日:2021-08-18 13:17:24 公開日:2021-08-17
# セマンティックセグメンテーションにおけるRGBとLiDAR融合の評価

An Evaluation of RGB and LiDAR Fusion for Semantic Segmentation ( http://arxiv.org/abs/2108.07661v1 )

ライセンス: Link先を確認
Amr S. Mohamed, Ali Abdelkader, Mohamed Anany, Omar El-Behady, Muhammad Faisal, Asser Hangal, Hesham M. Eraqi, Mohamed N. Moustafa(参考訳) LiDARとカメラは、多くの発表された自動運転車のプロトタイプに搭載される予定の2つの主要センサーである。 この2つはそれぞれ、異なる視点から周囲の環境まで、ユニークな形式のデータを提供する。 本稿では,この2つの形態のデータを,自律運転の文脈における意味セグメンテーションの目的に活用することで,さらなるメリットがあるか,という問いへの答えを探究する。 また、どのレベルが核融合が最も有用かを示そうと試みている。 我々はsemantickittiデータセット上でアルゴリズムを評価した。 全ての核融合モデルはベースモデルよりも改善され、中間核融合は平均核融合(mIoU)距離において2.7%の最高の改善を示す。

LiDARs and cameras are the two main sensors that are planned to be included in many announced autonomous vehicles prototypes. Each of the two provides a unique form of data from a different perspective to the surrounding environment. In this paper, we explore and attempt to answer the question: is there an added benefit by fusing those two forms of data for the purpose of semantic segmentation within the context of autonomous driving? We also attempt to show at which level does said fusion prove to be the most useful. We evaluated our algorithms on the publicly available SemanticKITTI dataset. All fusion models show improvements over the base model, with the mid-level fusion showing the highest improvement of 2.7% in terms of mean Intersection over Union (mIoU) metric.
翻訳日:2021-08-18 13:16:58 公開日:2021-08-17
# 画像生成における教師なし乱れに対する直交ヤコビアン正則化

Orthogonal Jacobian Regularization for Unsupervised Disentanglement in Image Generation ( http://arxiv.org/abs/2108.07668v1 )

ライセンス: Link先を確認
Yuxiang Wei, Yupeng Shi, Xiao Liu, Zhilong Ji, Yuan Gao, Zhongqin Wu, Wangmeng Zuo(参考訳) 教師なしのジエンタングルメント学習は、深層生成モデルの理解と活用において重要な問題である。 近年、SeFaは、事前訓練されたGANの第1射影に対してSVDを実行することで、遅延不整合方向を見つけようとする。 しかし、それは第一層にのみ適用され、後処理の方法で機能する。 ヘシアン・ペナルティは出力のヘシアン行列の対角線外成分を最小化して解離を容易にし、多層体に適用することができるが、出力の各エントリを独立に制限し、潜伏方向(例えば、形状、大きさ、回転など)を遠ざけるには不十分である。 空間的に相関した変化です 本稿では,直交ジャコビアン正規化法(OroJaR)を提案する。 これは単に異なる潜在次元の摂動によって生じる出力の変動を直交することを奨励し、入力に関するヤコビアンはこの変動を表現するために計算される。 我々のオロジャルは出力のヘッセン行列が間接的に対角的であることも示している。 ヘッセンのペナルティとは対照的に、我々のオロジャルは出力を全体論的に制約し、空間的に関連付けられた変動に対応する潜在次元を分離するのに非常に効果的である。 定量的および定性的な実験結果から,本手法は画像生成の切り離しや制御に有効であり,最先端の手法に対して良好に機能することが示された。 私たちのコードはhttps://github.com/c syxwei/OroJaRで利用可能です。

Unsupervised disentanglement learning is a crucial issue for understanding and exploiting deep generative models. Recently, SeFa tries to find latent disentangled directions by performing SVD on the first projection of a pre-trained GAN. However, it is only applied to the first layer and works in a post-processing way. Hessian Penalty minimizes the off-diagonal entries of the output's Hessian matrix to facilitate disentanglement, and can be applied to multi-layers.However , it constrains each entry of output independently, making it not sufficient in disentangling the latent directions (e.g., shape, size, rotation, etc.) of spatially correlated variations. In this paper, we propose a simple Orthogonal Jacobian Regularization (OroJaR) to encourage deep generative model to learn disentangled representations. It simply encourages the variation of output caused by perturbations on different latent dimensions to be orthogonal, and the Jacobian with respect to the input is calculated to represent this variation. We show that our OroJaR also encourages the output's Hessian matrix to be diagonal in an indirect manner. In contrast to the Hessian Penalty, our OroJaR constrains the output in a holistic way, making it very effective in disentangling latent dimensions corresponding to spatially correlated variations. Quantitative and qualitative experimental results show that our method is effective in disentangled and controllable image generation, and performs favorably against the state-of-the-art methods. Our code is available at https://github.com/c syxwei/OroJaR
翻訳日:2021-08-18 13:16:47 公開日:2021-08-17
# 点に基づく教師付きパンオプティカルセグメンテーションのための完全畳み込みネットワーク

Fully Convolutional Networks for Panoptic Segmentation with Point-based Supervision ( http://arxiv.org/abs/2108.07682v1 )

ライセンス: Link先を確認
Yanwei Li, Hengshuang Zhao, Xiaojuan Qi, Yukang Chen, Lu Qi, Liwei Wang, Zeming Li, Jian Sun, Jiaya Jia(参考訳) 本稿では,Panoptic FCNと呼ばれる,完全かつ弱教師付きパノプティカルセグメンテーションのための概念的,シンプルで,強力で,効率的なフレームワークを提案する。 当社のアプローチは,ポイントベースの完全あるいは弱い監視で最適化可能な,統一的な畳み込みパイプラインで,フォアグラウンドやバックグラウンドを表現および予測することを目的としています。 特に、Panoptic FCNは、提案したカーネルジェネレータに各オブジェクトインスタンスまたは物カテゴリをエンコードし、高解像度の機能を直接変換することで予測を生成する。 このアプローチでは、インスタンス認識と、物や物のセマンティクス的に一貫した特性は、単純な生成-カーネル-セグメンテーションワークフローでそれぞれ満足できます。 ローカライズやインスタンス分離のための余分なボックスがなければ、提案手法は、以前のboxベースおよび-freeモデルよりも効率が良い。 さらに,弱教師付きパンオプティカルセグメンテーションのための点に基づく新しいアノテーションを提案する。 物と物の両方にランダムなポイントしか必要とせず、人間のアノテーションコストを大幅に削減します。 提案されたPanoptic FCNは、この弱教師付きセッティングにおいて非常に優れた性能を示しており、1インスタンスあたり20の無作為なアノテートポイントしか持たない完全教師付き性能の82%を達成している。 大規模な実験では、COCO、VOC 2012、Cityscapes、Mapillary Vistasデータセットに対するPanoptic FCNの有効性と効率が示されている。 また、完全な教師付きpanopticセグメンテーションと弱い教師付きpanopticセグメンテーションの両方のための新しいリードベンチマークも設定している。 私たちのコードとモデルはhttps://github.com/d vlab-research/Panopt icFCNで公開されています。

In this paper, we present a conceptually simple, strong, and efficient framework for fully- and weakly-supervised panoptic segmentation, called Panoptic FCN. Our approach aims to represent and predict foreground things and background stuff in a unified fully convolutional pipeline, which can be optimized with point-based fully or weak supervision. In particular, Panoptic FCN encodes each object instance or stuff category with the proposed kernel generator and produces the prediction by convolving the high-resolution feature directly. With this approach, instance-aware and semantically consistent properties for things and stuff can be respectively satisfied in a simple generate-kernel-then -segment workflow. Without extra boxes for localization or instance separation, the proposed approach outperforms the previous box-based and -free models with high efficiency. Furthermore, we propose a new form of point-based annotation for weakly-supervised panoptic segmentation. It only needs several random points for both things and stuff, which dramatically reduces the annotation cost of human. The proposed Panoptic FCN is also proved to have much superior performance in this weakly-supervised setting, which achieves 82% of the fully-supervised performance with only 20 randomly annotated points per instance. Extensive experiments demonstrate the effectiveness and efficiency of Panoptic FCN on COCO, VOC 2012, Cityscapes, and Mapillary Vistas datasets. And it sets up a new leading benchmark for both fully- and weakly-supervised panoptic segmentation. Our code and models are made publicly available at https://github.com/d vlab-research/Panopt icFCN
翻訳日:2021-08-18 13:16:20 公開日:2021-08-17
# 自律運転用ハイブリッドスパース距離単分子SLAMシステム

A Hybrid Sparse-Dense Monocular SLAM System for Autonomous Driving ( http://arxiv.org/abs/2108.07736v1 )

ライセンス: Link先を確認
Louis Gallagher, Varun Ravi Kumar, Senthil Yogamani and John B. McDonald(参考訳) 本稿では,移動車に装着した単眼カメラを用いて,屋外環境の形状の高密度な3次元モデルを漸進的に再構築するシステムを提案する。 センスモデルは、より高度なシーン理解、認識、計画を容易にする環境の豊かな表現を提供する。 本システムでは,最先端のスパース特徴と高密度融合型視覚SLAMアルゴリズムを組み合わせたハイブリッドマッピングアーキテクチャを用いて深度予測を行う。 我々の新しい貢献には、ハイブリッドスパース距離カメラトラッキングとループ閉鎖の設計、深度予測におけるスケール推定の改善が含まれる。 本研究では,sparse法による運動推定を用いて,屋外車両シナリオに典型的な大型および可変フレーム間変位を克服する。 そして,全画像アライメントを用いてライブ画像を高密度モデルに登録する。 これにより、ライブフレームの融合とモデルへの深度予測が可能になる。 疎度モデルの変形に直接スパース法からのポーズ制約を適用することにより、疎度モデルと密度モデルの大域的整合性と整合性を実現する。 我々は,KITTIデータセット上での競合性能を実証し,軌道推定と表面再構成の精度の両面で定性的かつ定量的に評価した。 提案手法の質的な結果が https://youtu.be/pn2 uavqjsky に示されている。 プロジェクトのソースコードは、以下のリポジトリ https://github.com/r obotvisionmu/DenseMo noSLAM.comで公開されている。

In this paper, we present a system for incrementally reconstructing a dense 3D model of the geometry of an outdoor environment using a single monocular camera attached to a moving vehicle. Dense models provide a rich representation of the environment facilitating higher-level scene understanding, perception, and planning. Our system employs dense depth prediction with a hybrid mapping architecture combining state-of-the-art sparse features and dense fusion-based visual SLAM algorithms within an integrated framework. Our novel contributions include design of hybrid sparse-dense camera tracking and loop closure, and scale estimation improvements in dense depth prediction. We use the motion estimates from the sparse method to overcome the large and variable inter-frame displacement typical of outdoor vehicle scenarios. Our system then registers the live image with the dense model using whole-image alignment. This enables the fusion of the live frame and dense depth prediction into the model. Global consistency and alignment between the sparse and dense models are achieved by applying pose constraints from the sparse method directly within the deformation of the dense model. We provide qualitative and quantitative results for both trajectory estimation and surface reconstruction accuracy, demonstrating competitive performance on the KITTI dataset. Qualitative results of the proposed approach are illustrated in https://youtu.be/Pn2 uaVqjskY. Source code for the project is publicly available at the following repository https://github.com/r obotvisionmu/DenseMo noSLAM.
翻訳日:2021-08-18 13:15:51 公開日:2021-08-17
# TOOD:タスク整列型ワンステージオブジェクト検出

TOOD: Task-aligned One-stage Object Detection ( http://arxiv.org/abs/2108.07755v1 )

ライセンス: Link先を確認
Chengjian Feng, Yujie Zhong, Yu Gao, Matthew R. Scott and Weilin Huang(参考訳) 1段階の物体検出は2つのサブタスク(オブジェクト分類と局所化)を最適化し、2つの並列枝を持つ頭部を用いて行うことが一般的であり、これは2つのタスク間の予測において一定の空間的不整合をもたらす可能性がある。 本研究では,2つのタスクを学習ベースで明示的に整列するタスク整列1段階オブジェクト検出(TOOD)を提案する。 まず,新しいタスクアライメントヘッド (t-head) の設計を行い,タスクの対話性とタスク固有の特徴の学習と,タスクアライメント予測によるアライメント学習の柔軟性の向上とを両立させる。 第2に,設計したサンプル割り当てスキームとタスクアライメント損失を用いて,トレーニング中の2つのタスクの最適なアンカーを,明示的に接近(あるいは統一)するタスクアライメント学習(tal)を提案する。 大規模な実験はMS-COCOで行われ、TOODはシングルモデル単スケールテストで51.1 APを達成した。 これはATSS (47.7 AP)、GFL (48.2 AP)、PAA (49.0 AP)のような最近の1段検出器をはるかに上回り、パラメータやFLOPは少ない。 定性的な結果は、オブジェクト分類とローカライゼーションのタスクの整合性向上のためのTOODの有効性を示す。 コードはhttps://github.com/f cjian/toodで入手できる。

One-stage object detection is commonly implemented by optimizing two sub-tasks: object classification and localization, using heads with two parallel branches, which might lead to a certain level of spatial misalignment in predictions between the two tasks. In this work, we propose a Task-aligned One-stage Object Detection (TOOD) that explicitly aligns the two tasks in a learning-based manner. First, we design a novel Task-aligned Head (T-Head) which offers a better balance between learning task-interactive and task-specific features, as well as a greater flexibility to learn the alignment via a task-aligned predictor. Second, we propose Task Alignment Learning (TAL) to explicitly pull closer (or even unify) the optimal anchors for the two tasks during training via a designed sample assignment scheme and a task-aligned loss. Extensive experiments are conducted on MS-COCO, where TOOD achieves a 51.1 AP at single-model single-scale testing. This surpasses the recent one-stage detectors by a large margin, such as ATSS (47.7 AP), GFL (48.2 AP), and PAA (49.0 AP), with fewer parameters and FLOPs. Qualitative results also demonstrate the effectiveness of TOOD for better aligning the tasks of object classification and localization. Code is available at https://github.com/f cjian/TOOD.
翻訳日:2021-08-18 13:15:29 公開日:2021-08-17
# 多視点形状を用いた自己教師付き3次元ポーズ推定

Self-Supervised 3D Human Pose Estimation with Multiple-View Geometry ( http://arxiv.org/abs/2108.07777v1 )

ライセンス: Link先を確認
Arij Bouazizi, Julian Wiederer, Ulrich Kressel and Vasileios Belagiannis(参考訳) 本稿では,マルチビューカメラシステムと2次元ボディポーズ推定に基づく1人の3次元人物ポーズ推定のための自己教師付き学習アルゴリズムを提案する。 深層ニューラルネットワークで表現されたモデルのトレーニングを行うため,2Dや3Dのボディポーズをグラウンドトルースとして必要としない4つのロス関数学習アルゴリズムを提案する。 提案する損失関数は,多視点形状を用いて3次元物体のポーズ推定を再構成し,カメラビュー全体に対してボディポーズ制約を課す。 我々のアプローチでは、トレーニング中に利用可能なカメラビューをすべて活用し、推論は単一ビューである。 評価では,Human3.6MベンチマークとHumanEvaベンチマークで有望な性能を示すとともに,MPI-INF-3DHPデータセットの一般化と,いくつかのアブレーション結果を示す。 全体として、教師付き学習手法を全て上回り、教師付きおよび弱教師付き学習アプローチに匹敵する結果を得る。 私たちのコードとモデルは公開されています

We present a self-supervised learning algorithm for 3D human pose estimation of a single person based on a multiple-view camera system and 2D body pose estimates for each view. To train our model, represented by a deep neural network, we propose a four-loss function learning algorithm, which does not require any 2D or 3D body pose ground-truth. The proposed loss functions make use of the multiple-view geometry to reconstruct 3D body pose estimates and impose body pose constraints across the camera views. Our approach utilizes all available camera views during training, while the inference is single-view. In our evaluations, we show promising performance on Human3.6M and HumanEva benchmarks, while we also present a generalization study on MPI-INF-3DHP dataset, as well as several ablation results. Overall, we outperform all self-supervised learning methods and reach comparable results to supervised and weakly-supervised learning approaches. Our code and models are publicly available
翻訳日:2021-08-18 13:15:00 公開日:2021-08-17
# 並列デコーディングによるエンド・ツー・エンドディエンスビデオキャプション

End-to-End Dense Video Captioning with Parallel Decoding ( http://arxiv.org/abs/2108.07781v1 )

ライセンス: Link先を確認
Teng Wang, Ruimao Zhang, Zhichao Lu, Feng Zheng, Ran Cheng, Ping Luo(参考訳) 濃密なビデオキャプションは、ビデオから複数の関連キャプションと時間的位置を生成することを目的としている。 従来の手法は、多くの手作り部品に大きく依存する洗練された「ローカライズ・then-describe」スキームに従っていた。 本稿では,高密度キャプション生成をセット予測タスクとして定式化することにより,並列デコーディング(PDVC)によるエンドツーエンドの高密度キャプションの簡易かつ効果的なフレームワークを提案する。 実際には、トランスデコーダの上部に新たに提案されたイベントカウンタを積み重ねることで、PDVCは、映像コンテンツを包括的に理解した複数のイベントピースに正確に分割し、予測されたキャプションの一貫性と可読性を効果的に向上させる。 Compared with prior arts, the PDVC has several appealing advantages: (1) Without relying on heuristic non-maximum suppression or a recurrent event sequence selection network to remove redundancy, PDVC directly produces an event set with an appropriate size; (2) In contrast to adopting the two-stage scheme, we feed the enhanced representations of event queries into the localization head and caption head in parallel, making these two sub-tasks deeply interrelated and mutually promoted through the optimization; (3) Without bells and whistles, extensive experiments on ActivityNet Captions and YouCook2 show that PDVC is capable of producing high-quality captioning results, surpassing the state-of-the-art two-stage methods when its localization accuracy is on par with them. コードはhttps://github.com/t tengwang/PDVC.comで入手できる。

Dense video captioning aims to generate multiple associated captions with their temporal locations from the video. Previous methods follow a sophisticated "localize-then-descri be" scheme, which heavily relies on numerous hand-crafted components. In this paper, we proposed a simple yet effective framework for end-to-end dense video captioning with parallel decoding (PDVC), by formulating the dense caption generation as a set prediction task. In practice, through stacking a newly proposed event counter on the top of a transformer decoder, the PDVC precisely segments the video into a number of event pieces under the holistic understanding of the video content, which effectively increases the coherence and readability of predicted captions. Compared with prior arts, the PDVC has several appealing advantages: (1) Without relying on heuristic non-maximum suppression or a recurrent event sequence selection network to remove redundancy, PDVC directly produces an event set with an appropriate size; (2) In contrast to adopting the two-stage scheme, we feed the enhanced representations of event queries into the localization head and caption head in parallel, making these two sub-tasks deeply interrelated and mutually promoted through the optimization; (3) Without bells and whistles, extensive experiments on ActivityNet Captions and YouCook2 show that PDVC is capable of producing high-quality captioning results, surpassing the state-of-the-art two-stage methods when its localization accuracy is on par with them. Code is available at https://github.com/t tengwang/PDVC.
翻訳日:2021-08-18 13:14:43 公開日:2021-08-17
# 同一クラスタクエリによるクラスタの学習

Learning to Cluster via Same-Cluster Queries ( http://arxiv.org/abs/2108.07383v1 )

ライセンス: Link先を確認
Yi Li, Yan Song, Qin Zhang(参考訳) 我々は,同一クラスタクエリに応答可能なoracleを用いて,クラスタデータポイントへの学習の問題を研究する。 従来のアプローチと異なり、クラスタの総数は最初から知られており、真のクラスタはK平均のような事前定義された目的関数と一致している必要はないと仮定する。 これらの緩和は実践的観点から批判的であり、一方で問題をより困難にしている。 理論的な保証を証明可能な2つのアルゴリズムを提案し,合成データと実世界データの両方について広範な実験を行い,その有効性を検証する。

We study the problem of learning to cluster data points using an oracle which can answer same-cluster queries. Different from previous approaches, we do not assume that the total number of clusters is known at the beginning and do not require that the true clusters are consistent with a predefined objective function such as the K-means. These relaxations are critical from the practical perspective and, meanwhile, make the problem more challenging. We propose two algorithms with provable theoretical guarantees and verify their effectiveness via an extensive set of experiments on both synthetic and real-world data.
翻訳日:2021-08-18 13:13:59 公開日:2021-08-17
# 機械学習による急性骨髄性白血病の診断

Diagnosis of Acute Myeloid Leukaemia Using Machine Learning ( http://arxiv.org/abs/2108.07396v1 )

ライセンス: Link先を確認
A. Angelakis, I. Soulioti(参考訳) 急性骨髄性白血病や健常者かどうかを分類するために,26個のプローブセットと年齢を用いて2177人の個人を対象とした機械学習モデルを訓練する。 データセットはマルチセントリックで、27の組織、25の都市、15の国、4つの大陸のデータで構成されている。 精度は99.94\%、F1スコアは0.9996である。 我々の知る限りでは、類似データを用いたAMLの予測に関して、我々のモデルの性能は文献の中で最高のものである。 また,本モデルの特徴として用いた26個のプローブセットについて,急性骨髄性白血病に関する文献的言及はない。

We train a machine learning model on a dataset of 2177 individuals using as features 26 probe sets and their age in order to classify if someone has acute myeloid leukaemia or is healthy. The dataset is multicentric and consists of data from 27 organisations, 25 cities, 15 countries and 4 continents. The accuracy or our model is 99.94\% and its F1-score 0.9996. To the best of our knowledge the performance of our model is the best one in the literature, as regards the prediction of AML using similar or not data. Moreover, there has not been any bibliographic reference associated with acute myeloid leukaemia for the 26 probe sets we used as features in our model.
翻訳日:2021-08-18 13:13:49 公開日:2021-08-17
# データとモデル係数の組合せによるメモリ効率因子化マシン

Memory-Efficient Factorization Machines via Binarizing both Data and Model Coefficients ( http://arxiv.org/abs/2108.07421v1 )

ライセンス: Link先を確認
Yu Geng and Liang Lan(参考訳) 特徴の相互作用を線形時間で効率的にモデル化できる一般的な予測器であるFacterization Machines (FM) は、主に協調的な推奨のために提案され、回帰、分類、ランキングタスクに広く利用されている。 sefm(subspace encoding factorization machine)は、各入力特徴に1-hotエンコーディングによる個々の特徴と特徴の相互作用の両方に明示的な非線形特徴マッピングを適用することで、要素化機械(fm)の表現性制限を克服するために最近提案されている。 SEFMの有効性にもかかわらず、FMのメモリコストを$b$倍にし、各入力機能にワンホット符号化を適用する際に、$b$はビンの数である。 本研究では,SEFMのメモリコストを削減するために,モデルパラメータを2進値(例えば 1 または 1 ドル)に制約する Binarized FM という新しい手法を提案する。 そして、各パラメータ値を1ビットに効率的に格納することができる。 提案手法はSEFMモデルのメモリコストを大幅に削減することができる。 さらに,Adagrad (Adaptive Gradient Descent) を用いた Straight Through Estimator (STE) を用いて,2進制約付きFMを効果的かつ効率的に学習するアルゴリズムを提案する。 最後に,提案手法の性能を8種類の分類データセットで評価した。 実験の結果,提案手法はSEFMと同等の精度を達成できるが,メモリコストははるかに少ないことがわかった。

Factorization Machines (FM), a general predictor that can efficiently model feature interactions in linear time, was primarily proposed for collaborative recommendation and have been broadly used for regression, classification and ranking tasks. Subspace Encoding Factorization Machine (SEFM) has been proposed recently to overcome the expressiveness limitation of Factorization Machines (FM) by applying explicit nonlinear feature mapping for both individual features and feature interactions through one-hot encoding to each input feature. Despite the effectiveness of SEFM, it increases the memory cost of FM by $b$ times, where $b$ is the number of bins when applying one-hot encoding on each input feature. To reduce the memory cost of SEFM, we propose a new method called Binarized FM which constraints the model parameters to be binary values (i.e., 1 or $-1$). Then each parameter value can be efficiently stored in one bit. Our proposed method can significantly reduce the memory cost of SEFM model. In addition, we propose a new algorithm to effectively and efficiently learn proposed FM with binary constraints using Straight Through Estimator (STE) with Adaptive Gradient Descent (Adagrad). Finally, we evaluate the performance of our proposed method on eight different classification datasets. Our experimental results have demonstrated that our proposed method achieves comparable accuracy with SEFM but with much less memory cost.
翻訳日:2021-08-18 13:13:40 公開日:2021-08-17
# GCCAD:異常検出のためのグラフコントラスト符号化

GCCAD: Graph Contrastive Coding for Anomaly Detection ( http://arxiv.org/abs/2108.07516v1 )

ライセンス: Link先を確認
Bo Chen, Jing Zhang, Xiaokang Zhang, Yuxiao Dong, Jian Song, Peng Zhang, Kaibo Xu, Evgeny Kharlamov, and Jie Tang(参考訳) グラフに基づく異常検出は、実世界のアプリケーションで悪意のあるアクティビティを検出するために広く使われている。 この問題に対処するための既存の試みは、これまでのところバイナリ分類方式における構造的特徴工学や学習に重点を置いている。 本稿では,グラフのコントラスト符号化を活用し,異常ノードと正常ノードを大域的コンテキスト(例えば,全ノードの平均値)との距離で対比するための教師付きgccadモデルを提案する。 少ないラベルでシナリオを処理するために,合成ノードラベルを生成するためのグラフ劣化戦略を設計することにより,GCCADを自己教師型フレームワークとして活用する。 対照的な目的を達成するため,我々は,メッセージパッシング中に疑わしいリンクを推測し,さらに削除し,入力グラフのグローバルコンテキストを学習できるグラフニューラルネットワークエンコーダを設計した。 我々は、4つの公開データセットに対して広範な実験を行い、1)GCCADは様々な高度なベースラインを著しく上回り、2)微調整なしで自己管理バージョンは完全な教師付きバージョンで同等のパフォーマンスを達成できることを示した。

Graph-based anomaly detection has been widely used for detecting malicious activities in real-world applications. Existing attempts to address this problem have thus far focused on structural feature engineering or learning in the binary classification regime. In this work, we propose to leverage graph contrastive coding and present the supervised GCCAD model for contrasting abnormal nodes with normal ones in terms of their distances to the global context (e.g., the average of all nodes). To handle scenarios with scarce labels, we further enable GCCAD as a self-supervised framework by designing a graph corrupting strategy for generating synthetic node labels. To achieve the contrastive objective, we design a graph neural network encoder that can infer and further remove suspicious links during message passing, as well as learn the global context of the input graph. We conduct extensive experiments on four public datasets, demonstrating that 1) GCCAD significantly and consistently outperforms various advanced baselines and 2) its self-supervised version without fine-tuning can achieve comparable performance with its fully supervised version.
翻訳日:2021-08-18 13:13:17 公開日:2021-08-17
# ディープラーニングのためのスケーリング法則

Scaling Laws for Deep Learning ( http://arxiv.org/abs/2108.07686v1 )

ライセンス: Link先を確認
Jonathan S. Rosenfeld(参考訳) 速く走ることは、今までにない ― 道路がどこに向かっているのかを最初に理解し、それから車を手に入れることは、一般的に推奨される。 機械学習(ML)とディープラーニング(DL)の過去10年間のルネッサンスには計算コストが伴う。 本論文では,コストの根底にあるアルゴリズム的・方法論的制約に対処するための体系的アプローチを提案する。 まず、私たちはDLトレーニングとプルーニングが予測可能であり、アートモデルとタスクの状態、画像分類と言語モデリング、反復プルーニングによるアートモデル圧縮の状態のスケーリング法によって管理されていることを実証した。 予測可能性(predictability)は、これらのスケーリング法則の確立を通じて、原則化された設計とトレードオフ推論の道筋を提供する。 その後、我々はスケーリング法則の源泉を解析し、近似理論的なビューを提供し、DLが実際に低いエラー限界からかなり離れた誤差源に支配されているというノイズのない実現可能なケースの探索を通して示す。 我々は、スケーリングの法則の起源を理論的に理解することで結論づける。 本稿では、データ帯域幅制限仮説とNyquist学習者の導入を通じて、現在支配的なエラー源の1つを排除し、原則として、一般化エラーの低い限界(例えば、Nyquist学習者)に到達できるようにする。 0) で, 有限データセットサイズであった。

Running faster will only get you so far -- it is generally advisable to first understand where the roads lead, then get a car ... The renaissance of machine learning (ML) and deep learning (DL) over the last decade is accompanied by an unscalable computational cost, limiting its advancement and weighing on the field in practice. In this thesis we take a systematic approach to address the algorithmic and methodological limitations at the root of these costs. We first demonstrate that DL training and pruning are predictable and governed by scaling laws -- for state of the art models and tasks, spanning image classification and language modeling, as well as for state of the art model compression via iterative pruning. Predictability, via the establishment of these scaling laws, provides the path for principled design and trade-off reasoning, currently largely lacking in the field. We then continue to analyze the sources of the scaling laws, offering an approximation-theore tic view and showing through the exploration of a noiseless realizable case that DL is in fact dominated by error sources very far from the lower error limit. We conclude by building on the gained theoretical understanding of the scaling laws' origins. We present a conjectural path to eliminate one of the current dominant error sources -- through a data bandwidth limiting hypothesis and the introduction of Nyquist learners -- which can, in principle, reach the generalization error lower limit (e.g. 0 in the noiseless case), at finite dataset size.
翻訳日:2021-08-18 13:12:57 公開日:2021-08-17
# インクリメンタルクラスタ妥当性指標に基づくオンライン学習によるプレゼンテーションオーダへのロバスト性

Incremental cluster validity index-guided online learning for performance and robustness to presentation order ( http://arxiv.org/abs/2108.07743v1 )

ライセンス: Link先を確認
Leonardo Enzo Brito da Silva, Nagasharath Rayapati, Donald C. Wunsch II(参考訳) ストリーミングデータでは,入ってくるサンプルは処理・破棄されるため,生涯学習システムの性能向上には知的意思決定が不可欠である。 さらに、サンプルが到着する順序は、オンライン(およびオフライン)インクリメンタル学習者のパフォーマンスに大きく影響する可能性がある。 最近導入されたインクリメンタルクラスタ妥当性指標(iCVI)は、そのような問題に対処する上で貴重な助けとなる。 彼らの主なユースケースはクラスタの品質監視である。しかしながら、クラスタ化タスク自体を支援するために、ストリーミングクラスタリングメソッドに非常に最近統合されている。 この文脈において、本研究は、非教師なしおよび半教師なしオンライン学習にicvisを用いた最初の適応共鳴理論(art)ベースのモデルを導入する。 さらに、初めてiCVIを使用して、iCVIベースのマッチトラッキング機構を介してART警戒を制御する方法を示す。 このモデルは、オンラインiCVIフレームワークをトポロジカル適応共振理論予測写像(TopoARTMAP)のモジュールBとして統合し、iCVI-TopoARTMAPと命名し、各学習ステップの最後にiCVI駆動の後処理ヒューリスティックを採用することにより、注文効果の精度と堅牢性を向上させる。 オンラインiCVIフレームワークは、複数のiCVIのいずれかに従って、各イテレーションにおけるクラスタへの入力サンプルの割り当てを提供する。 icvi-topoartmapは、安定性、壊滅的な忘れに対する免疫、マップフィールドモジュールによる多対一マッピング機能など、artmapモデルで共有される有用な特性を維持している。 iCVI-TopoARTMAPの性能(教師なし・半教師なし)と提示順序(教師なし)に対する頑健性は,合成データセットと実世界の顔画像データセットの深層埋め込みを用いて評価した。

In streaming data applications incoming samples are processed and discarded, therefore, intelligent decision-making is crucial for the performance of lifelong learning systems. In addition, the order in which samples arrive may heavily affect the performance of online (and offline) incremental learners. The recently introduced incremental cluster validity indices (iCVIs) provide valuable aid in addressing such class of problems. Their primary use-case has been cluster quality monitoring; nonetheless, they have been very recently integrated in a streaming clustering method to assist the clustering task itself. In this context, the work presented here introduces the first adaptive resonance theory (ART)-based model that uses iCVIs for unsupervised and semi-supervised online learning. Moreover, it shows for the first time how to use iCVIs to regulate ART vigilance via an iCVI-based match tracking mechanism. The model achieves improved accuracy and robustness to ordering effects by integrating an online iCVI framework as module B of a topological adaptive resonance theory predictive mapping (TopoARTMAP) -- thereby being named iCVI-TopoARTMAP -- and by employing iCVI-driven post-processing heuristics at the end of each learning step. The online iCVI framework provides assignments of input samples to clusters at each iteration in accordance to any of several iCVIs. The iCVI-TopoARTMAP maintains useful properties shared by ARTMAP models, such as stability, immunity to catastrophic forgetting, and the many-to-one mapping capability via the map field module. The performance (unsupervised and semi-supervised) and robustness to presentation order (unsupervised) of iCVI-TopoARTMAP were evaluated via experiments with a synthetic data set and deep embeddings of a real-world face image data set.
翻訳日:2021-08-18 13:12:31 公開日:2021-08-17
# 多目的sim-to-real学習のためのモノリシック対ハイブリッドコントローラ

Monolithic vs. hybrid controller for multi-objective Sim-to-Real learning ( http://arxiv.org/abs/2108.07514v1 )

ライセンス: Link先を確認
Atakan Dag, Alexandre Angleraud, Wenyan Yang, Nataliya Strokina, Roel S. Pieters, Minna Lanz, Joni-Kristian Kamarainen(参考訳) シミュレーション・トゥ・リアル(Sim-to-Real)は、ロボットタスクのためのコントローラを構築するための魅力的なアプローチである。 Sim-to-Realソリューションの動作は、"ターゲットの取得"のような明確な単一目的のタスクに対して実証されている。 しかし、現実世界のアプリケーションはしばしば「目標に到達」するが「障害を回避」するような複数の同時目的で構成されている。 強化学習(rl)の文脈における直接的な解決策は、複数の目的を多項報酬関数に結合し、1つのモノリシックコントローラを訓練することである。 近年,事前学習した単目的コントローラと,それらの間の切り替えルールに基づくハイブリッドソリューションが提案されている。 本研究では,ロボットマニピュレータの多目的設定における2つのアプローチを比較し,障害物を避けながら目標に到達する。 以上の結果から,ハイブリッドコントローラのトレーニングは容易であり,モノリシックコントローラよりも成功・失敗のトレードオフが得られた。 シミュレーターで訓練されたコントローラは、実際のセットアップによって検証された。

Simulation to real (Sim-to-Real) is an attractive approach to construct controllers for robotic tasks that are easier to simulate than to analytically solve. Working Sim-to-Real solutions have been demonstrated for tasks with a clear single objective such as "reach the target". Real world applications, however, often consist of multiple simultaneous objectives such as "reach the target" but "avoid obstacles". A straightforward solution in the context of reinforcement learning (RL) is to combine multiple objectives into a multi-term reward function and train a single monolithic controller. Recently, a hybrid solution based on pre-trained single objective controllers and a switching rule between them was proposed. In this work, we compare these two approaches in the multi-objective setting of a robot manipulator to reach a target while avoiding an obstacle. Our findings show that the training of a hybrid controller is easier and obtains a better success-failure trade-off than a monolithic controller. The controllers trained in simulator were verified by a real set-up.
翻訳日:2021-08-18 13:11:58 公開日:2021-08-17
# cからx86への翻訳の学習: ニューラルコンパイルの実験

Learning C to x86 Translation: An Experiment in Neural Compilation ( http://arxiv.org/abs/2108.07639v1 )

ライセンス: Link先を確認
Jordi Armengol-Estap\' ;e, Michael F.P. O'Boyle(参考訳) ディープラーニングは多くの分野に大きな影響を与えた。 近年、コード間ニューラルモデルは、コード翻訳、コード修正、逆コンパイルに使われている。 しかし、これらのモデルがコンパイルを自動化できるかという疑問はまだ調査されていない。 本研究では,Cコードからx86アセンブラを生成する方法を学ぶトランスフォーマーモデルの構築と評価を行う。 予備結果は比較的弱いが、この分野のさらなる研究を促進するために、我々のデータ、モデル、コードを公開する。

Deep learning has had a significant impact on many fields. Recently, code-to-code neural models have been used in code translation, code refinement and decompilation. However, the question of whether these models can automate compilation has yet to be investigated. In this work, we explore neural compilation, building and evaluating Transformer models that learn how to produce x86 assembler from C code. Although preliminary results are relatively weak, we make our data, models and code publicly available to encourage further research in this area.
翻訳日:2021-08-18 13:11:40 公開日:2021-08-17
# ダイナミックスコープを有する限定的非優先的信念修正演算子について

On Limited Non-Prioritised Belief Revision Operators with Dynamic Scope ( http://arxiv.org/abs/2108.07769v1 )

ライセンス: Link先を確認
Kai Sauerwald and Gabriele Kern-Isberner and Christoph Beierle(参考訳) すべての新しい信念を受け入れない非優先リビジョン研究リビジョン演算子に関する研究。 本稿では,限定された世界に対する全事前注文で表現可能なリビジョンである動的リビジョンの概念を導入することで,この研究行に貢献する。 信念変化演算子については、修正の成功をもたらす信念からなるスコープを考察する。 単文閉包と解離完全性を満たす各集合に対して、この集合がスコープとして設定された信念と合わさったダイナミックリビジョンが存在することを示す。 信念とスコープダイナミクスのためのイテレーション仮定を調査し,動的に限定されたリビジョンを特徴付ける。 一例として, エージェントがグローバルに受け入れる信念であるいわゆる本質的信念の文脈において, 信念の修正を研究するために, 動的に限定された修正を適用する。 これは、継承制限と呼ばれるリビジョン演算子につながります。 そこで本論文では,inherence-limited revisionの表現定理を述べるとともに,これらの演算子と動的限定リビジョンを,近縁のcredible-limited revision operatorと比較する。

The research on non-prioritized revision studies revision operators which do not accept all new beliefs. In this paper, we contribute to this line of research by introducing the concept of dynamic-limited revision, which are revisions expressible by a total preorder over a limited set of worlds. For a belief change operator, we consider the scope, which consists of those beliefs which yield success of revision. We show that for each set satisfying single sentence closure and disjunction completeness there exists a dynamic-limited revision having the union of this set with the beliefs set as scope. We investigate iteration postulates for belief and scope dynamics and characterise them for dynamic-limited revision. As an application, we employ dynamic-limited revision to studying belief revision in the context of so-called inherent beliefs, which are beliefs globally accepted by the agent. This leads to revision operators which we call inherence-limited. We present a representation theorem for inherence-limited revision, and we compare these operators and dynamic-limited revision with the closely related credible-limited revision operators.
翻訳日:2021-08-18 13:11:17 公開日:2021-08-17
# 複数言語の話者の組み合わせによるニューラル音声の品質向上

Combining speakers of multiple languages to improve quality of neural voices ( http://arxiv.org/abs/2108.07737v1 )

ライセンス: Link先を確認
Javier Latorre, Charlotte Bailleul, Tuuli Morrill, Alistair Conkie, Yannis Stylianou(参考訳) 本研究では,a)対象言語で利用可能なデータが制限されている場合の品質向上,b)言語間合成が可能な多言語・多言語ニューラルTSシステムを開発するための複数のアーキテクチャとトレーニング手順について検討する。 地域によって異なる8言語で30人の話者を用いた大規模実験の結果を報告する。 システムは、スピーカーごとに同じ量のデータに基づいて訓練される。 単一話者モデルと比較して、提案したシステムがスピーカーに微調整された場合、ほとんどの場合においてかなり良い品質が得られるが、単一話者モデルを構築するのに使用される話者のデータは40 %以下である。 言語間合成では、平均的な意見スコアの観点から、生成した品質は、ネイティブな単一話者モデルの80\%$以下である。

In this work, we explore multiple architectures and training procedures for developing a multi-speaker and multi-lingual neural TTS system with the goals of a) improving the quality when the available data in the target language is limited and b) enabling cross-lingual synthesis. We report results from a large experiment using 30 speakers in 8 different languages across 15 different locales. The system is trained on the same amount of data per speaker. Compared to a single-speaker model, when the suggested system is fine tuned to a speaker, it produces significantly better quality in most of the cases while it only uses less than $40\%$ of the speaker's data used to build the single-speaker model. In cross-lingual synthesis, on average, the generated quality is within $80\%$ of native single-speaker models, in terms of Mean Opinion Score.
翻訳日:2021-08-18 13:10:59 公開日:2021-08-17
# Diffomorphic Particle Image Velocimetry

Diffeomorphic Particle Image Velocimetry ( http://arxiv.org/abs/2108.07438v1 )

ライセンス: Link先を確認
Yong Lee and Shuang Mei(参考訳) 既存の粒子画像速度計(PIV)は、一対の粒子画像から曲率情報を得ることができないため、非直線粒子軌道の曲率効果を考慮していない。 その結果、計算ベクトルは直線近似による実速度を過小評価し、さらにPIV機器の系統的な誤差を引き起こす。 この研究では、2つの記録の間の粒子曲線軌跡を1つのベクトルではなく定常流(微分同相変換)の流線セグメントでまず説明し、この考えを微分同相PIVと呼ぶ。 具体的には、粒子の変位を記述するために変形場を導入し、すなわち、対応する変形ベクトル場が粒子の変位と一致する最適速度場を見つけ出そうとする。 変形関数の変動は速度関数の変動と近似できるので、微分型PIVを反復型PIVとして実装することができる。 つまり、微分同相PIVは速度ではなく変形ベクトル場で画像をワープし、残りの部分は反復PIVと同じ状態を保つ。 FDDI(Forward diffomorphic deformation interrogation)とCDDI(Central diffomorphic deformation interrogation)という2つの微分変形スキームを提案する。 FDDIは、合成画像に基づいて、異なるワンパス変位推定器(相互相関、光流、深層学習流)間で大幅に精度を向上する。 さらに、3つの実PIV画像対の結果は、CDIベースのPIVに対する非無視的曲率効果を示し、FDDIは高速な曲率流路領域での速度推定(より正確に)を行う。 FDDIと精度の高い密度推定器の組み合わせによる精度向上は、我々の微分型PIVが複雑な流れの測定に新しい方法をもたらすことを意味する。

The existing particle image velocimetry (PIV) do not consider the curvature effect of the non-straight particle trajectory, because it seems to be impossible to obtain the curvature information from a pair of particle images. As a result, the computed vector underestimates the real velocity due to the straight-line approximation, that further causes a systematic error for the PIV instrument. In this work, the particle curved trajectory between two recordings is firstly explained with the streamline segment of a steady flow (diffeomorphic transformation) instead of a single vector, and this idea is termed as diffeomorphic PIV. Specifically, a deformation field is introduced to describe the particle displacement, i.e., we try to find the optimal velocity field, of which the corresponding deformation vector field agrees with the particle displacement. Because the variation of the deformation function can be approximated with the variation of the velocity function, the diffeomorphic PIV can be implemented as iterative PIV. That says, the diffeomorphic PIV warps the images with deformation vector field instead of the velocity, and keeps the rest as same as iterative PIVs. Two diffeomorphic deformation schemes -- forward diffeomorphic deformation interrogation (FDDI) and central diffeomorphic deformation interrogation (CDDI) -- are proposed. Tested on synthetic images, the FDDI achieves significant accuracy improvement across different one-pass displacement estimators (cross-correlation, optical flow, deep learning flow). Besides, the results on three real PIV image pairs demonstrate the non-negligible curvature effect for CDI-based PIV, and our FDDI provides larger velocity estimation (more accurate) in the fast curvy streamline areas. The accuracy improvement of the combination of FDDI and accurate dense estimator means that our diffeomorphic PIV paves a new way for complex flow measurement.
翻訳日:2021-08-18 13:10:25 公開日:2021-08-17
# 多領域画像から画像への変換のための注意蒸留による知識伝達

Transferring Knowledge with Attention Distillation for Multi-Domain Image-to-Image Translation ( http://arxiv.org/abs/2108.07466v1 )

ライセンス: Link先を確認
Runze Li, Tomaso Fontanini, Luca Donati, Andrea Prati, Bir Bhanu(参考訳) グラディエントに基づくアテンションモデリングは、畳み込みニューラルネットワークの可視化と理解の手段として広く利用されている。 しかし、gans(generative adversarial network)の訓練中にこれらの視覚的な説明を活用することは、コンピュータビジョン研究において未開拓領域である。 実際、このような情報は、GANのトレーニングに肯定的な影響を与えることができると論じている。 そこで,本稿では,学生アーキテクチャの結果を改善するために,多領域画像・画像翻訳タスクの教師-学生パラダイムにおいて,勾配に基づく注意を伝達するための知識として活用する方法を示す。 さらに,教師と学生のネットワークが類似点のある異なるドメインで訓練されている場合,「疑似意識」が訓練中にどのように採用されるかを示す。 本手法は, 質的および定量的な結果を示す多領域顔属性移動と人体表現合成に有効である。

Gradient-based attention modeling has been used widely as a way to visualize and understand convolutional neural networks. However, exploiting these visual explanations during the training of generative adversarial networks (GANs) is an unexplored area in computer vision research. Indeed, we argue that this kind of information can be used to influence GANs training in a positive way. For this reason, in this paper, it is shown how gradient based attentions can be used as knowledge to be conveyed in a teacher-student paradigm for multi-domain image-to-image translation tasks in order to improve the results of the student architecture. Further, it is demonstrated how "pseudo"-attentions can also be employed during training when teacher and student networks are trained on different domains which share some similarities. The approach is validated on multi-domain facial attributes transfer and human expression synthesis showing both qualitative and quantitative results.
翻訳日:2021-08-18 13:09:53 公開日:2021-08-17
# ハイパースペクトル画像再構成のための新しいバックボーン

A New Backbone for Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2108.07739v1 )

ライセンス: Link先を確認
Jiamian Wang, Yulun Zhang, Xin Yuan, Yun Fu, Zhiqiang Tao(参考訳) 3Dハイパースペクトル画像(HSI)再構成の研究は、光学系(例えば、符号化開口スナップショット分光画像(CASSI))が3D空間スペクトル信号を捕捉し、2D計測に符号化する、スナップショット圧縮画像の逆過程を指す。 エンドツーエンドの再構築のために多くの高度なニューラルネットワークが精巧化されているが、パフォーマンス、効率(トレーニングと推論時間)、実現可能性(限られたgpuメモリで高解像度hsiを復元する能力)のトレードオフはいまだに必要である。 これにより、上記の要件を満たす新しいベースラインの設計が困難になる。 本稿では,空間/スペクトル不変Residual U-Net,すなわちSSI-ResU-Netを提案することで,この空白を埋める。 U-Netを3つの折り畳み(-1)スケール/スペクトル不変学習、2)ネスト残差学習、3)計算効率で区別する。 提案されたSSI-ResU-Netは、PSNRでは3dB以上、SSIMでは0.036以上であり、トレーニング可能なパラメータは2.82%しか使用していない。 ssi-resu-net は浮動小数点演算 (flops) の観点から77.3%以上削減し, 実用的な応用シナリオで高速hsi再構成を実現する。 コードと事前トレーニングされたモデルはhttps://github.com/j iamian-wang/hsi_base lineで利用可能である。

The study of 3D hyperspectral image (HSI) reconstruction refers to the inverse process of snapshot compressive imaging, during which the optical system, e.g., the coded aperture snapshot spectral imaging (CASSI) system, captures the 3D spatial-spectral signal and encodes it to a 2D measurement. While numerous sophisticated neural networks have been elaborated for end-to-end reconstruction, trade-offs still need to be made among performance, efficiency (training and inference time), and feasibility (the ability of restoring high resolution HSI on limited GPU memory). This raises a challenge to design a new baseline to conjointly meet the above requirements. In this paper, we fill in this blank by proposing a Spatial/Spectral Invariant Residual U-Net, namely SSI-ResU-Net. It differentiates with U-Net in three folds--1) scale/spectral-invar iant learning, 2) nested residual learning, and 3) computational efficiency. Benefiting from these three modules, the proposed SSI-ResU-Net outperforms the current state-of-the-art method TSA-Net by over 3 dB in PSNR and 0.036 in SSIM while only using 2.82% trainable parameters. To the greatest extent, SSI-ResU-Net achieves competing performance with over 77.3% reduction in terms of floating-point operations (FLOPs), which for the first time, makes high-resolution HSI reconstruction feasible under practical application scenarios. Code and pre-trained models are made available at https://github.com/J iamian-Wang/HSI_base line.
翻訳日:2021-08-18 13:09:36 公開日:2021-08-17
# 集約が遅れたフェデレーション学習

Aggregation Delayed Federated Learning ( http://arxiv.org/abs/2108.07433v1 )

ライセンス: Link先を確認
Ye Xue, Diego Klabjan, Yuan Luo(参考訳) フェデレーション学習(Federated Learning)は、複数のデータ所有者(クライアント)が、自身のデバイスにデータを保持しながら、ひとつのマシンラーニングモデルを協調的にトレーニングする分散機械学習パラダイムである。 クライアントデータセットの多様性は、連合学習アルゴリズムの最も重要な課題の1つである。 非iidデータに対するfeedavgなどの標準フェデレーションアルゴリズムによる性能低下が研究によって確認されている。 非IIDデータを扱うための多くの既存の作業は、FedAvgと同じ集約フレームワークを採用し、サーバ側またはクライアントでモデル更新を改善することに重点を置いている。 本研究では, 集約を遅らせる再配布ラウンドを導入することで, 異なる視点でこの課題に取り組む。 複数のタスクで実験を行い,提案フレームワークが非iidデータの性能を大幅に向上させることを示した。

Federated learning is a distributed machine learning paradigm where multiple data owners (clients) collaboratively train one machine learning model while keeping data on their own devices. The heterogeneity of client datasets is one of the most important challenges of federated learning algorithms. Studies have found performance reduction with standard federated algorithms, such as FedAvg, on non-IID data. Many existing works on handling non-IID data adopt the same aggregation framework as FedAvg and focus on improving model updates either on the server side or on clients. In this work, we tackle this challenge in a different view by introducing redistribution rounds that delay the aggregation. We perform experiments on multiple tasks and show that the proposed framework significantly improves the performance on non-IID data.
翻訳日:2021-08-18 13:07:46 公開日:2021-08-17
# Epileptic Seizure 予測のためのエンド・ツー・エンド深層学習手法

An End-to-End Deep Learning Approach for Epileptic Seizure Prediction ( http://arxiv.org/abs/2108.07453v1 )

ライセンス: Link先を確認
Yankun Xu, Jie Yang, Shiqi Zhao, Hemmings Wu, and Mohamad Sawan(参考訳) 正確な発作予知システムは、てんかん患者の発作発生前に早期警告を可能にする。 薬剤耐性患者にとって極めて重要である。 従来の発作予測作業は通常、脳波記録(EEG)から抽出された特徴と回帰やサポートベクターマシン(SVM)などの分類アルゴリズムに依存して、発作発生前の短い時間を見つける。 しかし,手作り特徴の情報損失や回帰アルゴリズムやsvmアルゴリズムの分類能力の制限などにより,高精度な予測は不可能である。 本稿では,畳み込みニューラルネットワーク(CNN)を用いたエンドツーエンドのディープラーニングソリューションを提案する。 1次元と2次元のカーネルは、それぞれ初期および後期の畳み込み層とマックスプール層に採用されている。 提案したCNNモデルは,Kaggleの頭蓋内およびCHB-MIT頭皮EEGデータセットを用いて評価する。 総合感度、誤予測率、受信機動作特性曲線下の面積はそれぞれ93.5%、0.063/h、0.981、98.8%、0.074/h、0.988に達する。 最新技術との比較は,提案モデルが予測性能を超えることを示唆する。

An accurate seizure prediction system enables early warnings before seizure onset of epileptic patients. It is extremely important for drug-refractory patients. Conventional seizure prediction works usually rely on features extracted from Electroencephalograp hy (EEG) recordings and classification algorithms such as regression or support vector machine (SVM) to locate the short time before seizure onset. However, such methods cannot achieve high-accuracy prediction due to information loss of the hand-crafted features and the limited classification ability of regression and SVM algorithms. We propose an end-to-end deep learning solution using a convolutional neural network (CNN) in this paper. One and two dimensional kernels are adopted in the early- and late-stage convolution and max-pooling layers, respectively. The proposed CNN model is evaluated on Kaggle intracranial and CHB-MIT scalp EEG datasets. Overall sensitivity, false prediction rate, and area under receiver operating characteristic curve reaches 93.5%, 0.063/h, 0.981 and 98.8%, 0.074/h, 0.988 on two datasets respectively. Comparison with state-of-the-art works indicates that the proposed model achieves exceeding prediction performance.
翻訳日:2021-08-18 13:07:33 公開日:2021-08-17
# 相関データによるフェデレーションラーニング - 老朽化した産業用IoTへの道のり

Federated Learning with Correlated Data: Taming the Tail for Age-Optimal Industrial IoT ( http://arxiv.org/abs/2108.07504v1 )

ライセンス: Link先を確認
Chen-Feng Liu, Mehdi Bennis(参考訳) 産業用インターネットにおける情報提供は信頼性とレイテンシの保証を必要とするが、情報時代(AoI)によって測定された制御器の利用可能な情報の鮮度は、高い性能の産業自動化にとって最重要である。 本研究の問題点は,ピーク・アオイ要求と待ち待ち時間に対する確率的制約によるセンサの送電電力最小化である。 Lyapunov 最適化による電力配分問題の解法として,一般化された Pareto Distribution (GPD) による遅延のテール挙動を更に特徴付ける。 それぞれのセンサは独自のデータを用いてGPDモデルをローカルに訓練するので、フェデレーション学習を取り入れ、センサのトレーニングデータ間の相関を考慮に入れた局所モデル選択手法を提案する。 数値計算の結果,送信電力,ピークAoI,遅延尾部分布のトレードオフが示された。 さらに,既存のベースライン上でのフェデレーション学習における局所モデル選択における相関認識手法の優位性を検証する。

While information delivery in industrial Internet of things demands reliability and latency guarantees, the freshness of the controller's available information, measured by the age of information (AoI), is paramount for high-performing industrial automation. The problem in this work is cast as a sensor's transmit power minimization subject to the peak-AoI requirement and a probabilistic constraint on queuing latency. We further characterize the tail behavior of the latency by a generalized Pareto distribution (GPD) for solving the power allocation problem through Lyapunov optimization. As each sensor utilizes its own data to locally train the GPD model, we incorporate federated learning and propose a local-model selection approach which accounts for correlation among the sensor's training data. Numerical results show the tradeoff between the transmit power, peak AoI, and delay's tail distribution. Furthermore, we verify the superiority of the proposed correlation-aware approach for selecting the local models in federated learning over an existing baseline.
翻訳日:2021-08-18 13:07:14 公開日:2021-08-17
# SPAN:動的グラフのためのサブグラフ予測注意ネットワーク

SPAN: Subgraph Prediction Attention Network for Dynamic Graphs ( http://arxiv.org/abs/2108.07776v1 )

ライセンス: Link先を確認
Yuan Li, Chuanchang Chen, Yubo Tao, Hai Lin(参考訳) 本稿では,従来のリンク予測の拡張である動的グラフのサブグラフを予測する新しいモデルを提案する。 この提案されたエンドツーエンドモデルは、現在のスナップショットにあるサブグラフ構造から次のスナップショットにあるサブグラフ構造へのマッピング、すなわち、サブグラフ内の複数のノード間のエッジ存在を直接学習する。 ノード属性情報とトポロジ情報を連携してサブグラフの進化を学習するために,ツイントウモジュールを用いたクロスアテンションと呼ばれる新しいメカニズムが設計された。 我々は,複数の実世界の等質な動的グラフと異質な動的グラフのサブグラフ予測とサブグラフパターン予測の最先端手法を比較した。 実験の結果,これらの2つのタスクにおいて,モデルが他のモデルより優れており,5.02%から10.88%に増加した。

This paper proposes a novel model for predicting subgraphs in dynamic graphs, an extension of traditional link prediction. This proposed end-to-end model learns a mapping from the subgraph structures in the current snapshot to the subgraph structures in the next snapshot directly, i.e., edge existence among multiple nodes in the subgraph. A new mechanism named cross-attention with a twin-tower module is designed to integrate node attribute information and topology information collaboratively for learning subgraph evolution. We compare our model with several state-of-the-art methods for subgraph prediction and subgraph pattern prediction in multiple real-world homogeneous and heterogeneous dynamic graphs, respectively. Experimental results demonstrate that our model outperforms other models in these two tasks, with a gain increase from 5.02% to 10.88%.
翻訳日:2021-08-18 13:06:29 公開日:2021-08-17
# Radial Subsampling を用いた深部MRI画像再構成

Deep MRI Reconstruction with Radial Subsampling ( http://arxiv.org/abs/2108.07619v1 )

ライセンス: Link先を確認
George Yiasemis, Chaoping Zhang, Clara I. S\'anchez, Jan-Jakob Sonke, Jonas Teuwen(参考訳) ほぼ全ての医学的診断と検査に広く適応しているにもかかわらず、磁気共鳴イメージング(mri)は、ダイナミックイメージングに使用することを制限した遅いイメージングモードである。 近年,Parallel Imaging (PI) とCompressed Sensing (CS) がMRIの獲得を加速するために利用されている。 臨床環境では,直交サンプリングなどの直交軌跡を用いた走査時間におけるk空間測定のサブサンプリングは,現在最も一般的なCSアプローチであるが,エイリアス化の傾向が強い。 MRIの高速化にディープラーニング(DL)が関与するようになると、サブサンプルデータからの忠実なイメージの再構築がますます有望になった。 k空間データにサブサンプリングマスクを適用することは、実際の臨床環境でk空間データの迅速な取得をシミュレートする方法である。 本稿では, 訓練された深層ニューラルネットワークによって出力される再構成の質に対する, 直線的, 放射的リフレクションサブサンプリングの適用効果を比較検討する。 同じハイパーパラメータを選択することで、2つの異なる再帰推論マシン(rim)を訓練し、評価します。 実験の質的、定量的な結果から、ラジアルサブサンプリングを伴うデータにトレーニングされたモデルは高い性能を達成し、ラジアルサブサンプリングを伴う他のdlアプローチへの道を開く高い忠実度で再構成を推定することを学ぶ。

In spite of its extensive adaptation in almost every medical diagnostic and examinatorial application, Magnetic Resonance Imaging (MRI) is still a slow imaging modality which limits its use for dynamic imaging. In recent years, Parallel Imaging (PI) and Compressed Sensing (CS) have been utilised to accelerate the MRI acquisition. In clinical settings, subsampling the k-space measurements during scanning time using Cartesian trajectories, such as rectilinear sampling, is currently the most conventional CS approach applied which, however, is prone to producing aliased reconstructions. With the advent of the involvement of Deep Learning (DL) in accelerating the MRI, reconstructing faithful images from subsampled data became increasingly promising. Retrospectively applying a subsampling mask onto the k-space data is a way of simulating the accelerated acquisition of k-space data in real clinical setting. In this paper we compare and provide a review for the effect of applying either rectilinear or radial retrospective subsampling on the quality of the reconstructions outputted by trained deep neural networks. With the same choice of hyper-parameters, we train and evaluate two distinct Recurrent Inference Machines (RIMs), one for each type of subsampling. The qualitative and quantitative results of our experiments indicate that the model trained on data with radial subsampling attains higher performance and learns to estimate reconstructions with higher fidelity paving the way for other DL approaches to involve radial subsampling.
翻訳日:2021-08-18 13:06:16 公開日:2021-08-17
# 誰が話しかけているか: 野生のアクティブな話者検出

Look Who's Talking: Active Speaker Detection in the Wild ( http://arxiv.org/abs/2108.07640v1 )

ライセンス: Link先を確認
You Jin Kim, Hee-Soo Heo, Soyeon Choe, Soo-Whan Chung, Yoohwan Kwon, Bong-Jin Lee, Youngki Kwon, Joon Son Chung(参考訳) 本稿では,野生におけるアクティブ話者検出のための音声・視覚データセットを提案する。 話者は、顔が見え、声が同時に聞こえるときに活動的と考えられる。 能動話者検出は多くの視聴覚タスクにおいて重要な前処理ステップであるが、能動話者検出の性能を評価するための自然人間の音声のデータセットは存在しない。 そこで我々は,高密度な音声活動ラベルを持つビデオと共起音声セグメントを含むASWデータセットをキュレートする。 音声セグメントのビデオとタイムスタンプは、既存の話者ダイアリゼーションデータセットであるVoxConverseから解析され、採用されている。 ビデオから顔トラックを抽出し、VoxConverseのタイムスタンプに基づいてアクティブセグメントを半自動で注釈付けする。 ASWのベースライン性能を提供するために,2つの参照システム,自己教師システムと完全教師システムについて,データセット上で評価を行った。 トレーニングデータにおけるビデオの名前の負の効果を示すために、クロスドメイン評価を行う。

In this work, we present a novel audio-visual dataset for active speaker detection in the wild. A speaker is considered active when his or her face is visible and the voice is audible simultaneously. Although active speaker detection is a crucial pre-processing step for many audio-visual tasks, there is no existing dataset of natural human speech to evaluate the performance of active speaker detection. We therefore curate the Active Speakers in the Wild (ASW) dataset which contains videos and co-occurring speech segments with dense speech activity labels. Videos and timestamps of audible segments are parsed and adopted from VoxConverse, an existing speaker diarisation dataset that consists of videos in the wild. Face tracks are extracted from the videos and active segments are annotated based on the timestamps of VoxConverse in a semi-automatic way. Two reference systems, a self-supervised system and a fully supervised one, are evaluated on the dataset to provide the baseline performances of ASW. Cross-domain evaluation is conducted in order to show the negative effect of dubbed videos in the training data.
翻訳日:2021-08-18 13:05:48 公開日:2021-08-17
# Greene-Wu畳み込みからリーマン多様体上の勾配推定へ

From the Greene--Wu Convolution to Gradient Estimation over Riemannian Manifolds ( http://arxiv.org/abs/2108.07406v1 )

ライセンス: Link先を確認
Tianyu Wang, Yifeng Huang and Didong Li(参考訳) 有限次元の完備リーマン多様体上で、グリーンとウーはGW畳み込みと呼ばれる畳み込みを導入した。 本稿では,GWコンボリューションの再構築について紹介する。 我々の再構成を用いて、空間の曲率がGW畳み込みによる関数の曲率にどのように影響するかの新しい公式を含む、GW畳み込みの多くの特性を容易に導き出すことができる。 また, 新たな再構成法により, リーマン多様体上の勾配推定法を改良した。 理論的には、勾配推定法は、推定誤差の順序を$o \left( \left(n + 3 \right)^{3/2} \right)$から$o \left(n^{3/2} \right)$に改善し、ここで$n$は多様体の次元である。 実験的に、この手法はリーマン多様体上での勾配推定の最良の方法よりも優れており、徹底的な実験的評価によって証明されている。

Over a complete Riemannian manifold of finite dimension, Greene and Wu introduced a convolution, known as Greene-Wu (GW) convolution. In this paper, we introduce a reformulation of the GW convolution. Using our reformulation, many properties of the GW convolution can be easily derived, including a new formula for how the curvature of the space would affect the curvature of the function through the GW convolution. Also enabled by our new reformulation, an improved method for gradient estimation over Riemannian manifolds is introduced. Theoretically, our gradient estimation method improves the order of estimation error from $O \left( \left( n + 3 \right)^{3/2} \right)$ to $O \left( n^{3/2} \right)$, where $n$ is the dimension of the manifold. Empirically, our method outperforms the best existing method for gradient estimation over Riemannian manifolds, as evidenced by thorough experimental evaluations.
翻訳日:2021-08-18 13:05:30 公開日:2021-08-17
# ランク付け・分類におけるバイアス付き部分群の同定

Identifying Biased Subgroups in Ranking and Classification ( http://arxiv.org/abs/2108.07450v1 )

ライセンス: Link先を確認
Eliana Pastor, Luca de Alfaro, Elena Baralis(参考訳) 機械学習アルゴリズムの振る舞いを分析する際には,そのアルゴリズムがデータセット全体に対して異なる性能を示す特定のデータサブグループを特定することが重要である。 ドメインエキスパートの介入は通常、これらのサブグループを定義する関連する属性を特定する必要がある。 この性能差を測定するために発散の概念を導入し, (i) 分類モデルと (ii) ランク付けアプリケーションを用いて, 行動に著しい偏差を示すデータサブグループを自動的に検出する。 さらに,shapley値を用いて,データサブグループ内のすべての属性の分散行動への寄与度を定量化し,最も影響の大きい属性の同定を可能にする。

When analyzing the behavior of machine learning algorithms, it is important to identify specific data subgroups for which the considered algorithm shows different performance with respect to the entire dataset. The intervention of domain experts is normally required to identify relevant attributes that define these subgroups. We introduce the notion of divergence to measure this performance difference and we exploit it in the context of (i) classification models and (ii) ranking applications to automatically detect data subgroups showing a significant deviation in their behavior. Furthermore, we quantify the contribution of all attributes in the data subgroup to the divergent behavior by means of Shapley values, thus allowing the identification of the most impacting attributes.
翻訳日:2021-08-18 13:05:09 公開日:2021-08-17
# 畳み込みニューラルネットワークとラプラス隠れセミマルコフモデルを用いた新生児腸音検出

Neonatal Bowel Sound Detection Using Convolutional Neural Network and Laplace Hidden Semi-Markov Model ( http://arxiv.org/abs/2108.07467v1 )

ライセンス: Link先を確認
Chiranjibi Sitaula and Jinyuan He and Archana Priyadarshi and Mark Tracy and Omid Kavehei and Murray Hinder and Anusha Withana and Alistair McEwan and Faezeh Marzbanrad(参考訳) 腹腔内膿瘍は新生児ケアに必須の腸疾患評価法として有用で安全かつ安価な方法である。 新生児腸機能障害の早期発見に役立ち、タイムリーな介入を可能にする。 本稿では,新生児の腸音検出法について紹介する。 具体的には,畳み込みニューラルネットワーク(cnn)を用いて,peristalsis と non-peristalsis を分類する。 この分類はLaplace Hidden Semi-Markov Model (HSMM)を用いて最適化される。 本手法は,第3次新生児集中治療室(NICU)に入院した49人の新生児の腹部音に対して有効である。 その結果,AUCスコアの89.81%,83.96%の精度で腸音を効果的に検出できることがわかった。 さらに,提案したLaplace HSMMの改良戦略は,他の便音検出モデルを強化することができる。 この研究の結果は、新生児医療の遠隔医療への応用を促進する可能性がある。 https://bitbucket.or g/chirudeakin/neonat al-bowel-sound-class ification/

Abdominal auscultation is a convenient, safe and inexpensive method to assess bowel conditions, which is essential in neonatal care. It helps early detection of neonatal bowel dysfunctions and allows timely intervention. This paper presents a neonatal bowel sound detection method to assist the auscultation. Specifically, a Convolutional Neural Network (CNN) is proposed to classify peristalsis and non-peristalsis sounds. The classification is then optimized using a Laplace Hidden Semi-Markov Model (HSMM). The proposed method is validated on abdominal sounds from 49 newborn infants admitted to our tertiary Neonatal Intensive Care Unit (NICU). The results show that the method can effectively detect bowel sounds with accuracy and area under curve (AUC) score being 89.81% and 83.96% respectively, outperforming 13 baseline methods. Furthermore, the proposed Laplace HSMM refinement strategy is proven capable to enhance other bowel sound detection models. The outcomes of this work have the potential to facilitate future telehealth applications for neonatal care. The source code of our work can be found at: https://bitbucket.or g/chirudeakin/neonat al-bowel-sound-class ification/
翻訳日:2021-08-18 13:04:58 公開日:2021-08-17
# 正規形ゲームに対する近似ナッシュ平衡計算の学習

Learning to Compute Approximate Nash Equilibrium for Normal-form Games ( http://arxiv.org/abs/2108.07472v1 )

ライセンス: Link先を確認
Zhijian Duan, Yali Du, Jun Wang, Xiaotie Deng(参考訳) 本稿では,有限のn$-player正規形ゲームに対する近似ナッシュ均衡を計算するための一般的なメタラーニング手法を提案する。 ゲーム毎にnash平衡をスクラッチから近似または学習する既存の解とは異なり、我々のメタソルバはゲームユーティリティマトリックスからジョイント戦略プロファイルへのマッピングを直接構築する。 マッピングはパラメータ化され、Nash平衡を知らせる基底真理データなしで提案されたNash平衡近似計量によって自己教師型で学習される。 このようにして、同一のゲーム分布下で、未知の新しいゲームに対するナッシュ均衡を近似するジョイント戦略プロファイルを即座に予測することができる。 さらに、反復更新が可能であれば、メタソルバはさらに微調整され、新しいゲームに適応することができる。 理論上,我々のメタソルバはnash平衡解の非スムース性に影響されないことを証明し,正規形式ゲーム間の一般化能力を示すためのサンプル複雑性を導出する。 実験結果は,適応例と非適応例の両方において,他の強基線に対して相当な近似力を示す。

In this paper, we propose a general meta learning approach to computing approximate Nash equilibrium for finite $n$-player normal-form games. Unlike existing solutions that approximate or learn a Nash equilibrium from scratch for each of the games, our meta solver directly constructs a mapping from a game utility matrix to a joint strategy profile. The mapping is parameterized and learned in a self-supervised fashion by a proposed Nash equilibrium approximation metric without ground truth data informing any Nash equilibrium. As such, it can immediately predict the joint strategy profile that approximates a Nash equilibrium for any unseen new game under the same game distribution. Moreover, the meta-solver can be further fine-tuned and adaptive to a new game if iteration updates are allowed. We theoretically prove that our meta-solver is not affected by the non-smoothness of exact Nash equilibrium solutions, and derive a sample complexity bound to demonstrate its generalization ability across normal-form games. Experimental results demonstrate its substantial approximation power against other strong baselines in both adaptive and non-adaptive cases.
翻訳日:2021-08-18 13:04:42 公開日:2021-08-17
# O-HAS:光ハードウェアアクセラレータによる高速化性能と開発速度の向上

O-HAS: Optical Hardware Accelerator Search for Boosting Both Acceleration Performance and Development Speed ( http://arxiv.org/abs/2108.07538v1 )

ライセンス: Link先を確認
Mengquan Li, Zhongzhi Yu, Yongan Zhang, Yonggan Fu, Yingyan Lin(参考訳) 近年のDeep Neural Networks(DNN)のブレークスルーと禁止的な複雑さは、ドメイン固有のDNNアクセラレーターに大きな関心を集めている。 しかし、光DNN加速器の開発は電気DNN加速器よりもはるかに遅い。 重要な課題の1つは、電気的DNN加速器の開発を促進するために多くの技術が開発されているが、光学的DNN加速器の設計を支援する技術は、達成可能な性能と光学的DNN加速器の革新的開発の両方を制限し、まだ研究が進んでいないことである。 そこで我々は,光DNN加速器の加速効率と開発速度を向上するために,O-HASと呼ばれる第1世代のフレームワークを開発した。 Specifically, our O-HAS consists of two integrated enablers: (1) an O-Cost Predictor, which can accurately yet efficiently predict an optical accelerator's energy and latency based on the DNN model parameters and the optical accelerator design; and (2) an O-Search Engine, which can automatically explore the large design space of optical DNN accelerators and identify the optimal accelerators (i.e., the micro-architectures and algorithm-to-acceler ator mapping methods) in order to maximize the target acceleration efficiency. O-Cost PredictorとO-Search Engineの両方の有効性と、O-HAS生成した光加速器の優れた効率性を一貫して検証した。

The recent breakthroughs and prohibitive complexities of Deep Neural Networks (DNNs) have excited extensive interest in domain-specific DNN accelerators, among which optical DNN accelerators are particularly promising thanks to their unprecedented potential of achieving superior performance-per-watt . However, the development of optical DNN accelerators is much slower than that of electrical DNN accelerators. One key challenge is that while many techniques have been developed to facilitate the development of electrical DNN accelerators, techniques that support or expedite optical DNN accelerator design remain much less explored, limiting both the achievable performance and the innovation development of optical DNN accelerators. To this end, we develop the first-of-its-kind framework dubbed O-HAS, which for the first time demonstrates automated Optical Hardware Accelerator Search for boosting both the acceleration efficiency and development speed of optical DNN accelerators. Specifically, our O-HAS consists of two integrated enablers: (1) an O-Cost Predictor, which can accurately yet efficiently predict an optical accelerator's energy and latency based on the DNN model parameters and the optical accelerator design; and (2) an O-Search Engine, which can automatically explore the large design space of optical DNN accelerators and identify the optimal accelerators (i.e., the micro-architectures and algorithm-to-acceler ator mapping methods) in order to maximize the target acceleration efficiency. Extensive experiments and ablation studies consistently validate the effectiveness of both our O-Cost Predictor and O-Search Engine as well as the excellent efficiency of O-HAS generated optical accelerators.
翻訳日:2021-08-18 13:04:26 公開日:2021-08-17
# 推奨のためのグラフの畳み込みはどの程度強力か?

How Powerful is Graph Convolution for Recommendation? ( http://arxiv.org/abs/2108.07567v1 )

ライセンス: Link先を確認
Yifei Shen, Yongji Wu, Yao Zhang, Caihua Shan, Jun Zhang, Khaled B. Letaief, Dongsheng Li(参考訳) graph convolutional networks(gcns)は最近、コラボレーティブフィルタリング(cf)のための一般的なアルゴリズムクラスを有効にした。 それでも、彼らの経験的成功の理論的基盤は解明され続けている。 本稿では,グラフ信号処理のレンズを用いてGCNに基づくCF法をよりよく理解する試みを行う。 グラフ信号処理における重要な概念である滑らかさの重要役割を明らかにすることにより、cfのための統一グラフ畳み込みベースのフレームワークを開発した。 本稿では,既存のcf法の多くが,近傍法,低ランク行列因子分解法,線形オートエンコーダ法,光gcn法など,この枠組みの特別な場合であることを示す。 そこで我々は,グラフフィルタに基づく協調フィルタリング(GF-CF)と呼ぶ,シンプルで効率的なCFベースラインを提案する。 暗黙のフィードバック行列が与えられると、gf-cfはバックプロパゲーションを伴う高価なトレーニングではなく、閉じた形式で得られる。 実験の結果、GF-CFは、よく知られた3つのデータセット上のディープラーニングベースのメソッドに対して、競争力またはより良いパフォーマンスを実現している。

Graph convolutional networks (GCNs) have recently enabled a popular class of algorithms for collaborative filtering (CF). Nevertheless, the theoretical underpinnings of their empirical successes remain elusive. In this paper, we endeavor to obtain a better understanding of GCN-based CF methods via the lens of graph signal processing. By identifying the critical role of smoothness, a key concept in graph signal processing, we develop a unified graph convolution-based framework for CF. We prove that many existing CF methods are special cases of this framework, including the neighborhood-based methods, low-rank matrix factorization, linear auto-encoders, and LightGCN, corresponding to different low-pass filters. Based on our framework, we then present a simple and computationally efficient CF baseline, which we shall refer to as Graph Filter based Collaborative Filtering (GF-CF). Given an implicit feedback matrix, GF-CF can be obtained in a closed form instead of expensive training with back-propagation. Experiments will show that GF-CF achieves competitive or better performance against deep learning-based methods on three well-known datasets, notably with a $70\%$ performance gain over LightGCN on the Amazon-book dataset.
翻訳日:2021-08-18 13:04:00 公開日:2021-08-17